class: center, middle background-image: url(./img/seurat.jpg) background-size: cover background-position: 50% 50% # Introduction au big data </BR> </BR> </BR> ### Samuel Goëta et Joël Gombin <img src="./img/Logo_DATACTIVIST_TW.png" height="100px" /> .right[.footnote[<a href='https://commons.wikimedia.org/wiki/File%3ASeurat-Gravelines-Annonciade.jpg'>source</a>]] ??? Samuel --- class: center, middle Retrouvez les matériaux sur https://github.com/datactivist/formation_marseille Ces slides en ligne : http://datactivi.st/formation_marseille/jour1_EM.html Pad collaboratif : https://frama.link/bigdata_marseille_EM --- ## 5 minutes, 20 données <br/> .pull-right[] - vous avez 5 minutes - vous devez trouver 20 données dans notre environnement immédiat - pas de recours aux écrans ! - [[source]](http://infolabs.io/5-minutes-20-donnees) --- ## Objectifs de la journée - Comprendre ce qu'est une donnée - Appréhender la variété des types de données existantes - Comprendre le data pipeline - Appréhender les enjeux politiques et juridiques attachés aux données --- class: inverse, center, middle # Qu'est-ce qu'une donnée ? D'après vous ? --- ## Aux sources de la mise en données du monde .pull-right[] - Rencontre, dans la Californie des années 1960, entre la Nouvelle Gauche et les Nouveaux Communalistes sur fond de LSD et de recherche militaire - L'inspiration de la cybernétique (N. Wiener) : objets techniques et êtres humains constituent un même système sociotechnique, régulé par l'information - Exemple de Steward Brand, fondateur du _Whole Earth Catalog_ puis de Wired => ["Forest Gump de l'Internet"](https://questionsdecommunication.revues.org/8619) --- ## Etymologie Latin : _dare_ (donner) > _datum_ (donné) > _data_ (donnés) Ce qui est évident, va de soi, est accepté sans discussion > Facts are ontological, evidence is epistemological, data is rhetorical. A datum may also be a fact, just as a fact may be evidence. But, from its first vernacular formulation, the existence of a datum has been independent of any consideration of corresponding ontological truth. When a fact is proven false, it ceases to be a fact. False data is data nonetheless. [Rosenberg, 2013](https://mitpress.mit.edu/books/raw-data-oxymoron) --- ## Usage de "data" Le sens moderne apparaît à la fin du 18e siècle => renvoie à des expériences, des collectes d'éléments. <iframe name="ngram_chart" src="https://books.google.com/ngrams/interactive_chart?content=donn%C3%A9es&year_start=1600&year_end=2000&corpus=19&smoothing=3&share=&direct_url=t1%3B%2Cdonn%C3%A9es%3B%2Cc0" width=100% height=600 marginwidth=0 marginheight=0 hspace=0 vspace=0 frameborder=0 scrolling=no></iframe> --- ## Données, données... quelles données ? .reduite[.center[]] --- ## Données, données... quelles données ? > Data are commonly understood to be the raw material produced by abstracting the world into categories, measures and other representational forms – numbers, characters, symbols, images, sounds, electromagnetic waves, bits – that constitute the building blocks from which information and knowledge are created. => enregistrabilité => briques de base ("buildings blocks") --- ## Données, données... quelles données ? > While many analysts may accept data at face value, and treat them as if they are neutral, objective, and pre-analytic in nature, data are in fact framed technically, economically, ethically, temporally, spatially and philosophically. > Technically, then, what we understand as data are actually capta (derived from the Latin capere, meaning ‘to take’); those units of data that have been selected and harvested from the sum of all potential data. [[Source]](https://books.google.fr/books?hl=fr&lr=&id=GfOICwAAQBAJ&oi=fnd&pg=PP1&dq=kitchin+data+revolution&ots=pcyfMTZh-V&sig=dQyPTL3AIN_4RdWvtBFw4VjdAa4#v=onepage&q=kitchin%20data%20revolution&f=false) > « Décidément, on ne devrait jamais parler de “données”, mais toujours d’“obtenues”. » - Bruno Latour, 1993 --- ## Données quantitatives et qualitatives - Données quantitatives : enregistrées sous forme de nombres + nominale (marié/célibataire/divorcé/veuf) + ordinale (faible, moyen, fort) + intervalles (température en degrés Celsius) + ratio (taille en cm) --- ## Données quantitatives et qualitatives - Données qualitatives : non numérique => texte, image, vidéo, son, musique... + peut être convertie en données quantitatives + mais comment ? + risque de perdre la richesse des données originales + analyse qualitative --- ## Données structurées et non structurées Données structurées : dotées d'un modèle + Ex : base de données relationnelle SQL + Lisibles machine + Faciles à analyser, manipuler, visualiser... Données semi-structurées : pas de modèle prédéfini. Structure irrégulière, implicite... mais données organisées néanmoins, ensemble raisonnable de champs + Exemple : XML, JSON + possible de trier, ordonner et structurer les données --- ## Données structurées et non structurées Données non structurées : pas de structure commune identifiable + Exemple : BDD NoSQL + généralement qualitatives + difficilement combinées ou analysées quantitativement + les données non structurées croîtraient 15x plus que les données structurées + machine learning de + en + capable d'analyser ces données. --- ## Données capturées et données échappées - Données capturées : observation, enquête, expérimentation, prise de notes, senseurs... => intention de générer des données - Données échappées : sous-produit d'un engin ou d'un système dont la fonction première est autre - Données transitoires : échappées qui ne sont jamais examinées, transformées ou analysées => brutes car non converties ou combinées --- ## Données dérivées - Résultat d'un traitement ou une analyse supplémentaire de données capturées. - Souvent le résultat d'un modèle --- ## Données dérivées  --- ## Données primaires, secondaires et tertaires - primaires : générées par un chercheur dans un cadre expérimental - secondaires : mises à disposition d'autrui pour être réutilisées - tertiaires : données dérivées : décomptes, catégories, résultats statistiques Ex : recensement => pas diffusé comme données primaires et secondaires avant communicabilité des archives, diffusé comme données tertiaires --- ## Index, attributs, métadonnées - index : permettent l'identification et la mise en relation. Essentiels pour enrichir les données - attributs : représentent les aspects d'un phénomène, mais ne sont pas des index (pas identifiants uniques) - metadata : données sur les données. Peuvent être descriptives, structurelles ou administratives. Standard : Dublin Core. --- class: inverse, center, middle # Le pipeline de données ??? Joël --- ## Le pipeline de données  --- ## Trouver les données - Comment faites-vous ? - Dépôts internes - CDO - Dépôts externes (ex. www.data.gouv.fr) --- ## Acquérir les données - format des données - qualité des données - documentation des données / métadonnées - ETL / connecteurs - données "chaudes" / données "froides" (stock/flux) --- ## Vérifier les données - sanity check - comparer à un schéma théorique - tests qualité (voir http://infolabs.io/qualite-donnees) - les mauvaises données sont partout https://github.com/Quartz/bad-data-guide --- ## Nettoyer les données - paradigme du [_tidy data_](http://vita.had.co.nz/papers/tidy-data.pdf) (Hadley Wickham) > “Happy families are all alike; every unhappy family is unhappy in its own way.” – Leon Tolstoï > “Tidy datasets are all alike, but every messy dataset is messy in its own way.” – Hadley Wickham --- ## Nettoyer les données - chaque variable correspond à une colonne - chaque observation/individu correspond à une ligne - chaque type d'unité d'observation correspond à une table - chaque cellule comporte une donnée --- ## Analyser les données - indicateurs - tabulations - modèles - machine learning - simulation - etc. --- ## Présenter les résultats - datavisualisation - génération automatique de rapports - application - etc. --- class: inverse, center, middle # Open data, big data, linked data... --- ## Open data Voir https://www.cairn.info/revue-informations-sociales-2015-5-page-26.htm - Art 15 DDHC : "La Société a le droit de demander compte à tout Agent public de son administration." - "open governement" (USA, 1960s) - 1966 : FOIA - 1978 : CADA (données personnelles exclues, CNIL) ??? Samuel --- ## Open data Justifications : - transparence / accountability - innovation / "pétrole" - modernisation de l'administration --- ## Open data - données publiques, généralement de gestion - librement utilisables (licences) - pas de redevance - [_Open definition_](http://opendefinition.org/) --- ## Big data - émerge vers 2007/2008 (mais occurrences anciennes) - trois V : "volume", "velocity", "variety" (+ "veracity") - Kitchin ajoute exhaustivité, la résolution, la scalability - NoSQL (terme apparaît en 2009) - promesse d'efficience, de prédiction, de nouvelles formes de savoir - données généralement fermées et privées --- ## Linked data - poussé par W3C et Tim Berners-Lee - http://linkeddata.org/ - web sémantique / web des données - RDF / SPARQL - wikidata => http://histropedia.com/timeline/r7bwtpg9bg0t/Olympique-de-Marseille --- ## API - Application programming interface => un programme vu de la surface - les machines parlent aux machines - donnée dynamique => partage partiel - un exemple : [overpass turbo](https://overpass-turbo.eu/) --- class:inverse, center, middle ## Evaluation https://frama.link/eval_mrs --- class: inverse, center, middle Merci !