Introduction au “big data”
Retrouvez les fichiers de présentation ici
1 Jour 1 : Les données
Voir ici les slides
1.1 Echauffement
Jeu des 5 minutes, 20 données
Consigne => les participants doivent identifier 20 données dans leur environnement immédiat, en moins de 5 minutes
Les différents types de données sont :
- comptées
(nombre d'hommes, de femmes ...)
- mesurées
(température, humidité)
- statuts
(allumé/éteint, ouvert/fermé)
- …
Conclusion : Ces données identifiées n’existent pas en tant que données, avant d’avoir été identifiées et formalisées.
1.2 Objectifs de la journée
- Comprendre ce qu’est une donnée
- Appréhender la variété des types de données existantes
- Comprendre le data pipeline
- Appréhender les enjeux politiques et juridiques attachés aux données
1.3 Qu’est-ce qu’une donnée ?
1.3.1 Définition
Pour comprendre les origines de la donnée, il faut s’intéresser à la sociologie historique de la quantification, avec notamment les ouvrages d’Alain Desrosières :
Dès le départ, Alain Desrosières prend en compte les deux sens de la statistique : la discipline scientifique et le fait de faire de la quantification au service de l’exercice du pouvoir d’État (ex : INSEE).
La statistique est à la fois :
- outil de gouvernement (Statistik - 18e siècle)
- outil de preuve (statistics - 19e siècle)
Quantifier, c’est convenir puis mesurer.
Il faut d’abord convenir d’un étalon, d’une unité de mesure avant de mesurer.
De même pour comparer des statuts sociaux, il faut une nomenclature commune. Dans ce cas, ça ne répond pas à des lois physiques ou naturelles, c’est souvent le résultat de conventions, luttes et débats.
Exemple :
- Le cas de la mesure du chômage, qui pourrait naïvement donner l’impression de se mesurer comme on mesure la température. Cette mesure est très controversée. Les politiques utilisent souvent une partie de la donnée (la catégorie A des chiffres de Pôle emploi).
1.3.2 Historique
À l’époque où commence le New Deal puis après-guerre, l’État apprend à quantifier et comptabiliser. En France, l’INSEE apparait après la Libération.
Aux sources de la mise en données du monde :
- Rencontre, dans la Californie des années 1960, entre la Nouvelle Gauche et les Nouveaux Communalistes (Hippies) sur fond de LSD et de recherche militaire (début de l’invention d’internet).
- L’inspiration de la cybernétique (N. Wiener) : objets techniques et êtres humains constituent un même système sociotechnique, régulé par l’information. Si l’information circule facilement, les conflits entre individus sont réduits.
- Exemple de Steward Brand, fondateur du Whole Earth Catalog puis de Wired => “Forest Gump de l’Internet” il défend l’émancipation individuelle grâce aux technologies. Ceci participera au mouvement des Hackers et donnera lieu à divers ateliers de bidouilles.
1.3.2.1 Data-Information-Knowledge-Wisdom
Selon beaucoup, la circulation de l’information, la communication et la transparence permettront de résoudre les tensions sociales.
Selon l’auteur de cette Pyramide, Russell Ackoff, les données peuvent être des :
- faits
- signaux/stimulis
- symboles
1.3.3 Étymologie
Latin : dare (donner) > datum (donné) > data (donnés)
Ce qui est évident, va de soi, est accepté sans discussion
Selon Rosenberg, lorsque le terme “data” apparaît en anglais, au 17e siècle :
- Facts are ontological
- Evidence is epistemological
- Data is rhetorical
- Donc contrairement aux faits, une “donnée” à cette époque peut être fausse tout en restant une donnée
1.3.3.1 Ambiguïté du terme data
:
Data
peut être un pluriel ou un singulier collectif.
Usage du mot data
dans le temps selon Google Ngram :
Usage du mot données
selon Google Ngram :
Le sens moderne apparaît à la fin du 18e siècle => renvoie à des expériences, des collectes d’éléments, une dimension empirique donc.
1.3.3.2 “Raw data” is an oxymoron
Tiré du livre éponyme :
Data are always already “cooked” and never entirely “raw.”
Data need to be imagined as data to exist and function as such, and the imagination of data entails an interpretative base.
Comme mentionné dans l’échauffement, les données existent une fois identifiées.
Voir le TED talk sur l’open data de Tim Berners Lee
Il n’existe pas de données brutes, il y a toujours une phase d’interprétation, d’imagination.
1.4 Données, données… quelles données ?
Basé sur le livre “the data revolution” de Rob Kitchin
Data are commonly understood to be the raw material produced by abstracting the world into categories, measures and other representational forms – numbers, characters, symbols, images, sounds, electromagnetic waves, bits – that constitute the building blocks from which information and knowledge are created.
Il en déduit que l’enregistrabilité constitue la brique de base (“buildings blocks”)
Selon Kitchin on ne devrait pas dire data
mais capta
.
En français, on devrait parler non pas de données
mais d’obtenues
(Bruno Latour, 1993).
1.4.1 Données quantitatives et qualitatives
1.4.1.1 Données quantitatives : enregistrées sous forme de nombres
- nominale (marié/célibataire/divorcé/veuf)
- ordinale (faible, moyen, fort)
- intervalles (température en degrés Celsius)
- ratio (taille en cm) (le 0 a une valeur absolue)
Il faudra adapter les outils de modélisation en fonction du type de données (voir partie suivante).
1.4.1.2 Données qualitatives : non numérique => texte, image, vidéo, son, musique…
Ces données pourront être “transformées” en données quantitatives, car sans passer par des chiffres on ne peut pas y appliquer la data science
.
Tout l’enjeu sera alors : comment opérer cette transformation ?
- Exemples :
- Exemple de Facebook qui fait de la reconnaissance d’images à travers des algorithmes des machine learning
- Exemple du correcteur orthographique sur smartphone qui fonctionne avec une modélisation mathématique “word2vec”.
- Exemple du bot Twitter de Microsoft qui est devenu raciste et fasciste en analysant les tweets d’autres utilisateurs.
Dans le passage de qualitatif à quantitatif, il y aura forcément une perte de données.
L’analyse qualitative ne perd néanmoins pas son importance pour appréhender les domaines artistiques (musique) ou sensoriels (goûts et odeurs) par exemple.
1.4.2 Données structurées et non structurées
- Structurées : facilement lisibles par une machine (ex :
Base de données SQL
,CSV
) - Semi-structurées : pas de modèle prédéfini, structure irrégulière et implicite, mais des données organisées et un nombre raisonnable de champs. (ex :
JSON
) - Non structurées : Généralement qualitatives, et nécessitant une restructuration avant d’être analysées ou combinées. (ex :
Base de données NoSQL
)
Le machine learning est de plus en plus capable d’interpréter des données non structurées.
1.4.3 Données capturées et données échappées
Brutes car non converties ou combinées
- Données capturées : observation, enquête, expérimentation, prise de notes, senseurs… => intention de générer des données
- Données échappées : sous-produit d’un engin ou d’un système dont la fonction première est autre => Données générées “à côté”
- Données transitoires : échappées qui ne sont jamais examinées, transformées, combinées, ou analysées => Données crées mais pas utilisées
1.4.4 Données dérivées
Résultat d’un traitement ou une analyse supplémentaire de données capturées. Souvent le résultat d’un modèle

Niveaux de données définis par la NASA
Exemple des différents niveaux d’observation de la NASA
On travaille donc plus souvent sur des données dérivées
que sur des données brutes
(exemple : quand on corrige un texte pour éviter les répétitions).
1.4.5 Données primaires, secondaires et tertiaires
- primaires : générées par un chercheur dans un cadre expérimental
- secondaires : mises à disposition d’autrui pour être réutilisées
- tertiaires : données dérivées : décomptes, catégories, résultats statistiques
Exemple : Recensement => pas diffusé comme données primaires et secondaires avant d’avoir passé le délai de communicabilité des archives.
1.4.6 Index, attributs, métadonnées
- Index : permettent l’identification et la mise en relation. Essentiels pour enrichir les données. (exemple : l’importance d’un identifiant unique dans la combinaison de deux tables de données)
- Attributs : représentent les aspects d’un phénomène, mais ne sont pas des index (pas identifiants uniques) (exemple : base de donnée des personne de cette salle, avec un identifiant unique, le nom, mais aussi des attributs, l’âge, qui ne sont pas forcément unique)
- Metadata : données sur les données. Peuvent être descriptives, structurelles ou administratives. Standard : Dublin Core.
1.4.7 Bayésiens et fréquentistes
Deux grandes écoles statistiques, deux grands paradigmes, qui s’affrontent :
Exemple : Va-t-il fait beau demain ? Déterminisme ou croyances ?
1.4.7.1 Bayésiens
Tirent leur nom du révérend Thomas Bayes
Selon les bayésiens : la statistique porte sur les croyances à l’égard du monde, qu’on fait évoluer au regard des données collectées.
1.4.7.2 Fréquentistes
Selon les fréquentistes : le monde existe indépendamment de nos interactions avec lui. Données issues d’un échantillon aléatoire, réplicable (fréquence). Expériences et tests statistiques : un énoncé est falsifié ou non falsifié.
Exemple : Quelle est la taille moyenne des Français ?
- Les fréquentistes diraient que le paramètre “taille moyenne” est fixe alors que les données seront aléatoires et infinies
- Les bayésiens diraient qu’on ne peut pas faire un nombre infini de tirages aléatoires. Les données sont fixes et on cherche la distribution possible du paramètre recherché “taille moyenne” la plus probable en fonction des données.
1.5 Le pipeline de données
Le pipeline de données c’est un ensemble d’étapes de transformation récurrentes lors d’un de traitement de données
Data pipeline de “School of Data”
1.5.1 Trouver les données
- Comment faites-vous ?
Réponses des participants :
- acheter des données
- inciter les gens à en fabriquer, ne pas les garder pour eux
- fouiller dans ses données échapées
- faire appel à l'open data
- faire appel a des experts
- Utiliser des dépôts internes
- Faire appel aux CDO (Chief Data Officer)
- Dépôts externes (ex : data.gouv.fr)
1.5.2 Acquérir les données
Pose les questions essentielles :
- Format des données ? La majorité de formats sont propriétaires, empêchant donc le partage.
- Qualité des données ? Rares sont ceux qui appliquent les bonnes pratiques
- Documentation des données / métadonnées ? Souvent, les données échapées sont “ouvertes” mais la phase de mise en qualité et d’explication est baclée voir absente.
- Connecteurs type ETL ou autres ? Les systêmes Extract - Transform - Load restent rares et ne sont pas accessibles à tous.
- Données “chaudes” ou données “froides” (stock/flux) ? Les données varient-t-elles en permanence ou sont-elles stockées quelque part, inactives ?
1.5.3 Vérifier les données
- Sanity check : vérifier que les données ont l’air crédibles ou cohérentes. Suppose une connaissance du secteur sur lequel on travaille. (La compétence de data scientist est donc indissociable des connaissance sur le domaine abordé)
- comparer les données à un schéma théorique
- Tests qualité (voir http://infolabs.io/qualite-donnees)
La Fing a créé un outil avec 117 types d’erreurs classiques, accompagnés des solutions pour les réparer.
- Attention, les mauvaises données sont partout : Guide des mauvaises données
1.5.4 Nettoyer les données
Tidy datasets are all alike, but every messy dataset is messy in its own way. – Hadley Wickham
Paradigme du tidy data d’Hadley Wickham :
- chaque variable correspond à une colonne
- chaque observation/individu correspond à une ligne
- chaque type d’unité d’observation correspond à une table
- chaque cellule contient donc une seule donnée
5 problèmes fréquents à résoudre pour parvenir au tidy data
:
- les noms des colonnes sont des valeurs, pas des variables
- plusieurs variables dans une colonne
- les variables sont stockées à la fois dans les lignes et les colonnes
- plusieurs types dans une table
- un type dans plusieurs tables
1.5.5 Analyser les données
- Calculer un indicateur (PIB, taux de chômage…)
- Tabulation (croiser plusieurs attributs)
- Modèles (rendre compte d’un attribut ou d’une variable par un certain nombre d’autres variables)
- Machine learning
- Faire des simulations
On passe des données
à l'information
jusqu’au savoir
, en espérant déboucher sur de l'action
.
1.5.6 Présenter les résultats
Les étapes du pipeline ne sont pas linéaires, c’est un cycle non linéaire et itératif.
L’idée c’est de partager ses résultats tout en montrant la démarche. Capitaliser son travail, le partager avec d’autre, collaborer. Voir la recherche reproductible ( utilisé en python
, en R
…)
Différentes façons de présenter les résultats :
- datavisualisation
- génération automatique de rapport (facile avec
RMarkdown
) - applications interactives (facile avec Shiny)
La frontière entre ces trois types de présentation se réduit de plus en plus.
On peut désormais laisser l’utilisateur final interagir avec la donnée, décider de ce qu’il va en faire (contrairement à l’époque papier où on était limité à une seule interprétation, imposée par l’auteur).
1.6 Open data, big data, linked data…
1.6.1 Open data
L’open data
émerge dans le sillage de l’open gouvernment
.
la société a le droit de demander compte à tout agent public de son administration (art. 15 de la Déclaration des droits de l’homme et du citoyen)
Aux Etats unis, le FOIA - Freedom of Information Act (1966) - permet à tout citoyen de réclamer toute information au gouvernement.
L’adaptation française est la loi CADA (1978) - Commission d’accès aux documents administratifs - avec données personnelles exclues et surveillance de la CNIL - commission nationale informatique et libertés.
L’Open data est souvent justifié par 3 arguments :
- La transparence : la responsabilité de l’État envers les citoyens l’engage à devenir transparent
- L’innovation : l’open data est un potentiel économique énorme, c’est le “nouveau pétrole” (“ouvrez les données, on saura leur donner de la valeur”). Voir a contrario ce billet d’Henri Verdier
- Levier de modernisation des entreprises : créer de la transversalité, se mettre à la page du digital.
L’Open data c’est :
- des données publiques, généralement de gestion. Les données publiques sont produites à des fins de gestion, et rarement conçues avec data.gouv.fr en tête. L’INSEE conçoit ses données dans un but de connaissance, ce qui rend la démarche plus facile.
- librement utilisables (licences). Pour toute personne, par avance, on accorde des permissions et on impose des restrictions (ex : Open licence, Creative Commons, MIT…).
- pas de redevance. Normalement, on peut accéder aux données gratuitement. Il est admis que les données ne sont pas soumises à redevance, alors que la mise à disposition des données peut être facturée (prix de l’infrastructure matérielle). En utilisant la plupart des services, on ne paye pas, sauf quand on dépasse un seuil élevé de requêtes.
L’Open definition fait référence :
“Open means anyone can freely access, use, modify, and share for any purpose (subject, at most, to requirements that preserve provenance and openness).”
“Open data and content can be freely used, modified, and shared by anyone for any purpose”
La clause “share-alike” est conforme à l’Open Definition : la modification ou l’enrichissement des données oblige l’utilisateur à re-partager les données une fois enrichies.
1.6.2 Big data
Le big data
émerge dans le discours public vers 2007/2008 (mais occurrences anciennes) c’est à dire en même temps que l’opendata
.
Le big data est défini par la règle des trois V :
- Volume
- Velocity
- Variety
Néanmoins, les cas où ces trois V sont présents de manière cumulatives sont assez rares.
Sur l’aspect “volume”, voir : http://ismydatabig.com
Communément, il est admis que le big data ne peut pas se faire sur une machine de bureau classique.
On a souvent du volume, mais il est plus rare de trouver vélocité et variété.
La réponse à ces 3 éléments n’est pas forcément la même au niveau technologique (une solution à la variété différera d’une solution au volume).
Kitchin ajoute les caractéristiques suivants :
- exhaustivité : on n’est plus sur un échantillon mais sur une population.
- résolution : granularité fine, précision au niveau individuel.
- scalability : capacité à changer d’échelle des technologies du big data.
Le Big data utilise souvent le NoSQL
(terme apparaît en 2009) : Données pas seulement structurées (exemple : Elastic Search).
Le big data c’est aussi la promesse d’efficience, de prédiction, de nouvelles formes de savoir.
Grâce au big data, on a des modèles boite noire performants, mais souvent biaisés par des objectifs commerciaux.
(Exemple : Amazon crée un système de recommandation basé sur le seul indicateur du nombre de vente réussies.)
Contrairement à l’open data
, les données du big data
sont généralement fermées et privées.
Ceci pose le problème de constitution de monopole dans l’économie des plateforme (Facebook, Twitter, Uber…). Si on ouvre ces données, les monopoles naturels sont cassés.
L’économie des plateformes repose sur la propriété des données.
1.6.3 Linked data
Poussées par Tim Berners-Lee, il s’agit de l’hyperlien de la donnée. On étend le concept d’URL ou URI aux bases de données.
Les données seraient donc toutes potentiellement connectées entre elles.
On parle aussi de Web Sémantique. Technologies principales : SPARQL
, RDF
.
WikiData est le projet le plus prometteur dans cette voie. Le but est d’adosser Wikipédia à une énorme base de donnée connectée. (Exemple : Projet WikiData/ SPARQL - relation entre les intellectuels de la Grèce ancienne http://www.projetjourdain.org/network/index.html)
1.6.4 API
- Application programming interface => un programme vu de la surface. L’API REST est un standard très utilisé.
- les machines parlent aux machines : on peut automatiser la communication inter-programme.
- donnée dynamique => partage partiel (on partage nos données sans donner la base de donnée. On peut réguler le nombre de requêtes, l’accès à certaines fonctions).
Un exemple : overpass turbo (permet de requêter OpenStreetMap)
1.7 Cadre juridique et protection de la vie privée
1.7.1 Cadre juridique de l’open data
En France :
- circulaire et vade mecum de 2013
- lois NOTRE et Lemaire : principe de l’ouverture par défaut. Il faudra prouver qu’on a une bonne raison de ne pas partager ses données. Les données doivent être lisibles par les machines.
- Licence ouverte : permet la réutilisation la plus large, y compris à titre commercial. En rajoutant de la valeur sur des données existantes, on a le droit de la commercialiser. Seule obligation : mentionner la source des données (clause BY).
Des principes s’opposent à ce principe d’ouvertures : données nominatives, données personnelles, secrets prévus par la loi (défense, statistique, médical, commercial…)