Initiation au big data

Ville de Marseille et datactivi.st

Introduction au big data

Joël Gombin

Retrouvez les matériaux sur https://github.com/datactivist/formation_marseille

Pad collaboratif : https://frama.link/bigdata_marseille

5 minutes, 20 données

Objectifs de la journée

Objectifs de la journée

Qu’est-ce qu’une donnée ?

Qu’est-ce qu’une donnée ?

D’après vous ?

Sociologie historique de la quantification

center

Sociologie historique de la quantification

center

Sociologie historique de la quantification

La statistique est à la fois :

Sociologie historique de la quantification

Quantifier, c’est convenir puis mesurer

Le verbe quantifier est employé ici dans un sens large : exprimer et faire exister sous une forme numérique ce qui, auparavant, était exprimé par des mots et non par des nombres. En revanche, l’idée de mesure, inspirée de l’épistémologie traditionnelle des sciences de la nature, implique que quelque chose existe sous une forme déjà mesurable selon une métrologie réaliste, comme la hauteur de la Tour Eiffel.

Sociologie historique de la quantification

New Deal puis après-guerre : apogée de l’État keynésien => macro-économie

Aux sources de la mise en données du monde

Aux sources de la mise en données du monde

hauteur

La pyramide Data-Information-Knowledge-Wisdom

largeur

La pyramide Data-Information-Knowledge-Wisdom

Attribuée à Russell Ackoff, 1989

Les données peuvent être des :

Etymologie

Latin : dare (donner) > datum (donné) > data (donnés)

Ce qui est évident, va de soi, est accepté sans discussion

Facts are ontological, evidence is epistemological, data is rhetorical. A datum may also be a fact, just as a fact may be evidence. But, from its first vernacular formulation, the existence of a datum has been independent of any consideration of corresponding ontological truth. When a fact is proven false, it ceases to be a fact. False data is data nonetheless.

Rosenberg, 2013

Etymologie

Ambiguïté en anglais de “data” qui peut être un pluriel ou un singulier collectif.

Whether in mathematics, theology, or another field, use of the term “data” emphasized the argumentative context as well as the idea of problem-solving by bringing into relationship things known and things unknown

Usage de “data”

Usage de “données”

Usage de “data”

Le sens moderne apparaît à la fin du 18e siècle => renvoie à des expériences, des collectes d’éléments.

“Raw data” is an oxymoron

Data are always already “cooked” and never entirely “raw.”

Data need to be imagined as data to exist and function as such, and the imagination of data entails an interpretive base.

[Source]

Données, données… quelles données ?

Données, données… quelles données ?

hauteur

Données, données… quelles données ?

Data are commonly understood to be the raw material produced by abstracting the world into categories, measures and other representational forms – numbers, characters, symbols, images, sounds, electromagnetic waves, bits – that constitute the building blocks from which information and knowledge are created.

=> enregistrabilité => briques de base (“buildings blocks”)

Données, données… quelles données ?

While many analysts may accept data at face value, and treat them as if they are neutral, objective, and pre-analytic in nature, data are in fact framed technically, economically, ethically, temporally, spatially and philosophically.

Technically, then, what we understand as data are actually capta (derived from the Latin capere, meaning ‘to take’); those units of data that have been selected and harvested from the sum of all potential data.

[Source]

« Décidément, on ne devrait jamais parler de “données”, mais toujours d’“obtenues”. » - Bruno Latour, 1993

Données quantitatives et qualitatives

Données quantitatives et qualitatives

Données structurées et non structurées

Données structurées : dotées d’un modèle

Données semi-structurées : pas de modèle prédéfini. Structure irrégulière, implicite… mais données organisées néanmoins, ensemble raisonnable de champs

Données structurées et non structurées

Données non structurées : pas de structure commune identifiable

Données capturées et données échappées

=> brutes car non converties ou combinées

Données dérivées

Données dérivées

hauteur

Données primaires, secondaires et tertaires

Ex : recensement => pas diffusé comme données primaires et secondaires avant communicabilité des archives, diffusé comme données tertiaires

Index, attributs, métadonnées

Bayésiens et fréquentistes

Bayésiens et fréquentistes

hauteur

Le pipeline de données

Le pipeline de données

largeur

Trouver les données

Acquérir les données

Vérifier les données

Nettoyer les données

“Happy families are all alike; every unhappy family is unhappy in its own way.” – Leon Tolstoï

“Tidy datasets are all alike, but every messy dataset is messy in its own way.” – Hadley Wickham

Nettoyer les données

Nettoyer les données

5 problèmes fréquents :

Nettoyer les données

largeur

Nettoyer les données

largeur

Nettoyer les données

5 problèmes fréquents :

Nettoyer les données

largeur

Nettoyer les données

largeur

Nettoyer les données

5 problèmes fréquents :

Nettoyer les données

largeur

Nettoyer les données

largeur

Nettoyer les données

5 problèmes fréquents :

Nettoyer les données

largeur

Nettoyer les données

largeur

Nettoyer les données

5 problèmes fréquents :

Analyser les données

Présenter les résultats

Open data, big data, linked data…

Open data

Voir https://www.cairn.info/revue-informations-sociales-2015-5-page-26.htm

Open data

Justifications :

Open data

Big data

Linked data

API

Cadre juridique et protection de la vie privée

Cadre juridique de l’open data

Tout savoir sur l’open data au concret

Evaluation

Evaluation

https://frama.link/eval_mrs

Merci !