layout: true <div class='my-footer'><span>Culture générale des données, Sciences Po Saint-Germain-en-Laye, section 1</span> <center><div class=logo><img src='' width='100px'></center></span></div> --- class: center, middle # .red[Section 1 : qu’est-ce qu’une donnée ? Petite histoire sociale des données et leur exploitation] ## Culture générale des données ### Datactivist, 2024 --- class: center, middle Ces slides en ligne : http://datactivist.coop/SPoSGL/section1.html Sources : https://github.com/datactivist/SPoSGL/ Les productions de Datactivist sont librement réutilisables selon les termes de la licence [Creative Commons 4.0 BY-SA](https://creativecommons.org/licenses/by-sa/4.0/legalcode.fr). <BR> <BR> .center[<img src="./img/ccbysa.png" height="100"/>] --- ## Plan du cours #### .red[1- "Au fait, c'est quoi une donnée ?"] Ecoutez ["l'interview de Serge Abiteboul, commissaire scientifique de l’exposition Terradata et directeur de recherche à l’Inria"](https://www.youtube.com/watch?v=qqvsiTUJy7k) #### .red[2- L'industrialisation de la production des données] Regardez [l'interview des créateurs de Visicalc](https://www.youtube.com/watch?v=2a5ex5QlocQ), le premier tableur #### .red[3- La fin de la science ?] Lire l'article [" Big Data : est-ce que le déluge de données va rendre la méthode scientifique obsolète ? "](http://internetactu.blog.lemonde.fr/2011/09/30/big-data-est-ce-que-le-deluge-de-donnees-va-rendre-la-methode-scientifique-obsolete/) .center[**Quizz section 1**] --- class:center, middle, inverse # 1 - Au fait, c'est quoi une donnée ? --- ## Introduction [Interview de Serge Abiteboul](https://www.youtube.com/watch?v=qqvsiTUJy7k), commissaire scientifique de l'exposition Terradata et directeur de recherche à l'Inria : .center[ <iframe width="560" height="315" src="https://www.youtube.com/embed/qqvsiTUJy7k" frameborder="0" allow="accelerometer; autoplay; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe> ] ??? **1 idée forte** : avant on enrgistrait des données sur de l'argile, etc... Maintenant informatique en séquence de 0 et 1. Il faut des données + des outils pour traiter des données Analyse de données massives = big data **Commentaires** : Exposition Cité des Sciences 2017-2018 --- Classe: middle ## Une définition des données .pull-left[ ![](./img/kitchin.png) ] .pull-right[ > *Les données sont couramment comprises comme les matériaux bruts produits dans l’abstraction du monde en catégories, mesures et toute autre forme de représentation-nombres, caractères, symboles, images, sons, ondes électromagnétiques, bits qui constituent les fondations sur lesquelles l’information et le savoir sont créés.* ] --- ## Les données sont partout ! .center[<img src="./img/dataeverywhere.png" height="350"/>] #### Identifiez 3 appareils qui collectent des données .footnote[source : [The Economist](http://lazowska.cs.washington.edu/escience/Economist.big.data.pdf)] ??? smartphone, montre connectée, webcam, ordinateur étage, numéro de salle, taille des individus, sexe des individus, jauge de la salle, adresse, adresse IP, heure de démarrage, heure de fin (pas la durée qui est une mesure dérivée), volume bouteille d'eau, valeurs étiquettes vêtements, numéro de série téléphone, numéro SS sur carte vitale /!\ La donnée collectée doit être déjà produite. Les informations déclaratives, les appréciations subjectives, ne sont pas une donnée, comme “Ce mur est blanc”. --- ### La pyramide Data-Information-Knowledge-Wisdom Attribuée à [Russell Ackoff](http://en.wikipedia.org/wiki/Russell_L._Ackoff) en 1989, elle signfie que : .pull-left[ ![largeur](./img/dikw_pyramid.svg) ] .pull-right[ - Les **.red[données]** sont la matière "brute" de l'information conçues plutôt pour des machines. - **.red[L'information]** pourrait être définie comme des données qui ont été interprétées pour dégager du sens pour des humains. - En donnant du sens à de l'information, on obtient de la **.red[connaissance]** - En donnant du sens à la connaissance on obtient de la **.red[sagesse]**.] --- Class: ## La pyramide Data-Information-Knowledge-Wisdom .center[<img src="./img/competence.png" height="300"/>] _NB : le haut de la pyramide, est parfois remplacé par "compétence"_ --- ### Les données, la base de l'informatique La naissance de l'informatique est le point de départ d'un déluge de données. Tout ce qui circule dans un ordinateur, ce sont des données. Elles sont la base de l'informatique. .pull-left[![](./img/volume.png)] .pull-right[ Pensez à votre abonnement téléphonique, chaque mois, vous payez pour consommer un certain volume de données quantifié en octet ou en bit. Le volume des données créées et traitées ne cesse de croitre en même temps que les capacités de calcul des ordinateurs. ] --- class:center, middle, inverse # 2 - L'industrialisation de la production des données --- ### La tablette mésopotanienne : inscrire une réalité complexe Vers 3200 av. J.-C., en Mésopotamie, la civilisation sumérienne a inventé l’écriture d'abord pour mémoriser des comptes. .pull-left[ <img src="./img/tabletteargile.png" height="300"/> ] .pull-right[ >Arbres et têtes de bétails sont classés pour être comptabilisés. On a bien affaire ici à des données. ] --- ### La carte perforée (1884) : le début de la massification des données Apparue au départ dans les métiers à tisser, les carte perforées contiennent des informations représentées par la présence ou l'absence de trous dans une position donnée. .pull-left[ .middle[![](https://upload.wikimedia.org/wikipedia/commons/f/f2/Hollerith_punched_card.jpg)] ] .pull-right[ Elles sont les premières mémoires de masse utilisées dans l'informatique au XIXe siècle. En 1884, Herman Hollerith a déposé un brevet pour une machine à cartes perforées destinée à accélérer la production de statistiques pour les gouvernements. Deux ans plus tard, il crée IBM le géant de l'informatique. ] .footnote[Vidéo de l'INA : [La carte perforée](https://m.ina.fr/video/CAF97059686/la-carte-perforee-video.html)] --- ### Les bases de données relationnelles (1970) Dans les bases de données relationnelles, les données sont inscrites dans des tables et reliées entre elles par un schéma et des identifiants uniques. Cela permet de traiter de plus grands volumes, de développer des données plus complexes et d'éviter des erreurs de saisie. .pull-left[ ![](./img/sql.jpeg)] .pull-right[ Les bases de données relationnelles facilitent grandement le traitement des données puisqu'elles paraissent à travers une interface utilisateur : « il faut protéger les futurs usagers de grandes banques de données d’avoir à connaitre comment les données sont organisées dans la machine » (Codd 1970). ] --- ### Petit exercice Quelle est la relation entre ces deux tables d'une même base de données ? Quel est ici l'identifiant unique ? ![](./img/SGBD1.png) --- ### Petit exercice - correction ![](./img/SGBD2.png) --- ### Le tableur (1979) : *data to the people* En 1979, Dan Bricklin, un ancien analyste financier exaspéré par les techniques de calcul encore manuelles, a imaginé une technique de calcul visible (« *Visible Calculator* »). Son logiciel "Visicalc", .red[démocratise la production des données] en proposant le système de la feuille de calcul sur laquelle les données peuvent être directement manipulées : > "La facilité d’utilisation de Visicalc provenait du fait que l’utilisateur n’avait pas besoin de connaitre de langage de programmation. Sur cet aspect, Visicalc était **l’équivalent du traitement de texte** dans lequel un utilisateur arrange directement l’impression de la page, à l’opposé des systèmes d’écriture où l’utilisateur devait inscrire un ensemble d’inscriptions pour mettre en page le texte." ([Campbell-Kelly, 2007](http://www.oxfordscholarship.com/view/10.1093/acprof:oso/9780198508410.001.0001/acprof-9780198508410)) --- ### Le tableur (1979) : *data to the people* .center[ Dan Bricklin et Bob Frankston ont inventé le tableur, le premier logiciel de calcul de masse. Découvrez en 5 minutes leur invention : <iframe width="560" height="315" src="https://www.youtube.com/embed/2a5ex5QlocQ" frameborder="0" allow="accelerometer; autoplay; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe> ] ??? Vidéo à montrer jusqu'à 3'05'' --- class:center, middle, inverse # 3 - La fin des sciences ? --- ## Le déluge des données La réflexion autour de la fin de la science part du constat de l'explosion de la production de données comme l'illustre cette infographie sur les réseaux sociaux en une minute. .pull-left[ > "Avec suffisamment de données, les chiffres parlent d’eux-mêmes." > Chris Anderson, journaliste *Wired Magazine* .footnote[[Consulter la source](http://internetactu.blog.lemonde.fr/2011/09/30/big-data-est-ce-que-le-deluge-de-donnees-va-rendre-la-methode-scientifique-obsolete/)] ] .pull-right[ .reduite.center[![](./img/internetminute2021.jpg) ] ] --- ## De plus en plus de données <img src="./img/internetminute2019.jpg" height="240"/> | <img src="./img/internetminute2020.jpg" height="240"/> | <img src="./img/internetminute2021.jpg" height="240"/> En deux jours, l’humanité produit autant d'information que ce qu'elle a produit depuis la naissance de l'écriture jusqu’en 2003. --- ### C'est nouveau ce déluge ? .pull-left[ > *"Les perceptions d'une "surabondance informationnelle" (ou d'un "déluge de données") ont émergé de manière répétée depuis la Renaissance jusqu'aux périodes modernes et, à chaque fois, des technologies spécifiques ont été inventées pour gérer la surabondance perçue."* Strasser, B. J. (2012). "[Data-driven sciences: From wonder cabinets to electronic databases""](http://biologie.unige.ch/assets/brunostrasser//Strasser_SHPSSB_2012.pdf) ] .pull-right[.reduite[[![deluge](./img/deluge.png)](https://www.medecinesciences.org/en/articles/medsci/full_html/2012/07/medsci2012282sp24/medsci2012282sp24.html)]] ??? Attention au présentisme --- ### La méthode scientifique est-elle obsolète ? Les sciences sont traversées par la promesse d’un **.red[quatrième paradigme scientifique]**. Il suffirait alors d'**explorer les données pour .red[identifier des corrélations]** (une relation entre des phénomènes) et de **comprendre la causalité.** > Le déluge des données rend la méthode scientifique obsolète, l’analyse des motifs et des relations contenues dans les données massives produit intrinsèquement un savoir significatif et éclairé sur des phénomènes complexes. Il y a maintenant une meilleure manière de faire. Les petabytes nous permettent de dire que « la corrélation suffit ». Nous pouvons analyser les données sans hypothèses sur ce qu’elles peuvent montrer. > Anderson, C. (2008) "[The end of theory: The data deluge makes the scientific method obsolete](https://www.wired.com/2008/06/pb-theory/)", *Wired* --- ### Les 4 paradigmes scentifiques .center[![](./img/paradigms.png)] **Source :** Kitchin, Rob. 2022. [The Data Revolution: A Critical Analysis of Big Data, Open Data & Data Infrastructures.](https://uk.sagepub.com/en-gb/eur/the-data-revolution/book269711) Second edition. Los Angeles, CA: Sage Publications. --- ### En d'autres termes Rob Kithin résume la position de plusieurs epistémologistes en ces termes. > *"En d'autres termes, plutôt que de tester l'existence de certaines [hypothèses] au sein d'un ensemble de données, les algorithmes qui analysent des données massives ont pour but de découvrir des associations significatives entre les données, et ce sans être guidés par des hypothèses."* (Chapitre 7) > Kitchin, Rob. 2022. [The Data Revolution: A Critical Analysis of Big Data, Open Data & Data Infrastructures.](https://uk.sagepub.com/en-gb/eur/the-data-revolution/book269711) Second edition. Los Angeles, CA: Sage Publications. --- ### Le risque : confondre corrélation et causalité Deux événements (appelons les X et Y) sont corrélés si l’on observe une relation entre les deux. Une erreur de raisonnement courante consiste à dire : « X et Y sont corrélés, donc X cause Y ». On .red[confond corrélation et causalité]. **_L'effet cigogne_** désigne la tendance à confondre corrélation et causalité. .pull-left[<img src="./img/cigogne.jpg" height="180"/>] .pull-right["Dans les communes qui abritent des cigognes, le taux de natalité est plus élevé que dans l’ensemble du pays. Conclusion : les cigognes apportent les bébés ! En fait, les cigognes nichent de préférence dans les villages où la natalité est plus forte en milieu rural que dans les villes." ] .footnote[Source : [cortecs.org](https://cortecs.org/materiel/effets-cigogne-correlation-vs-causalite/)] --- ## Vous aussi, générez des corrélations absurdes .center[ L'équipe des Décodeurs du *Monde* a produit un [générateur de comparaisons absurdes et parfois drôles](https://www.lemonde.fr/les-decodeurs/article/2019/01/02/correlation-ou-causalite-brillez-en-societe-avec-notre-generateur-aleatoire-de-comparaisons-absurdes_5404286_4355770.html), essayez le ! [![](./img/generateur.png)](https://www.lemonde.fr/les-decodeurs/article/2019/01/02/correlation-ou-causalite-brillez-en-societe-avec-notre-generateur-aleatoire-de-comparaisons-absurdes_5404286_4355770.html) ] --- ### Le déluge des données à l'épreuve des sciences sociales Les sciences sociales n’échappent pas à la montée en puissance de la *data driven science*. Le *social computing* désigne une branche de l'informatique qui essaie de comprendre les comportements sociaux par l'analyse de données et l'usage d'outils informatiques. Lev Manovich ([2011](http://manovich.net/content/04-projects/067-trending-the-promises-and-the-challenges-of-big-social-data/64-article-2011.pdf)) signale que **cette approche comporte plusieurs risques** : * elle favorise les chercheurs ayant des liens officiels avec les industriels des réseaux sociaux qui vont fournir les données (difficile alors de les critiquer) ; * des évidences pour les sciences humaines vont être présentées comme nouvelles ; * à l'inverse, certains enseignements majeurs de la littérature des sciences humaines sont ignorés ; * les traces numériques sont perçues comme authentiques ignorant les multiples stratégies de gestion des identités des individus ; * ces recherches disposent d'une force rhétorique bien supérieure en s'appuyant sur les données de plusieurs millions d’individus. --- ### Une nouvelle ère dans la construction du savoir ? L'abondance des données amène à un renouvellement des techniques, ouvre de nouveaux champs d'études et remet parfois en cause des savoirs que l'on pensait acquis. .pull-left[ ![](./img/memoiredeshommes.png)] .pull-right[ > *L'indexation collaborative des fiches des soldats Morts pour la France sur le site Mémoire Des Hommes a permis de révéler que le jour de plus meurtrier de la Première Guerre mondiale pour les Français n'était pas le 22 août 1914.*] ??? Selon le site Mémoire des Hommes, le 25 septembre 1915p --- class: inverse, center, middle # Merci ! Contact : [clement@datactivist.coop](mailto:clement@datactivist.coop)