class: center, middle, inverse, title-slide # Data literacy ## introduction à une approche critique de la donnée ### Sylvain Lapoix - Datactivist --- layout: true <style> .remark-slide-number { position: inherit; } .remark-slide-number .progress-bar-container { position: absolute; bottom: 0; height: 4px; display: block; left: 0; right: 0; } .remark-slide-number .progress-bar { height: 100%; background-color: #e95459; } </style> <div class='my-footer'><span>CRIJ Dataliteracy</span> <center><div class=logo><img src='https://github.com/datactivist/slides_datactivist/raw/master/inst/rmarkdown/templates/xaringan/resources/img/fond_noir_monochrome.png' width='100px'></center></span></div> --- class: center, middle Ces slides en ligne : http://datactivist.coop/crij_aura_dataliteracy Sources : https://github.com/datactivist/crij_aura_dataliteracy Les productions de Datactivist sont librement réutilisables selon les termes de la licence [Creative Commons 4.0 BY-SA](https://creativecommons.org/licenses/by-sa/4.0/legalcode.fr). <BR> <BR>  --- background-image: url("https://media.giphy.com/media/h1usHXc3P8XD5fVjB0/giphy.gif") class: center, top, inverse # I .Données partout, justif nulle part ... --- ### Data sondage .pull-left[ 1. Qui a son portable allumé ? 2. Qui a la géolocalisation activée ? 3. Qui est venu en voiture ? 4. Qui a pris les transports en commun ? 5. Qui a posté une info sur cet atelier sur les réseaux sociaux ? 6. Qui a regardé une vidéo dans les transports en commun ? ] -- .pull-right[ 1. Vous transmettez des données à votre opérateur. 2. Vous avez transmis des données à Google (Alphabet). 3. Vous avez transmis des données à Waze (Alphabet). 4. Vous avez transmis des données à l'opérateur de transport. 5. Vous avez transmis des données à Twitter, Facebook, Instagram (Facebook). 6. Vous avez transmis des données à Youtube (Alphabet). ] -- Bref, **vous produisez des données en permanence, de manière active ou passive**. --- ### Pour qui sont siphonées ces données ? * quels organismes publics ? * quels organismes privés ? * d'où chacun les tire, les récupère ? -- Les data brokers servent d'intermédiaire dans la constitution de bases de données. --- ### Mais c'est quoi en fait une donnée ? Hein, selon vous ? -- Les catégorisations sont multiples : * Numériques, chaînes de caractères ou booléens. * Structurées, non structurées. * Qualitatives, quantitatives. -- Le seul point commun : **une donnée est toujours collectée** dans une base de données (par ailleurs souvent appelée collection). Elle ne constitue pas pour autant une information ou un savoir. --- ### L'aggrégation, préalable à toute connaissance .pull-left[ Un relevé n'a aucun sens sans contexte. Seule une collection peut délivrer une information. Ex. : il fait 12 dégré à midi à Saint-Etienne. Cela ne nous dit pas s'il fait chaud, froid, si la température évolue, s'il fait meilleur qu'ailleurs. A moins de confronter cette donnée à d'autres relevée à d'autres moments ou d'autres lieux. Plus les données sont aggrégées et plus le potentiel de connaissance est grand. Par conséquent, plus on peut produire de valeur à partir d'elle, là où chaque unité n'en a pas. ] .pull-right[  La pyramide DIKW, attribuée à Ackoff (1989), complétée par Soloviev (2016). ] --- ### Economie de la donnée .pull-left[ Les industries de la donnée étant principalement des entreprises de service, la collecte massive est essentielle pour les fonctionnalités qu'elles proposent : filtre (Facebook, Google), recommandation (Amazon, Youtube), matchmaking (Tinder, Uber) ... A votre avis : combien rapporte un·e usager·ère européen·ne à Facebook ? ] -- .pull-right[ Selon le rapport annuel d'activité de la société* : 35€. Pas grand chose. Sauf si on le multiplie par 281 millions d'inscrit·e·s sur le continent en 2018.  ] -- Mais la donnée c'est compliqué. Nous dit-on. .footnote[\* *[Rapport annuel 2018](https://investor.fb.com/financials/default.aspx) de la compagnie Facebook, cité par [#DATAGUEULE épisode 95](https://www.youtube.com/watch?v=G1_ryVCLWoc&t=1s)*. ] --- ### "Ah, je déteste les maths !" .pull-left[ [Depuis l'étude Spencer, Steel & Quinn (1999)](https://www.tandfonline.com/doi/full/10.1080/23743603.2018.1559647), le stéréotype de genre a été identifié comme un facteur d'autodisqualification puissant, suivant le principe de la **menace de stéréotype** : *"je suis mauvaise en math parce que je suis une fille"*. La professeure en sciences l'éducation de l'université de Stanford [Jo Boaler](https://ed.stanford.edu/faculty/joboaler) a établit le concept du [*fixed mindset*](https://ed.stanford.edu/news/cultivating-growth-mindset-math) pour les mathématiques : certains modes éducatifs enferment les étudiant·e·s dans un **état d'esprit fermé** qui les paralyse dans l'apprentissage et la maîtrise de cette discipline. ] .pull-right[  .footnote[Source : [SMBC](https://www.smbc-comics.com/comic/what-its-like), merci à Robin Ryder pour la découverte.] ] --- ### Un enjeu démocratique .center[  ] .footnote[Source : [La Tribune](https://www.latribune.fr/technos-medias/internet/pour-traquer-la-fraude-le-fisc-se-lance-dans-la-surveillance-de-masse-des-reseaux-836782.html), 2020.] --- ### Quand Excel a crashé le NHS (UK) #### [Covid: how Excel may have caused loss of 16,000 test results in England](https://www.theguardian.com/politics/2020/oct/05/how-excel-may-have-caused-loss-of-16000-covid-tests-in-england), The Guardian, 06/10/2020  --- ### Du bug informatique au bug sanitaire La cause : > *In this case, the Guardian understands, one lab had sent its daily test report to PHE in the form of a CSV file – the simplest possible database format, just a list of values separated by commas. That report was then loaded into Microsoft Excel, and the new tests at the bottom were added to the main database. But while CSV files can be any size, Microsoft Excel files can only be 1,048,576 rows long [...] **When a CSV file longer than that is opened, the bottom rows get cut off and are no longer displayed**. That means that, once the lab had performed more than a million tests, it was only a matter of time before its reports failed to be read by PHE.* La conséquence : > *The data error, which led to 15,841 positive tests being left off the official daily figures, means than 50,000 potentially infectious people may have been missed by contact tracers and not told to self-isolate.* --- ### Emoubteillages de test à l'ARS (France) Le problème ne se cantonne pas au Royaume-Uni. Le 6 novembre, l'ARS révélait qu'un *"embouteillage"* avait empêché de prendre en compte plusieurs centaines de milliers de tests Covid (voir [Le Parisien, 06/11/2020](https://www.leparisien.fr/societe/covid-19-des-indicateurs-de-tests-sous-evalues-a-cause-de-bugs-dans-la-remontee-des-donnees-06-11-2020-8406911.php), ci-dessous). .pull-left[  ] .pull-right[Ces retards dans la remontée de résultat ont provoqué une mauvaise évaluation du taux de positivité. Dans les deux cas, **des considérations techniques ont faussé l'évaluation d'un phénomène, entraînant des conséquences concrètes dans le débat public et la politique sanitaire**.] --- background-image: url("https://media.giphy.com/media/Vtk2HG3rtGeNa/giphy.gif") class: center, inverse # II. Unité de démesure --- ### Pourquoi collecter des données ? Aucune donnée n'est immanente : sa collecte nécessite des décisions, des méthodes et des moyens. En clair, des choix. L'exercice le plus classique : le recensement. Rien que dans Bible, on compte au moins quatre recensements, dont celui décidé par l'Empereur Auguste. Plusieurs auteurs romains attestent de ce projet : Auguste souhaitait faire "un inventaire des ressources de son empire" : *"le nombre des citoyens et des alliés en armes, celui des flottes, des royaumes, des provinces"* (Tacite, Annales, 1,11) En 1676, Vauban ordonne le recensement de Valenciennes : le premier recensement *"tête par tête"* de l'histoire de France. Son objectif : *"actifs économiques et démographiques"*. -- Historique, les statistiques (littéralement science de l'Etat) servent à deux choses : lever les impôts et faire la guerre. --- ### Un exercice exemplaire : le recensement Le budget du recensement est fixé par la loi. En l'occurrence, [le décret du 17 décembre 2015](https://www.legifrance.gouv.fr/affichTexte.do?cidTexte=JORFTEXT000031632586&categorieLien=id) : * 1.72€ par personne et 1.13€ par logement en "métropole" ; * 2.05€ par personne et 1.36€ par logement dans les départements d'Outre-Mer, Saint-Pierre-et-Miquelon, Saint-Barthélemy et Saint-Martin. Ces dernières années, le coût a totalisé environ 20 millions d'euros par an ([Sénat, 2017](https://www.senat.fr/questions/base/2017/qSEQ171202311.html)). Et ça prend du temps : quatre ans de collecte, compilation, traitement et publication des résultats. --- ### Le besoin de définition Quelle est [la définition du chômage](https://www.insee.fr/fr/metadonnees/definition/c1129) ? -- Définition (BIT, 1982) : * un chômeur est une personne en âge de travailler (15 ans ou plus) qui répond simultanément à trois conditions : * être sans emploi, c'est à dire ne pas avoir travaillé au moins une heure durant une semaine de référence ; * être disponible pour prendre un emploi dans les 15 jours ; * avoir cherché activement un emploi dans le mois précédent ou en avoir trouvé un qui commence dans moins de trois mois. -- Comment peut-on le faire baisser sans modifier la définition ? -- Tout le problème est dans la question : veut-on changer la société ou la valeur de l'indicateur ? --- ### Du descriptif au prescriptif .pull-left[ Les mesures se muent progressivement en outils d'évaluation de la performance. Et inversement : des outils d'évaluation de l'activité sont utilisés comme outils de mesure. Par exemple, l'état 4001. En transformant ainsi des outils descriptifs en outils prescriptifs, la production même de la donnée est biaisée : le chiffre finit par primer sur la réalité et encourage les arrangements plus que les améliorations dans les organisations. ] .pull-right[  ] --- ### La géoloc : donnée de base .pull-left[  La géolocalisation est une donnée essentielle à l'acheminement du signal vers les usager·ère·s des réseaux mobiles. Elle repose sur la triangulation du signal téléphonique par les tours relais. .footnote[\* Source infographie : [BBC](http://news.bbc.co.uk/2/hi/technology/4738219.stm).] ] -- .pull-right[ Or, cette donnée "nécessaire" permet de collecter des informations extrêmement précises sur les individus. Informations dont la confidentialité peut être mise à mal, que ce soit par des organisations privées ou publiques (voir [*The problem with mobile phone*, Electronic Frontier Foundation, 2018](https://ssd.eff.org/en/module/problem-mobile-phones)). ] --- class: inverse #### Ce que la géoloc dit de nous Rien à cacher, vraiment ? [Tell all telephone](https://www.zeit.de/datenschutz/malte-spitz-data-retention) (Die Zeite, 2009).  --- ### Les algos : tout est écrit<br>(par quelqu'un d'autre) Idéalisés comme outils objectifs, les algorithmes héritent de nombreux biais : * les personnes qui commandent leur fabrication ; * les personnes qui programment les algorithmes ; * les biais des bases de données utilisées pour entraîner les algorithmes en machine learning.  .footnote[Source : [Algorithmes : biais, discrimination et équité](https://www.telecom-paris.fr/algorithmes-biais-discrimination-et-equite), Télécom Paristech, 2019.] --- background-image: url("https://media.giphy.com/media/vt7XXolOLWeI/giphy.gif") class: center, top, inverse # III. Quis custodiet ipsos custodies ?* .footnote[* "Mais qui gardera ces gardiens ?", attribué à Juvénal] --- ### Statactivisme ! .pull-left[  ] .pull-right[ *Il semble qu’il n’y ait guère aujourd’hui de meilleur exemple d’autorité capable de désarmer toute critique qu’un nombre, ou un réseau de nombres. La quantification joue souvent un rôle de premier plan pour produire l’« autorité des faits [...] Le statactivisme, qui est un néologisme de notre invention, doit être compris à la fois comme un slogan à brandir dans des luttes et comme un concept descriptif, utilisé pour qualifier les expériences visant à se réapproprier le pouvoir émancipateur des statistiques.* [Statactivisme](https://www.editions-zones.fr/wp/wp-content/uploads/2019/01/9782355220548-statactivisme.html), Isabelle Bruno, Emmanuel Didier, Julien Prévieux, Cyprien Tasset, 2014. ] --- class: inverse ### Giorgia Lupi et le data humanism  .footnote[Pour en savoir plus, voir notre présentation sur le sujet à l'[Infolab Grand Poitiers](https://datactivist.coop/infolab_poitiers/datapero_datahumanism/#1).] --- ### La collecte citoyenne En 2018,le secrétaire d'Etat chargé du logement, Julien Denormandie, avait déclaré qu'il y avait 50 hommes "isolés" sans abri en Île-de-France. Pour objectiver ce problème, la mairie de Paris et un groupe d'associations de lutte contre l'exclusion organise la première **Nuit de la solidarité** : un décompte citoyen des SDF à Paris. .center[    ] [La méthodologie retenue](https://www.unccas.org/nuit-de-la-solidarite-organiser-un-decompte-de-nuit-des-personnes-en-situation-de-rue#.XmcjlOnjK0l) tient compte des contraintes mais aussi des objectifs : la question de la nationalité est écartée, les personnes anonymisées ... Se réapproprier le chiffre, c'est aussi redéfiniir les termes du débat. .footnote[L'opération a fait débat au sein des associations de solidarité, comme [Robin des rues](http://www.robinsdesrues.org/Nous-ne-participerons-pas-a-la-Nuit-de-la-Solidarite), soulevant notamment la question légitime du *"faut-il compter ?"*.] --- ### Communs numériques .pull-left[ #### Open street map Voir les donnée sur [la patinoire du Polygone de Valence](https://www.openstreetmap.org/way/72587650#map=19/44.93652/4.90348).  ] .pull-right[ #### Open Food Facts Avec le [pot de Nutella de 400 grammes](https://fr.openfoodfacts.org/produit/3017620422003/nutella-ferrero) (couvercle compris !).  ] --- ### L'open data Source : [Le Monde](https://www.lemonde.fr/planete/article/2021/03/06/covid-19-l-enjeu-crucial-des-donnees-publiques_6072158_3244.html).  --- ### Transparence des algorithmes  Source : [La Gazette des Communes](https://www.lagazettedescommunes.com/691390/a-valence-romans-des-places-en-creche-attribuees-par-un-algorithme/?abo=1). --- class: inverse, center, middle # Merci ! Contact : [sylvain@datactivist.coop](mailto:sylvain@datactivist.coop)