class: center, middle, inverse, title-slide # Défis de la réutilisation des données ouvertes et stratégies alternatives ## Troisième édition du Symposium MaDICS ### Samuel Goëta, Datactivist / Sciences Po Aix ### 2021-07-25 --- layout: true <style> .remark-slide-number { position: inherit; } .remark-slide-number .progress-bar-container { position: absolute; bottom: 0; height: 4px; display: block; left: 0; right: 0; } .remark-slide-number .progress-bar { height: 100%; background-color: #e95459; } </style> <div class='my-footer'><span>Défis de la réutilisation des données ouvertes et stratégies alternatives</span> <center><div class=logo><img src='https://github.com/datactivist/slides_datactivist/raw/master/inst/rmarkdown/templates/xaringan/resources/img/fond_noir_monochrome.png' width='100px'></center></span></div> --- class: center, middle Ces slides en ligne : http://datactivist.coop/madics Sources : https://github.com/datactivist/madics Les productions de Datactivist sont librement réutilisables selon les termes de la licence [Creative Commons 4.0 BY-SA](https://creativecommons.org/licenses/by-sa/4.0/legalcode.fr). <BR> <BR>  --- class: inverse, center, middle # 4 défis de la réutilisation des données ouvertes --- ### .red[Défi 1 :] la découvrabilité des données .center[**Découvrabilité** : capacité d'un contenu à sortir du lot] -- .center[ou plutôt la **trouvabilité** : capacité pour un usager de tomber sur le bon contenu] -- .pull-left[ > **La découverte des données est une condition préalable pour que les données ouvertes atteignent leur potentiel et la plupart des données sont actuellement difficiles à trouver.** ] .pull-right[ .center[<img src="https://datactivist.coop/SPoSGL/sections/img/datagapsclean.jpg" height="200"/>] ] .footnote[https://index.okfn.org/insights/] --- ### Exemple de problèmes de .red[découvrabilité] Sur data.gouv.fr, une requête "coronavirus" ne renvoie vers aucun jeu de données publié par Santé Publique France. Il faut rechercher "covid" pour les trouver, du nom de la maladie causée par le SARS COV-2. .center[] --- ### Exemple de problèmes de .red[découvrabilité] Ce fichier contient tous les signes officiels de la qualité et de l'origine (SIQO) : les AOC et AOP, IGP, Label rouge, spécialité traditionnelle garantie, Agriculture biologique… Très utile mais qui peut le trouver sur data.gouv.fr ? [](https://www.data.gouv.fr/fr/datasets/siqo-publies/) --- ### .red[Défi 2 :] la documentation des données .pull-left[ Beaucoup de données sont accompagnées d’une description très réduite. Sans ces informations, il est très difficile pour un usager de comprendre ce que contient le jeu de données, ses conditions de production des données et ses limites.] .pull-right[  Sur data.gouv.fr, **22% des jeux de données** ont une description de moins de 180 caractères (un sms) **59% ont moins de 1000** caractères (une demi-page) ] --- ### Un exemple de problème de .red[documentation] Ce jeu de données sur les élections présidentielles de 2002, très réutilisé, comporte un champ description presque aussi court que le titre du jeu de ddonnées. .center[] --- ### Un autre exemple de problème de .red[documentation] Ici, la documentation est très succinte et ne fait que reprendre le libellés des colonnes. Or, qu'est ce qu'un musée de France ? comment les données sont collectées ? quand vont-elles être mises à jour ? .center[] --- ### Un autre exemple de problème de .red[documentation] Pour ces données, la description est relativement longue **mais…** elle ne fait que reprendre les termes de la licence, après un premier paragraphe très peu informatif. .center[] --- ### .red[Datasheet for Datasets] : une approche alternative pour la documentation des données .pull-left[ [](https://teamopendata.org/t/traduction-et-adaptation-du-modele-de-description-des-donnees-datasheet-for-datasets/1400) ] .pull-right[ * Motivations pour la création du jeu de données * Composition du jeu de données * Processus de collecte des données * Pré-traitement des données * Diffusion du jeu de données * Maintenance du jeu de données * Considérations légales et éthiques ] --- ### .red[Défi 3 :] la qualité des données Enfin, le troisième défi porte sur la **qualité** des données. Le rapport de [l’Open Data Barometer](https://opendatabarometer.org/4thedition/report/) signale que : > “les données des gouvernements sont souvent incomplètes, pas actualisées, de mauvaise qualité et fragmentaires” et > “de manière générale, la gestion et la publication des données ouvertes sont fragiles et sujettes à des erreurs multiples.” ⚠ la qualité des données ne dépend que de l’usage qui en est fait. La documentation est indispensable pour que le public parvienne à saisir les usages précédents des données et les adapte à de nouveaux usages, souvent inconnus de celles et ceux qui les produisent. --- ### Un exemple de données inutilisables  --- ### Un autre exemple de données inutilisables  --- ### .red[Défi 4 :] les échanges entre producteurs et réutilisateurs Pour répondre aux problèmes identifiés par les usagers liés à la découvrabilité, la documentation ou la qualité, on pourrait, plutôt que de les résoudre immédiatement, s'appuyer sur les commentaires et les retours des usagers pour identifier les priorités. Mais en pratique, la plupart des agents en charge de l'ouverture n'ont pas de temps dédié à traiter ces commentaires et à les résoudre. Résultat : les échanges se font rares et les usagers n'ont souvent pas de réponse. Sur data.gouv.fr, **40,5% des discussions** n'ont qu'un seul message, la question initiale. Les producteurs ne répondent pas systématiquement. --- class: inverse, center, middle # 4 stratégies alternatives pour obtenir des données --- ### Stratégie 1 : recourir au .red[droit d'accès] .pull-left[* Le fondement : la .red[Déclaration des Droits de l'Homme et du Citoyen de 1789] dans son article 15, "la Société a le droit de demander compte à tout Agent public de son administration." * Le droit d'accès des citoyens à l'information publique émerge en **1978 avec la loi dite CADA** du nom de la Commission d'Accès aux Documents Administratifs. * 3e pays au monde après la Suède en 1766 et les Etats-Unis en 1966 avec le Freedom of Information Act (FOIA) en 1966 à accorder un "droit de savoir".] .pull-right[  ] --- ### Madada.fr : faciliter l'exercice du droit d'accès  --- ### Stratégie 2 : .red[Scraper] les données du web Le scraping consiste à **extraire les données présentes sur des sites** web généralement dans des pages éparses. Il est courant qu’une organisation diffuse des données sur le web mais ne mette pas à disposition les données derrière ces sites.Or, pour beaucoup de sites publics, ces données auraient vocation à être librement réutilisables par toutes et tous. Les outils de scraping permettent de **cibler les éléments à extraire sur les pages** (généralement par leurs propriétés dans le code source de la page ou dans la feuille de style), de lister toutes les pages concernées et d’extraire les éléments dans une base de données structurée. --- ### NosDeputes.fr : un projet citoyen né du scraping  --- ### Le Monde : un projet de scraping Le journaliste Alexandre Léchenet avait réalisé en 2012 une enquête sur les dépassements d’honoraires des médecins pour Le Monde en extrayant les données du site ameli-direct.fr qui indique les tarifs habituellement exercés par chaque praticien. .center[] --- ### Cimade : à guichets fermés la Cimade, une association de défense des réfugiés et du droit d’asile, a mis en place le site « A guichets fermés » pour dénoncer l’attente pour les formalités d’immigration devenue « un moyen de domination des personnes étrangères par la préfecture[1]. » Pour produire le site «[ A guichets fermés ](https://www.lacimade.org/presse/a-guichets-fermes-les-personnes-etrangeres-mises-a-distance-des-prefectures/)», l’association a développé des robots qui se rendent toutes les deux heures sur les sites de prise de rendez-vous en préfecture et extraient le délai d’attente pour les principales formalités.  --- ### Stratégie 3 : constituer des données à partir des .red[informations disponibles] La troisième stratégie consiste à rassembler des informations disponibles mais éparses dans une base de données. Les documents publiés par les administrations comportent généralement des graphiques, des tableaux ou des indicateurs qui, pris isolément, ne permettent pas de refaire les calculs et de produire de nouvelles analyses. -- <img style="float: right;margin:10px;width:400px" src="https://datactivist.coop/metsem/spiil.png">Par exemple, le SPIIL a constitué une base de données estimant le montant de chacun des dispositifs d’aide à partir de sources très diverses : rapports annuels de performance établis par Bercy, rapport de la Cour des Comptes, budget de l’Etat, questions au gouvernement ou encore des estimations publiées par le SPIIL… --- ### SPIIL : panorama des aides à la presse Avec ces données, nous avons conçu des visualisations pour illustrer les messages portés par le SPIIL dans l’analyse de ces données  --- ### Transparency France : cartographie de la corruption Un bénévole de Transparency France, surveille les chroniques judiciaires de la presse locale en France pour détecter les affaires de corruption et met les nouvelles affaires en base de données. Le site [visualiserlacorruption.fr](visualiserlacorruption.fr) présente plus de 900 condamnations pour renforcer le plaidoyer de l’association sur le manque de moyens de la justice en France pour lutter contre la corruption. .center[] --- ### Stratégie 4 : faire appel à une .red[foule de contributeurs] On désigne couramment sous le terme de crowdsourcing l’acte de déléguer des actions à un grand nombre d’individus sous la forme d’un appel ouvert à la contribution. Le crowdsourcing peut aussi servir à des projets d’intérêt général afin de constituer des bases de données ouvertes. Dans l’ensemble des exemples qui suivent, les contributeurs se sont mobilisés pour collecter des données dans des projets à but non lucratif, souvent afin de servir une cause militante ou pour passion. --- ### Greenpeace : une campagne sur les cantines Pour en savoir plus : lire [cet article](https://medium.com/datactivist/greenpeace-retour-sur-une-campagne-open-data-pour-rep%C3%A9rer-la-viande-dans-les-cantines-5c12859f94ba) sur notre campagne .pull-left[ #### Outil de contribution :  ] .pull-right[ #### Site de plaidoyer et de mobilisation  ] --- ### Regards Citoyens : numériser les déclarations En 2014, les déclarations remplies des 577 députés et 348 sénateurs comportant chacune 12 parties, soit un total de plus de 11 000 extraits de formulaires manuscrits, ont été numérisées en une semaine par près de 8000 contributeurs. .center[  ] --- class: inverse, center, middle # Merci ! Contact : [samuel@datactivist.coop](mailto:samuel@datactivist.coop)