class: center, middle, inverse, title-slide # Des archives à l’open data : des complémentarités à développer ## Commission patrimoine du pôle associé ### Samuel Goëta, Datactivist ### Toulouse, 20 jui 2019 --- layout: true <div class='my-footer'><span>Des archives à l'open data : des complémentarités à développer</span> <center><div class=logo><img src='https://github.com/datactivist/slides_datactivist/raw/master/inst/rmarkdown/templates/xaringan/resources/img/fond_noir_monochrome.png' width='0px'></center></span></div> --- class: center, middle Ces slides en ligne : http://datactivist.coop/occitanie Sources : https://github.com/datactivist/occitanie Les productions de Datactivist sont librement réutilisables selon les termes de la licence [Creative Commons 4.0 BY-SA](https://creativecommons.org/licenses/by-sa/4.0/legalcode.fr). <BR> <BR> .reduite[] --- <img src='https://github.com/datactivist/slides_datactivist/raw/master/inst/rmarkdown/templates/xaringan/resources/img/logo.png' width='320px'> ### We .red[open data], we make them .red[useful] .reduite.center[] --- ## Qui sommes nous ? - Datactivist est un .red[**pure player de l’open data**] créé en 2016, par Samuel Goëta et Joël Gombin. - Se positionnant sur .red[**toutes les étapes du travail d’ouverture des données**], Datactivist travaille tant avec les producteurs de données qu’avec les réutilisateurs et participe à l’appropriation des données par chacun. - Nous appliquons nos propres .red[**valeurs**] : nous sommes une coopérative ; nos supports de formation et nos contenus sont librement réutilisables, publiés en licence Creative Commons. - Une approche issue de la recherche : voir notamment **https://datactivist.coop/these**. - Nous animons la communauté [#TeamOpenData](https://teamopendata.org). --- ## Nos activités - Conseil sur les .red[**stratégies d’ouverture de données**] : nous aidons les organisations dans la conception et la mise en œuvre de leur stratégie d’ouverture de données. - .red[**Accompagnement dans la réutilisation de données ouvertes**] : nous aidons les organisations à utiliser les données au quotidien. - .red[**Sensibilisation et formation à la donnée**] : nous formons à la culture générale des données, nous enseignons les grands principes et bonnes pratiques de l'open data et nous introduisons à la data science. - .red[**Médiation de données**] : nous organisons des hackathons, des open data camps, des expéditions de données... ??? La médiation de données est aussi fondamentalement une animation de communauté(s). --- ### Au programme * Comprendre les grands principes de l'ouverture des données * Appréhender le cadre juridique spécifique aux données publiques * Connaitre les étapes dans le cycle de vie d'un jeu de données * Découvrir les bénéfices de l'ouverture * Discuter du rôle de l'archiviste dans un projet d'open data --- ### La DDHC : le texte fondateur de l'open data ? Aller au-delà du droit d'accès et de la réédition des comptes (_accountability_) : réduire les asymétries d'information en accédant au matériau brut de l'information et du savoir .reduite[  ] --- ### Open data : un terme récent Le terme est apparu pour la première fois dans les années 1970 dans les accords qu’a signés la NASA avec des pays partenaires en vue du partage de données satellitaires. C’est en 1995 qu’on en voit le premier usage public aux Etats-Unis dans un rapport de la National Academy of Science intitutlé "_On the Full and Open Exchange of Scientific Data_". Dans le langage courant, cela fait .red[**près de 10 ans**] que l'ouverture des données est devenue un élément majeur des politiques publiques numériques. --- ### 2005 : [Open Definition](https://opendefinition.org/) #### Une définition juridique des droits de l'usager d'un savoir ouvert .reduite[.center[]] --- ### 2007 : [la rencontre de Sebastopol ](https://opengovdata.org/) .pull-left[ **Quoi ?** Une rencontre de l'Open Governement Group à Sebastopol (Californie), siège des éditions O'Reilly **Pourquoi ?** : Influencer le futur président des Etats Unis pour faire avancer l'open data **Comment ?** En adoptant une déclaration définissant les grands principes de l'Open Government Data ] .pull-right[  ] --- ### 2015 : la [charte internationale de l'open data](https://opendatacharter.net/) .reduite[.center[  ]] --- class: inverse, center, middle # Éléments du cadre juridique de l'open data --- ### Le guide CADA-CNIL : le document de référence Je n'indique ici que quelques éléments généraux sur le cadre juridique, ce guide constitue votre source de référence. Joël Gombin, co-fondateur de Datactivist, a publié sa [fiche de lecture](https://teamopendata.org/t/guide-commun-cnil-et-cada-open-data-rgpd/1320) sur TeamOpenData. .reduite[.center[ [](https://www.cnil.fr/sites/default/files/atoms/files/guide_open_data.pdf) ]] --- ### 1978 : La loi CADA, vers le "droit de savoir" * Le fondement : la .red[Déclaration des Droits de l'Homme et du Citoyen de 1789] dans son article 15, "la Société a le droit de demander compte à tout Agent public de son administration." * Le droit d'accès des citoyens à l'information publique émerge en **1978 avec la loi dite CADA** du nom de la Commission d'Accès aux Documents Administrations Administratifs. * La France était le .red[3e pays au monde] après la Suède en 1766 et les Etats-Unis en 1966 avec le Freedom of Information Act (FOIA) en 1966 à accorder un "droit de savoir" avec pour but d'améliorer les relations entre le public et l'administration. .footnote[Il faudrait maintenant désigner la loi comme le Code des relations entre le public et l'administration (CRPA) qui, dans son [livre 3](https://www.legifrance.gouv.fr/affichCode.do;jsessionid=BDF8EC0BD562E214CCD9A5ADD435D690.tplgfr42s_1?idSectionTA=LEGISCTA000031367685&cidTexte=LEGITEXT000031366350&dateTexte=20190429), codifie le droit d'accès et de réutilisation mais il est encore moins connu que la loi CADA…] --- ### La loi CADA : un point noir dans la transparence de la vie publique Même si la France est le 3e pays à avoir adopté un droit d'accès, la loi CADA n'est pas un outil fort de la transparence de la vie publique. Ses principaux défauts : l'absence de sanctions et une procédure longue qui décourage les demandeurs et favorise le contournement par les administrations. [](http://europam.eu/?module=country-profile&country=France) --- ### Un droit d'accès très faible au regard des standards internationaux .pull-left[Paradoxe : la France a une législation parmi les plus ambitieuses au monde en matière d'open data mais le droit d'accès y est un des plus mauvais au monde… La France est classée .red[105e sur 123] du classement mondial des lois d'accès à l'information publique RTI Rating. L'open data est comme la Tour de Pise : un très bel édifice posé sur des fondations instables. ] .pull-right[ [](https://www.rti-rating.org/country-data/) ] --- ### Les conditions d'exercice du droit d'accès .red[ Une définition très large des documents administratifs] > Les documents administratifs peuvent revêtir de nombreuses formes (dossiers, rapports, études, comptes rendus, procès-verbaux, statistiques, directives, instructions, circulaires, codes sources, etc.) et adopter tout support (écrit, enregistrement sonore ou visuel, forme numérique ou informatique). Le droit d'accès s'appplique aux documents administratifs produits dans le cadre d'une .red[mission de service public] ie : > Une mission d'intérêt général sous le contrôle de l'administration et qui est dotée à cette fin de prérogatives de puissance publique est chargée de l'exécution d'un service public. Il ne s’exerce que si l’administration a effectivement en sa possession le document demandé, que si le document est formellement **achevé**, qu'il existe et qu'il n'est pas **préparatoire à une décision administrative** en cours. --- ### Les exclusions au droit d'accès Le droit d'accès .red[**ne doit pas porter atteinte aux secrets protégés**] : - le fonctionnement de l'État : délibérations du Gouvernement, secret de la défense nationale, la conduite de la politique extérieure de la France, la sûreté de l'État… - la protection de la vie privée - le secret médical - le secret des affaires (secret des procédés, des informations économiques et financières et des stratégies commerciales ou industrielle) - les mentions portant une appréciation ou un jugement de valeur sur une personne physique ou faisant apparaître un comportement d'une personne pouvant lui porter préjudice… Le document ne peut être publié qu'après avoir fait l'objet d'un traitement permettant d'.red[**occulter les mentions protégées**]. L’administration n’est pas tenue de publier un document lorsque “les travaux d’occultation dénatureraient ou videraient de sens le document” ou si “le document est indivisible ou l’occultation est trop complexe”. --- ### Le cas des données personnelles La mise en ligne de données à caractère personnel sans anonymisation n'est permise que dans .red[**trois cas**] : 1. une disposition législative contraire le prévoit (exemple : [Transparence Santé](https://www.data.gouv.fr/fr/datasets/transparence-sante-1/)) 2. si les personnes intéressées ont donné leur accord (consentement au sens de l’article 4 du RGPD) 3. les documents relevant de [l’article D312-3-1 du CRPA](https://www.legifrance.gouv.fr/affichTexte.do;jsessionid=51E99AF738C12521572D6A7F6C8C03E8.tplgfr23s_1?cidTexte=JORFTEXT000037797147&dateTexte=&oldAction=rechJO&categorieLien=id&idJO=JORFCONT000037796937) Hors de ces cas, il faut .red[**[anonymiser les données](https://github.com/SGMAP-AGD/anonymisation/wiki/Guide-de-l'anonymisation)**] : elles ne doivent plus se référer à une personne réelle (exit les noms, identifiants…) et ne doivent plus être spécifiques à un individu mais communes à un ensemble de personnes. L’indexation de ces données par un moteur de recherche externe est proscrite. --- ### Loi pour une République Numérique : l'ouverture des données par défaut <img style="float: right;margin:10px" src="./img/repnum.jpg"> Promulguée le 7 octobre 2016, après 4 ans d'annonces et de consultation, le titre 1 de la [loi pour une République Numérique](https://www.legifrance.gouv.fr/affichTexte.do;jsessionid=B5632993E54F7CCC2606664B64CDF612.tpdila11v_1?cidTexte=JORFTEXT000033202746&categorieLien=id) porte sur l'ouverture des données publiques. La loi impose un principe d'.red[**ouverture des données par principe**] qui ne fait pas l'objet de sanctions à toutes les administrations, les entreprises délégataires d'une mission de service public et les .red[**collectivités locales de plus de 3500 habitants et 50 agents**]. L'ouverture concerne un .red[**périmètre très large**] : * les documents communiqués suite à des demandes CADA * les "bases de données" * les données "dont la publication présente un intérêt économique, social, sanitaire ou environnemental". **Rares sont donc les données publiques qui ne sont pas concernées par cette obligation d'ouverture.** --- ### Loi pour une République numérique : l'utilisation de standards ouverts <img style="float:right; margin:10px" src="./img/openstand.png"> Afin de faciliter la réutilisation des données par les machines, la loi pour une République Numérique consacre **l'utilisation de standards ouverts** pour la communication des documents administratifs. L’administration est dorénavant tenue, lorsqu’elle communique un document administratif au format électronique, de le mettre à disposition du citoyen **"dans un standard ouvert, aisément réutilisable et exploitable par un système de traitement automatisé"**. Concrètement, cela devrait empêcher la publication de fichiers PDF là où un fichier CSV pourrait être diffusé. --- ### Loi pour une République numérique : une limitation des licences La loi **limite par décret les licences** qui peuvent être utilisées par les administrations. Le [décret du 27 avril 2017](https://www.legifrance.gouv.fr/eli/decret/2017/4/27/2017-638/jo/texte) autorise deux licences : * la Licence Ouverte d'Etalab * la licence ODbL (Open Database License). Ces deux licences offrent **un choix aux administrations** : la licence ouverte étant plus permissive que la licence ODBL qui a été conçue dans une logique de "pot commun" permettant de garantir que les données resteront ouvertes après leur réutilisation. Utiliser une autre licence impose une **homologation** auprès de la DINSIC avec un exposé des motifs ayant conduit à sortir de la liste fixée dans le décret et une consultation des usagers affectés par la licence proposée. L'homologation doit être faite pour chaque jeu de données même si la licence reste la même. --- ### Loi pour une République numérique : une limitation des licences .reduite.center[ [](http://www.opendatalab.fr/index.php/laboratoire/le-kit-collectivites) ] .footnote[source : [SGAR Occitanie](http://www.opendatalab.fr/index.php/laboratoire/le-kit-collectivites)] --- class: inverse, center, middle # Où en est l'open data ? --- ### Des politiques d'open data "de l'offre" .pull-left[ ### En théorie #### Toutes les données sont ouvertes sous leur forme brute dès leur production ] .pull-right[ ### En pratique #### L’administration choisit quelles données ouvrir, comment les ouvrir, quand et ce qu’elles contiennent ] --- ### Le problème de la qualité des données > **Les données des gouvernements sont souvent incomplètes, pas actualisées, de mauvaise qualité et fragmentaires.** > Dans la plupart des cas, les catalogues ou portails de données ouvertes sont alimentés manuellement, conséquence d’une approche informelle de la gestion des données. > De plus, les procédures, les calendriers et les responsabilités des institutions publiques chargées de leur gestion manquent souvent de clarté. Ainsi, de manière générale, la gestion et la publication des données ouvertes sont fragiles et sujettes à des erreurs multiples. [Rapport mondial du 4e Open Data Barometer](https://opendatabarometer.org/4thedition/report/?lang=fr) --- ### Des données bien cachées .pull-left[  ] .pull-right[ "La découvrabilité des données est un défi majeur. Nous avons des portails et des registres de données, mais les organismes gouvernementaux qui relèvent d'un seul gouvernement national publient toujours les données de différentes façons et à différents endroits (...). **La découvrabilité des données est une condition préalable pour que les données ouvertes réalisent leur potentiel et, actuellement, la plupart des données sont très difficiles à trouver**."] .footnote[https://index.okfn.org/insights/] --- ### Le développement de l'open data en France La Région Occitanie apparait comme une des plus en pointe avec une forte mobilisation des collectivités locales impulsée par des dynamiques de mutualisation et d'effet de réseau. .reduite.center[ [](http://slides.com/loichay/resultats-odt-oct18#/) ] --- ### Présentation du portail de la région Occitanie  --- ### Le développement de l'open data en France .reduite.center[ [](https://umap.openstreetmap.fr/fr/map/observatoire-open-data-des-territoires_239529#6/45.806/5.603) ] --- ### Une multitude de portails territoriaux [](https://airtable.com/shrmZOh5If14Q1PVN/tblwklJPsyayeH5lX?blocks=hide) --- ### Une multitude de portails nationaux [](https://airtable.com/shr3IYfHZW1cVTS3s/tblVtTOudK5Ygpsmj?blocks=hide) --- class: inverse, center, middle # Le cycle de l'ouverture des données --- ### Open Data Pipeline : les principales étapes de l'ouverture .reduite.center[  ] --- ### La circulation des données provoque des frictions >Chaque mouvement de données à travers une interface a un coût en temps, en énergie et en attention humaine. Chaque interface entre les groupes et les organisations, ainsi qu'entre les machines, représente un point de résistance où les données peuvent être brouillées, mal interprétées ou perdues. >Dans les systèmes sociaux, la friction des données consomme de l'énergie et produit de la turbulence et de la chaleur - c'est-à-dire des conflits, des désaccords et des processus indisciplinés et inexacts. Edwards, P. N. et al. (2011) [‘Science friction: Data, metadata, and collaboration’](https://journals.sagepub.com/doi/abs/10.1177/0306312711413314), _Social Studies of Science_, 41(5) --- ### Identifier .pull-left[  ] .pull-right[ * Rencontrer les agents * Etudier les données ouvertes par d'autres collectivités * Cartographier les données * Documenter les données ] --- ### L’inventaire : un processus au long cours .pull-left[ [](https://www.data.gouv.fr/fr/datasets/recensement-indicatif-des-donnees-publiques-issues-des-services-publics-de-letat/) ] .pull-right[ * L’utopie de l’inventaire exhaustif * Une démarche progressive et exploratoire * Question : comment qualifier les données ? * A lier aux processus de plan d’occupation des sols des DSI ] --- ### Les tableaux de gestion des archivistes comme support à l'identification  --- ### S'appuyer sur le recensement pour connaitre données ouvrables [](https://medium.com/datactivist/qui-a-ouvert-quoi-le-recensement-des-donn%C3%A9es-des-villes-est-maintenant-ouvert-b7f697135c1f) --- ### Valider .pull-left[  ] .pull-right[ * Evaluer les jeux de données * Prioriser l’ouverture * Valider l’ouverture par la hiérarchie ] --- ### Quelques “bonnes raisons organisationnelles” de ne pas ouvrir des données * Des données encastrées dans les systèmes d’information : explorer les bases de données, reconstruire les schémas et extraire les données * Des données qui peuvent servir à des usagers malveillants : prévoir les risques et les dangers de l’ouverture * Des données qui n’ont pas été pensées pour l’ouverture : améliorer leur qualité et leur intelligibilité * Des données trop “sensibles” pour être ouvertes : la transparence, un mandat à obtenir --- ### Éditer .pull-left[  ] .pull-right[ _data editing_: les opérations par lesquelles les statisticiens traitent et transforment les données issues des sources administratives (Desrosières 2005) * Anonymiser des données * Enlever la sensibilité de données qui ne pouvaient pas être publiées * Rendre intelligible les acronymes * Améliorer la qualité des données ] --- ### [Dataproofer](http://dataproofer.org/) : un outil de contrôle automatique de la qualité  --- ### [WTFCSV](https://databasic.io/en/wtfcsv/) pour prévisualiser et contrôler un jeu de données  --- ### Standardiser .pull-left[  ] .pull-right[ * Convertir les données dans un format ouvert (spécifications techniques publiques et sans restriction d'accès ni de mise en œuvre) et lisible par les machines * Adopter des spécifications partagées : GTFS, DECP, IATI, OCDS, socle commun des données locales… * Transformer les données ] --- ### Passage en CSV : bien plus que “enregistrer sous” [](http://fr.slideshare.net/christophelibertidf/bonnes-pratiquesexcel-cc27juin2013) --- ### Publier .pull-left[  ] .pull-right[ * Importer les données sur le portail * Décrire les champs du fichier * Documenter les métadonnées ] --- ### [Datasheet for Datasets](https://teamopendata.org/t/traduction-et-adaptation-du-modele-de-description-des-donnees-datasheet-for-datasets/1400) : un modèle de documentation des données .reduite.center[  ] --- ### Mettre à jour .pull-left[  ] .pull-right[ * Mettre à jour manuellement ou automatiser l’ouverture * Conserver les données * Prendre en compte les retours des usagers ] --- ### Un bilan favorable pour les collectivités engagées Dans [l'enquête sur l'open data des territoires 2018](http://www.observatoire-opendata.fr/wp-content/uploads/2018/09/Rapport-analyse-enqu%C3%AAte-OD.pdf) réalisée par OpenDataFrance auprès de 46 personnes chargées de la mise en œuvre de l'ouverture des données dans une collectivité, une forte majorité des répondants dresse un bilan favorable :  --- ### Des bénéfices variés et inattendus On présente généralement les benéfices en matière d'innovation ou de transparence mais l'enquête fait ressortir **d'abord les bénéfices internes** : * Diffusion d’une culture de la donnée au sein des organisations * Décloisonnement des métiers et des services au sein des organisations * Revalorisation de certains métiers et compétences : SIG, responsable base de données… Archiviste ? * Valorisation de l’image des organisations * Développement de la gouvernance territoriale et des relations entre organisations * Renforcement de la transparence * Réponse à des obligations légales d'information du public * Développement de nouveaux services au public… --- class: inverse, center, middle # Merci ! Contact : [samuel@datactivist.coop](mailto:samuel@datactivist.coop)