Carnet de bord de l’ouverture des données de la Plaine d’Estrées

par Sofia B., Inès Khiar, Félix Anthonysamy, Vanille Baril, Sabrina Bouzembrak, Oumaima Karfaoui et Luna Behr

Illustration réalisée par Anne-Cécile Calléjon

INTRODUCTION

Le déploiement du numérique au sein des collectivités territoriales conduit à une numérisation des pratiques et activités. Le volume de données produites chaque jour ne fait qu’augmenter, et il est donc essentiel de les collecter, classer et rassembler afin de pouvoir les exploiter. La dynamique d’ouverture des données s’est institutionnalisée en France dès la Révolution. L’article 15 de la Déclaration des Droits de l’Homme et du Citoyen de 1789 établit que : “La société est en droit de demander compte à tout agent public de son administration“. La puissance publique, tenue au respect de la transparence démocratique, a mis en place depuis 2015 une politique d’ouverture des données aux citoyens. L’Open data désigne donc l’effort des institutions, ou collectivités qui partagent librement les données dont elles disposent. Ce partage répond à certains critères clés comme la gratuité ou la publication dans des formats ouverts permettant l’exploitation et la réutilisation des données. Ces données publiques doivent respecter les réglementations en vigueur concernant la protection des données personnelles (RGPD) .

A l’occasion de cette nouvelle édition du Challenge Data, basculée en distanciel en raison de la situation sanitaire, nous avons découvert la plateforme “Gather” sur laquelle se déroulait l’ensemble de nos activités. Avec une prise en main rapide et simple, nous nous sommes très vite pris au jeu de ce logiciel amusant et avons apprécié vivre cette semaine Challenge Data à travers nos petits personnages. Après une réunion matinale quotidienne animée par Magalie, nous nous regroupons sur notre table de travail pour une première répartition des tâches. La majeure partie du travail se réalisait en autonomie à l’aide des documents disponibles sur le patchwork et des vidéos tutorielles nous montrant pas à pas les étapes à suivre. Bien sûr, nous pouvions solliciter Magalie et tous les experts Datactivist, pour nous aider en cas de problème ou d’interrogation. Les outils informatiques utilisés tout au long de la semaine furent variés (Gather, Workbench, Datagouv, tableur Excel etc…).

La Communauté de Communes pour laquelle nous avons travaillé ne fait pas partie des collectivités étant dans l’obligation légale de publier ses données, en raison de sa petite taille. La participation de la collectivité la Plaine d’Estrées au Challenge Data reflète donc une politique volontariste de production et d’ouverture de leurs données à tous. Le but étant à terme d’impulser une prise de conscience des élus et agents de la collectivité sur les possibilités offertes par l’ouverture des données et son intérêt pour les citoyens.

Au cours de cette semaine nous avons réalisé 5 étapes de travail fondamentales pour l’ouverture des données de la Plaine D’Estrées. Ces 5 étapes correspondent aux 5 journées de notre semaine Challenge Data détaillées ci-dessous.

JOUR 1 – DIAGNOSTIC

La Plaine d’Estrées est une communauté de communes (19 communes), créée en 1997. Elle est située dans l’Oise (60), Hauts-de-France, à l’ouest de Compiègne et au nord de Paris. D’une superficie de 167 km², elle compte 19 communes pour une population de 18 170 habitants. Elle est présidée par Sophie MERCIER. En 2019, la CCPE a choisi de s’engager volontairement dans un PCAET (la loi oblige les intercommunalités de plus de 20 000 habitants à en adopter un). Notre interlocuteur est chargé de mission chez Communauté de la Plaine d’Estrées. Ses choix de jeux de données sont donc orientés sur les thématiques environnementales et de mobilité, car ces dernières sont un axe fort de la politique du territoire. Une personne est dédiée à la mobilité, nous aurons donc accès à une quantité satisfaisante de données sur ces thématiques, selon notre interlocuteur.

La maturité en open data de la Plaine d’Estrées est de niveau 2. Il n’existe pas de service ou responsable de la politique open data, pas de catalogue de données avec des métadonnées, pas d’utilisation de données pour prévisions. Certaines personnes dans la collectivité pourraient avoir des notions pour transformer et préparer un jeu de données mais la majorité n’en a pas les capacités : il existe des freins générationnels, des difficultés pour les personnes souvent âgées d’utiliser les outils numériques et l’open data, un manque de connaissance de la part des techniciens sur ces sujets. En ce qui concerne la récolte de datas pour la “base commerciale”, nous avons eu le contact d’une personne porteuse de projets au sein de la CCPE (Communauté de communes de la Plaine d’Estrée). À la suite d’un échange par mail, elle a préféré contacter directement par téléphone la personne chargée de cette mission au sein du groupe pour mieux cibler mes attentes. Notre travail est l’occasion pour eux de développer ces sujets au sein de la collectivité et de sensibiliser, « suivre la tendance » dans le service public et satisfaire certaines réglementations. La Plaine d’Estrées utilise fréquemment les réseaux sociaux pour communiquer ses évènements et exploite certaines données cartographiques.

Notre travail d’aujourd’hui peut se résumer comme suit : contact facile et rapide avec notre interlocuteur, bonne organisation au sein du groupe, prise de conscience du besoin profond de la collectivité en terme d’open data (très peu avancée sur le sujet, même si notre interlocuteur semble y être sensible).

wishlist

Livrable : Whishlist

JOUR 2 – IDENTIFICATION

En fonction des différents thèmes retenus pour notre wishlist avec notre interlocuteur, nous avons entamé notre collecte de données auprès des personnes concernées, par mails puis par appels téléphoniques.

Nous avons chacun et chacune rencontré de nombreuses difficultés dans cette première étape de la journée : en effet, nous avons dû relancer plusieurs fois certaines personnes avant d’obtenir une réponse par mail. Nous avons dès lors, sur les conseils de notre client, jugé pertinent de les contacter par téléphone de manière à pouvoir obtenir les informations recherchées dans les délais requis. Après de multiples tentatives, voici les résultats : le contact n’est disponible ni aujourd’hui, ni demain, étant confiné chez lui et ne pouvant accéder aux données présentes sur son lieu de travail. Une autre personne, contactée par Oumaima, n’est disponible qu’à partir de demain. Lors de l’appel avec une porteuse de projets au sein de la CCPE, elle explique que la seule base de données qu’elle possède sur les commerces est une base de données qu’elle a elle même complétée au fil des années et que, de ce fait, certains commerces sont sûrement fermés et sont obsolètes tout comme certains ont pu ouvrir. De même, elle a expliqué ne pas pouvoir transmettre le nom des dirigeants, les adresses et numéros de téléphones des entreprises car cela était confidentiel. Par ailleurs, elle n’avait pas les horaires dans sa base de données et elle ajouta qu’il serait très difficile de les obtenir en cette période de Covid. Les seules données disponibles pour la Plaine d’Entrée pour la base commerciale était : le nom du commerce, l’activité, l’adresse, la ville. Pour pallier ce manque d’information et remplir la mission, la personne s’occupant de cela a d’abord recherché chaque adresse puis trouver le point de géolocalisation pour chacune d’entre elles. Mais réalisé ceci pour plus de 500 commerces, à la main, allait prendre la semaine entière. Enfin, le document reçu était un pdf, il a donc fallu remettre en forme les data sur Excel afin de faciliter la manipulation des données.

Concernant Vanille et moi, nous avons contacté une autre personne. Après une relance par mail sans réponse, nous l’avons contacté par téléphone à 14h10. Elle nous a notifié pendant l’appel qu’elle nous enverra les quelques dossiers en sa possession via mail. Nous avons reçu en fin de journée les données concernant les endroits de covoiturages : en l’absence des autres données, nous ne retenons avec Vanille que les aménagements cyclables et les lieux de covoiturages. Concernant les autres jeux de données, nous avons décidé de supprimer l’éclairage public et les marchés publics, les données ne nous ayant pas été communiqué dans les temps.

Nous avons notifié Magalie de nos difficultés : elle nous a conseillé d’effectuer nos recherches de données par nous-mêmes, à travers le Guide Express pour la Recherche de Données. Les difficultés de compatibilité entre nos fichiers reçus sous format Excel et le BenchWork ont pour la plupart été réglé grâce à Magalie et nous avons pu créer une base de données pertinente pour la Vallée d’Istrée sur le BenchWork.

Notre travail d’aujourd’hui peut être résumé de la façon suivante : contacts difficiles avec les personnes concernées par les différents jeux de données, mais la disponibilité et l’aide de notre interlocuteur et de Magalie nous ont permi de parvenir à créer une base de données pertinente, même si cette dernière est moins riche que ce que nous avions prévu. Nous avions prévu certaines difficultés ( notamment en partant du constat que la collectivité n’est pas du tout renseignée sur l’OpenData ), mais nous avons réussi à les appréhender, et à fournir un travail correct et complet sur cette deuxième journée.

Organigramme :

Organigramme

JOUR 3 – MISE EN QUALITÉ

Nous commençons la journée en terminant le travail de la veille. Nous avons dans un premier temps terminé la saisie des données dans les tableurs Excel. En effet, pour la base horaire des administrations, les documents envoyés par la collectivité au format PDF ne permettaient pas une exploitation facile et rapide des données sur un tableur Excel. Malgré une tentative de conversion du fichier en un PDF, il demeurait inexploitable car incompréhensible tant les horaires des administrations de chacune des 19 communes de la CCPE étaient éparpillées. De ce fait, Ines a dû créer de toute pièce une base de données Excel à partir des informations et documents envoyés par la collectivité. La difficulté principale était bien sûr le temps passé sur cette tâche répétitive. Certaines colonnes essentielles du template n’étaient pas renseignées comme l’adresse des mairies ou le code postal. Nous les avons cherchées une par une sur internet pour compléter ces données. Les informations relatives aux horaires des administrations se divisaient initialement en 2 types : les horaires d’ouverture au public des secrétariats, et les horaires de disponibilité pour contacter ces services par téléphone. Par soucis de lisibilité et de faciliter le travail d’entrée manuelle des données dans le tableau nous avons décidé de ne conserver qu’un seul type d’horaire : les heures durant lesquelles les secrétariats peuvent être contactés par les habitants. Une colonne a été ajoutée au template initial, il s’agit des jours de fermeture (closing day).

Une fois le fichier Excel complété et uploadé dans le Workbench, il a fallu le nettoyer en enlevant des colonnes vides, et certaines colonnes contenant des données personnelles non publiables (comme le nom des personnes à contacter). Ensuite, nous sommes passés à la standardisation de ces données. Les noms des colonnes ne correspondant pas aux standards du template ont été modifiés. Les données de la colonne “Opening hours” ont toutes été standardisées pour les rendre conformes à l’exemple. La colonne adresse-cp a été transformée en colonne de nombres, puis ses valeurs ont été formatées pour faire disparaître les points apparus. Au total 23 actions ont été réalisées sur la base horaire des administrations dans le Workflow. Les données de la colonne latitude et longitude n’ont pas été transmises par la collectivité. Pour compléter ces colonnes nous devrons donc répéter l’opération réalisée pour la base de commerce afin de les obtenir.

De plus, concernant le jeu de données des Équipements collectifs publics, un agent de la collectivité devait reprendre contact avec nous à 10h ce jour afin de nous transmettre les données manquantes. N’ayant pas eu de retour de sa part, nous avons informé Magalie qui nous a demandé de le relancer. Nous l’avons par conséquent appelé à 11h, celui-ci nous a répondu brièvement et voulait écouter l’appel. Il nous a précisé qu’il nous enverrait les données pour fin de matinée. Nous les avons finalement reçus en début d’après-midi. De plus, les fichiers transmis par l’agent étaient incomplets et inexploitables. Nous avons donc utilisé le fichier équipement extrait de la base de l’INSEE. Une fois ce fichier uploadé dans le Workbench, nous l’avons nettoyé : suppression de colonnes vides ou de colonnes contenant des données non publiables. Nous avons par la suite standardisé ces données. Cette tâche était assez longue. Les données de la colonne EQUIPTYPE ont toutes été standardisées pour être conforme à l’exemple. Nous avons rencontrés des difficultés car la collectivité ne nous avait pas fourni les éléments permettant d’être en raccord avec le standard

S’agissant du jeu de données délibération, nous avons commencé par nettoyer les cellules vides et remis à l’horizontale les dates. Nous avons néanmoins rencontré de nombreux problèmes. En effet, nous n’avons pas pu avoir toutes les informations car l’agent qui devait nous les transmettre est en isolement à cause du COVID. De plus, les données fournies ne nous permettaient pas d’être en raccord avec le standard.

Les jeux de données Lieux de covoiturage et Aménagements cyclables ont posé problème dès le démarrage. Nous avons été confrontés à des difficultés lors du nettoyage car les données cartographiques étaient soit erronées soit identiques. De plus, comme à l’accoutumé, nous avons reçu très peu de données. La question s’est posée de supprimer ou pas les colonnes presque vides ou aux valeurs incompréhensibles. Mais Magalie a jugé qu’il était pertinent de les garder car elles regroupent des données qui peuvent être exploitables. Le compiliage était plus simple car il n’y avait qu’une seule plage de données

Enfin, pour la base de commerces, Luna a informé Magalie des rencontres et celle-ci a orienté Luna vers le site adresse.data.gouv qui permet d’obtenir, à partir d’un fichier EXCEL, un fichier avec la latitude, la longitude, le result score, le result label, le result type, le result id, le result housenumber, le resultname, le result postcode, le result city, le result context et le result city code. Après avoir vérifié les données et organisé le document, nous avons finalement décidé de conserver seulement la latitude, la longitude, le code de département et le code de la ville. Le document Excel finalisé, Luna l’a exporté dans le WorkBench.

La journée était compliquée du fait de l’utilisation d’outils et plateformes qui nécessitent une connaissance technique. Nous avons sollicité à plusieurs reprises Magalie afin de nous aider à débloquer ces soucis techniques. Workbench est un outil qui est long à charger. Cela a eu des impacts sur nos ordinateurs et notre travail car parfois nous avons dû rebooter nos postes car le système était bloqué. De plus, les agents des collectivités que nous contactions étaient peu réceptifs à nos demandes et lorsqu”ils nous envoyaient les données, elles n’étaient pas conformes aux attentes et peu renseignées. Cela a ralenti notre travail et a accentué la difficulté des tâches à effectuer. Cet épisode nous a demandé énormément d’énergie tout en sachant que nous devons rattraper ce retard en plus des tâches quotidiennes.

Bilans des traitements exportés depuis Workbench

Base_commerce

Base_commerce

Base_commerce

Base_commerce

Base horaire admin et équipements

JOUR 4 – PUBLICATION

Du fait des nombreuses difficultés rencontrées la veille, la majorité de notre groupe doit finir ce matin le travail de nettoyage et de compilation non achevé. A ce stade de la journée, Vanille et Sabrina étaient les plus avancées. Vanille avait terminé toutes les étapes d’hier, y compris la vérification, la veille. Elle a créé ce matin le compte de la CCPE sur data.gouv.fr, ajouté le logo, ainsi que le référent et les autres membres de notre groupe. Quant à Sabrina, elle avait pu vérifier automatiquement le fichier sur les places de covoiturage et manuellement celui-ci sur les aménagements cyclables. Elle avait rendez-vous à 15h30 pour compléter ses fiches descriptives au téléphone avec la personne en charge de ces questions.

Sofia et Oumaima doivent continuer de nettoyer leurs données, quant à moi, je me vois dans l’incapacité de faire passer mes données au validateur, étant donné qu’il me manque plusieurs des colonnes demandées, le fichier sur les délibérations que j’ai reçu mardi après-midi étant malheureusement très incomplet. Sur les 17 colonnes du template, j’en avais seulement 5 sur chacun de mes tableaux-années, avec certaines d’entre elles présentes ou absentes en fonction des années. Cela signifiait concrètement que mes données ne correspondaient pas au standard. En effet, la veille sur mon temps libre j’avais essayé de rentrer mon Worflow dans le validateur, sans succès, la plateforme me demandant le numéro de SIRET, que j’ai ensuite rajouté sur un des onglets, en passant au préalable par Excel. Lorsque j’ai reproduit l’expérience, on m’avait cette fois demandé le budget. Lorsque j’avais à nouveau soumis mon fichier sur lequel j’avais dupliqué puis nommé une colonne d’après celui-ci, c’était alors la date du budget qui était demandée. Je me suis alors rendu à l’évidence que mon fichier ne pourrait de toute façon pas être évalué avec le peu d’informations qu’il me renseigne. Oumaima et Sofia ont eu le même problème que moi, le validateur leur demandant de renseigner la colonne COLL_SIRET. Il en va de même pour Luna, à qui il manque plusieurs colonnes du même type, dont COLL_SIRET. C’est alors qu’Arthur, ayant été informé de ma question d’hier sur comment créer une nouvelle colonne directement dans Workbench, nous a appris à le faire en passant par Python. Cette astuce nous a été très utile pour harmoniser nos tableaux. Si Sofia et Oumaima ont pu faire passer leur fichier au validateur, il en est ressorti que celui-ci était insuffisant d’après ses critères. Quant à Luna, elle en est restée au même stade que moi.

Luna de son côté, dans la base de données reçue mardi, quelques cases étaient vides concernant le type d’activité du commerce. Pour répondre à cette lacune, elle a cherché sur internet grâce au site société.com les domaines d’activités des commerces référencés. Cependant, dans cette recherche, elle réalisa que certains commerces n’existaient plus et certains commerces ont été remplis avec des fautes de frappe ce qui rendait difficile les recherches. Il a fallu corriger les fautes, remettre les commerces dans l’ordre alphabétique et supprimer les commerces inexistants. Ensuite, le site de validation des données l’informa qu’il manquait la colonne SIRET, qu’elle rajouta, puis qu’il lui manquait la colonne Budget Année. En demandant à Magalie, elle nous informa que cela n’était pas nécessaire et que les données étaient donc validées.

Devant cette impasse, Magalie nous a suggéré de passer outre les outils de validation, ceux-ci n’étant de toute façon pas fiables, ou pas à jour. J’avais en plus de cela rencontré de nombreuses difficultés ayant trait à l’absence d’uniformité entre mes fichiers, qui comportaient de nombreux blancs (cela sans compter mes problèmes personnels de RAM et de réseau qui rendait difficile la communication sur Gather). De plus Workbench avait, semble-t-il, annulé une bonne partie de mes réalisations de la veille (y compris celles que j’avais directement réalisé sur Excel avant de les uploader et d’y ajouter plusieurs modifications). Cela m’a obligé à réaliser à nouveau un travail très laborieux de nettoyage, dans le fichier 2020 alors que des cellules inutiles du fichier d’origine décalaient les données entre les différentes colonnes. Travail laborieux, car tous les deux clics, je me retrouvais avec un chargement qui me ramenait en haut de la page. Une fois ce problème résolu, je me trouvais face à un autre problème de symétrie : celui des colonnes présentes dans un des fichiers et absentes dans d’autres (DELIB_MATIERE_NOM et DELIB_URL). J’ai décidé de créer des copies de chacun des 5 onglets Workbench, et supprimer tout le contenu non commun à tous les fichiers et comportant du vide pour les combiner ensuite. Voyant l’heure tourner, je commence le travail du jour, à savoir la fiche descriptive de ma donnée pendant que Magalie m’aide à terminer le tableau. Nous nous renseignons sur les champs à remplir dans ces fiches. Magalie nous apprend au sujet des licences que certaines données que les membres de notre groupe ont trouvées d’eux-mêmes sur Internet possèdent leur propre licence, ce qui fait que l’on n’a pas besoin de passer par la commune pour cela, en ayant recours par exemple à Open Data Soft.

J’avais de mon côté, en prévision de la complétion des fiches, contacté en début d’après-midi un responsable chargé des délibérations, sans réponse. Je l’avais déjà relancé plus tôt pour obtenir des informations supplémentaires sur les matières des délibérations, sans succès également. Même chose pour Luna, qui n’arrive pas à avoir plus d’informations sur la base commerciale auprès de la collectivité. Quant à Inès, Sofia et Oumaima, consulter la CCPE ne leur aurait été de toute façon d’une grande aide, étant donné qu’elles ont trouvé la plupart de leurs informations sur Internet, sur des plateformes telles que OpenDataSoft ou Geodatamine.

De son côté, Inès a continué dans la tâche laborieuse résultant de l’inadéquation de format des fichiers envoyés par la collectivité au sujet des bases horaires des administrations. De plus, le géocodage n’avait pas été envoyé par la collectivité , tout comme les adresses des administrations. Le géocodage , pour trouver les latitudes et longitudes des lieux, a donc été fait via le site https://adresse.data.gouv.fr/csv. Le géocodage automatique n’était pas correct dans un premier temps, avec de nombreuses localisations en Nouvelle Aquitaine alors que notre collectivité se trouve dans les Hauts de France. Plusieurs tentatives, et manipulations sur Workbench ont dû être faites avant d’obtenir un géocodage correspondant aux bonnes adresses.

Ensuite pour l’étape de la vérification : le jeu de données ne figurait pas parmi les jeux de données vérifiables par un validateur automatique, il fallait donc le faire manuellement. Pour garantir un niveau minimal de qualité de la vérification nous avons appliqué la méthode transmise dans le document “Guide validata-Challenge Data”. L’agencement des différentes colonnes et leur nom a été vérifié et comparé au modèle du Workbench. Le géocodage automatique a ajouté des colonnes supplémentaires qui ne figuraient pas dans l’exemple initial, et la colonne Url hours a été supprimée en raison du manque de données. Inès a donc procédé au contrôle aléatoire des données de chaque champ. Les 5 enregistrements (cellules) consultés de manière aléatoire étaient conformes au standard. On peut donc considérer que le jeu de données “Base horaire des administrations” ne contient pas d’erreur majeure de structuration.

Ces retards des différents membres de l’équipe semblent reposer sur des causes communes, qui se situent en dehors de notre ressort. Nous avons en effet reçu des fichiers peu en raccord avec les standards, mal organisés, parfois au mauvais format voir inexploitables sur certains aspects. Nous avons fait de notre mieux pour nettoyer et organiser des fichiers, qui restent toutefois en l’état insuffisant pour un grand nombre de jeux de données, si l’on tient compte des standards en question. A cela s’ajoutent des services de collectivité souvent peu familiers avec ces données et qui peuvent difficilement nous aider (illustré par exemple aujourd’hui par le fait que l’interlocutrice de Sabrina ne connaissait pas la licence des données qu’elle lui avait fournie). On regrette de plus un certain manque de disponibilité de ces services, avec un certain nombre de nos sollicitations restées sans réponse. A tout cela s’ajoutent des circonstances malheureuses liées au contexte sanitaire actuel, comme l’isolement à domicile du responsable qui aurait pu être en mesure de nous fournir des données complètes sur les délibérations et les marchés publics.

Ces constats impliquent cependant quelque chose d’intéressant dans le cadre de ce projet. Ils nous montrent comment se manifeste de manière concrète « l’immaturité » open data dans une collectivité telle que la Communauté de Communes de Plaine d’Estrées, peu familière avec ces questions.

C’est d’ailleurs à partir de ces observations que nous avons élaboré avec notre référent, sur une ébauche de plan de communication, une fois les données publiées. Il s’agissait d’établir une stratégie de communication autour de la publication des données, voir sous quelles formes elles pourraient être publiées, sur quelle plateforme, par quels acteurs et à quelle fréquence, afin de pouvoir être visibles de façon optimale par les citoyens, les agents et les élus. Celui-ci nous a fait part de son désir de publier d’abord les données récoltées dans un onglet du site de la CCPE qui renverrait vers Data.gouv.fr, puis de les publier sur la page Facebook et éventuellement sur Twitter. Il veut également les partager dans une newsletter. S’ils désirent informer les citoyens par tous les moyens disponibles, notamment par le biais d’infographies, il est conscient des limites qu’imposent la démographie de la collectivité. Ainsi, il n’est d’après lui pas forcément utile d’être sur tous les réseaux sociaux, du fait de l’âge moyen élevé des citoyens de Plaine d’Estrées. Il est également conscient des limites actuelles de la CCPE en matière de data, en prenant notamment comme exemple les données qui nous ont été fournies. Il me fait notamment part de ses regrets ainsi que ceux du responsable en question au sujet des données insuffisantes sur les délibérations. Néanmoins, malgré le chemin qu’il reste à parcourir, il fait preuve d’un certain volontarisme, en se fixant comme objectif d’aller au-delà des obligations réglementaires et de faire de la data une véritable plus-value pour le fonctionnement de la collectivité, servant une logique de transparence. Il nous donne sa vision pour son usage en interne, qui doit d’abord passer par une sensibilisation des élus et des agents, pour qu’ils s’investissent davantage dans la publication des données et en comprennent les enjeux. Il nous informe qu’un travail va être réalisé après le Challenge Data, avec les agents des services techniques, pour travailler sur les jeux de données non disponibles, en plus d’une coordination avec les 19 communes de la CCPE pour qu’elle soit intégrée dans leur fonctionnement.

Nous avons après cela terminé de travailler sur nos fiches descriptives que l’on a, en fin de journée, fini de compléter autant que possible compte tenu des informations fournies (il restait quelques sections ne pouvant être renseignées sur différentes fiches, comme la licence ou les considérations légales et éthiques) Nos fiches et tableaux sont prêts à être publiés, nous attendant cependant le feu vert du référent pour les rendre publiques sur data.gouv.fr

URLs :

https://www.data.gouv.fr/fr/datasets/la-plaine-destrees-base-horaire-des-administrations/

https://www.data.gouv.fr/fr/datasets/la-plaine-destrees-amenagementscyclables/

https://www.data.gouv.fr/fr/datasets/la-plaine-destrees-equipementscollectifspublics-1/

https://www.data.gouv.fr/fr/datasets/la-plaine-destrees-lieuxdecovoiturage/

https://www.data.gouv.fr/fr/datasets/la-plaine-destrees-deliberations/

JOUR 5 – VALORISATION

Avant de commencer les missions de la journée nous avons complété le travail de la veille. Certaines informations concernant les fiches descriptives nous ont été transmises via mail ce matin. De plus, comme hier nous avions terminé la journée sans savoir si notre interlocuteur était d’accord pour qu’on publie les données récoltées, nous avons eu sa confirmation puis nous avons publié les tableaux sur datagouv.fr

En fin de matinée nous avons fini de publier sur le site les données de chaque jeu de données ainsi que les fiches descriptives correspondantes. C’est à ce moment que nous avons commencé véritablement à travailler sur les missions de la journée 5 :

La mission qui nous a demandé le plus de réflexion et qu’on a particulièrement appréciée, était celle du choix des visualisations à utiliser. Comme chaque visuel permet de véhiculer un message particulier, nous avons réfléchi à ce que nous voulions communiquer avec la publication de nos données.

La carte interactive était le choix le plus adéquat pour montrer la plupart de nos jeux de données. Les commerces ainsi que les équipements publics et les lieux de covoiturage ne peuvent qu’être illustrés au sein d’une carte interactive. Nous avons exclu les graphiques par thème car un graphique représentant les 19 communes de La Plaine d’Estrées serait peu lisible. De plus, les citoyens ne pourraient pas l’utiliser pour se renseigner en fonction de l’endroit où ils se situent.
Nous avons choisi de représenter les données quant aux aménagements cyclables à la fois sur un graphique afin de montrer qu’il y a une inégalité de leur répartition dans l’ensemble de la communauté de communes mais nous les avons représentés aussi dans la carte afin d’illustrer de manière plus claire cette même idée.

Nous avons rencontré des difficultés dans le choix de de la visualisation des jeux de données des délibérations et des horaires des administrations. Ces dernières ont été introduites dans le plan interactif pour montrer qu’en fonction des communes les administrations ont des horaires d’ouverture plus ou moins réduits. Pour ce qui concerne les délibérations, Félix a choisi une visualisation permettant de comprendre très vite que certaines matières sont traitées de manière récurrente alors que d’autres matières n’apparaissent pas. Nous avons rencontré des difficultés dans la réalisation de nos idées car, c’était la première fois que nous utilisions des outils comme Umap, Raw Graph etc..
Les fichiers téléchargés depuis workbench semblaient ne pas correspondre aux critères de Umap, nous avons passé beaucoup de temps à comprendre comment utiliser cet outil. Grâce aux conseils de Magalie nous avons identifié certaines des erreurs que nous avions pas supprimées lors du nettoyage des données.
Nous avons complété manuellement les données des info-bulles décrivant les éléments indiquées dans la base horaire des administrations et nous avons commencé à faire de même pour les adresses des commerces. Nous avons ensuite compris qu’il y avait une méthode particulière qui pouvait le faire automatiquement. Nous nous sommes aperçus que certaines des données dans la base de commerce apparaissaient en dehors de La Plaine d’Estrées. Magalie nous a conseillé de les supprimer de la carte. Enfin, ce n’est qu’en réalisant la carte que nous nous sommes rendus compte qu’il nous manquaient les coordonnées géographiques de l’aire de covoiturage de la Grande Plaine, nous avons donc supprimé la ligne concernée et nous avons laissé seulement les deux aires de covoiturages dont on disposait de la totalité des informations.

Un autre souci que nous avons rencontré avec la mise en place de nos données sur la carte interactive, concerne la densité des points que nous voulions représenter. Certains jeux de données présentent plus de 400 éléments à indiquer, nous avons choisi de les indiquer sous forme de cluster : il suffit donc de zoomer de plus en plus pour voir les points exacts des éléments recherchés.

Felix s’est chargé de créer les graphiques concernant les délibérations et les aménagements cyclables.

Nous avons complété la fiche décrivant les contextualisations des jeux de données concernant la base commerce, les équipements collectifs publics, les horaires des administrations et les aires de covoiturage à ce lien :
https://docs.google.com/document/d/1a9L3CEL9eavS9Zkh1yA-DT-20jsMm7GdW-ZeBvZVd5c/edit#heading=h.vw3wlakrpepp

Et les graphiques permettant de représenter les jeux de données délibérations et aménagement des pistes cyclables sont contextualisés sur le lien suivant:
https://docs.google.com/document/d/10TjDFh8vbx6-rlI8kLxMjS7mymBRYyhKECb78jBd77M/edit#

Nous avons ensuite publié nos datavisualisations sur le site dagouv.fr.

Déliberations: https://static.data.gouv.fr/resources/la-plaine-destrees-deliberations/20210219-184032/graphique-deliberations.jpg

delib

Nombre d’amenagements cyclables par codes postaux: https://static.data.gouv.fr/resources/la-plaine-destrees-amenagementscyclables/20210219-184602/graphique-amenagement-pistes-cyclables.jpg

delib

http://umap.openstreetmap.fr/fr/map/la-plaine-destrees-visualisations-des-data_565135#12/49.3987/2.7225

delib

Les jeux de données suivants apparaissent dans les differents calques de la carte interactive qui se trouve sur le lien http://umap.openstreetmap.fr/fr/map/la-plaine-destrees-visualisations-des-data_565135#12/49.4600/2.6982

Lieux de covoiturage:

delib

Équipements collectifs publics :

delib

Base horaires des administrations:

delib

Base commerce:

delib