Carnet de bord de l’ouverture des données de Lens-Liévin

par Léa Delroche, Carla Camilleri, Lauriane Canard, Juliette Dargnies, Cécile Demeude, Nicolas Royet, Théo Lesaunier

Illustration réalisée par Anne-Cécile Calléjon

INTRODUCTION

Notre collectivité est celle de Lens-Liévin et nous avons été mis en contact avec les deux responsables du service numérique de la collectivité. Nous tenons à les remercier pour leur réactivité et leur désir de partager au maximum leur savoir. Nous avons pu ainsi apprendre de nombreux détails sur les données et sur la protection de données dans une communauté d’agglomération de 240 000 habitants. La collectivité est concernée par l’obligation d’open data (notamment dans son implication en matière d’ingénierie numérique) mais manque de formation et de diffusion auprès des 250 agents de la collectivité.

Pour que l’idée de la nécessité d’une gestion de données s’inscrive dans les mentalités des administrés, il faut présenter cela sous un jour attractif et clair, sans se perdre dans des détails.

Aux yeux de nos responsables, “la donnée est quelque chose de précieux et de stratégique”. Les datas sont aussi au coeur des enjeux de pouvoir collectif, puisqu’il est possible qu’il existe de la concurrence entre les structures d’un même territoire : chaque structure veut ses datas et les utiliser comme elles le souhaitent (office du tourisme, les commerces, les services de l’agglomération, les industries…). La collectivité se concentre actuellement sur l’écriture d’une charte pour la gestion des données et sur un projet de copilotage avec la ville de Lens : les 36 communes qui composent la communauté d’agglomération sont invitées à prendre part à cette initiative, si elles le souhaitent.

JOUR 1 – DIAGNOSTIC

Nous avons pu appeler nos responsables de la communauté d’agglomération dans la matinée et nous avons ensuite eu un rendez-vous avec Guillaume en début d’après-midi pour lui parler de nos avancées et bénéficier de ses conseils pour la suite. Le but de cette collecte de données est avant tout de simplifier l’accès à ces informations pour tous les administrés. Lors de notre appel avec les responsables de la CALL, nous avons régulièrement fait le lien avec les applications numériques et les sites internet (comme celui de la CALL, interface privilégiée en matière de communication). Les datas doivent être utilisées comme un condensé de données mis à la disposition des citoyens pour mieux prendre part à la vie de la collectivité.

Nos référents nous ont proposé de collecter diverses datas sur le fonctionnement de la CALL et nous avons donc élaboré une liste de huit jeux de données :

Nous nous sommes rendus compte que, en vertu de la taille de notre communauté d’agglomération et du nombre de données à amasser, nous ne pourrions pas tout faire en une semaine. Nous avons donc décidé de nous concentrer sur les deux premières propositions, à savoir les équipements publics et la base horaire des administrations (d’autant plus importantes en pleine pandémie, les horaires pouvant être bouleversées).

Nous avons envoyé un mail à nos deux responsables pour connaître leur avis. Ils nous ont répondu qu’ils étaient d’accord avec nous mais qu’ils voulaient ajouter les jeux de données sur les crèches et peut-être les monuments historiques.

Nous avons donc une liste de priorités pour nous guider pour le lendemain, tout en partant du principe que nous n’aurons malheureusement pas le temps de gérer tous les jeux de données demandés par la collectivité (nous n’avons même pas une semaine !). Nous appelons Guillaume vers 16h et il nous explique que dans le cas où les bases de données seraient déjà bien remplies, nous serions en mesure de faire nos recherches sur les quatre sujets. Dans le cas contraire, nous concentrerons nos recherches sur les équipements publics et la base horaire des administrations. Nous demandons donc à nos deux responsables de nous envoyer les bases de données disponibles afin de comprendre notre marge de manœuvre.

wishlist

WISHLIST : https://docs.google.com/document/d/1Ta4R-mxIx6usNtWYUFJNq8ZztDijTKpn/edit?fbclid=IwAR0EnnvNbtLrNjoFG1tdoQeddo4ebqaF7xheaSVC2eSTe7btvUiP4S_oL68

JOUR 2 – IDENTIFICATION

Nous commençons la journée par une réunion avec Guillaume, qui nous explique comment collecter des données et les organiser. Aujourd’hui, nous allons donc partir “à la chasse au trésor des données”. Nos deux responsables auprès de la CALL ont répondu à notre mail d’hier. Ils nous ont dit qu’on pouvait oublier les jeux de données sur les monuments historiques parce que cela demandait trop de travail. Cependant, ils nous ont demandé de travailler sur les équipements publics et les bases horaires des administrations, en sachant que cette base de données est inexistante à l’échelle des 36 communes et doit donc être montée de toutes pièces. Encore une fois, il nous semble que nous manquons de temps et que nous ne pourrons pas faire tout ce qui est demandé. Est-ce que ces données sont disponibles pour certaines communes ? Nous partons à la chasse aux infos en interne afin de demander à nos responsables de la CALL quelles sont les bases de données mises à leur disposition.

Guillaume est à nos côtés pour nous encourager et nous dire de faire nos recherches selon nos moyens. Nous n’allons pas faire une analyse de la base datatoursite, faute de temps, mais nous allons utiliser ces données mises à notre disposition afin de trouver des datas sur les sujets qui nous intéressent.

Comment trouver nos données ? Nous nous appelons pour en discuter. Sur DATAGOUV, il n’y a aucune donnée sur la communauté d’agglomération de Lens-Liévin. Nous regardons les vidéos proposées par DATACTIVIST et nous faisons nos recherches pour écrire un mail aux responsables de la CALL. Nous y détaillons les datas que nous allons devoir chercher :

A 11h, nos responsables CALL nous ont envoyé leur base de données sur les équipements publics. Ce sont les premières données que nous allons exploiter et cette base va nous être très utile pour commencer. Nous n’avons pas encore de données sur la base horaire des administrations. Nous commençons donc à remplir le template avec notre base horaire des différentes mairies de la CALL.

Nous rencontrons des difficultés pour collaborer ensemble sur le même template dans WorkBenchData. Nous décidons de laisser une personne tout compléter. Il lui suffit de recopier ce que nous avons inscrit sur un google doc. D’ailleurs, même pour une personne seule, remplir le document est un brin énervant : il se recharge tout le temps, il bug et tape sur les nerfs de celle qui est chargée de le remplir. Et là ! CATASTROPHE !! Le dossier WorkBench s’est volatilisé, nos efforts sont réduits à néant. Par chance, notre équipe était organisée et nous avons pu constater la force du collectif : tout était inscrit sur un google doc et nous avons donc pu entrer rapidement nos données dans un fichier excel. Tout est bien qui finit bien ?

Nous avons rendez-vous avec Guillaume à 17h et nous discutons de l’avancée de nos recherches. Il faut penser à bien rafraîchir YoHours (que nous utilisons pour organiser nos datas) quand nous écrivons nos horaires pour la base data des ouvertures des Mairies.

On part sur deux jeux de données : la base équipement et la base horaire. Pour les biens publics, nous avions déjà 800 données mais nous avons dû créer le template pour la base horaire. Nous dressons l’organigramme et discutons de la wishlist. Nous allons envoyer notre wishlist aux responsables CALL. Nous dressons l’organigramme et discutons de la wishlist.

Evaluation des données :

https://drive.google.com/file/d/1Ta4R-mxIx6usNtWYUFJNq8ZztDijTKpn/view

Voici notre organigramme :

Organigramme

JOUR 3 – MISE EN QUALITÉ

Nous commençons la journée par une réunion commune avec Guillaume et d’autres groupes. Il nous prévient que notre journée sera chargée ! Nous rentrons en effet dans le cœur du sujet (et dans la partie la plus rébarbative) : trier nos données et compléter des tableaux avec les informations qui manquent. Nous avons peu de mal à comprendre ce qui est demandé, les vidéos sont donc d’une grande aide. Nous nous appelons entre nous pour parler de l’organisation de la journée. Comment faire nos tableaux sur workbench ? Il est tout simplement impossible de travailler à plusieurs sur ce site et nous avons une sacrée contrainte de temps. Dans la matinée, nous essayons de faire comme nous pouvons. Comment gérer 803 données ? Elles ne sont pas complètes, il faut faire des recherches supplémentaires et ajouter les villes où se situent les bâtiments publics, les écoles, les monuments, les médiathèques, les salles communes…

Petit bonus historique : nous travaillons pour des communes du Nord, et nous pouvons l’apercevoir en recensant les biens publics de la CALL. En effet, il n’est pas rare de tomber sur des anciennes mines, telles que les anciennes fosses n°5 et n°12 (LENS) ou des salles publiques baptisées en l’honneur de personnalités de la région qui ont un nom à consonance polonaise (comme le terrain Arnold Sowinski, nommé ainsi en l’honneur du gardien du RC Lens, mort des suites du Covid-19 en 2020). Le Nord-Pas-De-Calais fut une terre d’immigration pour les travailleurs polonais, qui sont venus en France pour travailler dans les mines de charbon à l’orée du XX° et par la suite au début des années 1920.

Trier le jeu de 860 données s’avère particulièrement long et fastidieux. Nous vérifions les horaires d’ouverture des administrations et une seule personne peut écrire dans le workbench.

Nous avons appris un peu tard que notre base de données n’était pas exploitable et nous avons travaillé dans le vent pendant une partie de l’après-midi. Notre journée a été longue et fatigante. Les données géolocalisées n’allaient pas et il a fallu refaire une partie de nos bases de datas. Après cette journée quelque peu frustrante, nous quittons le navire à 19h après avoir passé la journée sur excel et workbench (où toujours une seule personne peut écrire et modifier les données.

https://app.workbenchdata.com/workflows/132561/

JOUR 4 – PUBLICATION

La journée débute par un autre classement de données. Nous avons finalisé la fusion de données sur le workbench. Par la suite, nous vérifions les données géolocalisées afin d’obtenir les bonnes longitudes et latitudes des lieux publics cités dans nos workbench.

Nous avons envoyé un mail à nos responsables de la CALL pour prendre un rendez-vous dans la journée afin de parler de la publication. Nous regardons les tutos mis à notre disposition par DATACTIVIST afin de comprendre des attendus de la journée. Nous allons devoir compléter la fiche descriptive des jeux de données, publier cette fiche sur un portail open data et préparer le communication de la CALL autour de l’ouverture de ces données.

Réaliser des fiches nous permet de faciliter notre rédaction, la compréhension de ces données et de renseigner les utilisateurs sur ce qu’il est possible de faire avec ces données. Nous avons accès au google doc avec cette fiche, ce qui nous permet de connaître les questions que nous allons poser à nos responsables CALL lors de notre appel. Par exemple, il est très important pour nous de savoir comment ont été collectées ces données et pourquoi ce jeu de données a été produit. Des traitements sur les données ont-ils été opérés, comme par exemple l’anonymisation de certaines informations à caractère personnel ?

Qu’est-ce que la CALL veut faire en matière de communication ? Doit-on passer par twitter et/ou facebook ou le site internet de la CALL ? Comment créer une communication intéressante alors que les datas ne passionnent pas grand-monde ? Doit-on contacter la.e responsable communication de la CALL ?

A 14h, nous avons un long appel avec nos deux responsables de la CALL et Guillaume. Nous avons l’autorisation de publier une seule base de données pour le moment. Nos responsables préfèrent une communication interne. Nous écrivons donc un mail à destination des 36 mairies des communes de la CALL (qui sera relayé par nos contacts) pour présenter le challenge data et ce qu’implique l’ouverture des données de la CALL. Nous rappelons les buts de ces datas (la connaissance pratique du territoire et les informations disponibles pour les citoyens) sur nos fiches données.

Nous créons un compte sur data.gouv pour la CALL afin de publier les données sur le site. Nous utilisons l’une des adresses mail de nos responsables et nous publions donc aujourd’hui notre premier jeu de données, celui qui a été validé par nos responsables. Petit problème : pour créer un compte datagouv, nous avons besoin de valider l’adresse mail ! Comme ce n’est pas la nôtre, il faut passer de nouveau par nos responsables, qui ne nous répondent pas. Nous obtenons une réponse après un retour vers eux.

A 17h, un frisson traverse la salle et nous ne pouvons nous empêcher d’applaudir : les deux jeux de données sont validés par nos responsables. Nous pouvons les publier sur Datagouv !

Nous mettons en place notre plan com en écrivant un mail afin de présenter notre projet. Nous avons donc deux bases de données : la première base de données recense les horaires d’ouverture, adresses, contacts et coordonnées GPS des Mairies et autres administrations de la CALL. La seconde répertorie, classifie et géolocalise les équipements publics de la communauté d’agglomération.

Liens datagouv :

https://www.data.gouv.fr/fr/datasets/base-horaires-des-administrations-de-la-communaute-dagglomeration-lens-lievin/

https://www.data.gouv.fr/fr/datasets/equipements-de-la-communaute-dagglomeration-lens-lievin/

Liens vers les fichiers CSV :

https://static.data.gouv.fr/resources/base-horaires-des-administrations-de-la-communaute-dagglomeration-de-lens-lievin/20210218-173423/base-horaires-administrations-call.csv

https://static.data.gouv.fr/resources/equipements-publics-de-la-communaute-dagglomeration-lens-lievin/20210218-172037/equipement-public-call.csv

JOUR 5 – VALORISATION

Nous allons devoir donner du sens à nos données et réfléchir à ce que l’on peut en faire. Une partie politique et une partie technique. Dans quelle mesure nos données vont-elles servir à la CALL ? Après la traditionnelle réunion du matin, nous discutons un peu avec Guillaume et nous nous lançons dans la réalisation de nos datavisualisations : pour les faire parler, il faut qu’elles prennent une forme bien plus facile à comprendre qu’un tableau excel. Ainsi, nous utilisons Openstreetmap pour mettre en valeur notre jeu de données sur la base horaire des administrations de la Communauté d’agglomération de Lens-Liévin. Le but de notre démarche est de proposer une carte interactive : sur chaque point, on clique et on découvre les heures d’ouverture, le mail et le site internet de la mairie en question.

Pour le jeu de données sur les équipements publics, nous partons sur Opendatasoft mais le résultat n’est pas à la hauteur de nos attentes, nous cherchons quelque chose de plus propre. Nous allons donc sur Rawgraph et nous nous occupons de ce tableau en début d’après-midi. Nous décidons, dans ce tableau, de dresser des catégories (santé, éducation, parcs…) et d’offrir une comparaison des 36 communes de la CALL.

Nous envoyons un mail de remerciement à nos responsables et préparons le mail final (avec le carnet de bord terminé, nos templates, nos données publiées et les graphiques sur datagouv) que nous enverrons à 18h à la fin du challenge. Nous débutons notre réunion de présentation à 17h. Nous recevons nos responsables à notre table et nous discutons de notre semaine.

Nos datavisualisations :

Enseignement : https://www.hebergeur-image.com/upload/37.171.22.141-602fd75ee3367.png

Santé : https://www.hebergeur-image.com/upload/37.171.22.141-602fd7c3aaeea.png

Sport, loisir et culture : https://www.hebergeur-image.com/upload/37.171.22.141-602fd7e694412.png

Tourisme : https://www.hebergeur-image.com/upload/37.171.22.141-602fd7e694412.png

Transport et déplacements : https://www.hebergeur-image.com/upload/37.171.22.141-602fd7e694412.png

carte

Liens DATAGOUV :

https://www.data.gouv.fr/fr/reuses/data-visualisation-base-horaires-des-administrations-de-la-call-umap/

https://www.data.gouv.fr/fr/reuses/datavisualisation-du-jeu-de-donnees-sur-les-equipements-de-la-call-graphiques/

CONCLUSION

Lors de notre semaine Challenge data, deux jeux de données ont été ouverts. L’un des plus gros freins à cette ouverture était Workbench, qui n’est pas un outil facile d’utilisation. Nous avons perdu du temps, nous avons parfois travaillé dans le vent et certaines tâches étaient répétitives. Il nous était impossible de travailler à plusieurs dessus et nous avons dû partir à la chasse aux données par nous même, chose logique, mais quelque peu fastidieuse. Lorsque les données ont été téléchargées sur Datagouv, les caractères se sont modifiés automatiquement et nos données sont devenues bien moins propres : les é deviennent des C et certains mots perdent complètement de leur sens. Nous ne pouvons pas faire grand-chose, le bug est lié aux plateformes que nous utilisons. C’est un peu frustrant ! Le plus grand levier était la capacité de réaction de nos encadrants, qui ont eu à cœur de partager leur savoir. Les appels étaient enrichissants. Guillaume était très présent pour nous et n’hésitait pas à nous le signifier quand nous n’avions pas le temps et les moyens de réaliser toutes les tâches demandées par nos responsables CALL. Il a fallu revoir leurs ambitions à la baisse puisque nous n’avions que quelques jours à notre disposition.

Cette semaine nous a apporté du stress, des moments de “pétage de plomb” et un certain attachement pour notre salle de cours, qui était comme notre maison pour la semaine. D’autres élèves étaient à l’IEP avec nous à notre étage (big-up à la team Châtillon et la team Boulogne Billancourt) et nous pouvions ainsi discuter avec elles de l’évolution de nos tâches, de nos déboires et manger ensemble le midi lors d’une pause bien méritée. Un grand merci à celles qui sont venues nous proposer du thé et des croissants !

Notre dernière semaine de quatrième année a donc été consacrée à un apprentissage différent, et si nous ne sommes pas tous concernés par le monde des datas de prime abord, nous avons appris à utiliser de nouveaux outils et nous nous sommes confrontés à un projet limité dans le temps. Nous tenons particulièrement à remercier Guillaume, sans qui cette semaine n’aurait pas été pareille. Nous réalisons bien que sans son aide, nous aurions été dépassés par la situation et son expertise a été très précieuse. En tant qu’étudiants en sciences politiques, nous avons pu agrandir notre champ d’expertise et découvrir le monde des datas, que l’on n’étudie pas d’habitude. Les datas soulèvent énormément d’enjeux et de nombreuses personnes ne sont pas au fait de leur fonctionnement et de toutes les possibilités qu’elles recèlent. Cette expérience est professionnelle et valorisante pour la suite.

Notre plus grand-casse tête : encore une fois, travailler sur l’outil workbench

Notre plus grande réussite : voir que nos données, mises en images par nos datavisualisations, faisaient sens et étaient très accessibles !