Carnet de bord de l’ouverture des données de Sailly-Lez-Lannoy - groupe 2
par MOREY Lola, ZIRI Romain, MARTINELLI Julie, DELOFFRE Mathilde, JUTGE Pierre, TERSEUR Marianne
Introduction
Cette semaine de cours sera consacrée au Challenge Data et représente une semaine importante dans notre parcours de 4ème année. Après la réunion de briefing de 9h, notre collectivité nous est attribuée. Il s’agit de la commune de Sailly-Lez-Lannoy. Un village de 1987 habitants dans la région Haut de France et dans le département du Nord. Cette collectivité est rattachée à la Métropole Européenne de Lille. Il s’agira donc pour notre équipe de récupérer leurs données et les publier sur le portail open data de la MEL.
Notre équipe de Datactivistes juniors, encadrée par Céline, est composée de 6 étudiants prêts à traiter des données.
- Marianne Terseur, étudiante en Master Économie et Finance.
- Julie Martinelli, étudiante en Master de Relations Internationales.
- Romain Ziri, étudiant en Master de Droit et Action Publique.
- Mathilde Deloffre, étudiante en Master de Droit et d’Action Publique.
- Pierre Jutge, étudiant en Master Économie et Finance.
- Lola Morey, étudiante en Master de Droit et Action Publique.
JOUR 1 – DIAGNOSTIC
Dans un premier temps, nous assistons à une réunion d’information de 45 min qui nous présente le Challenge Data ainsi que les collectivités avec lesquelles nous aurons l’occasion de travailler. Nous prenons également connaissance de nos référents Datactivist. Notre équipe s’est ensuite réunie en D06 et nous avons fait la rencontre de Céline, notre référente. Cette journée sera rythmée par un premier échange avec notre collectivité territoriale désignée : Sailly-Lez-Lannoy.
Après quelques recherches d’indices de diagnostic, nous avons découvert que la commune de Sailly-Lez-Lannoy couvre une superficie de 4,43 km² et comporte 1987 habitants. Lors de notre recherche préemptive nous avons découvert que le site internet de la municipalité était en reconstruction. La commune appartient à la métropole européenne de Lille, emploie 20 à 49 salariés dont notre interlocuteur, Directeur Général des Services qui sera notre contact toute la semaine et nous fournira les données de Sailly-Lez-Lannoy afin de nous permettre de les publier. Avec notre interlocuteur nous avons également fait le diagnostic de maturité open data de la commune. Pour cela, nous avons fait remplir à l’oral à notre interlocuteur un questionnaire qui permettait d’estimer la maturité de la commune en termes d’ouverture de données. Le questionnaire se présentait comme tel :
- Nom de la collectivité : Sailly-Lez-Lannoy
- Nombre d’habitants : 1987
- Combien d’agents comportent votre collectivité ? 14
- Est-ce qu’il existe un service ou un personnel responsable de la politique open data ? Oui, une personne ou un service est en déjà en charge de l’open data
- Des personnels ont-ils déjà été formés à l’open data ? Oui
- Quelles sont les motivations de la collectivité pour l’ouverture des données ? L’objectif est d’améliorer et de garantir une transparence avec les citoyens (sauf sur les données qui ne sont pas aptes à être partagées). Tout ce qui peut concerner la collectivité et qu’il est possible d’ouvrir au public, Sailly-Lez-Lannoy possède la volonté de le faire. Un onglet sur l’open data est prévu sur le site internet qui est en reconstruction
- Quels freins ? / Quels leviers à la démarche open data au sein de la collectivité ? Les freins incarnent la taille de la commune, qui est petite et rurale, ainsi que les conseillers qui appartiennent à une génération non familière avec l’open data
- Avez-vous déjà publié des données en open data ? Oui, nous avons déjà publié un jeu de données sous licence ouverte
- Avez-vous déjà utilisé des standards techniques pour guider la publication de jeux de données ?Non, nous n’avons pas de standards de référence
- Les jeux de données de votre organisation sont-ils clairement affiliés à un collaborateur ou à un service de votre organisation ? Oui, il y a un propriétaire clairement défini pour chaque jeu de données
- Avez-vous déjà eu à enlever des données sensibles d’un fichier avant de le diffuser/partager ? Non, nous n’avons jamais dû effectuer une telle opération
- Comment votre organisation approche-t-elle le management des connaissances ? Nous n’avons pas d’approche standardisée. Le transfert de connaissances s’effectue de manière sporadique ou quand les circonstances l’imposent.
- Votre organisation utilise-t-elle des données ouvertes provenant d’une source tierce ? Non, nous n’utilisons pas ce genre de données
- Votre organisation a-t-elle déjà tenté d’attribuer une valeur à un fichier ou jeu de données ? Non, nous n’avons jamais essayé d’attribuer une valeur à un fichier/jeu de données
- La manière dont la publication de données ouvertes s’aligne sur la stratégie de votre organisation est-elle bien comprise ? Il n’y a eu aucune tentative de documenter ou d’identifier la place de l’ouverture des données dans notre stratégie
- Comment l’ouverture de données est-elle ou serait-elle financée au sein de votre organisation ? Il n’y pas de budget alloué à l’ouverture de données
- Dans quelle mesure votre organisation utilise-t-elle des données ouvertes (en provenance de votre organisation ou d’un tiers) ? Nous n’utilisons pas de données ouvertes
- Êtes-vous familier avec les problématiques d’open data ? Complètement, c’est le cœur de mon activité
- Que savez-vous sur les bases de données de votre collectivité ? Je ne sais pas ce que c’est…
- Savez-vous qui peut transformer et préparer un jeu de données dans votre collectivité ? Complètement, nous faisons ça souvent.
- Savez-vous si vous avez un catalogue de données avec des métadonnées ? C’est quoi un catalogue de données ?
- Connaissez-vous les différentes solutions permettant de publier des données en open data ? Oui, je les connais ainsi que leurs conditions d’utilisation
- Par quels moyens votre collectivité communique-t-elle ses évènements ? Nous sommes clairement multiplateforme ! Nous essayons d’être partout
- Êtes-vous à l’aise dans votre collectivité pour exploiter des données cartographiques (utilisation de fonds de cartes, géocodage des données, Système d’Information Géographique) ? Oui, vraiment, nous utilisons souvent ce type de données
- Utilisez-vous des données pour prévoir des phénomènes au sein de votre collectivité ? Je ne sais pas de quoi il s’agit.
C’est donc grâce à ce questionnaire que nous avons évalué le niveau de maturité open data de Sailly-Lez-Lannoy, et ce dernier s’élève à 1, échelon le plus bas de l’échelle.
Enfin, pour clôturer la première réunion, nous nous sommes penchés sur la wishlist, et nous avons rencontré notre premier problème : les besoins de Sailly-Lez-Lannoy ne s’inscrivent dans aucune des catégories proposées. Nous avons donc dû créer une nouvelle catégorie pour répondre aux besoins d’analyse des besoins sociaux de la commune.
Pour faire suite à cette réunion, nous avons communiqué un compte rendu qui met en lumière les enjeux évoqués dans cet échange. Compte rendu disponible ici. En contrepartie, notre interlocuteur nous a fourni les documents à exploiter pour notre mission de publication de ses données. Au nombre de 5, ils se concentrent sur l’aspect social de la commune, et regroupent un ensemble de données extraites de bases nationales par une entreprise missionnée en 2021 par Sailly-Lez-Lannoy même :
- Jeu de données 1 : Portrait statistique de la commune
- Jeu de données 2 : Enquête habitants
- Jeu de données 3 : Analyse qualitative
- Jeu de données 4 : Les axes prioritaires
- Jeu de données 5 : Les données Sailly-Lez-Lannoy
JOUR 2 – IDENTIFICATION
La deuxième journée de travail est focalisée sur l’identification des données de la commune.
Dans un premier temps nous avons pris connaissance de plusieurs facteurs d’une grande importance :
- Après un benchmark complet, le standard de données que nous allons devoir utiliser sur la Métropole Européenne de Lille est au format JSON. Les documents envoyés par la commune ne comportent pas la même nomenclature, nous allons ainsi devoir convertir les données au format adapté, augmentant notre charge de travail.
- Les données sont sous licence ouverte (Etalab), rapportée à la mission Etalab qui encadre l’ouverture des données de l’Etat français. Cette licence présente plusieurs versions, mais toutes sont ouvertes.
Nous avons donc durant la matinée étudié les documents explicatifs de notre journée sur le site opendatacanvas. Nous nous sommes également imprégnés des documents envoyés par notre interlocuteur, le Directeur Général des Services (DGS) de la commune. La prochaine étape était de travailler sur les besoins sociaux de la population de Sailly-Lez-Lannoy. Nous avons programmé une réunion à 14h avec le DGS afin de mieux comprendre ses attentes et de pouvoir appréhender ses demandes en termes de publication de données. Notre travail de l’après-midi consiste donc à remonter aux données sources, (INSEE principalement) afin de retrouver les données publiées par la source mère, les convertir en fichier excel et les regrouper dans les templates prévus à cet effet afin de pouvoir les rendre publics dans les jours prochains.
Nous avons également réalisé cet après-midi, l’organigramme permettant de retracer d’où venaient les données. Dans notre cas, le traçage de données est assez simple car la Mairie de Sailly-Lez-Lannoy a missionné une entreprise (COPAS) afin de récolter des données en 2021. Cette entreprise est à l’origine des 5 documents que notre interlocuteur nous a transférés en tant que base de données. Cette entreprise a récolté ces données par le biais de sources open data nationales, principalement trouvées sur les sites de l’INSEE, de la CAF et de l’Observatoire des territoires. Nous nous sommes donc répartis ces sources pour récupérer les données qu’elles présentaient. En effet, nous avons choisi de les télécharger directement à la source afin d’éviter toute dégradation de données.
Marianne Terseur était en charge de la rédaction du mail compte-rendu et de l’organigramme ci-dessous :
JOUR 3 – MISE EN QUALITÉ
La mission du jour : nettoyer les données récoltées sur Sailly-Lez-Lannoy et les 95 communes de la métropole de Lille. Le premier point de la journée se fit avec notre interlocuteur pour lui expliquer le programme journalier et lui demander ses codes d’accès au compte de Sailly-Lez-Lannoy sur le site de la Métropole de Lille.
Au retour de l’échange avec le DGS, nous nous séparons en deux groupes distincts : une équipe dédiée au traitement et la publication des données sur la commune, et l’autre pour les 95 communes de la Métropole de Lille (MEL). Privilégiant la première tâche dans la mesure où il s’agit de celle commandée par notre interlocuteur, les jeux de données exploitables pour Sailly-Lez-Lannoy sont au nombre de 2. Après vérification des jeux de données ouverts sur le portail de la métropole de Lille, nous nous sommes familiarisés avec les cartes d’identités et les métadonnées qu’il nous faudra remplir, ainsi que sur la méthodologie de remplissage. C’est par ces biais que nous allons publier les 2 jeux de données sur le site de la Métropole de Lille, grâce au compte de Sailly-Lez-Lannoy. Cependant nous rencontrons un premier problème : l’identifiant et le mot de passe de notre interlocuteur ne marchent pas sur le site de la MEL, nous sommes forcés de remettre la connexion à la MEL à plus tard.
Dans un second temps, concernant la tâche des 95 communes de la MEL, le deuxième problème qui se posait fut de distinguer les communes faisant partie de la MEL des communes du département dans les bases de données. De fait, les données de l’INSEE qui nous servent de base de construction ne possèdent pas de critères de séparation des autres communes du département. Pour cela nous avons réalisé une séparation binaire des communes via la fonction si d’Excel, puis en triant les communes par cet intermédiaire. Nous y parviendrons pour les 3 bases de données que nous avons jusque-là utilisées. Malheureusement, lors de l’exécution de cette méthode nous avons écrasé des données pour gagner en temps, par conséquent l’opération est à refaire sous une méthode nouvelle : la création de la variable MEL avec 1 inscrit dans la colonne si la commune appartient à la Métropole de Lille et 0 inscrit dans la colonne si la commune n’appartient pas à la Métropole de Lille.
L’après-midi du troisième jour se révèlera assez déconcertante. En effet, suite à un appel avec un responsable de la MEL à 14h30, nous apprenons que la MEL, ayant autorité de la publication des données sur leur plateforme, ne souhaite pas que nous publions sur leur portail. En effet, étant donné que nos sources viennent de sites nationaux accessibles à tous (Observatoire des territoires, INSEE, CAF), la MEL ne voit pas d’intérêt à re-publier ces données sur leur portail en sachant qu’elles sont déjà disponibles en ligne. Cela fait partie de leur politique de publication des données.
Après cette annonce notre objectif de départ était impossible à réaliser. Le sentiment partagé par le groupe était que les efforts fournis avaient été vains et le travail à recommencer. L’équipe Datactivist nous soutient dans cette situation inédite et tente de trouver des solutions pour se relever et tenter de publier des données tout de même malgré le refus de la MEL.
Plusieurs solutions sont envisagées :
- Essayer de publier sur la MEL d’autres jeux de données que ne nous a pas encore fourni notre interlocuteur de Sailly-Lez-Lannoy, à savoir les délibérations et les subventions.
- Créer une identité web à la commune en réalisant une mission de communication, à savoir créer une page web regroupant les données fournies par notre interlocuteur. Il s’agirait donc de créer une stratégie de communication utilisant les données visuelles envoyées par la commune (graphiques, schémas)
Nous quittons l’établissement vers 17h30, sans nouvelles de notre interlocuteur et dans l’attente d’une réponse afin de pouvoir avancer dans notre travail.
JOUR 4 – PUBLICATION
Suite à un appel avec notre interlocuteur de Sailly-Lez-Lannoy, notre référente Céline nous apprend qu’il ne souhaite pas abandonner nos jeux de données et plutôt que de les publier sur le site de la MEL, nous les publierons directement sur le site data.gouv.
Le travail recommence donc pour notre équipe, il s’agit dans un premier temps de remplir les fiches descriptives des données afin de préparer leur publication. Pour cela, il a fallu créer une carte d’identité du jeu de données en parlant donc de son contenu, du processus de collecte, des mots clés et en renseignant la fréquence de mise à jour.
Fiche descriptive du jeu de données sur la population
Nous avons ensuite créé le compte de la commune sur data.gouv pour pouvoir publier nos jeux de données. Voici les liens des données que nous avons publiées :
https://www.data.gouv.fr/fr/datasets/information-sur-la-population-sailly-lez-lannoy/
https://www.data.gouv.fr/fr/datasets/information-sur-le-logement-sailly-lez-lannoy/
Dans l’après-midi, un nouveau jeu de données a été mis à notre disposition par la commune de Sailly-Lez-Lannoy : les subventions attribuées aux associations entre 2016 et 2022.
Nous avons dû récupérer les données contenues dans sept fichiers de traitement de textes pour créer un seul tableau standardisé. Grâce au site opendata.lillemetropole et son répertoire des établissements du territoire de la MEL[^1], nous avons pu compléter les informations manquantes, c’est-à-dire les SIRET des associations qui ont reçu une subvention de la part de Sailly-Lez-Lannoy.
Nous nous sommes ensuite aidés du site Schéma Data Gouv qui explique comment ordonner les données et créer un document standardisé. Il nous a aussi permis de valider nos données pour vérifier que nous avions bien respecté les standards de publication en open data. Par exemple, il a fallu remplacer toutes les virgules par des points (grâce à Ctrl+H) pour que les données ne soient pas altérées en format csv.
Modèle de publications de données de subventions
https://schema.data.gouv.fr/scdl/subventions/2.0.2/documentation.html
Exemple d’erreurs que peut détecter le logiciel lors de la vérification
https://schema.data.gouv.fr/scdl/subventions/2.0.2/documentation.html
Nous avons ensuite publié ce nouveau jeu de données sur le site data.gouv : https://www.data.gouv.fr/fr/datasets/subventions-aux-associations-sailly-lez-lannoy/
En parallèle, nous avons élaboré un plan de communication de la commune autour de l’ouverture de données, ainsi que les data-visualisations qui pourront être exploitées dans cette communication. L’objectif est que la commune puisse communiquer sur son site internet et sur les réseaux sociaux concernant les données qu’elle a ouvertes, rendant ces données à la fois accessibles sur le portail data.gouv dans un format standard et analysable par des algorithmes mais aussi par les habitants de Sailly-Lez-Lannoy dans un format adapté dans un objectif de transparence.
JOUR 5 – VALORISATION
Aujourd’hui c’est le dernier jour, la mission est de peaufiner tout ce qui a été fait auparavant mais également de créer des graphiques et une stratégie de communication liée à la publication des données de la commune. Après une réunion avec l’équipe Datactivist à 9h nous nous mettons au travail.
Suite à un point matinal avec notre référente Céline, Marianne réalise dans un premier temps les graphiques liés à nos jeux de données via Excel. Des graphiques sont donc créés et pendant ce temps, Julie travaille sur l’identité numérique de la commune et la stratégie créative. Elle crée donc un Powerpoint de notre suggestion de stratégie de communication où en plus nous montrons les jeux de données que nous avons ouvert.
L’après-midi consiste en la mise en commun de nos données avec celles collectées par l’autre groupe de Sailly-Lez-Lannoy. Afin de rendre la présentation plus digeste pour notre interlocuteur, nous avons décidé de faire une présentation commune. Nous avons donc compilé toutes nos informations afin de créer un Powerpoint de présentation que nous montrerons à notre interlocuteur à 17h. Nous avons eu quelques difficultés pour réaliser des graphiques pour chacun des jeux de données. Nos jeux de données contiennent énormément d’informations ce qui nous a permis de créer plusieurs graphiques par jeu de données.
Si notre Powerpoint de présentation à la commune est commun, notre stratégie de communication sur l’ouverture de données nous est propre.
Quelques exemples des slides de notre stratégie de communication.
Dans notre stratégie de communication, nous avons détaillé les cibles de l’ouverture des données, puis les vecteurs par lesquels nous souhaiterions que la commune diffuse le message (Facebook, Linkedin, Instagram, Site internet, affichage dans la commune).
Nous avons choisi de diviser nos jeux de données diffusés en 3 grands axes : Population, Logement et Subventions.
La mise en commun de nos données et graphiques avec l’autre groupe de la commune de Sailly-Lez-Lannoy nous permet d’être enfin prêts pour la réunion de 17h, afin de présenter à notre interlocuteur le fil de notre travail, nos avancées, les difficultés que nous avons rencontré et enfin les jeux de données que nous avons réussi à rendre publics. Au total, ce sont 14 jeux de données de la commune qui ont été rendus publics sur le portail opendata.gouv. Un des jeux de données va également pouvoir être publié sur le portail de la MEL car non disponible sur ce dernier : il s’agit de celui sur les subventions attribuées aux associations.
CONCLUSION
En conclusion, cette semaine fut riche en apprentissages, en émotions et en partage. La découverte de la commune de Sailly-Lez-Lannoy, des modalités de manipulations et publication de données sur Opendatacanva ainsi que la prise en main des différents jeux de données en coopération avec un second groupe ont rythmé une semaine forte en sensations fortes qui a appelé à une vraie adaptation du groupe.
Il a été assez particulier d’appréhender au début la manière avec laquelle devaient être traitées des données qui semblaient déjà parfaitement bien renseignées, triées, et traduites sous forme de graphique par Guillaume, notre référent à la commune de Sailly-Lez-Lannoy. Notre travail a donc surtout consisté en la re-publication de données et la mise en valeur de celles-ci auprès des habitants de la commune.
Notre mission fut double : publier des données en open data sur des bases de données nationales de manière standardisée mais aussi les publier au niveau local sur le site de la commune avec des clés de lecture pour l’information des habitants. Nous avons réussi à ouvrir trois jeux de données : sur la population, le logement et les subventions accordées aux associations de Sailly-Lez-Lannoy.
Les obstacles que nous avons rencontrés n’étaient pas forcément ceux auxquels nous nous attendions. En tant qu’étudiants, nous avons l’habitude de consignes et d’un cadre clair or le début de la semaine nous a quelque peu déstabilisé par les imprévus et certaines incompréhensions avec nos interlocuteurs, comme la Métropole Européenne de Lille (MEL). Nos deux principales difficultés ont été dans un premier temps le fait que notre interlocuteur ait fait une demande hors catalogue, dans un second temps, le refus de la MEL de publier les données déjà sur les bases nationales a également été déconcertant pour nous. Toutefois, nous avons pu rebondir rapidement et nous adapter aux nouvelles consignes et missions reçues à l’issue du 3ème jour notamment. Nous en sommes tous ressortis plus à même de gérer ce genre de situation à l’avenir, particulièrement dans le monde professionnel.
D’un point de vue un peu plus personnel, ce challenge a déjà été l’occasion de créer une très bonne entente et de travailler, sur un temps plus long qu’un simple devoir, en groupe. Bien sûr, nous avons appris tout le côté technique que représente la donnée. Entendons-nous, il y a certes une large disparité entre chaque groupe des missions demandées, mais nous avons pu explorer un pan très intéressant de la data que d’autres groupes n’ont pas forcément exploré: la communication auprès des citoyens. Élément extrêmement intéressant de notre travail, nous avons articulé la data, pouvant paraître assez nébuleux pour les citoyens, et l’essentielle transparence de cette dernière devant être publique.
Le format 5 jours a été pour nous le meilleur format, il nous a permis de pouvoir travailler sur moyen terme sur un projet, et se focaliser dessus presque 8h par jour. Nous pensons que le format d’une semaine est donc une très bonne chose. Au-delà du challenge en lui-même, cette expérience nous a permis de mieux appréhender notre fonctionnement en groupe, de savoir définir la répartition des tâches. Il y a un côté très satisfaisant à se voir avancer progressivement dans le challenge et à réaliser des choses concrètes. De plus, les liens avec notre interlocuteur étaient très bons et le dernier appel nous a confirmé qu’il était très satisfait de notre travail et que cela allait énormément lui servir à l’avenir. C’est un vrai plus de sentir que ce que l’on a réalisé sera réellement utile pour la collectivité.
Le challenge Data a donc dans l’ensemble été une très bonne expérience pour notre groupe, nous permettant de travailler sur des sujets différents de ceux que l’on a l’habitude de traiter, mais également dans un format inhabituel pour nous. Cette semaine nous a rapproché du monde professionnel et nous en a donné un avant-goût : le travail d’équipe, les imprévus, les deadlines…On sait que c’est ce qui nous attend à l’avenir, mais si l’avenir ressemble au Challenge Data, alors franchement c’est sympa ! :)