Carnet de bord de l’ouverture des données de Croix
par Hady Hage, Emma Buiret, Raphaël Zwein, Maxence Hanriot, François Paillard, Capucine Renault, Alice Zarba
Introduction
Premier jour de challenge data, nous arrivons en Auditorium afin d’assister à la présentation de la semaine de challenge data. Allyson ainsi que toute l’équipe Datactivist nous expliquent ainsi les enjeux, contours et défis de la semaine. Peu après, nous nous rejoignons en salle médiane, dans l’ancienne bibliothèque universitaire. Toute l’équipe est présente : Alice, Capucine, Raphael, Emma, Maxence, François et Hady. Notre collectivité est attribuée : nous travaillerons avec Croix (Nord) cette semaine. Surprise improbable, Hady connaît bien la ville de Croix, cette dernière étant limitrophe à Roubaix. Il mettra donc à disposition ses connaissances sur la ville, ce qui nous facilitera la tâche dans le traitement d’information sur la ville !
Nous sommes donc impatients de commencer cette semaine de challenge data, accompagnés par notre référente Diane de l’équipe Datactivist. Cette semaine sera l’occasion pour une partie d’entre nous de découvrir ces enjeux autour de l’open data, et pour d’autres d’approfondir cette démarche sur laquelle nous sommes, pour certains, engagés depuis notre première année à Sciences Po.
Dans ce carnet de bord, nous présenterons ainsi les péripéties de chaque jour du challenge, mettant en avant les difficultés rencontrées, mais surtout les cheminements et découvertes lors de nos recherches et travaux.
Nous retracerons ainsi chaque jour-étape de notre semaine : le diagnostic, l’identification, la mise en qualité, la publication, et enfin la valorisation.
Bonne lecture !
JOUR 1 – DIAGNOSTIC
whislist :
Lors de cette première phase du Challenge Data, nous avons découvert la collectivité de Croix (Nord) qui se trouve en banlieue de Roubaix dans la région Haut-de-France et compte 20 881 habitants. Nous avons eu un rendez-vous en début d’après-midi avec notre interlocutrice de Croix : Raphaël était chargé de dialoguer avec la référente et lui posait les questions, Capucine remplissait le questionnaire avec les réponses données par notre interlocutrice pendant que moi et François prenions les notes, et que Hady et Maxence intervenaient aussi pendant la réunion (Alice est partie travailler un peu plus tôt). Suite à cet échange, nous avons déterminé que la collectivité n’était pas encore mature en matière de traitement des données (après plusieurs remplissages du questionnaire dont les résultats n’apparaissaient pas avec les problèmes de connexion). Par la suite nous avons présenté à notre interlocutrice les thématiques des données et avons dégagé 10 principaux jeux de données à traiter dont la collectivité a besoin. Parmi ces dix jeux de données, nous comptions les actes d’états civils, la liste des élus, les IRVE, les lieux de covoiturage, les budgets primitifs, les consommations annuelles d’électricité et de gaz par secteurs d’activité, les établissements d’accueil de la petite enfance par effectif scolaire, les prénoms des nouveaux nés, ainsi que les monuments historiques. Nous avons rencontré une légère difficulté quant au niveau de maturité de la collectivité : certains jeux de données ne peuvent être traités pour cette collectivité du fait de leur complexité, et nous avons décidé de nous en tenir généralement aux jeux de données de niveau 1 et de niveau 2. De fait, nous ferons une sélection en fonction des jeux de données que nous enverra notre interlocutrice le lendemain. Pour finir, après avoir dégagé ces dix items principaux, nous avons rempli la wishlist et avons fini le diagnostic de la collectivité de Croix. Évidemment, notre (mon) moment préféré de la journée a été notre rencontre avec notre référente, la fabuleuse Diane, qui nous a-do-ré dès le premier jour, et réciproquement. Après cela nous sommes tous rentrés chez nous pour un repos bien mérité surtout que les symptômes grippaux nous ont tous attaqué !!! Ce jour 1 peut se résumer en un mot : cluster.
Le kit du datactiviste (qui a la crève) chevronné !!
JOUR 2 – IDENTIFICATION
La première étape de la journée était l’exploration et la recherche de données. Le premier problème qui s’est posé c’est l’absence de jeux de données car notre interlocutrice n’était pas disponible le matin et avait une réunion jusqu’à 13:30. Étant un groupe motivé et super productif, on est pas resté les bras croisés pendant 4h30 et on est directement passé à l’étape 2, la création du magnifique organigramme ci-dessous. Pour le faire, on s’est basés sur le mail que notre interlocutrice avait envoyé hier (le nom des services et leurs affiliations) et Hady a trouvé les numéros sur le site. Le premier organigramme est basé sur la wish list du jour 1. En plus d’être productifs, on a traité un jeu de données présent sur le site (la liste des élus) en se basant sur les templates donnés par Diane. Chacun a été assigné à une catégorie (Moi (Raphaël) et Alice c’était l’âge et la date de naissance, François et Capucine les fonctions, Hady et Maxence les codes etc…). Dans un souci d’efficacité on a aussi appelé les différents services pour demander les jeux de données mais quelques problèmes d’ordre logistique sont survenus (certains ne savaient pas de quoi on parlait, d’autres n’avaient pas accès aux fichiers) alors on a juste attendu notre interlocutrice pour nous envoyer les jeux de données. On prend ensuite une pause bien méritée et puis à 13:30 on appelle notre interlocutrice. Là, on a eu un gros souci. Le problème c’est qu’elle a envoyé des jeux de données différents de ceux présents dans la wish list (dont 6 fichiers excel qui parlent littéralement que d’arbres). Du coup, on a dû faire un nouvel organigramme. On a ensuite organisé tous les jeux de données et les avons répartis. L’un des moments les plus cruciaux était l’étape 2.3 : Évaluer le travail de mise en qualité. En vrai c’était assez tranquille à faire, on a rapidement déterminé les fichiers faciles à réaliser et ceux qui étaient durs à réaliser (on a de supers bons esprits analytiques). Finalement, ce qu’on a aussi appris c’est que pas tout ne se passe comme il l’avait été prédit, on a su s’adapter (sauf pour le fichier des arbres je le déteste) et travailler en groupe avec une bonne cohésion et un consensus général (sauf pour les arbres).
Organigramme des données :
L’organigramme dont nous étions si fiers…
… que nous avons dû modifier, mais on reste fiers !!!! (encore plus beau et plus précis).
JOUR 3 – MISE EN QUALITÉ
Pour ce troisième jour, le groupe 15 a reçu une mission claire : nettoyer, compiler, compléter et standardiser les jeux de données que nous avions reçus précédemment. Dans notre cas, le gros du travail s’effectuait sur la remise en forme des données, mais également sur la complétion de celles-ci avec la recherche sur des sources extérieures. Après une répartition des tâches efficace et légèrement biaisée par la haine des arbres de Raphaël et l’absence de François (toujours reprochée par Raphaël), nous avons débuté notre travail qui s’annonçait fastidieux. J’ai pu m’occuper des données sur les actes d’état civil, les prénoms des nouveaux-nés et les établissements d’accueil de petite enfance. Raphaël et Emma ont hérité des magnifiques résultats des élections présidentielles, tandis que Capucine et Alice ont terminé la liste des élus entamée hier et les mobilités douces. Hady s’est courageusement dévoué pour faire les arbres remarquables. Finalement, notre journée se résumait plutôt à travailler en petits groupes voire individuellement pour terminer avec des jeux de données clairs et satisfaisants. Pour parler plus en détail de mon expérience, je n’ai pas eu de mal à maîtriser l’outil Google Sheets étant donné que nos opérations de mise en forme étaient pour la majeure partie manuelles. Le groupe n’a jamais rencontré de problèmes pour utiliser les fonctions du logiciel. Les difficultés du jour étaient d’ordre de recherche des informations et de compréhension des informations demandées. Dans les templates qui nous guidaient dans la mise en forme, certains titres de colonnes étaient mystiques (coucou les identifiants uniques des établissements d’accueil de petite enfance, ainsi que les géopoints et geoshape). Cela nécessitait donc un travail pour comprendre et obtenir ces informations. De mon côté, cela se traduisait par des tonnes de recherche sur les crèches de la ville de Croix, je ne pensais pas que le challenge data allait nous demander des tâches sous cette forme.
Un historique Google d’un jeune papa à Croix ou bien d’un individu très suspect
J’ai pu entendre Raphaël et Emma se plaindre de la cartographie qu’ils devaient réaliser pour comprendre les quartiers de Croix et l’emplacement des bureaux de vote pour les élections présidentielles. Je remercie sincèrement Google Maps d’être aussi utile et gratuit. Nous sommes restés toute la matinée sur des tableaux excel afin de tout bien mettre en place. Après cela, nous avons contrôlé la validité de nos données sur les plateformes adéquates quand le schéma était standardisé, puis contrôlé manuellement avec l’aide de Diane les fichiers de données que nous avons créés.
Un magnifique jeu de données réalisé le matin et validé dans la foulée
Après ce travail, un rebondissement inattendu est arrivé avec un mail de notre interlocutrice croisienne nous signalant deux erreurs dans l’organigramme dont Raphaël était si fier. Comme attendu, il était ravi de le refaire (non). Après cela, deux membres de notre groupe ont pu assister à la réunion organisée par un collaborateur de la métropole de Lille pour expliquer les étapes de la publication que nous allons entamer demain. J’ai vraiment l’impression que prendre de l’avance est devenu une habitude dans ce groupe, qui est très franchement “efficace, sympa, parfait, mes préférés” (Diane, sous la pression de Raphaël).
JOUR 4 – PUBLICATION
Journée de tempête pour l’équipage. Alors que je réintègre le groupe après mon absence dûe à une maladie non-identifiée la veille, nous sommes encore amputés d’un membre. Capucine est tombée au combat du même mal qui a frappé moi et Emma Grgg (comme l’appelle Raphaël). Cependant, alors que nous étions confiants les jours précédents, les difficultés s’accumulent. D’abord, nous nous faisons fermement chicoter par Diane pour avoir déserté notre poste la veille sans avertissement. Cet écart de conduite ne se reproduira plus, mais il nous fait perdre le statut de groupe préféré (au grand dame de Raphaël et d’Emma qui lâchent quelques larmes). Je tousse en écrivant ces lignes, quinte de toux motivée par la maladie et la déception envers notre action commune.
Les rescapés des jours précédents, venant clopin-clopant pour fournir de la data.
Mais les difficultés ne s’arrêtent pas là. D’abord, nous avons dû refaire (encore !!!! Une quatrième fois comme dit raphaël) l’organigramme. Nous commençons à en avoir plein le dos de lui. Pendant que Raphaël et Emma le complètent en ajoutant les données transmises par la mairie de Croix sur les défibrillateurs, François, Maxence et Alice luttent pour constituer les fiches de méta-donné. Hady, de son côté, cherche à contacter notre interlocutrice de la mairie de Croix. Une fois celle-ci contactée, il nous a apporté de précieuses clarifications sur les jeux de données afin de parfaire nos fiches de métadonnées. La mairie est débutante dans la publication de données et souhaite donc publier des données pour répondre à des obligations légales et pour informer ses citoyens.
Dans l’après-midi, le temps s’est fait long et les difficultés se sont accumulées. D’abord, nous avons perdu deux autres membres des DataboyZ, Alice qui a dû s’absenter pour raisons professionnelles, et Emma, pour des raisons académiques. A partir de ce moment-là, la barque était trop grande pour un si petit équipage. De nouvelles informations transmises à Hady par notre interlocutrice ont provoqué un branle bas de combat général : nous avons dû relire et modifier toutes les fiches descriptives de données alors que nous pensions nous en être affranchis à tout jamais. Après d’âpres relectures, nous les avons achevées, et Hady a finalement pû les poster sur le site de la Métropole Européenne de Lille. Le site de la MEL sera la pierre d’angle de la publication des données pour la mairie de Croix. Nous posons aujourd’hui les premières bases de la publication des données de la mairie. Celle-ci pourra par la suite publier d’autres jeux de données. Malheureusement, un dernier coup au moral a été porté alors que la joie commençait à poindre parmi le groupe. Les coordonnées des défibrillateurs données par la mairie de Croix n’étaient pas bonnes et indiquaient, selon Raphaël, le pôle Nord. Bien que nous ne doutons pas de la bonne volonté de la mairie de Croix à empêcher les pingouins de faire des arrêts cardiaques, l’information suspecte doit être corrigée et nous devons alors encore modifier un de nos travaux (cette fois-ci, les fiches de données publiées sur le site de la métropole). François, quant à lui, a écrit un mail à notre interlocutrice afin de lui proposer d’inviter le lendemain les élus de la municipalité pour leur présenter le travail réalisé par les DataboyZ dans le datachallenge.
Un exemple du tableau modifié indiquant cette fois-ci les défibrillateurs à Croix,France, et non pas à Nuuk, Groenland
Enfin, alors que le soleil se couche sur Saint-Germain-En-Laye (il n’est que 17h02), le groupe se reconvertit en designers graphiques. Raphaël et François ébauchent rapidement un logo pour le groupe Data de la ville de Croix alors que Maxence et Hady cherchent des modèles de canva pour mettre en page un prospectus à délivrer aux élus pour leur présenter le travail accompli. Tant bien que mal, nous y parvenons, éreintés et fourbus mais fiers du devoir accompli. Certains éléments du groupe se sentent particulièrement fatigués, et nous refusons poliment (je crois) l’invitation à boire un verre afin de pouvoir être (plus ou moins) en forme le lendemain.
Photo du superbe canva produit pour les élus de Croix
JOUR 5 – VALORISATION
Dernière journée mais non la moins chargée !! Alors un grand merci à Alice et François qui ont pensé à leurs camarades et ont ramené des viennoiseries pour toute l’équipe.
Dès la fin du briefing quotidien, toute la team se met au travail après répartition des rôles. Avec Alice nous nous occupons dans un premier temps de finir le travail de communication de la veille à savoir le document récapitulatif de la semaine sur Canva et le flyer. La designeuse de l’équipe, Emma, se charge ensuite de nous faire des présentations et mises en page dignes de ce nom (merci à elle) pour les plus grands plaisirs de nos lecteurs ! Pendant ce temps, les garçons s’occupent de faire les premières datavisualisations, Alice et moi prenons le train en marche pour les aider à finir ce travail long et fastidieux notamment pour faire les premières visualisations !! Il est vrai que nous nous sommes un peu (beaucoup) prises la tête pour faire des graphiques avec quelques données seulement … ne nous jugez pas trop vite, maintenant on a compris comment faire ;) les gars eux ont clairement été plus efficaces pour cette tâche !
14:46. Emma crie sur tous les toits que ses designs sont un régal pour les yeux en regardant les dix derniers pourcents de la batterie de son ipad s’écouler tranquillement : pour charger c’est la guerre !!
Visualisation de la phrase « veni vedi vici » selon Emma.
Emma s’en va ensuite pour un oral, avec Alice nous ne résistons pas au déjeuner à 13h mais les garçons plus motivés que jamais décident de continuer de travailler jusqu’à 14h au moins, il faut dire que le jeu de données concernant les défibrillateurs leur a donné du fil à retordre ! Après ce calvaire, Hady arrive avec les pizzas, c’est leur délivrance.
En début d’après-midi, nos datavisualisations sont prêtes. Elles sont sous forme de plan pour certaines (mobilités douces, établissement d’accueil de la petite enfance ou encore résultats des élections présidentielles) ou sous forme de graphiques pour d’autres (état civil et défibrillateurs). Pour les réaliser, nous avons utilisé Excel et Google sheets.
Avec Alice on reprend le travail après notre pause repas, Emma nous rejoint, on s’occupe alors de publier les jeux de données à partir du formulaire. Ensuite on monte au premier étage trouver un peu de calme pour la rédaction de notre partie du carnet de bord pendant que Raphaël termine son travail de cartographie, et que nos autres camarades s’occupent de terminer les dernières fiches de datavisualisation. Notre dernière heure de travail est commune, nous nous retrouvons tous pour préparer la présentation de notre travail de la semaine lors du point final avec notre interlocutrice en fin de journée.
Voici nos datavisualisation :
https://docs.google.com/document/d/1pJ39_bhLetc1RQ57hqUwXWywPFRxwJgf/edit
https://docs.google.com/document/d/1csI377yWwsvORRbfUi8thkGeE5qC6wLX/edit
https://docs.google.com/document/d/18gTe2kcIJhOxQ5pPL1HlLjTENKPc4xZn/edit
https://docs.google.com/document/d/1o_WNbqdHih4GJ-II3_8WP8z4sUG9lX0N/edit
Nos visualisation sous forme de cartes :
https://umap.openstreetmap.fr/fr/map/carte-des-arbres-remarquables-de-croix_838490#14/50.6771/3.1624
https://umap.openstreetmap.fr/fr/map/carte-des-mobilites-douces-de-croix_838558
https://umap.openstreetmap.fr/fr/map/carte-des-defibrillateurs-de-croix_838627#14/50.6778/3.1494
http://u.osmfr.org/m/838459/
CONCLUSION
En définitive, cette belle expérience qu’est le Challenge Data, fut très enrichissante pour les membres du groupe 15 mais aussi utile pour la Commune de Croix.
En effet, il nous a tout d’abord permis d’ouvrir huit jeux de données que sont les arbres remarquables, les actes d’état civil, les défibrillateurs, les élections présidentielles, les établissements d’accueil pour la petite enfance, les mobilités douces, les élus de la communes et les prénoms des nouveaux-nés. Alors que nous avions commencé la deuxième journée avec beaucoup d’incertitudes et seulement 3 tableaux Excel, plusieurs documents nous ont été envoyés au fur-et-à-mesure, nous permettant d’arriver à ce nombre honorable de jeux de données. Si trois jeux de données furent dès le Jour 2 classifiés comme “simples” à traiter, le reste s’est inscrit dans la catégorie orange voire rouge. En l’occurrence, cette évaluation s’est affirmée plus qu’exacte au cours de la mise en qualité de ces données le troisième jour. Plus les jours passaient, plus la difficulté de la labeur s’intensifiait, tout particulièrement le Jour 4 et 5. Effectivement, si la collaboration avec une entité extérieure et l’appréhension des jeux de données entraient dans le cadre de nos compétences, l’élaboration d’un plan de communication et la valorisation des données furent des tâches plus complexes, ou du moins plus longues à réaliser.
Par ailleurs, notre référente a réellement été dévouée dans cette collaboration. Elle a su se rendre très disponible au cours de la semaine. Elle s’est présentée comme l’intermédiaire idéal entre la Ville de Croix et notre groupe. La communication fut fluide malgré quelques difficultés classiques d’une collaboration à distance: disponibilité, temps de réponse, questionnements, contre-temps…
En tant que sciencespistes, le Challenge Data nous a permis de nous rendre compte d’une réalité toute autre que celle dépeinte dans nos manuels. Le travail des collectivités territoriales, et entre autres les communes, est ancré dans le quotidien des citoyens/administrés et dans leurs lieux de vie/d’activités. Nous n’aurions jamais pensé travailler sur des arbres remarquables ou sur les huit précieuses naissances de ces dernières années dans une commune de la métropole lilloise il y a cinq jours de cela, et pourtant! Nous avons pu aborder des thématiques plus pratiques et moins politiques. Cette semaine s’est également présentée comme une opportunité pour chacun de nous de développer des outils numériques finalement très peu utilisés dans nos vies étudiantes.
Le groupe 15 a fait preuve d’une bonne coordination tout au long de la semaine. Nous avons eu la chance de travailler dans la bonne humeur, à rigoler tout en gardant notre sérieux et notre efficacité. L’ensemble du groupe a su rester patient (ou presque) et travailleur malgré les difficultés et les différends. Notre plus gros casse-tête fut la mise en qualité et la valorisation du jeu de données relatifs aux défibrillateurs qui nous été envoyé a posteriori et dont nous n’avions pas forcément saisi toute la complexité au départ. Notre plus belle réussite fut la datavisualisation qui s’affirme comme le fruit de notre travail collectif et une concrétisation des données, parfois abstraites, collectées et standardisées.
Nous sommes très contents de conclure ce challenge en ayant le sentiment d’avoir produit un travail de qualité, en correspondance avec les attentes de la Ville de Croix. Nous avons conscience que nous nous sommes rendus utiles pour l’avancée de la collectivité dans sa transition numérique vers l’ouverture des données permettant une meilleure compréhension et accessibilité pour le grand public !