+ - 0:00:00
Notes for current slide
Notes for next slide

Identification et évaluation des gisements de données

Formation ORACCLE

Samuel Goëta, Clément Mandron

2022-11-15

1 / 35

Ces slides en ligne : http://datactivist.coop/oraccle

Sources : https://github.com/datactivist/oraccle

Les productions de Datactivist sont librement réutilisables selon les termes de la licence Creative Commons 4.0 BY-SA.



2 / 35

We open data, we make them useful

3 / 35

Résultats attendus

  • "Wanted Data List" listant les données nécessaires au projet
  • Recensement et évaluation des jeux de données ouverts ou disponibles en interne
  • "Plan de route données" pour déterminer la meilleure stratégie permettant d'obtenir les jeux de données souhaités, et les prochaines actions à mener
4 / 35

Résultats attendus

  • "Wanted Data List" listant les données nécessaires au projet
  • Recensement et évaluation des jeux de données ouverts ou disponibles en interne
  • "Plan de route données" pour déterminer la meilleure stratégie permettant d'obtenir les jeux de données souhaités, et les prochaines actions à mener

Autres formations au programme

Voir http://datactivist.coop/oraccle

4 / 35

Programme de la journée

5 / 35

Au programme de l'introduction

  • Présentation de la méthodologie
  • La réutilisation des données : un parcours du combattant
  • Intervention de Pierre Boudes : les objectifs d'ORACCLE
6 / 35

La réutilisation des données : un parcours du combattant

7 / 35

Obstacle 1 : la découvrabilité

A l'heure actuelle, les données sont très difficiles car généralement :

  • les moteurs de recherche des portails fonctionnent mal

8 / 35

Obstacle 2 : la documentation

Sur 12 villes en France, une étude de Datactivist (2018) a montré que :

  • la moitié des descriptions des jeux de données faisait moins de 180 caractères (soit un peu moins de la longueur d'un tweet)
  • 4% des jeux de données ont une description supérieure à 1000 caractères soit moins d'une demi-page.

9 / 35

Un exemple de données introuvables

Ce jeu de données contient plus de 6000 marchés publics attribués par l'Etat. Mais, malgré mon signalement, tout est fait pour le rendre introuvable !

10 / 35

Obstacle 3 : la qualité des données

Enfin, le troisième obstacle porte sur la qualité des données.

Le rapport de l'Open Data Barometer signale que :

"les données des gouvernements sont souvent incomplètes, pas actualisées, de mauvaise qualité et fragmentaires" et

"de manière générale, la gestion et la publication des données ouvertes sont fragiles et sujettes à des erreurs multiples."

⚠ la qualité des données ne dépend que de l'usage qui en est fait.

La documentation est indispensable pour que le public parvienne à saisir les usages précédents des données et les adapte à de nouveaux usages, souvent inconnus de celles et ceux qui les produisent.

11 / 35

Un exemple de données inutilisables

12 / 35

Un autre exemple de données inutilisables

13 / 35

Des opportunités manquées pour les porteurs de projets

Nombreux sont les porteurs de projet à passer à côté des données du fait des problèmes évoqués précédemment…

14 / 35

Des opportunités manquées pour les porteurs de projets

Nombreux sont les porteurs de projet à passer à côté des données du fait des problèmes évoqués précédemment…

Pourtant, les données peuvent potentiellement décupler l’impact d’un projet et disposer d’avantages comparatifs décisifs en :

  • offrant de nouvelles opportunités de création de services
  • proposant de nouveaux éclairages sur les phénomènes étudiés
  • en accélérant des processus métier peu optimisés.
14 / 35

Des opportunités manquées pour les porteurs de projets

Nombreux sont les porteurs de projet à passer à côté des données du fait des problèmes évoqués précédemment…

Pourtant, les données peuvent potentiellement décupler l’impact d’un projet et disposer d’avantages comparatifs décisifs en :

  • offrant de nouvelles opportunités de création de services
  • proposant de nouveaux éclairages sur les phénomènes étudiés
  • en accélérant des processus métier peu optimisés.

Besoin de médiation pour aider à :

  • trouver les bonnes données
  • demander des données manquantes (cf madada.fr)
  • "scrapper" ou extraire par API des données en ligne
  • …et parfois acheter des données
14 / 35

Des échanges trop rares entre producteurs et réutilisateurs de données

Du côté des acteurs publics, indispensable que les données mises à disposition trouvent un public qui les réutilise pour valoriser des cas d'usage qui justifient le travail investi.

Or, les espaces d'échange et de dialogue entre producteurs et réutilisateurs de données sont encore rares mais essentiels pour fluidifier les frictions de la réutilisation.

15 / 35

Notre méthdologie

16 / 35

Notre méthodologie : le parcours d’évaluation du potentiel data

  • Conçu par la FING dans le cadre de la campagne Infolab et enrichi par Simon Chignard.

  • Une méthodologie française documentée, “open source” qui est déjà utilisée en entreprise auprès du groupe UP.

  • Evaluer le potentiel des données (notamment ouvertes) pour un projet en minimum une journée et peut être décomposé en deux ou trois sessions.

  • Ne requiert aucune connaissance technique et s’adapte à tout type de projet

  • Débouche sur un “plan de route données”, un plan d’action permettant d’intégrer au projet les données utiles selon deux critères : le fort impact sur le projet et l’accessibilité des données.

17 / 35

Phase 1 : "Wanted Data List", comprendre les besoins data du projet

--> la liste idéale des données à mobiliser pour le projet. C'est une manière de prendre pied avec le sujet.

Décrire les jeux de données de la manière la plus simple, sans a priori ni référence à un jeu ou un fournisseur de données particulier : c'est la nature des données qui nous intéresse. Par exemple :

  • OK : sens de circulation des rues de Marseille.
  • KO : SIG de la ville de Marseille (ça ne nous dit pas quelle donnée vous intéresse et ne permet donc pas de savoir si elle n'est pas plus accessible ailleurs).
18 / 35

"Wanted Data List" sur Miro

60 minutes

19 / 35

Phase 1 : "Wanted Data List" documentation 😤

10 minutes

20 / 35

Phase 2 : la collecte et des données

80 minutes

Il nous fait maintenant trouver de vrais jeux de données correspondants à travers une phase de collecte des données.

21 / 35

Phase 2 : La collecte des données documentation 😤

10 minutes

22 / 35

[Conseil] Utiliser les opérateurs spéciaux

Exemple avec la requête "site:education.gouv.fr filetype:xlsx" :

23 / 35

[Conseil] Utiliser les facettes pour trouver les bonnes données

Les facettes sont des filtres dans les métadonnées.

24 / 35

[Conseil] Utiliser Google Dataset Search

Google propose depuis quelques temps ce moteur de recherche aggrégant de très nombreux portails open data. Les résultats sont inégaux mais le moteur est encore nouveau...

25 / 35

[Conseil] Chercher dans le réseau de données OpenDataSoft

OpenDataSoft référence tous les jeux de données publiés sur l'ensemble de ses portails. Parmi eux, le portail Public référence des jeux de données introuvables ailleurs comme la localisation des radars.

26 / 35

[Conseil] Trouver le bon tag sur OSM

La page "Elements Cartographiques" sur le wiki d'OSM recense tous les tags utilisés dans la base de données.

Plus d'infos : https://datactivist.coop/atelier-osm/

27 / 35

[Conseil] Utiliser le forum #TeamOpenData

Ici une question concernant les données sur la pollution sonore.

28 / 35

[Conseil] Rechercher les principaux portails open data du secteur en question

Pour notre cas, il peut en exister plusieurs :

Attention : tous ne seront pas utiles. N'hésitez pas à partager vos conseils aux autres !

29 / 35

Phase 2 : L'évaluation des données

40 minutes

30 / 35

Phase 2 : L'évaluation des données documentation 😤

10 minutes

31 / 35

Phase 3 : le plan de route data

70 minutes

La cartographie des données réalisée à l’étape précédente est un outil pour préparer le plan de route données du projet. 5 options en matière de sourcing des données:

  1. Sécuriser : s’assurer qu’une donnée critique pour le projet ne sera pas dégradée ou que sa fourniture ne sera pas interrompue,
  2. Augmenter : investir dans l’amélioration d’une donnée, sa qualité ou son niveau de détails,
  3. Collecter : mettre un place de collecte pour récupérer des données utiles pour le projet mais pas ou peu disponibles - on peut étudier l’intérêt du crowdsourcing,
  4. Nouer des partenariats : établir des accords avec des tiers pour accéder à leurs données, ou faire de l’échange de donnée entre partenaires,
  5. Acheter : identifier des sociétés (courtiers en données) qui pourraient vendre les données qui nous manquent.

Ensuite, vous devrez identifier 10 actions à réaliser maintenant / dans les 3 prochains mois / au cours de la prochaine année.

32 / 35

Une formation productive grâce à .... la documentation de vos projets

Faites les activités sur Miro ensemble :

Documentez en ligne ensuite :

33 / 35

Rappel du programme de la journée

34 / 35

Merci !

Contact : clement@datactivist.coop

35 / 35

Ces slides en ligne : http://datactivist.coop/oraccle

Sources : https://github.com/datactivist/oraccle

Les productions de Datactivist sont librement réutilisables selon les termes de la licence Creative Commons 4.0 BY-SA.



2 / 35
Paused

Help

Keyboard shortcuts

, , Pg Up, k Go to previous slide
, , Pg Dn, Space, j Go to next slide
Home Go to first slide
End Go to last slide
Number + Return Go to specific slide
b / m / f Toggle blackout / mirrored / fullscreen mode
c Clone slideshow
p Toggle presenter mode
t Restart the presentation timer
?, h Toggle this help
Esc Back to slideshow