Chapitre 1 Les grands principes d’une démarche d’open data

Comme nous allons le voir dans cette première partie, le cadre juridique de l’ouverture des données repose sur des racines anciennnes mais l’open data en tant que tel est apparu récemment, il y a moins de 10 ans, avec des grands principes qui se sont consolidés avec le temps. Dans cette première partie, nous allons revoir ensemble les grands principes de l’open data : leurs origines, leur adaptation en France et les bénéfices pour une collectivité à les adopter.

1.1 Aux origines de l’ouverture des données : retours sur quelques grandes dates fondatrices

En cinq épisodes, revenons sur les principaux moments de définition des grands principes internationaux de l’open data. Cette partie permettra de replacer l’open data dans son contexte d’apparition, de mieux connaitre les acteurs à l’origine des grands principes et de comprendre les textes de référence de l’ouverture des données. Nous résumerons les grands principes de l’ouverture des données dans la partie suivante.

Avant de revenir sur ces différents épisodes, il faut rappeler que le terme d’open data a des origines plus anciennes que la dernière décennie sur laquelle nous allons nous concentrer ici. Le terme est apparu pour la première fois dans les années 1970 dans les accords qu’a signés la NASA avec des pays partenaires en vue du partage de données satellitaires. C’est en 1995 qu’on en voit le premier usage public aux Etats-Unis dans un rapport de la National Academy of Science intitutlé On the Full and Open Exchange of Scientific Data.

1.1.1 2005 : Open Definition, la définition juridique des droits de l’usager du savoir ouvert

En août 2005,le chercheur en économie Rufus Pollock, fondateur de l’Open Knowledge Foundation (OKFN), une organisation à but non lucratif qui vise à “promouvoir l’ouverture de toutes les formes de savoir”, invitait les premiers membres de l’OKFN et son réseau de partenaires à adopter collectivement une définition du savoir ouvert. Dans son appel à commentaire (Request for Comments), Pollock souhaitait décliner une série de conditions essentiellement juridiques permettant d’établir qu’un savoir est ouvert. La définition devait aussi servir à énumérer les licences ouvertes spécifiques au savoir et à fédérer des disciplines éparses.

Cette définition se fonde directement de l’expérience du mouvement de l’open source, l’ouverture du code informatique, une généalogie clairement affirmée dans le texte de l’Open Definition qui crédite l’Open Source Definition comme la ressource essentielle qui a servi à la rédaction de la définition mais aussi à forger l’idée même d’ouverture. Cet effort de définition s’inscrit aussi dans le prolongement du travail de Creative Commons qui a défini une série de licences assorties à des droits et devoirs des usagers d’un savoir ouvert.

Pour la résumer en quelques mots, l’Open Definition quelques années après sa publication) décline les conditions de l’ouverture du savoir. Cette définition utilise la notion de savoir pour désigner un domaine très large, qui rassemble des objets informationnels très différents (donnée, document, contenu, œuvre, article…) Sans entrer dans le détail de chacune des clauses, l’Open Definition exclut les licences qui « discriminent » selon les types d’usagers ou la finalité de la réutilisation. Elle demande d’accorder trois droits fondamentaux (utiliser, réutiliser, redistribuer) et autorise à contraindre les réutilisateurs à deux exigences possibles : la citation de la source et le partage des modifications de l’œuvre avec la même licence (clause de share alike).

En posant la base d’un élargissement de l’open source au savoir, l’Open Definition a constitué une ressource précieuse pour l’ouverture des données publiques. Elle a établi des critères essentiellement juridiques qui caractérisent l’ouverture en termes de droits des usagers sans préjuger du type de savoir concerné. Cet effort de définition s’est inscrit aussi dans le prolongement du travail de Creative Commons qui a défini une série de licences assorties à des droits et devoirs des usagers d’un savoir ouvert.

Aller plus loin : lire l’Open Definition.

1.1.2 2007 : la rencontre dite de Sebastopol, la définition des grands principes de l’open data

Après avoir découvert les fondements juridiques de l’ouverture des données avec l’Open Definition, nous partons maintenant aux Etats Unis à la rencontre de ceux qui ont défini les principes encore aujourd’hui en vigueur de l’open data.

Le 22 octobre 2007, une invitation est envoyée aux membres d’un groupe de travail sur l’Open Government pour une rencontre les 7 et 8 décembre 2007 à Sebastopol en Californie au sein des locaux de la maison d’édition O’Reilly. Les organisateurs de cette rencontre sont Carl Malamud qui dirige le site associatif PublicRessource.org et Tim O’Reilly, le directeur de la maison d’édition O’Reilly spécialisée dans les sujets technologiques et l’édition électronique ouverte. Dans le texte de l’invitation, les deux organisateurs se sont fixés pour ambition de lister dix principes de l’open government afin que les candidats à l’élection du président des États-Unis suivent leurs recommandations.Trente participants sélectionnés par les organisateurs en fonction de leur affiliation à une organisation qui demande, ouvre ou réutilise des données ont accepté l’invitation de Malamud et O’Reilly.
La photo de famille des participants de la rencontre de Sebastopol

Figure 1.1: La photo de famille des participants de la rencontre de Sebastopol

Au termes des deux jours de la rencontre de Sebastopol, les participants ont défini ensemble une série de huit critères pour que des données gouvernementales soient considérées comme ouvertes : - complètes : toutes les données publiques doivent être rendues disponibles dans les limites légales liées à la vie privée ou la sécurité ;

  • primaires : les données ouvertes sont telles que collectées à la source, non-agrégées avec le plus haut niveau de granularité ;

  • fraiches : les données doivent être disponibles dès qu’elles sont produites (timely) ;

  • accessibles : les données doivent être utilisables par le plus grand nombre d’usagers potentiels ;

  • lisibles par les machines : les données peuvent faire l’objet d’un traitement automatisé par les machines ;

  • non discriminatoires : elles peuvent être utilisées par tous sans réclamer un enregistrement préalable ;

  • dans un format ouvert : ce format ne doit pas être la propriété d’une organisation en particulier et doit faire l’objet d’une gouvernance commune par ses usagers ;

  • avec une licence ouverte : les principes de Sebastopol vont plus loin que l’Open Definition en demandant que les données soient placées dans le domaine public.

Ces principes sont aujourd’hui encore le fondement de l’open data. Les participants de la rencontre de Sebastopol ont rempli leur objectif, à savoir l’adoption de ces principes par le futur président des États-Unis puisque le 21 janvier 2009, jour de son investiture à la Maison-Blanche, Barack Obama a signé deux mémorandums sur l’Open Government. Le premier exigeait une plus grande coopération des agences gouvernementales aux procédures du Freedom of Information Act (FOIA). Le second réclamait que les agences gouvernementales mettent en œuvre des politiques en faveur de la transparence, la collaboration avec la société civile et la participation des citoyens qui a abouti au lancement en 2009 de data.gov, le premier portail open data national.

Aller plus loin : le site OpenGovData.org propose une version annotée des principes de Sebastopol (en anglais).

1.1.3 2008 : “Raw Data Now”, l’appel du fondateur du web à l’ouverture des données brutes

Tim Berners-Lee, l’inventeur du web, a formulé son appel à l’ouverture des données brutes le 4 février 2009 à Long Beach en Californie lors d’une conférence TED. TED est un réseau de conférences retransmises gratuitement sur le web qui vise à présenter simplement des idées et à convaincre l’audience de s’impliquer.

Dans la vidéo de la conférence dépassant aujourd’hui le million de vue, Tim Berners raconte d’abord son parcours au sein du CERN, l’accélérateur de particules, où il a développé le web pour facilier le partage des documents produits dans son laboratoire. Berners-Lee dit ressentir la même difficulté pour accéder aux données qu’à l’époque de la création avec les documents. Pourtant, les données déterminent une grande partie de nos vies. Il se félicite de la naissance de l’open data et des engagements pris par le président Obama à son arrivée à la Maison Blanche (son discours est intervenu deux mois après la signature des mémorandums) mais il estime que l’ouverture des données implique aussi de transformer les attitudes des administrations.

Pour l’inventeur du web, très souvent, les agents publics sont tentés de garder leurs données et trouvent une multitude de raisons pour ne pas les diffuser et permettre leur réutilisation. Dans sa présentation, Berners-Lee a fait référence au médecin suédois Hans Rosling qui a proposé l’expression « database hugging », une métaphore pour décrire une attitude dans laquelle les agents de l’administration s’accrochent à leurs données au point de les « câliner ».Berners-Lee a repris cette métaphore et l’a mimée sur la scène de TED.
Tim Berners-Lee, lors de sa conférence TED de 2009, mimant le *database hugging*, l’attitude des administrations qui « s’accrochent » à leurs données

Figure 1.2: Tim Berners-Lee, lors de sa conférence TED de 2009, mimant le database hugging, l’attitude des administrations qui « s’accrochent » à leurs données

Pour l’inventeur du web, les administrations n’arrêtent le database hugging qu’à partir du moment où elles ont présenté leurs données sur un beau site web. Il a demandé d’inverser cette logique et d’abord de fournir les données.

Hans appelle ça le database hugging. Vous serrez votre base de données. Vous ne la laissez pas partir tant que vous n’en avez pas fait un joli site web. […] Faites-en donc un joli site. Mais avant cela, donnez-nous accès aux données non altérées. On veut des données. On veut des données non altérées. Il faut que nous demandions des données brutes maintenant.

Tim Berners-Lee demande alors au public de la conférence TED de crier « Raw data now! » (“Des données brutes maintenant !”) à l’attention des administrations (figure 1.3).
Tim Berners-Lee, lors de sa conférence TED de 2009, Tim Berners-Lee appelle le public à crier « *raw data now* »

Figure 1.3: Tim Berners-Lee, lors de sa conférence TED de 2009, Tim Berners-Lee appelle le public à crier « raw data now »

Ce discours de Tim Berners-Lee a imposé la demande de données brutes comme un aspect essentiel de l’open data avec un slogan facilement mémorisable : ouvrez les données brutes maintenant ! Cette demande de données brutes s’explique par deux choses. D’une part, en ouvrant les données telles qu’elles sont produites, les administrations n’auraient pas à les retravailler, ce qui a été pensé comme un levier pour faciliter l’ouverture. D’autre part, l’obtention des données brutes est pensée comme un moyen de réduire les asymétries d’information entre l’administration et la société civile puisque les données brutes seraient le matériau de l’information publique avec son traitement par l’administration.

Aller plus loin : la vidéo de la conférence de Tim Berners-Lee est traduite en français sur le site de TED.

###2010 : le modèle en 5 étoiles, une échelle de l’ouverture des données Après avoir exigé l’ouverture des données brutes, Tim Berners-Lee a appelé à l’utilisation de formats ouverts de données. En 2010, il propose un modèle en cinq étapes, une hiérarchie de la première à la cinquième étoile qui, à la manière de la classification des hôtels, permet aux réutilisateurs de distinguer la qualité des données. Ce modèle s’adressait particulièrement aux gouvernements pour les encourager à adopter le Linked Data pour ouvrir leurs données.

Sur la boutique en ligne du W3C, le consortium en charge des standards du web, Berners-Lee vend même des tasses sur lesquelles figure son modèle en cinq étoiles. Il a déclaré espérer que la circulation de ces tasses dans les bureaux inciterait à ouvrir et lier toujours plus de données.
Tasse du W3C reprenant le modèle en cinq étoiles de Tim Berners-Lee.

Figure 1.4: Tasse du W3C reprenant le modèle en cinq étoiles de Tim Berners-Lee.

Dans la hiérarchie de Tim Berners-Lee, les données sont ouvertes dès la validation du premier critère. Il considére que, plus une donnée obtient d’étoiles, plus elle sera simple à utiliser :

  • ⭐ la première étoile demande la publication sur le web des données, quel que soit leur format avec une licence ouverte.

  • ⭐⭐ la deuxième étoile exigeant que les données publiées sur le web sous une licence ouverte soient lisibles par les machines et structurées.

  • ⭐⭐⭐ la troisième étoile réclame la publication des données dans un format non propriétaire.

  • ⭐⭐⭐⭐ pour obtenir la quatrième étoile, les données doivent être publiées dans les standards ouverts du W3C (RDF et SPARQL) qui imposent que les objets contenus dans les données soient décrits.

  • ⭐⭐⭐⭐⭐ la cinquième étoile demande qu’elles soient liées à d’autres données publiées sur le web.

Dans les projets d’open data, le modèle de Tim Berners-Lee a été employé essentiellement pour inciter les agents à ouvrir les données dans des formats ouverts comme le CSV plutôt que d’utiliser le format Excel. L’utilisation de formats sémantiques, les deux derniers niveaux du modèle, réclame un travail trop important de transformation des données au regard des moyens généralement alloués aux projets d’open data.

Retenons donc du classement en cinq étoiles qu’il suggère aux administrations d’ouvrir les données de manière progressive. En quelque sorte, il leur propose une marche à suivre : d’abord publier les données sur le web avec une licence ouverte, ensuite avec des formats lisibles par les machines puis dans des formats ouverts et enfin éventuellement selon les standards du Linked Data.

Aller plus loin : le site 5stardata.info présente en détail le modèle cinq étoiles de Tim Berners-Lee.

1.1.4 2013 : la charte internationale de l’open data, vers l’ouverture par défaut

Les 17 et 18 juin 2013 à Loughe-Erne en Irlande du Nord, le Premier ministre britannique, David Cameron, accueillait la réunion du G8, la rencontre de huit chefs d’État parmi les plus grandes puissances économiques mondiales (Allemagne, Canada, États-Unis d’Amérique, France, Royaume-Uni, Italie, Japon, Russie). L’agenda comportait une session sur l’adoption d’une charte sur l’open data.

Session de travail des membres du G8 en 2013

Figure 1.5: Session de travail des membres du G8 en 2013

La charte sur l’open data du G8 a été publiée à la suite du G8 et se compose d’une série de cinq principes et trois annexes. Son préambule détaille les bénéfices de l’open data : création de services, transparence de l’action publique, meilleure gouvernance, amélioration du débat public, lutte contre la corruption, soutien à l’innovation des entreprises et de la société civile, prospérité renouvelée…

Cette charte a été par la suite reprise par un groupe qui s’est notamment réuni lors de l’Open Data Conference de 2015 à Ottowa afin de produire une charte internationale de l’open data, dépassant les seuls pays du G8, qui synthétise les grands principes de l’ouverture des données. Elle a été officiellement publiée en octobre 2015 en marge de l’Assemblée Générale des Nations Unies.

La charte internationale de l’open data fixe cinq grands principes pour l’ouverture des données :

  • le premier principe donne pour objectif de faire de l’open data la pratique par défaut des administrations pour les données publiques tout en respectant les législations en vigueur sur la propriété intellectuelle et la vie privée.

  • le deuxième principe demande la publication des données en temps opportun (timely) et de manière exhaustive, c’est-à dire en fournissant des données désagrégées et de qualité.

  • le troisième principe réclame des données accessibles et utilisables fournies dans des portails centraux, sans enregistrement préalable, avec une licence ouverte.

  • le quatrième principe demande des données comparables et interopérables fournies dans des formats structurés et normalisés favorisant l’interopérabilité et la réutilisation.

  • le cinquième principe fixe pour objectif à l’open data d’améliorer la gouvernance et d’encourager la participation citoyenne dans la logique de l’ouverture des gouvernements.

  • le sixième principe vise à favoriser le développement inclusif et l’innovation du fait que les données ouvertes donne du pouvoir d’agir à tou·te·s.

À travers ce résumé, on voit donc que la charte internationale de l’open data s’inscrit dans la continuité des définitions de l’open data évoquées précédemment. Elle fixe des grands objectifs politiques qui dépassent les textes évoqués précédemment. De ce fait, elle constitue une ressource moins opérationelle pour définir si une donnée est ouverte ou non.

Aller plus loin : lire la charte internationale de l’open data en français sur le site OpenDataCharter

1.2 Revue des grands principes de l’ouverture des données

Dans la section précédente, nous avons vu les grands moments lors desquels l’open data a été défini. Nous allons maintenant résumer les principes de l’open data en reprenant les dix points définis par la Sunlight Foundation. Il n’y a pas de différence majeure avec les définitions de l’open data évoquées précédemment mais la Sunlight Foundation a réussi à synthétiser l’essentiel dans ce document.

Les données doivent être :

  1. complètes : elles doivent représenter l’intégralité de ce qui est collecté par l’administration sur un sujet donné avec des métadonnées qui explique comment elles ont été collectées, c’est le principe d’open data par défaut réclamé par la charte internationale de l’open data qui est aujourd’hui la norme en France avec la loi pour une République Numérique ;

  2. primaires : les données doivent être non agrégées et telles que collectées à la source, cela équivaut à la demande de données brutes popularisée par Tim Berners-Lee ;

  3. fraîches : les données doivent être publiées dès que possible pour garder leur valeur ;

  4. accessibles : les données doivent être directement téléchargeables sans enregistrement préalable ;

  5. lisibles par les machines : les données doivent être exploitables automatiquement ;

  6. accessibles sans discrimination : les usagers doivent pouvoir accéder aux données à tout moment sans s’enregistrer ni fournir de justification ;

  7. disponibles sous des formats ouverts : les spécifications de standards de données doivent être ouvertes et, si possible, faire l’objet d’une gouvernance partagée ;

  8. disponibles sous licence ouverte : l’Open Definition donne les critères juridiques d’une licence ouverte ;

  9. accessibles de façon pérenne en ligne : les données doivent être archivées et les versions précédentes conservées ;

  10. sans coût d’utilisation : l’accès et la réutilisation des données doivent être gratuits.

Aller plus loin : lire les dix principes définis par la Sunlight Foundation.