class: center, middle, inverse, title-slide # Section 4: L’écosystème des sources de données publiques ## Culture générale des données ### Datactivist, 2024 --- layout: true <div class='my-footer'><span>Culture générale des données, Sciences Po Saint-Germain-en-Laye, section 4</span> <center><div class=logo><img src='' width='100px'></center></span></div> --- class: center, middle Ces slides en ligne : https://datactivist.coop/SPoSGL/sections/section4.html Sources : https://github.com/datactivist/SPoSGL/ Les productions de Datactivist sont librement réutilisables selon les termes de la licence [Creative Commons 4.0 BY-SA](https://creativecommons.org/licenses/by-sa/4.0/legalcode.fr). <BR> <BR> <img src="./img/ccbysa.png" height="100"/> --- ## Plan du cours #### .red[**1. Les multiples sources et producteurs de données publiques**] Regarder la vidéo .red[[#DATAGUEULE "Gouvernés par les nombres ? Échecs et maths"](https://www.youtube.com/watch?v=3Xct2cLcsWY)] #### .red[**2. Comment bien distinguer les sources ?**] Ecouter le podcast .red["Section 4 - la jungle d'acronymes"] #### .red[**3. L’importance de croiser les sources**] Lire l'article d'Alternatives Economiques .red[["Quel est le « bon » seuil de pauvreté ?"](https://blogs.alternatives-economiques.fr/idies/2018/03/01/quel-est-le-bon-seuil-de-pauvrete)] *Bibliographie* .center[**quiz section 4**] --- class: inverse, center, middle ## 1. Les multiples sources et producteurs de données publiques --- ## Qui produit des données publiques ? - A quels acteurs pensez-vous naturellement lorsqu'on parle de données ou de statistiques publiques ? <BR> .center[<img src="./img/thinking.png" height="150"/>] --- ## Qui produit des données publiques ? - A quels acteurs pensez-vous naturellement lorsqu'on parle de données ou de statistiques publiques ? ##### Généralement, à des producteurs de statistiques ou d'études comme l'Insee, Eurostat ou l'OCDE .pull-left[![](https://upload.wikimedia.org/wikipedia/fr/1/10/Logo_Insee.svg)] .pull-right[![](https://upload.wikimedia.org/wikipedia/fr/thumb/8/8e/OCDE_logo.svg/1280px-OCDE_logo.svg.png)] <img src="https://ec.europa.eu/eurostat/statistics-explained/images/0/09/Logo_RGB-POS.png" height="150"/> --- ## Qui produit des données publiques ? - Les organismes officiels produisant des **statistiques publiques** sont loin d'être les seuls à produire des données publiques - **La plupart des administrations ou collectivités produisent des données** dont beaucoup d'entre elles peuvent être ouvertes et réutilisées par tous (cf section 6 et 8 autour de l'*Open data*) et faire l'objet de statistiques. Exemples: - Ville de Paris, Région Bretagne, Ministère des armées, Assemblée Nationale, CAF, Pole Emploi, douanes... **.red[Point définition]** : les statistiques visent d'abord à fournir des renseignements utiles à l'aide de chiffres. La statistique pourrait donc être définie comme de **l'information qu'on peut obtenir à partir d'opérations mathématiques sur des données numériques**. Les statistiques peuvent servir de base à la **prise de décisions** --- .center[<img src="https://upload.wikimedia.org/wikipedia/commons/d/d3/D%C3%A9vor%C3%A9s_par_les_loups.jpg" height="500"/>] .footnote[Liste d'enfants dévorés par les loups sur le territoire de la commune de Malbos en Ardèche au début du XIXème siècle] --- ## Qui produit des données publiques ? - Il existe des données sur **l'ensemble des sujets de l'action publique**, ces dernières étant consubstantielles à la prise de décisions et à la mise en oeuvre de politiques publiques - **Ceux qui les produisent** (exemple: une plainte enregistrée par les services de police et de gendarmerie) **ne sont pas toujours ceux qui les exploitent** - Nous allons nous intéresser dans les prochaines parties à **l'écosystème de ceux qui étudient, analysent et retraitent ces données publiques**, sous la forme de statistiques, d'études, de rapports ou autres publications visant à informer ou influencer le débat public .footnote[Du grain à moudre : Regardez [la vidéo #DATAGUEULE "Gouvernés par les nombres ? Échecs et maths"](https://www.youtube.com/watch?v=3Xct2cLcsWY) **obligatoire**] --- class: inverse, center, middle ## 2. L'écosystème des sources : bienvenue dans la jungle des acronymes --- ## La jungle des acronymes .center[<img src="http://www.phdcomics.com/comics/archive/phd111908s.gif" height="430"/>] .footnote[© Jorge Cham, 2008] --- ## La jungle des acronymes Beaucoup des producteurs de statistiques ou d'études publiques ont des noms "*jargoneux*" ou des acronymes peu connus du grand public. Par exemple, connaissez-vous les organismes suivants : .center[<img src="./img/sources1.png" height="350"/>] --- ## Distinguer les sources **Il n'existe pas de .red[classification officielle de ces sources.]** Il est cependant possible d'esquisser une certaine typologie des acteurs : - **Service statistique public (SSP)** : l'Insee et les services statistiques ministériels. Les membres du SSP ont la particularité de produire des études en toute indépendance de leur ministère de rattachement - Ex: Insee, Dares, Drees, Depp... - **Organismes publics** : Certains sont rattachés à des ministères ou au premier ministre (ex: CGET, France Stratégie, Direction Générale du Trésor...) D'autres en sont indépendants (Ex: Défenseur des droits, Ofpra...) - **Les thinks tanks** : Ce sont des groupes de réflexion privés qui produisent des études sur des thèmes de société - Ex: Fondation Jean Jaurès, Terra Nova, Institut Delors... --- ## Distinguer les sources - **Les organisations internationales** - Ex: OCDE, FMI, Banque Mondiale, HCR... - **Les centres de recherche** - **Les instituts de sondage ou d'études** - Ex: Ifop, Ipsos, Kantar, BVA... Et d'autres acteurs (**ONG**, **cabinets de conseil**, **lobbys**) qui produisent régulièrement des publications pour alimenter ou peser sur le débat public NB : cette [nomenclature proposée par Datagora](https://datagora.fr/instituts), connait de nombreuses limites, certains acteurs se considérant comme l'un et l'autre ou redéfinissant leur identité et missions. Par exemple l'OFCE, observatoire affilié à Sciences Po, produit des études de conjoncture économique. Il se définissait précédemment comme un think tank et désormais comme un centre de recherche --- ## Distinguer les sources Au-delà de cette typologie approximative, il y a des **critères objectifs** sur lesquels il peut être intéressant de s'attarder quand on cherche à décrypter une source : - Est-elle **.red[indépendante du politique]** dans la publication de ses résultats ? - Est-elle **.red[financée par des fonds privés ou publics]** ? - Quelle type de **.red[gouvernance]** ? - *Exemple de Rexecode et de l'Ires* : ce sont deux organismes produisant des analyses de conjoncture économique. Cependant, l'un (Rexecode) a dans son [conseil d'administration](http://www.rexecode.fr/public/Qui-sommes-nous/Gouvernance) plusieurs personnalités issues d'organisations patronales comme le Medef ou l'UIMM. L'autre (Ires) a dans son [Assemblée générale](http://www.ires.fr/index.php/institut/l-organisation) de nombreux syndicalistes - A-t-elle une **.red[orientation idéologique ou défend-elle des intérêts]** ? - Est-elle constituée de **.red[véritables chercheurs]** ? --- ## Distinguer les sources #### Distinguer les sources "primaires" des sources "secondaires" - Il est fréquent de voir dans les media des chiffres qui sont attribués à des sources qui calculent, analysent, comparent, croisent des données. Ces sources "secondaires" (ex: Cour des comptes) peuvent produire de nouveaux résultats ou des analyses pertinentes mais il faut bien garder à l'esprit qu'elles ne sont pas à l'origine des données. - Exemple : [Etude "Les dynamiques de population"](http://www.observatoire-des-territoires.gouv.fr/observatoire-des-territoires/sites/default/files/Fiche-OT-Les%20dynamiques%20de%20population_0.pdf) du CGET dont la plupart des données analysées proviennent de l'Insee ou d'Eurostat - Lorsque vous cherchez des données *"brutes"*, il est préférable d'aller directement sur les sites des sources primaires. Exemples : - Site de la CAF pour les [données sur les allocataires des APL](http://data.caf.fr/category/statistiques-allocataires-prestations-et-services) ; - Site de Pole Emploi pour les [données sur les demandeurs d'emploi](http://www.pole-emploi.org/opendata/les-demandeurs-demploi-indemnise.html?type=article) --- ## Distinguer les sources **Ecoutez le .red[podcast "La jungle d'acronymes"] de la section 4** <BR> .pull-left[<img src="./img/source.png" height="300"/>] .pull-right[<img src="./img/comptage.png" height="300"/>] .footnote[© Xavier Gorce 2018] --- class: inverse, center, middle ## 3. L’importance de croiser les sources de données --- ## Croiser les sources Même provenant de sources sérieuses et primaires, il n'est pas inutile de croiser les données trouvées avec d'autres sources qui peuvent également avoir des données sur les mêmes sujets mais avec des chiffres... différents. *Comment expliquer ces écarts ?* - Les **.red[différences de méthodologie]** - Exemple 1 : chiffres du chômage de Pole Emploi vs ceux de l'Insee - Exemple 2 : Taux de pauvreté, OCDE vs Eurostat - L'incertitude liée aux **.red[estimations]** - Certaines données sont issues d'estimations. Elles sont donc souvent temporaires et en attente de révision ou de confirmation - **.red[L'interprétation des données]** - Souvent les données sont accompagnées de contexte et d'analyse - Ces éléments peuvent différer d'une source à une autre --- ## Les différences de méthodologie Certains producteurs de données ou d'études n'utilisent pas les mêmes conventions statistiques ou méthodologies pour calculer un même indicateur. Un exemple connu est celui du **.red[taux de chômage]** : même si les tendances sont souvent proches, les chiffres peuvent connaître d'importants écarts entre ceux de l'Insee et de Pole Emploi, pour 2 raisons principalement : **1) La définition du chômeur** est différente entre celle de l'Insee (qui reprend la définition du BIT) et celle de Pole Emploi (qui comptabilise les personnes inscrites sur ses listes) Un chômeur, au sens du BIT, n’est donc pas forcément inscrit à Pôle emploi, et l’inverse est aussi vrai. 2) **Les techniques de calcul** différent également (technique du sondage pour l'Insee vs nombre des demandeurs d'inscrits dans les Pole Emploi) --- ## Les différences de méthodologie .center[<img src="./img/emploi.png" height="430"/>] .footnote[[source](https://www.lemonde.fr/les-decodeurs/article/2017/08/24/chomage-pourquoi-les-chiffres-de-l-insee-et-de-pole-emploi-different_5176176_4355770.html)] --- ## Les différences de méthodologie Nombre de travailleurs pauvres, Allemagne vs France... Qui a raison ? .pull-left[<img src="./img/pauvrete1.png" height="400"/>] .pull-right[<img src="./img/pauvrete2.png" height="400"/>] --- ## Les différences de méthodologie Nombre de travailleurs pauvres, Allemagne vs France... Qui a raison ? Les deux, car ces données ne mesurent pas exactement la même chose ! Cela est dû à des **nuances de paramètres statistiques** : > Eurostat regarde la part des travailleurs pauvres pris **individuellement** par rapport à l’ensemble des personnes en activité, tandis que l’OCDE mesure le pourcentage des personnes **membres d’un ménage** vivant sous le seuil de pauvreté, et où au moins l’un des adultes travaille. Ici, la composition du foyer entre donc en compte, avec le nombre des adultes en emploi, et une pondération selon le nombre d’enfants. Et cela explique les écarts .footnote[[source](https://www.lemonde.fr/economie/article/2018/05/12/selon-l-ocde-la-part-des-travailleurs-pauvres-est-deux-fois-plus-elevee-en-france-qu-en-allemagne_5297878_3234.html)] --- ## Les différences de méthodologie > Tous ces chiffres montrent que la part des travailleurs pauvres est plus élevée en Allemagne qu’en France, lorsqu’ils sont comptabilisés individuellement, mais elle est plus basse si l’on prend en compte la composition du foyer Stefano Scarpetta, directeur de la division emploi à l’OCDE Plus largement, on peut aussi parfois se poser la question des seuils retenus pour le calcul de certains indicateurs. Par exemple, est-on pauvre avec moins de 60, 50 ou 40% du revenu médian ? Lire à ce sujet l'article du blog d'alternatives économiques ["Quel est le « bon » seuil de pauvreté ?"](https://blogs.alternatives-economiques.fr/idies/2018/03/01/quel-est-le-bon-seuil-de-pauvrete) de l'économiste Jean Gadrey (**obligatoire**) en réaction à l'article ["9 millions de pauvres, un chiffre exagéré"](https://blogs.alternatives-economiques.fr/idies/2018/02/27/neuf-millions-depauvres-un-chiffre-exagere) de Louis Maurin, directeur de l'Observatoire des inégalités --- ## L'incertitude liée aux estimations De nombreux indicateurs économiques font l'objet d'estimations de plusieurs acteurs. Les estimations peuvent varier de manière significative. Exemple ici avec les estimations - *au 31/07/18* - de croissance du PIB Français pour 2018 : .center[<img src="./img/croissancepib.png" height="290"/>] .footnote[*NB: en décembre 2018, l'Insee a abaissé ses prévisions de croissance pour 2018 à 1,5%*] --- ## L'interprétation des données Souvent les données sont accompagnées de **contexte et d'analyse**, qui donnent lieu à une certaine .red[**interprétation**]. Ces éléments peuvent différer d'une source à une autre, il est donc utile de les croiser régulièrement. .pull-left[<img src="./img/interpretation.png" height="350"/>] .pull-right[Ici un exemple classique des divergences d'interprétation des données mensuelles du chômage (Sept 2017). Essayez de remonter directement aux producteurs de données "primaires", ici Pole Emploi, si vous souhaitez approfondir votre analyse en évitant le *"bruit éditorial"*] --- class: inverse, center, middle ## Bibliographie --- ## Bibliographie - Vidéo [#DATAGUEULE "Gouvernés par les nombres ? Échecs et maths"](https://www.youtube.com/watch?v=3Xct2cLcsWY) - Le Monde, ["Chômage : pourquoi les chiffres de l’Insee et de Pôle emploi diffèrent"](https://www.lemonde.fr/les-decodeurs/article/2017/08/24/chomage-pourquoi-les-chiffres-de-l-insee-et-de-pole-emploi-different_5176176_4355770.html), mis en ligne le 24 août 2017 - Le Monde, ["Selon l’OCDE, la part des travailleurs pauvres est deux fois plus élevée en France qu’en Allemagne"](https://www.lemonde.fr/economie/article/2018/05/12/selon-l-ocde-la-part-des-travailleurs-pauvres-est-deux-fois-plus-elevee-en-france-qu-en-allemagne_5297878_3234.html), mis en ligne le 12 mai 2018 - Jean Gadrey, blog Alternatives Economiques ["Quel est le « bon » seuil de pauvreté ?"](https://blogs.alternatives-economiques.fr/idies/2018/03/01/quel-est-le-bon-seuil-de-pauvrete), mis en ligne le 1er mars 2018 - Louis Maurin, blog Alternatives Economiques ["9 millions de pauvres, un chiffre exagéré"](https://blogs.alternatives-economiques.fr/idies/2018/02/27/neuf-millions-depauvres-un-chiffre-exagere), mis en ligne le 27 février 2018 --- class: inverse, center, middle ## Quiz section 4 : rendez-vous sur le campus numérique ! --- class: inverse, center, middle # Merci ! Contact : [clement@datactivist.coop](mailto:clement@datactivist.coop)