Tentative de définition de la donnée
- c’est quoi une donnée pour vous ?
- ambiguïté de la notion de donnée
- datum/data
- pas de condition de véracité (Rosenberg, 2013)
- data / information / knowledge
Pourquoi s’intéresser à l’analyse des données ?
Ça nous concerne :
professionnellement (open data, big data, analytics, gestion, KPIs, BI, données métier…)
Ça nous concerne :
personnellement (self data)
Ça nous concerne :
en tant que citoyen
Pourquoi s’intéresser à l’analyse des données ?
Les données ne signifient rien à l’état brut. C’est un modèle qui permet de les interpréter, leur donner sens.
Pas de modèle EST un modèle (implicite)
Il faut donc expliciter nos modèles
Pourquoi s’intéresser à l’analyse des données ?
S’initier à l’analyse des données, c’est :
- apprendre à expliciter ses modèles
- formuler les hypothèses sous-jacentes
- les tester
- in fine, appréhender ses données de manière moins naïve
Pourquoi s’intéresser à l’analyse des données ?
Pourquoi s’intéresser à l’analyse des données ?
La data aujourd’hui, c’est le far west
via GIPHY
Pourquoi s’intéresser à l’analyse des données ?
Intéressez vous aux données avant que les données ne s’intéressent à vous
“Data literacy”
Et vous, pourquoi ça vous intéresse ?
Quels outils utilisez-vous ? Connaissez-vous ?
Les bases de données
- relationnelles / SQL
- MySQL
- SQLite
- PostgreSQL
- …
Les bases de données
- SQL orientées colonnes
- MonetDB / MonetDBLite
- …
Les bases de données
- NoSQL
- MangoDB
- Cassandra
- CouchDB
- SimpleDB
- BigTable
- HBase
- Neo4J
- Redis
- …
Les outils
- Celui que vous avez sûrement déjà utilisé : Excel / LibreOffice / un tableur
- avantages
inconvénients
- GUI
- Sphinx
- SPSS
- SAS
- OpenRefine
- WTF CSV
- Tableau
…
Les outils
- CLI
- Python
- Julia
- R
- C/C++
- Java
- Javascript
- outils bash
- …
Les outils
- sans compter les outils spécialisés. Exemple de la cartographe :
- QGIS
- PhilCarto
- MapInfo
- ArcGIS
- Umap
- leaflet
- ….
Les infrastructures
- Notamment dans le “big data” :
- Hadoop
- Spark
- H20
- etc. etc.
Sur quelles données voulez-vous travailler ?
- domaine
- format
- taille (lignes / variables)
- granularité
- fraicheur
- quelle analyse
- etc.
Installation de R et Rstudio
Prise en main du logiciel