Introduction à R

Open Data France et datactivi.st

Introduction à R, le couteau suisse de la data science

Jour 5

Joël Gombin et Samuel Goëta (datactivi.st)

Retrouvez les matériaux sur : www.github.com/datactivist/IntroR_ODF

Pad collaboratif : https://frama.link/formationR_pad4

Ce qu’on a déjà appris

Ce qu’on a déjà appris

Objectifs de la journée

Pourquoi modéliser ? Qu’est-ce que modéliser ?

Pourquoi modéliser ?

largeur

Pourquoi modéliser ?

Modéliser pour analyser

Modéliser pour analyser

Modéliser, c’est mettre en relation une variable expliquée (dépendante / prédite) et une ou plusieurs variables explicatives (indépendantes / prédicteurs).

Y = f(X1, X2, X3, …, Xn)

L’estimation du modèle consiste à estimer la valeur des paramètres (ou coefficients).

Y = α + β1X1 + β2X2 + β3X3 + · · · + βnXn + ε

Modéliser pour analyser

Exemple : on s’intéresse au vote FN à Marseille, par bureau de vote, lors des élections municipales de 2014, en fonction de la sociologie des bureaux de vote.

Vote FN = f(Composition socioprofessionnelle, population étrangère, taux de chômage, locataires HLM)

Modéliser pour analyser

Hypothèses :

Modéliser pour prédire

largeur

Attention !

Attention !

Modèles linéaires sous R

La fonction lm

La fonction lm permet d’estimer des linear models. Elle nécessite simplement le modèle, sous forme d’une formule, et un dataframe.

modele1 <- lm(y ~ x1 + x2, data = data)

lm permet également d’estimer des modèles pondérés (argument weights) ou portant sur un sous-ensemble du jeu de données (argument subset).

modelr et broom

modelr => permet de manipler des modèles avec le pipe

broom permet de gérer de nombreux modèles à la fois

Modèles généralisés

Modèles logistiques

Et le machine learning ?

Machine learning et modélisation