You are on page 1of 2

Manipulation sous R - Régression linéaire simple

1 Introduction à R
Le langage R est un langage interprété qui se présente sous la forme d’un logiciel libre (http ://cran.r-
project.org) et qui est devenu aujourd’hui un standard dans tous les domaines scientifiques s’appuyant
sur des outils statistiques.
1. télécharger R, logiciel gratuit https://cran.rstudio.com/
2. télécharger Rstudio (interface ludique de R) https://www.rstudio.com/products/rstudio/
download3/
Pour un nouveau TP, ouvrir un nouveau script (en haut à gauche de la fenêtre : File -> New File
-> R script). Des commentaires peuvent êtres ajoutés avec la commande ], ils n’apparaîtront pas
dans la console.
NB : pour lancer une ligne de commande on pourra utiliser Ctrl+Entrée
Avant de commencer, tester les commandes suivantes et observer
1:10
rep(0, 10)
seq(1, 100, 10)
x <- c(1, 4, 9)
y <- c(x, 2, 3)
z <- rnorm(1000, 0, 1)
hist(z)
mean(z)
? mean # pour appeler l’aide
sd(z)
median(z)
boxplot(x)
barplot(x)

2 TP1 : régression linéaire simple


Le but de ce TP est d’utiliser les commandes basiques de R pour la régression linéaire simple càd
à une variable explicative.
La variable à expliquer est donc la concentration d’ozone O3, et la variable explicative est la
température à 12h, notée T12. Les données sont téléchargeables sous la forme d’un fichier texte à
l’adresse suivante : http://www.lsta.upmc.fr/boyer/teaching/donnees_rennes_O3.txt.
1. Charger les données dans R, en utilisant la commande read.table.
2. Représenter le nuage de points sur un graphique.
3. A l’aide de la commande lm, procéder à la phase d’estimation en régression linéaire que vous
stockerez dans une variable appelée reg. On pourra consulter le résultat de l’appel à lm, en
utilisant la commande summary.

1
4. Tracer sur un même graphique le nuage de points avec la droite des moindres carrées obtenue.
5. Toujours à l’aide de la commande summary, afficher les résultats de la régression. Dans la 3ème
colonne (t value), figure la valeur observée de la statistique de test d’hypothèse H0 : βi = 0
contre H1 : βi 6= 0. La 4ème colonne contient la probabilité critique (ou "p-value") qui est la
probabilité pour la statistique de test de dépasser la valeur estimée.
Avec un niveau α = 5%, rejetez-vous H0 pour β1 ? pour β2 ? Pourquoi ?
6. Toujours à l’aide de la commande summary, que vaut l’estimation de σ ? D’après vous, cette
estimation est-elle sans biais ?
7. Evaluer R2 . La modélisation par régression linéaire simple vous semble-t-elle appropriée ?
8. Tracer l’intervalle de confiance associé à la droite en utilisant la commande
predict(...,new=grille,interval="confidence",level=0.95).
Cet intervalle peut être vu comme "le modèle peut être n’importe quelle droite dans cette
bande". Confortez, de ce fait, votre réponse à la question 7.
9. Calculer les intervalles de confiance des paramètres via la fonction confint que vous stockerez
dans une variable IC.
10. Tracer la région de confiance simultanée des deux paramètres à l’aide des commandes suivantes
library(ellipse)
plot(ellipse(reg,level=0.95),type="l",xlab="",ylab="")
points(coef(reg)[1], coef(reg)[2],pch=3)
lines(IC[1,c(1,1,2,2,1)],IC[2,c(1,2,2,1,1)],lty=2)
Quid de la corrélation entre les estimateurs ?

You might also like