Professional Documents
Culture Documents
1 Introduction à R
Le langage R est un langage interprété qui se présente sous la forme d’un logiciel libre (http ://cran.r-
project.org) et qui est devenu aujourd’hui un standard dans tous les domaines scientifiques s’appuyant
sur des outils statistiques.
1. télécharger R, logiciel gratuit https://cran.rstudio.com/
2. télécharger Rstudio (interface ludique de R) https://www.rstudio.com/products/rstudio/
download3/
Pour un nouveau TP, ouvrir un nouveau script (en haut à gauche de la fenêtre : File -> New File
-> R script). Des commentaires peuvent êtres ajoutés avec la commande ], ils n’apparaîtront pas
dans la console.
NB : pour lancer une ligne de commande on pourra utiliser Ctrl+Entrée
Avant de commencer, tester les commandes suivantes et observer
1:10
rep(0, 10)
seq(1, 100, 10)
x <- c(1, 4, 9)
y <- c(x, 2, 3)
z <- rnorm(1000, 0, 1)
hist(z)
mean(z)
? mean # pour appeler l’aide
sd(z)
median(z)
boxplot(x)
barplot(x)
1
4. Tracer sur un même graphique le nuage de points avec la droite des moindres carrées obtenue.
5. Toujours à l’aide de la commande summary, afficher les résultats de la régression. Dans la 3ème
colonne (t value), figure la valeur observée de la statistique de test d’hypothèse H0 : βi = 0
contre H1 : βi 6= 0. La 4ème colonne contient la probabilité critique (ou "p-value") qui est la
probabilité pour la statistique de test de dépasser la valeur estimée.
Avec un niveau α = 5%, rejetez-vous H0 pour β1 ? pour β2 ? Pourquoi ?
6. Toujours à l’aide de la commande summary, que vaut l’estimation de σ ? D’après vous, cette
estimation est-elle sans biais ?
7. Evaluer R2 . La modélisation par régression linéaire simple vous semble-t-elle appropriée ?
8. Tracer l’intervalle de confiance associé à la droite en utilisant la commande
predict(...,new=grille,interval="confidence",level=0.95).
Cet intervalle peut être vu comme "le modèle peut être n’importe quelle droite dans cette
bande". Confortez, de ce fait, votre réponse à la question 7.
9. Calculer les intervalles de confiance des paramètres via la fonction confint que vous stockerez
dans une variable IC.
10. Tracer la région de confiance simultanée des deux paramètres à l’aide des commandes suivantes
library(ellipse)
plot(ellipse(reg,level=0.95),type="l",xlab="",ylab="")
points(coef(reg)[1], coef(reg)[2],pch=3)
lines(IC[1,c(1,1,2,2,1)],IC[2,c(1,2,2,1,1)],lty=2)
Quid de la corrélation entre les estimateurs ?