You are on page 1of 25

Fiche 1 – Estimation ponctuelle d'une moyenne et d'un écart-

type, Intervalle de confiance

On dispose en général d'un échantillon X 1 , ... , X n prélevé dans une population pour laquelle la
variable d'intérêt quantitative X a pour espérance (moyenne théorique) µ et variance  2
inconnues.

Règle pour l'estimation ponctuelle : Soit une variable d'intérêt X mesurée sur un
échantillon de n individus,
n
1
● la moyenne  est estimée par l'estimateur X =
n
∑ Xi
i= 1
n
1
● la variance  2 est estimée par l'estimateur s 2X = ∑ ( X − X )2
n −1 i = 1 i

D'une réalisation à l'autre, les estimations ponctuelles vont variées d'autant plus que le nombre
d'observations n est faible. Pour affiner l'estimation de ces paramètres, on détermine alors un
intervalle de confiance dans lequel les valeurs réelles µ ou  2 ont une probabilité déterminée à
l'avance de se trouver.
Cet intervalle de confiance, noté IC, permet ainsi de prendre en compte la variabilité de l'estimation
ponctuelle.

Propriétés de l'estimateur X

● cas 1 : n  30 et la variable X suit une loi normale (fiche #Normalité)

X−μ
■ Si  2 est connue, alors Z n = √ n suit la loi normale centrée réduite
σ

X−μ
■ Si  2 est inconnue, alors T n = √ n suit la loi de Student à n −1 degrés de
sX
liberté.

● Cas 2 : Pour n  30 (application du théorème limite central)


X−μ
■ T n= √ n approche la loi normale centrée réduite
sX

Propriété de l'estimateur s 2X dans le cas où la variable X suit une loi normale

 n −1  s 2 X
■ 2
suit la loi du  2 à n-1 ddl.

Construction d'un intervalle de confiance pour la moyenne:
X−μ
On recherche toutes les valeurs de µ pour lesquelles T n = √n
soit compris entre tα /2 et t1-α /2
sX
t1-α /2 est le quantile de la loi normale ou de la loi de student T à n-1 ddl pour laquelle P(T<t1-α /2 )=1-
α/2 donc

P (tα /2 < T < t1-α /2)=1- α


(par symétrie tα /2 =- t1-α /2 ).

sX sX
On a alors l’intervalle de confiance à 1-α pour  : X -t1-α/2 < µ < X +t1-α/2
√n √n

Pour  = 5%, ce résultat signifie que "la vraie moyenne, μ", de la population a une probabilité de
95% d’être dans cet intervalle. On notera par commodité cet intervalle de confiance IC 95 .

Construction d'un intervalle de confiance pour la variance :

 n −1  s 2 X
On recherche toutes les valeurs possibles de  2 pour lesquelles soit compris entre
2
 2 et 
2
 (ici il n'y a pas symétrie des quantiles).
, n −1 1− , n− 1
2 2

 2  n −1  s 2 X  2 α
, n − 1 est le quantile dans la table pour laquelle P( <  , n − 1) = donc
2  2 2 2

On a alors l’intervalle de confiance à 1-α pour  2 :


2 2
 n− 1  s 2 X /  1−

, n−1 <  2 <  n− 1  s 2 X /  
, n −1
2 2

Exemple :
Reprendre l'exercice 1 du TD 1 et en déduire un intervalle à 95% de la moyenne et de s X . On
trouvera les quantiles de la loi de Student et de la loi du Chi-2 à l'aide des commandes suivantes :

> qchisq(0.975,39)
[1] 58.12006
> qchisq(0.025,39)
[1] 23.65432
> qt(0.975,39)
[1] 2.022691
On peut retrouver ces résultats à l'aide de la commande t.test qui propose un test de Student univarié
sur la moyenne ainsi qu'un intervalle de confiance pour la moyenne.

> t.test(poids)

One Sample t-test

data: poids
t = 27.3169, df = 39, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
99.7716 115.7284
sample estimates:
mean of x
107.75

sample estimates:
mean of x
177

Construction d'un intervalle de confiance d'une proportion

Si une population contient une proportion f d’individus possédant un caractère donné, l'estimateur
de ce paramètre est la fréquence du caractère dans l'échantillon, noté f .

Propriété de f pour n >100 et 0,1< f <0,9


f approche la loi normale N(f, f  1 − f  )
n

Dans les autres cas, n<100 ou f < 0,1, il faut utiliser un modèle exact (binom.test dans R).

Propriété : Pour un échantillon tel que n >100 et n f >10 et n(1- f )>10 :

L’intervalle de confiance à 1-α d’une proportion est :

] f - u1-α /2  f  1n− f   ; f + u1-α /2  f  1n− f   [


où u1-a /2 représente le quantile de la loi normale centrée réduite. Pour  =5%, u1-a /2=1,96.
Fiche 2 Test de comparaison d'une moyenne à une valeur
référence

Objectif : L'objectif est de comparer une moyenne à une valeur de référence. On qualifie un tel
test de test de conformité.

Données : On dispose d'une variable quantitative X mesurée sur n individus.

Hypothèse nulle H 0 : «  =  0 »

Conditions d’utilisation:

- Un échantillon de n individus indépendants


- La variable suit une loi normale ou n >30.

Principe du test :
Pour une population de moyenne et variance inconnue, nous avons déjà vu que si les conditions
sont respectées :
X − μ0
T n= √n suit sous H 0 une loi de Student à n-1 ddl.
sX

Test bilatéral: On teste H 0 : «  =  0 » contre H 1 : «  ≠  0 »

● si , ∣T n∣< t 1 − α/ 2 ( n− 1 ) on accepte H 0

● sinon on rejette H 0 avec un risque de première espèce  .

Test unilatéral: H 0 « µ>µ0 » contre H 1 « µ  µ0»

● si T n > t α ( n −1 ) , on accepte H 0

● sinon on rejette H 0 avec un risque de première espèce α.

Exemple : Reprendre l'Exercice 1 du TD2 et réaliser le test grâce à la commande t.test.

Tester si une fréquence est conforme à une fréquence attendue.

cas favorables
Le but est de savoir si un échantillon de fréquence observée f obs = , estimateur
total
de f, appartient à une population de référence connue de fréquence f 0 ( H 0 vraie) ou à une autre
population inconnue de fréquence f ≠ f 0 (H vraie).

Principe du test :
( f obs − f 0 )
On calcule la statistique U= f o ( 1 − f 0 ) qui suit sous H 0 la loi normale centrée réduite.
√ n
On calcule alors la probabilité p -value d'observer une valeur supérieure ou égale sous H 0 (en
valeur absolue).

Conditions d'utilisation :
● Le test est applicable si n f 0 ≥ 10 et n(1- f 0 ) ≥ 10 (approximation par la loi normale).
Si cette condition n'est pas vérifiée, on utilise un test exact (binom.test).
● Les individus sont indépendants.

Test : On teste H 0 f = f 0 contre H f ≠ f 0 .


● Si ∣U∣< N 1 − α / 2 on accepte H 0 (où N p est le quantile d'ordre p de la loi normale centrée
réduite).
● Sinon, on rejette H 0 avec un risque de première espèce p .

Exemple 1

Reprendre l'exercice 2 du TD2 et conclure quant à la toxicité de la solution injectée au risque 5%.
Utiliser la commande prop.test et comparer avec la commande binom.test

Exemple 2: On observe le sexe de 10 bébés : M F M M F F F F M F. Cette répartition est-elle


conforme avec l'hypothèse de répartition équilibrée des deux sexes.
Fiche 3 – Comparaison de deux variances : Test F

Objectif : L'hypothèse d'égalité des variances est indispensable pour tester l'égalité de deux
moyennes avec le test t (#t - test). On souhaite donc tester l'égalité des variances de deux
populations

Données : On dispose d'une variable quantitative X 1 de variance  21 mesurée sur n1 individus


d'une population 1 et d'une variable quantitative X 2 de variance  22 mesurée sur n2 individus d'une
population 2.

Hypothèse nulle H 0 : Les variances sont égales «  1 =  2 »

Conditions d’utilisation:
- Deux populations de moyennes et variances inconnues.
- Deux échantillons de n1 et n2 individus indépendants,
- Les variables suivent des lois normales ou chacun des effectifs est supérieur à 30

s 21
Le quotient suit sous H 0 la loi de Fisher-Snedecor à n1-1 et n2-1 ddl
s 22

Test : On teste l’hypothèse H 0 (  1 ² =  2 ²) contre H 1 (  1 ² ≠  2 ²)

s 21
■ si F  (n1-1,n2-1)< 2 < F 1 −  (n1-1,n2-1), on accepte H 0
2 s2 2

■ sinon on rejette H 0 avec un risque de première espèce égal à  .

Exemple :
Récupérer le fichier « poulpe.csv » qui contient le poids de poulpes mâles et femelles. Pour cela, on
utilise la commande read.table.

> poulpe<-read.table("poulpe.csv",sep=";",header=T)
>summary(poulpe)
> boxplot(Poids~Sexe,data=poulpe)

On veut tester l'égalité des variances dans ces deux populations. Qu'en pensez-vous ? Utiliser la
commande var.test pour tester l'égalité des variances dans ces deux populations :

> var.test(Poids~Sexe,conf.level=0.95,data=poulpe)
Fiche 4 : Test de comparaison de deux moyennes : t – test

Objectif : Comparer les moyennes obtenues dans deux populations.

Données : On dispose d'une variable quantitative X 1 d'espérance  1 mesurée sur n1 individus


d'une population 1 et d'une variable quantitative X 2 d'espérance  2 mesurée sur n2 individus d'une
population 2.

Hypothèse nulle H 0 : «  1 =  2 »

Conditions d’utilisation:
● Deux échantillons de n1 et n2 individus indépendants.
● La variable suit une loi normale dans chaque population ou n1 et n2 >30 : fiche
« Normalité »
● La variable a la même variance dans les deux populations : fiche « Test F »

Principe du test :
 n1 −1  s 21   n2 −1  s 22
La variable d= x 1 − x 2 a pour variance estimée s 2d =
n 1  n2 − 2
×
 1

1
n1 n2.

x1 − x2
Si les conditions sont respectées, la statistique T n = suit sous H 0 une loi de Student à
sd
n1  n 2 − 2 ddl.

Test bilatéral: On teste H 0 : «  1 =  2 » contre H 1 : «  1 ≠  2 »

● si ∣T n∣ < t 1 −  ( n1  n 2 − 2 ) , on accepte H 0
2

● sinon on rejette H 0 avec un risque de première espèce  .

Test unilatéral: On teste H 0 : «  1 >  2 » contre H 1 : «  1   2 »

● si T n < t α ( n1  n 2 − 2 ), on accepte H 0

● sinon on rejette H 0 avec un risque de première espèce  .

Exemple :
Reprendre le fichier « poulpe.csv ». Tester l'égalité des moyennes à l'aide de la fonction t.test :

> t.test(Poids~Sexe,conf.level=0.95,var.equal=TRUE,data=poulpe)

Peut-on considérer les variances égales ? Faire le test dans les deux cas en utilisant les options de la
fonction t.test.
Fiche 5 –Test de conformité à une distribution : test du  2
d'adéquation

Objectif : On considère une variable X prenant k modalités, k > 2.

L'objectif du test est de vérifier que les modalités se distribuent suivant des probabilités attendues.
On utilise un tel test en génétique par exemple pour vérifier :

1 2 1
● les lois de Mendel, (répartition , , pour F2)
4 4 4

● le modèle de Hardy Weinberg. (répartition p12 , 2 p 1 p2 , p22 ) .

Données : Les données sont regroupées dans un tableau de contingence de la forme :

Variable qualitative Modalité 1 Modalité 2 ....


1 2
effectif n obs n obs ....

Conditions d'application : Les effectifs théoriques doivent être supérieurs à 5 ( nith eor ≥ 5).
Dans le cas contraire, on peut regrouper les classes les plus faibles, utiliser un test du  2 corrigé,
utiliser le test exact de Fisher...

Hypothèse nulle : H 0 « Les fréquences observées sont conformes aux probabilités attendues ».

Principe du test :
Le principe du test du χ2 est d’estimer à partir d’une loi de probabilité connue (ou estimée à partir
de l'échantillon), les effectifs théoriques pour les différentes modalités du caractère étudié et les
comparer aux effectifs observés dans un échantillon. Deux cas peuvent se présenter :

• soit la loi de probabilité est spécifiée a priori car elle résulte par exemple d’un modèle
déterministe tel que la distribution mendélienne des caractères.

• soit la loi de probabilité théorique n’est pas connue a priori et elle est déduite des
caractéristiques statistiques mesurées sur l’échantillon (estimation de p1 et p2 dans le cas
du modèle de Hardy Weinberg).

Le test du χ2 consiste à mesurer l’écart qui existe entre la distribution théorique et la distribution
observée et à tester si cet écart est suffisamment faible pour être imputable aux fluctuations
d’échantillonnage.

● On calcule les effectifs théoriques n1th eor , n2th eor ... attendus sous l'hypothèse où la
distribution est conforme à celle attendue.
k
 niobs − nith eor  2
● On calcule ensuite la statistique : 2 = ∑ n ith eor
i =1

● 2 suit sous H 0 la loi du  2 à  degrés de liberté. On rejette alors H 0 dans le cas où 2
dépasse la valeur seuil  21 −  (v).

● Le nombre de ddl  est k − c , k représente le nombre de modalités et c celui des


contraintes.

■ Si la distribution théorique est entièrement connue a priori (lois mendeliennes), la


seule contrainte est que la somme des probabilités vaut 1, donc  = k −1 .

■ Sinon, il faut estimer des probabilités sur l'échantillon et augmenter d'autant les
contraintes. Par exemple avec le modèle de Hardy Weinberg, la somme des
probabilités vaut 1 et il faut estimer p1 , soit c =2, donc  = k −2 .

Test : On teste l’hypothèse H 0 (conforme à la distribution attendue)

-si  2 <  21 −  (v), on accepte H 0

-sinon on rejette H 0 avec un risque de première espèce α,

Exemple :
Reprendre l'exercice 4 du TD2 et calculer à la main la valeur de 2 dans ce cas. Comparer-le au
quantile  21 −   4 − 1  et conclure pour un test à 5%. Réaliser le test sous R avec la commande
chisq.test.
Fiche 6 – Test du Chi2 d'indépendance

Objectif : Le test du χ est largement utilisé pour l'étude de l'indépendance entre deux caractères
2

qualitatifs. La présentation des résultats se fait sous forme d'un tableau de contingence à deux
entrées. Chaque entrée représente les modalités d'une des variables. On détermine alors le tableau
attendu sous l'hypothèse d'indépendance.

Données : Deux variables qualitatives sont mesurées sur n individus puis présentées sous forme
d'un tableau de contingence (tableau à deux entrées) :
Par exemple :
tabac
c présence absence total
a présence
n
c absence
e
r total

Hypothèse nulle H 0 : Les deux caractères sont indépendants

Conditions d’utilisation:
L' effectif théorique calculé sous l'hypothèse H 0 doit être supérieur à 5.

Principe du test : On calcule les effectifs théoriques sous l'hypothèse H 0 . Les effectifs
marginaux (totaux à la marge en ligne ou en colonne) et fréquences marginales du tableau restent
inchangés.

ni⋅obs × n⋅obsj
nijth eor =
n
avec nijtheor l'effectif théorique,
ni⋅obs et n⋅obsj les effectifs marginaux ligne et colonne,
n l'effectif total.

 nijobs − nijth eor  2


On calcule alors la statistique :  2 = ∑ nijth eor
ij

Sous H 0 , cette statistique suit la loi du  2 à v= (l-1)(c-1) ddl avec l le nombre de lignes et c le
nombre de colonnes.

Test : On teste l’hypothèse H 0 “indépendance des deux caractères” contre H 1 “dépendance entre
les deux caractères” :

-si  2 <  21 −  (v), on accepte H 0

-sinon on rejette H 0 avec un risque de première espèce α.


Exemple :
Reprendre l'exercice 5 du TD2 et calculer à la main les valeurs de 2 dans chaque cas. Comparer-le
au quantile  21 −  et conclure pour un test à 5%.
On peut aussi réaliser le test sous R. Pour cela, on pourra utiliser les commandes suivantes, qui
permettent de visionner les données et de réaliser le test :

>tab<-matrix(c(10,29,75,27),ncol=2)
>rownames(tab)<-c("infection","pas d'infection")
>colnames(tab)<-c("antibio","placebo")
>par(mfrow=c(2,1))
>barplot(tab[1,],main="infection")
barplot(tab[2,],main="pas d'infection")
>resultat<-chisq.test(tab)
>resultat$res
Fiche 7 – Comparaison de deux moyennes appariées : t-test
apparié

Objectif : Comparer les moyennes obtenues dans le cas où les observations sont appariées (avant-
après sur un même individu, mesure par deux méthodes).

Chaque individu est décrit par un couple de variables  X 1 , X 2  .

Données : On dispose de deux variables quantitatives X 1 et X 2 mesurées sur n individus d'une


population.

X1 X2
ind 1 x11 x 21
ind 2 x12 x 22

Hypothèse nulle H 0 : «  1 =  2 »

Conditions d’utilisation:
● Les individus sont indépendants.
● Les variables X 1 et X 2 suivent une loi normale ou n >30
● Les variables ont la même variance

Principe du test :
On construit une nouvelle variable Z = X 2 − X 1 .

Z
Si les conditions sont respectées, la variable Tn = √n suit sous H 0 une loi de Student à n-1
sz
ddl.

Test bilatéral: On teste H 0 : «  1 =  2 » contre H 1 : «  1 ≠  2 »

● si ∣T n∣ < t 1 −  , on accepte H 0
2
● sinon on rejette H 0 avec un risque de première espèce égal à  .

Exemple

Reprendre l'exercice 6 du TD2 et comparer les moyennes avant et après traitement grâce à la
fonction t.test et la commande suivante :

>t.test(valeur$avant,valeur$apres,alternative='twosided',conf.level=0.95,paired=TRUE)
Fiche 8 – Normalité d'une distribution

Objectif : La majorité des tests paramétriques s'appuie sur l'hypothèse de normalité de la variable
étudiée X . Lorsque le nombre d'observations est suffisamment grand, le théorème limite central
permet d'approcher la moyenne empirique par une loi normale.
Cependant, lorsque le nombre d'observations n'est pas suffisant, il existe plusieurs méthodes de
vérification. Elles ne sont pas entièrement satisfaisantes (faible puissance) notamment du fait des
faibles effectifs souvent étudiés.
On est donc conduit à croiser plusieurs approches, graphiques et tests, pour évaluer cette hypothèse.

Exemple 1 : Reprendre l'exemple des poulpes mâles et femelles. Discuter.

I) Représentations graphiques :

1. Symétrie de la distribution
On réalise ici une boîte à moustache (ou boxplot) de nos observations à l'aide de la comande
boxplot. Ce graphique nous indique la position de la médiane dans l'intervalle inter-quartile,
ainsi que la distribution des points extrémaux. Un boxplot asymétrique permet d'infirmer
l'hypothèse de normalité des données.
2. Symétrie et unimodalité de la distribution
Pour plus de précisions, on réalise ici un histogramme. L'existence de deux « pics » ou une
forte dissymétrie est un bon indice d'une non normalité.
3. Droite de Henry
La droite de Henry représente les quantiles ( xi ) de la loi empirique en fonction des quantiles
de la loi normale centrée réduite ( t i ). Si la loi empirique suit une loi normale, les points sont
alignés ( xi =  t i +  ).
La fonction permettant cette représentation graphique est qqnorm.

II) Tests statistiques :

Il existe différents tests pour étudier la normalité : Test de Jarque Bera , Test d'adéquation du  2 ,
test de Lilliefor (> library(nortest) > lillie.test(X)), test de shapiro Wilks. La
multitude des tests indique qu'aucun n'est entièrement satisfaisant. Nous nous limiterons au dernier
parmi les plus utilisés.

● Test de Shapiro & Wilks :


On retiendra que le test de Shapiro et Wilks porte sur la corrélation au carré qu’on voit sur un
qqplot. La corrélation est toujours très forte, la question est toujours ”l’est-elle assez ?” La
probabilité critique est la probabilité pour que la statistique soit inférieure ou égale à l’observation.

Exemple 1 -suite- : Reprendre l'exemple poulpe avec la variable Poids. Effectuer le test de
Shapiro. Le résultat est le suivant :
> shapiro.test(data$Poids)

Shapiro-Wilk normality test

data: data$Poids
W = 0.933, p-value = 0.0733

Le test n'est pas correct ici car cette variable dépend du sexe. Il faut donc tester la normalité pour
chaque sous-population, sinon on réalise le test sur un mélange de deux distributions.

On teste la normalité pour chacune des populations à l'aide des commandes suivantes :

> data=read.table("poulpe.csv",header=T,sep=";")
> x=data$Poids[data$Sexe=="Femelle"]
> y=data$Poids[data$Sexe=="M\xe2le"]
> shapiro.test(y)

Shapiro-Wilk normality test

data: y
W = 0.935, p-value = 0.3238

> shapiro.test(x)

Shapiro-Wilk normality test

data: x
W = 0.9711, p-value = 0.907

On remarque ici que les deux tests ont des p-valeurs supérieures à 5%. Peut-on conclure à la
normalité des observations ? Aidez -vous des représentations graphiques.
Fiche 9 – Test du coefficient de corrélation
Soient (X,Y) un couple de variables quantitatives. La description de la liaison entre les deux
variables se fait préalablement par un examen du nuage de points (xi,yi), i=1, ... n.

Si le nuage de points décrit une relation linéaire entre les deux variables, on peut calculer comme
indicateur de la liaison linéaire entre les deux variables, le coefficient de corrélation de Pearson :

r=
∑ ( ( xi − x ) ( yi − y ) )
σx σy

Si la relation entre les variables n'est pas linéaire, il est possible d'utiliser un autre coefficient de
corrélation (par exemple le coefficient de corrélation de Spearman basé sur les rangs des
observations).

Données : Un couple de variables quantitatives :


X Y
x1 y1
x2 y2

Objectif : On veut tester si la liaison linéaire entre les variables est significative, c'est-à-dire si le
coefficient de corrélation peut être considéré comme significativement non nul.

Conditions d'application : Elles reposent sur la normalité de chacune des variables X et Y.

Hypothèse nulle : H0 "le coefficient de corrélation de Pearson est nul" ou "Les variables X et Y
ne sont pas corrélées linéairement".

Principe du test : Sous H 0 , la statistique r suit une loi tabulée à n-2 ddl. On construit alors une
zone d'acceptation centrée sur 0.

Test : On teste H 0 « r= 0 » contre H « r ≠ 0 ».


● Si p >0,05, on accepte H 0 .
● Si p <0,05, on rejette H 0 avec un risque de première espèce p.

Exemple : Sur un échantillon de 10 sujets d’âges différents, on a recueilli l'âge et la


concentration sanguine du cholestérol (en g/L) de 10 individus :
age (xi) 30 60 40 20 50 30 40 20 70 60
gl (yi) 1.6 2.5 2.2 1.4 2.7 1.8 2.1 1.5 2.8 2.6

Ci-dessous les commandes R pour effectuer le test. Commenter la sortie graphique du logiciel et la
réponse au test de corrélation. On pourra investiguer les autres méthodes (Spearman, Kendall), en
changeant l'argument method dans la fonction cor.test,

> age<-c(30,60,40,20,50,30,40,20,70,60)
> chol<-c(1.6,2.5,2.2,1.4,2.7,1.8,2.1,1.5,2.8,2.6)
> plot(chol,age)
> cor.test(age,chol,method="pearson")

Pearson's product-moment correlation

data: age and chol


t = 9.0714, df = 8, p-value = 1.748e-05
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.8148247 0.9895142
sample estimates:
cor
0.9546712
Fiche 10 – Régression linéaire simple

I. Introduction
La régression linéaire simple s'applique à un ensemble d'observations ( x 1 , y 1 ), ( x 2 , y 2 ), ... , ( x n , y n )
de couples de variables quantitatives. L'analyse peut se limiter à l'analyse des liaisons entre
variables (corrélation linéaire ou non-linéaire), mais on recherche souvent à expliquer une des
variables en fonction de l'autre.

On distingue alors la variable à expliquer Y (réponse) et les variables explicatives X i . Les


variables explicatives peuvent être fixées par l'expérimentateur ou aléatoires. Dans tous les cas :
• la variable explicative X i est considérée comme fixe (ce n'est pas une variable aléatoire).
• la variable réponse Y est considérée comme une variable aléatoire (loi normale le plus
souvent).
• le rôle des variables n'est donc pas symétrique et le choix de Y est le plus souvent naturel.

L'objectif de la régression est de déterminer, si elle existe, une relation fonctionnelle entre la
variable à expliquer Y et une ou plusieurs variables explicatives X1, X2 …

Données :
Y X1
individu 1 y1 x 11
individu 2 y2 x12

Représentation graphique : La première étape est d'observer le nuage de point pour déceler
une éventuelle relation fonctionnelle.

Exemple :
Reprendre l'exemple du cholesterol. Existe-t'il un lien entre ces deux variables ? Ce lien est-il
linéaire ?

II. Le modèle de régression linéaire simple

On utilisera une régression linéaire simple dans le cas où :


■ la relation fonctionnelle peut être considérée comme linéaire entre Y et X
(observation du nuage de points),
■ la corrélation est significativement différente de 0 (Fiche 9).
Dans le cas contraire, il n'existe pas de relation (linéaire) significative entre Y et X
et l'utilisation d'un modèle de régression linéaire n'a aucun intérêt.

On réalisera donc toujours ces deux vérifications au préalable et dans l'ordre avant de se
lancer dans une régression linéaire.

Dans de nombreux cas, la relation fonctionnelle entre Y et X ne peut pas être considérée comme
linéaire :
● on peut soit revenir à un modèle linéaire par changement de variables,
● soit utiliser une régression non linéaire (non abordé).
a. Le modèle et les hypothèses

y i = α + β xi + ε i avec ε i une variable aléatoire suivant une loi normale centrée N(0,σ ²)

On suppose dans ce cas les choses suivantes :


■ le lien entre les deux variables est linéaire,
■ les variables ε i sont indépendantes identiquement distribuées de loi
N(0,σ ²)

L'intérêt du modèle linéaire est sa simplicité et les différents outils statistiques qui s'y rattachent :
diagnostic, intervalle de prédiction, test sur les coefficients …

b. Estimation des paramètres:


Pour estimer les paramètres du modèle, on recherche dans une famille fixée de fonctions, la
fonction f pour laquelle les yi sont les plus proches des f(xi). Dans le cas de la régression simple,
f(x)= α + βx . La proximité se mesure en général comme une erreur quadratique moyenne :
n
1
Critère des moindres carrés = ∑  y − f  xi   2
n i=1 i

On parle alors de régression au sens des moindres carrés.


Dans le cadre du modèle linéaire, on notera a, b, s² les estimations des paramètres α, β et σ² .
La méthode des moindres carrées conduit à :

∑  x i − x   yi − y  1
b=
n−2
∑  y i − y i  2 .
, a = y - b x et s² =
∑  xi − x  2
y i par le modèle s'appellent les
Les différences entre les valeurs observées yi et les valeurs prédites 
résidus, notés ei :

Résidus: ei= yi – a+b xi= yi - yi avec yi = a+b xi

Exemple : Reprendre l'exemple cholesterol et estimer les paramètres à la main et avec R grâce
aux commandes suivantes :

> X<-cbind(chol,age)
> cholesterol<-data.frame(X)
> reg<-lm(chol~age,data=cholesterol)
>summary(reg)
Call:
lm(formula = chol ~ age, data = cholesterol)

Residuals:
Min 1Q Median 3Q Max
-0.17826 -0.11141 -0.01304 0.03315 0.35217

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.923913 0.141793 6.516 0.000185 ***
age 0.028478 0.003139 9.071 1.75e-05 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.1649 on 8 degrees of freedom


Multiple R-squared: 0.9114, Adjusted R-squared: 0.9003
F-statistic: 82.29 on 1 and 8 DF, p-value: 1.748e-05

Commenter les résultats obtenus.

Illustration de la méthode des moindres carrés

c. Tests et intervalles de confiances : exemple des eucalyptus


On étudie toutes les possibilités du logiciel R et de la fonction lm dans le cas d'un modèle de
régression simple. On dispose pour cela des données eucalyptus, qui contient la hauteur de 1429
eucalyptus (ht) en fonction de la circonférence à un mètre du sol (circ).
Réaliser et commenter les commandes suivantes du logiciel R :

Phase de pré-analyse
>euca=read.table("eucalyptus.txt",header=T)
>plot(ht~circ,data=euca)
>cor.test(euca$ht,euca$circ,method="pearson")

Réalisation du modèle de régression


>reg=lm(ht~circ,data=euca)

Droite de régression et intervalle de confiance


>circ=seq(min(euca[,"circ"]),max(euca[,"circ"]),length=100)
>grille<-data.frame(circ)
>ICdte<-predict(reg,new=grille,interval="confidence",level=0.95)
>matlines(grille$circ,cbind(ICdte),lty=c(1,2,2),col=1)

Représentation des résidus


>res<-rstudent(reg)
>plot(res,pch=15,ylab=Résidus,ylim=c(-3,3))
>abline(h=c(-2,0,2),lty=c(2,1,2)).

Intervalle de confiance des paramètres


>seuil<-qt(0.975,df=reg$df.res)
>beta0min<-coef(resume)[1,1]-seuil*coef(resume)[1,2]
>beta0max<-coef(resume)[1,1]+seuil*coef(resume)[1,2]
>beta1min<-coef(resume)[2,1]-seuil*coef(resume)[2,2]
>beta1max<-coef(resume)[2,1]+seuil*coef(resume)[2,2]
Fiche 11 – Validation du modèle de régression linéaire simple

On se place dans le cadre d'une relation linéaire entre deux variables (examen du nuage de points) et
d'une liaison linéaire significative entre ces deux variables (coefficient de corrélation
significativement non nul).

Les hypothèses du modèle de régression linéaire simple nécessaire à la construction des principaux
tests statistiques (inférence) sont :

- l'indépendance des observations,


- la distribution normale centrée de l'écart résiduel,
- l'homoscédasticité, à savoir que l'écart résiduel suit la même loi indépendamment des
valeurs de xi ou y i .

Dans le cas où ces hypothèses sont vérifiées, il est possible de construire des intervalles de
confiances pour les paramètres estimés, des intervalles de confiance pour la prédiction, comparer
les modèles, ...

La vérification de ces hypohèses n'est pas toujours évidente. Il est préférable de croiser différentes
méthodes, graphiques et tests, pour évaluer l'existence d'écarts aux hypothèses. Aucune méthode
n'est entièrement satisfaisante.

1. Indépendance des résidus

Le problème d'indépendance est important, notamment dans le cas de séries chronologiques où nos
observations sont rangées par ordre chronologique. Pour vérifier l'indépendance des observations,
yi .
on va réaliser l'analyse de l'indépendance des résidus ei= yi – a+b xi= yi - 

La première méthode est l'observation graphique : On observe les résidus en fonction du temps
(dans le cas des séries chronologiques), ou bien les résidus en fonction de la variable explicative.
On observe ainsi l'ajustement du nuage de points par rapport à la droite de régression et on peut
détecter des écarts éventuels, dus à l'apparition de tendances cycliques (saisons, cycles
économiques,...), une relation non linéaire, une répartition non aléatoire des résidus (amplitude,
signe).
n

∑  e i −e i − 1 2
i=2
On peut aussi réaliser un test de Durbin Watson grâce à la statistique n qui mesure
∑e 2
i
i=2
l'autocorrélation d'ordre 1 des résidus, c'est-à-dire une relation du type :

εi+1= ρ εi + τ avec τ ~N(0,σ²).

2. Homoscédasticité

Un des problèmes récurrents est l'existence d'une relation entre la variance des résidus et la valeur
de y i ou celle de xi . la variance des résidus a parfois tendance à croître avec y i ou xi . On peut
alors, pour vérifier l'hypothèse d'homoscédasticité, faire une observation graphique des résidus en
fonction des y i ou des xi . Les écarts ne doivent pas croître en fonction de y i ou xi mais toujours
rester du même ordre de grandeur.

3. Normalité

La dernière hypothèse du modèle de régression simple est la normalité des résidus. Pour cela, on se
reporte à la Fiche 8, que l'on applique à nos résidus ei.

Exemples : Reprendre l'exemple cholesterol puis l'exemple eucalyptus et vérifier les hypothèses
du modèle de régression simple.
Fiche 12 – Analyse de variance à 1 facteur

Objectifs :
Comparer les moyennes d'une variable quantitative Y en fonction d'un facteur. Estimer les effets de
chaque modalité du facteur sur la valeur de la variable Y.

Les données :
On dispose d'un tableau du type :

Y Facteur
y 11 A
y 12 A
y 11 A
y 21 B
y 22 B
..... ...

où Y représente la colonne des observations Y et Facteur est une colonne déclarée en facteur. On
appelle facteur une variable qualitative prenant plusieurs modalités dont on étudie l'influence sur la
variable Y. Par exemple, le facteur peut être la variété, le dosage d'un apport nutritif, le type
d'engrais, un traitement …

L'objectif est d'évaluer si le facteur influence significativement la variable Y.

Conditions d'utilisation (Voir Fiche 13) :


■ les observations sont indépendantes,
■ la variable Y suit la loi normale au sein de chaque modalité,
■ la variance de Y est la même pour toutes les modalités.

Hypothèse nulle : H 0 « les moyennes sont toutes égales » contre H « les moyennes ne sont pas
toutes égales ».

Principe du test :
La somme des carrés totale décompose en somme des carrés entre les groupes (ou expliqué par le
modèle), et somme des carrés à l'intérieur des groupes (ou résiduelle) :

SCE T = SCE B + SCE W

∑  y ik − y  2 = ∑  yi − y  2 + ∑  y ik − y i  2
ik ik ik
On utilise l'écriture anglosaxonne avec :
B pour between groups (entre groupes)
W pour within group (intra groupe)

On obtient les différentes variances, ou carrés moyens, en divisant les sommes de carrés d'écart par
leurs degrés de liberté :

SCE T SCE B SCE W


CM T = CM B = CM W =
n− 1 q −1 n− q
avec n l'effectif total et qle nombre de modalités.

CM B
On montre alors que la statistique F = suit la loi de Fisher à (q-1;n-q) ddl sous H0.
CM W

Test : On teste H 0 « les moyennes sont toutes égales » contre H « les moyennes ne sont pas
toutes égales

■ si F < F1 − (q-1,n-q), on accepte H 0

■ sinon on rejette H 0 avec un risque de première espèce égal à  (ou p).

Estimation des effets

En présence d'un seul facteur, on peut écrire le modèle d'analyse de variance de la manière
suivante :

yik = μ + αi + ε ik avec μ la moyenne générale de Y


αi l'effet du la modalité i sur la moyenne
εik variables aléatoires indépendantes suivant une loi normale centrée
N(0,σ²).

on considère que la variable Y suit pour chaque modalité i une loi normale N( μ + αi ,σ ²).

estimation des paramètres du modèle:


Les coefficients sont estimés en minimisant l'erreur quadratique moyenne :

1
Critère des moindres carrés =
n ∑  y ik − 
yik 2 ,
ik

y ik = y i . Les différences entre les valeurs observées y ik et les valeurs prédites par le
et l'on obtient 
modèle notée ik s'appellent les résidus, notés eik = y ik − y i .
y

Les estimations des coefficients sont :


1
• y = ∑ y ik pour μ
n ik
1
• y i = n ∑ y ik pour μi = μ + αi soit ai = y i − y pour αi
i k
1
• s² = ∑  yik − yi 2 pour σ² avec q le nombre de modalités
n−q ik

Exemple : Cinq pièces sont prélevées au hasard dans la production de trois machines, A, B et C.
Chacune des pièces est ensuite mesurée par un seul opérateur. Les mesures sont présentées dans le
tableau ci-dessous:

facteur A A A A A B B B B B C C C C C
mesure 5 7 6 9 13 8 14 7 12 9 14 15 17 18 11
Fiche 13 – Validation du modèle d'analyse de variance

On rappelle le modèle d'analyse de variance :


yik = μ + αi + ε ik avec μ la moyenne générale de Y
αi l'effet du la modalité i sur la moyenne
εik variables aléatoires indépendantes suivant une loi normale centrée
N(0,σ²).

Ainsi on doit vérifier les trois hypothèses suivantes : indépendance, normalité, et homoscédasticité.

1. Indépendance

L'hypothèse principale du modèle d'analyse de variance est l'indépendance des données.


Ne pas respecter cette propriété conduit à mesurer et tester autre chose que l'effet étudié, autant dire
les données deviennent inexploitables.
Pour vérifier l'indépendance des données, on pourra utiliser les techniques utilisées en régression
linéaire simple (Fiche 11), à savoir l'analyse graphique des résidus du modèle.

2. Normalité

La décomposition de la variance est toujours valable, quelle que soit la distribution des variables
étudiées. Cependant, lorsqu'on réalise le test final (test F ), on admet la normalité des distributions
(puisque le F est le rapport de deux khi-deux, qui sont des sommes de carrés de lois normales).
L'ANOVA fait donc l'hypothèse de normalité. Elle est cependant assez robuste à la non normalité,
ce qui permet de l'utiliser dans une grande variété de conditions.
Pour vérifier la normalité des données de chaque modalités, on utilise la Fiche 8 sur la normalité.

3. Homoscédasticité

A l'opposé, l'ANOVA fait une autre hypothèse très forte et moins évidente. Il est en effet nécessaire
que la variance dans les différents groupes soit la même. C'est l'hypothèse d'homoscedasticité.
L'ANOVA y est sensible. Il est donc nécessaire de la tester avant toute utilisation.
Pour cela, on doit vérifier que l'égalité des variances dans les différents groupes. On peut utliser le
test de Bartlett.

Exemple : Vérifier les hypothèses de l'analyse de variance dans l'exemple précédent.

You might also like