Professional Documents
Culture Documents
On dispose en général d'un échantillon X 1 , ... , X n prélevé dans une population pour laquelle la
variable d'intérêt quantitative X a pour espérance (moyenne théorique) µ et variance 2
inconnues.
Règle pour l'estimation ponctuelle : Soit une variable d'intérêt X mesurée sur un
échantillon de n individus,
n
1
● la moyenne est estimée par l'estimateur X =
n
∑ Xi
i= 1
n
1
● la variance 2 est estimée par l'estimateur s 2X = ∑ ( X − X )2
n −1 i = 1 i
D'une réalisation à l'autre, les estimations ponctuelles vont variées d'autant plus que le nombre
d'observations n est faible. Pour affiner l'estimation de ces paramètres, on détermine alors un
intervalle de confiance dans lequel les valeurs réelles µ ou 2 ont une probabilité déterminée à
l'avance de se trouver.
Cet intervalle de confiance, noté IC, permet ainsi de prendre en compte la variabilité de l'estimation
ponctuelle.
Propriétés de l'estimateur X
X−μ
■ Si 2 est connue, alors Z n = √ n suit la loi normale centrée réduite
σ
X−μ
■ Si 2 est inconnue, alors T n = √ n suit la loi de Student à n −1 degrés de
sX
liberté.
n −1 s 2 X
■ 2
suit la loi du 2 à n-1 ddl.
Construction d'un intervalle de confiance pour la moyenne:
X−μ
On recherche toutes les valeurs de µ pour lesquelles T n = √n
soit compris entre tα /2 et t1-α /2
sX
t1-α /2 est le quantile de la loi normale ou de la loi de student T à n-1 ddl pour laquelle P(T<t1-α /2 )=1-
α/2 donc
sX sX
On a alors l’intervalle de confiance à 1-α pour : X -t1-α/2 < µ < X +t1-α/2
√n √n
Pour = 5%, ce résultat signifie que "la vraie moyenne, μ", de la population a une probabilité de
95% d’être dans cet intervalle. On notera par commodité cet intervalle de confiance IC 95 .
n −1 s 2 X
On recherche toutes les valeurs possibles de 2 pour lesquelles soit compris entre
2
2 et
2
(ici il n'y a pas symétrie des quantiles).
, n −1 1− , n− 1
2 2
2 n −1 s 2 X 2 α
, n − 1 est le quantile dans la table pour laquelle P( < , n − 1) = donc
2 2 2 2
Exemple :
Reprendre l'exercice 1 du TD 1 et en déduire un intervalle à 95% de la moyenne et de s X . On
trouvera les quantiles de la loi de Student et de la loi du Chi-2 à l'aide des commandes suivantes :
> qchisq(0.975,39)
[1] 58.12006
> qchisq(0.025,39)
[1] 23.65432
> qt(0.975,39)
[1] 2.022691
On peut retrouver ces résultats à l'aide de la commande t.test qui propose un test de Student univarié
sur la moyenne ainsi qu'un intervalle de confiance pour la moyenne.
> t.test(poids)
data: poids
t = 27.3169, df = 39, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
99.7716 115.7284
sample estimates:
mean of x
107.75
sample estimates:
mean of x
177
Si une population contient une proportion f d’individus possédant un caractère donné, l'estimateur
de ce paramètre est la fréquence du caractère dans l'échantillon, noté f .
Dans les autres cas, n<100 ou f < 0,1, il faut utiliser un modèle exact (binom.test dans R).
Objectif : L'objectif est de comparer une moyenne à une valeur de référence. On qualifie un tel
test de test de conformité.
Hypothèse nulle H 0 : « = 0 »
Conditions d’utilisation:
Principe du test :
Pour une population de moyenne et variance inconnue, nous avons déjà vu que si les conditions
sont respectées :
X − μ0
T n= √n suit sous H 0 une loi de Student à n-1 ddl.
sX
● si , ∣T n∣< t 1 − α/ 2 ( n− 1 ) on accepte H 0
● si T n > t α ( n −1 ) , on accepte H 0
cas favorables
Le but est de savoir si un échantillon de fréquence observée f obs = , estimateur
total
de f, appartient à une population de référence connue de fréquence f 0 ( H 0 vraie) ou à une autre
population inconnue de fréquence f ≠ f 0 (H vraie).
Principe du test :
( f obs − f 0 )
On calcule la statistique U= f o ( 1 − f 0 ) qui suit sous H 0 la loi normale centrée réduite.
√ n
On calcule alors la probabilité p -value d'observer une valeur supérieure ou égale sous H 0 (en
valeur absolue).
Conditions d'utilisation :
● Le test est applicable si n f 0 ≥ 10 et n(1- f 0 ) ≥ 10 (approximation par la loi normale).
Si cette condition n'est pas vérifiée, on utilise un test exact (binom.test).
● Les individus sont indépendants.
Exemple 1
Reprendre l'exercice 2 du TD2 et conclure quant à la toxicité de la solution injectée au risque 5%.
Utiliser la commande prop.test et comparer avec la commande binom.test
Objectif : L'hypothèse d'égalité des variances est indispensable pour tester l'égalité de deux
moyennes avec le test t (#t - test). On souhaite donc tester l'égalité des variances de deux
populations
Conditions d’utilisation:
- Deux populations de moyennes et variances inconnues.
- Deux échantillons de n1 et n2 individus indépendants,
- Les variables suivent des lois normales ou chacun des effectifs est supérieur à 30
s 21
Le quotient suit sous H 0 la loi de Fisher-Snedecor à n1-1 et n2-1 ddl
s 22
s 21
■ si F (n1-1,n2-1)< 2 < F 1 − (n1-1,n2-1), on accepte H 0
2 s2 2
Exemple :
Récupérer le fichier « poulpe.csv » qui contient le poids de poulpes mâles et femelles. Pour cela, on
utilise la commande read.table.
> poulpe<-read.table("poulpe.csv",sep=";",header=T)
>summary(poulpe)
> boxplot(Poids~Sexe,data=poulpe)
On veut tester l'égalité des variances dans ces deux populations. Qu'en pensez-vous ? Utiliser la
commande var.test pour tester l'égalité des variances dans ces deux populations :
> var.test(Poids~Sexe,conf.level=0.95,data=poulpe)
Fiche 4 : Test de comparaison de deux moyennes : t – test
Hypothèse nulle H 0 : « 1 = 2 »
Conditions d’utilisation:
● Deux échantillons de n1 et n2 individus indépendants.
● La variable suit une loi normale dans chaque population ou n1 et n2 >30 : fiche
« Normalité »
● La variable a la même variance dans les deux populations : fiche « Test F »
Principe du test :
n1 −1 s 21 n2 −1 s 22
La variable d= x 1 − x 2 a pour variance estimée s 2d =
n 1 n2 − 2
×
1
1
n1 n2.
x1 − x2
Si les conditions sont respectées, la statistique T n = suit sous H 0 une loi de Student à
sd
n1 n 2 − 2 ddl.
● si ∣T n∣ < t 1 − ( n1 n 2 − 2 ) , on accepte H 0
2
● si T n < t α ( n1 n 2 − 2 ), on accepte H 0
Exemple :
Reprendre le fichier « poulpe.csv ». Tester l'égalité des moyennes à l'aide de la fonction t.test :
> t.test(Poids~Sexe,conf.level=0.95,var.equal=TRUE,data=poulpe)
Peut-on considérer les variances égales ? Faire le test dans les deux cas en utilisant les options de la
fonction t.test.
Fiche 5 –Test de conformité à une distribution : test du 2
d'adéquation
L'objectif du test est de vérifier que les modalités se distribuent suivant des probabilités attendues.
On utilise un tel test en génétique par exemple pour vérifier :
1 2 1
● les lois de Mendel, (répartition , , pour F2)
4 4 4
Conditions d'application : Les effectifs théoriques doivent être supérieurs à 5 ( nith eor ≥ 5).
Dans le cas contraire, on peut regrouper les classes les plus faibles, utiliser un test du 2 corrigé,
utiliser le test exact de Fisher...
Hypothèse nulle : H 0 « Les fréquences observées sont conformes aux probabilités attendues ».
Principe du test :
Le principe du test du χ2 est d’estimer à partir d’une loi de probabilité connue (ou estimée à partir
de l'échantillon), les effectifs théoriques pour les différentes modalités du caractère étudié et les
comparer aux effectifs observés dans un échantillon. Deux cas peuvent se présenter :
• soit la loi de probabilité est spécifiée a priori car elle résulte par exemple d’un modèle
déterministe tel que la distribution mendélienne des caractères.
• soit la loi de probabilité théorique n’est pas connue a priori et elle est déduite des
caractéristiques statistiques mesurées sur l’échantillon (estimation de p1 et p2 dans le cas
du modèle de Hardy Weinberg).
Le test du χ2 consiste à mesurer l’écart qui existe entre la distribution théorique et la distribution
observée et à tester si cet écart est suffisamment faible pour être imputable aux fluctuations
d’échantillonnage.
● On calcule les effectifs théoriques n1th eor , n2th eor ... attendus sous l'hypothèse où la
distribution est conforme à celle attendue.
k
niobs − nith eor 2
● On calcule ensuite la statistique : 2 = ∑ n ith eor
i =1
● 2 suit sous H 0 la loi du 2 à degrés de liberté. On rejette alors H 0 dans le cas où 2
dépasse la valeur seuil 21 − (v).
■ Sinon, il faut estimer des probabilités sur l'échantillon et augmenter d'autant les
contraintes. Par exemple avec le modèle de Hardy Weinberg, la somme des
probabilités vaut 1 et il faut estimer p1 , soit c =2, donc = k −2 .
Exemple :
Reprendre l'exercice 4 du TD2 et calculer à la main la valeur de 2 dans ce cas. Comparer-le au
quantile 21 − 4 − 1 et conclure pour un test à 5%. Réaliser le test sous R avec la commande
chisq.test.
Fiche 6 – Test du Chi2 d'indépendance
Objectif : Le test du χ est largement utilisé pour l'étude de l'indépendance entre deux caractères
2
qualitatifs. La présentation des résultats se fait sous forme d'un tableau de contingence à deux
entrées. Chaque entrée représente les modalités d'une des variables. On détermine alors le tableau
attendu sous l'hypothèse d'indépendance.
Données : Deux variables qualitatives sont mesurées sur n individus puis présentées sous forme
d'un tableau de contingence (tableau à deux entrées) :
Par exemple :
tabac
c présence absence total
a présence
n
c absence
e
r total
Conditions d’utilisation:
L' effectif théorique calculé sous l'hypothèse H 0 doit être supérieur à 5.
Principe du test : On calcule les effectifs théoriques sous l'hypothèse H 0 . Les effectifs
marginaux (totaux à la marge en ligne ou en colonne) et fréquences marginales du tableau restent
inchangés.
ni⋅obs × n⋅obsj
nijth eor =
n
avec nijtheor l'effectif théorique,
ni⋅obs et n⋅obsj les effectifs marginaux ligne et colonne,
n l'effectif total.
Sous H 0 , cette statistique suit la loi du 2 à v= (l-1)(c-1) ddl avec l le nombre de lignes et c le
nombre de colonnes.
Test : On teste l’hypothèse H 0 “indépendance des deux caractères” contre H 1 “dépendance entre
les deux caractères” :
>tab<-matrix(c(10,29,75,27),ncol=2)
>rownames(tab)<-c("infection","pas d'infection")
>colnames(tab)<-c("antibio","placebo")
>par(mfrow=c(2,1))
>barplot(tab[1,],main="infection")
barplot(tab[2,],main="pas d'infection")
>resultat<-chisq.test(tab)
>resultat$res
Fiche 7 – Comparaison de deux moyennes appariées : t-test
apparié
Objectif : Comparer les moyennes obtenues dans le cas où les observations sont appariées (avant-
après sur un même individu, mesure par deux méthodes).
X1 X2
ind 1 x11 x 21
ind 2 x12 x 22
Hypothèse nulle H 0 : « 1 = 2 »
Conditions d’utilisation:
● Les individus sont indépendants.
● Les variables X 1 et X 2 suivent une loi normale ou n >30
● Les variables ont la même variance
Principe du test :
On construit une nouvelle variable Z = X 2 − X 1 .
Z
Si les conditions sont respectées, la variable Tn = √n suit sous H 0 une loi de Student à n-1
sz
ddl.
● si ∣T n∣ < t 1 − , on accepte H 0
2
● sinon on rejette H 0 avec un risque de première espèce égal à .
Exemple
Reprendre l'exercice 6 du TD2 et comparer les moyennes avant et après traitement grâce à la
fonction t.test et la commande suivante :
>t.test(valeur$avant,valeur$apres,alternative='twosided',conf.level=0.95,paired=TRUE)
Fiche 8 – Normalité d'une distribution
Objectif : La majorité des tests paramétriques s'appuie sur l'hypothèse de normalité de la variable
étudiée X . Lorsque le nombre d'observations est suffisamment grand, le théorème limite central
permet d'approcher la moyenne empirique par une loi normale.
Cependant, lorsque le nombre d'observations n'est pas suffisant, il existe plusieurs méthodes de
vérification. Elles ne sont pas entièrement satisfaisantes (faible puissance) notamment du fait des
faibles effectifs souvent étudiés.
On est donc conduit à croiser plusieurs approches, graphiques et tests, pour évaluer cette hypothèse.
I) Représentations graphiques :
1. Symétrie de la distribution
On réalise ici une boîte à moustache (ou boxplot) de nos observations à l'aide de la comande
boxplot. Ce graphique nous indique la position de la médiane dans l'intervalle inter-quartile,
ainsi que la distribution des points extrémaux. Un boxplot asymétrique permet d'infirmer
l'hypothèse de normalité des données.
2. Symétrie et unimodalité de la distribution
Pour plus de précisions, on réalise ici un histogramme. L'existence de deux « pics » ou une
forte dissymétrie est un bon indice d'une non normalité.
3. Droite de Henry
La droite de Henry représente les quantiles ( xi ) de la loi empirique en fonction des quantiles
de la loi normale centrée réduite ( t i ). Si la loi empirique suit une loi normale, les points sont
alignés ( xi = t i + ).
La fonction permettant cette représentation graphique est qqnorm.
Il existe différents tests pour étudier la normalité : Test de Jarque Bera , Test d'adéquation du 2 ,
test de Lilliefor (> library(nortest) > lillie.test(X)), test de shapiro Wilks. La
multitude des tests indique qu'aucun n'est entièrement satisfaisant. Nous nous limiterons au dernier
parmi les plus utilisés.
Exemple 1 -suite- : Reprendre l'exemple poulpe avec la variable Poids. Effectuer le test de
Shapiro. Le résultat est le suivant :
> shapiro.test(data$Poids)
data: data$Poids
W = 0.933, p-value = 0.0733
Le test n'est pas correct ici car cette variable dépend du sexe. Il faut donc tester la normalité pour
chaque sous-population, sinon on réalise le test sur un mélange de deux distributions.
On teste la normalité pour chacune des populations à l'aide des commandes suivantes :
> data=read.table("poulpe.csv",header=T,sep=";")
> x=data$Poids[data$Sexe=="Femelle"]
> y=data$Poids[data$Sexe=="M\xe2le"]
> shapiro.test(y)
data: y
W = 0.935, p-value = 0.3238
> shapiro.test(x)
data: x
W = 0.9711, p-value = 0.907
On remarque ici que les deux tests ont des p-valeurs supérieures à 5%. Peut-on conclure à la
normalité des observations ? Aidez -vous des représentations graphiques.
Fiche 9 – Test du coefficient de corrélation
Soient (X,Y) un couple de variables quantitatives. La description de la liaison entre les deux
variables se fait préalablement par un examen du nuage de points (xi,yi), i=1, ... n.
Si le nuage de points décrit une relation linéaire entre les deux variables, on peut calculer comme
indicateur de la liaison linéaire entre les deux variables, le coefficient de corrélation de Pearson :
r=
∑ ( ( xi − x ) ( yi − y ) )
σx σy
Si la relation entre les variables n'est pas linéaire, il est possible d'utiliser un autre coefficient de
corrélation (par exemple le coefficient de corrélation de Spearman basé sur les rangs des
observations).
Objectif : On veut tester si la liaison linéaire entre les variables est significative, c'est-à-dire si le
coefficient de corrélation peut être considéré comme significativement non nul.
Hypothèse nulle : H0 "le coefficient de corrélation de Pearson est nul" ou "Les variables X et Y
ne sont pas corrélées linéairement".
Principe du test : Sous H 0 , la statistique r suit une loi tabulée à n-2 ddl. On construit alors une
zone d'acceptation centrée sur 0.
Ci-dessous les commandes R pour effectuer le test. Commenter la sortie graphique du logiciel et la
réponse au test de corrélation. On pourra investiguer les autres méthodes (Spearman, Kendall), en
changeant l'argument method dans la fonction cor.test,
> age<-c(30,60,40,20,50,30,40,20,70,60)
> chol<-c(1.6,2.5,2.2,1.4,2.7,1.8,2.1,1.5,2.8,2.6)
> plot(chol,age)
> cor.test(age,chol,method="pearson")
I. Introduction
La régression linéaire simple s'applique à un ensemble d'observations ( x 1 , y 1 ), ( x 2 , y 2 ), ... , ( x n , y n )
de couples de variables quantitatives. L'analyse peut se limiter à l'analyse des liaisons entre
variables (corrélation linéaire ou non-linéaire), mais on recherche souvent à expliquer une des
variables en fonction de l'autre.
L'objectif de la régression est de déterminer, si elle existe, une relation fonctionnelle entre la
variable à expliquer Y et une ou plusieurs variables explicatives X1, X2 …
Données :
Y X1
individu 1 y1 x 11
individu 2 y2 x12
Représentation graphique : La première étape est d'observer le nuage de point pour déceler
une éventuelle relation fonctionnelle.
Exemple :
Reprendre l'exemple du cholesterol. Existe-t'il un lien entre ces deux variables ? Ce lien est-il
linéaire ?
On réalisera donc toujours ces deux vérifications au préalable et dans l'ordre avant de se
lancer dans une régression linéaire.
Dans de nombreux cas, la relation fonctionnelle entre Y et X ne peut pas être considérée comme
linéaire :
● on peut soit revenir à un modèle linéaire par changement de variables,
● soit utiliser une régression non linéaire (non abordé).
a. Le modèle et les hypothèses
y i = α + β xi + ε i avec ε i une variable aléatoire suivant une loi normale centrée N(0,σ ²)
L'intérêt du modèle linéaire est sa simplicité et les différents outils statistiques qui s'y rattachent :
diagnostic, intervalle de prédiction, test sur les coefficients …
∑ x i − x yi − y 1
b=
n−2
∑ y i − y i 2 .
, a = y - b x et s² =
∑ xi − x 2
y i par le modèle s'appellent les
Les différences entre les valeurs observées yi et les valeurs prédites
résidus, notés ei :
Exemple : Reprendre l'exemple cholesterol et estimer les paramètres à la main et avec R grâce
aux commandes suivantes :
> X<-cbind(chol,age)
> cholesterol<-data.frame(X)
> reg<-lm(chol~age,data=cholesterol)
>summary(reg)
Call:
lm(formula = chol ~ age, data = cholesterol)
Residuals:
Min 1Q Median 3Q Max
-0.17826 -0.11141 -0.01304 0.03315 0.35217
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.923913 0.141793 6.516 0.000185 ***
age 0.028478 0.003139 9.071 1.75e-05 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Phase de pré-analyse
>euca=read.table("eucalyptus.txt",header=T)
>plot(ht~circ,data=euca)
>cor.test(euca$ht,euca$circ,method="pearson")
On se place dans le cadre d'une relation linéaire entre deux variables (examen du nuage de points) et
d'une liaison linéaire significative entre ces deux variables (coefficient de corrélation
significativement non nul).
Les hypothèses du modèle de régression linéaire simple nécessaire à la construction des principaux
tests statistiques (inférence) sont :
Dans le cas où ces hypothèses sont vérifiées, il est possible de construire des intervalles de
confiances pour les paramètres estimés, des intervalles de confiance pour la prédiction, comparer
les modèles, ...
La vérification de ces hypohèses n'est pas toujours évidente. Il est préférable de croiser différentes
méthodes, graphiques et tests, pour évaluer l'existence d'écarts aux hypothèses. Aucune méthode
n'est entièrement satisfaisante.
Le problème d'indépendance est important, notamment dans le cas de séries chronologiques où nos
observations sont rangées par ordre chronologique. Pour vérifier l'indépendance des observations,
yi .
on va réaliser l'analyse de l'indépendance des résidus ei= yi – a+b xi= yi -
La première méthode est l'observation graphique : On observe les résidus en fonction du temps
(dans le cas des séries chronologiques), ou bien les résidus en fonction de la variable explicative.
On observe ainsi l'ajustement du nuage de points par rapport à la droite de régression et on peut
détecter des écarts éventuels, dus à l'apparition de tendances cycliques (saisons, cycles
économiques,...), une relation non linéaire, une répartition non aléatoire des résidus (amplitude,
signe).
n
∑ e i −e i − 1 2
i=2
On peut aussi réaliser un test de Durbin Watson grâce à la statistique n qui mesure
∑e 2
i
i=2
l'autocorrélation d'ordre 1 des résidus, c'est-à-dire une relation du type :
2. Homoscédasticité
Un des problèmes récurrents est l'existence d'une relation entre la variance des résidus et la valeur
de y i ou celle de xi . la variance des résidus a parfois tendance à croître avec y i ou xi . On peut
alors, pour vérifier l'hypothèse d'homoscédasticité, faire une observation graphique des résidus en
fonction des y i ou des xi . Les écarts ne doivent pas croître en fonction de y i ou xi mais toujours
rester du même ordre de grandeur.
3. Normalité
La dernière hypothèse du modèle de régression simple est la normalité des résidus. Pour cela, on se
reporte à la Fiche 8, que l'on applique à nos résidus ei.
Exemples : Reprendre l'exemple cholesterol puis l'exemple eucalyptus et vérifier les hypothèses
du modèle de régression simple.
Fiche 12 – Analyse de variance à 1 facteur
Objectifs :
Comparer les moyennes d'une variable quantitative Y en fonction d'un facteur. Estimer les effets de
chaque modalité du facteur sur la valeur de la variable Y.
Les données :
On dispose d'un tableau du type :
Y Facteur
y 11 A
y 12 A
y 11 A
y 21 B
y 22 B
..... ...
où Y représente la colonne des observations Y et Facteur est une colonne déclarée en facteur. On
appelle facteur une variable qualitative prenant plusieurs modalités dont on étudie l'influence sur la
variable Y. Par exemple, le facteur peut être la variété, le dosage d'un apport nutritif, le type
d'engrais, un traitement …
Hypothèse nulle : H 0 « les moyennes sont toutes égales » contre H « les moyennes ne sont pas
toutes égales ».
Principe du test :
La somme des carrés totale décompose en somme des carrés entre les groupes (ou expliqué par le
modèle), et somme des carrés à l'intérieur des groupes (ou résiduelle) :
∑ y ik − y 2 = ∑ yi − y 2 + ∑ y ik − y i 2
ik ik ik
On utilise l'écriture anglosaxonne avec :
B pour between groups (entre groupes)
W pour within group (intra groupe)
On obtient les différentes variances, ou carrés moyens, en divisant les sommes de carrés d'écart par
leurs degrés de liberté :
CM B
On montre alors que la statistique F = suit la loi de Fisher à (q-1;n-q) ddl sous H0.
CM W
Test : On teste H 0 « les moyennes sont toutes égales » contre H « les moyennes ne sont pas
toutes égales
En présence d'un seul facteur, on peut écrire le modèle d'analyse de variance de la manière
suivante :
on considère que la variable Y suit pour chaque modalité i une loi normale N( μ + αi ,σ ²).
1
Critère des moindres carrés =
n ∑ y ik −
yik 2 ,
ik
y ik = y i . Les différences entre les valeurs observées y ik et les valeurs prédites par le
et l'on obtient
modèle notée ik s'appellent les résidus, notés eik = y ik − y i .
y
Exemple : Cinq pièces sont prélevées au hasard dans la production de trois machines, A, B et C.
Chacune des pièces est ensuite mesurée par un seul opérateur. Les mesures sont présentées dans le
tableau ci-dessous:
facteur A A A A A B B B B B C C C C C
mesure 5 7 6 9 13 8 14 7 12 9 14 15 17 18 11
Fiche 13 – Validation du modèle d'analyse de variance
Ainsi on doit vérifier les trois hypothèses suivantes : indépendance, normalité, et homoscédasticité.
1. Indépendance
2. Normalité
La décomposition de la variance est toujours valable, quelle que soit la distribution des variables
étudiées. Cependant, lorsqu'on réalise le test final (test F ), on admet la normalité des distributions
(puisque le F est le rapport de deux khi-deux, qui sont des sommes de carrés de lois normales).
L'ANOVA fait donc l'hypothèse de normalité. Elle est cependant assez robuste à la non normalité,
ce qui permet de l'utiliser dans une grande variété de conditions.
Pour vérifier la normalité des données de chaque modalités, on utilise la Fiche 8 sur la normalité.
3. Homoscédasticité
A l'opposé, l'ANOVA fait une autre hypothèse très forte et moins évidente. Il est en effet nécessaire
que la variance dans les différents groupes soit la même. C'est l'hypothèse d'homoscedasticité.
L'ANOVA y est sensible. Il est donc nécessaire de la tester avant toute utilisation.
Pour cela, on doit vérifier que l'égalité des variances dans les différents groupes. On peut utliser le
test de Bartlett.