You are on page 1of 8

S3 Maths et Info-MIAGE 2010-2011

Statistique et Probabilits

Les tests de khi-deux

Universit de Picardie Jules Verne UFR des Sciences

2010-2011

Licence mention Mathmatiques et mention Informatique parcours MIAGE - Semestre 3 Statistique et Probabilits

Les tests de khi-deux


1. Conformit un modle thorique
Dans une population donne, on tudie un caractre X pouvant prendre r modalits et on cherche savoir si on peut considrer que ce caractre est dun type donn. Plus prcisment, dsignant par p i la probabilit dapparition dans la population de la i me modalit du caractre, on se demande si les p i correspondent une certaine loi de probabilit. On choisit alors une loi thorique : par exemple une distribution particulire (valeurs de p i choisies arbitrairement avec p i 1) ou une loi usuelle (loi de Poisson, loi Normale, ...). Dans ce dernier cas, il faut
i

choisir le(s) paramtre(s) de la loi : on procde alors par estimation ponctuelle (moyenne ou variance pour le paramtre de la loi de Poisson, moyenne et cart-type pour les paramtres de la loi Normale, ...). Effectuant plusieurs chantillonnages de mme taille n, on dsigne par N i la variable alatoire gale leffectif observ de la i me modalit du caractre ; leffectif thorique tant gal np i . Test de H 0 : X suit la loi thorique contre H 1 : X ne suit pas la loi thorique Ce test sappuie sur la distance D entre les effectifs observs et thoriques : r r N i np i 2 N2 i D np i np i n , En pratique, pour un chantillon, on observe un effectif n i pour la i me modalit du caractre et on calcule r r n np 2 n2 i np n. d i np i i i On sait que sous lhypothse H 0 , D suit approximativement la loi de khi-deux r 1 k degrs de libert, o k est le nombre de paramtres estimer de la loi thorique choisie. On dtermine b tel que PD b (table 4), et on dcide que : - si d b , alors on ne peut rejeter H 0 ; - si d b , alors on rejette H 0 avec une probabilit de se tromper. La qualit de lapproximation de la loi de D est satisfaisante lorsque les effectifs thoriques vrifient tous la condition np i 5. Si ce nest pas le cas, on peut regrouper certains effectifs de modalits voisines, r dsignant alors le nombre de modalits aprs le(s) regroupement(s). Cependant, on peut ne pas faire de s regroupement si les effectifs thoriques vrifient tous la condition np i 5 r , o s est gal au nombre de modalits ayant un effectif thorique np i 5. Exemple 1 : test de conformit une distribution thorique Dans une population vivante, on enregistre la prsence de 5 gnotypes, nots A 1 A 5 , et auxquels une thorie attribue les probabilits p 1 p 5 donnes dans le tableau ci-dessous. Sur un chantillon de n 400 individus choisis au hasard dans la population, on dsigne par n i le nombre dindividus de gnotype A i . Les n i sont donnes dans le tableau ci-dessous. Peut-on dire, au risque 0, 05, que la rpartition des gnotypes dans lchantillon est conforme celle de la population ? Population : celle qui est tudie. Caractre : le gnotype X, r 5 modalits de probabilit thorique p i . Echantillon X 1 , . . . , X n de taille n 400. Les p i tant donns, il ny a pas de paramtre estimer : k 0. 1
i1 i1 i1 i1

Stphane Ducay

S3 Maths et Info-MIAGE 2010-2011

Statistique et Probabilits

Les tests de khi-deux

Test de H 0 : X suit la loi thorique contre H 1 : X ne suit pas la loi thorique xi A2 A3 A4 A5 ni 40 96 36 28 400 On calcule d pi 0, 20 0, 20 0, 10 0, 10 1 np i n i np i 40 40 16 4 12 80 80 40 40 400
n i np i 2 np i

A 1 200 0, 40 160

10 20 3, 2 0, 4 3, 6 37, 2

i1

n i np i 2 37, 2. np i

On sait que sous lhypothse H 0 , D suit approximativement la loi de khi-deux r 1 k 4 degrs de libert. On dtermine b tel que PD b : pour 0, 05, on trouve b 9, 49. Comme d b , on rejette lhypothse H 0 , i.e. la conformit la loi thorique : la rpartition des gnotypes dans lchantillon nest pas conforme celle de la population. En prenant cette dcision de rejet de H 0 , on a une probabilit 0, 05 de se tromper. Exemple 2 : test de conformit une loi de Poisson P Une enqute effectue auprs du comptoir de 150 coopratives agricoles a permis dtudier larrive dans le temps des usagers de ces coopratives. Pendant lunit de temps, soit une heure, on a obtenu les rsultats suivants : nombre dusagers arrivs 0 1 2 3 4 5 6 nombre de coopratives 37 46 39 19 5 3 1 Peut-on admettre que le nombre dusagers arrivs dans cette population suit une loi de Poisson ? Population : les coopratives. Caractre : nombre dusagers arrivs X, r 7 modalits. Echantillon X 1 , . . . , X n de taille n 150 de X. On cherche ajuster la distribution observe une loi thorique suivie par X (i.e. les probabilits p i des modalits de X). Test de H 0 : X suit une loi de Poisson contre H 1 : X ne suit pas une loi de Poisson k Rappel : X suit la loi de Poisson P si X est valeurs dans et si, pour tout k , PX k e . k! On a EX VarX . Les p i devant tre calculs laide la loi de Poisson, il y a un paramtre estimer : k 1. On calcule x 1 n s2 c

n i x i 1, 48, s 1 n
2 i1

nix2 i
i1

x 2 1, 57 et s 2 c

n s 2 1, 58. n1

Comme x et sont trs proches, on pouvait effectivement penser une loi de Poisson. On peut alors estimer le paramtre 1, 5. 1, 5 i Sous lhypothse H 0 , on a alors : p i PX i e 1,5 . i! Voir le tableau en page suivante. On a, aprs regroupements, r 5. r n np 2 0, 85. On calcule d i np i i On sait que sous lhypothse H 0 , D suit approximativement la loi de khi-deux r 1 k 3 degrs de libert (aprs regroupements). On dtermine b tel que PD b (table 4) : pour 0, 05, on trouve b 7, 81. Comme d b , on ne peut rejeter lhypothse H 0 , i.e. la conformit la loi thorique de Poisson : la rpartition du nombre dusagers arrivs est conforme une loi de Poisson. En prenant cette dcision de non-rejet de H 0 , on ne connait pas la probabilit de se tromper (erreur de deuxime espce).
i1

Stphane Ducay

S3 Maths et Info-MIAGE 2010-2011

Statistique et Probabilits

Les tests de khi-deux

xi 0 1 2 3 4 5 6 et 5 3 1

ni 37 46 39 19 9

pi 0, 2231 0, 3347 0, 2510 0, 1255 0, 0471 0, 0141 0, 0045 0, 08

np i 33, 47 50, 20 37, 65 18, 83 7, 06 2, 12 0, 67 9, 85

n i np i 3, 53 4, 20 1, 35 0, 17 2, 06 0, 88 0, 33 0, 85

n i np i 2 np i

0, 37 0, 35 0, 05 0, 00 0, 08

150 1 150 On a regroup les effectifs thoriques infrieurs 5. On a maintenant r 5.

0, 85

Exemple 3 : test de conformit une loi Normale N, Lors dune tude biologique portant sur une certaine espce de mollusques, on a mesur le taux de protines de 36 individus appartenant cette espce. On a obtenu les rsultats suivants. taux de protine (en mg) 0; 1, 5 1, 5; 3 3; 4, 5 4, 5; 6 6; 7, 5 7, 5; 9 9; 10, 5 nombre dindividus 8 7 4 9 2 3 3 Peut-on admettre que le taux de protines dans cette population suit une loi Normale ? Population : les mollusques. Caractre : taux de protines X, r 7 modalits. Echantillon X 1 , . . . , X n de taille n 36 de X. On cherche ajuster la distribution observe une loi thorique suivie par X (i.e. les probabilits p i des modalits de X). Lorsque la reprsentation graphique (histogramme) est plutt symtrique et en cloche, on peut penser une loi de Normale. A noter que ce nest pas tout fait le cas ici ! Test de H 0 : X suit une loi Normale contre H 1 : X ne suit pas une loi Normale Les p i devant tre calculs laide la loi Normale, il y a deux paramtres estimer : k 2. Comme dans lexemple 1, on calcule x 4, 21 et s c 2, 86. On peut alors estimer les paramtres et par 4, 21 et 2, 86. Il sagira donc de tester si X suit la loi Normale N4, 21; 2, 86 , i.e. si U X 4, 21 suit la loi Normale N0; 1 . 2, 86 Voir le tableau en page suivante. On a, aprs regroupements, r 5. r n np 2 2, 99. On calcule d i np i i On sait que sous lhypothse H 0 , D suit approximativement la loi de khi-deux r 1 k 2 degrs de libert. On dtermine b tel que PD b (table 4) : pour 0, 05, on trouve b 5, 99. Comme d b , on ne peut rejeter lhypothse H 0 , i.e. la conformit la loi thorique Normale : la rpartition du taux de protines est conforme une loi Normale. En prenant cette dcision de non-rejet de H 0 , on ne connait pas la probabilit de se tromper (erreur de deuxime espce).
i1

Stphane Ducay

S3 Maths et Info-MIAGE 2010-2011

Statistique et Probabilits

Les tests de khi-deux

Classes de X n i Classes de U : u i ; u i1 ; 1, 5 1, 5; 3 3; 4, 5 4, 5; 6 6; 7, 5 7, 5; 9 9; 8 7 4 9 2 3 3 ; 0, 95 0, 95 0, 95; 0, 42 0, 42 0, 42; 0, 10 0, 10 0, 10; 0, 63 0, 63 0, 63; 1, 15 1, 15 1, 15; 1, 67 1, 67 1, 67;

u i 0

p i u i1 u i 0, 1711

np i 6, 16 5, 98 7, 29 7, 05 5, 01 2, 79 1, 71

n i np i 1, 84 1, 02 3, 29 1, 95 3, 01 0, 21 1, 29

n i np i 2 np i

0, 55 0, 17 1, 49 0, 54

0, 1711 0, 1661 0, 3372 0, 2026 0, 5398 0, 1959 0, 7357 0, 1392 0, 8749 0, 0776 0, 9525 0, 0475 1 0, 24

36 1 36 2, 99 On a regroup les effectifs infrieurs 5, cest--dire les trois dernires classes, ce qui donne : 8 9, 51 1, 51 0, 24 6;

2. Indpendance de 2 caractres
Dans une population donne, on tudie deux caractres X et Y pouvant prendre respectivement r et s modalits. Effectuant plusieurs chantillonnages de mme taille n, on dsigne par N i,j la variable alatoire gale leffectif observ du couple form de la i me modalit du caractre X et de la j me modalit du caractre Y. En pratique, pour un chantillon, on observe des effectifs n i,j . n i, n ,j Sous lhypothse dindpendance de X et Y, leffectif thorique est gal np i,j n , avec n i,

n i,j et n ,j n i,j .
j1 i1

Test de H 0 : X et Y sont indpendantes contre H 1 : X et Y ne sont pas indpendantes Ce test sappuie sur la distance D entre les effectifs observs et thoriques : r s r s N2 N i,j np i,j 2 i,j D np i,j np i,j n . On calcule d

i1 j1

i1 j1

n i,j np i,j np i,j

i1 j1

i1 j1

np i,j n.

n2 i,j

On sait que sous lhypothse H 0 , D suit approximativement la loi de khi deux r 1 s 1 degrs de libert. On dtermine le rel b tel que PD b (table 4), et on dcide que : - si d b , alors on ne peut rejeter H 0 ; - si d b , alors on rejette H 0 avec une probabilit de se tromper. La qualit de lapproximation de la loi de D est satisfaisante lorsque les effectifs thoriques vrifient tous la condition np i,j 5. Si ce nest pas le cas, on peut effectuer des regroupements de lignes ou de colonnes : r et s dsignent alors le nombre de modalits aprs le(s) regroupement(s). Cependant, on peut ne pas faire de t regroupement si les effectifs thoriques vrifient tous la condition np i,j 5 rs , o t est gal au nombre de couples de modalits ayant un effectif thorique np i,j 5.
Stphane Ducay

S3 Maths et Info-MIAGE 2010-2011

Statistique et Probabilits

Les tests de khi-deux

Cas particulier : r s 2. Dans ce cas, le test dindpendance se confond strictement avec le test (bilatral) dgalit de deux proportions prsent dans le chapitre prcdent. En effet, d est alors le carr de u et b le carr de u . Exemple 4 : test dindpendance Une statistique effectue sur 800 personnes donne la rpartition suivante : n i ,j gros fumeurs moyen fum. petits fum. non fum. n i hypertension pas dhypert. n j 74 126 200 116 174 290 68 82 150 82 78 160 340 460 800

Tester au risque 10% lindpendance entre lhypertension et la consommation de tabac. Les deux caractres sont X : hypertension et Y : consommation de tabac. On a r 2 et s 4. Sous lhypothse dindpendance de X et Y, les effectifs thoriques sont np i,j np i,j hypertension pas dhypert. Par exemple, np 1,2 n 1 n 2 n
n ij np i,j 2 np i,j

n i n j n . gros fumeurs moyen fum. petits fum. non fum. 85 115 123, 25 166, 75 290 123, 25. 63, 75 86, 25 150 68 92 160 340 460 800

200 340 290 800 1, 424

gros fumeurs moyen fum. petits fum. non fum. 0, 426 0, 283 0, 209 2, 882 2, 130

hypertension

pas dhypert. 1, 052 0, 315 2 2 n np 116 123, 25 Par exemple, 12 np 1,2 1,2 0, 426. 123, 25 r s 2 n i,j np i,j 8, 721. On obtient : d np i,j
i1 j1

On sait que sous lhypothse H 0 , D suit approximativement la loi de khi deux r 1 s 1 3 degrs de libert. On dtermine le rel b tel que PD b (table 4) : pour 0, 10, on trouve b 6, 25. Comme d b , on rejette lhypothse H 0 avec une probabilit de se tromper : on rejette donc lindpendance des deux caractres. Remarque. Si on teste au risque 0, 05, on a b 7, 81, et donc d b : mme dcision quavec 0, 10, et on a diminu la probabilit de se tromper. Si on teste au risque 0, 025, on a b 9, 35, et donc d b : on ne rejette pas H 0 mais on ne connait pas la probabilit de se tromper (erreur de deuxime espce). Exemple 5 : test dindpendance de deux caractres r 2 et s 2 modalits Dans une mme catgorie sociale, un chantillon de 40 hommes a fourni 8 fumeurs et un chantillon de 60 femmes a fourni 18 fumeuses. On se demande si la proportion de fumeurs est la mme pour les deux sexes. On a dj trait cette question dans le chapitre prcdent par un test dhomognit (comparaison de deux proportions, voir chapitre prcdent).
Stphane Ducay

S3 Maths et Info-MIAGE 2010-2011

Statistique et Probabilits

Les tests de khi-deux

Population 1 : hommes. Variable X 1 de loi de Bernoulli Bp 1 , o p 1 est la proportion dhommes fumeurs. Echantillon de taille n 1 40 de X 1 . Estimation de p 1 : f 1 8 0, 2. 40 Population 2 : femmes. Variable X 2 de loi de Bernoulli Bp 2 , o p 2 est la proportion de femmes fumeuses. Echantillon de taille n 2 60 de X 2 . Estimation de p 2 : f 2 18 0, 3. 60 Les chantillons sont indpendants. Test (bilatral) de H 0 : p 1 p 2 p contre H 1 : p 1 p 2 . On a n 1 f 1 8 5, n 1 1 f 1 32 5, n 2 f 2 18 5, n 2 1 f 2 42 5. F1 F2 Sous lhypothse H 0 , U suit approximativement la loi normale N0; 1 , et en 1 n 1 n12 p1 p n f n f regroupant les deux chantillons, on peut estimer p par f 1,2 1n 1 n 2 2 8 18 0, 26 . En 1 2 40 60 remplaant p par f 1,2 , on ne modifie pas la loi approche de U. f1 f2 0, 2 0, 3 On calcule u 1, 12. 1 1 1 1 n 1 n 2 f 1,2 1 f 1,2 0, 261 0, 26 40 60 On dtermine u tel que Pu U u 1 , i.e. u 1 1 (table 2) : pour 0, 05, on 2 trouve u 1, 96. Comme u u , u , on ne peut rejeter H 0 : la proportion de fumeurs ne diffre pas significativement entre les deux sexes. Pour cette dcision de non-rejet, on ne connait pas la probabilit de se tromper (erreur de deuxime espce). On peut galement traiter cette question par un test dindpendance des deux caractres X : sexe, r 2 modalits (hommes, femmes), et Y : tre fumeur, s 2 modalits (fumeur, non fumeur). Test de H 0 : X et Y sont indpendantes contre H 1 : X et Y ne sont pas indpendantes Ce test sappuie sur la distance D entre les effectifs observs et thoriques : D
r s

i1 j1

N i,j np i,j 2 np i,j

Sous lhypothse H 0 dindpendance de X et Y, les effectifs thoriques sont np i,j n i,j hommes femmes n j fumeurs non fum n i 8 18 26
r

n i n j n . fumeurs non fum 0, 55 0, 37 0, 19 0, 13 1, 24

np i,j hommes femmes


2

fumeurs non fum 10, 4 15, 6 26 29, 6 44, 4 74 40 60 100

n ij np i,j 2 np i,j

32 42 74
s

40 60 100

hommes femmes

On obtient : d

i1 j1

n ij np i,j np i,j

1, 24.

On sait que sous lhypothse H 0 , D suit approximativement la loi de khi deux r 1 s 1 1 degr de libert. On dtermine le rel b tel que PD b (table 4) : pour 0, 05, on trouve b 3, 84. Comme d b , on ne rejette pas lhypothse H 0 dindpendance de X et Y : on peut donc considrer que les caractres "sexe" et "tre fumeur" sont indpendants, ce qui signifie que les proportions de fumeurs chez les hommes et chez les femmes ne diffrent pas significativement. Cela correspond aux rsultats du test dhomognit prcdent. En prenant cette dcision de non-rejet de H 0 , on ne connait pas la probabilit de se tromper (erreur de deuxime espce).

Stphane Ducay

S3 Maths et Info-MIAGE 2010-2011

Statistique et Probabilits

Les tests de khi-deux

3. Homognit : comparaison de plusieurs chantillons


Dans une population donne, on tudie un caractre X pouvant prendre s modalits. On dispose de r chantillons pouvant provenir de cette population. Effectuant plusieurs chantillonnages, on dsigne par N i,j la variable alatoire gale leffectif observ de me la j modalit du caractre X dans le i me chantillon. En pratique, pour un chantillonnage, on observe des effectifs n i,j . n i, n ,j Sous lhypothse dhomognit des chantillons, leffectif thorique est gal np i,j n , avec n i,

n i,j et n ,j n i,j .
j1 i1

Test de H 0 : les chantilllons sont issus de la mme population contre H 1 H 0 Ce test se droule comme le test dindpendance dcrit au paragraphe 2, mme si le problme pos est de nature diffrente. Exemple 6 Dans deux chantillons de populations dune mme espce, deffectifs respectifs 100 et 400, on dnombre 4 phnotypes. Les rsultats sont les suivants : n ij A 1 A 2 A 3 A 4 e 1 10 30 50 10 e 2 60 120 180 40 Les deux populations prsentent-elles les mmes proportions de phnotypes ? Autrement dit, les deux populations sont-elle identiques en termes de rpartition des phnotypes ? Ce qui nous amne tester si les deux chantillons proviennent de la mme population. On a r 2 chantillons et s 4 modalits pour le caractre phnotype. n i,j A 1 e 1 10 A2 30 A3 50 A4 n i np i,j A 1 e1 e2 n j 14 A2 30 A3 46 A4 n i
n i,j np i,j 2 np i,j

10 100

10 100

A1 1, 14 0, 29

A2 0 0

A3 0, 35 0, 09

A4 0 0

e 2 60 120 180 40 400 n j 70 150 230 50 500 On obtient : d

56 120 184 40 400 70 150 230 50 500

e1 e2

i1 j1

n i,j np i,j 2 1, 87. np i,j

On sait que sous lhypothse H 0 , D suit approximativement la loi de khi deux r 1 s 1 3 degrs de libert. On dtermine le rel b tel que PD b (table 4) : pour 0, 05, on trouve b 7, 81. Comme d b , on ne peut rejeter lhypothse H 0 : les deux chantillons proviennent de la mme population.

4. Exercices
Sauf mention explicite, les tests seront raliss au risque 5%. Exercice 1. On a effectu le croisement de balsamines blanches avec des balsamines pourpres. En premire gnration les fleurs sont toutes pourpres. En deuxime gnration, on obtient quatre catgories avec les effectifs suivants : couleur pourpre rose blanc lavande blanc effectif
Stphane Ducay

1790

547

548

213 7

S3 Maths et Info-MIAGE 2010-2011

Statistique et Probabilits

Les tests de khi-deux

Peut-on accepter lhypothse de rpartition mendlienne

9 , 3 , 3 , 1 16 16 16 16

Exercice 2. Dans une usine de production dun laboratoire pharmaceutique, on a dnombr pendant deux mois, soit 50 jours dactivit, le nombre de pannes quotidiennes. On a consign les rsultats dans le tableau suivant : xi 0 1 2 3 4 et 1 n i 21 18 7 3

o n i est le nombre de jours o lon a observ x i pannes. 1) Calculer la moyenne et la variance de cette distribution. 2) Tester lajustement cette distribution dune loi de Poisson. Exercice 3. Daprs examen de janvier 2006 A laide dun programme informatique, on simule 100 lancers dun d 6 faces numrotes de 1 6 On obtient les rsultats suivants : Face 1 2 3 4 5 6 Nombre de lancers 17 22 18 14 13 16 1) Prciser la(les) population(s) et le(s) caractre(s) tudi(s), ainsi que la(les) taille(s) dchantillon. 2) Peut-on considrer, au risque 5%, que la simulation est bien celle dun d quilibr ? Exercice 4. Dans une population masculine adulte de sujets bien portants, les proportions suivantes sont supposes connues exactement : Non fumeurs : Fumeurs de pipes : 10% 5% Fumeurs de cigarettes : 65% Fumeurs de pipes et cigarettes : 20%

Sur un chantillon de 200 sujets de sexe masculin, atteints dune maladie dtermine, on a observ la rpartition suivante : Non fumeurs : Fumeurs de pipes : 10 5 Fumeurs de cigarettes : 140 Fumeurs de pipes et cigarettes : 45

Peut-on considrer que cette rpartition diffre de celle des sujets bien portants ? Exercice 5. A la suite du mme traitement, on a observ 40 bons rsultats chez 70 malades jeunes et 50 bons rsultats chez 100 malades ags. Peut-on dire quil y a indpendance entre lge du malade et leffet du traitement ? Exercice 6. Daprs examen de janvier 2005 En novembre 2004, beaucoup dtudiants ont dclar tre stress par les changements conscutifs la mise en place du LMD. Cest pourquoi la Facult leur a propos de suivre un stage de relaxation proposant plusieurs mthodes diffrentes : mthode "be cool", mthode "be aware", mthode "be zen". A lissue du stage, on leur a demand comment ils se sentaient : moins, autant ou plus stress quavant le stage. On a obtenu la rpartition suivante des tudiants : moins autant plus be cool be aware be zen 30 10 15 15 5 10 15 15 35

Effectuer un test statistique adquat pour rpondre la question suivante : peut-on considrer que la mthode de relaxation choisie a une influence sur le niveau de stress aprs le stage ?
Stphane Ducay

You might also like