Professional Documents
Culture Documents
Statistique et Probabilits
2010-2011
Licence mention Mathmatiques et mention Informatique parcours MIAGE - Semestre 3 Statistique et Probabilits
choisir le(s) paramtre(s) de la loi : on procde alors par estimation ponctuelle (moyenne ou variance pour le paramtre de la loi de Poisson, moyenne et cart-type pour les paramtres de la loi Normale, ...). Effectuant plusieurs chantillonnages de mme taille n, on dsigne par N i la variable alatoire gale leffectif observ de la i me modalit du caractre ; leffectif thorique tant gal np i . Test de H 0 : X suit la loi thorique contre H 1 : X ne suit pas la loi thorique Ce test sappuie sur la distance D entre les effectifs observs et thoriques : r r N i np i 2 N2 i D np i np i n , En pratique, pour un chantillon, on observe un effectif n i pour la i me modalit du caractre et on calcule r r n np 2 n2 i np n. d i np i i i On sait que sous lhypothse H 0 , D suit approximativement la loi de khi-deux r 1 k degrs de libert, o k est le nombre de paramtres estimer de la loi thorique choisie. On dtermine b tel que PD b (table 4), et on dcide que : - si d b , alors on ne peut rejeter H 0 ; - si d b , alors on rejette H 0 avec une probabilit de se tromper. La qualit de lapproximation de la loi de D est satisfaisante lorsque les effectifs thoriques vrifient tous la condition np i 5. Si ce nest pas le cas, on peut regrouper certains effectifs de modalits voisines, r dsignant alors le nombre de modalits aprs le(s) regroupement(s). Cependant, on peut ne pas faire de s regroupement si les effectifs thoriques vrifient tous la condition np i 5 r , o s est gal au nombre de modalits ayant un effectif thorique np i 5. Exemple 1 : test de conformit une distribution thorique Dans une population vivante, on enregistre la prsence de 5 gnotypes, nots A 1 A 5 , et auxquels une thorie attribue les probabilits p 1 p 5 donnes dans le tableau ci-dessous. Sur un chantillon de n 400 individus choisis au hasard dans la population, on dsigne par n i le nombre dindividus de gnotype A i . Les n i sont donnes dans le tableau ci-dessous. Peut-on dire, au risque 0, 05, que la rpartition des gnotypes dans lchantillon est conforme celle de la population ? Population : celle qui est tudie. Caractre : le gnotype X, r 5 modalits de probabilit thorique p i . Echantillon X 1 , . . . , X n de taille n 400. Les p i tant donns, il ny a pas de paramtre estimer : k 0. 1
i1 i1 i1 i1
Stphane Ducay
Statistique et Probabilits
Test de H 0 : X suit la loi thorique contre H 1 : X ne suit pas la loi thorique xi A2 A3 A4 A5 ni 40 96 36 28 400 On calcule d pi 0, 20 0, 20 0, 10 0, 10 1 np i n i np i 40 40 16 4 12 80 80 40 40 400
n i np i 2 np i
A 1 200 0, 40 160
10 20 3, 2 0, 4 3, 6 37, 2
i1
n i np i 2 37, 2. np i
On sait que sous lhypothse H 0 , D suit approximativement la loi de khi-deux r 1 k 4 degrs de libert. On dtermine b tel que PD b : pour 0, 05, on trouve b 9, 49. Comme d b , on rejette lhypothse H 0 , i.e. la conformit la loi thorique : la rpartition des gnotypes dans lchantillon nest pas conforme celle de la population. En prenant cette dcision de rejet de H 0 , on a une probabilit 0, 05 de se tromper. Exemple 2 : test de conformit une loi de Poisson P Une enqute effectue auprs du comptoir de 150 coopratives agricoles a permis dtudier larrive dans le temps des usagers de ces coopratives. Pendant lunit de temps, soit une heure, on a obtenu les rsultats suivants : nombre dusagers arrivs 0 1 2 3 4 5 6 nombre de coopratives 37 46 39 19 5 3 1 Peut-on admettre que le nombre dusagers arrivs dans cette population suit une loi de Poisson ? Population : les coopratives. Caractre : nombre dusagers arrivs X, r 7 modalits. Echantillon X 1 , . . . , X n de taille n 150 de X. On cherche ajuster la distribution observe une loi thorique suivie par X (i.e. les probabilits p i des modalits de X). Test de H 0 : X suit une loi de Poisson contre H 1 : X ne suit pas une loi de Poisson k Rappel : X suit la loi de Poisson P si X est valeurs dans et si, pour tout k , PX k e . k! On a EX VarX . Les p i devant tre calculs laide la loi de Poisson, il y a un paramtre estimer : k 1. On calcule x 1 n s2 c
n i x i 1, 48, s 1 n
2 i1
nix2 i
i1
x 2 1, 57 et s 2 c
n s 2 1, 58. n1
Comme x et sont trs proches, on pouvait effectivement penser une loi de Poisson. On peut alors estimer le paramtre 1, 5. 1, 5 i Sous lhypothse H 0 , on a alors : p i PX i e 1,5 . i! Voir le tableau en page suivante. On a, aprs regroupements, r 5. r n np 2 0, 85. On calcule d i np i i On sait que sous lhypothse H 0 , D suit approximativement la loi de khi-deux r 1 k 3 degrs de libert (aprs regroupements). On dtermine b tel que PD b (table 4) : pour 0, 05, on trouve b 7, 81. Comme d b , on ne peut rejeter lhypothse H 0 , i.e. la conformit la loi thorique de Poisson : la rpartition du nombre dusagers arrivs est conforme une loi de Poisson. En prenant cette dcision de non-rejet de H 0 , on ne connait pas la probabilit de se tromper (erreur de deuxime espce).
i1
Stphane Ducay
Statistique et Probabilits
xi 0 1 2 3 4 5 6 et 5 3 1
ni 37 46 39 19 9
n i np i 3, 53 4, 20 1, 35 0, 17 2, 06 0, 88 0, 33 0, 85
n i np i 2 np i
0, 37 0, 35 0, 05 0, 00 0, 08
0, 85
Exemple 3 : test de conformit une loi Normale N, Lors dune tude biologique portant sur une certaine espce de mollusques, on a mesur le taux de protines de 36 individus appartenant cette espce. On a obtenu les rsultats suivants. taux de protine (en mg) 0; 1, 5 1, 5; 3 3; 4, 5 4, 5; 6 6; 7, 5 7, 5; 9 9; 10, 5 nombre dindividus 8 7 4 9 2 3 3 Peut-on admettre que le taux de protines dans cette population suit une loi Normale ? Population : les mollusques. Caractre : taux de protines X, r 7 modalits. Echantillon X 1 , . . . , X n de taille n 36 de X. On cherche ajuster la distribution observe une loi thorique suivie par X (i.e. les probabilits p i des modalits de X). Lorsque la reprsentation graphique (histogramme) est plutt symtrique et en cloche, on peut penser une loi de Normale. A noter que ce nest pas tout fait le cas ici ! Test de H 0 : X suit une loi Normale contre H 1 : X ne suit pas une loi Normale Les p i devant tre calculs laide la loi Normale, il y a deux paramtres estimer : k 2. Comme dans lexemple 1, on calcule x 4, 21 et s c 2, 86. On peut alors estimer les paramtres et par 4, 21 et 2, 86. Il sagira donc de tester si X suit la loi Normale N4, 21; 2, 86 , i.e. si U X 4, 21 suit la loi Normale N0; 1 . 2, 86 Voir le tableau en page suivante. On a, aprs regroupements, r 5. r n np 2 2, 99. On calcule d i np i i On sait que sous lhypothse H 0 , D suit approximativement la loi de khi-deux r 1 k 2 degrs de libert. On dtermine b tel que PD b (table 4) : pour 0, 05, on trouve b 5, 99. Comme d b , on ne peut rejeter lhypothse H 0 , i.e. la conformit la loi thorique Normale : la rpartition du taux de protines est conforme une loi Normale. En prenant cette dcision de non-rejet de H 0 , on ne connait pas la probabilit de se tromper (erreur de deuxime espce).
i1
Stphane Ducay
Statistique et Probabilits
u i 0
p i u i1 u i 0, 1711
np i 6, 16 5, 98 7, 29 7, 05 5, 01 2, 79 1, 71
n i np i 1, 84 1, 02 3, 29 1, 95 3, 01 0, 21 1, 29
n i np i 2 np i
0, 55 0, 17 1, 49 0, 54
0, 1711 0, 1661 0, 3372 0, 2026 0, 5398 0, 1959 0, 7357 0, 1392 0, 8749 0, 0776 0, 9525 0, 0475 1 0, 24
36 1 36 2, 99 On a regroup les effectifs infrieurs 5, cest--dire les trois dernires classes, ce qui donne : 8 9, 51 1, 51 0, 24 6;
2. Indpendance de 2 caractres
Dans une population donne, on tudie deux caractres X et Y pouvant prendre respectivement r et s modalits. Effectuant plusieurs chantillonnages de mme taille n, on dsigne par N i,j la variable alatoire gale leffectif observ du couple form de la i me modalit du caractre X et de la j me modalit du caractre Y. En pratique, pour un chantillon, on observe des effectifs n i,j . n i, n ,j Sous lhypothse dindpendance de X et Y, leffectif thorique est gal np i,j n , avec n i,
n i,j et n ,j n i,j .
j1 i1
Test de H 0 : X et Y sont indpendantes contre H 1 : X et Y ne sont pas indpendantes Ce test sappuie sur la distance D entre les effectifs observs et thoriques : r s r s N2 N i,j np i,j 2 i,j D np i,j np i,j n . On calcule d
i1 j1
i1 j1
i1 j1
i1 j1
np i,j n.
n2 i,j
On sait que sous lhypothse H 0 , D suit approximativement la loi de khi deux r 1 s 1 degrs de libert. On dtermine le rel b tel que PD b (table 4), et on dcide que : - si d b , alors on ne peut rejeter H 0 ; - si d b , alors on rejette H 0 avec une probabilit de se tromper. La qualit de lapproximation de la loi de D est satisfaisante lorsque les effectifs thoriques vrifient tous la condition np i,j 5. Si ce nest pas le cas, on peut effectuer des regroupements de lignes ou de colonnes : r et s dsignent alors le nombre de modalits aprs le(s) regroupement(s). Cependant, on peut ne pas faire de t regroupement si les effectifs thoriques vrifient tous la condition np i,j 5 rs , o t est gal au nombre de couples de modalits ayant un effectif thorique np i,j 5.
Stphane Ducay
Statistique et Probabilits
Cas particulier : r s 2. Dans ce cas, le test dindpendance se confond strictement avec le test (bilatral) dgalit de deux proportions prsent dans le chapitre prcdent. En effet, d est alors le carr de u et b le carr de u . Exemple 4 : test dindpendance Une statistique effectue sur 800 personnes donne la rpartition suivante : n i ,j gros fumeurs moyen fum. petits fum. non fum. n i hypertension pas dhypert. n j 74 126 200 116 174 290 68 82 150 82 78 160 340 460 800
Tester au risque 10% lindpendance entre lhypertension et la consommation de tabac. Les deux caractres sont X : hypertension et Y : consommation de tabac. On a r 2 et s 4. Sous lhypothse dindpendance de X et Y, les effectifs thoriques sont np i,j np i,j hypertension pas dhypert. Par exemple, np 1,2 n 1 n 2 n
n ij np i,j 2 np i,j
n i n j n . gros fumeurs moyen fum. petits fum. non fum. 85 115 123, 25 166, 75 290 123, 25. 63, 75 86, 25 150 68 92 160 340 460 800
gros fumeurs moyen fum. petits fum. non fum. 0, 426 0, 283 0, 209 2, 882 2, 130
hypertension
pas dhypert. 1, 052 0, 315 2 2 n np 116 123, 25 Par exemple, 12 np 1,2 1,2 0, 426. 123, 25 r s 2 n i,j np i,j 8, 721. On obtient : d np i,j
i1 j1
On sait que sous lhypothse H 0 , D suit approximativement la loi de khi deux r 1 s 1 3 degrs de libert. On dtermine le rel b tel que PD b (table 4) : pour 0, 10, on trouve b 6, 25. Comme d b , on rejette lhypothse H 0 avec une probabilit de se tromper : on rejette donc lindpendance des deux caractres. Remarque. Si on teste au risque 0, 05, on a b 7, 81, et donc d b : mme dcision quavec 0, 10, et on a diminu la probabilit de se tromper. Si on teste au risque 0, 025, on a b 9, 35, et donc d b : on ne rejette pas H 0 mais on ne connait pas la probabilit de se tromper (erreur de deuxime espce). Exemple 5 : test dindpendance de deux caractres r 2 et s 2 modalits Dans une mme catgorie sociale, un chantillon de 40 hommes a fourni 8 fumeurs et un chantillon de 60 femmes a fourni 18 fumeuses. On se demande si la proportion de fumeurs est la mme pour les deux sexes. On a dj trait cette question dans le chapitre prcdent par un test dhomognit (comparaison de deux proportions, voir chapitre prcdent).
Stphane Ducay
Statistique et Probabilits
Population 1 : hommes. Variable X 1 de loi de Bernoulli Bp 1 , o p 1 est la proportion dhommes fumeurs. Echantillon de taille n 1 40 de X 1 . Estimation de p 1 : f 1 8 0, 2. 40 Population 2 : femmes. Variable X 2 de loi de Bernoulli Bp 2 , o p 2 est la proportion de femmes fumeuses. Echantillon de taille n 2 60 de X 2 . Estimation de p 2 : f 2 18 0, 3. 60 Les chantillons sont indpendants. Test (bilatral) de H 0 : p 1 p 2 p contre H 1 : p 1 p 2 . On a n 1 f 1 8 5, n 1 1 f 1 32 5, n 2 f 2 18 5, n 2 1 f 2 42 5. F1 F2 Sous lhypothse H 0 , U suit approximativement la loi normale N0; 1 , et en 1 n 1 n12 p1 p n f n f regroupant les deux chantillons, on peut estimer p par f 1,2 1n 1 n 2 2 8 18 0, 26 . En 1 2 40 60 remplaant p par f 1,2 , on ne modifie pas la loi approche de U. f1 f2 0, 2 0, 3 On calcule u 1, 12. 1 1 1 1 n 1 n 2 f 1,2 1 f 1,2 0, 261 0, 26 40 60 On dtermine u tel que Pu U u 1 , i.e. u 1 1 (table 2) : pour 0, 05, on 2 trouve u 1, 96. Comme u u , u , on ne peut rejeter H 0 : la proportion de fumeurs ne diffre pas significativement entre les deux sexes. Pour cette dcision de non-rejet, on ne connait pas la probabilit de se tromper (erreur de deuxime espce). On peut galement traiter cette question par un test dindpendance des deux caractres X : sexe, r 2 modalits (hommes, femmes), et Y : tre fumeur, s 2 modalits (fumeur, non fumeur). Test de H 0 : X et Y sont indpendantes contre H 1 : X et Y ne sont pas indpendantes Ce test sappuie sur la distance D entre les effectifs observs et thoriques : D
r s
i1 j1
Sous lhypothse H 0 dindpendance de X et Y, les effectifs thoriques sont np i,j n i,j hommes femmes n j fumeurs non fum n i 8 18 26
r
n ij np i,j 2 np i,j
32 42 74
s
40 60 100
hommes femmes
On obtient : d
i1 j1
n ij np i,j np i,j
1, 24.
On sait que sous lhypothse H 0 , D suit approximativement la loi de khi deux r 1 s 1 1 degr de libert. On dtermine le rel b tel que PD b (table 4) : pour 0, 05, on trouve b 3, 84. Comme d b , on ne rejette pas lhypothse H 0 dindpendance de X et Y : on peut donc considrer que les caractres "sexe" et "tre fumeur" sont indpendants, ce qui signifie que les proportions de fumeurs chez les hommes et chez les femmes ne diffrent pas significativement. Cela correspond aux rsultats du test dhomognit prcdent. En prenant cette dcision de non-rejet de H 0 , on ne connait pas la probabilit de se tromper (erreur de deuxime espce).
Stphane Ducay
Statistique et Probabilits
n i,j et n ,j n i,j .
j1 i1
Test de H 0 : les chantilllons sont issus de la mme population contre H 1 H 0 Ce test se droule comme le test dindpendance dcrit au paragraphe 2, mme si le problme pos est de nature diffrente. Exemple 6 Dans deux chantillons de populations dune mme espce, deffectifs respectifs 100 et 400, on dnombre 4 phnotypes. Les rsultats sont les suivants : n ij A 1 A 2 A 3 A 4 e 1 10 30 50 10 e 2 60 120 180 40 Les deux populations prsentent-elles les mmes proportions de phnotypes ? Autrement dit, les deux populations sont-elle identiques en termes de rpartition des phnotypes ? Ce qui nous amne tester si les deux chantillons proviennent de la mme population. On a r 2 chantillons et s 4 modalits pour le caractre phnotype. n i,j A 1 e 1 10 A2 30 A3 50 A4 n i np i,j A 1 e1 e2 n j 14 A2 30 A3 46 A4 n i
n i,j np i,j 2 np i,j
10 100
10 100
A1 1, 14 0, 29
A2 0 0
A3 0, 35 0, 09
A4 0 0
e1 e2
i1 j1
On sait que sous lhypothse H 0 , D suit approximativement la loi de khi deux r 1 s 1 3 degrs de libert. On dtermine le rel b tel que PD b (table 4) : pour 0, 05, on trouve b 7, 81. Comme d b , on ne peut rejeter lhypothse H 0 : les deux chantillons proviennent de la mme population.
4. Exercices
Sauf mention explicite, les tests seront raliss au risque 5%. Exercice 1. On a effectu le croisement de balsamines blanches avec des balsamines pourpres. En premire gnration les fleurs sont toutes pourpres. En deuxime gnration, on obtient quatre catgories avec les effectifs suivants : couleur pourpre rose blanc lavande blanc effectif
Stphane Ducay
1790
547
548
213 7
Statistique et Probabilits
9 , 3 , 3 , 1 16 16 16 16
Exercice 2. Dans une usine de production dun laboratoire pharmaceutique, on a dnombr pendant deux mois, soit 50 jours dactivit, le nombre de pannes quotidiennes. On a consign les rsultats dans le tableau suivant : xi 0 1 2 3 4 et 1 n i 21 18 7 3
o n i est le nombre de jours o lon a observ x i pannes. 1) Calculer la moyenne et la variance de cette distribution. 2) Tester lajustement cette distribution dune loi de Poisson. Exercice 3. Daprs examen de janvier 2006 A laide dun programme informatique, on simule 100 lancers dun d 6 faces numrotes de 1 6 On obtient les rsultats suivants : Face 1 2 3 4 5 6 Nombre de lancers 17 22 18 14 13 16 1) Prciser la(les) population(s) et le(s) caractre(s) tudi(s), ainsi que la(les) taille(s) dchantillon. 2) Peut-on considrer, au risque 5%, que la simulation est bien celle dun d quilibr ? Exercice 4. Dans une population masculine adulte de sujets bien portants, les proportions suivantes sont supposes connues exactement : Non fumeurs : Fumeurs de pipes : 10% 5% Fumeurs de cigarettes : 65% Fumeurs de pipes et cigarettes : 20%
Sur un chantillon de 200 sujets de sexe masculin, atteints dune maladie dtermine, on a observ la rpartition suivante : Non fumeurs : Fumeurs de pipes : 10 5 Fumeurs de cigarettes : 140 Fumeurs de pipes et cigarettes : 45
Peut-on considrer que cette rpartition diffre de celle des sujets bien portants ? Exercice 5. A la suite du mme traitement, on a observ 40 bons rsultats chez 70 malades jeunes et 50 bons rsultats chez 100 malades ags. Peut-on dire quil y a indpendance entre lge du malade et leffet du traitement ? Exercice 6. Daprs examen de janvier 2005 En novembre 2004, beaucoup dtudiants ont dclar tre stress par les changements conscutifs la mise en place du LMD. Cest pourquoi la Facult leur a propos de suivre un stage de relaxation proposant plusieurs mthodes diffrentes : mthode "be cool", mthode "be aware", mthode "be zen". A lissue du stage, on leur a demand comment ils se sentaient : moins, autant ou plus stress quavant le stage. On a obtenu la rpartition suivante des tudiants : moins autant plus be cool be aware be zen 30 10 15 15 5 10 15 15 35
Effectuer un test statistique adquat pour rpondre la question suivante : peut-on considrer que la mthode de relaxation choisie a une influence sur le niveau de stress aprs le stage ?
Stphane Ducay