Professional Documents
Culture Documents
July 8, 2011
Contents
1 2 Introduction Paramtres dune distribution 2.0.1 Paramtre de position (location) . . . . . 2.0.2 Moyenne arithmtique . . . . . . . . . . 2.0.3 Mdiane . . . . . . . . . . . . . . . . . . 2.0.4 Mode . . . . . . . . . . . . . . . . . . . 2.0.5 Paramtres de dispersion spread . . . . . 2.0.6 tendue de variation (range) . . . . . . . 2.0.7 Variance (variance) . . . . . . . . . . . . 2.0.8 Ecart type (standard deviation) . . . . . . 2.0.9 Moments et coecients dune distribution 2.0.10 Coecients dune distribution . . . . . . 2.0.11 Moments dune distribution . . . . . . . 2.0.12 Quantiles . . . . . . . . . . . . . . . . . 2 3 3 3 3 4 5 5 5 5 6 6 6 7 7 7 7 7 7 8 8 9 9 10 10 10 11 11 12 12
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
Mesure de la dpendance 3.1 Covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Reprsentation graphique 4.1 Histogramme de frquence . . 4.2 Bote moustache ou Box-plot 4.3 Q-Q Plot et Droite de Henry . 4.3.1 Probability plot . . . . 4.3.2 Q-Q Plot . . . . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
Loi de distribution 5.1 Fonction de densit de probabilit (pdf ) 5.2 Fonction de distribution (cdf ) . . . . . . 5.3 Lois discrtes et continues . . . . . . . 5.3.1 Lois discrtes . . . . . . . . . . 5.3.2 Lois continues . . . . . . . . . 5.4 Throrme Central Limite . . . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
Intervalles de conance 6.1 Intervalles de conance dune moyenne . . . . . . . . . . . . 6.1.1 Grand chantillon (n 30), loi quelconque . . . . . . 6.1.2 Petit chantillon (n 30), loi normale . . . . . . . . . 6.1.3 Petit chantillon (n 30), loi quelconque . . . . . . . 6.2 Intervalles de conance dun pourcentage . . . . . . . . . . . 6.2.1 Grand chantillon (npetnq 5) . . . . . . . . . . . . 6.2.2 Petit chantillon (npetnq 5) . . . . . . . . . . . . . 6.3 Intervalles de conance dune dirence entre deux moyennes 6.3.1 Grands chantillons (nA etnB 30) . . . . . . . . . . . 6.3.2 Petits chantillons (nA etnB 30) . . . . . . . . . . . . 6.4 Intervalles de conance de tout ce que vous voulez . . . . . . 6.4.1 Mthode de r-chantillonnage . . . . . . . . . . . . . 6.4.2 Technique du Jackknife . . . . . . . . . . . . . . . . . 6.4.3 Technique du Bootstrap . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
13 13 13 13 14 14 14 14 14 14 14 14 14 14 14
1. Introduction
En thorie de lestimation, il sagit de distinguer soigneusement trois concepts dirents : les paramtres de la population comme la moyenne dont la valeur est certaine mais inconnue symboliss par des lettres grecques. les rsultats de lchantillonnage comme la moyenne x dont la valeur est certaine mais connue symboliss par des minuscules. les variables alatoires des paramtres, comme la moyenne alatoire X dont la valeur est incertaine puisque alatoire mais dont la loi de probabilit est souvent connue et symbolises par des majuscules. On peut tudier la variabilit du phnomne en rptant une exprience ou une mesure dans les mmes conditions. On peut tudier la loi du phnomne en faisant varier les conditions dexprience ou dobservation.
Processus dterministe : Processus dans lequel un antcdent produit toujours le mme eet. Processus stochastique (alatoire) : Processus qui, pour un antcdent donn, peut produire plusieurs eets, chacun ayant une probabilit dtermine.
x = E(x) est la moyenne de la distribution thorique des lments x. X dsigne la moyenne arithmtique dune population nie comportant N lments (N = eectif). Mmes units physiques que x. x dsigne la moyenne arithmtique de n lments, (n = eectif) tirs dune population nie ou innie. Mmes units que x. (Peut-tre estim partir des frquences et des moyennes de centre de classes).
2.0.3. Mdiane
La mdiane Me x est la valeur de la variable qui se situe au centre de la srie statistique, classe en ordre croissant. La mdiane spare la srie en deux groupes dgale importance. 3
Si le nombre dobservation est pair, par convention, on utilise la moyenne des deux observations de la srie pour dnir la mdiane.
2.0.4. Mode
Pour une variable mristique comportant naturellement peu de classes, on trouve la classe la plus frquente. Sa valeur est le mode. Pour une variable quantitative continue, on divise celle-ci en classes. Ainsi, pour les donnes de la glinotte huppe (Scherrer p. 108, 138), la classe modale est la classe de 155 160 mm; son indice de classe est 157,5 mm. Une formule (eq. 4-5) permet de calculer le mode corrig. Pour les variables qualitatives, le mode correspond la classe ayant la plus forte frquence (Scherrer p. 153-154). On dit quune distribution de frquences a plusieurs modes si on veut mettre en vidence le fait quelle a plusieurs classes non contigus dont la frquence est nettement plus leve que celle des autres classes.
Figure 3: Mode.
Moyenne ( x) Facile Aectent beaucoup sa valeur x est plus ecace (p. 325) que Me
Mdiane (Me x ) Dicile (il faut trier les donnes) Aectent peu sa valeur Plus prcise que Mo
Mode (Mo x ) Dicile (facile sur un graphique) Aectent peu sa valeur Pour dcrire une distribution plurimodale. Peut tre calcul pour variables circulaires et pour var. qualitatives
Moins aecte que x par les valeurs extrmes La moyenne obit au principe des moindres carrs (A. M. Le Gendre, 1805; K. F. Gauss, 1809). On peut montrer (Scherrer p. 146) que cest la moyenne qui possde cette proprit et qui minimise la somme des carrs des carts entre les valeurs observes et le paramtre de tendance centrale . Pour la moyenne, cette somme est toujours infrieure ou gale la somme des carrs des carts entre les valeurs observes et la mdiane ou le mode:
n n
(xi x)2
i=1 n i=1 n
(xi Me x )2
(2)
(xi x)2
i=1 i=1
(xi Mo x )2 4
(3)
2 ou Var(x) pour une population ou une distribution thorique. s2 pour un chantillon (variance estime). x Pour une population statistique deectif Ndont la moyenne vraie est connue par thorie ou par hypothse, on utilise la formule suivante: 2 = 1 N
N
(xi )2
i=1
(4)
Pour un chantillon deectif n ou pour une population deectif N dont on doit estimer la moyenne laide de x, on utilise la formule : S2 = x 1 n1
n
(xi x)2
i=1
(5)
Units physiques: celles de la variable x au carr. La valeur (n 1) sappelle le nombre de degrs de libert. On soustrait 1 pour liminer le biais d au fait quon doit utiliser les donnes x une premire fois pour calculer la moyenne, avant le calcul de la variance. On peut montrer que, sans cette correction, la variance serait toujours sous-estime. Biais dun estimateur statistique (Scherrer p. 85): Un estimateur statistique est non biais si la moyenne des valeurs de cet estimateur pour tous les sous-ensembles possibles de taille n est gale la valeur de lestimateur pour toute la population.
Table 2: Variance biase et non-biase.
Moyenne 1, 2, 4, 5 1, 2 1, 4 1, 5 2, 4 2, 5 4, 5 Moyenne 3.00E+00 1,5 2,5 3,0 3,0 3,5 4,5 3.00E+00
Conclusion: les estimateurs moyenne et variance (n 1) ne sont pas biaiss. Lestimateur variance (n) est biais. Proprits de la variance -. Si tous les xi sont gaux, la variance est nulle puisque tous les termes composant la somme sont nuls. s2 augmente mesure que la variabilit augmente. La variance mesure donc bien la variabilit des x donnes. Pour estimer la variance, on doit disposer au moins de deux observations. Avec une seule observation, (n 1) = 0 et la valeur de s2 devient indtermine. La formule correspond bien notre intuition : x on ne peut rien conclure quant la variabilit dune variable partir dune seule observation. Les units physiques de la variance sont celles de la variable x au carr.
Symbole : 2 pour une population ou une distribution thorique, s x pour un chantillon. Formule : Sx = S2 x (6)
Erreur standard ou cart type de la moyenne -. cart type de la moyenne (erreur standart) : Sx = Sx n (7)
On retrouve les erreurs standards sous forme de barre derreur dans la plupart des graphiques scientiques. Exemple : Valeur de lchantillon = [1; 2; 3; 4] ; Moyenne : m = 3 ; erreur standard = 1, 08. On peut crire : m = 3 1, 08
pq Ecart type dun pourcentage -. Notation : e.s. = n1 avec p = 1 q. On crira donc : pourcentage e.s. , p.ex. 10 2% ou bien 10% 2% .
Coecient de variation (coecient of variation) -. Symbole : C.V., CV ou V Formule : C.V. = 100 S x x (8)
Units physiques: aucune, puisque les units du numrateur annulent celles du dnominateur. Le coecient de variation permet donc de comparer la variation de variables exprimes originellement dans des units physiques direntes. Lquation 8 na de sens que pour les variables quantitatives chelle de variation relative un vrai zro. Lquation 8 est la plus souvent utilise quoiquil sagisse dun estimateur biais du coecient de variation. Le biais na dimportance que dans le cas des petits chantillons. Une formule corrigeant ce biais est disponible (Scherrer, eq. 4-25). Certains auteurs et certains logiciels ne font pas la multiplication par 100. Dans ce cas, le C.V. pour cet exemple serait 0, 0384.
mk =
i=1
(xi x)k
(9)
Le moment de deuxime ordre, m2 , est la variance dune distribution thorique. La variance dun chantillon deectif n, corrige pour le biais destimation de la moyenne , est drive de m2 : 1 n1
n
S2 = x
(xi x)2
i=1
(10)
Coecient dasymtrie (skewness) -. Symbole : 3 Le coecient dasymtrie mesure le manque de symtrie dune distribution. On lobtient partir du moment de troisime ordre. Le moment de troisime ordre estim pour un chantillon deectif n, avec correction pour le biais destimation de la moyenne, est : k3 = Coecient dasymtrie: 3 = Proprits : 6 k3 S3 x (12) n n (xi x)3 i=1 (n 1)(n 2) (11)
3 = 0 pour une distribution symtrique. 3 < 0 pour une queue de distribution tal vers la droite. 3 > 0 pour une queue de distribution tale vers la gauche. Note: direntes corrections ont t proposes pour le moment de troisime ordre. Dirents logiciels statistiques (StatView, SPSS, SAS, etc.) peuvent employer des formules de correction direntes, ce qui peut mener des rsultats numriques qui dirent lgrement. Coecient daplatissement (kurtosis) -. Symbole: 3 Le coecient daplatissement mesure le degr daplatissement dune distribution. On lobtient partir du moment de quatrime ordre. Le moment de quatrime ordre estim pour un chantillon deectif n, avec correction pour le biais destimation de la moyenne, est : n(n + 1)
n i=1 (xi
k4 =
n i=1 (xi
x)2 )2
(13)
Coecient daplatissement : 4 = Proprits: 4 = 0 pour une distribution normale. 4 > 0 pour une distribution leptokurtique (i.e., plus pointue que la courbe normale). 4 < 0 pour une distribution platikurtique (i.e., plus aplatie que la courbe normale). 4 = 1, 2 pour une distribution uniforme (i.e. rectangulaire). k4 S4 x (14)
2.0.12. Quantiles
Ceux-ci gnralisent la notion de mdiane qui coupe la distribution en deux parties gales. On dnit notamment les quartiles, dciles et centiles (ou percentiles) sur la population, ordonne dans lordre croissant, que lon divise en 4, 10 ou 100 parties de mme eectif. On parlera ainsi du centile 90 pour indiquer la valeur sparant les premiers 90% de la population des 10% restant. Ainsi, dans une population de jeunes enfants, un enfant dont la taille ou le poids est au-del du centile 90, ou en de du centile 10, doit tre lobjet dun suivi particulier. Denition dun quantile x p : P(X x p ) p P(X x p ) 1 p (15)
3. Mesure de la dpendance
3.1. Covariance
3.1.1.
4. Reprsentation graphique
4.1. Histogramme de frquence
Ce qui est important est : le nombre deectifs (doit tre assez important) ainsi que le nombre de classes et leur tendue. Avec lhistogramme de frquence (= la distribution empirique), on peut aussi tracer la fonction de densit correspondante (= la distribution thorique) pour apprcier le rapprochement entre la distribution thorique et la distribution empirique. Estimation de la moyenne laide de la moyenne empirique x= 1 x (xi )
i=1
(16)
(xi x)2
i=1
(17)
Normalite.pdf
2 Pour 3 Voir
1 Source
http://en.wikipedia.org/wiki/Q-Q_ plot
plus de renseignement, voir http://www.itl.nist.gov/div898/handbook/eda/section3/qqplot.htm galement la discussion a propos de larticle anglais Q-Q Plot de Wikipedia
Formule
r n+1 r0,4 n+0,2 r0,44 n+0,12 r0,5 n
http://echo.epfl.ch/e-drologie/chapitres/annexes/AnalFrequ.html 6 Source Ricco Rakotomalala, Tests de normalits, internet eric.univ-lyon2.fr/ ricco/cours/cours/Test_ Normalite.pdf 7 Source: http://www.itl.nist.gov/div898/handbook/eda/section3/qqplot.htm.
: http://www.itl.nist.gov/div898/handbook/eda/section3/probplot.htm dautres fonctions de rpartitions empiriques, voir cours Hydrologie gnrale, Prof.
Andr Musy
5. Loi de distribution
10
11
Thorme Central-Limite Soient n variable alatoire X1 ,X2 . . . Xn : Indpendante deux deux; distribu selon la mme densit de probabilit; ayant la mme moyenne et la mme variance 2 . On pose : Y = X1 + X2 + . . . + Xn Z = Yn n2 Alors, Z N(0, 1) quand n tend vers linni. La variable Y est simplement la somme de n variables X qui ont toutes la mme moyenne et la mme variance 2 . Si les variables sont indpendantes les unes des autres, alors la moyenne y de cette
8 Plus de dtail, voir Statistique pour les statophobes de Denis Poinsot: http://perso.univ-rennes1.fr/denis.poinsot/Statistiques% 20pour% 20statophobes/STATISTIQUES% 20POUR% 20STATOPHOBES.pdf
12
somme sera la somme des n moyennes (y = + + . . . = n) et la variance y de cette somme sera la somme de n variances (2 = 2 + 2 + 2 . . . = n2 ) y Si la moyenne de votre variable alatoire est et sa variance 2 , en appliquant la rgle selon laquelle var(cX) = c2 var(X) avec c = 1/n, vous pouvez en dduire que la moyenne m de votre chantillon 2 de taille n sui une loi normale N(, ). n Une moyenne suit une loi approximativement normale ds lors quelle est tablie partir dun chantillons dune trentaine dindividu ou plus.
6. Intervalles de conance
un intervalle de conance est un intervalle qui est suppos contenir, avec un certain degr de conance, la valeur estimer. Par exemple, un intervalle de conance 95% (ou au seuil de risque de 5% ) a 95% de chance de contenir la valeur du paramtre que lon cherche estimer mais cet intervalle de conance est trompeur dans 5% des cas. Exemple: Soit une population X dont on estime la moyenne par la moyenne dun chantillon x.
Puisque n > 30 la moyenne x suit une loi normale N(, ). 2 peut tre approxim par la variance n de lchantillon S 2 . x 2 S x N(, nx ) On cherche linterval [ xu ; xo ] dans lequel la moyenne x a 95% de chance de sy trouver : P( xu x xo ) = 1 On standardise x : x N(0, 1)
2 n
x
n
z(1 ) ) = 1 2
[x z ; x + z ] 2 2 n n = x z s2 x n
2
(18) (19)
Puisque la variable suit une loi normale, nous avons x N(, ). Mais comme lchantillon est n petit, estimer 2 par son estimateur S 2 serait sous-estimer la taille relle de lchantillon de conance. x x Dans ce cas, la variable centre-rduite (t = 2 )suit la loi de Studen-Fisher (loi t) de degre de libert (d.d.l.) (degree of freedom "d.f.") 1 n. Ainsi lintervalle de conance de niveau 1 de la moyenne est: [ x t ,(n1)ddl ; x + t ,(n1)ddl ] 2 2 n n = x t,(n1)ddl s2 x n
(20) (21)
13
6.2. Intervalles de conance d'un pourcentage 6.3. Intervalles de conance d'une dirence entre deux moyennes
6.3.1. Grands chantillons (n etn 30) 6.3.2. Petits chantillons (n etn 30) 6.4.1. Mthode de r-chantillonnage 6.4.2. Technique du Jackknife 6.4.3. Technique du Bootstrap
References
14