Professional Documents
Culture Documents
e But : La statistique descriptive a pour but dtudier une population ` partir de donnes. Cette description se fait ` a e a travers la prsentation des donnes (la plus synthtique possible), e e e leur reprsentation graphique et le calcul de rsums numriques. e e e e
Voici une version allge de la dnition dune agglomration au e e e e sens de lINSEE : Exemple : Dnition dune agglomration selon lINSEE e e
Les limites entre territoires urbain et rural sont rednies a loccasion de e ` chaque recensement. Leur trac fait intervenir la notion dagglomration de e e population dnie comme un ensemble dhabitations. Dans cet ensemble, qui e doit abriter au moins 2000 habitants, aucune habitation ne doit tre spare de e e e la plus proche de plus de 200 m`tres. Les fronti`res de ces zones coincident e e dans tous les cas avec les limites communales. En revanche, les limites des autres circonscriptions administratives (cantons, arrondissements, dpartements) ne sont pas prises en compte lors de leur dlimitation. Une e e mme unit urbaine peut stendre sur deux dpartements. Si lagglomration e e e e e de population stend sur plusieurs communes, lensemble de ces communes e forme une agglomration urbaine. Si lagglomration stend sur une seule e e e commune, celle-ci est une ville isole. Toutes ces communes sont considres e e e comme urbaines. Les autres communes sont classes communes rurales. e
` A chaque individu de la population sont associs des caract`res, e e appels aussi variables. e Exemple : Le personnel dune entreprise peut tre dcrit selon e e divers carat`res : age, sexe, qualication, anciennet dans e e lentreprise, commune de rsidence... e Un lot de pi`ce mcanique peut tre dcrit suivant le poids, le e e e e diam`tre, la mati`re... e e Chacun des caract`res tudis peut prsenter deux ou plusieurs e e e e modalits. Les modalits sont les direntes situations o` les e e e u individus peuvent se trouver ` lgard du caract`re considr. Les a e e ee modalits dun mme caract`re doivent tre incompatibles et e e e e exhaustives.
Exemple 1 Nomenclature des professions et des catgories e socioprofessionnelles Trois niveaux de regroupements sont proposs : e 1. Niveau agrg (8 postes) e e Code 1 2 3 4 5 6 7 8 Libells e Agriculteurs exploitants Artisans, commerants, chefs dentreprise c Cadres et professions intellectuelles suprieures e Professions intermdiaires e Employs e Ouvriers Retraits e Autres sans activit professionnelle e
5
Libells e
Agriculteurs exploitants Artisans Commerants et assimils c e Chefs dentreprise de 10 salaris ou plus e Professions librales e Cadres de la fonction publique, professions intellectuelles et artistiques Cadres dentreprise
Professions intermdiaires de lenseignement, de la sant, de la fonction publique et assimils e e e
10 21 22 23 31 32 36 41 46 47 48
On distingue deux types de caract`res : les caract`res qualitatifs, e e et les caract`res quantitatifs. e Lorsque le caract`re est quantitatif, on parle de variable e statistique. Une variable statistique est soit discr`te soit continue. e On va maintenant sintresser ` ltude des caract`res quantitatifs. e a e e
On sintresse ` deux tudes. La premi`re concerne lge des e a e e a tudiants prparant le capes de mathmatiques ` la fac de Rennes e e e a en 2005-2006, lautre concerne la dure de vie des ampoules dune e grande marque connue. On a relev dans chacun des cas les e donnes suivantes. e Exemple 1 Age des tudiants de Capes en 2005-2006 : tude faite e e sur 53 personnes. Age Eectif 20 1 21 7 22 17 23 14 24 7 25 2 29 1 31 1 36 1 39 1 40 1
Exemple 2 On rel`ve la dure de vie de 500 ampoules dites e e conomiques. e Ampoule Nbre dheures A1 1310 A2 874,3 A3 609,2 A4 4106,6 ... ... A500 2859,7
x1 N1 f1
x2 N2 f2
xp Np fp
Pour lhistogramme la hauteur des barres est proportionnelle ` la a frquence. Pour le camembert, cest la surface alloue ` la modalit e e a e qui est proportionnelle a la frquence. ` e
10
Cas des variables continues : on regroupe les individus par classes. On dcompose lintervalle des valeurs possibles en une e partition dintervalles. Soit p le nombre dintervalles qui dcoupent la plage de variation de e la variable tudie et {ei1 , ei } les bornes de lintervalle i. On se e e limite ici au cas o` tous les sous intervalles sont de mme longueur. u e Les donnes se prsentent sous la forme suivante e e Classes Eectifs Centres de classe :
ci =
ei ei1 2
e0 ` e1 a N1 c1 f1
Ni N
e1 ` e2 a N2 c2 f2
ep1 ` ep a Np cp fp
Frquences : fi = e
11
Exemple 2 : Dure de vie des ampoules e On a dcoup lintervalle des dures observes en 50 sous intervalles e e e e de mme longueur. e
60 54 48 42 36 30 24 18 12 6 0 0 3333 6667 10000 13333 16667 20000 23333 26667 30000 33333 36667 40000 43333 46667 50000
12
Ni xi
i=1 p
Ni ci
i=1
13
Les quantiles : les plus utiliss sont la mdiane, les quartiles et les e e dciles. e La mdiane med correspond ` la valeur de la variable qui partage la e a population en deux sous populations deectifs gaux. (Il y a autant e dindividus dont la valeur de la modalit est suprieure a med que e e ` dindividus dont la valeur de la modalit est infrieure a med.) e e ` Les quartiles {Qk , k = 1, 2, 3} divisent la population en 4 sous populations et les dciles {dk , k = 1, . . . , 9} en 10 sous populations e deectifs gaux. e e Remarque : la mdiane est moins sensible que la moyenne aux valeurs extrmes. e
14
Comment calculer ces quantits ? e En utilisant les frquences cumules : Fi = f1 + . . . + fi , e e i = 1, . . . , p. (Notion de fonction de rpartition de lchantillon). e e On se limite ici ` la mdiane. Lide est la mme pour les autres a e e e quantiles. Dans le cas Discret : Sil existe un i tel que Fi = 1/2, alors lintervalle [xi , xi+1 [ est mdian. On choisit souvent med = xi +xi+1 . e 2 Sil existe i tel que Fi1 < 1/2 < Fi alors la mdiane est xi . e
Fp=1
Fi1
Fp=1
Fi 1/2 Fi_1
Fi1
Fi=1/2
0
0 X1 X2 X3 Xi med Xi1 Xp
X1
X2
Xi_1
med
Xi1
Xp
15
Dans le cas continu : On approche par interpolation linaire la e fonction de rpartition de lchantillon. e e
FK=1
Fk
1/2 Fk_1
F2
F1 0 e0 e1 e2 e3 ek_1 med ek eK
On cherche lindice i tel que Fi1 < 1/2 et Fi > 1/2. Par interpolation linaire on obtient : e 0.5 Fi1 (ei ei1 ). med = ei1 + Fi Fi1
16
Exemple 1 : Moyenne et mdiane de lge des tudiants de Capes e a e en 2005-2006 La moyenne est m = 23.7.
1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41
Exemple 2 : Moyenne et mdiane de la dure de vie dune e e ampoule. La moyenne est m = 8144.95 heures.
1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 0 4875 9751 14626 19502 24377 29253 34128 39003 43879 48754
a1 -4
- a1 est la plus petite valeur suprieure ` Q1 1.5 IQ e a - a3 est la plus grande valeur infrieure ` Q3 + 1.5 IQ, e a o` IQ = Q3 Q1 est lintervalle interquartile. u Les valeurs en dehors de ces bornes sont des valeurs extrmes qui e sont reprsentes par des points. e e En gnral, lorsque la moyenne est suprieure ` la mdiane cest le e e e a e signe que la distribution est tale vers la droite (et inversement). e e
19
Allez-y !
20
21
10000
20000
30000
40000
50000
3. Le mode Le mode est dni comme tant la modalit du e e e caract`re la plus souvent prise dans la population. On saperoit e c immdiatement des limites dun tel indicateur : e 1. il na de sens que dans le cas dun faible nombre de modalit, e 2. il peut exister plusieurs modes.
22
var(X) =
i=1
fi (xi m)2 =
i=1
fi x2 m2 . i
23
Nij = N .
24
... ...
... ...
x1 . . . xi . . . xp
Distribution de Y
N1 . . . Ni . . . Np N = N
...
...
... ...
... ...
25
On appelle frquence du couple (ou frquence totale) des e e modalits xi et yj la proportion dindividus qui prsentent e e Nij simultanment les modalits xi et yj : fij = N . e e Distributions marginales Les eectifs Ni dnissent la distribution marginale de X. La e frquence marginale de la modalit xi est e e Ni fi = . N De mme pour Y , on dnit les frquences marginales fj = e e e On dnit alors x, var(X), y et var(Y ). e
Nj N .
26
Distributions conditionnelles
e La j`me colonne du tableau statistique dcrit la sous population des e individus possdant la modalit yj suivant le caract`re X. La e e e frquence conditionnelle de la modalit xi sachant yj (ou lie ` e e e a yj ) est Nij fij = Nj
Remarque 2 fij =
Nij N
i = fi fj = fj fij .
27
2 - Indpendance et dpendance e e Le caract`re X est indpendant du caract`re Y si les e e e distributions conditionnelles (X|yj ) sont identiques entres elles : fij ne dpend pas de j et sont alors identiques ` la distribution de X. e a les colonnes du tableau stat. sont proportionnelles entre elles. Exemple 3 Exemple de caract`res indpendants e e
Modalits du e caract`re X e Modalits du caract`re Y e e
y1 3 6 12
y3 5 10 20
y3 2 4 8
y4 4 8 16
x1 x2 x3
28
Lindpendance est un cas extrme que lon rencontre rarement ` e e a ltat pur dans la pratique. On peut cependant mesurer lintensit e e de la dpendance entre deux caract`res X et Y . e e Le Chi-deux Le Chi-deux permet de comparer le tableau des eectifs relevs ` ce e a quil aurait du tre si les caract`res avaient t indpendants. e e ee e
N N (Nij i j )2 N Ni Nj i=1 j=1 N p q
2 =
=N
i=1 j=1
2 Nij 1 Ni Nj
29
Proprits e e 1. Les caract`res X et Y sont indpendants ssi 2 = 0. e e 2. 2 0. Il est dautant plus grand que la liaison entre X et Y est forte. Le probl`me du Chi-deux est quil dpend de la taille de la e e population N et des nombres de modalits p et q. e Que peut alors signier grand dans ce cas ?
30
Le nuage de points, diagramme de dispersion (scatter-plot) On trace sur un graphique lensemble des points de coordonnes e (X(k ), Y (k )) correspondant ` chacun des individus k , a k {1, . . . , N }.
Y(w) 5
10
12
X(w)
Le coecient de corrlation e Cest un indice rendant compte numriquement de la mani`re dont e e les deux variables considres varient simultanment. ee e La covariance est dnie par e
p q
cov(X, Y ) =
i=1 j=1
fij xi yj xy
Proprits e e 1. la covariance est symtrique : cov(X, Y ) = cov(Y, X), e 2. var(X + Y ) = var(X) + var(Y ) + 2cov(X, Y ), 3. cov(X, Y )2 var(X)var(Y ).
32
Le coecient de corrlation linaire est dni par e e e cov(X, Y ) corr(X, Y ) = . X Y Proprits e e 1. corr(X, Y ) = cov( Xx , Yy ), X Y 2. Symtrie : corr(X, Y ) = corr(Y, X), e 3. corr(X, Y ) [1, 1] 4. |corr(X, Y )| = 1 ssi il existe une liaison linaire entre X et Y e (a, b, c I tels que aX + bY + c = 0), R 5. Si X et Y indpendantes alors corr(X, Y ) = 0. e
33
Regression linaire e Quand |corr(X, Y )| proche de 1, on souhaite trouver la fonction de X approchant le mieux possible Y . La rgression linaire consiste e e a ` chercher des fonctions anes (du type aX + b). On choisit a et b qui minimisent la distance entre le nuage de points et la droite dquation y = ax + b. On obtient e a= cov(X, Y ) var(X) et = y ax. b
34
Proprits e e 1. La droite dquation y = ax + est appele droite de e b e regression de Y sur X. Elle passe par le barycentre du nuage de points de coordonnes (x, y). e 2. Les valeurs yk = aX(k ) + sont appeles les valeurs b e ajustes. Elles ont la mme moyenne y que Y . e e 3. Les valeurs Ek = Y (k ) yk sont appeles les rsidus. Ils sont e e 1 de moyenne nulle et de variance N S(, a b). 4. La variable causale X = (X1 , . . . , XN ) et la variable rsiduelle e E = (E1 , . . . , EN ) sont non corrles : corr(X, E) = 0. ee
35
Que faire si un caract`re est quantitatif et lautre qualitatif e Supposons que X soit qualitative ` p modalits et Y soit a e quantitative de moyenne y et de variance var(Y ). On peut faire des histogrammes parall`les ou des boites ` e a moustaches parall`les o` graphique est la reprsentatation des lois e u e conditionnelles (Y |X = xi ), i {1, . . . , p}. Exemple Une tude a t mene pour valuer linuence de la e ee e e vitamine C sur la croissance des dents de 10 cobayes selon la quantit (trois doses ont t administre : 0.5, 1 et 2 mg) et selon le e ee e mode de dlivrance (jus dorange ou ascide ascorbique) e
36
tooth length 10 15
20
25
30
35
0.5
0.5
Vitamin C dose mg
37
La statistique mathmatique (ou infrentielle) consiste ` chercher e e a parmis toutes les lois de probabilits connues la loi dont la courbe e sapproche le mieux de lhistogramme des donnes tudies. Et e e e ensuite dajuster les param`tres de la loi en fonction des principales e caractristiques des donnes. e e
39
Loi exponentielle
0.8 0.32 0.7 LogNormale de paramtres m=0, var=1 LogNormale de paramtres m=0, var=2 0.6 0.24 0.28
Loi normale
Loi de Cauchy
0.5
0.20
0.4
0.16
0.3
0.12
0.2
0.08
0.1
0.04
0 0 0.4 0.8 1.2 1.6 2.0 2.4 2.8 3.2 3.6 4.0
0 6 4 2 0 2 4 6
Loi Log-Normale
40
Loi de Cauchy
1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 histogramme des lves de capes Loi normale Loi lognormale
41
14e6
12e6 histogramme des donnes des ampoules Loi exponentielle(m1) Loi exponentielle(m2), m2<m1 10e6
8e6
6e6
4e6
2e6
42
Comment trouver la bonne loi de probabilit ? e Modlisation : Essayer de trouver parmi les lois connues celle e dont lallure sapproche le mieux de lhistogramme. Estimation : Trouver des approximations des param`tres e (esprance, variance) de la loi pour bien coller ` lhistogramme. e a Test : Validation du choix. Pour cela, on fait une nouvelle tude, e un nouveau sondage. On teste si notre choix est conforme aux rsultats du nouveau sondage. e
43
Exemples : En assurance : Le nombre de sinistres par contrat est modlis par e e une loi de Poisson. Le cout moyen des accidents est modlis par e e une loi log-normale (assurance auto) ou par une loi de Pareto (incendie). En conomie : Le temps de chmage dun chmeur est modlis par e o o e e une loi exponentielle. Les taux dintret ou les taux de change par e la loi log-normale.
44
Souvent on suppose que tout est rgit par les lois normales e (gaussiennes). Il existe cependant quelques tests simples pour tester si le comportement est similaire ` un comportement gaussien. a La droite de Henry : On note la fonction de rpartition de la e loi normale centre rduite. e e Soit X un caract`re ` p modalit, notes x1 , . . . , xp . Pour chaque i, e a e e on calcule yi tel que (yi ) = Fi = P (X xi ). Si la variable X est gaussienne, alors les points (xi , yi ) sont aligns e xx . sur la droite dquation y = e
45