You are on page 1of 45

Introduction ` la statistique descriptive a

Prparation au Capes - Universit Rennes 1 e e

e But : La statistique descriptive a pour but dtudier une population ` partir de donnes. Cette description se fait ` a e a travers la prsentation des donnes (la plus synthtique possible), e e e leur reprsentation graphique et le calcul de rsums numriques. e e e e

Hl`ne Gurin, helene.guerin@univ-rennes1.fr ee e

Partie I - Un peu de vocabulaire


On parle de recensement lorsque lon fait une tude exhaustive e dune population. Lorsquon ntudie quune sous-population, on e parle alors dchantillon. e Les lments de cette population sont appels individus. ee e Il convient de dnir avec prcision les ensembles que lon tudie et e e e notamment leurs fonti`res. e

Voici une version allge de la dnition dune agglomration au e e e e sens de lINSEE : Exemple : Dnition dune agglomration selon lINSEE e e
Les limites entre territoires urbain et rural sont rednies a loccasion de e ` chaque recensement. Leur trac fait intervenir la notion dagglomration de e e population dnie comme un ensemble dhabitations. Dans cet ensemble, qui e doit abriter au moins 2000 habitants, aucune habitation ne doit tre spare de e e e la plus proche de plus de 200 m`tres. Les fronti`res de ces zones coincident e e dans tous les cas avec les limites communales. En revanche, les limites des autres circonscriptions administratives (cantons, arrondissements, dpartements) ne sont pas prises en compte lors de leur dlimitation. Une e e mme unit urbaine peut stendre sur deux dpartements. Si lagglomration e e e e e de population stend sur plusieurs communes, lensemble de ces communes e forme une agglomration urbaine. Si lagglomration stend sur une seule e e e commune, celle-ci est une ville isole. Toutes ces communes sont considres e e e comme urbaines. Les autres communes sont classes communes rurales. e

` A chaque individu de la population sont associs des caract`res, e e appels aussi variables. e Exemple : Le personnel dune entreprise peut tre dcrit selon e e divers carat`res : age, sexe, qualication, anciennet dans e e lentreprise, commune de rsidence... e Un lot de pi`ce mcanique peut tre dcrit suivant le poids, le e e e e diam`tre, la mati`re... e e Chacun des caract`res tudis peut prsenter deux ou plusieurs e e e e modalits. Les modalits sont les direntes situations o` les e e e u individus peuvent se trouver ` lgard du caract`re considr. Les a e e ee modalits dun mme caract`re doivent tre incompatibles et e e e e exhaustives.

Exemple 1 Nomenclature des professions et des catgories e socioprofessionnelles Trois niveaux de regroupements sont proposs : e 1. Niveau agrg (8 postes) e e Code 1 2 3 4 5 6 7 8 Libells e Agriculteurs exploitants Artisans, commerants, chefs dentreprise c Cadres et professions intellectuelles suprieures e Professions intermdiaires e Employs e Ouvriers Retraits e Autres sans activit professionnelle e
5

2. Niveau de publication courante (24 postes)...extrait


Code

Libells e
Agriculteurs exploitants Artisans Commerants et assimils c e Chefs dentreprise de 10 salaris ou plus e Professions librales e Cadres de la fonction publique, professions intellectuelles et artistiques Cadres dentreprise
Professions intermdiaires de lenseignement, de la sant, de la fonction publique et assimils e e e

10 21 22 23 31 32 36 41 46 47 48

Professions intermdiaires administratives et commerciales des entreprises e

Techniciens Contremaitres, agent de maitrise

On distingue deux types de caract`res : les caract`res qualitatifs, e e et les caract`res quantitatifs. e Lorsque le caract`re est quantitatif, on parle de variable e statistique. Une variable statistique est soit discr`te soit continue. e On va maintenant sintresser ` ltude des caract`res quantitatifs. e a e e

On sintresse ` deux tudes. La premi`re concerne lge des e a e e a tudiants prparant le capes de mathmatiques ` la fac de Rennes e e e a en 2005-2006, lautre concerne la dure de vie des ampoules dune e grande marque connue. On a relev dans chacun des cas les e donnes suivantes. e Exemple 1 Age des tudiants de Capes en 2005-2006 : tude faite e e sur 53 personnes. Age Eectif 20 1 21 7 22 17 23 14 24 7 25 2 29 1 31 1 36 1 39 1 40 1

Exemple 2 On rel`ve la dure de vie de 500 ampoules dites e e conomiques. e Ampoule Nbre dheures A1 1310 A2 874,3 A3 609,2 A4 4106,6 ... ... A500 2859,7

Partie II - Reprsentations graphiques e 1. Histogrammes et camemberts


Cas des variables discr`tes : on tudie une variable discr`te X ` e e e a p modalits dans une population de taille N . e Modalits e Eectifs Frquences : fi = e
Ni N

x1 N1 f1

x2 N2 f2

... ... ...

xp Np fp

Pour lhistogramme la hauteur des barres est proportionnelle ` la a frquence. Pour le camembert, cest la surface alloue ` la modalit e e a e qui est proportionnelle a la frquence. ` e

Exemple 1 : Age des tudiants de Capes en 2005-2006. e

10

Cas des variables continues : on regroupe les individus par classes. On dcompose lintervalle des valeurs possibles en une e partition dintervalles. Soit p le nombre dintervalles qui dcoupent la plage de variation de e la variable tudie et {ei1 , ei } les bornes de lintervalle i. On se e e limite ici au cas o` tous les sous intervalles sont de mme longueur. u e Les donnes se prsentent sous la forme suivante e e Classes Eectifs Centres de classe :
ci =
ei ei1 2

e0 ` e1 a N1 c1 f1
Ni N

e1 ` e2 a N2 c2 f2

... ... ... ...

ep1 ` ep a Np cp fp

Frquences : fi = e

11

Exemple 2 : Dure de vie des ampoules e On a dcoup lintervalle des dures observes en 50 sous intervalles e e e e de mme longueur. e

60 54 48 42 36 30 24 18 12 6 0 0 3333 6667 10000 13333 16667 20000 23333 26667 30000 33333 36667 40000 43333 46667 50000

12

2. La boite ` moustache (box-plot) a


La boite ` moustache permet de rsumer les principales a e caractristiques dun tableau de donnes en un graphique assez e e simple. On observe une variable X ` p modalits sur une population de a e taille N . On note x1 , . . . , xp les direntes modalits. e e e e La moyenne arithmtique m (souvent note x) : m = 1 N 1 N
p

Ni xi
i=1 p

Ni ci
i=1

dans le cas dune variable continue

Elle reprsente la valeur moyenne des donnes. e e

13

Les quantiles : les plus utiliss sont la mdiane, les quartiles et les e e dciles. e La mdiane med correspond ` la valeur de la variable qui partage la e a population en deux sous populations deectifs gaux. (Il y a autant e dindividus dont la valeur de la modalit est suprieure a med que e e ` dindividus dont la valeur de la modalit est infrieure a med.) e e ` Les quartiles {Qk , k = 1, 2, 3} divisent la population en 4 sous populations et les dciles {dk , k = 1, . . . , 9} en 10 sous populations e deectifs gaux. e e Remarque : la mdiane est moins sensible que la moyenne aux valeurs extrmes. e

14

Comment calculer ces quantits ? e En utilisant les frquences cumules : Fi = f1 + . . . + fi , e e i = 1, . . . , p. (Notion de fonction de rpartition de lchantillon). e e On se limite ici ` la mdiane. Lide est la mme pour les autres a e e e quantiles. Dans le cas Discret : Sil existe un i tel que Fi = 1/2, alors lintervalle [xi , xi+1 [ est mdian. On choisit souvent med = xi +xi+1 . e 2 Sil existe i tel que Fi1 < 1/2 < Fi alors la mdiane est xi . e
Fp=1

Fi1
Fp=1

Fi 1/2 Fi_1
Fi1

Fi=1/2

0
0 X1 X2 X3 Xi med Xi1 Xp

X1

X2

Xi_1

med

Xi1

Xp

15

Dans le cas continu : On approche par interpolation linaire la e fonction de rpartition de lchantillon. e e
FK=1

Fk

1/2 Fk_1

F2

F1 0 e0 e1 e2 e3 ek_1 med ek eK

On cherche lindice i tel que Fi1 < 1/2 et Fi > 1/2. Par interpolation linaire on obtient : e 0.5 Fi1 (ei ei1 ). med = ei1 + Fi Fi1
16

Exemple 1 : Moyenne et mdiane de lge des tudiants de Capes e a e en 2005-2006 La moyenne est m = 23.7.
1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41

La mdiane est med = 23 ans. e


17

Exemple 2 : Moyenne et mdiane de la dure de vie dune e e ampoule. La moyenne est m = 8144.95 heures.
1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 0 4875 9751 14626 19502 24377 29253 34128 39003 43879 48754

La mdiane est med = 5904.45 heures. e


18

Construction de la boite ` moustaches a


4 a3 Troisieme quartile Mediane 0 Moyenne Premier quartile

a1 -4

- a1 est la plus petite valeur suprieure ` Q1 1.5 IQ e a - a3 est la plus grande valeur infrieure ` Q3 + 1.5 IQ, e a o` IQ = Q3 Q1 est lintervalle interquartile. u Les valeurs en dehors de ces bornes sont des valeurs extrmes qui e sont reprsentes par des points. e e En gnral, lorsque la moyenne est suprieure ` la mdiane cest le e e e a e signe que la distribution est tale vers la droite (et inversement). e e
19

Exemple 1 : Boite a moustaches de lge des l`ves de Capes. ` a ee

Allez-y !

20

Exemple 2 : Boite a moustaches de la dure de vie dune ampoule ` e dite conomique. e

21

10000

20000

30000

40000

50000

3. Le mode Le mode est dni comme tant la modalit du e e e caract`re la plus souvent prise dans la population. On saperoit e c immdiatement des limites dun tel indicateur : e 1. il na de sens que dans le cas dun faible nombre de modalit, e 2. il peut exister plusieurs modes.

22

4. Les caractristiques de dispersion e La variance : soit m la moyenne, on dnit e


p p

var(X) =
i=1

fi (xi m)2 =
i=1

fi x2 m2 . i

Lcart type : e X = var(X).

23

Partie III - Que faire en dimension suprieure ? e


Lorsque lon tudie plusieurs caract`res simultanment, on souhaite e e e valuer le lien entre les caract`res, leur dpendance. e e e On va se limiter ici a la dimension 2. ` 1 - Prsentation des donnes : Les tableaux statistiques e e Considrons N individus dcrits simultanments suivant deux e e e caract`res X et Y . e Pour k {1, . . . , N } lindividu k prsente les modalits e e X(k ) {x1 , . . . , xp } et Y (k ) {y1 , . . . , yq }. On note Nij le nombre dindividus prsentant les modalits xi et yj . e e On a
p i=1 q j=1

Nij = N .

24

Tableau statistique dune tude simultane de deux caract`res. e e e


Modalits du e caract`re X e Modalits du caract`re Y e e Distribution marginale de X

y1 N11 . . . Ni1 . . . Np1 N1

... ...

yj N1j . . . Nij . . . Npj Nj

... ...

yq N1q . . . Niq . . . Npq Nq

x1 . . . xi . . . xp
Distribution de Y

N1 . . . Ni . . . Np N = N

...

...

... ...

... ...

25

On appelle frquence du couple (ou frquence totale) des e e modalits xi et yj la proportion dindividus qui prsentent e e Nij simultanment les modalits xi et yj : fij = N . e e Distributions marginales Les eectifs Ni dnissent la distribution marginale de X. La e frquence marginale de la modalit xi est e e Ni fi = . N De mme pour Y , on dnit les frquences marginales fj = e e e On dnit alors x, var(X), y et var(Y ). e
Nj N .

26

Distributions conditionnelles
e La j`me colonne du tableau statistique dcrit la sous population des e individus possdant la modalit yj suivant le caract`re X. La e e e frquence conditionnelle de la modalit xi sachant yj (ou lie ` e e e a yj ) est Nij fij = Nj

(lire f i sachant j).


i De mme, la distribution conditionnelle sachant xi : fj = e Nij Ni .

Remarque 2 fij =

Nij N

i = fi fj = fj fij .

27

2 - Indpendance et dpendance e e Le caract`re X est indpendant du caract`re Y si les e e e distributions conditionnelles (X|yj ) sont identiques entres elles : fij ne dpend pas de j et sont alors identiques ` la distribution de X. e a les colonnes du tableau stat. sont proportionnelles entre elles. Exemple 3 Exemple de caract`res indpendants e e
Modalits du e caract`re X e Modalits du caract`re Y e e

y1 3 6 12

y3 5 10 20

y3 2 4 8

y4 4 8 16

x1 x2 x3

28

Lindpendance est un cas extrme que lon rencontre rarement ` e e a ltat pur dans la pratique. On peut cependant mesurer lintensit e e de la dpendance entre deux caract`res X et Y . e e Le Chi-deux Le Chi-deux permet de comparer le tableau des eectifs relevs ` ce e a quil aurait du tre si les caract`res avaient t indpendants. e e ee e
N N (Nij i j )2 N Ni Nj i=1 j=1 N p q

2 =

=N

i=1 j=1

2 Nij 1 Ni Nj

29

Proprits e e 1. Les caract`res X et Y sont indpendants ssi 2 = 0. e e 2. 2 0. Il est dautant plus grand que la liaison entre X et Y est forte. Le probl`me du Chi-deux est quil dpend de la taille de la e e population N et des nombres de modalits p et q. e Que peut alors signier grand dans ce cas ?

30

Le nuage de points, diagramme de dispersion (scatter-plot) On trace sur un graphique lensemble des points de coordonnes e (X(k ), Y (k )) correspondant ` chacun des individus k , a k {1, . . . , N }.
Y(w) 5

10

12

Le choix des chelles est dlicat. e e


31

X(w)

Le coecient de corrlation e Cest un indice rendant compte numriquement de la mani`re dont e e les deux variables considres varient simultanment. ee e La covariance est dnie par e
p q

cov(X, Y ) =
i=1 j=1

fij xi yj xy

Proprits e e 1. la covariance est symtrique : cov(X, Y ) = cov(Y, X), e 2. var(X + Y ) = var(X) + var(Y ) + 2cov(X, Y ), 3. cov(X, Y )2 var(X)var(Y ).

32

Le coecient de corrlation linaire est dni par e e e cov(X, Y ) corr(X, Y ) = . X Y Proprits e e 1. corr(X, Y ) = cov( Xx , Yy ), X Y 2. Symtrie : corr(X, Y ) = corr(Y, X), e 3. corr(X, Y ) [1, 1] 4. |corr(X, Y )| = 1 ssi il existe une liaison linaire entre X et Y e (a, b, c I tels que aX + bY + c = 0), R 5. Si X et Y indpendantes alors corr(X, Y ) = 0. e

33

Regression linaire e Quand |corr(X, Y )| proche de 1, on souhaite trouver la fonction de X approchant le mieux possible Y . La rgression linaire consiste e e a ` chercher des fonctions anes (du type aX + b). On choisit a et b qui minimisent la distance entre le nuage de points et la droite dquation y = ax + b. On obtient e a= cov(X, Y ) var(X) et = y ax. b

34

Proprits e e 1. La droite dquation y = ax + est appele droite de e b e regression de Y sur X. Elle passe par le barycentre du nuage de points de coordonnes (x, y). e 2. Les valeurs yk = aX(k ) + sont appeles les valeurs b e ajustes. Elles ont la mme moyenne y que Y . e e 3. Les valeurs Ek = Y (k ) yk sont appeles les rsidus. Ils sont e e 1 de moyenne nulle et de variance N S(, a b). 4. La variable causale X = (X1 , . . . , XN ) et la variable rsiduelle e E = (E1 , . . . , EN ) sont non corrles : corr(X, E) = 0. ee

35

Que faire si un caract`re est quantitatif et lautre qualitatif e Supposons que X soit qualitative ` p modalits et Y soit a e quantitative de moyenne y et de variance var(Y ). On peut faire des histogrammes parall`les ou des boites ` e a moustaches parall`les o` graphique est la reprsentatation des lois e u e conditionnelles (Y |X = xi ), i {1, . . . , p}. Exemple Une tude a t mene pour valuer linuence de la e ee e e vitamine C sur la croissance des dents de 10 cobayes selon la quantit (trois doses ont t administre : 0.5, 1 et 2 mg) et selon le e ee e mode de dlivrance (jus dorange ou ascide ascorbique) e

36

Guinea Pigs Tooth Growth

tooth length 10 15

20

25

30

35

Ascorbic acid Orange juice

0.5

0.5

Vitamin C dose mg

Exemples de boites ` moustaches parall`les. a e

37

Partie IV - Lien avec les probabilits e


On se limite au cas de la dimension 1 (ceci se gnralise facilement e e en dimension 1). On a introduit un certain nombre de quantits an de rsumer un e e tableau de donnes pour en tirer des r`gles gnrales. En allant e e e e plus loin, on cherche en fait une formule mathmatique qui rgit le e e comportement de chaque chose ....Illusoire ! ! Rsumons les choses de faon simple (voir simpliste) : e c On modlise le comportement dun objet, dun individu par la loi e de probabilit la plus semblable possible an de pouvoir anticiper e lavenir ou damliorer le prsent. e e Par exemple, en ce qui concerne lampoule lctrique tudie, il ee e e serait intressant de connaitre la loi de sa dure de vie an de e e pouvoir la comparer a dautres ampoules et valuer son ecacit. ` e e
38

La statistique mathmatique (ou infrentielle) consiste ` chercher e e a parmis toutes les lois de probabilits connues la loi dont la courbe e sapproche le mieux de lhistogramme des donnes tudies. Et e e e ensuite dajuster les param`tres de la loi en fonction des principales e caractristiques des donnes. e e

39

Quelques densits de loi de probabilits : e e


2.0 1.8 1.6 1.4 1.2 1.0 0.8 0.6 0.4 0.2 0 0 1 2 3 4 5 6 exponentielle de paramtre 1 exponentielle de paramtre 2 0.40 0.36 0.32 0.28 0.24 0.20 0.16 0.12 0.08 0.04 0 6 4 2 0 2 4 6 Normale de paramtres m=0, var=1 Normale de paramtres m=0, var=4

Loi exponentielle
0.8 0.32 0.7 LogNormale de paramtres m=0, var=1 LogNormale de paramtres m=0, var=2 0.6 0.24 0.28

Loi normale
Loi de Cauchy

0.5

0.20

0.4

0.16

0.3

0.12

0.2

0.08

0.1

0.04

0 0 0.4 0.8 1.2 1.6 2.0 2.4 2.8 3.2 3.6 4.0

0 6 4 2 0 2 4 6

Loi Log-Normale
40

Loi de Cauchy

Exemple 1 : Age des tudiants de Capes en 2005-2006. e

1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 histogramme des lves de capes Loi normale Loi lognormale

41

Exemple 2 : Dure de vie dune ampoule dite conomique. e e

14e6

12e6 histogramme des donnes des ampoules Loi exponentielle(m1) Loi exponentielle(m2), m2<m1 10e6

8e6

6e6

4e6

2e6

0 0 1e5 2e5 3e5 4e5 5e5

42

Comment trouver la bonne loi de probabilit ? e Modlisation : Essayer de trouver parmi les lois connues celle e dont lallure sapproche le mieux de lhistogramme. Estimation : Trouver des approximations des param`tres e (esprance, variance) de la loi pour bien coller ` lhistogramme. e a Test : Validation du choix. Pour cela, on fait une nouvelle tude, e un nouveau sondage. On teste si notre choix est conforme aux rsultats du nouveau sondage. e

43

Exemples : En assurance : Le nombre de sinistres par contrat est modlis par e e une loi de Poisson. Le cout moyen des accidents est modlis par e e une loi log-normale (assurance auto) ou par une loi de Pareto (incendie). En conomie : Le temps de chmage dun chmeur est modlis par e o o e e une loi exponentielle. Les taux dintret ou les taux de change par e la loi log-normale.

44

Souvent on suppose que tout est rgit par les lois normales e (gaussiennes). Il existe cependant quelques tests simples pour tester si le comportement est similaire ` un comportement gaussien. a La droite de Henry : On note la fonction de rpartition de la e loi normale centre rduite. e e Soit X un caract`re ` p modalit, notes x1 , . . . , xp . Pour chaque i, e a e e on calcule yi tel que (yi ) = Fi = P (X xi ). Si la variable X est gaussienne, alors les points (xi , yi ) sont aligns e xx . sur la droite dquation y = e

45

You might also like