You are on page 1of 52

1

Universite Paris I, Pantheon - Sorbonne


Premi`ere annee Master M.A.E.F. 2007 2008
Statistiques
Plan du cours
1. Quelques rappels la theorie de la mesure.
2. Quelques rappels sur les applications de la theorie de la mesure aux probabilites.
3. Estimation parametrique.
4. Tests parametriques.
Bibliographie
Livres pour revoir les bases....
1. Baillargeon, B. Probabilites, statistiques et techniques de regression. SMG.
2. Bercu, B., Pamphile, P. et Azoulay, E. Probabilites et Applications - Cours Exercices. Edisciences.
3. Dress, F. Probabilites et Statistique. Dunod.
4. Lecoutre, J.-P. Statistiques et Probabilites. Dunod.
Theorie de la mesure et applications aux probabilites
Ansel et Ducel, Exercices corriges en theorie de la mesure et de lintegration, Ellipses.
Barbe, P. et Ledoux, M., Probabilites, Belin.
Dacunha-Castelle, D. et Duo, M., Probabilites et Statistiques (I), Masson
Jacod, J., Cours dintegration, http ://www.proba.jussieu.fr/pageperso/jacod.html.
Jacod, J., Cours de Probabilites, http ://www.proba.jussieu.fr/pageperso/jacod.html.
Toulouse, P. Th`emes de probabilites et statistiques, Masson.
Statistiques inferentielles
Dacunha-Castelle, D. et Duo, M., Probabilites et Statistiques (I), Masson.
Fourdrinier, D., Statistique inferentielle, Dunod.
Lecoutre, J.-M. et Tassi, P., Statistique non parametrique et robustesse, Economica.
Milhaud, X., Statistique, Belin.
Monfort, A., Cours de statistique mathematique, Economica.
Saporta, G., Probabilites, analyse des donnees et statistiques. Technip.
Tsybakov, A. Introduction ` a la statistique non-parametrique. Collection : Mathematiques et Applica-
tions, Springer.
2
Cours de STATISTIQUES 1
1 Rappels sur la theorie de la mesure
Introduction
Il demeure des choses inconnues `a partir des connaissances anterieures en probabilites :
Quest-ce quun evenement et lensemble de tous les evenements ?
Que se passe-t-il pour des probabilites devenements moins classiques (par exemple lensemble des
decimaux) ?
Comment traiter une variable aleatoire qui est continue et discr`ete `a la fois (par exemple le nombre de
minutes passees devant la TV) ?
1.1 Mesures
1.1.1 Tribus
Notation. est un ensemble (ni ou inni).
T() est lensemble de tous les sous-ensembles (parties) de .
Rappel. Soit E un ensemble. E est dit denombrable sil existe une bijection entre E et IN ou un sous-
ensemble de IN. Par exemple, un ensemble ni, ZZ, ID, ZZ ZZ, Q

sont denombrables. En revanche, IR nest


pas denombrable.
Denition. Soit une famille T de parties de (donc T T()). On dit que T est une alg`ebre si :
T ;
lorsque A T alors ( A) T ;
pour tout n IN

, lorsque (A
1
, , A
n
) T
n
alors A
1
A
n
T.
Denition. Soit une famille / de parties de (donc / T()). On dit que / est une tribu (ou -alg`ebre)
sur si :
T ;
lorsque A T alors ( A) T ;
pour I IN, lorsque (A
i
)
iI
T
I
alors

iI
A
i
/.
Exemple. Cas du Pile ou Face.
Cas o` u est inni : = IN par exemple.
Propriete. Avec les notations precedentes :
1. /;
2. si A et B sont dans la tribu /, alors A B est dans /;
3. si /
1
et /
2
sont deux tribus sur , alors /
1
/
2
est une tribu sur . Plus generalement, pour I IN,
si (/
i
)
iI
ensemble de tribus sur , alors

iI
/
i
est une tribu sur ;
4. si /
1
et /
2
sont deux tribus sur , alors /
1
/
2
nest pas forcement une tribu sur .
Denition. Si c est une famille de parties de (donc c T()), alors on appelle tribu engendree par
c, notee (c), la tribu engendree par lintersection de toutes les tribus contenant c (on peut faire la meme
chose avec des alg`ebres).
Remarque. La tribu engendree est la plus petite tribu (au sens de linclusion) contenant la famille c.
Rappel. Un ensemble ouvert U dans un espace metrique X est telle que pour tout x U, il existe
r > 0 tel que B(x, r) U.
On dit quun ensemble dans un espace metrique X est ferme si son complementaire dans X est ouvert.
Denition. Soit un espace metrique. On appelle tribu borelienne sur , notee, B(), la tribu engendree
par les ouverts de . Un ensemble de B() est appele borelien.
Exemple. Boreliens sur IR, sur ]0, 1[.
Boreliens sur IR
2
.
3
1.1.2 Espace mesurable
Denition. Soit un ensemble et soit / une tribu sur . On dit que (, /) est un espace mesurable.
Corollaire. Quand on sinteressera aux probabilites, on dira que (, /) est un espace probabilisable.
Propriete. Si (
i
, /
i
)
i
sont n espaces mesurables, alors un ensemble elementaire de =
1

n
est
une reunion nie densembles A
1
A
n
o` u chaque A
i
/
i
. Lensemble des ensembles elementaires est
une alg`ebre et on note /
1
/
n
(on dit /
1
tensoriel /
2
... tensoriel /
n
) la tribu sur engendree par
ces ensembles elementaires.
Exemple. Paves de IR
d
.
Denition. On appelle espace mesurable produit des (
i
, /
i
)
i
lespace mesurable
_
n

i=1

i
,
n

i=1
/
i
_
.
Exemple. Pile / Face 2 fois.
1.1.3 Denitions et Proprietes dune mesure
Denition. Soit (, /) un espace mesurable. Lapplication : / [0, +] est une mesure si :
() = 0.
Pour tout I IN et pour (A
i
)
iI
famille disjointe de / (telle que A
i
A
j
= pour i ,= j), alors

_
_
iI
A
i
_
=

iI
(A
i
) (propriete dite de -additivite).
Denition. Avec les notations precedentes :
Si () < +, on dit que est nie.
Si () < M avec M < +, on dit que est bornee.
Si () = 1, on dit que est une mesure de probabilite.
Exemple. Cas de = IR, de IN, ou IR
2
.
Denition. Si (, /) est un espace mesurable (resp. probabilisable) alors (, /, ) est un espace mesure
(resp. probabilise quand est une probabilite).
Remarque. Sur (, /), on peut denir une innite de mesures.
Propriete. Soit (, /, ) un espace mesure et (A
i
)
iIN
, une famille de /.
1. Si A
1
A
2
, alors (A
1
) (A
2
).
2. Si (A
1
) < + et (A
2
) < +, alors (A
1
A
2
) +(A
1
A
2
) = (A
1
) +(A
2
).
3. Pour tout I IN, on a
_
_
iI
A
i
_

iI
(A
i
).
4. Si A
i
A
i+1
pour tout i IN (suite croissante en sens de linclusion), alors ((A
n
))
nIN
est une suite
croissante convergente telle que

_
_
iIN
A
i
_
= lim
i+
(A
i
) (meme si cette limite est +).
5. Si A
i+1
A
i
pour tout i IN (suite decroissante en sens de linclusion) et (A
0
) < +, alors
((A
n
))
nIN
est une suite decroissante convergente telle que
_

iIN
A
i
_
= lim
i+
(A
i
).
Exemple. 1. Soit (, /, ) un espace mesure. On denit (A) = (A B) o` u B /. mesure ?
2. Si
1
et
2
mesures sur (, /),
1
+
2
et sont-elles des mesures ?
Denition. Soit (, /, ) un espace mesure et (A
i
)
iIN
une famille de /.
1. On denit limsup(A
n
)
n
=

nIN
_
mn
A
m
(intuitivement, limsup(A
n
)
n
est lensemble des tels que
appartienne ` a une innite de A
n
).
4
2. On denit liminf(A
n
)
n
=
_
nIN

mn
A
m
(intuitivement, liminf(A
n
)
n
est lensemble des tels que
appartienne ` a tous les A
n
sauf ` a un nombre ni dentre eux).
Exemple. Cas des suites croissantes et decroissantes densembles.
Theor`eme (Theor`eme dextension de Hahn - Caratheodory). Si est un ensemble, T une alg`ebre sur ,
et une application de T dans [0, +] additive (telle que (AB) = (A) +(B) pour AB = ), alors si
/ est la tribu engendree par T, il existe une mesure sur la tribu / qui concide avec sur T (cest-` a-dire
que pour tout F T,

(F) = (F)). On dit que prolonge sur la tribu /.
Exemple. Denition de la mesure de Lebesgue sur IR, IR
n
,...
Denition. Soit (, /, ) un espace mesure.
1. Pour A /, on dit que A est -negligeable si (A) = 0.
2. Soit une propriete T dependant des elements de . On dit que T est vraie -presque partout (-
presque s urement sur un espace probabilise) si lensemble des pour laquelle elle nest pas veriee est
-negligeable.
Exemple. Mesure de Lebesgue sur IN ou Q

.
La propriete la suite de fonction f
n
(x) = x
n
converge vers la fonction f(x) = 0 est vraie -presque
partout sur [0, 1].
Soit (IR, B(IR), ) et soit F la fonction denie par F(x) = (] , x]) pour x IR.
1.1.4 Fonctions mesurables
Rappel. Soit f : E F, o` u E et F sont 2 espaces metriques.
Pour I F, on appelle ensemble reciproque de I par f, lensemble f
1
(I) = x E, f(x) I.
(f continue) (pour tout ouvert U de F alors f
1
(U) est un ouvert de E).
Denition. Soit f : E F et soit 1 une tribu sur F. On note f
1
(1) lensemble de sous-ensembles de
tel que f
1
(1) = f
1
(I), I 1.
Propriete. Soit (

, /

) un espace mesurable et soit f :

. Alors f
1
(/) est une tribu sur appelee
tribu engendree par f.
Denition. Soit (, /) et (

, /

) deux espaces mesurables. Une fonction f :

est dite mesurable


pour les tribus / et /

si et seulement si f
1
(/

) / (donc si et seulement si A

, alors f
1
(A

) /).
Exemple. Fonction indicatrice.
Combinaison lineaire de fonctions indicatrices.
Remarque. Dans le cas o` u (, /) est un espace probabilisable, et si f : IR, alors si f est une fonction
mesurable sur / et B(IR), alors f est une variable aleatoire.
Exemple. Nombre de Piles dans un jeu de Pile/Face.
Remarque. Dans le cas o` u (, /) est un espace mesurable, et si f : (

, B(

)), o` u

est un espace
metrique et B(

) lensemble des boreliens de

, si f est une fonction mesurable sur / et B(

), alors f
est dite fonction borelienne.
Proposition. Soit (, /) et (

, /

) deux espaces mesurables et f :

. Soit T une famille de sous-


ensembles de

telle que (T) = /

. Alors
1. f
1
(T) engendre la tribu f
1
(/).
2. (f mesurable) (f
1
(T) /)
Consequence. Si (, /) et (

, /

) sont deux espaces mesurables boreliens, alors toute application


continue de

est mesurable.
Pour montrer quune fonction f : IR est mesurable, il sut de montrer que la famille densemble
( , f() a)
aIR
/.
5
Propriete. Soit f mesurable de (, /) dans (

, /

) et g mesurable de (

, /

) dans (

, /

). Alors
g
0
f est mesurable dans / et /

.
Soit f
1
mesurable de (, /) dans (
1
, /
1
) et f
2
mesurable de (, /) dans (
2
, /
2
). Alors h :

1

2
telle que h() = (f
1
(), f
2
()) est mesurable dans / et /
1
/
2
.
Soit (f
n
)
nIN
une suite de fonctions mesurables de (, /) dans (

, B(

)), o` u

est un espace
metrique, telle quil existe une fonction f limite simple de (f
n
) (donc , lim
n
f
n
() = f()).
Alors f est mesurable dans / et B(

).
Denition. Soit f mesurable de (, /, ) dans (

, /

) et soit
f
: /

[0, +] telle que pour tout A

,
on ait
f
(A

) = (f
1
(A

)). Alors
f
est une mesure sur (

, /

) appelee mesure image de par f.


Cas particulier. Si est une mesure de probabilite et si X est une variable aleatoire alors
X
est la mesure
(loi) de probabilite de la variable aleatoire X.
1.1.5 Cas des fonctions reelles mesurables
Propriete. Soit f et g deux fonctions reelles mesurables (de (, /, ) dans (IR, B(IR))). Alors .f, f + g,
min(f, g) et max(f, g) sont des fonctions reelles mesurables.
Propriete. Soit (f
n
)
nIN
une suite de fonctions reelles mesurables. Alors inf(f
n
) et sup(f
n
) sont des fonc-
tions reelles mesurables.
Denition. Soit f : IR. Alors f est dite etagee sil existe une famille densembles disjoints (A
i
)
1in
de et une famille de reels (
i
)
1in
telles que pour tout , on ait f() =
n

i=1

i
II
Ai
().
Remarque. Si les A
i
sont tous dans / tribu sur , alors f est /-mesurable.
Theor`eme. Toute fonction reelle mesurable ` a valeurs dans [0, +] est limite simple dune suite croissante
de fonctions etagees.
Consequence. Soit f une fonction reelle mesurable. Alors f est limite simple de fonctions etagees.
1.2 Integration de Lebesgue
Dans toute la suite, on consid`ere (, /, ) un espace mesure.
1.2.1 Integrale de Lebesgue dune fonction positive
Denition. 1. Soit f = II
a
, o` u A /. Alors :
_
f d =
_

f()d() = (A).
2. Soit f = II
a
, o` u A / et soit B /. Alors :
_
B
f d =
_
B
f()d() =
_
II
B
(A)()f()d() = (A B).
3. Soit f une fonction etagee positive telle que f =
n

i=1

i
II
Ai
, o` u les A
i
/ et
i
> 0 et soit B /.
Alors :
_
B
f d =
_
B
f()d() =
_
II
B
()f()d() =
n

i=1

i
(A
i
B).
Exemple. Fonction II
Q

, fonctions en escalier,...
Denition. Soit f une fonction /-mesurable positive et soit B /. Alors lintegrale de Lebesgue de f par
rapport ` a sur B est :
_
B
f d =
_
II
B
()f()d() = sup
__
B
g d, pour g etagee positive telle que g f
_
.
6
Propriete. Soit f une fonction /-mesurable positive et soit A et B /. Alors :
1. Pour c 0,
_
B
cf d = c
_
B
f d.
2. Si A B, alors
_
A
f d
_
B
f d.
3. Si g est une fonction /-mesurable positive telle que 0 f g alors 0
_
B
f d
_
B
g d.
4. Si (B) = 0 alors
_
B
f d = 0.
Theor`eme (Theor`eme de convergence monotone (Beppo-Levi)). Si (f
n
)
n
est une suite croissante de fonc-
tions mesurables positives convergeant simplement vers f sur , alors :
lim
n
__
f
n
d
_
=
_
f d =
_
lim
n
f
n
d.
Consequence. Pour les series de fonctions mesurables positives, on peut toujours appliquer le Theor`eme
de convergence monotone et donc inverser la somme et lintegrale.
Lemme (Lemme de Fatou). Soit (f
n
)
n
est une suite de fonctions mesurables positives alors :
_
_
liminf
n
f
n
_
d liminf
n
_
f
n
d.
Exemple. Appliquer Fatou ` a (f
n
) telle que f
2n
= II
A
et f
2n+1
= II
B
.
1.2.2 Integrale de Lebesgue dune fonction reelle et proprietes
Denition. Soit (, /, ) un espace mesure, B / et soit f une fonction /-mesurable ` a valeurs reelles
telle que f = f
+
f

avec f
+
= max(f, 0) et f

= max(f, 0). On dit que f est -integrable sur B si


_
B
[f[ d < +. On a alors
_
B
f d =
_
B
f
+
d
_
B
f

d.
Notation. Lorsque f est -integrable sur B, soit
_
[f[ d < +, on note f L
1
(, /, ) (on dit que f
est L
1
).
Exemple. Integrale de Riemann et integrale de Lebesgue.
Cas de la masse de Dirac.
Propriete. On suppose que f et g L
1
(, /, ). Alors :
1.
_
(f +g)d =
_
fd +
_
gd pour (, ) IR
2
.
2. Si f g alors
_
f d
_
g d.
Theor`eme (Theor`eme de convergence dominee de Lebesgue). Soit (f
n
)
n
est une suite de fonctions de
L
1
(, /, ) telles que pour tout n IN, [f
n
[ g avec g L
1
(, /, ). Si on suppose que (f
n
) converge
simplement vers f sur alors :
lim
n
_
f
n
d =
_
f d.
Extension. Le Theor`eme de Lebesgue sapplique egalement dans le cas o` u (f
n
)
n
converge presque partout
vers f.
Exemple. Convergence dintegrale dependant dun param`etre : par exemple
_

0
f(x)
1 +x
n
dx.
7
Theor`eme (Inegalite de Jensen). Soit (, /, IP) un espace probabilise, soit : IR IR une fonction convexe
et soit f : IR mesurable telle que (f) soit une fonction integrable par rapport ` a P. Alors :

__
f dIP
_

_
(f) dIP.
Exemple. Soit X une v.a. sur (, /, IP). Alors (IEX) IE((X)).
1.2.3 Mesures induites et densites
Theor`eme (Theor`eme du Transport). Soit f une fonction mesurable de (, /, ) dans (

, /

) telle que
f
soit la mesure induite par f (donc
f
(A

) = (f
1
(A

)) pour A

) et soit une fonction mesurable de


(

, /

) dans (IR, B(IR)). Alors, si


0
f L
1
(, /, ),
_

d
f
=
_

0
f d.
Denition. Soit et deux mesures sur (, /). On dit que domine (ou est dominee par ) et que
est absolument continue par rapport ` a lorsque pour tout A /, (A) = 0 = (A) = 0.
Propriete. Soit (, /, ) un espace mesure et f une fonction denie sur (, /) mesurable et positive. On
suppose que pour A /, (A) =
_
A
f d. Alors, est une mesure sur (, /), dominee par . De plus, pour
toute fonction g denie sur (, /) mesurable et positive,
_
gd =
_
g.fd.
Enn, g est integrable si et seulement si g.f est integrable.
Denition. On dit que mesure sur (, /) est -nie lorsquil existe une famille (A
i
)
iI
, avec I denombrable,
densembles de / telle que

A
i
= et (A
i
) < + pour tout i I.
Theor`eme (Theor`eme de Radon-Nikodym). On suppose que et sont deux mesures -nies sur (, /)
telles que domine . Alors il existe une fonction f denie sur (, /) mesurable et positive, appelee densite
de par rapport ` a , telle que pour tout A /, (A) =
_
A
f d.
Theor`eme (Theor`eme de Fubini). Soit =
1

2
, / = /
1
/
2
et =
1

2
(mesures nies),
o` u (
1
, /
1
,
1
) et (
2
, /
2
,
2
) sont des espaces mesures. Soit une fonction f : IR, /-mesurable et
-integrable. alors :
_

fd =
_
1
__
2
f(
1
,
2
)d
2
(
2
)
_
d
1
(
1
) =
_
2
__
1
f(
1
,
2
)d
1
(
1
)
_
d
2
(
2
).
1.2.4 Espaces L
p
Denition. Soit (, /, ) un espace mesure. On appelle espace L
p
(, /, ), o` u p > 0, lensemble des
fonctions f : IR, mesurables et telles que
_
[f[
p
d < +.
Denition. Pour f L
p
(, /, ), o` u p > 0, on note | f |
p
=
__
[f[
p
d
_
1/p
.
Propriete (Inegalite de H older). Soit p > 1 et q > 1 tels que
1
p
+
1
q
= 1, et soit f L
p
(, /, ) et
g L
q
(, /, ). Alors, f g L
1
(, /, ) et
| f g |
1
| f |
p
. | g |
q
.
Propriete (Inegalite de Minkowski). Soit p > 1 et soit f et g L
p
(, /, ). Alors, f +g L
p
(, /, ) et
| f +g |
p
| f |
p
+ | g |
p
.
8
Remarque. Pour p > 1, | . |
p
denie ainsi sur une semi-norme sur L
p
(, /, ). Pour obtenir une norme,
il faut se place dans lespace IL
p
(, /, ) obtenu en quotientant L
p
(, /, ) par la relation dequivalence
f = g -presque partout (cest-` a-dire que dans IL
p
(, /, ) on dira que f = g lorsque f = g -presque
partout).
Denition. Pour f et g IL
2
(, /, ), on denit le produit scalaire < f, g >=
_
f.g d. On muni ainsi
IL
2
(, /, ) dune structure despace de Hilbert. On dira que f est orthogonale ` a g lorsque < f, g >= 0.
Consequence. Si A est un sous-espace vectoriel ferme de IL
2
(, /, ) (par exemple un sous-espace de
dimension nie), alors pour tout f IL
2
(, /, ), il existe un unique projete orthogonal de f sur A, note
f
A
, qui verie f
A
= Arginf
gA
| g f |
2
.
2 Applications de la theorie de la mesure et de lintegration en
Probabilites
2.1 Esperance de variables aleatoires
Denition. Soit X une variable aleatoire sur (, /, IP) un espace probabilise. Alors si X IL
1
(, /, IP),
on denit lesperance de X par le nombre IEX =
_
XdIP. Plus generalement, si : IR IR est borelienne
et si (X) IL
1
(, /, IP), on denit lesperance de (X) par IE(X) =
_
(X)dIP.
Propriete. Si X est une variable aleatoire sur (, /, IP), si : IR IR est borelienne telle que (X)
IL
1
(, /, IP), et si IP
X
est la mesure de probabilite de X alors :
IE(X) =
_
IR
(x) dIP
X
(x).
Consequence. Si IP
X
est absolument continue par rapport ` a la mesure de Lebesgue (donc X est une
v.a. dite absolument continue), de densite f
X
, alors IE(X) =
_
IR
(x)f
X
(x)dx.
Si IP
X
est absolument continue par rapport ` a la mesure de comptage sur IN (donc X est une v.a. dite
discr`ete), de densite p
X
, alors IE(X) =

k=0
p
X
(k) (k).
Propriete. 1. Soit X et Y des variables aleatoires telles que X et Y IL
1
(, /, IP). Alors pour tout
(a, b) IR
2
, aX +bY IL
1
(, /, IP) et
IE(aX +bY ) = aIEX +bIEY.
2. Soit X une variable aleatoire sur (, /, IP), et soit A /. Alors IE(II
A
(X)) = IP(X A).
3. Soit X et Y des variables aleatoires telles que X IL
p
(, /, IP) et Y IL
q
(, /, IP) avec
1
p
+
1
q
= 1
et p > 1, q > 1. Alors X.Y IL
1
(, /, IP) et
IE[X.Y [ (IE[X[
p
)
1/p
(IE[Y [
q
)
1/q
.
4. Soit X et Y des variables aleatoires telles que X et Y IL
p
(, /, IP), avec p 1. Alors X + Y
IL
p
(, /, IP) et
(IE[X +Y [
p
)
1/p
(IE[X[
p
)
1/p
+ (IE[Y [
p
)
1/p
.
5. Soit X une variable aleatoire telle que X IL
p
(, /, IP) pour p > 0. Alors pour tout 0 < r p,
X IL
r
(, /, IP) et
(IE[X[
r
)
1/r
(IE[X[
p
)
1/p
.
6. Si X est une variable aleatoire sur (, /, IP), si : IR IR est une fonction borelienne convexe telle
que X et (X) IL
1
(, /, IP), alors
IE((X)) (IEX).
9
Denition. Pour X et Y des variables aleatoires telles que X et Y IL
2
(, /, IP), on denit la covariance
de X et Y par
cov(X, Y ) = IE[(X IEX)(Y IEY )] ;
On appelle variance de X, var(X) = cov(X, X) = IE
_
(X IEX)
2

= IE(X
2
) (IEX)
2
.
Propriete. Sur IL
2
(, /, IP), cov(., .) denit un produit scalaire. De plus
[cov(X, Y )[
2
var(X).var(Y ).
2.2 Fonction de repartition et quantiles dune loi de probabilite
Il y a une correspondance bijective entre la connaissance de IP
X
et celle de F
X
= IP
X
(] , x]). La fonc-
tion de repartition permet egalement de denir les quantiles qui sont essentiels `a la construction dintervalles
de conance et de test.
Soit [0, 1]. Des proprietes de la fonction de repartition, on en deduit quil existe x

IR, tel que :


lim
xx
F
X
(x) F
X
(x

). (1)
Soit I

= x

IR tel que x

verie (1). On appelle quantile (ou fractile, ou percentile en anglais) dordre


de la loi IP
X
, note q

, le milieu de lintervalle I

. Evidemment, lorsque X admet une distribution abso-


lument continue par rapport `a la mesure de Lebesgue, q

= F
1
X
(), o` u F
1
X
designe la fonction reciproque
de F
X
.
Deux cas particuliers sont `a connatre :
1/ pour = 0.5, q
0.5
est appele la mediane de IP
X
;
2/ pour = 0.25 et = 0.75 (respectivement), q
0.25
et q
0.25
sont appeles premier et troisi`eme quartile
(respectivement) de IP
X
.
3/ pour = 0.1, . . . , 0.9, on parlera de decile de IP
X
.
2.3 Principales lois de probabilites
Loi uniforme discr`ete :
Cest la loi de probabilite discr`ete `a valeurs dans x
1
, . . . , x
n
telle que
IP(X = x
i
) =
1
n
.
On alors : IEX =
1
n
(x
1
+. . . +x
n
) et var(X) =
1
n
(x
2
1
+. . . + x
2
n
) (IEX)
2
.
Loi de Bernoulli :
Cest la loi de probabilite discr`ete notee B(p) `a valeurs dans 0, 1 telle que
IP(X = 1) = p et IP(X = 0) = 1 p.
On alors : IEX = p et var(X) = p(1 p).
Loi binomiale :
Cest la loi de probabilite discr`ete notee B(n, p) `a valeurs dans 0, 1, . . . , n telle que
IP(X = k) = C
k
n
p
k
(1 p)
nk
pour k 0, 1, . . . , n.
On alors : X = X
1
+ +X
n
, o` u (X
i
) est une suite de v.a.i.i.d. de loi B(p), do` u IEX = n p et var(X) = n p(1 p).
Loi de Poisson :
10
Cest la loi de probabilite discr`ete notee T() `a valeurs dans IN telle que
IP(X = k) =

k
k!
e

pour k IN.
On alors IEX = et var(X) = .
Loi uniforme sur [a, b] :
Cette loi est generalement notee |([a, b]), o` u < a < b < . Cest la loi de probabilite `a valeurs
dans [a, b] de densite par rapport `a la mesure de Lebesgue :
f
X
(x) =
1
b a
II
x[a,b]
.
On a alors IEX =
b +a
2
et var(X) =
(b a)
2
12
.
Loi Gamma :
Cette loi est generalement notee (p, ), o` u p > 0 et > 0. Cest la loi de probabilite `a valeurs dans
IR
+
de densite par rapport `a la mesure de Lebesgue :
f
X
(x) =

p
(p)
e
x
x
p1
II
xIR+
.
On a alors IEX =
p

et var(X) =
p

2
.
Si X (p, ) et Y (q, ) avec X et Y independantes et p > 0 et q > 0, alors X + Y (p +q, ).
Pour p = 1, la loi (p, ) est la loi exponentielle c().
Loi Beta :
Cette loi est generalement notee (p, ), o` u p > 0 et q > 0. Cest la loi de probabilite `a valeurs dans
[0, 1] de densite par rapport `a la mesure de Lebesgue :
f
X
(x) =
x
p
(1 x)
q1
B(p, q)
x
p1
II
x[0,1]
, o` u B(p, q) =
(p)(q)
(p +q)
.
On a alors IEX =
B(p + 1, q)
B(p, q)
et var(X) =
p q
(p +q)
2
(p +q + 1)
.
Si X (p, ) et Y (q, ) avec X et Y independantes et p > 0 et q > 0, alors
X
X +Y
(p, q).
Pour p = 1, la loi (p, ) est la loi exponentielle c().
Loi normale (ou gaussienne) centree reduite :
Cette loi est generalement notee ^(0, 1). Cest la loi de probabilite `a valeurs dans IR de densite par rapport
`a la mesure de Lebesgue :
f
X
(x) =
1

2
exp
_

x
2
2
_
.
On a :
IE(X) = 0 et var(X) = 1.
Loi normale (ou gaussienne) de moyenne m et de variance
2
:
Si Z suit la loi ^(0, 1), X = m + Z suit par denition la loi ^(m,
2
), loi normale desperance m et
de variance
2
. La densite de X est donnee par :
f
X
(x) =
1

2
2
exp
_

(x m)
2
2
2
_
.
11
La gure A.1. represente la densite de la loi normale centree reduite et celle dune loi normale non centree
et non reduite. A partir de la loi gaussienne, on peut en deduire les lois suivantes.
Loi du
2
`a n degres de libertes :
Soit X
1
, , X
n
, n variables aleatoires independantes de loi ^(0, 1), alors
S = X
2
1
+ +X
2
n
suit une loi du
2
`a n degres de libertes, loi notee
2
(n). Cette loi est `a valeurs dans IR
+
, desperance n et
de variance 2n. Cest aussi la loi Gamma (n/2, 1/2), cest-`a-dire que X
2
(n) admet pour densite par
rapport `a la mesure de Lebesgue :
f
X
(x) =
1
2
n/2
(n/2)
x
n/21
exp
_

x
2
_
II
{x0}
,
o` u la fonction Gamma est telle que (a) =
_

0
x
a1
e
x
pour a 0. Enn, si X suit une loi
2
(n), par
denition on dira que Y =
2
X suit une loi
2

2
(n). La gure A.2. exhibe trois traces dierents de
densite de loi du
2
. Loi de Student `a n degres de libertes :
La loi de Student `a n degres de liberte, notee T(n), est la loi du quotient
T =
N
_
S/n
o` u N suit une loi ^(0, 1) et S suit une loi
2
(n), N et S etant deux variables aleatoires independantes. Il
est egalement possible de determiner la densite dune telle loi par rapport `a la mesure de Lebesgue, `a savoir,
f
X
(x) =
1

n B(1/2, n/2)
_
1 +
t
2
n
_
(n+1)/2
,
o` u la fonction Beta est telle que B(a, b) =
(a) (b)
(a +b)
pour a > 0 et b > 0. La gure A.3. illustre deux
exemples de cette densite, que lon compare egalement avec la densite de la loi normale centree reduite.
Remarque : Par la loi des grands nombres, plus n est grand, plus S est proche de son esperance qui vaut n.
Le denominateur est donc proche de 1. Il sensuit que la loi T(n) est dautant plus proche dune loi normale
que n est grand.
Un des principaux interet de la loi de Student reside dans le fait que si X
1
, , X
n
sont n variables aleatoires
independantes de loi ^(m,
2
), si on consid`ere la moyenne et la variance empiriques :

X
n
=
1
n
(X
1
+ +X
n
) et
2
n
=
1
n 1
_
(X
1


X
n
)
2
+ + (X
d


X
n
)
2
)
_
,
alors
T =

n (

X
n
m)
_

2
n
suit une loi de Student `a (n 1) degres de liberte.
Loi de Fisher `a n
1
et n
2
degres de liberte :
Soit S
1
et S
2
deux variables aleatoires independantes de loi respectives
2
(n
1
) et
2
(n
2
). Alors par denition :
F =
S
1
/n
1
S
2
/n
2
suit une loi de Fisher `a n
1
et n
2
degres de liberte, notee F(n
1
, n
2
).
12
Remarque : Par les memes considerations que precedemment, la loi F est dautant plus proche de 1 que
les degres de liberte n
1
et n
2
sont grands.
On a egalement les proprietes suivantes :
Si F suit une loi F(n
1
, n
2
), alors la loi de
n
1
n
2
F est une loi beta de seconde esp`ece de param`etres
(n
1
/2, n
2
/2), cest-`a-dire que F est `a valeurs dans IR
+
et admet la densite par rapport `a la mesure de
Lebesgue :
f
X
(x) =
1
B(n
1
/2, n
2
/2)
n
n1/2
1
n
n2/2
2
x
n1/21
(n
2
+n
1
x)
(n1+n2)/2
II
{x0}
,
la notation B designant encore la fonction Beta.
Si F F(n
1
, n
2
), alors IE(F) =
n
2
n
2
2
lorsque n
2
> 2 et var(F) =
2n
2
2
(n
1
+n
2
2)
n
1
(n
2
4)(n
2
2)
2
lorsque n
2
> 4.
Si T suit une loi de Student T(n), alors T
2
suit une loi de Fisher F(1, n).
La gure A.4. donne une idee de la distribution dune loi de Fisher pour dierents choix des param`etres.
2.4 Independance
Denition. Soit (, /, IP) un espace probabilise.
Soit (A
i
)
iI
une famille denombrable devenements de /. On dit que les evenements (A
i
)
iI
sont
independants si et seulement si pour tous les sous-ensembles nis K I,
IP
_

iK
A
i
_
=

iK
IP(A
i
).
Soit (/
i
)
iI
une famille de sous-tribus de / (donc pour tout i I, /
i
/). On dit que les tribus
(/
i
)
iI
sont independantes si et seulement si pour tous les sous-ensembles nis K I, et pour tous
les evenements A
k
/
k
avec k K, les A
k
sont independants.
Soit (X
i
)
iI
des variables aleatoires sur (, /) ` a valeurs dans (IR, B(IR)). On dit que les v.a. (X
i
)
iI
sont independantes si et seulement si les tribus engendrees (X
1
i
(B(IR)))
iI
sont independantes.
Proposition. Si (X
1
, , X
n
) sont des variables aleatoires sur (, /, IP). Alors les (X
i
) sont independantes
si et seulement si IP
(X1,,Xn)
=
n

i=1
IP
Xi
.
Proposition. Si (X
i
)
iI
sont des variables aleatoires independantes sur (, /, IP). Alors les (X
i
) sont
independantes si et seulement si pour tout J I, J ni, pour toutes fonctions boreliennes (g
j
)
jJ
telles que
g
j
(X
j
) soit integrable, alors
IE
_
_

jJ
g
j
(X
j
)
_
_
=

jJ
IE(g
j
(X
j
)).
Corollaire. (X
1
, , X
n
) sont des variables aleatoires independantes si et seulement si pour tout (t
1
, , t
n
)
IR
n
,

(X1,,Xn)
(t
1
, , t
n
) =
n

j=1

Xj
(t
j
).
Lemme (Lemme de Borel-Cantelli). Soit (A
n
)
nIN
une suite devenements sur (, /, IP).
1. Si

IP(A
n
) < + alors IP(limsup A
n
) = 0.
2. Si les (A
n
) sont independants,

IP(A
n
) = + implique que P(limsup A
n
) = 1.
13
2.5 Vecteurs aleatoires
Denition. On dit que X est un vecteur aleatoire sur (, /, IP), un espace probabilise, si X est une fonction
mesurable de (, /) dans (IR
d
, B(IR
d
)).
Denition. Soit X un vecteur aleatoire sur (, /, IP) ` a valeurs dans IR
d
. Alors la loi (ou mesure) de
probabilite de X, IP
X
, est denie de fa con univoque ` a partir de la fonction de repartition de X, telle que
pour x = (x
1
, , x
d
),
F
X
(x) = IP
X
(
d

i=1
] , x
i
]) = IP(X
d

i=1
] , x
i
]).
Propriete. Soit X un vecteur aleatoire sur (, /, IP) ` a valeurs dans IR
d
. On suppose que X = (X
1
, , X
d
).
Alors les X
i
sont des variables aleatoires sur (, /, IP), de fonction de repartition
F
Xi
(x
i
) = lim
x
j
+
j = i
F
X
(x
1
, , x
i
, , x
d
).
Les mesures de probabilites P
Xi
determinees de fa con univoque ` a partir des F
Xi
sont appelees lois marginales
de X.
On se place maintenant dans la base canonique orthonormale de IR
d
. Si Z est un vecteur aleatoire `a
valeurs sur IR
d
, on denit IE(Z), le vecteur dont les coordonnees sont les esperances des coordonnees de Z.
Ainsi, si dans la base canonique de IR
d
, Z = (Z
1
, , Z
d
)

,
IE(Z) = IE
_
_
_
Z
1
.
.
.
Z
d
_
_
_ =
_
_
_
IE(Z
1
)
.
.
.
IE(Z
d
)
_
_
_.
De la meme mani`ere, on denira lesperance dune matrice dont les coordonnees sont des variables aleatoires
par la matrice dont les coordonnees sont les esperances de chacune de ces variables aleatoires.
Ceci nous permet de denir la matrice de variance-covariance de Z de la mani`ere suivante :
var(Z) = IE[(Z IE(Z)).(Z IE(Z))

]
donc si Z = (Z
1
, , Z
d
)

,
var
_
_
_
Z
1
.
.
.
Z
d
_
_
_ =
_
_
_
_
var(Z
1
) Cov(Z
1
, Z
2
) Cov(Z
1
, Z
d
)
Cov(Z
1
, Z
2
) var(Z
2
) Cov(Z
2
, Z
d
)
: : :
Cov(Z
1
, Z
d
) Cov(Z
2
, Z
d
) var(Z
d
)
_
_
_
_
matrice (d, d) dont les elements diagonaux sont les variances et les elements non diagonaux sont les cova-
riances des coordonnees de Z (remarquons que la variance de Z
1
est aussi la covariance de Z
1
et de Z
1
).
On verie egalement le resultat suivant : si C est une matrice (p, d) `a coordonnees constituees de reels
constants et si Z est un vecteur aleatoire `a valeurs dans IR
d
, alors C Z est un vecteur de taille p de matrice
de variance-covariance
var(C Z) = C var(Z) C

.
En particulier, si p vaut 1, alors C = h

o` u h est un vecteur de taille d, et :


var(h

Z) = h

var(Z) h.
Notez que cette derni`ere quantite est un scalaire. Soit Y
1
, , Y
d
des variables aleatoires independantes de
meme loi ^(0,
2
), independantes (ce qui, dans le cas gaussien, est equivalent `a cov(Y
i
, Y
j
) = 0 pour i ,= j).
On consid`ere le vecteur Y = (Y
1
, , Y
d
)

. En raison de lindependance, Y est un vecteur gaussien admettant


14
une densite f
Y
(par rapport `a la mesure de Lebesgue sur IR
d
) qui est le produit des densites de chacune des
coordonnees, soit :
f
Y
(y
1
, , y
d
) = f
Y1
(y
1
) f
Y2
(y
2
) f
Y
d
(y
d
)
=
_
2
2
_
d/2
exp
_

1
2
2
(y
2
1
+ +y
2
d
)
_
=
_
2
2
_
d/2
exp
_

|y|
2
2
2
_
,
avec y = (y
1
, , y
d
). On voit donc que la densite de Y ne depend que de la norme |Y | : elle est constante sur
toutes les sph`eres centrees en zero. Cela implique quelle est invariante par rotation ou symetrie orthogonale
daxe passant par 0 : elle est invariante par toutes les isometries de IR
d
: on dira que Y suit une loi gaussienne
isotrope. Rappelons que les isometries correspondent `a des changements de bases orthonormees (BON). En
consequence, on a la premi`ere propriete importante :
Propriete. Soit Y un vecteur aleatoire de IR
d
de loi normale isotrope variance
2
, cest-` a-dire que dans
une BON les coordonnees de Y verient IE(Y ) = 0 et var(Y ) =
2
Id. Alors les coordonnees de Y dans
toute BON sont encore des lois ^(0,
2
) independantes.
Voici maintenant lun des resultats (encore appele Theor`eme de Cochran) que nous utilisons le plus et
nous en donnons donc une demonstration.
Theor`eme (Theor`eme de Cochran). Soit E
1
et E
2
, deux sous-espaces vectoriels orthogonaux de E = IR
d
de dimensions respectives k
1
et k
2
et soit Y un vecteur aleatoire de IR
d
de loi normale centree isotrope de
variance
2
. Alors P
E1
(Y ) et P
E2
(Y ) sont deux variables aleatoires gaussienne centrees independantes et
|P
E1
(Y )|
2
(resp. |P
E2
(Y )|
2
) est une loi
2

2
(k
1
) (resp.
2

2
(k
2
)). Ce theor`eme se generalise naturel-
lement pour 2 < m d sous-espaces vectoriels orthogonaux (E
i
)
1im
de E = IR
d
.
Demonstration : Soit (e
1
, , e
k1
) et (e
k1+1
, , e
k1+k2
) deux BON de E
1
et E
2
(respectivement). Lensemble
de ces deux bases peut etre complete en
(e
1
, , e
k1
, e
k1+1
, , e
k1+k2
, e
k1+k2+1
, , e
d
)
pour former une BON de IR
d
(du fait que E
1
et E
2
sont orthogonaux).
Soit (Y
1
, , Y
d
), les coordonnees de Y dans cette base ; elles sont independantes de loi ^(0,
2
) car le
changement de base est orthonormal et nous avons vu que la distribution de Y etait conserve par transfor-
mation isometrique. Comme
P
E1
(Y ) = Y
1
e
1
+ +Y
k1
e
k1
= |P
E1
(Y )|
2
=
2
_
_
Y
1

_
2
+ +
_
Y
k1

_
2
_
P
E2
(Y ) = Y
k1+1
e
k1+1
+ +Y
k1+k2
e
k1+k2
= |P
E2
(Y )|
2
=
2
_
_
Y
k1+1

_
2
+ +
_
Y
k1+k2

_
2
_
.
On voit bien ainsi lindependance entre les deux projections et le fait que la loi de |P
E1
(Y )|
2
(resp.
|P
E2
(Y )|
2
) est une loi
2

2
(k
1
) (resp.
2

2
(k
2
)).
On peut denir plus generalement un vecteur gaussien Y `a valeurs dans IR
d
(non degenere), desperance
IR
d
et de matrice de variance-covariance quelconques (du moment que soit une matrice de Toeplitz
denie positive). Cela equivaut `a denir un vecteur aleatoire de densite par rapport `a la mesure de Lebesgue
sur IR
d
,
f
Y
(y) =
(2)
n/2
[[
exp
_

1
2
(y )

.
1
.(y )
_
,
pour y IR
d
, et avec [[ le determinant de la matrice . Remarquons une nouvelle fois que lesperance et la
variance denissent compl`etement la loi de probabilite dun vecteur gaussien.
A partir des proprietes generales sur les vecteurs aleatoires, on obtient le fait que :
15
Propriete. Soit Y un vecteur gaussien ` a valeurs dans IR
d
(non degenere), desperance IR
d
et de matrice
de variance-covariance . Soit C une matrice reelle de taille (p, d) o` u p IN

. Alors C Y est un vecteur


gaussien tel que :
C Y ^(C , C C

)
On en deduit les consequences suivantes :
si Y est un vecteur gaussien isotrope de IR
d
de variance
2
et h un vecteur de IR
d
, alors h

Y est une
combinaison lineaire des coordonnees de Y tel que :
h

Y suit la loi ^(0,


2
h

h) = ^(0,
2
|h|
2
)
si Y est un vecteur gaussien desperance et de matrice de variance et si h un vecteur de IR
d
, alors
h

Y est une combinaison lineaire des coordonnees de Y et :


h

Y suit la loi unidimensionnelle ^(h

, h

h)
(Pour une presentation plus detaillee des notions sur les vecteurs gaussiens on peut consulter le livre P.
Toulouse, 1999, chap.2)
2.6 Fonctions caracteristiques et generatrices
Denition. Soit X un vecteur aleatoire sur (, /, IP) ` a valeurs dans IR
d
. La fonction caracteristique de X
est la fonction
X
: IR
d
C

telle que

X
(t) = IE[exp(i < t, X >)] =
_
IR
d
e
i<t,x>
dIP
X
(x),
o` u < . > designe le produit scalaire euclidien sur IR
d
tel que < t, x >=
d

i=1
t
i
x
i
pour t = (t
1
, , t
d
) et
x = (x
1
, , x
d
).
Remarque. La fonction generatrice existe sur IR et
X
(0) = 1.
X
est aussi la transformee de Fourier de
la mesure IP
X
.
Theor`eme. Soit X et Y des vecteurs aleatoires sur (, /, IP) ` a valeurs dans IR
d
, de lois IP
X
et IP
Y
. Alors
IP
X
= IP
Y
si et seulement si
X
=
Y
.
Theor`eme (Theor`eme dinversion). Si X est un vecteur aleatoire sur (, /, IP) ` a valeurs dans IR
d
et si
X
est une fonction integrable par rapport ` a la mesure de Lebesgue
d
sur IR
d
, alors X admet une densite f
X
par rapport ` a
d
telle que pour x IR
d
,
f
X
(x) =
1
(2)
d
_
IR
d
e
i<t,x>

X
(t)dt.
Proposition. Si X est une variable aleatoire sur (, /, IP) de fonction generatrice
X
. Alors si IE([X[
n
) <
+ (ou X IL
n
(, /, IP)),
X
est n fois derivable et
(n)
X
(t) = i
n
IE(X
n
e
itX
).
Remarque. Lorsque ces moments existent, on a i
n
IE(X
n
) =
(n)
X
(0).
2.7 Convergence de suites de variables aleatoires
Denition. Soit (X
n
)
nIN
une suite de variables aleatoires sur (, /, IP). On dit que
(X
n
) converge en probabilite vers X, note X
n
P

n+
X, lorsque pour tout > 0,
lim
n
IP([X
n
X[ > ) = 0.
(X
n
) converge dans IL
p
(, /, IP) vers X, note X
n
IL
p

n+
X, avec p > 0, lorsque
lim
n
IE[X
n
X[
p
= 0.
16
(X
n
) converge en loi vers X, note X
n
L

n+
X, lorsque,
lim
n
F
Xn
(x) = F
X
(x) pour tout x IR tel que F
X
continue en x.
(X
n
) converge presque s urement vers X, note X
n
p.s.

n+
X, lorsque pour tout > 0,
lim
n
IP( sup
mn
[X
m
X[ > ) = 0.
Propriete. 1. p.s. et IL
p
T L.
2. pour q p, IL
q
IL
p
.
3. La convergence en loi nentrane pas la convergence en probabilite. Mais (X
n
P

n+
C) (X
n
L

n+
C)
pour C une constante.
4. Si g est une fonction borelienne continue alors (X
n
P

n+
X) = (g(X
n
)
P

n+
g(X)).
Propriete. 1. Si pour tout > 0,

n=0
IP([X
n
X[ > ) < +alors X
n
p.s.

n+
X (application du Lemme
de Borel-Cantelli).
2. Si il existe r > 0 tel que IE([X
n
[
r
) < + et

n=0
IE([X
n
X[
r
) < + alors X
n
p.s.

n+
X.
Theor`eme (Loi faible des Grands Nombres). Soit (X
n
)
nIN
une suite de variables aleatoires independantes
et identiquement distribuees. Alors si IE([X
i
[) < +,
X
n
=
X
1
+ +X
n
n
P

n+
m = IEX
i
.
Theor`eme (Loi forte des Grands Nombres). Soit (X
n
)
nIN
une suite de variables aleatoires independantes
et identiquement distribuees. Alors si IE([X
i
[) < +,
X
n
=
X
1
+ +X
n
n
p.s.

n+
m = IEX
i
.
Theor`eme (Theor`eme de la limite centrale). Soit (X
n
)
nIN
une suite de variables aleatoires independantes
et identiquement distribuees. Alors si
2
= IEX
2
i
< +, et m = IEX
i
,

n
X
n
m

n+
^(0, 1).
Theor`eme (Loi forte des Grands Nombres multidimensionnelle). Soit (X
n
)
nIN
une suite de vecteurs
aleatoires ` a valeurs dans IR
d
, independants et identiquement distribues. Alors si IE(|X
i
|) < + (pour
|.| une norme sur IR
d
),
X
n
=
X
1
+ +X
n
n
p.s.

n+
m = IEX
i
.
Theor`eme (Theor`eme de la limite centrale multidimensionnel). Soit (X
n
)
nIN
une suite de vecteurs aleatoires
` a valeurs dans IR
d
, independants et identiquement distribues. Alors si matrice de covariance de chaque
X
i
existe, et m = IEX
i
,

n
_
X
n
m
_
L

n+
^
d
(0, ).
Theor`eme (Delta-method). Soit (X
n
)
nIN
une suite de vecteurs aleatoires ` a valeurs dans IR
d
, independants
et identiquement distribues, telle que matrice de covariance de chaque X
i
existe, et m = IEX
i
. Soit
g : IR
d
IR
p
une fonction de classe (
1
sur un voisinage autour de m, de matrice Jacobienne J
g
(m) en m.
Alors,

n
_
g(X
n
) g(m)
_
L

n+
^
d
(0, J
g
(m) J

g
(m)).
17
2.8 Esperance conditionnelle
Denition. Soit Y une variable aleatoire sur (, /, IP). Si B est une sous-tribu de / et si Y IL
2
(, /, IP).
Alors on note IE(Y [ B) la projection orthogonale de Y sur IL
2
(, B, P), appelee esperance conditionnelle de
Y sachant B. Ainsi :
IE[Y IE(Y [ B)[
2
= inf
ZIL
2
(,B,IP)
_
IE[Y Z[
2
_
.
Par extension, si Y IL
1
(, /, IP), on denit lesperance conditionnelle par rapport ` a B, comme lunique
(p.s.) variable aleatoire, B-mesurable veriant p.s. :
_
B
IE(Y [ B) dIP =
_
B
Y dIP, pour tout B B.
Denition. Par convention, si X un vecteur aleatoire ` a valeurs dans IR
n
sur (, /, IP) et si Y une variable
aleatoire sur (, /, IP), on note IE(Y [ X) = IE(Y [ X
1
(B(IR))).
Propriete. 1. Lemme de Doob : Pour Y IL
1
(, /, IP), et X une v.a. de(, /, IP), alors p.s. IE(Y [ X) =
h(X), avec h une fonction borelienne.
2. Pour Y
1
et Y
2
deux variables aleatoires sur (, /, IP), et (a, b, c) IR
3
, alors
IE(aY
1
+bY
2
+c [ B) = aIE(Y
1
[ B) +bIE(Y
2
[ B) +c.
3. Si Y
1
Y
2
, alors IE(Y
1
[ B) IE(Y
2
[ B).
4. Le Lemme de Fatou, les theor`emes de Beppo-Levi, Lebesgue et Jensen sappliquent avec lesperance
conditionnelle.
5. Si Y IL
2
(, B, IP), alors IE(Y [ B) = Y ; ainsi IE(g(X) [ X) = g(X) pour g une fonction mesurable
reelle.
6. On a IE(IE(Y [ B)) = IEY .
7. Si Y
1
(B(IR)) et B sont independantes alors IE(Y [ B) = IEY ; ainsi, si X et Y sont independantes,
IE(Y [ X) = IEY .
8. Si (X, Y ) est un couple de v.a. ` a valeurs dans IR
2
possedant une densite f
(X,Y )
par rapport ` a la mesure
de Lebesgue, alors si X est integrable ,
IE(Y [ X = x) =
_
IR
y f
(X,Y )
(x, y) dy
_
IR
f
(X,Y )
(x, y) dy
, pour tout x tel que
_
IR
f
(X,Y )
(x, y) dy > 0.
Proposition. Si (Y, X
1
, , X
n
) est un vecteur gaussien, alors IE(Y [ (X
1
, , X
n
)) = a
0
+a
1
X
1
+ +a
n
X
n
,
o` u les a
i
sont des reels.
3 Estimation parametrique
3.1 Denitions
Dans toute la suite, on se place sur (, /, IP) un espace de probabilite. On consid`ere (X
n
)
nIN
une suite
de variable aleatoire, o` u chaque X
i
est denie sur (, /, IP) et est `a valeur dans

IR.
Denition. On appelle mod`ele statistique de dimension n un espace ((

)
n
, /

n
, ), o` u /

n
est une
tribu sur (

)
n
et une mesure de probabilite sur ((

)
n
, /

n
).
On appelle echantillon de taille n du mod`ele statistique ((

)
n
, /

n
, ) le vecteur aleatoire (X
1
, . . . , X
n
)
distribuee selon la loi . Pour , (X
1
(), . . . , X
n
()) vecteur de IR
n
est appele echantillon observe.
Cest ` a partir et sur ce vecteur que le travail statistique seectue (en general).
Denition. On appelle :
Mod`ele statistique parametrique, une famille de mod`ele de la forme : ((

)
n
, /

n
, IP

, ), o` u
IR
p
.
Mod`ele statistique semi-parametrique, une famille de mod`ele de la forme : ((

)
n
, /

n
, IP
(,f)
, , f
T), o` u IR
p
et T nest pas de dimension nie.
18
Mod`ele statistique non-parametrique, une famille de mod`ele de la forme : ((

)
n
, /

n
, IP
f
, f T), o` u
T nest pas de dimension nie.
Denition. On dit que le mod`ele parametrique : ((

)
n
, /

n
, IP

, ), o` u IR
p
, est domine par
une mesure lorsque IP

est absolument continue par rapport ` a pour tout .


On se place dans le cadre dun mod`ele parametrique ((

)
n
, /

n
, IP

, ), o` u IR
p
, domine par
une mesure . Pour (x
1
, , x
n
) (

)
n
, la fonction L

(x
1
, , x
n
) =
dIP

d
(x
1
, , x
n
) est
appelee une vraisemblance du mod`ele statistique.
Exemple. Dans le cas o` u est la mesure de Lebesgue sur IR
n
, la vraisemblance sera la densite
(classique) en (x
1
, , x
n
).
Dans le cas o` u est comptage sur IN
n
, la vraisemblance sera la probabilite en (x
1
, , x
n
).
Attention! si le support de IP

depend de , la mesure qui domine (ainsi que

et /

n
) ne peut dependre
de : il ne faut pas oublier de le preciser dans lexpression de la vraisemblance.
Denition. Lorsque lon dispose dun echantillon (X
1
, . . . , X
n
) du mod`ele statistique ((

)
n
, /

n
, ), une
statistique

T
n
est une application mesurable de ((

)
n
, /

n
) dans (IR
d
, B(IR
d
)), donc un vecteur aleatoire
deni sur (, /, IP) ` a valeur dans IR
d
, et telle que :

T
n
= h(X
1
, . . . , X
n
), o` u h : (

)
n
IR
d
est mesurable.
Exemple. Estimateur du param`etre dune loi de Bernoulli.
Estimateur de lesperance et de la variance par la moyenne et la variance empirique.
Estimateurs du param`etre dun n-echantillon (X
1
, , X
n
) de loi uniforme sur [0, ].
Test sur la moyenne.
3.2 Statistiques exhaustives
On se place desormais dans le cadre dune mod`ele statistique parametrique ((

)
n
, /

n
, IP

, ), o` u
IR
p
, domine par une mesure .
Exemple. 1. Soit le mod`ele statistique parametrique
_
[0, [
n
, B([0, [
n
), |([0, ])
n
, ]0, +[
_
. On dis-
pose donc dun n-echantillon (X
1
, , X
n
) de v.a.i.i.d. suivant une loi uniforme sur [0, ]. Si on consid`ere
maxX
1
. . . , X
n
cela semble sure pour posseder toute linformation sur que contenait (X
1
, . . . , X
n
) : on
a donc resume linformation sur contenait (X
1
, . . . , X
n
), un vecteur de taille n, par une statistique de
taille 1.
2. De meme, si on consid`ere le mod`ele statistique parametrique
_
0, 1
n
, T(0, 1
n
), B(p)
n
, p [0, 1]
_
(on
dispose donc dun n-echantillon (X
1
, , X
n
) de v.a.i.i.d. suivant une loi de Bernoulli de param`etre p) alors
la statistique X
1
+ +X
n
contient toute linformation sur p contenue dans lechantillon (X
1
, . . . , X
n
).
Comment exprimer formellement ce fait quune statistique puisse resumer ` a elle seule toute linformation
sur le param`etre ?
Denition. Soit

T une statistique du mod`ele statistique parametrique domine ` a valeurs dans IR
d
. On dit
que

T est une statistique exhaustive si pour toute statistique S integrable (donc dans IL
1
((

)
n
, /

n
, IP

))
alors IE

(S [

T) ne depend (IP

-presque s urement) pas de .


Theor`eme (Theor`eme de factorisation de Neyman). Soit (X
1
, , X
n
) un n-echantillon et soit

T une
statistique du mod`ele statistique parametrique domine avec

T ` a valeurs dans IR
d
, o` u d IN

. La statistique

T est exhaustive si et seulement sil existe une fonction h : IR


n
IR
+
et une fonction g

(.) : IR
d
IR
+
,
telle que lon puisse ecrire pour tout (x
1
, . . . , x
n
) (

)
n
:
L

(x
1
, . . . , x
n
) = g

T(x
1
, . . . , x
n
)) h(x
1
, . . . , x
n
) pour tout .
Lemme. Soit le mod`ele statistique parametrique ((

)
n
, /

n
, IP

, ), o` u IR
p
. Alors ce mod`ele est
domine si et seulement si il existe une sous-famille denombrable (IP
i
)
iIN
telle que pour tout A /, i IN,
IP
i
(A) = 0 entrane , IP

(A) = 0. Toute mesure de probabilite de la forme IP

iIN
a
i
IP
i
avec c
i
> 0
pour tout i IN et

iIN
c
i
= 1 domine le mod`ele.
19
Demonstration du lemme : = Il est bien clair que si une telle mesure P

existe, le mod`ele est domine.


= Montrons maintenant que si le mod`ele est domine par une mesure alors la famille (P
i
)
iIN
existe.
En premier lieu, si est une mesure non nie mais -nie (par exemple la mesure de Lebesgue), alors
P
denie par
P
(A) =

i=1
1
2
i
(A A
i
)
(A
i
)
pour tout A /, est une mesure de probabilite equivalente `a (avec
(A
i
)
iIN
une partition de (

)
n
telle que 0 < (A
i
) < pour tout i IN

). On travaille donc desormais


avec
P
.
Pour , soit B

le sous-ensemble de (

)
n
IR
n
qui est le support de la densite de IP

par rapport `a .
Soit
( =
_
_
iI
B
i
, I IN,
i

_
,
lensemble de toutes les unions denombrables densembles B

. On note M = sup
CC

P
(C). Soit (C
n
)
nIN
une suite densembles de ( telle que la suite (
P
(C
n
))
n
converge vers M (une telle suite existe forcement
sinon M ne serait pas le supremum). Remarquons que chaque C
i
etant une union denombrable de B

k
, alors
une suite (
n
) de sut pour engendrer la suite (C
n
)
nIN
. Si on pose :
D =
_
nIN
C
n
=
_
kIN
B

k
,
alors M =
P
(D) et pour tout , B

D ( et :

P
(B

D) M
P
(B

D) =
P
(B

D
c
) +
P
(D)
Donc pour tout ,
P
(B

D
c
) = 0 soit , IP

(B

D
c
) = 0 puisque IP

<<
P
. En consequence,
pour tout A /

n
, A B

B
c

= (

)
n
, soit :
IP

(A D
c
) = 0, car par denition des B

, IP

(B
c

) = 0.
Si on suppose maintenant que A /

n
est tel que IP

k
(A) = 0, avec la suite (
k
) precedemment denie, alors

P
(AB

k
) = 0 par denition des B

et donc
P
(AD) = 0 (par la propriete de -additivite dune mesure).
Comme IP

<<
P
, on en deduit que , IP

(AD) = 0 et donc IP

(A) = IP

(AD)+ = IP

(AD
c
) = 0.
Ainsi, IP

domine bien IP

pour tout .
Demonstration du Theor`eme de factorisation de Neyman : Soit IP

iIN
a
i
IP
i
une mesure de pro-
babilite dominante construite comme dans le lemme.
= Si g

T(x)) h(x) avec x (

)
n
est la densite de IP

par rapport `a , alors

iIN
a
i
g
i
(

T(x)) h(x) =
g

T(x)) h(x) est une densite de P

par rapport `a . Alors, comme g

T(x)) h(x) > 0 P

-p.s., donc IP

-p.s.,
pour toute variable aleatoire S integrable, pour tout :
IE

(S II
B
) =
_
B
S dIP

, pour tout B (

T), tribu engendree par



T
=
_
B
S(x) g

T(x)) h(x) d(x)


=
_
B
S(x)
g

T(x)) h(x)
g

T(x)) h(x)
dIP

(x)
= IE

_
II
B

g

T)
g

T)
S
_
= IE

_
II
B

g

T)
g

T)
IE

(S [

T)
_
(dapr`es la denition de lesperance conditionnelle)
= IE

_
II
B
IE

(S [

T)
_
.
En consequence, dapr`es la denition de lesperance conditionnelle dans IL
1
((

)
n
, /

n
, IP

), on a IP

-p.s.,
IE

(S [

T) = IE

(S [

T) : la statistique

T est bien exhaustive.
= On suppose que

T est une statistique exhaustive pour le mod`ele. Donc pour toute statistique integrable
20
S, , IE

(S [

T) = IE

(S [

T). En consequence, si on note (x, ) =
dIP

dIP

(x) la densite de IP

par rapport
`a IP

,
IE

(S) = IE

_
IE

(S [

T)
_
, (car

T est exhaustive et dapr`es les proprietes de lesperance conditionnelle)
= IE

_
(X, ) IE

(S [

T)
_
, o` u X IP

= IE

_
IE

_
(X, ) IE

(S [

T) [

T
__
, (dapr`es les proprietes de lesperance conditionnelle)
= IE

_
IE

_
(X, ) [

T
_
IE

_
S [

T
__
, (car IE

_
S [

T
_
est une fonction de

T)
= IE

_
IE

_
S IE

_
(X, ) [

T
_
[

T
__
= IE

_
S IE

_
(X, ) [

T
_
_
Ainsi, la variable aleatoire IE

_
(X, ) [

T
_
, qui est une fonction de

T (qui est elle-meme une fonction sur
(

)
n
), est la densite de IP

par rapport `a IP

. Par suite, la vraisemblance, qui est la densite de IP

par
rapport `a , secrit :
L

(x
1
, . . . , x
n
) =
dIP

d
(x
1
, . . . , x
n
) =
dIP

dIP

(x
1
, . . . , x
n
)
dIP

d
(x
1
, . . . , x
n
) = IE

_
(X, ) [

T
_
h(x
1
, . . . , x
n
),
avec h une fonction mesurable.
Exemple. Dierentes statistiques exhaustives pour les mod`eles parametriques de loi uniforme, de loi de
Bernoulli, de loi gaussienne...
Propriete. On se place dans le cadre dun mod`ele parametrique domine.
1. La statistique

T = (X
1
, . . . , X
n
) est exhaustive.
2. Si

T est une statistique exhaustive et sil existe une fonction borelienne h telle quune autre statistique

U verie

T = h(

U), alors

U est egalement exhaustive.
On vient de voir que lon peut toujours trouver une statistique exhaustive (lechantillon lui-meme par
exemple). Comme on aurait plut ot tendance `a vouloir le maximum dinformation dans une statistique
exhaustive, lorsque le param`etre est dans IR
d
, on aimerait savoir quelle dimension minimale peut avoir
cette statistique. En particulier, si d = 1, peut-on toujours trouver une statistique exhaustive de taille 1 ?
Lexemple suivant montre que ce nest pas toujours le cas :
Exemple. Soit le mod`ele statistique ([0, [
n
, B([0, [
n
), (IP

)
n
, IR
+
), o` u la densite de IP

par rapport
` a la mesure de Lebesgue est : f

(x) = (e

2
1) e
x
II
x[0,]
. Alors les statistiques

T
1
= max(X
1
, . . . , X
n
)
et

T
2
= X
1
+ . . . + X
n
ne sont pas chacune exhaustive alors que

T = (

T
1
,

T
2
) est exhaustive. On pourra
meme montrer que cette statistique est de taille minimale...
Denition. Une statistique exhaustive

T du mod`ele statistique parametrique domine avec

T est dite mini-
male si pour toute autre statistique exhaustive

U est telle quil existe une fonction borelienne h veriant :

T = h(

U).
Proposition. Soit un mod`ele statistique parametrique domine et soit L

(x
1
, . . . , x
n
) sa vraisemblance. Alors

T est une statistique exhaustive minimale pour ce mod`ele lorsque (x


1
, . . . , x
n
) (

)
n
et (y
1
, . . . , y
n
)
(

)
n
,
_

L

(x
1
, . . . , x
n
)
L

(y
1
, . . . , y
n
)
ne depend pas de
_

T(x
1
, . . . , x
n
) =

T(y
1
, . . . , y
n
).
_
(2)
Demonstration de la proposition : On suppose que (2) est vraie et on suppose (sans perte de generalite) que
la vraisemblance est strictement positive. Soit t Im(

T((

)
n
)). Notons x
(t)


T
1
(t) (

)
n
. Alors
x

T
1
(t),

T(x) =

T(x
( T(x))
) et donc dapr`es (2),
h(x) =
L

(x)
L

(x
( T(x))
)
est independant de .
21
Posons g

(t) = L

(x
(t)
). Alors L

(x) = g

T(x))h(x). Comme ceci est vrai pour tout x (

)
n
, la statistique

T est bien exhaustive.


Supposons maintenant que

S est une autre statistique exhaustive. Alors par le theor`eme de factorisation
de Neyman, il existe deux fonctions g
(s)

et h
(s)
(ne dependant pas de ) telles que pour tout x (

)
n
,
L

(x) = g
(s)

S(x)) h
(s)
(x). Ainsi pour tout x (

)
n
et y (

)
n
tels que

S(x) =

S(y), alors :
L

(x)
L

(y)
=
g
(s)

S(x)) h
(s)
(x)
g
(s)

S(y)) h
(s)
(y)
=
h
(s)
(x)
h
(s)
(y)
, qui est independant de .
Mais dapr`es (2) ceci nest possible que si

T(x) =

T(y). Donc

T est une fonction de

S et la statistique

T est
donc minimale. .
Quelle serait une sorte dopposee de la notion de statistique exhaustive minimale ? Ce devrait etre une
statistique ne dependant pas du param`etre, soit :
Denition. Une statistique

T dun mod`ele parametrique est dite libre si sa loi ne depend pas du param`etre.
Or, de fa con assez surprenante il peut arriver quune statistique exhaustive minimale comprenne une sta-
tistique libre, qui intuitivement ne devrait pas etre prise en compte pour donner toute linformation sur
(soit par exemple la loi IP

discr`ete et equidistribuee sur 1, , + 1 ; pour un echantillon de taille 2,


la statistique (X
(2)
X
(1)
, X
1
+ X
2
) est exhaustive minimale, mais X
(2)
X
(1)
est libre). Aussi peut-on
rajouter une autre caracterisation des statistiques exhaustives pour pouvoir atteindre une forme doptimalite
pour ces statistiques, qui serait quaucune fonctionnelle non constante de la statistique ne peut etre libre.
Cela peut egalement se traduire de la fa con suivante :
Denition. Une statistique exhaustive

T du mod`ele statistique parametrique domine avec

T ` a valeur dans
IR
d
est dite compl`ete si pour toute fonction borelienne h : IR
d
IR telle que h(

T) soit integrable, alors :


, IE

_
h(

T)
_
= 0 = h(

T) = 0.
Propriete. Soit un mod`ele statistique parametrique domine.
1. si

T est une statistique exhaustive compl`ete alors pour toute fonction borelienne h bijective h(

T) est
une statistique exhaustive compl`ete.
2. si

T est une statistique exhaustive compl`ete alors

T est une statistique exhaustive minimale.
3. (Theor`eme de Basu) si

T est une statistique exhaustive compl`ete alors

T est independante de toute
statistique libre sur le mod`ele.
Demonstration de la propriete : 3. Theor`eme de Basu. Soit

S une statistique libre pour le mod`ele et soit f
une fonction telle que IE

(f(

S)) existe. Comme



S est libre, on peut noter e(f) = IE

(f(

S)) une application


lineaire ne dependant pas de . Par suite, la statistique IE

(f(

S) [

T) e(f) est une fonction de

T mesurable
telle que IE

_
IE

(f(

S) [

T)e(f)
_
= 0 pour tout . Comme on a suppose que

T est exhaustive compl`ete,
alors IE

(f(

S) [

T) = e(f) presque-s urement : les statistiques

S et

T sont independantes.
Denition. On suppose un mod`ele parametrique ((

)
n
, /

n
, IP

, IR
p
) domine par une mesure .
Si, pour tout (x
1
, , x
n
) (

)
n
et , la vraisemblance de ce mod`ele par rapport ` a peut secrire sous
la forme :
L

(x
1
, , x
n
) = exp
_
_
() +b(x
1
, , x
n
) +
p

j=1
a
j
(x
1
, , x
n
)
j
()
_
_
, (3)
avec les fonctions a
j
: (

)
n
IR, b : (

)
n
IR,
j
: IR
p
IR, et : IR, alors on dit que le
mod`ele est exponentiel (ou quil appartient ` a la famille exponentielle).
Exemple. Appartiennent ` a la famille exponentielle les lois :
Loi discr`etes : Lois de Bernoulli, binomiales, de Poisson,...
Loi continues : Lois normales, exponentielles, gamma, du chi-deux,...
22
Remarque. Si (X
1
, , X
n
) est un n-echantillon dun mod`ele exponentiel (avec xe) alors lensemble des
valeurs prises par (X
1
, , X
n
) ne depend pas du param`etre .
Propriete. Soit un mod`ele exponentiel. Si pour tout on note () = (
1
(), . . . ,
p
()) et si lensemble
() est dinterieur non vide, alors

T(x
1
, , x
n
) = (a
1
(x
1
, , x
n
), . . . , a
p
(x
1
, , x
n
)) est une statistique
exhaustive minimale et compl`ete.
Demonstration de la propriete : Soit g : IR
p
IR telle que IE

(g(

T)) = 0. Or, ,
IE

(g(

T)) =
_
(

)
n
g(

T(x)) exp
_
() +b(x)+ <

T(x), () >
_
d(x),
o` u < ., . > designe le produit scalaire. En considerant la mesure de densite exp(b(x)) par rapport `a , on
obtient :
IE

(g(

T)) = 0 =
_
(

)
n
g(

T(x)) exp(<

T(x), () >) d(x) = 0
=
_
T((

)
n
)
g(y) exp(< y, () >) d
T
(y) = 0
pour tout , en ayant note
T
la mesure image de par

T et avec

T((

)
n
) IR
p
. Si on note g
+
et g

les parties positives et negatives de g (donc g = g


+
g

), et
+
et

les mesures de densites g


+
et g

par
rapport `a
T
, alors, pour tout :
_
T((

)
n
)
exp(< y, () >) d
+
(y) =
_
T((

)
n
)
exp(< y, () >) d

(y).
En consequence sur , donc sur une partie dinterieure non vide, les mesures
+
et

ont des transformees


de Laplace egales : ces deux mesures sont donc egales et donc g
+
= g

T
-presque partout (ce qui revient `a
g = 0). A partir des expressions des dierentes mesures, on montre que g = 0,

T(IP

)-presque partout.
3.3 Information de Fisher
Pour mesurer linformation fournit par un mod`ele parametrique domine (ou une statistique sur ce mod`ele)
au sujet dun param`etre, une idee naturelle serait de mesurer comment varie localement la mesure de pro-
babilite, ou encore sa vraisemblance. Les uctuations moyennes de cette vraisemblance serait donc un bon
indicateur : pour ce faire on considerera, lorsquil existe grad

(L

(X
1
, , X
n
)), et on sinteressera `a la ma-
trice de covariance de grad

(L

(X
1
, , X
n
)), dont on peut montrer quelle ne depend pas du choix de la
mesure dominante choisie. Precisons dabord la notion de mod`ele regulier qui nous permettra de denir cette
quantite dinformation.
Denition. Dans le cadre dun mod`ele statistique parametrique ((

)
n
, /

n
, IP

, ), o` u IR
p
, domine
par une mesure , on dira que ce mod`ele est regulier lorsque :
1. est un ouvert de IR
d
;
2. la vraisemblance L

(.) verie (x
1
, . . . , x
n
) (

)
n
, , L

(x
1
, . . . , x
n
) > 0 ;
3. (x
1
, . . . , x
n
) (

)
n
, la fonction log(L

(.)) est dierentiable sur par rapport ` a , et son


gradient appartient ` a IL
2
((

)
n
, /

n
, IP

) ;
4. , pour toute fonction h : IR
n
IR appartenant ` a IL
1
((

)
n
, /

n
, IP

), alors :

_
(

)
n
h(x) L

(x) d(x) =
_
(

)
n
h(x)

(x) d(x). (4)


Consequence. Pour un mod`ele regulier, IE

_
grad

(log L

(.))
_
= 0.
Demonstration : On a IE

(L

(.)) = 1 donc IE

(grad

(.)) = 0. Par consequent, IE

_
grad

(L

(.))
L

(.)
_
= 0,
soit IE

_
grad

(log L

(.))
_
= 0.
23
Denition. Pour un mod`ele statistique parametrique domine regulier, on appelle information de Fisher, la
matrice :
I
n
() =
_
IE

_
(log L

(X
1
, , X
N
))

(log L

(X
1
, , X
N
))

j
__
1i,jp
.
Propriete. Pour un mod`ele statistique parametrique domine regulier, et si (x
1
, . . . , x
n
) (

)
n
, la fonction
log(L

(.)) est (
2
(), alors :
I
n
() =
_
IE

2
(log L

(X
1
, , X
N
))

i

j
__
1i,jp
.
Denition. Linformation de Fisher I
T
n
() associee ` a une statistique

T, si elle existe, est la matrice de
Fisher de la vraisemblance de

T (determinee ` a partir de la vraisemblance de

T).
Propriete. Pour un mod`ele regulier,

T est une statistique libre si et seulement si I
T
n
() = 0.
Demonstration : = Si

T est libre alors sa loi ne depend pas de donc le gradient du logarithme de sa
vraisemblance est nul ; linformation de Fisher associee ` a

T est nulle.
= Si I
T
n
() = 0, donc la statistique grad

(log L
T

T))) est centree et de matrice de covariance nulle. Ainsi,


pour tout , il existe un ensemble N

de mesure 1 pour la mesure de probabilite associee `a



T (donc,
dapr`es la premi`ere hypoth`ese dun mod`ele regulier, tel que (N

) = 1)) et tel que pour tout t N

,
grad

(log L
T

(t))) = 0. Pour montrer que grad

(log L
T

(t))) = 0 est bien une variable aleatoire nulle -


p.s., et donc que log L
T

(.) est une fonction constante en , il nous faut montrer que nalement les ne
dependent pas de . Soit
(d)
=
(d)
i

iIN
un sous-ensemble denombrable de , dense dans . Comme

(d)
est denombrable, il est clair que N =

iIN
N

(d)
i
est tel que (N) = 1. De plus, pour tout , il
existe une sous-suite (
(d)
(n)
)
n
de
(d)
convergeant vers et telle que pour tout t N, pour tout n IN,
grad

(d)
(n)
(log L
T

(d)
(n)
(t))) = 0. Comme une telle fonction de
(d)
(n)
est continue, cette propriete passe `a la limite,
et donc pour tout t N, , grad

(log L
T

(t))) = 0. Comme N ne depend pas de , alors la fonction


log L
T

(.) est une constante ne dependant pas de , -p.s. : la statistique



T est bien libre.
Propriete. Pour un mod`ele regulier, si

T est une statistique exhaustive : I
T
n
() = I
n
() pour tout .
Demonstration : Comme

T est une statistique exhaustive, on peut ecrire dapr`es la demonstration du
Theor`eme de factorisation de Neyman que pour tout (x
1
, . . . , x
n
) (

)
n
et tout :
dIP

dIP

(x
1
, . . . , x
n
) = g

T(x
1
, . . . , x
n
)).
On peut reecrire cela pour la densite de

T sous la forme :
dIP
T

dIP
T
(t) = g

(t)), pour tout t



T((

)
n
) et tout
. En consequence, pour tout ,
I() =
_
IE

_
(log L

(X
1
, , X
N
))

(log L

(X
1
, , X
N
))

j
__
1i,jp
=
_
_
(

)
n
_
(log L

(x))

(log L

(x))

j
_
dIP

(x)
_
1i,jp
=
_
_
(

)
n
_
(log g

T(x)))

(log g

T(x)))

j
_
g

T(x))dIP

(x)
_
1i,jp
car log L

(x) = log g

T(x)) + log h(x)


=
_
_
T(

)
n
_
(log g

(t))

(log g

(t))

j
_
g

(t))dIP
T
(x)
_
1i,jp
dapr`es le theor`eme du transport
=
_
_
T(

)
n
_
(log g

(t))

(log g

(t))

j
_
dIP

(t)
_
1i,jp
= I
T
n
().
24
Remarque. En rajoutant certaines hypoth`eses de continuite sur la vraisemblance de

T, on peut montrer que
la reciproque est egalement vraie, et donc que I
T
n
() = 0 si et seulement si la statistique

T est exhaustive.
Ainsi, on retrouve `a laide de la notion dinformation de Fisher les intuitions qui nous avaient guidees
dans la section precedentes. Voyons maintenant les applications de la notion dexhaustivite `a lestimation
parametrique.
3.4 Application `a lestimation parametrique
On se place dans le cadre dun mod`ele statistique parametrique ((

)
n
, /

n
, IP

, ), o` u IR
p
,
domine par une mesure . Par ailleurs, on suppose que est un ouvert.
Denition. Soit g :

, o` u

IR
p

avec p

IN

, une fonction mesurable. On appelle


estimateur de la fonction g du param`etre, donc de g(), une statistique

T ` a valeurs dans IR
p

. En
particulier, un estimateur du param`etre est une statistique ` a valeurs dans IR
p
. Une estimation de
g() est une realisation de

T.
On appelle biais dun estimateur

T de g() le vecteur constant de IR
p

, B() = IE

T) g(). On dira
que lestimateur est sans biais si B() = 0 pour tout .
On appelle risque quadratique de lestimateur

T de g() le reel positif R() = IE

(|

T) g()|
2
), o` u |.|
designe usuellement la norme euclidienne (mais peut etre une autre fonctionnelle positive et convexe).
Si lestimateur est sans biais alors, R() = Trace(cov(

T)).
Pour pouvoir parler du comportement asymptotique dune statistique, on va devoir se placer dans un gros
mod`ele, dans lequel un echantillon est une suite de v.a. En quelque sorte, ce gros mod`ele pourra secrire
((

)
IN
, /

IN
, IP
IN

, ), o` u IR
p
(la dimension du param`etre reste constante). Pour un n xe, une
statistique

T
n
sera dabord une projection du gros mod`ele sur le mod`ele de taille n, puis une statistique
normale. On devra donc parler dune suite destimateurs (

T
n
)
n
Denition. Pour un mod`ele statistique parametrique ((

)
IN
, /

IN
, IP
IN

, ), o` u IR
p
, et pour (

T
n
)
n
une suite destimateurs de g() :
Si lim
n
B
n
() = 0, on dit que lestimateur est asymptotiquement sans biais.
On dit que (

T
n
)
n
est convergent lorsque

T
n
P

n+
g().
Sil existe (a
n
) une suite de reels positifs tels que a
n
(

T
n
g())
L

n+
Z

, o` u Z

est une loi centree


non nulle (ne dependent pas de n), on dit (

T
n
)
n
converge vers g() ` a la vitesse a
n
.
A priori, etre sans biais nest pas un bon crit`ere pour garantir une certaine optimalite de la convergence dun
estimateur. On preferera plut ot discriminer entre de potentiels estimateurs `a laide dun crit`ere portant sur le
risque quadratique ou sur la matrice de variance-covariance. Cependant, il nexiste pas de resultats generaux
pour trouver un meilleur estimateur en ce sens. Pour en obtenir, on devra se limiter `a une certaine classe
destimateurs, celle des estimateurs sans biais.
Denition. Soit un mod`ele statistique parametrique ((

)
n
, /

n
, IP

, ), et soit

T un estimateur sans
biais de g(). On dit que

T est de variance uniformement minimum parmi les estimateurs sans biais de g()
lorsque pour tout estimateur sans biais de g(), on a , cov(

T) cov(

S) (au sens o` u cov(

T) cov(

S)
est une matrice positive).
Propriete. Si

T est un estimateur de variance uniformement minimum parmi les estimateurs sans biais,
alors il est unique IP

-p.s.
Demonstration : Soit

S un autre estimateur que lon suppose egalement de variance uniformement minimum
parmi les estimateurs sans biais. Montrons dabord que E

((

T

S)
t

T) = 0. En eet, si IR, comme



T
est de variance minimum, en utilisant des inegalites sur les matrices symetriques :
cov(

T) cov(

T +(

T

S))
cov(

T) +
2
cov(

T

S) + 2 IE

T
t

S)
= 0
_
cov(

S) + 2IE

T
t
(

T

S))
_
pour tout IR.
25
Comme cov(

T

S) est une matrice positive, la seule possibilite pour avoir la derni`ere inegalite est que :
IE

T
t
(

S)) = 0. Par suite, comme cov(

S) = IE

_
(

S)
t
(

S)
_
= IE

T
t
(

S)
_
IE

S
t
(

S)
_
,
et que lon a suppose

T et

S de variance minimum, cov(

T

S) = 0. Donc

T =

S sur un ensemble de IP

-
mesure egale `a 1.
Theor`eme (Rao-Blackwell). Si

T est un estimateur sans biais de g() et si

S est une statistique exhaustive,
alors

R = IE

T [

S), qui ne depend pas de car

S est exhaustive, est un estimateur sans biais de g() de
matrice de covariance inferieure ou egale ` a celle de

T.
Demonstration : il est clair que IE

R) = IE

T) = g(). De plus, pour tout u IR


p

(avec g : IR
p
IR
p

),
cov(
t
u

T) = IE

_
_
t
u (

T g())
_
2
_
= IE

_
IE

_
_
t
u (

T g())
_
2
_
[

S
_
IE

_
IE

_
t
u (

T g()) [

S
_
2
_
dapr`es linegalite de Jensen,
cov(
t
u

R).
Cela revient bien `a ecrire que cov(

T) cov(

R).
Theor`eme (Lehmann-Schee). Si

T est un estimateur sans biais de g() et si

S est une statistique ex-
haustive et compl`ete, alors lunique estimateur de g() sans biais uniformement de variance minimale est

R = IE

T [

S) (cest-` a-dire que

R est une fonction de

S).
Demonstration : Soit

T

un autre estimateur sans biais de g(). Si



R

= IE

[

S), on sait que cov(

)
cov(

) dapr`es le Theor`eme de Rao-Blackwell. Or IE

R

R

) = 0 pour tout car les deux estimateurs


sont sans biais. De plus comme

R et

R

sont des fonctions de



S,

R

R

lest aussi, et du fait que



S est une
statistique exhaustive et compl`ete, alors pour tout ,

R =

R

, IP

-p.s. Par consequent, pour tout ,


cov(

) = cov(

R) et donc cov(

R) cov(

) :

R est bien lestimateur sans biais de variance uniformement
minimale.
Retenons donc de tout ceci que lestimateur sans biais de g() et de variance uniformement minimale est
une unique fonction dune statistique exhaustive et compl`ete, lorsquune telle statistique existe. On aimerait
maintenant connatre un peu mieux la covariance dun tel estimateur.
Theor`eme (Inegalite de Cramer-Rao). Soit un mod`ele statistique parametrique ((

)
n
, /

n
, IP

, ) do-
mine et regulier, et soit

T un estimateur sans biais de g(), tel que IE

T|
2
< +. Si on suppose que
linformation de Fisher est une matrice denie positive, alors, en notant
g

() la matrice jacobienne de g,
pour tout :
cov(

T)
g

() (I
n
())
1

t
g

() (au sens des matrices symetriques).


En particulier, si

T est un estimateur sans biais de , alors :
cov(

T) (I
n
())
1
(au sens des matrices symetriques).
Demonstration : Soit Z

(x) = grad(log L

(x)) o` u x (

)
n
suit IP

. On sait que comme le mod`ele est


regulier, IE

(Z

) = 0 pour tout et donc :


cov(Z

) = I() pour tout .


De plus,

T est un estimateur sans biais de g() donc pour tout :
IE

T) = g() =
_
(

)
n

T(x)
L

(x) d(x) =
g

() (en derivant)
=
_
(

)
n

T(x)
L

(x) (L

(x))
1
dIP

(x) =
g

()
= IE

T
t
Z

) =
g

().
26
Ainsi, dapr`es ce qui prec`ede,
cov

T
g

() I
1
() Z

) = cov

T) 2
g

() I
1
()
t
g

() +
g

() I
1
()
t
g

()
= cov

T)
g

() I
1
()
t
g

().
En consequence, comme cov

T
g

() I
1
() Z

) est une matrice positive, linegalite de Cramer-Rao


est prouvee.
Corollaire. Deux cas particuliers meritent attention :
Si le mod`ele est de la forme ((

)
n
, /

n
, (f

d)
n
, ), alors I
n
() = n I
1
(), o` u I
1
() est la
matrice dinformation de Fisher dune seule variable aleatoire X distribuee suivant f

d et lInegalite
de Cramer-Rao devient donc :
cov(

T)
1
n

_
g

() (I
1
())
1

t
g

()
_
(au sens des matrices symetriques).
On voit donc que pour un echantillon de variables independantes et identiquement distribuees, si la
vraisemblance est reguli`ere, alors la vitesse de convergence de tout estimateur sans biais est au mieux
en

n.
Si le mod`ele nest pas regulier, mais que sous la probabilite IP

, la matrice dinformation de Fisher


existe et est inversible, et surtout si la propriete (4) est veriee, alors lInegalite de Cramer-Rao est
veriee. Cela exclut cependant les mod`eles dont le support de IP

depend de , comme par


exemple le simple mod`ele de v.a.i.i.d. de loi |(]0, [), avec > 0.
Denition. Si un estimateur sans biais atteint (respectivement asymptotiquement) la borne de Cramer-Rao
(qui ne depend pas de lestimateur), on dit quil est (resp. asymptotiquement) ecace.
Remarque. Un estimateur peut etre sans biais, de variance minimale, mais ne pas atteindre la borne de
Cramer-Rao, donc ne pas etre ecace. De la meme mani`ere, il peut exister des estimateurs biaises atteignant
la borne de Cramer-Rao.
Nous allons voir que les mod`eles exponentiels jouent un role central pour lestimation parametrique puisque
sous certaines conditions ils sont les seuls pour lesquels on aura une estimation sans biais ecace.
Theor`eme. Soit un mod`ele statistique parametrique ((

)
n
, /

n
, IP

, ), avec IR
p
, domine et
regulier. Soit g : IR
d
IR
d
de classe (
1
sur telle que la matrice carree de taille p,
g

() soit de rang p
pour tout . Alors

T =
t
(

T
1
, . . . ,

T
d
) est un estimateur sans biais de g() atteignant la borne de Cramer-
Rao si et seulement si le mod`ele est exponentiel et plus precisement sil existe des fonctions a : (

)
n
IR,
: IR et
j
: IR (1 j p), telles que pour tout , g() =
_

i
()
_
1
1i,jp

() et
L

(x
1
, , x
n
) = exp
_
_
() +b(x
1
, , x
n
) +
d

j=1
T
j
(x
1
, , x
n
)
j
()
_
_
.
Demonstration : = On suppose donc le mod`ele exponentiel decrit dans le theor`eme. Si on derive par rapport
`a un tel mod`ele, on obtient que pour -presque tout x (

)
n
:

(log L

(x)) =
_

i
()
_
1i,jp


T +

(), pour tout . (5)


En consequence, comme I() = IE

_
_

(log L

(.))
_

t
_

(log L

(.))
_
_
, on en deduit que :
I() =
_

i
()
_
1i,jd
cov

T)
t
_

i
()
_
1i,jp
= cov

T) =
_

i
()
_
1
1i,jp
I()
t
_

i
()
_
1
1i,jp
27
Par ailleurs, comme

T est un estimateur sans biais de g() dapr`es la preuve de lInegalite de Cramer-Rao,
IE

T(.)
t
_

(log L

(.))
_
_
=
g

()
et en utilisant (5) que lon multiplie par
_

(log L

(.))
_
, on obtient :
IE

_
_

(log L

(.))
_

t
_

(log L

(.))
_
_
= IE

_
_

i
()
_
1i,jp


T
t
_

(log L

(.))
_
_
+IE

()
t
_

(log L

(.))
_
_
,
et donc I() =
_

i
()
_
1i,jp

(). A laide de cette egalite, et en reprenant le calcul precedent, on en


arrive `a ce que :
cov

T) =
g

() I
1
()
t
g

(),
donc

T atteint bien la borne de Cramer-Rao. De plus, grace `a (5),
IE

(log L

(x))
_
= IE

_
_

i
()
_
1i,jp


T +

()
_
soit 0 =
_

i
()
_
1i,jp
g() +

()
et donc g() =
_

i
()
_
1
1i,jp

().
= Dapr`es la preuve de lInegalite de Cramer-Rao, si

T est un estimateur sans biais de g() atteignant la
borne de Cramer-Rao, alors
cov

T
g

() I
1
() Z

) = 0.
Ainsi, pour tout , il existe un ensemble N

)
n
tel que IP

(N

) = 1 et tel que pour tout x N

T(x) g() =
g

() I
1
() Z

(x). Par le meme procede que celui de la preuve de la nullite de linformation


de Fisher pour une statistique libre, on peut determiner un ensemble N ne dependant pas de , tel que cette
propriete soit egalement vraie, avec (N) = 1, ce qui revient `a ecrire que x N,
I()
_
g

()
_
1

T(x) g()
_
=

(log L

(x)), pour tout .


Alors en integrant par rapport `a , et en notant
_

_
() le vecteur colonne integrant I()
_
g

()
_
1
() la fonction integrant I()
_
g

()
_
1
g()
b(x) une fonction ne dependant pas de
on a log L

(x) = ()

T(x) +() +b(x), do` u lecriture de la vraisemblance sous forme dun mod`ele expo-
nentiel, et on retrouve lexpression de g() par le meme raisonnement que plus haut.
Corollaire. A linverse, si lon dispose dun mod`ele exponentiel regulier (3), alors il nexiste quune seule
fonction (` a une transformation ane pr`es) du param`etre pouvant etre estimer ecacement, il sagit de
g() =
1
n

_

i
()
_
1
1i,jp

() (noter que cette fonction semble dependre de n; dans le cas de v.a.i.i.d.


ce nest pas le cas). Lestimateur est alors :

T =
1
n
(a
1
(X
1
, . . . , X
n
), . . . , a
p
(X
1
, . . . , X
n
)) et sa matrice de
covariance minimale est donnee par sa borne de Cramer-Rao, soit :
cov

T) =
1
n

g

()
_

i
()
_
1
1i,jd
.
28
3.5 Estimateur du maximum de vraisemblance
Nous allons voir une methode permettant dobtenir aisement et dans la plupart des cas un estimateur
possedant de tr`es bonnes qualites... Par la suite on se place une nouvelle fois dans le cadre dun mod`ele
statistique parametrique ((

)
n
, /

n
, IP

, ), avec IR
p
, domine.
Denition. Pour (x
1
, . . . , x
n
) (

)
n
, soit L

(x
1
, . . . , x
n
) la vraisemblance du mod`ele. On appelle
estimateur du maximum de vraisemblance une statistique

n
telle que pour (X
1
, . . . , X
n
) un n-echantillon
quelconque du mod`ele :
L
n
(X
1
, , X
n
) = sup

(X
1
, , X
n
).
Remarque. Il ny a pas de garantie de lunicite dun tel estimateur. Une methode pour lobtenir (mais
pas toujours) est de rechercher un extremum local de L

sur , ce qui pourra etre fait en annulant les


derivees partielles de L

par
i
. De meme, il est clair que lestimateur du maximum de vraisemblance pourra
etre egalement obtenu en maximisant le logarithme de la vraisemblance, appele encore la log-vraisemblance.
Enn, si lon desire estimer g() avec g une fonction bijective, alors g(

) sera lestimateur du maximum de


vraisemblance de g().
Propriete. Sil existe une statistique exhaustive

T pour le mod`ele, alors

est une fonction mesurable de

T
pour tout .
Demonstration : Si

T est exhaustive, dapr`es le theor`eme de factorisation, la vraisemblance du mod`ele par
rapport `a la mesure dominante P

est g

T(x
1
, . . . , x
n
)) pour tout et IP

-presque tout (x
,
. . . , x
n
)
(

)
n
, ce qui revient `a P

-presque tout (x
,
. . . , x
n
) (

)
n
par la meme demonstration que celle de la nullite
de linformation de Fisher dune statistique libre. Ainsi, prendre largument maximal de L

revient `a
prendre largument maximal de g

T(x
1
, . . . , x
n
)), et

sera donc une fonction de

T.
Propriete. On suppose que le mod`ele est regulier. Si on suppose quil existe un estimateur sans biais ecace
de alors cest lestimateur du maximum de vraisemblance de .
Demonstration : Dapr`es ce qui prec`ede, si le mod`ele est regulier et que

T est un estimateur sans biais ecace
de , alors le mod`ele est exponentiel et legalite (5) a encore lieu, soit pour tout ,

(log L

(x)) =
_

i
()
_
1i,jp


T +

() =
_

i
()
_
1i,jp
IE

T) +

() = 0.
Comme

T est un estimateur sans biais de , on a donc
_

i
()
_
1i,jp
+

() = 0, pour tout ,
ce qui sapplique egalement `a

et donc :
_

i
(

)
_
1i,jp

) = 0.
Mais dapr`es sa denition, le mod`ele etant regulier

minimise la log-vraisemblance et annule donc sa derivee,


ce qui implique que :
_

i
(

)
_
1i,jp


T +

) = 0.
En consequence, obtient :
_

i
(

)
_
1i,jp

_
= 0 =

T =

,
car la matrice des derivees des
j
est supposee de rang d. Enn, lunicite de

est liee `a lecriture du mod`ele
exponentiel.
Nous allons nous interesser maintenant au comportement asymptotique de lestimateur du maximum de
vraisemblance (lorsquil existe), donc quand la taille n de lechantillon tend vers linni. Il est clair que pour
chaque n lexpression de lestimateur est dierente et, surtout, le mod`ele statistique change. Pour palier `a
cela, on se placera dans un gros mod`ele, ((

)
IN
, /

IN
, IP
IN

, ), o` u IR
p
(la dimension du param`etre
reste constante) dans lequel un echantillon est une suite de v.a. Par ailleurs, on supposera desormais que
tout echantillon de ce mod`ele est constitue de v.a.i.i.d., et que dIP
IN

= (f

d)
IN
, le mod`ele etant
domine par la mesure , et f

etant la densite de chaque X


i
par rapport `a .
29
Theor`eme (Convergence de lestimateur du maximum de vraisemblance). On suppose le mod`ele parametrique
((

)
IN
, /

IN
, (f

d)
IN
, ), o` u IR
d
domine par une mesure et regulier. On suppose en plus que le
mod`ele est identiable (au sens o` u f
1
= f
2
, -presque partout, entrane
1
=
2
). Alors si la suite (X
n
)
nIN
est issue du mod`ele avec pour param`etre
0
,

n
p.s.

n+

0
pour la mesure (f
0
d)
IN
.
Demonstration : En premier lieu, pour n xe, il est clair que pour tout :
log(L

(x
1
, . . . , x
n
)) log(L
0
(x
1
, . . . , x
n
)) =
n

i=1
log
_
f

(x
i
)
f
0
(x
i
)
_
.
Par ailleurs, pour tout i IN, les X
i
ont tous la meme loi et pour ,
IE
0
_
log
_
f

(X
i
)
f
0
(X
i
)
__
log
_
IE
0
_
f

(X
i
)
f
0
(X
i
)
__
(Inegalite de Jensen pour la fonction log)
log (IE

[f

(X
i
)])
0.
En fait, du fait que la fonction log est strictement convexe, la borne 0 ne peut etre atteinte que si f

= f
0
.
Ainsi, avec la contrainte dun mod`ele identiable, d`es que ,=
0
, alors :
IE
0
_
log
_
f

(X
i
)
f
0
(X
i
)
__
< 0.
On peut appliquer la loi forte des grands nombres pour les variables aleatoires
_
log
_
f

(X
i
)
f
0
(X
i
)
__
iIN
(qui
sont bien i.i.d. et IL
1
car le mod`ele est regulier), et ainsi :
1
n
(log(L

(X
1
, . . . , X
n
)) log(L
0
(X
1
, . . . , X
n
))) =
1
n
n

i=1
log
_
f

(X
i
)
f
0
(X
i
)
_
p.s.

n+
IE
0
_
log
_
f

(X
i
)
f
0
(X
i
)
__
< 0,
la convergence presque s ure ayant lieu pour la mesure (f
0
d)
IN
. Considerons maintenant pour tout
> 0 une famille denombrable (
()
i
)
iI
dense sur la sph`ere de centre
0
et de rayon . Du fait du caract`ere
denombrable de cette famille, pour tout > 0, il existe n

tel que pour tout n n

, pour tout i I :
log(L

()
i
(X
1
, . . . , X
n
)) < log(L
0
(X
1
, . . . , X
n
)) p.s. pour la mesure (f
0
d)
IN
.
Comme le mod`ele est regulier, pour tout n IN

, la log-vraisemblance de X
1
, . . . , X
n
est continue sur . De
plus pour tout n elle atteint son unique maximum en
0
. En consequence, pour n n

n
sera `a linterieur
de la boule de centre
0
et de rayon (toujours p.s. pour la mesure (f
0
d)
IN
). Le raisonnement etant
vrai pour tout > 0, le theor`eme sen deduit.
Theor`eme (Normalite asymptotique de lestimateur du maximum de vraisemblance). On suppose le mod`ele
parametrique ((

)
IN
, /

IN
, (f

d)
IN
, ), o` u IR
p
, domine par une mesure et regulier. On suppose
en plus que le mod`ele est identiable et que la fonction L

est de classe (
2
(). Alors si la suite
(X
n
)
nIN
est issue du mod`ele avec pour param`etre
0
:

n(

n

0
)
L

n+
^
d
(0, I
1
1
(
0
)),
o` u I
1
() est la matrice de Fisher de taille p (supposee inversible) pour la variable X
1
.
Demonstration : Comme le mod`ele est regulier, on peut dierencier la vraisemblance et pour tout ,
noter :
M

(X
1
, . . . , X
n
) =
1
n

log L

(X
1
, . . . , X
n
) =
1
n
n

i=1

log (f

(X
i
)) .
30
Un developpement limite dordre 1 de M

autour de
0
est possible (toujours en raison du mod`ele regulier)
et donc pour tout tout :
M

(X
1
, . . . , X
n
) = M
0
(X
1
, . . . , X
n
) + (
0
)

(X
1
, . . . , X
n
),
avec

dans le segment [,
0
] (remarquons que

(X
1
, . . . , X
n
) est une matrice carree de taille d). Ainsi
en rempla cant par

n
, on obtient pour chaque n lexistence de

n
appartenant au segment [

n
,
0
] tel que :
M
n
(X
1
, . . . , X
n
) = M
0
(X
1
, . . . , X
n
) + (

0
)

n
(X
1
, . . . , X
n
). (6)
Pour un mod`ele regulier, on a vu que IE
0
_

2

2
log f
0
(X
i
)
_
= I
1
(
0
), matrice de Fisher pour nimporte
quelle variable X
i
. Ainsi,

(.) etant une moyenne empirique, on a par la loi forte des grands nombres :

M
0
(X
1
, . . . , X
n
) =
1
n
n

i=1

2
log f
0
(X
i
)
p.s.

n+
I
1
(
0
) pour la mesure (f
0
d)
IN
.
Maintenant, en utilisant le fait que les densites f

sont de classe (
2
() et en utilisant la convergence presque
s ure de

n
vers
0
demontree au theor`eme precedent, on a :

n
(X
1
, . . . , X
n
)
p.s.

n+
I
1
(
0
) pour la mesure (f
0
d)
IN
.
Finalement, comme

n
est le maximum dune fonction de classe (
1
, cet estimateur annule M
n
(X
1
, . . . , X
n
),
et donc legalite (6) devient :
M
0
(X
1
, . . . , X
n
) I
1
1
(
0
) = (

n

0
).
Enn, comme M
0
(X
1
, . . . , X
n
) est une moyenne empirique, ce vecteur aleatoire verie un theor`eme de la
limite centrale :

n
_
M
0
(X
1
, . . . , X
n
) IE
0
_

log f
0
(X
i
)
__
L

n+
^
d
(0, I
1
(
0
)),
dapr`es la premi`ere denition de linformation de Fisher. Comme IE
0
_

log f
0
(X
i
)
_
= 0 (voir les pro-
prietes precedentes), on obtient la normalite asymptotique de

n
.
Remarque. Sous ces hypoth`eses, lestimateur du maximum de vraisemblance est asymptotiquement sans
biais et ecace. Cependant, ` a n xe, il peut avoir un biais et ne pas etre un estimateur ecace.
3.6 Regions de conance
En pratique, estimer un param`etre le plus souvent ne sut pas. On aimerait connatre plus precisement
quelle marge de securite on a sur la connaissance de ce param`etre.
Denition. On se place dans le cadre dun mod`ele parametrique ((

)
n
, /

n
, IP

, ), o` u IR
p
. Soit
]0, 1[ un nombre xe a priori. On appelle region de conance du param`etre de niveau 1 un sous-
ensemble aleatoire R
1
inclus dans IR
p
et deni sur ((

)
IN
, /

IN
), tel que pour tout , (x
1
, . . . , x
n
)
(

)
IN
, R
1
(x
1
, . . . , x
n
) /

n
et :
inf

IP

( R
1
) 1 . (7)
Si un echantillon observe (X
1
(), . . . , X
n
()) est connu, R
1
(X
1
(), . . . , X
n
()) est appele region de
conance observe. Dans le cas o` u le param`etre est un reel (p = 1), on pourra obtenir un intervalle de
conance.
31
Comment determiner une region de conance ? En premier lieu, il est clair que pour tout ]0, 1[, R
1

(en general, on choisit proche de 0, et en particulier = 0.05 est tr`es souvent utilise). Une demarche possible
pour la construction de region de conance est la suivante : naturellement, on desirerait utiliser un estimateur

T convergent de , mais sa loi depend en general de ce qui rend dicile (` a part quelques exceptions) son
utilisation directe. On preferera donc utiliser ce que lon appelle une fonction pivotale (

T, ), qui est une


fonction mesurable dun estimateur et de et qui est une statistique libre. On essayera alors decrire la
propriete (7) sous la forme
inf

_
IP

((

T, ) C

)
_
1 ,
o` u C

est une region deterministe. Aussi pourra-t-on ensuite construire la region de conance en fonction
des quantiles (souvent `a /2 et 1 /2) de la loi de la fonction pivotale.
Exemple. Si le mod`ele est regulier, sous les conditions du theor`eme de normalite asymptotique du maximum
de vraisemblance, on peut egalement montrer (theor`eme de Sltuski) que
(

n
,
0
) =

n (I
1
(

n
))
1/2

n

0
_
L

n+
^
d
(0, I
p
),
o` u I
d
est la matrice identite de taille p et (I
1
())
1/2
(I
1
())
1/2
= I
1
() pour tout . Ainsi, si n est
grand, on pourra assimiler la loi de (

n
,
0
) avec la loi normale centree reduite multidimensionnelle. Or si
Z ^
p
(0, I
p
), avec q
1/2
> 0 le quantile dune loi normale centree reduite reelle de niveau 1 /2, tel
que P(Z [q
1/2
, q
1/2
]
d
) 1 . Aussi le poly`edre n
1/2
(I
1
(

n
))
1/2
[q
1/2
, q
1/2
]
d
recentre
autour de

n
formera la region de conance cherchee.
3.7 M-estimateur
Il sagit ici de generaliser les estimateurs du maximum de vraisemblance. On donnera ici des crit`eres tr`es
generaux pour la consistance et la normalite asymptotique des estimateurs.
3.7.1 Introduction
Supposons que nous voulons estime un param`etre relie `a la loi de probabilite dobservations (X
1
, , X
n
).
La methode pour trouver un tel estimateur est de minimiser une fonction crit`ere de la forme
M
n
() =
1
n
n

i=1
m

(X
i
)
Ici m

: IR
p
IR sont des fonctions connues.
Exemple : estimateur du maximum de vraisemblance Admetttons que (X
1
, , X
n
) sont i.i.d. et
leur loi `a pour densite f

0. Lestimateur du maximum de vraisemblance


n
minimise :
M
n
() =
1
n
n

i=1
log f

(X
i
)
Exemple : estimateur des moindres carres Admetttons que ((X
1
, Y
1
), , (X
n
, Y
n
)) sont i.i.d. , X
i

IR
p
, Y
i
IR et verient lequations de regression lineaire :
Y =
T
X +
o` u est une variable aleatoire centree, independante de X et de carre integrable. Lestimateur des moindres
carres

n
de est alors celui qui minimise :
M
n
() =
1
n
n

i=1
(Y
i

T
X
i
)
2
32
3.7.2 Consistance
Il est important que lestimateur converge vers la vrai valeur du param`etre
0
(presque-s urement ou bien
en probabilite), lorsque le nombre dobservations n converge vers linni. Si cest le cas lestimateur est dit
asymptotiquement consistant. Par exemple la moyenne empirique

X est asymptotiquement consistant pour
la moyenne de la population = E(X) si E(X) existe. On veut donc prouver que :

n
p.s.

On suppose que le M-estimateur

n
minimise la fonction M
n
(). Clairement, le comportement asymptotique
de

n
depend de du comportement asymptotique de la fonction M
n
(). Pour une bonne normalisation il
existera une fonction crit`ere deterministe M() telle que :
: M
n
()
p.s.
M()
Il semble raisonnable que le minimisateur

n
de M
n
() converge sous des conditions raisonnable vers
0
le
minimisateur de M().
Theor`eme. Soit lespace des param`etres possibles et M
n
, M des fonctions telles que pour tout > 0 :
sup

[M
n
() M()[
p.s.
0,
inf
: 0
M() > M(
0
)
alors pour toutes suites destimateurs

n
telle que

n
= arg min

M
n
()
On aura

n
p.s.

0
Demonstration : On a pour tout voisinage 1 de
0
lexistence dune constante (1) > 0 telle que :
1, M() > M(
0
) +(1)
Donc, pour montrer la consistance forte, il sut de montrer que pour tout voisinage 1 de
0
on a
lim
n

n
p.s.
1 lim
n
M(

n
) M(
0
)
p.s.
(1)
Par denition M
n
(

n
)
p.s.
M
n
(
0
) et comme sup

[M
n
() M()[
p.s.
0 on aura
lim
n
M
n
(

n
)
p.s.
M(
0
) +
(1)
2
.
De meme on aura
lim
n
M(

n
) M
n
(

n
)
p.s.
= 0
et
lim
n
M(

n
)
(1)
2
p.s.
< lim
n
M
n
(

n
)
p.s.
< M(
0
) +
(1)
2
nalement lim
n
M(

n
) M(
0
)
p.s.
(1) ce qui prouve la consistance forte du M-estimateur.
Conditions susantes pour le theor`eme Pour un mod`ele regulier les hypoth`eses du theor`eme sont
faciles `a veriees. Pour obtenir la condition :
inf
: 0
M() > M(
0
)
Il sut que la fonction limite M() soient une fonction strictement convexe, minimale en
0
et que pour
tout ,=
0
, M() ,= M(
0
). Cela sera le cas, si M() est lesperance de loppose de la log-vraisemblance,
cest-`a-dire la distance de Kullback `a une constante pr`es :
M() =
_
f
0
log
_
f
0
f

_
33
Pour obtenir lhypoth`ese de la loi uniforme des grands nombres :
sup

[M
n
() M()[
p.s.
0
une condition susante est que lensemble des param`etres possibles soit compact, que la fonction
m

(x) soit continue pour tout x et quil existe une fonction h integrable qui domine [m

(x)[ pour tout .


Preuve Pour une boule ouverte B de , notons m
B
= sup
B
m

et m
B
= inf
B
m

. Par le theor`eme
de convergence dominee E[m
B
m
B
] 0 lorsque le diam`etre de la boule tend vers 0. Pour > 0, soit
B
1
, , B
k
un recouvrement ni de tel que E[m
B
i
(X) m
B
i (X)] < . Pour tout B
i
, on aura :
M
n
() M()
1
n
m
B
i
(X
i
) E[m
B
i (X)]
1
n
m
B
i
(X
i
) E[m
B
i
(X)] +
M
n
() M()
1
n
m
B
i (X
i
) E[m
B
i
(X)]
1
n
m
B
i (X
i
) E[m
B
i (X)]
Ainsi,
sup

[M
n
() M()[ sup
i{1,,n}
max(

1
n
m
B
i
(X
i
) E[m
B
i
(X)]

1
n
m
B
i (X
i
) E[m
B
i (X)]

) +
Ainsi, presque-s urement, > 0, lim
n
sup

[M
n
() M()[ <
3.7.3 Normalite Asymptotique
On donne ici des conditions necessaire pour la normalite asymptotique du M-estimateur. Ces conditions
peuvent etre ameliorees mais celles donnees conviennent pour les exemples etudies pendant ce cours.
Notations
Pour une suite de variables aleatoire R
n
:
X
n
= o
P
(R
n
) X
n
= Y
n
R
n
et Y
n
P
0
Pour une suite de variables aleatoire R
n
:
X
n
= O
P
(R
n
) X
n
= Y
n
R
n
et Y
n
est bornee en probabilite Mtel queP([Y
n
[ > M) 0.
Hypoth`eses On suppose que les observations (X
1
, , X
n
) sont i.i.d. et que les hypoth`eses suivantes sont
veriees :
H1 Le M-estimateur

n
est fortement consistant
H2 Il existe un voisinage V du vrai param`etre
0
tel que pour tout V , la derivee 3`eme de m() est
dominees par une fonction integrable.
H3 Le carre de la derivee 1`ere :
_
m

(
0
)
_
2
est integrable.
H4 La matrice des derivees secondes :

2
m

2
(
0
) est integrable et inversible.
On aura alors le theor`eme suivant :
Theor`eme. Sous les hypoth`eses H1,...,H4 :

n(

n

0
) = E[

2
m

2
(
0
)]
1
1

n
n

i=1
_
m

(
0
)
_
+o
P
(1)
En particulier la suite

n(

0
) est asymptotiquement normale de moyenne 0 et de matrice de variance-
covariance E[

2
m

2
(
0
)]
1
E
_
m

(
0
)
m

(
0
)
T

E[

2
m

2
(
0
)]
1
Demonstration : Par un developpement de Taylor il existe un vecteur aleatoire

n
sur le segment
0
,

n
tel
que :
0 =
M
n
(

n
)

=
M
n
(
0
)

+

2
M
n
(
0
)

2
(

n

0
) +
1
2
(

n

0
)
T

3
M
n
(
0
)

3
(

n

0
)
34
Le premier terme `a droite est la moyenne du vecteur aleatoire i.i.d.
Mn(0)

qui `a pour esperance :


E
_
M
n
(
0
)

_
= 0
Par le theor`eme de la limite centrale la suite

n
Mn(0)

converge en loi vers une gaussienne de moyenne 0


et de matrice de variance-covariance E
_
m(0)

m(0)

T
_
. Par la loi des grands nombres

2
Mn(0)

2
converge
presque-s urement vers une matrice J = E
_

2
m(0)

2
_
. si k est la dimension du vecteur , la derivee troisi`eme

3
Mn(0)

3
est un vecteur de k matrice k k, par hypoth`ese il existe un voisinage V de
0
tel que

3
Mn(0)

3
est dominee par une fonction integrable m
(3)
. Comme

n
est consistant, lim
n

n
V presque-s urement
et pour

n
V on aura le developpement suivant :

M
n
(
0
)

=
_
J + o
P
(1) +
1
2
(

n

0
)O
P
(1)
_
(

n

0
)) = (J +o
P
(1)) (

n

0
))
car (

n

0
)O
P
(1) = o
P
(1)O
P
(1) si

n
converge presque-s urement vers
0
. La probabilite que la matrice
J +o
P
(1) soit inversible tend vers 1. En multipliant lequation precedente par

n(J +o
P
(1))
1
on obtient
le resultat annonce
4 Tests parametriques
4.1 Principes dun test
Un test permet, `a partir dune realisation dun echantillon, de decider entre deux hypoth`eses, en mettant
en avant une hypoth`ese privilegiee, appelee hypoth`ese H
0
, et une hypoth`ese alternative, appelee H
1
. On
associe `a un test un niveau (avec souvent 0.05) et une puissance 1 . La plupart du temps, est
xe a priori et sen deduit. Plus precisement,
Denition. On se place dans le cadre dun mod`ele parametrique domine ((

)
n
, /

n
, IP

, ), o` u IR
p
et soit la vraie valeur du param`etre. Un probl`eme de test est un choix entre deux hypoth`eses :
_
_
_
H
0
:
0
: hypoth`ese dite nulle
H
1
:
1
: hypoth`ese dite alternative,
(8)
o` u
0
IR
p
,
1
IR
d
et
0

1
= .
Ceci pose, on peut preciser deux types de probl`emes de tests suivant les constitutions de
0
et
1
:
Denition. Une hypoth`ese (H
0
ou H
1
) est dite simple si elle est associee ` a un singleton (
0
ou
1
). Sinon,
elle sera dite composite. Dans le cas reel ( IR), si H
0
est simple de la forme =
0
, et si H
1
est composite
de la forme >
0
ou <
0
, on parlera de test unilateral ; si H
1
est composite de la forme ,=
0
, on
parlera de test bilateral.
Comment faire pour choisir entre les deux hypoth`eses H
1
et H
2
? Il faudra partir de ce que lon peut
connatre du mod`ele, cest-`a-dire generalement un echantillon observe (X
1
, . . . , X
n
). Pour cela, on denit
une statistique qui sera la cle de vo ute du test :
Denition. Dans le cadre du probl`eme de test (8, soit

T une statistique (donc une fonction mesurable dun
echantillon (X
1
, , X
n
) issu du mod`ele) ` a valeurs dans IR
d
, qui sera appelee statistique du test. Le test
sera deni par la fonction

= II
TW
, o` u W est une partie de IR
p
appelee region critique du test (et sa
partie complementaire dans IR
p
est appelee region dacceptation du test). Si

= 1, on choisira H
1
, sinon on
decidera plut ot H
0
.
Donc, `a chaque hypoth`ese H
0
et H
1
, on associe une partie de IR
p
pour la statistique de test

T. En general,
ces parties ne sont pas
0
et
1
. Pour pouvoir precisement determiner la region W, dans un cadre theorique
(qui nest pas le meme que le cadre pratique, voir plus bas), on peut commencer par associer une fonction
puissance `a la statistique de test, puis denir les erreurs de premier esp`ece et de deuxi`eme esp`ece :
35
Denition. Pour la statistique de test

T, on associe :
une fonction puissance, qui est la probabilite de choisir H
1
:
1
IP

T / W).
une erreur de premi`ere esp`ece : P
H0
(Choisir H
1
) = = sup
0
IP

T W) ;
une erreur de seconde esp`ece : P
H1
(Choisir H
0
) = = sup
1
IP

T / W).
La puissance du test est 1 .
Cependant, ce qui vient detre ecrit reste theorique. En pratique, on utilisera plut ot la demarche suivante :
Construction concr`ete dun test : On suppose le probl`eme de test (8). On pose egalement a priori
qui depend du probl`eme pose (mais en general = 0.05), et 1 est appele le niveau du test. Par la
suite, on realise :
1. Lexpression quantitative des hypoth`eses H
0
et H
1
.
2. Le choix de la statistique

T du test.
3. La construction dune region critique W `a lhypoth`ese H
1
par rapport `a

T.
4. La determination explicite de W en fonction de .
5. Le calcul (si possible) de la puissance du test 1 .
6. Pour la realisation de lechantillon, rejet ou acceptation de H
0
.
Remarque :Cependant, en pratique on ne proc`ede pas ainsi. On a donc deux types derreur. Le choix de
lhypoth`ese privilegiee est donc fondamental car le resultat dun test nest pas symetrique. Par exemple,
supposons que lon ait pour mod`ele (IR
n
, B(IR
n
), ^(, 1)
n
, IR) et que lon veuille tester H
0
: = 0
contre H
1
: = 1 `a partir dun echantillon (X
1
, , X
n
) du mod`ele. Nous verrons pourquoi un peu plus
loin, X
n
est une statistique de test pertinente. Par exemple, si n = 1, et X
1
() = X
1
() = 0.8, que va-t-on
choisir entre H
0
et H
1
? Naturellement, une region critique sera de la forme [s, +[, o` u s IR, car X
n
est
un estimateur de . On determine s `a laide de , puisque P
H0
(Choisir H
1
) = = P
0
(X
1
s), donc par
exemple, si = 0.05, s 1.65. Par suite, si X
1
() = 0.8, on accepte H
0
et lerreur de seconde esp`ece est
P
1
(X
1
< s) 0.74, donc tr`es elevee : le test nest pas tr`es discriminant. Maintenant, si on inverse H
0
et H
1
,
soit H
0
: = 1 contre H
1
: = 0, le meme resultat X
1
() = 0.8, conduit `a accepter H
0
, avec une erreur
de second esp`ece encore 0.74. On obtient donc deux resultats opposes pour la meme experience aleatoire.
Les hypoth`eses H
0
et H
1
ne sont clairement pas interchangeable.
La question qui se pose maintenant est de savoir comment trouver une statistique de test. Une idee na-
turelle dans ce cadre parametrique serait dutiliser un estimateur du maximum de vraisemblance.
4.2 Test de Wald
Un estimateur du maximum de vraisemblance permet dassocier `a chaque hypoth`ese du test un ensemble
de meme forme que
0
et
1
. Cependant, la diculte est trouver la loi de lestimateur du maximum de
vraisemblance

`a n xe. Si cela est possible, on utilisera directement

comme statistique de test.
Sinon, de mani`ere plus generale, on connat la loi asymptotique de

n
quand le mod`ele est regulier. Donc
quand n est grand, on pourrait utiliser une loi normale comme approximation de la loi de

n
. Mais, un
nouvel obstacle apparat : la matrice de covariance asymptotique, qui est la matrice dinformation de Fisher
inverse, depend du param`etre . Aussi va-t-on preferer utiliser la statistique de test

T suivante :
Denition. Pour un mod`ele parametrique domine regulier ((

)
n
, /

n
, IP

, ), o` u IR
p
. La statis-
tique de Wald

T pour le test H
0
: =
0
contre H
1
:
1
est :

T
n
= n
t
(

n
) I() (

n
).
Pour montrer theoriquement la pertinence de ce test, on va donc considerer la suite de tests (

T
n
) en se
pla cant dans le grand mod`ele asymptotique :
Theor`eme. Dans le cadre dun mod`ele parametrique ((

)
IN
, /

IN
, (f

d)
IN
, ), o` u IR
p
, domine
par une mesure et regulier, pour le probl`eme de test H
0
: =
0
contre H
1
: ,=
0
, alors, en notant

T
n
la statistique de test de Wald pour le mod`ele projete de taille n sous lhypoth`ese H
0
,

T
n
L

n+

2
(p).
36
La region de rejet asymptotique du test sera donc de la forme

T
n
> s

, o` u s

est le quantile dordre 1


de la loi du
2
(p). La suite de test (

T
n
)
n
a donc une puissance qui tend vers 1 lorsque est xe.
Demonstration : La loi asymptotique de

n
induit la loi asymptotique de

T
n
, car

n I()
1/2
(

n
) suit
asymptotiquement une loi ^(0, I
d
) sous lhypoth`ese H
0
et

T
n
= |

n I()
1/2
(

n
)|
2
.
Voici donc un premier type de test, qui sous certaines conditions de regularites du mod`ele et pour cer-
taines hypoth`eses de tests est interessant. Mais pourrait-on faire mieux ? Et en quel sens ? Desormais, il nous
faut donc denir un moyen de comparaison entre deux tests.
4.3 Test du rapport de vraisemblance
Denition. Sous les hypoth`eses et notations precedentes, on dira quun test est uniformement le plus
puissant (U.P.P.) au seuil si le niveau de

associe ` a la statistique

T est inferieur ou egal ` a et si pour
tout autre test

associe ` a la statistique

T

de niveau inferieur ou egal ` a ,


1
,
IE

) = 1 IP

T / W) 1 IP

/ W

) = IE

).
Denition. Sous les hypoth`eses precedentes, si L

(.) est la vraisemblance, on appellera test du rapport de


vraisemblance (test de Neyman-Person dans le cas dhypoth`eses simples) un test de statistique

T telle que :

T =
sup
0
L

(X
1
, , X
n
)
sup
1
L

(X
1
, , X
n
)
.
La region critique W associee ` a un tel test est de la forme W =] +, K[ (donc si

T < K, on rejette H
0
).
Une des vertus du test du rapport de vraisemblance par rapport au test de Wald est quil peut etre utilise
dans un mod`ele non regulier (mais la question de sa loi, ou de la loi dune fonctionnelle de ce test, demeure).
De plus, la propriete suivante conrme linteret de cette statistique de test :
Propriete (Principe de Lehmann). Dans le cas du test de deux hypoth`eses simples, ou dun test unilateral
( IR), ce test est U.P.P. Dans le cas dun test bilateral, il nexiste pas forcement de test U.P.P.
Demonstration :
Enn, un tel test pour un mod`ele regulier, va pouvoir etre traite de mani`ere generale grace `a la norma-
lite asymptotique de lestimateur du maximum de vraisemblance :
Theor`eme. Dans le cadre dun mod`ele parametrique ((

)
IN
, /

IN
, (f

d)
IN
, ), o` u IR
p
, domine
par une mesure et regulier, pour le probl`eme de test H
0
: =
0
contre H
1
: ,=
0
, alors, en notant

T
n
la statistique du rapport de vraisemblance pour le mod`ele projete de taille n,
2 log(

T
n
)
L

n+

2
(p).
La region de rejet asymptotique du test sera donc de la forme 2 log(

T
n
) > s

, o` u s

est le quantile dordre


1 de la loi du
2
(p). La suite de test (

T
n
)
n
a donc une puissance qui tend vers 1 lorsque est xe.
Demonstration : la demonstration reprend un peu celle de la normalite asymptotique du maximum de
vraisemblance.
37
Universite Paris I, Pantheon - Sorbonne
Premi`ere Annee Master M.A.E.F. 2005 2006
Statistiques I
Controle continu n

1, novembre 2005
Examen de 2 h 00. Tout document ou calculatrice est interdit.
1. On consid`ere une suite (X
i
)
iIN
de variables aleatoires independantes et identiquement
distribuees suivant une loi ^(m,
2
), o` u m IR et
2
> 0 sont des param`etres inconnus.
Soit egalement pour n IN

, X
n
=
1
n
(X
1
+ + X
n
) et
2
n
=
1
n
n

j=1
(X
j
X
n
)
2
.
(a) Pour n xe, determiner le mod`ele statistique parametrique.
(b) Pour n IN

, quelle est la loi de X


n
?
(c) Quelles sont les limites (en probabilite et en loi) de X
n
et de
2
n
(justier...) ?
(d) Montrer que la connaissance de (X
1
, , X
n
) induit celle de (X
1
, , X
n
). Determiner
la loi du vecteur (X
1
, , X
n
). Les (X
k
) sont-elles independantes ?
(e) Soit X
n
=
1
n
(X
1
+ +X
n
). Quelle est la loi de X
n
pour n IN

? En deduire
que X
n
P

n+
m. Montrer egalement que X
n
p.s.

n+
m.
(f) Comment peut-on faire pour savoir quelle suite de variables aleatoires, (X
k
)
k1
ou
(X
k
)
k1
, sapproche le plus vite de m? Conclusion?
(g) Pour le mod`ele parametrique de taille n o` u
2
est suppose connue, montrer que la
statistique X
n
est exhaustive compl`ete. Et la statistique (X
1
, , X
n
) ? Enn, la
statistique X
n
est-elle exhaustive ?
2. En fait, on ne connat pas explicitement chaque X
i
, mais plutot pour tout k IN

,
T
k
= max(X
1
, , X
k
).
(a) La connaissance de (T
1
, , T
n
) induit-elle celle de (X
1
, , X
n
) ?
(b) Determiner la fonction de repartition F
k
de T
k
, puis, apr`es avoir montre son exis-
tence, sa densite f
k
par rapport `a la mesure de Lebesgue, le tout en fonction de la
fonction de repartition F et de la densite f de X
1
.
(c) Determiner, en justiant, le comportement asymptotique (quand n ) de (T
n
)
n
.
(d) Pour k IN

, montrer que T
k
et T
k+1
ne sont pas independantes. Montrer que
IP(T
k+1
= T
k
) =
k
k + 1
. En deduire la mesure de probabilite de la variable T
k+1
T
k
.
La loi de probabilite de la variable T
k
est-elle continue ? Discr`ete ?
(e) La statistique T
n
est-elle exhaustive pour le mod`ele parametrique de taille n o` u
2
est suppose connue ? Et la statistique (T
1
, , T
n
) ?
38
Universite Paris I, Pantheon - Sorbonne
Premi`ere Annee Master M.A.E.F. 2005 2006
Statistiques I
Controle continu n

2, janvier 2006
Examen de 2 h 00. Tout document ou calculatrice est interdit.
1. Soit la variable X qui suit une loi dont la densite f
X
par rapport `a la mesure de Lebesgue
sur ]0, 1] est, avec et K IR :
f
X
(x) = K x

pour tout x ]0, 1],


(a) Determiner K en fonction de , en precisant quelle condition doit verier . En
deduire IE(X) et var(X), en precisant egalement des conditions sur .
(b) On suppose que la suite (X
i
)
iIN
est constituee de variables aleatoires independantes
et identiquement distribuees suivant la meme loi que X. Soit un echantillon observe
(X
1
, . . . , X
n
). On desire estimer `a partir de cet echantillon. Quel est le mod`ele
statistique ? Montrer que ce mod`ele appartient `a la famille exponentielle.
(c) En deduire quil nexiste pas destimateur sans biais ecace de .
(d) Montrer que que log(X) suit une loi connue dont on precisera le param`etre. En
deduire que

n
= 1 n
_
n

i=1
log(X
i
)
_
1
est un estimateur sans biais de (utili-
ser les lois gammas...), puis quil est de variance uniformement minimale parmi les
estimateurs sans biais (Lehmann-Schee...).
2. Soit Y une variable suivant une loi de Bernoulli de param`etre p ]0, 1[ et independante
de X. On denit une variable Z de la mani`ere suivante : si Y = 1, alors Z = X, et si
Y = 0 alors Z = X.
(a) Montrer que Z suit une loi absolument continue par rapport `a la mesure de Lebesgue
sur [1, 0[]0, 1] et que sa densite f
Z
est :
f
Z
(z) = ( + 1) [x[

_
p II
x]0,1]
+ (1 p) II
x[1,0[
_
pour tout x [1, 0[]0, 1].
Calculer IE(Z) et var(Z) (en precisant les conditions sur ).
(b) On suppose que la suite (Z
i
)
iIN
est constituee de variables aleatoires independantes
et identiquement distribuees suivant la meme loi que Z. Soit un echantillon observe
(Z
1
, . . . , Z
n
). On desire estimer (, p) `a partir de cet echantillon. Quel est le mod`ele
statistique ? Montrer que ce mod`ele appartient `a la famille exponentielle.
(c) En deduire une statistique exhaustive minimale compl`ete pour ce mod`ele. Determiner
la matrice dinformation de Fisher du mod`ele, puis la borne de Cramer-Rao. Determiner
une fonction g de (, p) que lon peut estimer sans biais et de mani`ere ecace.
39
(d) Determiner, apr`es avoir montre son unicite, lestimateur (

n
, p
n
) du maximum de
vraisemblance de (, p). Les estimateurs

n
et p
n
sont-ils independants ? Determiner
un theor`eme de la limite centrale verie par (

n
, p
n
). Est-ce un estimateur asymp-
totiquement ecace ?
(e) Determiner une region de conance de niveau 95% sur (, p), en utilisant 1/ les-
timateur ecace de g(, p) 2/ lestimateur de maximum de vraisemblance dans un
cadre asymptotique.
40
Universite Paris I, Pantheon - Sorbonne
Premi`ere Annee Master M.A.E.F. 2005 2006
Statistiques I
Examen terminal, janvier 2006
Examen de 3 h 00. Tout document ou calculatrice est interdit.
1. On consid`ere (X
k
)
kIN
et (X

k
)
kIN
deux suites independantes de variables aleatoires
denies sur le meme espace de probabilite, independantes et identiquement distribuees
suivant les lois respectives ^(,
2
) (pour les X
i
) et ^(

,
2
) (pour les X

i
), o` u (,

)
IR
2
et
2
> 0. Le but du probl`eme est de tester si =

`a partir dun echantillon de


chacune de ces suites.
Soit (X
1
, . . . , X
n
) et (X

1
, . . . , X

n
), o` u n IN

et n

IN

, deux echantillons issus


de (X
k
)
kIN
et (X

k
)
kIN
. On pose Z = (Z
1
, . . . , Z
n+n
) = (X
1
, . . . , X
n
, X

1
, . . . , X

n
)
(a) Determiner le mod`ele statistique associe `a Z = (Z
1
, . . . , Z
n+n
).
(b) Montrer que ce mod`ele est exponentiel. En deduire que et

peuvent etre estimes


ecacement (on notera et

leurs estimateurs respectifs).


(c) Montrer quun estimateur du maximum de vraisemblance de
2
est
2
, avec :

2
=
1
n +n

_
n

j=1
_
Z
j

_
2
+
n+n

j=n+1
_
Z
j

_
2
_
.
Est-ce un estimateur biaise de
2
? Est-il convergent ? Ecace ?
(d) Lorsque n et n

sont grands, deduire de ce qui prec`ede, des intervalles de conance


`a 95% pour et

.
(e) Soit le probl`eme de test :
H
0
: =

contre H
1
: ,=

(
2
restant inconnu). Demontrer que la statistique

T du rapport de vraisemblance
verie :

T =
_

2

2
_
(n+n

)/2
avec
_

2
=
1
n +n

n+n

j=1
_
Z
j
Z
n+n

_
2
Z
n+n
=
1
n +n

n+n

i=1
Z
i
.
En deduire que la region dacceptation du test peut secrire sous la forme
2
K
2
,
avec K dependant du niveau du test.
41
(f) Pour determiner la valeur K en fonction du niveau 1 du test, on peut considerer
la statistique, dite de Fisher,

=
(n +n

)
2
(n +n

)
2
_
n +n

n +n

2
_

2
i. Soit les vecteurs de IR
n+n

, u
1
= (1, . . . , 1), u = (1, . . . , 1, 0, . . . , 0) (soit n fois 1
et n

fois 0) et u

= u
1
u. Montrer que u et u

sont orthogonaux.
ii. Sous lhypoth`ese H
0
, determiner une expression plus simple de P
<u
1
>
(Z), pro-
jete orthogonal de Z sur le sous-espace vectoriel (s.e.v.) engendre par u
1
, et
P
<u,u

>
(Z), projete orthogonal de Z sur le s.e.v. engendre par u et u

.
iii. Montrer que sous lhypoth`ese H
0
, le vecteur Z peut secrire Z = u
1
+ ,
o` u est un vecteur aleatoire gaussien compose de n +n

variables gaussiennes
centrees reduites.
iv. Montrer que sous lhypoth`ese H
0
, (n + n

)
2
=
2
|P
A
()|
2
, o` u |.| est la
norme euclidienne classique sur IR
n+n

et A est un s.e.v. de IR
n+n

que vous
preciserez.
v. En utilisant le Theor`eme de Pythagore, montrer que sous lhypoth`ese H
0
et avec
B est s.e.v. de IR
n+n

que vous preciserez, (n+n

)
2
(n+n

)
2
=
2
|P
B
()|
2
.
vi. En utilisant le Theor`eme de Cochran, montrer que sous lhypoth`ese H
0
,

T

suit
une loi de Fisher `a (1, (n + n

2)) degres de liberte. Lorsque n et n

sont
grands, quelle loi suit approximativement

T

?
vii. Pour nir, determiner K en fonction dun quantile de la loi de Fisher `a (1, (n+
n

2)) degres de liberte.


2. Soit X une variable aleatoire dont la mesure de probabilite est absolument continue par
rapport `a la mesure de Lebesgue sur IR et de densite :
f(x) =

2
exp ( [x m[) pour x IR,
avec m IR et > 0, des param`etres inconnus.
(a) Calculer lesperance et la variance de X.
(b) Calculer IP(X = m) et IP(X < m). En deduire la mediane (theorique) de la loi de
X.
(c) Soit une suite (X
i
)
iIN
de variables aleatoires independantes et identiquement dis-
tribuees suivant la meme loi que X, dont on extrait un echantillon observe (X
1
, . . . , X
2n+1
).
Par ailleurs, on note X
(1)
X
(2)
. . . X
(2n+1)
la statistique dordre associee.
Soit :

H
n
(a) =
1
2n + 1
2n+1

i=1
[X
i
a[ pour a IR.
Calculer

H
n
(X
(n+1)
) en fonction des X
(i)
. Montrer que la fonction a

H
n
(a) est
minimale en X
(n+1)
(on pourra developper

H
n
(X
(n+k)
) en fonction des X
(i)
pour
k > 1).
42
(d) On suppose ici que m = 1, donc que m est connu ( > 0 restant inconnu). Quel
est alors le mod`ele statistique ? Montrer que ce mod`ele appartient `a la famille
exponentielle, et en deduire une statistique exhaustive dont vous montrerez quelle
est compl`ete. Determiner la matrice dinformation de Fisher du mod`ele. Quelle est la
fonction de (`a une transformation ane pr`es) que lon peut estimer ecacement ?
Determiner lestimateur de maximum de vraisemblance de et montrer quil verie
un theor`eme de la limite centrale.
(e) On suppose desormais que m IR est inconnu, tout comme > 0. Quel est
alors le mod`ele statistique ? Montrer que ce mod`ele nappartient pas `a la famille
exponentielle. A laide de la question 2.(c), determiner un estimateur ( m
n
,

n
) du
maximum de vraisemblance du couple (m, ).
(f) Pour a IR, demontrer que

H
n
(a) converge presque s urement quand n vers
IE([X a[). Montrer que la fonction a IR IE([X a[) est minimale en a = m.
En deduire que m
n
p.s.

n+
m, puis que

n
p.s.

n+
.
43
Universite Paris I, Pantheon - Sorbonne
Premi`ere Annee Master M.A.E.F. 2005 2006
Statistiques I
Examen de septembre 2006
Examen de 3 h 00. Tout document ou calculatrice est interdit.
1. On consid`ere (X
k
)
kIN
une suite de variables aleatoires independantes et identiquement
distribuees suivant la loi ^(m, 1), o` u m IR. Soit la suite de variables (Y
k
)
kIN
telle
que pour tout k IN

,
Y
k
= X
1
+ +X
k
.
Soit (Y
1
, . . . , Y
n
), o` u n IN

un echantillon issus de (Y
k
)
kIN
.
(a) Determiner la loi de Y
k
pour k IN

.
(b) Determiner la loi du vecteur (Y
1
, . . . , Y
n
). Montrer que pour i ,= j, Y
i
nest pas
independante de Y
j
.
(c) Determiner le mod`ele statistique associe `a (Y
1
, . . . , Y
n
).
(d) Montrer que ce mod`ele est exponentiel.
(e) Soit J
n
la matrice de covariance de (Y
1
, . . . , Y
n
). Verier que
J
1
n
=
_
_
_
_
_
_
_
2 1 0 0 0 0
1 2 1 0 0 0
0 1 2 1 0 0
: : : : :
0 0 0 0 1 1
_
_
_
_
_
_
_
.
En deduire que m peut etre estime par un estimateur m (que lon precisera) sans
biais et ecace.
(f) Determiner lestimateur du maximum de vraisemblance de m. Est-ce un estimateur
biaise ? Est-il convergent ? Ecace ? Quel est son risque quadratique ?
(g) Determiner la statistique du test de rapport de vraisemblance pour le test
H
0
: m = m
0
contre H
1
: m ,= m
0
,
o` u m
0
est une constante connue. On realise une application numerique de ce test au
niveau 5% pour n = 100. On trouve que m = m
0
+1. Accepte-t-on alors lhypoth`ese
H
0
?
2. Soit X une variable aleatoire dont la mesure de probabilite est absolument continue par
rapport `a la mesure de Lebesgue sur IR et de densite :
f(x) = k
1

x
II
0x
pour x IR,
avec k IR et > 0, des param`etres inconnus.
44
(a) Determiner lexpression de k en fonction de . Calculer lesperance et la variance
de X.
(b) Soit une suite (X
i
)
iIN
de variables aleatoires independantes et identiquement dis-
tribuees suivant la meme loi que X, dont on extrait un echantillon observe (X
1
, . . . , X
n
).
Par ailleurs, on note X
(1)
X
(2)
. . . X
(n)
la statistique dordre associee. On
desire estimer `a partir (X
1
, . . . , X
n
). Quel est alors le mod`ele statistique ? Quel
est la vraisemblance L

du mod`ele ?
(c) Montrer que

T
n
= X
(n)
= max(X
1
, . . . , X
n
) est une statistique exhaustive pour ce
mod`ele.
(d) Montrer que cette statistique est minimale.
(e) Soit (x
1
, . . . , x
n
) IR
n
et le meme n-uplet ordonne min(x
i
) = x
(1)
x
(n)
=
max(x
i
). Montrer que :
IP(X
(1)
x
(1)
, . . . , X
(n)
x
(n)
) = n!IP(X
1
x
(1)
X
1
X
2
x
(2)
X
n1
X
n
x
(n)
).
Montrer par iteration sur les derivees partielles que :

n
x
(1)
. . . x
(n)
IP(X
1
x
(1)
X
1
X
2
x
(2)
X
n1
X
n
x
(n)
) =
n

i=1
f(x
(i)
).
Soit L
(n)

la vraisemblance de (X
(1)
, . . . , X
(n)
). Deduire de ce qui prec`ede que :
L
(n)

(x
(1)
, . . . , x
(n)
) = n! L

(x
1
, . . . , x
n
).
(f) Determiner la densite puis le biais de

T
n
.
(g) Montrer que

T
n
est une statistique exhaustive et compl`ete.
(h) Deduire de ce qui prec`ede un estimateur

T

n
de , sans biais et uniformement de
variance minimale.
(i) Calculer le risque quadratique de

T

n
et en deduire que

T

n
P

n+
, puis, que pour
tout [0, 1[, n

n
)
P

n+
0.
(j) Determiner explicitement un intervalle de conance `a 95% de en fonction de

T

n
.
45
Universite Paris I, Pantheon - Sorbonne
Premi`ere Annee Master M.A.E.F. 2006 2007
Statistiques I
Controle continu n

1, novembre 2006
Examen de 2 h 00. Tout document ou calculatrice est interdit.
1. On consid`ere une suite (
i
)
iIN
de variables aleatoires independantes et identiquement
distribuees suivant une loi ^(0,
2
), o` u
2
> 0 est un param`etre inconnu. Pour tout
n IN

, on denit :
X
n
=
n

n1
,
o` u IR est inconnu. On notera par la suite = (
2
, ).
(a) Montrer que var(
2
i
) = 2
4
.
(b) Pour tout i IN

, determiner IE(X
i
) et var(X
i
). Montrer que (X
i
)
i
est une suite
de variables identiquement distribuees dont vous preciserez la loi.
(c) Montrer que cov(X
i
, X
j
) = (1 +
2
)
2
si i = j, cov(X
i
, X
j
) =
2
si [i j[ = 1
et cov(X
i
, X
j
) = 0 sinon.
(d) Pour n xe, en deduire la loi du vecteur (X
1
, . . . , X
n
), puis determiner le mod`ele
statistique parametrique associe en precisant une mesure dominante.
(e) Soit
2
n
=
1
n
n

i=1
X
2
i
. Montrer que
2
n
est un estimateur non biaise de
2
. Soit
Z
(1)
n
=
1
n
[n/2]

k=1
X
2
2k
et Z
(2)
n
=
1
n
[(n+1)/2]

k=1
X
2
2k1
,
avec [x] la partie enti`ere de x. Montrer que les suites de variables (Z
(1)
n
)
n
et (Z
(2)
n
)
n
convergent presque s urement (preciser leurs limites) et quelles verient un theor`eme
de la limite centrale.
(f) Montrer que si deux suites de variables convergent presque s urement, la suite com-
posee de leurs sommes converge presque s urement. En deduire que (
2
n
)
n
converge
presque s urement vers
2
.
(g) Soit
n
=
1
n 1
n1

i=1
X
i
X
i+1
. En utilisant le meme type dargument que precedemment,
montrer que (
n
)
n
converge presque s urement vers
2
. En deduire un estimateur
de convergeant presque s urement.
2. Soit X une variable aleatoire dont la loi est absolument continue par rapport `a la mesure
de Lebesgue sur IR et telle que sa densite par rapport `a cette mesure soit :
f
,a
(x) = K
1
[x[

II
axa
,
46
avec a IR et IR. Soit (X
1
, . . . , X
n
) un echantillon de n v.a.i.i.d. de meme loi que
X.
(a) Apr`es avoir preciser lensemble des valeurs pour = (a, ), determiner K en
fonction de a et .
(b) Calculer IE(X) apr`es avoir verier que ce calcul peut etre eectue pour .
(c) Quel est le mod`ele statistique associe `a (X
1
, . . . , X
n
).
(d) Montrer que

S = ([X
1
[, . . . , [X
n
[) est une statistique exhaustive. Montrer que pour
n 3 cette statistique nest pas minimale.
(e) Determiner une statistique

T = (

T
1
,

T
2
) `a valeurs dans [0, +[
2
qui soit exhaustive
minimale pour tout n IN.
47
Universite Paris I, Pantheon - Sorbonne
Premi`ere Annee Master M.A.E.F. 2006 2007
Statistiques I
Controle continu n

2, janvier 2007
Examen de 2 h 00. Tout document ou calculatrice est interdit.
1. Soit X une variable aleatoire suivant la loi suivante :
IP(X = 1) = IP(Y = 1) = p et IP(X = 0) = 1 2p,
o` u p est un param`etre reel inconnu.
(a) Determiner lensemble des valeurs possibles pour p. Calculer EX et varX.
(b) On suppose que la suite (X
i
)
iIN
est constituee de variables aleatoires independantes
et identiquement distribuees suivant la meme loi que X. Soit un echantillon (X
1
, . . . , X
n
).
Determiner le mod`ele statistique associe `a cet echantillon et determiner une mesure
dominant ce mod`ele. Montrer que le mod`ele appartient `a la famille exponentielle.
En deduire une statistique exhaustive compl`ete pour ce mod`ele. Montrer que p
peut etre estime ecacement et donner un tel estimateur. Calculer la borne de
Cramer-Rao et verier quelle est bien atteinte par cet estimateur.
(c) On denit la suite (Y
i
)
iIN

`a partir de (X
i
)
iIN
de la mani`ere suivante :
Y
i+1
= X
i
X
i+1
pour i IN.
Determiner la loi de Y
i
. Montrer que cov(Y
i
, Y
i+1
) = 0. Les (Y
i
)
i
sont-elles independantes ?
(d) Montrer que ([Y
1
[, . . . , [Y
n
[) est une statistique exhaustive pour le mod`ele statis-
tique induit par (Y
1
, , Y
n
).
2. Soit la variable X qui suit une loi dont la densite f
X
par rapport `a la mesure de Lebesgue
sur IR est, avec > 0 et > 0 :
f
X
(x) = K x

II
0x
pour tout x IR,
(a) Determiner K en fonction de et .
(b) Montrer que Y = log(/X) suit une loi exponentielle dont on precisera le param`etre.
(c) On suppose que la suite (X
i
)
iIN
est constituee de variables aleatoires independantes
et identiquement distribuees suivant la meme loi que X. Soit un echantillon (X
1
, . . . , X
n
).
On suppose que (, ) est inconnu. Preciser alors le mod`ele statistique forme par
cet echantillon et la mesure dominante. Ce mod`ele appartient-il `a la famille expo-
nentielle ?
48
(d) Dans cette question, et uniquement dans cette question, on suppose que est
connu. Preciser alors le mod`ele statistique. Ce mod`ele appartient-il `a la famille
exponentielle ? Montrer que lestimateur du maximum de vraisemblance
n
de
existe, est unique et secrit :

n
=
1
1
n

n
i=1
log(/X
i
)
1
Montrer que
n
converge presque s urement vers et quil verie un theor`eme de
la limite centrale que lon precisera. En deduire un intervalle de conance `a 95%
sur pour n grand.
(e) Dans cette question, et sont inconnus. Determiner une statistique exhaustive
pour le mod`ele. En vous aidant de la question precedente, determiner lestima-
teur du maximum de vraisemblance (

n
,
n
) de (, ). Determiner la fonction de
repartition de log(/

n
) et en deduire que

n
P

n+
, puis que

nlog(/

n
)
P

n+
0.
(f) Soit (U
n
)
nIN
et (V
n
)
nIN
deux suites de variables aleatoires denies sur le meme es-
pace de probabilite. Montrer que si (U
n
)
n
converge vers une loi P
0
et (V
n
)
n
converge
en probabilite vers 0, alors (U
n
+V
n
)
n
converge en loi vers P
0
(on pourra par exemple
majorer la dierence de fonctions caracteristiques). En deduire que
n
suit le meme
theor`eme de la limite centrale que
n
.
49
Universite Paris I, Pantheon - Sorbonne
Premi`ere Annee Master M.A.E.F. 2006 2007
Statistiques I
Examen terminal, janvier 2007
Examen de 3 h 00. Tout document ou calculatrice est interdit.
1. On consid`ere une suite de variables aleatoires (X
k
)
kIN
denies sur le meme espace de
probabilite, independantes et identiquement distribuees suivant une loi de Bernoulli de
param`etre p. On denit :
Y = min k IN

, X
k
= 0.
(a) Comment peut-on interpreter la variable Y ? Montrer que la loi de Y est :
IP(Y = k) = p
k1
(1 p) pour k IN

.
(b) On suppose que (Y
1
, . . . , Y
n
) est un echantillon de variables aleatoires independantes
et identiquement distribuees suivant la loi de Y avec p ]0, 1[ est inconnu. Determiner
le mod`ele statistique et sa mesure dominante. Montrer que ce mod`ele est exponen-
tiel. En deduire, un estimateur p
n
de p sans biais et ecace. Determiner la borne
de Cramer-Rao et verier que cette borne est bien atteinte par p
n
.
(c) La variable Y est tronquee lorsquelle est trop grande, par un param`etre T IN

,
cest-`a-dire que lon denit une variable Y
T
telle que Y
T
= min(Y, T).
2. Soit X une variable aleatoire dont la mesure de probabilite est absolument continue par
rapport `a la mesure de Lebesgue sur IR et de densite :
f(x) =

2
exp ( [x m[) pour x IR,
avec m IR et > 0, des param`etres inconnus.
(a) Calculer lesperance et la variance de X.
(b) Calculer P(X = m) et P(X < m). En deduire la mediane (theorique) de la loi de
X.
(c) Soit une suite (X
i
)
iIN
de variables aleatoires independantes et identiquement dis-
tribuees suivant la meme loi que X, dont on extrait un echantillon observe (X
1
, . . . , X
2n+1
).
Par ailleurs, on note X
(1)
X
(2)
. . . X
(2n+1)
la statistique dordre associee.
Soit :

H
n
(a) =
1
2n + 1
2n+1

i=1
[X
i
a[ pour a IR.
Calculer

H
n
(X
(n+1)
) en fonction des X
(i)
. Montrer que la fonction a

H
n
(a) est
minimale en X
(n+1)
(on pourra developper

H
n
(X
(n+k)
) en fonction des X
(i)
pour
k > 1).
50
(d) On suppose ici que m = 1, donc que m est connu ( > 0 restant inconnu). Quel
est alors le mod`ele statistique ? Montrer que ce mod`ele appartient `a la famille
exponentielle, et en deduire une statistique exhaustive dont vous montrerez quelle
est compl`ete. Determiner la matrice dinformation de Fisher du mod`ele. Quelle est la
fonction de (`a une transformation ane pr`es) que lon peut estimer ecacement ?
Determiner lestimateur de maximum de vraisemblance de et montrer quil verie
un theor`eme de la limite centrale.
(e) On suppose desormais que m IR est inconnu, tout comme > 0. Quel est
alors le mod`ele statistique ? Montrer que ce mod`ele nappartient pas `a la famille
exponentielle. A laide de la question 2.(c), determiner un estimateur ( m
n
,

n
) du
maximum de vraisemblance du couple (m, ).
(f) Pour a IR, demontrer que

H
n
(a) converge presque s urement quand n vers
IE([X a[). Montrer que la fonction a IR IE([X a[) est minimale en a = m.
En deduire que m
n
p.s.

n+
m, puis que

n
p.s.

n+
.
51
Universite Paris I, Pantheon - Sorbonne
Premi`ere Annee Master M.A.E.F. 2006 2007
Statistiques I
Examen de septembre 2007
Examen de 3 h 00. Tout document ou calculatrice est interdit.
1. Soit la fonction f
a
(x) =
1
2
(a a
2
x) II
{1/ax1/a}
o` u a > 0.
(a) Demontrer que f
a
est une densite de probabilite par rapport `a la mesure de Lebesgue
et la tracer.
(b) On suppose que X est une variable aleatoire de densite f
a
. Determiner IEX et varX.
(c) Soit (X
k
)
kIN

une suite de variables aleatoires independantes, telle que la densite


de X
n
soit f
n
pour tout n IN

. Determiner la limite en probabilite de (X


k
)
kIN

lorsque n .
(d) Soit (X
1
, . . . , X
n
) un n-echantillon de v.a.i.i.d. de meme densite f
a
. On suppose que
a est inconnu. Determiner lestimateur du maximum de vraisemblance a
n
pour a.
Calculer la fonction de repartition de a
n
et en deduire sa convergence en probabilite
vers a.
(e) Pour > 0, determiner un intervalle de conance de niveau 1 pour a.
(f) Determiner le test du rapport de vraisemblance de niveau pour tester lhypoth`ese
H
0
: a = a
0
, contre lhypoth`ese H
1
: a ,= a
0
et determiner la zone dacceptation
du test en fonction de .
(g) Proposer un autre estimateur convergent de a.
2. Une compagnie fabrique des piles et sinteresse `a savoir quelle est leur duree de vie
moyenne T. Pour ce faire, on consid`ere 1000 piles produites le meme jour que lon
soumet `a la meme activite. Comme on ne veut pas attendre que toutes les piles soient
usees, on decide darreter lexperience au bout de 10 jours et de compter combien sont
encore en vie. Soit N
10
ce nombre.
(a) Dans une premi`ere approximation, on suppose que la duree de vie dune pile peut
etre modelisee par une loi exponentielle de param`etre > 0. Quelle est alors la duree
de vie moyenne (theorique) T dune pile en fonction de ? Quelle est, en fonction
de T, la probabilite quune pile meure avant 10 jours ? Montrer alors que N
10
/1000
suit approximativement un theor`eme de la limite centrale dont on precisera les
param`etres en fonction de T. En deduire alors un estimateur

T de T en fonction
de N
10
/1000 dont on donnera un theor`eme de la limite centrale.
(b) Montrer que N
10
nest pas une statistique exhaustive pour le param`etre T par rap-
port `a lechantillon des 1000 durees de vie des piles. Et si lon avait attendu x jours
au lieu de 10 ? Determiner alors une equation veriee par x tel que

T estime le
52
mieux T (donc trouver x tel que

T soit de variance minimale). Ce resultat vous
semble t-il en pratique interessant ?

You might also like