Cours de Statistiques PDF

1
Universite Paris I, Pantheon - Sorbonne

Première annee Master M.A.E.F. 2007 2008
Statistiques
Plan du cours
1. Quelques rappels la theorie de la mesure.
2. Quelques rappels sur les applications de la theorie de la mesure aux probabilites.
3. Estimation parametrique.
4. Tests parametriques.
Bibliographie
Livres pour revoir les bases....
1. Baillargeon, B. Probabilites, statistiques et techniques de regression. SMG.
2. Bercu, B., Pamphile, P. et Azoulay, E. Probabilites et Applications - Cours Exercices. Edisciences.
3. Dress, F. Probabilites et Statistique. Dunod.
4. Lecoutre, J.-P. Statistiques et Probabilites. Dunod.
Theorie de la mesure et applications aux probabilites
Ansel et Ducel, Exercices corriges en theorie de la mesure et de lintegration, Ellipses.
Barbe, P. et Ledoux, M., Probabilites, Belin.
Dacunha-Castelle, D. et Duo, M., Probabilites et Statistiques (I), Masson
Jacod, J., Cours dintegration, http ://www.proba.jussieu.fr/pageperso/jacod.html.
Jacod, J., Cours de Probabilites, http ://www.proba.jussieu.fr/pageperso/jacod.html.
Toulouse, P. Thèmes de probabilites et statistiques, Masson.
Statistiques inferentielles
Dacunha-Castelle, D. et Duo, M., Probabilites et Statistiques (I), Masson.
Fourdrinier, D., Statistique inferentielle, Dunod.
Lecoutre, J.-M. et Tassi, P., Statistique non parametrique et robustesse, Economica.
Milhaud, X., Statistique, Belin.
Monfort, A., Cours de statistique mathematique, Economica.
Saporta, G., Probabilites, analyse des donnees et statistiques. Technip.
Tsybakov, A. Introduction ` a la statistique non-parametrique. Collection : Mathematiques et Applica-
tions, Springer.
2
Cours de STATISTIQUES 1
1 Rappels sur la theorie de la mesure
Introduction
Il demeure des choses inconnues à partir des connaissances anterieures en probabilites :
Quest-ce quun evenement et lensemble de tous les evenements ?
Que se passe-t-il pour des probabilites devenements moins classiques (par exemple lensemble des
decimaux) ?
Comment traiter une variable aleatoire qui est continue et discrète à la fois (par exemple le nombre de
minutes passees devant la TV) ?
1.1 Mesures
1.1.1 Tribus
Notation. est un ensemble (ni ou inni).
T() est lensemble de tous les sous-ensembles (parties) de .
Rappel. Soit E un ensemble. E est dit denombrable sil existe une bijection entre E et IN ou un sous-
ensemble de IN. Par exemple, un ensemble ni, ZZ, ID, ZZ ZZ, Q
sont denombrables. En revanche, IR nest

pas denombrable.
Denition. Soit une famille T de parties de (donc T T()). On dit que T est une algèbre si :
T ;
lorsque A T alors ( A) T ;
pour tout n IN
, lorsque (A
1
, , A
n
) T
n
alors A
1
A
n
T.
Denition. Soit une famille / de parties de (donc / T()). On dit que / est une tribu (ou -algèbre)
sur si :
T ;
lorsque A T alors ( A) T ;
pour I IN, lorsque (A
i
)
iI
T
I
alors
iI
A
i
/.
Exemple. Cas du Pile ou Face.
Cas o` u est inni : = IN par exemple.
Propriete. Avec les notations precedentes :
1. /;
2. si A et B sont dans la tribu /, alors A B est dans /;
3. si /
1
et /
2
sont deux tribus sur , alors /
1
/
2
est une tribu sur . Plus generalement, pour I IN,
si (/
i
)
iI
ensemble de tribus sur , alors
iI
/
i
est une tribu sur ;
4. si /
1
et /
2
sont deux tribus sur , alors /
1
/
2
nest pas forcement une tribu sur .
Denition. Si c est une famille de parties de (donc c T()), alors on appelle tribu engendree par
c, notee (c), la tribu engendree par lintersection de toutes les tribus contenant c (on peut faire la meme
chose avec des algèbres).
Remarque. La tribu engendree est la plus petite tribu (au sens de linclusion) contenant la famille c.
Rappel. Un ensemble ouvert U dans un espace metrique X est telle que pour tout x U, il existe
r > 0 tel que B(x, r) U.
On dit quun ensemble dans un espace metrique X est ferme si son complementaire dans X est ouvert.
Denition. Soit un espace metrique. On appelle tribu borelienne sur , notee, B(), la tribu engendree
par les ouverts de . Un ensemble de B() est appele borelien.
Exemple. Boreliens sur IR, sur ]0, 1[.
Boreliens sur IR
2
.
3
1.1.2 Espace mesurable
Denition. Soit un ensemble et soit / une tribu sur . On dit que (, /) est un espace mesurable.
Corollaire. Quand on sinteressera aux probabilites, on dira que (, /) est un espace probabilisable.
Propriete. Si (
i
, /
i
)
i
sont n espaces mesurables, alors un ensemble elementaire de =
1

n
est
une reunion nie densembles A
1
A
n
o` u chaque A
i
/
i
. Lensemble des ensembles elementaires est
une algèbre et on note /
1
/
n
(on dit /
1
tensoriel /
2
... tensoriel /
n
) la tribu sur engendree par
ces ensembles elementaires.
Exemple. Paves de IR
d
.
Denition. On appelle espace mesurable produit des (
i
, /
i
)
i
lespace mesurable
_
n
i=1
i
,
n
i=1
/
i
_
.
Exemple. Pile / Face 2 fois.
1.1.3 Denitions et Proprietes dune mesure
Denition. Soit (, /) un espace mesurable. Lapplication : / [0, +] est une mesure si :
() = 0.
Pour tout I IN et pour (A
i
)
iI
famille disjointe de / (telle que A
i
A
j
= pour i ,= j), alors
_
_
iI
A
i
_
=
iI
(A
i
) (propriete dite de -additivite).
Denition. Avec les notations precedentes :
Si () < +, on dit que est nie.
Si () < M avec M < +, on dit que est bornee.
Si () = 1, on dit que est une mesure de probabilite.
Exemple. Cas de = IR, de IN, ou IR
2
.
Denition. Si (, /) est un espace mesurable (resp. probabilisable) alors (, /, ) est un espace mesure
(resp. probabilise quand est une probabilite).
Remarque. Sur (, /), on peut denir une innite de mesures.
Propriete. Soit (, /, ) un espace mesure et (A
i
)
iIN
, une famille de /.
1. Si A
1
A
2
, alors (A
1
) (A
2
).
2. Si (A
1
) < + et (A
2
) < +, alors (A
1
A
2
) +(A
1
A
2
) = (A
1
) +(A
2
).
3. Pour tout I IN, on a
_
_
iI
A
i
_
iI
(A
i
).
4. Si A
i
A
i+1
pour tout i IN (suite croissante en sens de linclusion), alors ((A
n
))
nIN
est une suite
croissante convergente telle que
_
_
iIN
A
i
_
= lim
i+
(A
i
) (meme si cette limite est +).
5. Si A
i+1
A
i
pour tout i IN (suite decroissante en sens de linclusion) et (A
0
) < +, alors
((A
n
))
nIN
est une suite decroissante convergente telle que
_
iIN
A
i
_
= lim
i+
(A
i
).
Exemple. 1. Soit (, /, ) un espace mesure. On denit (A) = (A B) o` u B /. mesure ?
2. Si
1
et
2
mesures sur (, /),
1
+
2
et sont-elles des mesures ?
Denition. Soit (, /, ) un espace mesure et (A
i
)
iIN
une famille de /.
1. On denit limsup(A
n
)
n
=
nIN
_
mn
A
m
(intuitivement, limsup(A
n
)
n
est lensemble des tels que
appartienne ` a une innite de A
n
).
4
2. On denit liminf(A
n
)
n
=
_
nIN
mn
A
m
(intuitivement, liminf(A
n
)
n
est lensemble des tels que
appartienne ` a tous les A
n
sauf ` a un nombre ni dentre eux).
Exemple. Cas des suites croissantes et decroissantes densembles.
Theorème (Theorème dextension de Hahn - Caratheodory). Si est un ensemble, T une algèbre sur ,
et une application de T dans [0, +] additive (telle que (AB) = (A) +(B) pour AB = ), alors si
/ est la tribu engendree par T, il existe une mesure sur la tribu / qui concide avec sur T (cest-` a-dire
que pour tout F T,

(F) = (F)). On dit que prolonge sur la tribu /.
Exemple. Denition de la mesure de Lebesgue sur IR, IR
n
,...
Denition. Soit (, /, ) un espace mesure.
1. Pour A /, on dit que A est -negligeable si (A) = 0.
2. Soit une propriete T dependant des elements de . On dit que T est vraie -presque partout (-
presque s urement sur un espace probabilise) si lensemble des pour laquelle elle nest pas veriee est
-negligeable.
Exemple. Mesure de Lebesgue sur IN ou Q
.
La propriete la suite de fonction f
n
(x) = x
n
converge vers la fonction f(x) = 0 est vraie -presque
partout sur [0, 1].
Soit (IR, B(IR), ) et soit F la fonction denie par F(x) = (] , x]) pour x IR.
1.1.4 Fonctions mesurables
Rappel. Soit f : E F, o` u E et F sont 2 espaces metriques.
Pour I F, on appelle ensemble reciproque de I par f, lensemble f
1
(I) = x E, f(x) I.
(f continue) (pour tout ouvert U de F alors f
1
(U) est un ouvert de E).
Denition. Soit f : E F et soit 1 une tribu sur F. On note f
1
(1) lensemble de sous-ensembles de
tel que f
1
(1) = f
1
(I), I 1.
Propriete. Soit (
, /
) un espace mesurable et soit f :
. Alors f
1
(/) est une tribu sur appelee
tribu engendree par f.
Denition. Soit (, /) et (
, /
) deux espaces mesurables. Une fonction f :
est dite mesurable

pour les tribus / et /
si et seulement si f
1
(/
) / (donc si et seulement si A
, alors f
1
(A
) /).
Exemple. Fonction indicatrice.
Combinaison lineaire de fonctions indicatrices.
Remarque. Dans le cas o` u (, /) est un espace probabilisable, et si f : IR, alors si f est une fonction
mesurable sur / et B(IR), alors f est une variable aleatoire.
Exemple. Nombre de Piles dans un jeu de Pile/Face.
Remarque. Dans le cas o` u (, /) est un espace mesurable, et si f : (
, B(
)), o` u
est un espace
metrique et B(
) lensemble des boreliens de
, si f est une fonction mesurable sur / et B(
), alors f
est dite fonction borelienne.
Proposition. Soit (, /) et (
, /
) deux espaces mesurables et f :
. Soit T une famille de sous-

ensembles de
telle que (T) = /
. Alors
1. f
1
(T) engendre la tribu f
1
(/).
2. (f mesurable) (f
1
(T) /)
Consequence. Si (, /) et (
, /
) sont deux espaces mesurables boreliens, alors toute application

continue de
est mesurable.
Pour montrer quune fonction f : IR est mesurable, il sut de montrer que la famille densemble
( , f() a)
aIR
/.
5
Propriete. Soit f mesurable de (, /) dans (
, /
) et g mesurable de (
, /
) dans (
, /
). Alors
g
0
f est mesurable dans / et /
.
Soit f
1
mesurable de (, /) dans (
1
, /
1
) et f
2
mesurable de (, /) dans (
2
, /
2
). Alors h :
1

2
telle que h() = (f
1
(), f
2
()) est mesurable dans / et /
1
/
2
.
Soit (f
n
)
nIN
une suite de fonctions mesurables de (, /) dans (
, B(
)), o` u
est un espace
metrique, telle quil existe une fonction f limite simple de (f
n
) (donc , lim
n
f
n
() = f()).
Alors f est mesurable dans / et B(
).
Denition. Soit f mesurable de (, /, ) dans (
, /
) et soit
f
: /
[0, +] telle que pour tout A
,
on ait
f
(A
) = (f
1
(A
)). Alors
f
est une mesure sur (
, /
) appelee mesure image de par f.

Cas particulier. Si est une mesure de probabilite et si X est une variable aleatoire alors
X
est la mesure
(loi) de probabilite de la variable aleatoire X.
1.1.5 Cas des fonctions reelles mesurables
Propriete. Soit f et g deux fonctions reelles mesurables (de (, /, ) dans (IR, B(IR))). Alors .f, f + g,
min(f, g) et max(f, g) sont des fonctions reelles mesurables.
Propriete. Soit (f
n
)
nIN
une suite de fonctions reelles mesurables. Alors inf(f
n
) et sup(f
n
) sont des fonc-
tions reelles mesurables.
Denition. Soit f : IR. Alors f est dite etagee sil existe une famille densembles disjoints (A
i
)
1in
de et une famille de reels (
i
)
1in
telles que pour tout , on ait f() =
n
i=1
i
II
Ai
().
Remarque. Si les A
i
sont tous dans / tribu sur , alors f est /-mesurable.
Theorème. Toute fonction reelle mesurable ` a valeurs dans [0, +] est limite simple dune suite croissante
de fonctions etagees.
Consequence. Soit f une fonction reelle mesurable. Alors f est limite simple de fonctions etagees.
1.2 Integration de Lebesgue
Dans toute la suite, on considère (, /, ) un espace mesure.
1.2.1 Integrale de Lebesgue dune fonction positive
Denition. 1. Soit f = II
a
, o` u A /. Alors :
_
f d =
_
f()d() = (A).
2. Soit f = II
a
, o` u A / et soit B /. Alors :
_
B
f d =
_
B
f()d() =
_
II
B
(A)()f()d() = (A B).
3. Soit f une fonction etagee positive telle que f =
n
i=1
i
II
Ai
, o` u les A
i
/ et
i
> 0 et soit B /.
Alors :
_
B
f d =
_
B
f()d() =
_
II
B
()f()d() =
n
i=1
i
(A
i
B).
Exemple. Fonction II
Q
, fonctions en escalier,...
Denition. Soit f une fonction /-mesurable positive et soit B /. Alors lintegrale de Lebesgue de f par
rapport ` a sur B est :
_
B
f d =
_
II
B
()f()d() = sup
__
B
g d, pour g etagee positive telle que g f
_
.
6
Propriete. Soit f une fonction /-mesurable positive et soit A et B /. Alors :
1. Pour c 0,
_
B
cf d = c
_
B
f d.
2. Si A B, alors
_
A
f d
_
B
f d.
3. Si g est une fonction /-mesurable positive telle que 0 f g alors 0
_
B
f d
_
B
g d.
4. Si (B) = 0 alors
_
B
f d = 0.
Theorème (Theorème de convergence monotone (Beppo-Levi)). Si (f
n
)
n
est une suite croissante de fonc-
tions mesurables positives convergeant simplement vers f sur , alors :
lim
n
__
f
n
d
_
=
_
f d =
_
lim
n
f
n
d.
Consequence. Pour les series de fonctions mesurables positives, on peut toujours appliquer le Theorème
de convergence monotone et donc inverser la somme et lintegrale.
Lemme (Lemme de Fatou). Soit (f
n
)
n
est une suite de fonctions mesurables positives alors :
_
_
liminf
n
f
n
_
d liminf
n
_
f
n
d.
Exemple. Appliquer Fatou ` a (f
n
) telle que f
2n
= II
A
et f
2n+1
= II
B
.
1.2.2 Integrale de Lebesgue dune fonction reelle et proprietes
Denition. Soit (, /, ) un espace mesure, B / et soit f une fonction /-mesurable ` a valeurs reelles
telle que f = f
+
f
avec f
+
= max(f, 0) et f
= max(f, 0). On dit que f est -integrable sur B si

_
B
[f[ d < +. On a alors
_
B
f d =
_
B
f
+
d
_
B
f
d.
Notation. Lorsque f est -integrable sur B, soit
_
[f[ d < +, on note f L
1
(, /, ) (on dit que f
est L
1
).
Exemple. Integrale de Riemann et integrale de Lebesgue.
Cas de la masse de Dirac.
Propriete. On suppose que f et g L
1
(, /, ). Alors :
1.
_
(f +g)d =
_
fd +
_
gd pour (, ) IR
2
.
2. Si f g alors
_
f d
_
g d.
Theorème (Theorème de convergence dominee de Lebesgue). Soit (f
n
)
n
est une suite de fonctions de
L
1
(, /, ) telles que pour tout n IN, [f
n
[ g avec g L
1
(, /, ). Si on suppose que (f
n
) converge
simplement vers f sur alors :
lim
n
_
f
n
d =
_
f d.
Extension. Le Theorème de Lebesgue sapplique egalement dans le cas o` u (f
n
)
n
converge presque partout
vers f.
Exemple. Convergence dintegrale dependant dun paramètre : par exemple
_

0
f(x)
1 +x
n
dx.
7
Theorème (Inegalite de Jensen). Soit (, /, IP) un espace probabilise, soit : IR IR une fonction convexe
et soit f : IR mesurable telle que (f) soit une fonction integrable par rapport ` a P. Alors :
__
f dIP
_
_
(f) dIP.
Exemple. Soit X une v.a. sur (, /, IP). Alors (IEX) IE((X)).
1.2.3 Mesures induites et densites
Theorème (Theorème du Transport). Soit f une fonction mesurable de (, /, ) dans (
, /
) telle que
f
soit la mesure induite par f (donc
f
(A
) = (f
1
(A
)) pour A
) et soit une fonction mesurable de

(
, /
) dans (IR, B(IR)). Alors, si

0
f L
1
(, /, ),
_
d
f
=
_
0
f d.
Denition. Soit et deux mesures sur (, /). On dit que domine (ou est dominee par ) et que
est absolument continue par rapport ` a lorsque pour tout A /, (A) = 0 = (A) = 0.
Propriete. Soit (, /, ) un espace mesure et f une fonction denie sur (, /) mesurable et positive. On
suppose que pour A /, (A) =
_
A
f d. Alors, est une mesure sur (, /), dominee par . De plus, pour
toute fonction g denie sur (, /) mesurable et positive,
_
gd =
_
g.fd.
Enn, g est integrable si et seulement si g.f est integrable.
Denition. On dit que mesure sur (, /) est -nie lorsquil existe une famille (A
i
)
iI
, avec I denombrable,
densembles de / telle que
A
i
= et (A
i
) < + pour tout i I.
Theorème (Theorème de Radon-Nikodym). On suppose que et sont deux mesures -nies sur (, /)
telles que domine . Alors il existe une fonction f denie sur (, /) mesurable et positive, appelee densite
de par rapport ` a , telle que pour tout A /, (A) =
_
A
f d.
Theorème (Theorème de Fubini). Soit =
1

2
, / = /
1
/
2
et =
1

2
(mesures nies),
o` u (
1
, /
1
,
1
) et (
2
, /
2
,
2
) sont des espaces mesures. Soit une fonction f : IR, /-mesurable et
-integrable. alors :
_
fd =
_
1
__
2
f(
1
,
2
)d
2
(
2
)
_
d
1
(
1
) =
_
2
__
1
f(
1
,
2
)d
1
(
1
)
_
d
2
(
2
).
1.2.4 Espaces L
p
Denition. Soit (, /, ) un espace mesure. On appelle espace L
p
(, /, ), o` u p > 0, lensemble des
fonctions f : IR, mesurables et telles que
_
[f[
p
d < +.
Denition. Pour f L
p
(, /, ), o` u p > 0, on note | f |
p
=
__
[f[
p
d
_
1/p
.
Propriete (Inegalite de H older). Soit p > 1 et q > 1 tels que
1
p
+
1
q
= 1, et soit f L
p
(, /, ) et
g L
q
(, /, ). Alors, f g L
1
(, /, ) et
| f g |
1
| f |
p
. | g |
q
.
Propriete (Inegalite de Minkowski). Soit p > 1 et soit f et g L
p
(, /, ). Alors, f +g L
p
(, /, ) et
| f +g |
p
| f |
p
+ | g |
p
.
8
Remarque. Pour p > 1, | . |
p
denie ainsi sur une semi-norme sur L
p
(, /, ). Pour obtenir une norme,
il faut se place dans lespace IL
p
(, /, ) obtenu en quotientant L
p
(, /, ) par la relation dequivalence
f = g -presque partout (cest-` a-dire que dans IL
p
(, /, ) on dira que f = g lorsque f = g -presque
partout).
Denition. Pour f et g IL
2
(, /, ), on denit le produit scalaire < f, g >=
_
f.g d. On muni ainsi
IL
2
(, /, ) dune structure despace de Hilbert. On dira que f est orthogonale ` a g lorsque < f, g >= 0.
Consequence. Si A est un sous-espace vectoriel ferme de IL
2
(, /, ) (par exemple un sous-espace de
dimension nie), alors pour tout f IL
2
(, /, ), il existe un unique projete orthogonal de f sur A, note
f
A
, qui verie f
A
= Arginf
gA
| g f |
2
.
2 Applications de la theorie de la mesure et de lintegration en
Probabilites
2.1 Esperance de variables aleatoires
Denition. Soit X une variable aleatoire sur (, /, IP) un espace probabilise. Alors si X IL
1
(, /, IP),
on denit lesperance de X par le nombre IEX =
_
XdIP. Plus generalement, si : IR IR est borelienne
et si (X) IL
1
(, /, IP), on denit lesperance de (X) par IE(X) =
_
(X)dIP.
Propriete. Si X est une variable aleatoire sur (, /, IP), si : IR IR est borelienne telle que (X)
IL
1
(, /, IP), et si IP
X
est la mesure de probabilite de X alors :
IE(X) =
_
IR
(x) dIP
X
(x).
Consequence. Si IP
X
est absolument continue par rapport ` a la mesure de Lebesgue (donc X est une
v.a. dite absolument continue), de densite f
X
, alors IE(X) =
_
IR
(x)f
X
(x)dx.
Si IP
X
est absolument continue par rapport ` a la mesure de comptage sur IN (donc X est une v.a. dite
discrète), de densite p
X
, alors IE(X) =
k=0
p
X
(k) (k).
Propriete. 1. Soit X et Y des variables aleatoires telles que X et Y IL
1
(, /, IP). Alors pour tout
(a, b) IR
2
, aX +bY IL
1
(, /, IP) et
IE(aX +bY ) = aIEX +bIEY.
2. Soit X une variable aleatoire sur (, /, IP), et soit A /. Alors IE(II
A
(X)) = IP(X A).
3. Soit X et Y des variables aleatoires telles que X IL
p
(, /, IP) et Y IL
q
(, /, IP) avec
1
p
+
1
q
= 1
et p > 1, q > 1. Alors X.Y IL
1
(, /, IP) et
IE[X.Y [ (IE[X[
p
)
1/p
(IE[Y [
q
)
1/q
.
4. Soit X et Y des variables aleatoires telles que X et Y IL
p
(, /, IP), avec p 1. Alors X + Y
IL
p
(, /, IP) et
(IE[X +Y [
p
)
1/p
(IE[X[
p
)
1/p
+ (IE[Y [
p
)
1/p
.
5. Soit X une variable aleatoire telle que X IL
p
(, /, IP) pour p > 0. Alors pour tout 0 < r p,
X IL
r
(, /, IP) et
(IE[X[
r
)
1/r
(IE[X[
p
)
1/p
.
6. Si X est une variable aleatoire sur (, /, IP), si : IR IR est une fonction borelienne convexe telle
que X et (X) IL
1
(, /, IP), alors
IE((X)) (IEX).
9
Denition. Pour X et Y des variables aleatoires telles que X et Y IL
2
(, /, IP), on denit la covariance
de X et Y par
cov(X, Y ) = IE[(X IEX)(Y IEY )] ;
On appelle variance de X, var(X) = cov(X, X) = IE
_
(X IEX)
2
= IE(X
2
) (IEX)
2
.
Propriete. Sur IL
2
(, /, IP), cov(., .) denit un produit scalaire. De plus
[cov(X, Y )[
2
var(X).var(Y ).
2.2 Fonction de repartition et quantiles dune loi de probabilite
Il y a une correspondance bijective entre la connaissance de IP
X
et celle de F
X
= IP
X
(] , x]). La fonc-
tion de repartition permet egalement de denir les quantiles qui sont essentiels à la construction dintervalles
de conance et de test.
Soit [0, 1]. Des proprietes de la fonction de repartition, on en deduit quil existe x
IR, tel que :

lim
xx
F
X
(x) F
X
(x
). (1)
Soit I
= x
IR tel que x
verie (1). On appelle quantile (ou fractile, ou percentile en anglais) dordre

de la loi IP
X
, note q
, le milieu de lintervalle I
. Evidemment, lorsque X admet une distribution abso-

lument continue par rapport à la mesure de Lebesgue, q
= F
1
X
(), o` u F
1
X
designe la fonction reciproque
de F
X
.
Deux cas particuliers sont à connatre :
1/ pour = 0.5, q
0.5
est appele la mediane de IP
X
;
2/ pour = 0.25 et = 0.75 (respectivement), q
0.25
et q
0.25
sont appeles premier et troisième quartile
(respectivement) de IP
X
.
3/ pour = 0.1, . . . , 0.9, on parlera de decile de IP
X
.
2.3 Principales lois de probabilites
Loi uniforme discrète :
Cest la loi de probabilite discrète à valeurs dans x
1
, . . . , x
n
telle que
IP(X = x
i
) =
1
n
.
On alors : IEX =
1
n
(x
1
+. . . +x
n
) et var(X) =
1
n
(x
2
1
+. . . + x
2
n
) (IEX)
2
.
Loi de Bernoulli :
Cest la loi de probabilite discrète notee B(p) à valeurs dans 0, 1 telle que
IP(X = 1) = p et IP(X = 0) = 1 p.
On alors : IEX = p et var(X) = p(1 p).
Loi binomiale :
Cest la loi de probabilite discrète notee B(n, p) à valeurs dans 0, 1, . . . , n telle que
IP(X = k) = C
k
n
p
k
(1 p)
nk
pour k 0, 1, . . . , n.
On alors : X = X
1
+ +X
n
, o` u (X
i
) est une suite de v.a.i.i.d. de loi B(p), do` u IEX = n p et var(X) = n p(1 p).
Loi de Poisson :
10
Cest la loi de probabilite discrète notee T() à valeurs dans IN telle que
IP(X = k) =

k
k!
e
pour k IN.
On alors IEX = et var(X) = .
Loi uniforme sur [a, b] :
Cette loi est generalement notee |([a, b]), o` u < a < b < . Cest la loi de probabilite à valeurs
dans [a, b] de densite par rapport à la mesure de Lebesgue :
f
X
(x) =
1
b a
II
x[a,b]
.
On a alors IEX =
b +a
2
et var(X) =
(b a)
2
12
.
Loi Gamma :
Cette loi est generalement notee (p, ), o` u p > 0 et > 0. Cest la loi de probabilite à valeurs dans
IR
+
de densite par rapport à la mesure de Lebesgue :
f
X
(x) =

p
(p)
e
x
x
p1
II
xIR+
.
On a alors IEX =
p
et var(X) =
p
2
.
Si X (p, ) et Y (q, ) avec X et Y independantes et p > 0 et q > 0, alors X + Y (p +q, ).
Pour p = 1, la loi (p, ) est la loi exponentielle c().
Loi Beta :
Cette loi est generalement notee (p, ), o` u p > 0 et q > 0. Cest la loi de probabilite à valeurs dans
[0, 1] de densite par rapport à la mesure de Lebesgue :
f
X
(x) =
x
p
(1 x)
q1
B(p, q)
x
p1
II
x[0,1]
, o` u B(p, q) =
(p)(q)
(p +q)
.
On a alors IEX =
B(p + 1, q)
B(p, q)
et var(X) =
p q
(p +q)
2
(p +q + 1)
.
Si X (p, ) et Y (q, ) avec X et Y independantes et p > 0 et q > 0, alors
X
X +Y
(p, q).
Pour p = 1, la loi (p, ) est la loi exponentielle c().
Loi normale (ou gaussienne) centree reduite :
Cette loi est generalement notee ^(0, 1). Cest la loi de probabilite à valeurs dans IR de densite par rapport
à la mesure de Lebesgue :
f
X
(x) =
1
2
exp
_
x
2
2
_
.
On a :
IE(X) = 0 et var(X) = 1.
Loi normale (ou gaussienne) de moyenne m et de variance
2
:
Si Z suit la loi ^(0, 1), X = m + Z suit par denition la loi ^(m,
2
), loi normale desperance m et
de variance
2
. La densite de X est donnee par :
f
X
(x) =
1
2
2
exp
_
(x m)
2
2
2
_
.
11
La gure A.1. represente la densite de la loi normale centree reduite et celle dune loi normale non centree
et non reduite. A partir de la loi gaussienne, on peut en deduire les lois suivantes.
Loi du
2
à n degres de libertes :
Soit X
1
, , X
n
, n variables aleatoires independantes de loi ^(0, 1), alors
S = X
2
1
+ +X
2
n
suit une loi du
2
à n degres de libertes, loi notee
2
(n). Cette loi est à valeurs dans IR
+
, desperance n et
de variance 2n. Cest aussi la loi Gamma (n/2, 1/2), cest-à-dire que X
2
(n) admet pour densite par
rapport à la mesure de Lebesgue :
f
X
(x) =
1
2
n/2
(n/2)
x
n/21
exp
_
x
2
_
II
{x0}
,
o` u la fonction Gamma est telle que (a) =
_

0
x
a1
e
x
pour a 0. Enn, si X suit une loi
2
(n), par
denition on dira que Y =
2
X suit une loi
2

2
(n). La gure A.2. exhibe trois traces dierents de
densite de loi du
2
. Loi de Student à n degres de libertes :
La loi de Student à n degres de liberte, notee T(n), est la loi du quotient
T =
N
_
S/n
o` u N suit une loi ^(0, 1) et S suit une loi
2
(n), N et S etant deux variables aleatoires independantes. Il
est egalement possible de determiner la densite dune telle loi par rapport à la mesure de Lebesgue, à savoir,
f
X
(x) =
1
n B(1/2, n/2)
_
1 +
t
2
n
_
(n+1)/2
,
o` u la fonction Beta est telle que B(a, b) =
(a) (b)
(a +b)
pour a > 0 et b > 0. La gure A.3. illustre deux
exemples de cette densite, que lon compare egalement avec la densite de la loi normale centree reduite.
Remarque : Par la loi des grands nombres, plus n est grand, plus S est proche de son esperance qui vaut n.
Le denominateur est donc proche de 1. Il sensuit que la loi T(n) est dautant plus proche dune loi normale
que n est grand.
Un des principaux interet de la loi de Student reside dans le fait que si X
1
, , X
n
sont n variables aleatoires
independantes de loi ^(m,
2
), si on considère la moyenne et la variance empiriques :
X
n
=
1
n
(X
1
+ +X
n
) et
2
n
=
1
n 1
_
(X
1

X
n
)
2
+ + (X
d

X
n
)
2
)
_
,
alors
T =
n (

X
n
m)
_

2
n
suit une loi de Student à (n 1) degres de liberte.
Loi de Fisher à n
1
et n
2
degres de liberte :
Soit S
1
et S
2
deux variables aleatoires independantes de loi respectives
2
(n
1
) et
2
(n
2
). Alors par denition :
F =
S
1
/n
1
S
2
/n
2
suit une loi de Fisher à n
1
et n
2
degres de liberte, notee F(n
1
, n
2
).
12
Remarque : Par les memes considerations que precedemment, la loi F est dautant plus proche de 1 que
les degres de liberte n
1
et n
2
sont grands.
On a egalement les proprietes suivantes :
Si F suit une loi F(n
1
, n
2
), alors la loi de
n
1
n
2
F est une loi beta de seconde espèce de paramètres
(n
1
/2, n
2
/2), cest-à-dire que F est à valeurs dans IR
+
et admet la densite par rapport à la mesure de
Lebesgue :
f
X
(x) =
1
B(n
1
/2, n
2
/2)
n
n1/2
1
n
n2/2
2
x
n1/21
(n
2
+n
1
x)
(n1+n2)/2
II
{x0}
,
la notation B designant encore la fonction Beta.
Si F F(n
1
, n
2
), alors IE(F) =
n
2
n
2
2
lorsque n
2
> 2 et var(F) =
2n
2
2
(n
1
+n
2
2)
n
1
(n
2
4)(n
2
2)
2
lorsque n
2
> 4.
Si T suit une loi de Student T(n), alors T
2
suit une loi de Fisher F(1, n).
La gure A.4. donne une idee de la distribution dune loi de Fisher pour dierents choix des paramètres.
2.4 Independance
Denition. Soit (, /, IP) un espace probabilise.
Soit (A
i
)
iI
une famille denombrable devenements de /. On dit que les evenements (A
i
)
iI
sont
independants si et seulement si pour tous les sous-ensembles nis K I,
IP
_
iK
A
i
_
=
iK
IP(A
i
).
Soit (/
i
)
iI
une famille de sous-tribus de / (donc pour tout i I, /
i
/). On dit que les tribus
(/
i
)
iI
sont independantes si et seulement si pour tous les sous-ensembles nis K I, et pour tous
les evenements A
k
/
k
avec k K, les A
k
sont independants.
Soit (X
i
)
iI
des variables aleatoires sur (, /) ` a valeurs dans (IR, B(IR)). On dit que les v.a. (X
i
)
iI
sont independantes si et seulement si les tribus engendrees (X
1
i
(B(IR)))
iI
sont independantes.
Proposition. Si (X
1
, , X
n
) sont des variables aleatoires sur (, /, IP). Alors les (X
i
) sont independantes
si et seulement si IP
(X1,,Xn)
=
n
i=1
IP
Xi
.
Proposition. Si (X
i
)
iI
sont des variables aleatoires independantes sur (, /, IP). Alors les (X
i
) sont
independantes si et seulement si pour tout J I, J ni, pour toutes fonctions boreliennes (g
j
)
jJ
telles que
g
j
(X
j
) soit integrable, alors
IE
_
_
jJ
g
j
(X
j
)
_
_
=
jJ
IE(g
j
(X
j
)).
Corollaire. (X
1
, , X
n
) sont des variables aleatoires independantes si et seulement si pour tout (t
1
, , t
n
)
IR
n
,
(X1,,Xn)
(t
1
, , t
n
) =
n
j=1
Xj
(t
j
).
Lemme (Lemme de Borel-Cantelli). Soit (A
n
)
nIN
une suite devenements sur (, /, IP).
1. Si
IP(A
n
) < + alors IP(limsup A
n
) = 0.
2. Si les (A
n
) sont independants,
IP(A
n
) = + implique que P(limsup A
n
) = 1.
13
2.5 Vecteurs aleatoires
Denition. On dit que X est un vecteur aleatoire sur (, /, IP), un espace probabilise, si X est une fonction
mesurable de (, /) dans (IR
d
, B(IR
d
)).
Denition. Soit X un vecteur aleatoire sur (, /, IP) ` a valeurs dans IR
d
. Alors la loi (ou mesure) de
probabilite de X, IP
X
, est denie de fa con univoque ` a partir de la fonction de repartition de X, telle que
pour x = (x
1
, , x
d
),
F
X
(x) = IP
X
(
d
i=1
] , x
i
]) = IP(X
d
i=1
] , x
i
]).
Propriete. Soit X un vecteur aleatoire sur (, /, IP) ` a valeurs dans IR
d
. On suppose que X = (X
1
, , X
d
).
Alors les X
i
sont des variables aleatoires sur (, /, IP), de fonction de repartition
F
Xi
(x
i
) = lim
x
j
+
j = i
F
X
(x
1
, , x
i
, , x
d
).
Les mesures de probabilites P
Xi
determinees de fa con univoque ` a partir des F
Xi
sont appelees lois marginales
de X.
On se place maintenant dans la base canonique orthonormale de IR
d
. Si Z est un vecteur aleatoire à
valeurs sur IR
d
, on denit IE(Z), le vecteur dont les coordonnees sont les esperances des coordonnees de Z.
Ainsi, si dans la base canonique de IR
d
, Z = (Z
1
, , Z
d
)
,
IE(Z) = IE
_
_
_
Z
1
.
.
.
Z
d
_
_
_ =
_
_
_
IE(Z
1
)
.
.
.
IE(Z
d
)
_
_
_.
De la meme manière, on denira lesperance dune matrice dont les coordonnees sont des variables aleatoires
par la matrice dont les coordonnees sont les esperances de chacune de ces variables aleatoires.
Ceci nous permet de denir la matrice de variance-covariance de Z de la manière suivante :
var(Z) = IE[(Z IE(Z)).(Z IE(Z))
]
donc si Z = (Z
1
, , Z
d
)
,
var
_
_
_
Z
1
.
.
.
Z
d
_
_
_ =
_
_
_
_
var(Z
1
) Cov(Z
1
, Z
2
) Cov(Z
1
, Z
d
)
Cov(Z
1
, Z
2
) var(Z
2
) Cov(Z
2
, Z
d
)
: : :
Cov(Z
1
, Z
d
) Cov(Z
2
, Z
d
) var(Z
d
)
_
_
_
_
matrice (d, d) dont les elements diagonaux sont les variances et les elements non diagonaux sont les cova-
riances des coordonnees de Z (remarquons que la variance de Z
1
est aussi la covariance de Z
1
et de Z
1
).
On verie egalement le resultat suivant : si C est une matrice (p, d) à coordonnees constituees de reels
constants et si Z est un vecteur aleatoire à valeurs dans IR
d
, alors C Z est un vecteur de taille p de matrice
de variance-covariance
var(C Z) = C var(Z) C
.
En particulier, si p vaut 1, alors C = h
o` u h est un vecteur de taille d, et :

var(h
Z) = h
var(Z) h.
Notez que cette dernière quantite est un scalaire. Soit Y
1
, , Y
d
des variables aleatoires independantes de
meme loi ^(0,
2
), independantes (ce qui, dans le cas gaussien, est equivalent à cov(Y
i
, Y
j
) = 0 pour i ,= j).
On considère le vecteur Y = (Y
1
, , Y
d
)
. En raison de lindependance, Y est un vecteur gaussien admettant

14
une densite f
Y
(par rapport à la mesure de Lebesgue sur IR
d
) qui est le produit des densites de chacune des
coordonnees, soit :
f
Y
(y
1
, , y
d
) = f
Y1
(y
1
) f
Y2
(y
2
) f
Y
d
(y
d
)
=
_
2
2
_
d/2
exp
_
1
2
2
(y
2
1
+ +y
2
d
)
_
=
_
2
2
_
d/2
exp
_
|y|
2
2
2
_
,
avec y = (y
1
, , y
d
). On voit donc que la densite de Y ne depend que de la norme |Y | : elle est constante sur
toutes les sphères centrees en zero. Cela implique quelle est invariante par rotation ou symetrie orthogonale
daxe passant par 0 : elle est invariante par toutes les isometries de IR
d
: on dira que Y suit une loi gaussienne
isotrope. Rappelons que les isometries correspondent à des changements de bases orthonormees (BON). En
consequence, on a la première propriete importante :
Propriete. Soit Y un vecteur aleatoire de IR
d
de loi normale isotrope variance
2
, cest-` a-dire que dans
une BON les coordonnees de Y verient IE(Y ) = 0 et var(Y ) =
2
Id. Alors les coordonnees de Y dans
toute BON sont encore des lois ^(0,
2
) independantes.
Voici maintenant lun des resultats (encore appele Theorème de Cochran) que nous utilisons le plus et
nous en donnons donc une demonstration.
Theorème (Theorème de Cochran). Soit E
1
et E
2
, deux sous-espaces vectoriels orthogonaux de E = IR
d
de dimensions respectives k
1
et k
2
et soit Y un vecteur aleatoire de IR
d
de loi normale centree isotrope de
variance
2
. Alors P
E1
(Y ) et P
E2
(Y ) sont deux variables aleatoires gaussienne centrees independantes et
|P
E1
(Y )|
2
(resp. |P
E2
(Y )|
2
) est une loi
2

2
(k
1
) (resp.
2

2
(k
2
)). Ce theorème se generalise naturel-
lement pour 2 < m d sous-espaces vectoriels orthogonaux (E
i
)
1im
de E = IR
d
.
Demonstration : Soit (e
1
, , e
k1
) et (e
k1+1
, , e
k1+k2
) deux BON de E
1
et E
2
(respectivement). Lensemble
de ces deux bases peut etre complete en
(e
1
, , e
k1
, e
k1+1
, , e
k1+k2
, e
k1+k2+1
, , e
d
)
pour former une BON de IR
d
(du fait que E
1
et E
2
sont orthogonaux).
Soit (Y
1
, , Y
d
), les coordonnees de Y dans cette base ; elles sont independantes de loi ^(0,
2
) car le
changement de base est orthonormal et nous avons vu que la distribution de Y etait conserve par transfor-
mation isometrique. Comme
P
E1
(Y ) = Y
1
e
1
+ +Y
k1
e
k1
= |P
E1
(Y )|
2
=
2
_
_
Y
1
_
2
+ +
_
Y
k1
_
2
_
P
E2
(Y ) = Y
k1+1
e
k1+1
+ +Y
k1+k2
e
k1+k2
= |P
E2
(Y )|
2
=
2
_
_
Y
k1+1
_
2
+ +
_
Y
k1+k2
_
2
_
.
On voit bien ainsi lindependance entre les deux projections et le fait que la loi de |P
E1
(Y )|
2
(resp.
|P
E2
(Y )|
2
) est une loi
2

2
(k
1
) (resp.
2

2
(k
2
)).
On peut denir plus generalement un vecteur gaussien Y à valeurs dans IR
d
(non degenere), desperance
IR
d
et de matrice de variance-covariance quelconques (du moment que soit une matrice de Toeplitz
denie positive). Cela equivaut à denir un vecteur aleatoire de densite par rapport à la mesure de Lebesgue
sur IR
d
,
f
Y
(y) =
(2)
n/2
[[
exp
_
1
2
(y )
.
1
.(y )
_
,
pour y IR
d
, et avec [[ le determinant de la matrice . Remarquons une nouvelle fois que lesperance et la
variance denissent complètement la loi de probabilite dun vecteur gaussien.
A partir des proprietes generales sur les vecteurs aleatoires, on obtient le fait que :
15
Propriete. Soit Y un vecteur gaussien ` a valeurs dans IR
d
(non degenere), desperance IR
d
et de matrice
de variance-covariance . Soit C une matrice reelle de taille (p, d) o` u p IN
. Alors C Y est un vecteur

gaussien tel que :
C Y ^(C , C C
)
On en deduit les consequences suivantes :
si Y est un vecteur gaussien isotrope de IR
d
de variance
2
et h un vecteur de IR
d
, alors h
Y est une
combinaison lineaire des coordonnees de Y tel que :
h
Y suit la loi ^(0,

2
h
h) = ^(0,
2
|h|
2
)
si Y est un vecteur gaussien desperance et de matrice de variance et si h un vecteur de IR
d
, alors
h
Y est une combinaison lineaire des coordonnees de Y et :

h
Y suit la loi unidimensionnelle ^(h
, h
h)
(Pour une presentation plus detaillee des notions sur les vecteurs gaussiens on peut consulter le livre P.
Toulouse, 1999, chap.2)
2.6 Fonctions caracteristiques et generatrices
Denition. Soit X un vecteur aleatoire sur (, /, IP) ` a valeurs dans IR
d
. La fonction caracteristique de X
est la fonction
X
: IR
d
C
telle que
X
(t) = IE[exp(i < t, X >)] =
_
IR
d
e
i<t,x>
dIP
X
(x),
o` u < . > designe le produit scalaire euclidien sur IR
d
tel que < t, x >=
d
i=1
t
i
x
i
pour t = (t
1
, , t
d
) et
x = (x
1
, , x
d
).
Remarque. La fonction generatrice existe sur IR et
X
(0) = 1.
X
est aussi la transformee de Fourier de
la mesure IP
X
.
Theorème. Soit X et Y des vecteurs aleatoires sur (, /, IP) ` a valeurs dans IR
d
, de lois IP
X
et IP
Y
. Alors
IP
X
= IP
Y
si et seulement si
X
=
Y
.
Theorème (Theorème dinversion). Si X est un vecteur aleatoire sur (, /, IP) ` a valeurs dans IR
d
et si
X
est une fonction integrable par rapport ` a la mesure de Lebesgue
d
sur IR
d
, alors X admet une densite f
X
par rapport ` a
d
telle que pour x IR
d
,
f
X
(x) =
1
(2)
d
_
IR
d
e
i<t,x>
X
(t)dt.
Proposition. Si X est une variable aleatoire sur (, /, IP) de fonction generatrice
X
. Alors si IE([X[
n
) <
+ (ou X IL
n
(, /, IP)),
X
est n fois derivable et
(n)
X
(t) = i
n
IE(X
n
e
itX
).
Remarque. Lorsque ces moments existent, on a i
n
IE(X
n
) =
(n)
X
(0).
2.7 Convergence de suites de variables aleatoires
Denition. Soit (X
n
)
nIN
une suite de variables aleatoires sur (, /, IP). On dit que
(X
n
) converge en probabilite vers X, note X
n
P
n+
X, lorsque pour tout > 0,
lim
n
IP([X
n
X[ > ) = 0.
(X
n
) converge dans IL
p
(, /, IP) vers X, note X
n
IL
p
n+
X, avec p > 0, lorsque
lim
n
IE[X
n
X[
p
= 0.
16
(X
n
) converge en loi vers X, note X
n
L
n+
X, lorsque,
lim
n
F
Xn
(x) = F
X
(x) pour tout x IR tel que F
X
continue en x.
(X
n
) converge presque s urement vers X, note X
n
p.s.
n+
X, lorsque pour tout > 0,
lim
n
IP( sup
mn
[X
m
X[ > ) = 0.
Propriete. 1. p.s. et IL
p
T L.
2. pour q p, IL
q
IL
p
.
3. La convergence en loi nentrane pas la convergence en probabilite. Mais (X
n
P
n+
C) (X
n
L
n+
C)
pour C une constante.
4. Si g est une fonction borelienne continue alors (X
n
P
n+
X) = (g(X
n
)
P
n+
g(X)).
Propriete. 1. Si pour tout > 0,
n=0
IP([X
n
X[ > ) < +alors X
n
p.s.
n+
X (application du Lemme
de Borel-Cantelli).
2. Si il existe r > 0 tel que IE([X
n
[
r
) < + et
n=0
IE([X
n
X[
r
) < + alors X
n
p.s.
n+
X.
Theorème (Loi faible des Grands Nombres). Soit (X
n
)
nIN
une suite de variables aleatoires independantes
et identiquement distribuees. Alors si IE([X
i
[) < +,
X
n
=
X
1
+ +X
n
n
P
n+
m = IEX
i
.
Theorème (Loi forte des Grands Nombres). Soit (X
n
)
nIN
et identiquement distribuees. Alors si IE([X
i
[) < +,
X
n
=
X
1
+ +X
n
n
p.s.
n+
m = IEX
i
.
Theorème (Theorème de la limite centrale). Soit (X
n
)
nIN
et identiquement distribuees. Alors si
2
= IEX
2
i
< +, et m = IEX
i
,
n
X
n
m
n+
^(0, 1).
Theorème (Loi forte des Grands Nombres multidimensionnelle). Soit (X
n
)
nIN
une suite de vecteurs
aleatoires ` a valeurs dans IR
d
, independants et identiquement distribues. Alors si IE(|X
i
|) < + (pour
|.| une norme sur IR
d
),
X
n
=
X
1
+ +X
n
n
p.s.
n+
m = IEX
i
.
Theorème (Theorème de la limite centrale multidimensionnel). Soit (X
n
)
nIN
une suite de vecteurs aleatoires
` a valeurs dans IR
d
, independants et identiquement distribues. Alors si matrice de covariance de chaque
X
i
existe, et m = IEX
i
,
n
_
X
n
m
_
L
n+
^
d
(0, ).
Theorème (Delta-method). Soit (X
n
)
nIN
une suite de vecteurs aleatoires ` a valeurs dans IR
d
, independants
et identiquement distribues, telle que matrice de covariance de chaque X
i
existe, et m = IEX
i
. Soit
g : IR
d
IR
p
une fonction de classe (
1
sur un voisinage autour de m, de matrice Jacobienne J
g
(m) en m.
Alors,
n
_
g(X
n
) g(m)
_
L
n+
^
d
(0, J
g
(m) J
g
(m)).
17
2.8 Esperance conditionnelle
Denition. Soit Y une variable aleatoire sur (, /, IP). Si B est une sous-tribu de / et si Y IL
2
(, /, IP).
Alors on note IE(Y [ B) la projection orthogonale de Y sur IL
2
(, B, P), appelee esperance conditionnelle de
Y sachant B. Ainsi :
IE[Y IE(Y [ B)[
2
= inf
ZIL
2
(,B,IP)
_
IE[Y Z[
2
_
.
Par extension, si Y IL
1
(, /, IP), on denit lesperance conditionnelle par rapport ` a B, comme lunique
(p.s.) variable aleatoire, B-mesurable veriant p.s. :
_
B
IE(Y [ B) dIP =
_
B
Y dIP, pour tout B B.
Denition. Par convention, si X un vecteur aleatoire ` a valeurs dans IR
n
sur (, /, IP) et si Y une variable
aleatoire sur (, /, IP), on note IE(Y [ X) = IE(Y [ X
1
(B(IR))).
Propriete. 1. Lemme de Doob : Pour Y IL
1
(, /, IP), et X une v.a. de(, /, IP), alors p.s. IE(Y [ X) =
h(X), avec h une fonction borelienne.
2. Pour Y
1
et Y
2
deux variables aleatoires sur (, /, IP), et (a, b, c) IR
3
, alors
IE(aY
1
+bY
2
+c [ B) = aIE(Y
1
[ B) +bIE(Y
2
[ B) +c.
3. Si Y
1
Y
2
, alors IE(Y
1
[ B) IE(Y
2
[ B).
4. Le Lemme de Fatou, les theorèmes de Beppo-Levi, Lebesgue et Jensen sappliquent avec lesperance
conditionnelle.
5. Si Y IL
2
(, B, IP), alors IE(Y [ B) = Y ; ainsi IE(g(X) [ X) = g(X) pour g une fonction mesurable
reelle.
6. On a IE(IE(Y [ B)) = IEY .
7. Si Y
1
(B(IR)) et B sont independantes alors IE(Y [ B) = IEY ; ainsi, si X et Y sont independantes,
IE(Y [ X) = IEY .
8. Si (X, Y ) est un couple de v.a. ` a valeurs dans IR
2
possedant une densite f
(X,Y )
par rapport ` a la mesure
de Lebesgue, alors si X est integrable ,
IE(Y [ X = x) =
_
IR
y f
(X,Y )
(x, y) dy
_
IR
f
(X,Y )
(x, y) dy
, pour tout x tel que
_
IR
f
(X,Y )
(x, y) dy > 0.
Proposition. Si (Y, X
1
, , X
n
) est un vecteur gaussien, alors IE(Y [ (X
1
, , X
n
)) = a
0
+a
1
X
1
+ +a
n
X
n
,
o` u les a
i
sont des reels.
3 Estimation parametrique
3.1 Denitions
Dans toute la suite, on se place sur (, /, IP) un espace de probabilite. On considère (X
n
)
nIN
une suite
de variable aleatoire, o` u chaque X
i
est denie sur (, /, IP) et est à valeur dans
IR.
Denition. On appelle modèle statistique de dimension n un espace ((
)
n
, /
n
, ), o` u /
n
est une
tribu sur (
)
n
et une mesure de probabilite sur ((
)
n
, /
n
).
On appelle echantillon de taille n du modèle statistique ((
)
n
, /
n
, ) le vecteur aleatoire (X
1
, . . . , X
n
)
distribuee selon la loi . Pour , (X
1
(), . . . , X
n
()) vecteur de IR
n
est appele echantillon observe.
Cest ` a partir et sur ce vecteur que le travail statistique seectue (en general).
Denition. On appelle :
Modèle statistique parametrique, une famille de modèle de la forme : ((
)
n
, /
n
, IP
, ), o` u
IR
p
.
Modèle statistique semi-parametrique, une famille de modèle de la forme : ((
)
n
, /
n
, IP
(,f)
, , f
T), o` u IR
p
et T nest pas de dimension nie.
18
Modèle statistique non-parametrique, une famille de modèle de la forme : ((
)
n
, /
n
, IP
f
, f T), o` u
T nest pas de dimension nie.
Denition. On dit que le modèle parametrique : ((
)
n
, /
n
, IP
, ), o` u IR
p
, est domine par
une mesure lorsque IP
est absolument continue par rapport ` a pour tout .

On se place dans le cadre dun modèle parametrique ((
)
n
, /
n
, IP
, ), o` u IR
p
, domine par
une mesure . Pour (x
1
, , x
n
) (
)
n
, la fonction L
(x
1
, , x
n
) =
dIP
d
(x
1
, , x
n
) est
appelee une vraisemblance du modèle statistique.
Exemple. Dans le cas o` u est la mesure de Lebesgue sur IR
n
, la vraisemblance sera la densite
(classique) en (x
1
, , x
n
).
Dans le cas o` u est comptage sur IN
n
, la vraisemblance sera la probabilite en (x
1
, , x
n
).
Attention! si le support de IP
depend de , la mesure qui domine (ainsi que
et /
n
) ne peut dependre
de : il ne faut pas oublier de le preciser dans lexpression de la vraisemblance.
Denition. Lorsque lon dispose dun echantillon (X
1
, . . . , X
n
) du modèle statistique ((
)
n
, /
n
, ), une
statistique

T
n
est une application mesurable de ((
)
n
, /
n
) dans (IR
d
, B(IR
d
)), donc un vecteur aleatoire
deni sur (, /, IP) ` a valeur dans IR
d
, et telle que :
T
n
= h(X
1
, . . . , X
n
), o` u h : (
)
n
IR
d
est mesurable.
Exemple. Estimateur du paramètre dune loi de Bernoulli.
Estimateur de lesperance et de la variance par la moyenne et la variance empirique.
Estimateurs du paramètre dun n-echantillon (X
1
, , X
n
) de loi uniforme sur [0, ].
Test sur la moyenne.
3.2 Statistiques exhaustives
On se place desormais dans le cadre dune modèle statistique parametrique ((
)
n
, /
n
, IP
, ), o` u
IR
p
, domine par une mesure .
Exemple. 1. Soit le modèle statistique parametrique
_
[0, [
n
, B([0, [
n
), |([0, ])
n
, ]0, +[
_
. On dis-
pose donc dun n-echantillon (X
1
, , X
n
) de v.a.i.i.d. suivant une loi uniforme sur [0, ]. Si on considère
maxX
1
. . . , X
n
cela semble sure pour posseder toute linformation sur que contenait (X
1
, . . . , X
n
) : on
a donc resume linformation sur contenait (X
1
, . . . , X
n
), un vecteur de taille n, par une statistique de
taille 1.
2. De meme, si on considère le modèle statistique parametrique
_
0, 1
n
, T(0, 1
n
), B(p)
n
, p [0, 1]
_
(on
dispose donc dun n-echantillon (X
1
, , X
n
) de v.a.i.i.d. suivant une loi de Bernoulli de paramètre p) alors
la statistique X
1
+ +X
n
contient toute linformation sur p contenue dans lechantillon (X
1
, . . . , X
n
).
Comment exprimer formellement ce fait quune statistique puisse resumer ` a elle seule toute linformation
sur le paramètre ?
Denition. Soit

T une statistique du modèle statistique parametrique domine ` a valeurs dans IR
d
. On dit
que

T est une statistique exhaustive si pour toute statistique S integrable (donc dans IL
1
((
)
n
, /
n
, IP
))
alors IE
(S [

T) ne depend (IP
-presque s urement) pas de .

Theorème (Theorème de factorisation de Neyman). Soit (X
1
, , X
n
) un n-echantillon et soit

T une
statistique du modèle statistique parametrique domine avec

T ` a valeurs dans IR
d
, o` u d IN
. La statistique
T est exhaustive si et seulement sil existe une fonction h : IR

n
IR
+
et une fonction g
(.) : IR
d
IR
+
,
telle que lon puisse ecrire pour tout (x
1
, . . . , x
n
) (
)
n
:
L
(x
1
, . . . , x
n
) = g
T(x
1
, . . . , x
n
)) h(x
1
, . . . , x
n
) pour tout .
Lemme. Soit le modèle statistique parametrique ((
)
n
, /
n
, IP
, ), o` u IR
p
. Alors ce modèle est
domine si et seulement si il existe une sous-famille denombrable (IP
i
)
iIN
telle que pour tout A /, i IN,
IP
i
(A) = 0 entrane , IP
(A) = 0. Toute mesure de probabilite de la forme IP
iIN
a
i
IP
i
avec c
i
> 0
pour tout i IN et
iIN
c
i
= 1 domine le modèle.
19
Demonstration du lemme : = Il est bien clair que si une telle mesure P
existe, le modèle est domine.

= Montrons maintenant que si le modèle est domine par une mesure alors la famille (P
i
)
iIN
existe.
En premier lieu, si est une mesure non nie mais -nie (par exemple la mesure de Lebesgue), alors
P
denie par
P
(A) =
i=1
1
2
i
(A A
i
)
(A
i
)
pour tout A /, est une mesure de probabilite equivalente à (avec
(A
i
)
iIN
une partition de (
)
n
telle que 0 < (A
i
) < pour tout i IN
). On travaille donc desormais

avec
P
.
Pour , soit B
le sous-ensemble de (
)
n
IR
n
qui est le support de la densite de IP
par rapport à .
Soit
( =
_
_
iI
B
i
, I IN,
i

_
,
lensemble de toutes les unions denombrables densembles B
. On note M = sup
CC

P
(C). Soit (C
n
)
nIN
une suite densembles de ( telle que la suite (
P
(C
n
))
n
converge vers M (une telle suite existe forcement
sinon M ne serait pas le supremum). Remarquons que chaque C
i
etant une union denombrable de B
k
, alors
une suite (
n
) de sut pour engendrer la suite (C
n
)
nIN
. Si on pose :
D =
_
nIN
C
n
=
_
kIN
B
k
,
alors M =
P
(D) et pour tout , B
D ( et :
P
(B
D) M
P
(B
D) =
P
(B
D
c
) +
P
(D)
Donc pour tout ,
P
(B
D
c
) = 0 soit , IP
(B
D
c
) = 0 puisque IP
<<
P
. En consequence,
pour tout A /
n
, A B
B
c
= (
)
n
, soit :
IP
(A D
c
) = 0, car par denition des B
, IP
(B
c
) = 0.
Si on suppose maintenant que A /
n
est tel que IP
k
(A) = 0, avec la suite (
k
) precedemment denie, alors
P
(AB
k
) = 0 par denition des B
et donc
P
(AD) = 0 (par la propriete de -additivite dune mesure).
Comme IP
<<
P
, on en deduit que , IP
(AD) = 0 et donc IP
(A) = IP
(AD)+ = IP
(AD
c
) = 0.
Ainsi, IP
domine bien IP
pour tout .
Demonstration du Theorème de factorisation de Neyman : Soit IP
iIN
a
i
IP
i
une mesure de pro-
babilite dominante construite comme dans le lemme.
= Si g
T(x)) h(x) avec x (
)
n
est la densite de IP
par rapport à , alors
iIN
a
i
g
i
(
T(x)) h(x) =
g
T(x)) h(x) est une densite de P
par rapport à . Alors, comme g
T(x)) h(x) > 0 P
-p.s., donc IP
-p.s.,
pour toute variable aleatoire S integrable, pour tout :
IE
(S II
B
) =
_
B
S dIP
, pour tout B (
T), tribu engendree par

T
=
_
B
S(x) g
T(x)) h(x) d(x)

=
_
B
S(x)
g
T(x)) h(x)
g
T(x)) h(x)
dIP
(x)
= IE
_
II
B

g
T)
g
T)
S
_
= IE
_
II
B

g
T)
g
T)
IE
(S [

T)
_
(daprès la denition de lesperance conditionnelle)
= IE
_
II
B
IE
(S [

T)
_
.
En consequence, daprès la denition de lesperance conditionnelle dans IL
1
((
)
n
, /
n
, IP
), on a IP
-p.s.,
IE
(S [

T) = IE
(S [

T) : la statistique

T est bien exhaustive.
= On suppose que

T est une statistique exhaustive pour le modèle. Donc pour toute statistique integrable
20
S, , IE
(S [

T) = IE
(S [

T). En consequence, si on note (x, ) =
dIP
dIP
(x) la densite de IP
par rapport
à IP
,
IE
(S) = IE
_
IE
(S [

T)
_
, (car

T est exhaustive et daprès les proprietes de lesperance conditionnelle)
= IE
_
(X, ) IE
(S [

T)
_
, o` u X IP
= IE
_
IE
_
(X, ) IE
(S [

T) [

T
__
, (daprès les proprietes de lesperance conditionnelle)
= IE
_
IE
_
(X, ) [

T
_
IE
_
S [

T
__
, (car IE
_
S [

T
_
est une fonction de

T)
= IE
_
IE
_
S IE
_
(X, ) [

T
_
[

T
__
= IE
_
S IE
_
(X, ) [

T
_
_
Ainsi, la variable aleatoire IE
_
(X, ) [

T
_
, qui est une fonction de

T (qui est elle-meme une fonction sur
(
)
n
), est la densite de IP
par rapport à IP
. Par suite, la vraisemblance, qui est la densite de IP
par
rapport à , secrit :
L
(x
1
, . . . , x
n
) =
dIP
d
(x
1
, . . . , x
n
) =
dIP
dIP
(x
1
, . . . , x
n
)
dIP
d
(x
1
, . . . , x
n
) = IE
_
(X, ) [

T
_
h(x
1
, . . . , x
n
),
avec h une fonction mesurable.
Exemple. Dierentes statistiques exhaustives pour les modèles parametriques de loi uniforme, de loi de
Bernoulli, de loi gaussienne...
Propriete. On se place dans le cadre dun modèle parametrique domine.
1. La statistique

T = (X
1
, . . . , X
n
) est exhaustive.
2. Si

T est une statistique exhaustive et sil existe une fonction borelienne h telle quune autre statistique
U verie

T = h(
U), alors

U est egalement exhaustive.
On vient de voir que lon peut toujours trouver une statistique exhaustive (lechantillon lui-meme par
exemple). Comme on aurait plut ot tendance à vouloir le maximum dinformation dans une statistique
exhaustive, lorsque le paramètre est dans IR
d
, on aimerait savoir quelle dimension minimale peut avoir
cette statistique. En particulier, si d = 1, peut-on toujours trouver une statistique exhaustive de taille 1 ?
Lexemple suivant montre que ce nest pas toujours le cas :
Exemple. Soit le modèle statistique ([0, [
n
, B([0, [
n
), (IP
)
n
, IR
+
), o` u la densite de IP
par rapport
` a la mesure de Lebesgue est : f
(x) = (e
2
1) e
x
II
x[0,]
. Alors les statistiques

T
1
= max(X
1
, . . . , X
n
)
et

T
2
= X
1
+ . . . + X
n
ne sont pas chacune exhaustive alors que

T = (
T
1
,

T
2
) est exhaustive. On pourra
meme montrer que cette statistique est de taille minimale...
Denition. Une statistique exhaustive

T du modèle statistique parametrique domine avec

T est dite mini-
male si pour toute autre statistique exhaustive

U est telle quil existe une fonction borelienne h veriant :
T = h(
U).
Proposition. Soit un modèle statistique parametrique domine et soit L
(x
1
, . . . , x
n
) sa vraisemblance. Alors
T est une statistique exhaustive minimale pour ce modèle lorsque (x

1
, . . . , x
n
) (
)
n
et (y
1
, . . . , y
n
)
(
)
n
,
_

L
(x
1
, . . . , x
n
)
L
(y
1
, . . . , y
n
)
ne depend pas de
_
T(x
1
, . . . , x
n
) =

T(y
1
, . . . , y
n
).
_
(2)
Demonstration de la proposition : On suppose que (2) est vraie et on suppose (sans perte de generalite) que
la vraisemblance est strictement positive. Soit t Im(
T((
)
n
)). Notons x
(t)

T
1
(t) (
)
n
. Alors
x

T
1
(t),

T(x) =

T(x
( T(x))
) et donc daprès (2),
h(x) =
L
(x)
L
(x
( T(x))
)
est independant de .
21
Posons g
(t) = L
(x
(t)
). Alors L
(x) = g
T(x))h(x). Comme ceci est vrai pour tout x (
)
n
, la statistique
T est bien exhaustive.

Supposons maintenant que

S est une autre statistique exhaustive. Alors par le theorème de factorisation
de Neyman, il existe deux fonctions g
(s)
et h
(s)
(ne dependant pas de ) telles que pour tout x (
)
n
,
L
(x) = g
(s)
S(x)) h
(s)
(x). Ainsi pour tout x (
)
n
et y (
)
n
tels que

S(x) =

S(y), alors :
L
(x)
L
(y)
=
g
(s)
S(x)) h
(s)
(x)
g
(s)
S(y)) h
(s)
(y)
=
h
(s)
(x)
h
(s)
(y)
, qui est independant de .
Mais daprès (2) ceci nest possible que si

T(x) =

T(y). Donc

T est une fonction de

S et la statistique

T est
donc minimale. .
Quelle serait une sorte dopposee de la notion de statistique exhaustive minimale ? Ce devrait etre une
statistique ne dependant pas du paramètre, soit :
Denition. Une statistique

T dun modèle parametrique est dite libre si sa loi ne depend pas du paramètre.
Or, de fa con assez surprenante il peut arriver quune statistique exhaustive minimale comprenne une sta-
tistique libre, qui intuitivement ne devrait pas etre prise en compte pour donner toute linformation sur
(soit par exemple la loi IP
discrète et equidistribuee sur 1, , + 1 ; pour un echantillon de taille 2,

la statistique (X
(2)
X
(1)
, X
1
+ X
2
) est exhaustive minimale, mais X
(2)
X
(1)
est libre). Aussi peut-on
rajouter une autre caracterisation des statistiques exhaustives pour pouvoir atteindre une forme doptimalite
pour ces statistiques, qui serait quaucune fonctionnelle non constante de la statistique ne peut etre libre.
Cela peut egalement se traduire de la fa con suivante :
Denition. Une statistique exhaustive

T du modèle statistique parametrique domine avec

T ` a valeur dans
IR
d
est dite complète si pour toute fonction borelienne h : IR
d
IR telle que h(
T) soit integrable, alors :

, IE
_
h(
T)
_
= 0 = h(
T) = 0.
Propriete. Soit un modèle statistique parametrique domine.
1. si

T est une statistique exhaustive complète alors pour toute fonction borelienne h bijective h(
T) est
une statistique exhaustive complète.
2. si

T est une statistique exhaustive complète alors

T est une statistique exhaustive minimale.
3. (Theorème de Basu) si

T est une statistique exhaustive complète alors

T est independante de toute
statistique libre sur le modèle.
Demonstration de la propriete : 3. Theorème de Basu. Soit

S une statistique libre pour le modèle et soit f
une fonction telle que IE
(f(
S)) existe. Comme

S est libre, on peut noter e(f) = IE
(f(
S)) une application

lineaire ne dependant pas de . Par suite, la statistique IE
(f(
S) [

T) e(f) est une fonction de

T mesurable
telle que IE
_
IE
(f(
S) [

T)e(f)
_
= 0 pour tout . Comme on a suppose que

T est exhaustive complète,
alors IE
(f(
S) [

T) = e(f) presque-s urement : les statistiques

S et

T sont independantes.
Denition. On suppose un modèle parametrique ((
)
n
, /
n
, IP
, IR
p
) domine par une mesure .
Si, pour tout (x
1
, , x
n
) (
)
n
et , la vraisemblance de ce modèle par rapport ` a peut secrire sous
la forme :
L
(x
1
, , x
n
) = exp
_
_
() +b(x
1
, , x
n
) +
p
j=1
a
j
(x
1
, , x
n
)
j
()
_
_
, (3)
avec les fonctions a
j
: (
)
n
IR, b : (
)
n
IR,
j
: IR
p
IR, et : IR, alors on dit que le
modèle est exponentiel (ou quil appartient ` a la famille exponentielle).
Exemple. Appartiennent ` a la famille exponentielle les lois :
Loi discrètes : Lois de Bernoulli, binomiales, de Poisson,...
Loi continues : Lois normales, exponentielles, gamma, du chi-deux,...
22
Remarque. Si (X
1
, , X
n
) est un n-echantillon dun modèle exponentiel (avec xe) alors lensemble des
valeurs prises par (X
1
, , X
n
) ne depend pas du paramètre .
Propriete. Soit un modèle exponentiel. Si pour tout on note () = (
1
(), . . . ,
p
()) et si lensemble
() est dinterieur non vide, alors

T(x
1
, , x
n
) = (a
1
(x
1
, , x
n
), . . . , a
p
(x
1
, , x
n
)) est une statistique
exhaustive minimale et complète.
Demonstration de la propriete : Soit g : IR
p
IR telle que IE
(g(
T)) = 0. Or, ,
IE
(g(
T)) =
_
(
)
n
g(
T(x)) exp
_
() +b(x)+ <

T(x), () >
_
d(x),
o` u < ., . > designe le produit scalaire. En considerant la mesure de densite exp(b(x)) par rapport à , on
obtient :
IE
(g(
T)) = 0 =
_
(
)
n
g(
T(x)) exp(<

T(x), () >) d(x) = 0
=
_
T((
)
n
)
g(y) exp(< y, () >) d
T
(y) = 0
pour tout , en ayant note
T
la mesure image de par

T et avec

T((
)
n
) IR
p
. Si on note g
+
et g
les parties positives et negatives de g (donc g = g

+
g
), et
+
et
les mesures de densites g

+
et g
par
rapport à
T
, alors, pour tout :
_
T((
)
n
)
exp(< y, () >) d
+
(y) =
_
T((
)
n
)
exp(< y, () >) d
(y).
En consequence sur , donc sur une partie dinterieure non vide, les mesures
+
et
ont des transformees

de Laplace egales : ces deux mesures sont donc egales et donc g
+
= g
T
-presque partout (ce qui revient à
g = 0). A partir des expressions des dierentes mesures, on montre que g = 0,

T(IP
)-presque partout.
3.3 Information de Fisher
Pour mesurer linformation fournit par un modèle parametrique domine (ou une statistique sur ce modèle)
au sujet dun paramètre, une idee naturelle serait de mesurer comment varie localement la mesure de pro-
babilite, ou encore sa vraisemblance. Les uctuations moyennes de cette vraisemblance serait donc un bon
indicateur : pour ce faire on considerera, lorsquil existe grad
(L
(X
1
, , X
n
)), et on sinteressera à la ma-
trice de covariance de grad
(L
(X
1
, , X
n
)), dont on peut montrer quelle ne depend pas du choix de la
mesure dominante choisie. Precisons dabord la notion de modèle regulier qui nous permettra de denir cette
quantite dinformation.
Denition. Dans le cadre dun modèle statistique parametrique ((
)
n
, /
n
, IP
, ), o` u IR
p
, domine
par une mesure , on dira que ce modèle est regulier lorsque :
1. est un ouvert de IR
d
;
2. la vraisemblance L
(.) verie (x
1
, . . . , x
n
) (
)
n
, , L
(x
1
, . . . , x
n
) > 0 ;
3. (x
1
, . . . , x
n
) (
)
n
, la fonction log(L
(.)) est dierentiable sur par rapport ` a , et son

gradient appartient ` a IL
2
((
)
n
, /
n
, IP
) ;
4. , pour toute fonction h : IR
n
IR appartenant ` a IL
1
((
)
n
, /
n
, IP
), alors :
_
(
)
n
h(x) L
(x) d(x) =
_
(
)
n
h(x)

(x) d(x). (4)

Consequence. Pour un modèle regulier, IE
_
grad
(log L
(.))
_
= 0.
Demonstration : On a IE
(L
(.)) = 1 donc IE
(grad
(.)) = 0. Par consequent, IE
_
grad
(L
(.))
L
(.)
_
= 0,
soit IE
_
grad
(log L
(.))
_
= 0.
23
Denition. Pour un modèle statistique parametrique domine regulier, on appelle information de Fisher, la
matrice :
I
n
() =
_
IE
_
(log L
(X
1
, , X
N
))
(log L
(X
1
, , X
N
))
j
__
1i,jp
.
Propriete. Pour un modèle statistique parametrique domine regulier, et si (x
1
, . . . , x
n
) (
)
n
, la fonction
log(L
(.)) est (
2
(), alors :
I
n
() =
_
IE
2
(log L
(X
1
, , X
N
))
i

j
__
1i,jp
.
Denition. Linformation de Fisher I
T
n
() associee ` a une statistique

T, si elle existe, est la matrice de
Fisher de la vraisemblance de

T (determinee ` a partir de la vraisemblance de

T).
Propriete. Pour un modèle regulier,

T est une statistique libre si et seulement si I
T
n
() = 0.
Demonstration : = Si

T est libre alors sa loi ne depend pas de donc le gradient du logarithme de sa
vraisemblance est nul ; linformation de Fisher associee ` a

T est nulle.
= Si I
T
n
() = 0, donc la statistique grad
(log L
T
T))) est centree et de matrice de covariance nulle. Ainsi,

pour tout , il existe un ensemble N
de mesure 1 pour la mesure de probabilite associee à

T (donc,
daprès la première hypothèse dun modèle regulier, tel que (N
) = 1)) et tel que pour tout t N
,
grad
(log L
T
(t))) = 0. Pour montrer que grad
(log L
T
(t))) = 0 est bien une variable aleatoire nulle -

p.s., et donc que log L
T
(.) est une fonction constante en , il nous faut montrer que nalement les ne
dependent pas de . Soit
(d)
=
(d)
i

iIN
un sous-ensemble denombrable de , dense dans . Comme
(d)
est denombrable, il est clair que N =
iIN
N
(d)
i
est tel que (N) = 1. De plus, pour tout , il
existe une sous-suite (
(d)
(n)
)
n
de
(d)
convergeant vers et telle que pour tout t N, pour tout n IN,
grad
(d)
(n)
(log L
T
(d)
(n)
(t))) = 0. Comme une telle fonction de
(d)
(n)
est continue, cette propriete passe à la limite,
et donc pour tout t N, , grad
(log L
T
(t))) = 0. Comme N ne depend pas de , alors la fonction

log L
T
(.) est une constante ne dependant pas de , -p.s. : la statistique

T est bien libre.
Propriete. Pour un modèle regulier, si

T est une statistique exhaustive : I
T
n
() = I
n
() pour tout .
Demonstration : Comme

T est une statistique exhaustive, on peut ecrire daprès la demonstration du
Theorème de factorisation de Neyman que pour tout (x
1
, . . . , x
n
) (
)
n
et tout :
dIP
dIP
(x
1
, . . . , x
n
) = g
T(x
1
, . . . , x
n
)).
On peut reecrire cela pour la densite de

T sous la forme :
dIP
T
dIP
T
(t) = g
(t)), pour tout t

T((
)
n
) et tout
. En consequence, pour tout ,
I() =
_
IE
_
(log L
(X
1
, , X
N
))
(log L
(X
1
, , X
N
))
j
__
1i,jp
=
_
_
(
)
n
_
(log L
(x))
(log L
(x))
j
_
dIP
(x)
_
1i,jp
=
_
_
(
)
n
_
(log g
T(x)))
(log g
T(x)))
j
_
g
T(x))dIP
(x)
_
1i,jp
car log L
(x) = log g
T(x)) + log h(x)

=
_
_
T(
)
n
_
(log g
(t))
(log g
(t))
j
_
g
(t))dIP
T
(x)
_
1i,jp
daprès le theorème du transport
=
_
_
T(
)
n
_
(log g
(t))
(log g
(t))
j
_
dIP
(t)
_
1i,jp
= I
T
n
().
24
Remarque. En rajoutant certaines hypothèses de continuite sur la vraisemblance de

T, on peut montrer que
la reciproque est egalement vraie, et donc que I
T
n
() = 0 si et seulement si la statistique

T est exhaustive.
Ainsi, on retrouve à laide de la notion dinformation de Fisher les intuitions qui nous avaient guidees
dans la section precedentes. Voyons maintenant les applications de la notion dexhaustivite à lestimation
parametrique.
3.4 Application à lestimation parametrique
On se place dans le cadre dun modèle statistique parametrique ((
)
n
, /
n
, IP
, ), o` u IR
p
,
domine par une mesure . Par ailleurs, on suppose que est un ouvert.
Denition. Soit g :
, o` u
IR
p
avec p
IN
, une fonction mesurable. On appelle

estimateur de la fonction g du paramètre, donc de g(), une statistique

T ` a valeurs dans IR
p
. En
particulier, un estimateur du paramètre est une statistique ` a valeurs dans IR
p
. Une estimation de
g() est une realisation de

T.
On appelle biais dun estimateur

T de g() le vecteur constant de IR
p
, B() = IE
T) g(). On dira
que lestimateur est sans biais si B() = 0 pour tout .
On appelle risque quadratique de lestimateur

T de g() le reel positif R() = IE
(|
T) g()|
2
), o` u |.|
designe usuellement la norme euclidienne (mais peut etre une autre fonctionnelle positive et convexe).
Si lestimateur est sans biais alors, R() = Trace(cov(
T)).
Pour pouvoir parler du comportement asymptotique dune statistique, on va devoir se placer dans un gros
modèle, dans lequel un echantillon est une suite de v.a. En quelque sorte, ce gros modèle pourra secrire
((
)
IN
, /
IN
, IP
IN
, ), o` u IR
p
(la dimension du paramètre reste constante). Pour un n xe, une
statistique

T
n
sera dabord une projection du gros modèle sur le modèle de taille n, puis une statistique
normale. On devra donc parler dune suite destimateurs (
T
n
)
n
Denition. Pour un modèle statistique parametrique ((
)
IN
, /
IN
, IP
IN
, ), o` u IR
p
, et pour (
T
n
)
n
une suite destimateurs de g() :
Si lim
n
B
n
() = 0, on dit que lestimateur est asymptotiquement sans biais.
On dit que (
T
n
)
n
est convergent lorsque

T
n
P
n+
g().
Sil existe (a
n
) une suite de reels positifs tels que a
n
(
T
n
g())
L
n+
Z
, o` u Z
est une loi centree

non nulle (ne dependent pas de n), on dit (
T
n
)
n
converge vers g() ` a la vitesse a
n
.
A priori, etre sans biais nest pas un bon critère pour garantir une certaine optimalite de la convergence dun
estimateur. On preferera plut ot discriminer entre de potentiels estimateurs à laide dun critère portant sur le
risque quadratique ou sur la matrice de variance-covariance. Cependant, il nexiste pas de resultats generaux
pour trouver un meilleur estimateur en ce sens. Pour en obtenir, on devra se limiter à une certaine classe
destimateurs, celle des estimateurs sans biais.
Denition. Soit un modèle statistique parametrique ((
)
n
, /
n
, IP
, ), et soit

T un estimateur sans
biais de g(). On dit que

T est de variance uniformement minimum parmi les estimateurs sans biais de g()
lorsque pour tout estimateur sans biais de g(), on a , cov(
T) cov(
S) (au sens o` u cov(
T) cov(
S)
est une matrice positive).
Propriete. Si

T est un estimateur de variance uniformement minimum parmi les estimateurs sans biais,
alors il est unique IP
-p.s.
Demonstration : Soit

S un autre estimateur que lon suppose egalement de variance uniformement minimum
parmi les estimateurs sans biais. Montrons dabord que E
((
T

S)
t
T) = 0. En eet, si IR, comme

T
est de variance minimum, en utilisant des inegalites sur les matrices symetriques :
cov(
T) cov(
T +(
T

S))
cov(
T) +
2
cov(
T

S) + 2 IE
T
t
S)
= 0
_
cov(
S) + 2IE
T
t
(
T

S))
_
pour tout IR.
25
Comme cov(
T

S) est une matrice positive, la seule possibilite pour avoir la dernière inegalite est que :
IE
T
t
(
S)) = 0. Par suite, comme cov(
S) = IE
_
(
S)
t
(
S)
_
= IE
T
t
(
S)
_
IE
S
t
(
S)
_
,
et que lon a suppose

T et

S de variance minimum, cov(
T

S) = 0. Donc

T =

S sur un ensemble de IP
-
mesure egale à 1.
Theorème (Rao-Blackwell). Si

T est un estimateur sans biais de g() et si

S est une statistique exhaustive,
alors

R = IE
T [

S), qui ne depend pas de car

S est exhaustive, est un estimateur sans biais de g() de
matrice de covariance inferieure ou egale ` a celle de

T.
Demonstration : il est clair que IE
R) = IE
T) = g(). De plus, pour tout u IR

p
(avec g : IR
p
IR
p
),
cov(
t
u

T) = IE
_
_
t
u (
T g())
_
2
_
= IE
_
IE
_
_
t
u (
T g())
_
2
_
[

S
_
IE
_
IE
_
t
u (
T g()) [

S
_
2
_
daprès linegalite de Jensen,
cov(
t
u

R).
Cela revient bien à ecrire que cov(
T) cov(
R).
Theorème (Lehmann-Schee). Si

T est un estimateur sans biais de g() et si

S est une statistique ex-
haustive et complète, alors lunique estimateur de g() sans biais uniformement de variance minimale est
R = IE
T [

S) (cest-` a-dire que

R est une fonction de

S).
Demonstration : Soit

T
un autre estimateur sans biais de g(). Si

R
= IE
[

S), on sait que cov(
)
cov(
) daprès le Theorème de Rao-Blackwell. Or IE
R

R
) = 0 pour tout car les deux estimateurs

sont sans biais. De plus comme

R et

R
sont des fonctions de

S,

R

R
lest aussi, et du fait que

S est une
statistique exhaustive et complète, alors pour tout ,

R =

R
, IP
-p.s. Par consequent, pour tout ,

cov(
) = cov(
R) et donc cov(
R) cov(
) :

R est bien lestimateur sans biais de variance uniformement
minimale.
Retenons donc de tout ceci que lestimateur sans biais de g() et de variance uniformement minimale est
une unique fonction dune statistique exhaustive et complète, lorsquune telle statistique existe. On aimerait
maintenant connatre un peu mieux la covariance dun tel estimateur.
Theorème (Inegalite de Cramer-Rao). Soit un modèle statistique parametrique ((
)
n
, /
n
, IP
, ) do-
mine et regulier, et soit

T un estimateur sans biais de g(), tel que IE
T|
2
< +. Si on suppose que
linformation de Fisher est une matrice denie positive, alors, en notant
g
() la matrice jacobienne de g,
pour tout :
cov(
T)
g
() (I
n
())
1
t
g
() (au sens des matrices symetriques).

En particulier, si

T est un estimateur sans biais de , alors :
cov(
T) (I
n
())
1
(au sens des matrices symetriques).
Demonstration : Soit Z
(x) = grad(log L
(x)) o` u x (
)
n
suit IP
. On sait que comme le modèle est

regulier, IE
(Z
) = 0 pour tout et donc :

cov(Z
) = I() pour tout .

De plus,

T est un estimateur sans biais de g() donc pour tout :
IE
T) = g() =
_
(
)
n
T(x)
L
(x) d(x) =
g
() (en derivant)
=
_
(
)
n
T(x)
L
(x) (L
(x))
1
dIP
(x) =
g
()
= IE
T
t
Z
) =
g
().
26
Ainsi, daprès ce qui precède,
cov
T
g
() I
1
() Z
) = cov
T) 2
g
() I
1
()
t
g
() +
g
() I
1
()
t
g
()
= cov
T)
g
() I
1
()
t
g
().
En consequence, comme cov
T
g
() I
1
() Z
) est une matrice positive, linegalite de Cramer-Rao

est prouvee.
Corollaire. Deux cas particuliers meritent attention :
Si le modèle est de la forme ((
)
n
, /
n
, (f
d)
n
, ), alors I
n
() = n I
1
(), o` u I
1
() est la
matrice dinformation de Fisher dune seule variable aleatoire X distribuee suivant f
d et lInegalite
de Cramer-Rao devient donc :
cov(
T)
1
n

_
g
() (I
1
())
1
t
g
()
_
(au sens des matrices symetriques).
On voit donc que pour un echantillon de variables independantes et identiquement distribuees, si la
vraisemblance est regulière, alors la vitesse de convergence de tout estimateur sans biais est au mieux
en

n.
Si le modèle nest pas regulier, mais que sous la probabilite IP
, la matrice dinformation de Fisher

existe et est inversible, et surtout si la propriete (4) est veriee, alors lInegalite de Cramer-Rao est
veriee. Cela exclut cependant les modèles dont le support de IP
depend de , comme par

exemple le simple modèle de v.a.i.i.d. de loi |(]0, [), avec > 0.
Denition. Si un estimateur sans biais atteint (respectivement asymptotiquement) la borne de Cramer-Rao
(qui ne depend pas de lestimateur), on dit quil est (resp. asymptotiquement) ecace.
Remarque. Un estimateur peut etre sans biais, de variance minimale, mais ne pas atteindre la borne de
Cramer-Rao, donc ne pas etre ecace. De la meme manière, il peut exister des estimateurs biaises atteignant
la borne de Cramer-Rao.
Nous allons voir que les modèles exponentiels jouent un role central pour lestimation parametrique puisque
sous certaines conditions ils sont les seuls pour lesquels on aura une estimation sans biais ecace.
Theorème. Soit un modèle statistique parametrique ((
)
n
, /
n
, IP
, ), avec IR
p
, domine et
regulier. Soit g : IR
d
IR
d
de classe (
1
sur telle que la matrice carree de taille p,
g
() soit de rang p
pour tout . Alors

T =
t
(
T
1
, . . . ,

T
d
) est un estimateur sans biais de g() atteignant la borne de Cramer-
Rao si et seulement si le modèle est exponentiel et plus precisement sil existe des fonctions a : (
)
n
IR,
: IR et
j
: IR (1 j p), telles que pour tout , g() =
_
i
()
_
1
1i,jp
() et
L
(x
1
, , x
n
) = exp
_
_
() +b(x
1
, , x
n
) +
d
j=1
T
j
(x
1
, , x
n
)
j
()
_
_
.
Demonstration : = On suppose donc le modèle exponentiel decrit dans le theorème. Si on derive par rapport
à un tel modèle, on obtient que pour -presque tout x (
)
n
:
(log L
(x)) =
_
i
()
_
1i,jp

T +

(), pour tout . (5)

En consequence, comme I() = IE
_
_

(log L
(.))
_
t
_

(log L
(.))
_
_
, on en deduit que :
I() =
_
i
()
_
1i,jd
cov
T)
t
_
i
()
_
1i,jp
= cov
T) =
_
i
()
_
1
1i,jp
I()
t
_
i
()
_
1
1i,jp
27
Par ailleurs, comme

T est un estimateur sans biais de g() daprès la preuve de lInegalite de Cramer-Rao,
IE
T(.)
t
_

(log L
(.))
_
_
=
g
()
et en utilisant (5) que lon multiplie par
_

(log L
(.))
_
, on obtient :
IE
_
_

(log L
(.))
_
t
_

(log L
(.))
_
_
= IE
_
_
i
()
_
1i,jp

T
t
_

(log L
(.))
_
_
+IE
()
t
_

(log L
(.))
_
_
,
et donc I() =
_
i
()
_
1i,jp
(). A laide de cette egalite, et en reprenant le calcul precedent, on en

arrive à ce que :
cov
T) =
g
() I
1
()
t
g
(),
donc

T atteint bien la borne de Cramer-Rao. De plus, grace à (5),
IE
(log L
(x))
_
= IE
_
_
i
()
_
1i,jp

T +

()
_
soit 0 =
_
i
()
_
1i,jp
g() +

()
et donc g() =
_
i
()
_
1
1i,jp
().
= Daprès la preuve de lInegalite de Cramer-Rao, si

T est un estimateur sans biais de g() atteignant la
borne de Cramer-Rao, alors
cov
T
g
() I
1
() Z
) = 0.
Ainsi, pour tout , il existe un ensemble N
)
n
tel que IP
(N
) = 1 et tel que pour tout x N
T(x) g() =
g
() I
1
() Z
(x). Par le meme procede que celui de la preuve de la nullite de linformation

de Fisher pour une statistique libre, on peut determiner un ensemble N ne dependant pas de , tel que cette
propriete soit egalement vraie, avec (N) = 1, ce qui revient à ecrire que x N,
I()
_
g
()
_
1
T(x) g()
_
=

(log L
(x)), pour tout .

Alors en integrant par rapport à , et en notant
_
_
() le vecteur colonne integrant I()
_
g
()
_
1
() la fonction integrant I()
_
g
()
_
1
g()
b(x) une fonction ne dependant pas de
on a log L
(x) = ()

T(x) +() +b(x), do` u lecriture de la vraisemblance sous forme dun modèle expo-
nentiel, et on retrouve lexpression de g() par le meme raisonnement que plus haut.
Corollaire. A linverse, si lon dispose dun modèle exponentiel regulier (3), alors il nexiste quune seule
fonction (` a une transformation ane près) du paramètre pouvant etre estimer ecacement, il sagit de
g() =
1
n

_
i
()
_
1
1i,jp
() (noter que cette fonction semble dependre de n; dans le cas de v.a.i.i.d.

ce nest pas le cas). Lestimateur est alors :

T =
1
n
(a
1
(X
1
, . . . , X
n
), . . . , a
p
(X
1
, . . . , X
n
)) et sa matrice de
covariance minimale est donnee par sa borne de Cramer-Rao, soit :
cov
T) =
1
n

g
()
_
i
()
_
1
1i,jd
.
28
3.5 Estimateur du maximum de vraisemblance
Nous allons voir une methode permettant dobtenir aisement et dans la plupart des cas un estimateur
possedant de très bonnes qualites... Par la suite on se place une nouvelle fois dans le cadre dun modèle
statistique parametrique ((
)
n
, /
n
, IP
, ), avec IR
p
, domine.
Denition. Pour (x
1
, . . . , x
n
) (
)
n
, soit L
(x
1
, . . . , x
n
) la vraisemblance du modèle. On appelle
estimateur du maximum de vraisemblance une statistique

n
telle que pour (X
1
, . . . , X
n
) un n-echantillon
quelconque du modèle :
L
n
(X
1
, , X
n
) = sup
(X
1
, , X
n
).
Remarque. Il ny a pas de garantie de lunicite dun tel estimateur. Une methode pour lobtenir (mais
pas toujours) est de rechercher un extremum local de L
sur , ce qui pourra etre fait en annulant les

derivees partielles de L
par
i
. De meme, il est clair que lestimateur du maximum de vraisemblance pourra
etre egalement obtenu en maximisant le logarithme de la vraisemblance, appele encore la log-vraisemblance.
Enn, si lon desire estimer g() avec g une fonction bijective, alors g(
) sera lestimateur du maximum de

vraisemblance de g().
Propriete. Sil existe une statistique exhaustive

T pour le modèle, alors

est une fonction mesurable de

T
pour tout .
Demonstration : Si

T est exhaustive, daprès le theorème de factorisation, la vraisemblance du modèle par
rapport à la mesure dominante P
est g
T(x
1
, . . . , x
n
)) pour tout et IP
-presque tout (x
,
. . . , x
n
)
(
)
n
, ce qui revient à P
-presque tout (x
,
. . . , x
n
) (
)
n
par la meme demonstration que celle de la nullite
de linformation de Fisher dune statistique libre. Ainsi, prendre largument maximal de L
revient à
prendre largument maximal de g
T(x
1
, . . . , x
n
)), et

sera donc une fonction de

T.
Propriete. On suppose que le modèle est regulier. Si on suppose quil existe un estimateur sans biais ecace
de alors cest lestimateur du maximum de vraisemblance de .
Demonstration : Daprès ce qui precède, si le modèle est regulier et que

T est un estimateur sans biais ecace
de , alors le modèle est exponentiel et legalite (5) a encore lieu, soit pour tout ,
(log L
(x)) =
_
i
()
_
1i,jp

T +

() =
_
i
()
_
1i,jp
IE
T) +

() = 0.
Comme

T est un estimateur sans biais de , on a donc
_
i
()
_
1i,jp
+

() = 0, pour tout ,
ce qui sapplique egalement à

et donc :
_
i
(
)
_
1i,jp
) = 0.
Mais daprès sa denition, le modèle etant regulier
minimise la log-vraisemblance et annule donc sa derivee,

ce qui implique que :
_
i
(
)
_
1i,jp

T +

) = 0.
En consequence, obtient :
_
i
(
)
_
1i,jp
_
= 0 =

T =

,
car la matrice des derivees des
j
est supposee de rang d. Enn, lunicite de

est liee à lecriture du modèle
exponentiel.
Nous allons nous interesser maintenant au comportement asymptotique de lestimateur du maximum de
vraisemblance (lorsquil existe), donc quand la taille n de lechantillon tend vers linni. Il est clair que pour
chaque n lexpression de lestimateur est dierente et, surtout, le modèle statistique change. Pour palier à
cela, on se placera dans un gros modèle, ((
)
IN
, /
IN
, IP
IN
, ), o` u IR
p
(la dimension du paramètre
reste constante) dans lequel un echantillon est une suite de v.a. Par ailleurs, on supposera desormais que
tout echantillon de ce modèle est constitue de v.a.i.i.d., et que dIP
IN
= (f
d)
IN
, le modèle etant
domine par la mesure , et f
etant la densite de chaque X

i
par rapport à .
29
Theorème (Convergence de lestimateur du maximum de vraisemblance). On suppose le modèle parametrique
((
)
IN
, /
IN
, (f
d)
IN
, ), o` u IR
d
domine par une mesure et regulier. On suppose en plus que le
modèle est identiable (au sens o` u f
1
= f
2
, -presque partout, entrane
1
=
2
). Alors si la suite (X
n
)
nIN
est issue du modèle avec pour paramètre
0
,
n
p.s.
n+
0
pour la mesure (f
0
d)
IN
.
Demonstration : En premier lieu, pour n xe, il est clair que pour tout :
log(L
(x
1
, . . . , x
n
)) log(L
0
(x
1
, . . . , x
n
)) =
n
i=1
log
_
f
(x
i
)
f
0
(x
i
)
_
.
Par ailleurs, pour tout i IN, les X
i
ont tous la meme loi et pour ,
IE
0
_
log
_
f
(X
i
)
f
0
(X
i
)
__
log
_
IE
0
_
f
(X
i
)
f
0
(X
i
)
__
(Inegalite de Jensen pour la fonction log)
log (IE
[f
(X
i
)])
0.
En fait, du fait que la fonction log est strictement convexe, la borne 0 ne peut etre atteinte que si f
= f
0
.
Ainsi, avec la contrainte dun modèle identiable, dès que ,=
0
, alors :
IE
0
_
log
_
f
(X
i
)
f
0
(X
i
)
__
< 0.
On peut appliquer la loi forte des grands nombres pour les variables aleatoires
_
log
_
f
(X
i
)
f
0
(X
i
)
__
iIN
(qui
sont bien i.i.d. et IL
1
car le modèle est regulier), et ainsi :
1
n
(log(L
(X
1
, . . . , X
n
)) log(L
0
(X
1
, . . . , X
n
))) =
1
n
n
i=1
log
_
f
(X
i
)
f
0
(X
i
)
_
p.s.
n+
IE
0
_
log
_
f
(X
i
)
f
0
(X
i
)
__
< 0,
la convergence presque s ure ayant lieu pour la mesure (f
0
d)
IN
. Considerons maintenant pour tout
> 0 une famille denombrable (
()
i
)
iI
dense sur la sphère de centre
0
et de rayon . Du fait du caractère
denombrable de cette famille, pour tout > 0, il existe n
tel que pour tout n n
, pour tout i I :
log(L
()
i
(X
1
, . . . , X
n
)) < log(L
0
(X
1
, . . . , X
n
)) p.s. pour la mesure (f
0
d)
IN
.
Comme le modèle est regulier, pour tout n IN
, la log-vraisemblance de X
1
, . . . , X
n
est continue sur . De
plus pour tout n elle atteint son unique maximum en
0
. En consequence, pour n n
n
sera à linterieur
de la boule de centre
0
et de rayon (toujours p.s. pour la mesure (f
0
d)
IN
). Le raisonnement etant
vrai pour tout > 0, le theorème sen deduit.
Theorème (Normalite asymptotique de lestimateur du maximum de vraisemblance). On suppose le modèle
parametrique ((
)
IN
, /
IN
, (f
d)
IN
, ), o` u IR
p
, domine par une mesure et regulier. On suppose
en plus que le modèle est identiable et que la fonction L
est de classe (
2
(). Alors si la suite
(X
n
)
nIN
est issue du modèle avec pour paramètre
0
:
n(
n

0
)
L
n+
^
d
(0, I
1
1
(
0
)),
o` u I
1
() est la matrice de Fisher de taille p (supposee inversible) pour la variable X
1
.
Demonstration : Comme le modèle est regulier, on peut dierencier la vraisemblance et pour tout ,
noter :
M
(X
1
, . . . , X
n
) =
1
n
log L
(X
1
, . . . , X
n
) =
1
n
n
i=1
log (f
(X
i
)) .
30
Un developpement limite dordre 1 de M
autour de
0
est possible (toujours en raison du modèle regulier)
et donc pour tout tout :
M
(X
1
, . . . , X
n
) = M
0
(X
1
, . . . , X
n
) + (
0
)

(X
1
, . . . , X
n
),
avec
dans le segment [,
0
] (remarquons que

(X
1
, . . . , X
n
) est une matrice carree de taille d). Ainsi
en rempla cant par

n
, on obtient pour chaque n lexistence de
n
appartenant au segment [
n
,
0
] tel que :
M
n
(X
1
, . . . , X
n
) = M
0
(X
1
, . . . , X
n
) + (
0
)

n
(X
1
, . . . , X
n
). (6)
Pour un modèle regulier, on a vu que IE
0
_

2
2
log f
0
(X
i
)
_
= I
1
(
0
), matrice de Fisher pour nimporte
quelle variable X
i
. Ainsi,

(.) etant une moyenne empirique, on a par la loi forte des grands nombres :
M
0
(X
1
, . . . , X
n
) =
1
n
n
i=1
2
log f
0
(X
i
)
p.s.
n+
I
1
(
0
) pour la mesure (f
0
d)
IN
.
Maintenant, en utilisant le fait que les densites f
sont de classe (
2
() et en utilisant la convergence presque
s ure de

n
vers
0
demontree au theorème precedent, on a :
n
(X
1
, . . . , X
n
)
p.s.
n+
I
1
(
0
) pour la mesure (f
0
d)
IN
.
Finalement, comme

n
est le maximum dune fonction de classe (
1
, cet estimateur annule M
n
(X
1
, . . . , X
n
),
et donc legalite (6) devient :
M
0
(X
1
, . . . , X
n
) I
1
1
(
0
) = (
n

0
).
Enn, comme M
0
(X
1
, . . . , X
n
) est une moyenne empirique, ce vecteur aleatoire verie un theorème de la
limite centrale :
n
_
M
0
(X
1
, . . . , X
n
) IE
0
_

log f
0
(X
i
)
__
L
n+
^
d
(0, I
1
(
0
)),
daprès la première denition de linformation de Fisher. Comme IE
0
_

log f
0
(X
i
)
_
= 0 (voir les pro-
prietes precedentes), on obtient la normalite asymptotique de

n
.
Remarque. Sous ces hypothèses, lestimateur du maximum de vraisemblance est asymptotiquement sans
biais et ecace. Cependant, ` a n xe, il peut avoir un biais et ne pas etre un estimateur ecace.
3.6 Regions de conance
En pratique, estimer un paramètre le plus souvent ne sut pas. On aimerait connatre plus precisement
quelle marge de securite on a sur la connaissance de ce paramètre.
Denition. On se place dans le cadre dun modèle parametrique ((
)
n
, /
n
, IP
, ), o` u IR
p
. Soit
]0, 1[ un nombre xe a priori. On appelle region de conance du paramètre de niveau 1 un sous-
ensemble aleatoire R
1
inclus dans IR
p
et deni sur ((
)
IN
, /
IN
), tel que pour tout , (x
1
, . . . , x
n
)
(
)
IN
, R
1
(x
1
, . . . , x
n
) /
n
et :
inf
IP
( R
1
) 1 . (7)
Si un echantillon observe (X
1
(), . . . , X
n
()) est connu, R
1
(X
1
(), . . . , X
n
()) est appele region de
conance observe. Dans le cas o` u le paramètre est un reel (p = 1), on pourra obtenir un intervalle de
conance.
31
Comment determiner une region de conance ? En premier lieu, il est clair que pour tout ]0, 1[, R
1

(en general, on choisit proche de 0, et en particulier = 0.05 est très souvent utilise). Une demarche possible
pour la construction de region de conance est la suivante : naturellement, on desirerait utiliser un estimateur
T convergent de , mais sa loi depend en general de ce qui rend dicile (` a part quelques exceptions) son
utilisation directe. On preferera donc utiliser ce que lon appelle une fonction pivotale (
T, ), qui est une

fonction mesurable dun estimateur et de et qui est une statistique libre. On essayera alors decrire la
propriete (7) sous la forme
inf
_
IP
((
T, ) C
)
_
1 ,
o` u C
est une region deterministe. Aussi pourra-t-on ensuite construire la region de conance en fonction
des quantiles (souvent à /2 et 1 /2) de la loi de la fonction pivotale.
Exemple. Si le modèle est regulier, sous les conditions du theorème de normalite asymptotique du maximum
de vraisemblance, on peut egalement montrer (theorème de Sltuski) que
(
n
,
0
) =
n (I
1
(
n
))
1/2
n

0
_
L
n+
^
d
(0, I
p
),
o` u I
d
est la matrice identite de taille p et (I
1
())
1/2
(I
1
())
1/2
= I
1
() pour tout . Ainsi, si n est
grand, on pourra assimiler la loi de (
n
,
0
) avec la loi normale centree reduite multidimensionnelle. Or si
Z ^
p
(0, I
p
), avec q
1/2
> 0 le quantile dune loi normale centree reduite reelle de niveau 1 /2, tel
que P(Z [q
1/2
, q
1/2
]
d
) 1 . Aussi le polyèdre n
1/2
(I
1
(
n
))
1/2
[q
1/2
, q
1/2
]
d
recentre
autour de

n
formera la region de conance cherchee.
3.7 M-estimateur
Il sagit ici de generaliser les estimateurs du maximum de vraisemblance. On donnera ici des critères très
generaux pour la consistance et la normalite asymptotique des estimateurs.
3.7.1 Introduction
Supposons que nous voulons estime un paramètre relie à la loi de probabilite dobservations (X
1
, , X
n
).
La methode pour trouver un tel estimateur est de minimiser une fonction critère de la forme
M
n
() =
1
n
n
i=1
m
(X
i
)
Ici m
: IR
p
IR sont des fonctions connues.
Exemple : estimateur du maximum de vraisemblance Admetttons que (X
1
, , X
n
) sont i.i.d. et
leur loi à pour densite f
0. Lestimateur du maximum de vraisemblance

n
minimise :
M
n
() =
1
n
n
i=1
log f
(X
i
)
Exemple : estimateur des moindres carres Admetttons que ((X
1
, Y
1
), , (X
n
, Y
n
)) sont i.i.d. , X
i

IR
p
, Y
i
IR et verient lequations de regression lineaire :
Y =
T
X +
o` u est une variable aleatoire centree, independante de X et de carre integrable. Lestimateur des moindres
carres

n
de est alors celui qui minimise :
M
n
() =
1
n
n
i=1
(Y
i

T
X
i
)
2
32
3.7.2 Consistance
Il est important que lestimateur converge vers la vrai valeur du paramètre
0
(presque-s urement ou bien
en probabilite), lorsque le nombre dobservations n converge vers linni. Si cest le cas lestimateur est dit
asymptotiquement consistant. Par exemple la moyenne empirique

X est asymptotiquement consistant pour
la moyenne de la population = E(X) si E(X) existe. On veut donc prouver que :
n
p.s.

On suppose que le M-estimateur

n
minimise la fonction M
n
(). Clairement, le comportement asymptotique
de

n
depend de du comportement asymptotique de la fonction M
n
(). Pour une bonne normalisation il
existera une fonction critère deterministe M() telle que :
: M
n
()
p.s.
M()
Il semble raisonnable que le minimisateur

n
de M
n
() converge sous des conditions raisonnable vers
0
le
minimisateur de M().
Theorème. Soit lespace des paramètres possibles et M
n
, M des fonctions telles que pour tout > 0 :
sup
[M
n
() M()[
p.s.
0,
inf
: 0
M() > M(
0
)
alors pour toutes suites destimateurs

n
telle que
n
= arg min
M
n
()
On aura
n
p.s.

0
Demonstration : On a pour tout voisinage 1 de
0
lexistence dune constante (1) > 0 telle que :
1, M() > M(
0
) +(1)
Donc, pour montrer la consistance forte, il sut de montrer que pour tout voisinage 1 de
0
on a
lim
n
n
p.s.
1 lim
n
M(
n
) M(
0
)
p.s.
(1)
Par denition M
n
(
n
)
p.s.
M
n
(
0
) et comme sup
[M
n
() M()[
p.s.
0 on aura
lim
n
M
n
(
n
)
p.s.
M(
0
) +
(1)
2
.
De meme on aura
lim
n
M(
n
) M
n
(
n
)
p.s.
= 0
et
lim
n
M(
n
)
(1)
2
p.s.
< lim
n
M
n
(
n
)
p.s.
< M(
0
) +
(1)
2
nalement lim
n
M(
n
) M(
0
)
p.s.
(1) ce qui prouve la consistance forte du M-estimateur.
Conditions susantes pour le theorème Pour un modèle regulier les hypothèses du theorème sont
faciles à veriees. Pour obtenir la condition :
inf
: 0
M() > M(
0
)
Il sut que la fonction limite M() soient une fonction strictement convexe, minimale en
0
et que pour
tout ,=
0
, M() ,= M(
0
). Cela sera le cas, si M() est lesperance de loppose de la log-vraisemblance,
cest-à-dire la distance de Kullback à une constante près :
M() =
_
f
0
log
_
f
0
f
_
33
Pour obtenir lhypothèse de la loi uniforme des grands nombres :
sup
[M
n
() M()[
p.s.
0
une condition susante est que lensemble des paramètres possibles soit compact, que la fonction
m
(x) soit continue pour tout x et quil existe une fonction h integrable qui domine [m
(x)[ pour tout .

Preuve Pour une boule ouverte B de , notons m
B
= sup
B
m
et m
B
= inf
B
m
. Par le theorème
de convergence dominee E[m
B
m
B
] 0 lorsque le diamètre de la boule tend vers 0. Pour > 0, soit
B
1
, , B
k
un recouvrement ni de tel que E[m
B
i
(X) m
B
i (X)] < . Pour tout B
i
, on aura :
M
n
() M()
1
n
m
B
i
(X
i
) E[m
B
i (X)]
1
n
m
B
i
(X
i
) E[m
B
i
(X)] +
M
n
() M()
1
n
m
B
i (X
i
) E[m
B
i
(X)]
1
n
m
B
i (X
i
) E[m
B
i (X)]
Ainsi,
sup
[M
n
() M()[ sup
i{1,,n}
max(
1
n
m
B
i
(X
i
) E[m
B
i
(X)]
1
n
m
B
i (X
i
) E[m
B
i (X)]
) +
Ainsi, presque-s urement, > 0, lim
n
sup
[M
n
() M()[ <
3.7.3 Normalite Asymptotique
On donne ici des conditions necessaire pour la normalite asymptotique du M-estimateur. Ces conditions
peuvent etre ameliorees mais celles donnees conviennent pour les exemples etudies pendant ce cours.
Notations
Pour une suite de variables aleatoire R
n
:
X
n
= o
P
(R
n
) X
n
= Y
n
R
n
et Y
n
P
0
Pour une suite de variables aleatoire R
n
:
X
n
= O
P
(R
n
) X
n
= Y
n
R
n
et Y
n
est bornee en probabilite Mtel queP([Y
n
[ > M) 0.
Hypothèses On suppose que les observations (X
1
, , X
n
) sont i.i.d. et que les hypothèses suivantes sont
veriees :
H1 Le M-estimateur

n
est fortement consistant
H2 Il existe un voisinage V du vrai paramètre
0
tel que pour tout V , la derivee 3ème de m() est
dominees par une fonction integrable.
H3 Le carre de la derivee 1ère :
_
m
(
0
)
_
2
est integrable.
H4 La matrice des derivees secondes :

2
m
2
(
0
) est integrable et inversible.
On aura alors le theorème suivant :
Theorème. Sous les hypothèses H1,...,H4 :
n(
n

0
) = E[
2
m
2
(
0
)]
1
1
n
n
i=1
_
m
(
0
)
_
+o
P
(1)
En particulier la suite

n(
0
) est asymptotiquement normale de moyenne 0 et de matrice de variance-
covariance E[
2
m
2
(
0
)]
1
E
_
m
(
0
)
m
(
0
)
T
E[
2
m
2
(
0
)]
1
Demonstration : Par un developpement de Taylor il existe un vecteur aleatoire

n
sur le segment
0
,

n
tel
que :
0 =
M
n
(
n
)
=
M
n
(
0
)
+

2
M
n
(
0
)
2
(
n

0
) +
1
2
(
n

0
)
T

3
M
n
(
0
)
3
(
n

0
)
34
Le premier terme à droite est la moyenne du vecteur aleatoire i.i.d.
Mn(0)
qui à pour esperance :

E
_
M
n
(
0
)
_
= 0
Par le theorème de la limite centrale la suite

n
Mn(0)
converge en loi vers une gaussienne de moyenne 0

et de matrice de variance-covariance E
_
m(0)
m(0)
T
_
. Par la loi des grands nombres

2
Mn(0)
2
converge
presque-s urement vers une matrice J = E
_
2
m(0)
2
_
. si k est la dimension du vecteur , la derivee troisième
3
Mn(0)
3
est un vecteur de k matrice k k, par hypothèse il existe un voisinage V de
0
tel que

3
Mn(0)
3
est dominee par une fonction integrable m
(3)
. Comme

n
est consistant, lim
n

n
V presque-s urement
et pour

n
V on aura le developpement suivant :
M
n
(
0
)
=
_
J + o
P
(1) +
1
2
(
n

0
)O
P
(1)
_
(
n

0
)) = (J +o
P
(1)) (
n

0
))
car (
n

0
)O
P
(1) = o
P
(1)O
P
(1) si

n
converge presque-s urement vers
0
. La probabilite que la matrice
J +o
P
(1) soit inversible tend vers 1. En multipliant lequation precedente par

n(J +o
P
(1))
1
on obtient
le resultat annonce
4 Tests parametriques
4.1 Principes dun test
Un test permet, à partir dune realisation dun echantillon, de decider entre deux hypothèses, en mettant
en avant une hypothèse privilegiee, appelee hypothèse H
0
, et une hypothèse alternative, appelee H
1
. On
associe à un test un niveau (avec souvent 0.05) et une puissance 1 . La plupart du temps, est
xe a priori et sen deduit. Plus precisement,
Denition. On se place dans le cadre dun modèle parametrique domine ((
)
n
, /
n
, IP
, ), o` u IR
p
et soit la vraie valeur du paramètre. Un problème de test est un choix entre deux hypothèses :
_
_
_
H
0
:
0
: hypothèse dite nulle
H
1
:
1
: hypothèse dite alternative,
(8)
o` u
0
IR
p
,
1
IR
d
et
0

1
= .
Ceci pose, on peut preciser deux types de problèmes de tests suivant les constitutions de
0
et
1
:
Denition. Une hypothèse (H
0
ou H
1
) est dite simple si elle est associee ` a un singleton (
0
ou
1
). Sinon,
elle sera dite composite. Dans le cas reel ( IR), si H
0
est simple de la forme =
0
, et si H
1
est composite
de la forme >
0
ou <
0
, on parlera de test unilateral ; si H
1
est composite de la forme ,=
0
, on
parlera de test bilateral.
Comment faire pour choisir entre les deux hypothèses H
1
et H
2
? Il faudra partir de ce que lon peut
connatre du modèle, cest-à-dire generalement un echantillon observe (X
1
, . . . , X
n
). Pour cela, on denit
une statistique qui sera la cle de vo ute du test :
Denition. Dans le cadre du problème de test (8, soit

T une statistique (donc une fonction mesurable dun
echantillon (X
1
, , X
n
) issu du modèle) ` a valeurs dans IR
d
, qui sera appelee statistique du test. Le test
sera deni par la fonction

= II
TW
, o` u W est une partie de IR
p
appelee region critique du test (et sa
partie complementaire dans IR
p
est appelee region dacceptation du test). Si

= 1, on choisira H
1
, sinon on
decidera plut ot H
0
.
Donc, à chaque hypothèse H
0
et H
1
, on associe une partie de IR
p
pour la statistique de test

T. En general,
ces parties ne sont pas
0
et
1
. Pour pouvoir precisement determiner la region W, dans un cadre theorique
(qui nest pas le meme que le cadre pratique, voir plus bas), on peut commencer par associer une fonction
puissance à la statistique de test, puis denir les erreurs de premier espèce et de deuxième espèce :
35
Denition. Pour la statistique de test

T, on associe :
une fonction puissance, qui est la probabilite de choisir H
1
:
1
IP
T / W).
une erreur de première espèce : P
H0
(Choisir H
1
) = = sup
0
IP
T W) ;
une erreur de seconde espèce : P
H1
(Choisir H
0
) = = sup
1
IP
T / W).
La puissance du test est 1 .
Cependant, ce qui vient detre ecrit reste theorique. En pratique, on utilisera plut ot la demarche suivante :
Construction concrète dun test : On suppose le problème de test (8). On pose egalement a priori
qui depend du problème pose (mais en general = 0.05), et 1 est appele le niveau du test. Par la
suite, on realise :
1. Lexpression quantitative des hypothèses H
0
et H
1
.
2. Le choix de la statistique

T du test.
3. La construction dune region critique W à lhypothèse H
1
par rapport à

T.
4. La determination explicite de W en fonction de .
5. Le calcul (si possible) de la puissance du test 1 .
6. Pour la realisation de lechantillon, rejet ou acceptation de H
0
.
Remarque :Cependant, en pratique on ne procède pas ainsi. On a donc deux types derreur. Le choix de
lhypothèse privilegiee est donc fondamental car le resultat dun test nest pas symetrique. Par exemple,
supposons que lon ait pour modèle (IR
n
, B(IR
n
), ^(, 1)
n
, IR) et que lon veuille tester H
0
: = 0
contre H
1
: = 1 à partir dun echantillon (X
1
, , X
n
) du modèle. Nous verrons pourquoi un peu plus
loin, X
n
est une statistique de test pertinente. Par exemple, si n = 1, et X
1
() = X
1
() = 0.8, que va-t-on
choisir entre H
0
et H
1
? Naturellement, une region critique sera de la forme [s, +[, o` u s IR, car X
n
est
un estimateur de . On determine s à laide de , puisque P
H0
(Choisir H
1
) = = P
0
(X
1
s), donc par
exemple, si = 0.05, s 1.65. Par suite, si X
1
() = 0.8, on accepte H
0
et lerreur de seconde espèce est
P
1
(X
1
< s) 0.74, donc très elevee : le test nest pas très discriminant. Maintenant, si on inverse H
0
et H
1
,
soit H
0
: = 1 contre H
1
: = 0, le meme resultat X
1
() = 0.8, conduit à accepter H
0
, avec une erreur
de second espèce encore 0.74. On obtient donc deux resultats opposes pour la meme experience aleatoire.
Les hypothèses H
0
et H
1
ne sont clairement pas interchangeable.
La question qui se pose maintenant est de savoir comment trouver une statistique de test. Une idee na-
turelle dans ce cadre parametrique serait dutiliser un estimateur du maximum de vraisemblance.
4.2 Test de Wald
Un estimateur du maximum de vraisemblance permet dassocier à chaque hypothèse du test un ensemble
de meme forme que
0
et
1
. Cependant, la diculte est trouver la loi de lestimateur du maximum de
vraisemblance

à n xe. Si cela est possible, on utilisera directement

comme statistique de test.
Sinon, de manière plus generale, on connat la loi asymptotique de

n
quand le modèle est regulier. Donc
quand n est grand, on pourrait utiliser une loi normale comme approximation de la loi de

n
. Mais, un
nouvel obstacle apparat : la matrice de covariance asymptotique, qui est la matrice dinformation de Fisher
inverse, depend du paramètre . Aussi va-t-on preferer utiliser la statistique de test

T suivante :
Denition. Pour un modèle parametrique domine regulier ((
)
n
, /
n
, IP
, ), o` u IR
p
. La statis-
tique de Wald

T pour le test H
0
: =
0
contre H
1
:
1
est :

T
n
= n
t
(
n
) I() (
n
).
Pour montrer theoriquement la pertinence de ce test, on va donc considerer la suite de tests (
T
n
) en se
pla cant dans le grand modèle asymptotique :
Theorème. Dans le cadre dun modèle parametrique ((
)
IN
, /
IN
, (f
d)
IN
, ), o` u IR
p
, domine
par une mesure et regulier, pour le problème de test H
0
: =
0
contre H
1
: ,=
0
, alors, en notant

T
n
la statistique de test de Wald pour le modèle projete de taille n sous lhypothèse H
0
,
T
n
L
n+
2
(p).
36
La region de rejet asymptotique du test sera donc de la forme

T
n
> s
, o` u s
est le quantile dordre 1

de la loi du
2
(p). La suite de test (
T
n
)
n
a donc une puissance qui tend vers 1 lorsque est xe.
Demonstration : La loi asymptotique de

n
induit la loi asymptotique de

T
n
, car

n I()
1/2
(
n
) suit
asymptotiquement une loi ^(0, I
d
) sous lhypothèse H
0
et

T
n
= |
n I()
1/2
(
n
)|
2
.
Voici donc un premier type de test, qui sous certaines conditions de regularites du modèle et pour cer-
taines hypothèses de tests est interessant. Mais pourrait-on faire mieux ? Et en quel sens ? Desormais, il nous
faut donc denir un moyen de comparaison entre deux tests.
4.3 Test du rapport de vraisemblance
Denition. Sous les hypothèses et notations precedentes, on dira quun test est uniformement le plus
puissant (U.P.P.) au seuil si le niveau de

associe ` a la statistique

T est inferieur ou egal ` a et si pour
tout autre test

associe ` a la statistique

T
de niveau inferieur ou egal ` a ,

1
,
IE
) = 1 IP
T / W) 1 IP
/ W
) = IE
).
Denition. Sous les hypothèses precedentes, si L
(.) est la vraisemblance, on appellera test du rapport de

vraisemblance (test de Neyman-Person dans le cas dhypothèses simples) un test de statistique

T telle que :
T =
sup
0
L
(X
1
, , X
n
)
sup
1
L
(X
1
, , X
n
)
.
La region critique W associee ` a un tel test est de la forme W =] +, K[ (donc si

T < K, on rejette H
0
).
Une des vertus du test du rapport de vraisemblance par rapport au test de Wald est quil peut etre utilise
dans un modèle non regulier (mais la question de sa loi, ou de la loi dune fonctionnelle de ce test, demeure).
De plus, la propriete suivante conrme linteret de cette statistique de test :
Propriete (Principe de Lehmann). Dans le cas du test de deux hypothèses simples, ou dun test unilateral
( IR), ce test est U.P.P. Dans le cas dun test bilateral, il nexiste pas forcement de test U.P.P.
Demonstration :
Enn, un tel test pour un modèle regulier, va pouvoir etre traite de manière generale grace à la norma-
lite asymptotique de lestimateur du maximum de vraisemblance :
Theorème. Dans le cadre dun modèle parametrique ((
)
IN
, /
IN
, (f
d)
IN
, ), o` u IR
p
, domine
par une mesure et regulier, pour le problème de test H
0
: =
0
contre H
1
: ,=
0
, alors, en notant

T
n
la statistique du rapport de vraisemblance pour le modèle projete de taille n,
2 log(
T
n
)
L
n+
2
(p).
La region de rejet asymptotique du test sera donc de la forme 2 log(
T
n
) > s
, o` u s
est le quantile dordre

1 de la loi du
2
(p). La suite de test (
T
n
)
n
a donc une puissance qui tend vers 1 lorsque est xe.
Demonstration : la demonstration reprend un peu celle de la normalite asymptotique du maximum de
vraisemblance.
37
Première Annee Master M.A.E.F. 2005 2006
Statistiques I
Controle continu n
1, novembre 2005
Examen de 2 h 00. Tout document ou calculatrice est interdit.
1. On considère une suite (X
i
)
iIN
de variables aleatoires independantes et identiquement
distribuees suivant une loi ^(m,
2
), o` u m IR et
2
> 0 sont des paramètres inconnus.
Soit egalement pour n IN
, X
n
=
1
n
(X
1
+ + X
n
) et
2
n
=
1
n
n
j=1
(X
j
X
n
)
2
.
(a) Pour n xe, determiner le modèle statistique parametrique.
(b) Pour n IN
, quelle est la loi de X

n
?
(c) Quelles sont les limites (en probabilite et en loi) de X
n
et de
2
n
(justier...) ?
(d) Montrer que la connaissance de (X
1
, , X
n
) induit celle de (X
1
, , X
n
). Determiner
la loi du vecteur (X
1
, , X
n
). Les (X
k
) sont-elles independantes ?
(e) Soit X
n
=
1
n
(X
1
+ +X
n
). Quelle est la loi de X
n
pour n IN
? En deduire
que X
n
P
n+
m. Montrer egalement que X
n
p.s.
n+
m.
(f) Comment peut-on faire pour savoir quelle suite de variables aleatoires, (X
k
)
k1
ou
(X
k
)
k1
, sapproche le plus vite de m? Conclusion?
(g) Pour le modèle parametrique de taille n o` u
2
est suppose connue, montrer que la
statistique X
n
est exhaustive complète. Et la statistique (X
1
, , X
n
) ? Enn, la
statistique X
n
est-elle exhaustive ?
2. En fait, on ne connat pas explicitement chaque X
i
, mais plutot pour tout k IN
,
T
k
= max(X
1
, , X
k
).
(a) La connaissance de (T
1
, , T
n
) induit-elle celle de (X
1
, , X
n
) ?
(b) Determiner la fonction de repartition F
k
de T
k
, puis, après avoir montre son exis-
tence, sa densite f
k
par rapport à la mesure de Lebesgue, le tout en fonction de la
fonction de repartition F et de la densite f de X
1
.
(c) Determiner, en justiant, le comportement asymptotique (quand n ) de (T
n
)
n
.
(d) Pour k IN
, montrer que T
k
et T
k+1
ne sont pas independantes. Montrer que
IP(T
k+1
= T
k
) =
k
k + 1
. En deduire la mesure de probabilite de la variable T
k+1
T
k
.
La loi de probabilite de la variable T
k
est-elle continue ? Discrète ?
(e) La statistique T
n
est-elle exhaustive pour le modèle parametrique de taille n o` u
2
est suppose connue ? Et la statistique (T
1
, , T
n
) ?
38
Statistiques I
Controle continu n
2, janvier 2006
1. Soit la variable X qui suit une loi dont la densite f
X
par rapport à la mesure de Lebesgue
sur ]0, 1] est, avec et K IR :
f
X
(x) = K x
pour tout x ]0, 1],

(a) Determiner K en fonction de , en precisant quelle condition doit verier . En
deduire IE(X) et var(X), en precisant egalement des conditions sur .
(b) On suppose que la suite (X
i
)
iIN
est constituee de variables aleatoires independantes
et identiquement distribuees suivant la meme loi que X. Soit un echantillon observe
(X
1
, . . . , X
n
). On desire estimer à partir de cet echantillon. Quel est le modèle
statistique ? Montrer que ce modèle appartient à la famille exponentielle.
(c) En deduire quil nexiste pas destimateur sans biais ecace de .
(d) Montrer que que log(X) suit une loi connue dont on precisera le paramètre. En
deduire que

n
= 1 n
_
n
i=1
log(X
i
)
_
1
est un estimateur sans biais de (utili-
ser les lois gammas...), puis quil est de variance uniformement minimale parmi les
estimateurs sans biais (Lehmann-Schee...).
2. Soit Y une variable suivant une loi de Bernoulli de paramètre p ]0, 1[ et independante
de X. On denit une variable Z de la manière suivante : si Y = 1, alors Z = X, et si
Y = 0 alors Z = X.
(a) Montrer que Z suit une loi absolument continue par rapport à la mesure de Lebesgue
sur [1, 0[]0, 1] et que sa densite f
Z
est :
f
Z
(z) = ( + 1) [x[
_
p II
x]0,1]
+ (1 p) II
x[1,0[
_
pour tout x [1, 0[]0, 1].
Calculer IE(Z) et var(Z) (en precisant les conditions sur ).
(b) On suppose que la suite (Z
i
)
iIN
et identiquement distribuees suivant la meme loi que Z. Soit un echantillon observe
(Z
1
, . . . , Z
n
). On desire estimer (, p) à partir de cet echantillon. Quel est le modèle
statistique ? Montrer que ce modèle appartient à la famille exponentielle.
(c) En deduire une statistique exhaustive minimale complète pour ce modèle. Determiner
la matrice dinformation de Fisher du modèle, puis la borne de Cramer-Rao. Determiner
une fonction g de (, p) que lon peut estimer sans biais et de manière ecace.
39
(d) Determiner, après avoir montre son unicite, lestimateur (
n
, p
n
) du maximum de
vraisemblance de (, p). Les estimateurs

n
et p
n
sont-ils independants ? Determiner
un theorème de la limite centrale verie par (
n
, p
n
). Est-ce un estimateur asymp-
totiquement ecace ?
(e) Determiner une region de conance de niveau 95% sur (, p), en utilisant 1/ les-
timateur ecace de g(, p) 2/ lestimateur de maximum de vraisemblance dans un
cadre asymptotique.
40
Statistiques I
Examen terminal, janvier 2006
1. On considère (X
k
)
kIN
et (X
k
)
kIN
deux suites independantes de variables aleatoires
denies sur le meme espace de probabilite, independantes et identiquement distribuees
suivant les lois respectives ^(,
2
) (pour les X
i
) et ^(
,
2
) (pour les X
i
), o` u (,
)
IR
2
et
2
> 0. Le but du problème est de tester si =
à partir dun echantillon de

chacune de ces suites.
Soit (X
1
, . . . , X
n
) et (X
1
, . . . , X
n
), o` u n IN
et n
IN
, deux echantillons issus

de (X
k
)
kIN
et (X
k
)
kIN
. On pose Z = (Z
1
, . . . , Z
n+n
) = (X
1
, . . . , X
n
, X
1
, . . . , X
n
)
(a) Determiner le modèle statistique associe à Z = (Z
1
, . . . , Z
n+n
).
(b) Montrer que ce modèle est exponentiel. En deduire que et
peuvent etre estimes

ecacement (on notera et
leurs estimateurs respectifs).

(c) Montrer quun estimateur du maximum de vraisemblance de
2
est
2
, avec :

2
=
1
n +n
_
n
j=1
_
Z
j

_
2
+
n+n
j=n+1
_
Z
j

_
2
_
.
Est-ce un estimateur biaise de
2
? Est-il convergent ? Ecace ?
(d) Lorsque n et n
sont grands, deduire de ce qui precède, des intervalles de conance

à 95% pour et
.
(e) Soit le problème de test :
H
0
: =
contre H
1
: ,=
(
2
restant inconnu). Demontrer que la statistique

T du rapport de vraisemblance
verie :
T =
_

2
2
_
(n+n
)/2
avec
_
2
=
1
n +n
n+n
j=1
_
Z
j
Z
n+n
_
2
Z
n+n
=
1
n +n
n+n
i=1
Z
i
.
En deduire que la region dacceptation du test peut secrire sous la forme
2
K
2
,
avec K dependant du niveau du test.
41
(f) Pour determiner la valeur K en fonction du niveau 1 du test, on peut considerer
la statistique, dite de Fisher,
=
(n +n
)
2
(n +n
)
2
_
n +n
n +n
2
_

2
i. Soit les vecteurs de IR
n+n
, u
1
= (1, . . . , 1), u = (1, . . . , 1, 0, . . . , 0) (soit n fois 1
et n
fois 0) et u
= u
1
u. Montrer que u et u
sont orthogonaux.
ii. Sous lhypothèse H
0
, determiner une expression plus simple de P
<u
1
>
(Z), pro-
jete orthogonal de Z sur le sous-espace vectoriel (s.e.v.) engendre par u
1
, et
P
<u,u
>
(Z), projete orthogonal de Z sur le s.e.v. engendre par u et u
.
iii. Montrer que sous lhypothèse H
0
, le vecteur Z peut secrire Z = u
1
+ ,
o` u est un vecteur aleatoire gaussien compose de n +n
variables gaussiennes
centrees reduites.
iv. Montrer que sous lhypothèse H
0
, (n + n
)
2
=
2
|P
A
()|
2
, o` u |.| est la
norme euclidienne classique sur IR
n+n
et A est un s.e.v. de IR
n+n
que vous
preciserez.
v. En utilisant le Theorème de Pythagore, montrer que sous lhypothèse H
0
et avec
B est s.e.v. de IR
n+n
que vous preciserez, (n+n
)
2
(n+n
)
2
=
2
|P
B
()|
2
.
vi. En utilisant le Theorème de Cochran, montrer que sous lhypothèse H
0
,

T
suit
une loi de Fisher à (1, (n + n
2)) degres de liberte. Lorsque n et n
sont
grands, quelle loi suit approximativement

T
?
vii. Pour nir, determiner K en fonction dun quantile de la loi de Fisher à (1, (n+
n
2)) degres de liberte.

2. Soit X une variable aleatoire dont la mesure de probabilite est absolument continue par
rapport à la mesure de Lebesgue sur IR et de densite :
f(x) =

2
exp ( [x m[) pour x IR,
avec m IR et > 0, des paramètres inconnus.
(a) Calculer lesperance et la variance de X.
(b) Calculer IP(X = m) et IP(X < m). En deduire la mediane (theorique) de la loi de
X.
(c) Soit une suite (X
i
)
iIN
de variables aleatoires independantes et identiquement dis-
tribuees suivant la meme loi que X, dont on extrait un echantillon observe (X
1
, . . . , X
2n+1
).
Par ailleurs, on note X
(1)
X
(2)
. . . X
(2n+1)
la statistique dordre associee.
Soit :
H
n
(a) =
1
2n + 1
2n+1
i=1
[X
i
a[ pour a IR.
Calculer

H
n
(X
(n+1)
) en fonction des X
(i)
. Montrer que la fonction a

H
n
(a) est
minimale en X
(n+1)
(on pourra developper

H
n
(X
(n+k)
) en fonction des X
(i)
pour
k > 1).
42
(d) On suppose ici que m = 1, donc que m est connu ( > 0 restant inconnu). Quel
est alors le modèle statistique ? Montrer que ce modèle appartient à la famille
exponentielle, et en deduire une statistique exhaustive dont vous montrerez quelle
est complète. Determiner la matrice dinformation de Fisher du modèle. Quelle est la
fonction de (à une transformation ane près) que lon peut estimer ecacement ?
Determiner lestimateur de maximum de vraisemblance de et montrer quil verie
un theorème de la limite centrale.
(e) On suppose desormais que m IR est inconnu, tout comme > 0. Quel est
alors le modèle statistique ? Montrer que ce modèle nappartient pas à la famille
exponentielle. A laide de la question 2.(c), determiner un estimateur ( m
n
,
n
) du
maximum de vraisemblance du couple (m, ).
(f) Pour a IR, demontrer que

H
n
(a) converge presque s urement quand n vers
IE([X a[). Montrer que la fonction a IR IE([X a[) est minimale en a = m.
En deduire que m
n
p.s.
n+
m, puis que

n
p.s.
n+
.
43
Statistiques I
Examen de septembre 2006
1. On considère (X
k
)
kIN
une suite de variables aleatoires independantes et identiquement
distribuees suivant la loi ^(m, 1), o` u m IR. Soit la suite de variables (Y
k
)
kIN
telle
que pour tout k IN
,
Y
k
= X
1
+ +X
k
.
Soit (Y
1
, . . . , Y
n
), o` u n IN
un echantillon issus de (Y
k
)
kIN
.
(a) Determiner la loi de Y
k
pour k IN
.
(b) Determiner la loi du vecteur (Y
1
, . . . , Y
n
). Montrer que pour i ,= j, Y
i
nest pas
independante de Y
j
.
(c) Determiner le modèle statistique associe à (Y
1
, . . . , Y
n
).
(d) Montrer que ce modèle est exponentiel.
(e) Soit J
n
la matrice de covariance de (Y
1
, . . . , Y
n
). Verier que
J
1
n
=
_
_
_
_
_
_
_
2 1 0 0 0 0
1 2 1 0 0 0
0 1 2 1 0 0
: : : : :
0 0 0 0 1 1
_
_
_
_
_
_
_
.
En deduire que m peut etre estime par un estimateur m (que lon precisera) sans
biais et ecace.
(f) Determiner lestimateur du maximum de vraisemblance de m. Est-ce un estimateur
biaise ? Est-il convergent ? Ecace ? Quel est son risque quadratique ?
(g) Determiner la statistique du test de rapport de vraisemblance pour le test
H
0
: m = m
0
contre H
1
: m ,= m
0
,
o` u m
0
est une constante connue. On realise une application numerique de ce test au
niveau 5% pour n = 100. On trouve que m = m
0
+1. Accepte-t-on alors lhypothèse
H
0
?
f(x) = k
1
x
II
0x
pour x IR,
avec k IR et > 0, des paramètres inconnus.
44
(a) Determiner lexpression de k en fonction de . Calculer lesperance et la variance
de X.
(b) Soit une suite (X
i
)
iIN
1
, . . . , X
n
).
(1)
X
(2)
. . . X
(n)
la statistique dordre associee. On
desire estimer à partir (X
1
, . . . , X
n
). Quel est alors le modèle statistique ? Quel
est la vraisemblance L
du modèle ?
(c) Montrer que

T
n
= X
(n)
= max(X
1
, . . . , X
n
) est une statistique exhaustive pour ce
modèle.
(d) Montrer que cette statistique est minimale.
(e) Soit (x
1
, . . . , x
n
) IR
n
et le meme n-uplet ordonne min(x
i
) = x
(1)
x
(n)
=
max(x
i
). Montrer que :
IP(X
(1)
x
(1)
, . . . , X
(n)
x
(n)
) = n!IP(X
1
x
(1)
X
1
X
2
x
(2)
X
n1
X
n
x
(n)
).
Montrer par iteration sur les derivees partielles que :
n
x
(1)
. . . x
(n)
IP(X
1
x
(1)
X
1
X
2
x
(2)
X
n1
X
n
x
(n)
) =
n
i=1
f(x
(i)
).
Soit L
(n)
la vraisemblance de (X
(1)
, . . . , X
(n)
). Deduire de ce qui precède que :
L
(n)
(x
(1)
, . . . , x
(n)
) = n! L
(x
1
, . . . , x
n
).
(f) Determiner la densite puis le biais de

T
n
.
(g) Montrer que

T
n
est une statistique exhaustive et complète.
(h) Deduire de ce qui precède un estimateur

T
n
de , sans biais et uniformement de
variance minimale.
(i) Calculer le risque quadratique de

T
n
et en deduire que

T
n
P
n+
, puis, que pour
tout [0, 1[, n
n
)
P
n+
0.
(j) Determiner explicitement un intervalle de conance à 95% de en fonction de

T
n
.
45
Statistiques I
Controle continu n
1, novembre 2006
1. On considère une suite (
i
)
iIN
de variables aleatoires independantes et identiquement
distribuees suivant une loi ^(0,
2
), o` u
2
> 0 est un paramètre inconnu. Pour tout
n IN
, on denit :
X
n
=
n
n1
,
o` u IR est inconnu. On notera par la suite = (
2
, ).
(a) Montrer que var(
2
i
) = 2
4
.
(b) Pour tout i IN
, determiner IE(X
i
) et var(X
i
). Montrer que (X
i
)
i
est une suite
de variables identiquement distribuees dont vous preciserez la loi.
(c) Montrer que cov(X
i
, X
j
) = (1 +
2
)
2
si i = j, cov(X
i
, X
j
) =
2
si [i j[ = 1
et cov(X
i
, X
j
) = 0 sinon.
(d) Pour n xe, en deduire la loi du vecteur (X
1
, . . . , X
n
), puis determiner le modèle
statistique parametrique associe en precisant une mesure dominante.
(e) Soit
2
n
=
1
n
n
i=1
X
2
i
. Montrer que
2
n
est un estimateur non biaise de
2
. Soit
Z
(1)
n
=
1
n
[n/2]
k=1
X
2
2k
et Z
(2)
n
=
1
n
[(n+1)/2]
k=1
X
2
2k1
,
avec [x] la partie entière de x. Montrer que les suites de variables (Z
(1)
n
)
n
et (Z
(2)
n
)
n
convergent presque s urement (preciser leurs limites) et quelles verient un theorème
de la limite centrale.
(f) Montrer que si deux suites de variables convergent presque s urement, la suite com-
posee de leurs sommes converge presque s urement. En deduire que (
2
n
)
n
converge
presque s urement vers
2
.
(g) Soit
n
=
1
n 1
n1
i=1
X
i
X
i+1
. En utilisant le meme type dargument que precedemment,
montrer que (
n
)
n
converge presque s urement vers
2
. En deduire un estimateur
de convergeant presque s urement.
2. Soit X une variable aleatoire dont la loi est absolument continue par rapport à la mesure
de Lebesgue sur IR et telle que sa densite par rapport à cette mesure soit :
f
,a
(x) = K
1
[x[
II
axa
,
46
avec a IR et IR. Soit (X
1
, . . . , X
n
) un echantillon de n v.a.i.i.d. de meme loi que
X.
(a) Après avoir preciser lensemble des valeurs pour = (a, ), determiner K en
fonction de a et .
(b) Calculer IE(X) après avoir verier que ce calcul peut etre eectue pour .
(c) Quel est le modèle statistique associe à (X
1
, . . . , X
n
).
(d) Montrer que

S = ([X
1
[, . . . , [X
n
[) est une statistique exhaustive. Montrer que pour
n 3 cette statistique nest pas minimale.
(e) Determiner une statistique

T = (
T
1
,

T
2
) à valeurs dans [0, +[
2
qui soit exhaustive
minimale pour tout n IN.
47
Statistiques I
Controle continu n
2, janvier 2007
1. Soit X une variable aleatoire suivant la loi suivante :
IP(X = 1) = IP(Y = 1) = p et IP(X = 0) = 1 2p,
o` u p est un paramètre reel inconnu.
(a) Determiner lensemble des valeurs possibles pour p. Calculer EX et varX.
(b) On suppose que la suite (X
i
)
iIN
et identiquement distribuees suivant la meme loi que X. Soit un echantillon (X
1
, . . . , X
n
).
Determiner le modèle statistique associe à cet echantillon et determiner une mesure
dominant ce modèle. Montrer que le modèle appartient à la famille exponentielle.
En deduire une statistique exhaustive complète pour ce modèle. Montrer que p
peut etre estime ecacement et donner un tel estimateur. Calculer la borne de
Cramer-Rao et verier quelle est bien atteinte par cet estimateur.
(c) On denit la suite (Y
i
)
iIN
à partir de (X
i
)
iIN
de la manière suivante :
Y
i+1
= X
i
X
i+1
pour i IN.
Determiner la loi de Y
i
. Montrer que cov(Y
i
, Y
i+1
) = 0. Les (Y
i
)
i
sont-elles independantes ?
(d) Montrer que ([Y
1
[, . . . , [Y
n
[) est une statistique exhaustive pour le modèle statis-
tique induit par (Y
1
, , Y
n
).
2. Soit la variable X qui suit une loi dont la densite f
X
par rapport à la mesure de Lebesgue
sur IR est, avec > 0 et > 0 :
f
X
(x) = K x
II
0x
pour tout x IR,
(a) Determiner K en fonction de et .
(b) Montrer que Y = log(/X) suit une loi exponentielle dont on precisera le paramètre.
(c) On suppose que la suite (X
i
)
iIN
et identiquement distribuees suivant la meme loi que X. Soit un echantillon (X
1
, . . . , X
n
).
On suppose que (, ) est inconnu. Preciser alors le modèle statistique forme par
cet echantillon et la mesure dominante. Ce modèle appartient-il à la famille expo-
nentielle ?
48
(d) Dans cette question, et uniquement dans cette question, on suppose que est
connu. Preciser alors le modèle statistique. Ce modèle appartient-il à la famille
exponentielle ? Montrer que lestimateur du maximum de vraisemblance
n
de
existe, est unique et secrit :

n
=
1
1
n
n
i=1
log(/X
i
)
1
Montrer que
n
converge presque s urement vers et quil verie un theorème de
la limite centrale que lon precisera. En deduire un intervalle de conance à 95%
sur pour n grand.
(e) Dans cette question, et sont inconnus. Determiner une statistique exhaustive
pour le modèle. En vous aidant de la question precedente, determiner lestima-
teur du maximum de vraisemblance (
n
,
n
) de (, ). Determiner la fonction de
repartition de log(/
n
) et en deduire que

n
P
n+
, puis que
nlog(/
n
)
P
n+
0.
(f) Soit (U
n
)
nIN
et (V
n
)
nIN
deux suites de variables aleatoires denies sur le meme es-
pace de probabilite. Montrer que si (U
n
)
n
converge vers une loi P
0
et (V
n
)
n
converge
en probabilite vers 0, alors (U
n
+V
n
)
n
converge en loi vers P
0
(on pourra par exemple
majorer la dierence de fonctions caracteristiques). En deduire que
n
suit le meme
theorème de la limite centrale que
n
.
49
Statistiques I
Examen terminal, janvier 2007
1. On considère une suite de variables aleatoires (X
k
)
kIN
denies sur le meme espace de
probabilite, independantes et identiquement distribuees suivant une loi de Bernoulli de
paramètre p. On denit :
Y = min k IN
, X
k
= 0.
(a) Comment peut-on interpreter la variable Y ? Montrer que la loi de Y est :
IP(Y = k) = p
k1
(1 p) pour k IN
.
(b) On suppose que (Y
1
, . . . , Y
n
) est un echantillon de variables aleatoires independantes
et identiquement distribuees suivant la loi de Y avec p ]0, 1[ est inconnu. Determiner
le modèle statistique et sa mesure dominante. Montrer que ce modèle est exponen-
tiel. En deduire, un estimateur p
n
de p sans biais et ecace. Determiner la borne
de Cramer-Rao et verier que cette borne est bien atteinte par p
n
.
(c) La variable Y est tronquee lorsquelle est trop grande, par un paramètre T IN
,
cest-à-dire que lon denit une variable Y
T
telle que Y
T
= min(Y, T).
f(x) =

2
exp ( [x m[) pour x IR,
avec m IR et > 0, des paramètres inconnus.
(a) Calculer lesperance et la variance de X.
(b) Calculer P(X = m) et P(X < m). En deduire la mediane (theorique) de la loi de
X.
(c) Soit une suite (X
i
)
iIN
1
, . . . , X
2n+1
).
(1)
X
(2)
. . . X
(2n+1)
la statistique dordre associee.
Soit :
H
n
(a) =
1
2n + 1
2n+1
i=1
[X
i
a[ pour a IR.
Calculer

H
n
(X
(n+1)
) en fonction des X
(i)
. Montrer que la fonction a

H
n
(a) est
minimale en X
(n+1)
(on pourra developper

H
n
(X
(n+k)
) en fonction des X
(i)
pour
k > 1).
50
(d) On suppose ici que m = 1, donc que m est connu ( > 0 restant inconnu). Quel
est alors le modèle statistique ? Montrer que ce modèle appartient à la famille
exponentielle, et en deduire une statistique exhaustive dont vous montrerez quelle
est complète. Determiner la matrice dinformation de Fisher du modèle. Quelle est la
fonction de (à une transformation ane près) que lon peut estimer ecacement ?
Determiner lestimateur de maximum de vraisemblance de et montrer quil verie
un theorème de la limite centrale.
(e) On suppose desormais que m IR est inconnu, tout comme > 0. Quel est
alors le modèle statistique ? Montrer que ce modèle nappartient pas à la famille
exponentielle. A laide de la question 2.(c), determiner un estimateur ( m
n
,
n
) du
maximum de vraisemblance du couple (m, ).
(f) Pour a IR, demontrer que

H
n
(a) converge presque s urement quand n vers
IE([X a[). Montrer que la fonction a IR IE([X a[) est minimale en a = m.
En deduire que m
n
p.s.
n+
m, puis que

n
p.s.
n+
.
51
Statistiques I
Examen de septembre 2007
1. Soit la fonction f
a
(x) =
1
2
(a a
2
x) II
{1/ax1/a}
o` u a > 0.
(a) Demontrer que f
a
est une densite de probabilite par rapport à la mesure de Lebesgue
et la tracer.
(b) On suppose que X est une variable aleatoire de densite f
a
. Determiner IEX et varX.
(c) Soit (X
k
)
kIN
une suite de variables aleatoires independantes, telle que la densite

de X
n
soit f
n
pour tout n IN
. Determiner la limite en probabilite de (X

k
)
kIN
lorsque n .
(d) Soit (X
1
, . . . , X
n
) un n-echantillon de v.a.i.i.d. de meme densite f
a
. On suppose que
a est inconnu. Determiner lestimateur du maximum de vraisemblance a
n
pour a.
Calculer la fonction de repartition de a
n
et en deduire sa convergence en probabilite
vers a.
(e) Pour > 0, determiner un intervalle de conance de niveau 1 pour a.
(f) Determiner le test du rapport de vraisemblance de niveau pour tester lhypothèse
H
0
: a = a
0
, contre lhypothèse H
1
: a ,= a
0
et determiner la zone dacceptation
du test en fonction de .
(g) Proposer un autre estimateur convergent de a.
2. Une compagnie fabrique des piles et sinteresse à savoir quelle est leur duree de vie
moyenne T. Pour ce faire, on considère 1000 piles produites le meme jour que lon
soumet à la meme activite. Comme on ne veut pas attendre que toutes les piles soient
usees, on decide darreter lexperience au bout de 10 jours et de compter combien sont
encore en vie. Soit N
10
ce nombre.
(a) Dans une première approximation, on suppose que la duree de vie dune pile peut
etre modelisee par une loi exponentielle de paramètre > 0. Quelle est alors la duree
de vie moyenne (theorique) T dune pile en fonction de ? Quelle est, en fonction
de T, la probabilite quune pile meure avant 10 jours ? Montrer alors que N
10
/1000
suit approximativement un theorème de la limite centrale dont on precisera les
paramètres en fonction de T. En deduire alors un estimateur

T de T en fonction
de N
10
/1000 dont on donnera un theorème de la limite centrale.
(b) Montrer que N
10
nest pas une statistique exhaustive pour le paramètre T par rap-
port à lechantillon des 1000 durees de vie des piles. Et si lon avait attendu x jours
au lieu de 10 ? Determiner alors une equation veriee par x tel que

T estime le
52
mieux T (donc trouver x tel que

T soit de variance minimale). Ce resultat vous
semble t-il en pratique interessant ?

Cours de Statistiques PDF

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Cours de Statistiques PDF

Uploaded by

Copyright:

Available Formats

1

Universite Paris I, Pantheon - Sorbonne

sont denombrables. En revanche, IR nest

) un espace mesurable et soit f :

) deux espaces mesurables. Une fonction f :

est dite mesurable

) lensemble des boreliens de

, si f est une fonction mesurable sur / et B(

) deux espaces mesurables et f :

. Soit T une famille de sous-

telle que (T) = /

) sont deux espaces mesurables boreliens, alors toute application

[0, +] telle que pour tout A

) appelee mesure image de par f.

= max(f, 0). On dit que f est -integrable sur B si

) et soit une fonction mesurable de

) dans (IR, B(IR)). Alors, si

IR, tel que :

verie (1). On appelle quantile (ou fractile, ou percentile en anglais) dordre

. Evidemment, lorsque X admet une distribution abso-

o` u h est un vecteur de taille d, et :

. En raison de lindependance, Y est un vecteur gaussien admettant

. Alors C Y est un vecteur

Y suit la loi ^(0,

Y est une combinaison lineaire des coordonnees de Y et :

Y suit la loi unidimensionnelle ^(h

est absolument continue par rapport ` a pour tout .

depend de , la mesure qui domine (ainsi que

-presque s urement) pas de .

T est exhaustive si et seulement sil existe une fonction h : IR

(A) = 0. Toute mesure de probabilite de la forme IP

existe, le mod`ele est domine.

). On travaille donc desormais

T(x)) h(x) avec x (

par rapport `a , alors

T(x)) h(x) est une densite de P

par rapport `a . Alors, comme g

T(x)) h(x) > 0 P

T), tribu engendree par

T(x)) h(x) d(x)

. Par suite, la vraisemblance, qui est la densite de IP

T est une statistique exhaustive minimale pour ce mod`ele lorsque (x

T(x))h(x). Comme ceci est vrai pour tout x (

T est bien exhaustive.

discr`ete et equidistribuee sur 1, , + 1 ; pour un echantillon de taille 2,

T) soit integrable, alors :

S)) existe. Comme

S)) une application

les parties positives et negatives de g (donc g = g

les mesures de densites g

ont des transformees

(.)) est dierentiable sur par rapport ` a , et son

(x) d(x). (4)

(.)) = 0. Par consequent, IE

T))) est centree et de matrice de covariance nulle. Ainsi,

de mesure 1 pour la mesure de probabilite associee `a

) = 1)) et tel que pour tout t N

(t))) = 0. Pour montrer que grad

(t))) = 0 est bien une variable aleatoire nulle -

(t))) = 0. Comme N ne depend pas de , alors la fonction

(.) est une constante ne dependant pas de , -p.s. : la statistique

(t)), pour tout t

T(x)) + log h(x)