Cours Proba

Cours de Probabilits
Jean-Yves DAUXOIS
Septembre 2011
Table des matires

1 Introduction au calcul des probabilits
1.1 Espace probabilisable et loi de variable alatoire . . . . . . . .
1.1.1 Un exemple fondamental . . . . . . . . . . . . . . . . .
1.1.2 Tribus . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1.3 Mesures et probabilits . . . . . . . . . . . . . . . . . .
1.1.4 Variables alatoires . . . . . . . . . . . . . . . . . . . .
1.1.5 Loi de probabilit dune variable alatoire . . . . . . .
1.2 Conditionnement . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.1 Probabilit conditionnelle un vnement . . . . . . .
1.2.2 Formule de Bayes . . . . . . . . . . . . . . . . . . . . .
1.3 Indpendance en probabilit . . . . . . . . . . . . . . . . . . .
1.3.1 Indpendance dvnements . . . . . . . . . . . . . . .
1.3.2 Indpendance de tribus . . . . . . . . . . . . . . . . .
1.3.3 Indpendance de variables alatoires . . . . . . . . . .
1.3.4 Lien entre les diffrents types dindpendance . . . . .
1.4 Espace probabilis produit . . . . . . . . . . . . . . . . . . . .
1.5 Loi conjointe dun n-uplet de variables alatoires indpendantes
7
8
8
8
13
18
19
19
20
21
22
22
25
25
26
27
29
2 Lois sur R et lois sur Rn

2.1 Variables alatoires relles . . . . .
2.1.1 Fonction de rpartition . . .
2.1.2 Lois discrtes . . . . . . . .
2.1.3 Lois continues . . . . . . . .
2.1.4 Changement de variables . .
2.2 Vecteurs alatoires . . . . . . . . .
2.2.1 Fonction de rpartition . . .
2.2.2 Densit de probabilit . . .
2.2.3 Loi conditionnelle et densit
2.2.4 Changement de variables . .
31
32
32
35
39
44
47
47
48
50
52
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
conditionnelle .
. . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2.3
2.2.5 Indpendance . . . . . . . . . . . . . . . . . . . .
Extension de la notion de densit . . . . . . . . . . . . .
2.3.1 Intgrale par rapport une mesure . . . . . . . .
2.3.2 Absolue continuit dune mesure par rapport
autre. Densit . . . . . . . . . . . . . . . . . . . .
2.3.3 Mlange de lois . . . . . . . . . . . . . . . . . . .
2.3.4 Densits conjointes, marginales et conditionnelles
. . .
. . .
. . .
une
. . .
. . .
. . .
53
57
57
66
68
69
3 Moments de variables alatoires

71
3.1 Variables alatoires relles intgrables et esprance mathmatique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
3.2 Moments de variables alatoires relles . . . . . . . . . . . . . 75
3.2.1 Espace Lp . . . . . . . . . . . . . . . . . . . . . . . . . 75
3.2.2 Espace L2 . . . . . . . . . . . . . . . . . . . . . . . . . 77
3.3 Vecteurs alatoires . . . . . . . . . . . . . . . . . . . . . . . . 80
3.3.1 Esprance mathmatique . . . . . . . . . . . . . . . . 80
3.3.2 Covariance de deux v.a.r. . . . . . . . . . . . . . . . . 81
3.3.3 Matrice de covariance . . . . . . . . . . . . . . . . . . 83
3.3.4 Esprance conditionnelle . . . . . . . . . . . . . . . . . 84
4 Caractrisation des lois : transforme de Laplace et
caractristique
4.1 Transforme de Laplace . . . . . . . . . . . . . . . .
4.1.1 Variables alatoires relles . . . . . . . . . . .
4.1.2 Vecteurs alatoires . . . . . . . . . . . . . . .
4.2 Fonction caractristique . . . . . . . . . . . . . . . .
4.2.1 Intgrale dune variable alatoire complexe . .
4.2.2 Fonction caractristique . . . . . . . . . . . .
5 Vecteurs gaussiens
5.1 Exemple fondamental . . . . . . . . . . . . . . . . .
5.2 Dfinition . . . . . . . . . . . . . . . . . . . . . . . .
5.3 Proprits des vecteurs alatoires gaussiens . . . . .
5.3.1 Transformation linaire dun vecteur gaussien
5.3.2 Vecteur gaussien et indpendance . . . . . . .
fonction
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
85
86
86
89
89
89
90
.
.
.
.
.
93
94
96
98
98
98
6 Convergences
101
6.1 Convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . 102
6.1.1 Dfinition . . . . . . . . . . . . . . . . . . . . . . . . . 102
6.1.2 Caractrisation de la convergence en loi . . . . . . . . 102
6.4
6.5
6.1.3 Approximation de lois . . . . . . . . . . . . . . . . . . 104

Convergence en probabilit . . . . . . . . . . . . . . . . . . . 107
6.2.1 Dfinition . . . . . . . . . . . . . . . . . . . . . . . . . 107
6.2.2 Convergence en probabilit et convergence en loi . . . 111
Convergence presque sre . . . . . . . . . . . . . . . . . . . . 112
6.3.1 Dfinition . . . . . . . . . . . . . . . . . . . . . . . . . 112
6.3.2 Critres de convergence p.s. . . . . . . . . . . . . . . . 112
6.3.3 Convergence presque sre et convergence en probabilit 113
6.3.4 Loi forte des grands nombres . . . . . . . . . . . . . . 113
Convergence dans Lp . . . . . . . . . . . . . . . . . . . . . . . 114
Rsum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
Index
116
6.2
6.3
Chapitre 0. TABLE DES MATIRES
c
Jean-Yves Dauxois Septembre
2011
Chapitre 1
Introduction au calcul des

probabilits
Chapitre 1. Introduction au calcul des probabilits
1.1
1.1.1
Espace probabilisable et loi de variable alatoire

Un exemple fondamental
Considrons le jeu du lanc dun d. Notons lensemble de tous les

rsultats possibles (appels aussi preuves ou rsultats lmentaires) de cette
exprience alatoire
= {1, 2, 3, 4, 5, 6}.
On note = 3 pour signifier que 3 est le rsultat de lpreuve.
Dans cette exprience alatoire, on peut sintresser des vnements
plus complexes quun simple rsultat lmentaire. On peut, par exemple,
considrer lvnement A = le rsultat est un nombre pair ou lvnement
B = le rsultat est un nombre plus grand que 3. On note A lensemble
de ces vnements. Notons que lon a toujours A P(), o P() est
lensemble des parties de . Notons que linclusion prcdente peut tre
stricte.
On dit que lvnement A sest ralis si le rsultat de lexprience est
tel que A.
Enfin, on peut donner chaque vnement une pondration ou encore
une probabilit. Ainsi, si le d nest pas pip, lintuition nous dit que la
probabilit davoir lvnement A =le rsultat est un nombre pair est 1/2,
i.e.
1
P (A) = .
2
On peut bien sr sintresser la probabilit dun vnement C =le rsultat
est un nombre pair plus grand ou gal 4. Remarquant que lon a C A,
il sera alors naturel davoir
1
P (C) P (A) = .
2
Nous allons maintenant donner un formalisme plus mathmatique ce
triplet fondamental (, A, P ) que nous venons dintroduire.
1.1.2
Tribus
Tout phnomne alatoire fait appel deux ensembles de type diffrent.

Un ensemble , appel espace fondamental ou univers, qui contient
lensemble de tous les rsultats possibles. Ces derniers sont galement
appels preuves.
c
2011
1.1. Espace probabilisable et loi de variable alatoire
Une famille A de parties (i.e. de sous ensembles) de . Ces parties

sont appeles des vnements. On dit que lvnement A sest ralis
si et seulement si le rsultat de qui sest produit appartient A.
En gardant en mmoire lexemple fondamental, il est assez naturel de
demander que lensemble A vrifie un certain nombre de proprits. En effet
si A et B sont des vnements de A, on souhaite que les vnements suivants
le soient galement.
(i) A = \ A A. Si A sest ou ne sest pas ralis, on doit pouvoir se
prononcer sur lvnement complmentaire.
(ii) A B A et A B A. Si on peut dire que A sest ou ne sest pas
ralis, et de mme pour B, on doit pouvoir dire si A B sest ou ne
sest pas ralis (et de mme pour A B).
(iii) A \ B A. On doit pouvoir dire si A sest ralis mais pas B.
Et plus gnralement
(iv) Si, pour tout n, on a An A, alors on souhaite que
[
An A et
An A.
Cest pourquoi on demande A dtre une tribu.

Dfinition 1.1.1 On dit quune famille A de parties de est une tribu si
(i) A,
(ii) A est stable par passage au complmentaire, i.e.
A A A A,
(iii) A est stable par runion dnombrable, i.e.
!
(n : An A)
An A .
c
2011
10
Remarque. On montre facilement que ces conditions sont suffisantes

pour que toutes celles prcites soient vrifies. En effet:
A
A B = A B
A
A\B = AB
= A
et si An appartient A, pour tout n, alors

!
\
n
An =
An
A.
Exemples de tribus.
* A = {, } est une tribu et est appele tribu grossire. On ne peut
en construire de plus petite.
* A = P() est une tribu. Cest la tribu la plus fine, dans le sens o elle
contient toutes les autres tribus sur .
* Soit A une partie de . Lensemble des parties
}
A = {, A, A,
3
est une tribu.
Dfinition 1.1.2 Lorsque A est une tribu sur , le couple (, A) est appel
espace probabilisable (ou mesurable).
Thorme 1.1.3 Limage rciproque dune tribu par une application f est
une tribu.
Preuve.
Notons
Soit f une application de E vers F et F une tribu sur F .

E = f 1 (F) = {f 1 (B), pour B F}
= {A E tel que f (A) F} .
* lensemble E est bien sr lment de E puisque f (E) = F.
c
2011
11
* Soit A un lment de E. Il existe donc un ensemble B dans F tel que

A = f 1 (B). On peut alors crire :
A = {x E tel que f (x) B} .
Do :

A = {x E tel que f (x)

/ B} = x E tel que f (x) B
= f 1 (B).
appartient F puisque F est une tribu et A est donc dans E.
Or B
* Soient, pour tout n, An un lment de E. Il existe donc pour tout n,
un lment Bn de A tel que An = f 1 (Bn ). Do :
[
An = {x E tel quil existe n pour lequel x An }
n
= {x E tel quil existe n pour lequel f (x) Bn }

= {x E tel que f (x) n Bn } = f 1 (n Bn ) ,
qui appartient E puisque n Bn appartient F.
Ainsi E est bien une tribu.
Thorme 1.1.4 Soit (, A) un espace probabilisable et 0 une partie de .

Lensemble
{A 0 : A A}
est une tribu sur 0 et est appele trace de la tribu A sur 0 .
Preuve. Notons
C = {C = A 0 : A A}.
* On a 0 = 0 et donc 0 C
* Soit C un lment de C et notons C son complmentaire par rapport
0
. On a :
C = A 0 C
* Supposons maintenant que, pour tout n, Cn soit dans C. Il existe donc
pour tout n,
An A, tel que Cn = An 0 .
Do:
!
[
n
[
Cn = (An 0 ) =
n
Ainsi, C est bien une tribu sur
An
0 C.
0 .
c
2011
12
Thorme 1.1.5 Soit I une partie de N et (Ai )iI une famille de tribus sur
le mme espace fondamental . La famille de parties
\
A=
Ai
iI
est une tribu.

Preuve.
* Lensemble est dans Ai , pour tout i, il est donc un lment de A.
* De plus, on a :
(A A) (i : A Ai ) (i : A Ai ) (A A).
* Enfin, supposons que, pour tout n, on ait An dans A. On a alors
[
[
(n, i, An Ai ) (i,
An Ai ) ( An A),
n
ce qui achve la dmonstration.
Nous attirons lattention du lecteur sur le point suivant. Si (An ) est une
famille quelconque de parties dun ensemble et si un lment A est tel que
A An ,
pour tout n, alors on a :
A
An .
En revanche, si (An ) est une famille de parties dun ensemble A (i.e. An A,

pour tout n), on na pas ncessairement :
\
An A,
n
sauf si A est une tribu.

Thorme 1.1.6 Soit F une famille de parties de . Il existe une plus
petite tribu sur qui contient F. On lappelle tribu engendre par F et on
la note (F).
Preuve.
Comme P() est une tribu contenant F, lensemble des
tribus contenant F nest pas vide. Lintersection de ces tribus est daprs le
thorme prcdent encore une tribu. Elle contient F et cest forcment la
plus petite tribu contenant F.
2
c
2011
13
Voyons un exemple particulier de tribu.

Dfinition 1.1.7 On appelle tribu borlienne sur R, la tribu engendre par
les intervalles ouverts de la forme ] , x[, pour tout x dans R. On la note
BR .
On peut montrer que lon a le rsultat suivant.
Thorme 1.1.8 La tribu borlienne est galement engendre par les intervalles de la forme ] , x], [x, +[, ]x, +[, [x, y], ]x, y[ etc...
1.1.3
Mesures et probabilits
Dfinition 1.1.9 On appelle mesure positive sur lespace probabilisable (, A)

toute application de A dans
+
R = [0, +]
telle que dune part lon ait () = 0 et que dautre part pour toute suite
(An ) dlments de A, deux deux disjoints, on ait :
!
[
X
An =
(An ).
n
nN
Le triplet (, A, ) est appel espace mesur.

Dfinition 1.1.10 Une mesure P sur (, A) telle que P () = 1 est dite une
probabilit. Le triplet (, A, P ) est appel espace probabilis.
Proposition 1.1.11 Une probabilit vrifie les assertions suivantes :
= 1 P (A);
(i) A A, P (A)
(ii) P () = 0;
(iii) (A, B) A2 , P (A B) = P (A) + P (B) P (A B);
(iv) Formule de Poincar : soit A1 , . . . , An des vnements de A. On a :
!
n
n
[
X
X
P
Ai
=
P (Ai )
P (Ai1 Ai2 )
i=1
1i1 <i2 n
i=1
P (Ai1 Ai2 Ai3 )
1i1 <i2 <i3 n
+ + (1)k1
P (Ai1 Aik )
1i1 <<ik n
+ + (1)n1 P (A1 An ).
c
2011
14
(v) Si A et B, deux lments de A, sont tels que A B, on a alors

P (A) P (B).
(vi) Ingalit de Boole : si A1 , . . . , An sont des vnements de A, on a :
!
n
n
[
X
P
Ai
P (Ai ).
i=1
i=1
Preuve.
puisque A et A sont disjoints.
(i) P () = 1 = P (A) + P (A)
(ii) P () = 1 P () = 0.
(iii) On a
+ P (B).
P (A B) = P (A B)
Or
= P (A B) + P (A B).
P (A) = P (A {B B})
Ainsi
= P (A) P (A B).
P (A B)
Do
P (A B) = P (A) + P (B) P (A B).
(iv) Exercice.
(v) On a vu que
= P (B) P (A B).
P (B A)
Or
A B A B = A.
Do
0.
P (B) P (A) = P (B A)
(vi) Daprs le (iii) la formule est vraie pour n = 2. Supposons la vraie
au rang n 1. On a alors
!
!
n
n1
n1
n
[
[
X
X
P
Ai P
Ai + P (An )
P (Ai ) + P (An ) =
P (Ai )
i=1
i=1
i=1
La formule est donc vraie pour tout n, par rcurrence.
i=1
Remarque. Les proprits (iii), (v) et (vi) restent vraies pour les mesures.
La proprit (ii) reste vraie pour une mesure si celle-ci nest pas dgnre
(i.e. de valeur tout le temps +).
3
c
2011
15
Dfinition 1.1.12 On dit quune suite (An ) dvnements est croissante

(resp. dcroissante) si
n : An An+1 (resp. An An+1 ).
On admettra la proposition suivante :
Proposition 1.1.13 Si P est une probabilit sur (, A) alors
(i) Pour toute suite (An ) dvnements croissante, on a :
!
[
P
An = lim P (An ) = sup P (An ).
n
n+
(ii) Pour toute suite (An ) dvnements dcroissante, on a

!
\
An = lim P (An ) = inf P (An ).
P
n
n+
Dfinition 1.1.14 Soit (, A) un espace mesurable tel que {} A pour

tout .
On dit quune mesure sur (, A) est discrte sil existe une famille
D = {n : n I}
(o I est un ensemble dindices fini ou dnombrable) dlments telle
que
( \ D) = 0
et
A A : (A) = (A D) =
({n }).
n AD
La mesure est dite concentre sur D.

On dit quune mesure sur (, A) est continue si elle ne possde pas
datome, i.e. si, pour tout dans , on a ({}) = 0.
Exemples fondamentaux.
1) Mesure de Dirac
c
2011
16
On appelle mesure de Dirac au point 0 de la probabilit discrte 0

dfinie, pour tout A dans A par :

0 (A) = 1 si 0 A
0 (A) = 0 sinon.
On a donc
0 (A) = l1A (0 ).
2) Construction dune probabilit discrte plus gnrale
Soit D = (n )nI une suite finie ou dnombrable dlments de et
(pn )nI une famille de rels tels que
X
n I, pn 0 et
pn = 1.
nI
Alors, lapplication P dfinie par :

P =
pn n
nI
est une probabilit discrte sur (, P()) ou (, A) pour toute tribu A contenant tous les singletons.
On a
n I : P ({n }) = pn
et
\ (n )nI : P ({}) = 0.
On peut ainsi dfinir, par exemple, lquiprobabilit sur {1, 2, . . . , N }. Reprenons en effet le jeu du lanc de d. On a :
= {1, . . . , 6} et A = P().
Si on prend comme probabilit sur , lquiprobabilit, on aura ncessairement pour tout n = 1, . . . , 6 :
pn = P ({n }) = P (le rsultat est n) =
et donc
1X
P =
n .
6
n=1
c
2011
1
1
=
Card
6
17
Soit alors A une partie de , on a alors :

P (A) =
6
X
n (A) =
n=1
Card A
Card
Bien sr, si on a plus lquiprobabilit, la formule classique prcdente nest

plus vraie. Ainsi, si on prend un d pip ayant les probabilits suivantes des
rsultats lmentaires :
1
12
1
p2 = p4 = p6 = .
4
p1 = p3 = p5 =
La probabilit de lvnement A =le rsultat est un nombre pair est alors :

P (A) =
6
X
n (A) = p2 + p4 + p6 =
n=1
Card A
3
6=
.
4
Card
3) Mesure de comptage
On dfinit sur (N, P(N)) ou (R, P(R)) la mesure :
=
+
X
n .
n=0
On vrifie aisment quil sagit bien dune mesure. Elle est discrte sur
(N, P(N)) et (R, BR ) puisque D = N est dnombrable et (R \ N) = 0
dans le deuxime cas. Cette mesure est appele mesure de comptage. Si on
raisonne sur (N, P(N)) et si A P(N),
(A) =
+
X
n (A) = nombre dlments de A.
n=0
Si on raisonne sur (R, BR ), la mesure (A) de lvnement A est le nombre

dentiers dans A.
4) Mesure de Lebesgue sur (R, BR )
On appelle mesure de Lebesgue sur (R, BR ) la mesure dfinie par :
(]a, b]) = b a,
o a < b sont des rels. On vrifie lexistence et lunicit dune telle mesure
et on a
(]a, b]) = ([a, b[) = ([a, b]) = (]a, b[).
c
2011
18
La mesure de Lebesgue est une mesure continue sur R puisque, pour tout x
dans R, on a :
({x}) = lim ([x
n+
1.1.4
1
1
1
1
, x + ]) = lim (x + x + ) = 0.
n+
n
n
n
n
Variables alatoires
Dfinition 1.1.15 Soient (, A) et (E, B) deux espaces probabilisables. Une

application f de vers E est dite mesurable (ou A-mesurable si la confusion
est possible) si
B B, f 1 (B) A.
On a dj vu que f 1 (B) est une tribu. Dire que la fonction f est
mesurable revient donc dire que f 1 (B) A. Ainsi, pour tout vnement
B, lensemble :
f 1 (B) = { /f () B}
est un vnement de la tribu initiale. On utilise parfois la notation f 1 (B) =
[f B].
Notons en particulier que toute fonction continue est mesurable. De
mme, pour tout vnement A de la tribu A, la fonction l1A est mesurable de
(, A) dans (R, BR ).
Proposition 1.1.16
Si f et g sont deux fonctions mesurables de (, A) vers (R, BR ) alors
les fonctions f + g et f g sont encore mesurables.
Si f et g sont deux fonctions mesurables de (, A) vers (0 , A0 ) et de
(0 , A0 ) vers (00 , A00 ) respectivement, la fonction g f est mesurable
de (, A) vers (00 , A00 ).
Si (fn ) est une suite de fonctions mesurables de (, A) vers (R, BR ),
alors les fonctions
sup fn , inf fn , lim sup fn et lim inf fn
n
sont mesurables, condition quelles ne prennent pas de valeurs infinies.
c
2011
1.2. Conditionnement
19
Dfinition 1.1.17 Soit (, A, P ) un espace probabilis et (E, B) un espace

probabilisable. Une application mesurable X de (, A, P ) vers (E, B) est
appele variable alatoire.
Tous les rsultats sur les fonctions mesurables restent donc vrais pour les
variables alatoires. Ainsi, on pourra parler du supremum sur une famille
infinie de variables alatoires et de limite de variables alatoires. On sera
assur quil sagit encore de variables alatoires.
Notations.
Si (E, B) = (R, BR ), lapplication X est dite variable alatoire relle
(v.a.r.) ou unidimensionnelle ou univarie.
Si (E, B) = (Rn , BRn ), lapplication X est dite vecteur alatoire ou
variable alatoire multidimensionnelle ou multivarie.
Si (E, B) est tout, ou une partie, de (Z, BZ ), lapplication X est dite v.a.
discrte.
1.1.5
Loi de probabilit dune variable alatoire
Soit X une variable alatoire de (, A, P ) vers (E, B). Dfinissons une

application PX de B vers [0, 1] par :

B B, PX (B) = P X 1 (B) = P [{ : X() B}] .
La dfinition prcdente a bien un sens puisque lon a X 1 (B) A, par
mesurabilit de X. On peut donc prendre la probabilit de cet vnement.
Dfinition 1.1.18 PX est appele probabilit image de P par X ou encore
loi de probabilit de la variable alatoire X. On note PX (B) = P (X B).
Ainsi, tout vnement li X est connu ds que lon connat la loi PX de
X. On oubliera donc souvent dans la suite le dtail de lapplication 7 X()
et on ne se proccupera pas de ce quest exactement (, A, P ). On raisonnera
uniquement sur (E, B) et PX .
Notons par ailleurs que tous les rsultats obtenus pour X et PX seront
alors aussi valables pour toute variable alatoire Y de mme loi que X.
1.2
Conditionnement
Supposons que lon joue au lancer de d avec un d dont les faces paires
sont de couleur blanche et les faces impaires de couleur noire. Si de loin on
c
2011
20
peut seulement distinguer la couleur blanche de la face obtenue, on modifiera

naturellement les probabilits des vnements. Ainsi on donnera la probabilit 1/3 pour chaque face paire et la probabilit 0 pour chaque face impaire,
plutt que lquirpartition initiale de probabilit 1/6 pour chaque rsultat
lmentaire. On constate donc que la connaissance de la parit du rsultat
modifie les probabilits que lon donne chaque vnement. On dit que lon
raisonne conditionnellement lvnement le rsultat est pair.
1.2.1
Probabilit conditionnelle un vnement
Soit (, A, P ) et B un vnement de A de probabilit non nulle. Si on

sait que lvnement B sest ralis, donc que B, pour tout vnement
A de A on a :
A A B.
Cela nous conduit considrer lapplication :

A R+
:
A 7 P (A B).
Lapplication est une mesure sur A mais nest en gnral pas une
probabilit car
() = P ( B) = P (B)
et nest donc pas forcment gal 1. On considre alors lapplication
PB =
P (B)
qui, elle, est bien une probabilit sur (, A).

Dfinition 1.2.1 Pour tout vnement B de probabilit non nulle, on appelle probabilit conditionnelle B, la probabilit sur (, A)
P B : A [0, 1]
A 7 P B (A) =
P (A B)
.
P (B)
P B (A) sappelle probabilit conditionnelle B de A (ou encore probabilit

de A sachant B). On note aussi
P B (A) = P (A/B).
Remarquons que lon peut aussi voir cette probabilit comme une probabilit sur la tribu trace de A sur B.
c
2011
1.2. Conditionnement
21
Proposition 1.2.2 Par dfinition on a donc

A A,
P (A B) = P (B)P (A/B)
= P (A)P (B/A).
Vrifions que P B ainsi dfinie est bien une probabilit sur (, A). Puisque,
pour tout A dans A, lvnement A B est inclus dans B, on a :
0 P (A/B) 1.
Trivialement on a galement :
P (/B) =
P ( B)
= 1.
P (B)
Enfin, soit (An ) une suite dvnements de A deux deux disjoints. On

a:
!
P
[
n
An / B
S
S
P
P ( n (An B))
P (An B)
P (( n An ) B)
=
= n
=
P (B)
P (B)
P (B)
X
=
P (An /B)
n
1.2.2
Formule de Bayes
Rappelons quune famille finie ou dnombrable densembles (non vides) (Ai )iI
est dite partition de si on a : Ai Aj = pour i 6= j et = iI Ai . Supposons que la famille (Ai )iI soit une telle partition . On suppose que, pour
tout i dans I, on ait P (Ai ) 6= 0. Pour tout vnement B de probabilit non
nulle on peut alors crire :
P (B) = P ( B)
!
!
[
X
X
= P
Ai B =
P (Ai B) =
P (Ai )P (B/Ai ).
iI
iI
iI
Ainsi, pour tout j dans I, on a :

P (Aj /B) =
P (Aj B)
P (Aj )P (B/Aj )
=P
P (B)
iI P (Ai )P (B/Ai )
Cette formule est appele formule de Bayes. Voyons-en un exemple dapplication.
c
2011
22
Exemple du dpistage de la Syphilis.

On applique un test mdical sur les patients pour dceler la maladie. On
sait que si le patient est effectivement atteint, le test est positif dans 99% des
cas. Mais on sait aussi quil y a 2% des cas o le rsultat du test est positif
alors que le consultant est en bonne sant. Sachant quun patient sur 1 000
est atteint de la Syphilis, calculer la probabilit quun patient soit atteint
sachant que son test a t positif.
Soit M lvnement le client est atteint et T + lvnement le test est
positif.
Les donnes de lnonc peuvent tre crites de la manire suivante :
P (T + /M ) = 0, 99
) = 0, 02
P (T + /M
et P (M )
= 1/1000.
La probabilit P (M/T + ), celle quun patient soit atteint sachant que son
test est positif, est gale, daprs la formule de Bayes, :
P (M/T + ) =
=
P (T + /M ) P (M )
)P (M
)
P (T + /M )P (M ) + P (T + /M
0, 99 0, 001
1
=
0, 99 0, 001 + 0, 02 0, 999
21
Le test propos ne semble pas tre trs efficace...
1.3
1.3.1
Indpendance en probabilit
Indpendance dvnements
Dfinition 1.3.1 Deux vnements A et B sur un mme espace probabilis

(, A, P ) sont dits indpendants en probabilit (not A B) si
P (A B) = P (A)P (B).
La notion dindpendance est donc lie aux vnements considrs et
la probabilit de rfrence.
Notons que si A et B sont deux vnements de probabilit strictement
positive, lindpendance en probabilit est donc quivalente chacune des
deux assertions suivantes:
(i) P (B/A) = P (B)
(ii) P (A/B) = P (A).
c
2011
1.3. Indpendance en probabilit
23
Il est important de ne pas confondre les notions dvnements indpendants, incompatibles et disjoints. Notons dabord que les deux premires
notions sont des notions ensemblistes et probabilistes et que la dernire est
purement ensembliste. Rappelons que les vnements A et B sont dits disjoints si A B = et quils sont dits incompatibles si P (A B) = 0. Des
vnements disjoints sont donc forcment incompatibles, mais la rciproque
est fausse.
Par ailleurs, des vnements incompatibles sont rarement indpendants.
Prenons lexemple de deux vnements A et B de A, disjoints et tous les
deux de probabilit strictement positive. Comme on vient de le dire, ils sont
forcment incompatibles mais en revanche ils ne sont pas indpendants car
si A est ralis, B ne lest pas.
Remarquons enfin que deux vnements incompatibles ne peuvent en
fait tre indpendants que si lun ou lautre des deux vnements est de
probabilit nulle, i.e.
P (A B) = 0 = P (A)P (B) P (A) = 0 ou P (B) = 0.
Proposition 1.3.2
A B, A B.
1) Si A et B sont indpendants, alors A B,

2) Si lvnement A est tel que sa probabilit est soit nulle soit gale 1,
alors
B A, A B.
Preuve.
1) On a
= P (A)P (B) + P (A B).
P (A) = P (A B) + P (A B)
Do
= P (A) P (A)P (B) = P (A)(1 P (B))
P (A B)
= P (A)P (B),
Les autres indpendances sobtience qui prouve lindpendance entre A et B.
nent ensuite facilement par symtrie.
2) Si lvnement A est tel que P (A) = 0, il vient
P (A B) P (A) = 0 = P (A)P (B)
c
2011
24
et donc A B.
= 0 et ce qui prcde entrane
Si loppos P (A) = 1, lgalit P (A)
alors
B A
B A,
et donc
B A,
B A.
Dfinition 1.3.3 Soit (Ai )i=1,...,n une famille dvnements de A. Ces vnements sont dits (mutuellement) indpendants en probabilit si :
!
\
Y
Ai =
P (Ai ).
I {1, . . . , n} P
iI
iI
Nous attirons lattention du lecteur sur le point suivant : lindpendance

mutuelle entrane clairement lindpendance deux deux mais la rciproque
est fausse. En voici un contre-exemple.
Exemple. On lance deux ds quilibrs et de manire indpendante.
Soit A lvnement le premier d amne un nombre pair, B lvnement le
second d amne un nombre impair et C lvnement les deux ds amnent
des nombres de mme parit.
On calcule facilement les probabilits suivantes :
1
P (A) = P (B) = P (C) =
2
et
1
P (A B) = P (B C) = P (A C) =
4
Ainsi, les vnement A, B et C sont indpendants deux deux. En revanche
ils ne sont pas mutuellement indpendants puisque lon a :
P (A B C) = P () = 0 6= P (A)P (B)P (C).
Cet exemple nous permet galement de voir que lvnement A peut tre
indpendant de B et de C sparment, sans ltre de lintersection B C.3
Remarquons enfin que lon peut gnraliser cette notion dindpendance
mutuelle pour une famille non ncessairement finie dlments.
Dfinition 1.3.4 Une famille (Ai )iI dvnements est une famille dvnements mutuellement indpendants si, pour tout ensemble dindices K fini et
dans I, la famille (Ai )iK forme une famille dvnements mutuellement
indpendants.
c
2011
1.3. Indpendance en probabilit
1.3.2
25
Indpendance de tribus
Soit (Ai )i=1,...,
une famille de sous tribus de A,
Dfinition 1.3.5 On dit que la famille (Ai )i=1,...,n est une famille indpendante de sous tribus si pour toute famille dvnements (Ai )i=1,...,n o Ai
Ai , pour tout i, on a :
!
n
n
\
Y
P
Ai =
P (Ai ).
i=1
i=1
En fait on peut nouveau dfinir la notion dindpendance pour toute

famille (de cardinal quelconque) non vide de parties de A. Une famille (Ci )iI
de parties de A (i.e. Ci A pour tout i mais o Ci nest pas forcment une
tribu) est dite indpendante si, quand I est fini, pour toute famille (Ai )iI
o Ai est dans Ci pour tout i, on a
!
\
Y
P
Ai =
P (Ai )
iI
iI
ou si, quand I est infini, toute sous-famille finie est indpendante.
1.3.3
Indpendance de variables alatoires
Soit une famille (Xi )i=1,...,n de variables alatoires dfinies sur le mme
espace probabilis (, A, P ) et valeurs respectivement dans lespace probabilisable (Ei , Bi ).
Dfinition 1.3.6 Une famille (Xi )i=1,...,n de variables alatoires est dite indpendante en probabilit si :
(Bi )i=1,...,n o Bi Bi , pour tout i,
on a :
P
n
\
i=1
!
{Xi Bi }
n
Y
P ({Xi Bi }) .
i=1
Thorme 1.3.7 Si, pour tout i, les fonctions i sont des fonctions mesurables de (Ei , Bi ) vers (Ei0 , Bi0 ), alors lindpendance des variables alatoires
(Xi )i=1,...,n entrane celle des (i (Xi ))i=1,...,n .
c
2011
26

Preuve. Pour toute famille (Bi0 )i=1,...,n o Bi0 Bi0 , pour tout i, on a
0
1
i (Bi ) = Bi Bi
par mesurabilit des i . Il vient alors :

1
0
(i (Xi ))1 (Bi0 ) = Xi1 (1
i (Bi )) = Xi (Bi ).
Do :
n
\

i Xi Bi0
!
= P
i=1
= P
n
\
!
(i (Xi ))1 (Bi0 )
i=1
n
\
n
Y
!

Xi1 (Bi )
i=1
!
{Xi Bi }
i=1
=P
n
\

n
Y
P (Xi Bi )
i=1
P (i (Xi ) Bi0 )
i=1
et les (i (Xi ))i=1,...,n sont bien des variables alatoires indpendantes.
Exemples.
* Si X et Y sont des v.a.r. indpendantes, X 2 et log Y le sont encore.
* Si X, Y, Z, T et V sont des variables alatoires indpendantes et si f
est mesurable de R3 vers R, alors X et U = f (Y, Z, T ) sont indpendantes. De mme X, g(Y, Z) et h(T, V ) sont indpendantes pour des
fonctions g et h mesurables.
3
1.3.4
Lien entre les diffrents types dindpendance
Soit (, A, P ) un espace probabilis et (Ai )i=1,...,n une famille de sous

tribus de A.
Proposition 1.3.8 On a lquivalence entre les assertions suivantes :
i)
ii)
ni=1 Ai
ni=1 Xi , pour toute famille (Xi )i=1,...,n de v.a. o Xi est Ai mesurable
iii)
ni=1 l1Ai , pour toute famille (Ai )i=1,...,n o Ai Ai pour tout i
iv)
ni=1 Ai , pour toute famille (Ai )i=1,...,n o Ai Ai pour tout i
c
2011
1.4. Espace probabilis produit
27
Proposition 1.3.9 Soit (Ai )i=1,...,n une famille dvnements sur un mme
espace probabilis (, A, P ). On a les quivalences suivantes :
ni=1 Ai ni=1 (Ai ) ni=1 l1Ai .
Proposition 1.3.10 Soit (Xi )i=1,...,n une famille de variables alatoires dfinies sur un mme espace probabilis (, A, P ) et valeurs respectivement
dans (Ei , Bi )i=1,...,n . On a les quivalences suivantes :
ni=1 Xi ni=1 (Xi ) ni=1 {Xi Bi } , pour tout Bi Bi .
Remarque. La famille de parties (Xi ) est la tribu engendre par Xi .
Cest la plus petite tribu rendant Xi mesurable. On a :
3
(X ) = X 1 (B).
i
1.4
Espace probabilis produit
Jusqu prsent on a essentiellement parl de lobservation dun phnomne unique. On peut pourtant sintresser un phnomne qui est la
juxtaposition de n phnomnes i o chaque phnomne i est modlis
par (i , Ai , Pi ). Pour modliser = (1 , . . . , n ) il nous faut dterminer
lespace probabilis (, A, P ) associ.
De faon naturelle, si i est lobservation du phnomne i , le n-uplet
= (1 , . . . , n ) est une observation du phnomne . On prendra donc
comme espace fondamental :
= 1 n =
n
Y
i .
i=1
Intressons nous maintenant la construction de la tribu A sur . Si pour

tout i, lensemble Ai est un vnement de Ai (i.e. Ai Ai ), il est naturel
dattendre que A1 An soit un vnement de A. Cest pourquoi on
pose la dfinition suivante.
Dfinition 1.4.1 On appelle tribu produit des (Ai )i=1,...,n , et on note
ni=1 Ai ,
la tribu engendre par les pavs mesurables A1 An o Ai appartient
Ai , pour tout i, i.e. :
ni=1 Ai = {A1 An : Ai Ai pour tout i = 1, . . . , n} .
c
2011
28
On choisit alors A comme tribu pour modliser le phnomne alatoire .

Il nous faut maintenant dfinir une probabilit P sur cet espace produit
(, A), partir de lensemble des Pi . Sans information complmentaire, on
ne peut pas...
En revanche, cela devient possible si on suppose, par exemple, que les
phnomnes i sont indpendants (au sens intuitif et non mathmatique).
Cela revient dire que les vnements (Ai )i=1,...,n , o chaque Ai est dans
Ai , sont indpendants (toujours au sens intuitif puisque cela na pas de
sens mathmatique, les vnements Ai tant associs des probabilits Pi
diffrentes).
Notons, ce propos, que dans A lvnement Ai scrit
Bi = Ai .
Une fois que lon aura dtermin P , lindpendance intuitive de (Ai )i=1,...,n
se traduira par lindpendance en probabilit des Bi , i.e. :
!
n
n
\
Y
P
Bi =
P (Bi ).
i=1
i=1
Notons que
n
\
Bi = A1 An
i=1
et que naturellement, pour des questions de cohrence, on doit avoir

P (Bi ) = Pi (Ai ).
En rsum, on souhaitera donc que la probabilit P mise sur lespace
probabilisable produit (, A) vrifie
P (A1 An ) =
n
Y
Pi (Ai ).
i=1
Le thorme suivant montre (bien que sa preuve ne soit pas donne ici !)
quune telle probabilit existe et que, de plus, elle est unique.
Thorme 1.4.2 Il existe une probabilit unique P sur
(ni=1 i , ni=1 Ai )
c
2011
1.5. Loi conjointe dun n-uplet de variables alatoires indpendantes
29
telle que pour tout Ai dans Ai , pour i = 1, . . . , n, on ait :

P (A1 An ) =
n
Y
Pi (Ai ).
i=1
Cette probabilit P est appele probabilit produit des Pi et est note

P = ni=1 Pi .
Dfinition 1.4.3 Lespace
(ni=1 i , ni=1 Ai , ni=1 Pi )
est appel espace probabilis produit des espaces (i , Ai , Pi ).
Remarque. Si, pour tout i, on a i = , Ai = A et Pi = P0 , lespace
produit est not
3
(, A, P0 )n .
Exemple. Considrons le jeu du lanc de deux ds. Pour chaque d, on
a dj dfini lespace probabilis associ au phnomne.
= {1, 2, . . . , 6}
A = P()
P
quirpartition sur .
On note = (1 , 2 ) le rsultat du lanc des deux ds. Daprs ce qui

prcde, on modlise ce phnomne par (, A, P )2 .
3
On pourra alors, grce cette structure, parler de la somme des deux
rsultats, du maximum, etc...
1.5
Loi conjointe dun n-uplet de variables alatoires indpendantes
Soit X1 , . . . , Xn des variables alatoires dfinies sur un mme espace probabilis (, A, P ) et valeurs vers respectivement (i , Ai )i=1,...,n . On admet
que le vecteur (X1 , . . . , Xn ) est encore une variable alatoire de (, A, P )
vers
(ni=1 i , ni=1 Ai ) .
On peut en effet montrer quune fonction h valeurs dans lespace mesurable
(ni=1 i , ni=1 Ai ) est mesurable si, et seulement si, i h est (i , Ai )-mesurable, o i est la projection sur la i-ime coordonne.
c
2011
30
Dfinition 1.5.1 On appelle loi conjointe du vecteur X = (X1 , . . . , Xn ) la

loi PX de X sur
(ni=1 i , ni=1 Ai ) .
La loi PXi de chacune des variables alatoires Xi est alors appele loi marginale.
Proposition 1.5.2 Les variables alatoires (Xi )i=1,...,n sont indpendantes
si et seulement si on a :
PX = ni=1 PXi .
Preuve. Daprs la dfinition de variables alatoires indpendantes on a
les quivalences suivantes :
ni=1 Xi
"
Ai Ai , pour i = 1, . . . , n : P
n
\
#
Xi1 (Ai )
i=1
n
Y
P (Xi1 (Ai ))
i=1
n

Y
Ai Ai , pour i = 1, . . . , n : P X 1 (A1 An ) =
PXi (Ai )
i=1
Ai Ai , pour i = 1, . . . , n : PX (A1 An ) =
n
Y
i=1
PX = ni=1 PXi .
c
2011
PXi (Ai )
2
Chapitre 2
Lois sur R et lois sur Rn
31
Chapitre 2. Lois sur R et lois sur Rn
32
2.1
Variables alatoires relles
Soit (, A, P ) un espace probabilis et X une v.a. de (, A, P ) vers

(R, BR ).
On a vu dans le chapitre prcdent que si X et Y sont des v.a.r., alors
pour tout couple (, ) dans R2 , lapplication X+Y est encore une variable
alatoire (i.e. lensemble de v.a.r. forme donc un espace vectoriel). Il a t
galement vu que XY est aussi une variable alatoire et que si (Xn ) est une
suite de v.a.r. les applications
inf Xn , et sup Xn
n
sont, par exemple, encore des variables alatoires.
2.1.1
Fonction de rpartition
Dfinition 2.1.1 On appelle fonction de rpartition (f.d.r.) de la v.a.r. X,

la fonction FX dfinie sur R par
FX (x) = PX (] , x]) = P (X ] , x]) = P (X x).
Proposition 2.1.2 La fonction de rpartition FX dune v.a.r. X satisfait
les proprits suivantes :
i) 0 FX (x) 1 pour tout x dans R ;
ii) La fonction FX est croissante (au sens large) ;
iii) la fonction FX est continue droite ;
iv) On a
lim FX (x) = 0 et
lim FX (x) = 1.
x+
Preuve. La proprit i) est vidente puisque la probabilit de nimporte

quel vnement est toujours positive et infrieure 1.
Pour tablir le ii) considrons x et x0 deux rels tels que x x0 . On a
bien sr linclusion :
] , x] ] , x0 ]
et donc
PX (] , x]) PX (] , x0 ]).
c
2011
2.1. Variables alatoires relles
33
Pour le iii) considrons une suite (hn ) de rels dcroissante vers 0. Pour
tout x dans R, on a :
PX (]x, x + hn ]) = FX (x + hn ) FX (x).
Or la suite dintervalles (]x, x + hn ])n est dcroissante avec n. Ainsi il vient :
!
\
lim PX (]x, x + hn ]) = PX
]x, x + hn ] = PX () = 0.
n+
On en dduit que
lim FX (x + hn ) = FX (x)
n+
et la fonction FX est donc bien continue droite.

Pour tablir le iv), considrons la suite dintervalles (], n])n dcroissante vers quand n tend vers +. On a :
lim FX (x) =
lim FX (n)
n+
+
\
= lim PX (] , n])
n+
!
] , n]
= PX
= PX () = 0.
n=1
Lgalit
lim FX (x) = 1
x+
sobtient par un raisonnement similaire en considrant la suite dintervalles

(] , n])n croissante vers R.
2
Remarquons que cette dfinition de la fonction de rpartition est communment appele version anglo-saxonne. On peut, dans certains ouvrages,
trouver la version franaise obtenue en dfinissant
FeX (x) = P (X < x) = PX (] , x[).
Elle est continue gauche (et non plus droite) et vrifie sinon les mmes
proprits que prcdemment. Notons que, dans le cas dune f.d.r. discontinue (par exemple celui des v.a.r. discrtes), ces dfinitions donnent des
rsultats diffrents.
En effet, si x est un atome pour PX , i.e.
PX ({x}) = P (X = x) > 0,
c
2011
34
alors on a :
FX (x) = P (X x) = P (X < x) + P (X = x) = FeX (x) + P (X = x).

Bien sr, si PX na pas datome, i.e. si PX est une mesure continue,
FX (x) = FeX (x).
Il est donc important de bien savoir quelle version de la fonction de
rpartition on utilise ! Par la suite, en ce qui nous concerne, nous utiliserons
uniquement la version anglo-saxonne.
On admettra le thorme suivant :
Thorme 2.1.3 Toute fonction F dfinie sur R et vrifiant les proprits
(i), (ii), (iii) et (iv) est une fonction de rpartition dune v.a.r.
Proposition 2.1.4 Le saut p0 = FX (x0 ) FX (x
0 ) de la fonction de rpartition FX au point x0 est gal P (X = x0 ).
Preuve. Soit (hn ) une suite de rels strictement positifs, dcroissante
vers 0. On a, pour tout n,
P (X ]x0 hn , x0 ]) = FX (x0 ) FX (x0 hn ).
Comme (]x0 hn , x0 ])n est une suite dcroissante vers {x0 }, on a :
!
+
\
PX ({x0 }) = PX
]x0 hn , x0 ]
n=1
lim P (]x0 hn , x0 ]) = FX (x0 ) FX (x

0 ).
n+
Dfinition 2.1.5 On appelle quantile dordre (pour 0 < < 1) de la loi

de X, tout rel x tel que
P (X x ) et P (X x ) 1 .
Terminologie particulire.
* Tout quantile dordre 1/2 est appel valeur mdiane de la loi de X. Sil
est unique il est appel mdiane de X et est not m
ed(X). Dans lautre
cas, lensemble des valeurs mdianes constitue un intervalle mdian.
c
2011
35
* Les quartiles Q1 , Q2 et Q3 sont les quantiles (uniques) de la loi de X

dordres respectivement 0.25, 0.50 et 0.75. Lintervalle inter-quartile
est lintervalle [Q1 , Q3 ].
* Les 9 dciles sont obtenus en prenant k = k/10 pour k = 1, . . . , 9.
* Les 99 centiles sont obtenus en prenant k = k/100 pour k = 1, . . . , 99.
Notons que la mdiane spare en deux intervalles de probabilit gale le
support de X. De mme, on a P (X [Q1 , Q3 ]) = 0.5.
2.1.2
Lois discrtes
Dfinition 2.1.6 Une v.a.r. X est dite discrte si la loi PX est une mesure
de probabilit discrte.
Daprs la dfinition dune mesure discrte vue au chapitre 1, il existe
donc une famille D (finie ou dnombrable) de rels telle que
PX (R \ D) = 0
et
A BR ,
PX (A) =
PX ({x}).
xAD
Les lments de D sont donc les atomes, i.e. tels que :

PX ({x}) > 0,
x D.
Proposition 2.1.7 La fonction de rpartition FX dune v.a.r. discrte est

une fonction en escalier, dont les sauts sont situs sur les atomes, i.e. sur
les lments de D.
2
Preuve. Immdiate.
Principales lois de v.a.r. discrtes.
a) Loi de Dirac
Soit x0 R. Une v.a.r. X est dite de loi de Dirac x0 si elle est valeurs
dans R et telle que PX = x0 . On a donc, pour tout borlien A :

1 si x0 A
PX (A) = x0 (A) =
0 sinon
c
2011
36
De plus on a :
PX ({x0 }) = P (X = x0 ) = 1
et PX ({x}) = P (X = x) = 0, pour tout x 6= x0 .
On dit que la v.a.r. X est presque srement (p.s.) gale x0 .
b) Loi uniforme discrte
Une v.a.r. X est dite variable alatoire de loi uniforme discrte sur un
ensemble D fini si on a, pour tout d dans D :
PX ({d}) = P (X = d) =
1
.
Card D
b) Loi de Bernoulli
Une v.a.r. X est dite variable alatoire de Bernoulli de paramtre p,
(pour p [0, 1]) si elle est valeurs dans D = {0, 1} et si
PX ({1}) = P (X = 1) = p ;
PX ({0}) = P (X = 0) = 1 p.
Cest bien une v.a.r. discrte puisque D = {0, 1} et P (R \ D) = 0. On a en
particulier : x
/ {0, 1}, PX ({x}) = 0.
Cette loi est, par exemple, utilise pour modliser le tirage au hasard
dans une urne contenant des boules bleues en proportion p et des boules
rouges en proportion 1 p. Si on note {X = 1} lvnement le rsultat du
tirage a donn une boule bleue et {X = 0} lvnement le rsultat est une
boule rouge, alors la v.a. X suit une loi de Bernoulli de paramtre p.
c) Loi binomiale
Une v.a.r. X est dite de loi Binomiale de paramtres n et p (pour n N
et p [0, 1]) si elle est valeurs dans D = {0, 1, . . . , n} et si
P (X = k) = PX ({k}) = Cnk pk (1 p)nk ,
pour k = 0, 1, . . . , n. On crit X B(n, p).
Remarquons que, par exemple, si n 5 et si A = [1, 5], on a alors
PX (A) =
X
xAD
PX ({x}) =
5
X
k=1
PX ({k}) =
5
X
k=1
c
2011
Cnk pk (1 p)nk .
37
Cette loi apparat, entre autres, lors de tirages avec remise dans une
urne contenant des boules bleues en proportion p et des boules rouges en
proportion q = 1 p. Sur n tirages, si X est le nombre de boules bleues
obtenues, la loi de X est une binomiale B(n, p).
On montre facilement que la loi binomiale B(n, p) est la loi de la somme
de n v.a.r. indpendantes et de mme loi de Bernoulli de paramtre p.
d) Loi gomtrique
Une v.a.r. X est dite de loi gomtrique de paramtre p, pour p compris
entre 0 et 1, si elle est valeurs dans D = N et si
P (X = k) = (1 p)k1 p.
On note X G(p).
Cette loi apparat, par exemple, lors de tirages successifs, indpendants
et avec remise dans une urne contenant des boules bleues en proportion p et
des boules rouges en proportion 1 p.
Si X est le nombre de tirages effectus lors de lapparition de la 1e`re boule
bleue alors la loi de X est une gomtrique G(p). La v.a.r. X est donc le
rang darrive de la 1e`re boule bleue.
On peut aussi trouver dans la littrature la loi gomtrique valeurs dans
N et elle a pour probabilit lmentaire P (X = k) = (1 p)k p. Dans notre
exemple, cette dernire donne la loi du nombre de boules rouges obtenues
avant lapparition de la 1e`re boule bleue.
e) Loi binomiale ngative
Une v.a.r. X est dite de loi binomiale ngative de paramtres n et p si
elle est valeurs dans D = N et si
n1
P (X = k) = Cn+k1
pn q k , o q = 1 p.
Reprenons lexemple de tirages successifs au hasard, indpendants et avec

remise dans une urne contenant des boules bleues et rouges en proportion
respectivement p et q = 1 p.
Soit Y le nombre de tirages que lon doit faire pour obtenir n boules
bleues. Alors la v.a.r. X = Y n reprsentant donc le nombre de boules
rouges obtenues avant davoir n boules bleues suit une loi binomiale ngative.
On retrouve facilement que
n1
P (X = k) = Cn+k1
pn q k
c
2011
38
puisque lvnement {X = k} signifie que sur les k+n tirages on a eu k boules

rouges et n boules bleues, dont lune est la dernire tire. La probabilit
de chaque rsultat lmentaire permettant lvnement {X = k} dtre
n1
vrifi est donc pn q k . Or lvnement {X = k} est la runion de Cn+k1
rsultats lmentaires diffrents : une boule bleue tant tire en dernier, il
n1
reste Cn+k1
faons diffrentes de placer les autres boules bleues.
Remarquons que, bien sr, pour n = 1 la loi de Y est une loi gomtrique
G(p).
f) Loi de Poisson
Une v.a.r. X est dite de loi de Poisson de paramtre , si elle est
valeurs dans D = N et si
P (X = k) = e
k
.
k!
On note X P().
Pour donner un exemple, anticipons un peu sur les lois continues. Considrons un lot de machines identiques, aux comportements indpendant et
dont le temps dattente avant larrive dune panne est une exponentielle de
paramtre . On met en marche la premire machine et quand survient la
panne sur celle-ci, on la remplace immdiatement par une autre machine et
ainsi de suite sur un intervalle de temps [0, t]. Le nombre de pannes observes
durant cette priode suit alors une loi de Poisson P(t).
g) Loi hypergomtrique
Une v.a.r. X est dite de loi hypergomtrique de paramtre (n, N, M )
o n, N et M sont des entiers tels que M < N et n N, si elle est valeurs
dans D = N [max(0, n (N M )), min(n, M )] et si
P (X = k) =
k C nk
CM
N M
.
n
CN
pour max(0, n (N M )) k min(n, M )

Cette loi apparat lorsque lon tire au hasard et sans remise dans une
urne contenant M boules blanches et N M boules noires (M < N ) (et
donc en tout N boules). Si on tire au hasard et sans remise n boules successivement (n N ), le nombre X de boules blanches obtenues suit une loi
hypergomtrique (n, N, M ). Lexpression de la probabilit P (X = k) se
comprend alors toute seule.
c
2011
2.1.3
39
Lois continues
Dfinition 2.1.8 On dit quune v.a.r. X est de loi continue si sa loi PX

est une mesure de probabilit continue.
Une v.a.r. (i.e. valeurs dans (R, BR )) continue est donc telle que :
x R,
PX ({x}) = 0.
Proposition 2.1.9 Une v.a.r. est continue si et seulement si sa fonction

de rpartition est continue.
Preuve.
Immdiate daprs la proposition au dbut de ce chapitre
donnant lexpression des sauts dune fonction de rpartition.
2
Dfinition 2.1.10 On dit que la loi PX dune v.a.r. X admet fX comme
densit sil existe une telle fonction fX positive et telle que pour tout x R
on ait
Z x
FX (x) =
fX (u)du.
Une v.a.r. (ou sa loi) qui admet une densit est dite absolument continue.
On verra la fin de ce chapitre, dans la partie extension de la notion de
densit, que cette dfinition est quivalente lexistence dune fonction fX
positive et telle que
Z
B BR , PX (B) = P (X B) =
fX (x)dx
B
o lintgrale est prise au sens de Lebesgue.

Remarquons ensuite que si X est une variable alatoire absolument continue de densit fX et si f est une fonction gale fX sauf sur un ensemble
fini ou dnombrable de points de R, alors pour tout x de R, on a
Z x
Z x
fX (u)du =
f(u)du.
Ainsi, la fonction f est encore une densit pour X. Toutes les densits sont
donc quivalentes pour cette relation et on appelle densit nimporte quel
lment de cette classe dquivalence.
c
2011
40
Thorme 2.1.11 Une fonction f sur R est une densit de probabilit si et

seulement si elle vrifie les trois assertions suivantes :
i) f est positive
ii) f est mesurable.
iii) f est intgrable et
Z
f (x)dx = 1.
Proposition 2.1.12 Si fX est continue sur un intervalle [a, b], alors FX est
drivable sur [a, b] et on a fX = FX0 .
Preuve. On a, pour tout x dans lintervalle [a, b] :
Z x
Z a
Z x
FX (x) =
f (u)du =
f (u)du +
f (u)du
et la proposition dcoule du rsultat classique sur la drivation de la fonction

Z x
x 7
f (u)du.
2
a
Proposition 2.1.13 Une variable alatoire relle absolument continue est

continue mais la rciproque est fausse.
Preuve. Si X est absolument continue, on a alors
Z x
PX ({x}) =
fX (x)dx = 0,
x
pour tout x dans R et la variable alatoire X est bien continue.

On peut trouver des variables alatoires continues sur R mais qui ne
sont pas absolument continues. Cependant, dans le cadre de ce cours, on se
trouvera rarement dans cette situation. En revanche dans R2 , il est plus facile
de trouver des variables alatoires continues mais qui ne sont pas absolument
continues.
2
Remarquons enfin quune variable alatoire (ou sa loi) nest pas soit discrte, soit continue, soit absolument continue. Le thorme suivant, d
Lebesgue, prcise ceci.
c
2011
41
Thorme 2.1.14 Soit F une fonction de rpartition. Alors il existe trois

fonctions de rpartition F1 discrte, F2 absolument continue et F3 singulire
(i.e. continue mais non absolument continue) et trois nombres rels 1 , 2
et 3 positifs et de somme 1 tel que F puisse scrire sous la forme
F = 1 F1 + 2 F2 + 3 F3 .
Principales lois de probabilit sur R absolument continues.
a) Loi uniforme sur [a, b]
Une v.a.r. X valeurs dans [a, b] est dite de loi uniforme sur cet intervalle
si elle est absolument continue et admet pour densit
f (x) =
1
l1
b a [a,
On note X U[a, b] .
Sa fonction de rpartition est
0
xa
F (x) =
ba
1
b] (x).
pour x a
pour a x b
pour x b.
La loi uniforme la plus clbre est celle dont le support est lintervalle
[0, 1].
b) Loi normale N (, 2 )
Une v.a.r. X valeurs dans R est dite de loi normale de moyenne et
de variance 2 si elle est absolument continue et admet pour densit

1
(x )2
f (x) =
exp
2 2
2 2
pour x R. La loi N (0, 1) est appele loi normale centre rduite.
Notons le rsultat suivant
si
si
X N (, 2 ) alors
X N (0, 1)
alors
N (0, 1)
+ X N (, 2 ).
La fonction de rpartition de la loi normale na pas dexpression explicite

mais on lexprime souvent en fonction de celle de la loi N (0, 1), que lon note
souvent . On a
Z x
1
2
eu /2 du.
(x) =
2
c
2011
42
Ainsi, si X N (, 2 ), alors

FX (x) =

.
c) Loi exponentielle
Soit un rel strictement positif. Une v.a.r. X valeurs dans R+
est
dite de loi exponentielle de paramtre si elle est absolument continue et
admet pour densit
f (x) = exl1]0,+[ (x).
On note X E().
Sa fonction de rpartition est :
F (x) = 1 ex ,
pour tout x positif.
d) Loi Gamma
Rappelons en premier lieu lexpression de la fonction Gamma (ou seconde
fonction dEuler) pour tout positif
Z +
() =
eu u1 du.
0
On a les relations suivantes : ( + 1) = () et si n est un entier

(n) = (n 1)!. On a enfin

= .
2
Une v.a.r. X valeurs dans R+
est dite de loi Gamma (, ), o et
sont des rels strictement positifs, si elle est absolument continue et admet
pour densit
x 1
f (x) =
e
x l1R+
(x).
()
Les paramtres et sont appels respectivement paramtres de forme et
dchelle. On note X (, ).
Notons que si le paramtre de forme vaut 1, on retrouve une loi exponentielle E().
De plus une loi ( n2 , 12 ) pour n dans N est aussi appele loi du 2 n
dgrs de libert. On note X 2 (n).
c
2011
43
e) Loi Bta (de premire espce)

Comme prcdemment rappelons en premier lieu lexpression de la premire fonction dEuler appele aussi fonction Bta. Elle est dfinie pour tout
a et b positifs par
Z
1
xa1 (1 x)b1 dx.
(a, b) =
0
Notons que lon a :

(a, b) = (b, a) =
(a)(b)
.
(a + b)
Une v.a.r. X valeurs dans [0, 1] est dite de loi Bta de paramtres a et
b si elle est absolument continue et admet pour densit
f (x) =
1
xa1 (1 x)b1l1[0,1] (x).
(a, b)
On note X B
eta(a, b).
f) Loi de Student
Une v.a.r. X valeurs dans R est dite de loi de Student n degrs de
libert si elle est absolument continue de densit :

n+1
2
1
x2
f (x) =
1
+
n
n( 12 , n2 )
On note X T (n).
g) Loi de Fisher
Une v.a.r. X valeurs dans R+ est dite de loi de Fisher n et m degrs
de libert, si elle est absolument continue de densit :
n
n
m
1
x 2 1
2m 2
f (x) =
n
n+m l1R+ (x)
( n2 , m
(m + nx) 2
2)
On note X F (n, m).

h) Loi log-normale
Une v.a.r. X valeurs dans ]0, +[ est dite de loi log-normale de
paramtre et 2 si la v.a.r. Y = log X est de loi normale N (, 2 ). On
note X LN (, 2 ).
Sa fonction de rpartition est alors

logx
l1R+
F (x) =
(x),
c
2011
44
o est toujours la fonction de rpartition de la loi N (0, 1).

Sa densit est :

!
1 1
1 log x 2
l1]0,+[ (x).
f (x) =
exp
2
2 x
i) Loi de Cauchy
Une v.a.r. valeurs dans R est dite de loi de Cauchy C(0, 1) si elle est
absolument continue et admet pour densit
f (x) =
1
1
,
1 + x2
pour x R.
2.1.4
Changement de variables
Le problme que lon se propose dtudier dans cette partie est la dtermination de la loi de fonctions dune v.a.r. dont on connat la loi.
Soit donc X une v.a.r. de loi PX et de fonction de rpartition FX . Soit
une application mesurable de R vers R. La v.a.r. Y = X est donc
encore une v.a.r. et on cherche dterminer sa loi.
Une premire mthode, convenant autant aux variables discrtes que
continues, consiste dterminer la fonction de rpartition FY de Y .
On a, pour tout y dans R
FY (y) = P (Y ] , y]) = P ( X ] , y])
= P (X 1 (] , y]) = PX (1 (] , y])).
Voyons deux exemples dapplication de cette mthode.
Exemple 1. Supposons que la v.a.r. X suive une loi N (0, 1) et posons
Y = X 2 . On a :
FY (y) = P (Y y) = P (X 2 y).
On constate dj que lon a : FY (y) = 0 si y 0. Par ailleurs,
FY (y) = P ( y X y)
= P (X y) P (X < y)
= FX ( y) FX ( y),
car la v.a.r. X est continue. De plus , comme cette dernire est absolument
continue sur R et de densit fX continue sur R, sa f.d.r. FX est drivable
c
2011
45
(de drive fX ). Par composition de fonctions drivables, la f.d.r. FY est

drivable sur R+ (la v.a.r. Y est donc absolument continue) et la densit de
Y est donc, pour y > 0 :
fY (y) =
=
1
1
fX ( y) + fX ( y)
2 y
2 y

1 1/2
1
1
1
y/2
2
e
=
.
y 2 1 ey/2 l1R+

(x)
y
Ainsi, la loi de la v.a.r. Y est une ( 21 , 12 ) et le carr dune loi normale centre
rduite suit une loi du 2 (1). Ce rsultat nous permet galement de prouver
lgalit (1/2) = annonce prcdemment.

3
Exemple 2. Soit X une v.a.r. de fonction de rpartition FX continue et
strictement croissante. Prenons = FX et cherchons la loi de la v.a.r.
Y = X = FX (X).
On a, pour tout y dans [0, 1] (la f.d.r. FY tant nulle pour y 0 et gale
1 pour y 1),
FY (y) = P (Y y) = P (FX (X) y) = P (X FX1 (y))
= FX (FX1 (y)) = y.
Par caractrisation de la fonction de rpartition, on en dduit que la v.a.r.
FX (X) est de la loi U[0,1] . Ce rsultat est souvent utilis pour faire des
simulations.
3
Une deuxime mthode pour calculer la loi de (X) = Y est donne par
le thorme suivant suivant et ne convient que pour des variables alatoires
absolument continues.
Thorme 2.1.15 Soient S et T deux ouverts de R et X une v.a.r. absolument continue valeurs dans S et de densit fX . Soit une bijection de S
vers T = Im , continment diffrentiable ainsi que son inverse ( est dite
C 1 -diffomorphisme). Alors, la v.a.r. Y = (X) est absolument continue,
valeurs dans T et de densit :

fY (y) = fX (1 (y)) (1 )0 (y) l1Im (y).
c
2011
46
Preuve. On a :
FY (y) = PX (1 (] , y])) =
Z
fX (x) dx.
{x:(x)y}
Puisque est inversible et 1 continment diffrentiable, le changement de

variable x = 1 (u) dans lintgrale donne
Z y

fX (1 (u)) (1 )0 (u) du.
FY (y) =
Donnons une justification de lapparition de la valeur absolue dans lexpression prcdente. La fonction (1 )0 tant continue, on peut sparer son
domaine en intervalles o elle est positive et en intervalle o elle est ngative.
Sur ces intervalles 1 est donc respectivement croissante et dcroissante.
Dans les intervalles correspondant au premier cas (i.e. (1 )0 0) on a
bien la valeur absolue. Dans le second, o (1 )0 0, comme lordre entre
les bornes de lintervalle est interverti dans le changement de variable, on
retrouve bien la valeur absolue quand on intgre sur un intervalle croissant
pour les u.
2
Exemple. Appliquons cette formule pour le calcul de la densit de la
loi log-normale. On a vu quune v.a.r. X est de loi LN (, 2 ) si la v.a.r.
Y = log X est de loi N (, 2 ). La fonction = exp est clairement un
1 = ln et telle que :
C 1 -diffomorphisme de R dans R+
dinverse
(1 )0 (x) =
1
.
x
Ainsi, daprs la formule du changement de variable, on a :

fX (x) = fY (1 (x)) (1 )0 (x) l1Im (x)
1 ln x 2
1
1
=
e 2 ( ) l1R+
(x)
x
2
et on retrouve bien la densit de la loi log-normale donne prcdemment. 3
Notons, avant daborder la partie suivante, que la fonction caractristique
et la transforme de Laplace introduits au chapitre 4, nous permettront de
disposer de nouveaux outils pour rpondre cette question du changement
de variables.
c
2011
2.2. Vecteurs alatoires
2.2
47
Vecteurs alatoires
On a dj vu que lon appelle vecteur alatoire toute variable alatoire

valeurs dans (Rn , BRn ) = (R, BR )n . On notera Xi , la i-ime coordonne
du vecteur X et rappelons que celle-ci est encore une variable alatoire.
2.2.1
Fonction de rpartition
Dfinition 2.2.1 On appelle fonction de rpartition (conjointe) du vecteur

alatoire X = (X1 , . . . , Xn ) lapplication FX dfinie sur Rn et valeurs dans
[0, 1] par :
!
n
\
FX (x) = PX (] , x1 ] ] , xn ]) = PX
{X xi } ,
i=1
o x = (x1 , . . . , xn ) est un vecteur de Rn .

Proposition 2.2.2 On a :
lim
i, xi
FX (x) = 0
et
lim
i, xi +
FX (x) = 1.
Dfinition 2.2.3 Tout sous vecteur alatoire de dimension strictement infrieure n et extrait du vecteur X est appel variable alatoire marginale.
Ainsi les variables alatoires X1 , . . . , Xn1 et Xn sont chacunes des marginales de X mais (X1 , X2 ) et (X1 , Xn1 ) sont aussi des variables alatoires
marginales, etc...
Proposition 2.2.4 La fonction de rpartition conjointe dun vecteur alatoire X = (X1 , . . . , Xn ) permet de dterminer les fonctions de rpartition de
toutes les marges.
Preuve. On a, pour tout i = 1, . . . , n,
FXi (xi ) =
lim
j6=i, xj +
FX (x) = FX (+, . . . , +, xi , +, . . . , +) .
De mme :
FX1 ,X2 (x1 , x2 ) =
lim
i>2, xi +
FX (x) = FX (x1 , x2 , +, . . . , +)
et ainsi de suite pour les autres marges.
c
2011
48
Nous attirons lattention du lecteur sur le fait que la rciproque de

cette proposition est fausse. Se donner toutes les fonctions de rpartitions
marginales ne suffit pas pour dfinir la fonction de rpartition conjointe.
Exemple de vecteur alatoire discret : la loi multinomiale. Une variable alatoire X = (N1 , . . . , Nm ) suit une loi multinomiale de paramtres
(n, p1 , . . . , pm ), o
n est un entier et p1 , . . . , pm sont des rels strictements
Pm
positifs tels que i=1 pi = 1, si
n!
pn1 pnmm
n1 ! nm ! 1
PX (n1 , . . . , nm ) =
pour (n1 , . . . , nm ) tels que :
m
X
ni = n.
i=1
Cette loi est, par exemple, utilise pour modliser le tirage avec remise
dans une urne contenant des boules de m couleurs diffrentes en proportion
respective p1 , . . . , pm . Si on effectue n tirages dans cette urne, alors la loi
conjointe du vecteur X = (N1 , . . . , Nm ), o les nombres N1 , . . . , Nm sont les
nombres de boules obtenues pour chaque couleur, est de loi multinomiale de
paramtres (n, p1 , . . . , pm ).
3
2.2.2
Densit de probabilit
Dfinition 2.2.5 On dit que le vecteur alatoire X = (X1 , . . . , Xn ) (ou sa

loi) est absolument continu(e) si il existe une fonction mesurable
f:
(Rn , BRn ) (R+ , BR+ )
telle que, pour tout x = (x1 , . . . , xn ) dans Rn , on ait :

Z x1
Z xn
PX (] , x1 ] ] , xn ]) =
fX (u1 , . . . , un )du1 dun .
La fonction fX est appele densit de probabilit conjointe du vecteur X.

Proposition 2.2.6 Toute densit de probabilit conjointe fX de Rn vrifie
les trois assertions suivantes :
i) fX est positive ;
ii) fX est mesurable ;
c
2011
49
iii) fX est intgrable et

Z
fX (x1 , . . . , xn )dx1 dxn = 1.
Rn
Rciproquement toute fonction fX dans Rn vrifiant i), ii) et iii) est une
densit de probabilit.
On verra la fin de ce chapitre, dans la partie extension de la notion de
densit, que cette dfinition est quivalente lexistence dune fonction fX
dfinie sur Rn , positive, mesurable et telle que, pour tout borlien B de Rn ,
on ait
Z
fX (x1 , . . . , xn )dx1 dxn
PX (B) = P (X B) =
B
Notons par ailleurs que si la densit fX est continue au point (x01 , . . . , x0n ),
on a :
nF
fX (x01 , . . . , x0n ) =
(x0 , . . . , x0n ).
x1 xn 1
En fait, on peut montrer que cette proprit est toujours vraie sauf sur un
ensemble de mesure de Lebesgue sur Rn nul.
De mme que prcdemment nous avons dtermin les fonctions de rpartitions marginales dun vecteur alatoire, nous allons maintenant voir comment exprimer les densits marginales en fonction de la densit conjointe.
On a, pour tout xi dans R,
PXi (] , xi ]) = P (X R R] , xi ] R R)
Z
fX (u1 , . . . , un )du1 dun
=
R],xi ]R
Z
=
gi (ui )dui ,
],xi ]
Z
fX (u1 , . . . , un )du1 dui1 dui+1 dun .
gi (ui ) =
Rn1
La v.a.r. Xi est donc absolument continue et sa densit est gi .

De mme soit Z = (X1 , . . . , Xk ), pour k < n, un vecteur extrait de X.
Pour tout rel (x1 , . . . , xk ) de Rk , on a
PZ (] , x1 ] ] , xk ])
= PX (] , x1 ] ] , xk ] R R)
Z
=
g(u1 , . . . , uk )du1 duk ,
],x1 ]],xk ]
c
2011
50
o
Z
fX (u1 , . . . , un )duk+1 dun .
g(u1 , . . . , uk ) =
Rnk
Comme, par permutation, on peut mettre toutes les marges sous cette forme,
on a montr le rsultat suivant :
Proposition 2.2.7 Si X est un vecteur alatoire absolument continu, tout
vecteur alatoire marginal est galement absolument continu et sa densit est
obtenue en intgrant la densit conjointe de X par rapport aux coordonnes
restantes.
2.2.3
Loi conditionnelle et densit conditionnelle
Variables alatoires discrtes

Supposons que Z = (X, Y ) soit un vecteur dans Rn Rm de variables
alatoires discrtes, prenant ses valeurs sur un ensemble fini ou dnombrable
D tel que : z D, PZ ({z}) > 0.
Notons respectivement I et J, parties de Rn et Rm , les ensembles des
atomes des lois PX et PY , i.e.
et
x I : PX ({x}) > 0,
y J : PY ({y}) > 0,
o x = (x1 , . . . , xn )
o y = (y1 , . . . , ym ).
Pour tout x dans I, la mesure discrte dfinie sur J par :

PYX=x ({y}) = P (Y = y/X = x) =
P (Y = y X = x)
P (X = x)
est une probabilit discrte sur Rm , de support J.

Dfinition 2.2.8 Pour tout x dans I, la fonction PYX=x dfinie sur J et
valeurs dans [0, 1] est appele loi de probabilit de Y conditionnelle X = x.
On peut, bien sr, de manire symtrique dfinir la loi de probabilit de
X conditionnelle Y = y.
Variables alatoires continues
Soit Z = (X, Y ) une variable alatoire valeurs dans Rn Rm de loi
absolument continue et de densit fZ . On a vu que les v.a.r. X et Y sont
galement absolument continues et possdent donc des densits fX et fY .
Posons
A = [x Rn : fX (x) > 0] .
c
2011
51
Ayant trivialement
P (X Rn ) = P (X A) + P (X A).
et
=
P (X A)
fX (x1 , . . . , xn )dx1 dxn = 0,
on a
puisque la densit fX est identiquement nulle sur A,
P (X A) = P (X Rn ) = 1.
Ainsi, pour tout x dans A, donc pour PX -presque-tout x dans Rn , on
peut considrer lapplication
Rm R+
y
7 ffZX(x,y)
(x) .
Cette fonction est positive, mesurable et intgrale sur Rm telle que :
Z
Z
1
fZ (x, y)
dy =
fZ (x, y)dy = 1.
fX (x) Rm
Rm fX (x)
Cest donc une densit de probabilit sur (Rm , BRm ).
Dfinition 2.2.9 La fonction
fYX=x :
Rm R+
y
7 ffZX(x,y)
(x)
est une densit de probabilit sur Rm et est appele densit conditionnelle de

Y sachant que X = x. On note PYX=x la loi de probabilit associe, appele
loi de Y sachant que X = x.
Bien sr, on dfinit de manire tout fait similaire la loi de X sachant
que Y = y.
Il rsulte de cette dfinition que, pour PX -presque-tout x de Rn , on a :
fZ (x, y) = fYX=x (y)fX (x).
Ainsi, si on connat la densit marginale fX et la densit conditionnelle fYX=x ,
on a immdiatement lexpression de la densit conjointe fZ (x, y).
Nous attirons lattention du lecteur sur le fait que bien que lon dise
densit de Y sachant que X = x ou loi de Y sachant que X = x, il ne sagit
pas dune probabilit conditionnelle lvnement {X = x} car celui-ci est
de probabilit nulle. Cela naurait pas de sens.
c
2011
52
2.2.4
Changement de variables
La question que lon se pose dans ce paragraphe est la mme que celle
vue prcdemment en unidimensionnel. Soit X un vecteur alatoire dans Rn
et une application mesurable de Rn vers Rn . On veut dterminer la loi
du vecteur alatoire (X). Rappelons en premier lieu que le jacobien dune
fonction
H:
Rn Rn
x = (x1 , . . . , xn ) 7 H(x) = (h1 (x), h2 (x), . . . , hn (x))
est le dterminant de la matrice des drives premires, i.e.

h1 h1
h1
x
h1 x2 xn
2

x

JH = . 1
.
.
.

hn
hn
x1
xn
Thorme 2.2.10 Soit X un vecteur alatoire valeurs dans un ouvert

S de Rn , de loi absolument continue et de densit fX . Soit un C 1 diffomorphisme de S vers un ouvert T (i.e. une bijection continment
diffrentiable et de rciproque galement continment diffrentiable). Alors
le vecteur alatoire Y = (X) est absolument continu et de densit, pour
y = (y1 , . . . , yn ) Rn ,

fY (y) = fX (1 (y)) J1 (y) l1Im (y),
o J1 est le jacobien de la fonction 1 .
Notons que, parfois, pour des raisons de calcul, il est plus simple de
dterminer J et on utilise alors lgalit J1 = J1 .
Nous avons galement une mthode assez proche pour dterminer la loi
dune transforme dun vecteur alatoire, base sur la caractrisation suivante :
Thorme 2.2.11 Soit X un vecteur alatoire valeurs dans Rn . Pour que
sa loi PX , absolument continue, soit de densit fX il faut et il suffit que pour
toute fonction borlienne borne : Rn R telle que (X) soit intgrable
ou positive, on ait :
Z
E((X)) =
(x)f( x)dx.
Rn
c
2011
2.2.5
53
Indpendance
Soit une famille (Xi )i=1,...,n de variables alatoires valeurs respectivement dans (Ei , Bi )i=1,...,n . Rappelons que la famille (Xi )i=1,...,n est indpendante si, pour toute famille dvnements (Bi )i=1,...,n o Bi appartient Bi
pour tout i, on a :
!
n
n
\
Y
P
{Xi Bi } =
P ({Xi Bi }) ,
i=1
i=1
ce qui, en notant X = (X1 , . . . , Xn ), est quivalent

PX = ni=1 PXi .
Thorme 2.2.12 Il y a quivalence entre les assertions suivantes :

i) la famille (Xi )i=1,...,n est une famille de v.a.r. indpendantes ;
ii) la fonction de rpartition conjointe FX est le produit des fonctions de
rpartitions marginales, i.e. :
FX =
n
Y
FXi .
i=1
Si de plus la v.a.r. X est absolument continue sur Rn de densit fX

(continue), les assertions prcdentes sont encore quivalentes
iii) la densit conjointe est le produit des densits marginales, i.e. :
fX (x1 , . . . , xn ) =
n
Y
fXi (xi ).
i=1
Enfin, si n = 2, celles-ci sont encore quivalentes chacune des deux

suivantes
X1 =x1
iv) fX
= fX2 ;
2
X2 =x2
v) fX
= fX1 .
1
c
2011
54
Remarque. Bien sr on obtient le mme style dquivalence que les points

iii), iv) et v) pour des variables alatoires discrtes, en remplaant les densits par rapport Lebesgue par les densits par rapport la mesure de
dnombrement, i.e. en utilisant les probabilits discrtes.
Preuve.
i) ii) : On a
!
n
n
n
\
Y
Y
FX (x) = P
{Xi xi } =
P ({Xi xi }) =
FXi (xi ).
i=1
i=1
i=1
ii) i) : Pour tout x = (x1 , . . . , xn ) de Rn on a :

PX (] , x1 ] ] , xn ]) =
n
Y
PXi (] , xi ])
i=1
et on peut montrer que cela est suffisant pour avoir

PX = ni=1 PXi .
ii) iii) : Par hypothse, on a
FX =
n
Y
FXi .
i=1
Si les densits (fXi )i=1,...,n sont continues, on a :

n FX
= fX1 fXn .
x1 xn
iii) ii) : Soit x = (x1 , . . . , xn ) un rel de Rn , on a :
!
n
\
P
{Xi ] , xi ]} = PX (] , x1 ] ] , xn ])
i=1
Z
=
fXi (u1 ) fXn (un )du1 dun

Z
fX1 (u1 )du1
fXn (un )dun
],x1 ]],xn ]
Z
=
],x1 ]
],xn ]
= P (X1 ] , x1 ]) P (Xn ] , xn ])
et, par dfinition, la famille (Xi )i=1,...,n est donc bien indpendante.
c
2011
55
Enfin pour n = 2, on a les quivalences suivantes :

X1 X2 fX1 ,X2 (x1 , x2 ) = fX1 (x1 )fX2 (x2 )
X2 =x2
(x1 )
fX1 (x1 ) = fX
1
X1 =x1
(x2 ).
fX2 (x2 ) = fX
2
Exemple. Soit (X, Y ) un couple de variables alatoires indpendantes

dont chacune suit une loi N (0, 1). Posons
X +Y
X Y
et V = .
2
2
Le couple (U, V ) est alors form de variables alatoires relles indpendantes
et dont chacune suit une loi N (0, 1).
En effet, puisque les v.a.r. X et Y sont indpendantes et de mme loi
N (0, 1), la densit du couple (X, Y ) est

1
1 2
2
fX,Y (x, y) =
exp (x + y )
2
2
U=
La fonction de R2 dans R2 dfinie par

x+y xy
,
(x, y) =
2
2
est un C 1 -diffomorphisme. Dterminons lexpression de son inverse. On a :
(
( 2x
(
=u+v
u = x+y
x = u+v
2
2
2
2y
.
y = uv
v = xy
=
u
v
2
2
2
Ainsi le Jacobien de 1 est :

J1 (u, v) =

1
2
1
2
1
2
12

1 1

= = 1.

2 2
On applique alors le thorme du changement de variable et la densit du

couple (u, v) est :

fU,V (u, v) = fX,Y (1 (u, v)) J1 (u, v) l1Im (u, v)
(
"

#)
1
1
u+v 2
uv 2
+
|1| l1R2 (u, v)
=
exp
2
2
2
2

1
1 2
2
exp (u + v ) l1R2 (u, v)
=
2
2
1
1
2
2
= eu /2l1R (u) ev /2l1R (v).
2
2
c
2011
56
Les variables alatoires U et V sont donc indpendantes puisque la densit

conjointe se factorise et elles sont toutes les deux de loi N (0, 1).
3
Ce thorme peut galement nous permettre de dterminer la loi dune
fonction de deux variables alatoires. Donnons en un exemple en dterminant
la loi de la somme de deux variables alatoires.
Soit (X, Y ) un couple alatoire sur R2 , absolument continu et de densit
fX,Y . La fonction dfinie sur R2 et valeurs dans R2 par
(x, y) = (x + y, y)
est C 1 -un diffomorphisme. Lquivalence :

x=uv
u=x+y
y = v.
v=y
permet de dterminer lexpression de 1 et den dduire son Jacobien :

1 1

= 1.
J1 (u, v) =
0
1
Ainsi, daprs le thorme du changement de variable, la densit du couple
(U, V ) =v arphi(X, Y ) est :

fU,V (u, v) = fX,Y (1 (u, v)) J1 (u, v) l1Im (u, v)
= fX,Y (u v, v)1
lR2 (u, v).
On peut alors dterminer la densit de la loi marginale de U
Z
fX,Y (u v, v)dv,
fU (u) =
R
pour tout u dans R. De plus, si les variables alatoires X et Y sont indpendantes de densit respective fX et fY , on a :
Z
fX (u v)fY (v)dv,
fX+Y (u) =
R
pour tout u dans R. On vient ainsi dtablir le thorme :

Thorme 2.2.13 La loi de la somme de deux variables alatoires indpendantes, absolument continues et de densit fX et fY respectivement est de
densit
Z
fX+Y (u) =
fX (u v)fY (v)dv,
R
pour tout u dans R. Cette densit est appele la convolue de fX et fY . On

note fX fY le produit de convolution.
c
2011
2.3. Extension de la notion de densit
2.3
57
Extension de la notion de densit
2.3.1
Intgrale par rapport une mesure
Dfinition 2.3.1 On appelle fonction tage une fonction mesurable f, dfinie sur un espace probabilisable (, A) valeurs dans (R, BR ), ne prenant
quun nombre fini de valeurs (yi )i=1,...,n
On note Ai = f 1 ({yi }). Puisque la fonction f est mesurable, les ensembles Ai sont tous dans A et on crit :
f=
n
X
yil1Ai .
i=1
Notons E + lensemble des fonctions tages positives.

Thorme 2.3.2 Toute fonction relle positive est mesurable si elle est limite croissante dune suite de fonctions tages positives.
Dfinition 2.3.3 Soit f un lment de E + dexpression
f=
n
X
yil1Ai .
i=1
Le rel
f d (vntuellement infini) dfini par

Z
f d =
n
X
yi (Ai )
i=1
est appel intgrale de f par rapport .

R
Remarquons que pour toute fonction f de E + son intgrale f d par rapport
est positive. De plus si A est un vnement de A, on a
Z
(A) = l1A d.
Par ailleurs on peut montrer que si lon peut crire :
f=
n
X
i=1
yil1Ai =
m
X
yjl1Bj
j=1
c
2011
58
alors
n
X
yi (Ai ) =
i=1
m
X
yj (Bj )
j=1
et lintgrale f d ne dpend donc pas de lcriture choisie pour f .

On note enfin
!
Z
Z
Z X
n
f d =
l1A fd =
yil1AAi d
A
i=1
n
X
yi (A Ai ).
i=1
Proposition 2.3.4 Lintgrale vrifie les proprits suivantes :

1) Pour toutes fonctions f et g de E + et pour tout couple (, ) dans
R+ R+ , la fonction f + g est dans E + et on a la proprit de
linarit suivante :
Z
Z
Z
(f + g)d = f d + gd.
2) Si f et g sont des fonctions de E + telles que f g alors
Z
Z
f d g d.
Preuve. 1) Soient f et g deux fonctions tages quelconques dexpressions
f=
n
X
xil1Ai
et g =
i=1
m
X
yjl1Bj .
j=1
Les familles (Ai )i=1,...,n et (Bj )j=1,...,m forment chacune des familles densembles disjoints. On peut donc, sans perte de gnralits, supposer quelles
forment chacune une partition de , i.e. quelles vrifient de plus
n
[
i=1
Ai = =
m
[
Bj .
j=1
On peut alors crire

Ai =
m
[
(Ai Bj ) et Bj =
j=1
n
[
(Bj Ai ).
i=1
c
2011
59
Do lexpression de la fonction tage f + g

f +g =
n X
m
X
(xi + yj )1
lAi Bj
i=1 j=1
et, par dfinition de lintgrale,

Z
(f + g)d =
n X
m
X
(xi + yj )(Ai Bj )
i=1 j=1
n
X
i=1
m
m
X
X
xi
(Ai Bj ) +
yj
j=1
Z
=
j=1
n
X
!
(Bj Ai )
i=1
Z
f d +
g d.
La dmonstration de lgalit
Z
Z
f d = f d
est vidente.
2) On peut crire g = f + g f o f et g f sont des fonctions de E + .
Par linarit de lintgrale, on a :
Z
Z
Z
g d = f d + (g f )d,
do on tire :
Z
Z
g d
f d.
tendons dans un premier temps la notion dintgrale aux fonctions

mesurables positives mais non ncessairement tages.
Dfinition 2.3.5 Soit f une fonction relle, mesurable et positive. On a vu
dans un thorme prcdent quil existe une suite (fn ) de fonctions tages
croissantes vers f. Lintgrale de f par rapport la mesure est alors
Z
Z
f d = lim
fn d.
n+
c
2011
60
Soit maintenant une fonction relle f mesurable de signe quelconque.

Dfinissons les parties positives et ngatives de f par :
f + = f l1{f0} = max(f, 0)
f = f l1{f0} = inf(f, 0).
Comme produit de fonction mesurables f + et f sont mesurables et elles
sont toutes les deux positives. On peut donc dfinir, daprs ce qui prcde,
les intgrales :
Z
Z
f + d et
f d.
Remarquons que lon peut exprimer la fonction f en fonction de f + et f

par lgalit :
f = f + f .
Dfinition 2.3.6 Une fonction relle f mesurable est dite -intgrable si on
a:
Z
Z
+
f d < + et
f d < +.
Le rel
Z
f d =
f d
f d
est alors appel intgrale de f par rapport .

Proposition 2.3.7 Une fonction relle f est -intgrable si, et seulement
si,
Z
|f | d < +.
Preuve. Grce lgalit |f | = f + +f , on a les quivalences suivantes :
f est -intgrable
Z
f + d < + et
Z
|f | d < +.
f d < +
c
2011
61
Exemples.
a) Intgrale par rapport une mesure de Dirac
Rappelons que la mesure de Dirac dfinie au point 0 est la probabilit
discrte 0 telle que, pour tout A dans A, on ait :
0 (A) = l1A (0 )
Pour tout vnement A dans la tribu A, la fonction l1A tant trivialement
dans E + , on a :
Z
l1A d0 = 0 (A) = l1A (0 ).
Ainsi, pour toute fonction tage f dans E + dexpression
f=
n
X
yil1Ai ,
i=1
on a :
Z
f d0 =
n
X
yi 0 (Ai ) =
i=1
n
X
yil1Ai (0 ) = f(0 ).
i=1
Supposons maintenant que la fonction f ne soit plus tage mais seulement

positive et mesurable. On a vu quil existe une suite croissante (fn ) dans E +
convergeant vers f . On a alors, par dfinition,
Z
Z
f d0 = lim
fn d0 = lim fn (0 ) = f (0 ).
n+
n+
Supposons enfin que f soit une fonction relle mesurable (de signe quelconque) telle que |f (0 )| < +. On a alors
Z
f + d0 = f + (0 ) < +
et
f d0 = f (0 ) < +.
La fonction f est donc intgrable par rapport 0 et dintgrale

Z
Z
Z
+
f d0 =
f d0 f d0
= f + (0 ) f (0 ) = f (0 ).
c
2011
62
Ainsi, pour toute fonction mesurable f telle que |f (0 )| < +, lintgrale

de f par rapport la mesure de Dirac en 0 est gale la valeur prise par
la fonction f en 0 .
b) Intgrale par rapport une mesure discrte
Cest une gnralisation directe de lintgrale par rapport la mesure de
Dirac.
Soit une mesure discrte (ventuellement de masse totale suprieure
1), densemble des atomes D = {n o n I}, o I est un ensemble fini ou
dnombrable dindices. Notons pn = ({n }) . On a vu dans le chapitre 1,
que lon peut crire :
X
pn n .
=
nI
Pour tout vnement A dans la tribu A, on a :

Z
X
X
l1A d = (A) =
pn n (A) =
pnl1A (n ).
nI
nI
Pour une fonction tage f E + dexpression

f=
k
X
yil1Ai ,
i=1
on a alors
Z
f d =
k
X
yi (Ai ) =
i=1
k
X
X
nI
yi
i=1
yi
i=1
k
X
pn n (Ai )
nI
pnl1Ai (n )
nI
pn
k
X
yil1Ai (n ) =
i=1
pn f(n ).
nI
On peut montrer, par le mme raisonnement que celui fait prcdemment

pour la mesure de Dirac, que pour toute fonction mesurable f telle que
X
pn |f (n )| < +,
nI
on a :
Z
f d =
pn f (n ).
nI
c
2011
63
Appliquons ceci la mesure de dnombrement. Comme on la dj vu, la

mesure de dnombrement ou de comptage est un cas particulier de la mesure
discrte prcdente, o D = N et pn = 1, pour tout n dans N. On crit donc
X
=
n .
nN
Daprs ce que lon vient de voir, toute fonction relle mesurable f telle que
X
|f (n)| < +,
n
est -intgrable et
Z
f d =
f (n).
nN
c) Intgrale par rapport la mesure de Lebesgue sur R

On a vu que, pour tout intervalle ]a, b], la mesure de Lebesgue de cet
intervalle est (]a, b]) = b a. Ainsi
Z
Z
l1]a,b] d = (]a, b]) = b a =
dx.
a
Lintgrale de l1]a,b] par rapport la mesure de Lebesgue est alors, dans ce

cas, gale son intgrale au sens de Riemann. On peut montrer que dans la
majorit des cas lintgrale de Lebesgue (intgrale par rapport la mesure
de Lebesgue) et de Riemann sont confondues.
En effet si f est intgrable au sens de Riemann sur un intervalle donn
[a, b], alors la fonction f est intgrable au sens de Lebesgue et les deux
intgrales sont gales i.e.
Z
f d =
[a,b]
f (x)dx.
a
De mme sur lintervalle ]a, b[ o a et b peuvent prendre respectivement

les valeurs et +, si |f | est intgrable au sens de Riemann, alors f est
intgrable au sens de Lebesgue et les deux intgrales sont confondues :
Z
Z
f d =
]a,b[
f (x)dx.
a
Donnons maintenant quelques proprits de lintgrale ainsi dfinie.
c
2011
64
Proposition 2.3.8 1) Lensemble des fonctions -intgrables forme un Respace vectoriel et lintgrale par rapport est une forme linaire i.e. pour
toutes fonctions f et g -intgrables et pour tout couple (, ) dans R2 , la
fonction f + g est -intgrable et on a lgalit
Z
Z
Z
(f + g)d = f d + gd.
De mme pour tous vnements A et B disjoints dans A, on a :
Z
Z
Z
f d =
f d +
f d.
AB
2) Monotonie
Si f et g sont deux fonctions telles que f g, on a alors lingalit :
Z
Z
f d gd.
R
En particulier si f est positive alors lintgrale f d lest aussi.
3) Si f et g sont deux fonctions telles que |f | g (donc g est positive)
et g est -intgrable alors f est -intgrable.
4) Si la fonction f est -intgrable, on a lingalit :
Z
Z

f d |f | d.

Preuve. La plupart de ces rsultats sobtiennent facilement. Dmontrons la dernire ingalit. On a
Z
Z
Z
Z
Z
Z

f d = f + d f d f + d + f d = |f | d. 2

Introduisons maintenant la notion de ngligeabilit.

Dfinition 2.3.9 Soit (, A, ) un espace mesur et P une proprit dfinie
sur . On dira que P est vrifie -presque-partout (-p.p.) sil existe un
la proprit
ensemble N de A tel que (N ) = 0 et que pour tout dans N
P soit vrifie.
Exemples.
c
2011
65
* f = 0 -p.p. signifie quil existe N dans A avec (N ) = 0 tel que pour

on ait : f () = 0.
tout dans N
* f est finie -p.p. si il existe N dans A avec (N ) = 0 tel que pour
on ait : f () < +.
tout dans N
3
Proposition 2.3.10 1) Si f est -intgrable alors f est finie -p.p.
2) Pour une fonction f mesurable on a lquivalence
Z
f = 0 -p.p.
|f | d = 0.
Chacune de ces deux assertions implique que
Z
f d = 0.
3) Soient f et g deux fonctions mesurables telles que f soit -intgrable
et f = g -p.p. Alors g est -intgrable et
Z
Z
f d = gd.
4) Si f est une fonction relle mesurable, alors pour tout vnement A
dans A tel que (A) = 0, on a
Z
f d = 0.
A
Donnons enfin, sans leurs dmonstrations, deux thormes fondamentaux

de la thorie de lintgration.
Thorme 2.3.11 (thorme de la convergence monotone de Beppo-Lvi).
Soit (fn ) une suite croissante de fonctions mesurables positives. Alors
Z
Z
lim fn d = lim
fn d.
n+
n+
Thorme 2.3.12 (thorme de la convergence domine ou de Lebesgue).

Soit (fn ) une suite de fonctions relles, mesurables et -intgrables. Si
la suite (fn ) converge vers f , -p.p., et sil existe une fonction g mesurable
positive telle que, pour tout n, on ait :
|fn | g,
alors f est -intgrable et
Z
lim
n+
Z
fn d =
f d.
c
2011
66
2.3.2
Absolue continuit dune mesure par rapport une

autre. Densit
Soit (, A) un espace mesurable et et deux mesures positives sur cet

espace.
Dfinition 2.3.13
On dit que est absolument continue par rapport si, pour tout A
dans A tel que (A) = 0, on a (A) = 0. On note .
On dit que admet une densit par rapport sil existe une fonction
f mesurable positive telle que :
Z
A A : (A) =
f d.
A
Ces notions gnralisent bien les rsultats vus au dbut de ce chapitre. En

effet, on a dit que la loi dune variable alatoire X est absolument continue
sil existe f mesurable positive telle que
Z
A A, PX (A) =
f (x)dx.
A
Or, on a vu que dans les bons cas

Z
Z
f (x)dx =
f d
A
o est la mesure de Lebesgue. Ainsi, dire que PX est absolument continue

veut en fait dire quelle admet une densit par rapport Lebesgue. Cela
veut galement dire que PX est absolument continue par rapport . En
effet, si A est un vnement tel que (A) = 0, on a vu prcdemment que
cela implique
Z
f d = 0
A
et on a donc bien que : PX (A) = 0.

On pourrait montrer que ces deux dfinitions absolue continuit et existence dune densit sont quivalentes pour les mesures que nous avons considres (i.e. mesures positives qui sont par dfinition -additives).
Thorme 2.3.14 Une mesure est absolument continue par rapport une
autre mesure si, et seulement si, admet une densit par rapport .
c
2011
67
Intressons nous maintenant lexistence dune densit par rapport

une mesure discrte.
Remarquons par exemple que toute probabilit discrte (ce serait galement vrai pour une mesure) sur une partie de N (i.e. sur D N) est
absolument continue par rapport la mesure de dnombrement. En effet,
on peut crire
X
P =
pn n
nD
P
o les pn sont positifs et tels que
nD pn = 1. Si est la mesure de
dnombrement, i.e.
X
=
n
nN
et soit un vnement A dans A tel que (A) = 0, alors par dfinition de ,

on a
X
n (A) = 0.
nN
Do, pour tout n dans N, on a : n (A) = 0. Il vient donc

X
P (A) =
pn n (A) = 0
nD
et P est bien absolument continue par rapport .

Par ailleurs, soit une fonction f de R vers R dfinie par
n D : f (n) = pn
et x R \ D : f (x) = 0.
On a, pour tout vnement A dans A,

X
X
P (A) =
pn n (A) =
f (n)1
lA (n)
nD
nN
Z
=
Z
f l1A d =
fd
A
Donc la densit de P par rapport est la fonction f nulle sur tout R,

sauf sur D o sa valeur pour tout n est pn .
Exemple :
On a vu que la loi binomiale B(n, p) dune v.a.r. X peut scrire :
PX =
n
X
Cnk pk (1 p)nk k .
k=0
c
2011
68
Ainsi,
continue par rapport la mesure de dnombrement
PPX est absolument
P
= n n ou = nk=0 k et est de densit :
f (k) = Cnk pk (1 p)nk , pour k = 0, , n
et f (x) = 0, x 6= 0, , n.
Notons que lon a alors :
Z
X
X
PX (A) =
f d =
f (k) =
Cnk pk (1 p)nk
A
2.3.3
kA
kA
Mlange de lois
Soient 1 et 2 deux probabilits sur R. Supposons que 1 soit absolument continue par rapport la mesure de Lebesgue (de densit f ), i.e.
absolument continue au sens vu au dbut du chapitre, et supposons que 2
soit discrte sur D partie de N avec, pour tout n dans D
2 ({n}) = pn ,
i.e. absolument continue par rapport la mesure de dnombrement.
Alors, pour tout dans ]0, 1[, la mesure
P = 1 + (1 )2
est encore une probabilit et, pour tout A dans BR :
Z
Z
Z
P (A) =
l1A dP = l1A d1 + (1 ) l1A d2
Z
X
=
f (x)dx + (1 )
pn .
A
nAD
Exemple. Mlange dune Dirac en 0 et dune exponentielle.

Considrons un matriel qui, quand il est mis en marche, a une probabilit
1 de tomber en panne ds linstant initial et qui, ensuite, est tel que le
temps dattente avant larrive dune panne suit une loi exponentielle de
paramtre .
Notons 1 la loi absolument continue de densit
f (x) = exl1]0,+[ (x)
et 2 = 0 (loi absolument continue par rapport la mesure de dnombrement).
c
2011
69
Ainsi pour tout x strictement positif

Z x
P (] , x]) =
f (u)du + (1 )
et P ({0}) = 1 = probabilit de tomber en panne ds linstant initial. 3
2.3.4
Densits conjointes, marginales et conditionnelles
Les rsultats vus prcdemment sur les densits conjointes, marginales et

conditionnelles restent vrais si les variables alatoires ne sont pas absolument
continues.
Considrons deux v.a. X et Y dfinies sur un mme espace (, A, P )
et valeurs respectivement dans (1 , A1 ) et (2 , A2 ). Le couple (X, Y ) est
alors dfini sur (, A, P ) et est valeurs dans (1 2 , A1 A2 ).
On dira que (X, Y ) admet une densit par rapport une mesure quelconque 1 2 si, et seulement si, sa loi PX,Y admet une densit par rapport 1 2 , i.e. sil existe une fonction fX,Y mesurable, positive sur
(1 2 , A1 A2 ), telle que, pour tout A1 et A2 respectivement dans A1
et A2 , on ait :
Z
P(X,Y ) (A1 A2 ) =
fX,Y (x, y)d1 (x)d2 (y).
A1 A2
Alors PX admet pour densit fX par rapport 1 , donne par :

Z
fX (x) =
fX,Y (x, y)d2 (y)
2
et la loi conditionnelle X = x de Y a pour densit par rapport 2

fYX=x (y) =
fX,Y (x, y)
.
fX (x)
Cest donc en particulier le cas pour 1 = 2 = R et par exemple :

1 = mesure de Lebesgue
2 = mesure de dnombrement.
c
2011
70
c
2011
Chapitre 3
Moments de variables
alatoires
71
72
3.1
Variables alatoires relles intgrables et esprance mathmatique
Les rsultats sur lintgration de fonctions mesurables par rapport une

mesure positive, et vus dans le chapitre prcdent, restent bien sr vrais
pour une v.a.r. qui est, par dfinition, une variable alatoire de (, A, P )
vers (R, BR ).
On peut donc considrer lintgrale de X par rapport sa mesure de
probabilit P. Cette intgrale, quand elle existe, est appele esprance de X.
Dfinition 3.1.1 Soit X une v.a.r. positive ou P -intgrable, i.e. telle que
Z
|X| dP < +.
Lintgrale
Z
Z
XdP =
X()dP (w)
est appele esprance mathmatique de X et est note EX.

Toutes les proprits de linarit, de monotonie, de convergence pour les
intgrales restent donc vraies pour lesprance mathmatique.
De mme, la notion de ngligeabilit est conserve mais, dans le langage
des probabilits, on ne dit plus -p.p. mais P -presque srement ou
simplement presque srement, not p.s., quand il ny a pas de risque de
confusion.
On a vu prcdemment que bien souvent on ignore ce quest lespace
(, A, P ) et on ne connat bien que lespace probabilis (R, BR , PX ). Cest
pourquoi, en particulier dans le calcul de lesprance mathmatique dune
v.a.r., on utilise le thorme suivant qui permet de transformer le calcul de
lintgrale sur (, A, P ) en un calcul dune intgrale sur (R, BR , PX ).
Thorme 3.1.2 (Thorme du transport)
Soit X une v.a.r. de (, A, P ) vers (R, BR ) de loi PX et h une fonction
mesurable de (R, BR ) vers lui mme, positive ou PX -intgrable. On a alors :
Z
Z
Z
h(X)dP =
h X()dP () =
h(x)dPX (x).
On note ce rel E(h(X)).
Chapitre 3 : Moments de variables alatoires
73
Ce thorme revient en quelque sorte faire un changement de variable

x = X() dans lintgrale.
Ainsi, si la fonction h(x) = x est PX -intgrable, i.e. si
Z
|x| dPX (x) < +,
R
alors on peut parler de lesprance de X et elle est gale

Z
xdPX (x).
EX =
R
Si la loi PX de X est absolument continue par rapport une mesure

et de densit f par rapport cette mesure, alors daprs ce que lon a vu
la fin du chapitre prcdent, on peut crire :
Z
EX =
xf (x)d(x).
R
Deux cas particuliers sont fondamentaux.

a) Si la variable alatoire X est absolument continue et intgrable (i.e. si
sa loi est absolument continue par rapport Lebesgue) on a :
Z
Z +
EX =
xf (x)d(x) =
xf (x)dx.
b) Si la variable alatoire X est discrte valeurs dans

D = {x1 , . . . , xn , . . .} ,
sa loi est absolument continue par rapport la mesure de dnombrement
=
+
X
xn .
n=1
Sous lhypotse que lon ait

+
X
|xn |P (X = xn ) < +
n=1
(i.e. X est intgrable par rapport ), on a :

Z
+
X
EX =
xf (x)d(x) =
xn f (xn )
R
+
X
n=1
n=1
xn P (X = xn ).
74
Exemples.
* Calculons lesprance dune v.a.r. absolument continue de loi exponentielle. On a :
Z
Z
Z +
EX =
X()dP () =
xdPX (x) =
xex dx
R
0
Z +
du
(2)
1
ueu
=
=
=
0
* Calculons lesprance dune v.a.r. X de loi de Bernoulli B(p). On
a vu que, dans ce cas, D = {0, 1} et la loi de Bernoulli est donc domine
par la mesure de comptage ou de dnombrement sur N, mais aussi, plus
simplement, par la mesure 0 + 1 . On a
Z
Z
Z
EX =
X()dP () =
xdPX (x) =
xf (x)d(0 + 1 )(x)
= 0 f (0) + 1 f (1) = 0 P (X = 0) + 1 P (X = 1) = p.
Notons que le thorme du transport nest pas seulement utile pour nous
aider calculer lesprance dune variable alatoire X dont on connat la loi.
Ainsi, si est une fonction mesurable et X une variable alatoire de loi PX ,
on peut alors calculer lesprance de Y = (X), si celle-ci existe, et cela sans
dterminer la loi de Y . En effet, si est PX -intgrable, on a :
Z
E(Y ) = E((X)) = (x)dPX (x).
Proposition 3.1.3 (Ingalit de Jensen)
Soit une fonction convexe de R vers lui mme et X une v.a.r. telles
que X et (X) soient intgrables. On a alors :
(EX) E((X))
Rappel. Une fonction f de R vers lui mme est dite convexe si, pour tout
couple (x, y) de R2 et pour tout de [0, 1], on a :
f (x + (1 )y) f (x) + (1 )f (y).
Notons, en particulier, quune fonction deux fois drivable dont la drive
seconde est positive est une fonction convexe.
75
Exemple. On peut vrifier que la fonction valeur absolue est une fonction
convexe. Do
|EX| E |X|
3
et on retrouve bien le rsultat classique.
Dfinition 3.1.4 Soit (, A, P ) un espace probabilis. On note L1 (, A, P )

(ou simplement L1 quand il ny a pas de risque de confusion), lespace des
v.a.r. intgrables dfinies sur (, A).
En utilisant les rsultats du chapitre 2, on peut montrer que la notion
dgalit P -presque sre est une relation dquivalence sur lespace L1 . Ainsi
on peut raisonner uniquement sur les classes dquivalences.
Dfinition 3.1.5 On appelle L1 (, A, P ) lensemble des classes dquivalences sur L1 .
Par abus de langage, on confondra dans la suite la variable alatoire et
sa classe dquivalence.
Thorme 3.1.6 Lespace L1 (, A, P ) est un espace vectoriel sur R, norm
par
Z
kXkL1 = E (|X|) =
|X| dP.
Preuve. On a dj montr que lespace L1 (, A, P ) est un R-espace

vectoriel. Dautre part, on a :
kXkL1 = E (|X|) = || E (|X|) = || kXkL1
kX + Y kL1 = E (|X + Y |) E (|X| + |Y |) kXkL1 + kY kL1
et
3.2
3.2.1
kXkL1 = 0 E |X| = 0 X = 0 p.s. X = 0 dans L1 .
Moments de variables alatoires relles

Espace Lp
Dfinition 3.2.1 Soit p un rel tel que p 1. On dit quune variable alatoire X appartient lespace Lp (, A, P ) si elle est de puissance p-intgrable,
i.e. si
E |X|p < +.
76
La norme sur Lp (, A, P ) est :

p 1/p
kXkp = (E |X| )
Z
1/p
|X| dP
Dfinition 3.2.2 Pour une variable alatoire X dans Lp (, A, P ), on appelle

moment dordre p le rel : EX p .
moment absolu dordre p le rel : E |X|p .
moment centr dordre p le rel : E ((X EX)p ).
Proposition 3.2.3 Soit p et q deux rels tels que : 1 p < q. On a
kXkp kXkq et donc Lq Lp .
Preuve. Elle repose sur lutilisation de lingalit de Jensen avec la fonction (x) = xq/p , qui est bien une fonction convexe sur R+ , et avec la v.a.r.
Y = |X|p .
Daprs lingalit de Jensen on peut crire :
(EY ) E(Y ),
do, on tire :
(E |X|p )q/p E |X|q
kXkp kXkq .
Ainsi, on a les relations suivantes :

X Lq kXkq < + kXkp < + X Lp .
On admet les deux thormes suivants :

Thorme 3.2.4 (Ingalit de Hlder)
Pour tous rels p et q tels que p > 1, q > 1 et 1/p + 1/q = 1 et toutes
v.a. X et Y respectivement dans Lp (, A, P ) et Lq (, A, P ), on a :
kXY k1 kXkp kY kq .
77
Thorme 3.2.5 (Ingalit de Minkowski)

Soit un rel p 1. Si X et Y sont deux lments de Lp (, A, P ) alors
X + Y Lp (, A, P )
et
kX + Y kp kXkp + kY kp .
Ce dernier thorme nous permet de montrer que, pour tout rel p 1,

lespace Lp (, A, P ) est un espace vectoriel norm. On peut en fait montrer
quils est galement complet et donc un espace de Banach.
tudions plus en dtail le cas, particulirement intressant, de lespace
2
L .
3.2.2
Espace L2
Lingalit de Hlder, vue prcdemment, applique pour p = q = 2 est

souvent appele ingalit de Schwartz.
Proposition 3.2.6 Soit X et Y deux v.a.r. dans L2 . On a :
kXY k1 kXk2 kY k2 .
Ainsi, si les v.a.r. X et Y sont dans L2 , la v.a.r. XY est dans L1 . En
revanche, il nest pas suffisant que X et Y soient dans L1 pour que XY le
soit galement.
Proposition 3.2.7 Lapplication de L2 L2 vers R dfinie par :
Z
(X, Y ) 7 hX, Y i = EXY = XY dP
est un produit scalaire.
Preuve.
Il est facile de montrer quil sagit dune forme bilinaire
symtrique et strictement positive.
2
Thorme 3.2.8 Lespace L2 est un espace de Hilbert, i.e. un espace prhilbertien (espace vectoriel muni dun produit scalaire) complet pour la norme
associe au produit scalaire.
La norme dans L2 est :
kXk2 =
p
hX, Xi = EX 2 .
78
Dfinition 3.2.9 On appelle variance dune v.a.r. X dans L2 , son moment

centr dordre 2, i.e. :

Var(X) = E (X EX)2 = hX EX, X EXi .
Lcart-type de X est la racine carre de sa variance
p
X = Var(X).
Proposition 3.2.10 Pour toute v.a.r. X dans L2 on a les proprits suivantes :
i) Var(X) = EX 2 E2 X ;
ii) X = a p.s. Var(X) = 0 ;
iii) pour tout couple (a, b) dans R2 , on a : Var(aX + b) = a2 Var(X) ;
iv)
Var(X) = E(X EX)2 = inf E(X a)2 .
aR
Remarque. La proprit iv) montre que lesprance est la projection orthogonale au sens de la norme L2 sur les sous-espaces des variables alatoires
constantes.
Preuve. Soit X une v.a.r. quelconque dans L2 .
i) On a :
Var(X) = E(X EX)2 = E(X 2 2XEX + E2 X)
= EX 2 2EXEX + E2 X = EX 2 E2 X.
ii) Supposons que X soit telle que Var(X) = 0. On a alors les quivalences suivantes :
Var(X) = 0 E(X EX)2 = 0 X EX = 0 p.s. X = EX p.s.
iii) Soit (a, b) un couple dans R2 . On a :
Var(aX + b) = E(aX + b E(aX + b))2
= E(aX + b aEX b)2
= E(a2 (X EX)2 ) = a2 E(X EX)2 = a2 Var(X).
79
iv) Soit a un rel quelconque. On peut crire :

E(X a)2 = E(X EX + EX a)2
= E (X EX)2 + 2(X EX)(EX a) + (EX a)2
= E(X EX)2 + 2(EX a)E(X EX) + (EX a)2

= E(X EX)2 + (EX a)2 .
Do, pour tout a dans R, on a :
E(X EX)2 E(X a)2
et comme EX est une constante, on a bien le rsultat.
Terminologie particulire. Soit X une v.a.r. dans L2 . Les v.a.r.

X EX
et
X EX
X
sont respectivement appeles v.a.r. centre et v.a.r. centre rduite associes

X.
Proposition 3.2.11 (Ingalits de Markov et de Bienaym-Tchebychev)
i) Markov. Soit X une v.a.r. intgrable (i.e. dans L1 (, A, P )). On a :
P (|X| c)
E |X|
,
c
pour tout rel c strictement positif.

ii) Bienaym-Tchebychev. Soit X une v.a.r. dans L2 (, A, P ). On a :
P (|X EX| c)
Var(X)
.
c2
Preuve.
i) Pour une v.a.r. X quelconque dans L1 , on a :
Z
Z
Z
E |X| =
|X| dP =
|X| dP +
|X| dP
|X|<c
|X|c
Z
Z
|X| dP c
dP = cP (|X| c) .
|X|c
|X|c
80
ii) De mme, en utilisant le i) et sous lhypothse supplmentaire que X

soit de carr intgrable, on a :

1
Var(X)
P (|X EX| c) = P (X EX)2 c2 2 E(X EX)2 =
.2
c
c2
Avant daborder le cas des vecteurs alatoires, revenons sur les conditions
suffisantes pour que le produit XY de deux v.a.r. X et Y appartienne L1 .
On a vu que si X et Y sont dans L2 alors la v.a.r. XY est dans L1 ,
daprs Minkowski (ou Schwartz). On a galement dj signal quil nest
pas suffisant que X et Y soient dans L1 pour que XY le soit galement. En
revanche le rsultat est vrai si de plus X et Y sont indpendantes.
Proposition 3.2.12 Si X et Y sont deux v.a.r. intgrables et indpendantes, alors
i) la v.a.r. XY est intgrable (i.e. XY L1 ).
ii) EXY = EXEY .
Preuve. Dmontrons ce rsultat uniquement dans le cas de deux v.a.r.
absolument continues. On a :
Z
Z
E |XY | =
|xy| fX,Y (x, y)dxdy =
|x| |y| fX (x)fY (y)dxdy
R2
R2
Z
Z

=
|x| fX (x)dx
|y| fY (y)dy = E |X| E |Y | ,
R
qui est fini par hypothse. Ainsi, on a bien le i). En supprimant les valeurs
absolues on obtient le ii).
2
3.3
Vecteurs alatoires
Soient X = (X1 , . . . , Xn ) et Y = (Y1 , . . . , Yn ) des vecteurs alatoires

valeurs dans Rn tels que, pour tout i, les v.a.r. Xi et Yi soient intgrables.
3.3.1
Esprance mathmatique
Dfinition 3.3.1 On appelle esprance mathmatique de X, le vecteur EX

de Rn de composantes EX1 , . . . , EXn .

On note souvent
81
EX1
EX = ...
EXn
Loprateur esprance est nouveau linaire, i.e. pour tout couple (, )

dans R2 et tous vecteurs X et Y de mme dimension et intgrables, on a :
E(X + Y ) = EX + EY.
3.3.2
Covariance de deux v.a.r.
Dfinition 3.3.2 Soient X et Y deux v.a.r. intgrables telles que leur produit XY soit intgrable. On appelle covariance de X et Y le rel
Cov(X, Y ) = E ((X EX)(Y EY )) .
Remarque.
Y existe et
Si X et Y sont deux v.a.r. dans L2 , la covariance de X et

Cov(X, Y ) = hX EX, Y EY i .
Proposition 3.3.3 Loprateur covariance vrifie les proprits suivantes :

i) Cov(X, Y ) = Cov(Y, X)
ii) Cov(aX + X 0 , Y ) = a Cov(X, Y ) + Cov(X 0 , Y )
iii) Cov(X, Y ) = EXY EXEY.
La covariance est donc un oprateur bilinaire symtrique.
2
Preuve. Triviale.
Proposition 3.3.4 Soit (Xi )i=1,...,n une famille de v.a.r. dans L2 . On a :

i) Var(X1 + X2 ) = Var(X1 ) + 2 Cov(X1 , X2 ) + Var(X2 ).
ii)
Var
n
X
i=1
!
Xi
n
X
i=1
Var(Xi ) + 2
X
i<j
Cov(Xi , Xj ).
82
Preuve. i) On peut crire :
Var(X1 + X2 ) = E (X1 + X2 (EX1 + EX2 ))2

= E ((X1 EX1 ) + (X2 EX2 ))2
= E (X1 EX1 )2 + 2(X1 EX1 )(X2 EX2 ) + (X2 EX2 )2
= Var(X1 ) + 2 Cov(X1 , X2 ) + Var(X2 ).
2
ii) Se montre aisment par rcurrence.
Proposition 3.3.5 Si X et Y sont deux v.a.r. intgrables et indpendantes,

on a :
Cov(X, Y ) = 0.
Preuve. On a :
Cov(X, Y ) = EXY EXEY = EXEY EXEY = 0.
Nous attirons lattention du lecteur sur le fait que la rciproque est fausse,
comme le montre le contre-exemple suivant.
Contre-exemple. Soit X une v.a.r. discrte telle que :
P (X = 1) = P (X = 1) =
1
4
1
et P (X = 0) = .
2
Soit Y la v.a.r. dfinie par Y = X 2 . Notons que lon a :

EX = (1)
1
1
1
+0 +1 =0
4
2
4
et XY = X 3 = X. Ainsi, il vient :
Cov(X, Y ) = EXY EXEY = EX EXEY = 0.
Mais X et Y ne sont pas indpendantes, puisque lon a :
P (X = 1 Y = 0) = 0 6= P (X = 1)P (Y = 0) =
1 1
.
4 2
Corollaire 3.3.6 Si (Xi )i=1,...,n est une famille de v.a.r. dans L2 et indpendantes
!
n
n
X
X
Var
Xi =
Var(Xi ).
i=1
i=1
83
Preuve.
Immdiate en utilisant la proposition de la variance dune
somme de variables alatoires quelconques.
2
Dfinition 3.3.7 Si X et Y sont deux v.a.r. non constantes de L2 , on
appelle coefficient de corrlation linaire de X et de Y, le rel :
Cov(X, Y )
.
X,Y = p
Var(X)Var(Y )
Proposition 3.3.8 Pour toutes v.a.r. X et Y dans L2 non constantes, on
a : X,Y [1, 1].
3.3.3
Matrice de covariance
Dfinition 3.3.9 Soit X = (X1 , . . . , Xn ) un vecteur de v.a.r. tel que chacune de ses composantes est dans L2 (i.e. Xi L2 pour tout i = 1, . . . , n).
On appelle matrice de covariance de X, la matrice X carre dordre n et de
terme gnral Cov(Xi , Xj ).
La matrice X est forcment symtrique et ses termes diagonaux sont les
variances des composantes des vecteurs.
Dfinissons maintenant lesprance dune matrice alatoire. Soit M =
(Yij )i,j une matrice n p alatoire intgrable i.e. chaque terme Yij est une
variable alatoire relle intgrable. On note EM , la matrice (E(Yij ))i,j .
Ainsi, si M 1 et M 2 sont des matrices de mme dimension, on a :
E(M 1 + M 2 ) = EM 1 + EM 2 .
Si A = (aij )i,j est une matrice k n de rels, on a :
E(AM ) = AEM,
o le produit est pris au sens des matrices. Si B = (bij )i,j est une matrice
p q de rels, on a :
EM B = EM B.
Notons enfin que la matrice X peut scrire sous la forme :

X = E (X EX)(X EX)T ,
le vecteur X tant not sous forme dun vecteur colonne.
84
Proposition 3.3.10 Soit X = (X1 , . . . , Xn ) un vecteur constitu de n variables alatoires dans L2 . Si A est une matrice p n de rels, alors les composantes de Y = AX sont des v.a.r. dans L2 et on a :
EY
= AEX
= AX AT .
2
Preuve. Immdiate.
3.3.4
Esprance conditionnelle
Soit (X, Y ) un couple de v.a.r. On a vu dans le chapitre prcedent

comment dterminer les lois conditionnelles PYX=x et PXY =y .
Dfinition 3.3.11 Si lintgrale
Z
ydPYX=x (y)
R
X=x
PY -intgrable),
on lappelle esprance condiexiste (i.e. si h(y) = y est

tionnelle de Y sachant que X = x. On la note E(Y /X = x).
La fonction e : x E(Y /X = x) est une fonction relle dune variable
relle. On peut montrer quelle est mesurable et on peut considrer sa composition avec la variable alatoire X, i.e. considrer e X. Celle-ci dfinit
une variable alatoire relle que lon appelle esprance conditionnelle de Y
sachant X, note E(Y /X).
Exemples.
* Supposons que les lois de X et Y soient discrtes. Soit I et J les
ensembles des atomes des lois PX et PY . Pour tout xi dans I, on a :
X
E(Y /X = xi ) =
yj PYX=xi (yj )
yj J
yj P (Y = yj /X = xi ).
yj J
* Lorsque la loi PYX=x est absolument continue par rapport Lebesgue,

i.e. conditionnellement X = x la v.a.r. Y est une v.a.r. absolument
continue de densit fYX=x , on a :
Z
3
E(Y /X = x) =
yfYX=x (y)dy.
R
Chapitre 4
Caractrisation des lois :

transforme de Laplace et
fonction caractristique
85
86
Lobjet de ce chapitre est de caractriser la loi dune variable alatoire

laide dune fonction comme on la dj fait avec la fonction de rpartition
ou les densits dans le cas des v.a.r. absolument continues. On cherche donc
une fonction qui contienne toute linformation sur cette variable alatoire,
sur les moments, sur sa loi.
4.1
4.1.1
Transforme de Laplace
Variables alatoires relles
Dfinition 4.1.1 Soit X une v.a.r. dfinie sur un espace probabilis (, A, P ).

Soit I un intervalle contenant 0, tel que, pour tout rel s dans I, la v.a.r. esX
soit intgrable. On appelle transforme de Laplace de la v.a.r. X la fonction
dfinie sur I et valeurs dans R+ par :
LX (s) = E(esX ).
La transforme de Laplace est aussi souvent appele fonction gnratrice
des moments. On trouve galement dans la littrature la transforme de
Laplace dfinie par :
LX (s) = E(esX ).
nonons les proprits suivantes que nous ne dmontrerons pas.
Proposition 4.1.2
1) La transforme de Laplace est toujours dfinie en 0 et
LX (0) = E1 = 1.
Il existe des variables alatoires, telles celles de loi de Cauchy, dont la transforme de Laplace nest dfinie que pour s = 0.
2) Si X est borne, alors LX est dfinie et continue sur tout R.
3) Si X est positive, alors LX est continue et borne sur ] , 0].
Exemples de transforme de Laplace.
* Supposons que la v.a.r. X suive une loi de Poisson P(). On a :
LX (s) = E(e
sX
)=
s
+ n
X
n!
sn
n=0
(es 1)
= e ee = e
=e
+
X
(es )n
n=0
< +,
n!
Chapitre 4 : Caractrisation des lois
87
pour tout s dans R. La transforme de Laplace dune loi de Poisson est donc
dfinie sur (tout) R.
* Supposons que la v.a.r. X suive une loi binomiale B(n, p). On a :
LX (s) = E(e
sX
)=
n
X
esk Cnk pk (1 p)nk = (pes + 1 p)n < +,
k=0
pour tout s dans R.

* Supposons que la v.a.r. X suive une loi (, ). On a :
Z
1 (s)x
sX
LX (s) = E(e ) =
x
e
dx.
R+ ()
Cette intgrale est convergente si, et seulement si,
s > 0 s < .
On effectue le changement de variables u = ( s) x dans lintgrale pour
obtenir :
Z
u1
du
eu
LX (s) = E(esX ) =
1
()
(
s)
s
+
R
1
,
=
() =
()( s)
1 s
pour tout s dans lintervalle ] , [.

3
Lintrt de la transforme de Laplace rside dans le thorme suivant.
Thorme 4.1.3 La transforme de Laplace dune variable alatoire caractrise la loi de cette variable alatoire. Autrement dit, si deux v.a.r. ont la
mme transforme de Laplace, alors elles ont la mme loi.
Ainsi dterminer la transforme de Laplace dune variable alatoire est
un moyen supplmentaire de dterminer sa loi.
Thorme 4.1.4 Soit (X, Y ) un couple de variables alatoires indpendantes dont chacune admet une transforme de Laplace sur, respectivement, les
intervalles I et J. Alors la somme de ces deux v.a.r. admet une transforme
de Laplace sur I J et on a :
LX+Y (s) = LX (s)LY (s).
88
Preuve. Par dfinition, on a :
LX+Y (s) = E(es(X+Y ) ) = E(esX esY ) = E(esX )E(esY ),
puisque lindpendance des v.a.r. X et Y entrane celle des v.a.r. esX et esY .
Tout rel s dans I J assurant que les deux termes de la dernire galit
sont finis, on a bien lexistence de LX+Y sur I J et
2
LX+Y (s) = LX (s)LY (s).
Nous attirons lattention du lecteur sur le fait que la rciproque est fausse.
Avoir LX+Y (s) = LX (s)LY (s) nimplique pas lindpendance entre X et Y .
Exemple. Supposons que les v.a.r. X et Y soient indpendantes et de
loi respectivement de poisson P() et P(). Daprs le thorme on a donc :
LX+Y (s) = LX (s)LY (s) = e(e
s 1)
s 1)
e(e
s 1)
= e(+)(e
= LP(+) (s).
Par caractrisation, la loi de la v.a.r. X + Y est donc une loi de Poisson

P( + ).
3
Nous admettons enfin le thorme suivant.
Thorme 4.1.5 Soit X une variable alatoire admettant une transforme
de Laplace sur un intervalle ouvert I =] u1 , u2 [ (diffrent du vide) de R,
o u1 et u2 sont des rels strictement positifs. On a alors :
i) la variable alatoire admet tous les moments dordre entier, i.e.

k N : E |X|k < +;
ii) si u0 = min(u1 , u2 ) et t < u0 , alors:
LX (s) =
+ n
X
s
n=1
n!
EX n ,
pour tout s dans ] t, t[, ce qui justifie son appellation comme fonction
gnratrice des moments ;
iii) on a, pour tout entier k positif,

k LX (s)
(k)
EX =
= LX (0).
sk s=0
k
4.1.2
89
Vecteurs alatoires
Soit X = (X1 , . . . , Xn ) un vecteur alatoire dans Rn .

Dfinition 4.1.6 On appelle transforme de Laplace du vecteur X (si elle
existe) la fonction de Rn vers R dfinie pour s = (s1 , . . . , sn ) par :

Pn

LX (s) = E ehs,Xi = E e i=1 si Xi .
Les proprits restent les mmes que dans le cas unidimensionnel. Mais
son inconvnient majeur de ne pas toujours exister reste galement le mme.
Proposition 4.1.7 Soit X = (X1 , . . . , Xn ) un vecteur alatoire de Rn admettant une transforme de Laplace sur un ouvert O de Rn . Les v.a.r.
(Xj )j=1,...,n sont indpendantes si, et seulement si, pour tout s = (s1 , . . . , sn )
dans O on a :
n
Y
LX1 ,...,Xn (s1 , . . . , sn ) =
LXi (si ).
i=1
4.2
4.2.1
Fonction caractristique
Intgrale dune variable alatoire complexe
Dfinition 4.2.1 On appelle variable alatoire complexe toute application

Z de (, A, P ) vers C qui tout dans associe
Z() = X() + iY (),
o X et Y sont des variables alatoires relles.
Dfinition 4.2.2 On dit quune variable alatoire complexe Z est P -intgrable si les v.a.r. X et Y sont P -intgrables. Lintgrale de Z par rapport P
est alors dfinie par :
Z
EZ =
Z
ZdP =
Z
XdP + i
Y dP = EX + iEY.
Notons que les principales proprits de lintgrale sont conserves.
90
4.2.2
Fonction caractristique
Dfinition 4.2.3 On appelle fonction caractristique dun vecteur alatoire

X = (X1 , . . . , Xn ) de Rn , la fonction dfinie pour tout t = (t1 , . . . , tn ) de Rn
et valeurs dans C par :

X (t) = X (t1 , . . . , tn ) = E eiht,Xi
(4.1)
Pn

= E ei j=1 tj Xj .
(4.2)
La fonction caractristique X dune v.a.r. X est donc :
X (t) = E(eitX ).
Lanalogie avec la transforme de Laplace est grande et ses proprits sont
similaires. De plus, la fonction caractristique existe toujours ce qui ntait
pas le cas pour la transforme de Laplace. Elle a cependant linconvnient
de faire appel la thorie des fonctions dune variable alatoire complexe.
Exemples.
* Supposons que la v.a.r. X suive une loi de Poisson P(). On a :
X (t) = E(eitX ) =
= e
eit
+
X
eitk
X (eit )k
k
e = e
k!
k!
k=0
(eit 1)
=e
k=0
* On peut montrer que si une v.a.r. X suit une loi normale N (0, 1), alors
sa fonction caractristique est dfinie pour tout t dans R par :
2 /2
X (t) = et
Soit maintenant une variable alatoire Y de loi N (, 2 ). En notant X =

(Y )/, on peut crire :

Y (t) = E(eitY ) = E(eit(X+) ) = E eit eitX
= eit E(eitX )
it
= e
X (t) = e
2 2
2
it t
t2 2
= exp it
2

.
Pour X = (X1 , . . . , Xn ) un vecteur de Rn , notons X et Xi , respectivement les fonctions caractristiques de X et de Xi . On a alors les rsultats
suivants.
91
Thorme 4.2.4 Pour X = (X1 , . . . , Xn ) un vecteur de Rn , notons X et

Xi , respectivement les fonctions caractristiques de X et de Xi . On a alors
les rsultats suivants :
i) t Rn :
|X (t)| X (0) = 1 ;
ii) j {1, . . . , n}, et tj R :

iii) t Rn :
Xj (tj ) = X (0, . . . , 0, tj , 0, . . . , 0) ;
X (t) = X (t) ;
iv) la fonction est uniformment continue sur Rn ;

v) Si on pose Y = AX + b o A est une matrice p n et b un vecteur de
Rp on a, pour tout u dans Rp :
Y (u) = eihu,bi X (A0 u),
o A0 est la matrice transpose de A ;
vi) Si X est une v.a.r. dans Lp , o p est un entier, alors X est drivable
p-fois et
(k)
k p : X (0) = ik EX k .
Preuve.
i) On a :
Z
Z

iht,xi

|X (t)| = e
dPX (x) eiht,xi dPX (x)
Z
=
dPX (x) = 1
et
X (0) = E(e0 ) = 1.
ii) Par dfinition, on a :
X (0, . . . , 0, tj , 0, . . . , 0) = E(eitj Xj ) = Xj (tj ).
iii) On peut crire :

X (t) = E eiht,Xi = E eiht,Xi

= E eiht, Xi = E eiht, Xi = X (t).
92
iv) Admis.
v)

Y (u) = E eihu,Y i = E eihu,AXi eihu,bi

0
= eihu,bi E eihA u,Xi = eihu,bi X (A0 u).
2
vi) Admis aussi.
Thorme 4.2.5 La fonction caractristique caractrise la loi dune variable alatoire. Autrement dit, si deux variables alatoires ont mme fonction caractristique, elles ont mme loi.
Thorme 4.2.6 Soit une fonction complexe de la variable relle. Si
est intgrable, i.e. si
Z
|(t)| dt < +
R
et si la fonction dfinie par

f (x) =
1
2
(u)eiux du
est aussi intgrable, alors est la fonction caractristique de la variable

alatoire X ayant pour loi PX de densit fX par rapport la mesure de
Lebesgue.
Proposition 4.2.7 Soit (X, Y ) un couple de variables alatoires indpendantes. Alors, pour tout rel t, on a :
X+Y (t) = X (t)Y (t).
Preuve. Par dfinition, et grce lindpendance entre X et Y , on peut
crire :

2
X+Y (t) = E eit(X+Y ) = E eitX E eitY = X (t)Y (t)
Nous attirons nouveau lattention du lecteur sur le fait que la rciproque
est fausse.
Thorme 4.2.8 Une famille (Xj )j=1,...,n constitue une famille de v.a.r.
indpendantes si, et seulement si, pour tout t = (t1 , . . . , tn ) dans Rn , on a :
(X1 ,...,Xn ) (t) =
n
Y
j=1
Xj (tj ).
Chapitre 5
Vecteurs gaussiens
93
94
5.1
Exemple fondamental
Considrons n variables alatoires X1 , . . . , Xn indpendantes et de loi

respectivement N (m1 , 12 ), . . . , N (mn , n2 ).
Pour i = 1, . . . , n, la variable alatoire Xi est donc de densit
(

)
1
1 x mi 2
fXi (x) =
exp
2
i
2i
par rapport la mesure de Lebesgue sur R.
En raison de lindpendance des variables alatoires Xi , la densit conjointe du vecteur X1 , . . . , Xn est :
(
)
n
1
1 X xi m i 2
1
fX1 ,...,Xn (x1 , . . . , xn ) = n Qn
exp
.
2
i
2
i=1 i
i=1
Daprs leur dfinition donne au chapitre II, le vecteur esprance du

vecteur X = (X1 , . . . , Xn ) et sa matrice de covariance sont :
2
m1
1
0
..
EX = m = ... et X =
.
.
2
0
n
mn
Notons que la matrice X est diagonale en raison de lindpendance des
v.a.r. (Xi )i=1,...,n . Comme toutes les variances i sont strictement positives,
on obtient aisment la matrice inverse
1/12
0
..
1
.
.
X =
1/n2
On peut alors rcrire la densit conjointe du vecteur X = (X1 , . . . , Xn ) sous

la forme

1
1
1
fX (x1 , . . . , xn ) = n p
exp (x m)0 1
(x
m)
,
X
2
2
det(X )
puisque
(x m)0 1
X (x m)
1/12
= (x1 m1 , . . . , xn mn )
0
=
n
X
i=1
(xi mi )2
.
i2
x1 m1
..
..
.
.
2
1/n
xn mn
0
Chapitre 5 : Vecteurs gaussiens
95
Intressons-nous maintenant la fonction caractristique du vecteur X.

Toujours en raison de lindpendance, on a, pour tout = (1 , . . . , n ) de
Rn :
X () = X1 ,...,Xn (1 , . . . , n ) =
n
Y
Xj (j ).
j=1
Or, on a vu dans le chapitre prcdent que la fonction caractristique

dune v.a.r. de loi N (mj , j2 ) est :

1 2 2
Xj (j ) = exp ij mj j j
2
do on tire :
X1 ,...,
n
n
X
X
1
2 2
j j
j mj
Xn () = exp i
2
j=1
j=1

1 0
0
= exp i m X .
2
Remarquons enfin que toute combinaison linaire des Xj , pour j =

1, . . . , n, est de loi normale dans R. Une combinaison linaire des Xj scrit
en effet de manire gnrale sous la forme :
h, Xi = 0 X
o = (1 , . . . , n ) est un vecteur de Rn . Il vient alors, pour tout u dans
R:

h,Xi (u) = E eiuh,Xi = E eihu,Xi
= X (u)
= X (u1 , . . . , u
n)
= exp iu0 m 12 u2 0 X .
La fonction caractristique de la v.a.r. h, Xi est donc de la forme :

h,Xi (u) = exp iua 21 u2 b ,
avec a = 0 m et b = 0 X . Par caractrisation, la v.a.r. h, Xi est donc de
loi N (0 m, 0 X ).
96
5.2
Dfinition
Dfinition 5.2.1 Un vecteur alatoire X = (X1 , . . . , Xn ) de Rn est dit

vecteur gaussien si, pour tout = (1 , . . . , n ) de Rn , la v.a.r.
0 X =
n
X
i Xi
i=1
est une v.a.r. de loi normale. Autrement dit, si toute combinaison linaire
des composantes de (X1 , . . . , Xn ) est de loi normale.
Si son vecteur des esprances est m et sa matrice de covariance est X ,
on note X Nn (m, X ).
Remarquons que lon peut en particulier en dduire que toutes les composantes du vecteur X sont des v.a.r. de loi normale. En revanche, la
rciproque est fausse. Un vecteur dont toutes les composantes sont de loi
normale, nest pas ncessairement un vecteur gaussien.
La dfinition prcdente implique galement que tout sous vecteur dun
vecteur gaussien est encore un vecteur gaussien.
Proposition 5.2.2 Si X est un vecteur gaussien de vecteur des esprances
m = (m1 , . . . , mn ) et de matrice de covariance X , alors, pour tout dans
Rn , la v.a.r. 0 X = h, Xi est de loi N (0 m, 0 X ).
Preuve.
On utilise dabord le fait que, par dfinition dun vecteur
gaussien, la v.a.r. 0 X est de loi normale. Il ne reste plus qu calculer son
esprance et sa variance. On utilise alors les rsultats vus au chapitre IV,
pour obtenir :
E(0 X) = 0 EX = 0 m
et
0 X
= 0 X .
On peut aussi caractriser un vecteur gaussien par sa fonction caractristique, grce la proposition suivante.
Proposition 5.2.3 Pour quun vecteur X de Rn soit un vecteur gaussien,
il faut et il suffit quil existe un vecteur m de Rn et une matrice symtrique
et positive de dimension n n tels que, pour tout vecteur de Rn , on ait :

1 0
0
X (1 , . . . , n ) = exp i m .
2
Dans ce cas, on a : EX = m et X = .
97
Preuve. Supposons que X soit un vecteur gaussien. Toute v.a.r. de

la forme 0 X, pour dans Rn , est donc de loi N (0 m, 0 X ). Ainsi sa
fonction caractristique est :

1 2 0
iu0 X
0
0 X (u) = E(e
) = exp iu m u X
2
En posant u = 1 dans cette quation, on obtient :

1 0
i0 X
0
E(e
) = exp i m X ,
2
Ce qui est bien lexpression annonce pour la fonction caractristique.
Rciproquement, soit X un vecteur alatoire dans Rn ayant pour fonction
caractristique

1 0
0
X () = exp i m X = E eih,Xi ,
2
pour tout dans Rn . Notons maintenant Y = h, Xi la variable alatoire
relle dont la fonction caractristique est, pour tout u dans R :

0
Y (u) = E eiuY = E eiu X = E eihu,Xi

1
= exp iu0 m u2 0 X
2

1 2
= exp iua u b
2
o a = 0 m et b = 0 X . Par caractrisation, la v.a.r. Y est donc de
loi N (0 m, 0 X ). On a donc dmontr que toute combinaison linaire des
composantes du vecteur X est de loi normale, et par dfinition il sagit bien
dun vecteur gaussien.
2
Notons que, dans tout ce qui prcde, la matrice X nest pas suppose
inversible. En revanche, la dfinition dun vecteur gaussien par sa densit,
par rapport la mesure de Lebesgue dans Rn , nest possible que si cette
matrice est inversible, comme laffirme la proposition suivante.
Proposition 5.2.4 Soit X un vecteur gaussien dans Rn desprance m et de
matrice des covariances X . Lorsque X est inversible, le vecteur alatoire
X est dit vecteur alatoire gaussien non dgnr et sa loi est absolument
continue par rapport la mesure de Lebesgue dans Rn et admet pour densit

1
1
1
0 1
p
fX (x1 , . . . , xn ) =
exp (x m) X (x m) .
2
(2)n/2 det(X )
98
Un vecteur gaussien de matrice de covariance X telle que det(X ) = 0

(i.e. X non inversible) est dit dgnr et nadmet pas de densit par
rapport la mesure de Lebesgue dans Rn .
5.3
5.3.1
Proprits des vecteurs alatoires gaussiens

Transformation linaire dun vecteur gaussien
Proposition 5.3.1 La transforme dun vecteur gaussien de Rn par une

application linaire de Rn vers Rp est encore un vecteur gaussien.
Preuve. Soit X un vecteur gaussien de Rn , de vecteur des esprances m
et de matrice de covariance X . Soit A la matrice associe une transformation linaire quelconque de Rn vers Rp . La matrice A est donc de dimension
p n. Calculons la fonction caractristique du vecteur alatoire Y = AX.
Daprs ce que lon a vu au chapitre prcdent, pour tout de Rp , on a :

0
Y () = AX () = E eih,AXi = E eihA ,Xi

1 0
0
0
0
= X (A ) = exp i Am AX A .
2
Par caractrisation, le vecteur Y est donc un vecteur gaussien dans Rp
de vecteur des esprances Am et de matrice de covariance AX A0 , i.e.
Y Np (Am, AX A0 ).
5.3.2
Vecteur gaussien et indpendance
On a vu prcdemment (au chapitre III) que, dune manire gnrale,

lindpendance entrane la non corrlation mais que la rciproque est fausse.
Dans le cas dun vecteur gaussien il y a quivalence, comme le montre la
proposition suivante.
Proposition 5.3.2 Soit X un vecteur gaussien dans Rn . Pour que ses composantes X1 , . . . , Xn soient indpendantes, il faut et il suffit que la matrice
de covariance soit diagonale.
99
Preuve. Il suffit, bien sr, de montrer la

que X soit diagonale, i.e.
2
1
0
.
..
X =
0
n2
rciproque. Supposons donc
Comme X est un vecteur gaussien de loi Nn (m, X ), chacune de ses composantes Xj , pour j = 1, . . . , n, est de loi normale N (mj , j2 ) et de fonction
caractristique :

1 2 2
Xj (j ) = exp ij mj j j ,
2
pour tout j dans R.
Par ailleurs, la fonction caractristique du vecteur X est, pour tout
dans Rn :

1 0
0
X () = exp i m X
2
n
n
X
X
1
= exp i
j mj
2j j2
2
j=1
j=1

n
X
1
= exp
ij mj 2j j2
2
j=1
n
Y
j=1
1
exp ij mj 2j j2
2

=
n
Y
Xj (j ).
j=1
Un rsultat du chapitre IV permet den dduire lindpendance.
Corollaire 5.3.3 Si le couple (X, Y ) est un vecteur gaussien, on a

X Y Cov(X, Y ) = 0.
Preuve. Immdiate.
2
Nous attirons lattention du lecteur sur le fait que deux variables alatoires relles gaussiennes et non corrles ne sont pas ncessairement indpendantes. Pour sassurer quelles le soient il faut pour cela quelles constituent
un couple gaussien.
100
Contre-exemple. Considrons une v.a.r. X de loi N (0, 1) et une v.a.r.

discrte de loi dfinie par :
p( = 1) =
1
2
et p( = 1) =
1
2
et telle que les v.a.r. et X soient indpendantes. On pose Y = X et

calculons la loi de Y . On a :
FY (y) = P (X y)
= P ({X y} { = 1}) + P ({X y} { = 1})
= P ({X y} { = 1}) + P ({X y} { = 1})
= P (X y)P ( = 1) + P (X y)P ( = 1)
1
1
P (X y) + P (X y) = FX (y).
=
2
2
Ainsi la v.a.r. Y est de loi N (0, 1).
Par ailleurs, puisque X et Y sont centres et que et X sont indpendantes, on a :
Cov(X, Y ) = EXY EXEY = E(X 2 ) = EEX 2 = 0
Les v.a.r. X et Y sont donc non corrles et cependant elles ne sont pas
indpendantes. En effet, en raisonnant par labsurde, supposons quelles le
soient. Daprs ce que lon a vu au dbut de ce chapitre, le couple (X, Y )
serait gaussien et X + Y serait alors de loi normale et donc absolument
continue.
Or, en notant que X + Y = (1 + )X, on a :
1
P (X + Y = 0) = P (1 + = 0) = P ( = 1) = ,
2
ce qui contredit le fait que la v.a.r. X + Y soit absolument continue. Les
v.a.r. X et Y ne sont donc pas indpendantes.
3
Chapitre 6
Convergences
101
102
6.1
6.1.1
Convergence en loi
Dfinition
Dfinition 6.1.1 Soit (Xn ) et X des vecteurs alatoires valeurs dans

lespace probabilisable (Rp , BRp ). On dit que la suite (Xn ) converge en loi
vers X si, pour toute fonction h de Rp vers R, continue et borne, on a
lim Eh(Xn ) = Eh(X).
n+
L
On note Xn X et on dit aussi parfois que la loi de Xn converge vers celle

de X.
Thorme 6.1.2 (Thorme de Slutsky)
Soit (Xn ) et X des vecteurs alatoires dans Rp , tels que (Xn ) converge
en loi vers X. Si g est une application continue de Rp vers Rq , alors on a :
L
g(Xn ) g(X).
6.1.2
Caractrisation de la convergence en loi
Voyons dans un premier temps une condition ncessaire et suffisante pour

la convergence en loi dans le cas de v.a.r.
Proposition 6.1.3 Soit (Xn ) et X des v.a.r. de fonction de rpartition (Fn )
et F respectivement. La suite (Xn ) converge en loi vers X si, et seulement
si,
lim Fn (x) = F (x),
n+
en tout point x o F est continue.

Exemple. On considre la suite (Xn ) de v.a.r. telle que, pour tout n, la
v.a.r. Xn ait pour loi

1
P Xn = 2 +
= 1,
n
i.e. la loi de Xn est la dirac en 2 + n1 (PXn = 2+ 1 ). En raison de la
n
convergence de la suite (2 + 1/n) vers 2, on a :
1
<x
n
x > 2, n0 : n > n0 , Fn (x) = P (Xn x) = 1.
x > 2, n0 : n > n0 , 2 +
Chapitre 6 : Convergences
103
Par ailleurs, pour tout x 2, on a :

Fn (x) = P (Xn 2) = 0.
Dfinissons alors X la v.a.r. de loi 2 . Sa fonction de rpartition est
alors :

0 si x < 2
FX (x) =
.
1 si x 2
On remarque que la fonction FX est continue sur R \ {2} et que, sur cet
ensemble, on a :
lim Fn (x) = F (x).
n+
Ainsi, daprs la proposition prcdente, on a la convergence de Xn vers X.

Il est intressant de noter que la convergence des fonctions de rpartition
na pas lieu au point de discontinuit de F puisque lon a, pour tout n,
3
Fn (2) = 0 6= F (2) = 1.
Thorme 6.1.4 Soit (Xn ) et X des vecteurs alatoires de Rp , absolument

continus de densit (fn ) et f par rapport la mesure de Lebesgue dans Rp .
Si on a, p -presque-partout,
lim fn = f,
n
alors
Xn X.
Thorme 6.1.5 (Thorme de Paul Lvy)
1) Si (Xn ) est une suite de variables alatoires dans Rp convergeant en
loi vers une variable alatoire X dans Rp , alors la suite (Xn ) des fonctions caractristiques associe la suite (Xn ) converge en tout point vers la
fonction caractristique X de X, i.e.
L
Xn X
x Rp , Xn (x) X (x).
2) Soit (Xn ) est une suite de variables alatoires dans Rp . Si la suite

(Xn ) de ses fonctions caractristiques converge simplement vers une fonction continue en 0, alors est la fonction caractristique dune variable
alatoire X et Xn converge en loi vers X, i.e.
Xn (x) (x), x Rp
Xn X,
o X est une variable alatoire de fonction caractristique .
104
Thorme 6.1.6 (Thorme de Cramer-Wold)

Soit (Xn ) et X des vecteurs alatoires dans Rp . On a alors lquivalence
suivante :
L
L
Xn X u Rp : u0 Xn u0 X.
Preuve. Supposons en premier lieu que Xn converge en loi vers X. La
fonction g de Rp vers R dfinie par g(x) = u0 x, pour u dans Rp , est une
forme linaire. Elle est donc continue. Ainsi, daprs le thorme de Slutsky,
on a la convergence
L
u0 Xn u0 X.
Rciproquement, supposons que pour tout u dans Rp , on ait
L
u0 Xn u0 X.
Le thorme de Paul Lvy, nous donne alors la convergence
u0 Xn (t) u0 X (t),
pour tout t dans R. Celle-ci prise en t = 1, nous donne :
u0 Xn (1) = Xn (u) X (u) = u0 X (1)
dont on tire, en utilisant la rciproque du thorme de Paul Lvy, la converL
gence Xn X
2
6.1.3
Approximation de lois
Concrtement, un des intrts de la notion de convergence en loi dune

suite de v.a. (Xn ) vers X est dapprocher la loi de Xn , qui est souvent
inconnue ou difficilement utilisable, par la loi de X.
a)Approximation de la loi binomiale par la loi de Poisson.
Proposition 6.1.7 Soit (pn ) une suite de nombres rels strictement positifs
tels que :
lim npn = ,
n+
o est un rel strictement positif. Si, pour tout n, Xn est une v.a.r. de loi
B(n, pn ), alors (Xn ) converge en loi vers une v.a.r. X de loi de Poisson de
paramtre .
105
Preuve. On admet le rsultat suivant dans le corps des complexes :

z n n
= ez .
si zn z alors
lim 1 +
n+
n
On a dj vu que si Xn est de loi binomiale B(n, pn ) alors sa fonction
caractristique est :

n
npn (1 eit )
Xn (t) = (1 pn + pn eit )n = 1
.
n
Or, on a :
lim npn (1 eit ) = (1 eit ),
n+
par suite de lhypothse sur les pn . On a donc la convergence, pour tout t

dans R,
it
lim Xn (t) = e(e 1) = X (t),
n+
o la v.a.r. X est de loi de Poisson P().

2
b) Thorme de la limite centrale (central limit en anglais)
Le thorme suivant est fondamental et trs souvent utilis en Statistique.
Notons auparavant zn,1 , . . . , zn,p les p-coordonnes dun vecteur zn de Rp .
Notons galement z n le vecteur des moyennes des composantes des n premiers
vecteurs de la suite (zn ), i.e.
1 Pn
j=1 zj,1
n
..
zn =
.
.
1 Pn
j=1 zj,p
n
Thorme 6.1.8 (Thorme de la limite centrale multidimensionnel)
Soit (Zn ) une suite de vecteurs alatoires dans (Rp , BRp ), indpendants,
de mme loi de moyenne et de matrice de covariance . On a alors :
L
n(Z n ) Np (0, ).
Pour dmontrer ce thorme nous utiliserons son cas particulier, correspondant au cas unidimensionnel.
Thorme 6.1.9 (Thorme de la limite centrale unidimensionnel)
Soit (Xn ) une suite de v.a.r. indpendantes, dans L2 et de mme loi de
moyenne et de variance 2 . On a alors
! Pn
1 Pn
j=1 Xj
j=1 Xj n L
n
n
=
N (0, 1).
106
Preuve (du thorme unidimensionnel). Notons

1 Pn
n
n n j=1 Xj
X
(Xj )
n
=
Yn =
j=1
n
X
Uj
j=1
o les v.a.r. Uj sont dfinies par

Uj =
Xj
,
pour j = 1 . . . , n. Ces dernires sont, par hypothse, centres rduites, de

mme loi et indpendantes. On peut alors crire :
1 Pn

it n
j=1 Uj
Yn (t) = E(eitYn ) = E e

n

n
Y
t
t
=
,
=
Uj
n
n
j=1
o est la fonction caractristique des v.a.r. Uj . Or, en utilisant les proprits de la fonction caractristique vues au chapitre IV, on a :
0 (0) = i EUj = 0
et
00 (0) = i2 E(Uj2 ) = Var Uj = 1.
Le dveloppement de Taylor de lordre 2 et en 0, est alors :

(u) = (0) + 0 (0)u +
= 1
1 00
(0)u2 + u2 (u)
2
u2
+ u2 (u),
2
avec une fonction telle que limu0 (u) = 0.

Ainsi, on peut crire :

t
t2
t2
t

=1
+

2n
n
n
n
et

n
2
2
t
t
t
Yn (t) = 1
+

= 1
2n
n
n
t2
2
+ t2
n
t
n
n
,
107
dont on tire aisment la convergence :

2 /2
Yn (t) et
quand n tend vers +. Reconnaissant, la limite, la fonction caractristique

dune loi N (0, 1), le thorme de Paul-Lvy nous donne la convergence
L
Yn X,
2
o X est une v.a.r. de loi N (0, 1).
Preuve (du thorme multidimensionnel). Pour tout u dans Rp , notons

Xn = u0 Zn . Par hypothse, les v.a.r. constituant la suite (Xn ) sont donc
indpendantes, de mme loi, desprance EXn = u0 et de variance
Var Xn = u0 u
En utilisant le thorme unidimensionnel, il vient alors :
n
1 P
0
Xj u
n

j=1
L
n
N (0, 1).
0
u u
Cette convergence peut tre rcrite sous la forme :
n
X
1
L
L
n
Xj u0 N (0, u0 u) u0 n(Z n ) u0 Z,
n
j=1
o Z est un vecteur gaussien Np (0, ).

Ce rsultat tant vrai pour tout u dans Rp , le thorme de Cramer-Wold
nous permet de conclure que
n(Z n ) Z,
quand n tend vers +.
6.2
6.2.1
Convergence en probabilit
Dfinition
a) Cas des variables alatoires relles
108
Dfinition 6.2.1 On dit que la suite (Xn ) de v.a.r. converge en probabilit

vers la variable alatoire X, si
> 0,
P (|Xn X| > ) 0, quand n +.
On note Xn X.
Remarquons quil est quivalent de dire
lim P (|Xn X| > ) = 0
n+
et
lim P (|Xn X| ) = 1.
n+
Le thorme suivant nous donne une condition suffisante pour avoir la

convergence en probabilit vers une constante.
Proposition 6.2.2 Soit (Xn ) une suite de v.a.r. dans L2 . Si on a
lim EXn = a
lim Var Xn = 0
et
n+
alors
n+
Xn a.
Preuve. Grce lingalit de Bienaym-Tchebychev, on peut crire,
pour tout > 0
E(Xn a)2
.
P (|Xn a| > )
2
Or, on a dj vu que
E(Xn a)2 = Var Xn + (EXn a)2 .
Do :
Var Xn + (EXn a)2

2
et en utilisant les deux hypothses, on a bien :
> 0,
P (|Xn a| > )
> 0,
P
et donc Xn a.
lim P (|Xn a| > ) = 0
n+
109
Proposition 6.2.3 (Loi faible des grands nombres)

Soit (Xn ) une suite de v.a.r. dans L1 , indpendantes et identiquement
distribues de moyenne .
On a alors la convergence suivante :
n
1X
P
Xj .
n
j=1
Thorme 6.2.4 (Thorme de Slutsky) Soit (Xn ) et X des v.a.r. Si

(Xn ) converge en probabilit vers la v.a. X et si g est une application continue de R vers R, alors
P
g(Xn ) g(X).
b) Cas des vecteurs alatoires
Dfinition 6.2.5 Soit (Xn ) et X des vecteurs alatoires valeurs dans Rp .
On dit que (Xn ) converge en probabilit vers le vecteur alatoire X si ses
p composantes Xn,1 , . . . , Xn,p convergent en probabilit vers les composantes
X1 , . . . , Xp de X.
Le thorme suivant permet de donner une dfinition quivalente cette
convergence en probabilit .
Thorme 6.2.6 Soit k k une norme quelconque dans Rp et (Xn ) et X
des vecteurs alatoires dans Rp . La suite (Xn ) converge en probabilit vers
la v.a. X si, et seulement si,
P
k Xn X k 0, quand n +.
Preuve.
Dmontrons ce rsultat pour la norme suprieure dans Rp .
Supposons en premier lieu que Xn converge en probabilit vers X et notons
Y =|| Xn X ||= max | Xn,i Xi | .
i
De lingalit
{Y > }
p
[
{| Xn,i Xi |> } .
i=1
on tire
P (Y > )
p
X
i=1
P {| Xn,i Xi |> } .
110
Par hypothse, le terme de droite de cette dernire lingalit converge en

probabilit vers 0, do on tire la convergence
P
Y 0, quand n +.
Rciproquement, supposons que la v.a.r. Y converge en probabilit vers
0. Ayant, pour tout i = 1, . . . , p,
{| Xn,i Xi |> } {Y > }
et donc
P {| Xn,i Xi |> } P (Y > ),
i = 1, . . . , p
on a bien la convergence de Xn vers X en probabilit.
Proposition 6.2.7 Considrons des suites (Xn ) et (Yn ) de v.a.r. Si on a

les convergences :
P
Xn X
et
Yn Y
et si g est une fonction continue de R2 dans R, alors

P
g(Xn , Yn ) g(X, Y ).
Preuve. Par hypothse et par dfinition de la convergence en probabilit
dun vecteur alatoire, on a la convergence jointe
P
(Xn , Yn ) (X, Y ).
Le thorme de Slutsky (galement vrai pour les vecteurs alatoires) entrane
alors le rsultat.
2
Corollaire 6.2.8 Soit toujours (Xn ) et (Yn ) des suites de v.a.r. Si on a les
convergences :
P
Xn X
et
alors
Yn Y
P
Xn + Yn X + Y,
pour tout dans R, et
P
Xn Yn X Y
Preuve. Immdiate.
6.2.2
111
Convergence en probabilit et convergence en loi
Thorme 6.2.9 La convergence en probabilit entrane la convergence en

loi, i.e.
L
P
Xn X Xn X.
Preuve. Admise.
La rciproque est fausse sauf quand la limite est une constante.
Proposition 6.2.10 Si (Xn ) est une suite de v.a.r. convergeant en loi vers
une constante a dans R, alors elle converge galement en probabilit, i.e.
L
Xn a Xn a.
Preuve. Notons Fn la fonction de rpartition de le v.a.r. Xn , pour tout
n, et F celle de la variable alatoire X dterministe gale a. On a
P (X = a) = 1 et FX (x) = l1[a,+[ (x).
Notons que la fonction F est continue sur R\{a} et que, comme Xn converge
en loi vers X, on a :
lim Fn (x) = F (x),
n+
pour tout x diffrent de a.

Or, pour tout strictement positif, on peut crire :
P (|Xn a| < ) = P ( < Xn a < )
= P (Xn < a + ) P (Xn a )
P (Xn a + ) P (Xn a )
= Fn (a + ) Fn (a ).
Daprs la convergence de (Fn ) vers F sur R \ {a}, on a :
lim P (|Xn X| < ) = 1 0 = 1,
n+
toujours pour tout strictement positif, ce qui achve la dmonstration. 2

Proposition 6.2.11 Supposons que lon ait les convergences :
L
Xn X
et
Yn a,
112
pour a dans R. Alors on a :

L
Xn + Yn X + a
i)
Xn Yn X a
Xn L X
, si a 6= 0.
Yn
a
ii)
iii)
Preuve (ide). Le plus dur est de montrer la convergence conjointe

L
(Xn , Yn ) (X, a).

La suite est alors une simple utilisation du thorme de Slutsky.
6.3
Convergence presque sre
6.3.1
Dfinition
Dfinition 6.3.1 On dit que la suite (Xn ) de v.a.r. converge presque srement vers X sil existe un lment A de la tribu A tel que P (A) = 1 et
A :
lim Xn () = X().
n+
On note
p.s.
Xn X.
6.3.2
Critres de convergence p.s.
Thorme 6.3.2 La suite de v.a.r. (Xn ) converge presque srement vers

X si la suite de v.a.r. (Ym ) dfinie par :
Ym = sup |Xn X|
nm
converge en probabilit vers 0.

Proposition 6.3.3 Si, pour tout strictement positif, la srie de terme
gnral P [|Xn | > ] est convergente, i.e.
X
> 0,
P [|Xn | > ] < +,
n
alors (Xn ) converge presque srement vers zro.
6.3.3
113
Convergence presque sre et convergence en probabilit
Thorme 6.3.4 La convergence presque sre entrane celle en probabilit.

Preuve. Supposons que (Xn ) converge presque srement vers la v.a.r.
X. Daprs le thorme prcdent, on a, pour
Ym = sup |Xn X| ,
nm
la convergence
P
Ym 0,
quand m tend vers +. Or, laide de linclusion

{|Xm X| > } sup |Xn X| > = {Ym > } ,
nm
on peut en dduire que

P (|Xm X| > ) P (Ym > ) 0,
m+
ce qui achve la dmonstration.

On admet enfin le rsultat suivant.
Proposition 6.3.5 Si la suite (Xn ) converge en probabilit vers X, il existe

une sous suite (Xnk )k qui converge presque srement vers X.
6.3.4
Loi forte des grands nombres
Thorme 6.3.6 Soit (Xn ) une suite de v.a.r. indpendantes, de mme loi
et dans L1 . Notons lesprance de ces v.a.r. On a alors
n
1X
p.s.
Xn =
Xi .
n
i=1
Notons que lon peut obtenir le mme rsultat sans quil soit ncessaire
que les Xn aient mme loi pour tout n.
Thorme 6.3.7 Soit (Xn ) une suite de v.a.r. indpendantes et dans L2 .
Si
lim EXn =
et si
n+
+
X
n=1
Var Xn
< +,
n2
114
alors
Xn =
1X
p.s.
Xi .
n
i=1
6.4
Convergence dans Lp
Dfinition 6.4.1 Soit (Xn ) une suite de v.a.r. dans Lp . On dit quelle
converge dans Lp vers une v.a.r. X si
k Xn X kp 0.
n+
Proposition 6.4.2 Soit p et q des rels tels que : 1 p < q. Si (Xn )

converge dans Lq vers X, alors la convergence a galement lieu dans Lp .
Preuve. Immdiate en utilisant lingalit vue au chapitre III
k Xn X kp k Xn X kq
Le corollaire suivant est alors vident.

Corollaire 6.4.3 Si on a :
L2
Xn X
alors
L1
Xn X.
Proposition 6.4.4 La convergence dans L1 entrane celle en probabilit.
Preuve. Remarquons que lon a :
k Xn X kL1
= E |Xn X |
Z
Z
=
| Xn X | dP +
| Xn X | dP
|Xn X|>
|Xn X|
Z
| Xn X | dP P (| Xn X |> ) .
|Xn X|>
La convergence de (Xn ) vers X dans L1 entrane alors que, pour tout

strictement positif, on a :
P (| Xn X |> ) 0,
n+
ce qui est bien le rsultat annonc.
115
Proposition 6.4.5 Soit (Xn ) une suite de v.a.r. dans L2 . Sous les hypothses :
lim EXn =
n+
et
lim Var Xn = 0,
n+
on a la convergence de (Xn ) vers dans L2 .

Preuve. Il suffit de remarquer que lon peut crire :
E(Xn )2 = E(Xn EXn + EXn )2
= Var Xn + (EXn )2 ,
qui, par hypothse, converge vers 0, quand n tend vers +.
2
Remarquons que lorsquon a montr que ces hypothses suffisaient entraner la convergence en probabilit, on avait en fait montr la convergence
dans L2 ce qui, on vient de le voir, entrane celle en probabilit.
Thorme 6.4.6 (Loi des grands nombres dans L2 )
Soit (Xn ) une suite de v.a.r. dans L2 , de mme loi et non corrles de
moyenne et variance 2 . On a alors :
L2
X n .
Preuve. Dune part on a, pour tout n :
EX n =
et
n
X
2
1
n
Xi = 2 Var X =
VarX n = 2 Var
n
n
n
i=1
qui converge vers 0 quand n tend vers +. La proposition prcdente permet

alors de conclure.
2
6.5
Rsum
Lq
Lp L2
L1
qp2
&
p L
%
p.s.
Index
Absolue continuit
Densit, 39
marginale, 49
dun vecteur alatoire, 48
conditionnelle, 5051, 69
dune mesure par rapport une
autre, 66
conjointe, 48, 69
dune v.a.r., 39
dune mesure p/r une autre, 66
Alatoire
marginale, 69
(variable), 19
Dcile, 35
(vecteur), 19
Ecart-type, 78
Bayes (formule de), 21
Espace
Beppo-Lvi (thorme de), 65
L1 , 75
Bienaym-Tchebychev (ingalit de),
L2 , 77
79
Lp , 75
fondamental, 8
Centile, 35
mesurable, 10
Changement de variables (formule du)
probabilisable, 10
multidimensionnel, 52
probabilis, 13
unidimensionnel, 45
probabilis produit, 29
Coefficient de corrlation, 83
produit, 27
Convergence
Esprance conditionnelle, 84
dans Lp , 114
Esprance mathmatique
domine (thorme de la), 65
dun vecteur alatoire, 80
en loi, 102
dune v.a.r., 72
en probabilit
de v.a.r., 108
Fonction
de vecteurs alatoires, 109
Bta, 43
monotone (thorme de la), 65
caractristique, 90
presque sre, 112
de rpartition, 32
Covariance
de rpartition conjointe, 47
(matrice de), 83
de rpartition marginale, 47
de deux v.a.r., 81
Gamma, 42
gnratrice des moments, 86
Cramer-Wold (thorme de), 104
116
Index
intgrable p/r une mesure, 60
mesurable, 18
tage, 57
Formule
de Bayes, 21
du changement de variables, 45,
52
Gaussien (vecteur), 96
Hlder (ingalit de), 76
Indpendance
de deux vnements, 22
de tribus, 25
de variables alatoires, 25, 53
mutuelle dvnements, 24
Intgrale
complexe, 89
de Lebesgue, 63
p/r la mesure de Dirac, 61
p/r la mesure de Lebesgue, 63
p/r une mesure, 57
p/r une mesure discrte, 62
par rapport une mesure, 65
Ingalit
de Bienaym-Tchebychev, 79
de Hlder, 76
de Markov, 79
de Minkowski, 77
117
Bta, 43
conditionnelle, 5051
conjointe, 30
continue, 39
de Bernoulli, 36
de Cauchy, 44
de Dirac, 35
de Fisher, 43
de la somme de deux v.a.r., 56
de Poisson, 38
de probabilit, 19
de Student, 43
discrte, 35
du 2 , 42
exponentielle, 42
faible des grands nombres, 109
forte des grands nombres, 113,
115
gamma, 42
gomtrique, 37
hypergomtrique, 38
log-normale, 43
marginale, 30
multinomiale, 48
normale, 41
uniforme, 41
uniforme discrte, 36
Lvy (thorme de), 103
Markov (ingalit de), 79

Matrice
de covariance, 83
Jacobien, 52
Mesurable
Jensen (ingalit de), 74
(espace), 10
(fonction), 18
Laplace (transforme de), 86, 89
(pav), 27
Lebesgue (thorme de), 65
Limite centrale (thorme de la), 105 Mesure, 13
concentre sur un ensemble, 15
Loi, 19
continue, 15
absolument continue, 39, 48, 66
de comptage, 17
binomiale, 36
de Dirac, 15
binomiale ngative, 37
118
de Lebesgue, 17
discrte, 15
Minkowski (ingalit de), 77
Moment
absolu dordre p, 76
centr dordre p, 76
dordre p, 76
Mdiane, 34
Norme
L1 , 75
Lp , 76
Ngligeabilit, 64
Presque (proprit vraie)
partout, 64
srement, 72
Probabilit, 13
conditionnelle, 20
discrte, 16
image, 19
produit, 28
Produit de convolution, 56
Produit scalaire dans L2 , 77
Quantile, 34
Quartile, 35
Slutsky (thorme de), 102, 109
Tchebychev (ingalit de), 79
Transforme de Laplace
dun vecteur, 89
dune v.a.r., 86
Transport (thorme du), 72
Tribu, 9
borlienne, 13
engendre, 12
grossire, 10
produit, 27
trace, 11
Variable alatoire, 19
absolument continue, 39, 66
complexe, 89
continue, 39
discrte, 19
marginale, 47
relle, 19
Variance, 78
Vecteur gaussien, 96

Cours Proba

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Cours Proba

Uploaded by

Copyright:

Available Formats

Cours de Probabilits

Table des matires

2 Lois sur R et lois sur Rn

3 Moments de variables alatoires

6.1.3 Approximation de lois . . . . . . . . . . . . . . . . . . 104

Chapitre 0. TABLE DES MATIRES

Introduction au calcul des

Chapitre 1. Introduction au calcul des probabilits

Espace probabilisable et loi de variable alatoire

Considrons le jeu du lanc dun d. Notons lensemble de tous les

Tout phnomne alatoire fait appel deux ensembles de type diffrent.

1.1. Espace probabilisable et loi de variable alatoire

Une famille A de parties (i.e. de sous ensembles) de . Ces parties

Cest pourquoi on demande A dtre une tribu.

Chapitre 1. Introduction au calcul des probabilits

Remarque. On montre facilement que ces conditions sont suffisantes

et si An appartient A, pour tout n, alors

est une tribu.

Soit f une application de E vers F et F une tribu sur F .

* lensemble E est bien sr lment de E puisque f (E) = F.

1.1. Espace probabilisable et loi de variable alatoire

* Soit A un lment de E. Il existe donc un ensemble B dans F tel que

A = {x E tel que f (x)

= {x E tel quil existe n pour lequel f (x) Bn }

Thorme 1.1.4 Soit (, A) un espace probabilisable et 0 une partie de .

Ainsi, C est bien une tribu sur

Chapitre 1. Introduction au calcul des probabilits

est une tribu.

ce qui achve la dmonstration.

En revanche, si (An ) est une famille de parties dun ensemble A (i.e. An A,

sauf si A est une tribu.

1.1. Espace probabilisable et loi de variable alatoire

Voyons un exemple particulier de tribu.

Dfinition 1.1.9 On appelle mesure positive sur lespace probabilisable (, A)

Le triplet (, A, ) est appel espace mesur.

P (Ai1 Ai2 Ai3 )

1i1 <i2 <i3 n

Chapitre 1. Introduction au calcul des probabilits

(v) Si A et B, deux lments de A, sont tels que A B, on a alors

La formule est donc vraie pour tout n, par rcurrence.

1.1. Espace probabilisable et loi de variable alatoire

Dfinition 1.1.12 On dit quune suite (An ) dvnements est croissante

(ii) Pour toute suite (An ) dvnements dcroissante, on a

Dfinition 1.1.14 Soit (, A) un espace mesurable tel que {} A pour

La mesure est dite concentre sur D.

Chapitre 1. Introduction au calcul des probabilits

On appelle mesure de Dirac au point 0 de la probabilit discrte 0

Alors, lapplication P dfinie par :

1.1. Espace probabilisable et loi de variable alatoire

Soit alors A une partie de , on a alors :

Bien sr, si on a plus lquiprobabilit, la formule classique prcdente nest

La probabilit de lvnement A =le rsultat est un nombre pair est alors :

n (A) = nombre dlments de A.

Si on raisonne sur (R, BR ), la mesure (A) de lvnement A est le nombre

Chapitre 1. Introduction au calcul des probabilits

Dfinition 1.1.15 Soient (, A) et (E, B) deux espaces probabilisables. Une

sont mesurables, condition quelles ne prennent pas de valeurs infinies.

Dfinition 1.1.17 Soit (, A, P ) un espace probabilis et (E, B) un espace

Loi de probabilit dune variable alatoire

Soit X une variable alatoire de (, A, P ) vers (E, B). Dfinissons une

Chapitre 1. Introduction au calcul des probabilits

peut seulement distinguer la couleur blanche de la face obtenue, on modifiera

Probabilit conditionnelle un vnement