IPE10

Table des matires
1 Dnombrer et sommer
1.1 Rappels ensemblistes . . . . . . . . . . . . .
1.1.1 Oprations ensemblistes . . . . . . .
1.1.2 Bections . . . . . . . . . . . . . . .
1.2 Ensembles finis et dnombrement . . . . . .
1.3 Dnombrabilit . . . . . . . . . . . . . . . .
1.4 Rappels sur les sries . . . . . . . . . . . . .
1.4.1 Gnralits . . . . . . . . . . . . . .
1.4.2 Sries termes positifs . . . . . . . .
1.4.3 Sries termes de signe non constant
1.4.4 Oprations sur les sries . . . . . . .
1.5 Familles sommables . . . . . . . . . . . . . .
1.6 Sries doubles . . . . . . . . . . . . . . . . .
2 vnements et Probabilits
2.1 Notion de mesure . . . . . . . . . . . . . .
2.2 Modliser lalatoire . . . . . . . . . . . .
2.2.1 Notion dexprience alatoire . . .
2.2.2 vnements . . . . . . . . . . . . .
2.2.3 Une question de ds . . . . . . . .
2.3 La probabilit comme mesure . . . . . . .
2.4 Exemples . . . . . . . . . . . . . . . . . .
2.5 Remarques sur le choix dun modle . . . .
2.6 Probabilits conditionnelles . . . . . . . .
2.6.1 Introduction . . . . . . . . . . . . .
2.6.2 Proprits . . . . . . . . . . . . . .
2.6.3 Quelques exemples . . . . . . . . .
2.7 Indpendance . . . . . . . . . . . . . . . .
2.7.1 Indpendance de deux vnements .
2.7.2 Indpendance mutuelle . . . . . . .
2.7.3 preuves rptes . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5
5
5
7
8
16
24
24
25
27
28
34
46
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
51
51
57
57
58
59
62
68
75
77
77
79
82
84
84
86
88
3 Variables alatoires
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . .
3.2 Gnralits . . . . . . . . . . . . . . . . . . . . . . .
3.2.1 Variables alatoires relles . . . . . . . . . . .
3.2.2 Loi dune variable alatoire . . . . . . . . . .
3.2.3 Fonction de rpartition . . . . . . . . . . . . .
3.2.4 Lois densit . . . . . . . . . . . . . . . . . .
3.3 Lois discrtes classiques . . . . . . . . . . . . . . . .
3.3.1 Lois de Bernoulli . . . . . . . . . . . . . . . .
3.3.2 Loi uniforme sur un ensemble fini de rels . .
3.3.3 Lois binomiales . . . . . . . . . . . . . . . . .
3.3.4 Lois hypergomtriques . . . . . . . . . . . . .
3.3.5 Lois gomtriques . . . . . . . . . . . . . . . .
3.3.6 Lois de Poisson . . . . . . . . . . . . . . . . .
3.3.7 Sur le caractre universel de la loi de Poisson .
3.4 Lois densit classiques . . . . . . . . . . . . . . . .
3.4.1 Lois uniformes . . . . . . . . . . . . . . . . . .
3.4.2 Lois exponentielles . . . . . . . . . . . . . . .
3.4.3 Lois gaussiennes . . . . . . . . . . . . . . . . .
3.4.4 Lois de Cauchy . . . . . . . . . . . . . . . . .
4 Esprance
4.1 Introduction . .
4.2 Esprance dune
4.3 Esprance dune
4.4 Moments . . . .
. . . . .
variable
variable
. . . . .
. . . . .
alatoire
alatoire
. . . . .
. . . . .
positive
relle .
. . . . .
.
.
.
.
.
.
.
.
.
.
.
.
5 Vecteurs alatoires et indpendance

5.1 Vecteurs alatoires . . . . . . . . . . . . . . . .
5.1.1 Gnralits . . . . . . . . . . . . . . . .
5.1.2 Covariance . . . . . . . . . . . . . . . . .
5.2 Indpendance de variables et vecteurs alatoires
5.2.1 Suites indpendantes . . . . . . . . . . .
5.2.2 Indpendance des composantes . . . . .
5.2.3 Indpendance et esprance de produits .
.
.
.
.
.
.
.
.
.
.
.
6 Thormes limites
6.1 Convergences de suites de v.a. . . . . . . . . . . .
6.1.1 Convergence presque sre et en probabilit
6.1.2 Convergence en moyenne dordre p . . . .
6.1.3 Bilan sur les convergences de v.a. . . . . .
6.2 Loi des grands nombres . . . . . . . . . . . . . . .
6.2.1 Loi faible des grands nombres . . . . . . .
6.2.2 Loi forte des grands nombres . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
91
91
94
94
96
99
101
106
107
107
107
108
110
111
116
119
119
121
124
125
.
.
.
.
127
127
130
146
152
.
.
.
.
.
.
.
161
162
162
171
173
173
178
186
.
.
.
.
.
.
.
191
191
191
198
203
204
204
206
6.2.3
Laiguille de Buffon . . . . . . . . . . . . . . . . . . . . . . . . . . 208
A Intgrale de Riemann sur [a, b]

A.1 Construction . . . . . . . . . . . . . .
A.2 Riemann intgrabilit . . . . . . . . . .
A.3 Proprits de lintgrale de Riemann .
A.3.1 Proprits de lensemble R[a, b]
A.3.2 Proprits relatives lintervalle
A.4 Interversion limite intgrale . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
dintgration
. . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
B Intgrale gnralise
B.1 Construction . . . . . . . . . . . . . . . . . . . . . . . . . .
B.2 Critre de Cauchy pour intgrales gnralises . . . . . . . .
B.3 Intgrales gnralises de fonctions positives . . . . . . . . .
B.4 Divers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
B.4.1 Changements de variable . . . . . . . . . . . . . . . .
B.4.2 Intgration par parties . . . . . . . . . . . . . . . . .
B.4.3 Comparaison des intgrales ordinaires et gnralises
Tables de la loi normale standard
Ch. Suquet, Cours I.P.. 2010
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
213
213
219
226
226
232
238
.
.
.
.
.
.
.
241
241
251
257
262
262
265
267
269
Chapitre 1
Dnombrer et sommer
Compter des objets et faire des additions, voil bien les deux activits les plus lmentaires la base des mathmatiques. Et pourtant y regarder de plus prs, ce nest
pas si facile. Dj pour un ensemble fini, la mthode qui consiste regarder ses lments
lun aprs lautre et les compter (donc les numroter) nest applicable que pour de
petits ensembles. Le plus souvent on sen sort en faisant une reprsentation de lensemble dnombrer laide dun autre ensemble plus familier. Cette reprsentation est
ce que lon appelle une bection. Elle est dailleurs la base du processus de comptage
qui consiste simplement mettre en bection un ensemble avec un ensemble de nombres
entiers. Cette notion de bection permet dtendre en un certain sens le dnombrement
aux ensembles infinis.
Lextension de la notion de somme dune suite finie de nombres une suite infinie
conduit naturellement la notion de srie que nous rviserons dans ce chapitre. La
thorie des probabilits utilise implicitement une notion plus gnrale, celle de famille
sommable. Il sagit de dfinir la somme, si elle existe, dune famille de nombres indexe
par un ensemble infini qui nest pas forcment N ou N . Nous prsentons cette thorie
dans la dernire partie du chapitre.
Dans tout ce qui suit, la notation {1, . . . , n} pour n N dsigne lensemble de tous
les entiers compris au sens large entre 1 et n. Lcriture un peu abusive i = 1, . . . , n
signifie i {1, . . . , n} .
1.1
Rappels ensemblistes
1.1.1
Oprations ensemblistes
Soit un ensemble ; A est un sous-ensemble (ou une partie) de si tout lment

de A est aussi un lment de ( A, ). On note A . On appelle P()
lensemble des parties de , ce que lon peut noter 1
P() = {A; A }.
1. Dans toutes les critures densembles entre accolades, nous utilisons le point virgule au sens de
tel que .
Chapitre 1. Dnombrer et sommer

Ainsi les critures A et A P() sont deux faons de dire la mme chose 2 .
Si A et B sont deux parties du mme ensemble , on dit que A est incluse dans
B (notation A B) si tout lment de A est aussi lment de B ( A, B),
autrement dit, si lappartenance A implique lappartenance B :
AB
signifie ,
( A) ( B).
Soit I un ensemble quelconque dindices (fini ou infini) et (Ai )iI une famille de
parties de . On dfinit son intersection Ai et sa runion, Ai par :
iI
Ai := { ; i I, Ai }
iI
et
iI
Ai = { ; i I, Ai }.
iI
(1.1)
Remarque 1.1. La runion et lintersection dune famille de parties de sont dfinies

de faon globale, elles sobtiennent dun coup, sans passage la limite quand I est infini
et sans quun ordre ventuel sur lensemble dindices I nait dimportance.
Runion et intersection sont trs utiles pour la traduction automatique des quantificateurs. Si I est un ensemble quelconque dindices, (i ) une proprit dpendant de
lindice i et Ai lensemble des vrifiant (i ), on a :
{ ; i I, vrifie (i )} = Ai ,
iI
{ ; i = i() I, vrifie (i )} = Ai .
iI
Ainsi le quantificateur peut se traduire par une intersection et le quantificateur par

une runion.
Lintersection et lunion sont distributives lune par rapport lautre, cest dire

B Ai = (Ai B)
B Ai = (Ai B).
iI
iI
iI
iI
Le complmentaire de A (dans ) est lensemble Ac := { ;

/ A}. Lopration
passage au complmentaire (qui est une bection de P() dans lui-mme) vrifie (Ac )c =
A, c = , c = et change runions et intersections grce aux trs utiles formules :

c

c
Ai = Aci
Ai = Aci .
iI
iI
iI
iI
On dfinit le produit cartsien de deux ensembles E et F , not E F par :

E F := {(x, y); x E, y F }.
Attention, dans cette criture (x, y) ne dsigne en aucune faon un ensemble mais un
couple dlments (lordre dcriture a une importance). Pour viter toute confusion,
2. Noter cependant la diffrence de statut de A : dans la premire criture, A est considr comme
un ensemble, dans la deuxime comme un lment dun ensemble dun type un peu particulier.
1.1. Rappels ensemblistes

on utilise des accolades pour la description des ensembles et des parenthses pour les
couples dlments.
On dfinit de manire analogue le produit cartsien dune suite finie densembles
E1 , . . . , En par 3

E1 En := (x1 , . . . , xn ); i = 1, . . . , n, xi Ei .
Lensemble E 2 := E E = {(x1 , x2 ); x1 E, x2 E} peut tre utilis pour
reprsenter lensemble de toutes les applications de {1, 2} dans E, le couple (x1 , x2 )
correspondant lapplication f : {1, 2} E dfinie par f (1) = x1 et f (2) = x2 . Il
pourrait de la mme faon, reprsenter les applications dun ensemble deux lments
dans E (remplacer les chiffres 1 et 2 par nimporte quelle paire de symboles distincts :
0 et 1, a et b, etc.).
Plus gnralement, pour n 2, E n est lensemble des n-uplets ou listes de longueur
n dlments de E. Dans un n-uplet (x1 , . . . , xn ), il peut y avoir des rptitions. On peut
aussi utiliser E n pour reprsenter toutes les applications de lensemble {1, . . . , n} (ou de
nimporte quel ensemble n lments) dans E.
Soit I un ensemble quelconque, fini ou infini. Par analogie avec ce qui prcde, lensemble de toutes les applications f : I E sera not E I . Par exemple avec E = {0, 1}
et I = N, on obtient lensemble {0, 1}N de toutes les suites de chiffres binaires indexes
par N : {0, 1}N = {u = (ui )iN ; ui = 0 ou 1}. Avec E = R et I = [0, 1], on obtient
lensemble R[0,1] des fonctions dfinies sur lintervalle [0, 1] et valeurs dans R.
1.1.2
Bections
Dfinition 1.2 (injection). Une application f : E F est dite injective si deux lments distincts de E ont toujours des images distinctes dans F :
x E, x0 E,
(x 6= x0 ) (f (x) 6= f (x0 )).
Une formulation quivalente est :

x E, x0 E,
(f (x) = f (x0 )) (x = x0 ).
Une application injective f : E F est appele injection de E dans F .

Dfinition 1.3 (surjection). Une application f : E F est dite surjective si tout
lment de lensemble darrive a au moins un antcdent par f :
y F, x E,
f (x) = y.
Une application surjective f : E F est appele surjection de E sur F .

3. Noter quici le quantificateur i ne se traduit pas par une intersection. Ne confondez pas i =
1, . . . , n, x Ei qui traduit lappartenance de x lintersection des Ei avec i = 1, . . . , n, xi Ei .

Dfinition 1.4 (bection). Une application f : E F est dite bective si elle est la
fois injective et surjective, autrement dit si tout lment de lensemble darrive F a un
unique antcdent par f dans lensemble de dpart E :
y F, !x E,
f (x) = y.
Une application bective f : E F est appele bection de E sur F .

Remarque 1.5. Si f : E F est une injection, en restreignant son ensemble darrive
f (E) := {y F ; x E; f (x) = y} la nouvelle application f : E f (E) est une
bection. En effet cette opration prserve clairement linjectivit et rend f surjective.
Dfinition 1.6 (application rciproque). Soit f : E F une bection. Tout y F
admet un unique antcdent x par f dans E. En posant f 1 (y) := x, on dfinit une
application f 1 : F E appele application rciproque de f ou inverse de f . Cette
application f 1 est bective.
Justification. Pour vrifier linjectivit de f 1 , soient y et y 0 deux lments de F tels que
f 1 (y) = f 1 (y 0 ). Cela signifie quils ont le mme antcdent x par f , donc que y = f (x)
et y 0 = f (x), do y = y 0 .
Pour la surjectivit, soit x E quelconque. Posons y = f (x). Alors x est antcdent
de y par f , donc f 1 (y) = x et ainsi y est antcdent de x par f 1 . Tout lment de E
a donc un antcdent dans F par f 1 . Autrement dit, f 1 est surjective.
Remarque 1.7. Ainsi lexistence dune bection E F quivaut celle dune bection
F E. On dira que E est en bection avec F sil existe une bection E F (ou
F E).
Proposition 1.8. Soient f : E F et g : F G deux bections. Alors g f est une
bection de E sur G. De plus (g f )1 = f 1 g 1 .
Preuve. Rappelons que (g f )(x) := g(f (x)) pour tout x E. Pour vrifier linjectivit,
soient x et x0 dans E tels que (g f )(x) = (g f )(x0 ). Cette galit rcrite g(f (x)) =
g(f (x0 )) implique par injectivit de g lgalit f (x) = f (x0 ), laquelle implique x = x0 par
injectivit de f . Pour la surjectivit de g f , soit z G quelconque. Par surjectivit
de g, z a au moins un antcdent y dans F avec g(y) = z. son tour y F a un
antcdent x E par la surjection f . Finalement y = f (x) et z = g(y), do z =
g(f (x)) = (g f )(x), ce qui montre que z a pour antcdent x par g f . Comme z
tait quelconque, la surjectivit de g f est tablie. Ainsi g f est une bection de E
sur G. En conservant les notations on a (g f )1 (z) = x. Dautre part x = f 1 (y) et
y = g 1 (z), do x = f 1 (g 1 (z)) = (f 1 g 1 )(z). On a donc pour z quelconque dans
G lgalit (g f )1 (z) = x = (f 1 g 1 )(z), do (g f )1 = f 1 g 1 .
1.2
Ensembles finis et dnombrement
Dfinition 1.9. Un ensemble E est dit fini sil est vide ou sil est en bection avec un
ensemble {1, . . . , n} pour un certain entier n 1. Un tel n est alors unique et est appel
cardinal de E (notation card E). Par convention le cardinal de lensemble vide est 0.
1.2. Ensembles finis et dnombrement

La cohrence de la dfinition 1.9 repose sur le lemme suivant (pourquoi ?).
Lemme 1.10. Si n et m sont deux entiers distincts, il nexiste pas de bection entre
{1, . . . , n} et {1, . . . , m}.
Preuve. On peut toujours supposer sans perte de gnralit que 0 n < m. Dans le
cas o n = 0, lensemble {1, . . . , n} est lensemble des entiers j tels que 1 j 0, cest
donc lensemble vide. On prouve le rsultat par rcurrence sur n en adoptant comme
hypothse de rcurrence :
(Hn ) m > n,
il nexiste pas de bection {1, . . . , n} {1, . . . , m}.
Initialisation. (H0 ) est clairement vraie, car on ne peut dfinir aucune application sur
lensemble vide donc a fortiori aucune bection.
Induction. Montrons que si (Hn ) est vrifie pour un certain n, alors (Hn+1 ) lest aussi.
Pour cela on raisonne par labsurde : si (Hn+1 ) ntait pas pas vrifie, il existerait un
entier m > n + 1 et une bection f : {1, . . . , n + 1} {1, . . . , m}. Nous allons construire
partir de f une bection g : {1, . . . , n + 1} {1, . . . , m} telle que g(n + 1) = m.
Notons j = f (n + 1). Si j = m, il suffit de prendre g = f . Si j 6= m, considrons
la transposition : {1, . . . , m} {1, . . . , m} qui change j et m et laisse les autres
lments inchangs. Cest une bection et lapplication compose g = f est une
bection {1, . . . , n + 1} {1, . . . , m} vrifiant g(n + 1) = m.
La restriction g de g {1, . . . , n} est une bection de {1, . . . , n} sur {1, . . . , m 1}
et comme m > n + 1, on a bien m 1 > n, ce qui contredit (Hn ). Nous venons dtablir
limplication (Hn ) (Hn+1 ), ce qui achve la rcurrence.
Remarque 1.11. Si lensemble F est en bection avec un ensemble fini E, alors F est
fini et a mme cardinal que E. En effet en notant n = card E, il existe une bection
f : {1, . . . , n} E et une bection g : E F . La compose g f ralise alors une
bection de {1, . . . , n} sur F .
Proposition 1.12. Soient E et F deux ensembles finis.
Si E F = ,
card(E F ) = card E + card F.
(1.2)
Preuve. Dans le cas o lun des deux ensembles est vide, (1.2) est triviale. On suppose
dsormais que card E = n 1 et card F = m 1. Il existe alors des bections
f : {1, . . . , n} E,
g : {1, . . . , m} F.
On prouve (1.2) en construisant une bection h de {1, . . . , n + m} sur E F . La translation

t : {n + 1, . . . , n + m} {1, . . . , m}, i 7 i n
est une bection et lapplication g t ralise une bection de {n + 1, . . . , n + m} sur F .
Dfinissons alors h par
(
f (i)
si i {1, . . . , n},
h(i) :=
(g t)(i) si i {n + 1, . . . , n + m}.

Pour vrifier la surjectivit de h, soit z un lment quelconque de E F . Si z E,
alors il a un antcdent i dans {1, . . . , n} par la surjection f et comme h(i) = f (i) = z,
i est aussi antcdent de z par h. Si z F , il a un antcdent j dans {1, . . . , m} par la
surjection g et j a un antcdent i dans {n + 1, . . . , n + m} par la surjection t. Alors
h(i) = g(t(i)) = g(j) = z donc i est antcdent de z par h.
Pour vrifier linjectivit de h, notons i et i0 deux lments distincts de {1, . . . , n+m}.
Sils sont lun dans {1, . . . , n} et lautre dans {n + 1, . . . , n + m}, leurs images h(i) et
h(i0 ) sont lune dans E et lautre dans F qui sont disjoints (E F = ) donc h(i) 6= h(i0 ).
sinon i et i0 sont tous deux dans {1, . . . , n} (resp. dans {n + 1, . . . , n + m}) et h(i) 6= h(i0 )
en raison de linjectivit de f (resp. de g t).
Corollaire 1.13 (de la proposition 1.12).
a) Si E1 , . . . , Ed sont d ensembles finis deux deux disjoints, E1 Ed est un
ensemble fini et

X
d
d
card Ei =
card Ei .
i=1
i=1
b) Si E et F sont des ensembles finis quelconques (pas forcment disjoints), E F

est fini et
card(E F ) = card E + card F card(E F ).
Preuve. Laisse en exercice.
Proposition 1.14. Soient E et F deux ensembles finis. Leur produit cartsien a pour
cardinal
card(E F ) = card E card F.
(1.3)
Preuve. Le cas o lun des deux ensembles E ou F est vide tant trivial, on suppose
dsormais quaucun des deux nest vide. On fait une rcurrence sur n = card E, en
prenant pour hypothse de rcurrence :
(Hn )
si card E = n, alors card(E F ) = n card F pour tout F fini non vide.
Initialisation. Si card E = 1, E na quun lment x1 et lapplication h : {x1 } F F ,

(x1 , y) 7 y est clairement une bection donc card({x1 } F ) = card F et (H1 ) est
vrifie.
Induction. Supposons (Hn ) vraie pour un certain n et soit E un ensemble de cardinal
n+1. Il existe une bection f : {1, . . . , n+1} E permettant de numroter les lments
de E en posant pour tout i {1, . . . , n + 1}, xi := f (i). La restriction de f {1, . . . , n}
est une bection de {1, . . . , n} sur son image E 0 = {x1 , . . . , xn }. Ainsi E 0 est de cardinal
n et E est lunion de ses deux sous-ensembles disjoints E 0 et {xn+1 }. On en dduit
immdiatement que E F est lunion des deux produits cartsiens disjoints E 0 F et
{xn+1 } F . Par la proposition 1.12 on a alors
card(E F ) = card(E 0 F ) + card({xn+1 } F ).
10

En utilisant (Hn ) et (H1 ), on obtient alors
card(E F ) = n card F + card F = (n + 1) card F,
donc (Hn+1 ) est vrifie.
Remarque 1.15. On aurait pu aussi prouver (1.3) en construisant explicitement une
bection E F {1, . . . , nm} (avec card E = n et card F = m). Voici une faon de
la construire. On note f : {1, . . . , n} E, i 7 xi := f (i) et g : {1, . . . , m} F ,
j 7 yj := g(j) des numrotations bectives de E et F . On dfinit alors h : E
F {1, . . . , nm} en posant h(xi , yj ) := m(i 1) + j, ou de manire plus formelle
h(x, y) := m(f 1 (x) 1) + g 1 (y) pour tout (x, y) E F . On laisse en exercice la
vrification de la bectivit de h. Lide de sa construction est simplement de ranger les
couples lments de E F sous la forme dun tableau o le couple (xi , yj ) se trouve
lintersection de la ligne i et de la colonne j et de numroter les lments de ce tableau
en balayant chaque ligne de gauche droite de la ligne 1 jusqu la ligne n.
Corollaire 1.16 (de la proposition 1.14). Si E1 , . . . , Ed sont d ensembles finis,
card(E1 Ed ) =
d
Y
card Ei .
i=1
Preuve. Une rcurrence immdiate sur d fournit le rsultat.

Proposition 1.17 (nombre dapplications E F et cardinal de P(E)).
(a) Si card E = n et card F = p, lensemble F E des applications de E dans F est fini
et a pour cardinal pn , autrement dit :

card F E = (card F )card E .
(b) Comme P(E) est en bection avec lensemble {0, 1}E des applications de E dans
{0, 1},
card P(E) = 2n = 2card E .
Preuve. Le (a) se dmontre facilement par rcurrence sur le cardinal de E, en notant
que si on ajoute un lment xn+1 E, il y a p faons diffrentes de prolonger f : E F
en attribuant comme image xn+1 lun des lments de F . La rdaction dtaille est
laisse en exercice.
Une bection naturelle entre P(E) et {0, 1}E est lapplication qui toute partie A
de E associe sa fonction indicatrice :
: P(E) {0, 1}E
A 7 (A) := 1A .
Rappelons que lindicatrice dune partie A de E est lapplication

1 si A,
1A : E {0, 1}
7 1A () :=
0 si
/ A.
La vrification de la bectivit de est laisse en exercice 4 .
4. Ni la dfinition de , ni la preuve de sa bectivit nutilisent la finitude de E. Ainsi P(E) et
{0, 1}E sont en bection quel que soit lensemble E 6= , fini ou infini.
11

Dfinition 1.18 (arrangement). Si E est un ensemble de cardinal n et k un entier tel que
1 k n, on appelle arrangement de k lments de E tout k-uplet (x1 , x2 , . . . , xk ) dlments tous distincts de E. Un tel arrangement reprsente une injection de {1, . . . , k}
dans E.
Proposition 1.19 (dnombrement des arrangements). Le nombre darrangements de k
lments de E (1 k n = card E) est
Akn = n(n 1)(n 2) (n k + 1) =
n!
.
(n k)!
(1.4)
Akn est aussi le nombre dinjections dun ensemble I de cardinal k, par exemple {1, . . . , k},
dans E. En particulier pour I = E (et donc k = n), on obtient le nombre de bections
de E dans lui mme (appeles aussi permutations de E) :
nombre de permutations de E = Ann = n!
Preuve. On prouve (1.4) par rcurrence finie sur k, le cas k = 1 tant vident. Supposons
donc (1.4) vraie pour un k < n et montrons qualors elle est aussi vraie pour k + 1. Une
application f : {1, . . . , k+1} E est dtermine de manire unique par la donne de sa
restriction f {1, . . . , k} et de f (k + 1). Lapplication f est injective si et seulement si sa
restriction f est injective et f (k +1)
/ f({1, . . . , k}). Comme le cardinal de f({1, . . . , k})
est k, cela laisse n k choix possibles pour f (k + 1). On en dduit que
Ak+1
= Akn (n k) = n(n 1)(n 2) (n k + 1)(n k),
n
ce qui montre que (1.4) est vrifie au rang k + 1.
Dfinition 1.20 (combinaison). On appelle combinaison de k lments de E (1 k
n = card E) toute partie de cardinal k de E. Une combinaison a tous ses lments
distincts comme un arrangement, mais lordre dcriture na pas dimportance.
Proposition 1.21 (dnombrement des combinaisons). Le nombre de combinaisons de
k lments de E (1 k n = card E) est
Cnk =
n(n 1)(n 2) (n k + 1)
n!
=
.
k(k 1) 1
k!(n k)!
(1.5)
Preuve. Notons Ak (E) lensemble de tous les arrangements de k lments de E. Il est

alors clair que lon a la dcomposition en runion densembles disjoints
[
Ak (E) =
Ak (B).
(1.6)
BE, card B=k
Autrement dit on a partitionn Ak (E) en regroupant dans une mme classe Ak (B) tous
les arrangements forms partir des lments dune mme partie B de cardinal k. Il
12

y a donc autant de classes distinctes dans cette dcomposition que de parties B de
cardinal k dans E, cest--dire Cnk classes. Dautre part chaque classe Ak (B) contient
autant darrangements que de bections B B (ou permutations sur B), cest--dire
k!. Compte-tenu du corollaire 1.13 a), on dduit alors de (1.6) que :
X
card Ak (E) =
card Ak (B) = Cnk k!.
BE, card B=k
Or card Ak (E) = Akn par la dfinition des Akn , do Akn = Cnk k!, ce qui donne (1.5).
Les nombres Cnk sont appels aussi coefficients binomiaux en raison de leur rle dans
la formule du binme de Newton, que nous retrouverons ci-dessous (corollaire 1.24)
comme cas particulier de la formule du multinme. Avant de nous y attaquer, il nest
peut-tre pas inutile de faire un rappel sur le dveloppement dun produit de sommes
finies.
Proposition 1.22. Soient J1 , . . . , Jn des ensembles finis non vides dindices et pour
i = 1, . . . , n, j Ji , des nombres rels ou complexes xi,j . En notant Kn := J1 Jn ,
on a
!
!
!
n
n
n
Y
X
X
X Y
X
Y
xi,j =
...
(1.7)
xi,ji =
xi,ji .
i=1
jJi
(j1 ,...,jn )Kn
i=1
j1 J1
jn Jn
i=1
Voici une traduction sans formules de cet nonc : le produit de n sommes finies est
gal la somme de tous les produits de n facteurs que lon peut former en slectionnant
un facteur parmi les termes de chacune des n sommes . La figure 1.1 illustre lapplication
de cette rgle au dveloppement de (a + b + c)(d + e)(s + t + u + v). Ici J1 = {1, 2, 3},
x1,1 = a, . . . , x1,3 = c, J2 = {1, 2}, x2,1 = d, x2,2 = e, J3 = {1, . . . , 4}, x3,1 = s, . . . , x3,4 =
v. La proposition 1.22 se dmontre facilement par rcurrence sur n.
Proposition 1.23 (formule du multinme). Pour tous entiers d 2, n 2 et tous
nombres rels ou complexes a1 , . . . , ad ,
a1 + + ad
n
X
(k1 ,...,kd )Nd
k1 ++kd =n
n!
ak1 . . . akdd .
k 1 ! . . . kd ! 1
(1.8)
Preuve. On commence par appliquer la formule (1.7) avec J1 = = Jn = {1, . . . , d}

pour obtenir :
X
n

a1 + + ad = a1 + + ad a1 + + ad =
ai . . . ain .
|
{z
} (i ,...,i ){1,...,d}n 1
n parenthses
(1.9)
Parmi les n facteurs du produit ai1 . . . ain , il peut y avoir des rptitions et il peut aussi
manquer certains des ai . En regroupant les facteurs identiques, on peut toujours crire
ce produit sous la forme ak11 . . . akdd , o pour j = 1, . . . , d, on a not kj le nombre de
facteurs gaux aj dans ce produit (ventuellement kj = 0 si aj ne figure pas dans le
13

ads
adt
adu
adv
aes
aet
aeu
aev
bds
bdt
bdu
bdv
bes
bet
beu
bev
cds
cdt
cdu
cdv
ces
cet
ceu
cev
Fig. 1.1 Arbre de dveloppement de (a + b + c)(d + e)(s + t + u + v)
produit). Comme il y a n facteurs, les kj vrifient k1 + + kd = n. Notons maintenant
M (n, k1 , . . . , kd ), le nombre dapparitions du produit ak11 . . . akdd dans le dveloppement
de (a1 + + ad )n . Avec cette notation, on peut rcrire (1.9) sous la forme
X
n
a1 + + ad =
M (n, k1 , . . . , kd ) ak11 . . . akdd .
(1.10)
(k1 ,...,kd )Nd
k1 ++kd =n
Il ne nous reste plus qu faire un peu de dnombrement pour expliciter le coefficient

M (n, k1 , . . . , kd ) pour k1 , . . . , kd entiers fixs tels que k1 + + kd = n. Cela revient
compter de combien de faons on peut choisir les k1 parenthses fournissant a1 , les k2
parenthses fournissant a2 ,. . ., les kd parenthses fournissant ad , pour former le produit
ak11 . . . akdd . Commenons par choisir les k1 parenthses dont la contribution est a1 , ceci
peut se faire de Cnk1 faons. Parmi les n k1 parenthses restantes, on choisit ensuite les
14

k2
possibilits. Et ainsi de suite,
k2 parenthses qui fournissent a2 , ce qui nous laisse Cnk
1
jusquau choix de kd parenthses parmi les n k1 kd1 dernires 5 pour obtenir
ad . On en dduit que
kd
k3
k2
Cnk
Cnk
M (n, k1 , . . . , kd ) = Cnk1 Cnk
1 kd1
1 k2
1
n!
(n k1 )!
(n k1 k2 )!

k1 !(n k1 )! k2 !(n k1 k2 )! k3 !(n k1 k2 k3 )!
(n k1 kd1 )!

kd !(n k1 kd )!
n!
,
=
k 1 ! . . . kd !
=
aprs simplifications et en notant que (n k1 kd )! = 0! = 1.

Les nombres M (n, k1 , . . . , kd ) sont appels coefficients multinomiaux. On peut aussi
les interpter comme
a) le nombre de faons de rpartir les lments dun ensemble de cardinal n en d
sous-ensembles de cardinal respectif k1 , . . . , kd ;
b) le nombre dapplications f de {1, . . . , n} dans {1, . . . , d} telles que chaque i dans
{1, . . . , d} ait exactement ki antcdents dans {1, . . . , n} par f .
Notons en passant que daprs linterprtation b), le nombre total dapplications de
{1, . . . , n} dans {1, . . . , d}, soit dn daprs la proposition 1.17 a), doit tre gal la
somme de tous les M (n, k1 , . . . , kd ), ce qui scrit :
X
dn =
M (n, k1 , . . . , kd ).
(k1 ,...,kd )Nd
k1 ++kd =n
Cest bien ce que donne la formule du multinme en prenant tous les ai gaux 1
dans (1.8).
Corollaire 1.24 (formule du binme). Pour tous rels ou complexes a et b et tout entier
n 2,
n
X n!
X
(a + b)n =
ak b l =
Cnk ak bnk .
(1.11)
k!l!
2
k=0
(k,l)N
k+l=n
Preuve. Il suffit dapplique la formule du multinme avec d = 2, a1 = a, a2 = b.

Remarque 1.25. Dans le calcul des M (n, k1 , . . . , kd ) ci-dessus, il peut sembler que lon
ait avantag les a1 en commenant par les choisir en premier et pnalis les ad en les
gardant pour la fin. Vous pourrez vous convaincre quil nen est rien en refaisant ce calcul
en plaant les ai dans lordre qui vous convient, par exemple en commenant par ad , ou
par a3 ,. . ..
5. Comme n k1 kd1 = kd , il ny a quun seul choix possible ce stade : prendre toutes les
parenthses restantes.
15

Voici dailleurs une suggestion pour une preuve alternative qui pourrait tre dveloppe en exercice. On considre lensemble Sn de toutes les permutations de {1, . . . , n}. Son
cardinal est n!. Fixons k1 , . . . , kd entiers de somme n. On pose Ei = {1 + ki1 , . . . , ki },
avec k0 := 0 et i = 1, . . . , d. Si (F1 , . . . , Fd ) est un d-uple de parties de {1, . . . , n}, deux
deux disjointes et de runion {1, . . . , n}, combien y a-t-il de bections f Sn vrifiant
f (Ei ) = Fi pour tout i = 1, . . . , d ? En dduire que n! = M (n, k1 , . . . , kd )k1 ! . . . kd !.
1.3
Dnombrabilit
On peut comparer les ensembles finis par leur nombre dlments. Cette notion na
plus de sens pour des ensembles infinis. Nanmoins on peut gnraliser cette comparaison
en disant que deux ensembles ont mme cardinal sils sont en bection. Ceci permet de
comparer les ensembles infinis. Il convient de se mfier de lintuition courante base sur
les ensembles finis. Par exemple si A et B sont finis et A est inclus strictement dans
B, alors card A < card B et il nexiste pas de bection entre A et B. Ceci nest plus
vrai pour les ensembles infinis. Par exemple N est strictement inclus dans N mais est
en bection avec N par lapplication f : N N , n 7 n + 1, donc N et N ont mme
cardinal. Nous nous intressons maintenant aux ensembles ayant mme cardinal que N.
Dfinition 1.26. Un ensemble est dit dnombrable sil est en bection avec N. Il est
dit au plus dnombrable sil est fini ou dnombrable.
Exemple 1.27. Lensemble 2N des entiers pairs est dnombrable. Pour le voir, il suffit
de considrer lapplication f : N 2N, n 7 2n qui est clairement une bection. On
vrifie de mme que lensemble des entiers impairs est dnombrable.
Exemple 1.28. Lensemble Z est dnombrable. On peut en effet numroter les
entiers relatifs par les entiers naturels en sinspirant du tableau suivant.
Z
N
...
...
4 3 2 1 0 +1 +2 +3 +4 . . .
8
6
4
2 0 1
3
5
7 ...
Plus formellement, dfinissons lapplication f : N Z par

(
n+1
si n est impair,
n N, f (n) = n2
si n est pair.
2
Pour vrifier que f est une bection, montrons que pour tout k Z donn, lquation
f (n) = k a une solution unique. Si k > 0, il ne peut avoir dantcdent pair par f
puisque f envoie lensemble des entiers pairs dans Z . Lquation f (n) = k se rduit
donc dans ce cas n+1
= k qui a pour unique solution n = 2k + 1. Si k 0, il ne peut
2
avoir dantcdent impair par f et lquation f (n) = k se rduit n
= k qui a pour
2
unique solution n = 2k. Ainsi f est bien une bection puisque tout lment k de Z a
un antcdent n unique par f . La bection inverse est donne par
(
2k + 1 si k > 0,
k Z, f 1 (k) =
2k
si k 0.
16
1.3. Dnombrabilit
Exemple 1.29. Lensemble N2 est dnombrable. Cet exemple relve de la proposition 1.34 ci-dessous, mais la vrification directe est instructive. Voici une faon de
construire une bection f : N2 N. Lide est de fabriquer une numrotation des
couples de N2 par les entiers en sinspirant du schma de la figure 1.29. Un peu de
j
14
9
13
12
11
16
10
15
i
Fig. 1.2 Une numrotation des couples (i, j) de N2
dnombrement nous conduit proposer la dfinition 6
(i, j) N2 ,
f (i, j) :=
(i + j)(i + j + 1)
+ j.
2
Preuve. La vrification de la bectivit de f repose sur la remarque suivante. Dfinissons

la suite (uk )kN par
k(k + 1)
.
k N, uk :=
2
Il sagit clairement dune suite strictement croissante dentiers, de premier terme u0 = 0.
On a donc
l N, !k = kl N, uk l < uk+1 .
(1.12)
De plus,
si l = f (i, j), kl = i + j et l = ukl + j.
(1.13)
Surjectivit de f . Soit l quelconque dans N et k = kl dfini par (1.12). Posons j = l uk

et i = k j. Alors
f (i, j) =
(i + j)(i + j + 1)
k(k + 1)
+j =
+ j = uk + l uk = l.
2
2
Le couple (i, j) ainsi dfini partir de l est donc antcdent de l par f et comme l tait
quelconque, f est surjective.
6. Justification laisse en exercice.
17

Injectivit de f . Soient (i, j) et (i0 , j 0 ) tels que f (i, j) = f (i0 , j 0 ) et notons l cette valeur
commune. Daprs (1.13), on a kl = i + j = i0 + j 0 et l = ukl + j = ukl + j 0 . On en dduit
immdiatement que j = j 0 , puis que i = i0 , do (i, j) = (i0 , j 0 ), ce qui tablit linjectivit
de f .
Lemme 1.30. Toute partie infinie de N est dnombrable.
Preuve. Soit E une partie infinie de N. On construit une bection f de N sur E par
rcurrence en utilisant le fait que toute partie non vide de N admet un plus petit lment.
On initialise la rcurrence en posant :
E0 := E,
f (0) := min E0 .
Ensuite, pour n 1, si on a dfini f (k) et Ek pour k = 0, . . . , n 1, on pose

En := E \ f ({0, . . . , n 1}),
f (n) := min En .
Lensemble f ({0, . . . , n1}) = {f (0), . . . , f (n1)} est fini donc En est non vide puisque
E est infini. On peut donc bien construire ainsi de proche en proche tous les f (n) pour
n N. De plus il est clair par construction que pour tout n 1, f (n 1) < f (n).
Lapplication f est donc strictement croissante, ce qui entrane son injectivit. Pour voir
quelle est surjective, soit m un lment quelconque de E. Comme m est un entier, il ny
a quun nombre fini dentiers strictement infrieurs m, donc a fortiori quun nombre
fini n dlments de E infrieurs strictement m (ventuellement aucun). Ainsi m est le
(n + 1)-ime plus petit lment de E, do f (n) = m (comme on commence 0, n est le
(n + 1)-ime plus petit entier de N). Nous venons de montrer quun lment quelconque
de E a au moins un antcdent par f , autrement dit que f est surjective.
Proposition 1.31. Toute partie infinie dun ensemble dnombrable est elle-mme dnombrable.
Preuve. Soit A une partie infinie dun ensemble dnombrable B. Il existe alors une
bection g : B N. Sa restriction g A est une bection de A sur g(A). Lensemble
g(A) est une partie infinie de N, car si elle tait finie, il en serait de mme pour A. Par le
lemme 1.30, il existe une bection f de g(A) sur N. Lapplication f g : A N est une
bection comme compose de deux bections. Lensemble A est donc dnombrable.
Remarque 1.32. La proposition 1.31 nous permet de caractriser les ensembles au plus
dnombrables comme ceux qui sont en bection avec une partie de N, ou encore comme
ceux qui sinjectent dans N. De mme, les ensembles dnombrables sont les ensembles
infinis qui sinjectent dans N.
Remarque 1.33. Il rsulte immdiatement de la proposition 1.31 que si lensemble B
contient une partie infinie A non dnombrable, B est lui mme infini non dnombrable.
Proposition 1.34. Le produit cartsien dune suite finie densembles dnombrables est
dnombrable.
18
1.3. Dnombrabilit
Preuve. Notons E1 , . . . , En la suite finie densembles dnombrables considre. Pour i =
1, . . . , n, nous disposons dune bection Ei N, qui par composition avec la bection
N N , n 7 n + 1 donne une bection fi : Ei N . Comme E = E1 En
est clairement un ensemble infini, il nous suffit de construire une injection de E dans
N. Pour cela il est commode dutiliser les nombres premiers dont nous notons (pj )j1 la
suite ordonne : p1 = 2, p2 = 3, p3 = 5, p4 = 7, p5 = 11,. . .
Dfinissons f : E N, par
x = (x1 , . . . , xn ) E,
f (x) :=
f (x )
p11 1
. . . pnfn (xn )
n
Y
f (xj )
pj j
j=1
Remarquons que pour tout x E, f (x) 2f1 (x1 ) 2.

Pour vrifier linjectivit de f , soient x et y dans E tels que f (x) = f (y). En vertu
de lunicit de la dcomposition en facteurs premiers dun entier suprieur ou gal 2,
cette galit quivaut :
i = 1, . . . , n,
fi (xi ) = fi (yi ).
Comme chaque fi est injective, ceci entrane lgalit xi = yi pour tout i, do x = y.

Corollaire 1.35. Pour tout entier d 1, Nd , Zd sont dnombrables. Lensemble Q des
nombres rationnels est dnombrable (de mme que Qd , d 1).
Vrification. La dnombrabilit de Q sobtient facilement en linjectant dans le produit
cartsien densembles dnombrables Z N via lunicit de lcriture en fraction irrductible (avec dnominateur positif) dun rationnel. Les autres affirmations du corollaire
dcoulent immdiatement de la Proposition 1.34.
Voici un premier exemple densemble infini non dnombrable.
Proposition 1.36. Lensemble {0, 1}N des suites infinies de 0 ou de 1 est infini mais
nest pas dnombrable.
Il est clair que {0, 1}N est un ensemble infini, puisque
un sous-ensemble
quil contient

en bection avec N, par exemple lensemble de suites 1{n} (k) kN , n N .
Preuve. Supposons que {0, 1}N soit dnombrable, on peut alors numroter ses lments
par les entiers, de sorte que {0, 1}N = {xn ; n N}, chaque xn tant une suite (xn,k )kN
de chiffres binaires. Construisons alors la suite y = (yk )kN de chiffres binaires en posant :
(
1 si xk,k = 0
k N, yk = 1 xk,k =
0 si xk,k = 1.
Alors par construction, la suite y diffre de chaque suite xn (au moins par son ne terme).
Or y est un lment de {0, 1}N , donc la numrotation considre ne peut tre surjective.
19

Corollaire 1.37. P(N) nest pas dnombrable. Le segment [0, 1] de R nest pas dnombrable. R nest pas dnombrable, C nest pas dnombrable. Un intervalle de R est soit
infini non dnombrable, soit rduit un singleton, soit vide.
Preuve. Comme P(N) est en bection avec {0, 1}N par lapplication A 7 1A , P(N)
est infini non dnombrable. Daprs la remarque 1.33, la non dnombrabilit de R ou
de C rsulte immdiatement de celle de [0, 1]. Pour vrifier cette dernire, nous utilisons nouveau la remarque 1.33 en construisant une partie de [0, 1] en bection avec
{0, 1}N . La premire ide qui vient lesprit pour une telle construction est dutiliser le
dveloppement des nombres rels en base 2. Mais pour viter les difficults techniques
lies lexistence de dveloppements propre et impropre pour les nombres de la forme
k2n , nous utiliserons plutt la base 3 en ne conservant que les chiffres binaires 0 et 1.
Dfinissons donc 7
f : {0, 1}N [0, 1],
u = (uk )kN 7 f (u) :=
+
X
uk
.
k+1
3
k=0
Comme les uk ne peuvent prendre que les valeurs 0 ou 1, la srie termes positifs
dfinissant f (u) converge puisque son terme gnral vrifie lencadrement 0 uk 3k1
3k1 . Sa somme f (u) vrifie donc
+
X
1 1
1
=
0 f (u)
k+1
3
31
k=0
1
3
1
= .
2
Ainsi f est bien une application de {0, 1}N dans [0, 1] et daprs la remarque 1.5, il
suffit de vrifier son injectivit pour quelle ralise une bection de {0, 1}N sur son image
A := {f (u); u {0, 1}N }. Par la proposition 1.36, on en dduira la non dnombrabilit
de A.
Pour montrer linjectivit de f , supposons quil existe deux suites u 6= u0 lments de
{0, 1}N telles que f (u) = f (u0 ). Comme u 6= u0 , lensemble des entiers k tels que uk 6= u0k
est non vide et a donc un plus petit lment que nous notons j. On a ainsi uk = u0k
pour tout k < j et uj 6= u0j . Quitte permuter u et u0 , on ne perd pas de gnralit en
supposant que uj = 1 et u0j = 0. Lgalit f (u) = f (u0 ) implique alors :
1
3j+1
+
X
u0k uk
=
.
k+1
3
k=j+1
Comme u0k uk ne peut prendre que les valeurs 1, 0 ou 1, il est major par 1, do :
1
3j+1
+
X
k=j+1
1
3k+1
1
3j+2
1
1
1
3
1
,
2 3j+1
7. La lecture de ce qui suit requiert la connaissance des sries dont les principales proprits sont
rappeles section 1.4 ci-aprs, voir notamment les sries gomtriques (exemple 1.49).
20
1.3. Dnombrabilit
ce qui est impossible. On en dduit que si f (u) = f (u0 ), ncessairement u = u0 , ce qui
tablit linjectivit de f .
Pour vrifier la non dnombrabilit dun intervalle non vide et non rduit un singleton de R, il suffit de remarquer que cet intervalle a au moins deux lments a et b et
quil contient alors [a, b]. Il suffit maintenant de construire une bection [0, 1] [a, b].
Lapplication
f : [0, 1] [a, b], t 7 ta + (1 t)b
fait laffaire.
Remarque 1.38. Il est facile de construire une bection entre ]1, 1[ et R, par exemple
x 7 tan(x/2) et den dduire une bection entre R et nimporte quel intervalle ouvert
non vide. En fait on peut montrer que les ensembles suivants ont tous mme cardinal :
{0, 1}N , R, C, tout intervalle non vide et non rduit un singleton de R. On dit quils ont
la puissance du continu. Sans aller jusqu dmontrer compltement cette affirmation,
nous nous contenterons de prsenter ci-dessous une construction explicite dune bection
entre {0, 1}N et [0, 1[. Il est clair que {0, 1}N est lui mme en bection avec {0, 1}N
(pourquoi ?).
Exemple 1.39 (une bection entre {0, 1}N et [0, 1[). Commenons par un rappel sur
le dveloppement en base 2 des rels de [0, 1[, i.e. lexistence pour un x [0, 1[ dune
suite (ak )kN {0, 1}N telle que

+
X
ak
.
(1.14)
x=
k
2
k=1
On appelle nombre dyadique de [0, 1[, tout x [0, 1[ de la forme k2n avec k N et
n N . Un tel dyadique admet une criture irrductible unique de la forme l2n avec l
impair. Notons lensemble des dyadiques de [0, 1[.
Si x [0, 1[\, il existe une unique suite (ak )kN {0, 1}N vrifiant (1.14). De plus
cette suite (ak )kN comporte la fois une infinit de 0 et une infinit de 1.
Si x , il existe deux suites (ak )kN {0, 1}N et (a0k )kN {0, 1}N vrifiant
(1.14). Lune (ak )kN a tous ses termes nuls partir dun certain rang. Cest le dveloppement propre du dyadique x. Lautre a tous ses termes gaux 1 partir dun certain
rang, cest le dveloppement impropre de x. Nous noterons p(x) le dveloppement propre
de x et i(x) son dveloppement impropre. Par exemple le dyadique 38 a pour dveloppemment propre (0, 1, 1, 0, 0, 0, 0, . . . ) car 83 = 14 + 18 . Son dveloppement impropre est
P
k
(0, 1, 0, 1, 1, 1, 1, . . . ) puisque 18 = +
k=4 2 .
Dfinissons maintenant f : [0, 1[ {0, 1}N comme suit.
Si x [0, 1[\, on prend pour f (x) lunique suite (ak )kN {0, 1}N vrifiant
(1.14).
Si x et x 6= 0, x 6= 1/2, il existe une criture unique x = l2n avec l impair.
On pose alors

l + 1
i
l
si l = 1 mod 4,
n
2
f n =

2
p l 1
si l = 3 mod 4.
2n
21

Pour f (0) on prend la suite ne comportant que des 0 et pour f (1/2) la suite ne
comportant que des 1.
1
2
r
@
@
@
@
1
4
1
8
r
A
A

A
r
@
3
4
@
@r
@
@ 3
@r 8
A
A

A
5
8
@ 7
@r 8
A
A

A
r
A
A

A
Fig. 1.3 Arbre binaire des dyadiques de ]0, 1[

Le mcanisme de construction de f sur les dyadiques autres que 0 et 1/2 peut tre
dcrit de manire informelle laide de larbre binaire de la figure 1.3. Chaque individu de cet arbre hrite un dveloppement binaire de son ascendant direct et engendre
lui mme deux enfants et deux dveloppements binaires. Lenfant de gauche hrite du
dveloppement impropre et celui de droite du dveloppement propre.
La comprhension de la dfinition de f demandant plus deffort que la vrification
de sa bectivit, ce dernier point est laiss au lecteur.
Proposition 1.40. Soit J un ensemble au plus dnombrable dindices et pour tout j J,
soit Aj un ensemble au plus dnombrable. Alors A := Aj est au plus dnombrable.
jJ
Preuve. Le cas J = est trivial puisqualors A = . Si tous les Aj sont vides, A lest
aussi (quel que soit J). On suppose dsormais que J nest pas vide et quau moins un
des Aj est non vide. On va montrer que A est au plus dnombrable en construisant une
injection h de A dans N.
On peut traduire les hypothses en crivant quil existe une injection 8 f : J N et
que pour tout j tel que Aj 6= , il existe une injection gj : Aj N . Admettons pour un
instant que lon peut construire une famille (A0j )jJ densembles deux deux disjoints
tels que pour tout j J, A0j Aj et que
A = Aj = A0j .
jJ
jJ
On dfinit alors lapplication h : A N comme suit. Si x A, il existe un unique j J

tel que x A0j . On pose alors :
g (x)
h(x) := pfj(j) ,
8. Toute injection dun ensemble dans N peut se transformer en injection du mme ensemble dans
N par composition avec la bection N N , n 7 n + 1.
22
1.3. Dnombrabilit
o pk dsigne le k-ime nombre premier. Remarquons que h(x) 2 puisque f (j) 1, la
suite (pk ) est croissante de premier terme p1 = 2 et gj (x) 1.
Pour vrifier linjectivit de h, soient x et y dans A tels que h(x) = h(y). En notant
l lunique indice tel que y A0l , cette galit scrit
g (x)
g (y)
pfj(j) = pfl(l) .
En raison de lunicit de la dcomposition dun entier n 2 en facteurs premiers, ceci
entrane f (j) = f (l) et gj (x) = gl (y), puis par injectivit de f , j = l et gj (x) = gj (y).
Comme gj est injective, on en dduit que x = y. Linjectivit de h est ainsi tablie.
Il reste justifier la construction de la famille (A0j )jJ . On commence par transporter
lordre de N sur J via lapplication f en crivant pour j, l J, que j l signifie
que f (j) f (l). Ceci nous permet de noter les lments de J en suivant cet ordre
J = {j0 , j1 , . . .}, o j0 j1 . . . . Ensuite on construit A0j par rcurrence en posant
A0j0 := Aj0 ,
A0j1 := Aj1 (A \ Bj0 ),
A0j2 := Aj2 (A \ Bj1 ),
......
Bj0 := Aj0
Bj1 := Bj0 Aj1
Bj2 := Bj1 Aj2
......
Les dtails de la vrification sont laisss au lecteur.

Proposition 1.41 (dnombrabilit par image surjective). Soient A et B deux ensembles
tels quil existe une surjection f de A sur B. Alors si A est dnombrable, B est au plus
dnombrable. Si A est fini, B est fini et card B card A.
Il est possible que A soit infini et B fini, un exemple vident tant fourni par lapplication nulle f : x 7 0 de A = N dans B = {0} qui est clairement une surjection.
Preuve. Supposons A dnombrable. Dfinissons sur A la relation dquivalence x x0
si f (x) = f (x0 ). Les classes dquivalences pour cette relation ralisent une partition
de A. Dans chaque classe dquivalence, choisissons un reprsentant particulier 9 . Soit
A0 la partie de A forme de tous les reprsentants ainsi choisis. Si x et x0 sont deux
lments distincts de A0 , ils sont dans deux classes c et c0 disjointes, donc f (x) 6= f (x0 ).
La restriction de f A0 est donc injective. Par ailleurs, puisque f est surjective, tout
y B a au moins un antcdent x dans A. Si c est la classe de x, il y a dans cette
classe un (unique) lment de A0 qui a lui aussi y pour image par f . Donc la restriction
de f A0 reste surjective et cest finalement une bection de A0 sur B. Lensemble B
est en bection avec une partie A0 de lensemble dnombrable A, il est donc au plus
dnombrable.
Le cas A fini est une adaptation facile de ce qui prcde.
9. Par exemple en fixant une numrotation de A par les entiers (k 7 xk ) et en dcidant de prendre
dans la classe c llment xk dindice k minimal. On vite ainsi linvocation de laxiome du choix. . .
23
1.4
Rappels sur les sries
Dans cette section nous rappelons sans dmonstrations les points essentiels de la
thorie des sries numriques vue en deuxime anne. Nous dtaillerons seulement la
question de la convergence commutative en raison de son rle dans la thorie des familles
sommables.
1.4.1
Gnralits
Dfinition 1.42. Soit (uk )kN une suite de nombres rels ou complexes. Pour tout n N,
on appelle somme partielle de rang n le nombre
Sn :=
n
X
uk .
k=0
Si Sn tend vers une limite finie S quand n tend vers +, on dit que la srie de
terme gnral uk converge et a pour somme S, ce que lon crit
S=
+
X
uk := lim Sn .
n+
k=0
Dans ce cas, Rn := S Sn est appel reste de rang n de la srie.

Si Sn na pas de limite finie (i.e. tend vers ou + ou na pas de limite du
tout), on dit que la srie diverge.
Remarque 1.43. Par un abus
dcriture courant, on dsigne la srie (convergente ou
P+
divergente) par la notation k=0 uk , mais on ne peut faire intervenir cette expression
dans des calculs que si elle reprsente vraiment un nombre, i.e. si la srie converge.
Remarque 1.44. Si les uk sont complexes, posons xk := Re uk et yk := Im uk , Sn0 :=
Re Sn et Sn00 := Im Sn . La suite Sn converge dans C vers S si et seulement si Sn0 et
Sn00 convergent dans R vers respectivement S 0 := Re S et S 00 := Im S. On en dduit
immdiatement que la srie de terme gnral complexe uk = xk + iyk converge si et
seulement si les sries de terme gnral xk et yk convergent dans R et que dans ce cas
+
X
k=0
(xk + iyk ) =
+
X
k=0
xk + i
+
X
yk .
k=0
Remarque 1.45. La dfinition 1.42 se gnralise immdiatement au cas o les uk sont

lments dun espace vectoriel norm E, la convergence dans E de Sn vers le vecteur S
signifiant limn+ kS Sn k = 0.
Proposition 1.46. Si une srie converge, son terme gnral un tend vers 0 quand n
tend vers linfini.
Remarque 1.47. La rciproque de la proposition 1.46 est fausse. Un contre exemple
bien connu est la srie harmonique de terme gnral uk = 1/k pour k 1 (et u0 = 0).
24
1.4. Rappels sur les sries

Remarque 1.48. La contrapose de la proposition 1.46 snonce : si un ne tend pas
vers 0 quand n tend vers linfini, alors la srie diverge. On parle dans ce cas de divergence
grossire de la srie.
Exemple 1.49 (sriesPgomtriques). Soit q un nombre rel ou complexe. La srie
+ k
gomtrique standard
k=0 q converge si et seulement si |q| < 1. Dans ce cas, sa
somme est donne par
+
X
1
(|q| < 1).
qk =
1
q
k=0
Cette formule permet de calculer la somme de nimporte quelle srie gomtrique convergente (donc de raison q vrifiant |q| < 1). Il suffit de mettre en facteur le premier terme.
Si (uk )kN est une suite gomtrique de raison q (i.e. uk+1 = quk pour tout k avec q ne
dpendant pas de k), vrifiant |q| < 1, on a pour tout j N,
+
X
uk =
k=j
+
X
uj q kj = uj
k=j
+
X
l=0
ql =
uj
.
1q
Thorme 1.50 (critre de Cauchy). La srie termes rels ou complexes

converge si et seulement si
> 0, N N, n, m N,
P+
k=0
uk
|Sn Sm | < .
Ce thormePnest que lapplication du critre de Cauchy la suite des sommes

partielles Sn = nk=0 uk . Il se gnralise immdiatement au cas o les termes uk sont
des lments dun espace vectoriel norm complet 10 , en remplaant |Sn Sm | < par
kSn Sm k < .
P+
Corollaire
1.51
(convergence
absolue).
Si
la
srie
k=0 |uk | converge, alors la srie
P+
k=0 uk converge aussi. On dit quelle est absolument convergente.
Le rsultat stend immdiatement aux sries termes dans un espace vectoriel norm
complet en remplaant |uk | par kuk k. On parle alors de convergence normale.
Remarque 1.52. La rciproque du corollaire 1.51 est fausse. Un contre exemple bien
connu est la srie alterne de terme gnral uk = (1)k /k (k 1) qui converge alors
que la srie des valeurs absolues est la srie harmonique qui diverge.
1.4.2
Sries termes positifs
Si tous les uk sont positifs, (Sn )nN est une suite croissante car pour tout n 1,
Sn Sn1 = un 0. Il ny a alors que deux cas possibles :
ou bien Sn a une limite finie S dans R+ , la srie converge et a pour somme S ;
10. Cest le cas en particulier pour les sries valeurs dans Rd . Un espace vectoriel norm complet
est appel espace de Banach.
25

ou bien Sn tend vers + et la srie diverge.
La divergence dune srie termes positifs quivaut donc la convergence vers + de
la suite de ses sommes partielles. Il est commode dans ce cas de considrer que la srie
convergePdans R+ et que sa somme vaut +. Ainsi lorsque les uk sont tous positifs,
lcriture +
k=0 uk a toujours un sens comme reprsentant un lment S de R+ : S tant
un rel positif si la srie converge au sens de la dfinition 1.42, S = + sinon.
Il importe de bien comprendre que ceci est particulier aux sries termes positifs.
Une srie termes de signe quelconque 11 peut trs bien diverger sans que la suite des
sommes partielles tende vers + ou . Un exemple vident est la srie de terme
gnral uk = (1)k .
Thorme 1.53 (comparaison). On suppose quil existe un k0 N tel que pour tout
k k0 , 0 uk vk . Alors
P
P+
a) la convergence 12 de +
uk ;
k=0 vk implique celle de
P+
P+ k=0
b) la divergence de k=0 uk implique celle de k=0 vk .
Parmi les applications du thorme de comparaison figure la comparaison une srie
gomtrique qui a donn naissance aux rgles dites de DAlembert et de Cauchy (bases
1/n
respectivement sur ltude du comportement asymptotique de un+1 /un et de un ). Ces
rgles nont dautre utilit que de rsoudre des exercices ad hoc et on peut facilement
sen passer.
13
Thorme 1.54 (rgle des quivalents). On suppose que uk et vk sont quivalents
P+
quand
n tend vers linfini et qu partir dun rang k0 , vk 0. Alors les sries k=0 uk
P+
vk sont de mme nature (toutes deux convergentes ou toutes deux divergentes).
et k=0
Attention, lhypothse dquivalence de uk et vk nimplique pas elle seule que les

deux sries soient de mme nature si le signe de vk nest pas constant partir dun
certain rang. Comme contre exemple on peut proposer uk = (1)k k 1/2 et vk = uk + 1/k
(exercice).
Thorme 1.55 (comparaison srie-intgrale).PSoit f continue sur [k0 , +[, dcrois+
sante
et positive sur cet intervalle. La srie
k=k0 f (k) converge si et seulement si
Rn
f (t) dt a une limite finie quand n tend vers +.
k0
La dmonstration repose sur lencadrement
n > k0 ,
n1
X
k=k0
f (k + 1)
f (t) dt
k0
n1
X
f (k)
k=k0
illustr par la figure 1.4. Cet encadrement a son intrt propre pour contrler le reste
dune srie laide dune intgrale gnralise (ou vice versa).
En appliquant le thorme 1.55 avec f (t) = t , > 0 et k0 = 1, on obtient la
caractrisation de la convergence des sries de Riemann.
11. Plus prcisment une srie dont la suite des termes prsente une infinit de changements de signe.
12. La convergence et la divergence dans cet nonc sont entendues au sens de la dfinition 1.42.
13. Ce qui signifie que lon peut crire uk = ck vk avec limk+ ck = 1.
26

y
f (k)
0
f (k + 1)
k
k+1
Fig. 1.4 Comparaison srie-intgrale : f (k + 1)
R k+1
k
f (t) dt f (k)
Corollaire 1.56 (sries de Riemann).

(
+
X
convergente pour > 1,
1
La srie
est
k
divergente pour 0 < 1.
k=1
La srie est aussi divergente pour 0, puisqualors son terme gnral ne tend pas
vers 0.
Corollaire 1.57 (sries de Bertrand).
La srie
+
X
k=2
1
est
k(ln k)
(
convergente pour > 1,
divergente pour 0 < 1.
Remarque 1.58. Pour 6= 1 (ou pour = 1 et 0), la nature de la srie de Bertrand

P
+
(ln k) sobtient directement par comparaison avec une srie de Riemann.
k=2 k
1.4.3
Sries termes de signe non constant
P+
P
Aprs avoir vu que la convergence de +
k=0 uk , on peut
k=0 |uk | implique celle de
se demander sil existe des sries qui convergent sans converger absolument.
Remarquons dabord que P
si le signe de uk est constant partir dun certain rang k0 ,
ltudePde la convergence
de +
k=0 uk se ramne celle dune srie termes positifs. En
P
+
effet, +
u
et
u
sont
de mme nature et si uk 0 pour k k0 , il suffit de
k=0Pk
k=k0 k
+
considrer k=k0 (uk ). Ainsi pour une srie termes de signe constant partir dun
certain rang, la convergence quivaut la convergence absolue et la divergence ne peut
se produire que si Sn tend vers + ou vers . Les seules sries susceptibles dtre
convergentes sans ltre absolument sont donc celles dont le terme gnral change de
signe une infinit de fois.P
k
Par exemple, la srie +
k=1 (1) /k converge mais pas absolument. Cest une application du thorme des sries alternes.
27

Thorme 1.59 (des sries alternes). Soit (uk )kN une suite alterne (i.e. pour tout k,
uk et uk+1 sont de signes contraires) telle que |uk | dcroisse et tende vers 0. Alors
P
a) la srie +
k=0 uk converge,
14
b) pour tout n N, les sommes
P+partielles conscutives Sn et Sn+1 encadrent la
somme S et le reste Rn = k=n+1 uk vrifie
|Rn | |un+1 |.
P
k
Exemple 1.60. Pour 0 < 1, la srie +
converge mais pas absolument.
k=1 (1) k
Pour > 1 elle est absolument convergente.
P
k
Exemple 1.61. La srie +
k=1 (1) / ln k converge mais pas absolument.
Remarque 1.62. Mme si une srie alterne est absolument convergente, le b) du
thorme reste intressant pour le calcul numrique de la somme S.
1.4.4
Oprations sur les sries
La somme des sries de terme gnral uk et vk est la srie de terme gnral (uk + vk ).
Le produit de la srie de terme gnral uk par la constante a est la srie de terme gnral
auk . Le produit de deux sries sera tudi plus tard laide des familles sommables.
Proposition 1.63. Les affirmations suivantes sont vrifies pour des sries termes
rels ou complexes ou dans un espace vectoriel norm.
P+
P
u
et
a) La somme de deux sries convergentes +
k
k=0 vk est une srie converk=0
gente et
+
+
+
X
X
X
(uk + vk ) =
uk +
vk .
k=0
k=0
P+
b) Le produit de la srie convergente

gente et
+
X
k=0
k=0
uk par la constante a est une srie conver-
auk = a
k=0
+
X
uk .
k=0
c) La somme dune srie convergente et dune srie divergente est une srie divergente.
d) La somme de deux sries divergentes peut tre convergente ou divergente.
Dans une somme dun nombre fini de termes, les proprits de commutativit et
dassociativit de laddition permettent
de changer lordre des termes sans changer la valeur de la somme,
de faire des groupements de termes sans changer la valeur de la somme.
14. Attention, une fois sur deux on aura Sn+1 Sn .
28

Que deviennent ces proprits pour les sries considres comme sommes dune infinit
de termes ? En gros la rponse est : si la srie est absolument convergente, tout se passe
bien, sinon on peut avoir des situations trs pathologiques.
Le seul cas o lon nait pas besoin de convergence absolue pour retrouver une situation conforme aux proprits des sommes dun nombre fini de termes est celui de la
sommation par paquets de taille finie fixe.
Proposition 1.64 (sommation par paquets de taille finie fixe). Soit (un )nN une suite
tendant vers 0 linfini. Fixons un entier p 2 et dfinissons les paquets de p termes
conscutifs
p1
X
ujp+i ,
j N.
vj =
i=0
Alors les sries

convergent.
P+
k=0
uk et
P+
j=0
vj sont de mme nature et ont mme somme lorsquelles
Remarque 1.65. Sans lhypothse de convergence vers 0 de la suite (un ), le rsultat

devient grossirement faux, contre exemple un = (1)n .
P+
P
Remarque 1.66. Si +
j=0 vj
k=0 uk est absolument convergente, la srie des paquets
lest aussi. La rciproque
est
fausse,
comme
on
peut
le
voir
en
groupant
deux
par
deux
P+
k
les termes de la srie k=0 (1) /(k + 1), obtenant ainsi la srie de terme gnral positif
vj = (2j + 1)1 (2j + 2)2 quivalent 4j 2 .
P
Dfinition 1.67 (convergence commutative). La srie +
k=0 uk est dite commutativeP
ment convergente et de somme S si pour toute bection f : N N la srie +
k=0 uf (k)
converge et a pour somme S. Dans ce cas nous pouvons utiliser la notation
S=
X
kN
uk
au lieu de
S=
+
X
uk ,
k=0
puisque la somme de la srie ne dpend pas de lordre dans lequel on effectue la sommation. Lcriture avec indexation par k N ne prsuppose aucun ordre dcriture des
termes 15 .
Thorme 1.68. La convergence absolue dune srie termes rels ou complexes, implique sa convergence commutative.
Nous allons dmontrer le thorme en examinant successivement les cas des sries
termes positifs, rels et complexes.
P
15. Par analogie avec lcriture iI ui , o I est un ensemble fini dindices. Dans ce cas le rsultat
de laddition des ui pour i I ne dpend pas de lordre des termes et dailleurs lensemble I na nul
besoin ici dtre ordonn.
29

Preuve du th. 1.68, cas dune srie termes positifs. Nous traitons dabord le cas dune
srie termes positifs pour laquelle la convergence absolue se rduit la convergence et
signifie que la suite croissante des sommes partielles Sn a une limite finie S dans R+ .
Soit f une bection N N. Dfinissons les deux suites dentiers (pn )nN et (qn )nN
comme suit. Pour pn nous prenons le plus petit entier p tel que {f (k); k p} recouvre
{0, . . . , n}. Lexistence de tels p et donc de pn dcoule clairement de la surjectivit de f .
Pour qn on prend max{f (k); 0 k pn }. Autrement dit pn sert recouvrir {0, . . . , n}
de la manire la plus conomique par les premiers termes de la suite des f (k) et qn sert
boucher les trous de la suite dentiers ainsi forme. On a ainsi
n N,
{0, . . . , n} {f (k); k pn } {0, . . . , qn }.
(1.15)
On a clairement n pn et n qn donc pn et qn tendent vers linfini avec n. De plus ces

deux suites sont croissantes de par leur construction. Posons
Sn :=
n
X
uk ,
Tn :=
k=0
n
X
uf (k) .
k=0
En raison de la positivit des uk et de (1.15), nous disposons de lencadrement

n N,
Sn Tpn Sqn .
(1.16)
Si Sn converge vers S, la sous-suite (Sqn ) converge aussi vers S et (1.16) implique alors
la convergence de (Tpn ) vers S. En raison de la positivit des uk , la suite (Tn ) est
croissante. Nous venons de voir quelle a une sous-suite qui converge
Pvers S, cest donc
toute la suite (Tn ) qui converge vers S. Nous venons dtablir que +
k=0 uf (k) converge
P+
et a pour somme S = k=0 uk . Comme la bection f est quelconque, ceci achve la
preuve du thorme 1.68 dans le cas dune srie termes positifs.
Remarque 1.69. Pour tablir (1.16), nous navons pas utilis lhypothse de convergence de la srie de terme gnral uk , mais seulement
P+ la positivit des uk . Par consquent
(1.16) reste valable si la srie termes positifs k=0 uk diverge. Dans ce cas Sn tend vers
+, donc aussi Tpn et la suite croissante (Tn ) ayant unePsous-suite tendant P
vers +,
+
cest toute la suite (Tn ) qui tend vers linfini. Ainsi on a k=0 uf (k) = + = +
k=0 uk .
Pour la commodit de rfrence et en raison du rle essentiel jou par les sries
termes positifs dans ce cours, nous rassemblons dans lnonc suivant les rsultats
obtenus dans la preuve du thorme 1.68 (cas uk 0) et dans la remarque 1.69 .
Proposition 1.70. Si (uk )kN est une suite de rels positifs, on a pour toute bection
f : N N,
+
+
X
X
uk =
uf (k) ,
k=0
k=0
cette galit ayant lieu dans R+ . Ainsi si les uk sont positifs, la notation
toujours lgitime et reprsente la somme S R+ de la srie.
30
kN
uk est

Dans la preuve du thorme 1.68, le cas dune srie termes rels de signe quelconque
va se ramener celui dune srie termes positifs en utilisant la dcomposition dun
rel en partie positive et partie ngative. Ceci requiert une digression pralable (de la
dfinition 1.71 la remarque 1.74).
Dfinition 1.71 (parties positive et ngative). Pour tout x rel, sa partie positive note
x+ et sa partie ngative note x sont les rels positifs dfinis par
x+ := max(0, x),
x := max(0, x).
On a alors pour tout x rel

x = x+ x ,
|x| = x+ + x .
(1.17)
(1.18)
Par exemple si x = 3,12, x+ = 3,12 et x = 0, si x = 2,3, x+ = 0 et x =

2,3. Il importe de bien noter que la partie ngative dun rel est un nombre positif ou
nul. Voyons dabord comment intervient cette dcomposition pour une srie absolument
convergente.
P
absolument convergente et de
Lemme 1.72. Si +
k=0 uk est une srie
P+ termes
Prels
+
+
somme S, les sries termes positifs k=0 uk et k=0 uk sont convergentes et on a
+
X
uk =
k=0
+
X
k=0
(u+
k
u
k)
+
X
k=0
u+
k
+
X
u
k.
(1.19)
k=0
+
Preuve. Par (1.18), on a 0 u+
k |uk | et 0 uk |uk |. Les sries de terme gnral uk
et u
k sont donc convergentes par le thorme de comparaison. La premire galit dans
(1.19) rsulte alors de (1.17) applique x = uk . La deuxime galit sobtient par la
proposition 1.63 a) et b).
P
+
Remarque
1.73. La rciproque estPvraie : si les sries termes positifs +
k=0 uk et
P+
+
k=0 uk est absolument convergente et on a (1.19)
k=0 uk sont convergentes, la srie
grce la proposition 1.63. Ceci montre que lon ne peut pas se passer de lhypothse
de convergence absolue dans le lemme 1.72. Il est dautre part facile dexhiber un contre
exemple : la srie de terme gnral uk = (1)k /k.
P
P+ +
+
=
est grossirement fausse ! Elle
Remarque 1.74. Lgalit +
u
k=0 uk
k=0 k
nest mme pas vraie pour des sommes finies. Comparez (a + b)+ et a+ + b+ pour a = 1
et b = 2 pour vous en convaincre.
P
Preuve du th. 1.68 dans le cas dune srie termes rels. Soit +
k=0 uk une srie absolument convergente termes rels et f une bection quelconque N N. On utilise la
dcomposition uf (k) = u+
f (k) uf (k) . Par le lemme 1.72, la convergence absolue de la srie
de terme gnral uk implique la convergence des sries termes gnraux positifs u+
k
.
La
preuve
du
thorme
et u
1.68
dans
le
cas
des
termes
positifs
nous
fournit
alors
la
k
31

P
P+
P+ +
+
convergence des sries +
u
et
u
et
lgalit
de
leurs
sommes
avec
k=0 f (k)
k=0 f (k)
k=0 uk
P+
et Pk=0 uk respectivement. Par la remarque 1.73, on en dduit la convergence absolue
+
de k=0
uf (k) . Compte-tenu du lemme 1.72, on a de plus
+
X
k=0
uf (k) =
+
X
u+
f (k)
k=0
+
X
u
f (k)
+
X
k=0
u+
k
k=0
+
X
k=0
u
k
+
X
(u+
k
k=0
u
k)
+
X
uk .
k=0
Preuve du th. 1.68 dans le cas dune srie termes complexes. Pour des uk complexes,
notons xk := Re uk et yk := Im uk . Grce aux ingalits 0 |xk | |uk | et 0 |yk | |uk |,
les sries de terme gnral rel xk et yk hritent de la convergence absolue de la srie de
terme gnral complexe uk . On conclut alors en combinant la preuve du th. 1.68 dans le
cas rel et la remarque 1.44.
Remarque 1.75. Largument utilis ci-dessus dans le cas complexe se gnralise aux
sries valeurs dans un espace vectoriel norm E de dimension finie, disons pour simplifier E = Rd . En effet sur cet espace toutes les normes sont quivalentes et on peut
donc choisir la norme donne par kxk = max1id |xi | pour x = (x1 , . . . , xd ). La convergence dune suite dans
k k) quivaut la convergence composante par composante
P(E,
+
et la convergence de k=0 kuk k implique la convergence absolue des d sries de terme
gnral uk,i , en posant uk = (uk,1 , . . . , uk,d ). Ladaptation de la preuve ci-dessus est alors
immdiate. Par contre si E est de dimension infinie, ce raisonnement nest plus valable.
Thorme 1.76. La convergence commutative dune srie termes rels ou complexes,
implique sa convergence absolue.
Preuve. Il est clair quil suffit de traiter le cas des sries termes rels. Nous allons dmontrer la contrapose de lnonc, cest--dire que la ngation de la conclusion implique
la ngation de lhypothse. Dans ce but nous supposons que la srie de terme gnral uk
converge vers le rel S mais pas absolument, autrement dit que :
+
X
uk = S R
et
k=0
+
X
|uk | = +.
k=0
Nous allons construire une bection f : N N telle que

vers S.
On commence par noter que (1.20) implique que
+
X
k=0
(1.20)
u+
k = +
et
+
X
P+
u
k = +.
k=0
uf (k) ne converge pas
(1.21)
k=0
P
En effet si ces deux sommes sont finies, la srie +
convergente
k=0 uk est absolument
P
par la remarque 1.73. Si lune est finie et lautre infinie, la srie +
u
diverge
par la
k=0 k
proposition 1.63 b) et c).
32

Nous allons
P montrer que lon peut construire une bection f pour laquelle les sommes
partielles nk=0 uf (k) oscillent indfiniment entre 1 et 1 et donc nont pas de limite.
Lcriture explicite de la dfinition de f tant assez lourde, nous nous contenterons de
donner lide de sa construction. Le point cl est le lemme suivant.
P
Lemme 1.77. Soit v = (vk )kN une suite de rels positifs telle que +
k=0 vk = +.
Pour tout intervalle born I de R+ , dfinissons
X
T (I, v) :=
vk ,
kNI
avec la convention T (, v) := 0. On a alors

i N, x R+ , !j = j(i, x, v) N;
T ([i, j[, v) x < T ([i, j], v).
(1.22)
Preuve du lemme. Notons ti,j := T ([i, j[, v). On remarque que pour tout i N fix, la
suite (ti,j )ji est croissante cause de la positivit P
des vk et tend vers + quand j tend
vers +. Ce dernier point rsulte de lhypothse +
k=0 vk = + et du fait que lon ne
change pas la divergence de cette srie en supprimant ses i premiers termes. De plus
on a ti,i = 0 car [i, i[= . Il est alors clair que lon obtient (1.22) avec j := max{l i;
ti,l x}.
Partageons maintenant N en les deux sous-ensembles complmentaires :
A+ := {l N; ul 0},
A := {l N; ul < 0}.
Il rsulte immdiatement de (1.21) que ces deux ensembles sont infinis (donc dnombrables comme parties infinies de N). Dfinissons alors les suites v = (vk )kN et w =
(wk )kN en prenant pour vk (resp. wk ) le terme de rang k dans la numrotation croissante des ul indexs par A+ (resp. A ).
En appliquant le lemme 1.77 alternativement avec les suites v et w,Pon peut
n
construire f par rcurrence de faon ce que les sommes partielles Tn =
k=0 uf (k)
se trouvent gauche de 1 pour une infinit de n et droite de +1 pour une infinit de
n. Voici le dbut de la construction. On applique dabord le lemme avec i = 0, x = 1 et
v. On obtient alors Tn1 1 pour n1 = j(0, 1, v) donn par(1.22). Ensuite on revient en
arrire en appliquant le lemme avec w, i = 0 et x = 1+Tn1 . Pour n2 = n1 +j(0, x, w),
on a alors Tn2 < 1. Pour la troisime tape, on utilise le lemme avec v, i = j(0, 1, v)+1,
x = Tn2 + 1 et pour n3 = n2 + j(i, x, v) on obtient Tn3 1. Et ainsi de suite. . .
On peut adapter la dmonstration ci-dessus pour construire dautres bections f de
faon faire osciller les sommes partielles entre a et b fixs, ou pour les faire converger
vers nimporte quel rel fix 16 , pour les faire tendre vers +, vers , etc.
Pour conclure cette section, retenons que pour les sries termes rels ou complexes,
convergence commutative et convergence absolue sont quivalentes.
16. Il faudra utiliser alors la convergence vers 0 de un , ce dont nous navons pas eu besoin ci-dessus.
33
1.5
Familles sommables
Dans cette section, nous allonsP

gnraliser la notion de srie en essayant de donner un
sens une expression de la forme iI ui , o I est un ensemble infini 17 . Dans le cadre de
ce cours, nous naurons besoin que du cas o les ui sont rels ou complexes. Nanmoins,
pour faciliter lutilisation dans dautres branches des mathmatiques (par exemple analyse complexe, sries de Fourier, analyse fonctionnelle. . .), nous nous situerons demble
dans le cas o les ui sont des lments dun espace vectoriel norm E. Le lecteur que
cela gnerait pourra facilement adapter les noncs au cas des ui rels ou complexes en
remplaant les normes par des valeurs absolues ou des modules. Cette simplification des
noncs napporte dailleurs pas de simplification notable des dmonstrations.
Partons de la dfinition de la convergence dune srie de vecteurs de terme gnral
uk dans un espace vectoriel norm E. Ici lensemble dindexation est N. On dit que
cette srie converge et a pour somme le vecteur S de E si la suite des sommes partielles
Sn := u0 + u1 + + un converge vers S, autrement dit si kSn Sk tend vers 0 quand
n tend vers +. Ceci scrit encore :
> 0, n0 N, n n0 ,
kSn Sk < .
(1.23)
Si on veut gnraliser ceci une famille de vecteurs (ui )iI o I est un ensemble infini
quelconque, on se heurte immdiatement une difficult, cest quune criture comme
i i0 , na en gnral pas de sens dans I qui na aucune raison dtre muni dune
relation dordre total. Essayons alors de traduire lide exprime par (1.23) sans faire
appel la structure dordre de N. On remarque pour cela que Sn ralise une approximation de S par la somme dun nombre fini de termes de la famille (uk )kN avec une erreur
kSn Sk infrieure . Cette approximation peut tre ralise par une somme finie
indexe par nimporte quel ensemble Kn := {0, 1, 2, . . . , n} dentiers conscutifs entre 0
et n pourvu que n n0 . Pour se dbarrasser de la relation dordre intervenant dans
cette dernire criture on la reformule en Kn Kn0 . Rcrivons maintenant (1.23)
laide des ensembles embots Kn .
X

> 0, Kn0 = {0, . . . , n0 }, Kn Kn0 ,
uk S < .
(1.24)
kKn
Au risque dinsister lourdement, notons que dans lcriture, Kn Kn0 , Kn dsigne non pas nimporte quelle partie finie de N, mais un ensemble fini de la forme
{0, 1, 2, . . . , n}. Avons nous russi ainsi expurger (1.23) de la relation dordre sur N ?
En fait non, nous avons seulement russi la cacher dans la dfinition des ensembles Kn
dentiers conscutifs entre 0 et n. Si on veut vraiment gnraliser un ensemble dindexation I quelconque, on est donc condamn renoncer cette structure particulire
des Kn et ne retenir que leur finitude. On est ainsi amen introduire une nouvelle
17. Lexpos prsent ici est essentiellement une adaptation du chapitre XIV Sries dans les espaces
vectoriels norms de louvrage de L. Schwartz,Topologie gnrale et analyse fonctionnelle, Hermann,
Paris 1970.
34
1.5. Familles sommables

notion de convergence pour la srie de terme gnral uk :
> 0, J fini N, K fini tel que J K N,
X

uk S < .

(1.25)
kK
Pourquoi avons nous pris la prcaution de qualifier cette convergence de nouvelle ? Parce
que sil est clair que (1.25) implique (1.24) et donc (1.23), rien ne nous permet daffirmer
que la rciproque soit vraie. Nous verrons dailleurs ci-dessous que cette rciproque est
fausse pour les sries qui ne sont pas commutativement convergentes.
Aprs ce briefing, lanons nous rsolument dans laventure de la sommation dune
famille (ui )iI indexe par un ensemble quelconque, les ui tant des lments dun espace
vectoriel norm E. Commenons par une notation. Si K est un sous-ensemble fini de I,
on pose :
X
SK :=
ui .
iK
Cette dfinition est cohrente puisque dans un espace vectoriel E la somme dun nombre
fini dlments de E est encore un lment de E et ne dpend pas de lordre dcriture
des termes. Cette notation nest pas contradictoire avec celle utilise pour les sommes
partielles Sn dune srie de terme gnral ui , i N, en considrant que Sn est une
abrviation de S{0,...,n} quil ne faut pas confondre avec S{n} = un . Dans le cas particulier
o K = , on fait la convention S := 0 (vecteur nul de E). Dans tout ce qui suit, les
lettres majuscules J, K dsigneront toujours des parties finies de I et nous omettrons
parfois dcrire K I si le contexte lve toute ambigut.
Dfinition 1.78 (famille sommable). Soit E un espace vectoriel norm, I un ensemble
dindices et (ui )iI une famille dlments de E. On dit que cette famille est sommable
de somme S E si
> 0, J fini I, K fini J,
X
ui .
On crira alors S =
kSK Sk < .
(1.26)
iI
Insistons sur le fait que cette dfinition ne suppose aucune structure dordre sur
lensemble dindices I et donc aucun ordre privilgi dcriture des termes. Si I est fini,
toute famille (ui )iI est trivialement sommable, il suffit de prendre S = SI et J = I
dans (1.26) pour avoir kSK Sk = 0. La dfinition 1.78 na donc dintrt que pour I
infini. Nous verrons bientt quen fait, on peut se ramener un I au plus dnombrable
(prop. 1.85).
Remarque 1.79. Si {ui , i I} est sommable, sa somme S est unique, cest--dire que
si les vecteurs S et S 0 vrifient tous les deux (1.26), alors S = S 0 . Bien sr, lensemble
fini J associ S 0 et par (1.26) na aucune raison dtre le mme que pour S, nous
le noterons donc plutt J 0 . Pour tout > 0, lensemble fini K = J J 0 contient la fois
J et J 0 , donc kS SK k et kS 0 SK k . Par ingalit triangulaire, kS S 0 k 2.
Dans cette dernire ingalit, K qui dpendait de a disparu et le premier membre ne
dpend pas de . Lingalit tant vraie pour tout > 0, kS S 0 k = 0 et S = S 0 .
35

La sommabilit est prserve par combinaison linaire. Lnonc prcis est le suivant.
Proposition 1.80 (sommabilit et combinaison linaire). Soient (ui )iI et (u0i )iI deux
familles sommables dans le mme espace vectoriel norm E, ayant mme ensemble dindexation I. Notons S et S 0 les sommes respectives. Alors pour tous scalaires a et b, la
famille (aui + bu0i )iI est sommable dans E, de somme aS + bS 0 .
Preuve. Il est clair quil suffit de traiter les deux cas particuliers de (ui + u0i )iI et de
(aui )iI . Nous dtaillons seulement le premier, laissant lautre au lecteur. Par hypothse
de sommabilit des familles (ui )iI et (u0i )iI , on a pour tout > 0, deux parties finies
J et J 0 de I telles que pour tous K, K 0 finis tels que J K I et J 0 K 0 I,
0
kS SK k < /2 et kS 0 SK
0 k < /2. Ces deux ingalits sont vraies en particulier pour
0
K = K = L o L est nimporte quelle partie finie de I contenant J J 0 . Par ingalit
triangulaire, on a alors k(S + S 0 ) (SL + SL0 )k < . Par les proprits de laddition dans
E et la finitude de L, on a
X
X
X
ui +
u0i =
(ui + u0i ).
SL + SL0 =
iL
iL
iL
On a donc bien vrifi que (ui + u0i )iI est sommable et a pour somme S + S 0 .
La sommabilit est prserve par permutation sur les indices.
Proposition 1.81 (invariance par permutation). Soit (ui )iI une famille sommable de
somme S. Alors pour toute bection : I I, la famille (u(i) )iI est sommable de
somme S.
Preuve. Il sagit de montrer que (vi )iI est sommable de mme somme S que (ui )iI , les
vi tant dfinis par vi := u(i) . Lhypothse de sommabilit de (ui )iI scrit
> 0, J fini I, K fini J,
kSK Sk <
(1.27)
Posons J 0 := 1 (J) = {1 (i); i J}. Lensemble J 0 est fini car en bection avec
lensemble fini J par 1 . Pour tout K 0 fini contenant J 0 , lensemble fini (K 0 ) contient
(J 0 ) et ce dernier ensemble est gal J. On a donc en appliquant (1.27) avec (K 0 ) au
lieu de K, kS(K 0 ) Sk < et ceci est vrai pour tout K 0 fini contenant J 0 . Dautre part
S(K 0 ) =
u` =
u(i) =
iK 0
`(K 0 )
vi .
iK 0
Nous avons donc montr que

0
> 0, J fini I, K fini J ,
X

vi S < ,

iK 0
autrement dit que (vi )iI est sommable de somme S.
36

Remarque 1.82 (sommabilit dune srie). Plaons nous un instant dans le cas particulier I = N. Nous savions dj, cf. limplication (1.25) (1.23)
vue en introduction, que la
P+
sommabilit de (uk )kN implique la convergence de la srie k=0 uk . La proposition 1.81
nous apprend en plus que cette convergence est ncessairement commutative. Dans le
cas o les uk sont rels ou complexes, on peut donc dire quePla sommabilit de (uk )kN
implique la convergence commutative et absolue de la srie +
k=0 uk , cf. thorme 1.76.
Ainsi comme nous lavions annonc en introduction, limplication (1.23) (1.25)
est fausse. Par exemple la srie de terme gnral uk = (1)k /(k + 1) est convergente,
mais la famille (uk )kN nest pas sommable.
Il est facile de donner une caractrisation de la sommabilit pour les familles de rels
positifs.
Proposition 1.83. Soit (ui )iI une famille dlments de R+ .
a) Si (ui )iI est telle que
M := sup SK < +,
(1.28)
K fini I
alors elle est sommable de somme M .

b) Rciproquement, si (ui )iI est sommable de somme S, on a
S=
sup SK ,
(1.29)
K fini I
donc ce sup est fini.

Preuve du a). Soit > 0. Comme M est fini, M est strictement infrieur M . Par
minimalit du supremum M parmi tous les majorants de lensemble {SK ; K fini I},
il existe une partie finie J de I telle que
M < SJ M.
De plus pour toute partie finie K de I, contenant J,
M < SJ SK M.
(1.30)
En effet, SK SJ = SK\J est une somme de rels positifs, donc positive, ce qui justifie
la deuxime ingalit dans (1.30). La troisime dcoule de la dfinition de M . Comme
(1.30) implique |M SK | < , nous avons ainsi tabli que {ui , i I} est sommable et
de somme M .
Preuve du b). Supposons maintenant que (ui )iI est sommable dans R+ , de somme S.
Notons M le supremum dfini par (1.29), quil soit fini ou infini. On commence par
remarquer que pour toute partie finie J de I, on a lgalit suivante dans R+ :
M := sup SL =
sup
L fini I
K fini, JKI
SK .
(1.31)
37

En effet la positivit des ui et linclusion de L fini dans lensemble fini L J contenant
J, nous donnent pour tout L fini lingalit SL SLJ . On en dduit lingalit des
suprema
M
sup
SK .
K fini, JKI
Lingalit inverse tant vidente, (1.31) est vrifie.

Soit > 0 quelconque. Il existe une partie finie J = J() de I telle que pour tout K
fini vrifiant J K I, SK ]S , S + [. Ceci implique
SK [S , S + ]
sup
K fini, JKI
et compte-tenu de (1.31) appliqu avec J = J(), M [S , S + ]. Ceci nous montre

dj que M est fini. On a de plus |S M | pour tout > 0, do M = S.
Remarque 1.84. Il rsulte de la proposition 1.83 quune famille de rels positifs ui est
non sommable si et seulement si le supremum M des sommes SK pour K partie finie de
I vaut +. La situation est analogue celle des sries termes positifs qui ne peuvent
diverger que si la suite des sommes
partielles tend vers +. On pourra donc toujours
P
donner un sens lexpression iI ui , considre comme lment de R+ , en posant
X
iI
(
S R+ , si (ui )iI est sommable de somme S,
ui := sup SK =
+,
sinon.
K fini ,KI
(1.32)
Cette situation est particulire

aux familles termes positifs et cest le seul cas o nous
P
donnerons un sens iI ui sans que la famille soit forcment sommable.
Proposition 1.85 (sommabilit et dnombrabilit). Si (ui )iI est sommable, lensemble
dindices I 0 := {i I; ui 6= 0} est au plus dnombrable.
Preuve. Pour chaque n N , appliquons (1.26) avec = 1/n et choisissons lun 18 des
ensembles finis J donns par (1.26), que nous noterons Jn . Posons
H := Jn .
nN
Lensemble H est au plus dnombrable comme runion dnombrable densembles au

plus dnombrables (prop. 1.40). Si H = I, alors I 0 qui est inclus dans H est donc au
plus dnombrable. En dehors de ce cas trivial, I \ H nest pas vide. Soit i0 un lment
quelconque de I \ H. En appliquant (1.26) avec = 1/n, J = Jn et chacun des deux
ensembles finis K = Jn , K 0 = Jn {i0 }, on obtient les deux ingalits :
kSJn Sk
1
n
et kui0 + SJn Sk
1
,
n
18. La proprit (1.26) nous assure quil existe au moins un J pour donn, mais ne dit rien sur
lunicit.
38

vraies pour tout n N . En crivant ui0 = (ui0 + SJn S) + (S SJn ), lingalit
triangulaire nous donne
2
n 1, kui0 k .
n
Faisant tendre n vers linfini (noter que i0 est fix et ne dpend pas de n), on en dduit
kui0 k = 0, do ui0 = 0. Ce raisonnement tant valable pour nimporte quel i0 I \ H,
on en dduit que I 0 est inclus dans H. Par consquent, I 0 est au plus dnombrable.
Nous allons voir maintenant que pour I dnombrable, sommabilit de (ui )iI et
convergence commutative de la srie associe via une numrotation de I sont quivalentes.
Thorme 1.86. Si I est dnombrable, les proprits suivantes sont quivalentes :
a) (ui )iI est sommable de somme S ;
P
b) pour toute bection f : N I, la srie +
k=0 uf (k) converge et a pour somme S.
Avant de dmontrer ce thorme, remarquons que la proprit b) implique que la
srie de terme gnral vk := uf (k) est commutativement convergente et ceci pour tout
choix dune bection f : N I. En effet, fixons une telle bection et donc la suite
(vk )kN correspondante. Soit une bection quelconque de N sur N. On a pour tout
k N, v(k) = uf ((k)) = ug(k) , o g := f est une bection de N sur I. Par b), la srie
P
P+
cette srie est exactement +
k=0 v(k) . Par
k=0 ug(k) converge et a pour somme S. OrP
+
arbitrarit de la bection on en dduit que k=0 vk est commutativement convergente.
Rciproquement,
supposons quil existe au moins une bection h : N I telle que
P
u
converge
commutativement et ait pour somme S. Alors (ui )iI vrifie
la srie +
k=0 h(k)
la proprit b). En effet toute bection f : N I peut scrire f = (h h1 ) f =
h (h1 f ) = h , o := h1 f est une bection de N sur N. Alors pour tout
P+k N,
uf (k) = uh((k)) = v(k) , o lon a not vk := uh(k) le terme gnral de la srie k=0 uh(k) .
P
La srie +
k=0 vk tant commutativement convergente de somme S, on en dduit que la
srie de terme gnral uf (k) = v(k) converge et a pour somme S.
Preuve de a) b). Avec les Jn choisis comme dans la preuve de la proposition 1.85, on
a pour toute partie finie K de I contenant Jn , kSK Sk 1/n. Puisque f est une
bection de N sur I et Jn une partie finie de I, il existe pour chaque n N un entier
k0 (n) tel que

f {0, 1, 2, . . . , k0 (n)} Jn .
1
Il suffit de prendre pour cela, k0 (n)
:= max{f (i); i Jn }. Alors pour tout entier
l k0 (n), K := f {0, 1, 2, . . . , l} est une partie finie de I, contenant Jn et donc
P
kS SK k 1/n. Comme SK = lk=0 uf (k) , nous venons ainsi dtablir que :
n N , k0 (n),
l k0 (n),
l
X
1

uf (k) S ,

n
k=0
ce qui quivaut la convergence vers S de la srie de terme gnral uf (k) (cest juste
ce que lon obtient en discrtisant le > 0 en le remplaant par = 1/n dans la
dfinition de cette convergence).
39

Preuve de b) a). Nous allons prouver cette implication en dmontrant sa contrapose : non a) non b). La ngation de a) scrit
> 0, J partie finie de I, K fini,
J K I et kS SK k > .
(1.33)
Fixons une premire bection : N I. Posons k0 := 0 et J0 := {(0)}. Par (1.33)

il existe une partie finie K0 de I, contenant J0 et telle que kS SK0 k > . On peut
maintenant choisir un entier k1 > k0 tel que J1 := {0, 1, . . . , k1 } contienne strictement
K0 , il suffit pour cela de prendre k1 = 1 + max{1 (i); i K0 }. Une nouvelle invocation
de (1.33) nous fournit une partie finie K1 de I, contenant J1 et telle que kS SK1 k > .
Nous venons ainsi damorcer une rcurrence qui base sur lutilisation itre de (1.33),
nous permet de construire une suite strictement croissante dentiers (kn ), deux suites
(Jn ) et (Kn ) de parties finies de I, vrifiant :

n N, {0, 1, . . . , kn } = Jn Kn $ Jn+1 et kS SKn k > .
(1.34)
Par cette construction, la suite (Kn ) est strictement croissante pour linclusion. La
runion de cette suite est exactement I. En effet elle est videmment incluse dans I
puisque chaque Kn est une partie de I. Dans lautre sens, si i est un lment quelconque
de I, 1 (i) est un entier qui est major par kn pour n assez grand (la suite strictement
croissante dentiers (kn ) tend vers linfini). Par construction de Jn , lingalit 1 (i) kn
implique lappartenance de i Jn , donc aussi Kn . Ainsi un lment quelconque i de
I appartient toujours au moins un Kn , donc I Kn et finalement I = Kn .
nN
nN
Posant maintenant
I0 := K0
et n N ,
In := Kn \ Kn1 ,
il est clair quaucun des In nest vide (stricte croissance de (Kn )), quils sont deux
deux disjoints (pour la mme raison) et que leur runion est I. La famille {In ; n N}
constitue donc une partition de I en sous-ensembles finis. Notons maintenant
n N,
mn := card Kn 1.
Comme (Kn ) est strictement croissante pour linclusion, la suite dentiers (mn ) est strictement croissante. On obtient alors une partition {An ; n N} de N en posant :
A0 := {0, . . . , m0 },
et n N ,
An := {mn1 + 1, . . . , mn }.
Les An sont finis, card A0 = m0 + 1 = card K0 = card I0 et pour n 1,

card An = mn mn1 = card Kn card Kn1 = card In .
Dire quAn et In ont mme cardinal cest dire prcisment quil existe une bection
fn : An In . En recollant ces bections fn entre ensembles finis, on construit
une application f : N I : tout k N appartient un unique An (puisque les An
partitionnent N) et on pose alors
f (k) := fn (k),
40
(k An ).

Vrifions que f ainsi dfinie est une bection. Tout i I appartient un In (puisque les
In partitionnent I). Il a alors pour antcdent par f lentier fn1 (i) An . Ceci montre
que chaque i I a au moins un antcdent par f , donc que f est surjective. Pour vrifier
linjectivit, soient k et l deux entiers distincts. Ou bien ils sont dans le mme An et
alors f (k) = fn (k) 6= fn (l) = f (l) par injectivit de fn . Ou bien k An et l An0 avec
n 6= n0 . Alors f (k) In et f (l) In0 et comme In et In0 sont disjoints, f (k) et f (l) sont
forcment distincts. Nous avons finalement construit une suite strictement croissante
dentiers mn (donc tendant vers linfini) et une bection f : N I telles que

n N, f {0, . . . , mn } = Kn .
Au vu de (1.34), nous avons ainsi
n N,
mn
X

uf (k) S > ,

k=0
ce qui interdit la convergence vers S de la srie de terme gnral uf (k) . Lexistence

dune bection f pour laquelle la srie de terme gnral uf (k) ne converge pas vers S est
prcisment la proprit non b) .
Le prochain thorme est lanalogue du critre de Cauchy pour les familles sommables. Il est surtout important par ses corollaires. Il sapplique avec E espace vectoriel
norm complet donc en particulier avec E = R ou C.
Thorme 1.87 (critre de Cauchy pour la sommabilit). Soit E un espace vectoriel
norm complet. La famille (ui )iI dlments de E est sommable si et seulement si
> 0, J fini I, H fini I \ J,
kSH k < .
(1.35)
Avant dattaquer la preuve du thorme, faisons un peu de recherche en paternit

en comparant (1.35) avec le critre de Cauchy classique pour une srie. Supposons donc
pour un instant que I = N. Le critre de Cauchy classique pour la srie de terme gnral
uk scrit :
> 0, n0 N, p, q n0 , kSp Sq k < .
(1.36)
On peut toujours par confort dcriture supposer p q. Dfinissons les ensembles dentiers conscutifs Hp,q := {p, . . . , q} = [p, q] N. Avec cette notation, on peut rcrire
(1.36) sous la forme quivalente

> 0, H0,n0 N, Hp,q N \ H0,n0 , SHp,q < .
(1.37)
Cette criture tablit la filiation de (1.35) partir de (1.36) et nous permet de voir que
(1.35) implique (1.36). La rciproque est fausse en raison de la remarque 1.82 et du
thorme 1.87. Par exemple la srie de terme gnral uk = (1)k /(k + 1) est convergente
donc vrifie le critre de Cauchy (1.36). Pourtant elle nest pas sommable, donc ne vrifie
pas (1.35).
41

Preuve de sommabilit (1.35) . Supposons dabord (ui )iI sommable. Pour tout
> 0, il existe une partie finie J de I telle que pour toute partie finie K de I contenant
J, kSK Sk < /2. En appliquant cette ingalit avec K = J, puis K = J H, pour H
partie finie quelconque de I \ J, on obtient :
kSJ Sk <
et
kSJH Sk < .
2
Les ensembles dindices J et H tant disjoints et finis, SJH = SJ + SH . En crivant

SH = (SJH S) (SJ S), lingalit triangulaire nous donne kSH k < . Ceci tablit
(1.35). Notons que nous navons pas utilis la compltude de E dans cette partie.
Preuve de (1.35) sommabilit . Pour tablir la rciproque, supposons que la famille (ui )iI dlments de E vrifie (1.35).
Vrifions dabord que lensemble dindices I 0 := {i I; ui 6= 0} est au plus dnombrable 19 . En appliquant (1.35) avec = 1/n, pour tout n 1, on obtient une suite de
parties finies Jn de I telles que si H I \ Jn est fini, kSH k < 1/n. Ceci est vrai en
particulier avec H = {i}, pour i
/ Jn . Donc si i
/ Jn , kui k < 1/n. Ainsi si i
/ Jn ,
n1
autrement dit si i (I \ Jn ), on a kui k < 1/n pour tout n 1, do kui k = 0,

n1
puis ui = 0. On en dduit que I 0 est inclus dans Jn . Ce dernier ensemble est au plus
n1
dnombrable comme union dnombrable densembles finis, donc I 0 est lui-mme au plus
dnombrable.
Le cas I 0 fini est immdiat : on pose J = I 0 , S := SI 0 (bien dfini comme somme dun
nombre fini de vecteurs de E). Pour tout K fini contenant I 0 , SK = SI 0 + SK\I 0 = SI 0
puisque pour les i K \ I 0 , ui = 0. On a donc SK = S pour tout K I 0 , donc a fortiori
kSK Sk < pour tout > 0 (ici on a mme J indpendant de ). Ainsi (ui )iI est
sommable de somme S.
Passons au cas I 0 infini (donc ici dnombrable). Fixons une bection f : N I 0 et
dfinissons pour k N, vk := uf (k) . Notons Tn = v0 + + vn la n-ime somme partielle
P
de la srie de vecteurs +
k=0 vk . Vrifions que la suite (Tn )nN satisfait au critre de
Cauchy classique dans E. Pour > 0, choisissons lun des ensembles J associs par
/ I 0,
(1.35). Il est clair que lon peut remplacer J par J 0 := J I 0 puisque pour les i
ui = 0. J 0 est fini donc par surjectivit de f , il existe un entier m tel que f ({0, . . . , m })
recouvre J 0 . Alors pour m < m n, H := f ({m, . . . , n}) est fini et disjoint de J 0 , donc
par (1.35), kSH k < , ce qui peut encore scrire kTn Tm k < . Ainsi la suite Tn est de
Cauchy dans lespace complet E. Elle est donc convergente. Notons S sa limite.
Nous allons montrer pour finir que (ui )iI est sommable de somme S. En conservant
les notations qui ont servi vrifier que (Tn ) est de Cauchy et en choisissant pour tout
n m , Hn := f ({m , . . . , n}), on a kTn Tm k < . Compte-tenu de la convergence
de Tn vers S, on en dduit en faisant tendre n vers linfini que kS Tm k . Notons
J 00 := f ({0, . . . , m }) et rappelons que J 00 J 0 = I 0 J, o J est associ par (1.35).
19. Attention, ceci ressemble la proposition 1.85, mais ici on suppose (1.35) vraie au lieu de la
sommabilit de (ui )iI .
42

Dautre part SJ 00 = Tm , do kSJ 00 Sk . Soit K une partie finie de I, contenant J 00 .
En crivant que
SK = SJ 00 + SK\J 00 = S + (SJ 00 S) + SK\J 00 ,
on obtient par ingalit triangulaire
kSK Sk kSJ 00 Sk + kSK\J 00 k + kSK\J 00 k.
(1.38)
Puisque K \J 00 est fini et disjoint de J 0 (car J 0 J 00 ), on a kSK\J 00 k < . En reportant ceci

dans (1.38), on voit que pour tout K fini contenant J 00 , kSK Sk < 2. Ce raisonnement
tant valable pour tout > 0 (avec J 00 dpendant de ), on conclut que (ui )iI est
sommable de somme S.
Corollaire 1.88. Soit (ui )iI une famille dlments de lespace vectoriel norm complet
E. Si (kui k)iI est sommable dans R+ , alors (ui )iI est sommable dans E. On dit dans
ce cas quelle est normalement sommable ou si E = R ou C, absolument sommable.
Preuve. En appliquant la partie sommabilit (1.35) du thorme 1.87 la famille
(kui k)iI , ici lespace vectoriel est R, on obtient :
X
kui k < .
> 0, J fini I, H fini I \ J,
iH
Par ingalit triangulaire on en dduit :

kSH k
kui k < .
iH
La partie (1.35) sommabilit du thorme 1.87 applique cette fois la famille

(ui )iI dans lespace E nous fournit la sommabilit de cette dernire.
Nous sommes maintenant en mesure de faire un point dfinitif sur les diffrents modes
de sommation tudis pour une famille dans R ou C.
Proposition 1.89. Pour une famille (ui )iI avec I dnombrable et les ui dans R ou C,
les trois proprits sommabilit, convergence commutative et sommabilit absolue sont
quivalentes.
Preuve. Cette quivalence rsulte du thorme 1.86, du corollaire 1.88 et des thormes 1.68 et 1.76.
Le prochain corollaire nous sera utile pour tablir le thorme de sommation par
paquets.
Corollaire 1.90 (du th. 1.87). Soit (ui )iI une famille sommable dlments de lespace
vectoriel norm complet E.
a) Pour toute partie L de I, finie ou non, (ui )iL est sommable. On notera SL sa
somme.
43

b) Pour tout > 0, soit J une partie finie de I telle que pour toute partie finie K J
de I, kS SK k < . Alors on a kS SL k pour toute partie L J de I, finie
ou non.
c) Si L1 , . . . , Ln sont des parties deux deux disjointes de I, de runion L, alors
SL = SL1 + + SLn .
Preuve du a). Utilisons le critre de Cauchy (1.35).
> 0, J fini I, K fini I \ J,
kSK k < .
Ceci est vrai en particulier pour toute partie finie K de L disjointe de J, autrement dit
pour toute partie finie K de L disjointe de J 0 := J L. Nous avons donc
> 0, J 0 fini L, K fini L \ J 0 ,
kSK k < .
Ainsi (ui )iL est sommable par le critre de Cauchy (1.35).

Preuve du b). Par le a), la famille (ui )iL est sommable. Il existe donc pour tout n N
une partie finie Jn de L telle que pour tout ensemble fini Kn vrifiant Jn Kn L,
kSL SKn k < 1/n. Dautre part on a pour tout K fini vrifiant J K L I,
kS SK k < . Pour lensemble fini Kn0 := K Kn qui contient Jn et J, on a donc
la fois kS SKn0 k < et kSL SKn0 k < 1/n. Par ingalit triangulaire, on en dduit
kS SL k < + 1/n. Cette ingalit tant vraie pour tout n et son premier membre
ne dpendant pas de n, on en dduit en faisant tendre n vers + avec fix, que
kS SL k .
Preuve du c). Par le a), on sait que les n sous-familles (ui )iLl , l = 1, . . . , n sont sommables. Ainsi pour tout > 0, tout l = 1, . . . , n, il existe Jl partie finie de Ll telle que
pour tout Kl fini vrifiant Jl Kl Ll , kSKl SLl k < /n. Posons J = J1 Jn
et soit K une partie finie quelconque de L = L1 Ln , contenant J. En prenant
Kl := K Ll , les Kl des ensembles finis deux deux disjoints et de runion K, do
SK = SK1 + + SKn . On a alors par ingalit triangulaire :
n
n
n

X
X
X

SLl = (SKl SLl )
kSKl SLl k < n = .
SK
n
l=1
l=1
l=1
On a ainsi vrifi que (ui )iL est sommable de somme
Pn
l=1
SLl .
Thorme 1.91 (de sommation par paquets). Soit (ui )iI une famille dlments de
lespace vectoriel norm complet E. On suppose que I = I , les I tant non vides
A
et deux deux disjoints. Si (ui )iI est sommable de somme S, alors chacune des familles
(ui )iI est sommable et en notant SI sa somme, la famille (SI )A est sommable de
somme S. Autrement dit on a la formule de sommation par paquets :
X
XX
ui =
ui .
(1.39)
iI
44
iI

Preuve. Pour tout A, la sous-famille (ui )iI est sommable par
P le corollaire 1.90 a).
Pour toute partie finie C de A, nous pouvons alors dfinir TC := C SI , somme dun
nombre fini de vecteurs de E. De mme, IC := I tant une partie de I, la famille
C
(ui )iIC est sommable et nous notons sa somme SIC . Par le c) du corollaire 1.90, nous
avons TC = SIC .
Puisque (ui )iI est sommable de somme S, on dispose pour tout > 0 dun ensemble
fini J I tel que pour tout K fini vrifiant J K I, kS SK k < . Comme J est fini
et I = I , il existe une partie finie B de A telle que IB contienne J. Pour tout C fini
A
inclus dans A et contenant B, IC IB J, donc par le corollaire 1.90 b) (mme avec

IC infini) on a kS SIC k . Compte-tenu de lgalit SIC = TC , on a ainsi montr que
> 0, B fini A, C fini tel que B C A,
kS TC k .
Autrement dit, (SI )A est sommable de somme S.

Remarque 1.92. Il importe de noter que la sommabilit de la famille (SI )A nimplique pas celle de la famille (ui )iI . Voici un contre exemple avec E = R : on prend
I = Z, ui = i, A = N et pour tout k A, Ik = {k, k}. Alors pour tout k A, SIk = 0
et la famille (SIk )kN
P est sommable de somme 0. Par contre la famille (ui )iZ nest pas
sommable puisque iZ |i| = +.
Les familles de rels positifs constituent nouveau un cas particulier pour la sommation par paquets (et une exception la remarque 1.92). Il est naturel ici dlargir un
peu le problme en considrant les familles dlments de R+ . On prolonge laddition de
R+ R+ en posant
x R+ , x + (+) = (+) + x = +
et
(+) + (+) = +.
Avec cette convention, on peut toujours dfinir la somme de nimporte quelle famille
dlments de R+ en utilisant (1.32).
Thorme 1.93 (de sommation par paquets dans R+ ). Toute famille (ui )iI dlments
R+ vrifie la formule de sommation par paquets (1.39) interprte comme galit dans
R+ .
P
Preuve. Si M :=
iI ui < +, ncessairement tous les ui sont finis et la famille
(ui )iI est sommable (prop 1.83). Il ny a alors rien dmontrer puisquon est dans le
champ dapplication du thorme 1.91. La dmonstration gnrale par les suprema que
lon prsente maintenant englobe ce cas et a lavantage dviter de discuter suivant la
finitude ou non des ui ou des SI . Notons
M :=
sup SK
et M 0 :=
K fini I
sup SIB .
B fini A
Avec ces notations, lgalit (1.39) scrit M = M 0 . Nous allons montrer que M 0 M
et que M M 0 . Pour la premire ingalit, il suffit de remarquer que pour tout B fini
inclus dans A,
SIB = sup SL ,
(1.40)
L fini IB
45

do en majorant SL par M , SIB M , puis en prenant le supremum pour tout B fini
inclus dans A, M 0 M . Dans lautre sens, soit K une partie finie quelconque de I. Il
existe une partie finie B de A telle que IB = B I recouvre K. Daprs (1.40) on a
alors SK SIB . En majorant SIB par M 0 , on voit que pour tout K fini inclus dans I,
SK M 0 . En prenant le supremum sur K, on obtient M M 0 .
Thorme 1.94. Soit (ui )iI une famille dlments de lespace vectoriel norm complet
E. On P
suppose que I = A I , les I tant non vides et deux deux disjoints. On pose
TIP:= iI kui k. La famille (ui )iI est normalement sommable dans E si et seulement
si A TI < +. Elle vrifie alors la formule de sommation par paquets (1.39).
P
Preuve. La sommabilit dans R+ de (kui k)iI quivaut A TI < + daprs le
thorme 1.93 et la proposition 1.83. Si (ui )iI est normalement sommable dans E (cf.
corollaire 1.88) elle est sommable. Elle vrifie donc la formule de sommation par paquets
par le thorme 1.91.
1.6
Sries doubles
Nous examinons maintenant le cas particulier des familles (ui )iI indexes par un
produit cartsien I = I 0 I 00 . On parle dans ce cas de srie double . Nous nous
limiterons au cas o I = N2 , mais il est facile dadapter les noncs ci-dessous I = I 0 I 00
avec I 0 et I 00 dnombrables, une fois fixes des bections N I et N I 00 . Lindice i
est dsormais un couple dentiers, i = (k, l) N2 . Pour des raisons typographiques, nous
crirons {uk,l ; (k, l) N2 } de prfrence (u(k,l) )(k,l)N2 .
Dfinition 1.95 (srie double). Soit (uk,l )k,lN une suite double dlments de lespace
vectoriel norm E. On dit que la srie double de terme gnral uk,l est convergente
(resp. normalement convergente) si la famille {uk,l ; (k, l) N2 } est sommable (resp.
normalement sommable). La somme S de cette famille est alors appele somme de la
srie double et note
X
X
S=
uk,l =
uk,l .
(k,l)N2
k,lN
Dans tout ce qui suit, nous donnerons les noncs relatifs aux sries doubles termes
rels ou complexes en nous contentant dindiquer sous forme de remarques ou de commentaires les modifications apporter pour la gnralisation aux espaces vectoriels norms. Pour E = R ou C, la sommabilit normale sappelle sommabilit absolue et quivaut la sommabilit. Il importe de bien comprendre que contrairement au cas des sries
simples, la dfinition 1.95 nautorise pas lexistence dune srie double termes dans R
ou C qui soit convergente sans ltreP
absolument. Il peut arriver que pour une certaine
+
2
bection f : N N , la srie simple
j=0 uf (j) soit convergente sans ltre absolument,
P
mais dans ce cas la srie double k,l uk,l est divergente (cf. th. 1.86 et th. 1.76).
Voici un premier critre de convergence pour les sries doubles.
46
1.6. Sries doubles

Proposition 1.96. Pour que la srie double de terme gnral rel ou complexe uk,l
(k, l N) soit convergente, il faut et il suffit que la suite des sommes finies
X
Tn :=
|uk,l |, n N,
k+ln
soit borne. On a le mme nonc avec

X
Tn0 :=
|uk,l |,
n N.
max(k,l)n
Attention bien noter lindexation de la somme Tn par la condition k + l n et

non pas k + l = n. Cet nonc se gnralise aux sries termes dans E espace vectoriel
norm complet en remplaant convergente par normalement convergente et |uk,l |
par kuk,l k.
Preuve. Vrifions dabord que la condition est ncessaire en supposant que la srie double
de terme gnral uk,l est convergente. Alors la famille {uk,l ; (k, l) N2 } est absolument
sommable. On a alors daprs la proposition 1.83 b) :
X
|uk,l | < +.
(1.41)
M := sup
K fini N2
(k,l)K
Comme Tn est la somme des termes indexs par le sous-ensemble fini de N2 , Dn :=

{(k, l) N2 ; k + l n}, on a Tn M pour tout n donc la suite (Tn )nN est borne. Le
mme argument vaut pour (Tn0 ) en remplaant Dn par Cn := {0, . . . , n}2 .
Rciproquement, supposons que la suite (Tn )nN soit borne par un rel positif M1 .
Soit K une partie finie quelconque de N2 . Il existe alors un entier n tel que Dn recouvre
K : il suffit de choisir pour cela n = max{k + l; (k, l) K}. Alors
X
X
|uk,l |
|uk,l | = Tn M1
(k,l)K
(k,l)Dn
et comme lensemble fini K est quelconque, ceci montre que (1.41) est vrifie avec
M M1 . La sommabilit absolue de {uk,l ; (k, l) N2 } en dcoule par la proposition
1.83 a). Ladaptation Tn0 est immdiate.
titre dexercice, on pourra montrer quune condition ncessaire et suffisante de
convergence de la srie double de terme gnral rel ou complexe uk,l (k, l N) est
lexistence dune suite (Kn )nN croissante pour linclusion 20 de parties finies de N2 , telle
que Kn = N2 et que la suite de terme gnral
nN
Tn :=
|uk,l |
(k,l)Kn
soit borne.
Le thorme suivant fournit la fois un critre de convergence des srie doubles et
une mthode de calcul de la somme.
20. i.e. telle que pour tout n N, Kn Kn+1 .
47

Thorme 1.97 (dinterversion des sommations).
1. Si les vk,l sont des lments de R+ , les galits
X
(k,l)N2
vk,l =
( +
+
X
X
k=0
)
vk,l
l=0
( +
+
X
X
l=0
)
vk,l
(1.42)
k=0
sont toujours vrifies dans R+ .

2. Si les uk,l sont rels ou complexes, la srie double de terme gnral uk,l converge si
et seulement si lune des deux conditions suivantes est ralise :
( +
)
( +
)
+
+
X
X
X
X
a)
|uk,l | < + ou b)
|uk,l | < +.
(1.43)
k=0
l=0
l=0
k=0
P
Dans ce cas, pour tout k N, la srie simple +
l=0 uk,l est absolument convergente
et il en va de mme en changeant les rles de k et l. On a de plus la formule
dinterversion des sommations :
( +
) + ( +
)
+
X
X
X
X X
uk,l =
uk,l =
uk,l .
(1.44)
(k,l)N2
k=0
l=0
l=0
k=0
Ce thorme stend au cas o les uk,l sont dans E espace vectoriel norm complet en
remplaant |uk,l | par kuk,l k, la convergence de la srie double par sa convergence normale
et la convergence absolue des sries simples par leur convergence normale.
Preuve. Le cas des termes positifs est une application immdiate du thorme 1.93 en
considrant les deux dcompositions suivantes de N2 , cf. figure 1.5 :
a) N2 = {k} N
kN

b) N2 = N {l} .
lN
(1.45)
Dans le cas des termes rels ou complexes, la condition (1.43 a) utilise avec la
dcomposition (1.45 a) quivaut la sommabilit absolue de {uk,l ; (k, l) N2 } par le
thorme 1.94. Il en va de mme pour (1.43 b) utilise avec la dcomposition (1.45 b).
La sommabilit absolue de {uk,l ; (k, l) N2 } implique chacune des conditions (1.43
a) et (1.43 b) par le P
thorme 1.94. La premire des deux implique
P+ la convergence absolue
de toutes les sries +
u
,
la
deuxime
celle
des
sries
l=0 k,l
k=0 uk,l .
2
Enfin lorsque {uk,l ; (k, l) N } est sommable, on obtient (1.44) en appliquant la
formule de sommation par paquets (th. 1.91) aux dcompositions (1.45 a) et (1.45 b).
Une application classique de la thorie des sries doubles est le produit de deux sries
absolument convergentes.
48
1.6. Sries doubles

l
Fig. 1.5 Dcoupages a) et b) de N2

P+
P+
Thorme 1.98 (produit de deux sries). Soient
u
et
k
k=0
l=0 vl deux sries
termes rels ou complexes, absolument convergentes. Alors la srie double de terme gnral uk vl est convergente et on a
( + ) ( + ) + (
)
X
X
X
X X
uk vl =
uk
vl =
uk v l .
(1.46)
(k,l)N2
k=0
n=0
l=0
k+l=n
P
u v est absolument convergente. On
La srie simple de terme gnral wn =
P+ k+l=n k l
P+
lappelle srie produit de k=0 uk et l=0 vl .
Preuve. Commenons par vrifier la convergence de la srie double. Posons
Un :=
n
X
uk ,
U :=
+
X
uk ,
Unabs
k=0
k=0
k=0
:=
n
X
|uk | U
abs
:=
+
X
|uk |
k=0
et dfinissons de mme Vn , V , Vnabs et V abs en remplaant uk par vl . Le produit

X
Unabs Vnabs =
|uk ||vl |
(k,l){0,...,n}2
est exactement la somme Tn0 de la proposition 1.96. Comme il est born par la constante
U abs V abs indpendante de n, la proposition 1.96 nous assure de la convergence de la srie
double de terme gnral uk vl .
En appliquant la formule de sommation par paquets cette srie avec le dcoupage
2
N = kN ({k} N), on obtient :
( +
)
+
X
X
X
uk v l =
uk v l ,
(k,l)N2
k=0
l=0
49

P
o chacune des sries simples +
l=0 uk vl est absolument convergente. Dans une telle srie,
on peut mettre en facteur la constante uk , do
( + )
+
X
X
X
uk v l =
uk
vl .
(k,l)N2
k=0
l=0
Dans la srie indexe par k, on peut mettre en facteur la constante

( + ) +
X
X
X
uk vl =
vl
uk ,
(k,l)N2
l=0
P+
l=0 vl , do
k=0
ce qui achve la vrification de la premire galit dans (1.46).

La deuxime galit dans (1.46) rsulte de lapplication du thorme de sommation par paquets la famille sommable {uk vl ; (k, l) N2 } avec le dcoupage N2 =
nN {(k, l) N2 ; k + l = n}. Le mme dcoupage utilis avec le thorme 1.94 nous
l
k+
l=
n
Fig. 1.6 Dcoupage N2 = nN {(k, l) N2 ; k + l = n}

fournit la convergence de la srie termes positifs
X
wnabs :=
|uk vl |.
k+l=n
Cette dernire convergence entrane par comparaison, la convergence absolue de la srie

de terme gnral wn , puisque |wn | wnabs par ingalit triangulaire.
50
Chapitre 2
vnements et Probabilits
Ce chapitre reprend essentiellement les deux premiers chapitres du cours de deuxime
anne 1 : Espaces Probabiliss et Conditionnement et Indpendance. La principale innovation est la mise en place de rudiments de thorie de la mesure (essentiellement du
vocabulaire) en vue de pouvoir disposer demble dexemples de probabilits sortant
du cadre des probabilits discrtes. Nous pourrons ainsi modliser lexprience alatoire
consistant choisir un point au hasard sur le segment [0, 1]. Le langage de la mesure
est prsent dans la premire section. La deuxime section contient une approche informelle de la modlisation de lalatoire avant de prsenter la section 3 les axiomes de la
thorie des probabilits et les proprits gnrales des probabilits. On examine ensuite
les notions de conditionnement et dindpendance.
2.1
Notion de mesure
Soit un ensemble, on note P() lensemble des parties de . Une mesure sur
est une fonction densembles m qui certaines parties A de , associe un rel positif
m(A) appel mesure de A. La thorie que nous allons prsenter fournit un cadre mathmatique commun pour des notions comme le dnombrement, la mesure des grandeurs
gomtriques (longueur, aire, volume), physiques (masse) et les probabilits. partir du
concept de mesure, on peut btir une intgrale 2 sur lensemble permettant dunifier les
notions dintgrale simple ou multiple au sens classique, de srie absolument convergente
et desprance mathmatique dune variable alatoire. Il est commode dlargir demble
lensemble darrive de m R+ au lieu de R+ , par exemple pour pouvoir dire que laire
dun quart de plan est +.
Intuitivement, en pensant par exemple la mesure des aires, les proprits minimales
que lon puisse exiger de m sont
a) la croissance : si A B, m(A) m(B),
b) ladditivit : si A B = , m(A B) = m(A) + m(B), sous rserve que m(A),
m(B) et m(A B) soient dfinies.
1. Introduction au Calcul des Probabilits, http://math.univ-lille1.fr/~suquet/index.html
2. Appele intgrale de Lebesgue . Sa construction nest pas au programme de ce cours.
51
Chapitre 2. vnements et Probabilits

Il est facile de voir que la croissance est une consquence de ladditivit en crivant si A
B, B = A(B \A) et m(B) = m(A)+m(B \A) m(A), avec les mmes rserves dexistence. Ladditivit stend par une rcurrence immdiate, aux suites finies A1 , . . . , An
densembles, donnant ladditivit finie : m(A1 An ) = m(A1 ) + + m(An ) si les
Ai sont deux deux disjoints. Par contre elle ne stend pas automatiquement aux suites
infinies densembles deux deux disjoints.
Pour avoir une thorie assez riche, on doit pouvoir effectuer certains passages la
limite, par exemple pour pouvoir mesurer laire dun disque dans le plan en le pavant
par des carreaux cts parallles aux axes. La proprit correspondante est appele
-additivit :
+

X
si les An sont deux deux disjoints, m An =
m(An ),
nN
n=0
pourvu que toutes ces quantits soient dfinies.

Pourquoi ces clauses restrictives sur lexistence des m(A) ? Il se trouve que dans
la plupart des cas intressants (sauf lorsque est au plus dnombrable), on ne sait
pas dfinir m(A) pour tout A P(). Souvent pour construire une mesure m, on
commence par attribuer une valeur m(A) pour chaque A dans une famille C bien
particulire de parties de . Par exemple si = R, on peut prendre pour C la famille
des intervalles ]a, b] et dcider que m(]a, b]) := ba, choisissant ainsi de mesurer ]a, b]
par sa longueur 3 . De mme si = R2 , on peut partir de la famille C des rectangles
R =]a, b]]c, d] et dcider que m(R) := (ba)(dc). Dans un deuxime temps, on essaie
de prolonger m une famille F de parties de plus grande que C, tout en prservant
la -additivit. Il se trouve quil nest pas toujours possible de raliser ce prolongement
jusqu prendre F = P(). Certaines parties de R sont dune trop grande complexit
pour quon puisse leur attribuer une longueur . Ainsi la fonction densembles m a un
ensemble de dfinition qui est une sous-famille de P(). Cet ensemble de dfinition de
m est ce que lon appelle une tribu de parties de .
Il est temps maintenant de formaliser les dfinitions suivantes.
Dfinition 2.1 (tribu). Une famille F de parties de est appele tribu (ou -algbre)
sur si elle
a) possde lensemble vide : F ;
b) est stable par passage au complmentaire : A F, Ac F ;
c) est stable par union dnombrable : (i N , Ai F) Ai F.
iN
On vrifie facilement partir de cette dfinition quune tribu est stable par unions
ou intersections finies et par intersections dnombrables.
Dfinition 2.2 (mesure). Soit F une tribu sur . On appelle mesure positive sur (, F)
une application
m : F [0, +],
vrifiant
3. Il y a bien dautres choix possibles, on pourrait poser plus gnralement m(]a, b]) := F (b) F (a)
o F est une fonction croissante R R, continue droite.
52
2.1. Notion de mesure

a) m() = 0 ;
b) m est -additive : pour toute suite (Ai )iN dlments de F deux deux disjoints,

m Ai =
iN
+
X
m(Ai ).
(2.1)
i=1
Dans la dfinition de la -additivit, ou de la stabilit par union dnombrable, on

aurait videmment pu tout aussi bien indexer la suite (Ai ) par N au lieu de N .
Remarque 2.3. La runion des Ai est invariante par permutation sur les indices et si
chaque Ai est son tour union dnombrable densembles Bi,j F (j N ) deux deux
disjoints, on a clairement
Ai = Bi,j =
iN
iN jN
(i,j)N N
Bi,j .
On voit ici que lon a un besoin crucial des proprits de convergence commutative et
de sommation par paquets dans R+ . Sans elles la dfinition de la -additivit serait
incohrente.
Voyons maintenant des exemples de tribus qui nous seront utiles. Les trois exemples
les plus simples sont les suivants.
La tribu triviale sur est F = {, }.
P() est une tribu.
Si A est une partie de , alors F := {, , A, Ac } est une tribu. Cest la plus petite
tribu possdant A comme lment, i.e. toute tribu G telle que A G contient F.
On dit que F est la tribu engendre par A.
Cette notion de tribu engendre se gnralise en remarquant que si (Gi )iI est une famille
quelconque de tribus sur , G := iI Gi est une tribu sur (vrification immdiate
partir de la dfinition 2.1).
Dfinition 2.4 (tribu engendre). Soit C une famille de parties dun ensemble . On
appelle tribu engendre par C, et on note (C), la plus petite tribu contenant C (cest
lintersection de toutes les tribus sur contenant C).
Dfinition 2.5 (tribu borlienne). On appelle tribu borlienne sur Rd la tribu engendre
par la famille O des ensembles ouverts 4 de Rd . On la notera Bor(Rd ). Ainsi Bor(Rd ) =
(O). Les sous-ensembles de Rd qui sont lments de sa tribu borlienne sont appels
borliens de Rd ou borliens tout court quand il ny a pas dambigut.
Remarque 2.6. On peut dmontrer que Bor(R) est aussi la tribu engendre par les
ferms de R, ou par les intervalles ouverts, ou les intervalles ferms, ou les semi-ouverts,
ou les intervalles (ouverts ou ferms) extrmits rationnelles, ou les intervalles ], a],
d
ou les intervalles [a, +[.
Qd De mme, Bor(R ) est engendre par les pavs ouverts ou par
les pavs de la forme k=1 ]ak , bk ].
4. Un ensemble ouvert de Rd est une runion (quelconque) de pavs ouverts
est le complmentaire dun ouvert.
Qd
k=1 ]ak , bk [.
Un ferm
53

Voyons maintenant des exemples importants de mesures.
Exemple 2.7 (masse de Dirac). Soit x0 un lment fix de . On appelle masse de
Dirac au point x0 ou mesure de Dirac au point x0 , la mesure x0 sur (, P()) dfinie
par
(
1 si x0 A,
A P(), x0 (A) :=
0 si x0
/ A.
Par restriction, x0 est aussi une mesure sur (, F) pour toute tribu F sur .
Vrification. Il est clair que x0 () = 0. Pour montrer la -additivit, soit (An )nN une
suite dlments de P(), deux deux disjoints. Nous distinguons deux cas.

a) x0
/ An . Alors x0 An = 0. Dautre part, x0 ne peut appartenir aucun
nN
nN
P
des An , donc pour tout n N, x0 (An ) = 0 et nN x0 (An ) = 0.

b) x0 An . Alors x0 An = 1. Dautre part, comme les An sont deux deux
nN
nN
disjoints, x0 doit appartenir un seul

Pdes An , disons An0 . Ainsi, x0 (An0 ) = 1 et
pour tout n 6= n0 , x0 (An ) = 0, do nN x0 (An ) = 1.
Dans les deux cas, on a
X

x0 (An ),
x0 An =
nN
nN
x0 est donc bien -additive. Cest une mesure sur (, P()).

Exemple 2.8 (srie de mesures finies). Si les (k )kN sont des mesuresP
finies 5 sur (, F)
et si (ak )kN est une suite de rels positifs, la fonction densembles = kN ak k dfinie
sur F par
X
ak k (A)
: F R+ , A 7 (A) :=
kN
est une mesure sur (, F). Le rsultat se gnralise =

dnombrable.
iI
ai i , avec I au plus
P
Vrification. Pour tout k, 0 ak < +, donc ak k () = 0 et () = kN ak k () = 0.
Soit (An )nN une suite dlments de F, deux deux disjoints. En utilisant la -additivit
de chaque k et linterversion des sommations pour les sries doubles termes positifs,
on peut crire :
(
)
(
)

X

X
X
X X
=
An =
a k k An =
ak
k (An )
ak k (An )
nN
kN
nN
kN
nN
kN
=
=
nN
(
X X
)
ak k (An )
nN
kN
(An ),
nN
5. La mesure k est finie si k (A) < + pour tout A F. Elle est donc aussi borne puisque
k (A) k () < +. Lhypothse k finie nous vite la gestion du conflit ak = 0 et k (A) = +.
54
2.1. Notion de mesure

ce qui tablit la -additivit de .
Exemple 2.9 (mesure ponctuelle). Soient I un ensemble au plus dnombrable,
(xi )iI
P
une famille dans et (ai )iI une famille de rels positifs. Alors := iI ai xi est une
mesure sur (, P()), donc aussi par restriction sur tout espace mesurable (, F). Cest
un cas particulier de lexemple prcdent. Les mesures de ce type sont appeles mesures
ponctuelles.
Remarque 2.10. Si = {i ; i I} est au plus dnombrable, toute mesure sur
(, P()) qui est finie sur les singletons est une mesure ponctuelle.
Vrification. La tribu P() possde les singletons (quand est fini ou dnombrable,
cest mme la seule tribu ayant cette proprit). Soit une mesure sur (, P()). On
peut dfinir
i I, ai := ({i }),
en notant que puisque est finie sur les singletons, 0 ai < +. Considrons alors la
mesure ponctuelle
X
:=
ai i .
iI
Soit A P(), alors A est fini ou dnombrable et on peut lcrire comme union disjointe
finie ou dnombrable de singletons :
[
A=
{i }.
i A
Par -additivit (ou par additivit quand A est fini, cf. prop. 2.16 ci-dessous), on a donc
X
X
X
(A) =
({i }) =
ai =
ai i (A) = (A).
i A
i A
iI
Ainsi pour tout A P(), (A) = (A), donc = et est une mesure ponctuelle.
Exemple 2.11 (mesure de comptage). Si = {i ; i I} est au plus dnombrable,
lapplication : P() R+ dfinie par
(
card A si A est fini,
A P(), (A) =
+
sinon,
est une mesure, appele mesure de comptage. Pour le voir, il suffit de remarquer
que
P
pour tout A, (A) = (A), o est dfinie comme la mesure ponctuelle = iI i .
Exemple 2.12. Soit une mesure sur (, F) et B F. La fonction densembles =
( . B) dfinie sur F par
A F,
(A) := (A B)
55

est une mesure sur (, F). Si de plus 0 < (B) < +, la fonction densembles B dfinie
sur F par
(A B)
A F, B (A) :=
(B)
est une mesure sur (, F), vrifiant B () = 1, autrement dit une probabilit 6 . Quand
= P est dj une probabilit sur (, F), la mesure PB est appele probabilit conditionnelle ; notation : PB (A) =: P (A | B).
Vrification. On se contente de vrifier que est -additive, tout le reste tant vident.
Soit (Ai )iN une suite dlments de F, deux deux disjoints. Pour i 6= j, Ai Aj =
et comme (Ai B) (Aj B) Ai Aj , les Ai B sont aussi deux deux disjoints.
De plus on a

Ai B = (Ai B).
iN
iN
La -additivit de dcoule alors clairement de celle de .

Exemple 2.13 (mesure de Lebesgue d ). Nous
Qadmettons quil existe une unique mesure
sur (Rd , Bor(Rd )) telle que pour tout pav di=1 ]ai , bi ] non vide 7 ,
!
d
d
Y
Y
]ai , bi ] =
(bi ai ).
i=1
i=1
On lappelle mesure de Lebesgue sur Rd et on la note d . Pour d = 1, on tend ainsi la

notion de longueur des intervalles tous les ensembles membres de Bor(R), pour d = 2
on tend de mme la notion daire des rectangles tous les ensembles borliens du plan
R2 , pour d = 3, on tend la notion de volume. Pour d > 3, on continuera parler de
volume ou dhypervolume. Nous admettrons que les formules classiques de calcul daire
ou de volume se rcrivent laide de d . Par exemple si D est un disque de rayon r
de R2 , 2 (D) = r2 . Plus gnralement, voici les principales proprits de la mesure de
Lebesgue.
Proposition 2.14. La mesure de Lebesgue d sur (Rd , Bor(Rd )) a les proprits suivantes.
i) d est invariante par translations : si h : x 7 x + c est une translation
de Rd , alors

d
d
pour tout B Bor(R ), h(B) Bor(R ) et d (B) = d h(B) .
ii) d est invariante par toute isomtrie euclidienne de Rd : symtrie, rotation, etc.

iii) Si h est lhomothtie x 7 cx dans Rd , pour tout borlien B, d h(B) = |c|d d (B).
iv) d ne charge pas les points : x Rd , d ({x}) = 0. Si A Rd est fini ou
dnombrable, d (A) = 0.
6. En anticipant un peu sur la suite du chapitre.
7. Ce qui suppose implicitement que ai < bi pour chaque i = 1, . . . , d.
56
2.2. Modliser lalatoire
v) d
!
!
d
d
Y
Y
[ai , bi ] = d
]ai , bi [ et cette galit implique bien sr, lgalit des
i=1
i=1
mesures des 4d pavs obtenus en jouant sur louverture ou la fermeture des extrmits ai , bi des intervalles.
vi) Si E est un sous-espace affine de Rd et E 6= Rd , d (E) = 0.
Un bon exercice consiste tablir la formule 2 (D) =r2 en utilisant le calcul de
laire de lhypographe de la fonction f : [1, 1] R, x 7 1 x2 par une intgrale de
Riemann, cf. proposition A.5 p. 218 et certaines des proprits de 2 nonces ci-dessus.
2.2
2.2.1
Modliser lalatoire
Notion dexprience alatoire
La thorie des probabilits fournit des modles mathmatiques permettant ltude

dexpriences dont le rsultat ne peut tre prvu avec une totale certitude. Le tableau 2.1
en donne quelques exemples.
Exprience
Lancer dun d
Prlvement de n objets en sortie
dune chane de production
Questionnaire 100 questions
binaires
Lancer dune pice jusqu la
premire obtention de pile
Mise en service dune ampoule
Lancer dune flchette sur une cible
Mouvement dun grain de pollen
dans un liquide
Mlange de deux gaz
Rsultat observable
Un entier k {1, . . . , 6}
Nombre dobjets dfectueux
dans lchantillon
Suite de 100 rponses
{oui, non}100
Un entier k N : le temps
dattente du premier succs
Dure de vie T R
Point dimpact
Une fonction continue :
la trajectoire
Rpartition spatiale de deux
types de molcules
Tab. 2.1 Quelques expriences alatoires typiques

Bien que le rsultat prcis de chacune de ces expriences soit imprvisible, lobservation et lintuition nous amnent penser que ces phnomnes obissent certaines lois.
Par exemple si on jette 6 000 fois un d, on sattend ce que le nombre dapparitions
de la face 3 soit voisin de 1 000. Si on met en service 100 ampoules, leurs dures de
vie observes seront concentres autour dune certaine valeur moyenne.
La thorie des probabilits permet de donner un sens prcis ces considrations un
peu vagues. La statistique permet de confronter les modles probabilistes avec la ralit
57

observe afin de les valider ou de les invalider. Par exemple si quelquun a 60 bonnes
rponses sur 100 au questionnaire, est-il lgitime de considrer quil a mieux fait que
le hasard ? Sur les n objets prlevs en sortie de chane, k sont dfectueux. Peut-on en
dduire quelque chose sur la qualit de la production globale ?
2.2.2
vnements
La thorie moderne des probabilits utilise le langage des ensembles pour modliser
une exprience alatoire. Nous noterons un ensemble dont les lments reprsentent
tous les rsultats possibles ou vnements lmentaires dune exprience alatoire donne. Les vnements (ou vnements composs) seront reprsents par des parties (sousensembles) de .
Il nest pas toujours facile de trouver un ensemble permettant de modliser lexprience alatoire. Voici une rgle pratique pour y arriver : les vnements lmentaires sont
ceux qui contiennent linformation maximale quil est possible dobtenir de lexprience.
Par exemple si on jette un d, lvnement A : obtention dun chiffre pair nest pas
lmentaire. Il est compos des trois vnements lmentaires 2, 4, 6 : A = {2, 4, 6}. Ici
= {1, 2, 3, 4, 5, 6}. De mme si on lance trois fois une pice de monnaie, les vnements
lmentaires sont des triplets comme (p,f,p) indiquant le rsultat prcis de chacun des
trois lancers. Ici = {f, p}3 . Lvnement B obtention de pile au deuxime des trois
lancers est compos : B = {(f, p, f); (f, p, p); (p, p, f); (p, p, p)}.
Notations
Vocabulaire ensembliste
A
A
ensemble vide
ensemble plein
lment de
sous-ensemble de
appartient A
AB
AB
AB
Ac
A inclus dans B
runion de A et B
intersection de A et B
complmentaire de A
dans
A et B sont disjoints
AB =
Vocabulaire probabiliste
vnement impossible
vnement certain
vnement lmentaire
vnement
Le rsultat est une des
ralisations possibles de A
A implique B
A ou B
A et B
vnement contraire de A
A et B sont incompatibles
Tab. 2.2 Langage ensembliste - langage probabiliste

Avec ce mode de reprsentation, les oprations logiques sur les vnements : et ,
ou , ngation se traduisent par des oprations ensemblistes : intersection, runion,
58

passage au complmentaire. Le tableau 2.2 prsente la correspondance entre les deux
langages.
Les oprations logiques sur les vnements peuvent bien sr faire intervenir plus de
deux vnements. Ainsi, si A1 ,. . ., An sont des vnements,
n
A i = A 1 A 2 An
i=1
est lensemble des qui sont dans lun au moins des Ai . Cest donc lvnement ralisation de lun au moins des Ai (1 i n) . De mme :
n
A i = A 1 A 2 An
i=1
est lensemble des qui sont dans tous les Ai . Cest donc lvnement ralisation de
chacun des Ai (1 i n) . Ceci stend aux runions et intersections dune suite infinie
dvnements :
Ai = {ralisation de lun au moins des Ai , i N },
iN
Ai = {ralisation de tous les Ai , i N }.
iN
Ces oprations logiques sur des suites dvnements sont trs utiles pour analyser
des vnements complexes laide dvnements plus simples et, comme nous le verrons
plus tard, calculer ainsi des probabilits.
2.2.3
Une question de ds
Pour finir cette introduction informelle, nous allons discuter un problme dnonc
trs simple pour voir comment les notions de tribu et de mesure simposent naturellement
ds que lon veut valuer une probabilit dans une exprience o apparat linfini. Voici
la question. On effectue des lancers rpts dune paire de ds et on observe pour chaque
lancer, la somme des points indiqus par les deux ds. On se propose dattribuer une
probabilit lvnement E dfini ainsi : dans la suite des rsultats observs, la premire
obtention dun 9 a lieu avant la premire obtention dun 7. On suppose ici dj connue
la dfinition dune probabilit sur un espace fini : savoir une application additive 8
P : P() R+ telle que P () = 1.
Commenons par modliser un lancer. Disons que lon a un d bleu et un d rouge.
Linformation maximale que lon puisse envisager ici est de savoir le rsultat du d bleu
et celui du rouge. On prendra donc comme espace 1 , le carr cartsien {1, . . . , 6}2
en convenant de reprsenter par le couple (i, j) 1 le rsultat du d bleu (premire
composante) et celui du rouge (deuxime composante). Notons pour i N ,
Fi := {obtention de la somme 9 au ie lancer},
Gi := {obtention de la somme 7 au ie lancer},
Hi := {obtention dune autre somme que 7 ou 9 au ie lancer}.
8. Si est fini, la -additivit se rduit ladditivit car dans toute suite (An ) de parties de deux
deux disjointes, seul un nombre fini dentre elles ne sont pas vides.
59

Pour linstant, nous nenvisageons quun lancer et nous attribuerons par symtrie la
mme probabilit tous les vnements lmentaires en prenant P1 ({(i, j)}) = 1/36 pour
tout vnement lmentaire (i, j). En remarquant que F1 est constitu de 4 vnements
lmentaires : (3, 6), (4, 5), (5, 4) et (6, 3), on en dduit que P1 (F1 ) = 4/36 = 1/9.
De mme, G1 tant constitu de 6 vnements lmentaires, P1 (G1 ) = 6/36 = 1/6, cf.
figure 2.1. On en dduit que P1 (H1 ) = 1 10/36 = 13/18.
1 2 3 4 5 6
1
7
2
7
3
7
9
4
7
9
5
7
9
6 7
9
Fig. 2.1 vnements F 1 et G1
Pour modliser les n premiers lancers, on voit que linformation maximale que lon
puisse envisager est la connaissance de la suite finie des n couples dentiers reprsentant
les rsultats des n lancers. Ceci conduit prendre comme espace n = 1 1 = n1 .
Cet n est un ensemble fini de cardinal 36n . Si nous convenons l encore dattribuer la
mme probabilit tous les vnements lmentaires (donc maintenant 36n ), on obtient
la probabilit Pn dfinie sur (n , P(n )) par
A P(n ),
Pn (A) =
card A
.
card n
Regardons le cas particulier o A est de la forme A1 A2 An , chaque Ai tant

une partie de {1, . . . , 6}2 . Cela signifie que la ralisation de Ai ne dpend que du rsultat
du ie lancer. La formule sur le cardinal dun produit cartsien nous donne alors :
Pn (A1 An ) =
card(A1 An )
(card A1 ) (card An )
=
card n
(card 1 )n
card A1
card An
=

36
36
= P1 (A1 ) P1 (An ).
(2.2)
Appliquons ceci lvnement En dfini par

En := {les n 1 premiers lancers ne donnent ni 7 ni 9 et le ne donne 9}.
(2.3)
On peut reprsenter 9 En dans n en crivant En = H1 H2 Hn1 Fn , donc

1 13 n1
,
Pn (En ) =
9 18
9. Lvnement En est dfini par la phrase entre les accolades dans (2.3). Son criture ensembliste
dpend de lespace considr. Dhabitude, on ne fait pas cette distinction parce quon travaille avec
un seul , mais ici elle simpose.
60

formule valable pour tout n 1, le cas n = 1 se rduisant E1 = F1 et P1 (F1 ) = 1/9.
Pour 1 k < n, on peut reprsenter Ek dans n en crivant Ek = H1 H2
Hk1 Fk nk
. La formule (2.2) nous donne alors
1
n k,
Pn (Ek ) = P1 (H1 ) P1 (Hk1 ) P1 (Fk ) 1nm = Pk (Ek ),
(2.4)
o dans lcriture Pk (Ek ) , on interprte Ek comme une partie de k , explicitement

H1 H2 Hk1 Fk . Ainsi (2.4) exprime une sorte de compatibilit ascendante des
modles (n , P(n ), Pn ). Si on note En0 lvnement au cours des n premiers lancers, la
premire obtention de la somme 9 a lieu avant la premire obtention de la somme 7, on
a grce cette compatibilit
Pj (En0 )
j n,
= Pj
Ek =
k=1
n
X
Pj (Ek ),
(2.5)
k=1
en notant que les Ek sont deux deux disjoints et en utilisant ladditivit de Pj .

Pour attribuer une probabilit E, on ne peut malheureusement pas se contenter
de (2.5), mme avec n grand . En effet on ne peut pas exclure que la question de la
priorit entre le 9 et le 7 ne soit tranche quau del du ne lancer, voire jamais. Ceci nous
conduit prendre pour lensemble des suites infinies de couples (i, j) {1, . . . , 6}2 ,
autrement dit, = N1 . Notons Nk := {j N; j > k}. On peut alors reprsenter Ek

dans par Ek = H1 H2 Hk1 Fk N1 k . Au vu de la formule de compatibilit
(2.4), il est naturel dattribuer une probabilit Ek considr comme vnement de
en dfinissant
1 13 k1
.
P (Ek ) := Pk (Ek ) =
9 18
Finalement, pour pouvoir attribuer une probabilit E, on remarque que E est lunion
des Ek pour k N , ces ensembles tant deux deux disjoints. On a donc bien envie
dcrire
P (E) = P
Ek =
kN
P (Ek ) =
kN
+
X
1 13 k1
k=1
9 18
2
1 1
13 = .
9 1 18
5
La proprit qui nous manque pour justifier cette criture est prcisment la -additivit.
Une autre faon dobtenir le mme rsultat est de passer la limite quand n tend
vers linfini dans (2.5), aprs lavoir rcrit sous la forme
P (En0 )
n
X
P (Ek ).
k=1
0
Remarquons que la suite densembles En0 est croissante pour linclusion (En0 En+1
) et
que n1 En0 = E. La proprit qui nous permettrait de faire cela sappelle continuit
squentielle croissante de P (voir prop. 2.16-6.a).
On voit ainsi quil est souhaitable de dfinir la probabilit P sur comme une
mesure. Ceci pose la question de la tribu F. En fait tout ce que nous savons faire
61

ici, cest dfinir la probabilit dvnements comme les Ek , de la forme A N1 k , avec
A k . Ces vnements sont ceux dont la ralisation ne dpend que du rsultat des k
premires preuves, pour un certain k. On peut dire aussi quil sagit des vnements
dont la ralisation ne dpend que dun nombre fini dpreuves. Notons C la famille de
ces vnements. Un vnement comme E nappartient pas C, mais la tribu engendre
par C, F = (C). Cette tribu est plus petite 10 que P().
Enfin, soit H lvnement aucun lancer ne produit la somme 7 ou la somme 9. Avec
Kn := H1 Hn N1 n ,
on a clairement
H = H1N = Kn .
n1
Lensemble H apparat ainsi comme intersection dnombrable densembles Kn C, ce

qui nous assure de lappartenance de H la tribu F. On a de plus H Kn pour tout
n 1, donc par croissance de P pour linclusion (cest une consquence immdiate de
ladditivit, cf. prop. 2.16-4.),
n 1,
P (H)
13 n
18
Cette ingalit tant vrifie pour tout n, on peut faire tendre n vers linfini pour obtenir
P (H) = 0. On a ainsi un exemple dvnement non vide et de probabilit nulle (H est
lensemble des suites infinies de couples lments de H1 , il est infini non dnombrable).
2.3
La probabilit comme mesure
La probabilit P , telle que nous allons la dfinir ci-dessous, est une fonction qui
un vnement, associe un nombre compris entre 0 et 1 et cens mesurer les chances de
ralisation de cet vnement. Pour des raisons sortant du cadre de ce cours, il nest
pas toujours possible dattribuer ainsi de manire cohrente une probabilit chaque
partie de . En dautres termes, P ne peut pas tre considre comme une application
de lensemble P() de toutes les parties de dans [0, 1] mais comme une fonction ayant
pour domaine de dfinition une tribu F gnralement plus petite que P(). La tribu F
est aussi appele famille des vnements observables 11 .
Dfinition 2.15. Soit un ensemble et F une tribu sur . On appelle probabilit sur
(, F) toute application P de F dans [0, 1] vrifiant :
(i) P () = 1.
10. Nous ladmettrons, mais si vous ntes pas convaincu, essayez de montrer que F = P(). . .
11. La dfinition gnrale dune tribu F ne suppose pas que tous les singletons {} soient des lments
de F. Donc un vnement lmentaire nest pas toujours un vnement observable. Nanmoins dans
la plupart des exemples que nous tudierons, la tribu possdera les singletons.
62
2.3. La probabilit comme mesure

(ii) Pour toute suite (Aj )j1 dvnements de F deux deux disjoints (incompatibles) :
+
X

P (Aj ).
P Aj =
jN
j=1
Le triplet (, F, P ) sappelle espace probabilis.

Dfinir une probabilit sur (, F) cest en quelque sorte attribuer une masse
chaque vnement observable, avec par convention une masse totale gale 1 pour
lvnement certain . Une formulation quivalente la dfinition 2.15 est : P est une
mesure sur (, F) telle que P () = 1.
Proposition 2.16 (proprits gnrales dune probabilit).
Toute probabilit P sur (, F) vrifie les proprits suivantes :
1. P () = 0.
2. Additivit
a) Si A B = , P (A B) = P (A) + P (B).
b) Si les Ai (1 i n) sont deux deux disjoints :
n
P Ai =
n
X
i=1
P (Ai ).
i=1
3. A F, P (Ac ) = 1 P (A).
4. A F, B F, A B P (A) P (B).
5. A F, B F, P (A B) = P (A) + P (B) P (A B).
6. Continuit monotone squentielle
a) Si (Bn )n0 est une suite croissante dvnements de F convergente 12 vers B
F, alors P (B) = lim P (Bn ). Notation :
n+
Bn B P (Bn ) P (B)
(n +).
b) Si (Cn )n0 est une suite dcroissante dvnements de F convergente 13 vers

C F, alors P (C) = lim P (Cn ). Notation :
n+
Cn C P (Cn ) P (C)
7. a) A F, B F
b) A1 , . . . , An F,
(n +).
P (A B) P (A) + P (B).
n
X
n
P Ai
P (Ai ).
c) A1 , . . . , An , . . . F,
i=1
i=1
P Ai
iN
+
X
P (Ai ).
i=1
12. Ce qui signifie : n 0, Bn Bn+1 et B = Bn .

n0
13. Ce qui signifie : n 0, Cn+1 Cn et C = Cn .

n0
63

Preuve. Soit P une fonction densembles F [0, 1] satisfaisant aux conditions (i) et (ii)
de la dfinition 2.15, il sagit de dmontrer que P vrifie les proprits 1 7.
Preuve de 1. Comme P (Aj ) 0 pour tout Aj F, on a toujours
X
P (Aj ) P (A1 ) + P (A2 ),
jN
le premier membre pouvant tre gal +. En choisissant Aj = pour tout j N et

en utilisant la -additivit (ii), on en dduit :
P () = P
Aj =
jN
+
X
P (Aj ) P () + P ().
j=1
Par consquent, P () 2P () et comme P () 0, ceci entrane P () = 0.

Preuve de 2. Soient A1 , . . . , An , n vnements de F deux deux disjoints. Pour j > n,
posons Aj = . On a ainsi une suite infinie (Aj )j1 dvnements deux deux disjoints.
En utilisant la -additivit, on obtient alors :
n
P Aj = P
j=1
Aj =
jN
n
X
P (Aj ) +
j=1
+
X
P (Aj ).
j=n+1
Daprs 1, la somme pour j n + 1 vaut 0, ceci prouve 2 b). Bien sr 2 a) nest que le
cas particulier n = 2.
Preuve de 3. Prendre B = Ac dans 2 a) et utiliser (i).
Preuve de 4. Si A B, alors B = A(B Ac ) et cette runion est disjointe. Daprs 2 a)
on a P (B) = P (A)+P (BAc ) et comme P (BAc ) 0, on en dduit P (B) P (A).
Preuve de 5. On a les dcompositions suivantes en unions disjointes :
A B = (A B c ) (A B) (Ac B),
A = (A B c ) (A B),
B = (A B) (Ac B).
En utilisant ladditivit on en dduit :
P (A B) = P (A B c ) + P (A B) + P (Ac B)

= P (A B c ) + P (A B) + P (A B) + P (Ac B)
P (A B)
= P (A) + P (B) P (A B).
64

Preuve de 6. Il suffit de prouver 6 a), la proprit 6 b) sen dduit en appliquant 6 a)
la suite dvnements Bn = Cnc . Admettons, pour linstant, que pour tout n 1, Bn
vrifie la dcomposition suivante en union disjointe (cf. figure 2.2)
n

Bn = B0 (Bi \ Bi1 ) .
i=1
B0
B1 \ B0
B2 \ B1
Fig. 2.2 Dcomposition de B0 B1 B2 en union disjointe

En crivant la runion infinie des Bn laide de cette dcomposition et en effaant toutes les rptitions des Bi \ Bi1 , on en dduit immdiatement que B vrifie la
dcomposition en union disjointe :

B = B0 (Bi \ Bi1 ) .
iN
Passant aux probabilits, ces deux dcompositions nous donnent :

P (Bn ) = P (B0 ) +
n
X
P (Bi \ Bi1 ),
i=1
P (B) = P (B0 ) +
+
X
P (Bi \ Bi1 ).
i=1
Comme cette srie converge, sa somme est la limite de la suite de ses sommes partielles
de rang n, ce qui scrit :
n
n
o
X
P (B) = lim P (B0 ) +
P (Bi \ Bi1 ) = lim P (Bn ).
n+
n+
i=1
Ainsi pour complter la preuve, il ne reste plus qu justifier la dcomposition de Bn .

Posons :
n

Dn = B0 (Bi \ Bi1 ) .
i=1
Pour montrer que Bn = Dn , il suffit de montrer que Dn Bn et Bn Dn . La premire

inclusion est vidente puisque pour tout i n, Bi \ Bi1 Bi Bn . Pour prouver
linclusion inverse, on note un lment quelconque de Bn et on montre que appartient
Dn . Soit i0 = i0 () le plus petit des indices i tels que Bi . Comme cet ensemble
65

dindices contient au moins n, on a 0 i0 n. Si i0 = 0, B0 et comme B0 Dn ,
Dn . Si i0 1, par la dfinition mme de i0 , on a Bi0 et
/ Bi0 1 , donc
Bi0 \ Bi0 1 et comme i0 n, Bi0 \ Bi0 1 Dn donc Dn . Le raisonnement
prcdent tant valable pour tout de Bn , on en dduit Bn Dn .
Preuve de 7 a). Daprs 5 :

P (A B) = P (A) + P (B) P (A B) P (A) + P (B),
car P (A B) 0.
Preuve de 7 b). On remarque que pour tout n 1 on a :
n
i=1
i=1
Ai = Bi ,
o les Bi sont des vnements deux deux disjoints dfinis comme suit :
B1 = A1 , B2 = A2 B1c , B3 = A3 (B1 B2 )c , . . . , Bn = An (B1 Bn1 )c .
Par additivit :

P Ai = P Bi =
n
X
i=1
i=1
P (Bi ).
i=1
Par construction pour tout i, Bi Ai , do P (Bi ) P (Ai ) et finalement,

n
n
X
n
X
P (Bi )
P (Ai ).
P Ai =
i=1
i=1
i=1
Preuve de 7 c). Posons pour tout n 1,

n
Dn = Ai ,
i=1
D = D n = Ai .
n1
iN
La suite (Dn )n1 est croissante et a pour limite D. Donc daprs 6 a), P (Dn ) P (D)
(n +). Daprs 7 b) on a :
n 1,
P (Dn )
n
X
P (Ai ).
i=1
Les deux membres de cette ingalit tant les termes gnraux de deux suites croissantes
de rels positifs, on obtient en passant la limite quand n tend vers + :
P ( Ai ) = P (D)
iN
+
X
P (Ai ).
i=1
Ce qui prouve 7 c). Remarquons que les sommes partielles de la srie convergent dans
R+ . Bien sr, lingalit obtenue na dintrt que lorsque la srie de terme gnral P (Ai )
converge et a une somme strictement infrieure 1.
66

La vrification de la proposition 2.16 est maintenant complte.
Remarque 2.17 (proprits dune mesure). Les proprits dune probabilit nonces
par la proposition 2.16 stendent une mesure positive quelconque, avec les exceptions
suivantes. La proprit 3 est valable seulement pour () fini en remplaant 1 par ().
La proprit 5 est vraie condition que (A B) soit fini. Pour la continuit squentielle
dcroissante 6 b), il faut rajouter lhypothse (C0 ) < +.
Le calcul de probabilits de runions ou dintersections est une question cruciale.
La proprit 5 montre quen gnral on ne peut pas calculer P (A B) partir de
la seule connaissance de P (A) et P (B) et quon se heurte la mme difficult pour
P (A B). Le calcul des probabilits dintersections sera discut plus tard, propos du
conditionnement. Pour les probabilits de runions, on peut se demander comment se
gnralise la proprit 5 lorsquon runit plus de deux vnements. Il est facile de vrifier
(faites-le !) que :
P (A B C) = P (A) + P (B) + P (C) P (A B) P (A C) P (B C) + P (A B C).
Le cas gnral est donn par la formule de Poincar qui exprime P (A1 An ) laide
des probabilits de toutes les intersections des Ai : 2 2, 3 3, etc.
Proposition 2.18 (formule de Poincar).
Pour tout entier n 2 et tous vnements A1 , . . . , An :

P Ai =
i=1
n
X
P (Ai ) +
i=1
n
X
(1)k+1
k=2
P (Ai1 Aik ).
(2.6)
1i1 <i2 <...<ik n
Preuve. On raisonne par rcurrence 14 . La formule est vraie pour n = 2, car dans ce cas
elle se rduit
P (A B) = P (A) + P (B) P (A B).
(2.7)
Supposons la formule de Poincar vraie au rang n (plus prcisment on suppose que
pour toute suite de n vnements A1 , . . . , An , lgalit (2.6) est vrifie). Pour en dduire
n+1
quelle est alors vraie au rang n + 1, il nous faut calculer P Ai . On commence par
i=1
appliquer (2.7) avec A = Ai et B = An+1 . On obtient ainsi :

i=1
n+1
n

h n
i

P Ai = P Ai + P (An+1 ) P Ai An+1
i=1

i=1

ni=1
n
= P Ai + P (An+1 ) P (Ai An+1 ) .
i=1
i=1
On applique maintenant lhypothse de rcurrence (formule de Poincar (2.6)) dabord

avec les n vnements A1 , . . . , An puis avec les n vnements A01 , . . . , A0n , o lon a pos
14. Il y a une autre mthode plus lgante utilisant lcriture dune probabilit comme esprance
dune fonction indicatrice. Elle pourra tre vue ultrieurement en exercice.
67

A0i := Ai An+1 . Il vient :
n
n
n+1
X
X
P Ai =
P (Ai ) +
(1)k+1
i=1
i=1
k=2
+ P (An+1 )
n
n
X
X
0
P (Ai )
(1)j+1
i=1
n+1
X
P (Ai1 Aik )
1i1 <i2 <...<ik n
P (A0i1 A0ij )
1i1 <i2 <...<ij n
j=2
P (Ai )
i=1
n
X
(2.8)
X
(1)k+1
k=2
+ (1)2+1
P (Ai1 Aik )
(2.9)
1i1 <i2 <...<ik n

n
X
P (Ai An+1 )
(2.10)
i=1
n
X
(1)(j+1)+1
P (Ai1 Aij An+1 )
(2.11)
1i1 <i2 <...<ij n
j=2
Comparons ce rsultat avec ce que lon espre trouver, cest--dire avec

n+1
X
P (Ai ) +
i=1
n+1
X
k=2
(1)k+1
P (Ai1 Aik ) .
1i1 <i2 <...<ik n+1
{z
=:Tn+1
Cela revient vrifier que Tn+1 est gal la somme des lignes (2.9) (2.11) ci-dessus.
Partageons Tn+1 en deux blocs comme suit. Le premier bloc regroupe tous les termes
tels que ik < n + 1 (et donc ik n et k n). On le retrouve exactement la ligne (2.9).
Le deuxime bloc regroupe tous les termes pour lesquels ik = n + 1. Dans ce bloc, la
somme des termes pour lesquels k = 2 se retrouve ligne (2.10). Il reste alors la somme
des termes pour lesquels 3 k n + 1 et ik = n + 1 (donc ik1 n). Cette somme est
exactement le contenu de la ligne (2.11), comme on peut le voir en faisant le changement
dindice k = j + 1 dans (2.11). Ceci achve la rcurrence.
2.4
Exemples
Nous examinons maintenant quelques exemples despaces probabiliss et de calcul de

probabilits dvnements.
Exemple 2.19. On effectue une partie de pile ou face en trois coups. Quelle est la
probabilit dobtenir pile aux premier et troisime lancers ?
On peut modliser cette exprience en prenant = {f, p}3 et pour famille dvnements observables F = P() lensemble de toutes les parties 15 de . La pice tant
15. Lorsque est fini, il est toujours possible de faire ce choix.
68
2.4. Exemples
suppose symtrique, nous navons a priori pas de raison de supposer que lun des 8
triplets de rsultats possibles soit favoris ou dfavoris par rapport aux autres. Nous
choisirons donc P de sorte que tous les vnements lmentaires aient mme probabilit
(hypothse dquiprobabilit), soit :
,
P ({}) =
1
1
= 3.
Card
2
Lvnement B dont on veut calculer la probabilit scrit :

B = {(p,f,p); (p,p,p)}.
Do :
1
1 1
+ = .
8 8
4
Exemple 2.20. On fait remplir un questionnaire 20 questions binaires. Quelle est la
probabilit quun candidat rpondant au hasard obtienne au moins 16 bonnes rponses ?
On choisit ici :
= {oui, non}20 ,
F = P().
P (B) =
Si le candidat rpond compltement au hasard, on peut considrer que chacune des 220
grilles de rponses possibles a la mme probabilit dapparatre (hypothse dquiprobabilit sur ). Pour tout B , on a alors :
P (B) =
CardB
.
Card
En particulier pour B = {obtention dau moins 16 bonnes rponses},

P (B) =
16
17
18
19
20
C20
+ C20
+ C20
+ C20
+ C20
6196
= 20 ' 0, 006.
20
2
2
Exemple 2.21 (contrle de production). On prlve au hasard un chantillon de k pices

dans une production totale de N pices comprenant en tout n pices dfectueuses. Le
prlvement est sans remise (donc k N ). Cherchons la probabilit de :
Aj = {il y a exactement j pices dfectueuses dans lchantillon}.
On prend pour lensemble de toutes les parties k lments dun ensemble N
lments (ensemble de tous les chantillons possibles de taille k), F = P() et P lquiprobabilit sur . Il suffit alors de dnombrer tous les chantillons ayant exactement
j pices dfectueuses. Un tel chantillon se construit en prenant j pices dans le sousensemble des dfectueuses (Cnj choix possibles) et en compltant par k j pices prises
dans le sous-ensemble des non-dfectueuses (CNkj
n choix possibles). On en dduit :
0 j n,
Cnj CNkj
n
0 j k,
si
P (Aj ) =
CNk
k j N n.
Si lune de ces trois conditions nest pas vrifie, P (Aj ) = 0.
69

Remarque 2.22. Lorsque est fini, la faon la plus simple de construire une probabilit sur (, P()) est de choisir P ({}) = 1/ card . On parle alors dquiprobabilit ou
de probabilit uniforme sur (, P()). Cest la modlisation qui simpose naturellement
lorsquon na pas de raison de penser a priori quun rsultat lmentaire de lexprience
soit favoris ou dfavoris par rapport aux autres. La situation est radicalement diffrente
lorsque est infini dnombrable. Sur un tel ensemble, il ne peut pas y avoir dquiprobabilit. Imaginons que lon veuille tirer une boule au hasard dans une urne contenant
une infinit de boules ayant chacune un numro entier distinct (et une boule par entier).
Soit {i } lvnement tirage de la boule numrote i (i N) et pi sa probabilit. Par
-additivit, on doit toujours avoir :
X
pi = 1.
iN
Mais si tous les pi sont gaux, la srie ci-dessus contient une infinit de termes tous gaux
p0 . Sa somme vaut alors + si p0 > 0 ou 0 si p0 = 0, il y a donc une contradiction.
Voici maintenant une caractrisation de toutes les probabilits sur les espaces au plus
dnombrables.
Proposition 2.23. Soit = {i ; i I} un ensemble au plus dnombrable. La donne
dune probabilit sur (, P()) quivaut la donne dune famille (pi )iI dans R+ telle
que :
X
pi = 1
iI
et des galits
P ({i }) = pi , i I.
P
La probabilit P scrit alors P = iI pi i , o dsigne la masse de Dirac (ou mesure
de Dirac) au point , dfinie sur P() par (A) = 1 si A et (A) = 0 si
/ A.
Preuve. En prliminaire, notons les faits suivants relatifs aux mesures de Dirac sur .
,
i, j I,
() = 1.
(
0 si i 6= j,
i ({j }) =
1 si i = j.
(2.12)
(2.13)
Soit P une probabilit sur (, P()). Comme la tribu P() possde les singletons,
P ({}) est dfini et fini (puisque major par 1). La mesure P est donc finie sur les
singletons et daprs la remarque 2.10, cest une mesure ponctuelle. Cela signifie quil
existe
J I (donc au plus dnombrable) et une famille {pi )iJ } de R+ telle que P =
P
p
iJ i i . On peut complter cette criture en posant pi := 0 pour i I \ J, pour
obtenir
X
P =
pi i .
(2.14)
iI
70
2.4. Exemples
P
En crivant que P () = 1 et en utilisant (2.12), il vient iI pi = 1. Dautre part on
voit grce (2.13) que pour tout i I, P ({i }) = pi .
Rciproquement, donnons nous une famille (pi )iI de rels positifs de P
somme 1 et
dfinissons la mesure P par (2.14). Grce (2.12), il est clair que P () = iI pi = 1,
donc P est une probabilit. De plus pour tout i I, P ({i }) = pi en utilisant (2.13).

Exemple 2.24 (une probabilit dfinie sur N, P(N) ).
Soit a un rel strictement positif fix. On pose :
k N,
ea ak
.
k!
pk =
On remarque que pk est le terme gnral positif dune srie convergente :

+ a k
X
e a
k!
k=0
= ea
+ k
X
a
k=0
k!
= ea ea = 1.
Pour tout A N, on dfinit :

P (A) =
pk =
kA
pk k (A).
kN
Daprs la proposition 2.23, P est une probabilit sur (N, P(N)). On lappelle loi de
Poisson de paramtre a. Calculons par exemple P (2N) o 2N dsigne lensemble des
entiers pairs.
P (2N) =
X
k2N
pk =
+ a 2l
X
e a
l=0
1
= ea ch a = (1 + e2a ).
(2l)!
2
Une consquence de ce rsultat est : si lon tire un nombre entier au hasard suivant une
loi de Poisson, la probabilit quil soit pair est strictement suprieure 21 .
Exemple 2.25 (loi uniforme sur un segment). Prenons = R, F = Bor(R) et rappelons
que 1 dsigne la mesure de Lebesgue sur R (cf. exemple 2.13). Soit [a, b] un segment
fix de R. On dfinit une probabilit P sur (R, Bor(R)) en posant :
A Bor(R),
P (A) =
1 (A [a, b])
1 (A [a, b])
=
.
1 ([a, b])
ba
(2.15)
Daprs lexemple 2.12, P est une mesure et comme P (R) = 1, cest une probabilit. On
lappelle loi uniforme sur [a, b]. Remarquons que pour cette probabilit, tout singleton
est de probabilit nulle (x R, P ({x}) = 0), ce qui rsulte de la proprit analogue
de 1 . On voit sur cet exemple que la probabilit dune union infinie non dnombrable
dvnements deux deux disjoints nest pas forcment gale la somme de la famille
correspondante de probabilits dvnements. En effet,

X
1 = P ([a, b]) = P
{x} 6=
P ({x}) = 0.
x[a,b]
x[a,b]
71

Exemple 2.26 (lois uniformes dans Rd ). On peut gnraliser lexemple prcdent en
prenant au lieu dun segment un borlien B de Rd , i.e. B Bor(Rd ), tel que 0 < d (B) <
+. On dfinit alors une probabilit P sur (Rd , Bor(Rd )), en posant :
A Bor(Rd ),
P (A) =
d (A B)
.
d (B)
(2.16)
Cette probabilit est appele loi uniforme sur B.

Nous allons donner maintenant une caractrisation de toutes les probabilits P sur
(R, Bor(R)). Comme le montre lexemple de la loi uniforme sur un segment, il est illusoire
desprer caractriser ces probabilits par les P ({x}). La situation est donc radicalement
diffrente du cas dun espace au plus dnombrable. Au lieu des P ({x}), nous allons
utiliser les P (]a, b]), ou les P (] , x]). Nous aurons besoin pour cela de la notion de
fonction de rpartition.
Dfinition 2.27 (fonction de rpartition). Soit P une probabilit sur (R, Bor(R)). On
appelle fonction de rpartition de P , lapplication
F : R [0, 1],
x 7 F (x) := P (] , x]).
y
1
P ({c})
F (c)
F (c)
Fig. 2.3 Une fonction de rpartition avec une discontinuit au point x = c

Voici les proprits gnrales des fonctions de rpartition.
Proposition 2.28. La fonction de rpartition F dune probabilit P sur (R, Bor(R)) a
les proprits suivantes.
a) F est croissante sur R.
b) F a pour limite 0 en et 1 en +.
c) F est continue droite sur R et a une limite gauche en tout point x R.
72
2.4. Exemples
d) En notant F (x) := lim0 F (x ) la limite gauche 16 au point x, on a
x R,
P ({x}) = F (x) F (x).
(2.17)
De plus lensemble des x R tels que F (x) 6= F (x) est au plus dnombrable.
e) Si deux probabilits P1 et P2 sur (R, Bor(R)) ont mme fonction de rpartition F ,
elles sont gales, i.e. P1 (B) = P2 (B) pour tout B Bor(R).
Preuve.
Preuve du a). La croissance de F sur R est une consquence immdiate de la croissance
de P pour linclusion (prop. 2.16 4). En effet si x x0 , ] , x] ] , x0 ], do
F (x) = P (] , x]) P (] , x0 ]) = F (x0 ).
Ainsi F est croissante sur R. Il en rsulte quelle possde une limite gauche et une
limite droite en tout point x de R (cf. cours danalyse).
Preuve du b). Comme F est croissante, elle admet des limites en et +. On identifie la limite en (dont on connat lexistence) grce une suite particulire :
lim F (x) = lim F (n) = lim P (] , n]).
n+
n+
On utilise la continuit squentielle dcroissante de P , i.e. la proposition 2.16 7 b) avec

Bn =] , n], en vrifiant que :
] , n] = .
nN
(2.18)
En effet, soit x un lment de cette intersection. Alors x n pour tout n N

donc en passant la limite, x = , ce qui est impossible puisque x est un rel.
Donc cette intersection est vide et limn+ P (] , n]) = P () = 0. La preuve de
limx+ F (x) = 1 est analogue et est laisse au lecteur.
Preuve du c). Soit x R fix. Comme on est assur de lexistence de la limite droite
de F en ce point, pour montrer que cette limite vaut F (x) et tablir la continuit
droite de F en x, il suffit de vrifier que : F (x) = limn+ F (x + 1/n). Comme
F (x + 1/n) = P (] , x + 1/n]), ceci rsulte de la continuit squentielle dcroissante
de P applique aux vnements Bn =] , x + 1/n] en remarquant que :
i
1i
, x +
=] , x].
(2.19)
nN
n
En effet, pour tout y ] , x], on a y x x + 1/n pour tout n N et donc
y nN Bn do ], x] est inclus dans lintersection des Bn (n N ). Rciproquement
tout y dans cette intersection vrifie : n N , y x + 1/n. Le passage la limite
quand n tend vers linfini conservant cette ingalit large, on en dduit y x soit encore
y ] , x]. Ainsi lintersection des Bn , (n N ) est incluse dans ] , x], ce qui
achve la vrification de (2.19).
16. Cette notation est un peu abusive, puisquil ne sagit pas forcment dune valeur prise par la
fonction F . Attention ne pas confondre le x dans F (x) avec le x partie ngative de x.
73

Preuve du d). On remarque que pour tout x R et tout n N ,
i

i
1 i
1
1 i
= F (x) F x
.
P x , x = P (] , x]) P , x
n
n
n
On vrifie dautre part que :
i
1 i
{x} = x , x .
nN
n
(2.20)
En effet, le premier membre de (2.20) est clairement inclus dans le second. Rciproquement, si y est un lment quelconque de cette intersection, pour tout n N ,
x 1/n < y x, donc en passant la limite quand n tend vers linfini, x y x do
y = x. Ceci termine la justification de (2.20). Comme on sait que F a une limite gauche
au point x, on en dduit par continuit de P pour la suite dcroissante dvnements
Bn =]x 1/n, x] :
i

1 i
P ({x}) = lim P x , x = lim F (x) F (x 1/n) = F (x) F (x).
n+
n+
n

Enfin, considrons la famille de rels positifs P ({x}), x R . Pour toute partie
finie K de R,
X
P ({x}) = P (K) 1.
SK :=
xK
Les sommes finies SK tant ainsi uniformment bornes par 1, la famille est sommable
par la proposition 1.83 a). On sait qualors lensemble des lments non nuls de cette
famille est au plus dnombrable, cf. proposition 1.85.
Nous admettrons le e), dont la preuve sort du programme de ce cours.
Remarque 2.29. Les probabilits dintervalles sexpriment facilement laide de la
fonction de rpartition. Il faut prendre garde aux extrmits. En gnral on a la galits
suivantes pour une probabilit P sur (R, Bor(R)), de fonction de rpartition F , avec a
et b rels quelconques tels que a < b,
P (]a, b])
P ([a, b])
P ([a, b[)
P (]a, b[)
P (] , a[)
P (]b, +[)
P ([b, +[)
=
=
=
=
=
=
=
F (b) F (a),
F (b) F (a),
F (b) F (a),
F (b) F (a),
F (a),
1 F (b),
1 F (b).
(2.21)
(2.22)
(2.23)
(2.24)
(2.25)
(2.26)
(2.27)
Ces formules nont pas tre apprises par coeur. Elles se retrouvent avec un peu de
rflexion. Elles se simplifient lorsque F est continue en a ou b. En particulier si F est
continue aux points a et b, les 4 intervalles dextrmits a et b ont mme probabilit.
74
2.5. Remarques sur le choix dun modle

Nous admettrons le thorme suivant qui permet de construire toutes les probabilits
sur (R, Bor(R)).
Thorme 2.30. Soit F une fonction croissante et continue droite sur R, ayant pour
limite 0 en et 1 en +. Il existe une unique probabilit P sur (R, Bor(R)) telle que
a, b R, avec a b,
P (]a, b]) = F (b) F (a).
Alors F est la fonction de rpartition de P .
2.5
Remarques sur le choix dun modle
Envisageons la situation suivante on jette deux ds . . . . Un vnement lmentaire

associ cette exprience est la sortie de deux nombres entiers distincts ou non compris
entre 1 et 6.
Une premire modlisation consiste choisir =
{1, 2, 3, 4, 5, 6}2 , prendre comme ensemble dvnements
1 2 3 4 5 6
observables F = P() et attribuer chaque vnement
1
lmentaire {(i, j)} la probabilit 1/36 (modle (1)). Il est
2
A00
3
commode de reprsenter sous la forme dun tableau
A0
4
36 cases correspondant chacune un vnement lmen5
taire. On peut alors dfinir la probabilit comme un rapAire
de
B
6
B
. Ce modle
port daires (modle (10 )) : P (B) =
Aire de
(1) ou (10 ) est accept dautant plus facilement quon aura
Fig. 2.4 Modle (10 )
prcis que les deux ds sont distinguables (par exemple
un d rouge et un vert, ou deux ds blancs lancs chacun
sur une table diffrente). On peut ainsi distinguer lvnement A0 = {(2, 3)} de lvnement A00 = {(3, 2)} o la premire composante dsigne le rsultat du d rouge. Aux
questions : quelle est la probabilit de lvnement A := {obtenir un 2 et un 3}, quelle
est celle de lvnement B := {obtenir un double 6} ? On rpondra naturellement :
P (A) = P ({A0 A00 ) =
1
1
1
1
+
=
et P (B) = P ({(6, 6)}) = .
36 36
18
36
Supposons maintenant que les deux ds ne sont plus distinguables, par exemple jet
de deux ds blancs sur une mme table ou jet de deux ds de couleurs diffrentes, lobservation tant note sans tenir compte de la couleur. Voici une modlisation possible.
dvnements observables que les parties symtriques
On ne considre comme famille F
de ( i.e. invariantes par (i, j) 7 (j, i)). Cela revient remplacer = {1, . . . , 6}2
dont les lments (et donc les vnements lmentaires) sont de deux
par lensemble ,
= P()
est constitue
types : les doubles et les paires de deux chiffres distincts. Alors F
de 221 vnements, ce modle est moins riche en information que le prcdent (236 vnements). On peut raisonnablement penser que la couleur ninflue pas sur les rsultats
et attribuer pour rester cohrent avec notre premire modlisation la probabilit 1/36
75

aux doubles et 1/18 aux paires de deux chiffres distincts. On voit ainsi un exemple de situation pourtant trs simple o il ny a pas quiprobabilit des vnements lmentaires
(modle (2)). Remarquons l aussi que lon peut donner une reprsentation gomtrique
de ce modle en repliant le carr le long de sa diagonale i = j. Les vnements lmentaires sont maintenant reprsents par un carr ou un triangle et leur probabilit est
dfinie comme un rapport daires, il sagit de la loi uniforme sur le triangle rectangle de
ct 6 (modle (20 )).
1
2
3
4
5
6
1 2 3 4 5 6
Un troisime modle peut tre propos et il sera souvent adopt implicitement par des dbutants qui on aura
dit : on jette deux ds de mme couleur. . . On considre
21 vnements lmentaires : les 6 doubles et les 15 paires
deux chiffres distincts 17 .
= {1, 2, . . . , 6, 12, . . . , 16, 23, . . . 26, 34, . . . , 56}
| {z } |
{z
}
doubles
distincts
1
2
3
4
5
6
1 2 3 4 5 6
On prend comme ensemble dvnements observables F =

P() ensemble des parties de . On dfinit la probabilit P
par lhypothse dquiprobabilit (modle (3)). On obtient
une reprsentation gomtrique quivalente laide de la figure 2.6. Les vnements
lmentaires sont reprsents par un carr et la probabilit est dfinie comme un rapport
daires (modle (30 )). Avec ce modle, la probabilit dobtenir un double six est la mme
1
que celle dobtenir un deux et un trois et vaut 21
.
On peut imaginer toute une liste dexcellents arguments qui militent en faveur des
modles (1) et (2) contre le modle (3), par exemple : on jette deux ds de couleurs
diffrentes et on les filme avec deux camras, une couleur et lautre noir et blanc. . . ,
il y a deux faons dobtenir 2 et 3 et une seule de faire un double 6 .
Tous ces arguments relvent dune analyse a priori de lexprience et pas de la thorie
mathmatique des probabilits. Chacun des modles prsents ci-dessus a sa cohrence
comme objet mathmatique. La question pertinente est : parmi ces modles, lequel (lesquels ?) reprsente(nt) le mieux la ralit ?
Pour un physicien, ce qui fait la valeur dun modle est sa capacit permettre la
prvision du rsultat dexpriences. Ainsi certaines expriences sont expliques par
17. La paire 1 et 2 est note 12 ,. . .
76
2.6. Probabilits conditionnelles

la thorie de la relativit alors que leur rsultat ne saccorde pas avec la thorie de la
mcanique classique.
Si lon se place dans le cadre des modles (1) et (2), la loi forte des grands nombres
nous dit que si lon jette les ds une infinit de fois, la frquence dapparition du double six
1
1
tandis quavec le modle (3) cette frquence convergera vers 21
. La
va converger 18 vers 36
ralisation dun grand nombre de lancers permet donc ici de constater que les modles (1)
et (2) rendent mieux compte de la ralit que le (3). Une question importante est alors :
que faut-il entendre par grand nombre ? Cette question sera discute ultrieurement.
2.6
2.6.1
Probabilits conditionnelles
Introduction
Comment doit-on modifier la probabilit que lon attribue un vnement lorsque

lon dispose dune information supplmentaire ? Le concept de probabilit conditionnelle
permet de rpondre cette question.
Par exemple, une fdration descrime regroupe N licencis, dont NH hommes et
NF = N NH femmes. Il y a NG gauchers (des deux sexes) parmi tous les licencis. On
choisit un individu au hasard. Notons :
G = {lindividu choisi au hasard est gaucher}
H = {lindividu choisi au hasard est un homme}
On note NGH le nombre descrimeurs hommes gauchers. On a bien sr : P (H) = NH /N
et P (GH) = NGH /N . Quelle est la probabilit quun licenci homme choisi au hasard
soit gaucher ? On dispose ici dune information supplmentaire : on sait que lindividu
choisi est un homme. En considrant les divers choix possibles dun homme comme
quiprobables, la probabilit cherche est clairement : NGH /NH . Ceci sexprime aussi
laide de P (H) et de P (G H) en remarquant que :
P (G H)
N P (G H)
NGH
=
.
=
NH
N P (H)
P (H)
Par analogie, nous donnons dans le cas gnral la dfinition formelle :
Dfinition 2.31 (probabilit conditionnelle). Soit H un vnement tel que P (H) 6= 0.
Pour tout vnement A, on dfinit :
P (A | H) =
P (A H)
,
P (H)
appele probabilit conditionnelle de lvnement A sous lhypothse H.

18. En un sens qui sera prcis dans le chapitre sur la loi des grands nombres.
77

Remarquons que pour linstant, il ne sagit que dun jeu dcriture. On a simplement
dfini un rel P (A | H) pour que :
P (A H) = P (A | H)P (H).
Ce qui fait lintrt du concept de probabilit conditionnelle, cest quil est souvent
bien plus facile dattribuer directement une valeur P (A | H) en tenant compte des
conditions exprimentales (lies linformation H) et den dduire ensuite la valeur de
P (AH). Le raisonnement implicite alors utilis est : tout espace probabilis modlisant
correctement la ralit exprimentale devrait fournir telle valeur pour P (A | H). . .
Exemple 2.32. Une urne contient r boules rouges et v boules vertes. On en tire deux
lune aprs lautre, sans remise. Quelle est la probabilit dobtenir deux rouges ?
Notons H et A les vnements :
H = {rouge au 1er tirage},
A = {rouge au 2e tirage}.
Un espace probabilis (, F, P ) modlisant correctement cette exprience devrait vrifier :

r
P (H) =
,
r+v
r1
.
P (A | H) =
r+v1
En effet, si H est ralis, le deuxime tirage a lieu dans une urne contenant r + v 1
boules dont r 1 rouges. On en dduit :
P (deux rouges) = P (A H) = P (A | H)P (H) =
r
r1
.
r+v1 r+v
On aurait pu arriver au mme rsultat en prenant pour lensemble des arrangements

de deux boules parmi r + v, muni de lquiprobabilit et en faisant du dnombrement :
card = A2r+v = (r + v)(r + v 1),
do :
P (A H) =
card(A H) = A2r = r(r 1).
r(r 1)
.
(r + v)(r + v 1)
Notons dailleurs que card H = r(r + v 1) do

P (H) =
card H
r(r + v 1)
r
=
=
.
card
(r + v)(r + v 1)
r+v
En appliquant la dfinition formelle de P (A | H) on retrouve :

P (A | H) =
P (A H)
r(r 1)
r+v
r1
=
=
,
P (H)
(r + v)(r + v 1)
r
r+v1
ce qui est bien la valeur que nous avions attribue a priori en analysant les conditions
exprimentales.
78

Remarque 2.33. Il importe de bien comprendre que lcriture A | H ne dsigne
pas un nouvel vnement 19 diffrent de A. Quand on crit P (A | H), ce que lon a
modifi, ce nest pas lvnement A, mais la valeur numrique qui lui tait attribue
par la fonction densembles P . Il serait donc en fait plus correct dcrire PH (A) que
P (A | H). On conservera nanmoins cette dernire notation essentiellement pour des
raisons typographiques : P (A | H1 H2 H3 ) est plus lisible que PH1 H2 H3 (A).
2.6.2
Proprits
Proposition 2.34. Soit (, F, P ) un espace probabilis et H un vnement fix tel que

P (H) 6= 0. Alors la fonction densembles P ( . | H) dfinie par :
F [0, 1] B 7 P (B | H)
P ( . | H) :
est une nouvelle probabilit sur (, F).

La preuve a dj t donne loccasion de lexemple 2.12. Une consquence immdiate est que la fonction densembles P ( . | H) vrifie toutes les proprits de la
proposition 2.16.
Corollaire 2.35. La fonction densembles P ( . | H) vrifie :
1. P ( | H) = 0, P ( | H) = 1 et si A H, P (A | H) = 1.
2. Si les Ai sont deux deux disjoints :
n
P ( Ai | H) =
i=1
n
X
P (Ai | H).
i=1
3. Pour tout B F, P (B c | H) = 1 P (B | H).

4. Pour tous A F et B F, si A B, P (A | H) P (B | H).
5. Pour tous A F et B F,
P (A B | H) = P (A | H) + P (B | H) P (A B | H).
6. Pour toute suite (Ai )i1 dvnements :
+
X
P Ai | H
P (Ai | H).
iN
i=1
7. Si Bn B, P (Bn | H) P (B | H), (n +).

8. Si Cn C, P (Cn | H) P (C | H), (n +).
19. En fait cette criture prise isolment (sans le P ) na pas de sens et ne devrait jamais tre utilise.
Le symbole | ne reprsente pas une opration sur les vnements qui lentourent.
79

Nous navons vu jusquici aucune formule permettant de calculer la probabilit dune
intersection dvnements laide des probabilits de ces vnements. Une telle formule
nexiste pas dans le cas gnral. Les probabilits conditionnelles fournissent une mthode
gnrale tout fait naturelle pour calculer une probabilit dintersection.
Proposition 2.36 (rgle des conditionnements successifs).
Si A1 , . . . , An sont n vnements tels que P (A1 . . . An1 ) 6= 0, on a :
P (A1 . . . An ) = P (A1 )P (A2 | A1 )P (A3 | A1 A2 )
P (An | A1 . . . An1 ).
n1
j=1
j=1
Preuve. Pour 1 i n 1, on a Aj Aj do :
n1
i

0 < P Aj P Aj .
j=1
j=1

i
Donc P Aj nest nul pour aucun i n 1 et on peut conditionner par lvnement
j=1
Aj . Ceci lgitime le calcul suivant :
j=1
P (A1 )P (A2 | A1 )P (A3 | A1 A2 ) P (An | A1 . . . An1 )

P (A1 . . . An )
P (A1 A2 ) P (A1 A2 A3 )

= P (A1 )
P (A1 )
P (A1 A2 )
P (A1 . . . An1 )
= P (A1 . . . An ),
aprs simplifications en chane de toutes ces fractions.
Les probabilits conditionnelles permettent aussi de calculer la probabilit dun vnement en conditionnant par tous les cas possibles. Du point de vue ensembliste, ces cas
possibles correspondent une partition de .
Dfinition 2.37 (partition). On dit quune famille (Hi )iI de parties de est une
partition de si elle vrifie les trois conditions :
i I, Hi 6= .
= Hi .
iI
Les Hi sont deux deux disjoints (i 6= j Hi Hj = ).

Proposition 2.38 (conditionnement par les cas possibles 20 ).
(i) Si H est tel que P (H) 6= 0 et P (H c ) 6= 0, on a
A F,
P (A) = P (A | H)P (H) + P (A | H c )P (H c ).
20. ou formule des probabilits totales.
80

(ii) Si H1 , . . . , Hn est une partition finie de en vnements de probabilit non nulle,
A F,
P (A) =
n
X
P (A | Hi )P (Hi ).
i=1
(iii) Si (Hi )iN est une partition de telle que i N, P (Hi ) 6= 0 :

A F,
P (A) =
+
X
P (A | Hi )P (Hi ).
i=0
Preuve. Il suffit de vrifier (iii), les deux premires proprits se dmontrant de faon
analogue. Comme (Hi )iN est une partition de ,

A = A = A Hi = (A Hi )
iN
iN
et cette runion est disjointe car les Hi tant deux deux disjoints, il en est de mme
pour les (A Hi ). Par consquent par -additivit :
P (A) =
+
X
P (A Hi ) =
i=0
+
X
P (A | Hi )P (Hi ).
i=0
Lorsquon a une partition de en n hypothses ou cas possibles Hi et que lon sait

calculer les P (Hi ) et les P (A | Hi ), on peut se poser le problme inverse : calculer
P (Hj | A) laide des quantits prcdentes. La solution est donne par la formule
suivante quelquefois appele (abusivement) formule des probabilits des causes.
Proposition 2.39 (formule de Bayes).
Soit A un vnement de probabilit non nulle. Si les vnements Hi (1 i n)
forment une partition de et si aucun P (Hi ) nest nul, on a pour tout j = 1, . . . , n :
P (A | Hj )P (Hj )
P (Hj | A) = Pn
.
i=1 P (A | Hi )P (Hi )
Preuve. Par dfinition des probabilits conditionnelles on a :
P (Hj | A) =
P (A Hj )
P (A | Hj )P (Hj )
=
.
P (A)
P (A)
Et il ne reste plus qu dvelopper P (A) en conditionnant par la partition (Hi , 1 i n)

comme la proposition 2.38.
La mme formule se gnralise au cas dune partition dnombrable. Ces formules sont
plus faciles retrouver qu mmoriser. . .
81
2.6.3
Quelques exemples
Exemple 2.40. On considre deux urnes U1 et U2 . Lurne U1 contient r1 boules rouges

et v1 boules vertes. Lurne U2 contient r2 boules rouges et v2 boules vertes. On lance un
d. Sil indique le chiffre 1, on choisit lurne U1 , sinon on choisit U2 . Dans chaque cas on
effectue deux tirages avec remise dans lurne choisie. Quelle est la probabilit dobtenir
une rouge au premier tirage ? deux rouges en tout ?
Adoptons les notations dvnements suivantes :
R = {rouge au 1er tirage},
H1 = {choix de lurne U1 },
R0 = {rouge au 2e tirage},
H2 = H1c = {choix de lurne U2 }.
Il est facile de calculer directement P (R | Hi ) et P (R R0 | Hi ) pour i = 1, 2. En effet,

une fois lurne Ui choisie, on a un problme classique de tirages avec remise dans la mme
urne que lon peut traiter (par exemple) par le dnombrement. On a ainsi :
P (R | Hi ) =
ri
,
ri + v i
P (R R0 | Hi ) =
ri 2
.
ri + v i
La formule de conditionnement par la partition {H1 , H2 } donne :

P (R) = P (R | H1 )P (H1 ) + P (R | H2 )P (H2 )
1 r1
5 r2
=
+
6 r1 + v 1 6 r2 + v 2
et
P (R R0 ) = P (R R0 | H1 )P (H1 ) + P (R R0 | H2 )P (H2 )
1 r 1 2 5 r 2 2
=
+
.
6 r1 + v 1
6 r2 + v2
Exemple 2.41. Un questionnaire choix multiples propose m rponses pour chaque
question. Soit p la probabilit quun tudiant connaisse la rponse une question donne.
Sil ignore la rponse, il choisit au hasard lune des rponses proposes. Quelle est pour
le correcteur la probabilit quun tudiant connaisse vraiment la bonne rponse lorsquil
la donne ?
Notons :
B = {ltudiant donne la bonne rponse}
C = {ltudiant connat la bonne rponse}
On cherche P (C | B). Avec ces notations, les donnes de lnonc peuvent se traduire
par :
1
P (C) = p, P (C c ) = 1 p,
P (B | C) = 1, P (B | C c ) = .
m
82

On en dduit :
P (B C)
P (B)
P (B | C)P (C)
=
P (B | C)P (C) + P (B | C c )P (C c )
mp
1p
=
=
.
1
1 + (m 1)p
1 p + m (1 p)
P (C | B) =
Pour p fix, P (C | B) est une fonction croissante de m, les deux bornes tant P (C |
B) = p (cas m = 1) et P (C | B) 1 (m +). Dautre part pour m fix, P (C | B)
est une fonction croissante de p. On a pour p > 0 :
m
P (C | B)
=
1,
p
1 + (m 1)p
lgalit ntant possible que pour p = 1. Tout ceci est conforme lintuition.
Exemple 2.42. Un test sanguin a une probabilit de 0,95 de dtecter un certain virus
lorsque celui-ci est effectivement prsent. Il donne nanmoins un faux rsultat positif
pour 1% des personnes non infectes. Si 0,5% de la population est porteuse du virus,
quelle est la probabilit quune personne ait le virus sachant quelle a un test positif ?
Notons
V = {la personne teste a le virus},
T = {la personne teste a un test positif}.
On cherche P (V | T ). Or on sait que P (V ) = 0,005, P (T | V ) = 0,95 et P (T | V c ) =
0,01. On en dduit :
P (V | T ) =
P (T | V )P (V )
P (T V )
=
P (T )
P (T | V )P (V ) + P (T | V c )P (V c )
0,95 0,005
=
' 0,323.
0,95 0,005 + 0,01 0,995
On voit ainsi que contrairement ce que lon aurait pu croire, le test nest pas fiable : si
la personne prsente un test positif, la probabilit quelle ne soit pas porteuse du virus
est deux fois plus leve que celle quelle le soit !
Exemple 2.43. Revenons sur le problme de ds tudi la sous-section 2.2.3, i.e.
attribution dune probabilit lvnement E premire obtention de la somme 9 avant
celle de la somme 7. Les probabilits conditionnelles permettent den proposer une solution simple, sans calcul de srie. En rappelant que F1 , G1 , H1 dsignent respectivement
lvnement obtention au premier lancer dune somme 9 (resp. 7, resp. ni 7 ni 9), la
formule des probabilits totales nous donne :
P (E) = P (E | F1 )P (F1 ) + P (E | G1 )P (G1 ) + P (E | H1 )P (H1 ).
(2.28)
83

On a clairement P (E | F1 ) = 1 et P (E | G1 ) = 0. Pour attribuer une valeur P (E | H1 ),
on considre que lobtention dune somme autre que 7 ou 9 au premier lancer ne devrait
pas influer sur lapparition ultrieure du 7 ou du 9. Pour traduire cette ide, on pose
P (E | H1 ) = P (E). En reportant ces valeurs dans (2.28), il vient
1 13
P (E) = P (F1 ) + P (E)P (H1 ) = + P (E),
9 18
do
13
1
1
P (E) = ,
18
9
ce qui se rsout en
2
1 18
= .
9
5
5
On retrouve ainsi la valeur obtenue la sous-section 2.2.3, lorsque nous avons esquiss
la construction dun espace (, F, P ) modlisant cette exprience alatoire. Le point cl
dans le raisonnement ci-dessus est lgalit P (E | H1 ) = P (E), qui exprime lindpendance des vnements H1 et E, une notion que nous allons tudier maintenant.
P (E) =
2.7
2.7.1
Indpendance
Indpendance de deux vnements
Soient A et B deux vnements de probabilit non nulle. Il arrive que la connaissance

de la ralisation de A ne modifie pas notre information sur celle de B, autrement dit
que P (B | A) = P (B). Cest le cas par exemple lorsque lon fait un tirage avec remise et
que la ralisation de A ne dpend que du rsultat du premier tirage, celle de B que du
deuxime. Symtriquement on aura dans cet exemple P (A | B) = P (A). Cette remarque
se gnralise :
Proposition 2.44. Si A et B sont des vnements de probabilit non nulle, les trois
galits suivantes sont quivalentes :
(i) P (B | A) = P (B),
(ii) P (A | B) = P (A),
(iii) P (A B) = P (A)P (B).
Preuve. Comme P (A) 6= 0 et P (B) 6= 0, on a la chane dquivalences :
P (A B)
P (A B)
= P (B) P (A B) = P (A)P (B)
= P (A).
P (A)
P (B)
Dautre part la relation (iii) est toujours vrifie dans le cas dgnr o P (A) =
0 ou P (B) = 0. En effet, on a alors la fois P (A)P (B) = 0 et 0 P (A B)
min P (A), P (B) = 0 do P (A B) = 0. Ainsi la relation (iii) est un peu plus gnrale
que (i) et (ii). Elle a aussi sur les deux autres lavantage de la symtrie dcriture. Cest
elle que lon retient pour dfinir lindpendance.
84
2.7. Indpendance
Dfinition 2.45. Soit (, F, P ) un espace probabilis. Deux vnements A et B de cet
espace sont dits indpendants lorsque :
P (A B) = P (A)P (B).
Exemple 2.46. On jette deux fois le mme d. Les vnements
A = {obtention dun chiffre pair au premier lancer},
B = {obtention du 1 au deuxime lancer},
sont indpendants.
En effet, en prenant = {1, 2, . . . , 6}2 , F = P() et P lquiprobabilit, on vrifie
que :
36
1
61
1
P (A) =
= , P (B) =
= ,
36
2
36
6
31
1
1 1
1
P (A B) =
= , P (A)P (B) = = .
36
12
2 6
12
Remarques 2.47.
Si A est un vnement tel que P (A) = 0 ou P (A) = 1, alors il est indpendant de
tout vnement, y compris de lui-mme (cest le cas en particulier pour et ).
Deux vnements incompatibles A et B avec P (A) > 0 et P (B) > 0 ne sont jamais
indpendants. En effet A B = implique P (A B) = 0 or P (A)P (B) 6= 0.
Lindpendance de deux vnements A et B nest pas une proprit intrinsque
aux vnements, elle est toujours relative au modle (, F, P ) que lon a choisi.
Voici un exemple pour lillustrer.
Exemple 2.48. Une urne contient 12 boules numrotes de 1 12. On en tire une au
hasard et on considre les vnements :
A = {tirage dun nombre pair},
B = {tirage dun multiple de 3}.
Lespace probabilis qui simpose naturellement ici est = {1, . . . , 12} muni de lquiprobabilit P . Les vnements A et B scrivent :
A = {2, 4, 6, 8, 10, 12},
B = {3, 6, 9, 12},
A B = {6, 12}.
Dans ce modle, on a
P (A) =
P (A B) =
1
6
= ,
12
2
2
1
= ,
12
6
P (B) =
4
1
= ,
12
3
P (A)P (B) =
1 1
1
= ,
2 3
6
donc A et B sont indpendants.
85

On rajoute maintenant dans lurne une boule numrote treize et on recommence
lexprience. Les vnements A et B restent les mmes, mais le modle a chang. On a
maintenant lquiprobabilit P 0 sur 0 = {1, . . . , 13} et
P 0 (A) =
6
,
13
P 0 (B) =
4
,
13
P 0 (A B) =
2
,
13
mais
6
4
24
2
=
6= ,
13 13
169
13
donc A et B ne sont plus indpendants. Un peu de rflexion permet de relier ces rsultats
calculatoires avec la notion intuitive dindpendance prsente en introduction. Dans le
premier cas, la proportion des multiples de trois parmi les pairs est la mme que parmi les
impairs. Le fait de savoir que la boule tire est paire ne modifie en rien notre information
sur B. Par contre dans le deuxime cas, lajout de la treizime boule modifie la proportion
des multiples de trois : elle est plus leve chez les pairs que chez les impairs. Donc le fait
de savoir que la boule tire est paire augmente un peu la probabilit que nous pouvons
attribuer B.
P 0 (A)P 0 (B) =
Proposition 2.49. Si A et B sont indpendants, il en est de mme pour les paires

dvnements A et B c , Ac et B, Ac et B c .
Preuve. Par hypothse, P (A B) = P (A)P (B). En considrant la runion disjointe
A = (A B) (A B c ), nous avons : P (A B c ) = P (A) P (A B), do :

P (A B c ) = P (A) P (A)P (B) = P (A) 1 P (B) = P (A)P (B c ).
Donc A et B c sont indpendants. Lchange des rles de A et B dans ce raisonnement
donne lindpendance de Ac et B. En rutilisant le premier rsultat avec Ac la place
de A, on obtient alors celle de Ac et B c .
2.7.2
Indpendance mutuelle
On se propose de gnraliser la notion dindpendance plus de deux vnements.

Examinons dabord la situation suivante.
Exemple 2.50. Une urne contient quatre jetons : un bleu, un blanc, un rouge et un
bleu-blanc-rouge. On en tire un au hasard. Considrons les trois vnements
A = {le jeton tir contient du bleu},
B = {le jeton tir contient du blanc},
C = {le jeton tir contient du rouge}.
Il est clair que P (A) = P (B) = P (C) = 2/4 = 1/2. Dautre part :
P (A B) = P (tricolore) =
86
1
= P (A)P (B)
4
2.7. Indpendance
et de mme P (B C) = 1/4 = P (B)P (C), P (C A) = 1/4 = P (C)P (A). Ainsi les
vnements A, B, C sont deux deux indpendants.
Dautre part P (A | B C) = 1 car B C = {tricolore}. Donc la connaissance de la
ralisation simultane de B et C modifie notre information sur A. La notion dindpendance deux deux nest donc pas suffisante pour traduire lide intuitive dindpendance
de plusieurs vnements. Ceci motive la dfinition suivante.
Dfinition 2.51. Trois vnements A, B, C sont dits mutuellement indpendants lorsquils vrifient les quatre conditions :
P (A B)
P (B C)
P (C A)
P (A B C)
=
=
=
=
P (A)P (B),
P (B)P (C),
P (C)P (A),
P (A)P (B)P (C).
Avec cette dfinition de lindpendance des vnements A, B et C on a bien 21 P (A |

B) = P (A), P (A | B C) = P (A), ainsi que toutes les galits qui sen dduisent par
permutation sur les lettres A, B, C. On peut gnraliser cette dfinition comme suit.
Dfinition 2.52. Les n vnements A1 , . . . , An sont dits mutuellement indpendants si
pour toute sous-famille Ai1 , . . . , Aik avec 1 i1 < . . . < ik n, on a :
P (Ai1 . . . Aik ) = P (Ai1 ) P (Aik ).
(2.29)
Lindpendance mutuelle implique videmment lindpendance deux deux et la

rciproque est fausse comme le montre lexemple 2.50. Dans toute la suite, lorsque nous
parlerons dune famille de plusieurs vnements indpendants sans autre prcision, nous
sous-entendrons systmatiquement mutuellement indpendants.
Proposition 2.53. Si {A1 , . . . , An } est une famille de n vnements indpendants, toute
famille obtenue en remplaant certains des Ai par leur complmentaire est encore indpendante.
Preuve. Supposons la proposition dmontre dans le cas o lon a remplac un seul Ai
par son complmentaire. Le cas gnral sen dduit en utilisant cette proprit autant de
fois quil y a de Ai changs en leur complmentaire. Dans le cas dun seul Ai remplac, on
ne perd pas de gnralit en supposant quil sagit de A1 (il suffit de changer lindexation
des vnements, ce qui naffecte pas leur indpendance mutuelle). Il nous reste alors
vrifier (2.29) dans le cas o i1 = 1 avec Aci1 la place de Ai1 (dans le cas i1 > 1, lgalit
ne fait intervenir que des lments de la famille initiale et il ny a donc rien vrifier).
Posons B = Ai2 Aik . Lhypothse (2.29) applique la famille Ai2 . . . , Aik nous
donne P (B) = P (Ai2 ) P (Aik ). La mme hypothse applique Ai1 . . . , Aik nous
donne alors lindpendance de Ai1 et de B. Par la proposition 2.49, on en dduit :
P (Aci1 B) = P (Aci1 ) P (B) = P (Aci1 ) P (Ai2 ) P (Aik ),
ce qui achve la preuve.
21. Lorsque les probabilits conditionnelles existent.
87

Dfinition 2.54 (indpendance dune suite dvnements). Une suite infinie dvnements est dite indpendante si toute sous-suite finie est forme dvnements mutuellement indpendants.
Remarque 2.55. Compte-tenu de la proposition 2.53, on voit immdiatement que si
(Ai )iN est une suite indpendante dvnements, toute suite forme en remplaant certains des Ai (ventuellement tous) par leur complmentaire est encore indpendante.
2.7.3
preuves rptes
Considrons une suite dpreuves ralises dans les mmes conditions exprimentales.
Par exemple tirages avec remise dans la mme urne, lancers successifs dun d, . . . Il est
alors raisonnable de supposer que les rsultats de tout sous-ensemble fini dpreuves
nont aucune influence sur ceux des autres preuves.
Dfinition 2.56. On dit que les preuves sont indpendantes si toute suite (Ai )i1 telle
que la ralisation de chaque Ai est dtermine uniquement par le rsultat de la ie preuve
est une suite indpendante dvnements.
Exemple 2.57. On ralise une suite dpreuves indpendantes. Chaque preuve rsulte
en un succs avec probabilit p ]0, 1[ ou en un chec avec probabilit q = 1 p. Quelle
est la probabilit des vnements suivants :
a) A = {Au moins un succs au cours des n premires preuves},
b) B = {Exactement k succs au cours des n premires preuves},
c) C = {Toutes les preuves donnent un succs} ?
Notons pour tout i 1 : Ri = {succs la ie preuve}, Ric est alors lchec la ie
preuve.
n
n
a) A = Ri , do Ac = Ric . Les Ric tant indpendants, on a :
i=1
i=1
P (A ) =
n
Y
P (Ric ) = (1 p)n = q n .
i=1
On en dduit P (A) = 1 q n .
b)Traitons dabord le cas 0 < k < n. Lvnement B est la runion disjointe de tous les
vnements du type :

c
BI = Ri Rj ,
iI
jJ
o I est une partie de cardinal k de {1, . . . , n} et J son complmentaire dans {1, . . . , n}.
Lensemble dindices I reprsente un choix possible des k preuves donnant un succs,
les autres preuves indexes par J donnant alors un chec. En considrant tous les choix
possibles de lensemble I (il y en a Cnk ), on obtient une partition de B par les BI . Par
indpendance des preuves, pour tout I on a :
Y
Y
P (BI ) =
P (Ri )
P (Rjc ) = pk q nk .
iI
88
jJ
2.7. Indpendance
On voit ainsi que P (BI ) ne dpend pas de I. On en dduit :
X
k k nk
P (B) =
.
I{1,...,n} P (BI ) = Cn p q
card I=k
La vrification de la validit de la formule P (B) = Cnk pk q nk dans les cas k = 0 et k = n

est laisse au lecteur.
c) Pour n 1, soit Cn = {succs aux n premires preuves}. Clairement C est inclus
dans Cn donc 0 P (C) P (Cn ). En utilisant lindpendance des Ri on obtient :
n
n
Y
P (Cn ) = P Ri =
P (Ri ) = pn .
i=1
i=1
donc pour tout n 1, 0 P (C) pn . En faisant tendre n vers +, on en dduit

P (C) = 0.
89
90
Chapitre 3
Variables alatoires
3.1
Introduction
Dans de nombreux jeux, on fait intervenir le hasard en observant la somme des points
marqus par deux ds. Considrons le jet dun d bleu et dun d rouge et notons S la
somme des points obtenus. On modlise cette exprience en prenant lquiprobabilit
sur :
= {1, 2, 3, 4, 5, 6}2 .
Un vnement lmentaire est ici un couple (b, r) o b dsigne le rsultat du d bleu et
r celui du rouge et S() = b + r. Il est commode de dcrire la situation par un tableau
36 cases en crivant la valeur de S() dans la case reprsentant = (b, r) lintersection
de la ligne b et de la colonne r.
1
1 2
2
3
3
4
4
5
5
6
6
7
2 3
3 4
4 5
10
5 6
10 11
6 7
10 11 12
Fig. 3.1 Somme des points de deux ds

On a ainsi dfini une application S de dans lensemble des sommes de points
possibles : {2, 3, . . . , 11, 12}. On dit que S est une variable alatoire sur . En fait,
lobservation qui nous intresse dans cette exprience, ce nest pas , mais seulement
S(). Ce que lon aimerait connatre, cest la probabilit que la somme des points prenne
une valeur donne, soit P (S = k) pour k entier fix entre 2 et 12. Ici la notation
91
Chapitre 3. Variables alatoires

P (S = k) est un abus dcriture commode pour dsigner P { ; S() = k} . En
utilisant lquiprobabilit sur et la figure 3.1, nous obtenons le tableau 3.1.
k
P (S = k)
10 11 12
1
36
2
36
3
36
4
36
5
36
6
36
5
36
4
36
3
36
2
36
1
36
Tab. 3.1 Probabilits des valeurs de la somme des points

Cela revient considrer un nouvel ensemble dvnements lmentaires :
0 = S() = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}
et munir cet ensemble de la probabilit PS dfinie par le tableau 3.1, plus prcisment :
X
PS :=
P (S = k)k .
(3.1)
k0
Cette nouvelle probabilit sappelle loi de la variable alatoire S. En dautre

termes,

nous avons ralis via S un transfert de lespace probabilis , P(), P sur lespace
probabilis (0 , P(0 ), PS ). Si B P(0 ), en notant {S B} := { ; S() B}, on
a ainsi puisque B est lunion finie de ses singletons,
X
X
P (S = k)k (B) = PS (B).
(3.2)
P (S = k) =
P (S B) =
k0
kB
Remarquons maintenant que lon peut facilement agrandir lensemble darrive de S en

remplaant 0 par 00 = R. On peut munir R au choix de la tribu P(R) ou Bor(R). En
dfinissant encore PS par (3.1), le calcul (3.2) sadapte facilement pour tout B P(R),
donc a fortiori pour tout B borlien :
X
X
P (S = k)k (B) = PS (B). (3.3)
P (S = k) =
P (S B) = P (S B 0 ) =
kB0
k0
Il y a de bonnes raisons cet agrandissement de lensemble darrive, ne serait ce que

pour pouvoir faire des oprations sur les variables alatoires. Imaginons par exemple
que lon jette n fois la paire de ds et que lon sintresse la moyenne arithmtique Mn
des sommes obtenues. Il ne serait gure commode de travailler avec un espace darrive
0n := Mn (0n ), surtout si lon sintresse au comportement de Mn pour n tendant vers
linfini. Nous prendrons donc dsormais comme ensemble darrive R pour les variables
alatoires que nous tudierons.
Si X() est une grandeur physique (masse, temprature, pression, longueur, etc.)
mesure partir du rsultat dune exprience, il nest en gnral pas possible de la
dterminer avec une prcision absolue. Tout ce que lon peut dire est que X appartient
un certain intervalle, dont la longueur dpend de la prcision de linstrument de mesure
utilis. Les quantits pertinentes pour identifier la loi de X sont alors les P (X I)
92
3.1. Introduction
pour I intervalle 1 de R, plutt que les P (X = x) qui pourraient tre nulles pour tout x
rel. Pour dfinir la loi de X, nous serons amens poser PX (B) = P (X B) pour B
borlien quelconque de R, sous rserve que cela ait un sens. Voyons cela de plus prs.
Soit X une application R. Pour tout B R, notons
{X B} := { ; X() B} =: X 1 (B).
Cette criture X 1 ne suppose aucunement la bectivit de X. Il sagit seulement
dune notation commode pour lensemble des antcdents des lments de B par lapplication X . On aimerait pouvoir transporter par X la
probabilit P , mesure dfinie
sur (, F) en une probabilit PX , dfinie sur R, Bor(R) en posant :

B Bor(R), PX (B) := P X 1 (B) = P (X B).
Pour que cette criture ait un sens, encore faut-il que X 1 (B) soit un lment de la tribu
F sur laquelle est dfinie P . Nous supposerons donc que X vrifie la condition suivante :
B Bor(R),
X 1 (B) F.
(3.4)
On dit alors que X est mesurable pour les tribus F et Bor(R). Nous rserverons le nom
de variable alatoire aux applications X : R vrifiant (3.4). La mesurabilit est
dailleurs une notion plus gnrale dfinie comme suit.
Dfinition 3.1 (mesurabilit). Soit h : 1 2 , o 1 et 2 sont munis respectivement
des tribus F1 et F2 . On dit que h est mesurable 2 F1 - F2 si pour tout B F2 , h1 (B)
F1 .
On dmontre en thorie de la mesure le rsultat suivant.
Proposition 3.2. Soient 1 et 2 deux ensembles munis respectivement des tribus F1
et F2 et C une famille de parties de 2 engendrant F2 ((C) = F2 ). Lapplication h :
1 2 est mesurable F1 - F2 si pour tout B C, h1 (B) F1 .
En particulier en prenant 2 = R, F2 = Bor(R) et C la famille des intervalles ]a, b],
on voit que pour que X : R soit une variable alatoire, il suffit que
a, b R,
X 1 (]a, b]) F.
La mesurabilit F - Bor(R) est conserve par toutes les oprations usuelles de lalgbre
(somme, produit, combinaisons linaires, composition,. . .) et de lanalyse 3 , pourvu que
les familles dapplications concernes soient au plus dnombrables (inf, sup, lim inf,
lim sup, limite si elle existe dune suite de fonctions, srie de fonctions,. . .). Bref, il sagit
dune notion trs riche. Tellement riche en fait, que nous ne rencontrerons jamais dans ce
cours dapplication X : R qui ne soit pas une variable alatoire. Ceci explique que
dans les ouvrages de probabilits lmentaires, on appelle variable alatoire nimporte
quelle application R.
1. Ceci est en accord avec la remarque faite p. 72 propos de la caractrisation des probabilits sur
R, Bor(R) .
2. Ce langage est trompeur : la mesurabilit ne fait intervenir aucune mesure, elle concerne seulement
h et les tribus.
3. Pour les noncs prcis, voir le cours dIFP 2003-2004 chapitre 2
http://math.univ-lille1.fr/~suquet/ens/IFP/Cours/cours04/CoursIFP04.html
93
3.2
3.2.1
Gnralits
Variables alatoires relles
Avant de formaliser la dfinition dune variable alatoire, commenons par donner

deux proprits utiles des inverses ensemblistes.
Proposition 3.3. Soit h : 1 2 une application. Pour tout B 2 , notons
h1 (B) := { 1 ; h() B}. Linverse ensembliste h1 ainsi dfini commute avec
les unions et les intersections quelconques. Autrement dit, si (Bi )iI est une famille
quelconque de parties de 2 ,

1
h
Bi = h1 (Bi ),
(3.5)
iI
iI

h1 Bi = h1 (Bi ).
(3.6)
iI
iI
Linverse ensembliste commute aussi avec le passage au complmentaire au sens suivant :

B 2 ,
h1 (2 \ B) = 1 \ h1 (B).
(3.7)
Preuve. Lgalit densembles (3.5) se vrifie par la chane dquivalences logiques suivantes qui montre que lappartenance au premier membre de (3.5) quivaut lappartenance son deuxime membre :

h1 Bi h() Bi
iI
iI
i I; h() Bi
i I; h1 (Bi )
h1 (Bi ).
iI
On procde de mme pour vrifier (3.6) :

h1 Bi h() Bi
iI
iI
i I, h() Bi
i I; h1 (Bi )
h1 (Bi ).
iI
Voici la vrification de (3.7) :

h1 (2 \ B) =
=
=
=
94
{ 1 ; h() (2 \ B)}
{ 1 ; h()
/ B}
1
{ 1 ;
/ h (B)}
1 \ h1 (B).
3.2. Gnralits
Dfinition 3.4 (variable alatoire relle). Soit (, F, P ) un espace probabilis. On appelle variable alatoire relle sur (, F), ou plus simplement variable alatoire, toute
application X :
X : R 7 X(),
mesurable F - Bor(R), i.e. vrifiant :
B Bor(R),
X 1 (B) F.
En raison de la proposition 3.2, il suffit que la condition ci-dessus soit vrifie pour
B =]a, b] avec a et b rels quelconques, pour que X soit une variable alatoire.
Remarque 3.5. Il importe de noter que la mesure de probabilit P sur (, F) ne joue
aucun rle dans la dfinition de la notion de variable alatoire. Cest pour cela que nous
parlons de variable alatoire sur (, F) plutt que sur (, F, P ).
Dfinition 3.6 (variable alatoire discrte). On appelle variable alatoire discrte sur
(, F), toute application X : R vrifiant les deux conditions suivantes.
(i) Lensemble des images X() = {X(), } est une partie au plus dnombrable de R. On peut donc numroter ses lments par des indices entiers 4
X() = {x0 , x1 , . . . , xk , . . .}.
(ii) X est mesurable F - P(R), ce qui quivaut ici
x X(),
X 1 ({x}) F.
(3.8)
Remarquons que si X est mesurable F - P(R), elle est a fortiori mesurable F - Bor(R)
puisque la condition X 1 (B) F doit tre satisfaite dans ce cas seulement pour les B
appartenant la tribu Bor(R) qui est une sous-famille de P(R). Par consquent, toute
variable alatoire discrte est aussi une variable alatoire relle.
Lquivalence pour X() au plus dnombrable, entre la mesurabilit F - P(R) et
la condition (3.8) se justifie comme suit. Dabord il est clair que la mesurabilit F P(R) implique (3.8). Pour la rciproque, on suppose (3.8) vrifie, on prend B P(R)
quelconque et on montre qualors X 1 (B) F. Notons B 0 := B X() et B 00 :=
B R \ X() . Remarquons que B 0 tant inclus dans X() est au plus dnombrable
et que X 1 (B 00 ) = . Il suffit alors dcrire en utilisant (3.5)
X 1 (B) = X 1 (B 0 B 00 ) = X 1 (B 0 ) X 1 (B 00 )
= X 1 (B 0 )

1
= X
0 {x}
=
xB
1
xB 0
({x}),
(3.9)
pour faire apparatre X 1 (B) comme union au plus dnombrable dlments de la tribu
F, ce qui implique son appartenance F.
4. Pour tous les exemples classiques que nous rencontrerons, il est possible de les numroter de
manire croissante : x0 < x1 < x2 . . .. Mais ce nest pas toujours le cas, car lensemble des valeurs
possibles peut tre par exemple, les dcimaux (ou les rationnels) de [0, 1].
95
3.2.2
Loi dune variable alatoire
Une variable alatoire X permet de transporter

la probabilit P dfinie sur (, F)

en une probabilit PX dfinie sur R, Bor(R) .
Proposition 3.7. Soit X une variable alatoire sur (, F) et P une probabilit sur
(, F). La fonction densembles PX = P X 1 dfinie sur Bor(R) par

B Bor(R), PX (B) := P X 1 (B) = P (X B)
(3.10)

est une probabilit sur R, Bor(R) .
Preuve. Dabord PX est bien dfinie comme application Bor(R) [0, 1] en raison de la
mesurabilit F - Bor(R) de la variable alatoire X. Il est clair que PX (R) = P () = 1.
Montrons la -additivit de PX . Soit (Bk )k1 une suite quelconque de borliens de R
deux deux disjoints. Par (3.6), les X 1 (Bk ) sont des lments deux deux disjoints de
la tribu dvnements F. En combinant (3.5) avec la -additivit de la probabilit P , on
en dduit :

X

1
1
PX Bk = P X
Bk
= P X (Bk ) =
P X 1 (Bk )
k1
k1
k1
k1
PX (Bk ).
k1

La fonction densembles PX est donc -additive, cest une probabilit sur R, Bor(R) .
Dfinition 3.8 (loi dune variable alatoire). Soient (, F, P ) un espace probabilis et
X une variable alatoire sur (, F). On appelle loi de X sous P , ou plus simplement loi
de X, la probabilit PX sur R, Bor(R) dfinie par (3.10).

Si est une mesure de probabilit sur R, Bor(R) , on dit que X suit la loi si
PX = P X 1 = (i.e. la loi de X sous P est la mesure ).
Remarque 3.9. Dans les problmes usuels de probabilits, on travaille souvent avec un
seul (, F, P ) et on se contente alors de lappelation loi de X. Il nen va pas de mme
en statistique o lon met gnralement en concurrence plusieurs modles (, F, P ), o
est un paramtre inconnu et o on se propose de choisir un de ces modles au vu
des valeurs X() observes. Cest l que lappelation loi de X sous P simpose. Pour
donner un exemple simple, considrons le problme du sondage dun chantillon de 500
personnes avant le second tour dune lection prsidentielle opposant le candidat A au
candidat B. Ici est la proportion inconnue dlecteurs votant A dans la population
totale. Si X est le nombre de personnes interroges favorables A, la loi de X sous P
est la loi binomiale 5 Bin(500, ).
5. En fait cest une loi hypergomtrique (tirages sans remise), mais en raison du thorme 3.34, on
peut la remplacer en pratique par une binomiale.
96
3.2. Gnralits
Une autre situation o il est naturel de considrer plusieurs lois pour une mme
variable alatoire est celle du conditionnement. Rappelons que si (, F, P ) est un espace
probabilis et H F un vnement tel que P (H) > 0, on peut dfinir sur F une nouvelle
mesure de probabilit PH = P ( . | H) par
A F,
PH (A) := P (A | H) =
P (A H)
.
P (H)
Dfinition 3.10 (loi conditionnelle). Soient (, F, P ) un espace probabilis, H F tel

que P (H) > 0, X une variable alatoire sur (, F). On appelle loi conditionnelle de X
sachant H, la loi de X sous PH . En la notant PX|H , on a donc

B Bor(R), PX|H (B) = PH X 1 (B) = P (X B | H).
Il importe de ne pas se laisser induire en erreur par la notation PX|H , elle ne concerne
pas une nouvelle variable alatoire X | H mais bien toujours la mme variable
alatoire X. Ce qui a chang, cest la probabilit dont on munit (, F) et sous laquelle
on considre la loi de X.
Dans le cas dune variable alatoire discrte X, il est facile de donner une formule
explicite pour la loi PX .
Proposition 3.11. Soient (, F, P ) un espace probabilis et X une variable alatoire
discrte sur (, F). La loi de X sous P est la probabilit
X
PX =
P (X = x)x ,
(3.11)
xX()

que lon peut considrer comme probabilit sur X(), P(X()) , ou sur R, Bor(R) ou
sur R, P(R) .

Preuve. Vrifions
lgalit
de
mesures
(3.11)
sur
R,
P(R)
, le rsultat analogue pour

R, Bor(R) et X(), P(X()) sen dduisant immdiatement
par restriction.

Dabord PX est aussi une probabilit sur R, P(R) , par une adaptation immdiate 6
de la preuve de la proposition 3.7. En utilisant la dcomposition (3.9) on a pour tout
B R,

X
X

PX (B) = P
X 1 ({x}) =
P X 1 ({x}) =
P (X = x)x (B).
xBX()
xBX()
xX()

Lgalit de mesures (3.11) sur R, P(R) est ainsi vrifie.
Dfinition 3.12 (loi discrte sur R). On appelle loi discrte sur R, toute mesure ponctuelle sur (R, P(R)) qui est aussi une probabilit. Une telle loi admet donc une reprsentation sous la forme
X
=
pi xi ,
iI
o I est un ensemble dindices au plus dnombrable, (xi )iI est une P

famille de nombres
rels et (pi )iI est une famille sommable de rels positifs, de somme iI pi = 1.
6. Rappelons quune v.a. discrte X sur (, F) est mesurable F-P(R) et pas seulement F-Bor(R).
97

Il est clair que par restriction, est aussi une probabilit sur (R, Bor(R)).
Remarque 3.13. Deux variables alatoires peuvent avoir mme loi sans tre gales. Par
exemple considrons le jet de deux ds, lun bleu et lautre rouge. Notons X le nombre
de points indiqu par le d bleu et Y celui du rouge. Les variables alatoires X et Y sont
dfinies sur le mme espace probabilis = {1, 2, 3, 4, 5, 6}2 muni de lquiprobabilit.
On a X() = Y () = {1, 2, 3, 4, 5, 6} et :
1
1
P (X = k) = , P (Y = k) = .
6
6
P6 1
Donc X et Y ont mme loi : PX = PY = k=1 6 k . Pour autant, on na pas lgalit
des variables alatoires X et Y qui signifierait X() = Y () pour tout (galit
de deux applications). Autrement dit, en lanant deux ds on obtiendrait coup sr un
double. Par contre nous pouvons considrer lvnement {X = Y } dont la ralisation
nest pas certaine et calculer sa probabilit :
6

1
6
= .
P (X = Y ) = P {(X, Y ) = (k, k)} =
k=1
36
6
k {1, 2, 3, 4, 5, 6},
On en dduit : P (X 6= Y ) = 5/6.
Remarque 3.14. Deux variables alatoires peuvent avoir mme loi en tant dfinies sur
des espaces probabiliss diffrents (, F, P ) et (0 , F0 , P 0 ). Prenons par exemple pour X
les points du d bleu comme ci-dessus et posons Z = 0 si X est pair, Z = 1 si X est
impair. La variable alatoire Z est dfinie sur = {1, 2, 3, 4, 5, 6}2 muni de la tribu
P() et de lquiprobabilit P sur . Sa loi est PZ = 12 (0 + 1 ). Prenons maintenant
0 = {1, 1}, muni de la tribu P(0 ) et de lquiprobabilit P 0 sur 0 et posons pour
0 0 , Z 0 ( 0 ) := (1 + 0 )/2. Alors la loi de Z 0 est aussi PZ0 0 = 21 (0 + 1 ) = PZ .
Remarquons que si X et Y sont dfinies sur des espaces probabiliss diffrents, il ny a
pas dvnement {X = Y }, pas plus que de variable alatoire X + Y . Essayez den
crire la dfinition explicite pour vous en convaincre.
La remarque suivante peut tre saute en premire lecture.
Remarque 3.15. Si X est une v.a. discrte sur (, F), alors pour toute probabilit
P sur (, F), la loi de X sous P est une loi discrte au sens de la dfinition 3.12.
Cest une consquence de la proposition 3.11. Mais il peut aussi exister sur (, F) une
variable alatoire relle Y et une probabilit P telles que Y ne soit pas discrte (i.e.
Y () est un ensemble infini non dnombrable) mais que la loi de Y sous P soit une
loi discrte. Voici un exemple simple. On prend = R, F = P(R) et Y : 7
lapplication identit sur R. Alors Y nest pas une v.a. discrte puisque Y () = R. Notons
au passage que Y est mesurable relativement nimporte quelle tribu sur lensemble
darrive puisque lensemble de dpart est muni ici de la tribu P(). En particulier,
Y est bien une variable alatoire relle. Munissons maintenant (, F) = (R, P(R)) de
la mesure de probabilit P = 21 0 + 12 1 et cherchons la loi de Y sous P . Comme Y
est lidentit sur R, on a lgalit Y 1 (B) = B pour tout borlien B. Par consquent
98
3.2. Gnralits
PY (B) = P (Y 1 (B)) = P (B) pour tout B Bor(R). On a donc PY = P = 21 0 + 12 1 ,
ce qui montre que la loi de Y sous P est la loi discrte 12 0 + 12 1 . Bien sr on a un
rsultat analogue en remplaant P par nimporte quelle loi discrte Q sur R, au sens de
la dfinition 3.12.

Remarque 3.16. Pour toute probabilit Q sur R, Bor(R) , il existe au moins un espace
probabilis (, F, P ) et une variable alatoire relle X sur (, F) dont la loi sous P soit
gale Q. Il suffit de prendre = R, F = Bor(R) et pour X lapplication identit de
R R. En prenant P = Q, on a clairement PX = Q. Bien entendu, il y a une infinit
dautres solutions ce problme.

Il y a donc identit entre les mesures de probabilit sur R, Bor(R) et les lois
des variables
alatoires relles. Comme nous savons caractriser une probabilit sur
R, Bor(R) par sa fonction de rpartition (thorme 2.30), ceci va nous permettre de
classifier les lois des variables alatoires relles.
3.2.3
Fonction de rpartition
Dfinition 3.17 (f.d.r. dune variable alatoire). Soient (, F, P ) un espace probabilis

et X une variable alatoire sur (, F). On appelle fonction de rpartition (f.d.r.) de X,
la fonction FX dfinie sur R par :
x R,
FX (x) = PX (] , x]) = P (X x).
La fonction FX est la fonction de rpartition de la probabilit PX , au sens de la

dfinition 2.27. Elle ne dpend donc que de la loi 7 de X. Deux variables alatoires
de mme loi ont mme fonction de rpartition. La proposition suivante donnant les
proprits gnrales des fonctions de rpartition des variables alatoires nest quune
simple rcriture de la proposition 2.28.
Proposition 3.18. La fonction de rpartition FX dune variable alatoire X est croissante sur R, avec limite 0 en et 1 en +. Elle est continue droite et limite
gauche en tout point de R et vrifie :
x R,
P (X = x) = F (x) F (x).
(3.12)
La fonction de rpartition dune variable alatoire caractrise sa loi, autrement dit :

FX = FY si et seulement si les variables alatoires X et Y ont mme loi.
On peut aussi traduire la remarque 2.29 pour obtenir les formules suivantes de calcul
7. Il serait plus correct, mais plus long, de parler de f.d.r. de la loi de X ou mme de f.d.r. de la loi
de X sous P .
99

laide de FX des P (X I) pour I intervalle de R :
P (a < X b)
P (a X b)
P (a X < b)
P (a < X < b)
P (X a)
P (X < a)
P (X > b)
P (X b)
FX (b) FX (a),
FX (b) FX (a),
FX (b) FX (a),
FX (b) FX (a),
FX (a),
FX (a),
1 FX (b),
1 FX (b).
=
=
=
=
=
=
=
=
(3.13)
(3.14)
(3.15)
(3.16)
(3.17)
(3.18)
(3.19)
(3.20)
Dans le cas particulier des variables alatoires discrtes, on peut donner une formule
explicite de calcul de la fonction de rpartition.
Proposition 3.19 (f.d.r. dune variable alatoire discrte). Soient (, F, P ) un espace
probabilis et X une variable alatoire discrte sur (, F). Fixons une numrotation de
lensemble au plus dnombrable X() par les entiers : X() = {x0 , x1 , . . . , xk , . . .} et
notons pk := P (X = xk ). La fonction de rpartition FX vrifie alors :
X
x R, FX (x) =
pk 1[xk ,+[ (x),
(3.21)
xk X()
ce qui scrit aussi

x R,
FX (x) =
P (X = xk ).
(3.22)
xk X()
xk x
De plus, si on peut numroter les lments de X() de manire croissante (i.e. k,

xk < xk+1 ), la fonction
P FX est constante sur chaque intervalle [xn , xn+1 [ et vaut sur cet
intervalle FX (x) = kn pk .
Cette proposition se gnralise au cas des variables alatoires de loi discrte 8 , en
remplaant X() par XP () = {x R; P (X = x) > 0}.
Preuve. En utilisant (3.11), on obtient en effet pour tout x R,
X
X
FX (x) = PX (] , x]) =
pk xk (] , x]) =
pk 1[xk ,+[ (x),
xk X()
(3.23)
xk X()
en notant que
(
(
1 si xk ] , x]
1 si xk x
xk (] , x]) =
=
= 1[xk ,+[ (x).
0 si xk ]
/ , x]
0 si xk > x
Si la suite (xk ) est strictement croissante, le rel x appartient un seul intervalle
[xn , xn+1 [. Pour k n, on a alors xk xn x et 1[xk ,+[ (x)P= 1, tandis que si
k > n, xk xn+1 > x, donc 1[xk ,+[ (x) = 0. On a donc FX (x) = kn pk et ceci tant
valable pour tout x [xn , xn+1 [, la fonction FX est constante sur cet intervalle.
8. Voir la remarque 3.15.
100
3.2. Gnralits
titre dexemple, la figure 3.2 donne la reprsentation graphique de FS o S est la
variable alatoire somme des points de deux ds.
y
1
10 11 12
Fig. 3.2 f.d.r. de S somme des points de deux ds

Si lon veut esquisser une classification sommaire des lois des variables alatoires, on
peut commencer par les partager entre les lois f.d.r. continue sur R et les lois f.d.r.
non continue 9 sur R. On parle plus simplement de lois continues ou encore lois diffuses
dans le premier cas et de lois non continues ou non diffuses dans le deuxime. Dans la
famille des lois non continues, nous connaissons dj la sous-famille des lois discrtes.
Dans la famille des lois continues, une importante sous-famille est celle des lois densit
que nous allons examiner maintenant.
3.2.4
Lois densit
La loi dune variable alatoire X est densit f si pour tout intervalle de R, la

probabilit dappartenance de X cet intervalle peut scrire comme lintgrale de f sur
cet intervalle. Lapparente simplicit de cette dfinition informelle est trompeuse. Dans
le cadre de ce cours, nous ne pouvons utiliser que lintgration au sens de Riemann et il
se trouve que cette notion nest pas totalement satisfaisante pour les besoins de la thorie
des probabilits. Lintgrale de Lebesgue donnerait une notion plus gnrale de densit,
9. Rappelons que lensemble des points de discontinuit dune f.d.r. quelconque est au plus dnombrable.
101

permettant entre autres de caractriser les lois densit comme celles dont la f.d.r. est
absolument continue 10 . La dfinition plus restrictive que nous donnons ci-dessous est
nanmoins suffisante pour la plupart des cas pratiques.
Dfinition 3.20 (densit de probabilit). On appelle densit de probabilit sur R toute
fonction f vrifiant
a) f est dfinie et positive sur R \ K, o K est une partie finie (ventuellement vide)
de R ;
b) f est Riemann intgrable sur tout intervalle [a, b] R \ K ;
c) lintgrale gnralise de f sur ] , +[ converge et
Z
f (t) dt = 1.
Si f est une fonction positive dfinie seulement sur un intervalle ]a, b[ de R et telle
Rb
que a f (t) dt = 1, on peut en faire une densit en la prolongeant tout R en posant
f (t) := 0 pour t ]a,
/ b[. Voici quatre exemples simples de densits :
f1 (t) :=
1
1[a,b] (t);
ba
f3 (t) := et 1[0,+[ (t);
1
f2 (t) := 1]0,1] (t);
2 t
f4 (t) :=
1
.
(1 + t2 )
Remarque 3.21 (usage des indicatrices dans les formules explicites). La dfinition de
f2 repose sur un abus dcriture dusage courant. En effet il y a en toute rigueur un
problme pour calculer f2 (t) lorsque t 0, puisqualors il nous faut former le produit
1
non dfinie (du moins en tant que nombre rel) par 0. La convention
de lexpression 2
t
adopte est que si la formule de calcul dune fonction contient le produit dune indicatrice
par une expression non dfinie lorsque cette indicatrice est nulle, le produit vaut 0 dans
ce cas. Ceci permet de considrer que la dfinition de f2 comme ci-dessus est un
raccourci dcriture commode pour :
(
1
si t ]0, 1],
f2 (t) := 2 t
0
si t ]0,
/ 1].
Dfinition 3.22. Soient (, F, P ) un espace probabilis et X une variable alatoire relle
sur (, F). La loi de X sous P a pour densit f si :
Z
a R, b a,
P (X ]a, b]) =
f (t) dt.
(3.24)
On dit aussi par abus de langage que X a pour densit f (lorsquil ny a pas ambigut
sur P ).
102
3.2. Gnralits
y
y=
f (t)
P (a < X b)
a
Fig. 3.3 P (a < X b) =
b
Rb
a
f (t) dt pour X de densit f
Remarque 3.23. Il est clair daprs cette dfinition que si Y est une autre variable
alatoire ayant mme loi que X ( donc mmes probabilits dappartenance aux intervalles), elle a aussi la densit f . Dautre part, il ny a pas unicit de la densit dune
variable alatoire. Par exemple g1 = 1[0,1] et g2 = 1]0,1[ sont deux densits de probabilit
Rb
Rb
qui donnent les mmes intgrales : a g1 (t) dt = a g2 (t) dt pour toute paire de rels a et
b. Ces deux fonctions peuvent chacune tre prise comme densit de la loi uniforme sur
[0, 1] (nous y reviendrons ci-dessous).
Lexemple ci-dessus montre quil ne suffit pas de vrifier que deux variables alatoires
ont des densits qui diffrent en un point pour en dduire quelles nont pas mme loi. Le
lemme suivant donne une condition suffisante pratique pour que deux variables densit
naient pas mme loi.
Lemme 3.24. Soient X et Y deux variables alatoires admettant respectivement pour
densit les fonctions f et g. On suppose quil existe un rel t0 tel que f (t0 ) 6= g(t0 ) et
que de plus, f et g sont toutes deux continues au point t0 . Alors X et Y nont pas mme
loi.
Preuve. On peut supposer sans perte de gnralit que f (t0 ) < g(t0 ). On va exploiter
la continuit de f et g au point t0 pour construire un intervalle [a, b] voisinage de t0
Rb
Rb
tel que a f (t) dt < a g(t) dt. Comme ces deux intgrales sont gales respectivement
P (X ]a, b]) et P (Y ]a, b]), ceci impliquera que X et Y nont pas mme loi.
Fixons > 0 tel que f (t0 ) + < g(t0 ) , par exemple = (g(t0 ) f (t0 ))/3. Par
continuit de f et g au point t0 , il existe deux rels 1 > 0 et 2 > 0 tels que :
t ]t0 1 , t0 + 1 [,
f (t) < f (t0 ) + et t ]t0 2 , t0 + 2 [,
g(t) > g(t0 ) .
Lintersection des deux intervalles ouverts ]t0 1 , t0 + 1 [ et ]t0 2 , t0 + 2 [ contient

un intervalle [a, b] avec a < b, on peut prendre par exemple a = t0 21 min(1 , 2 ) et
10. La fonction F : R R est dite absolument continue sur R, si pour tout > 0, il existe > 0
tel
Pn dintervalles [ak , bk ] (k = 1, . . . , n) deux deux disjoints et vrifiant
Pnque pour toute famille finie
(b
a
)
,
on
ait
k
k
k=1
k=1 |F (bk ) F (ak )| . Cette proprit est plus forte que la continuit
uniforme sur R. Par ailleurs toute f.d.r. continue sur R est uniformment continue sur R (exercice).
103

b = t0 + 21 min(1 , 2 ). On dispose alors des ingalits suivantes :
t [a, b],
f (t) < f (t0 ) + < g(t0 ) < g(t),
qui par intgration sur [a, b] nous donnent

Z b
Z b
f (t) dt (b a)(f (t0 ) + ) < (b a)(g(t0 ) )
g(t) dt,
a
do
Rb
a
f (t) dt 6=
Rb
a
g(t) dt, ce qui achve la preuve 11 .
Examinons maintenant les relations entre densit (lorsquelle existe) et fonction de

rpartition (qui elle, existe toujours) dune variable alatoire.
Proposition 3.25. Si la variable alatoire X a pour densit f , sa fonction de rpartition
F vrifie :
Rx
a) x R, F (x) = f (t) dt ;
b) F est continue sur R ;
c) si f est continue au point x0 , alors F est drivable en ce point et F 0 (x0 ) = f (x0 ).
Corollaire 3.26. Si la variable alatoire X a pour densit f , on a pour a, b R quelconques,
Z b
P (a < X < b) = P (a < X b) = P (a X < b) = P (a X b) =
f (t) dt,
a
P (X < a) = P (x a) =
f (t) dt,
Z +
P (X > b) = P (X b) =
f (t) dt.
b
Preuve de la prop. 3.25 et du corollaire 3.26.

Preuve de a). Puisque X a pour densit f , on a pour tous rels a < b,
Z b
P (X ]a, b]) = F (b) F (a) =
f (t) dt.
(3.25)
Il suffit dappliquer (3.25) avec b = x fix et a = n pour chaque n N tel que n < x.
La suite dvnements
An := {X ] n, x]}, n > x,
est croissante pour linclusion et a pour runion A = {X ] , x]}. Par continuit
monotone squentielle (cf. proposition 2.16), on a P (An ) P (A), do
Z x
Z x
F (x) = P (A) = lim P (X ] n, x]) = lim
f (t) dt =
f (t) dt,
n+
n+
en notant que lintgrale gnralise de la densit f converge en .

11. Parmi les ingalits de la ligne prcdente, seule la deuxime est stricte et ce nest pas une erreur
typographique. Voyez-vous pourquoi ?
104
3.2. Gnralits
Preuve de b). Fixons x0 R quelconque. On sait dj que F est continue droite en
tout point comme toute fonction de rpartition. Il suffit donc de montrer la continuit
gauche en x0 . Daprs le point b) de la dfinition 3.20, il existe a < x0 tel que f soit
dfinie et Riemann intgrable sur tout intervalle [a, a0 ] [a, x0 [. On a alors
Z x0
Z x
f (t) dt,
f (t) dt =
lim
xx0
o la deuxime intgrale est soit une intgrale de Riemann ordinaire soit une intgrale
gnralise convergente. Cette relation peut aussi scrire laide de F :

lim F (x) F (a) = F (x0 ) F (a).
xx0
On en dduit par addition de F (a) que F (x) tend vers F (x0 ) quand x tend vers x0 par
valeurs infrieures.
Preuve de c). Puisque f est continue en x0 , elle est dfinie sur tout un voisinage de x0
et donc sur tout un intervalle ]a, b[ contenant x0 . La continuit de f en x0 peut alors
scrire :
> 0, ]x0 , x0 + []a, b[;
t ]x0 , x0 + [,
|f (t) f (x0 )| < .
Pour tout h tel que 0 < |h| < , on a alors F (x0 + h) F (x0 ) =
Z

|F (x0 + h) F (x0 ) hf (x0 )| =
x0 +h
x0
R x0 +h
x0
(3.26)
f (t) dt do

f (t) f (x0 ) dt h.
En divisant par h on voit que F a bien une drive en x0 et que celle ci vaut f (x0 ).
La proposition 3.25 est maintenant compltement dmontre. Pour le corollaire 3.26,
il suffit de combiner les relations gnrales (3.13)(3.20) avec (3.24) et les points a) et
b) de la proposition 3.25.
Remarques 3.27.
1. Pour toute densit f (au sens de la dfinition 3.20), il existe une variable alatoire X
ayant f pour densit : il suffit dappliquer le thorme
2.30 pour obtenir lexistence

dune mesure de probabilit sur R, Bor(R) ayant pour f.d.r F dfinie par a).
La remarque 3.16 nous assure de lexistence dune variable alatoire X de loi ,
donc de f.d.r. F . La preuve du b) ci-dessus nous montre que F est continue sur R.
En particulier pour toute paire de rels a b, on a P (a < X b) = F (b) F (a) =
Rb
Ra
Rb
f (t) dt f (t) dt = a f (t) dt.
2. Daprs b) toute variable alatoire densit a une fonction de rpartition continue.

La rciproque est fausse : il existe des lois fonction de rpartition continue sans
densit.
105

3. Par ailleurs si X a une densit, sa fonction de rpartition nest pas forcment
drivable en tout point. Par
exemple la densit f2 ci-dessus a pour fonction de
rpartition associe F2 (x) = x1]0,1] (x)
+ 1]1,+[ (x) (cette criture condense si
gnifie que F2 (x) est nul sur R , vaut x entre 0 et 1 et reste constant gal 1 sur
]1, +[). F2 est drivable en tout point sauf en 0 et en 1.
La proposition suivante donne une rgle pratique permettant de trouver la densit
(lorsquelle existe !) partir de la fonction de rpartition dans les cas les plus courants.
Proposition 3.28. On suppose que la fonction de rpartition F de X est C 1 par morceaux au sens suivant : F est continue sur R et drivable sur R priv (ventuellement)
dun ensemble fini de points a1 < . . . < an . Sur chacun des intervalles ouverts ] , a1 [,
]ai , ai+1 [ (1 i < n), ]an , +[, la drive f de F est continue. Alors X a pour densit
f.
Preuve. Il est commode de poser a0 := et an+1 = +. Sur chacun des intervalles
ouverts I dcoups par les ai , F est drivable et sa drive f est continue. On sait alors
que f a une infinit de primitives sur
R x I et que si lon fixe un dans I, toute primitive H
de f sur I est de la forme H(x) = f (t) dt + C, avec C constante. Comme F est lune
des primitives de f sur I, en prenant H = F et en faisant x = , on voit que laRconstante
x
C vaut F (). On a donc pour et x quelconques dans I, F (x) F () = f (t) dt.
Fixons et prenons x . Faisons tendre x vers la borne suprieure ai de I. Comme
F
R ai
est continue (ou dans le cas ai = +, F a une limite 1), lintgrale gnralise f (t) dt
converge et vaut F (ai )F () (ou 1F () quand
R ai ai = +). De mme en faisant tendre
vers ai1 on voit que lintgrale gnralise ai1 f (t) dt converge et vaut F (ai )F (ai1 )
(ou F (ai ) quand ai1 = ). Finalement soient a et b > a quelconques dans R. Si a
Rb
et b sont dans le mme intervalle I on a directement F (b) F (a) = a f (t) dt. Sinon on
note (ai )i0 ii1 lensemble de tous les ai qui sont dans [a, b] et on crit
F (b) F (a) = F (ai0 ) F (a) +
iX
1 1

F (ai+1 ) F (ai ) + F (b) F (ai1 ) =
f (t) dt,
a
i=i0
en utilisant la relation de Chasles

R b pour les intgrales gnralises. On a donc toujours
P (X ]a, b]) = F (b) F (a) = a f (t) dt, ce qui montre que X a pour densit f .
3.3
Lois discrtes classiques
Dans toute la suite du chapitre, on fixe un espace probabilis (, F, P ), on dsigne

par X une variable alatoire sur (, F) et par PX sa loi sous P . Cette clause sera
implicite chaque fois que nous crirons dans les dfinitions La variable alatoire X suit
la loi. . .si. . . . Pour X de loi discrte, nous utiliserons la notation :
XP () := {x R; P (X = x) > 0}.
106
(3.27)
3.3. Lois discrtes classiques

Bien sr, XP () est toujours inclus dans lensemble des valeurs possibles X() et
dans la plupart des situations pratiques dutilisation des variables alatoires, ces deux
ensembles sont gaux 12 .
3.3.1
Lois de Bernoulli
Dfinition 3.29. La variable alatoire X suit la loi de Bernoulli de paramtre p (p

[0, 1]) si XP () = {0, 1} avec :
P (X = 0) = 1 p = q.
P (X = 1) = p,
On notera X Bern(p).
Si A est un vnement de probabilit p, son indicatrice dfinie par

1 si A
1 si A est ralis
1A () =
=
0 si
/A
0 si A nest pas ralis
est une variable alatoire suivant la loi de Bernoulli de paramtre p. Rciproquement,
si X est une v.a. de Bernoulli, on peut toujours crire que X = 1A presque-srement,
cest--dire P (X = 1A ) = 1, en dfinissant A = { , X() = 1}.
3.3.2
Loi uniforme sur un ensemble fini de rels
Dfinition 3.30. La variable alatoire X suit la loi uniforme sur lensemble de rels
{x1 , . . . , xn } si PX est lquiprobabilit sur cet ensemble. Notation : X Unif{x1 , . . . , xn }.
Autrement dit, lensemble des valeurs possibles de X est X() = {x1 , . . . , xn } et :
k = 1, . . . , n,
Do
P (X = xk ) =
1
.
n
1X
x .
PX =
n k=1 k
Par exemple le nombre de points indiqu par un d suit la loi uniforme sur {1, 2, 3, 4, 5, 6}.
3.3.3
Lois binomiales
Dfinition 3.31. La variable alatoire X suit la loi binomiale de paramtres n et p

(n N et p [0, 1]) si XP () = {0, 1, . . . , n} et
k = 0, 1, . . . , n,
P (X = k) = Cnk pk (1 p)nk .
Notation : X Bin(n, p).

12. Pour comprendre lutilit de ce distinguo entre X() et XP (), (re)lisez la remarque 3.15.
107

La formule ci-dessus dfinit bien une loi de probabilit puisque les Cnk pk (1 p)nk
sont positifs et :
n
X
n
Cnk pk (1 p)nk = p + (1 p) = 1n = 1,
k=0
en appliquant la formule du binme de Newton (do le nom de la loi). La loi binomiale

Bin(n, p) est la loi du nombre de succs obtenus en une suite de n preuves rptes
indpendantes avec pour chaque preuve une probabilit de succs p. Ceci a t dmontr
dans lexemple 2.57.
De mme, soit A1 , . . . , An une famille de n vnements mutuellement indpendants
ayant tous mme probabilit p et notons Xi la variable de Bernoulli indicatrice de Ai :

1 si Ai ,
Xi () =
0 si Aci .
Alors la variable alatoire Sn =
n
X
Xi suit la loi binomiale Bin(n, p).
i=1
3.3.4
Lois hypergomtriques
Alors que la loi binomiale intervient dans les tirages avec remise, la loi hypergomtrique correspond aux tirages sans remise.
Exemple 3.32. Dans une production totale de N objets dont M sont dfectueux, on
prlve au hasard un chantillon de n objets (tirage sans remise). Soit X le nombre
alatoire dobjets dfectueux dans lchantillon. Quelle est sa loi ?
On peut prendre comme espace lensemble de tous les chantillons possibles (toutes
les parties n lments dun ensemble de cardinal N ) muni de lquiprobabilit. Chaque
chantillon a ainsi une probabilit 1/CNn dtre choisi. Les chantillons (vnements lmentaires) ralisant lvnement {X = k} sont ceux qui contiennent k objets dfectueux
et n k objets dfectueux. Ceci nest ralisable que si 0 k M et 0 n k N M .
Dnombrons ces chantillons. On les forme en choisissant k objets dfectueux dans une
sous-population de M et en compltant par n k objets non dfectueux choisis dans
k
une sous population de N M . Il y en a donc CM
CNnk
M . Finalement :
C k C nk
P (X = k) = M n N M
CN

si
0 k M,
0 n k N M.
(3.28)
Dfinition 3.33. La loi dfinie par (3.28) sappelle loi hypergomtrique de paramtres
N , M et n. Notation : X Hypg(N, M, n). Le paramtre N est leffectif de la population
totale, M celui de la sous-population laquelle on sintresse et n la taille de lchantillon
observ.
108

Pour une taille dchantillon n fixe, plus N et M sont grands, moins les tirages
sans remise diffrent des tirages avec remise. Plus prcisment, la loi hypergomtrique
converge vers la loi binomiale au sens suivant.
Thorme 3.34 (convergence de lhypergomtrique vers la binomiale). On suppose
que quand N tend vers +, M = M (N ) tend vers + en vrifiant la condition :
M
=p
N + N
lim
avec
0 < p < 1.
(3.29)
Alors, n restant fix, la loi hypergomtrique Hypg(N, M, n) converge vers la loi binomiale Bin(n, p), ce qui signifie que si (XN )N 1 est une suite de v.a. avec XN
Hypg(N, M, n) et Y est une v.a. de loi binomiale Bin(n, p),alors :
k = 0, 1, . . . , n,
lim P (XN = k) = P (Y = k),
N +
(3.30)
autrement dit :
k = 0, 1, . . . , n,
k
CM
CNnk
M
lim
= Cnk pk (1 p)nk .
n
N +
CN
(3.31)
Preuve. Remarquons dabord que comme p est strictement positif, lhypothse (3.29)
implique que M tend vers + avec N ; il en va de mme pour N M puisque p < 1.
Pour n et k fixs, posons :
pN
k
CM
CNnk
M
=
n
CN
M!
n!(N n)!
(N M )!

=
k!(M k)! (n k)! (N M ) (n k) !

N!
(N M )!
(N n)!
M!

.
= Cnk
(M k)!
N!
(N M ) (n k) !
(3.32)
Comme k est fix et M tend vers +, la premire fraction dans (3.32) est le produit
de k facteurs M , (M 1), . . ., (M k + 1) tous quivalents 13 M do :
M!
M k,
(M k)!
N +.
(3.33)
Par le mme argument avec n k et N M au lieu de k et M :

(N M )!
(N M )nk ,
(N M ) (n k) !
Enfin :
(N n)!
1
n,
N!
N
N +.
N +.
(3.34)
(3.35)
13. Rappelons que deux suites (uN ) et (vN ) sont dites quivalentes lorsque uN = vN (1 + N ) avec N
tendant vers 0 quand N tend vers + (notation : uN vN ).
109

En reportant ces quivalents dans (3.32), on voit que lorsque N tend vers + :
pN
M
Cnk
k N M nk
(N M )nk
k M
= Cn
,
Nn
N
N
(3.36)
do : lim pN = Cnk pk (1 p)nk .

N +
3.3.5
Lois gomtriques
Exemple 3.35 (un problme de temps dattente).

Considrons une suite infinie dpreuves rptes indpendantes avec mme probabilit
de succs p ]0, 1[. Soit X le numro (alatoire) de la premire preuve o lon obtient
un succs. Si lon nobtient jamais de succs, on conviendra que X = +. Calculer
P (X = k) pour tout k N . En dduire les valeurs de P (X N ) et P (X = +).
En notant Ri = {succs la i-me preuve}, on a :
{X = k} = {chec aux (k 1) premires et succs la k-ime}
k1
=
Ric Rk .
i=1
Do par indpendance des preuves :

k1

Y
c
P (X = k) =
P (Ri ) P (Rk ) = (1 p)k1 p.
i=1
Posons q = 1 p et notons que q ]0, 1[. La dcomposition de lvnement {X N } en

la runion disjointe des {X = k} (k N ) nous donne par -additivit :
X
X
q k1 p
P (X = k) =
P (X N ) =
kN
kN
= p
ql
(l = k 1)
lN
= p
1
= 1.
1q
Ainsi avec probabilit 1, le premier succs apparat au bout dun nombre fini dpreuves 14 .
Remarquons quon aurait pu arriver au mme rsultat en montrant que P (X = +) = 0
par la mthode utilise lexemple 2.57 c) en changeant les rles de succs et chec.
En toute rigueur, X nest pas une variable alatoire discrte au sens de la dfinition 3.6 puisque X() est est une partie dnombrable de R au lieu de R. Nanmoins
X 0 := X1{X<+} est une variable alatoire discrte et ce qui prcde montre que X 0 a
mme loi 15 que X. Cette loi est celle du temps dattente du premier succs dans une
suite dpreuves rptes indpendantes, on lappelle loi gomtrique de paramtre p.
14. Mais pas born par un nombre fix choisi avant le dbut des preuves. . .
15. Pour tre tout fait rigoureux, il faudrait avoir dfini les v.a. valeurs dans R et leurs lois, ce
qui nous aurait fait sortir du cadre de ce cours. . .
110

Dfinition 3.36. Une variable alatoire X suit la loi gomtrique de paramtre p ]0, 1[,
si XP () = N et :
k N , P (X = k) = (1 p)k1 p.
Notation : X Geom(p).
Lorsque X suit une loi gomtrique, les probabilits P (X > n) ont une expression
particulirement simple en fonction de q = 1 p . Calculons les de deux faons.
Premire mthode. On calcule le reste dune srie gomtrique :
+
X
P (X > n) =
k1
p=
k=n+1
= pq n
+
X
ql p
l=n
+
X
q ln = pq n
+
X
qj
j=0
l=n
pq n
= qn.
=
1q
Deuxime mthode. On se place dans la situation de lexemple 3.35. Lvnement {X >
n} se ralise si et seulement si les n premires preuves donnent un chec.
n
{X > n} = Ric .
i=1
En utilisant lindpendance des Ri on en dduit :

P (X > n) =
n
Y
P (Ric ) = q n .
i=1
3.3.6
Lois de Poisson
Dfinition 3.37. On dit que la variable alatoire discrte X suit la loi de Poisson de
paramtre > 0 si XP () = N et
k N,
e k
P (X = k) =
.
k!
Notation : X Pois().
On sait (cf. cours danalyse) que la fonction exponentielle a un dveloppement en
srie entire avec rayon de convergence infini. En particulier :
> 0,
e =
+ k
X
k=0
On a donc bien :
+
X
P (X = k) = e
k=0
+ k
X
k=0
k!
k!
= e e = 1.
Une des raisons de limportance de cette loi est le thorme de convergence de la loi
binomiale vers la loi de Poisson.
111

Thorme 3.38. Si (pn )n1 est une suite de rels de [0, 1] vrifiant
npn ]0, +[,
quand
Cnk pkn (1 pn )nk
e k
,
k!
alors :
k N,
n +,
quand
(3.37)
n +.
Preuve. Lhypothse (3.37) peut scrire sous la forme plus maniable : npn = un avec
un tendant vers 1 quand n tend vers +. Ainsi pn = un /n et
1 k k
un nk
n!
un 1
.
(n k)! k! n
n
Cnk pkn (1 pn )nk =
(3.38)
Pour obtenir la limite de cette expression lorsque n tend vers +, k restant fix, on
remarque successivement que :
lim
n+
n!
1
= 1,
(n k)! nk
(3.39)
lim ukn = 1,
(3.40)
n+
lim
n+
un nk
= e .
n
(3.41)
Pour justifier (3.41), on crit :

h

un i
un nk
= exp (n k) ln 1
,
n
n
puis comme un /n tend vers 0 :

u

un
n
n
,
(n k) ln 1
n
n
(3.42)
(n +).
Par continuit de la fonction exponentielle, la limite du second membre de (3.42) est donc
bien e , ce qui prouve (3.41). On obtient alors la conclusion du thorme en passant
la limite dans (3.38).
Le thorme 3.38 sert de justification thorique la rgle pratique suivante : lorsque
n est grand et np petit , on peut remplacer la loi binomiale Bin(n, p) par la loi de
Poisson Pois() o = np. En gnral on considre que n de lordre de quelques centaines
et np de lordre de quelques units donnent une bonne approximation. Sous cette forme,
cette rgle relve plus de la cuisine que des mathmatiques. Il est possible par des
techniques lmentaires de contrler lerreur commise en utilisant cette approximation.
Nous nous contenterons ici dun exemple classique et dune comparaison graphique pour
illustrer la qualit de cette approximation.
112

Exemple 3.39. Le prsident dun bureau de vote est n un 1er avril. Il dcide de noter
le nombre X de personnes ayant leur anniversaire le mme jour que lui parmi les 500
premiers lecteurs qui se prsentent.
La situation peut tre assimile une suite dpreuves rptes indpendantes et X
est une variable alatoire binomiale de paramtres n = 500 et p = 1/365 (en ngligeant
la question des annes bissextiles sinon on prendrait p = 4/(3 365 + 366), ce qui ne
changerait pas grand chose numriquement). Ainsi :
k
P (X = k) = C500
1 k 364 500k
.
365
365
La rgle nonce ci-dessus nous conduit approximer la loi de X par une loi de Poisson
de paramtre :
1
.
= np = 500
365
Voici une comparaison numrique pour les petites valeurs de k :
k
0
1
2
3
4
5
P (X = k) 0,253 7 0,348 4 0,238 8 0,108 9 0,037 2 0,010 1
e k
0,254 1 0,348 1 0,238 5 0,108 9 0,037 3 0,010 2
k!
Remarquons que la probabilit dobserver plus de 5 anniversaires un 1er avril, calcule
par la loi exacte de X ou par son approximation poissonienne est infrieure 0,003.
Comparaison graphique :
Les diagrammes en btons ci-dessous reprsentent la loi binomiale Bin(n, p) et la
loi de Poisson approximante Pois() avec = np. Les segments verticaux (les btons)
du diagramme reprsentant la loi dune variable discrte X ( valeurs dans N) ont
une hauteur gale P (X = k) avec une extrmit infrieure au point dabscisse k de
laxe horizontal. Pour la lisibilit, on a lgrement dcal vers la gauche les btons de
la loi de Poisson (en bleu) et vers la droite ceux de la loi binomiale(en rouge). Bien que
le diagramme en btons de la loi binomiale Bin(n, p) soit constitu thoriquement de
n + 1 btons (et que celui de la loi de Poisson en ait une infinit), seul un petit nombre
de btons est visible sur les graphiques, les autres correspondant des probabilits
trop petites 16 . Lchelle verticale de chaque figure a t choisie de faon adaptative
de faon que lavant dernire graduation verticale donne la valeur de la plus grande
probabilit binomiale. On constate que pour n = 200 (figure 3.7), la diffrence entre les
deux diagrammes nest pratiquement plus discernable visuellement.
16. En fait, on sest content dafficher les probabilits correspondant k infrieur ou gal la partie
entire suprieure de 2 + 4. On peut vrifier que la somme des probabilits ainsi ngliges est infrieure
1%, pour chacune des deux lois.
113
0.2663
0.2130
0.1598
0.1065
0.0533
0.0000
-1
10
11
12
13
12
13
Fig. 3.4 Lois Bin(25; 0,16) et Pois(4)
0.255
0.204
0.153
0.102
0.051
0.000
-1
10
11
114
0.249
0.199
0.150
0.100
0.050
0.000
-1
10
11
12
13
115
0.247
0.197
0.148
0.099
0.049
0.000
-1
10
11
12
13
3.3.7
Sur le caractre universel de la loi de Poisson
Ltude qui suit a pour but de mieux faire saisir limportance de la loi de Poisson,
en justifiant au passage le bien fond de lhypothse (3.37) du thorme de convergence
de la loi binomiale vers la loi de Poisson.
Considrons un phnomne se traduisant par des observations (ou ralisations) alatoires pendant un intervalle de temps [0, 1[ (exemples : dsintgrations datomes, accidents davion, faux numros de tlphone sur un standard, ruptions volcaniques, naissances de tripls,. . .). On suppose que le phnomne vrifie les hypothses suivantes :
(a) Les observations dans des intervalles de temps disjoints sont indpendantes.
(b) Pour tout rel t tel que 0 t < t + T 1 la loi du nombre (alatoire) dobservations dans lintervalle [t, t + T [ ne dpend que de la dure T de cet intervalle.
Partageons lintervalle de temps [0, 1[ en n intervalles disjoints
In,k
hk k + 1h
,
,
=
n n
0 k < n.
Notons :
pn = P avoir exactement une observation dans In,k

rn = P avoir au moins une observation dans In,k .
116

Daprs (b), pn et rn ne dpendent pas de k. En crivant de deux faons la probabilit
de navoir aucune observation dans [0, 1[ on obtient :
n1n
h k k + 1 h o
= P aucune observation dans
,
k=0
n n
= (1 rn )n
en utilisant (a) et (b).
1 r1
Do 1 rn = (1 r1 )1/n . Un dveloppement limit lordre 1 de cette expression nous

permet dcrire :
(1 r1 )1/n = exp

1
n
ln(1 r1 ) = 1 + ln(1 r1 ) + ,
n
n
n
1
o lim n = 0.
n+
Nous noterons dsormais :

ln(1 r1 ) = ,
]0, +[.
(3.43)
Il vient rn = n nn do limn+ nrn = .

Pour le type de phnomne que nous envisageons, il est vraisemblable que lon arrive isoler les observations lorsque les intervalles de la subdivision sont assez petits :
asymptotiquement, la probabilit davoir plus dune observation dans [k/n, (k + 1)/n[
est ngligeable devant celle den avoir exactement une. Plus prcisment, nous rajoutons
notre modle lhypothse :
rn p n
(c) n =
0, quand n +.
pn
Daprs (c), rn /pn converge vers 1, do limn+ npn = .
Cherchons maintenant la probabilit davoir exactement l observations dans [0, 1[.
Cette probabilit peut se dcomposer en :
P (l observations dans [0, 1[) = P (An ) + P (Bn ),
(3.44)
o

An = l observations avec au plus une dans chaque In,k ,

Bn = l observations avec au moins un In,k en contenant plusieurs .
Calcul de P (An ) : Notons
n
h i i + 1h o
exactement une observation dans ,
,
n n
n
h i i + 1h o
, 0 i < n.
= aucune observation dans ,
n n
Di =
Ei
Lvnement An est la runion disjointe de tous les vnements du type :

Di Ej ,
iI
jJ
117

o I {1, . . . , n}, card I = l et J = {1, . . . , n} \ I. Daprs lhypothse dindpendance
(a), la probabilit de chacun de ces vnements est pln (1 rn )nl do :
P (An ) = Cnl pln (1 rn )nl .
Pour trouver la limite de P (An ) lorsque n tend vers linfini, l restant fix, il suffit
dadapter la preuve du thorme 3.38 : ici nous avons trouver la limite de (1 rn )nl
au lieu de (1 pn )nl . Or
(n l) ln(1 rn ) nrn ,
do limn+ (1 rn )nl = e . On en dduit :
lim P (An ) =
n+
e l
.
l!
(3.45)
Majoration de P (Bn ) : Le calcul de P (Bn ) tant trop compliqu, nous nous contenterons
dune majoration. La ralisation de lvnement Bn implique lexistence dau moins deux
observations dans au moins lun des intervalles de longueur 1/n. Autrement dit :
Bn
n1
[n
au moins deux observations dans
k=0
hk k + 1h o
,
.
n n
Par consquent

n
h k k + 1 h o
P (Bn ) P au moins deux observations dans ,
k=0
n n
n1
X
(rn pn ) = n(rn pn ) = npn n .
n1
k=0
Daprs (c) et la convergence de npn vers , npn n tend vers 0 quand n tend vers +.
Il en est donc de mme pour P (Bn ).
Pour conclure, on remarque que (3.44) est vrifie pour tout entier n 1 et que le
premier membre de cette galit ne dpend pas de n. Cette galit reste donc vraie la
limite :
e l
,
P (l observations dans [0, 1[) = lim P (An ) + P (Bn ) =
n+
l!
daprs (3.45) et la majoration de P (Bn ). Ce rsultat tant valable pour tout entier l,
nous avons donc dmontr :
Thorme 3.40. Soit un phnomne donnant lieu des observations alatoires vrifiant
les hypothses :
(a) Les observations dans des intervalles de temps disjoints sont indpendantes
(b) Pour tout rel t tel que 0 t < t + T 1 la loi du nombre (alatoire) dobservations dans lintervalle [t, t + T [ ne dpend que de la dure T de cet intervalle.
118
3.4. Lois densit classiques

(c) En notant pn la probabilit davoir exactement une observation dans un intervalle
rn p n
0,
de temps de dure 1/n et rn celle den avoir au moins une, n =
pn
quand n +.
Alors le nombre alatoire dobservations dans lintervalle [0, 1[ suit la loi de Poisson de
paramtre dfini par
= ln(1 r1 ).
Remarque 3.41. Lexamen attentif de la dmonstration ci-dessus montre que la structure dordre de lintervalle [0, 1[ ny joue aucun rle. Limportant est la possibilit de
raliser une partition de [0, 1[ en intervalles de mme longueur tendant vers 0. Par consquent en remplaant la longueur par laire ou le volume, il est possible dobtenir une
version spatiale en dimension 2 ou 3 du thorme 3.40. Ceci permet de comprendre pourquoi la loi de Poisson fournit une bonne modlisation par exemple du nombre derreurs
typographiques dans une page imprime, du nombre dimpacts de mtorites sur un territoire donn, du nombre daccidents sur une portion dautoroute pendant une priode
donne, du nombre de raisins dans une portion de cake, du nombre dtoiles dans une
rgion de lunivers, . . .
3.4
Lois densit classiques
3.4.1
Lois uniformes
Dfinition 3.42. La variable alatoire relle X suit la loi uniforme sur lintervalle [a, b]
( < a < b < +) si
B Bor(R),
P (X B) = PX (B) =
1 ([a, b] B)
,
1 ([a, b])
(3.46)
o 1 dsigne la mesure de Lebesgue sur R (en particulier 1 ([a, b]) = b a). Notation :
X Unif[a, b].
Calculons la fonction de rpartition F en prenant B =] , x] pour x quelconque
dans (3.46).
si
0
1 ([a, b]] , x]) x a
si
F (x) = PX (] , x]) =
=
1 ([a, b])
ba
1
si
< x < a;
a x < b;
b x < +.
La fonction de rpartition F est affine par morceaux, donc aussi C 1 par morceaux au
sens de la proposition 3.28, avec drivabilit sur R \ {a, b} (figure 3.8). La loi a donc
une densit f qui sobtient par drivation de F , ce qui nous donne f (t) = 0 si t < a,
1
f (t) = ba
si a < t < b et f (t) = 0 si t > b. On complte la dfinition de f en la
119

f (t) 6
F (x) 6
1
!
!
!
!!
!
!!
!!
!!
!!
Fig. 3.8 f.d.r. F et densit f de la loi Unif[a, b]

1
prolongeant en a et b, par exemple en posant f (a) = f (b) = ba
. La loi uniforme sur
[a, b] admet donc pour densit
1
f=
1[a,b] .
ba
Dans les calculs faisant intervenir la loi uniforme sur [a, b], il est vivement conseill dutiliser chaque fois que cest possible la formule (3.46) de prfrence aux calculs dintgrales
de f .
Remarque 3.43. Comme 1 ({a}) = 1 ({b}) = 0, la loi uniforme sur [a, b] est aussi la
loi uniforme sur ]a, b], [a, b[ ou ]a, b[.
Une des raisons de limportance de la loi uniforme sur [0, 1] est le thorme suivant.
Thorme 3.44. Si X est une variable alatoire relle de fonction de rpartition continue strictement croissante F et si U est une variable alatoire de loi uniforme sur [0, 1],
alors la variable alatoire Y := F 1 (U ) a mme loi que X.
Rappelons quavoir mme loi que X ne signifie aucunement tre gale X. Ce thorme permet de rduire la simulation informatique de la loi de X celle de U . Nous
verrons ultrieurement que ce rsultat stend toutes les fonctions de rpartition, sans
hypothse de continuit ni de croissance stricte (avec une dfinition adapte de F 1 ).
Preuve. Comme F est continue strictement croissante, cest une bection de R sur son
image ]0, 1[ (en raison de la stricte monotonie de F , les bornes 0 et 1 ne sont pas
120

atteintes). Par consquent F 1 :]0, 1[ R est bien dfinie et vrifie :
u ]0, 1[, x R,
F 1 (u) x si et seulement si u F (x).
Comme P (0 < U < 1) = 1, on en dduit que les vnements {F 1 (U ) x} et {U

F (x)} ont mme probabilit. Pour obtenir la fonction de rpartition de Y , on remarque
alors que pour tout x R,
P (Y x) = P (F 1 (U ) x) = P (U F (x)) =
1 ([0, F (x)])
= F (x).
1 ([0, 1])
Ainsi Y a pour fonction de rpartition F donc a mme loi que X.
3.4.2
Lois exponentielles
Dfinition 3.45. Soit a un rel strictement positif. La variable alatoire relle X suit
la loi exponentielle de paramtre a si elle admet pour densit
f (t) = aeat 1[0,+[ (t).
f (t) 6
a
F (x) 6
1
Fig. 3.9 Densit et f.d.r. de la loi Exp(a)
121

En pratique, plutt que de travailler avec la fonction de rpartition dune loi exponentielle, il est plus commode dutiliser la fonction de survie G :

1
si x 0,
G(x) = P (X > x) = 1 F (x) =
eax si x > 0.
Les lois exponentielles sont souvent choisies pour modliser des temps dattente : temps
dattente partir de maintenant du prochain tremblement de terre, du prochain faux
numro sur une ligne tlphonique, de la prochaine dsintgration dun atome de radium,
etc.
La raison de ce choix est la proprit dabsence de mmoire en temps continu qui
caractrise la famille des lois exponentielles.
Thorme 3.46 (absence de mmoire).
i) Si la variable alatoire X suit une loi exponentielle, alors elle vrifie la proprit
dabsence de mmoire :
s R+ , t R+ ,
P (X > t + s | X > t) = P (X > s).
(3.47)
ii) Rciproquement si une variable alatoire X vrifie (3.47), alors elle suit une loi
exponentielle.
Comme la fonction de survie caractrise la loi, (3.47) signifie que la loi de (X t)
conditionnelle {X > t} est la mme que la loi de X.
En prliminaire la preuve du thorme, remarquons que la probabilit conditionnelle
dans (3.47) sexprime commodment laide de la fonction de survie G de la variable
alatoire X, dfinie par G(x) := P (X > x). En effet, s tant positif, on a t + s t do
linclusion de {X > t + s} dans {X > t} et lgalit dvnements : {X > t + s} {X >
t} = {X > t + s}. On en dduit
P (X > t + s | X > t) =
G(t + s)
P (X > t + s)
=
.
P (X > t)
G(t)
(3.48)
Preuve de i). Si X suit la loi exponentielle de paramtre a, on a G(x) = eax pour tout
x positif et (3.48) se traduit alors par :
P (X > t + s | X > t) =
ea(t+s)
= eas = P (X > s).
at
e
Ainsi X de loi Exp(a) vrifie la proprit dabsence de mmoire (3.47).

Preuve de ii). Soit X une variable alatoire dont la loi vrifie (3.47) et G sa fonction
de survie. Comme G = 1 F (o F dsigne la fonction de rpartition de X), G est
dcroissante et continue droite et tend vers 0 en +. De plus lcriture de (3.47)
suppose implicitement que G(t) > 0 pour tout t 0 car sinon P ( . | X > t) ne serait
122

pas dfinie. Grce (3.48), on voit que la proprit dabsence de mmoire (3.47) quivaut
G(t + s)
= G(s).
s R+ , t R+ ,
G(t)
La fonction de survie G doit donc tre une solution dcroissante, continue droite,
tendant vers 0 en + et telle que 0 < G(t) 1 de lquation fonctionnelle 17 :
s R+ , t R+ ,
G(t + s) = G(t)G(s).
(3.49)
En faisant s = t = 0 dans (3.49), on obtient G(0) = G(0)2 et comme G(0) > 0, on a

G(0) = 1.
(3.50)
En faisant s = t dans (3.49), on obtient G(2t) = G(t)2 , puis de proche en proche

n N , t 0,
G(nt) = G(t)n .
(3.51)
En particulier pour t = 1/d, d N :
n N , d N ,
n
d
=G
1 n
Lorsque n = d, (3.52) donne G(1) = G(1/d)d do

1
d N , G
= G(1)1/d .
d
(3.52)
(3.53)
Nous connaissons maintenant G sur lensemble des rationnels positifs puisque (3.50),
(3.51), (3.52) et (3.53) nous donnent
r Q+ ,
G(r) = G(1)r .
(3.54)
Soit x R+ \ Q+ , x est limite dune suite dcroissante (rn ) de rationnels. Comme G

est continue droite, G(rn ) converge vers G(x). Dautre part lapplication y 7 G(1)y
est continue sur R. Ainsi en appliquant (3.54) rn et en faisant tendre n vers linfini on
obtient
x R+ , G(x) = G(1)x .
(3.55)
A priori la constante G(1) est dans ]0, 1]. On peut carter la valeur G(1) = 1 car sinon
daprs (3.55), la limite en + de G serait 1 alors quelle vaut 0.
Finalement, puisque 0 < G(1) < 1, on peut poser G(1) = ea pour un rel a > 0
(cela revient prendre a = ln G(1)). On peut alors rcrire (3.55) sous la forme
x R+ ,
G(x) = eax .
La fonction de survie G est donc la mme que celle de la loi exponentielle de paramtre
a, donc X suit cette loi (puisque la fonction de survie caractrise la loi au mme titre
que la fonction de rpartition).
17. Une quation fonctionnelle est une quation dont linconnue est. . .une fonction ! Les quations
diffrentielles sont des exemples bien connus dquations fonctionnelles.
123
3.4.3
Lois gaussiennes
Ces lois jouent un rle capital dans ltude des lois limites de sommes de variables
alatoires indpendantes. Par exemple (thorme de
pde Moivre Laplace) si Sn suit la loi
Bin(n, p), alors pour tout x R, P Sn np x np(1 p) converge quand n tend
vers linfini vers (x), o est la f.d.r. de la loi gaussienne N(0, 1).
Dfinition 3.47. On dit que la variable alatoire X suit la loi gaussienne ou normale
N(m, ) si elle a pour densit la fonction :

1
(t m)2
+
fm, : R R
t 7 exp
.
2 2
2
La loi N(0, 1) est appele loi normale standard.
Tous les calculs de probabilits concernant une variable alatoire de loi N(m, )
peuvent se ramener des calculs sur une variable de loi normale standard.
Proposition 3.48. Si la variable alatoire X suit la loi N(m, ), alors Y := (X m)/
suit la loi N(0, 1). Autrement dit, toute v.a. gaussienne X de loi N(m, ) peut scrire
X = Y + m avec Y de loi N(0, 1).
Preuve. On calcule P (a < Y b) pour a et b rels quelconques (a < b).

X m
b = P (a + m < X b + m)
P a<

Z b+m
(x m)2
1
exp
=
dx.
2 2
a+m 2
Il suffit alors de faire le changement de variable y = (x m)/ pour obtenir
2
Z b
1
y
exp
dy.
a R, b > a, P (a < Y b) =
2
2
a
Donc Y a bien la densit f0,1 .
Remarque 3.49. En adaptant le calcul fait dans la preuve de la proposition 3.48, on
voit facilement que la famille des lois gaussiennes est stable par transformations affines :
si X a pour loi N(m, ), alors pour tout (, ) R R, la v.a. X + est encore
gaussienne, de loi N(m + , ||).
La figure 3.10 illustre la signification du paramtre de position m et du paramtre de
dispersion pour la loi gaussienne N(m, ). Cette concentration de pratiquement toute
la probabilit dans lintervalle [m 3, m + 3] permet lutilisation des lois gaussiennes
pour modliser des grandeurs alatoires qui a priori prennent leurs valeurs seulement
dans un petit intervalle de R+ : taille, poids, . . ., mme si thoriquement une variable
gaussienne peut prendre toute valeur entre et +.
Il nexiste pas dexpression dune primitive de la densit gaussienne fm, laide
des fonctions usuelles. Les valeurs de la fonction de rpartition de N(0, 1) sont tabules, cf. page 269. Daprs la proposition 3.48, ceci suffit pour calculer numriquement
nimporte quelle f.d.r. de loi gaussienne.
124
m 3 m 2 m
m + m + 2 m + 3
-
68, 3%

95, 4%

99, 7%
Fig. 3.10 Concentration de la loi N(m, ) autour de m
3.4.4
Lois de Cauchy
Dfinition 3.50. La variable alatoire X suit la loi de Cauchy (ou loi de Cauchy de
paramtres 0 et 1) si elle admet pour densit :
f (t) =
1
.
(1 + t2 )
Notation : X Cau(0, 1).

Cette loi est symtrique, ce qui signifie que X et X ont mme loi, ceci rsultant ici
de la parit de f . La fonction de rpartition F est donne par :
Z x

dt
1
F (x) =
=
+ arctan x ,
2
2
(1 + t )
o arctan x est lunique rel y ] /2, /2[ tel que tan y = x.
125

Si Y = a + bX, avec X de loi Cau(0, 1), a R et b R+ , on dit encore que Y suit
une loi de Cauchy, de paramtres (a, b), notation Y Cau(a, b). La densit est alors
fa,b (t) =
1
1
.
b 1 + ta 2
b
126
Chapitre 4
Esprance
4.1
Introduction
Lesprance dune variable alatoire est, lorsquelle existe, la moyenne des valeurs
de cette variable, pondres par leurs probabilits de ralisation. On voit bien comment
traduire cette dfinition informelle dans le cas dune variable alatoire discrte X en
posant :
X
EX :=
xP (X = x).
(4.1)
xX()
Cette formule na de sens que si la famille de rels {xP (X = x); x X()} est sommable,
ce qui se traduit par la condition suivante pour lexistence de lesprance de la v.a.
discrte X :
X
|x|P (X = x) < +.
(4.2)
xX()
Tant que lon reste dans le cadre des variables alatoires discrtes, cette dfinition est
satisfaisante et permet dtablir toutes les proprits de lesprance (cf. cours de Deug
Introduction au Calcul des Probabilits, Chap. 5). En bonne place parmi ces proprits
figure ladditivit de lesprance, i.e. si X et Y dfinies sur le mme (, F, P ) ont une
esprance, il en va de mme pour X + Y et on a
E(X + Y ) = EX + EY.
(4.3)
Essayons de traduire la dfinition informelle ci-dessus dans le cas dune variable

alatoire densit f . On part de (4.1) et on remplace P (X = x) par P (X [x, x + dx]),
probabilit valant 1 f (x) dx et on remplace la somme (ou srie) par une intgrale, ce
qui conduit :
Z +
EX :=
xf (x) dx,
(4.4)
1. Nous ne prtendons pas donner un sens rigoureux cette probabilit dappartenance un intervalle infinitsimal , il sagit juste dune approche intuitive.
127
Chapitre 4. Esprance
la condition dexistence de lesprance tant tout simplement la convergence absolue de
cette intgrale gnralise, ce qui vu la positivit de f , se traduit par :
Z +
|x|f (x) dx < +.
(4.5)
Cette dfinition malgr son analogie formelle avec (4.1) est loin doffrir la mme souplesse pour tablir les proprits de lesprance. Par exemple la preuve de ladditivit
est compltement hors de porte. En effet, si X et Y sont densit, X + Y nest pas
forcment densit 2 et alors le premier membre de (4.3) nest mme pas dfini pour la
v.a. Z = X + Y .
La solution donne ce problme par la thorie moderne des probabilits est la
dfinition dans le cas gnral, de lesprance de X comme une intgrale abstraite sur ,
relativement la mesure P :
Z
Z
X() dP (), si
|X()| dP () < +.
(4.6)
EX :=
On peut donner une premire ide de ce quest cette intgrale abstraite en considrant
le cas dune variable alatoire X telle que X() = {x1 , . . . , xn }. Alors en notant Ak :=
{X = xk } = { ; X() = xk }, on a :
Z
n
X
xk P (Ak ),
(4.7)
X() dP () =
k=1
ce qui traduit bien la dfinition informelle de EX comme la moyenne des valeurs de X

pondres par leurs probabilits de ralisation. Le passage au cas dune variable alatoire
X quelconque revient prcisment construire une intgrale au sens de Lebesgue sur
(, F, P ) et cette thorie sort du cadre de notre programme.
Il nous faut donc trouver une autre dfinition de EX. Cette dfinition doit permettre un traitement unifi de toutes les lois 3 . Rappelons quil existe des lois qui ne
sont ni discrtes ni densit et que la description la plus gnrale des lois de variables
alatoires relles est donne par leur fonction de rpartition, cf. le thorme 2.30 et la
remarque 3.16. Il est donc naturel de chercher dfinir EX partir de la fonction de
rpartition F : t 7 P (X t). Nous allons motiver cette dfinition en nous restreignant
au cas des variables alatoires positives et en partant du cas simple o X est discrte
avec X() = {x1 , . . . , xn } partieP
finie de R+ . Dans ce cas, la dfinition informelle de EX
se traduit par la formule EX = nk=1 xk P (X = xk ). Les figures 4.1 et 4.2 nous montrent
comment exprimer cette moyenne pondre laide de F . Rappelons que dans ce cas,
F prsente en chaque xk un saut damplitude P (X = xk ). Linterprtation graphique
en terme daires donne parR la figure 4.2 nous permet dcrire EX comme lintgrale de
x
Riemann ordinaire : EX = 0 n (1F (t)) dt et aussi comme la fausse intgrale gnralise
R +
(1 F (t)) dt.
0
2. Alors que la somme de deux variables alatoires discrtes est toujours une variable alatoire
discrte.
3. La dfinition informelle de EX nous fait pressentir que EX ne doit dpendre que de la loi de X,
ce qui est bien le cas dans les formules (4.1) et (4.4).
128
4.1. Introduction
y
1
xk P (X = xk )
x1
xk
xn
Fig. 4.1 Interprtation graphique des xk P (X = xk ), pour xk 0
y
1
EX
x1
Fig. 4.2 Interprtation graphique de EX =
xn
Pn
k=1
xk P (X = xk ), les xk 0.
129
Si on passe maintenant au cas dune variable alatoire positive quelconque, il parat
alors naturel de considrer que EX est laire (ventuellement infinie) dlimite par le
segment vertical t = 0, y [0, 1], la demi droite asymptote y = 1, t 0 et le graphe
de F , ce qui nous conduit la formule
Z +
Z +
P (X > t) dt, pour toute v.a. positive X.
(1 F (t)) dt =
EX :=
0
y
1
EX
F
y=
(t)
Fig. 4.3 Interprtation graphique de EX via la f.d.r. de X v.a. positive.

Nous verrons que cette dfinition permet dtablir en toute gnralit les proprits
de lesprance. Bien sr nous devrons retrouver partir de cette dfinition, les formules
(4.1) et (4.4) pour X discrte ou densit.
4.2
Esprance dune variable alatoire positive
Dans toute la suite de ce chapitre, on fixe un espace probabilis (, F, P ). Toutes les

variables alatoires considres seront, sauf mention explicite du contraire, dfinies sur
cet espace et leur loi sera la loi sous P .
Dfinition 4.1 (esprance dune v.a. positive). Soit X une variable alatoire positive 4
sur (, F). On appelle esprance de X (ou esprance de X sous P ) la quantit
Z +
EX :=
P (X > t) dt,
(4.8)
0
qui est un lment de R+ .

4. Cest--dire une application R+ , mesurable F - Bor(R+ ).
130
4.2. Esprance dune variable alatoire positive

Pour justifier lexistence de EX, on commence par noter que lapplication G : R+
[0, 1], t 7 G(t) := P (X > t) est dcroissante sur R+ , donc Riemann intgrable sur [0, b]
Rb
Rb
pour tout b R+ , cf. proposition A.9. Lintgrale 0 G(t) dt = 0 P (X > t) dt existe
donc bien et est un rel positif pour tout b. Comme cest une fonction croissante de sa
borne suprieure b, elle converge dans R+ quand b tend vers +.
Dans cette section, nous utiliserons linterprtation graphique de EX via la fonction
de survie t 7 P (X > t) (cf. figure 4.4) plutt que via la f.d.r. F : t 7 P (X t). On
passe videmment dune reprsentation lautre en effectuant une symtrie orthogonale
par rapport la droite y = 1/2, puisque G = 1 F . Cette symtrie conserve les aires,
cf. prop. 2.14.
y
1
y=
P (X
>t
)
EX
Fig. 4.4 Interprtation graphique de EX via la fonction de survie de X v.a. positive.
Remarque 4.2. EX ne dpend que de la loi de X, il serait donc plus correct de parler de
lesprance de la loi de X sous P au lieu de lesprance de X. Lusage donne nanmoins
la prfrence cette dernire appellation quand il ny a pas dambigut sur P .
Remarque 4.3 (esprance dune v.a. presque srement positive). Dans les exercices,
la variable alatoire X nest pas toujours donne explicitement, il arrive assez souvent
que lon ne connaisse que sa loi PX . Si PX (R+ ) = 1, on sautorisera une gnralisation
de la dfinition 4.1 en considrant que la formule (4.8) reste valable. Il sagit bien dune
gnralisation car on peut avoir P (X 0) = 1 sans que X() soit positif ou nul pour
tout , par exemple si = R, F = Bor(R), P est la loi uniforme sur [0, 1] et X : 7
est lidentit sur R. On a alors X() < 0 pour une infinit non dnombrable de s
et P (X 0) = 1. Cette gnralisation est cohrente avec la remarque 4.2 car si X
est une variable alatoire relle dfinie sur un espace probabilis (, F, P ) et telle que
131
P (X 0) = 1, on peut toujours trouver un espace probabilis (0 , F0 , P 0 ) et une variable
alatoire positive X 0 dfinie sur cet espace tels que X et X 0 aient mme loi. Il suffit de
prendre 0 = R+ , F0 = Bor(R+ ), P 0 = PX et X 0 : R+ R, 7 gale lidentit
sur R+ . On a alors pour tout borlien B de R, PX0 0 (B) = P 0 (X 0 B) = P 0 ({ 0 ;
X 0 () B} = P 0 (B R+ ) = PX (B R+ ) = PX (B) car PX (B R ) PX (R ) = 0.
Ceci montre que X et X 0 ont mme loi 5 .
Dfinition 4.4 (intgrabilit dune v.a. positive). On dit que la variable alatoire positive X est intgrable si
Z +
P (X > t) dt < +.
(4.9)
0
Exemple 4.5. Si la variable alatoire positive X est borne, i. e. sil existe une constante
c telle que pour tout , 0 X() c, alors elle est intgrable. En effet pour t c,
P (X > t) = 0, ce Rqui rduit lintgrale gnralise dfinissant EX une intgrale de
c
Riemann ordinaire 0 P (X > t) dt donc finie (et majore par c).
Plus gnralement, si la loi de X, v.a. positive, vrifie P (X > t) Ct pour un
certain > 1 et tout t t0 > 0, ou si P (X > t) t1 (ln t) pour un > 1 et tout
t t0 > 0, alors X est intgrable. Rciproquement, lintgrabilit de X nous donne un
renseignement sur la vitesse de convergence 6 vers 0 de P (X > t) quand t tend vers +.
Cest lingalit de Markov que nous verrons ci-dessous (proposition 4.16).
Voyons maintenant quelques exemples simples de calcul desprance de variables
alatoires positives.
Exemple 4.6 (esprance dune constante positive). Si la variable alatoire X est une
constante positive c, i.e. X() = c pour tout , alors EX = c. En effet on a
clairement :
(
1 si t < c
P (X > t) =
= 1],c[ (t),
0 si t c
do
Z
EX =
Z
1],c[ (t) dt =
Z
1[0,c[ (t) dt =
1 dt = c.
0
Lexemple suivant est dune grande importance car il permet dcrire toute probabilit dvnement comme une esprance. Nous le formulons sous forme de proposition.
Proposition 4.7 (esprance dune indicatrice dvnement). Pour tout vnement A
F,

E 1A = P (A).
(4.10)
5. La tribu borlienne de R+ est la plus petite tribu contenant tous les ouverts de R+ . On peut
vrifier quun sous-ensemble B 0 de R+ est un borlien de R+ si et seulement sil scrit B R+ o B
est un borlien de R.
6. Pour nimporte quelle variable alatoire X, P (X > t) tend vers 0 quand t tend vers +, car
G(t) = 1 F (t), o F est la f.d.r. de X qui tend toujours vers 1 en +.
132

y
1
Fig. 4.5 Esprance de la v.a. constante X = c

y
1
P (A)
Fig. 4.6 Esprance de la v.a. indicatrice X = 1A

Preuve. La variable alatoire positive 1A prend la valeur 1 sur lvnement A et 0 sur
Ac , elle suit la loi de Bernoulli de paramtre P (A). Lvnement {1A > t} est donc gal
A si 0 t < 1 et lensemble vide si t 1. On en dduit que :
(
P (A) si 0 t < 1,
P (1A > t) =
0
si t 1.
Par consquent,
E 1A =
P (A) dt = P (A).
0
Dans ce chapitre, les variables alatoires discrtes X ne prenant quun nombre fini de
valeurs jouent un rle important car elles vont nous permettre dtablir par passage la
limite les principales proprits de lesprance. Il est commode de les dnommer comme
suit.
Dfinition 4.8 (variable alatoire simple). On dit que la variable alatoire relle X
dfinie sur (, F) est simple ou tage si X() est fini. En notant X() = {x1 , . . . , xn },
133
X admet la dcomposition
X=
n
X
o Ak := {X = xk }, k = 1, . . . , n,
xk 1Ak ,
(4.11)
k=1
les vnements Ak formant une partition de .

Proposition 4.9 (esprance dune v.a. positive simple). Si X est une variable alatoire
positive simple avec X() = {x1 , . . . , xn },
EX =
n
X
xk P (X = xk ).
(4.12)
k=1
On retrouve ainsi la formule (4.1) de lintroduction dans le cas particulier o X()

est fini ; voir aussi (4.7).
Preuve. Notons en prliminaire quil nous faut rsister ici la tentation de dire cest
immdiat en utilisant la dcomposition (4.11), la proposition 4.7 et la linarit de lesprance , car nous navons pas encore prouv que lesprance est linaire. En fait la
proposition 4.9 est lun des ingrdients de la preuve de la linarit de lesprance. Il nous
faut donc vrifier (4.12) par un calcul direct bas sur la dfinition 4.1.
Quitte rindexer, on peut toujours supposer
que les xk sont rangs par ordre croisP
sant. Notons pi := P (X = xi ) et sk := 1ik pi . La fonction de rpartition F peut
alors scrire
n1
X
F (t) =
sk 1[xk ,xk+1 [ (t) + sn 1[xn ,+[ (t).
k=1
Notons
que pour t R xn , F (t) = sn = 1, donc P (x > t) = 1 F (t) = 0. Ainsi
R +
x
P (X > t) dt = 0 n P (X > t) dt. On peut alors calculer EX comme suit en utilisant
0
les proprits de lintgrale de Riemann sur lintervalle ferm born [0, xn ].
Z xn
Z xn
n1 Z xk+1
X
sk dt
F (t) dt = xn
(1 F (t)) dt = xn
EX =
0
= xn
= xn
k=1
n1
X
k=1
n
X
xk
(xk+1 xk )sk
xj sj1 +
n1
X
j=2
x j sj
j=1
= xn xn sn1 +
n1
X
xj (sj sj1 ) + x1 s1
j=2
= xn pn +
n1
X
j=2
134
xj pj + x1 p1 =
n
X
pk xk .
j=1

Proposition 4.10 (esprance dune v.a. positive densit). Si la variable alatoire
positive X a pour densit f , on a
Z +
xf (x) dx.
(4.13)
EX =
0
Dans cette formule, EX peut prendre la valeur + si lintgrale gnralise diverge.

R +
Preuve. Si X admet pour densit f , on a pour tout t, P (X > t) = t f (x) dx. En
reportant cette galit dans la dfinition de EX, on obtient :

Z + Z +
Z + Z +
Z +
f (x)1[t,+[ (x) dx dt.
f (x) dx dt =
P (X > t) dt =
0
Notons que pour t 0, on a 1[t,+[ (x) = 1[0,x] (t). Lintgrande (x, t) 7 1[0,x] (t)f (x)
tant positive, le thorme de Fubini-Tonelli lgitime linterversion des intgrations 7 , ce
qui donne :

Z +
Z +
Z + Z +
1[0,x] (t) dt dx.
f (x)1[0,x] (t) dt dx =
f (x)
EX =
0
Comme pour x 0,
R +
0
1[0,x] (t) dt =
Rx
0
dt = x, on en dduit (4.13).
Remarque 4.11. Notons que dans la dmonstration ci-dessus, nous navons utilis
aucun moment la positivit de la variable alatoire X. On peut donc appliquer ce calcul
toute variable alatoire relle X ayant une densit f pour obtenir :
Z +
Z +
xf (x) dx (galit dans R+ ).
P (X > t) dt =
(4.14)
0
Attention ne pas crire EX au premier membre de (4.14), cette quantit ntant pour
linstant dfinie que pour X positive. La vraie formule pour EX lorsque la v.a. relle X
est densit est donne la proposition 4.32.
Proposition 4.12. Si X est une variable alatoire positive et c une constante relle
strictement positive, on a
E(cX) = cEX.
Cette galit reste vraie pour c = 0 si X est de plus intgrable.
Preuve. Puisque X est une variable alatoire positive et c une constante positive, cX :
7 (cX)() := cX() est une variable alatoire positive. En lui appliquant la dfinition 4.1, on obtient :
Z +
Z +
t
E(cX) =
P (cX > t) dt =
P X>
dt.
c
0
0
7. Mme si les intgrales valent +.
135
Dans cette intgrale gnralise dune fonction positive localement intgrable sur [0, +[,
on peut effectuer le changement de variable s = t/c, cf. proposition B.41-ii), qui nous
donne :
Z +
Z +
t
P (X > s) ds = cEX.
P X>
dt = c
E(cX) =
c
0
0
Dans le cas particulier c = 0, cette mthode nest plus valable (on ne peut dj plus
crire P (cX > t) = P (X > t/c) ) mais la formule est vraie trivialement condition
que EX soit finie, puisqualors E(0 X) = E(0) = 0 et 0 EX = 0.
Proposition 4.13 (croissance de lesprance). Si X et Y sont deux variables alatoires
positives dfinies sur le mme (, F, P ) et si X Y i.e. X() Y () pour tout ,
alors EX EY .
Preuve. Si X() > t, alors comme Y () X(), on a aussi Y () > t. Ceci justifie
linclusion dvnements {X > t} {Y > t}, puis lingalit P (X > t) P (Y > t).
Cette dernire ingalit tant vrifie pour tout t, on peut lintgrer entre 0 et +, pour
obtenir 8 :
Z
Z
+
P (X > t) dt
EX =
P (Y > t) dt = EY.
Proposition 4.14. Pour toute variable alatoire positive X, on a lgalit (dans R+ ) :

Z
P (X t) dt.
P (X > t) dt =
(4.15)
Avant den donner la preuve, notons que (4.15) na rien dvident car P (X > t)
et P (X t) peuvent diffrer pour certaines valeurs de t (au plus pour une infinit
dnombrable de valeurs de t).
Preuve. Notons respectivement I et J le premier et le deuxime membre de (4.15). On
prouve leur galit en montrant lingalit dans les deux sens. Lingalit I J sobtient
par intgration de lingalit P (X > t) P (X t) vraie pour tout t.
Pour montrer que J I, fixons > 0 quelconque. Lintgrande dans J est une
fonction positive localement Riemann intgrable sur [0, +[. On peut donc effectuer
dans J le changement de variable translation t = s + , cf. proposition B.41-i), qui
nous donne :
Z +
Z 0
Z +
J=
P (X s + ) ds =
P (X s + ) ds +
P (X s + ) ds.
8. La croissance de lintgrale de Riemann (cf. prop. A.21 ii)) passe aux intgrales gnralises de
fonctions positives. En effet, si f et g sont positives et localement
Riemann
intgrables sur [0, +[ et
Rx
Rx
telles que f g sur [0, +[, alors on a pour tout x 0, 0 f (t) dt 0 g(t) dt et cette ingalit entre
deux fonctions croissantes de x se conserve dans R+ par passage la limite quand x tend vers +.
136

En majorant P (X s + ) par 1 sur [, 0] et par P (X > s) sur [0, +[, on en dduit
que
Z +
P (X > s) ds = + I.
J +
0
Lingalit J I + tant ainsi vrifie pour tout > 0, on en dduit en faisant tendre
vers 0 que J I.
Remarque 4.15. Dans la dmonstration ci-dessus, la positivit de X ne joue aucun
rle. Donc (4.15) reste valable pour nimporte quelle variable alatoire relle X. Une
adaptation facile (faites la !) de la preuve ci-dessus montre que pour X variable alatoire
relle, on a aussi
Z
Z
0
P (X t) dt.
P (X < t) dt =
(4.16)
Proposition 4.16 (ingalit de Markov). Si X est une variable alatoire positive, on a

x > 0,
P (X x)
EX
.
x
(4.17)
Remarques 4.17. Cette ingalit na dintrt que lorsque le second membre est infrieur 1, i.e. lorsque EX < + et x > EX.
Dautre part il peut sembler un peu incongru de vouloir contrler P (X x)
laide de EX, puisque le calcul de cette esprance par la dfinition 4.1 prsuppose la
connaissance des P (X > t) pour t 0 (dont on dduit facilement les P (X t)). Il se
trouve quil arrive souvent en pratique que lon sache calculer EX sans connatre, ou
sans avoir besoin de calculer, la loi de X. Cest le cas par exemple quand X est une
somme finie de variables alatoires desprances connues. On peut aussi savoir majorer
EX sans connatre la loi de X. Dans ces situations, lingalit de Markov est trs utile.
Pour ne citer quun exemple, lingalit de Markov est lun des outils pour tablir des
lois des grands nombres .
Voici maintenant 3 preuves de lingalit de Markov, libre au lecteur de choisir celle
quil prfre.
Preuve no 1. Voir la figure 4.7.
Preuve no 2. Cette preuve ne fait que traduire explicitement la preuve graphique no 1.
Fixons x > 0, la quantit P (X x) devenant ainsi une constante. partir de cette
constante, dfinissons la fonction h : [0, +[ R+ , t 7 P (X x)1[0,x] (t). Par dcroissance de la fonction t 7 P (X t), on a h(t) P (X t) pour tout t [0, x]. Dautre
part cette ingalit est aussi vrifie pour tout t > x car alors h(t) = 0. En intgrant sur
[0, +[ lingalit h(t) P (X t), on obtient compte-tenu de (4.15) :
Z
Z
h(t) dt
P (X t) dt = EX.
0
137
y
1
y=
P (X
t
)
xP (X x)
x
0
Fig. 4.7 Ingalit de Markov : xP (X x)
R +
0
t
P (X t) dt = EX.
Dautre part, puisque h est nulle sur ]x, +[,

Z
P (X x) dt = xP (X x).
h(t) dt =
0
Par consquent
xP (X x) EX,
ce qui nous donne (4.17) puisque x > 0.
Preuve no 3. Cette preuve plus abstraite exploite les proprits dj connues de lesprance des v.a. positives. On fixe x qui joue donc le rle dune constante dans toute la
preuve. On part de lingalit entre v.a. positives : x1{Xx} X (vrifiez) dont on dduit
par croissance de E (proposition 4.13) :

E x1{Xx} EX,
puis grce aux propositions 4.12 et 4.7, xP (X x) EX. On conclut en divisant par
x > 0.
Corollaire 4.18. Si X est une variable alatoire positive, on a lquivalence
EX = 0 P (X = 0) = 1,
autrement dit EX est nulle si et seulement si X est presque srement nulle.
138

Preuve. Supposons dabord que EX = 0. La v.a. X tant positive, lgalit P (X = 0) =
1 quivaut P (X > 0) = 0. Introduisons la suite des vnements An := {X 1/n},
n N . Cette suite est croissante de runion A := {X > 0}. Par continuit squentielle
croissante de P , P (A) = limn+ P (An ). Or lingalit de Markov applique avec x =
1/n nous montre que pour tout n N , 0 P (An ) nEX = 0. Ainsi P (An ) = 0 pour
tout n et P (A) = 0 comme limite de la suite nulle.
Rciproquement,
si P (X = 0) = 1, alors pour tout t 0, P (X > t) = 0, do
R +
EX = 0 0 dt = 0.
Proposition 4.19 (ingalit de Markov raffine). Si X est une variable alatoire positive
intgrable (EX < +),
lim xP (X x) = 0.
(4.18)
x+
Preuve. Voir la figure 4.8.
y
1
y=
x
P (X
2
t
)
x)
x
x
2
Fig. 4.8 Preuve de (4.18) : x2 P (X x)
P (X
R +
x/2
P (X t) dt = o(1) si EX < +.
Remarque 4.20. La rciproque de la proposition 4.19 est fausse. Il est possible que
xP (X x) = o(1) sans que X soit intgrable. Un contre exemple lmentaire est
obtenu avec X de fonction de survie G(t) = P (X > t) = 1 si t 1 et 1/t si t > 1.
Thorme 4.21 (approximation par suite croissante de v.a. simples). Toute variable
alatoire positive X sur (, F) est limite simple sur dune suite croissante (Xn )n1 de
variables alatoires positives simples.
139
Preuve. Lide est dutiliser pour construire Xn , les valeurs approches dyadiques par
dfaut de X au niveau de rsolution n. On peut procder comme suit en dfinissant
pour n N, les ensembles

An,k := X 1 [k2n , (k + 1)2n [ , 0 k n2n 1;

An,n2n := X 1 [n, +[ .
On prend alors
n
n2
X
k
Xn :=
1
.
n An,k
2
k=0
Autrement dit,
(
n
Xn () =
k2n
si n X(),
pour lunique entier k tel que k2n X() < (k + 1)2n sinon.
Comme X est mesurable, les An,k sont dans F, ce qui entrane la mesurabilit de Xn
(combinaison linaires dindicatrices dlments de la tribu F). Comme Xn () est une
partie finie de R+ , Xn est simple positive.

Il reste vrifier que pour tout , la suite de rels Xn () n1 est croissante et
converge dans R+ vers X(). On note [x] la partie entire du rel x, unique entier m tel
que m x < m + 1. On voit que Xn () = n pour n [X()] et que pour n > [X()],
n l
o
l
k(n, )
=
max
;
X(),
l
N
= 2n [2n X()].
(4.19)
2n
2n 2n

La suite finie Xn () n[X()] est clairement croissante. Voyons la suite Xn () n>[X()] .
Daprs (4.19), on a
Xn () =
k(n, )
2k(n, )
2k(n, )
k(n + 1, )
=
X()
= Xn+1 (),
n
n+1
n+1
2
2
2
2n+1

do la croissance de la suite Xn () n>[X()] . Pour tablir dfinitivement la croissance

de toute la suite Xn () n1 , il ne reste plus qu examiner le point de raccord des deux
sous-suites, donc comparer Xn () et Xn+1 () pour n = [X()]. Il suffit de remarquer
que Xn () = n = (n2n+1 )2n1 X() et comme Xn+1 () est donn par (4.19), on a
(n2n+1 )2n1 k(n + 1, )2n1 = Xn+1 ().
La convergence est immdiate, puisque pour n > [X()], on a daprs (4.19)
Xn () =
Xn () X() < Xn () +
1
,
2n
do 0 X() Xn () < 2n . Le thorme est dmontr. On peut remarquer en bonus

que la convergence est uniforme sur si X est borne (i.e. M := sup X() < +).
En effet pour n > M (constante indpendante de ), on a pour tout , 0
X() Xn () < 2n .
140

Lemme 4.22. Si (Xn )n1 est une suite croissante de variables alatoires positives ayant
pour limite sur tout la variable alatoire positive X, on a
t 0,
P (Xn > t) P (X > t).
(4.20)
Preuve. Pour t fix, la suite des vnements An := {Xn > t} est croissante pour linclusion (puisque si An , Xn+1 () Xn () > t, donc An+1 ). Par continuit
squentielle croissante de P , P (An ) tend en croissant vers P (A), o A := n1 An . On
prouve alors la convergence (4.20) en vrifiant que A = {X > t}. Pour cela on montre
linclusion dans les deux sens.
Soit A quelconque. Cela signifie quil existe un n0 = n0 () tel que An0 ,
i.e. Xn0 () > t. Alors par croissance de la suite (Xn ())n1 , Xn () Xn0 () pour tout
n n0 , do en faisant tendre n vers linfini, X() Xn0 () > t. Donc en particulier,
X() > t, do {X > t}. Comme tait quelconque, ceci tablit linclusion
A {X > t}.
Pour linclusion inverse, soit quelconque dans {X > t}. Alors X() > t et comme
cette ingalit est stricte 9 et Xn () tend vers X() quand n tend vers linfini, on peut
trouver un n0 = n0 () tel que pour tout n n0 , Xn () > t (si cela ne vous parat pas
vident, posez = X() t do t = X() ). Ainsi An pour tout n n0 , donc
a fortiori A. Linclusion {X > t} A est ainsi tablie et ceci termine la preuve du
lemme.
Thorme 4.23 (de Beppo Levi). Soit (Xn )n1 une suite de variables alatoires positives qui converge en croissant vers la variable alatoire positive X, i.e. pour tout n
Xn Xn+1 et pour tout , limn+ Xn () = X(). Alors la suite EXn converge
en croissant (dans R+ ) vers EX.
Preuve. La croissance de la suite (EXn )n1 dans R+ est vidente par croissance de
lesprance (proposition 4.13). Pour tudier sa convergence, nous allons distinguer deux
cas selon que X est ou nest pas intgrable.
Cas 1, EX R< +. Fixons > 0 quelconque. Par convergence de lintgrale de Riemann
+
gnralise 0 P (X > t) dt, on peut trouver un rel positif b (dpendant de ) tel que :
Z
P (X > t) dt < .
(4.21)
De cette galit et de la croissance de (Xn ) qui implique que Xn X et donc que pour
tout t, P (Xn > t) P (X > t), on dduit :
Z
n 1,
P (Xn > t) dt < .
(4.22)
9. Cest l quon voit pourquoi le lemme ne marcherait pas avec P (Xn t) et P (X t). Voici
dailleurs un contre exemple lmentaire. On prend Xn = 1 1/n, v.a. constante et X = 1. Alors avec
t = 1, on obtient P (Xn 1) = 0 pour tout n, tandis que P (X 1) = 1, ce qui empche la convergence.
141
Posons Gn (t) := P (Xn > t) et G(t) := P (X > t). Chaque Gn est une fonction dcroissante sur [0, b] et par le lemme 4.22, Gn (t) converge vers G(t) pour tout t [0, b]. La
suite (Gn ) satisfait ainsi les hypothses du thorme dinterversion limite et intgrale de
Riemann pour une suite de fonctions dcroissantes (cf. thorme A.35), donc :
b
Z
P (Xn > t) dt
P (X > t) dt.
n+
(4.23)
En combinant (4.21), (4.22) et (4.23), on voit quil existe un entier n0 () tel que
Z
n n0 (),
Z
P (X > t) dt
P (Xn > t) dt < 2,

0
ce qui tablit la convergence de EXn vers EX.

Cas 2, EX = +. Il sagit
cette fois de montrer que EXnRtend vers +. La divergence
R +
x
de lintgrale gnralise 0 P (X > t) dt signifie ici que 0 P (X > t) dt tend vers +
quand x tend vers +. Donc si on fixe A > 0 arbitraire, on peut trouver un b ]0, +[
tel que
Z b
P (X > t) dt > A.
(4.24)
0
En appliquant comme ci-dessus le thorme dinterversion limite intgrale

R b pour la suite
de fonctions dcroissantes (Gn ), on obtient la convergence (dans R+ ) de 0 P (Xn > t) dt
Rb
vers 0 P (X > t) dt quand n tend vers +. Il existe donc un entier n0 (A) tel que :
Z
n n0 (A),
P (Xn > t) dt >

0
A
.
2
(4.25)
Ceci implique videmment que

Z
n n0 (A),
EXn =
P (Xn > t) dt >

0
A
,
2
et comme A est arbitraire, on a ainsi prouv que EXn tend vers +.

La dmonstration du thorme de Beppo Levi est acheve.
Corollaire 4.24 (additivit de lesprance). Si X et Y sont deux variables alatoires
positives dfinies sur le mme (, F, P ),
E(X + Y ) = EX + EY
(galit dans R+ ).
(4.26)
Preuve. On montre (4.26) par un passage la limite partir de ladditivit de lesprance

des variables simples. Cette proprit, dj vue en Deug, est reprise sous une forme ad
hoc dans le lemme 4.25 ci-dessous.
142

Par le thorme 4.21, il existe deux suites (Xn ) et (Yn ) de variables alatoires simples
positives telles que Xn X et Yn Y . Alors en posant Zn := Xn + Yn , on a aussi
Zn X + Y . Par le lemme 4.25, on a
n N,
EZn = E(Xn + Yn ) = EXn + EYn .
(4.27)
En appliquant le thorme de Beppo Levi chacune des suites (Zn ), (Xn ) et (Yn ), on
peut passer la limite quand n tend vers + dans (4.27) pour obtenir (4.26).
Lemme 4.25. Si X et Y sont deux variables alatoires positives simples, il en est de
mme pour Z := X + Y et on a EZ = EX + EY .
Preuve. Par hypothse X() et Y () sont des sous-ensembles finis de R+ et il est clair
quil en va de mme pour Z(). Donc Z est une variable alatoire positive simple. Notons
X() = {x1 , . . . , xl },
Y () = {y1 , . . . , ym },
Z() = {z1 , . . . , zn }.
On voit facilement, en partitionnant suivant toutes les valeurs possibles de Y , resp.

de X, que
P (X = xi ) =
P (X = xi et Y = yj ),
(4.28)
P (X = xi et Y = yj ).
(4.29)
yj Y ()
P (Y = yj ) =
X
xi X()
Pour zk Z(), la dcomposition en union finie dvnements 2 2 disjoints 10

{Z = zk } =
{X = xi et Y = yj },
xi +yj =zk
nous donne
P (Z = zk ) =
P (X = xi et Y = yj ).
(4.30)
xi +yj =zk
On obtient alors la conclusion souhaite par le calcul suivant dans lequel tous les sont
des sommes dun nombre fini de termes et o on utilise (4.28)(4.30) et la proposition 4.9
10. Pour zk Z() et certains couples (xi , yj ) tels que xi + yj = zk , il se peut quil nexiste aucun
tel que X() = xi et Y () = yj , lvnement {X = xi et Y = yj } est alors vide.
143
applique dabord Z, puis X et Y .
X
X
EZ =
zk P (Z = zk ) =
zk
zk Z()
X
xi +yj =zk
zk Z()
P (X = xi et Y = yj )
(xi + yj )P (X = xi et Y = yj )
zk Z() xi +yj =zk
(xi + yj )P (X = xi et Y = yj )
xi X(),yj Y ()
xi P (X = xi et Y = yj )
xi X(),yj Y ()
yj P (X = xi et Y = yj )
xi X(),yj Y ()
X
xi X()
xi
yj Y ()
yj
yj Y ()
xi X()
xi P (X = xi ) +
xi X()
yj P (Y = yj )
yj Y ()
= EX + EY.
Corollaire 4.26 (interversion srie-esprance). Soit (Xk )kN , une suite de variables
alatoires
positives dfinies sur (, F). On suppose que pour tout , la srie
P+
X
()
converge 11 dans R+ . Alors lapplication
k
k=0
S : R+ ,
7 S() :=
+
X
Xk (),
k=0
est une variable alatoire positive sur (, F) et on a

! +
+
X
X
EXk ,
ES = E
Xk =
k=0
(4.31)
k=0
cette galit ayant lieu dans R+ .

Preuve. Lapplication S : R+ est bien dfinie, grce lhypothse de convergence
simple de la srie sur tout . Posons
n
X
n N, Sn :=
Xk .
k=0
11. Nous donnons ici une version bride de linterversion srie-esprance. On pourrait se passer
de cette hypothse de convergence dans R+ , en considrant que cette srie converge toujours dans R+ .
Il faudrait alors considrer quune variable alatoire positive est une application valeurs dans R+ , ce
que nous avons vit de faire dans ce cours. . .
144

Les Sn sont mesurables F - Bor(R+ ) comme sommes finies dapplications mesurables
(les Xk ). Comme S est limite simple sur tout dune suite dapplications mesurables,
elle est mesurable pour les tribus F - Bor(R+ ), cest donc bien une variable alatoire
positive.
Par additivit de lesprance (corollaire 4.24, qui stend par une rcurrence immdiate toute somme dun nombre fini de variables alatoires positives 12 ) on a
n N,
ESn =
n
X
EXk
(galit dans R+ ).
(4.32)
k=0
En raison de la positivit des Xk , la convergence de Sn vers S est croissante (Sn S),

donc par le thorme de Beppo Levi, ESn converge vers ES quand n tend vers +. En
faisant tendre n vers + dans (4.32), on obtient alors la conclusion souhaite (noter
que le second membre de (4.32) converge dans R+ vers le second membre de (4.31)).
Corollaire 4.27 (esprance dune v.a. discrte positive). Pour toute variable alatoire
discrte positive X,
X
EX =
xP (X = x),
(galit dans R+ ).
(4.33)
xX()
Preuve. Puisque X est discrte positive, X() est une partie finie ou dnombrable de
R+ . Le cas o X() est finie est celui des variables alatoires simples dj trait ci-dessus
(proposition 4.9). Supposons dsormais X() dnombrable et indexons ses lments par
les entiers : X() = {xk ; k N}. On peut alors reprsenter X comme la somme dune
srie de variables alatoires positives en crivant (la justification suit) :
X=
+
X
xk 1Ak ,
(Ak := {X = xk }, k N).
(4.34)
k=0
En effet les vnements Ak ralisent une partition de , donc pour tout , il existe
un unique indice j = j() tel que Aj et pour cet , X() = xj . On a alors
+
X
xk 1Ak () = xj 1Aj () = xj = X(),
k=0
car dans cette srie de rels positifs, il y a au plus un terme non nul 13 , celui dindice j
(pour k 6= j,
/ Ak , do 1Ak () = 0). Ceci prouve que la srie de variables alatoires
positives (4.34) converge sur tout vers la variable alatoire positive X. Les hypothses
du corollaire 4.26 tant ainsi vrifies, on a
EX =
+
X
E(xk 1Ak ) =
k=0
+
X
k=0
xk E(1Ak ) =
+
X
xk P (Ak ) =
k=0
+
X
xk P (X = xk ),
k=0
en utilisant aussi les propositions 4.12 et 4.7. La formule (4.33) est ainsi dmontre.
12. Mais cette rcurrence ne permet pas de traiter le cas dune srie.
13. Il se peut quils soient tous nuls si xj = 0.
145
4.3
Esprance dune variable alatoire relle
Lextension de la notion desprance au cas des variables alatoires relles repose

sur la dcomposition X = X + X et la formule EX := E(X + ) E(X ) , sous
rserve que cette soustraction ait lieu dans R. Avant dexpliquer cela, donnons quelques
prcisions sur les variables alatoires positives X + et X . Elles sont dfinies par
X + := max(0, X),
X := max(0, X).
Notons que X + et X sont des variables alatoires 14 positives. En se rappelant la

dfinition 1.71, on a donc :
X + : R+ , 7 X + () = (X())+ ,
X : R+ , 7 X () = (X()) .
Au risque dinsister lourdement, notons encore que pour tout ,

(
(
X()
=
|X()|
si
X()
0,
0
si X() 0,
X + () =
X () =
0
si X() 0,
X() = |X()| si X() 0.
On en dduit les galits
X = X + X ,
|X| = X + + X .
Pour dfinir EX comme la diffrence E(X + ) E(X ), il est clair quil nous faut
interdire que ces deux esprances de variables alatoires positives vaillent simultanment
+. On pourrait autoriser lune des deux valoir + condition que lautre soit
finie, EX prenant alors la valeur + si E(X + ) = + et E(X ) < +, ou dans
le cas inverse EX = . Nous ne retiendrons pas cette option, car le problme de
+ rapparatrait de toutes faons pour la somme de deux variables alatoires,
ce qui empcherait ladditivit de lesprance pour les variables alatoires relles. Ainsi
nous ne parlerons de lesprance (sous-entendu dans R) de la variable alatoire relle
X que si E(X + ) < + et E(X ) < +, ou ce qui est quivalent si E|X| < +.
Les proprits de lesprance tablies dans cette section ne concernent que les variables
alatoires remplissant cette condition 15 . On dit que ces variables alatoires relles sont
intgrables.
Dfinition 4.28 (v.a. relle intgrable). La variable alatoire relle X est dite intgrable
si E|X| < +, autrement dit si :
Z +
P (|X| > t) dt < +.
0
14. Elles hritent de la mesurabilit de X.

15. titre exceptionnel, dans certaines situations, il peut tre commode de dire quune variable
alatoire relle a une esprance infinie si une seule des deux quantits E(X + ) et E(X ) est infinie,
par exemple dans la situation de la remarque 4.3, pour rester cohrent avec la dfinition de lesprance
dune v.a. positive comme lment de R+ . Il convient alors de manipuler ces esprances infinies avec
les plus grandes prcautions. En tout tat de cause, on ne parle jamais desprance ni finie ni infinie
lorsque EX + et EX valent tous deux +.
146
4.3. Esprance dune variable alatoire relle

Dfinition 4.29 (esprance dune v.a. relle). Si X est une variable alatoire relle
intgrable, on appelle esprance de X, le rel EX dfini par
EX := E(X + ) E(X ).
(4.35)
Le second membre de (4.35) a bien un sens et reprsente un nombre rel, puisquen

raison des ingalits 0 X + |X| et 0 X |X|, lintgrabilit de X implique la
finitude de E(X + ) et de E(X ).
Remarque 4.30. Une fois le rel EX dfini comme ci-dessus, on peut parler de sa
partie positive (EX)+ et de sa partie ngative (EX) . Il faut prendre garde ne pas
les confondre avec E(X + ) et E(X ). Voici un exemple simple o ces quantits diffrent.
On prend X variable alatoire de Rademacher, i.e. X() = {1, 1} et P (X = 1) =
P (X = 1) = 1/2. Comme X est borne, elle est intgrable, donc EX existe. Comme la
loi de X est symtrique, EX = 0, donc (EX)+ = 0+ = 0 et (EX) = 0 = 0. Dautre
part, on vrifie (faites le !) que X + et X sont des variables de Bernoulli de paramtre
1/2, donc E(X + ) = E(X ) = 1/2.
La formule (4.35) ne semble pas trs commode pour le calcul explicite de EX. On
aimerait pouvoir exprimer EX, directement laide de la loi de X, par exemple de sa
f.d.r., sans passer par la loi de X + et celle de X . Cest lobjet de la proposition suivante.
Proposition 4.31 (calcul de EX laide de la f.d.r.). Soit X une variable alatoire
relle intgrable de fonction de rpartition F . Son esprance vrifie
Z +
Z 0
Z 0
Z +

F (t) dt. (4.36)
P (X < t) dt =
1F (t) dt
P (X > t) dt
EX =
Preuve. Compte-tenu des remarques faites au dbut de cette section, on vrifie facilement pour tout t 0, les quivalences logiques suivantes :
X + () > t X() > t,
X () > t X() < t.
(4.37)
(4.38)
Laissant (4.37) au lecteur, dtaillons la deuxime. Comme t 0, lingalit X () > t

implique que X () est strictement positif, donc que X() est strictement ngatif et
dans ce cas, X () = X(), do X() > t et donc X() < t. Ceci justifie limplication dans (4.38). Rciproquement, si X() < t, X() est strictement ngatif,
donc X() = X (), do X () < t et donc X () > t.
Les quivalences (4.37) et (4.38) nous donnent les galits dvnements {X + > t} =
{X > t} et {X > t} = {X < t}, valables pour tout 16 t 0, do :
t 0,
P (X + > t) = P (X > t),
P (X > t) = P (X < t).
(4.39)
16. Elles ne seraient pas valables pour tout t rel, la positivit de t est utilise dans la vrification de
(4.37) et (4.38).
147
y
1
E(X + )
y=
)
F (t
E(X )
0
Fig. 4.9 Esprance dune v.a. relle EX := E(X + ) E(X )
En reportant ces galits dans la dfinition de EX, on justifie le passage (4.40) dans
le calcul suivant :
Z +
Z +
+
+
EX = E(X ) E(X ) =
P (X > t) dt
P (X > t) dt
0
Z0 +
Z +
=
P (X > t) dt
P (X < t) dt (4.40)
0
0
Z 0
Z +
P (X < s) ds
P (X > t) dt
=
(4.41)
0
Z +
Z 0

=
(4.42)
1 F (t) dt
F (t) dt.
Le passage de (4.40) (4.41) rsulte bien sr du changement de variable s = t et justifie

la premire galit dans (4.36). Le passage de (4.41) (4.42) rsulte de la remarque 4.15
et du remplacement de la variable muette s par t.
Proposition 4.32 (esprance dune v.a. relle densit). Soit X une variable alatoire
relle de densit f . Alors X est intgrable si et seulement si
Z +
|x|f (x) dx < +
(4.43)
et dans ce cas,
Z
EX =
xf (x) dx.
(4.44)
148

Preuve. Nous savons dj par (4.39) et la remarque 4.11 que
+
P (X > t) dt =
P (X > t) dt =
|x|f (x) dx, (4.45)
xf (x) dx =
sans aucune condition dintgrabilit sur X.R

+
Cherchons une formule analogue pour 0 P (X > t) dt. En utilisant (4.39), le
passage de (4.40) (4.41) et la remarque 4.15, on peut dmarrer avec :
+
P (X > t) dt =
P (X t) dt.
P (X < t) dt =
On procde alors comme dansR la preuve de la proposition 4.10 en injectant dans cette
t
formule lgalit P (X t) = f (x) dx et en justifiant linterversion des intgrations
par le thorme de Fubini-Tonelli.
Z
Z
P (X t) dt =
f (x) dx
Z 0
dt
Z 0
1],t] (x)f (x) dx dt

=
1[x,0] (t)f (x) dt dx

Z 0 Z 0
1[x,0] (t) dt f (x) dx.
=
Comme pour x 0,
Z
R0
1[x,0] (t) dt =
Z 0
Z 0
R0
x
dt = x, on obtient finalement :
P (X > t) dt =
|x|f (x) dx.
(x)f (x) dx =
(4.46)
En appliquant ladditivit de lesprance des v.a. positives lgalit |X| = X + + X et

en rassemblant (4.45) et (4.46), on voit que
+
|x|f (x) dx +
E|X| = E(X ) + E(X ) =
Z
|x|f (x) dx =
|x|f (x) dx,
ce qui tablit la condition ncssaire et suffisante dintgrabilit (4.43). Si cette condition

est ralise, E(X + ) et E(X ) sont finis et
+
EX = E(X ) E(X ) =
xf (x) dx
0
(x)f (x) dx =
xf (x) dx,
ce qui tablit (4.44).
149
Proposition 4.33 (esprance dune v.a. discrte). La variable alatoire discrte X est
intgrable si et seulement si
X
|x|P (X = x) < +
(4.47)
xX()
et dans ce cas,
X
EX =
xP (X = x),
(4.48)
xX()
cette somme dsignant une srie absolument convergente dans le cas o X() est infini 17 .
Preuve. X tant discrte, X() est au plus dnombrable. Notons B := X()]0, +[
et B 0 := X()] , 0[. Alors X + () est gal B si tous les x X() sont strictement
positifs ou B {0} si lun au moins dentre eux est ngatif ou nul 18 . Quoiquil en soit,
on a toujours en utilisant le corollaire 4.27 :
X
X
X
E(X + ) =
xP (X + = x) =
xP (X = x) =
xP (X = x),
(4.49)
xX + ()
xX + ()
xB
puisque pour x = 0 le terme ventuel xP (X = x) est nul. De mme, X () = {x; x

B 0 } =: B 0 si tous les x X() sont strictement ngatifs ou (B 0 ) {0} si lun au
moins dentre eux est positif ou nul. En appliquant le corollaire 4.27 la v.a. positive
discrte X , on a :
X
X
X
E(X ) =
yP (X = y) =
(x)P (X = x) =
|x|P (X = x).
(4.50)
xB 0
yX ()
xB 0
En rassemblant (4.49) et (4.50), on obtient (noter que B B 0 = ) :

X
X
X
X
|x|P (X = x) =
|x|P (X = x),
|x|P (X = x) =
xP (X = x)+
E|X| =
xB
xBB 0
xB 0
xX()
ce qui nous donne la CNS dintgrabilit (4.47). Si cette condition est ralise, E(X + )
et E(X ) sont finis et
X
X
EX = E(X + ) E(X ) =
xP (X = x)
(x)P (X = x)
xB
xB 0
xP (X = x)
xBB 0
xP (X = x),
xX()
ce qui tablit (4.48).

17. X() est alors forcment dnombrable puisque X est discrte.
18. Il en rsulte que X + () est au plus dnombrable et donc que la v.a. positive X + est discrte.
150

Proposition 4.34 (Linarit de lesprance).
a) Lesprance des v.a. relles intgrables est additive : si X et Y v.a. relles dfinies
sur le mme (, F, P ) sont intgrables, alors X + Y lest aussi et
E(X + Y ) = EX + EY.
(4.51)
b) Si X est intgrable, cX lest aussi pour toute constante relle c et

E(cX) = cEX.
(4.52)
Preuve du a). Posons Z := X +Y . Alors Z est mesurable et compte-tenu de la croissance

et de ladditivit de lintgrale pour les v.a. positives, lingalit |Z| |X| + |Y | nous
donne :
E|Z| E(|X| + |Y |) = E|X| + E|Y | < +.
Ainsi Z est intgrable et EZ bien dfinie.
Lgalit Z + Z = X + X + Y + Y , peut se rcrire comme galit entre
sommes de v.a. positives :
Z + + X + Y = Z + X + + Y +.
Par additivit de lesprance pour les v.a. positives, on en dduit
E(Z + ) + (EX ) + E(Y ) = E(Z ) + E(X + ) + E(Y + ).
La finitude de ces 6 esprances (due lintgrabilit de X, Y et Z) nous permet alors
dcrire :
E(Z + ) E(Z ) = E(X + ) E(X ) + E(Y + ) E(Y ),
ce qui donne bien E(X + Y ) = EX + EY .
Preuve du b). Lintgrabilit de cX rsulte de lintgrabilit de X et de la proposition 4.12 applique avec la constante positive |c|. En effet
E|cX| = E(|c||X|) = |c|E|X| < +.
Si c > 0, on voit que (cX)+ = cX + et (cX) = cX . En utilisant la proposition 4.12,
on en dduit :

E(cX) = E (cX)+ E (cX) = E(cX + ) E(cX ) = cE(X + ) cE(X ) = cEX.
Si c < 0, (cX)+ = (c)X et (cX) = (c)X + , do en utilisant la proposition 4.12
avec la constante positive (c) :

E(cX) = E (cX)+ E (cX) = E (c)X E (c)X +
= (c)E(X ) (c)E(X + ) = cEX.
Le cas c = 0 est vident directement.
151
Proposition 4.35 (esprance et ordre).
a) Lesprance des v.a. relles intgrables est croissante : si X et Y v.a. relles dfinies
sur le mme (, F, P ) sont intgrables et vrifient X Y , i.e. pour tout ,
X() Y (), alors EX EY .
b) Si X est intgrable, |X| lest aussi et

EX E|X|.
(4.53)
Preuve. Pour le a), il suffit de noter que si X Y , Y X est une v.a. positive et
donc E(Y X) 0. Comme X et Y sont intgrables, par linarit de lesprance,
E(Y X) = EY EX. Ainsi la positivit de Y X et la linarit de E impliquent
EY EX 0 cest--dire EY EX.
Une fois la croissance de E ainsi tablie, on en dduit le b) en partant de lencadrement |X| X |X| qui implique E(|X|) EX E|X|. Par linarit
E(|X|) = E|X|, ce qui permet de rcrire lencadrement ci-dessus sous la forme :
E|X| EX E|X|,
qui quivaut (4.53).
4.4
Moments
On tudie dans cette section les Eh(X), o h est une fonction relle. Pour que
lexpression Eh(X) ait un sens, il est ncessaire que Y := h(X) soit une variable alatoire
relle. Cette condition sera ralise si h : R R est borlienne, i.e. B 0 = h1 (B)
Bor(R) pour tout B Bor(R). En effet on a alors
Y 1 (B) = { ; h(X()) B} = { ; X() h1 (B)} = X 1 (B 0 ) F,
en raison de la mesurabilit F Bor(R) de la variable alatoire X. Comme le borlien
B ci-dessus est quelconque, ceci montre que Y est elle aussi mesurable F Bor(R),
i.e. que cest une variable alatoire sur (, F). Ainsi si h est borlienne, E|h(X)| existe
toujours comme lment de R+ et si E|h(X)| < +, Eh(X) existe (et Eh(X) R). On
pourra dsigner E|h(X)| et Eh(X) respectivement par lappellation h-moment absolu
de X et h-moment de X. Bien entendu si h est borlienne positive, h-moment absolu et
h-moment sont confondus et ce dernier existe toujours dans R+ . Nous utiliserons aussi
lappelation gnrique de moments fonctionnels pour dsigner les h-moments 19 .
Le cas le plus utile est celui o h est une fonction puissance, h(x) = xr , on parle
alors de moment dordre r de X.
Dfinition 4.36. Soit r un rel positif. On appelle moment absolu dordre r de la
variable alatoire relle X la quantit E(|X|r ) (lment de R+ ). Si r est entier et X r
19. Attention, ces appellations ne sont pas standard, nous les adoptons pour des raisons de confort
de rdaction.
152
4.4. Moments
intgrable (donc si le moment absolu dordre r de X est fini), on appelle moment dordre
r de X le rel E(X r ). On notera E|X|r pour E(|X|r ) et EX r pour E(X r ) en prenant
garde de ne pas confondre ces quantits avec (E|X|)r et (EX)r respectivement.
Proposition 4.37. Si la variable alatoire X a un moment absolu dordre r fini, elle a
aussi un moment absolu dordre p fini pour tout p [0, r].
Preuve. Si 0 p r, on a les ingalits suivantes entre variables alatoires positives :
|X|p 1{|X|1} + |X|r 1{|X|>1} 1 + |X|r .
Par croissance de lesprance des v.a. positives, on en dduit
E(|X|p ) E(1) + E(|X|r ) = 1 + E(|X|r ) < +.
Lexistence dun moment absolu dordre r fini donne un renseignement sur la vitesse
de convergence vers 0 de P (|X| t) quand t tend vers +. On a alors P (|X| t) =
O(tr ) par le corollaire suivant de lingalit de Markov.
Proposition 4.38 (ingalit de Markov avec moment). Pour toute variable alatoire
relle X, on a pour tout r > 0,
t > 0,
P (|X| t)
E|X|r
.
tr
(4.54)
Bien entendu, cette ingalit na dintrt que si E|X|r < + et pour t tel que
tr E|X|r < 1.
Preuve. En utilisant la croissance de lapplication R+ R+ , x 7 xr et lingalit de
Markov pour la v.a. positive |X|r , on obtient :
P (|X| t) P (|X|r tr )
E|X|r
.
tr
Proposition 4.39 (moments dune v.a. discrte). Si X est une variable alatoire discrte, on a pour tout rel r 0
X
E|X|r =
|x|r P (X = x).
(4.55)
xX()
Si r est entier et E|X|r < +, on a aussi

X
EX r =
xr P (X = x).
(4.56)
xX()
153
Cette proposition nest quune application de la formule de calcul de Eh(X) pour X
discrte qui est tablie dans toute sa gnralit la proposition 4.41 ci-dessous.
Proposition 4.40 (moments dune v.a. densit). Si X est une variable alatoire relle
densit f , on a pour tout rel r 0
Z +
r
|x|r f (x) dx.
(4.57)
E|X| =
Si r est entier et E|X|r < +, on a aussi

Z +
r
EX =
xr f (x) dx.
(4.58)
L aussi il sagit dun cas particulier dune formule gnrale pour Eh(X) lorsque X
est densit, donne ci-dessous. La dmonstration de cette formule gnrale tant assez
ardue, nous invitons le lecteur dmontrer directement en exercice la proposition 4.40.
La preuve est grandement facilite par la monotonie de h : x 7 |x|r sur chacun des
ensembles R et R+ .
Proposition 4.41 (calcul de Eh(X), X discrte). Soit X une variable alatoire discrte
et h : R R une application borlienne (i.e. mesurable Bor(R)Bor(R)). Alors
X
E|h(X)| =
|h(x)|P (X = x).
(4.59)
xX()
Si E|h(X)| < +, ce qui quivaut
Eh(X) =
xX()
|h(x)|P (X = x) < +, on a de plus
h(x)P (X = x).
(4.60)
xX()
Preuve. Posons Y = |h(X)|. Lensemble X() = {x0 , x1 , . . .} est au plus dnombrable.

Lapplication |h| ntant pas suppose injective, il peut y avoir des rptitions dans la
suite des |h(xk )|. Lensemble Y () qui peut scrire en effaant toutes les rptitions de
cette suite est lui-mme au plus dnombrable. La variable alatoire Y = |h(X)| tant
discrte positive, la formule tablie au corollaire 4.27 nous donne :
X
E|h(X)| = EY =
yP (Y = y).
(4.61)
yY ()
Pour chaque rel y de Y (), notons By lensemble de ses antcdents par |h| :
By = {x X(); |h(x)| = y},
y Y ().
Ce sous-ensemble de X() contient au moins un lment et est au plus dnombrable.

On peut alors dcomposer lvnement {Y = y} en runion disjointe (dune famille au
plus dnombrable) :
[
{Y = y} =
{X = x}.
xBy
154
4.4. Moments
Le terme gnral de la srie (4.61) peut donc scrire :
X
X
X
yP (Y = y) = y
P (X = x) =
yP (X = x) =
|h(x)|P (X = x).
xBy
xBy
xBy
Comme les By forment une partition de X(), on a en utilisant la proprit de sommation

par paquets des sries termes positifs :
X
X X
X
|h(x)|P (X = x) =
|h(x)|P (X = x) =
yP (Y = y),
yY () xBy
xX()
yY ()
ce qui, compte-tenu de (4.61), tablit la formule (4.59) pour E|h(X)|.

Supposons maintenant que E|h(X)| < +. Alors grce (4.59), on voit que la
famille de rels {h(x)P (X = x) ; x X()} est sommable. On peut alors reprendre
le calcul fait ci-dessus en remplaant partout |h| par h, car les sries concernes sont
absolument convergentes et on peut utiliser la proprit de sommation par paquets des
familles sommables. On aboutit ainsi la formule (4.60) pour Eh(X).
Proposition 4.42 (calcul de Eh(X), X densit). Soit X une variable alatoire de
densit f et h : R R une application rgle sur tout intervalle ferm born de R. Alors
Z +
E|h(X)| =
|h(x)|f (x) dx.
(4.62)
Si E|h(X)| < +, on a de plus

Z
h(x)f (x) dx.
Eh(X) =
(4.63)
Une application h est rgle sur [a, b] si elle est limite uniforme sur [a, b] dune suite de
fonctions en escaliers 20 . On dmontre en analyse que h est rgle sur [a, b] si et seulement
si elle admet en tout point de ]a, b[ une limite gauche et une limite droite (finies) ainsi
quune limite droite finie en a et gauche finie en b. La classe des fonctions rgles,
sans tre aussi grande que celle des fonctions borliennes, devrait donc suffire nos
besoins. Elle contient en particulier les fonctions continues et les fonctions monotones
par morceaux.
Schma de la preuve. On procde en 5 tapes.
1. On examine dabord le cas de h en escaliers etP
positive sur [a, b], nulle en dehors
de [a, b]. La fonction h peut alors scrire h = m
i=1 yi 1Ai , o les yi sont des rels
positifs et les Ai sont des intervalles formant une partition de [a, b]. Par linarit,
on
R +se ramne au cas encore plus simple o h = 1Ai , lequel est vident, puisque
1 (x)f (x) dx = P (X Ai ) = E1Ai (X).
Ai
20. On en dduit ici la mesurabilit de h en montrant quelle est limite simple sur R dune suite de
fonctions en escalier, donc borliennes. Ainsi h(X) est bien une variable alatoire car mesurable F
Bor(R) par composition.
155
2. On traite ensuite le cas o h est rgle et positive sur un intervalle fix [a, b], et
nulle en dehors de cet intervalle. Elle est donc limite uniforme sur [a, b] dune suite
(gk )k1 de fonctions en escaliers positives sur [a, b] et nulles en dehors de [a, b].
Comme les gk et h sont nulles en dehors de [a, b], cette convergence est uniforme
sur R et on en dduit (exercice) que Eh(X) = limk Egk (X). Notons au passage
que h est borne, donc que la variable alatoire positive h(X) a une esprance
finie. Dautre part la convergence uniforme sur [a, b] de gk vers h permet de lgiRb
Rb
timer linterversion limite intgrale a h(x)f (x) dx = a limk+ gk (x)f (x) dx =
Rb
limk+ a gk (x)f (x) dx = limk+ Egk (X) et on obtient ainsi (4.63) pour h rgle positive sur [a, b] et nulle en dehors 21 .
3. Pour h positive rgle sur tout [a, b] R, on pose hn := h1[n,n] et on note que
hn h. On tend alors le rsultat du cas 2 (valable pour chaque hn ) en utilisant le
thorme de Beppo Levi (Th. 4.23).
4. En appliquant ce qui prcde avec |h| au lieu de h, on obtient (4.62) pour h rgle
sur tout [a, b] R sans condition de positivit.
5. On obtient enfin (4.63) en crivant h = h+ h , en utilisant le cas 3 et en recollant
les morceaux, sans problme puisquici les intgrales gnralises et les esprances
concernes sont toutes finies.
Nous prsentons maintenant une formule injustement mconnue, permettant de calculer des moments fonctionnels partir de la fonction de survie. Son intrt est de
permettre un tel calcul pour des variables alatoires qui ne sont ni discrtes ni densit.
Proposition 4.43. Soient X une variable alatoire positive et g une application continue
strictement croissante R+ R, de classe C 1 sur R+ . Alors
Z
Eg(X) = g(0) +
P (X > s)g 0 (s) ds.
(4.64)
La preuve de cette formule utilise le lemme suivant, valide sous des hypothses plus
gnrales pour g.
Lemme 4.44. Soit g : [0, +[ R une application continue et strictement croissante
sur [0, +[. Notons ` la limite de g en +. Alors pour toute variable alatoire positive
X,

t [g(0), `[, P g(X) > t = P X > g 1 (t) ,
(4.65)
Preuve du lemme. En raison de sa croissance, g a une limite ` en +, qui est soit un
rel, soit +. En raison de sa continuit et de sa croissance stricte, g ralise une bection
de [0, +[ sur [g(0), `[ et la rciproque g 1 de cette bection est dfinie et strictement
21. Attention, linterversion limite intgrale ne sobtient pas directement par convergence uniforme
de gk f vers hf , car f nest pas forcment dfinie sur tout [a, b] ni borne.
156
4.4. Moments
croissante sur [g(0), `[. Pour prouver (4.65), nous allons tablir lgalit des vnements
A := {g(X) > t} et B := {X > g 1 (t)} en vrifiant linclusion dans les deux sens.
Pour tout A, g(X()) > t et, comme les deux membres de cette ingalit
appartiennent [g(0), `[ qui est lensemble de dfinition de lapplication strictement
croissante g 1 , on en dduit que g 1 g(X()) > g 1 (t), ce qui scrit aussi X() >
g 1 (t). Ainsi tout dans A appartient aussi B, autrement dit, A B.
En changeant les rles de g et g 1 , le mme argument montre que B A. Finalement
A = B et P (A) = P (B).
Preuve de la proposition 4.43. On ne perd pas de gnralit en supposant que g est
positive. En effet par croissance de g, g g(0) est positive et il est clair que si (4.64) est
vraie pour g g(0), elle est vraie pour g.
Pour tablir (4.64) avec g positive, on dfinit la variable alatoire positive Y = g(X)
R +
R + R g(0) R `
et on part de la dfinition EY = 0 P (Y > t) dt en dcoupant 0 = 0 + g(0) si
R +
R + R g(0) R `
si ` < +.
` = +, ou 0 = 0 + g(0) + `
Remarquons dabord que si ` < +, lapplication strictement croissante g ne peut
prendre que des valeurs strictement infrieures R ` et par consquent pour tout t `,
+
{g(X) > t} = , do P (Y > t) = P () = 0 et ` P (Y > t) dt = 0. Que ` soit fini ou
non, on a donc dans tous les cas :
Z `
Z g(0)
P (Y > t) dt.
P (Y > t) dt +
EY =
g(0)
Examinons maintenant la premire intgrale. Puisque g est croissante, on a pour tout

, Y () = g(X()) g(0) et donc pour tout t [0, g(0)[, 1 P (Y > t) P (Y
g(0)) = 1. La fonction t 7 P (Y > t) est donc constante gale 1 sur [0, g(0)[ et sa
R g(0)
valeur en g(0) est un rel 22 de [0, 1]. Lintgrale de Riemann 0 P (Y > t) dt vaut donc
R g(0)
1 dt = g(0). ce stade nous avons donc tabli la formule :
0
Z `
P (Y > t) dt.
Eg(X) = g(0) +
g(0)
En utilisant (4.65) on peut crire cette dernire intgrale sous la forme :

Z `
Z `

P (Y > t) dt =
P X > g 1 (t) dt.
g(0)
g(0)
On peut alors appliquer le changement de variable C 1 et croissant 23 (cf. prop. A.33)

t = g(s) ou s = g 1 (t) qui donne :
Z `
Z +
P (Y > t) dt =
P (X > s)g 0 (s) ds
g(0)
22. Cette valeur peut tre strictement infrieure 1 si P (X = 0) 6= 0. Mais en tout tat de cause, elle
R g(0)
na aucune influence sur la valeur de lintgrale de Riemann 0 P (Y > t) dt.
R g(b)
23. Pour le justifier proprement, on peut dabord faire le changement de variable sur g(0) , puis faire
tendre b vers +.
157
et achve la vrification de (4.64).
Le h-moment Eh(X) pour h : x 7 (x EX)2 occupe une place particulire dans la
thorie des probabilits.
Dfinition 4.45 (variance et cart type). Si X est de carr intgrable (i.e. EX 2 < +),
on appelle variance de X le rel positif not Var X dfini par
Var X := E(X EX)2 .
(4.66)
On appelle alors cart type de X le rel (X) := (Var X)1/2 .

Remarquons que si EX 2 est fini, E|X| lest aussi (proposition 4.37), donc EX est
bien dfini. De plus (X EX)2 = X 2 2(EX)X + (EX)2 apparat alors comme une
combinaison linaire de trois variables 24 intgrables, donc est aussi intgrable. Ainsi la
v.a. positive (X EX)2 est intgrable et E(X EX)2 est bien un rel positif, ce qui
justifie la dfinition 4.45. Notons aussi que si X reprsente une grandeur physique, X,
EX et (X) ont la mme unit, mais pas Var X.
Lorsquelle existe, la variance de X est une faon de mesurer la dispersion de la
loi de X autour de lesprance. Les raisons de limportance de la variance apparatront
ultrieurement dans ce cours (ingalit de Tchebycheff, thorme limite central). Lapplication des propositions 4.41 et 4.42 nous donne (sous rserve dintgrabilit de X 2 )
les formules respectives :
X
Var X =
(x EX)2 P (X = x) (cas X discrte),
(4.67)
xX()
Var X =
(x EX)2 f (x) dx (cas X densit f ).
(4.68)
Dans la pratique, ces formules sont rarement utilises, on leur prfre la formule suivante
qui simplifie les calculs.
Proposition 4.46 (formule de Koenig pour la variance). Si la variable alatoire X est
de carr intgrable,
Var X = EX 2 (EX)2 .
(4.69)
Preuve. Rappelons que nous notons EX 2 pour E(X 2 ) et que le second membre de la
formule ci-dessus nest donc gnralement pas nul. On pose c = EX.
Var X = E(X c)2 = E[X 2 2cX + c2 ]
= EX 2 2cEX + Ec2
= EX 2 2c2 + c2 = EX 2 c2 ,
en utilisant la linarit de lesprance et lesprance dune constante.
24. savoir X 2 , X et la v.a. constante (EX)2 .
158
4.4. Moments
Proposition 4.47 (translation et changement dchelle). Si X a un moment dordre 2,
a R, b R,
Var(aX + b) = a2 Var X,
(aX + b) = |a|(X).
(4.70)
Preuve. On a en utilisant la dfinition 4.45, la linarit de lesprance et le fait que

lesprance de la constante b est b :
Var(aX + b) = E[aX + b E(aX + b)]2 = E[aX + b aEX b]2
= E[a(X EX)]2 = E[a2 (X EX)2 ]
= a2 E[(X EX)2 ] = a2 Var X.
Il est clair daprs la dfinition de la variance que la variance dune constante est
nulle. La rciproque est presque vraie :
Proposition 4.48 (nullit de la variance et constance p.s.).
Var X = 0 X = EX p.s. X est presque srement constante.
(4.71)
Preuve. Les implications de droite gauche dans (4.71) sont dj acquises. On sait en
effet que lesprance dune constante est cette constante et que si la v.a. Y := (X EX)2
vaut 0 avec probabilit 1, son esprance est nulle 25 .
Pour la premire implication de gauche droite, il suffit dappliquer le corollaire 4.18
la v.a. positive Y . La deuxime implication est triviale.
25. En effet, pour tout t 0, P (Y > t) = 0, donc Y tant positive, EY =
R +
0
P (Y > t) dt = 0.
159
160
Chapitre 5
Vecteurs alatoires et indpendance
Linformation pertinente rsultant dune exprience alatoire ne se rsume pas toujours la valeur prise par une seule variable alatoire relle. On a souvent besoin de
connatre les valeurs dune suite finie de variables alatoires. Par exemple au jeu de 421,
on lance trois ds et on a besoin de connatre les points affichs par chacun des ds, le
rsultat sera donc dcrit par un vecteur (X1 (), X2 (), X3 ()). Si on tire sur une cible,
le rsultat sera dcrit par les coordonnes (X(), Y ()) du point dimpact. Si on tudie
le fonctionnement dun guichet en observant les n premiers clients, le rsultat sera dcrit
par la suite des X1 , Y1 , Z1 , X2 , Y2 , Z2 , . . . Xn , Yn o Xi est le temps dattente au guichet
du ie client, Yi son temps de service et Zi le temps scoulant entre le dpart du ie client
et larrive du (i + 1)e . Ces suites finies de variables alatoires sont appeles des vecteurs
alatoires. De mme quune variable alatoire peut tre vue comme un procd de choix
dun nombre rel au hasard, un vecteur alatoire de dimension d, X = (X1 , . . . , Xd ) est
un procd de choix au hasard dun point de Rd . Ses composantes X1 , . . . , Xd sont alors
autant de variables alatoires relles. Arriv l, ltudiant inquiet du nombre de pages
de ce document quil lui reste lire avant lexamen se demande lgitimement sil y a un
intrt consacrer tout un chapitre aux vecteurs alatoires puisque ces objets ne sont
que des suites finies de variables alatoires et que ces dernires sont maintenant bien
connues 1 . Lintrt de cette tude repose sur la remarque informelle suivante laquelle
nous donnerons bientt un sens mathmatique prcis : la connaissance probabiliste globale du vecteur X = (X1 , . . . , Xd ) apporte davantage dinformation que la connaissance
probabiliste individuelle de chacune de ses composantes Xi . Au premier abord, cette ide
peut paratre choquante car une lecture rapide de la phrase prcdente laisse croire que
la connaissance de X() apporte quelque chose de plus que celle de tous les Xi (),
i = 1, . . . , d, ce qui nest videmment pas vrai. La cl de lnigme est dans lexpression
connaissance probabiliste que nous remplacerons bientt par connaissance de la loi,
ds que nous aurons dfini la loi dun vecteur alatoire. En attendant voici une image
qui peut nous aider comprendre ce dont il sagit. Considrons un ensemble de 10 coureurs de fond, chacun muni dun dossard numrot de 1 10. Si on les rassemble sur
une mme piste pour une preuve de 5 000 mtres, on peut reprsenter le rsultat de la
1. Phrase crite aprs une priode de deux mois sans lecture dun paquet de copies. . .
161
Chapitre 5. Vecteurs alatoires et indpendance

course par le vecteur (X1 , . . . , X10 ), o Xi dsigne le temps mis par le coureur numrot
i pour parcourir les 5 000 mtres. Tout amateur dathltisme sait bien que cette exprience nest pas quivalente faire courir isolment un 5 000 mtres chacun des 10
coureurs sur des stades spars. La diffrence ici vient de la comptition, de la tactique
de course, etc. Par contre dans dautres situations, le comportement global du vecteur
des d composantes se rduit au comportement individuel de chacune delles. On admet
gnralement que cest le cas lorsquon lance trois ds en considrant quil revient au
mme de les lancer ensemble sur la mme table ou sparment sur trois tables. On parle
alors dindpendance des composantes. Cette notion dindpendance des composantes
Xi du vecteur alatoire X est relie celle dune suite dvnements Ai , o la ralisation
ou non de Ai ne dpend que des valeurs de Xi . Ltude des suites finies de variables
alatoires indpendantes prend donc place naturellement dans ce chapitre comme le cas
particulier des vecteurs alatoires composantes indpendantes.
Sauf mention explicite du contraire, toutes les variables alatoires et tous les vecteurs alatoires considrs dans ce chapitre seront dfinis sur le mme espace probabilis
(, F, P ).
5.1
5.1.1
Vecteurs alatoires
Gnralits
Dfinition 5.1 (vecteur alatoire de Rd ). On dit que lapplication X : Rd est un

vecteur alatoire sur (, F) si cest une application mesurable F Bor(Rd ).
Proposition 5.2. Soit X un vecteur alatoire sur (, F) et P une probabilit sur (, F).
La fonction densembles PX = P X 1 dfinie sur Bor(Rd ) par
B Bor(Rd ),

PX (B) := P X 1 (B) = P (X B)
(5.1)

est une probabilit sur Rd , Bor(Rd ) .
La preuve est exactement la mme que celle de la proposition 3.7, en remplaant les
borliens de R par ceux de Rd . Comme pour les variables alatoires, cette proposition
lgitime la dfinition de la loi de X sous P .
Dfinition 5.3 (loi dun vecteur alatoire). Soient (, F, P ) un espace probabilis et
X : Rd un vecteur alatoire sur (, F). On appelle
loi de X sous P , ou plus

simplement loi de X, la probabilit PX sur Rd , Bor(Rd ) dfinie par (5.1).
Proposition 5.4 (lois marginales). Si X = (X1 , . . . , Xd ) est un vecteur alatoire sur
(, F), chacune de ses composantes Xi (1 i d) est une variable alatoire relle sur
(, F). La loi de Xi est appele ie loi marginale de X et est donne par :
Bi Bor(R),
162
PXi (Bi ) = P (Xi Bi ) = P (X Ri1 Bi Rdi ).
(5.2)
5.1. Vecteurs alatoires

Preuve. La mesurabilit F Bor(R) de Xi sobtient par composition partir de la
mesurabilit F Bor(Rd ) de X. En effet Xi = i X, o i : (x1 , . . . , xd ) 7 xi est la ie
projection canonique de Rd sur R ; comme i est continue, elle est borlienne, cest--dire
ici mesurable Bor(Rd ) Bor(R). Donc Xi est bien une variable alatoire. Pour vrifier
(5.2), il suffit de remarquer que lquivalence
Xi Bi X Ri1 Bi Rdi
entrane lgalit des vnements correspondants et de leur probabilit.
Exemple 5.5. Soit X = (X1 , X2 ) un vecteur alatoire de loi uniforme sur [0, 1]2 . Alors
les lois marginales PX1 et PX2 sont gales la loi uniforme sur [0, 1]. Exercice !
Remarque 5.6 (dimportance capitale). Une consquence de la proposition 5.4 est que
la connaissance de la loi du vecteur alatoire X dtermine compltement celle de ses
lois marginales. La rciproque est fausse. On peut mme affirmer sans hsiter quil est
impossible de comprendre la notion de vecteur alatoire tant que lon na pas assimil ce
fait. La comparaison de lexemple 5.7 ci-dessous avec lexemple 5.5 permet de voir que
la connaissance des lois marginales dun vecteur ne dtermine pas la loi du vecteur.
Exemple 5.7. Prenons une variable alatoire relle Y1 de loi uniforme sur [0, 1] et
posons Y2 := Y1 et Y := (Y1 , Y2 ). Le vecteur alatoire Y a par construction les mmes
lois marginales que le vecteur X de lexemple 5.5. Notons := {(s, t) [0, 1]2 ; s = t}
la premire diagonale du carr unit. Il est clair par construction que P (Y ) = 1.
1
X2 ()
1
X()
Y2 ()
0
X1 ()
Y ()
Y1 ()
Fig. 5.1 Ensembles de probabilit 1 pour les lois PX et PY

Dun autre ct, P (X ) = 0, car le segment est de 2 mesure nulle. Ceci empche
que X et Y aient mme loi. La figure 5.2 propose une illustration en affichant le rsultat
de la simulation du choix au hasard de 50 points suivant la loi PX puis suivant la
loi PY . La justification mathmatique des mthodes de simulation sera tudie dans le
cours dInitiation la Statistique 2 .
2. Ici on a utilis le gnrateur de nombres alatoires du logiciel METAPOST avec lequel la plupart des
figures de ce document sont ralises. Comme le code correspondant est inclus dans le source LATEX 2
de ce document, le choix des points alatoires varie chaque compilation. Ceci explique que la figure
que vous voyez sur le document papier entre vos mains nest pas forcment la mme que sur le Web.
163
Fig. 5.2 50 points choisis au hasard suivant la loi PX , puis suivant la loi PY
Dfinition 5.8 (vecteur alatoire discret). Le vecteur alatoire X de Rd est dit discret
si X() est une partie au plus dnombrable de Rd .
Il est clair que la loi de X scrit alors
X
PX =
P (X = x)x .
xX()
Les variables alatoires marginales Xi de X = (X1 , . . . , Xd ) sont alors des variables

alatoires discrtes. En effet, soit i , la restriction X() de la projection canonique
sur la i-ime composante de Rd . Cette application ralise une surjection de X() sur
Xi (). Par la proposition 1.41, on en dduit que Xi () est au plus dnombrable.
Exemple 5.9 (lois multinomiales). Le vecteur alatoire N suit la loi multinomiale de
paramtres n et (p1 , . . . , pd ) o n N et les pi sont strictement positifs et de somme 1
si pour tout d-uple (j1 , j2 , . . . , jd ) dentiers tels que j1 + j2 + + jd = n,

P N = (j1 , j2 , . . . , jd ) =
n!
pj1 pj2 . . . pjdd .
j 1 ! j 2 ! . . . jd ! 1 2
Ici lensemble N () = {(j1 , j2 , . . . , jd ) Nd ; j1 + j2 + + jd = n} est fini et on vrifie

grce la formule du multinme, cf. prop. 1.23, que
X
xN ()
P (N = x) =
X
j1 ++jd
n!
pj11 pj22 . . . pjdd = p1 + + pd )n = 1n = 1.
j ! j ! . . . jd !
=n 1 2
La loi multinomiale est celle du vecteur des rsultats dune suite dpreuves rptes
indpendantes ayant chacune d issues possibles de probabilits respectives p1 , . . . , pd . On
pourra justifier cette affirmation en exercice. Par exemple considrons 20 tirages dune
boule avec remise dans une urne contenant 1 boule bleue, 3 jaunes, 4 rouges et 2 vertes.
Notons N = (N1 , N2 , N3 , N4 ) o Ni est le nombre de boules de la couleur i en numrotant
1 3 4 2
, 10 10 , 10 ). La
les couleurs par ordre alphabtique (b,j,r,v). On a (p1 , p2 , p3 , p4 ) = ( 10
probabilit dobtenir en 20 tirages 3 bleues, 5 jaunes, 10 rouges et 2 vertes est

20! 1 3 3 5 4 10 2 2
P N = (3, 5, 10, 2) =
' 0,004 745.
3! 5! 10! 2! 10
10
10
10
164

Certaines lois de vecteurs alatoires ont une densit par rapport la mesure
de Lebesgue de Rd . Nous donnons ci-dessous une dfinition volontairement restrictive
des densits sur Rd , restant dans le cadre de lintgration au sens de Riemann. Mme
dans ce cadre, cette dfinition nest ni la seule possible ni la plus gnrale. Elle devrait
nanmoins suffire pour les exemples courants.
Dfinition 5.10 (densit de probabilit sur Rd ). On appelle densit de probabilit sur
Rd toute fonction f vrifiant
a) f est dfinie et positive sur Rd \ H, o H est une runion finie (ventuellement
vide) dhyperplans de Rd ;
b) f est localement Riemann intgrable 3 sur Rd \ H ;
c) lintgrale gnralise de f sur Rd converge 4 et
Z
Z
f (t) dt =
f (t1 , . . . , td ) dt1 . . . dtd = 1.
Rd
Rd
Dfinition 5.11 (vecteur alatoire densit). Soit f une densit de probabilit sur Rd .
On dit que le vecteur alatoire X de Rd a pour densit f si pour tout pav ferm born
C = [a1 , b1 ] [ad , bd ],
Z
P (X C) =
f (t1 , . . . , td ) dt1 . . . dtd .
C
Comme la classe des pavs ferms borns engendre la tribu borlienne de Rd , on peut
montrer que si deux vecteurs alatoires X et Y ont mme densit f , ils ont mme loi.
Par ailleurs, si un vecteur alatoire X admet une densit f , celle-ci nest pas unique (si
on la modifie en un point, on ne changera pas la valeur des ses intgrales sur les pavs
ferms borns).
Voici un premier exemple de vecteur alatoire densit. Dautres seront vus ultrieurement.
Exemple 5.12 (densit de la loi uniforme sur un borlien de Rd ). Soit B un borlien
de Rd tel que 0 < d (B) < +. Si le vecteur alatoire X de Rd suit la loi uniforme sur
B, cf. exemple 2.26, il admet pour densit la fonction
f=
1
1B .
d (B)
3. Cela signifie quil existe une suite croissante pour linclusion (Kn ) de compacts inclus dans Rd \H,
que cette suite puise Rd \ H et que f est Riemann intgrable sur chaque Kn . On dit que Kn puise
Rd \ H si pour tout compact K Rd \ H, il existe n0 tel que K Kn0 . R
4. Cela signifie que pour toute suite (Kn ) puisant Rd \ H, la suite Kn f (t) dt a une limite dans
R
R. On montre qualors cette limite ne dpend pas du choix de la suite (Kn ) et on la note Rd f (t) dt.
On montre aussi quune CNS pour Rla convergence de lintgrale gnralise de f est que pour une suite
(Kn ) particulire, la suite de rels Kn |f (t)| dt soit borne.
165

En effet, pour tout pav ferm born C = [a1 , b1 ] [ad , bd ], on a
Z
d (B C)
1
P (X C) =
=
1BC (t1 , . . . , td ) dt1 . . . dtd
d (B)
d (B) Rd
Z
1
=
1B (t1 , . . . , td )1C (t1 , . . . , td ) dt1 . . . dtd
d (B) Rd
Z
1
=
1B (t1 , . . . , td ) dt1 . . . dtd
d (B) C
Z
=
f (t1 , . . . , td ) dt1 . . . dtd .
C
R
Le
R calcul ci-dessus utilise le fait que 1BC = 1B 1C et la relation d (A) = A dt1 . . . dtd =
1 (t , . . . , td ) dt1 . . . dtd pour tout borlien A. Nous touchons ici aux limitations de ce
Rd A 1
cours sur la thorie de lintgrale. En toute rigueur nous ne devrions crire cette relation
que si 1A vrifie les conditions a) et b) de la dfinition 5.10. En pratique nous nutiliserons
la loi uniforme que sur des borliens assez simples pour lesquels ces conditions seront
remplies.
Comme dans le cas d = 1, on dispose dune condition suffisante pratique pour vrifier
que deux vecteurs alatoires densit nont pas mme loi.
Lemme 5.13. Soient X et Y deux vecteurss alatoires de Rd admettant respectivement
pour densit les fonctions f et g. On suppose quil existe t0 Rd tel que f (t0 ) 6= g(t0 )
et que de plus, f et g sont toutes deux continues au point t0 . Alors X et Y nont pas
mme loi.
La preuve est essentiellement la mme que celle du lemme 3.24, en remplaant les
intervalles ouverts par des pavs ouverts et sera donc omise.
Proposition 5.14 (densits marginales). Si le vecteur alatoire X de Rd est densit
f , ses lois marginales sont aussi densit et pour i = 1, . . . , d, une densit de Xi est
donne par
Z
xi 7 fXi (xi ) =
f (t1 , . . . , ti1 , xi , ti+1 , . . . , td ) dt1 . . . dti1 dti+1 . . . dtd .
Ri1 Rdi
Preuve. On calcule P (Xi [ai , bi ]) en utilisant (5.2) :

Z
P (Xi [ai , bi ]) =
f (t1 , . . . , td ) dt1 . . . dtd
Ri1 [ai ,bi ]Rdi
Z

Z
=
f (t1 , . . . , td ) dt1 . . . dti1 dti+1 . . . dtd dti ,
[ai ,bi ]
Ri1 Rdi
par le thorme de Fubini-Tonnelli. Comme ai et bi sont quelconques, on en dduit que

la fonction entre accolades ci-dessus est une densit de Xi . En toute rigueur, il y a ici un
problme car le thorme de Fubini-Tonnelli nous dit que cette fonction est dfinie sauf
peut-tre sur un ensemble de mesure de Lebesgue nulle (o elle prend la valeur +).
En pratique nous ne rencontrerons pas de difficult ce sujet.
166

Exemple 5.15 (loi uniforme sur un disque). Soit D le disque unit de R2 et X =
(X1 , X2 ) un vecteur alatoire suivant la loi uniforme sur D. Daprs lexemple 5.12, nous
savons quil admet pour densit f = 1 1D . Calculons la densit marginale fX1 fournie
par la proposition 5.14.
Z
Z
1
1 +
fX1 (x1 ) =
1D (x1 , t2 ) dt2 =
1D (x1 , t2 ) dt2 .
(5.3)

R
Notons ici que lappartenance D du point (t1 , t2 ) de R2 est caractrise par lingalit
t21 + t22 1. On a donc
(
(
1 si x21 + t22 1
1 si x21 1 et t22 1 x21
1D (x1 , t2 ) =
=
0 sinon
0 sinon
Do
(
p
1 si |x1 | 1 et |t2 | 1 x21 ,
1D (x1 , t2 ) =
0 sinon,
ce qui peut aussi scrire

1D (x1 , t2 ) = 1[1,1] (x1 )1
(1x21 )1/2 ,(1x21 )1/2
(t2 ).
Gomtriquement, ce petit calcul revient chercher lintersection du disque D avec la

droite verticale t1 = x1 , o x1 joue le rle dune constante, et projeter cette intersection
sur le deuxime axe, cf figure 5.3. En reportant cette expression de 1D (x1 , t2 ) dans (5.14),
on obtient
Z
1 +
(t2 ) dt2
1[1,1] (x1 )1
fX1 (x1 ) =
(1x21 )1/2 ,(1x21 )1/2

Z +
1
(t2 ) dt2
1[1,1] (x1 )
1
=
(1x21 )1/2 ,(1x21 )1/2
Z (1x21 )1/2
1
=
1[1,1] (x1 )
dt2 .
(1x21 )1/2
Cette dernire intgrale nest rien dautre que la longueur du segment dfini par ses
bornes (rappelons que x1 est considr comme une constante dans tout ce calcul). On
aboutit ainsi
2
fX1 (x1 ) = (1 x21 )1/2 1[1,1] (x1 ).
Par raison de symtrie il est clair que X1 et X2 ont mme loi et donc mme densit, do
2
(1 x22 )1/2 1[1,1] (x2 ).
La construction du graphe de fX1 estptrs simple : on lobtient en appliquant au demi

cercle unit suprieur dquation y = 1 x21 la transformation (x1 , y) 7 (x1 , 2 y). On
obtient ainsi une moiti dellipse. Un coup doeil sur ce graphe devrait vous convaincre
que la loi de X1 , bien quayant toute sa masse porte par le segment [1, 1], nest pas la
loi uniforme sur [1, 1].
fX2 (x2 ) =
167

y
t2
1
x1
t1
y=
fX (
1 x
1)
x1
1
Fig. 5.3 Densit marginale fX1 de la loi uniforme sur le disque unit D
On peut dfinir la fonction de rpartition F dun vecteur alatoire par
x = (x1 , . . . , xd ),

F (x) = P X ] , x1 ] ] , xd ] .
Comme en dimension 1, la f.d.r. caractrise la loi. Ceci est li au fait que la tribu
Bor(Rd ) est engendre par la classe des ensembles de la forme ], x1 ] ], xd ].
Nanmoins le rle des f.d.r. en dimension d > 1 est bien moindre quen dimension 1. On
prfre caractriser la loi dun vecteur alatoire par une collection de h-moments Eh(X)
(h : Rd R) au sens suivant.
Proposition 5.16 (caractrisation par les moments fonctionnels). La loi dun vecteur
alatoire X de Rd est caractrise par la famille de moments fonctionnels {Eh(X); h
H}, o H est une classe suffisamment riche de fonctions borliennes Rd R.
Autrement dit, les deux vecteurs alatoires X et Y ont mme loi si et seulement si
Eh(X) = Eh(Y ) pour toute h H. Comme famille H suffisamment riche , on peut
prendre :
lensemble des fonctions borliennes positives Rd R+ ,
lespace C b (Rd ) des fonctions continues bornes Rd R,
lespace C c (Rd ) des fonctions continues support compact Rd R.
Preuve. Lespace C c (Rd ) tant inclus dans C b (Rd ), lui mme inclus dans lensemble des
fonctions borliennes positives Rd R+ , il suffit de faire la preuve pour H = C c (Rd ). La
partie vidente est que lgalit des lois des vecteurs alatoires X et Y implique lgalit
des lois des variables alatoires relles bornes h(X) et h(Y ) et donc lgalit de leur
esprance. Pour montrer la rciproque, on suppose dsormais que
h C c (Rd ),
Eh(X) = Eh(Y ).
(5.4)
Comme la loi dun vecteur alatoire Z de Rd est caractrise par les P (Z C), o C
dcrit la famille des pavs ouverts de Rd , il nous suffit de prouver que P (X C) =
P (Y C) pour tout pav ouvert C.
168

Soit donc
C :=
d
Y
]aj , bj [,
j=1
un pav ouvert non vide de Rd (on a donc aj < bj pour tout j). Dfinissons pour tout
n n0 , tel que 2/n0 < min1jd (bj aj ), la fonction continue support compact hn
par
hn (x) = hn (x1 , . . . , xd ) := hn,1 (x1 ) . . . hn,d (xd ),
o hn,j est lunique fonction continue R [0, 1], valant 1 sur [aj + 1/n, bj 1/n], 0
hors de ]aj , bj [ et affine sur chacun des intervalles [aj , aj + 1/n] et [bj 1/n, bj ], voir la
figure 5.4.
y6
1
C
C

C
C

C
C

C
CC
aj aj +
1
n
bj
1
n
bj
xj
Fig. 5.4 Fonction hn,j
La fonction hn est continue, support compact (son support est exactement le pav ferm
C). On remarque que pour tout j = 1, . . . , d, la suite de fonctions positives (hn,j )nn0
est croissante et converge en tout point de R vers lindicatrice 1]aj ,bj [ . On en dduit
immdiatement que pour tout x Rd , la suite de rels positifs (hn (x))nn0 converge
en croissant vers 1C (x). Par consquent (hn (X))nn0 et (hn (Y ))nn0 sont deux suites
croissantes de variables alatoires positives qui convergent (sur tout ) respectivement
vers 1C (X) et 1C (Y ). Comme par lhypothse (5.4), Ehn (X) = Ehn (Y ) pour tout
n n0 , on en dduit en faisant tendre n vers + et en appliquant le thorme de
Beppo Levi que E1C (X) = E1C (Y ), ce qui scrit aussi P (X C) = P (Y C).
Il importe de savoir calculer les Eh(X) quand on connat la loi de X. Les formules
sont analogues celles dj donnes en dimension 1.
169

Proposition 5.17 (calcul de Eh(X)).
a) Si le vecteur alatoire X est discret et si h est une fonction borlienne Rd R,
X
E|h(X)| =
|h(x)|P (X = x).
xX()
Si de plus E|h(X)| < +,

Eh(X) =
h(x)P (X = x).
xX()
b) Si X est densit f et h : Rd R est continue borne sur Rd ,

Z
Z
h(x)f (x) dx =
h(x1 , . . . , xd )f (x1 , . . . , xd ) dx1 . . . dxd .
Eh(X) =
Rd
Rd
d
Cette formule
R se gnralise au cas o h est continue non borne sur R , sous
rserve que Rd |h(x)|f (x) dx < +.
Nous donnons maintenant une formule de calcul de densit du vecteur alatoire g(X)
o X est un vecteur alatoire densit.
Proposition 5.18 (densit dun vecteur alatoire image). Soit X = (X1 , . . . , Xd ) un
vecteur alatoire de Rd ayant une densit fX . On suppose de plus que D est un ouvert
de Rd tel que P (X D) = 1 et que g : D Rd est C 1 , injective avec un dterminant
jacobien Jac(g) qui ne sannule en aucun point de D. Alors g ralise une bection C 1
dinverse C 1 (autrement dit un C 1 -diffomorphisme) entre D et son image D0 := g(D).
Le vecteur alatoire Y := g(X) admet pour densit

fY (y) = fX g 1 (y) | Jac(g 1 )(y)|1D0 (y).
Nous ne dmontrerons pas cette proposition. Laffirmation que g est un C 1 -diffomorphisme dcoule dun thorme danalyse (thorme dinversion globale). Rappelons
que le jacobien de g est donn par

h g i
i
,
Jac(g) = det
xj i,j=1,...,d
o les gi sont les
applications coordonnes de g = (g1 , . e. . , gd ), i.e. gi (x1 , . . . d, xd ) =
i g(x1 , . . . , xd ) , i tant la projection canonique sur la i coordonne dans R . Pour
calculer Jac(g 1 )(y), on peut soit utiliser la formule ci-dessus en remplaant g par g 1
et les xj par les yj , soit utiliser la relation
Jac(g 1 )(y) =
1
.
Jac(g)(g 1 (y))
Un cas particulier facile et important est celui o g est une application linaire
bective de Rd sur Rd . Dans ce cas, soit A = [ai,j ] la matrice d d de g relativement
170

la base canonique de Rd . Cette matrice est inversible,
P son dterminant est donc non nul.
La ie composante de g(x) est ici gi (x1 , . . . , xd ) = dj=1 ai,j xj , do
i, j = 1, . . . , d,
gi
= ai,j .
xj
On en dduit que le jacobien de g comme celui de g 1 sont constants et valent

Jac(g) = det A = det(g),
Jac(g 1 ) =
1
1
=
.
det A
det g
Nous obtenons ainsi le corollaire suivant de la proposition 5.18, avec ici D = Rd et

D0 = g(D) = Rd .
Corollaire 5.19 (changement de variable linaire). Soit X = (X1 , . . . , Xd ) un vecteur
alatoire de Rd ayant une densit fX et g : Rd Rd une application linaire bective.
Alors le vecteur alatoire Y := g(X) admet pour densit
fY (y) =
5.1.2

1
fX g 1 (y) .
| det g|
Covariance
Proposition 5.20 (ingalit de Cauchy-Schwarz). Si les variables alatoires relles X

et Y ont des moments dordre 2, alors la variable alatoire XY est intgrable et
|E(XY )| (EX 2 )1/2 (EY 2 )1/2 .
(5.5)
Preuve. Lintgrabilit de la v.a. XY rsulte de lingalit lmentaire |XY | X 2 + Y 2 .

On remarque alors que la fonction trinmiale suivante de la variable relle t,
g : t 7 t2 EY 2 + 2tE(XY ) + EX 2 = E(X + tY )2 ,
est dfinie sur R et positive sur R. Ceci nest possible que si son discriminant est ngatif,
ce qui scrit
2
0 = E(XY ) (EX 2 )(EY 2 ) 0,
do lingalit (5.5).
Dfinition 5.21 (covariance). Si les variables alatoires relles X et Y ont des moments
dordre 2, on appelle covariance du couple alatoire (X, Y ) la quantit :

Cov(X, Y ) = E (X EX)(Y EY ) .
Remarquons que Cov(X, X) = Var X.
Proposition 5.22 (proprits de la covariance). Les proprits suivantes sont vrifies
pour tout couple (X, Y ) de v.a. relles ayant des moments dordre 2.
171

(i) Cov(X, Y ) = Cov(Y, X).
(ii) Pour tous rels a, b, c, d : Cov(aX + b, cY + d) = ac Cov(X, Y ).
(iii) | Cov(X, Y )| (X)(Y ).
La vrification est laisse au lecteur.
Dfinition 5.23 (coefficient de corrlation). Si X et Y sont des variables alatoires
relles non constantes ayant des moments dordre 2, on appelle coefficient de corrlation
entre X et Y la quantit :
Cov(X, Y )
.
(X, Y ) =
(X)(Y )
Daprs (iii) on a toujours 1 (X, Y ) 1. Dautre part il rsulte facilement du
cas dgalit dans lingalit de Cauchy-Schwarz que || est maximal lorsque Y est une
fonction affine de X : Y = aX + b. Quand = 0 (ce qui arrive en particulier lorsque X
et Y sont indpendantes), on dit que X et Y sont non corrles.
Proposition 5.24 (formule de Koenig pour la covariance). Si la covariance de X et Y
existe, elle peut se calculer par :
Cov(X, Y ) = E(XY ) EXEY.
Preuve. La vrification est analogue celle de la formule de Koenig pour la variance
(qui nest que le cas particulier Y = X) et est laisse en exercice.
Remarque 5.25 (calcul explicite de la covariance). Les formules de calcul des hmoments appliques au vecteur alatoire (X, Y ) (prop. 5.17) et aux variables alatoires
relles X et Y (prop. 4.41 et 4.42) nous donnent pour la covariance (lorsquelle existe)
les formules explicites suivantes.
Si (X, Y ) est discret,
X
X
X
Cov(X, Y ) =
xyP (X = x, Y = y)
xP (X = x)
yP (Y = y). (5.6)
xX()
yY ()
xX()
yY ()
Si (X, Y ) est densit f , en notant fX et fY les densits marginales,

Z
Z +
Z +
Cov(X, Y ) =
xyf (x, y) dx dy
xfX (x) dx
yfY (y) dy.
R2
(5.7)
Proposition 5.26 (variance dune somme). Si X1 , . . . , Xn sont des variables alatoires

relles ayant des moments dordre 2,
X

n
n
X
Var
Xi
=
Cov(Xi , Xj )
(5.8)
i=1
i,j=1
n
X
Var Xi +
i=1
172
n
X
Cov(Xi , Xj ).
(5.9)
i,j=1
i6=j
5.2. Indpendance de variables et vecteurs alatoires

Dans le cas n = 2 (5.9) scrit :
Var(X + Y ) = Var X + Var Y + 2 Cov(X, Y ).
(5.10)
Preuve. Pour n 2 quelconque, lidentit algbrique :

X
2 X
n
n
Yi =
Y i Yj ,
i=1
i,j=1
utilise avec Yi = Xi EXi et la linarit de lesprance nous donnent :

X

X
X
2
n
n
n
Var
Xi
= E
Xi E
Xi
i=1
i=1
= E
X
n
i=1
Xi
i=1
= E
X
n
n
X
2
EXi
i=1
2
Yi
i=1
n
X
i,j=1
5.2
5.2.1
E(Yi Yj ) =
n
X
Cov(Xi , Xj ).
i,j=1
Indpendance de variables et vecteurs alatoires

Suites indpendantes
Dfinition 5.27 (indpendance de n variables alatoires). Les variables alatoires relles

X1 , . . . , Xn dfinies sur le mme (, F, P ) sont dites indpendantes si :

B1 , . . . , Bn Bor(R), P X1 B1 , . . . , Xn Bn = P (X1 B1 ) . . . P (Xn Bn ).
(5.11)
Remarques 5.28.
1. La condition (5.11) quivaut lindpendance mutuelle des vnements {X1
B1 }, . . . , {Xn Bn } pour tout choix des borliens Bi . En effet la libert de choisir Bi = R permet deffacer pour ce choix le rle de Xi et ainsi dobtenir
partir de (5.11) une galit de mme type pour lintersection de toute sousfamille finie des vnements considrs. La rdaction dtaille de la justification
de cette quivalence est laisse en exercice. Le mme argument montre que lindpendance de X1 , . . . , Xn entrane celle des Xi1 , . . . , Xik pour tout choix dindices
1 i1 < i2 < < ik n.
2. Lindpendance des Xi , 1 i n est une proprit plus forte que leur indpendance deux deux.
173

3. Pour vrifier lindpendance de X1 , . . . , Xn , il suffit de tester lgalit dans (5.11)
pour des Bi quelconques pris dans lune des sous-familles suivantes de Bor(R) :
les intervalles ] , bi ] ;
les intervalles ]ai , bi ] ;
les intervalles ]ai , bi [ ;
les intervalles [ai , bi ] ;
les intervalles ]bi , +[.
Cette rduction repose essentiellement sur le fait que chacune de ces familles dintervalles engendre Bor(R) et est stable par intersections finies (en autorisant bi < ai
pour avoir lensemble vide dans chaque famille). Nous nous contenterons de cette
justification pour ne pas trop sortir du cadre de ce cours.
4. Clairement lindpendance nest pas affecte par une permutation sur les indices
i des variables alatoires. On peut donc parler dindpendance dune famille finie
de variables alatoires sans se proccuper de lordre dindexation.
La dfinition de lindpendance se gnralise comme suit une famille finie de vecteurs 5 alatoires.
Dfinition 5.29 (indpendance de n vecteurs alatoires). Pour i = 1, . . . , n, soient
Xi : Rdi des vecteurs alatoires sur le mme espace probabilis (, F, P ). On dit
quils sont indpendants si lgalit

P X1 B1 , . . . , Xn Bn = P (X1 B1 ) . . . P (Xn Bn )
(5.12)
est vrifie pour tout choix des borliens Bi Bor(Rdi ), i = 1, . . . , n.
Notons quavec cette dfinition, la collection de vecteurs alatoires considre peut
tre compltement htroclite quant aux dimensions, y compris avec di = 1 pour certaines valeurs de i (les Xi correspondants tant alors des variables alatoires relles).
Une proprit bien commode de lindpendance des v.a. est lhrdit. Avant de
lnoncer formellement, voyons sa signification sur un exemple. Supposons que les v.a.
relles X1 , . . . , X5 soient indpendantes. Alors les trois variables alatoires Y1 , Y2 , Y3
suivantes sont indpendantes
Y1 := X1 + X2 ,
Y2 := X3 sin X4 ,
Y3 := exp(X52 X5 ).
Il en va de mme pour les vecteurs alatoires Z1 , Z2 , Z3

Z1 := (X1 , X2 ),
Z2 := (X3 + cos X4 , X42 ),
Z3 := (X53 , 2X5 , X52 ).
Nous nonons le rsultat partir dune suite de variables alatoires indpendantes pour
ne pas trop alourdir les notations, mais il se gnralise une famille finie htroclite de
vecteurs alatoires indpendants au sens de la dfinition 5.29.
5. Il va sans dire, mais mieux en le disant, que lindpendance des vecteurs dont il est question ici
na rien voir avec lindpendance linaire !
174

Proposition 5.30 (hrdit de lindpendance). Soient X1 , . . . , Xn des variables alatoires relles indpendantes. Dcoupons
P {1, . . . , n} en k blocs disjoints, en notant mj
le cardinal du j-ime bloc et nj =
1lj ml , avec n0 := 0. Pour j = 1, . . . , k, associons au j-ime bloc une fonction borlienne hj : Rmj Rdj . Posons enfin Zj :=
hj (Xnj1 +1 , . . . , Xnj ). Alors la suite finie (Zj )1jk de vecteurs alatoires est indpendante (au sens de la dfinition 5.29).
En prenant pour chaque j, dj = mj et hj gale lidentit Rmj Rmj , on voit que
la proposition 5.30 contient en particulier le rsultat suivant.
Corollaire 5.31 (indpendance des blocs disjoints). Si les X1 , . . . , Xn sont des variables
alatoires relles indpendantes, les k blocs disjoints Yj := (Xnj1 +1 , . . . , Xnj ), o
0 = n0 < n1 < n2 < < nk = n, sont des vecteurs alatoires indpendants.
Remarque 5.32. Compte-tenu de la remarque 5.28-4, on gnralise facilement la proposition 5.30 et le corollaire 5.31 au cas o les blocs ne sont plus forcment indexs par
des entiers conscutifs, pourvu que les blocs dindices correspondants restent deux deux
disjoints. Ainsi par exemple si X1 , . . . , X7 sont indpendantes, (X3 , X1 ), (X2 , X5 , X7 ) et
(X6 , X4 ) sont des vecteurs alatoires indpendants.
La dmonstration dtaille de la proposition 5.30 sortirait du programme de ce cours
o sont seulement exigibles lnonc et son utilisation pratique. Ce qui suit sadresse aux
lecteurs plus avancs ou dsireux den savoir plus. Le lecteur dbutant peut sauter ce
passage et aller directement la dfinition 5.34.
La preuve informelle 6 de la proposition 5.30 que nous dcrivons maintenant distingue deux ides dans cette proposition. La premire est lhrdit pour les blocs, i.e.
le corollaire 5.31 et utilise la construction de probabilits produits . La deuxime est
lhrdit pour les images des blocs par les transformations borliennes hj et repose sur
la notion dindpendance de sous-tribus de F.
Preuve informelle de lhrdit pour les blocs. Partons donc de lgalit (5.11) qui exprime notre hypothse dindpendance des Xi . Avec les notations pour les blocs introduites dans lnonc de la proposition 5.30, identifions Rn avec Rm1 Rmk . Pour
j = 1, . . . , k, notons Cj la famille des produits cartsiens Bj0 = Bnj1 +1 Bnj de
mj borliens quelconques de R. En rappelant que Yj := (Xnj1 +1 , . . . , Xnj ), ceci nous
permet de rcrire (5.11) sous la forme suivante vrifie pour tous choix des Bj0 Cj .
P (Y1
B10 , . . . , Yk
Bk0 )
k
Y
P (Xi Bi ).
(5.13)
j=1 nj1 <inj
En particulier si on choisit ci-dessus pour un j fix, Bi = R pour tous les i hors de

]nj1 , nj ], chaque Bl0 pour l 6= j est gal Rml et on obtient aprs effacement des
6. Nous ne prtendons pas donner une preuve complte, mais plutt pointer les difficults et indiquer
loutillage mathmatique utilis pour les surmonter.
175

conditions inutiles du type Yl Rml ou Xi R,
Bj0 Cj ,
P (Yj Bj0 ) =
P (Xi Bi ).
(5.14)
nj1 <inj
Ceci tant vrai pour j quelconque, on obtient en reportant dans (5.13) :

B10
C1 , . . . , Bk0
Ck ,
P (Y1
B10 , . . . , Yk
Bk0 )
k
Y
P (Yj Bj0 ).
(5.15)
j=1
Pour en dduire que la suite finie de vecteurs alatoires Y1 , . . . , Yk est indpendante au

sens de la dfinition 5.29, il faudrait pouvoir tendre (5.15) tous les Bj0 Bor(Rmj ), ce
qui est loin dtre trivial. Notons que si mj 2, Cj nest pas une tribu et est strictement
incluse dans Bor(Rmj ). Par exemple le disque unit ouvert de R2 est un borlien de
R2 puisque cest un ouvert et il est impossible de lcrire comme produit cartsien de
deux sous-ensembles de R (exercice !). Notons := PY1 ,...,Yk , la loi du vecteur alatoire
htroclite (Y1 , . . . , Yk ) de Rm1 Rmk , dfinie via lindentification de cet espace
avec Rn par :

D Bor(Rn ), (D) = P (Y1 , . . . , Yk ) D .
Dfinissons la tribu produit Bor(Rm1 ) Bor(Rmk ) comme la tribu sur Rm1 Rmk
engendre par la famille des produits cartsiens D1 Dk , o chaque Dj est un
borlien quelconque de Rmj . On peut montrer que cette tribu concide avec la tribu
borlienne de Rm1 Rmk , donc de Rn . On montre aussi que lon peut dfinir sur
cette tribu produit la probabilit produit = PY1 PYk comme lunique mesure
vrifiant
D1 Bor(Rm1 ), . . . , Dk Bor(Rmk ),
(D1 Dk ) = PY1 (D1 ) . . . PYk (Dk ).
Notons enfin C la famille des sous-ensembles de Rm1 Rmk de la forme B10 Bk0 ,
o Bj0 Cj , j = 1, . . . , k. Muni de tout cet attirail, on peut rcrire (5.15) sous la forme :
C C,
(C) = (C).
Finalement, on vrifie que C est une famille stable par intersections finies, qui engendre
la tribu borlienne de Rm1 Rmk . Comme les mesures de probabilit et concident sur C, elles concident sur la tribu engendre 7 , i.e. (D) = (D) pour tout
D Bor(Rm1 Rmk ). Comme cette tribu contient tous les produits cartsiens
D1 Dk de borliens quelconques des Rmj , on en dduit lextension de (5.15) avec
les Dj au lieu des Bj0 , obtenant ainsi lindpendance de la suite de vecteurs alatoires
Y1 , . . . , Y k .
7. Par le thorme dunicit des mesures, appliqu dans le cas de mesures finies, cf. Cours IFP
200304, Chapitre 1, th. 1.34, disponible lURL http://math.univ-lille1.fr/~suquet/
176

Preuve informelle de lhrdit par transformations borliennes. Soient et 0 deux ensembles quelconques, F0 une tribu sur 0 et f : 0 quelconque. Notons f 1 (F0 ) la
famille {f 1 (B); B F0 }, en rappelant que si B 0 , f 1 (B) = { ; f () B}. Il
est facile de voir que f 1 (F0 ) est une tribu sur . Cela rsulte du fait que la runion et
le passage au complmentaire commutent avec linverse ensembliste (cf. proposition 3.3)
et que F0 est une tribu sur 0 . Cette tribu f 1 (F0 ) est appele tribu engendre par f
(relativement F0 ) et note aussi (f ).
Si est muni lui-mme dune tribu F, la condition f 1 (F0 ) F quivaut tout simplement la mesurabilit de f pour les tribus F F0 . En particulier si X est une application
Rd , dire que X est un vecteur alatoire sur (, F) scrit X 1 (Bor(Rd )) F.
Arrivs l, il nous faut donner une dfinition qui jette un nouvel clairage sur lindpendance des variables ou vecteurs alatoires.
Dfinition 5.33 (indpendance de n sous-tribus de F). Soient (, F, P ) un espace
probabilis et F1 , . . . , Fn des sous-tribus 8 de F. On dit quelles sont indpendantes si
A1 F1 , . . . , An Fn ,
Ai =
i=1
n
Y
P (Ai ).
(5.16)
i=1
Grce cette dfinition, on peut voir que lindpendance des variables alatoires
X1 , . . . , Xn est exactement lindpendance des tribus engendres 9 (X1 ), . . . , (Xn ). On
peut rcrire de la mme faon lindpendance des vecteurs alatoires vue la dfini
tion 5.29, la seule adaptation tant que (Xi ) = Xi1 Bor(Rdi ) au lieu de Xi1 Bor(R) .
Il est clair daprs la dfinition 5.33 que si les tribus F1 , . . . , Fn sont des sous-tribus
de F indpendantes et si pour chaque i, Gi est une sous-tribu de Fi , alors G1 , . . . , Gn sont
aussi des sous-tribus indpendantes de F. En dautres termes, lindpendance des tribus
est hrite par leurs sous-tribus.
Disposant maintenant de tous les ingrdients, nous pouvons prouver la proposition 5.30 comme suit. Dabord lindpendance de la suite X1 , . . . , Xn passe celle des
vecteurs blocs Yj = (Xnj1 +1 , . . . , Xnj ), j = 1, . . . , k, comme nous lavons tabli ci-dessus.
Cette indpendance des Yj quivaut celle des sous-tribus Fj := (Yj ) de F. Notre but
est dtablir lindpendance des vecteurs images Zj = hj (Yj ), qui quivaut lindpendance des tribus Gj := (Zj ). Celle-ci dcoule par hritage de lindpendance des tribus
(Yj ), j = 1, . . . , k en raison des inclusions (Zj ) (Yj ) que lon peut justifier comme
suit :

(Zj ) = Zj1 (B); B Bor(Rdj )

= (hj Yj )1 (B); B Bor(Rdj )

dj
= Yj1 h1
j (B) ; B Bor(R )
mj
dj
et hj : Rmj Rdj tant borlienne, h1
j (B) Bor(R ) pour tout B Bor(R ), do

(Zj ) Yj1 (C); C Bor(Rmj ) = (Yj ).
8. Une sous-tribu de F est une sous-famille de F qui possde encore la structure de tribu.
9. Qui sont bien des sous-tribus de F, cause de la mesurabilit des Xi .
177
Dfinition 5.34 (indpendance dune suite infinie de v.a.). Soit (Xi )iN , une suite de
variables alatoires dfinies sur le mme espace probabilis (, F, P ). On dit quelles sont
indpendantes si toute sous-suite finie est indpendante au sens de la dfinition 5.27 i.e.
pour tout ensemble fini =
6 K N, et toute famille (Bi )iK de borliens de R,
P
Y
{Xi Bi } =
P (Xi Bi ).
iK
(5.17)
iK
Cette dfinition se gnralise au prix dalourdissements dcriture une suite de

vecteurs alatoires.
5.2.2
Indpendance des composantes
Nous examinons maintenant la caractrisation de lindpendance des composantes

dun vecteur alatoire, en nous restreignant aux deux cas particuliers importants des
vecteurs alatoires discrets ou densit.
Proposition 5.35 (vecteur alatoire discret composantes indpendantes). Soit X =
(X1 , . . . , Xd ) un vecteur alatoire discret. Ses composantes Xi sont indpendantes si et
seulement si
(x1 , . . . , xd ) X(),
P (X1 = x1 , . . . , Xd = xd ) = P (X1 = x1 ) . . . P (Xd = xd ).

(5.18)
Preuve. Lindpendance des Xi implique clairement (5.18) en prenant Bi = {xi }, pour

i = 1, . . . , d dans la dfinition 5.27. Pour la rciproque, on suppose que le vecteur alatoire
discret X vrifie (5.18) et il sagit de montrer que PX (B) = PX1 (B1 ) . . . PXd (Bd ), pour
tout B := B1 Bd o les Bi sont des borliens quelconques de R. Comme X est
discret, chaque Xi () est au plus dnombrable (cf. le commentaire aprs la dfinition 5.8)
donc E := X1 () Xd () est au plus dnombrable. De plus E contient X() et
si x E \ X(), P (X = x) = 0. Ces remarques nous permettent de dmarrer le calcul
de PX (B) ainsi :
PX (B) =
X
xX()

P (X = x)x (B) =
X
xX()
P (X = x)x (B) =
P (X = x),
xC

en notant C = E B = C1 Cd , o Ci := Xi () Bi (vrifiez !). En utilisant
178

lhypothse (5.18) et le produit de d sries termes positifs 10 :
X
P(X1 ,...,Xd ) (B) =
P(X1 ,...,Xd ) {(x1 , . . . , xd )}
(x1 ,...,xd )C
P (X1 = x1 , . . . , Xd = xd )
(x1 ,...,xd )C
P (X1 = x1 ) . . . P (Xd = xd )
(5.19)
(x1 ,...,xd )C1 Cd
!
=
P (X1 = x1 )
x1 C1
P (Xd = xd )
(5.20)
xd Cd
= P (X1 B1 ) . . . P (Xd Bd ).
Les borliens Bi tant quelconques, ceci tablit lindpendance des variables alatoires
X1 , . . . , Xd .
Passons au cas dun vecteur alatoire densit, pour lequel il est commode dintroduire la notation suivante. Si f1 , . . . , fd sont des applications R R, on dfinit
lapplication produit tensoriel des fi par
f1 fd : Rd R,
(x1 , . . . , xd ) 7 f1 (x1 ) . . . fd (xd ).
(5.21)
On prendra bien garde de ne pas confondre ce produit tensoriel avec le produit ordinaire.
Par exemple si f est lidentit sur R, f f est lapplication (s, t) 7 st, tandis que
f f = f 2 : R R, s 7 s2 .
Proposition 5.36 (vecteur densit et indpendance des composantes). Soit X =
(X1 , . . . , Xd ) un vecteur alatoire de Rd .
a) Si les composantes de X sont indpendantes et si chaque Xi (i = 1, . . . , d) a une
densit fXi , alors X admet pour densit la fonction fX1 fXd .
b) Si X admet une densit de la forme f = f1 fd , o les fi sont des fonctions
R \ Ki R+ (les Ki tant finis ventuellement vides), alors les v.a. relles Xi
sont indpendantes et chaque Xi admet une densit fXi = ci fi avec des constantes
ci ]0, +[ dont le produit c1 . . . cd vaut 1.
Preuve du a). Calculons PX (C) pour C := [a1 , b1 ] [ad , bd ] pav ferm born
quelconque de Rd . On commence par crire lvnement {X C} comme une intersection
dvnements en notant que

{X C} = (X1 , . . . , Xd ) [a1 , b1 ] [ad , bd ] = i = 1, . . . , d, Xi [ai , bi ] ,
10. Certaines dentre elles peuvent ntre que des sommes finies. La formule utilise pour passer de
(5.19) (5.20) repose sur le thorme de sommation par paquets des familles termes positifs et sa
vrification est essentiellement la mme que pour le produit de deux sries.
179

do, les Xi tant indpendantes et densit,
P (X C) = P
{Xi [ai , bi ]} =
i=1
d
Y
d
Y
P Xi [ai , bi ] =
i=1
i=1
bi
fXi (ti ) dti .

ai
Par un corollaire classique du thorme de Fubini-Tonnelli, ce produit dintgrales de

fonctions positives peut scrire comme une intgrale multiple :
d Z
Y
i=1
bi
Z
fXi (ti ) dti =
fX1 (t1 ) . . . fXd (td ) dt1 . . . dtd .
ai
[a1 ,b1 ][ad ,bd ]
Finalement, nous obtenons ainsi

Z
P (X C) =
fX1 fXd (t1 , . . . , td ) dt1 . . . dtd
C
et cette formule est vraie pour tout pav ferm born C. Pour en dduire en vertu de la
dfinition 5.10 que le vecteur alatoire X admet bien pour densit f := fX1 fXd , il
nous reste seulement vrifier que f ainsi construite est bien une densit de probabilit
sur Rd . Dabord chaque fXi est dfinie et positive sauf peut-tre en un nombre fini
de points. Chacun de ces points de non-dfinition gnre pour f un ensemble de non
dfinition qui est un hyperplan de Rd . Donc f est dfinie sauf peut-tre sur une runion
finie H dhyperplans de Rd et positive sur son ensemble de dfinition. Ensuite f est
localement Riemann intgrable car intgrable sur chaque pav ferm born inclus dans
Rd \ H et on peut prendre comme suite de compacts Kn puisant Rd \ H une suite
croissante de runions finies de pavs ferms borns (un pav dans chaque composante
connexe de Rd \ H). Pour vrifier la convergence de lintgrale gnralise sur Rd de
f , on prend 2d suites ai,n et bi,n +, de faon former une suite Cn =
[a1,n , b1,n ] [ad,n , bd,n ] croissante pour linclusion et de runion Rd . Par continuit
squentielle croissante de la probabilit PX , on obtient
Z
d
1 = PX (R ) = lim PX (Cn ) = lim
f (t1 , . . . , td ) dt1 . . . dtd .
n+
n+
[a1,n ,b1,n ][ad,n ,bd,n ]
R
On en dduit que lintgrale gnralise Rd f (t1 , . . . , td ) dt1 . . . dtd converge et vaut 1.
La fonction f est donc bien une densit de probabilit sur Rd et ceci achve la preuve
du a).
Preuve du b). Puisque X admet pour densit f = f1 fd , on sait (proposition 5.14)
que ses lois marginales sont toutes densit et quune densit de Xi sobtient en intgrant
f par rapport toutes les variables dindice diffrent de i. Ceci nous donne :
Z
fXi (xi ) =
f1 (t1 ) . . . fi1 (ti1 )fi (xi )fi+1 (ti+1 ) . . . fd (td ) dt1 . . . dti1 dti+1 . . . dtd .
Ri1 Rdi
Dans cette intgration avec xi fix et relativement aux variables muettes tj , j 6= i, fi (xi )
est une constante que lon peut sortir de lintgrale multiple. On obtient ainsi la relation
180

fXi (xi ) = ci fi (xi ), o ci dsigne lintgrale multiple relative aux tj (j 6= i) et ne dpend
pas de xi . Ce calcul tant valable pour tout rel xi , on a bien fXi = ci fi , avec une
constante ci dans R+ (pour linstant). En fait ci 6= 0, car sinon fXi serait identiquement
nulle sur son ensemble de dfinition ( lexception peut-tre dun ensemble de mesure de
Lebesgue
R + nulle), ce qui lempcherait dtre une densit car cela impliquerait la nullit
de fXi (t) dt.
Daprs la remarque 5.28-3, pour tablir lindpendance des X1 , . . . , Xd , il suffit de
tester lgalit (5.11) pour des borliens Bi de la forme [ai , bi ]. Notons C := [a1 , b1 ]
[ad , bd ]. Compte-tenu de la forme particulire de f , on a ici en appliquant nouveau
le corollaire du thorme de Fubini-Tonnelli pour les produits f1 fd ,
Z
P (X C) =
f1 (t1 ) . . . fd (td ) dt1 . . . dtd =

C
d Z
Y
i=1
bi
fi (ti ) dti .
(5.22)
ai
Dautre part, en utilisant les relations fXi = ci fi , on obtient :

d
Y
P (Xi [ai , bi ]) =
i=1
d Z
Y
i=1
bi
ci fi (ti ) dti = (c1 . . . cd )
ai
d Z
Y
i=1
bi
fi (ti ) dti .
(5.23)
ai
Par comparaison de (5.22) et (5.23), on voit alors que pour tout pav ferm born
C = [a1 , b1 ] [ad , bd ],
d
Y
P (Xi [ai , bi ]) = (c1 . . . cd )P (X C).
(5.24)
i=1
En prenant une suite Cn = [a1,n , b1,n ] [ad,n , bd,n ] croissante pour linclusion et de
runion Rd , on en dduit par continuit squentielle croissante de PX et des PXi que
d
Y
P (Xi R) = (c1 . . . cd )P (X Rd ),
i=1
do
c1 . . . cd = 1.
(5.25)
En rinjectant cette valeur dans (5.24), on conclut lindpendance des Xi . Notons en

passant que (5.25) interdit que lun des ci vaille + (on a dj vu quaucun ne peut
tre nul).
Exemple 5.37. Supposons que les variables alatoires relles X1 , . . . , Xd soient indpendantes et que pour i = 1, . . . , d, Xi soit gaussienne de loi N(0, i ), avec i > 0. La
proposition 5.36 a) nous dit alors que le vecteur X = (X1 , . . . , Xd ) admet pour densit :

1
1
t21
t2d
f (t1 , . . . , td ) =
exp 2 2 .
(5.26)
(2)d/2 1 . . . d
21
2d
181

Le vecteur X suit une loi gaussienne sur Rd . Il sagit ici dun cas particulier de vecteur
gaussien. Il existe des lois gaussiennes sur Rd pour lesquelles les composantes ne sont pas
indpendantes. Par ailleurs, il existe des lois gaussiennes sur Rd nayant pas de densit 11 .
Remarque 5.38. Lexemple 5.37 ne contredit pas la remarque 5.6 qui affirme que la
seule connaissance des lois marginales ne suffit pas reconstruire la loi du vecteur.
En effet ici outre la connaissance des lois marginales, on dispose dune information
supplmentaire essentielle, lindpendance des composantes. Cest dailleurs un exemple
dun principe tout fait gnral illustr par les propositions 5.35 et 5.36 : si on connat
les lois marginales et si on sait que les composantes sont indpendantes, alors on peut
reconstruire la loi du vecteur alatoire 12 .
Exemple 5.39. Soit X = (X1 , X2 ) un vecteur alatoire de densit f donne par
f (s, t) :=
1
1
1]0,+[ (t),
3
1/2
2
(2 ) (1 + s )(tet )1/2
avec la convention habituelle pour lusage des indicatrices dans les formules explicites
(cf. remarque 3.21). La densit est bien le produit dune fonction de la seule variable s
par une fonction de la seule variable t. On peut prendre par exemple f1 (s) := (1 + s2 )1
et f2 (t) := (2 3 )1/2 (tet )1/2 1]0,+[ (t). On en dduit par la proposition 5.36 b) que les
v.a. X1 et X2 sont indpendantes et densit. On sait de plus qualors Xi admet une
densit fXi = ci fi (i = 1, 2). On dtermine c1 en crivant :
Z +
Z +
c1
ds = c1 .
1=
fX1 (s) ds =
2
1 + s
Donc c1 = 1/ et comme c1 c2 = 1, c2 = . Les densits marginales sont donc finalement :
fX1 : s 7
1
,
(1 + s2 )
fX2 : t 7
1 t/2
e
1]0,+[ (t).
2t
On voit que X1 suit la loi de Cauchy standard Cau(0, 1). Quant la loi de X2 , cest une loi
2 (1), i.e. la loi de Z 2 o Z est gaussienne N(0, 1). On vous laisse le soin de vrifier cette
dernire affirmation en calculant la loi de Z 2 . Ceci vous permettra de vrifier a posteriori
que f tait bien une densit de probabilit sur R2 grce la proposition 5.36 a).
De mme que la seule connaissance des lois des v.a. X et Y ne suffit pas en gnral
pour dterminer la loi du vecteur alatoire (X, Y ), elle ne suffit pas non plus pour
connatre la loi de la v.a. X + Y . Voici un exemple presque trivial pour sen convaincre.
On prend dabord X de loi Bern(1/2), donc P (X = 0) = P (X = 1) = 1/2 et Y := 1X.
Alors Y suit aussi la loi Bern(1/2) car P (Y = 0) = P (X = 1) = 1/2 et P (Y = 1) =
11. Dans ce cas, il existe un sous-espace affine de Rd , strictement inclus dans Rd et de probabilit 1
pour cette loi gaussienne.
12. Pour les lecteurs nayant pas saut la dmonstration informelle de lhrdit de lindpendance,
signalons que les composantes de X sont indpendantes si et seulement si PX = PX1 PXd ,
probabilit produit des lois marginales.
182

P (X = 0) = 1/2. La somme X + Y est la variable constante 1, sa loi est donc la
masse de Dirac 1 . Prenons maintenant Y 0 := X, alors Y 0 suit encore la loi Bern(1/2) et
X + Y 0 = 2X a pour loi 21 0 + 12 2 .
Supposons maintenant que les variables alatoires relles X et Y sont indpendantes.
Comme X + Y = s(X, Y ), o s est la fonction borlienne s : R2 R, (x, y) 7 x + y,
on devrait pouvoir dterminer la loi de X + Y , partir des lois de X et de Y puisque
lindpendance permet de reconstruire la loi de (X, Y ) partir de ses lois marginales.
Nous allons traiter ce problme dans les deux cas particuliers o X et Y sont toutes deux
discrtes ou toutes deux densit. On pourra voir en exercice un autre cas particulier,
X discrte et Y densit.
Proposition 5.40 (loi de la somme de deux v.a. discrtes). Si X et Y sont deux v.a.
discrtes dfinies sur le mme espace probabilis (, F, P ), la loi de la v.a. discrte Z :=
X + Y est donne par :
X
z Z(), P (Z = z) =
(5.27)
P (X = x, Y = z x)
xX()
P (X = z y, Y = y).
(5.28)
yY ()
Si de plus X et Y sont indpendantes, PZ peut se calculer explicitement partir des lois

PX et PY par les formules :
X
z Z(), P (Z = z) =
P (X = x)P (Y = z x)
(5.29)
xX()
P (X = z y)P (Y = y).
(5.30)
yY ()
Preuve. Vrifions dabord que Z est discrte, cest--dire

que Z()

est au plus dnombrable. Pour cela, on note que lensemble A :=
X(), Y () ; est au plus
dnombrable parce quinclus dans X() Y (), produit cartsien de deux ensembles
au plus dnombrables. Lapplication s : A Z(), (x, y) 7 x + y est surjective,
donc Z() est au plus dnombrable, cf. proposition 1.41. Nous reviendrons ci-dessous
(remarque 5.41) sur la description de Z() que nous navons pas besoin dexpliciter
davantage ce stade.
Justifions (5.27). On commence par dcouper suivant les valeurs de X en union au
plus dnombrable dvnements deux deux disjoints :
=
{X = x}.
xX()
On en dduit que pour tout z Z(),

{Z = z} =
{X = x} {Z = z} =
xX()
{X = x} {Z = z}
xX()
{X = x, Y = z x}.
xX()
183

Cette dernire union est au plus dnombrable et les vnements concerns deux deux
disjoints (certains pouvant tre vides). Par -additivit de P on en dduit (5.27). Cette
formule montre quil est toujours possible de calculer la loi de X + Y si lon connat la
loi P(X,Y ) du couple (X, Y ). Si de plus X et Y sont indpendantes, alors
P (X = x, Y = z x) = P (X = x)P (Y = z x),
do (5.29).
Les formules (5.28) et (5.30) sobtiennent en changeant les rles jous par X et Y
dans la preuve ci-dessus.
Remarque 5.41. Si lon connat seulement la loi de X et celle de Y , on ne peut mme
pas dterminer Z(). Pour vous en convaincre, revoyez le contre exemple avec les lois
Bern(1/2) donn ci-dessus o Z() peut tre selon le cas {1} ou {0, 2}. Dune manire
gnrale, il est clair que lon a toujours
Z() {x + y; x X(), y Y ()},
(5.31)
linclusion pouvant tre stricte. Cette inclusion est une galit dans le cas o X et Y
sont indpendantes et vrifient la condition supplmentaire suivante
x X(),
P (X = x) 6= 0,
y Y (),
P (Y = y) 6= 0.
(5.32)
Pour le voir, montrons que si (x, y) est un couple quelconque de X()Y (), il existe au
moins un tel que X() = x et Y () = y, donc pour cet , Z() = X()+Y () =
x + y. En effet par indpendance de X et Y et la condition (5.32),
P (X = x, Y = y) = P (X = x)P (Y = y) 6= 0,
donc lvnement { ; X() = x, Y () = y} nest pas vide.
Exemple 5.42 (somme de deux v.a. de Poisson indpendantes). Si X et Y sont indpendantes et suivent la loi de Poisson de paramtre et respectivement, Z := X + Y
suit la loi de Poisson de paramtre = + .
Vrification. Ici X() = Y () = N et
i N,
P (X = i) =
e i
,
i!
j N,
P (Y = j) =
e j
,
j!
donc (5.32) est vrifie et Z() = {k = i + j; i N, j N} = N. Appliquons mainte/ Y (), donc P (Y = k i) = 0 :

nant (5.29) en notant que pour i > k, k i
k N,
P (Z = k) =
P (X = i)P (Y = k i) =
k
X
e i e ki
i=0
iN
i!
(k i)!
k
= e
=
(+)
1 X
k!
i ki
k! i=0 i!(k i)!
e(+) ( + )k
,
k!
ce qui montre que Z suit la loi Pois() pour = + .
184

Proposition 5.43 (somme de deux v.a. densit indpendantes). Si les variables alatoires relles indpendantes X et Y admettent pour densits respectives f et g, leur
somme S = X + Y admet pour densit le produit de convolution f g dfini sur R par
Z +
Z +
f (t)g(s t) dt.
(5.33)
f (s t)g(t) dt =
(f g)(s) =
Preuve. Notons dabord que les deux intgrales gnralises figurant dans (5.33) existent
toujours comme lments de R+ et que lon passe de la premire la deuxime par le
changement de variable t 7 s t (pour s fix).
Calculons Eh(S) pour h continue borne quelconque laide de la loi du couple
(X, Y ). On sait par la proposition 5.36 a) que cette loi P(X,Y ) admet pour densit la
fonction p = f g. En utilisant la proposition 5.17 applique la fonction compose
(x, y) 7 h(x + y), on obtient :
Z
Z
Eh(S) = Eh(X + Y ) =
h(x + y)p(x, y) dx dy =
h(x + y)f (x)g(y) dx dy.
R2
R2
En effectuant dans cette dernire intgrale double le changement de variable linaire :

(s, t) = (x + y, y),
dinverse (x, y) = (s t, t),
on obtient (noter que le dterminant du changement de variable vaut ici 1) :

Z +
Z +
Z
f (s t)g(t) dt ds.
h(s)
h(s)f (s t)g(t) ds dt =
Eh(S) =
R2
Ainsi pour toute h : R R continue borne sur R, on a

Z +
Eh(S) =
h(s)(f g)(s) ds.
(5.34)
R +
Si on prend en particulier h = 1 constante sur R, (5.34) nous donne 1 = (f g)(s) ds,
ce qui nous montre 13 que f g est une densit de probabilit sur R. Soit Z une variable
alatoire de densit f g. Alors par la proposition 4.42,
Z +
Eh(Z) =
h(s)(f g)(s) ds = Eh(S)
pour toute h continue borne sur R. Par la proposition 5.16 applique en dimension 1,
on en dduit que S et Z ont mme loi, donc que S admet pour densit f g.
Exemple 5.44 (somme de deux v.a. exponentielles indpendantes). Soient X et Y deux
variables alatoires indpendantes suivant des lois exponentielles de paramtres respectifs
13. En toute rigueur, il faudrait aussi vrifier que f g est bien Riemann intgrable sur tout intervalle
ferm born de son ensemble de dfinition (i.e. de lensemble des s tels que (f g)(s) < +).
185

a et b. Calculons la densit h = f g de la loi de X + Y , avec ici f (t) = a eat 1R+ (t) et
g(t) = b ebt 1R+ (t).
Z
ae
h(s) =
a(st)
be
bt
1R+ (s t)1R+ (t) dt = ab e
as
e(ab)t 1R+ (s t)1R+ (t) dt.
On peut rcrire le produit dindicatrices comme suit :

(
(
1 si t 0 et s t 0
1[0,s] (t) si s 0
1R+ (s t)1R+ (t) =
=
= 1R+ (s)1[0,s] (t).
0 sinon
0
sinon
En reportant ceci dans lintgrale ci-dessus, il vient
Z s
Z +
(ab)t
as
as
e
1[0,s] (t) dt = ab e 1R+ (s)
e(ab)t dt.
h(s) = ab e 1R+ (s)
Cette dernire intgrale est une intgrale de Riemann ordinaire qui se calcule par primitivation en distinguant les cas a 6= b et a = b.
Si a 6= b, on obtient ainsi
(ab)t s

e
ab eas (ab)s
ab
as
h(s) = ab e 1R+ (s)
=
e
1 1R+ (s) =
ebs eas 1R+ (s).
ab 0
ab
ab
titre de prcaution, onpeut vrifier que cette densit h est bien positive en notant que
pour s 0, ebs eas /(b a) est le taux daccroissement entre a et b de la fonction
dcroissante u 7 esu , donc que ce quotient est ngatif.
Si a = b, on obtient
Z s
2 as
dt = a2 s eas 1R+ (s).
h(s) = a e 1R+ (s)
0
5.2.3
Indpendance et esprance de produits
Une proprit essentielle de lindpendance des suites de variables alatoires est que
lesprance dun produit est gale au produit des esprances. La formulation prcise,
dune porte encore plus gnrale, est la suivante.
Thorme 5.45. Pour i = 1, . . . , n, soient Xi : Rdi des vecteurs alatoires indpendants et hi : Rdi R, des fonctions borliennes telles que les variables alatoires
relles hi (Xi ) soient intgrables. Alors la v.a. h1 (X1 ) . . . hn (Xn ) est intgrable et
n
Y
E h1 (X1 ) . . . hn (Xn ) =
Ehi (Xi ).
(5.35)
i=1
En particulier si pour tout i, di = 1 et hi est lidentit sur R, on obtient linterversion

esprance produit.
186

Corollaire 5.46. Si X1 , . . . , Xn sont des variables alatoires relles indpendantes et
intgrables, leur produit X1 . . . Xn est intgrable et
E(X1 . . . Xn ) = (EX1 ) . . . (EXn ).
(5.36)
Preuve. Par hrdit de lindpendance, plus prcisment par la version de la proposition 5.30 o la suite de dpart X1 , . . . , Xn est une famille htroclite de vecteurs alatoires
indpendants, le problme se rduit la preuve de lintgrabilit de Y = Y1 . . . Yn et de
lgalit
E(Y1 . . . Yn ) = (EY1 ) . . . (EYn ),
(5.37)
pour toute suite finie Y1 , . . . , Yn (n 2) de v.a. intgrables et indpendantes.
Bien quil soit possible de traiter le cas n quelconque dun coup, nous allons rduire
le problme au cas n = 2, pour allger les notations. Admettons donc pour un instant
que nous ayons tabli (5.37) dans le cas n = 2. On fait alors une rcurrence finie sur
2 k < n en prenant pour hypothse que (5.37) est vrifie pour les produits de k
facteurs. Alors lindpendance des Yi (1 i n) implique celle de (Y1 , . . . , Yk ) et de
Yk+1 , par hrdit pour les blocs disjoints cf. corollaire 5.31 et remarque 5.28-1. Par
lhypothse de rcurrence, Y1 . . . Yk est intgrable et comme Yk+1 lest aussi, leur produit
lest encore par le cas n = 2. On a donc

E Y1 . . . Yk Yk+1 = E (Y1 . . . Yk )Yk+1

= E(Y1 . . . Yk ) EYk+1 par le cas n = 2
= (EY1 ) . . . (EYk )(EYk+1 ) par lhypothse de rcurrence.
Ainsi la validit de (5.37) au rang k implique sa validit au rang k + 1, ce qui achve la
partie hrdit de notre rcurrence finie.
Il nous reste maintenant prouver que pour toutes v.a. relles Y1 et Y2 indpendantes
et intgrables,
Y1 Y2 est intgrable et E(Y1 Y2 ) = (EY1 )(EY2 ).
(5.38)
Nous allons traiter successivement les cas suivants.
1. Yi = 1Ai , i = 1, 2 o les Ai F sont des vnements ;
2. Y1 et Y2 variables alatoires simples ;
3. Y1 et Y2 variables alatoires positives ;
4. Y1 et Y2 variables alatoires relles intgrables.
Cas 1. Si Yi = 1Ai , pour un Ai F, les v.a. Yi et leur produit sont intgrables car
bornes.
des v.a. Y1 et Y2 implique 14 celle des vnements A1 et A2 car
Lindpendance

Ai = 1Ai {1} . Dautre part, on vrifie facilement (faites-le) que
1A1 1A2 = 1A1 A2 .
14. En fait quivaut . . .(exercice).
187

Grce la formule E(1A ) = P (A) et lindpendance de A1 et A2 , on en dduit

E(Y1 Y2 ) = E 1A1 A2 = P (A1 A2 ) = P (A1 )P (A2 ) = E 1A1 E 1A2 = (EY1 )(EY2 ),
ce qui achve la vrification de (5.38) dans le cas des variables alatoires indicatrices.
Cas 2. Supposons maintenant que Y1 et Y2 sont deux variables alatoires simples indpendantes. Elles sont alors bornes donc intgrables ainsi que leur produit. Notons
Y1 () = {y1,1 , . . . , y1,l }, les y1,j tant tous distincts et faisons de mme pour Y2 () =
{y2,1 , . . . , y2,m }. Alors on a les dcompositions
Y1 =
l
X
y1,j 1A1,j ,
Y2 =
j=1
m
X
y2,k 1A2,k ,
k=1
avec A1,j = {Y1 = y1,j } = {Y1 {y1,j }} et A2,k = {Y2 = y2,k } = {Y2 {y2,k }}. On en
dduit que pour 1 j l et 1 k m, les deux vnements A1,j et A2,k hritent de
lindpendance de Y1 et Y2 . En utilisant la linarit de lesprance, cette indpendance
dvnements et le cas 1, on obtient :
X

l X
m
l X
m
X

E(Y1 Y2 ) = E
y1,j y2,k 1A1,j 1A2,k
=
y1,j y2,k E 1A1,j 1A2,k
j=1 k=1
j=1 k=1
l X
m
X

y1,j y2,k E 1A1,j E 1A2,k
j=1 k=1
X
l
y1,j E 1A1,j
X
m
j=1
= E
X
l
y2,k E 1A2,k
k=1

X
m
y2,k 1A2,k
y1,j 1A1,j E
j=1
k=1
= EY1 EY2 .
Ainsi (5.38) est vrifie dans le cas des variables alatoires simples.
Cas 3. Soient Y1 et Y2 deux variables alatoires positives indpendantes (on na pas
besoin de les supposer intgrables ici). On sait (cf. thorme 4.21) que la v.a. positive
Yi est limite dune suite croissante de v.a. positives simples : Yi,n Yi , i = 1, 2. Plus
prcisment, on peut prendre (revoyez la preuve du thorme 4.21 et vrifiez la formule
propose ci-aprs)

Yi,n = hn (Yi ), hn : R+ R+ , x 7 min n, 2n [2n x] .
La fonction hn est croissante donc borlienne. La proposition 5.30 nous dit alors que
pour chaque n, les v.a. Y1,n et Y2,n hritent de lindpendance de Y1 et Y2 . Comme ce
sont des v.a. simples, le cas 2 nous donne :

n N , E Y1,n Y2,n = EY1,n EY2,n .
(5.39)
188

En notant que Y1,n Y2,n converge en croissant vers Y1 Y2 , un passage la limite dans
(5.39) et une triple application du thorme de Beppo Levi nous donnent E(Y1 Y2 ) =
EY1 EY2 .
Cas 4. Si Y1 et Y2 sont deux variables alatoires relles indpendantes et intgrables,
|Y1 | et |Y2 | sont des v.a. positives indpendantes et par le cas 3,
E|Y1 Y2 | = E(|Y1 ||Y2 |) = (E|Y1 |)(E|Y2 |) < +,
ce qui tablit lintgrabilit de Y1 Y2 . Cette intgrabilit implique aussi celle des produits
de v.a. positives Y1+ Y2+ , Y1+ Y2 , Y1 Y2+ et Y1 Y2 . Dautre part les facteurs de chacun de
ces produits hritent leur indpendance de celle de Y1 et Y2 , puisque Yi+ = max(Yi , 0) et
Yi = max(Yi , 0). En utilisant le cas 3 on obtient alors (notez que toutes les esprances
intervenant dans ce calcul sont finies) :
E(Y1 Y2 ) =
=
=
=
=

E (Y1+ Y1 )(Y2+ Y2 )
E(Y1+ Y2+ ) E(Y1+ Y2 ) E(Y1 Y2+ ) + E(Y1 Y2 )
EY1+ EY2+ EY1+ EY2 EY1 EY2+ + EY1 EY2

EY1+ EY1 EY2+ EY2
(EY1 )(EY2 ),
ce qui achve la vrification de (5.38).

La preuve du thorme 5.45 est maintenant complte.
Comme sous-produit de la dmonstration ci-dessus et notamment du cas 3, on a le
rsultat suivant.
Proposition 5.47. Le thorme 5.45 sapplique sans condition dintgrabilit des Yi =
hi (Xi ) si les fonctions borliennes hi sont positives. Le corollaire 5.46 est vrai sans
condition dintgrabilit pour des variables alatoires positives.
Une application importante du thorme 5.45 est que lindpendance de deux v.a.
implique la nullit de leur covariance (lorsquelle existe).
Proposition 5.48 (indpendance et covariance).
a) Si X et Y sont des v.a. relles de carr intgrable et indpendantes, leur covariance
est nulle.
b) Si X1 , . . . , Xn sont
v.a. relles de carr intgrable et deux deux indpendantes,
Pdes
n
en notant Sn := k=1 Xk , on a
Var Sn =
n
X
Var Xk .
(5.40)
k=1
189

Preuve. Le a) est une consquence immdiate du corollaire 5.46 et de la formule de
Koenig puisque Cov(X, Y ) = E(XY ) (EX)(EY ) = (EX)(EY ) (EX)(EY ). On peut
le voir aussi partir de la dfinition de la covariance puisque X EX et Y EY
hritent de lindpendance de X et Y et sont deux v.a. desprance nulle. Notons aussi
que pour des v.a. indpendantes, on na pas besoin de supposer que X et Y soient de
carr intgrable pour dfinir leur covariance, leur intgrabilit suffit.
Le b) est une consquence immdiate du a) via la formule 5.9. Notons quil suffit
davoir ici lindpendance deux deux qui est plus faible que lindpendance mutuelle 15 .
Remarque 5.49. La nullit de la covariance de deux v.a. relles X et Y nimplique pas
leur indpendance. Voici un contre exemple. Prenons X de loi uniforme sur [1, +1] et
Y := X 2 . On a alors en notant que X a pour densit 21 1[1,1] ,
1
EX =
2
+1
1
x dx = 0 et E(XY ) = E(X ) =
2
3
+1
x3 dx = 0,
do Cov(X, Y ) = E(XY ) (EX)(EY ) = 0. Il est clair intuitivement que X et Y ne

sont pas indpendantes puisque Y est une fonction dterministe de X. Pour vrifier cette
non-indpendance par le calcul, on peut remarquer que dune part

P X [0, 1/2] et Y [0, 1/4] = P X [0, 1/2] et X [1/2, 1/2]
1
= P X [0, 1/2] =
4
et dautre part
1
1
P X [0, 1/2])P Y [0, 1/4] = P X [1/2, 1/2] = .
4
8
15. En fait il suffit davoir la non-corrlation deux deux, cest--dire Cov(Xi , Xj ) = 0 pour i 6= j,
ce qui est encore plus faible.
190
Chapitre 6
Thormes limites
Nous commenons dans ce chapitre ltude du comportement asymptotique de suites
de variables alatoires. Aprs avoir vu les diffrents modes de convergence de ces suites,
nous abordons la loi des grands nombres. Ce rsultat essentiel nous dit que les moyennes
arithmtiques dune suite de v.a. Xi indpendantes et de mme loi ayant une esprance,
convergent en un certain sens, vers cette esprance :
n
Mn :=
1X
Sn
=
Xi EX1 .
n+
n
n i=1
(6.1)
Cette convergence est trs utile en statistique pour estimer des paramtres dune loi
inconnue, sur la base de lobservation dun chantillon X1 , . . . , Xn de grande taille. Le
prolongement naturel de ce chapitre est ltude du thorme limite central qui donne une
sorte de vitesse de convergence pour la loi des grands nombres, permettant notamment de
construire des intervalles de confiance pour lestimation dun paramtre. Ce thorme
sera vu au dbut du cours dInitiation la Statistique.
6.1
6.1.1
Convergences de suites de v.a.

Convergence presque sre et en probabilit
Quand on envisage la question de la convergence dune suite de v.a. (Yn ) vers une
v.a. Y , la premire notion de convergence qui vienne lesprit est la convergence simple
sur tout , au sens de lanalyse 1 :
,
Yn () Y ().
n+
On voit immdiatement que cette notion nest pas satisfaisante pour la convergence de
la suite (Mn ) donne en (6.1). En effet considrons le modle probabiliste infini le plus
simple possible, savoir le jeu de pile ou face infini. On peut prendre ici = {f, p}N
et est une suite infinie = (ui )i1 , avec ui {f, p} pour tout i. En prenant pour Xi
1. Ceci suppose que les Yn et Y sont dfinies sur le mme .
191
Chapitre 6. Thormes limites

lindicatrice de lvnement obtention de pile au ie lancer, Mn est la frquence dapparition de pile au cours des n premiers lancers. Si la pice est quilibre, on sattend ce
que Mn converge vers 1/2. Or il est clair quil y a une infinit dvnements lmentaires
pour lesquels Mn () ne converge pas vers 1/2. On peut mme construire facilement
une infinit de pour lesquels Mn () na aucune limite 2 . Ce simple exemple montre
que la notion de convergence simple nest pas pertinente en thorie des probabilits.
Pour dpasser ce problme, on introduit la notion de convergence presque sre, i.e. la
convergence simple de Yn vers Y sur un sous-ensemble 0 de probabilit 1 de .
Dfinition 6.1 (convergence presque sre). Soient (Yn )n1 et Y des variables alatoires
dfinies sur le mme espace probabilis (, F, P ). On dit que Yn converge presque srep.s.
ment vers Y , notation Yn Y , si P (0 ) = 1, en notant
n+

0 := ; lim Yn () = Y () .
n+
(6.2)
Cette dfinition soulve immdiatement une question. Pour que lgalit P (0 ) = 1 ait
un sens, encore faut-il que 0 appartienne la tribu F sur laquelle est dfinie la fonction
densembles P . Pour tablir lappartenance F de 0 , il est naturel de sappuyer sur
la mesurabilit des Yn et de Y dont hritent les v.a. positives |Yn Y |. Pour cela, on
commence par crire avec des quantificateurs lappartenance 0 :
0
> 0, j = j(, ) N, k j, |Yk () Y ()| < .
(6.3)
En utilisant la traduction automatique des quantificateurs en oprations ensemblistes,

cf. p. 6, on en dduit que
0 = {|Yk Y | < }.
>0 jN kj
(6.4)
En lisant (6.4) de droite gauche, on obtient les appartenances successives F, dabord

des ensembles {|Yk Y | < } en raison de la mesurabilit des v.a. |Yn Y |, puis de
lintersection dnombrable sur k, puis de lunion dnombrable sur j. Arrivs l, on est
coincs car la dernire intersection sur a pour ensemble dindexation ]0, +[ qui est
infini non-dnombrable. On ne peut donc pas en dduire lappartenance F de 0 . Pour
franchir cet obstacle, il suffit de revenir (6.3) et dcrire une version discrtise de
la convergence de Yn () vers Y (). Pour cela on choisit une suite de rels strictement
positifs (i )i1 , tendant vers 0 et on crit que
0
i 1, j = j(, i) N, k j, |Yk () Y ()| < i .
(6.5)
La traduction automatique des quantificateurs nous donne maintenant

0 = {|Yk Y | < i }.
iN
jN kj
(6.6)
2. Pour approfondir cette question, voir la section 6.5 Discussion dans [ICP].
192
6.1. Convergences de suites de v.a.

Sous cette forme, il est maintenant clair que 0 appartient F et ceci lgitime la dfinition 6.1. Nous avons tabli au passage que

p.s.
(6.7)
Yn Y P {|Yk Y | < i } = 1,
n+
jN kj
iN
pour une suite de rels i > 0, tendant vers 0.

Pour linstant, (6.7) nest pas directement exploitable comme mthode pratique pour
montrer une convergence presque sre, mais on peut progresser dans cette direction en
faisant sortir le i de la probabilit. Cette opration est lgitime par le lemme
suivant.
Lemme 6.2. Si (Bi )i1 est une suite dvnements, on a lquivalence

P Bi = 1 i 1, P (Bi ) = 1.
i1
(6.8)
Preuve. Limplication est vidente car pour tout j 1, on a i1 Bi Bj , do

1 = P Bi P (Bj ) 1.
i1

Pour la rciproque, on montre que si tous les P (Bi ) valent 1, alors P (i1 Bi )c = 0.
Ceci sobtient par sous--additivit de P :
P

Bi
c
i1
=P
i1
Bic
+
X
P (Bic ) = 0,
i=1
puisque tous les termes de cette srie sont nuls.

En appliquant le lemme 6.2 aux vnements Bi := jN kj {|Yk Y | < i }, nous
obtenons partir de (6.7) lquivalence entre la convergence presque sre de Yn vers Y
et la condition

i N , P {|Yk Y | < i } = 1,
(6.9)
jN kj
Maintenant que nous avons russi faire sortir le de la probabilit, on peut laisser
tomber la discrtisation pour aboutir la caractrisation suivante de la convergence
presque sre.
Proposition 6.3 (une c.n.s. de convergence p.s.). La suite de variables alatoires (Yn )n1
converge presque srement vers la variable alatoire Y si et seulement si

> 0, P {|Yk Y | < } = 1,
(6.10)
jN kj
ou encore
> 0,
{|Yk Y | }
jN kj
= 0.
(6.11)
193

Preuve. Lquivalence entre (6.10) et (6.11) est vidente par passage au complmentaire.
Vrifions lquivalence entre (6.10) et la c.n.s. (6.9) de convergence presque sre. Il est
clair que (6.10) implique (6.9). Pour la rciproque, il suffit de remarquer que la fonction
t 7 P jN kj {|Yk Y | < t} est croissante. En effet si s < t, linclusion dvnements
{|Yk Y | < s} {|Yk Y | < t} se propage lintersection sur k j, puis lunion
sur j. Supposons (6.9) vraie et fixons > 0 quelconque. Comme la suite (i )i1 tend
vers 0, on peut trouver un i0 tel que i0 < et alors

1 = P {|Yk Y | < i0 } P {|Yk Y | < } 1,
jN kj
jN kj
do (6.10).
Intressons nous maintenant (6.11). En notant Ak := {|Yk Y | }, on aimerait
trouver une condition qui nous assure que P (jN kj Ak ) = 0. En pratique, on a souvent
une majoration des probabilits P (Ak ) via une ingalit du type ingalit de Markov
et il est donc naturel de chercher une condition portant sur les P (Ak ). Ce problme
a un intrt propre, indpendant de la dfinition des Ak , provenant de linterprtation
suivante de lvnement jN kj Ak :
Ak = { ; appartient une infinit de Ak }
jN kj
= { ; ralise une infinit de Ak }

= {ralisation dune infinit de Ak }.
Ltude de la probabilit de cet vnement conduit aux deux lemmes de Borel Cantelli.
Lemme 6.4 (Borel Cantelli I). Soit (An )nN une suite dvnements telle que
+
X
P (An ) < +.
(6.12)
n=0
Alors

P ralisation dune infinit de An = 0.
Preuve. Introduisons la notation 3 A := {ralisation dune infinit de An } et posons
Cj := kj Ak . La suite (Cj )jN est dcroissante pour linclusion et dintersection A .
Par continuit squentielle dcroissante de P , on a donc
P (Cj ) P (A ).
(6.13)
j+
Par sous--additivit de P , on a dautre part

j N,
0 P (Cj )
P (Ak ) =: r(j).
(6.14)
kj
3. Cette criture est commode, mais non standard, donc pensez en expliciter la dfinition si
vous tes tent de la rutiliser dans un exercice. Vous trouverez parfois dans la littrature la notation lim supn+ An pour lvnement ralisation dune infinit de An . Cette notation est proscrite
de ce cours par choix pdagogique.
194

Grce lhypothse (6.12), r(j) est le reste dune srie convergente, donc tend vers 0
quand j tend vers +. Cette convergence combine avec la majoration (6.14) nous
donne
P (Cj ) 0.
(6.15)
j+
La conclusion P (A ) = 0 dcoule alors de (6.13) et (6.15).

Le lemme de Borel Cantelli I est dune porte trs gnrale, puisquon
P obtient la
conclusion P (A ) = 0 sous la seule hypothse de convergence de la srie nN P (An ),
sans rien supposer sur la structure de dpendance de la suite (An ). Pour les suites
dvnements indpendants, on a le rsultat complmentaire suivant.
Lemme 6.5 (Borel Cantelli II). Soit (An )nN une suite dvnements indpendants telle
que
+
X
P (An ) = +.
(6.16)
n=0
Alors

P ralisation dune infinit de An = 1.
Preuve. Notons encore A := {ralisation dune infinit de An } et posons
Cj,l := Ak ,
Cj := Ak ,
jkl
kj
do
A = Cj .
jN
Les Ack hritant de lindpendance des Ak , cf. remarque 2.55, on a

P (Cj,l ) = 1
c
P (Cj,l
)
=1P
k=j
Ack
=1
l
Y

1 P (Ak ) .
k=j
On utilise alors lingalit de convexit 4 ex 1 x avec x = P (Ak ) pour obtenir la

minoration
1 P (Cj,l ) 1
l
Y
l
X

exp P (Ak ) = 1 exp
P (Ak ) .
k=j
(6.17)
k=j
En laissant j fixe et faisant tendre l vers linfini dans (6.17), on en dduit grce
lhypothse (6.16) que P (Cj,l ) tend vers 1. Dautre part Cj est limite croissante pour
linclusion des Cj,l , donc par continuit croissante squentielle de P ,
P (Cj ) = lim P (Cj,l ) = 1.
l+
4. La reprsentation graphique de la fonction convexe x 7 ex est toujours au-dessus de sa tangente

lorigine do ex 1 x pour tout x R.
195

Cette galit tant vraie pour tout j N, on en dduit par le lemme 6.2 que

P Cj = 1.
jN
Comme lintersection de tous les Cj est lvnement A , le lemme est dmontr.

Aprs cette longue, mais utile, digression sur les lemmes de Borel Cantelli, revenons
notre qute dune condition pratique de convergence presque sre. Le premier lemme
de Borel Cantelli nous permet daboutir au rsultat suivant.
Proposition 6.6 (condition suffisante de convergence p.s.). Soient Y et (Yn )n1 des
variables alatoires relles dfinies sur le mme espace probabilis (, F, P ) et vrifiant
> 0,
+
X
P (|Yn Y | ) < +.
(6.18)
n=1
Alors Yn converge presque srement vers Y .

On dit dune suite (Yn )n1 vrifiant (6.18) quelle converge presque compltement
vers Y .
Preuve. Fixons > 0 quelconque et posons An := {|Yn Y | }. Par le premier lemme
de Borel-Cantelli, on dduit de (6.18) que la probabilit de ralisation dune infinit de
An est nulle, ce qui scrit encore

P {|Yk Y | } = 0.
jN kj
Ceci tant vrifi pour tout > 0, la c.n.s. (6.11) de la proposition 6.3 nous donne la
convergence presque sre de Yn vers Y .
Nous introduisons maintenant un nouveau mode de convergence de Yn vers Y , la
convergence en probabilit. Cette notion nous sera utile pour la loi faible des grands
nombres.
Pr
Dfinition 6.7. La suite Yn converge en probabilit vers Y (notation Yn Y ) si

n+
> 0,

P |Yn Y | 0.
n+
Notons la diffrence de point de vue par rapport la convergence presque sre.

Dans la convergence presque-sre, on reste proche de la notion de convergence simple
de lanalyse. Il sagit de la convergence de la suite de rels (Yn ())n1 , pour tous les
dun mme vnement de probabilit 1. La convergence en probabilit ne concerne
pas le comportement asymptotique individuel de chaque suite (Yn ())n1 , mais plutt
celui de la suite dvnements Dn, := {|Yn Y | < } dont la probabilit P (Dn, ) doit
tendre vers 1, pour tout . En pratique, tablir la convergence en probabilit de Yn vers
Y est souvent un travail prliminaire pour prouver la convergence presque-sre de Yn
196

vers Y . En effet si on utilise la condition suffisante de convergence p.s. (6.18), pour que
la srie converge, il faut dj que son terme gnral tende vers 0 et cette convergence
vers 0 (pour tout ) est prcisment la convergence en probabilit de Yn vers Y . Bien
sr, comme (6.18) nest quune condition suffisante, cette remarque ne nous permet pas
daffirmer que la convergence en probabilit est une notion plus faible que la convergence
presque-sre. Ce qui suit va nous montrer quil en est pourtant bien ainsi.
Proposition 6.8. La convergence presque-sre implique la convergence en probabilit.
Preuve. Fixons > 0. Lhypothse de convergence presque sre de Yn vers Y signifie
que lvnement
0 := { ; lim Yn () = Y ()}
n+
a pour probabilit 1. Dfinissons

0 := { ; k0 = k0 (), n k0 , |Yn () Y ()| < }.
Cest bien un vnement (i.e. 0 F) puisquil scrit
0 = {|Yn Y | < }.
kN
nk
De plus 0 contient 0 , donc P (0 ) = 1. Pour tout k 1, notons

Ak := { ; n k, |Yn () Y ()| < } = {|Yn Y | < }.
nk
La suite (Ak )k1 est clairement croissante pour linclusion et sa runion est 0 . Par
continuit squentielle croissante de P , on a donc P (Ak ) P (0 ) = 1 (k +). Par
consquent,
> 0, k1 , P (Ak1 ) > 1 .
Pour tout n k1 , lvnement {|Yn Y | < } contient Ak1 , do
n k1 ,
P (|Yn Y | < ) > 1 .
En passant lvnement complmentaire, on obtient finalement

> 0, k1 N, n k1 ,
P (|Yn Y | ) < .
Ceci tablit la convergence vers 0 de P (|Yn Y | ). Comme tait quelconque, on a

bien convergence en probabilit de Yn vers Y .
Remarque 6.9. La convergence en probabilit nimplique pas la convergence presquesre. Voici un contre exemple. On prend comme espace probabilis (]0, 1], Bor(]0, 1]), ),
o est la restriction ]0, 1] de la mesure de Lebesgue sur R. On dfinit sur cet espace
les Yn comme suit :
Y1 = 1]0,1] ,
Y2 = 1]0,1/2] , Y3 = 1]1/2,1] ,
Y4 = 1]0,1/4] , Y5 = 1]1/4,1/2] , Y6 = 1]1/2,3/4] , Y7 = 1]3/4,1] ,
Y8 = 1]0,1/8] , Y9 = 1]1/8,1/4] , . . . . . . . . . . . . . . . . . . . . . . . . , Y15 = 1]7/8,1] ,
Y16 = 1]0,1/16] , . . . . . .
197

Le lecteur qui ne se satisferait pas de cette dfinition informelle peut toujours sexercer
trouver une formule explicite pour Yn . Sans entrer dans ces dtails techniques, on peut
facilement se convaincre de deux choses :
1. Pour tout ]0, 1], la suite de bits (Yn ())n1 est forme dune infinit de 0 et
dune infinit de 1. Elle ne peut donc converger (sa limite infrieure vaut 0 et sa
limite suprieure 1). Ainsi non seulement on na pas de convergence presque sre
de Yn , mais en plus Yn () ne converge pour aucun .
2. Pour 0 < < 1, P (|Yn 0| > ) = P (Yn = 1) = (In ), en notant In lintervalle
dyadique dont Yn est lindicatrice. La longueur (In ) de cet intervalle tend vers
zro quand n tend vers linfini ( la mme vitesse que linverse du logarithme en
base deux de n). Donc Yn converge vers 0 en probabilit.
Remarque 6.10. Il est toutefois possible dobtenir la convergence presque sre partir
de la convergence en probabilit, condition davoir une bonne vitesse de convergence
en probabilit. Le sens prcis de cette affirmation est donn par la proposition 6.6.
La proposition 6.6 permet aussi, mme sans bonne vitesse de convergence en probabilit, dobtenir de la convergence p.s. pour une sous-suite.
Proposition 6.11 (convergence p.s. dune sous-suite). Si la suite (Yn )n1 converge en
probabilit vers Y , on peut en extraire une sous-suite (Yni )i1 qui converge presque srement vers Y .
Preuve. Notons i = 2i . La convergence en probabilit de Yn vers Y implique pour tout
i 1, la convergence de P (|Yn Y | > i ) vers 0 quand n tend vers linfini. On en dduit
lexistence dune suite strictement croissante dindices ni telle que
i 1,

1
P |Yni Y | i 2 .
i
Vrifions maintenant que

> 0,
+
X
P (|Yni Y | ) < +.
i=1
En effet la convergence vers 0 de i nous assure de lexistence dun i0 = i0 () tel que pour
tout i i0 , i < . Pour i i0 , on a donc {|Yni Y | } {|Yni Y | i } et cette
inclusion dvnements nous permet de majorer le terme gnral de la srie ci-dessus par
i2 partir du rang i0 . Ainsi la suite (Yni ) converge presque compltement vers Y donc
aussi presque srement.
6.1.2
Convergence en moyenne dordre p
Nous introduisons maintenant un nouveau mode de convergence, utile notamment

dans les problmes dinterversion limite esprance.
198

Dfinition 6.12. Soit p 1 un rel et (Yn )n1 une suite de v.a. ayant un moment
absolu dordre p fini. On dit que cette suite converge en moyenne dordre p (ou au sens
Lp ) vers la v.a. Y si

(6.19)
lim E |Yn Y |p = 0.
n+
Lp
Notation : Yn Y .
n+
Remarque 6.13. Si Yn converge vers Y en moyenne dordre p, Y a ncessairement

un moment absolu dordre p fini. Pour le voir, on utilise la convexit de la fonction
: R+ R+ , x 7 xp , pour p 1. Ceci signifie que la corde entre deux points de
son graphe est au dessus de larc de courbe correspondant, ou encore que limage
du barycentre est majore par le barycentre des images ,
la figure 6.1. Cette
voir
1
(a)
+ 12 (b), ce qui
convexit implique notamment que pour tous a, b 0, a+b
2
2
scrit encore
a, b 0, (a + b)p 2p1 (ap + bp ).
(6.20)
y=
xp
bp
1 p
a
2
+ 12 bp

a+b p
2
ap
a
a+b
2
Fig. 6.1 Convexit de x 7 xp et ingalit

a+b p
2
21 (ap + bp )
Par croissance de , ingalit triangulaire et (6.20) applique avec a = |Yn ()| et

b = |Y () Yn ()|, on voit que pour tout ,
p
|Y ()|p |Yn ()| + |Y () Yn ()| 2p1 |Yn ()|p + 2p1 |Y () Yn ()|p .
Par croissance de lesprance, on en dduit :
E|Y |p 2p1 E|Yn |p + 2p1 E|Y Yn |p .
Ce majorant est fini car E|Yn |p est fini par hypothse et E|Y Yn |p tend vers 0 donc est
fini au moins pour n assez grand.
199

Proposition 6.14. La convergence en moyenne dordre p implique la convergence en
probabilit.
Preuve. Cest une consquence immdiate de lingalit de Markov avec moment, cf.
proposition 4.38, puisque

E |Yn Y |p
> 0, P |Yn Y |
.
p
Remarque 6.15. Par contre, il ny a aucune implication entre convergence p.s. et

convergence en moyenne dordre p. Pour voir que la convergence Lp nimplique pas la
convergence p.s., le contre exemple dj vu la remarque 6.9 fait laffaire car on vrifie
(exercice) que la suite Yn de cet exemple converge au sens Lp vers 0 (pour tout p 1).
Voici maintenant un contre exemple montrant que la convergence p.s. nimplique pas la
convergence Lp . On prend U de loi uniforme sur [0, 1] et on pose Yn := n2 1[0,1/n] (U ). On
voit facilement que

P ; lim Yn () = 0 = P U ]0, 1] = 1,
n+
do la convergence presque-sre de Yn vers la v.a. constante 0. Dautre part, Yn est une

v.a. discrte ne prenant que les valeurs 0 ou n2 et on a immdiatement E|Yn |p = n2p1 .
Le fait que ce moment absolu dordre p tende vers + avec n interdit la convergence
Lp de la suite (Yn ). Pour sen convaincre, supposons que Yn converge vers Y au sens Lp .
Alors E|Y |p doit tre fini et par lingalit de convexit (6.20), on obtient
E|Yn |p 2p1 E|Y |p + 2p1 E|Yn Y |p ,
ce qui est impossible puisque le premier membre tend vers linfini avec n tandis que le
second membre reste born.
Il y a une hirarchie entre les convergences Lp pour diverses valeurs de p et cest
la mme que celle tablie la proposition 4.37 pour lexistence des moments absolus
dordre p.
Lr
Proposition 6.16 (hirarchie des convergences Lp ). Si 1 p < r < + et si Yn

n+
Lp
Y , alors Yn Y .
n+
Preuve. Posons Zn := |Yn Y |. Il sagit de montrer que la convergence vers 0 de E(Znr )

implique celle de E(Znp ) vers 0. Fixons arbitraire dans ]0, 1[. On commence par le
dcoupage
Z +
Z +
Z 1
p
p
p
P (Znp > t) dt.
(6.21)
E(Zn ) =
P (Zn > t) dt =
P (Zn > t) dt +
0
200

Pour tout rel x 1, on a xp xr puisque p < r. On en dduit que linclusion
dvnements {Znp > t} {Znr > t} est vraie pour tout t 1, do
Z +
Z +
p
P (Znr > t) dt E(Znr ).
(6.22)
P (Zn > t) dt
1
Comme ce dernier majorant tend vers 0 quand n tend vers +, on peut trouver un
entier n1 = n1 () tel que
Z +
P (Znp > t) < .
(6.23)
n n1 ,
1
Rappelant que < 1, on a dautre part

Z 1
Z
Z 1
p
p
P (Znp > t) dt
P (Zn > t) dt +
P (Zn > t) dt =
0
Z 1
Z0
P (Znp > t) dt
dt +
0
Z 1
= +
P (Zn > t1/p ) dt
+ (1 )P (Zn > 1/p ),

do finalement
n N ,
P (Znp > t) dt + P (Zn > 1/p ).
(6.24)
Par la proposition 6.14, la convergence de Zn vers 0 au sens Lr implique sa convergence

en probabilit 5 . Par consquent P (Zn > 1/p ) converge vers 0 quand n tend vers +,
ce qui nous assure de lexistence dun entier n2 = n2 () tel que
Z 1
n n2 ,
P (Znp > t) dt 2.
(6.25)
0
On dduit de (6.21), (6.23) et (6.25) que

n n0 := max(n1 , n2 ),
E(Znp ) < 3.
Comme tait arbitraire dans ]0, 1[, E(Znp ) tend bien vers 0 quand n tend vers +.
Remarque 6.17. La dmonstration classique de la proposition 6.16 est plus rapide que
celle prsente ci-dessus puisquelle est une consquence immdiate de lingalit
(E|X|p )1/p (E|X|r )1/r ,
1 p < r < +.
On pourra ventuellement voir cette ingalit en exercice. La preuve propose ci-dessus,

certes moins lgante, a nanmoins lavantage de donner comme sous-produit le rsultat
suivant qui a son intrt propre.
5. Remarquer que E(Znr ) = E|Zn 0|r et donc que la convergence Lr de Zn vers 0 quivaut la
convergence vers 0 de E(Znr ). Cette simplification est particulire la limite 0, on na bien sr pas
quivalence en gnral entre convergence de Zn vers Z au sens Lr et convergence de E|Zn |r vers E|Z|r .
201

Proposition 6.18. Si la suite de variables alatoires Yn est borne par une constante
positive c (ou plus largement si pour tout n, P (|Yn | c) = 1) et converge en probabilit
vers Y , alors Yn converge au sens Lp vers Y , pour tout p 1. En particulier pour p = 1,
on en dduit linterversion limite esprance : limn+ EYn = EY .
Largument de la preuve est essentiellement le mme que ci-dessus, modulo quelques
adaptations mineures que lon vous laisse le soin de rdiger en exercice.
Nous allons maintenant tablir le clbre thorme de convergence domine qui est
trs utile pour linterversion limite esprance.
Thorme 6.19 (convergence domine). On suppose que les variables alatoires relles
Yn (n 1), Y et Z dfinies sur le mme espace probabilis (, F, P ) vrifient
a) Yn converge presque-srement vers Y quand n tend vers + ;
b) pour tout n 1, |Yn | Z p.s. ;
c) Z est intgrable.
Dans ces conditions,
1. les Yn et Y sont intgrables ;
2. Yn converge vers Y au sens L1 , i.e. E|Yn Y | 0 ;
3. on a linterversion limite esprance : limn+ EYn = EY .
Preuve. En utilisant a), b) et le lemme 6.2, on vrifie facilement lexistence dun vnement 0 F de probabilit 1 tel que
0 , n 1,
|Yn ()| Z() et |Y ()| Z().
(6.26)
Remarquons que pour tout vnement A, P (A 0c ) P (0c ), do :

quand P (0 ) = 1, A F,
P (A 0c ) = 0 et P (A 0 ) = P (A).
(6.27)
On en dduit de (6.26) et (6.27) que

t 0,
P (|Yn | > t) = P ({|Yn | > t} 0 ) P ({Z > t} 0 ) = P (Z > t)
et de mme avec Y la place de Yn . En intgrant sur R+ relativement t, on obtient

grce c) les ingalits
E|Yn | EZ < +,
E|Y | EZ < +,
qui tablissent lintgrabilit des Yn et de Y .

Une fois tablie cette intgrabilit et donc lexistence de EYn et EY , on remarque
que linterversion limite esprance est une consquence immdiate de la convergence L1
en raison de lingalit :
|EYn EY | = |E(Yn Y )| E|Yn Y |.
202

Il nous reste alors prouver la convergence L1 , autrement dit, en posant Zn := |Yn Y |,
la convergence vers 0 de EZn .
Pour cela on utilise comme dans la preuve de la proposition 6.16 un dcoupage en 3 de
lintgrale dfinissant EZn en crivant pour > 0 arbitraire et b = b() convenablement
R + R R b R +
choisi, 0 = 0 + + b . Voyons dabord le choix de b. Par ingalit triangulaire,
Zn 2Z sur 0 , ce qui grce (6.27) nous donne pour tout t > 0, P (Zn > t)
P (2Z > t). La variable alatoire Z tant intgrable par hypothse c), il en est de mme
pour
R + 2Z, ce qui implique la convergence dans R+ de lintgrale de Riemann gnralise
P (2Z > t) dt. On peut donc choisir b assez grand (et suprieur ) pour que
R0+
P (2Z > t) dt < . On a alors
b
n N ,
P (Zn > t) dt
b
Z
P (Zn > t) dt
Rb
(6.28)
P (Zn > t) dt en crivant
P (Zn > t) dt + (b )P (Zn > ) + bP (Zn > ).
dt +
0
P (2Z > t) dt < .

b
Ensuite on contrle lintgrale

Z
Par lhypothse a), Zn converge presque-srement vers 0, donc converge aussi en probabilit vers 0. On peut donc trouver un entier n0 = n0 () tel que bP (Zn > ) < pour
tout 6 n n0 . On a alors
Z b
n n0 ,
P (Zn > t) dt < 2.
(6.29)
0
En recollant les morceaux partir de (6.28) et (6.29), on obtient

Z
n n0 ,
EZn =
P (Zn > t) dt +
0
P (Zn > t) dt < 3.

b
Comme > 0 tait arbitraire, ceci tablit la convergence vers 0 de EZn et achve la
preuve.
6.1.3
Bilan sur les convergences de v.a.
Arriv ce stade, il est bon de faire le point sur les diffrents modes de convergence
tudis. Le diagramme de la figure 6.2 rsume les relations entre ces modes de convergence. Les flches en trait plein reprsentent des implications (si la suite converge selon
le mode de la case de dpart, alors elle converge aussi selon celui de la case darrive).
Les flches en tirets signifient lexistence dune sous-suite convergente selon le mode de
la case darrive. La convergence en loi sera tudie ultrieurement.
6. Noter que b dpend de et peut trs bien tendre vers + quand tend vers 0, mais que lon
travaille avec un arbitraire fix, donc aussi avec b fix.
203
Lr
(1 p < r < +)
?
Lp

p.s.
- Pr.
- en loi
Fig. 6.2 Diagramme des convergences des suites de v.a.

Signalons deux proprits communes aux trois modes de convergence tudis jusquici
(vrification laisse au lecteur).
Dabord la limite pour ces modes de convergence nest pas strictement parler
unique. Elle lest modulo lgalit presque sre. Notons (m), (m0 ) lun des trois modes
de convergence (p.s., en probabilit ou Lp ). On peut vrifier que si Yn converge vers Y
au sens (m) et vers Y 0 au sens (m) alors Y = Y 0 presque-srement (la rciproque est
vidente). Dautre part si Yn converge au sens (m) vers Y et au sens (m0 ) vers Y 0 , ces
deux convergences impliquent la convergence en probabilit de Yn vers Y et vers Y 0 ,
donc lgalit p.s. de Y et Y 0 .
Chacun des trois modes de convergence est compatible avec la structure despace
(m)
(m)
(m)
(m)
vectoriel. Si Xn X et Yn Y , Xn + Yn X + Y et aXn aX pour tout

a R.
6.2
Loi des grands nombres
Nous abordons maintenant les lois des grands nombres. Il sagit dtudier la convergence des moyennes arithmtiques Sn /n construites partir dune suite de variables
alatoires (Xi )i1 en posant Sn := X1 + + Xn . Si Sn /n converge en probabilit, on
parle dune loi faible des grands nombres, tandis que si elle converge presque-srement
on parle dune loi forte.
6.2.1
Loi faible des grands nombres
Rappelons que si X est de carr intgrable (EX 2 < +), sa variance est dfinie par
Var X := E(X EX)2 .
204
6.2. Loi des grands nombres

Les Xk sont dites deux deux non-corrles si Cov(Xi , Xj ) = 0 pour tous i, j distincts. Ceci se produit en particulier lorsque les Xk sont deux deux indpendantes, cf.
prop. 5.48. Pour des Xk deux deux non-corrles, on dduit immdiatement de (5.9)
lgalit
n
X
Var Sn =
Var Xk .
(6.30)
k=1
Proposition 6.20 (ingalit de Bienaym-Tchebycheff). Si les Xk sont de carr intgrable et deux deux non-corrles,
t > 0,
n
n

X

1X

P (Xk EXk ) t 2
Var Xk .
t k=1
k=1
(6.31)
Preuve. Il suffit dcrire :

1
E(Sn ESn )2
t2
1
= 2 Var Sn ,
t

P |Sn ESn | t = P |Sn ESn |2 t2
(6.32)
o lingalit dans (6.32) est lingalit de Markov applique la variable alatoire

positive |Sn ESn |2 . On conclut avec (6.30).
Thorme 6.21 (loi faible des grands nombres). Si les Xk sont de mme loi, de carr
intgrable et deux deux non-corrles, on a la convergence en probabilit :
n
1X
Pr
Xk EX1 .
n+
n k=1
(6.33)
Preuve. Comme les Xk ont mme loi, on a pour tout k les galits EXk = EX1 et
Var Xk = Var X1 . Comme elles sont aussi deux deux non-corrles, (6.30) nous donne
Var Sn = n Var X1 . Par linarit de lesprance on a aussi ESn = nEX1 . Lingalit de
Bienaym-Tchebycheff nous dit alors que :
t > 0,

n Var X1
.
P |Sn ESn | t = P |Sn nEX1 | t
t2
Posant t = n, on en dduit :
> 0, n N ,

S
n Var X

Var X1
n

1
P |Sn nEX1 | n = P EX1
=
.
2
2
n
n
n2
Pour tout > 0 fix, on a ainsi

S
Var X
n

1
P EX1
0,
2
n+
n
n
ce qui tablit la convergence en probabilit de la suite de variables alatoires Sn /n vers
la variable alatoire constante EX1 .
205
6.2.2
Loi forte des grands nombres
Dans le cadre de ce cours, nous limiterons notre tude des lois fortes des grands
nombres au cas o les Xk sont i.i.d. (indpendantes identiquement distribues), cest-dire indpendantes et de mme loi.
Thorme 6.22 (loi forte des grands nombres de Khintchine). On suppose les Xk
indpendantes, de mme loi et E|X1 | < +. Alors
n
1X
p.s.
Xk EX1 .
n+
n k=1
(6.34)
Ce rsultat est le meilleur possible en raison du thorme suivant.

Thorme 6.23 (rciproque de la l.f.g.n. de Khintchine). Soit (Xk )k1 une suite de
variables alatoires indpendantes et de mme loi telle que Sn /n converge presque srement. Alors E|X1 | < + et la limite p.s. de Sn /n est la constante EX1 .
La dmonstration de ces deux thormes sort du cadre de ce cours. Nous nous contenterons de prouver le thorme 6.22 sous lhypothse plus restrictive E(X12 ) < +.
Preuve de (6.34) pour des Xk i.i.d. de carr intgrable. Puisque les Xk ont mme loi,
elles sont intgrables comme X1 et de mme esprance. On en dduit que Sn et Sn /n
sont intgrables et que par linarit de lesprance,
S
1
1
ESn = (nEX1 ) = EX1 .
n
n
n
P
Posons Xk0 := Xk EXk et Sn0 := nk=1 Xk0 = Sn nEX1 . Alors Sn0 /n = Sn /n EX1 ,
donc la convergence p.s. de Sn /n vers EX1 quivaut la convergence p.s. de Sn0 /n vers
0 (noter aussi que les Xk0 sont i.i.d., proprit hrite des Xk ). On ne perd donc pas de
gnralit en supposant dsormais pour le confort dcriture que EX1 = 0. On a alors
Var X1 = E(X12 ) =: 2 et il sagit maintenant de prouver que
E
Mn :=
1
p.s.
Sn 0.
n+
n
(6.35)
Montrons dans un premier temps que la sous-suite (Mn2 )n1 converge p.s. vers 0. En
effet lingalit de Bienaym-Tchebycheff nous donne pour tout > 0,
P (|Mn2 | ) = P (|Sn2 | n2 )
Var(Sn2 )
n2 Var X1
2
=
=
.
2 n 4
2 n 4
2 n 2
On en dduit que
> 0,
206
+
X
+
2 X 1
P (|Mn2 | ) 2
< +,
n=1 n2
n=1

ce qui implique par la proposition 6.6
p.s.
Mn2 0.
(6.36)
n+
Pour tout n N , notons r(n) la partie entire de n1/2 , ce qui nous donne lencadrement
2
r(n)2 n < r(n) + 1 .
(6.37)
La suite dentiers (r(n))n1 tend vers linfini comme n, mais avec des blocs de valeurs
rptes de plus en plus longs : r(n) = 4 pour n [16, 24[, r(n) = 5 pour n [25, 35[, etc.
Pour cette raison (Mr(n)2 )n1 nest pas proprement parler une sous-suite de (Mn )n1 .
Nous allons nanmoins voir que lon peut raccrocher le comportement asymptotique de
(Mn )n1 celui de (Mr(n)2 )n1 en commenant par crire :
Mn =
1
n
Xj +
1jr(n)2
1
n
Xj =
r(n)2 <jn
r(n)2 1
n r(n)2
Xj + Tn =
1jr(n)2
r(n)2
Mr(n)2 + Tn ,
n
o lon a pos
Tn :=
1
n
Xj .
r(n)2 <jn
Par indpendance des Xj , on a

Var Tn =

1
2
n
r(n)
Var X1 .
n2
(6.38)
En utilisant (6.37),
2

r(n)
+
1
r(n)2
1
2r(n) + 1
2n1/2 + 1
3
2
n
r(n)
3/2 .
2
2
2
2
n
n
n
n
n
En reportant cette majoration dans (6.38) et en utilisant lingalit de Markov avec
moment dordre 2 (noter que ETn = 0), on obtient
3 2 1
Var Tn
.
2
2 n3/2
Ce majorant tant le terme gnral dune srie convergente, on en dduit par une nouvelle
application de la proposition 6.6 :
> 0,
P (|Tn | > )
p.s.
Tn 0.
n+
(6.39)
Pour conclure, on crit

r(n)2
Mr(n)2 .
n
Comme r(n)2 /n est toujours dans [0, 1], on dduit de (6.36) et (6.39) que Mn converge
presque srement vers zro 7 .
Mn = Tn +
7. Noter que les suites (Mr(n)2 )n1 et (Mn2 )n1 ne sont pas les mmes. La premire a des squences
de termes conscutifs rpts de plus en plus longues et cest en effaant ces rptitions que lon retrouve
la deuxime. On voit ainsi que ces deux suites ont mme limite. vous de dcrire proprement la
justification de ce point.
207

Lapplication la plus simple et aussi une des plus importantes du thorme 6.22
est la convergence des frquences de succs dans une suite dpreuves rptes de Bernoulli indpendantes. Ce rsultat explique a posteriori lapproche frquentiste dans
la dfinition dune probabilit. En effet si (Xk )k1 est une suite de variables alatoires
de Bernoulli indpendantes et de mme paramtre p, le thorme 6.22 nous donne la
convergence presque sre de n1 Sn vers EX1 = p. Soit maintenant A F un vnement
et (Ak )k1 une suite dvnements indpendants de mme probabilit que A. En prenant
Xk = 1Ak et en notant que E1Ak = P (Ak ) = P (A), on obtient
n
1X
p.s.
1Ak P (A).
n+
n k=1
Par exemple si A est lvnement obtention du cinq lors du lancer dun d quilibr ,
ceci nous dit que la frquence dobtention du cinq en n lancers converge presque srement
vers 1/6 lorsque n tend vers linfini.
6.2.3
Laiguille de Buffon
titre dillustration historique de la loi forte des grands nombres, nous prsentons
maintenant une mthode exprimentale pour obtenir une approximation numrique du
nombre dont lintrt est essentiellement dordre culturel 8 . Cette mthode a t propose en 1 777 par le clbre naturaliste Buffon 9 . On trace sur une surface plane horizontale
des droites parallles quidistantes, spares par une distance a (on peut par exemple
utiliser les rainures dun parquet). On laisse tomber sur cette surface une aiguille de longueur ` a et une fois laiguille immobilise, on observe si elle coupe lune des droites
du rseau. On rpte lexprience en notant la frquence des intersections. Lorsque le
nombre dexpriences augmente indfiniment, cette frquence converge selon Buffon vers
2`
permettant ainsi dobtenir une estimation exprimentale du nombre .
p = a
1

1

chec
Succs
Cherchons une modlisation de cette exprience. On note Y la distance du milieu de

laiguille la droite du rseau la plus proche. Y prend ses valeurs dans [0, a2 ]. On note
8. Cest aussi un excellent problme de rvision.
9. Georges Louis Leclerc, comte de Buffon (17071788), auteur de lHistoire naturelle, organisateur
du Jardin des Plantes de Paris.
208

une mesure de langle entre les droites du rseau (toutes orientes dans le mme sens) et
laiguille oriente du chas vers la pointe. prend ses valeurs dans [0, 2] (par exemple) 10 .
3

6`
?2 |sin |
Y6
?

Y et sont des variables alatoires. La

connaissance du couple (Y (), ())
suffit pour savoir sil y a ou non intersection.
Nous ferons les hypothses suivantes sur les variables alatoires Y et :

(H1 ) Y suit la loi uniforme sur [0, a2 ].
(H2 ) suit la loi uniforme sur [0, 2].
(H3 ) Y et sont indpendantes.
On note E lvnement laiguille coupe lune des droites du rseau . La longueur de
la projection de la demi-aiguille sur une droite orthogonale au rseau est Z = 2` | sin |. Il
y a donc intersection si et seulement si la distance Y du centre de laiguille la droite du
rseau la plus proche est infrieure ou gale Z. Ceci nous permet dcrire lvnement
E sous la forme :

`
E = Y | sin | .
2
Comme Y et sont indpendantes, la loi du couple est le produit des lois marginales :
P(Y,) = PY P . Comme ces lois marginales sont densits par rapport 1 , on en
dduit que P(Y,) est densit fY f par rapport 2 . Do
1
1
2
1[0,a/2][0,2] (y, t).
f(Y,) (y, t) = fY (y)f (t) = 1[0,a/2] (y) 1[0,2] (t) =
a
2
a
On voit ainsi que le couple (Y, ) suit la loi uniforme sur le rectangle [0, a/2] [0, 2].
Notons D le borlien de R2 dfini par

`
D := (t, y) [0, 2] [0, a/2]; y | sin t| .
2
Comme lvnement E scrit aussi {(, Y ) D}, on peut calculer P (E) en utilisant la
loi du couple (, Y ) qui est la loi uniforme sur [0, 2] [0, a/2] :

P (E) = P (, Y ) D = P(,Y ) (D)
Z
=
f(,Y ) (y, t) dy dt
D

1
=
2 D [0, 2] [0, a/2]
a
1
=
2 (D),
a
10. On pourrait aussi utiliser les angles de droites, serait alors valeurs dans un intervalle de
longueur .
209

en remarquant que D [0, 2] [0, a/2]. Le calcul de P (E) se rduit ainsi celui de
laire de lhypographe de la fonction g : t 7 2` | sin t|1[0,2] (t).
a
2
`
2
Par consquent
Z
2 (D) =
0
`
| sin t| dt = `
2
sin t dt = 2`.
0
Finalement,
2`
.
a
On effectue une suite de lancers de laiguille et on note Ei lvnement lors du ime
lancer, laiguille intersecte une des droites du rseau . On pose Xi = 1Ei et
P (E) =
1X
Fn :=
Xi .
n i=1
Les Xi sont des variables alatoires de Bernoulli, de paramtre p := P (Ei ) = P (E). Elles
sont clairement intgrables, puisque bornes. Les Ei forment une suite dvnements
mutuellement indpendants et de mme probabilit p. Il en rsulte que les Xi forment
une suite de variables alatoires indpendantes et de mme loi Bern(p). Par la loi forte
des grands nombres pour des variables i.i.d. et intgrables,
n
Fn :=
1X
p.s.
Xi EX1 = P (E).
n+
n i=1
Compte-tenu du calcul de P (E), on peut rcrire ce rsultat sous la forme :

2`
p.s.
.
n+
aFn
Linterprtation physique est la suivante. Si on ralise une srie de lancers avec n grand,
la valeur Fn () observe nous fournira lapproximation
2`
' .
aFn ()
On considre ainsi quil est physiquement impossible dobserver un nappartenant pas
lvnement de probabilit 1 {Fn converge vers p}.
210

Le document de la page 212 reprsente les rsultats de 1200 lancers raliss avec une
allumette et un rseau trac sur une feuille de format A4. On a ici ` = a = 4, 5 cm
et p = 2 ' 0, 637. Les lancers sont regroups par dizaine. Les bits 0 ou 1 sont les
valeurs observes pour Xi (). Aprs chaque dizaine on a not le nombre dintersections
observes sur la dizaine et le nombre dintersections cumul depuis le dbut des lancers.
La table 6.1 prsente les frquences observes F10k pour k = 1, . . . , 120.
10k
100
200
300
400
500
600
700
800
900
1000
1100
1200
0,600
0,615
0,610
0,610
0,618
0,622
0,626
0,637
0,638
0,629
0,622
0,627
10
0,600
0,627
0,624
0,613
0,612
0,618
0,621
0,625
0,640
0,635
0,628
0,622
20
0,650
0,633
0,627
0,609
0,614
0,619
0,626
0,626
0,635
0,635
0,630
0,622
30
0,600
0,623
0,630
0,606
0,614
0,621
0,627
0,629
0,635
0,632
0,630
0,623
40
0,625
0,629
0,629
0,609
0,609
0,620
0,625
0,628
0,636
0,633
0,626
0,626
50
0,600
0,607
0,628
0,603
0,609
0,622
0,628
0,625
0,634
0,633
0,623
0,626
60
0,583
0,606
0,623
0,600
0,615
0,621
0,624
0,628
0,634
0,633
0,623
0,628
70
0,571
0,606
0,619
0,600
0,615
0,619
0,621
0,632
0,636
0,630
0,621
0,628
80
0,575
0,617
0,618
0,605
0,619
0,621
0,622
0,635
0,637
0,628
0,620
0,628
90
0,611
0,616
0,610
0,610
0,614
0,624
0,623
0,637
0,638
0,629
0,622
0,627
Tab. 6.1 Tableau des frquences observes

Cette exprience permet de proposer lestimation :
'
2
' 3, 1898.
0, 627
Si vous avez la patience et le loisir de raliser votre propre exprience, vous trouverez
probablement une valeur lgrement diffrente. . .
Bien entendu, cette mthode pour calculer nest pas trs performante. On peut
montrer que sa vitesse de convergence est en O(n1/2 ). Son intrt est essentiellement
dordre culturel et historique.
211

Rsultats de 1200 lancers
0111110001
0101111011
0011100110
1110011101
1110000011
0001111001
1101000101
1101111000
1111011111
1000100111
6
7
5
7
5
5
5
6
9
5
6
13
18
25
30
35
40
46
55
60
1111111011
1110100111
0111100010
1110111100
0000100101
0001111011
1110011001
1011111110
1101010101
1100100111
9
7
5
7
3
6
6
8
6
6
69
76
81
88
91
97
103
111
117
123
1011111110
1001110111
1101101110
1001011110
0111110001
1101001001
1101001100
1110100101
0110001100
1011010110
8
7
7
6
6
5
5
6
4
6
131
138
145
151
157
162
167
173
177
183
1011101011
1101100010
1100000111
0001111111
0010001101
0101001011
0100111011
0111111101
1111111010
1110001011
7
5
5
7
4
5
6
8
8
6
190
195
200
207
211
216
222
230
238
244
0111110011
0110110111
1011110010
0000111001
0111100101
1111111101
1101010101
0111111110
0011101000
0111111101
7
7
6
4
6
9
6
8
4
8
251
258
264
268
274
283
289
297
301
309
1101100110
1011011101
1100101111
1111010010
1110001111
0101001111
1001100101
1101111001
1010111111
0111101000
6
7
7
6
7
6
5
7
8
5
315
322
329
335
342
348
353
360
368
373
1001110011
1111011111
0110011111
1000011101
1111100111
1010010001
0100001110
1111011010
1010111110
1101011111
6
9
7
5
8
4
4
7
7
8
379
388
395
400
408
412
416
423
430
438
1011011100
1011111010
1011110111
0011001111
1000001101
1011011111
1111111111
1011111101
1011111101
1110011101
6
7
8
6
4
8
10
8
8
7
444
451
459
465
469
477
487
495
503
510
0111111110
0100010010
0101101011
0011111011
1100100101
1010110110
1111101101
1110111101
1110110110
0111001101
8
3
6
7
5
6
8
8
7
6
518
521
527
534
539
545
553
561
568
574
1000010110
0110110110
1000101100
1011011101
1100110110
1111011010
0001000110
0001110001
1111100111
0010111110
4
6
4
7
6
7
3
4
8
6
578
584
588
595
601
608
611
615
623
629
1101001001
1110111111
0110110110
1000001000
1000011000
0111001011
1100010100
0101110110
1111111001
0000111111
5
9
6
2
3
6
4
6
8
6
634
643
649
651
654
660
664
670
678
684
1100110011
1010111101
1010111110
1111111111
0011011110
0111111110
1001111101
0100111101
0100110101
1110101010
6
7
7
10
6
8
7
6
5
6
690
697
704
714
720
728
735
741
746
752
212
Annexe A
Intgrale de Riemann sur [a, b]
A.1
Construction
Soit [a, b] un intervalle ferm born de R. On appelle subdivision de [a, b] toute suite
finie du type = {x0 = a < x1 < < xn = b}. Pour une fonction borne f : [a, b] R,
( < a < b < +), on dfinit ses sommes de Darboux infrieure S (f ) et suprieure
S (f ) par
S (f ) :=
n
X
(xk xk1 )
k=1
inf
f,
S (f ) :=
[xk1 ,xk ]
n
X
(xk xk1 ) sup f.

[xk1 ,xk ]
k=1
Pour une illustration, voir les figures A.1 et A.2.

y
xk
xk+1
Fig. A.1 S (f )
213
Annexe A. Intgrale de Riemann sur [a, b]

y
xk
xk+1
Fig. A.2 S (f )
On dit que la subdivision 0 est un raffinement de si lensemble des valeurs de la suite
finie est inclus dans celui des valeurs de la suite 0 , ce que nous noterons avec un
lger abus 0 . Il est facile de vrifier que
0
S (f ) S0 (f ) et S (f ) S (f ).
Les figures A.3 et A.4 illustrent leffet de ladjonction la subdivision des figures A.1
et A.2 de deux nouveaux points.
Les intgrales de Riemann infrieure I (f ) et suprieure I (f ) sont dfinies par
I (f ) := sup S (f ),
I (f ) := inf S (f ),
le supremum et linfimum tant pris sur toutes les subdivisions de [a, b].
Pour 1 et 2 subdivisions de [a, b] on a clairement

S1 (f ) S1 2 (f ) S 1 2 (f ) S 2 (f ),
do S1 (f ) S 2 (f ). En prenant successivement le sup sur tous les 1 , puis linf sur
tous les 2 , on en dduit
I (f ) I (f ),
ingalit vrifie par toute fonction borne f : [a, b] R.
Dfinition A.1. On dit que f borne [a, b] R est Riemann intgrable si avec les
notations ci-dessus, I (f ) = I (f ). Dans ce cas on dfinit son intgrale au sens de
Rb
Riemann note a f (x) dx par
Z b
f (x) dx := I (f ) = I (f ).
a
214
A.1. Construction
xk
xk+1
Fig. A.3 Si 0 , S (f ) S0 (f )
xk
xk+1
0
Fig. A.4 Si 0 , S (f ) S (f )
215

Rb
Il est commode de donner aussi une dfinition de a f (x) dx lorsque b < a. Cette
dfinition peut se justifier en reprenant toute ltude prcdente avec des subdivisions
de [b, a] par des suites finies dcroissantes 1 a = x0 > x1 > > xn1 > xn = b.
En conservant les mmes dfinitions de S (f ) et S (f ), le seul changement par rapport
aux subdivisions croissantes de [b, a] est que les (xk xk1 ) sont ngatifs ce qui implique
une inversion des ingalits entre S (f ) et S (f ), on a maintenant S (f ) S (f ).
Associons chaque subdivision dcroissante de [b, a], la subdivision retourne 0 =
{x00 , x01 , . . . , x0n } dfinie par x00 = xn , x01 = xn1 , . . . , x0n = x0 . Alors 0 est une subdivision
0
croissante de [b, a] et S (f ) = S (f ), S0 (f ) = S (f ). On en dduit immdiatement
que
0
I (f, a, b) := sup S (f ) = inf0 S (f ) =: I (f, b, a),
(A.1)
I (f, a, b) := inf S (f ) = sup S0 (f ) =: I (f, b, a),
(A.2)
les infima et suprema indexs par sentendant pour toute subdivision dcroissante de
a b et ceux indexs par 0 pour toute subdivision croissante de [b, a]. On dfinit alors
lintgrabilit de f de a b par la condition I (f, a, b) = I (f, a, b), dont on voit par
(A.1) et (A.2) quelle quivaut I (f, b, a) = I (f, b, a), cest--dire lintgrabilit de
Rb
f sur [b, a]. En dfinissant enfin a f (x) dx comme la valeur commune de I (f, a, b) et
Rb
Ra
I (f, a, b), on obtient a f (x) dx = b f (x) dx, cette dernire intgrale relevant de la
dfinition A.1. Tout ceci lgitime la dfinition formelle suivante.
Dfinition A.2. Si < b < a < +, on dit que f est Riemann intgrable de a b
si elle est Riemann intgrable sur [b, a] et on pose dans ce cas :
Z b
Z a
f (x) dx :=
f (x) dx.
(A.3)
a
Ra
Remarque A.3 (variable dintgration). Dans lcriture b f (x) dx, la variable dintgration x est muette , on peut la remplacer par nimporte quelle autre lettre
Pn(sauf
ici a, b ou f ). Cette variable joue le mme rle que lindice i de sommation dans i=1 ui
qui est lui aussi muet.
Remarque A.4 (intgrale de Riemann et aire). Soit f une fonction positive et Riemann
Rb
intgrable sur [a, b]. On interprte classiquement a f (x) dx comme laire de lhypographe
de f entre a et b, i.e. de la rgion du plan dlimite par laxe des abscisses, les droites
verticales dquation x = a ou x = b et le graphe 2 de f , la courbe dquation y = f (x),
x [a, b]. Voici une justification informelle de cette affirmation, dont on pourra se contenter en premire lecture. Reprenons la fonction f des figures A.1 et A.2. Lhypographe
H de f est reprsent figure A.5. On peut se convaincre visuellement , cf. figure A.1,
1. Rappelons que pour tous rels a et b, [a, b] est dfini comme lensemble des x rels tels que
a x b. Ainsi pour b < a, [a, b] est lensemble vide. Cest pour cela que lon subdivise ici [b, a] et non
[a, b]. De mme on parlera dintgrale de f de a b mais pas dintgrale de f sur [a, b] quand b < a.
2. Do le nom hypographe , littralement ce qui est sous le graphe.
216
A.1. Construction
y
Fig. A.5 Hypographe H de f entre a et b
que pour toute somme de Darboux infrieure laire des rectangles coloris gale S (f )
est infrieure laire de lhypographe de f . De mme cf. figure A.2, pour toute somme
de Darboux suprieure, laire des rectangles coloris gale S (f ) est suprieure laire
de lhypographe. Laire de H est donc un majorant de toute S et un minorant de toute
S . Do
I (f ) = sup S (f ) aire(H) inf S (f ) = I (f ).
Par Riemman intgrabilit de f , I (f ) = I (f ) =
Rb
a
f (x) dx, do aire(H) =
Rb
a
f (x) dx.
Pour les lecteurs exigeants que la remarque A.4 laisserait insatisfaits, nous proposons
et dmontrons ci-dessous un nonc plus prcis. Pour cela, il convient dabord de sinterroger sur la dfinition mathmatique de laire de H. Dans le cadre de ce cours, nous avons
admis lexistence de la mesure de Lebesgue 2 sur R2 , dfinie comme lunique mesure
sur la tribu borlienne de R2 vrifiant (]x1 , x2 ]]y1 , y2 ]) = (x2 x1 )(y2 y1 ) pour tout
pav semi-ouvert ]x1 , x2 ]]y1 , y2 ] de R2 , voir lexemple 2.13 p. 56. Cest cette mesure de
Lebesgue qui donne un sensR mathmatique prcis la notion daire. On se propose donc
b
de montrer que 2 (H) = a f (x) dx. Pour que cela ait un sens, encore faut-il que H
soit un borlien de R2 . Une condition suffisante pour que H soit un borlien de R2 est
que la fonction f soit borlienne, cest--dire mesurable (voir def. 3.1 93) pour les tribus
borliennes de [a, b] et de R. La preuve de cette affirmation sort du programme de ce
cours 3 . Signalons simplement que tous les exemples de fonctions Riemman intgrables
donns dans la suite de ce document fonctions monotones, continues, rgles sont
borliennes. Les seules proprits de 2 utilises dans ce qui suit sont la croissance et
ladditivit finie proprits vrifies par toute mesure, voir p. 51 et le fait que les
frontires des pavs sont de 2 -mesure nulle 4 , voir la proposition 2.14 v).
3. Voir le cours dIFP 2003-2004 chapitre 5.
4. En ralit on a seulement besoin de savoir que si J est un segment vertical {a}[y1, y2 ], 2 (J) = 0
et de mme pour un segment horizontal. Ceci se dmontre facilement en exercice en utilisant la croissance
217

Proposition A.5. Soit f : [a, b] R une fonction positive et Riemann intgrable sur
[a, b]. On suppose de plus que son hypographe entre a et b
H := {(x, y) R2 ; a x b et 0 y f (x)}
est un borlien de R2 . Alors
(A.4)
f (x) dx,
2 (H) =
(A.5)
autrement dit lintgrale de f entre a et b est laire de lhypographe de f entre a et b.

Preuve. Soit = {x0 = a < x1 < < xn = b} une subdivision quelconque de [a, b].
Notons pour k = 1, . . . , n,
mk :=
inf
[xk1 ,xk ]
f,
Mk :=
sup f.
[xk1 ,xk ]
Dfinissons les rectangles R,k par

R,1 := [a, x1 ] [0, m1 ],
R,k :=]xk1 , xk ] [0, mk ] pour k = 2, . . . , n,
et notons R,k les rectangles obtenus en remplaant mk par Mk , k = 1, . . . , n. Posons

enfin
n
n
R := R,k , R := R,k .
k=1
k=1
Commenons par justifier la double inclusion

,
R H R .
(A.6)
Soit (x0 , y 0 ) un lment quelconque de la runion R . Il appartient donc un R,k0 do

xk0 1 x0 xk0 et 0 y 0 mk0 f (x0 ) car mk0 est linfimum de f sur [xk0 1 , xk0 ].
Le couple (x0 , y 0 ) vrifie ainsi les ingalits a xk0 1 x xk0 b et 0 y 0 f (x),
donc appartient H. Ceci justifie la premire inclusion dans (A.6). Soit maintenant
(x00 , y 00 ) un lment quelconque de H, donc vrifiant a x00 b et 0 y 00 f (x00 ). La
subdivision induit la partition de [a, b] en les intervalles J1 := [a, x1 ], Jk :=]xk1 , xk ],
k = 2, . . . , n. Il existe donc un unique indice k 00 entre 1 et n tel que Jk00 contienne x00 .
On a alors 0 y 00 f (x00 ) Mk00 car Mk00 est le supremum de f sur [xk00 1 , xk00 ]. Ainsi
00
(x00 , y 00 ) appartient R,k , donc aussi R , ce qui justifie la deuxime inclusion dans
(A.6).
Comme R , H et R sont des borliens de R2 , on deduit de (A.6) par croissance de
2 que
,
2 (R ) 2 (H) 2 (R ).
(A.7)
Calculons maintenant 2 (R ). Les R,k tant deux deux disjoints, on a par additivit
finie de 2 :
n
X
2 (R ) =
2 (R,k ).
(A.8)
k=1
de . Faites le !
218
A.2. Riemann intgrabilit

Par la proposition 2.14 v) ou par la note 4 p. 217, on a pour tout k = 1, . . . , n, 2 (R,k ) =
(xk xk1 )mk , do en reportant dans (A.8), 2 (R ) = S (f ). De mme il est clair que
2 (R ) = S (f ). On dduit alors de (A.7) que
,
S (f ) 2 (H) 2 (R ).
(A.9)
La premire ingalit dans (A.9) nous dit que le rel 2 (H) qui ne dpend pas de
majore toutes les sommes de Darboux infrieures S (f ). Il majore donc aussi leur supremum I (f ). Par la deuxime ingalit, 2 (H) minore toutes les S (f ), donc minore
aussi leur infimum I (f ). Nous obtenons ainsi lencadrement
I (f ) 2 (H) I (f ).
Comme f est Riemann intgrable, I (f ) = I (f ), donc 2 (H) = I (f ) = I (f ) =
Rb
f (x) dx.
a
Remarque A.6. La mesure 2 tant invariante par la symtrie (x, y)
7 (x, y) cf.
prop. 2.14 ii), on obtient immdiatement une version de la proposition A.5 pour une
fonction g ngative sur [a, b] en remplaant H par
H 0 := {(x, y) R2 ; a x b et g(x) y 0}.
En effet en posant f = g, il vient
0
A.2
|g(x)| dx.
f (x) dx =
2 (H ) = 2 (H) =
(A.10)
Riemann intgrabilit
Dans cette section nous examinons la Riemann intgrabilit de certaines familles de

fonctions. Les deux plus importantes en pratique sont celle des fonctions monotones
et celle des fonctions continues. On gnralise la Riemann intgrabilit des fonctions
continues au cas des fonctions bornes continues sur [a, b] sauf en un nombre fini de
points, comme celle de la figure A.1. Enfin nous tablissons que toute limite uniforme
sur [a, b] dune suite de fonctions Riemann intgrables sur [a, b] est encore Riemann
intgrable. Ceci nous donne notamment la Riemann intgrabilit de toutes les fonction
rgles, i.e. limites uniformes de fonctions en escalier. Les fonctions en escaliers sont
les plus simples de toutes les fonctions Riemann intgrables et cest par elles que nous
commenons cette tude.
Dfinition A.7 (fonction en escalier). Une application f : [a, b] R est appele fonction en escalier sur [a, b], sil existe une subdivision 0 = {t0 = a < t1 < < tj = b}
telle que f soit constante sur chaque intervalle ouvert ]ti1 , ti [, i = 1, . . . , j.
Il est clair que 0 nest pas unique, en particulier pour tout raffinement 00 de 0 ,
f est constante sur chacun des intervalles ouverts ayant pour extrmits deux points
219

conscutifs de 00 . Il y a donc une infinit de subdivisions telles que f en escalier
soit constante sur chacun des intervalles ouverts de (i.e. les intervalles ayant pour
extrmits deux points conscutifs de ). Nous appelerons subdivision associe f en
escalier, toute subdivision telle que f soit constante sur chacun des intervalles ouverts
de . La moins fine des subdivisions associes f en escalier est constitue des points
a et b et des points de discontinuit de f dans ]a, b[.
Proposition A.8 (intgrabilit dune fonction en escalier). Soit f une fonction en
escalier sur [a, b] et 0 = {t0 = a < t1 < < tj = b} une subdivision associe f ,
la valeur constante de f sur ]ti1 , ti [ tant note ci . Alors f est Riemann intgrable sur
[a, b] et on a
Z b
j
X
f (x) dx =
(ti ti1 )ci .
(A.11)
a
i=1
Rb
Remarquons que comme a f (x) dx ne dpend, lorsquelle existe, que de f , (A.11)

implique que si 1 = {s0 = a < s1 < < sl = b} est une autre subdivision associe
f et en notant dk la valeur constante de f sur ]sk1 , sk [, k = 1, . . . , l, on a
j
X
(ti ti1 )ci =
i=1
l
X
(sk sk1 )dk .
k=1
Preuve. Dabord, f est borne puisque f ([a, b]) = {c1 , . . . , cj } {f (t0 ), . . . , f (tj )} qui
est fini (de cardinal au plus 2j + 1) donc born dans R. Pour chaque vrifiant
0<<
1
min (ti ti1 ),
2 1ij
(A.12)
notons la subdivision construite en adjoignant 0 les points t0 + , t1 , t1 + , t2

, t2 + , . . . , tj1 + , tj . Notons en outre
m0i :=
inf
|ti x|
m := inf f (x),
M := sup f (x),
x[a,b]
x[a,b]
f (x) = min(ci , ci+1 , f (ti )),
Mi0 := sup f (x) = max(ci , ci+1 , f (ti )),

|ti x|
avec ladaptation vidente pour i = j. On a bien sr Mi0 M et m0i m pour tout i.

Avec ces notations on a
S
(f ) =
j
X
(ti ti1 2)ci +
M00
Mj0
+ 2
i=1
j
j1
X
Mi0
i=1
(ti ti1 )ci + 2j(M m).
(A.13)
i=1
De mme avec les
m0i
la place de Mi0 on obtient

S (f )
j
X
(ti ti1 )ci 2j(M m).
(A.14)
i=1
220

Soit > 0 quelconque, en choisissant = () vrifiant la fois (A.12) et 2j(M m) < ,
on dispose ainsi par (A.13) et (A.14) dune subdivision () telle que
j
X
(ti ti1 )ci < S() S
()
j
X
<
i=1
(ti ti1 )ci + .
i=1
On en dduit pour tout > 0 lencadrement :

j
X
(ti ti1 )ci < I (f ) I (f ) <
j
X
i=1
(ti ti1 )ci + ,
i=1
puis en faisant tendre vers 0 que
I (f ) = I (f ) =
j
X
(ti ti1 )ci ,
i=1
ce qui tablit lintgrabilit de f et (A.11).

Proposition A.9 (intgrabilit dune fonction monotone). Si f : [a, b] R est monotone sur [a, b], elle est Riemann intgrable sur [a, b].
Preuve. Supposons pour fixer les ides que f est dcroissante, ladaptation de ce qui suit
au cas f croissante tant immdiate. Alors f est borne puisque pour tout x [a, b],
f (b) f (x) f (a). Pour = {x0 = a < x1 < < xn = b} subdivision quelconque
de [a, b], notons mk et Mk les bornes infrieure et suprieure de f sur [xk1 , xk ] et
remarquons que par dcroissance de f , mk = f (xk ) et Mk = f (xk1 ). On a alors
0 S (f ) S (f ) =
n
X
(xk xk1 )(Mk mk )
k=1
n
X

(xk xk1 ) f (xk1 ) f (xk )
k=1
max (xk xk1 )
1kn
n
X

f (xk1 ) f (xk )
k=1

max (xk xk1 ) f (a) f (b) .
1kn
Soit > 0 quelconque. En choisissant une subdivision de pas au plus , i.e. telle que
max1kn (xk xk1 ) , on a

0 S (f ) S (f ) f (a) f (b) .

On en dduit que I (f ) I (f ) f (a) f (b) , puis comme est quelconque que
I (f ) I (f ) = 0. La fonction f est donc Riemann intgrable.
221

Proposition A.10 (intgrabilit dune fonction continue). Si f : [a, b] R est continue, elle est Riemann intgrable sur [a, b]. De plus si F est une primitive de f sur [a, b],
Z
f (x) dx = F (b) F (a).
(A.15)
Preuve. Sur le compact [a, b], la fonction f est borne et uniformment continue :
> 0,
x, x0 [a, b],
> 0,
|x x0 | < |f (x) f (x0 )| < .
Pour chaque > 0, on peut trouver une subdivision = {x0 = a < x1 < < xn = b}
(dpendant de ) telle que pour k = 1, . . . , n, xk xk1 < . Comme les bornes infrieure
mk et suprieure Mk de f sur le compact [xk1 , xk ] sont atteintes, on a pour tout k
0 Mk mk < . On a alors
0 S (f ) S (f ) =
n
X
(xk xk1 )(Mk mk )
k=1
n
X
(xk xk1 ) = (b a).
k=1
En raison de lencadrement S (f ) I (f ) I (f ) S (f ), nous avons ainsi tabli que

> 0,
0 I (f ) I (f ) (b a).
Comme I (f ) I (f ) ne dpend pas de , on en dduit que I (f ) I (f ) = 0, do la

Riemann intgrabilit de f sur [a, b].
Rappelons que F est une primitive de f sur [a, b] si elle est drivable en tout point
de [a, b] ( droite en a et gauche en b) et pour tout x [a, b], F 0 (x) = f (x). Soit
= {x0 = a < x1 < < xn = b} une subdivision quelconque de [a, b]. Par le thorme
des accroissements finis 5 , il existe dans chaque ]xk1 , xk [ un ck tel que F (xk )F (xk1 ) =
(xk xk1 )F 0 (ck ) = (xk xk1 )f (ck ). En crivant
F (b) F (a) =
n
X
k=1
n
X
F (xk ) F (xk1 ) =
(xk xk1 )f (ck )
k=1
et en encadrant f (ck ) entre les bornes infrieure et suprieure de f sur [xk1 , xk ], on en

dduit
S (f ) F (b) F (a) S (f ).
Cet encadrement est valide pour toute subdivision et F (b) F (a) ne dpend pas de
. Par consquent
I (f ) F (b) F (a) I (f )
et comme nous savons dj que f est Riemann intgrable on en dduit F (b) F (a) =
I (f ) = I (f ), ce qui tablit (A.15).
5. Appel aussi formule des accroissements finis : si f est continue sur [a, b] et drivable sur ]a, b[,
il existe c ]a, b[ tel que f (b) f (a) = f 0 (c)(b a).
222

La preuve de (A.15) stend immdiatement au cas o F est drivable sur ]a, b[,
continue droite en a et gauche en b et F 0 = f sur ]a, b[. Dautre part on peut utiliser
lintgrale de Riemann pour montrer que toute fonction continue sur [a, b] admet des
primitives sur [a, b].
Proposition A.11. Toute fonction f : [a, b] R, borne sur [a, b] et continue sur [a, b],
sauf en un nombre fini de points est Riemann intgrable sur [a, b].
Preuve. Nous nous contenterons de le montrer dans le cas o f prsente un seul point de
discontinuit c ]a, b[, la gnralisation ne cotant quun alourdissement de notations.
Ladaptation de ce qui suit au cas c = a ou c = b est aussi immdiate.
Fixons > 0 arbitraire et soit > 0 assez petit pour que [c , c + ] ]a, b[ et
dont le choix en fonction de sera prcis ultrieurement. Soit une subdivision de
[a, b] ayant comme points conscutifs c et c + (i. e. xk0 = c et xk0 +1 = c +
pour un certain indice k0 ). Cette subdivision peut se construire comme runion dune
subdivision quelconque 1 de [a, c ] et dune subdivision quelconque 2 de [c + , b].
Comme f est continue sur [a, c ] et [c + , b], elle est Riemann intgrable sur chacun
de ces deux segments (prop. A.10), ce qui nous autorise choisir 1 et 2 telles que
0 S 1 (f ) S1 (f ) ,
3
0 S 2 (f ) S2 (f ) .
3
(A.16)
Notons m et M , m et M les bornes infrieure et suprieure de f sur respectivement

[a, b] et [c, c+]. On a clairement m m M M , do 2(M m ) 2(M m),
de sorte quen choisissant
,
<
6(M m)
on ait
2(M m ) < .
3
(A.17)
Avec le choix de opr ci-dessus, nous avons

S (f ) = S 1 (f ) + 2M + S 2 (f )
S (f ) = S1 (f ) + 2m + S2 (f ),
do compte-tenu de (A.16) et (A.17),
0 S (f ) S (f ) S 1 (f ) S1 (f ) + 2(M m ) + S 2 (f ) S2 (f ) < .
On en dduit que 0 I (f ) I (f ) < , puis par arbitrarit de que I (f ) = I (f ), i.e.
que f est Riemann intgrable sur [a, b].
Nous allons maintenant tablir que la Riemann intgrabilit se conserve par convergence uniforme sur [a, b]. Le lemme suivant nous sera utile.
223

Lemme A.12. Soit E une partie quelconque de R. On suppose que chaque fonction fn
est dfinie et borne sur E et que la suite (fn )n1 converge vers f uniformment sur E.
Alors f est borne sur E et
mn (E) := inf fn (x) inf f (x) =: m(E),
xE
n+
xE
Mn (E) := sup fn (x) sup f (x) =: M (E).

xE
n+
xE
Plus prcisment, si pour tout n n , on a pour tout x E, |fn (x) f (x)| < , alors
n n ,
|mn (E) m(E)|
et
|Mn (E) M (E)| .
(A.18)
Preuve. La convergence uniforme de (fn ) vers f sur E, scrit

> 0, n N, n n , x E,
|fn (x) f (x)| < .
(A.19)
En rcrivant cette ingalit sous la forme fn (x) < f (x) < fn (x) + on en dduit :
n n , x E,
mn (E) < f (x) < Mn (E) + ,
puis en prenant linfimum et le supremum en x E dans cette double ingalit 6 :

n n ,
mn (E) m(E) et M (E) Mn (E) + .
(A.20)
En choisisssant un n particulier, par exemple n = n , on en dduit que f est borne sur

E ( < mn (E) m(E) M (E) Mn (E) + < +).
En rcrivant lingalit (A.19) sous la forme f (x) < fn (x) < f (x) + , on obtient
de la mme faon :
n n ,
m(E) mn (E) et Mn (E) M (E) + .
(A.21)
En regroupant (A.20) et (A.21), on voit ainsi que pour tout n n ,

m(E) mn (E) m(E) + et M (E) Mn (E) M (E) + ,
ce qui nous donne (A.18) et donc les convergences de mn (E) et Mn (E) vers respectivement m(E) et M (E) puisque > 0 est ici arbitraire.
Proposition A.13. Si f est limite uniforme sur [a, b] dune suite (fn )n1 de fonctions
Riemann intgrables sur [a, b], alors f est elle-mme Riemann intgrable sur [a, b].
Preuve. Dabord, f est borne sur [a, b] comme limite uniforme dune suite de fonctions
bornes (lemme A.12 avec E = [a, b]). On peut donc bien dfinir les sommes de Darboux
S (f ) et S (f ) pour toute subdivision de [a, b].
Notons quil y a une difficult supplmentaire dans cette dmonstration par rapport
aux preuves de la Riemann intgrabilit des fonctions monotones ou continues. Dans
6. Noter ici le passage des ingalits strictes aux ingalit larges.
224

ces deux cas, f atteignait ses bornes infrieure et suprieure sur chaque intervalle de
la subdivision, ce qui facilitait le traitement des sommes de Darboux. Ici, nous navons
plus ce confort et cest le lemme A.12 qui arrange les choses.
Par convergence uniforme de fn vers f sur [a, b], pour tout > 0, il existe un entier
n tel que
.
n n , x [a, b], |fn (x) f (x)| <
ba
En appliquant le lemme A.12, on a alors avec le mme n ,
n n , E [a, b],
|mn (E) m(E)|
,
ba
|Mn (E) M (E)|
. (A.22)
ba
Soit = {x0 = a < x1 < < xj = b} une subdivision quelconque de [a, b]. En
appliquant (A.22) avec pour E chacun des intervalles [xk1 , xk ] de la subdivision, on
vrifie immdiatement que :
, n n ,
S (fn ) S (f ) S (f ) S (fn ) + .
(A.23)
La fonction fn tant par hypothse Riemann intgrable sur [a, b], il existe une subdivision telle que
S (fn ) > S (fn ) .
(A.24)
En choisissant dans (A.23) n = n et = et en combinant lencadrement ainsi
obtenu avec lingalit (A.24), il vient :
S (fn ) 2 < S (f ) S (f ) S (fn ) + ,
do lon tire 0 S (f ) S (f ) < 3, puis 0 I (f ) I (f ) < 3. Par arbitrarit de
, on en dduit I (f ) = I (f ), ce qui tablit la Riemann intgrabilit de f .
Dfinition A.14 (fonction rgle). On dit que f est rgle sur [a, b] si elle est limite
uniforme sur [a, b] dune suite de fonctions en escalier.
Corollaire A.15 (intgrabilit dune fonction rgle). Toute fonction rgle [a, b] R
est Riemann intgrable sur [a, b].
Preuve. Cest une consquence immdiate des propositions A.8 et A.13.
Pour finir cette section, nous donnons un exemple de fonction Riemann intgrable qui
ne soit pas rgle (les fonctions monotones ou continues sont toutes rgles, exercice !)
et un exemple de fonction borne et borlienne qui ne soit pas Riemann intgrable.
Exemple A.16 (une fonction intgrable non rgle). Soit E := {2k ; k N } et
f := 1E . La fonction f est borne et Riemann intgrable sur [0, 1], mais pas rgle.
Vrifions ces deux affirmations. Soit n := {0, 2n } {2k 22n ; 1 k < n}. On voit
immdiatement que pour tout n 2 :
0 = Sn (f ) I (f ) I (f ) S n (f ) = 2n + 2(n 1)22n .
225
En faisant tendre n vers +, on en dduit

R 1 que I (f ) = I (f ) = 0, ce qui prouve que f
est Riemann intgrable sur [0, 1] et que 0 f (x) dx = 0. Notons au passage quon a ainsi
un exemple de fonction f positive dintgrale de Riemann nulle sur [0, 1] sans que f soit
identiquement nulle sur [0, 1]. Cette situation ne pourrait pas se produire avec une f
continue (exercice).
Supposons que f = 1E soit rgle. Ceci implique que pour tout > 0, il existe une
fonction en escalier g telle que |f (x) g(x)| < pour tout x [0, 1]. Prenons = 1/3,
choisissons une telle g, notons 0 = {x0 = 0 < x1 < < xj = 1} une subdivision
associe g (cf. la dfinition A.7) et c1 la valeur constante de g sur ]0, x1 [. Comme
f prend au moins une fois la valeur 1 (en fait une infinit de fois) sur ]0, x1 [, on a
|1 c1 | < 1/3 et de mme f prenant au moins une fois la valeur 0 (en fait une infinit
de fois) sur ]0, x1 [, on a |0 c1 | < 1/3. Ces deux ingalits sont incompatibles, donc f
ne peut pas tre rgle.
Exemple A.17 (une fonction borne non intgrable). Soit E := [0, 1] Q et f := 1E .

La fonction f est borne et borlienne (comme indicatrice dun ensemble borlien de R),
mais nest pas Riemann intgrable sur [0, 1]. En effet en notant que dans tout intervalle
ouvert non vide de R il y a au moins un rationnel et un irrationnel, on vrifie facilement
que pour toute subdivision de [0, 1],
S (f ) = 0 et S (f ) = 1.
On en dduit que I (f ) = 0 et I (f ) = 1, donc f nest pas Riemann intgrable sur [0, 1].
A.3
Proprits de lintgrale de Riemann
Cette section regroupe les proprits gnrales de lintgrale de Riemann, lexception de celles relatives linterversion limite intgrale. Nous tudions dabord les
proprits relatives aux fonctions intgrer (les intgrandes), autrement dit la structure de lensemble R[a, b]. Nous verrons ensuite les proprits concernant lintervalle
dintgration.
A.3.1
Proprits de lensemble R[a, b]
Proposition A.18 (additivit). Si f et g sont Riemann intgrables sur [a, b], f + g lest
aussi et
Z b
Z b
Z b
(f + g)(x) dx =
f (x) dx +
g(x) dx.
(A.25)
a
Preuve. Notons en prliminaire que si f et g sont bornes sur lintervalle I, f + g lest

aussi et on a
inf f (x) + inf g(x) inf (f + g)(x),
xI
226
xI
xI
sup(f + g)(x) sup f (x) + sup g(x),

xI
xI
xI
A.3. Proprits de lintgrale de Riemann

ces ingalits pouvant tre strictes 7 .
Fixons > 0 quelconque. La Riemann
intgrabilit de f et g nous fournissent
des
Rb
Rb
1
subdivisions 1 et 2 telles que a f (x) dx < S1 (f ) S (f ) < a f (x) dx +
Rb
Rb
et a g(x) dx < S2 (g) S 2 (g) < a g(x) dx + . Avec leur raffinement commun
:= 1 2 , on a ainsi :
b
f (x) dx < S (f ) S (f ) <

a
b
g(x) dx < S (g) S (g) <
f (x) dx + ,
(A.26)
g(x) dx + .
(A.27)
a
Z b
a
Notons xi , 0 i n les points de , mi , m0i , m00i , Mi , Mi0 , Mi00 les infima et suprema
respectifs de f + g, f et g sur [xi1 , xi ] pour i = 1, . . . , n. Par la remarque faite en
prliminaire, on a pour tout i = 1, . . . , n,
m0i + m00i mi Mi Mi0 + Mi00 .
On en dduit que
S (f ) + S (g) S (f + g) S (f + g) S (f ) + S (g).
(A.28)
En combinant (A.26), (A.27) et (A.28), on obtient

Z
g(x) dx 2 < S (f + g) S (f + g) <
f (x) dx +
a
Z
f (x) dx +
g(x) dx + 2,
a
do
Z b
Z b
Z b
Z b
g(x) dx + 2.
f (x) dx +
g(x) dx 2 < I (f + g) I (f + g) <
f (x) dx +
a
Ce dernier encadrement tant vrifi pour tout > 0, on peut y faire tendre vers 0
pour obtenir finalement
g(x) dx,
f (x) dx +
I (f + g) = I (f + g) =
ce qui tablit lintgrabilit de f + g et (A.25).

Proposition A.19. Si f est intgrable sur [a, b] et c R est une constante, cf est
intgrable sur [a, b] et
Z b
Z b
cf (x) dx = c
f (x) dx.
(A.29)
a
7. Par exemple f : x 7 x et g : x 7 1 x sur I = [0, 1].
227

Preuve. Le rsultat est trivial si c = 0, puisqualors cf est la fonction identiquement
nulle sur [a, b], Riemann intgrable dintgrale 0. Supposons c 6= 0. Si f est borne sur
lensemble E, cf est borne sur E. On vrifie facilement que
si c > 0,
inf (cf )(x) = c inf f (x),
xE
sup(cf )(x) = c sup f (x),
xE
xE
(A.30)
xE
et que
si c < 0,
inf (cf )(x) = c sup f (x),
xE
sup(cf )(x) = c inf f (x).
xE
xE
xE
(A.31)
Pour c > 0, on dduit de (A.30) que pour toute subdivision de [a, b],
S (cf ) = cS (f ),
S (cf ) = cS (f ),
do I (cf ) = cI (f ) et I (cf ) = cI (f ). Ces deux galits sont valables pour nimporte

quelle fonction borne f sur [a, b]. Ici f est de plus intgrable sur [a, b], donc I (f ) =
Rb
Rb
I (f ) = a f (x) dx, do I (cf ) = I (cf ) = c a f (x) dx, ce qui prouve lintgrabilit de
cf et tablit (A.29). Pour c < 0, on dduit de (A.31) que pour toute subdivision de
[a, b],
S (cf ) = cS (f ), S (cf ) = cS (f ),
do I (cf ) = cI (f ) et I (cf ) = cI (f ). Par intgrabilit de f , on en dduit comme
Rb
ci-dessus que I (cf ) = I (cf ) = c a f (x) dx, ce qui complte la preuve.
On peut synthtiser les propositions A.18 et A.19 dans lnonc suivant.
Proposition A.20 (linarit). Lensemble R[a, b] des applications f : [a, b] R, Riemann intgrables sur [a, b] est un R-espace vectoriel et lapplication : R[a, b] R,
Rb
f 7 a f (x) dx est une forme linaire sur cet espace.
Proposition A.21 (croissance de lintgrale). Lintgrale de Riemann sur [a, b] possde
les trois proprits suivantes relativement la relation dordre partiel dfinie sur R[a, b]
par f g si x [a, b], f (x) g(x).
i) Positivit :
si f R[a, b] et f 0 sur [a, b],
f (x) dx 0.
(A.32)
ii) Croissance :
si f, g R[a, b] et f g sur [a, b],
Z
f (x) dx
g(x) dx.
(A.33)
iii) Si f R[a, b], lapplication |f | : x 7 |f (x)| est elle aussi Riemann intgrable sur
[a, b] et
Z b
Z b

f (x) dx
|f (x)| dx.
(A.34)

a
228

Preuve. Rappelons que lorsquon parle dintgrale sur [a, b], on suppose implicitement
Rb
Rb
Rb
a b. Dans le cas a > b, on aurait a f (x) dx 0 dans (A.32) et a g(x) dx a f (x) dx
dans (A.33).
Pour prouver i), on remarque que si f 0 sur [a, b] et est une subdivision (croissante) quelconque de [a, b], on a mk 0 pour chaque intervalle [xk1 , xk ] de , donc
S (f ) 0 et par consquent I (f ) I (f ) 0. Ce raisonnement est valable pour
toute f positive borne sur [a, b]. Comme ici f est de plus Riemann intgrable sur [a, b],
Rb
I (f ) = I (f ) = a f (x) dx et (A.32) est vrifie.
On vrifie ii) en notant que si f, g sont dans R[a, b], h := g f aussi (prop. A.20) et
h 0. En utilisant i) et la proposition A.20, on obtient
Z b
Z b
Z b
f (x) dx,
g(x) dx
h(x) dx =
0
a
ce qui nous donne (A.33).

Admettons un instant que lintgrabilit de f implique celle de |f |. En appliquant ii)
avec lencadrement |f | f |f |, il vient 8 :
Z b
Z b
Z b
|f (x)| dx
f (x) dx
|f (x)| dx,
a
ce qui quivaut (A.34).

Il reste montrer que |f | hrite de lintgrabilit de f . Pour toute subdivision =
n = b}, notons
{x0 = a < x1 < <x
mk :=
inf
f (x),
x[xk1 ,xk ]
Mk :=
sup
x[xk1 ,xk ]
f (x),
m0k :=
Mk0 :=
inf
|f (x)|,
x[xk1 ,xk ]
sup
|f (x)|.
x[xk1 ,xk ]
Par le lemme A.22 ci-dessous, on a pour tout k = 1, . . . , n, 0 Mk0 m0k Mk mk ,

do
0 I (|f |) I (|f |) S (|f |) S (|f |) S (f ) S (f )
Comme f est Riemann intgrable sur [a, b], on peut choisir pour tout une subdivision
telle que S (f ) S (f ) < et lencadrement ci-dessus appliqu cette subdivision
nous donne 0 I (|f |) I (|f |) < , do I (|f |) = I (|f |) par arbitrarit de .
Lemme A.22. Si f est borne sur E R, alors |f | est borne sur E et en notant
m := inf E f , m0 := inf E |f |, M := supE f , M 0 := supE |f |, on a 0 M 0 m0 M m,
lingalit pouvant tre stricte.
Preuve. Si M 0 m0 = 0, cest trivial 9 . Supposons dsormais que M 0 m0 > 0. Alors
pour tout tel que 0 < < (M 0 m0 )/2, on peut trouver x1 , x2 E, dpendants de ,
tels que :
m0 |f (x1 )| < m0 + < M 0 < |f (x2 )| M 0 .
(A.35)
Rb
Rb
8. En utilisant aussi a |f (x)| dx = a |f (x)| dx par linarit.
9. Cette situation peut se produire, par exemple E = [1, 1] et f (x) = 1[1,0] (x) 1]0,1] (x), on a
dans ce cas 0 = M 0 m0 < M m = 2.
229

Par ingalit triangulaire, |f (x2 )||f (x1 )| |f (x2 )f (x1 )|. Dautre part f (x1 ) et f (x2 )
sont des rels du segment [m, M ], do |f (x2 ) f (x1 )| M m et donc
|f (x2 )| |f (x1 )| M m.
En combinant cette dernire ingalit avec (A.35), il vient :
M 0 m0 2 M m.
Faisant tendre vers 0 dans cette ingalit large, on obtient M 0 m0 M m.
Remarque A.23. La Riemann intgrabilit de |f | nimplique pas celle de f . Voici un
contre exemple avec [a, b] = [0, 1], f (x) = 1 si x Q et 1 si x
/ Q. Alors, comme dans
lexemple A.17, f nest pas Riemann intgrable sur [0, 1], tandis que |f | lest (comme
fonction constante).
Voici une consquence immdiate de limplication f R[a, b] |f | R[a, b] dans la
proposition A.21 iii).
Corollaire A.24. Si f est Riemann intgrable sur [a, b], les fonctions f + := max(f, 0)
et f := max(f, 0) = min(f, 0) le sont aussi. On a de plus
Z
f (x) dx
f (x) dx =
a
f (x) dx.
(A.36)
Preuve. On commence par remarquer que

1
f + = (|f | + f ),
2
1
f = (|f | f ).
2
Par la proposition A.21 iii) lintgrabilit de f implique celle de |f |. Lensemble R[a, b]

tant un espace vectoriel (prop. A.20), on en dduit la Riemann intgrabilit sur [a, b] de
f + et f . La linarit de lintgrale et lgalit f = f + f nous donnent (A.36).
Remarque A.25 (semi norme sur R[a, b]). Grce au point iii) de la proposition A.21,
on peut dfinir lapplication
N : R[a, b] R+ ,
Z
f 7 N (f ) :=
|f (x)| dx.
a
Cette application est une semi norme sur R[a, b] car elle vrifie N (cf ) = |c|N (f ) pour
toute constante c et N (f + g) N (f ) + N (g). Elle nest pas une norme car on peut
Rb
avoir a |f (x)| dx = 0 sans que f soit la fonction nulle sur [a, b], voir lexemple A.16.
Proposition A.26 (Intgrabilit dun produit). Si f et g sont Riemann intgrables sur
[a, b], leur produit f g lest aussi.
230

Preuve. En crivant f g = (f + f )(g + g ) = f + g + f g + f + g + f g et en
utilisant le corollaire A.24 et la linarit de lintgrale de Riemann, on voit quil suffit
de traiter le cas o f et g sont toutes deux positives sur [a, b].
Fixons > 0 quelconque. La Riemann
intgrabilit de f et g nous fournissent
des
Rb
Rb
subdivisions 1 et 2 telles que a f (x) dx < S1 (f ) S 1 (f ) < a f (x) dx +
Rb
Rb
et a g(x) dx < S2 (g) S 2 (g) < a g(x) dx + . Avec leur raffinement commun
:= 1 2 , on a ainsi :
0 S (f ) S (f ) 2,
0 S (g) S (g) 2.
(A.37)
(A.38)
Rappelons ici que f et g Riemann intgrables sur [a, b] sont ipso facto bornes sur cet
intervalle, donc f g est aussi borne sur [a, b]. Notons xi , 0 i n les points de , mi ,
m0i , m00i , Mi , Mi0 , Mi00 les infima et suprema respectifs de f g, f et g sur [xi1 , xi ] pour
i = 1, . . . , n. Par positivit on a pour tout i = 1, . . . , n,
x [xi1 , xi ],
0 m0i m00i f (x)g(x) Mi0 Mi00 ,
do
0 m0i m00i mi Mi Mi0 Mi00 .
Notons c un majorant commun sur [a, b] aux fonctions positives bornes f et g . On
alors on a pour tout i = 1, . . . , n,
0 Mi mi Mi0 Mi00 m0i m00i = (Mi0 m0i )Mi00 + m0i (Mi00 m00i )
c(Mi0 m0i ) + c(Mi00 m00i ).
En reportant cette majoration dans le calcul de S (f g) S (f g) et en tenant compte
de (A.37) et (A.38), on obtient
0 S (f g) S (f g) 4c.
Comme tait arbitraire, on en dduit la Riemann intgrabilit de f g.
Contrairement ce qui se passe pour la Riemann
intgrabilit dune somme
Rb
R b f + g,
il ny a pas de formule permettant de calculer a f (x)g(x) dx en fonction de a f (x) dx
Rb
Rb
Rb
Rb
et a g(x) dx. La formule a f (x)g(x) dx = a f (x) dx a g(x) dx est grossirement
fausse. Voici un contre exemple lmentaire avec des fonctions en escalier. Prenons
a = 0, b = 2, f = 1[0,1] , g = 1]1,2] . Alors f g est la fonction nulle sur [0, 2] et donc
R2
R2
R2
R2
R2
f
(x)g(x)
dx
=
0,
alors
que
f
(x)
dx
g(x)
dx
=
1
parce
que
f
(x)
dx
et
g(x) dx
0
0
0
0
0
valent chacune 1.
Proposition A.27 (ingalit de Cauchy-Schwarz dans R[a, b]). Si f et g sont Riemann
intgrables sur [a, b], on a lingalit
1/2 Z b
1/2
Z b
Z b

2
2
f (x)g(x) dx
f (x) dx
g(x) dx
.

a
(A.39)
231

Preuve. Soit t un rel quelconque. Par les propositions A.20 et A.26, les fonctions f 2 ,
g 2 , f g et (tf + g)2 hritent de la Riemann intgrabilit de f et g. Posons
Z b
2
P (t) :=
tf (x) + g(x) dx.
a
Il est clair que P (t) est positif ou nul pour tout t rel. Or en dveloppant le carr (tf +g)2
et en utilisant la linarit de lintgrale, on obtient

Z b

Z b
Z b
2
2
f (x) dx t + 2
f (x)g(x) dx t +
g(x)2 dx.
P (t) =
a
On reconnat l un trinme du second degr At2 +Bt+C dont les coefficients

C sont
R b A, B,
2
des intgrales. Ce trinme ne peut avoir de signe constant, celui de A = a f (x) dx 0,
que si son discriminant = B 2 4AC est ngatif ou nul. Remplaant A, B et C par
leurs expressions sous forme dintgrales, on en dduit (A.39).
A.3.2
Proprits relatives lintervalle dintgration
Lintgrale de Riemann se laisse volontiers dcouper en morceaux. Voici les noncs

prcis dont la vrification est laisse au lecteur.
Proposition A.28 (additivit relative aux intervalles). Soit f : [a, b] R et c ]a, b[.
Pour que f soit Riemann intgrable sur [a, b], il faut et il suffit quelle soit Riemann
intgrable sur [a, c] et sur [c, b]. On a alors
Z b
Z c
Z b
f (x) dx.
(A.40)
f (x) dx +
f (x) dx =
a
En combinant la proposition A.28 avec la dfinition A.2, on obtient la formule classique suivante.
Proposition A.29 (relation de Chasles). Pour tous rels a, b, c, on a
Z b
Z c
Z b
f (x) dx =
f (x) dx +
f (x) dx,
a
pourvu que f soit Riemann intgrable sur [min(a, b, c), max(a, b, c)].
Une autre application de ladditivit relative aux intervalles est la gnralisation de
la formule (A.10) pour le calcul de laire du domaine H dlimit par le graphe de f , laxe
des abscisses et les deux droites verticales dquations x = a et x = b, voir figure A.6.
Plus prcisment, H est dfini par
H := {(x, y) R2 ; a x b et f (x) y f + (x)},
(A.41)
en notant que f (x) = f (x) ou 0 selon que f (x) < 0 ou non et que f + (x) = f (x) ou 0
selon que f (x) > 0 ou non. En combinant la proposition A.5, la remarque A.6, ladditivit
relative aux intervalles de lintgrale de Riemann et ladditivit finie de 2 , on obtient le
rsultat suivant pour les fonctions nayant quun nombre fini de changements de signe
sur [a, b].
232
H3
H1
0
H4
H2
Fig. A.6 Domaine H dlimit par f entre a et b
Proposition A.30. Soit f une fonction borlienne sur [a, b] et Riemann intgrable sur
[a, b]. On suppose quil existe une subdivision x0 = a < x1 < < xn = b telle que le
signe de f soit constant sur chacun des [xi1 , xi ], 1 i n. Alors laire du domaine H
dfini par (A.41) est donne par
Z b
2 (H) =
|f (x)| dx.
(A.42)
a
Dans cet nonc, signe constant sentend au sens large : ou bien f (x) 0 pour tout
x [xi1 , xi ] ou bien f (x) 0 pour tout x [xi1 , xi ]. Lhypothse f borlienne assure
que sa restriction chacun des [xi1 , xi ] est encore borlienne (pour les tribus adquates)
et donc que chaque Hi := {(x, y) R2 ; xi1 x xi et f (x) y f + (x)} est
un borlien de R2 (admis). Bien entendu en crivant cet nonc, on a en tte le cas o
le signe de f change la traverse de chaque xi , 0 < i < n, mais la formule (A.42)
reste videmment vraie sans cette hypothse. Si f a le mme signe sur deux intervalles
conscutifs, on peut trouver une subdivision plus conomique en les fusionnant.
Nous pouvons maintenant donner une interprtation gomtrique de lintgale de
Riemann, au moins pour les fonctions f vrifiant les hypothses de la proposition A.30.
Pour cela on appelle aire algbrique , la somme des 2 (Hi ), chacun tant compt avec
le signe de f sur lintervalle correspondant. Laire algbrique du domaine H reprsent
la figure A.6 vaut ainsi 2 (H1 ) 2 (H2 ) + 2 (H3 ) 2 (H4 ). Plus formellement, posons
+1 si f (t) > 0 pour au moins un t ]xi1 , xi [,

si := 1 si f (t) < 0 pour au moins un t ]xi1 , xi [,
0
si f (t) = 0 pour tout t ]xi1 , xi [.
Largumentation esquisse pour la proposition A.30 nous donne
Z b
n
X
aire algbrique(H) :=
si 2 (Hi ) =
f (x) dx.
i=1
(A.43)
233

Nous regroupons dans le thorme
suivant les proprits de lintgrale indfinie ,
Rx
cest dire de la fonction x
7
f
(t)
dt.
a
Thorme A.31. Soit f Riemann intgrable sur [a, b]. Alors elle est aussi Riemann
intgrable sur [a, x] pour tout x [a, b], ce qui permet de dfinir lapplication F : [a, b]
R par
Z
x
f (t) dt.
F (x) :=
a
i) F est continue sur [a, b] et mme lipschitzienne.

ii) Si f a une limite ` au point c de [a, b] (resp. une limite droite, resp. gauche),
F est drivable au point c (resp. gauche, resp. droite) et F 0 (c) = `.
iii) Si f est continue sur [a, b], F est drivable sur [a, b] et a pour fonction drive f .
Cest lunique primitive de f sur [a, b] qui sannule au point a.
Preuve de i). Notons C := supt[a,b] |f (t)|. En utilisant la relation de Chasles et la proposition A.21, on a pour tous a x y b,
Z y
Z y
Z y

|F (y) F (x)| =
f (t) dt
|f (t)| dt
C dt = C|y x|.
x
Ceci montre que F est lipschitzienne de rapport C sur [a, b], donc a fortiori continue.
Preuve de ii). Commenons par noter que pour tout x 6= c dans [a, b],
Z x
Z x
1
1
F (x) F (c)
=
f (t) dt, et ` =
` dt.
xc
xc c
xc c
(A.44)
Comme f a pour limite ` au point c, on a :

> 0, > 0, 0 |t c| |x c| < |f (t) `| < .
(A.45)
En combinant (A.44) et (A.45), on voit que pour tout x [a, b] vrifiant |x c| < ,
Z x
1 Z x

F (x) F (c)
1

` =
(f (t) `) dt
|f (t) `| dt ,

xc
xc c
|x c| c
ce qui montre que F est drivable au point c, de nombre driv F 0 (c) = `. Ladaptation au
cas dune limite droite ou gauche (avec drive droite ou gauche) est immdiate.
Preuve de iii). Si f est continue sur [a, b], elle a pour limite f (c) en tout point c de [a, b]
et donc daprs ii), F est drivable sur [a, b] et F 0 (c) = f (c). Cette dernire galit ayant
lieu maintenant pour tout c [a, b], on a F 0 = f , autrement dit F est une primitive de
f sur [a, b]. On sait que toutes les primitives de f sur lintervalle [a, b] diffrent entre
elles dune constante 10 Il y en a donc une seule qui sannule au point a, cest F .
10. Cest une consquence de la formule des accroissements finis (cf. p.222) : si une fonction continue
sur [a, b] a une drive nulle sur ]a, b[, elle est constante sur [a, b] et on applique ceci la diffrence de
deux primitives quelconques de f sur [a, b].
234

Proposition A.32 (changement de variable).
i) Translation. Soit c R. Pour toute f Riemann intgrable sur [a + c, b + c], lapplication g : [a, b] R, x 7 f (x + c) est Riemann intgrable sur [a, b] et
b
b+c
f (y) dy.
f (x + c) dx =
(A.46)
a+c
ii) Changement dchelle. Soit c R . Pour toute f Riemann intgrable sur lintervalle ferm dextrmits 11 ac et bc, lapplication h : [a, b] R, x 7 f (cx) est
Riemann intgrable sur [a, b] et
Z
1
f (cx) dx =
c
bc
f (y) dy.
(A.47)
ac
iii) Classique. Soit : [a, b] R, une fonction ayant une drive continue sur [a, b]
(autrement dit C 1 [a, b]). Pour toute fonction f continue sur lintervalle ferm
born ([a, b]), on a
Z

f (x) 0 (x) dx =
(b)
f (y) dy.
(A.48)
(a)
Bien sr i) et ii) sont contenus dans iii) si f est continue, mais lintrt de ces
deux noncs spars est quils sont valables avec nimporte quelle fonction f Riemann
intgrable.
Preuve de i). chaque subdivision = {x0 = a < x1 < < xn = b} de [a, b],
associons la subdivision translate 0 = {y0 = a + c < < yk = xk + c < < yn =
b + c}. Comme f est borne sur [a + c, b + c], g est borne sur [a, b] avec mmes bornes.
De plus en notant mk , m0k les infima respectifs de f sur [xk1 , xk ] et de g sur [yk1 , yk ],
et en dfinissant de mme Mk et Mk0 pour les suprema, on mk = m0k et Mk = Mk0 pour
0
k = 1, . . . , n. Par consquent S (g) = S0 (f ) et S (g) = S (f ), pour toute subdivision
de [a, b]. Comme la transformation 7 0 ralise une bection entre lensemble des
subdivisions de [a, b] et lensemble des subdivisions de [a + c, b + c], on en dduit que
0
I (g) = inf S (g) = inf0 S (f ) = I (f )
(A.49)
I (g) = sup S (g) = sup S0 (f ) = I (f ).
(A.50)
et de mme
Comme on sait de plus que f est Riemann intgrable sur [a+c, b+c], on a I (f ) = I (f ).
R b+c
Compte-tenu de (A.49)(A.50), on en dduit I (g) = I (g) = I (f ) = a+c f (y) dy, ce
qui nous donne la Riemann intgrabilit de g sur [a, b] et lgalit (A.46).
11. Il sagit de [ac, bc] si c > 0 et de [bc, ac] si c < 0.
235

Preuve de ii). La mthode tant essentiellement la mme que pour le i), nous nous
contenterons dindiquer les adaptations ncessaires. Si c > 0, on associe = {x0 =
a < x1 < < xn = b} la subdivision 0 dont les points sont les yk = cxk . Alors 0
est une subdivision croissante de [ac, bc] et comme yk yk1 = c(xk xk1 ), on voit que
0
S (h) = 1c S0 (f ) et S (h) = 1c S (f ). On en dduit comme ci-dessus lintgrabilit de
h et (A.47).
Si c < 0, bc ac et on prend pour subdivision croissante 0 associe la
subdivision de [bc, ac] ayant pour points les yk = cxnk . Alors pour k = 1, . . . , n,
yk yk1 = c(xnk xnk+1 ) = c(xnk+1 xnk ). On en dduit que S (h) = 1
S0 (f )
c
1 0
et S (h) = c S (f ) puis, que h est Riemann intgrable et

Z
a
1
h(x) dx =
c
ac
bc
1
f (y) dy =
c
bc
f (y) dy,
ac
en utilisant la dfinition A.2.

Preuve de iii). Dabord, tant continue, limage J de [a, b] par est un intervalle
(thorme des valeurs intermdiaires) et comme [a, b] est compact, J = ([a, b]) est aussi
compact (limage dun compact par une application continue est un compact). Ainsi J
est un intervalle compact, donc un intervalle ferm born. Cet intervalle contient videmment lintervalle I dextrmits (a) et (b) (pas forcment dans cet ordre), linclusion
pouvant tre stricte. La fonction f tant continue sur J lest aussi par restriction sur I
et lintgrale au second membre de (A.48) est donc bien dfinie. Lintgrale du premier
membre lest tout autant puisque (f )0 est continue sur [a, b].
Introduisons les fonctions F , G, H suivantes :
Z s
Z s

F : J R, s 7
f (y) dy, G : [a, b] R, s 7
f (x) 0 (x) dx, H := F .
(a)
Par le thorme A.31, F est drivable sur J et F 0 = f . De mme G est drivable sur
[a, b] et G0 = (f )0 . Dautre part H est drivable comme fonction compose et
H 0 = (F 0 )0 = (f )0 = G0 .
Les fonctions H et G ont ainsi mme drive sur [a, b], leur diffrence est donc constante
sur [a, b]. Or H(a) = 0 et G(a) = 0, donc H = G. En particulier, H(b) = G(b), ce qui
tablit (A.48).
Voici maintenant une version moins classique du changement de variable.
Proposition A.33 (changement de variable). Si est C 1 et monotone sur [a, b] et f
est Riemann intgrable sur ([a, b]),
Z
a
236

f (x) 0 (x) dx =
(b)
f (y) dy.
(A.51)
(a)

La diffrence avec le changement de variable classique (Proposition A.32 iii) est
quon ne suppose plus f continue. On paie cette plus grande gnralit pour f avec une
hypothse plus restrictive de monotonie pour . Comme cas particuliers, on retrouve les
points i) et ii) de la proposition A.32.
Preuve. Notons dabord que lexistence de lintgrale au second membre de (A.51) fait
partie des hypothses, mais que celle de lintgrale du premier membre reste tablir.
Pour allger les critures, convenons que les notations I, I , I , S , S , sont relatives aux
bornes (a) et (b) lorsquelles sappliquent f et relatives aux bornes a et b lorsquelles
sappliquent (f )0 . Nous dtaillons la preuve dans le cas o est croissante, laissant
au lecteur ladaptation au cas o f dcrot.
Il suffit de dmontrer (A.51) pour f positive sur [(a), (b)]. En effet (A.51) est
clairement vrifie si on remplace f par une fonction constante c et comme f est borne
infrieurement sur [(a), (b)] car Riemann intgrable, on peut toujours trouver c telle
que g = f + c soit une fonction Riemann intgrable positive. Si on arrive dmontrer
(A.51) pour g, alors on en dduit facilement la mme galit pour f par soustraction.
Dsormais, nous supposons donc sans perte de gnralit que f est positive.
Fixons un > 0 arbitraire. Comme f est Riemann intgrable sur [(a), (b)], il existe
une subdivision
= {y0 = (a) < y1 < < yn = (b)}
telle que
I(f ) < S (f ) =
n
X
(yk yk1 )mk S (f ) =
n
X
(yk yk1 )Mk < I(f ) + .
k=1
k=1
Rappelons que mk = inf{f (y); y [yk1 , yk ]} et Mk = sup{f (y); y [yk1 , yk ]}. Comme
est croissante et continue, limage de [a, b] par est le segment [(a), (b)] et est une
surjection 12 de [a, b] sur [(a), (b)]. On peut donc trouver pour chaque yk au moins un
antcdent xk par et quelque soit le choix de cet antcdent, on aura ncessairement
xk1 < xk car yk1 est strictement infrieur yk et est croissante au sens large.
La fonction 0 tant continue sur le compact [a, b] est uniformment continue sur cet
intervalle. On peut donc subdiviser chaque [xk1 , xk ] en xk,0 = xk1 < < xk,jk = xk
0
de sorte quen notant pour j = 0, . . . , jk , m0k,j = inf{0 (x); x [xk,j1 , xk,j ]} et Mk,j
=
0
sup{ (x); x [xk,j1 , xk,j ]}, on ait :
0
Mk,j
m0k,j <
=: 0 ,
M (b a)
o M :=
sup
f.
[(a),(b)]
12. Elle nest pas forcment injective car on na pas suppos la croissance stricte.
237

0
En retenant de cette ingalit que m0k,j > Mk,j
0 , on en dduit la minoration suivante :
xk
yk yk1 =
(x) dx =
xk1
jk Z
X
j=1
jk
X
xk,j
0 (x) dx
xk,j1
m0k,j (xk,j xk,j1 )
j=1
jk
X
0
(Mk,j
0 )(xk,j xk,j1 ),
j=1
do en remarquant que Mk hrite de la positivit de f ,

Mk (yk yk1 )
jk
X
0
Mk Mk,j
(xk,j xk,j1 ) 0 Mk (xk xk1 ).
j=1
En notant Mk,j le supremum de f sur [xk,j1 , xk,j ], on a

0
0
Mk Mk,j
Mk,j Mk,j
sup
(f )0 .
[xk,j1 ,xk,j ]
Finalement en dsignant par 0 la subdivision de [a, b] forme par tous les xk,j , k =
1, . . . , n, j = 0, . . . , jk , on aboutit

0
S (f ) S (f )0 I (f )0 .
Comme ce dernier minorant ne dpend pas de , on en dduit que

I(f ) I (f )0 .

Enfin, comme est arbitraire, il vient I(f ) I (f )0 .
On laisse le soin au lecteur dadapter largumentation ci-dessus
pour montrer de

mme que I(f ) I (f )0 + , puis I(f ) I (f )0 . En rassemblant ces
ingalits et en se souvenant que I I , on en dduit que

I(f ) = I (f )0 = I (f )0 ,
ce qui prouve (A.51) en tablissant au passage la Riemann intgrabilit de (f )0 .
A.4
Interversion limite intgrale
Thorme A.34. Soit (fn )n1 une suite de fonctions Riemann intgrables sur [a, b]. On
suppose que cette suite converge uniformment vers f sur [a, b]. Alors f est Riemann
intgrable sur [a, b] et on a
Z b
Z b
fn (t) dt
f (t) dt.
(A.52)
a
238
n+
A.4. Interversion limite intgrale

Preuve. Dans la preuve de ce thorme la partie difficile est dtablir la Riemann intgrabilit de f , mais nous lavons dj vue par la proposition A.13. Une fois que lon sait
que f est Riemann intgrable, on peut crire :
Z b
Z b
Z b

|f (t) fn (t)| dt.

(A.53)
fn (t) dt
f (t) dt
n N ,
a
Par convergence uniforme, on a pour tout > 0 un entier n tel que
.
ba
En reportant cette ingalit dans (A.53), en utilisant la linarit de lintgrale et la
proposition A.21 iii), on en dduit que pour tout n n ,
Z b
Z b
Z b
Z b
Z b

|f fn |(t) dt
fn (t) dt = (f fn )(t) dt
f (t) dt
dt = .

a ba
a
a
a
a
n n , t [a, b],
|f (t) fn (t)| = |f fn |(t) <
Ceci tant valable pour tout > 0, la convergence (A.52) est tablie.
Thorme A.35. Soit (fn )n1 une suite de fonctions toutes dcroissantes sur [a, b]. On
suppose de plus que :
t [a, b], fn (t) f (t) R.
n+
Alors la fonction f ainsi dfinie est Riemann intgrable sur [a, b] et

Z b
Z b
fn (t) dt
f (t) dt.
n+
Il est clair que le thorme reste vrai si toutes les fn dindice n n0 sont dcroissantes
ou si elles sont croissantes pour tout n n0 . Attention ne pas confondre suite de
fonctions dcroissantes sur [a, b] avec suite dcroissante de fonctions dfinies sur
[a, b] . Ici on est dans
le premier cas et on ne suppose rien sur le sens de variation des
suites de rels fn (t) n1 , t [a, b].
Preuve. Remarquons dabord que la fonction limite f est dcroissante sur [a, b] comme
limite dune suite de fonctions dcroissantes puisque le passage la limite conserve les
ingalits larges. Par la proposition A.9, f est donc elle aussi Riemann intgrable.
Cette Riemann intgrabilit de f nous assure de lexistence pour > 0 arbitraire fix
dune subdivision = {t0 = a < t1 < < tj = b} telle que
Z b
S (f ) <
f (t) dt < S (f ) + .
(A.54)
a
Notons que par dcroissance de f et de fn , ces fonctions atteignent sur [tk1 , tk ] leur
supremum au point tk1 et leur infimum 13 au point tk . On peut donc expliciter comme
suit pour f et fn les sommes de Darboux suprieures
S (f ) =
j
X
f (tk1 )(tk tk1 ),
k=1
S (fn ) =
j
X
fn (tk1 )(tk tk1 ),
k=1
13. Donc le supremum et linfimum sont ici respectivement un maximum et un minimum.
239

et les sommes de Darboux infrieures :
S (f ) =
j
X
f (tk )(tk tk1 ),
S (fn ) =
k=1
j
X
fn (tk )(tk tk1 ).
k=1
Par convergence simple de fn vers f sur [a, b], on peut trouver n tel que
n n , k = 0, 1, . . . , j,
|f (tk ) fn (tk )| <
.
ba
(A.55)
En effet on na quun nombre fini j + 1 dcarts contrler (rappelons que pour linstant
est fix et donc j aussi) et par convergence de fn (tk ) vers f (tk ), on trouve pour chaque
k = 0, 1, . . . , j un rang n,k partir duquel lingalit ci-dessus est toujours ralise. On
prend alors n = max0kj n,k . En utilisant (A.55) et la positivit des (tk tk1 ), on en
dduit immdiatement que
S (f ) > S (fn ) ,
S (f ) < S (fn ) + .
(A.56)
En reportant ces ingalits dans (A.54), on obtient

Z
S (fn ) 2 <
f (t) dt < S (fn ) + 2,

a
puis
Z
Z
fn (t) dt 2 <
fn (t) dt + 2.
f (t) dt <
a
Autrement dit, nous avons trouv un entier n tel que

Z b

Z b

fn (t) dt
f (t) dt < 2.
n n ,
a
Comme tait
exprime prcisment la convergence quand n tend vers
R b arbitraire, Rceci
b
linfini, de a fn (t) dt vers a f (t) dt.
240
Annexe B
Intgrale gnralise
Lintgrale de Riemann tudie dans lannexe A concerne des fonctions f dfinies en
tout point dun intervalle ferm born [a, b] et bornes sur cet intervalle. Il est utile de
gnraliser cette notion au cas de fonctions dfinies sur un intervalle quelconque, sauf
peut-tre en un nombre fini de points, et pas forcment bornes. Dans le cadre de ce
cours, les principales applications de cette notion dintgrale gnralise concernent les
lois densit, lesprance et les moments de variables alatoires.
B.1
Construction
Commenons par examiner cette gnralisation de lintgrale de Riemann sur quelques

exemples simples.
R +
Exemple B.1. Peut-on dfinir 0 ex dx ?
Ici lintervalle dintgration est [0, +[ et lintgrande f : x 7 ex est dfinie
et continue sur cet intervalle, donc en particulier Riemann
R b x intgrable sur tout sousintervalle ferm born de la forme [0, b]. Lintgrale 0 e dx a bien un sens. Elle se
b
calcule dailleurs immdiatement par primitivation de f et vaut [ex ]0 = 1 eb . Cette
valeur a pour limite 1 quand b tend vers linfini
R + et il est naturel de prendre cette limite
comme dfinition de lintgrale gnralise 0 ex dx. Linterprtation gomtrique de
ce rsultat est que laire de lhypographe H := {(x, y) R2 ; x R+ , 0 y ex }
vaut 1, cf. figure B.1. Pour le justifier, on remarque que H est la runion de la suite
croissante pour linclusion (Hn )n1 , o Hn est lhypographe de f entre 0 et n. Par continuit squentielle croissante de la mesure de
R nLebesgue 2 , cf. proposition 2.16 page 63,
on a 2 (H) = limn+ 2 (Hn ) = limn+ 0 ex dx = 1.
Z +
x
Exemple B.2. Peut-on dfinir
dx ?
1 + x2
0
Comme dans lexemple B.1, lintgrale sur [0, b] a un sens pour tout b R+ . Elle se
calcule par changement de variable u = x2 et primitivation :
Z b
Z 2
b2
1 b du
x
1
1
dx
=
=
ln(1
+
u)
= ln(1 + b2 ).
0
2
2 0 1+u
2
2
0 1+x
241
Annexe B. Intgrale gnralise

y
Fig. B.1 Hypographe H de f : x 7 ex entre 0 et +

Cette quantit tend vers + lorsque b tend vers +. On conviendra donc que
Z +
x
dx = +.
1 + x2
0
Linterprtation gomtrique est que laire de lhypographe de x 7 x(1 + x2 )1 entre 0
et + est infinie. La justification repose sur la continuit squentielle croissante de 2
comme pour lexemple B.1.
R +
Exemple B.3. Peut-on dfinir lintgrale 0 cos x dx ?
La fonction cosinus est continue sur R, donc Riemann intgrable sur tout intervalle
[0, b]. Le calcul par primitivation de cette intgrale donne
Z b

b
cos x dx = sin x 0 = sin b.
b > 0,
0
Lorsque
b tend vers +, sin b na pas de limite, mme dans R, on ne peut donc pas dfinir
R +
cos x dx. Gomtriquement, le domaine H dlimit par le demi-axe des abscisses
0
positives, laxe des ordonnes et la courbe y = cos x, x 0, na pas daire algbrique.
y
x
Fig. B.2 Domaine H dlimit par le graphe de f : x 7 cos x entre 0 et +

Z
dt
, > 0?
0 t
Notons en pralable que si 0, la rponse est immdiate puisque sur [0, 1] la
fonction f : t 7 t est continue donc Riemann intgrable. Par contre si > 0, f nest
pas dfinie en 0, est continue sur ]0, 1] et tend vers + droite en 0.
Exemple B.4. Peut-on dfinir les intgrales
242
B.1. Construction
Puisque f est continue sur ]0, 1], elle est Riemann intgrable sur tout
R 1 intervalle [a, 1]
pour a > 0. On va donc regarder la convergence ventuelle de I(a) := a f (t) dt lorsque
a tend vers 0 par valeurs suprieures. Lintgrale I(a) se calcule par primitivation. Si
6= 1, on obtient
+1 1
Z 1
dt
1 a+1
t
=
a > 0, I(a) =
=
+ 1 a
+ 1
a t
Quand a tend vers 0 par la droite, I(a) tend vers une limite finie 1/(1 ) si + 1 > 0,
i.e. si < 1. Par contre si + 1 < 0, I(a) tend vers +, compte tenu du signe ngatif
du dnominateur constant + 1. Dans le cas particulier = 1, une primitive de f est
la fonction logarithme nperien, do
Z 1
1
dt
a > 0, I(a) =
= ln t a = ln a,
t
a
ce qui tend vers + quand a tend vers 0 par la droite.
Finalement nous pouvons crire
(
Z 1
1
si < 1,
dt
1
=
+ si 1.
0 t
nouveau on peut interprter gomtriquement ce rsultat. Soit H := {(t, y) R2 ;
0 < t 1 et 0 y t } lhypographe de f entre 0 et 1, cf. figure B.3. Si < 1, son
aire est finie et vaut (1 )1 . Si 1, son aire est infinie. Pour la justification, on
peut utiliser la suite, croissante pour linclusion, des hypographes de f entre 1/n et 1.
Z 1
dt
Exemple B.5. Peut-on dfinir
?
1 t
Lintgrande f : t 7 t1 est dfinie et continue sur lintervalle trou [1, 1] \ {0}.
Elle est donc Riemann intgrable sur chacun des intervalles ferms borns [1, a] et
[b, +1] pour 1 < a < 0 et 0 < b < 1. Ceci nous amne tudier la limite quand a et b
tendent vers respectivement 0 gauche ou droite de
Z a
Z 1
a

1
dt
dt
I(a, b) :=
+
= ln |t| 1 + ln |t| b = ln |a| ln b.
t
1 t
b
Quand a et b tendent vers 0 et 0+ respectivement, ln |a| et ln b tendent tous deux
vers +, donc leur diffrence I(a, b) na pas de limite. Si vous nen tes pas convaincu,
regardez ce problme de convergence avec les suites an := 1/n, bn = 1/n2 , puis avec
les suites a0n = 1/n2 et b0n = 1/n. Dans le premier cas I(an , bn ) = ln n tend vers +,
tandis que dans le second, I(a0n , b0n ) = ln n tend vers . Ceci interdit la fonction de
deux variables (a, b) 7R I(a, b) davoir une limite en (0, 0). On ne peut donc pas dfinir
1
lintgrale gnralise 1 dt
, mme comme lment de R. Soit H le domaine dlimit
t
par le graphe de f et laxe des abscisses entre 1 et 1, i.e.
H := {(t, y) R2 ; t [1, 1] \ {0}, (1/t) y (1/t)+ },
243
Fig. B.3 Hypographe H de f : t 7 t entre 0 et 1
0
1
Fig. B.4 H := {(t, y) R2 ; t [1, 1] \ {0}, (1/t) y (1/t)+ }
244
B.1. Construction
R1
voir figure B.4. Le fait que lon ne puisse dfinir 1 dt
signifie que H na pas daire
t
1
algbrique .
R1
comme
Attention, il peut paratre tentant au vu de limparit de f de dfinir 1 dt
t
valant 0 et de dire que laire algbrique de H est nulle. Il faut absolument rsister cette
tentation. En effet, ceci reviendrait dire que I(a, b) tend vers 0 quand (a, b) tend vers
(0, 0) simplement parce que I(a, a) = 0 pour tout a [1, 0[.
Aprs ces exemples introductifs, nous allons formaliser la dfinition de lintgrale de
Riemann gnralise. Il est commode de dsigner les ensembles dintgration considrs
sous le nom 2 d intervalle trou .
Dfinition B.6 (intervalle trou). Soit I un intervalle quelconque de R et T = {t1 , . . . , td }
une partie de cardinal d de I, lindexation des ti vrifiant :
t0 := inf I < t1 < < td < td+1 := sup I +.
On appelle intervalle trou IT lensemble I \ T . On a alors
d
IT = Ii ,
(B.1)
i=0
avec Ii :=]ti , ti+1 [ pour 1 i < d, I0 a pour bornes t0 et t1 et est ouvert droite, Id a
pour bornes td et td+1 et est ouvert gauche. Nous engloberons dans cette dfinition et
ces notations le cas particulier d = 0 o il ny a pas de trous, la runion ci-dessus se
rduisant I = I = I0 .
Les ensembles dintgration utiliss dans les exemples B.1B.5 sont ainsi des intervalles trous avec I = [0, +[ et d = 0 pour les exemples B.1, B.2 et B.3, I =]0, 1] et
d = 0 pour lexemple B.4, I = [1, 1], d = 1, t1 = 0 pour lexemple B.5.
Dfinition B.7 (fonction localement Riemann intgrable). Soient IT un intervalle trou
et f une fonction IT : R. On dit que f est localement Riemann intgrable sur IT si
elle est Riemann intgrable sur tout intervalle ferm born [, ] inclus dans IT , donc
ncessairement inclus dans lun des intervalles Ii de la dcomposition (B.1).
Dfinition B.8 (intgrale gnralise). Soient I un intervalle de R, de bornes a, b R,
T = {t1 , . . . , td } un ensemble de trous dans I et f localement Riemann intgrable sur
lintervalle trou IT . On dit que lintgrale gnralise de f entre a et b converge si on
peut trouver une suite finie c0 , c1 , . . . , cd avec ci Ii pour i = 0, . . . , d telle que chacune
des limites suivantes existe et soit finie :
Z xi
Z ci
i = 0, . . . , d,
lim
f (t) dt =: ì ,
lim
f (t) dt =: `0i .
(B.2)
0
xi ti+1 ,
xi <ti+1
ci
xi ti ,
x0i >ti
x0i
1. Par contre il a une aire 2 (H) = +, ce qui correspond au fait que

2. non standard.
R1
dt
1 |t|
= + (exercice).
245

Rb
Rb
On dit alors que lintgrale gnralise a f (t) dt converge et on dfinit a f (t) dt comme
le rel
Z b
d
X
f (t) dt :=
(`0i + ì ).
(B.3)
a
i=0
Si lune au moins des conditions (B.2) nest pas vrifie, i.e. il ny a pas de limite ou une
Rb
limite infinie, on dit que lintgrale gnralise a f (t) dt diverge. Dans ce cas lcriture
Rb
f (t) dt ne reprsente pas un nombre rel.
a
Rb
P+
Lutilisation du symbole a f (t) dt est analogue celle de
k=0 uk qui dsigne
la fois une srie et lorsquelle converge
dans
R,
sa
somme
qui
est
le rel limite de la
Pn
suite des sommes partielles Sn =
k=0 uk . La srie peut diverger parce
P que la suite
(Sn )n1 tend vers + (resp. ), auquel cas on sautorise lcriture +
k=0 uk = +
(resp. = ). Mais elle peut aussi
P+diverger parce que (Sn )n1 na pas de limite, mme
infinie. Dans ce cas lcriture k=0 uk est purement formelle et ne reprsente pas un
Rb
lment de R. Pour lintgrale gnralise divergente a f (t) dt, on sautorisera lcriture
Rb
f (t) dt = + si certains des ì , ou `0i valent +, les autres tant finis. De mme
a
Rb
on crira a f (t) dt = si certains des ì , ou `0i valent , les autres tant finis.
Rb
Dans tous les autres cas de divergence 3 , le symbole a f (t) dt est seulement une criture
formelle et ne reprsente pas un lment de R.
Le lecteur attentif naura pas manqu de Rnoter que la dfinition B.8 pose un problme
b
de cohrence car lexistence et la valeur de a f (t) dt semblent dpendre du choix de la
suite c0 , c1 , . . . , cd . Le lemme suivant rpond cette lgitime inquitude.
Lemme B.9. Avec les notations de la dfinition B.8, on suppose que la suite finie
c0 , c1 , . . . , cd vrifie (B.2). Soit c0 , c1 , . . . , cd une suite telle que ci Ii pour i = 0, . . . , d.
Alors on a
Z xi
Z ci
f (t) dt =: ì = ì +
f (t) dt
(B.4)
i = 0, . . . , d,
lim
xi ti+1 ,
xi <ti+1
ci
et
Z
i = 0, . . . , d,
lim
0
xi ti ,
x0i >ti
ci
x0i
ci
f (t) dt =: `0i = `0i +
ci
f (t) dt.
(B.5)
ci
Une consquence immdiate de ce lemme est que

d
X
(`0i
+ ì ) =
i=0
d
X
(`0i + ì )
i=0
R ci
R ci
puisque `0i + ì = `0i + ì , la somme de ci et ci sannihilant par la relation de Chasles.

Ainsi ni la convergence de lintgrale gnralise de f entre a et b ni la dfinition de sa
valeur par (B.3) ne dpendent du choix de la suite c0 , c1 , . . . , cd .
3. i.e. si lune au moins des intgrales de (B.2) na pas de limite mme dans R ou si elles ont toutes
une limite dans R, mais avec au moins une des limites valant et au moins une valant +.
246
B.1. Construction
Preuve du lemme B.9. Puisque lon fait tendre xi vers ti+1 par valeurs infrieures, on
peut toujours supposer que max(ci , ci ) < xi < ti+1 . La fonction f est alors Riemann
intgrable sur [min(ci , ci ), xi ] et la relation de Chasles combine avec (B.2) nous donne
Z xi
Z ci
Z xi
Z ci
f (t) dt =
f (t) dt +
f (t) dt
f (t) dt + ì .
ci
ci
xi ti+1 ,
xi <ti+1
ci
ci
La vrification de (B.5) est analogue.

Remarque B.10. Dans le cas o lintervalle I de la dfinition B.8 est ferm en b (donc
b I), la condition
Z xd
f (t) dt =: `d R
lim
xd b,
xd <b
cd
est automatiquement vrifie. En effet, [cRd , b] est inclus dans IT , donc f est Riemann
x
intgrable sur [cd , b] et la fonction xd 7 cdd f (t) dt est continue sur cet intervalle, cf.
thorme A.31 i), donc continue gauche au point b, ce qui nous donne lexistence de la
Rb
limite finie `d et sa valeur `d = cd f (t) dt. En pratique on sabstiendra donc de revrifier
lexistence de cette limite. Par exemple si f est localement Riemann intgrable sur ]c, b],
il faut seulement regarder ce qui se passe au voisinage de c.
Bien entendu si a I,Ron a une situation analogue, savoir la convergence
R c0 automac0
0
tique quand x0 a+ de x0 f (t) dt vers lintgrale de Riemann ordinaire a f (t) dt.
0
Rb
Nous dfinissons aussi les intgrales gnralises a avec a > b en cohrence avec la
dfinition A.2.
Ra
Dfinition B.11. Si a > b et si lintgrale gnralise b f (t) dt converge, on pose
Z b
Z a
f (t) dt :=
f (t) dt.
(B.6)
a
Remarque B.12 (rduction du problme). Une fois pay notre tribut au formalisme
avec la dfinition B.8, il convient de se simplifier la vie en notant que ltude
R c de la
convergence dune intgrale gnralise se ramne ltude de limites du
type
f (t) dt
x0
Rx
0
quand x a+ avec f localement Riemann intgrable sur ]a, c] ou c f (t) dt quand
x b avec f localement Riemann intgrable sur [c, b[. Nous nous contenterons la
plupart du temps, dnoncer des rsultats relatifs au deuxime type, en laissant au
lecteur le soin dcrire leur adaptation immdiate au premier type et de recoller les
morceaux par (B.3).
Dfinition B.13 (notation Rloc [a, b[). Soient a et b tels que < a < b +. Nous
notons Rloc [a, b[ lensemble des fonctions localement Riemann intgrables sur [a, b[.
Pour tudier la convergence dune intgrale gnralise, on a souvent recours une
technique de comparaison avec une intgrale de rfrence. Les intgrales gnralises des
fonctions puissances t 7 t au voisinage de 0 ou de + sont les intgrales de rfrence
les plus utilises.
247

Proposition B.14. Soit un rel.
Z +
dt
a)
converge si > 1 et diverge si 1.
t
1
Z 1
dt
b)
converge si < 1 et diverge si 1.
0 t
Preuve. Le a) a dj t trait lexemple B.4 en rappelant que si 0, on a affaire
lintgrale de Riemann ordinaire dune fonction continue sur [0, 1]. Pour le b), on
note que f : t 7 t est continue sur [1, +[ donc localement Riemann intgrable
sur cet intervalle, donc Riemann intgrable sur tout intervalle [1, x] pour x 1. Par
primitivation on a
( +1
Z x
1
x
1
si 6= 1,
dt
+1
=
ln x
si 6= 1.
1 t
R x
On en dduitR que pour 1, 1 t dt tend vers + quand x tend vers + et que
x
pour > 1, 1 t dt tend vers la limite finie 1/( 1) quand x tend vers +.
Corollaire B.15. Si < a < b < + et si est un rel,
Z b
dt
converge si et seulement si < 1,
a (t a)
Z b
dt
converge si et seulement si < 1.
a (b t)
(B.7)
(B.8)
Preuve. Cest une adaptation immdiate de la preuve du a) ci-dessus, voir exemple B.4,
via les changements de variable u = t a et v = b t respectivement.
Dans la situation de la proposition B.14, lintgrale diverge lorsque f tend trop vite
vers + en 0 dans le cas a) et tend trop lentement vers 0 en + dans le cas b) 4 . Dans
le cas b), on peut penser lanalogie avec la srie de terme gnral k , cf. thorme 1.55
p. 26. Pour autant il faut se garder de tirer des conclusions htives de cette analogie. Si
la convergence dune srie implique toujours la convergence versR0 de son terme gnral,
+
la situation est plus complique pour les intgrales de la forme a f (t) dt.
R +
Remarque B.16. La convergence de lintgrale a f (t) dt nimplique pas que f (t) ait
pour limite 0 en +. Voici un contre exemple. Prenons a = 0 et pour f la fonction
continue affine par morceaux dont lhypographe se rduit (en dehors des segments o
f est nulle) la runion de la suite (Tn )n1 des triangles isocles de sommet principal
(n, 2n ) et de base [n4n , n+4n ], cf. figure 5 B.5. La fonction f vrifie les deux proprits
suivantes.
4. On pourrait dailleurs dduire le b) du a) par un argument gomtrique sur les hypographes en
notant que les fonctions f : t 7 t et g : t 7 t1/ dfinies sur ]0, +[ sont rciproques lune de
lautre, donc que leurs graphes en repre orthonorm se correspondent par la symtrie relativement
la premire bissectrice du repre. Par conservation de 2 , on en dduit que lhypographe de g entre 1
et + a mme aire que lhypographe de f entre 0 et 1 priv du carr unit (faites le dessin !).
5. Pour des raisons de lisibilit on a muni laxe des ordonnes dune chelle logarithmique et on a
fortement exagr la base de chaque triangle isocle.
248
B.1. Construction
1.
R +
a
f (t) dt converge (et vaut 1).
2. Pour tout n N , f (n) = 2n et f (n + 1/2) = 0. Par consquent f na pas de limite

en +.
2n
23
22
2
0
Fig. B.5
1
R +
0
f (t) dt peut converger sans que f ait une limite en +
Preuve. Comme fonction continue, f appartient Rloc [0, +[ donc est Riemann intgrable sur tout intervalle [0, x], x R+ . Les triangles Tn sont deux deux disjoints et
laire 2 (Tn ) se calcule par la formule classique demi-produit de la base par la hauteur 6 ,
do
2 (Tn ) = 4n 2n = 2n .
On en dduit immdiatement que la srie de terme gnral 2 (Tk ) est gomtrique convergente. Le calcul de sa somme partielle Sn est bien connu :
Sn :=
n
X
2 (Tk ) =
k=1
n
X
k=1
=2
n1
X
j=0
2j = 21
1 2n
= 1 2n .
1 21
R +
Rx
Nous allons montrer la convergence de 0 f (t) dt en comparant
R x 0 f (t) dt et Sn pour
n = [x], la partie entire de x. En effet, pour n fix, gn : x 7 0 f (t) dt Sn est une
fonction croissante puisque f est positive. Sur lintervalle [n, n + 1], cette fonction a
pour minimum gn (n) = 21 2 (Tn ) et pour maximum gn (n + 1) = 12 2 (Tn+1 ). Comme
2 (Tn ) > 2 (Tn+1 ), on en dduit
Z x
1

x [n, n + 1],
f (t) dt Sn 2 (Tn ) < 2n .
2
0
6. Si vous tres sceptiques vous pouvez toujours chercher une expression analytique pour la restriction
de f [n 4n , n + 4n ] et lintgrer sur ce segment pour voir si vous trouvez le mme rsultat.
249

Compte-tenu du calcul de Sn rappel ci-dessus, ceci nous permet dcrire
Z x

f (t) dt 1 2[x] < 2[x] .
x 1,
0
En faisant tendre x vers +, on en dduit que

converge et vaut 1. Le point 2 est vident.
Rx
0
f (t) dt tend vers 1. Donc
R +
0
f (t) dt
R +Ce genre de pathologie nest pas rserv aux intgrales gnralises de la forme
f (t) dt. titre dexercice, on vous laisse le soin de construire une fonction f conti0
R1
nue sur [0, 1[ telle que 0 f (t) dt converge et quil existe 3 suites (un )n1 , (vn )n1 et
(wn )n1 convergentes vers 1 dans [0, 1[ telles que f (un ) tende vers +, f (vn ) tende vers
0 et f (wn ) tende vers . Voici une suggestion parmi les multiples solutions possibles.
Dcouper [0, 1[ en trois segments de mme longueur [0, 1/3[, [1/3, 2/3[ et [2/3, 1[. Sur les
deux premiers prendre pour graphe de f les triangles isocles de base ces segments et
de hauteurs respectives +2 et 2. Itrer ce partage en trois sur [2/3, 1[ avec sur les
deux premiers segments du partage des triangles isocles de hauteur +4 et 4 et ainsi
de suite jusqu linfini.
Aprs ces contre exemples, voyons ce que lonRpeut dire dans des situations moins
+
pathologiques sur la relation entre convergence de a f (t) dt et comportement de f au
voisinage de +.
Proposition B.17. Soit f Rloc [a, +[.
i) On suppose
R + quil existe A [a, +[ et m > 0 tels que f (t) m pour tout t A.
Alors a f (t) dt diverge.
ii) Cette divergence a lieu aussi sil existe m0 < 0 et A a tels que f (t) m0 pour
tout t A.
R +
iii) En consquence, si f a une limite non nulle ` R en +, a f (t) dt diverge.
Preuve. Pour i), il suffit de remarquer que pour tout x A,
Z A
Z x
Z A
Z x
f (t) dt + m(x A),
f (t) dt
f (t) dt +
f (t) dt =
a
par croissance de lintgrale de Riemann sur [A, x], voir Rla proposition A.21 ii) et la
x
figure B.6. En faisant tendre x vers +, on en dduit que a f (t) dt tend vers +, do
R +
la divergence de a f (t) dt.
Rx
RA
DeR mme pour ii), on obtient la minoration a f (t) dt a f (t) dt + m0 (x A) et
x
donc a f (t) dt tend vers quand x tend vers +.
Supposons maintenant que f ait une limite non nulle ` R en +. On peut distinguer 4 cas.
Cas 1. ` ]0, +[, alors il existe un A a tel que pour tout t A, f (t) > 2` . On
applique i) avec m = 2` > 0.
Cas 2. ` = +, alors il existe un A a tel que pour tout t A, f (t) 1, on
pourrait bien sr remplacer ce minorant 1 par nimporte quel rel B > 0 choisi
lavance 7 . On applique i) avec m = 1.
7. Mais pas par
250
`
2
qui a ici le mauvais got de valoir + !
B.2. Critre de Cauchy pour intgrales gnralises

y
m
m(x A)
0
Fig. B.6
Rx
A
f (t) dt m(x A)
Cas 3. ` ] , 0[, alors il existe un A a tel que pour tout t A, f (t) < 2` . On
applique ii) avec m0 = 2` < 0.
Cas 4. ` = , alors il existe un A a tel que pour tout t A, f (t) 1. On
applique ii) avec m = 1.
Corollaire
B.18. Soit a un rel et f une fonction positive et dcroissante sur [a, +[.
R +
Si a f (t) dt converge, alors f tend vers 0 en +.
Preuve. Une fonction dcroissante sur [A, +[ est localement Riemann intgrable sur
cet intervalle, cf. proposition A.9. Dautre part comme fonction monotone, elle admet
f , cette limite est
toujours en + une limite ` R . Par dcroissance et positivit de
R +
ncessairement dans [0, +[. Si ` > 0, alors par le cas 1 ci-dessus, a f (t) dt diverge,
ce qui contredit lhypothse de convergence de cette intgrale. Donc ` = 0.
B.2
Critre de Cauchy pour intgrales gnralises
Lintrt du critre de Cauchy dans un espace complet est de permettre dtablir

lexistence dune limite sans connatre a priori sa valeur. Nous allons voir une version
de ce critre pour la convergence des intgrales gnralises. Auparavant, il nest peuttre pas superflu de rappeler quelques versions du critre de Cauchy pour lexistence de
limites de suites ou de fonctions.
Proposition B.19 (critres de Cauchy).
1. La suite de rels (un )n1 converge dans R si et seulement si
> 0, N N ,
n, p N,
|un up | < .
(B.9)
2. Soit F une fonction valeurs relles ou complexes, dfinie sur D R et a un

point adhrent D. Alors F a une limite finie au point a si et seulement si :
> 0, > 0,
x, x0 D]a , a + [\{a},
|F (x) F (x0 )| < .
(B.10)
251

3. Soit F une fonction valeurs relles ou complexes, dfinie sur D R et a R tel
que pour tout rel > 0, D]a, a + [ soit non vide. Alors F a une limite droite
finie au point a si et seulement si :
> 0, > 0,
x, x0 D]a, a + [,
|F (x) F (x0 )| < .
(B.11)
4. Soit F une fonction valeurs relles ou complexes, dfinie sur D R et a R tel

que pour tout rel > 0, D]a , a[ soit non vide. Alors F a une limite gauche
finie au point a si et seulement si :
> 0, > 0,
x, x0 D]a , a[,
|F (x) F (x0 )| < .
(B.12)
5. Soit F une fonction valeurs relles ou complexes, dfinie sur un intervalle [a, +[,
a R. Alors F a une limite finie en + si et seulement si :
> 0, A > 0,
x, x0 A,
|F (x) F (x0 )| < .
(B.13)
De mme que lapplication du critre de Cauchy (B.9) la suite des sommes partielles dune srie conduit au critre de Cauchy pour les sries, cf. thorme 1.50, les
critres (B.10)(B.13) nous fournissent des critres de Cauchy pour la convergence dintgralesR gnralises. Nous les noncerons seulement pour la convergence en b des intb
grales a f (t) dt en utilisant (B.12) ou (B.13) selon que b est fini ou non. Au lecteur de
complter.
Thorme B.20 (critre de Cauchy pour les intgrales).
R +
1. Soit f Rloc [a, +[. Lintgrale gnralise a f (t) dt converge si et seulement
si :
Z x0

0

> 0, A > 0, x, x A,
f (t) dt < .
(B.14)
x
2. Soit f Rloc [a, b[, avec b < +. Alors

> 0, ]0, b a[,
Rb
a
f (t) dt converge si et seulement si :
x, x ]b , b[,
x0

f (t) dt < .
(B.15)
Preuve. Il suffit dappliquer

R x le critre de Cauchy (B.12) ou (B.13) la fonction F :
[a, b[ R, x 7 F (x) := a f (t) dt qui est bien dfinie sur [a, b[ puisque f est Riemann
intgrable sur [a, x] pour tout x [a, b[.
Corollaire B.21. Soit f Rloc [a, b[ avec b fini.
Rb
1. Si f est borne sur [a, b[, alors a f (t) dt converge.
Rb
2. Si f a une limite gauche finie en b, alors a f (t) dt converge.
252

Preuve. Vrifions le point 1. Par hypothse, il existe M R+ tel que pour tout t [a, b[,
|f (t)| M . Dautre part f tant localement Riemann intgrable sur [a, b[ est Riemann
intgrable sur tout segment [x, x0 ] [a, b[. Par croisance de lintgrale de Riemann, cf.
proposition A.21, on en dduit :
Z x0
Z x0

0
0

|f (t)| dt M (x0 x).
(B.16)
f
(t)
dt
x, x [a, b[ avec x < x ,

x
Cette ingalit nous permet de vrifier le critre de Cauchy (B.15). En effet, soit > 0
arbitraire. Posons := min(/M, b a). Pour tous x, x0 ]b , b[, on a clairement
R x0

M (x0 x) < , donc compte-tenu de (B.16), x f (t) dt < .
Pour le point 2, il suffit de noter que si f a une limite finie ` gauche en b, alors sur
un intervalle ]b 0 , b[ suffisamment petit, on a |f (t)| |`|+1. Comme f est aussi borne
sur [a, b 0 ] car Riemann intgrable sur ce segment, elle est borne sur la runion des
deux intervalles, i.e. sur [a, b[ et on conclut en appliquant le point 1.
Z 0
1
Exemple B.22. Lintgrale gnralise
sin
dt converge.
t
1/
En effet, f : t 7 sin(1/t) est dfinie et continue sur [1/, 0[, donc f Rloc [1/, 0[.
Elle est borne sur cet intervalle puisque | sin(1/t)|
1 pour tout t R . Le point 1 du
R0
corollaire B.21 nous donne la convergence de 1/ f (t) dt. Notons au passage que f na
pas de limite gauche en zro, car elle oscille une infinit de fois entre les valeurs 1
et 1 sur tout voisinage gauche de 0, aussi petit soit-il, cf. figure B.7.
y
1
1

2
Fig. B.7 Graphe de t 7 sin(1/t) pour t 1
,
39
Rb
|f
(t)|
dt
converge,
alors
f (t) dt converge.
a
a
Rb
Preuve. Par le thorme B.20, la convergence de a |f (t)| dt implique le critre de Cauchy
(B.14) si b R ou (B.15) si b = +, avec |f | la place de f . Lingalit
Z x0
Z x0

f
(t)
dt
|f (t)| dt

Corollaire B.23. Soit f Rloc [a, b[). Si
Rb
montre
R b que le critre de Cauchy correspondant est aussi vrifi par f , do la convergence
de a f (t) dt par une nouvelle invocation du thorme B.20.
253

Remarque B.24. La rciproque
du corollaire B.23 est fausse. Nous
un peu plus
R + verrons
R +
tard que par (contre) exemple, 1 sint t dt converge, alors que 1 sint t dt diverge.
Rb
Dfinition B.25 (convergence absolue). Soit f Rloc [a, b[). Si a |f (t)| dt converge, on
Rb
dit que a f (t) dt est absolument convergente.
Une intgrale absolument convergente est toujours convergente (cor. B.23), la rciproque est fausse (rem. B.24).
Le Rthorme suivant permet entre autres de montrer la convergence dintgrales de la
+
forme a f (t) sin t dt avec f positive dcroissante et tendant vers 0 en +. Sa preuve
combine le critre de Cauchy et la deuxime formule de la moyenne que nous navons
pas vue. Nous admettrons ce thorme.
Thorme B.26 (critre dAbel). Soient f, g Rloc [a, +[ et vrifiant
i) f est positive et dcroissante sur [a, +[ et a pour limite 0 en +.
ii) Il existe une constante M telle que
x, y [a, +[,
Alors
R +
a

g(t) dt M.
(B.17)
f (t)g(t) dt converge.
Si on prend en particulier g(t) = sin t, il est facile de vrifier (B.17). En effet

Z y

y
sin t dt = cos t x = cos x cos y et | cos x cos y| 2.
x
Il en va de mme avec g(t) = cos t, ou g(t) = sin(ct), ou g(t) = cos(ct).

nonons sparment ce cas particulier du thorme B.26 avant den proposer une
dmonstration directe.
Proposition B.27. Si f est positive
sur [a, +[ et a pour limite 0 en
R + et dcroissante
R +
+, les intgrales gnralises a f (t) sin t dt et a f (t) cos t dt convergent.
R +
Preuve. Nous montrerons simplement la convergence de a f (t) sin t dt, ladaptation
R +
de la mthode au cas de a f (t) cos t dt tant immdiate. Remarquons dabord que
lintgrande h : t 7 f (t) sin t est localement Riemann intgrable sur [a, +[. En effet,
les restrictions des fonctions f et sin au segment [, ] [a, +[ sont respectivement
monotone et continue donc Riemann intgrables. Leur produit h est donc aussi Riemann
intgrable sur [, ], cf. prop. A.26. Ceci tant vrai pour tout [, ] [a, +[, h est
dans Rloc [a, +[.
Notons Ik := [k, (k + 1)], k N . Pour k assez grand, disons k k0 , Ik [a, +[.
Aux bornes de Ik , sin t sannule et pour tout t intrieur Ik , sin t a mme signe que
(1)k . On a donc pour tout t Ik , sin t = (1)k | sin t| do
Z (k+1)
Z (k+1)
k
f (t) sin t dt = (1)
f (t)| sin t| dt =: (1)k vk .
(B.18)
k
254

y
f (a)
f (a) sin a
a
Fig. B.8 Graphe de t 7 f (t) sin(t) avec f 0, graphes de f et f en pointills

Rx
On vrifie maintenant que la convergence quand x tend vers + de a h(t) dt se
rduit la convergence de la srie de terme gnral (1)k vk . Pour x > k0 , il existe
un unique entier n tel que (n + 1) x < (n + 2). Cet entier dpendant de x tend
videmment vers + avec x. On peut alors crire
Z
k0
h(t) dt =
(n+1)
h(t) dt +
h(t) dt +
k0
h(t) dt.
(B.19)
(n+1)
Traitons dabord le terme rsiduel

Z
h(t) dt,
(x) :=
(n+1)
en notant que par la majoration | sin t| 1 et la dcroissance de f ,

Z x
Z x

f (t) dt x (n + 1) f (n + 1) f (n + 1) .
|h(t)| dt
|(x)|
(n+1)
(n+1)
Or f tend vers 0 en + et n = n(x) tend vers linfini avec x, donc (x) tend vers
Rk
0 en +. En notant C la constante a 0 h(t) dt, en utilisant la relation de Chasles
et (B.18), nous pouvons ainsi rcrire (B.19) sous la forme
Z
h(t) dt = C +
a
n
X
k=k0
(1)k vk + (x),
lim (x) = 0.
x+
Rx
Il est alors clair que la convergence en + de a h(t) dt vers une limite finie quivaut
la convergence de la srie de terme gnral (1)k vk .
La convergence de cette srie rsultera du thorme des sries alternes (th. 1.59) si
lon montre que la suite (vk )kk0 tend vers 0 en dcroissant.
Les mmes majorations que celles utilises pour (x) nous donnent
Z
(k+1)
f (t)| sin t| dt f (k) 0.
vk =
k
k+
255
f (k)
vk+1
t
k
Fig. B.9 vk 0 car f (k) vk vk+1
Pour vrifier la dcroissance de (vk )kk0 , comparons vk et vk+1 grce au changement de

variable s = t + qui transforme Ik+1 en Ik :
Z (k+1)
Z (k+2)
f (t + )| sin t| dt.
f (s)| sin s| ds =
vk+1 =
k
(k+1)
Par dcroissance de f on a pour tout t Ik , f (t)| sin t| f (t + )| sin t| do par

intgration de cette ingalit sur Ik , vk vk+1 .
Z +
sin t
Exemple B.28. Lintgrale
dt est convergente, mais pas absolument.
t
1
La convergence rsulte de la proposition B.27 avec f (t) = 1/t. Vrifions que lintgrale
nest pas absolument convergente. Pour x , il existe un unique entier n tel que
(n + 1) x < (n + 2) et cet entier dpendant de x tend vers + avec x. En posant
R (k+1)
|h(t)| := t1 | sin t| et vk := k
|h(t)| dt, on a
Z x
Z
Z x
n
n
X
X
|h(t)| dt
vk .
|h(t)| dt +
vk +
|h(t)| dt =
1
(n+1)
k=1
k=1
Rx
Pour prouver que 1 |h(t)| dt tend vers + avec x, il suffit donc de montrer la divergence
de la srie de terme gnral positif vk . Ceci rsulte de la minoration suivante qui utilise
la dcroissance de t 7 1/t et la -priodicit de | sin t| :
Z (k+1)
Z (k+1)
Z
| sin t|
| sin t|
1
2
vk =
dt
dt =
sin t dt =
.
t
(k + 1)
(k + 1) 0
(k + 1)
k
k
2
diverge (cor. 1.56), on en dduit
Comme la srie de terme gnral positif uk := (k+1)
que
n
n
X
X
vk
uk +.
k=1
k=1
n+
Rx
Ainsi 1 |h(t)| dt tend bien vers + avec x.

Nous avons choisi pour cet exemple dintgrer entre 1 et +, mais le rsultat reste
valable en intgrant la mme fonction entre 0 et +. On vous laisse en exercice la
justification de la convergence en 0.
256
B.3. Intgrales gnralises de fonctions positives
B.3
Intgrales gnralises de fonctions positives
La fonction f dfinie sur [a, b[ est dite positive sur [a, b[ si pour tout t [a, b[,
f (t) 0. Nous noncerons tous les rsultats de cette section avec des fonctions positives
sur [a, b[, mais il est clair quils stendent au cas plus gnral des fonctions f dfinies sur
[a, b[ et positives au voisinage de b, i.e. il existe un c [a, b[ tel que t [c, b[, f (t) 0.
Ils stendent aussi au cas des fonctions de signe constant au voisinage de b, modulo une
adaptation laisse au lecteur.
Soit f Rloc [a, b[ et positive sur [a, b[. Alors la fonction F dfinie par
Z x
f (t) dt, x [a, b[,
F (x) :=
a
est croissante sur [a, b[. En effet si a x0 x00 < b,

Z x00
00
0
f (t) dt 0,
F (x ) F (x ) =
(B.20)
x0
par positivit de f sur [x0 , x00 ]. Il ny a donc que deux possibilits pour le comportement
de F (x) quand x tend vers b gauche.
1. La fonction croissante F est majore sur [a, b[, i.e. il existe M R+ tel que pour
tout x [a, b[, F (x) M < +. Alors F a une limite finie ` gauche en b
Rb
Rb
(` M ), autrement dit lintgrale gnralise a f (t) dt converge et a f (t) dt = `.
2. La fonction croissante F nest pas majore sur [a, b[. Alors F tend vers +
Rb
Rb
gauche en b, lintgrale gnralise a f (t) dt diverge et a f (t) dt = +.
Rappelons ici quil existe des intgrales divergentes auxquelles on ne peut attribuer
aucune valeur, pas mme infinie, voir lexemple B.3. Comme nous venons de le voir, ce
type de divergence ne peut se produire lorsque f est de signe constant.
Thorme B.29 (comparaison). Soient f, g Rloc [a, b[ telles que 0 f g sur [a, b[.
Alors
Z b
Z b
f (t) dt converge,
g(t) dt converge =
(B.21)
a
a
Z b
Z b
f (t) dt diverge =
g(t) dt diverge.
(B.22)
a
Preuve. Soit x quelconque dans [a, b[. Alors f et g sont Riemann intgrables sur [a, x]
et en intgrant sur cet intervalle lingalit f g, on voit que
Z x
Z x
x [a, b[, F (x) :=
f (t) dt
g(t) dt =: G(x).
a
Comme
R xf et g sont positives, les fonctions F et G sont croissantes daprs (B.20).
Si a g(t) dt converge, cela signifie que G a une limite gauche finie L en b. La
fonction croissante G est donc majore sur [a, b[ par L et F lest aussi puisque F G
257

sur [a, b[. tant croissante sur [a, b[ et majore par L < + sur cet intervalle, F a aussi
Rb
une limite gauche finie ` L en b. Autrement dit, a f (t) dt converge. Ceci tablit
limplication
(B.21).
Rx
Si a f (t) dt diverge, le point 2 de lalternative ci-dessus entre en vigueur 8 . Autrement
dit, F (x) tend vers + gauche en b. Il en va de mme pour G puisque F G. Donc
Rb
g(t) dt = + et cette intgrale diverge. Limplication (B.21) est ainsi vrifie.
a
Z
Exemple B.30. Les intgrales gaussiennes
ect dt, c > 0, convergent.
ltude spare de
R 0 Par rduction
R + du problme, cf. remarque B.12, on se ramne
2
et de 0 . Par parit de lintgrande f : t 7 exp(ct ), il est clair quil suffit
dtudier la convergence de lintgrale gnralise de f sur [0, +[. Notons au passage

que f est continue sur R, donc clairement membre de Rloc ] , 0] et de RRloc [0, +[.
x
Puisque f est en particulier Riemann intgrable sur [0, 1], le dcoupage 0 f (t) dt =
R1
Rx
R +
f (t) dt+ 1 f (t) dt nous ramne finalement ltude de la convergence de 1 f (t) dt.
0
Cette dernire rduction est motive par lingalit t2 t pour t 1. Par positivit
de c et croissance de la fonction exponentielle, on en dduit ct2 ct et f (t) =
exp(ct2 ) exp(ct) =: g(t).
Nous pouvons alors appliquer limplication (B.21) pour
R +
conclure la convergence de 1 f (t) dt. En effet
Z
donc
R +
1
exp(ct)
exp(ct) dt =
c
x
=
1
exp(c)
exp(c) exp(cx)
,
x+
c
c
c
g(t) dt converge.
Corollaire B.31. Soient f, g Rloc [a, b[. On suppose que |f | g sur [c, b[ pour un
Rb
Rb
c [a, b[ et que c g(t) dt converge. Alors lintgrale gnralise a f (t) dt est absolument
convergente.
Preuve. Les fonctions f etR g (donc
R c aussi
R x leur valeur absolue) sont Riemann intgrables
x
sur [a, c]. Le dcoupage a = a + c montre alors que la convergence absolue de
Rb
Rb
f
(t)
dt
quivaut
celle
de
f (t) dt. Cette dernire convergence dcoule immdiaa
c
Rb
tement de celle de c g(t) dt par (B.21) appliqu sur [c, b[ au lieu de [a, b[, avec |f | la
place de f .
Z +
sin(t cos t)
dt converge absolument.
Exemple B.32. Lintgrale
t2
1
Cest une application immdiate du corollaire B.31 avec a = c = 1 et g(t) = t2 .
Thorme B.33 (intgrandes quivalentes). Soient f, g Rloc [a, b[, positives au voiRb
Rb
sinage gauche de b. Si elles sont quivalentes en b, a f (t) dt et a g(t) dt sont de
mme nature.
8. Parce que f est positive sur [a, b[.
258

Preuve. Rappelons que f quivalente g en b not encore f g signifie quil existe
b
un rel c [a, b[ et une fonction h dfinie que [c, b[ telle que

t [c, b[,
f (t) = g(t)h(t) et
lim h(t) = 1.
tb
Cette limite gauche de h en b nous permet de trouver un d [c, b[ tel que lencadrement
1/2 h(t) 3/2 soit vrifi 9 pour tout t [d, b[. Par positivit de f et g au voisinage
de b et quitte remplacer d par d0 [d, b[, on se ramne au cas o g est positive sur
[d, b[. On a alors
t [d, b[,
3g(t)
g(t)
f (t) = g(t)h(t)
,
2
2
(B.23)
do lon tire
1
2
x [d, b[,
Z
g(t) dt
d
3
f (t) dt
2
g(t) dt.
(B.24)
Rb
Rd
Rb
Supposons que a g(t) dt diverge. Comme
R x a g(t) dt est une constante finie, d g(t) dt
diverge aussi. Par positivit de g sur [d, Rb[, d g(t) dt tend alors vers + quand x tend
x
vers b gauche. Il en va de mme pour d f (t) dt cause de la premire ingalit dans
Rd
Rx
(B.24). Par addition de la constante a f (t) dt on voit finalement que a f (t) dt tend
Rb
Rb
vers + en b. Ainsi la divergence de a g(t) dt implique celle de a f (t) dt.
Rb
Rx
Si a g(t) dt converge, lensemble { d g(t) dt; x [d, b[ } Rest major et la deuxime
x
ingalit dans (B.24), montre quil en va de mme pour { d f (t) dt; x [d, b[ }. On
Rb
en dduit facilement que a f (t) dt converge en utilisant la positivit sur [d, b[ de f qui
rsulte de (B.23).
Corollaire B.34. Soient f, g Rloc [a, b[ telles que g soit strictement positive sur un
voisinage gauche de b et que
f (t)
= K,
tb g(t)
K ]0, +[.
lim
Alors
Rb
a
f (t) dt converge si et seulement si
Rb
a
(B.25)
g(t) dt converge.
Preuve. La positivit stricte de g sur un voisinage gauche de b et (B.25) impliquent

que f et Kg sont toutes deux positives sur un mme voisinage [c, b[ de b et que f et Kg
sont quivalentes en b. On conclut en appliquant le thorme B.33 f et Kg.
Z 1
Exemple B.35. I :=
t (1 t) dt converge si et seulement si > 1 et > 1.
0
Lintgrande f : t 7 t (1 t) est toujours continue au moins sur ]0, 1[, donc f est
localement Riemann intgrable sur ]0, 1[.
9. Appliquer la dfinition de la limite avec = 1/2.
259

Pour 0 et 0, f est continue sur [0, 1] donc Riemann intgrable sur [0, 1]. I
est alors une intgrale ordinaire. Si < 0 ou < 0, I est une intgrale gnralise . Pour
R 1/2 R 1
tudier sa convergence, on regarde sparment 0 et 1/2 . Notons que f est strictement
positive sur ]0, 1[, ce qui nous permet dutiliser le thorme B.33. On voit ainsi que
t (1 t) 0+
t
et t (1 t) 1
(1 t) .
Compte-tenu du corollaire B.15, on en dduit que I converge si et seulement si > 1

et > 1.
Z +
dt
Exemple B.36. I :=
converge.
1 + t3
0
On a envie de dire que cest une application immdiate du thorme B.33 puisque
f (t) := (1 + t)3 ' t3 =:R g(t) en +. Mais alors on introduit artificiellement un
+
problme en zro pour g et 0 g(t) dt diverge ( cause de la borne 0). En y regardant
de plus prs, on voit que les hypothses du thorme B.33 ne sont pas toutes vrifies
puisque g est localement intgrable sur ]0, +[, mais pas sur [0, +[. Notons que f
elle, est bien dans Rloc [0, +[ comme
fonction continue sur [0, +[. On se sort de de
R +
mauvais pas en remarquant que I et 1 f (t) dt sont de mme nature et en appliquant
le thorme
sur lintervalle [1, +[ avec les restrictions de f et g cet intervalle.
R +B.33
3
En effet 1 t dt converge par la proposition B.14 a).
R + dt
On aurait pu aussi prouver par cette mthode la convergence de 0 1+t
2 , mais dans
R x dt
ce cas, il y a bien plus simple puisque 0 1+t2 = arctan(x) qui tend vers /2 lorsque x
R + dt
tend vers +. Donc on voit directement que 0 1+t
2 converge et vaut /2.
Z +
3t + 2
Exemple B.37. I :=
dt converge.
5t3 + t2 + 4
0
Lintgrande f : t 7 (3t+2)(5t3 +t2 +4)1 est positive et continue sur [0, +[ comme
quotient de deux fonctions continues car le dnominateur qui est minor par 4 sur cet
intervalle ne sy annule pas. Ainsi f appartient Rloc [0, +[. Dautre part en +, f (t)
est quivalent 35 t2 =: g(t). On est confront au mme pige qu lexemple B.36 et
il
en 0 cause de la divergence de
R faut viter dintroduire artificiellement un problme
R +
g(t) dt. L encore il suffit de se ramener 1 f (t) dt qui converge par comparaison
0
R +
avec 1 t2 dt.
Z
2
dt
Exemple B.38. I :=
converge si et seulement si < 1.
0 (cos t)
Sur [0, /2] la fonction continue cosinus ne sannule quau point /2 et est positive
ailleurs. Pour 0, lintgrande f : t 7 (cos t) est continue sur [0, /2] et I est une
intgrale de Riemann ordinaire. Pour > 0, f est continue sur [0, /2[ et tend vers +
gauche en /2. Dans ce cas f Rloc [0, /2[ et I est une vritable intgrale gnralise.
Un dveloppement limit lordre 1 du cosinus au point /2 scrit :

cos t = cos + sin
t
+ t
t
, (u) 0,
u0
2
2
2
2
2
260

do

t 1 t
,
2
2
autrement dit, cos t a pour quivalent /2 t en /2. On en dduit que

f (t)
t
=: g(t).
2
2
cos t =
La fonction g tant comme f , continue et positive sur [0, /2[, le thorme B.33 sapplique
R /2
et nous dit que I et 0 (/2 t) dt sont de mme nature. Cette dernire intgrale
converge si et seulement si < 1 par le corollaire B.15.
Remarque B.39. Le thorme B.33 sadapte immdiatement au cas o f et g sont
toutes deux ngatives au voisinage gauche de b. Par contre et mme si f et g sont de
mme signe au voisinage gauche de b, le thorme nest plus valable si f na pas un
signe constant au voisinage de b. Le contre exemple suivant devrait vous en convaincre.
Exemple B.40 ( mditer). Dfinissons f, g : [1, +[ R par
sin t
f (t) := ,
t
sin t sin2 t
g(t) := +
.
t
t
(B.26)
Alors f (t) g(t) en +, f change de signe une infinit de fois au voisinage

R +de +,
f et g sont de mme signe au voisinage de +. Lintgrale gnralise 1 f (t) dt
R +
converge mais 1 g(t) dt diverge.
Justifications. Les fonctions f et g sont continues sur [1, +[ donc dans Rloc [1, +[.
On note dabord que pour tout t [1, +[, g(t) = f (t)h(t) avec
sin t
g(t) = f (t)h(t) avec h(t) = 1 + 1.
t t+
(B.27)
Ceci tablit lquivalence de f et g en +.

La fonction f ayant le signe du sinus change de signe une infinit de fois au voisinage
de +. Il en va de mme pour g cause de (B.27) puisque h(t) est strictement positif 10
sur [1, +[. De plus, f et gRont mme signe et mmes zros sur tout lintervalle [1, +[.
+
Lintgrale gnralise 1 f (t) dt converge par le thorme dAbel ou la proposition B.27.
R +
R +
Supposons que 1 g(t) dt converge, alors ncessairement 1 t1 sin2 t dt doit converger. En effet
Z x
Z x
Z x
sin2 t
dt =
g(t) dt
f (t) dt
t
1
1
1
et le second membre doit avoir une
limite finie quand
R +
R + x tend vers + en raison de
la convergence des deux intgrales 1 f (t) dt et 1 g(t) dt. Nous allons montrer que
10. Il suffirait que h soit strictement positive sur un voisinage [c, +[ de +, ce qui dcoule du fait que
h a une limite strictement positive en +. Mais ici il est plus simple de remarquer que t1/2 sin t > 1
pour t > 1 et que h(1) = sin 1 > 0.
261

R +
lon aboutit une contradiction en vrifiant directement que 1 t1 sin2 t dt diverge.
En effet, lidentit sin2 t = 21 (1 cos 2t) nous donne

x
Z x
Z x
Z
Z
sin2 t
1 cos 2t
1
1
1 x cos 2t
1 x cos 2t
dt =
dt =
ln t
dt = ln x
dt.
t
2t
2t
2
2 1
t
2
2 1
t
1
1
1
Rx
Quand x tend vers +, 21 ln x tend vers +, tandis que 21 1 cost 2t dt tend vers une
R +
limite finie car 12 1 cost 2t dt converge grce au thorme dAbel ou la proposition B.27
Rx
R +
(poser s = 2t). Donc 1 t1 sin2 t dt tend vers + avec x, autrement dit 1 t1 sin2 t dt
R +
diverge, ce qui tablit la contradiction annonce et impose la divergence de 1 g(t) dt.
B.4
Divers
B.4.1
Changements de variable
Nous examinons lextension des formules de changement de variable au cas des intgrales gnralises. Grosso modo tout se passe bien lorsque lon utilise un changement
de variable monotone. Si ce nest pasRle cas, il convient
R x dtre prudent et de revenir
b
la dfinition de lintgrale gnralise a = limxb
R x a pour appliquer le changement de
variable aux intgrales de Riemann ordinaires a avant de faire tendre x vers b.
Proposition B.41 (translation et changement dchelle).
i) Translation. Soient c R et f localement Riemann intgrable sur [a + c, b + c[,
avec b + c := + si b = +. Alors lapplication g : [a, b[ R, t 7 f (t + c) est
Rb
R b+c
localement Riemann intgrable sur [a, b[. Les intgrales a g(t) dt et a+c f (s) ds
sont de mme nature. Si lune des deux converge on a
Z b+c
Z b
f (s) ds.
(B.28)
f (t + c) dt =
a
a+c
Cette galit reste vraie dans R+ sans hypothse de convergence si f ou g est

positive sur son intervalle dintgration.
ii) Changement dchelle. Soient c R et f localement Riemann intgrable sur lintervalle dextrmits 11 ac et bc, semi-ferm en ac, avec dans le cas o b = +,
bc := + si c > 0, bc := si c < 0. Alors lapplication h : [a, b] R, t 7 f (ct)
Rb
R bc
est localement Riemann intgrable sur [a, b[. Les intgrales a h(t) dt et ac f (s) ds
sont de mme nature. Si lune des deux converge on a
Z b
Z
1 bc
f (ct) dt =
f (s) ds.
(B.29)
c ac
a
Cette galit reste vraie dans R+ sans hypothse de convergence si f ou h est
positive sur son intervalle dintgration.
11. Il sagit de [ac, bc[ si c > 0 et de ]bc, ac] si c < 0.
262
B.4. Divers
Remarquons quil ny a ici aucune hypothse de continuit sur f pour ces formules
de changement de variable par translation ou changement dchelle dans les intgrales
gnralises. On peut donc les appliquer notamment avec des fonctions dcroissantes
positives qui peuvent avoir une infinit de discontinuits, mais sont toujours localement
Riemann intgrables.
Preuve de i). Puisque f Rloc [a + c, b + c[, elle est Riemann intgrable sur le segment
[a+c, x+c] pour tout x [a, b[. Alors par la proposition A.32 i), g est Riemann intgrable
sur [a, x] et ceci valant pour tout x [a, b[, g est bien dans Rloc [a, b[. De plus on a par
la formule de changement de variable (A.46) :
Z x
Z x+c
Z x
g(t) dt =
f (t + c) dt =
f (s) ds.
x [a, b[,
a
a+c
Rb
R b+c
En faisant tendre x vers b, on en dduit que a g(t) dt et a+c f (s) ds sont de mme
nature. Si lune des deux intgrales gnralises converge, cela signifie que lintgrale de
Riemann ordinaire correspondante ci-dessus a une limite dans R quand x tend vers b.
En raison de lgalit, il en va de mme pour lautre intgrale et les limites sont gales,
ce qui nous donne (B.28). Si f ou g est positive, ces deux intgrales dpendant de x ont
toujours une limite dans R+ et les limites sont gales.
Preuve de ii). La preuve est analogue celle de i) quelques alourdissements dcriture
prs que lauteur abandonne lchement au lecteur.
Voici maintenant une extension partielle 12 aux intgrales gnralises du changement
de variable classique de la proposition A.32 iii).
Proposition B.42 (changement de variable C 1 monotone). Soit : [a, b[ R, une
fonction monotone ayant une drive continue sur [a, b[. On suppose de plus que est
strictement monotone au voisinage gauche de b. Pour toute fonction f continue sur
lintervalle ([a, b[), les deux intgrales gnralises ci-dessous sont de mme nature et
si lune converge on a
Z

f (t) 0 (t) dt =
(b)
f (s) ds,
(B.30)
(a)
o (b) R dsigne la limite gauche de en b. Cette galit demeure vraie dans R

sans condition de convergence si f est de signe constant sur lintervalle ([a, b[).
Notons h := (f )0 . La condition sur la stricte monotonie de gauche de b est
Rb
l pour carter un cas artificiel o lintgrale a h(t) dt est une intgrale de Riemann
ordinaire dun fonction continue sur unR intervalle [a,Rc]. En effet si est constante sur
x
c
[c, b[ pour un c [a, b[, on voit que a h(t) dt = a h(t) dt pour tout x [c, b[ en
raison de la nullit de 0 sur [c, b[. En faisant tendre x vers b, cette galit nous
12. On notera lhypothse plus restrictive sur le changement de variable .
263

Rb
Rc
donne a h(t) dt = a h(t) dt. Comme h est continue sur [a, c], le changement de variable
Rc
R (c)
classique prop. A.32 iii) nous donne a h(t) dt = (a) f (s) ds et comme (b) = (c),
on obtient bien (B.30). On voit ainsi que dans ce cas les deux intgrales dans (B.30)
sont de fausses intgrales gnralises puisquelles peuvent scrire comme intgrales de
fonctions continues sur [a, c].
Preuve de la proposition B.42. La fonction tant monotone admet une limite gauche
finie ou infinie en b que nous notons (b). En raison de la continuit et de la monotonie
de sur [a, b[, stricte au voisinage de b, ([a, b[) est l intervalle de bornes (a) et (b),
ferm en (a) et ouvert en (b). Nous traitons le cas o est dcroissante, ladaptation
au cas o elle est croissante tant immdiate. On a alors ([a, b[) =](b), (a)]. Par
application de la prop. A.32 iii), on a
Z x
Z (x)
Z (a)
0
x [a, b[,
f (t) (t) dt =
f (s) ds =
f (s) ds.
(B.31)
a
(a)
(x)
Les fonctions h et f tant continues lune sur [a, b[ et lautre sur ](b), (a)] appartiennent respectivement Rloc [a, b[ et Rloc ](b), (a)]. En faisant tendre x vers b
dans (B.31), et en notant que par continuit et dcroissance de , (x) tend alors vers
Rb
R (b)
(b) par la droite, on voit que les intgrales gnralises a h(t) dt et (a) f (s) ds
sont de mme nature. Si lune des deux converge, on en dduit en se souvenant de la
dfinition B.11 :
Z b
Z (a)
Z (b)
0
f (t) (t) dt =
f (s) ds =
f (s) ds,
a
(b)
(a)
ce qui nous donne (B.30). Dautre part si f est positive, h est ngative car est dcroisRx
R (a)
sante donc 0 0. Alors dans (B.31) les intgrales a h(t) dt et (x) f (s) ds sont des
fonctions ngatives et dcroissantes de x donc convergent dans R quand x tend vers b,
soit vers un rel ngatif, soit vers et lgalit (B.31) se conserve par passage la
limite. Si f est ngative, h est positive car 0 0. Alors les intgrales de (B.31) sont des
fonctions positives et croissantes de la variable x et elles restent gales la limite (dans
R+ ) quand x tend vers b.
Z +
Exemple B.43. Lintgrale gnralise I :=
sin(t2 ) dt converge 13 .
0
En effet par le changement de variable croissant et C 1 , : t 7 t2 , lintervalle [0, +[

a pour image [0, +[ et I est de mme nature que
Z +
sin s
ds.
J :=
2 s
0
Lintgrale J converge par la proposition B.27, donc I converge. De plus on a alors I = J
par lgalit (B.30).
13. Je sais, cela surprend, surtout si on compare avec lexemple B.3.
264
B.4. Divers
Exemple B.44 (un changement de variable illicite). Voici un exemple o un changement de variable C 1 non monotone
R 2 sin tappliqu sans prcaution conduit une erreur. Dans
lintgrale gnralise I := 0 cos t dt, on pose s = cos t. On obtient alors lintgrale
R1
de Riemann ordinaire J := 1 sds = 0. Lgalit I = J ne peut tre valide ici car I
diverge. En effet la fonction tangente est localement Riemann intgrable sur lintervalle
trou [0, 2] \ {/2, 3/2} et nous devons considrer sparment chacune des intgrales
R /2 R 3/2
R 2
R /2
,
et
.
Lintgrale
tan t dt diverge car la fonction tangente est posi0
/2
3/2
0
tive sur [0, /2[ et quivalente 1/ cos t au voisinage gauche de /2. Or on sait par
R /2 dt
diverge 14 .
lexemple B.38 que 0 cos
t
B.4.2
Intgration par parties
Il ny a pas dextension automatique de la rgle dintgration par parties (i.p.p.) des

intgrales de Riemann ordinaires (calculables par primitivation) aux intgrales gnralises. Lorsque lon effectue une intgration par parties sur une intgrale gnralise, tout
peut arriver :
1. transformation dune intgrale absolument convergente en intgrale absolument
convergente ;
2. transformation dune intgrale absolument convergente en intgrale convergente
mais pas absolument et vice versa ;
3. transformation dune intgrale absolument convergente en intgrale divergente.
Rb
En pratique pour effectuer une intgration par parties sur a f (t) dt avec f Rloc [a, b[
(en
R x fait avec f C[a, b[), on leffectue dabord sur lintgrale de Riemann ordinaire
f (t) dt pour x quelconque dans [a, b[ avant de regarder ce qui se passe lorsque lon
a
fait tendre x vers b.
Voici quelques exemples illustrant les diffrentes situations possibles.
Z +
tet dt par i.p.p.
Exemple B.45. Calcul de I :=
0
Lintgrande est une fonction positive et continue sur [0, +[. Comme tet/2 tend
vers 0 en +, cette quantit est majore pour t R t0 par une constante M . On a
+
alors pour t t0 , tet M et/2 =: g(t) et comme 0 g(t) dt converge (vident par
primitivation), le thorme de comparaison
R x t (th. B.29) nous donne la convergence de I.
On effectue li.p.p. sur I(x) := 0 te dt en posant
u(t) = t, v 0 (t) = et ,
do
x [0, +[,

x
I(x) = tet 0
u0 (t) = 1, v(t) = et ,
Z
x
t
(e ) dt = xe
0
Z
+
et dt.
14. On pourrait contester cet exemple, car dans le contexte de la proposition B.42, avant denvisager
un changement de variable dans lintgrale I, il convient de vrifier que lintgrande est localement
intgrable sur [0, 2[, ce qui nest pas le cas ici.
265

Rx
Quand x tend vers +, xex tend vers 0 et 0 et dt tend vers lintgrale gnralise
R +
convergente 0 et dt, laquelle se calcule dailleurs immdiatement par primitivation
(exemple B.1) et vaut 1. Finalement li.p.p. nous permet ici de retrouver la convergence
de I et de calculer sa valeur : I = 1.
Z +
sin2 t
Exemple B.46. Intgration par parties de I :=
dt.
t2
Ici lintgrande f est localement Riemann intgrable sur [, +[, comme fonction
2
continue sur cet intervalle.
R + 2 La convergence de I rsulte de lingalit 0 f (t) t et de
la convergence de t dt, par le thorme de comparaison. Ainsi I est une intgrale
gnralise absolument convergente.
Rx
On effectue li.p.p. sur I(x) := 0 f (t) dt en posant
u(t) = sin2 t, v 0 (t) = t2 ,
u0 (t) = 2 sin t cos t = sin(2t), v(t) = t1 ,
ce qui nous donne

x ,
x Z x

Z 2x
sin(2t)
sin2 x
sin s
sin2 t
+
dt =
+
ds.
I(x) =
t
t
x
s
Faisons tendre x vers +, alors au premier membre I(x) tend vers I puisque lon sait
dj queR I converge. Au second membre x1 sin2 x tend vers 0. On en dduit que
2x
J(x) := 2 s1 sin s ds tend vers une limite finie gale I. Ceci prouve que lintgrale
gnralise
Z +
sin s
J :=
ds
s
2
converge et est gale I. On sait par ailleurs que J nest pas absolument convergente,
voir lexemple B.28. Ici lintgration par parties a transform une intgrale absolument
convergente I en une intgrale J convergente mais pas absolument. Une autre i.p.p.
partant de J donnerait
Z +
cos s
1
+
ds,
J=
2
s2
2
nous fournissant un exemple de transformation dune intgrale convergente mais pas
absolument, en intgrale absolument convergente.
Z
/2
sin t
dt
t3/2
0
Lintgrande f est dans Rloc ]0, /2] et positive. Lintgrale converge en 0 grce
la majoration 0 sin t t do f (t) t1/2 valable pour tout t ]0, /2]. Lintgrale
R /2
gnralise I est donc absolument convergente. Intgrons par parties I(x) := x f (t) dt
en posant :
Exemple B.47. Tentative di.p.p. sur I :=
u(t) = t3/2 , v 0 (t) = sin t,
266
3
u0 (t) = t5/2 , v(t) = cos t,
2
B.4. Divers
do

cos t
I(x) =
t3/2
/2
x
Z
x
/2
cos t
cos x 3
dt = 3/2
5/2
t
x
2
Z
x
/2
cos t
dt.
t5/2
Si on fait tendre x vers 0+, on obtient une forme indtermine du type , car
lintgrale gnralise
Z /2
cos t
J :=
dt
t5/2
0
est divergente et vaut + (justifiez !). On a l un exemple dune intgration par parties
sur une intgrale absolument convergente qui fait apparatre une intgrale divergente.
Ceci dit li.p.p. ci-dessus nest pas compltement inutile. Elle permet en effet de
donner une vitesse de divergence de J. En effet puisque I(x) a une limite finie I en
0+, on en dduit que
Z
J(x) =
x
B.4.3
/2
2 cos x
2
cos t
dt
.
0+ 3x3/2 0+ 3x3/2
t5/2
Comparaison des intgrales ordinaires et gnralises
On examine maintenant quelles sont les proprits de lintgrale de Riemann ordinaire

qui passent lintgrale gnralises.
Lintgrale gnralise hrite des proprits suivantes de lintgrale de Riemann ordinaire, condition de remplacer lhypothse f, g R[a, b] par f, g Rloc [a, b[ et
Rb
Rb
les intgrales gnralises a f (t) dt et a g(t) dt convergent .
R xNous laissons le soin au
lecteur de vrifier ces proprits en les appliquant dabord a avant de faire tendre x
vers b.
Additivit, voir prop. A.18.
Linarit, voir prop. A.20.
Positivit et croissance, voir les points i) et ii) de la proposition A.21.
Ladditivit
relative aux intervalles,
cf. prop. RA.28 en notant que la convergence
Rb
Rc
b
de a f (t) dt implique celle de a f (t) dt et de c f (t) dt, pour tout c ]a, b[.
La relation de Chasles prop. A.29, condition que chacune des trois intgrales
concernes soit convergente. En effet en prenant c extrieur [a, b[, on risque de
faire apparatre une intgrale divergente.
Voyons maintenant les proprits qui ne passent pas de lintgrale ordinaire lintgrale gnralise. Il sagit essentiellement de ce qui concerne la valeur absolue et le
produit.
Rappelons dabord que la Riemann intgrabilit de f implique celle de |f | et que
la rciproque est fausse, cf. remarque A.23. On en dduit immdiatement que si f est
localement Riemann intgrable sur [a, b[, |f | lest aussi. Par contre pour f Rloc [a, b[,
Rb
Rb
la convergence de lintgrale gnralise a f (t) dt nimplique pas celle de a |f |(t) dt,
voir lexemple B.28. Dans le mme ordre dides, la Riemann intgrabilit
locale de f
Rb
+
sur [a, b[ implique celle de f et de f , mais la convergence de a f (t) dt nimplique

Rb
Rb
pas celle de a f + (t) dt et a f (t) dt. Lexemple B.28 avec f (t) = t1 sin t sert aussi de
267

Rb
contre exemple ici (vrification laisse en exercice). Par contre si a f (t) dt est absolument
Rb
Rb
convergente, a f + (t) dt et a f (t) dt sont convergentes et on a
Z
Z
|f |(t) dt =
f (t) dt +
a
f (t) dt,
f (t) dt
f (t) dt =
f (t) dt,
ainsi que
Z b
Z b

|f (t)| dt < +.
f (t) dt

(B.32)
Regardons maintenant le produit. Si f, g Rloc [a, b[, il dcoule immdiatement

de la proposition A.26 que leur produit f g est lui aussi dans Rloc [a, b[. Par contre,
Rb
Rb
la convergence, mme absolue, des intgrales gnralises a f (t) dt et a g(t) dt nimRb
plique pas celle de a f (t)g(t) dt. Un contre exemple immdiat est avec [a, b[= [0, 1[,
Rb
f (t) = g(t) = (1 t)1/2 . On peut nanmoins obtenir la convergence de a f (t)g(t) dt
partir de celle des intgrales gnralises non pas de f et g mais de f 2 et g 2 .
Proposition B.48 (ingalit de Cauchy-Schwarz). Si f, g Rloc [a, b[ sont telles que
Rb
Rb
Rb
f (t)2 dt et a g(t)2 dt convergent, a f (t)g(t) dt converge absolument et vrifie
a
1/2
1/2 Z b
Z b
Z b

2
2
g(t) dt
.
f (t) dt
f (t)g(t) dt

(B.33)
Preuve. Dabord, puisque f, g sont dans Rloc [a, b[, il en va de mme pour |f |, |g| et leur
produit |f | |g| = |f g|. En appliquant lingalit de Cauchy Schwarz pour les intgrales
ordinaires, on en dduit que
Z
x [a, b[,
Z
|f (t)g(t)| dt
1/2 Z
f (t) dt
2
1/2
g(t) dt
.
2
Toutes ces intgrales sont des fonctions croissantes de x. En faisant tendre xR vers b,
b
elles convergent toutes dans R+ . Compte tenu de lhypothse convergence de a f (t)2 dt
Rb
et a g(t)2 dt, on en dduit que
Z
Z
|f (t)g(t)| dt
1/2 Z b
1/2
2
g(t) dt
< +.
f (t) dt
2
Rb
Ceci montre que a f (t)g(t) dt converge absolument et on conclut en appliquant lingalit (B.32) la fonction f g.
268
Table des valeurs de , f.d.r. de la loi normale standard N(0, 1)
(x)
x
x
0.00
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
0.5000
0.5398
0.5793
0.6179
0.6554
0.6915
0.7257
0.7580
0.7881
0.8159
0.5040
0.5438
0.5832
0.6217
0.6591
0.6950
0.7291
0.7611
0.7910
0.8186
0.5080
0.5478
0.5871
0.6255
0.6627
0.6985
0.7324
0.7642
0.7939
0.8212
0.5120
0.5517
0.5910
0.6293
0.6664
0.7019
0.7356
0.7673
0.7967
0.8238
0.5160
0.5557
0.5948
0.6331
0.6700
0.7054
0.7389
0.7703
0.7995
0.8264
0.5199
0.5596
0.5987
0.6368
0.6736
0.7088
0.7421
0.7734
0.8023
0.8289
0.5239
0.5636
0.6026
0.6406
0.6772
0.7122
0.7454
0.7764
0.8051
0.8315
0.5279
0.5675
0.6064
0.6443
0.6808
0.7156
0.7486
0.7793
0.8079
0.8340
0.5319
0.5714
0.6103
0.6480
0.6844
0.7190
0.7517
0.7823
0.8106
0.8365
0.5359
0.5754
0.6141
0.6517
0.6879
0.7224
0.7549
0.7852
0.8133
0.8389
1.0
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
0.8414
0.8643
0.8849
0.9032
0.9193
0.9332
0.9452
0.9554
0.9641
0.9713
0.8438
0.8665
0.8869
0.9049
0.9207
0.9345
0.9463
0.9564
0.9648
0.9719
0.8461
0.8687
0.8888
0.9066
0.9222
0.9357
0.9474
0.9573
0.9656
0.9726
0,8485
0.8708
0.8907
0.9083
0.9236
0.9370
0.9485
0.9582
0.9664
0.9732
0.8508
0.8729
0.8925
0.9099
0.9251
0.9382
0.9495
0.9591
0.9671
0.9738
0.8531
0.8749
0.8944
0.9115
0.9265
0.9394
0.9505
0.9599
0.9678
0.9744
0.8554
0.8770
0.8962
0.9131
0.9279
0.9406
0.9515
0.9608
0.9686
0.9750
0.8577
0.8790
0.8980
0.9147
0.9292
0.9418
0.9525
0.9616
0.9693
0.9756
0.8599
0.8810
0.8997
0.9162
0.9306
0.9429
0.9535
0.9625
0.9699
0.9761
0.8622
0,8830
0.9015
0.9177
0.9319
0.9441
0.9545
0.9633
0.9706
0.9767
2.0
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
0.9772
0.9821
0.9861
0.9893
0.9918
0.9938
0.9953
0.9965
0.9974
0.9981
0.9778
0.9826
0.9864
0.9895
0.9920
0.9940
0.9955
0.9966
0.9975
0.9982
0.9783
0.9830
0.9868
0.9898
0.9922
0.9941
0.9956
0.9967
0.9976
0.9982
0.9788
0.9834
0.9871
0.9901
0.9924
0.9943
0.9957
0.9968
0.9977
0.9983
0.9793
0.9838
0.9874
0.9903
0.9926
0.9944
0.9958
0.9969
0.9977
0.9984
0.9798
0.9842
0.9878
0.9906
0.9928
0.9946
0.9960
0.9970
0.9978
0.9984
0.9803
0.9846
0.9881
0.9909
0.9930
0.9948
0.9961
0.9971
0.9979
0.9985
0.9808
0.9850
0.9884
0.9911
0.9932
0.9949
0.9962
0.9972
0.9979
0.9985
0.9812
0.9854
0.9887
0.9913
0.9934
0,9951
0.9963
0.9973
0.9980
0.9986
0.9817
0.9857
0.9890
0.9916
0.9936
0.9952
0.9964
0.9974
0.9981
0.9986
4.0
0.999968
4.5
0.999997
Table pour les grandes valeurs de x

x
(x)
3.0
0.99865
3.1
0.99904
3.2
0.99931
3.3
0.99952
3.4
0.99966
3.5
0.99976
3.6
0.999841
3.8
0.999928
La table donne les valeurs de (x) pour x

positif. Lorsque x est ngatif, on utilise la
relation
(x) = 1 (x)
qui rsulte de la parit de la densit gaussienne N(0, 1).
Exemple : pour x = 1, 8, on trouve :
(x) = 1 0, 9641 = 0, 0359.
Pour les trs grandes valeurs de x , (i.e. |x| 4), on dispose du rsultat suivant
qui donne une valuation de la queue de la loi normale.
Pour tout x > 0, on a lencadrement :

2
2
1
1
1
1 1
x
x
3 exp
< 1 (x) < exp
.
x x
2
x 2
2
2
Index
absence de mmoire, 122
additivit
dune mesure, 51
de lesprance, 151
de lintgrale de Riemann, 226
aiguille de Buffon, 208
aire, 56, 216
algbrique, 233
dhypographe, 218, 233
et intgrale de Riemann, 218
arrangement, 12
Bayes (formule de), 81
Beppo Levi (thorme de), 141
bection, 8
rciproque, 8
borlien, 53
Borel Cantelli, 194, 195
Buffon (aiguille de), 208
cardinal, 8, 16
dun produit cartsien, 10
coefficient de corrlation, 172
coefficients
binomiaux, 13
multinomiaux, 15
combinaison, 12
complmentaire, 6
conditionnement
par les cas possibles, 80
conditionnements successifs, 80
continuit monotone squentielle, 63
convergence
domine, 202
en moyenne dordre p, 199, 200
en probabilit, 196, 197, 202
presque complte, 196
presque sre, 192, 193, 196, 198

convergence en loi
binomiale vers Poisson, 112
hypergomtrique vers binomiale, 109
convolution
de deux densits, 185
corrlation, 172
covariance, 171
changement dchelle, 171
de v.a. indpendantes, 189
formule de Koenig, 172
formules de calcul, 172
translation, 171
critre de Cauchy, 251
famille sommable, 41
intgrales gnralises, 252
sries, 25
croissance
dune mesure, 51
de lesprance, 136, 152
de lintgrale de Riemmann, 228
dnombrabilit, 16
dun produit cartsien, 18
dune union, 22
de N2 , 17
de Nd , Zd , 19
de Q, 19
de Z, 16
et famille sommable, 38
par image surjective, 23
dnombrable, 16
densit
marginale, 166
somme de v.a.r. indpendantes, 185
vecteur alatoire, 165
vecteur alatoire image, 170
271
densit de probabilit
sur R, 102
sur Rd , 165
dyadique (nombre), 21
cart type, 158
ensemble
au plus dnombrable, 16
dnombrable, 16
fini, 8
preuves indpendantes, 88
quiprobabilit, 70
espace
de Banach, 25
esprance
croissance, 136
dune constante positive, 132
dune indicatrice, 132
dune v.a. discrte, 150
dune v.a. discrte positive, 145
dune v.a. positive, 130
dune v.a. positive densit, 135
dune v.a. positive simple, 134
dune v.a. relle, 147
dune v.a. relle densit, 148
interversion srie-esprance, 144
linarit, 151
produit de v.a. indpendantes, 187
famille sommable, 35
absolument, 43
combinaison linaire, 36
normalement, 43
permutation dindices, 36
sommation par paquets, 44, 45
fonction
absolument continue, 103
convexe, 199
en escalier, 219
localement Riemann intgrable, 245
rgle, 225
Riemann intgrable, 214
fonction de rpartition
dune probabilit sur R, 72

dune variable alatoire, 99
fonction de survie, 122
formule
de Bayes, 81
de Koenig
covariance, 172
variance, 158
des accroissements finis, 222
du binme, 15
du multinme, 13
hypographe, 218
i.i.d., 206
inclusion, 6
indpendance
conservation par complmentaire, 87
covariance, 189
dune suite dvnements, 88
dune suite de v.a., 178
de n variables alatoires, 173
de n vecteurs alatoires, 174
de deux vnements, 85
de sous-tribus, 177
des composantes (cas densit), 179
des composantes (cas discret), 178
deux deux, 87
esprance de produits, 186
hrdit, 175
mutuelle, 87
somme de v.a., 183, 185
indicatrice, 11
dans formules explicites, 102
ingalit de Bienaym-Tchebycheff, 205
ingalit de Cauchy-Schwarz
esprance, 171
intgrale de Riemann, 231
intgrale gnralise, 268
ingalit de Markov, 137
avec moment, 153
injection, 7
intgrabilit
272

dune v.a. relle, 146
dune v.a. relle densit, 148
intgrable
variable alatoire positive, 132
variable alatoire relle, 146
intgrale de Riemann
additivit, 226
changement de variable, 235, 236
croissance, 228
de a b (a > b), 216
et primitive, 222
infrieure, 214
linarit, 228
positivit, 228
relation de Chasles, 232
suprieure, 214
sur [a, b] (a < b), 214
intgrale gnralise, 245
absolument convergente, 253, 254, 258
additivit, 267
changement de variable, 262, 263
comparaison, 257
convergente, 246
critre dAbel, 254
croissance, 267
divergente, 246
quivalents, 258, 261
ingalit de Cauchy-Schwarz, 268
linarit, 267
positivit, 267
produit, 268
relation de Chasles, 267
intgrale indfinie, 234
intersection, 6
intervalle trou, 245
interversion
limite esprance, 141, 202
limite intgrale, 238, 239
produit esprance, 187
srie esprance, 144
inverse ensembliste, 94
jacobien, 170
lemme
Borel Cantelli, 194, 195
loi
densit, 102
binomiale, 88, 107
conditionnelle, 97
continue, 101
dun vecteur alatoire, 162
dune variable alatoire discrte, 97
dune variable alatoire relle, 96
de Bernoulli, 107
de Cauchy, 125
de Poisson, 111, 184
diffuse, 101
discrte sur R, 97
exponentielle, 121
gomtrique, 111
gaussienne N(m, ), 124
hypergomtrique, 108
marginale (vecteur alatoire), 162
multinomiale, 164
normale, 124
tables, 269
somme de v.a. discrtes, 183
indpendantes, 183
uniforme sur un borlien de Rd , 72
uniforme sur un ensemble fini, 107
uniforme sur un segment, 71
loi faible des grands nombres, 205
loi forte des grands nombres, 206
masse de Dirac, 54
mesurable (application), 93
mesure, 52
aire, 56
de comptage, 55
de Dirac, 54
de Lebesgue sur Rd , 56
longueur, 56
ponctuelle, 55
proprits, 67
srie de mesures, 54
273
volume, 56
moment, 152
h-moment dune v.a., 152
absolu, 152
dune v.a. densit, 154
fonctionnel, 152
n-uplet, 7
non dnombrabilit
de P(N), [0, 1], R, C, 20
de {0, 1}N , 19
partie ngative (dun rel), 31
partie positive (dun rel), 31
partition, 80
permutation, 12
primitive, 222
probabilit
conditionnelle, 77
dun intervalle, 74
produit, 176
probabilits
des causes, 81
totales (formule des), 80
produit de fonctions, 179
produit de probabilits, 176
produit cartsien, 6
quantificateurs, 6, 192
runion, 6
Riemann intgrabilit, 214
dun produit, 230
de |f |, 228
de f + et f , 230
locale, 245
par convergence uniforme, 224
Riemann intgrabilit de f
borne continue par morceaux, 223
continue, 222
en escalier, 220
monotone, 221
rgle, 225
semi norme, 230
srie, 24
absolument convergente, 25
alterne, 28
commutativement convergente, 29
convergence normale, 25
de Bertrand, 27
de Riemann, 27
double, 46
gomtrique, 25
harmonique, 24
produit, 49
reste (srie convergente), 24
somme partielle, 24
vectorielle, 24
srie double, 46
interversion des sommations, 48
-additivit, 52
-algbre, 52
sommation par paquets, 44
dans R+ , 45
sommes de Darboux, 213
subdivision de [a, b], 213
surjection, 7
et dnombrabilit, 23
temps dattente, 110
thorme
absence de mmoire, 122
caractrisation probabilits sur R, 75
comparaison srie intgrale, 26
comparaison sries termes positifs, 26
de B. Levi, 141
de convergence domine, 202
des sries alternes, 28
interversion des sries doubles, 48
rgle des quivalents (sries), 26
srie produit, 49
sommation par paquets, 44
sommation par paquets dans R+ , 45
tribu, 52
borlienne, 53
engendre, 53
engendre par une application, 177
produit, 176
274
sous-tribu, 177
variable alatoire
tage, 133
de Rademacher, 147
discrte, 95
positive, 130
positive intgrable, 132
relle, 95
relle intgrable, 146
simple, 133
variance, 158
changement dchelle, 159
dune somme, 172
formule de Koenig, 158
translation, 159
vecteur alatoire, 162
densit, 165
discret, 164
lois marginales, 162
275

IPE10

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

IPE10

Uploaded by

Copyright:

Available Formats

Table des matires

5 Vecteurs alatoires et indpendance

Laiguille de Buffon . . . . . . . . . . . . . . . . . . . . . . . . . . 208

A Intgrale de Riemann sur [a, b]

Ch. Suquet, Cours I.P.. 2010

Ch. Suquet, Cours I.P.. 2010

Soit un ensemble ; A est un sous-ensemble (ou une partie) de si tout lment

Chapitre 1. Dnombrer et sommer

Remarque 1.1. La runion et lintersection dune famille de parties de sont dfinies

Ainsi le quantificateur peut se traduire par une intersection et le quantificateur par

Le complmentaire de A (dans ) est lensemble Ac := { ;

On dfinit le produit cartsien de deux ensembles E et F , not E F par :

Ch. Suquet, Cours I.P.. 2010

1.1. Rappels ensemblistes

(x 6= x0 ) (f (x) 6= f (x0 )).

Une formulation quivalente est :

Une application injective f : E F est appele injection de E dans F .

Une application surjective f : E F est appele surjection de E sur F .

Ch. Suquet, Cours I.P.. 2010

Chapitre 1. Dnombrer et sommer

Une application bective f : E F est appele bection de E sur F .

Ensembles finis et dnombrement

Ch. Suquet, Cours I.P.. 2010

1.2. Ensembles finis et dnombrement

il nexiste pas de bection {1, . . . , n} {1, . . . , m}.

card(E F ) = card E + card F.

On prouve (1.2) en construisant une bection h de {1, . . . , n + m} sur E F . La translation

Ch. Suquet, Cours I.P.. 2010

Chapitre 1. Dnombrer et sommer

b) Si E et F sont des ensembles finis quelconques (pas forcment disjoints), E F

si card E = n, alors card(E F ) = n card F pour tout F fini non vide.

Initialisation. Si card E = 1, E na quun lment x1 et lapplication h : {x1 } F F ,

Ch. Suquet, Cours I.P.. 2010

1.2. Ensembles finis et dnombrement

Preuve. Une rcurrence immdiate sur d fournit le rsultat.

Rappelons que lindicatrice dune partie A de E est lapplication

Ch. Suquet, Cours I.P.. 2010

Chapitre 1. Dnombrer et sommer

Preuve. Notons Ak (E) lensemble de tous les arrangements de k lments de E. Il est

Ch. Suquet, Cours I.P.. 2010

1.2. Ensembles finis et dnombrement

(j1 ,...,jn )Kn

Preuve. On commence par appliquer la formule (1.7) avec J1 = = Jn = {1, . . . , d}

Ch. Suquet, Cours I.P.. 2010

Chapitre 1. Dnombrer et sommer

Il ne nous reste plus qu faire un peu de dnombrement pour expliciter le coefficient

Ch. Suquet, Cours I.P.. 2010

1.2. Ensembles finis et dnombrement

aprs simplifications et en notant que (n k1 kd )! = 0! = 1.

Preuve. Il suffit dapplique la formule du multinme avec d = 2, a1 = a, a2 = b.

Ch. Suquet, Cours I.P.. 2010

Chapitre 1. Dnombrer et sommer

Plus formellement, dfinissons lapplication f : N Z par

Ch. Suquet, Cours I.P.. 2010

Preuve. La vrification de la bectivit de f repose sur la remarque suivante. Dfinissons

Surjectivit de f . Soit l quelconque dans N et k = kl dfini par (1.12). Posons j = l uk

Ch. Suquet, Cours I.P.. 2010

Chapitre 1. Dnombrer et sommer

Ensuite, pour n 1, si on a dfini f (k) et Ek pour k = 0, . . . , n 1, on pose

Ch. Suquet, Cours I.P.. 2010

Remarquons que pour tout x E, f (x) 2f1 (x1 ) 2.

Comme chaque fi est injective, ceci entrane lgalit xi = yi pour tout i, do x = y.

Ch. Suquet, Cours I.P.. 2010

Chapitre 1. Dnombrer et sommer