Theorie Des Probabilites

Cours de théorie des
probabilités
avec exercices corrigés et devoirs
Licence de mathématiques, 3ième année

1
Bruno Saussereau
Année universitaire 2013-2014
1 Bruno Saussereau, Laboratoire de Mathématiques de Besançon, UFR Sciences & Techniques, 16,
route de Gray, 25030 Besançon cedex, France. Courriel : bruno.saussereau@univ-fcomte.fr
Présentation du cours i
Présentation du cours
Ce cours correspond à l’unité d’enseignement de théorie des probabilités dispensée dans le cadre
du semestre 5 de l’enseignement à distance de la Licence de Mathématiques.
La diffusion de ce cours est strictement limitée aux étudiants régulièrement inscrits à l’unité
d’enseignement correspondante du Centre de Télé-enseignement Universitaire.
Public visé
Cet enseignement par correspondance s’adresse en priorité aux étudiants désireux de poursuivre
des études de Master en vue de la recherche, de passer le concours de l’agrégation externe de
mathématiques ou à ceux qui se destinent à des études de mathématiques appliquées en vue
de devenir ingénieurs-mathématiciens.
Pré-requis et révisions
Ce cours ne suppose aucun pré-requis sur le formalisme des probabilités. Tout le formalisme et
le vocabulaire des probabilités est défini et introduit au fur et à mesure des besoins. Il suppose
juste une sensibilisation aux phénomènes aléatoires et à leur étude élémentaire telle qu’elle est
enseignée depuis quelques années au lycée et dans le semestre 4 de la Licence. Pour une rapide
mise à niveau sur l’approche élémentaire des probabilités on peut se reporter aux deux ouvrages
classiques [11] et [12]. Certains des exercices proposés dans cette unité sont inspirés de ces
deux ouvrages moyennant quelques adaptations de vocabulaire dues au formalisme introduit
dans le cours.
En revanche ce cours suppose connus les concepts classiques de la théorie de la mesure et

de l’intégration, dite intégrale de Lebesgue. Ces concepts seront souvent rappelés dans ce
cours de façon à rendre sa lecture autonome. Ces résultats seront énoncés sous leur version la
plus utile pour les applications en probabilités, ils seront admis et ne feront donc pas l’objet
d’une démonstration sauf cas particuliers. Pour leur version générale et leurs démonstrations,
on pourra se reporter à l’ouvrage [8].
Outre ces résultats spécifiques, le cours nécessitera la connaissance de résultats et de techniques

classiques de mathématiques générales. C’est donc l’occasion, dès maintenant, de réviser
également ces notions mathématiques indispensables qui seront supposées connues. A cet
effet, on pourra se reporter à un cours classique de mathématiques générales, par exemple
[1], largement suffisant pour revoir ces notions. Il s’agit en particulier de bien connaître
C entre de T élé-enseignement U niversitaire–Franche-Comté–Besançon CT U
Besançon
ii Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014
1. les notions et résultats élémentaires de la théorie des ensembles : ensembles, parties d’un
ensemble, inclusion, appartenance, partition d’un ensemble, intersection et réunion de
plusieurs sous-ensembles, différence de deux sous-ensembles, complémentaire d’un sous-
ensemble, applications, bijections, image-réciproque d’une application, opérations sur les
applications, composition de deux applications,...
2. les éléments de théorie de la mesure et de l’intégrale de Lebesgue
3. le calcul des sommes de séries : série géométrique, série exponentielle, dérivation des
séries entières, ...
4. quelques éléments d’algèbre générale et multilinéaire en dimension finie : binôme de
Newton, nombre de combinaisons, espaces vectoriels, produit scalaire euclidien, norme
euclidienne, calcul matriciel, transposé d’une matrice, opérations élémentaires sur les
matrices, diagonalisation d’une matrice symétrique, ...
Conseils de travail
Le cours proprement dit comprendra des définitions, des propositions (théorèmes, lemmes,
formules, ...), des démonstrations, des exemples et des exercices corrigés. Les démonstrations
doivent être connues, elles sont exigibles lors des épreuves d’évaluation.
Les démonstrations développées dans le cours sont choisies en fonction de l’intérêt péda-
gogique du raisonnement qu’elles mettent en oeuvre. Il faut les étudier, crayon en main, essayer
de les refaire en mettant en évidence les deux ou trois axes de la démonstration qu’il convient
de retenir pour être capable de la restituer sans document. C’est à ce critère que vous pourrez
mesurer si vous avez compris quelque chose. Il est conseillé aussi de bien mettre en évidence
dans ces démonstrations, en les énonçant complètement et en vérifiant que leurs hypothèses
de validité sont satisfaites, les résultats antérieurs sur lesquels elles prennent appui. Certaines
démonstration seront détaillées, d’autres seront volontairement plus succinctes afin de vous
entraîner à détailler par vous-même les passages rapides de la démonstration.
Les exemples du cours servent à illustrer une définition sur un cas particulier ou à montrer
une application concrète d’une proposition. Leur rédaction est aussi parfois volontairement suc-
cincte. Il convient alors d’en détailler les calculs, de vérifier les résultats annoncés, et d’essayer
de noter les astuces ou techniques utilisées et transposables dans d’autres situations, éventuelle-
ment moyennant certaines adaptations. Ce qui est dit pour les exemples est aussi valable pour
tous les exercices proposés en auto-correction et leurs corrigés.
Les exercices sont divisés en deux catégories :

1. Les exercices de la première catégorie sont les exercices insérés dans le texte du cours
proprement dit. Ils sont assez simples et sont conçus comme des applications directes du
cours et de ce qui vient d’être vu.
2. Les exercices de la seconde catégorie, dits de révision, sont placés en fin de chaque
chapitre à partir du chapitre III. Ils sont, quant à eux, de difficultés variables et font appel
aux diverses notions mises en place dans les chapitres antérieurs y compris le chapitre
étudié.
CT U C entre de T élé-enseignement U niversitaire–Franche-Comté–Besançon
Besançon
Présentation du cours iii
Vous devez essayer de chercher à résoudre le maximum d’exercices, en vous aidant du cours.
Pour les exercices que vous ne savez pas résoudre ou que vous n’avez pas pu chercher, par
exemple par manque de temps, il faut au moins étudier leurs solutions en vous reportant au
chapitre VIII.
Ce qui a été dit, plus haut, pour l’étude des démonstrations s’applique également pour étudier
la correction d’un exercice. Encore une fois, après avoir étudié une démonstration ou la
solution d’un exercice, vous devez être capable de refaire cette démonstration ou cet exercice,
sans regarder le cours, trois ou quatre jours plus tard. C’est là un bon test pour savoir si vous
avez compris la démonstration ou la solution de l’exercice. Il ne faut pas hésiter à réviser les
chapitres déjà travaillés c’est-à-dire à revenir plusieurs fois, après de longs intervalles de temps,
sur les démonstrations ou exercices étudiés auparavant.
Trois devoirs à rédiger et à retourner à la correction sont proposés dans le cadre de cet
enseignement afin de vous permettre de tester vos connaissances et de vous inciter à un travail
régulier. Ces devoirs permettent aussi de montrer au correcteur que vous avez compris le cours,
que vous connaissez les résultats vus en cours et les hypothèses qui les commandent, et que
vous savez les mobiliser pour répondre à une question ou démontrer un résultat nouveau. Il est
donc recommander de tout mettre en œuvre pour atteindre cet objectif.
Il est bon de porter son attention, en particulier, sur les conseils suivants :
Un devoir de mathématiques est un devoir de français qui traite de mathématiques, c’est donc
avant tout un texte de français. Il doit donc être rédigée de façon correcte en français. Les
hypothèses spécifiques justifiant l’utilisation de chaque théorème doivent être correctement ex-
plicitées et le résultat du cours utilisé doit être clairement identifié voire explicitement énoncé.
Les résultats intermédiaires et les conclusions obtenues doivent être mis en évidence. Les nota-
tions utilisées ou introduites, surtout si elles sont nouvelles par rapport au cours, doivent être
clairement annoncées. La rédaction du cours peut être considérée comme un guide de rédaction
d’un texte mathématique.
Les épreuves d’examen comporteront des exercices et des questions portant sur l’ensemble
du cours. Elles peuvent également comprendre des questions de cours proprement dites : énon-
cer un ou plusieurs résultats du cours, refaire une ou plusieurs démonstrations vues en cours,
traiter un exemple ou un exercice corrigé proposés dans les documents fournis dans le cadre de
cette unité d’enseignement. La table de la loi normale standard de l’annexe B (sans les explica-
tions sur son utilisation), ainsi que le formulaire de l’annexe A, seront disponibles avec les sujets
lors des épreuves d’évaluation. Lors de ces épreuves, l’utilisation d’une calculatrice est autorisée.
Certaines propositions du cours concernent des résultats mentionnés "hors programme". Ils
sont simplement donnés dans un but de culture mathématique, mais ne feront donc pas l’objet
d’évaluation et leur connaissance n’est pas exigible dans les évaluations. Souvent ils apportent
des compléments ou des précisions sur un résultat ou une remarque qui viennent d’être faits.
Enfin, il est évident que l’appréciation d’une copie par le correcteur, que ce soit celle d’un
devoir ou d’une épreuve d’examen, accordera une place importante à la rédaction, à la clarté
des justifications et de l’argumentation ainsi qu’à la présentation globale de la copie. Une copie
illisible ou mal rédigée pourra ne pas être corrigée et sera sanctionnée en conséquence.
Besançon
iv Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014
Annexes
Ce document comprend cinq annexes :
1. L’annexe A, page 205, est un rappel des principales relations mathématiques utilisées
dans les calculs de probabilités et des lois de probabilités classiques à connaître. Ce
formulaire sera disponible lors des épreuves de contrôles ou d’examens.
2. L’annexe B, page 211, explique l’usage de la table statistique de la loi normale centrée-
réduite reproduite en fin de l’annexe. La table de la loi normale standard, sans les
explications qui l’accompagnent, sera disponible lors des épreuves d’examen.
3. L’annexe C, page 215, comprend les sujets des trois devoirs qui devront être envoyés
à la correction et précise les dates de ces trois envois. Les corrigés de ces devoirs seront
retournés avec la copie corrigée.
Bibliographie
Pour le cours, et surtout pour apporter des compléments à ce cours, on pourra utiliser avec
profit le livre de [4]. Pour les exercices on pourra se reporter à [2] pour ceux relevant de la
théorie de la mesure de de l’intégration, et à [3] où on trouvera des exercices supplémentaires
concernant la théorie des probabilités.
Pour une justification du choix du formalisme et de sa signification en tant que modèle de la

"réalité", on pourra consulter avec profit en première lecture le chapitre I de [5] et [7] puis, en
seconde lecture, [4] pages 93 et 132, et [13] page 56.
Une approche historique et épistémologique en liaison avec les questions d’enseignement des
concepts probabilistes peut être trouvée dans [6].
Calendrier de travail
Le cours lui-même est divisé en sept chapitres auxquels s’ajoute un huitième chapitre regroupant
les corrections des exercices proposés dans les chapitres précédents.
Les trois premiers chapitres sont principalement destinés à mettre en place le formalisme des
probabilités en transcrivant dans le langage des probabilités les notions de théorie de la mesure
et de l’intégration vues dans l’unité correspondante : tribu, application mesurable, mesure,
image d’une mesure, règles d’intégration, théorèmes de Lebesgue, ... etc. Normalement ces
notions ont été vues dans l’unité d’intégration qui est conseillée pour suivre cet enseignement
de probabilité. Elles doivent être étudiées assez rapidement de façon à faire porter votre travail
sur les autres chapitres. Dans ces trois premiers chapitres la notion de loi de probabilité, le
théorème du transfert, la notion de fonction caractéristique et les critères d’identification des
lois, doivent être bien assimilés et maîtrisés.
Les concepts vraiment nouveaux et propres à la théorie des probabilités : indépendance, vecteurs
gaussiens, convergences, théorèmes-limites, ... etc, sont vues dans les quatre derniers chapitres
et constituent le noyau de l’unité de probabilités.

Besançon
Présentation du cours v
Il faut consacrer en gros un tiers du temps de travail de l’unité à l’étude des chapitres 1, 2 et
3. Un tiers du temps aux chapitres 4 et 5, et un tiers du temps aux chapitres 6 et 7.
Vous avez à rédiger trois devoirs à envoyer pour correction à l’adresse suivante :
Bruno Saussereau, Laboratoire de Mathématiques de Besançon, UFR des Sciences

et Techniques, 16, route de Gray, 25030 Besançon cedex, France.
1. Le devoir 1, dont le texte se trouve en annexe C, page 216, porte sur les chapitres I, II
et III. Il doit être envoyé au plus tard pour le 21 février 2014.
2. Le devoir 2, dont le texte se trouve en annexe C, page 218, porte principalement sur le
chapitre IV et V mais pourra bien sûr faire appel à des résultats des chapitres précédents.
Il doit être envoyé au plus tard pour le 28 mars 2014.
3. Le devoir 3, dont le texte se trouve en annexe C, page 220, porte principalement sur
les chapitres VI et VII, mais pourra bien sûr faire appel à des résultats des chapitres
précédents. Il doit être envoyé au plus tard pour le 18 avril 2014.
Le calendrier ci-dessus est donné à titre indicatif. Bien entendu, j’accepterai de corriger
vos devoirs à n’importe quel moment. Cependant je vous conseille d’essayer de travailler
régulièrement et de suivre ce calendrier.
Remarque finale
Comme pour tout document, des erreurs ou des coquilles peuvent s’être glissées lors de sa
rédaction, merci de me signaler celles que vous pourriez relever. Plus généralement, si vous
avez des remarques sur le document, n’hésitez pas à m’en faire part.
Besançon, le 10 janvier 2014,
Bruno Saussereau

Besançon
vi Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

Besançon
Table des matières.
Présentation du cours i
Notations xi
1 Modèles probabilistes 1
1.1 Préliminaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Tribu sur un ensemble . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Mesures et probabilités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3.1 Mesure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3.2 Probabilités et événements . . . . . . . . . . . . . . . . . . . . . . . 7
1.3.3 Propriétés élémentaires des probabilités . . . . . . . . . . . . . . . . . 11
1.4 Fonctions de répartition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2 Loi d’un vecteur aléatoire 19

2.1 Remarques sur la modélisation de l’aléatoire . . . . . . . . . . . . . . . . . . 19
2.1.1 Cas discret . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.1.2 Cas continu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.1.3 Principe de modélisation . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2 Applications mesurables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.3 Loi d’une variable aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.3.1 Variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.3.2 Loi d’une variable aléatoire . . . . . . . . . . . . . . . . . . . . . . . 24
3 Moments d’un vecteur aléatoire 29

3.1 Rappels sur l’intégration des applications mesurables . . . . . . . . . . . . . . 29
3.1.1 Intégration des fonctions positives . . . . . . . . . . . . . . . . . . . . 29
3.1.2 Intégration des fonctions numériques . . . . . . . . . . . . . . . . . . 33
3.1.3 Intégration des fonctions vectorielles . . . . . . . . . . . . . . . . . . 36
3.1.4 Propriétés de l’intégrale . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.1.5 Espaces de Lebesgue d’ordre p . . . . . . . . . . . . . . . . . . . . . 38
3.2 Théorème du transfert et moments d’une v.a. . . . . . . . . . . . . . . . . . . 40
3.2.1 Théorème du transfert et identification de lois . . . . . . . . . . . . . 40
3.2.2 Moments d’une variable aléatoire . . . . . . . . . . . . . . . . . . . . 45
3.3 Fonction caractéristique et loi d’une v.a. . . . . . . . . . . . . . . . . . . . . 49
3.4 Exercices de révision sur les chapitres I à III . . . . . . . . . . . . . . . . . . 59
viii Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014
4 Indépendance stochastique 61
4.1 Intégration sur Rn+p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.2 Indépendance de vecteurs aléatoires, d’événements, de tribus . . . . . . . . . . 66
4.2.1 Indépendance de vecteurs aléatoires . . . . . . . . . . . . . . . . . . . 66
4.2.2 Critères d’indépendance de vecteurs aléatoires . . . . . . . . . . . . . 68
4.2.3 Indépendance d’événements, de tribus . . . . . . . . . . . . . . . . . . 77
4.3 Tribu et événements asymptotiques . . . . . . . . . . . . . . . . . . . . . . . 80
4.4 Somme de v.a.r. indépendantes . . . . . . . . . . . . . . . . . . . . . . . . . 84
4.5 Exercices de révision sur les chapitres I à IV . . . . . . . . . . . . . . . . . . . 90
5 Vecteurs aléatoires gaussiens 95

5.1 Vecteur gaussien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
5.2 Loi d’un vecteur gaussien . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
5.3 Exercices de révision sur les chapitres I à V . . . . . . . . . . . . . . . . . . . 103
6 Lois des grands nombres et convergences de v.a.r. 105

6.1 Convergence en probabilité d’une suite de v.a.r. . . . . . . . . . . . . . . . . . 105
6.1.1 Loi faible des grands nombres . . . . . . . . . . . . . . . . . . . . . . 105
6.1.2 Convergence en probabilité . . . . . . . . . . . . . . . . . . . . . . . 109
6.2 Convergence presque-sûre d’une suite de v.a.r. . . . . . . . . . . . . . . . . . 112
6.2.1 Loi forte des grands nombres . . . . . . . . . . . . . . . . . . . . . . 112
6.2.2 Convergence presque-sûre . . . . . . . . . . . . . . . . . . . . . . . . 113
6.3 Convergence dans Lp (Ω, F, P) où p ∈ [1, +∞] . . . . . . . . . . . . . . . . . 118
6.4 Comparaison des convergences dans L0 (Ω, F, P) . . . . . . . . . . . . . . . . 119
6.5 Exercices de révision sur les chapitres I à VI . . . . . . . . . . . . . . . . . . . 121
7 Théorème-limite central et convergence de lois 123

7.1 Théorème-limite central (TLC) . . . . . . . . . . . . . . . . . . . . . . . . . 123
7.1.1 Énoncé du théorème-limite central (TLC) . . . . . . . . . . . . . . . . 123
7.1.2 Cas particuliers du théorème-limite central (TLC) . . . . . . . . . . . . 126
7.1.3 Correction de continuité . . . . . . . . . . . . . . . . . . . . . . . . . 128
7.2 Convergence d’une suite de probabilités, convergence en loi . . . . . . . . . . 129
7.3 Exercices de révision sur les chapitres I à VII . . . . . . . . . . . . . . . . . . 141
8 Corrigés des exercices 145

8.1 Corrigés des exercices du chapitre I . . . . . . . . . . . . . . . . . . . . . . . 145
8.2 Corrigés des exercices du chapitre II . . . . . . . . . . . . . . . . . . . . . . . 152
8.3 Corrigés des exercices du chapitre III . . . . . . . . . . . . . . . . . . . . . . 155
8.4 Corrigés des exercices du chapitre IV . . . . . . . . . . . . . . . . . . . . . . 165
8.5 Corrigés des exercices du chapitre V. . . . . . . . . . . . . . . . . . . . . . . 183
8.6 Corrigés des exercices du chapitre VI . . . . . . . . . . . . . . . . . . . . . . 190
8.7 Corrigés des exercices du chapitre VII . . . . . . . . . . . . . . . . . . . . . . 196
A Formulaire 205
A.1 Rappels de notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
A.2 Quelques relations à connaître en probabilités . . . . . . . . . . . . . . . . . . 205
A.3 Probabilités usuelles discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . 207
A.4 Probabilités usuelles à densité . . . . . . . . . . . . . . . . . . . . . . . . . . 208
Besançon
Table des matières. ix
B Table de la loi normale standard 211

B.1 Calculs avec des v.a.r. normales centrées-réduites . . . . . . . . . . . . . . . . 211
B.2 Calculs avec des v.a.r. normales de paramètres quelconques . . . . . . . . . . 212
C Devoirs à envoyer à la correction 215

C.1 Devoir 1 à renvoyer le 21 février 2014 au plus tard . . . . . . . . . . . . . . . 216
C.2 Devoir 2 à renvoyer le 28 mars 2014 au plus tard . . . . . . . . . . . . . . . . 218
C.3 Devoir 3 à renvoyer le 18 avril 2014 au plus tard . . . . . . . . . . . . . . . . 220
Bibliographie. 221

Besançon
x Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

Besançon
Notations xi
Notations
Nous répertorions ici quelques notations générales qui seront utilisées dans l’ensemble du cours.
On note de façon classique respectivement par les lettres, N, Z, Q, R, C, les ensembles des
nombres entiers naturels, relatifs, rationnels, réels, complexes.
Les lettres P et E seront introduites dans le cours mais ne devront pas être confondues avec
les notations d’ensembles de nombres.
On pose R := R ∪ {+∞, −∞}. On étend l’ordre usuel de R à R en posant, pour tout x ∈ R,

−∞ < x < +∞. On prolonge les opérations classiques sur R de la façon suivante : pour
tout x ∈ R ∪ {+∞}, x + (+∞) = +∞, x − (−∞) = +∞; pour tout x ∈ R ∪ {−∞},
x + (−∞) = −∞, x − (+∞) = −∞. On remarquera que (+∞) + (−∞) et (+∞) − (+∞)
ne sont pas définis.
On suppose connues les notations classiques de la théorie élémentaire des ensembles : intersec-
tion ∩, réunion ∪, différence de deux ensembles \, ensemble vide Ø, passage au complémentaire
{ ou plus fréquemment c , inclusion (au sens large) ⊆.
Le symbole de Halmos, 2, désignera la fin d’une démonstration.
Le symbole := signifie "est égal par définition". Il indique que le membre de gauche de := est
une notation pour le membre de droite.
Chaque proposition, exemple, exercice, est numérotée par deux nombres séparés par un point.
Par exemple "proposition 5.12" désigne la proposition 12 du chapitre 5.

Besançon
xii Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014

Besançon
Chapitre 1. Modèles probabilistes 1
Chapitre 1
Modèles probabilistes
Le formalisme de la théorie des probabilités utilise les outils de la théorie de la mesure en
adoptant un vocabulaire spécifique aux probabilités.
1.1 Préliminaires
Certaines définitions et notations de la théorie élémentaire des ensembles seront constamment
utilisées dans la suite. Afin d’éviter toute ambiguïté nous les rappelons rapidement dans ce
paragraphe.
Définition 1.1.
Dans ce cours un ensemble sera dit dénombrable s’il est en bijection avec une partie (finie ou
infinie) de N.
(Attention : dans certains ouvrages, un tel ensemble est dit au-plus-dénombrable, le quali-
ficatif dénombrable désignant alors les ensembles possédant un nombre fini d’éléments.)
Si A et B sont deux parties d’un ensemble E , on note Ac := {x ∈ E / x 6∈ A}, ou aussi {E A

si on souhaite préciser l’ensemble de référence E , le complémentaire de A dans E et
A \ B := A ∩ B c = {x ∈ A / x 6∈ B}.
Définition 1.2.
Soit f une application d’un ensemble E dans un ensemble F . Si A est une partie de F ,
l’image-réciproque de A par f est l’ensemble, noté par les probabilistes {f ∈ A}, défini par
{f ∈ A} := {x ∈ E / f (x) ∈ A}.
L’ensemble {f ∈ A} est donc une partie de E .
Exemples 1.1.
Si f et g sont deux applications de E dans R et a un réel,
{f = g } := {x ∈ E / f (x) = g (x)}, {f ≤ g } := {x ∈ E / f (x) ≤ g (x)},
{f = a} := {x ∈ E / f (x) = a}.

Besançon
2 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014
En vue de la proposition
[ suivante, rappelons que si (Ai )I est une famille quelconque de parties
d’un ensemble F , Ai désigne la partie de F constituée des éléments x de F tels qu’il existe
i∈I
au moins un indice k ∈ I , x ∈ Ak . De même,
big capi∈I Ai désigne la partie de F constituée des éléments x de F tels que, pour tout indice
k ∈ I , x ∈ Ak .
Voici quelques propriétés classiques de l’image-réciproque :

Proposition 1.1.
Avec les notations introduites ci-dessus,
1. {f ∈ Ø} := {x ∈ E / f (x) ∈ Ø} = Ø.
2. Si A et B sont des parties de F avec A ⊆ B alors, {f ∈ A} ⊆ {f ∈ B}.
3. Si (Ai )I est une famille quelconque de parties de F ,
( ) ( )
[ [ \ \
f ∈ Ai = {f ∈ Ai } et f ∈ Ai = {f ∈ Ai } .
i∈I i∈I i∈I i∈I
4. {f ∈ A}c = E \ {f ∈ A} = {f ∈ F \ A} = {f ∈ Ac }.
On fera attention à l’ambiguïté de la notation c pour le complémentaire d’un ensemble dans

l’assertion 4 de cette proposition : {f ∈ A}c signifie {E {f ∈ A} et {f ∈ Ac } signifie {f ∈ {F A}.
Exercice 1.1. (Corrigé de l’exercice : page 145)

Démontrer la proposition précédente.
Définition 1.3.
L’indicatrice d’une partie A de E est l’application, notée 1lA , de E dans R définie, pour
tout x ∈ E , par 1lA (x) := 0 si x 6∈ A et 1lA (x) := 1 si x ∈ A.

Soient A, B et C trois parties d’un ensemble Ω.
1. Écrire 1lA∩B et 1lA∪B en fonction de 1lA et 1lB lorsque :
(a) A et B sont disjoints ( i.e. A ∩ B = Ø).
(b) A et B sont quelconques.
2. Exprimer, en fonction des indicatrices de A, B et C , les indicatrices des ensembles
suivants : Ac , A \ B, A ∪ B ∪ C .

Représenter
X graphiquement les fonctions définies sur R :
1. 1l[n,+∞[ .
n≥0
X
2. 1l[0,n] .
n≥0

Besançon
X
3. (n + 1)1l[n,n+1[ .
n≥0
Enfin, rappelons que, si f et g sont deux applications d’un ensemble E dans R, la notation
f ≤ g signifie que, pour tout x ∈ E , f (x) ≤ g (x).
1.2 Tribu sur un ensemble

Définition 1.4.
Une famille A de parties d’un ensemble E est appelée une tribu sur E , (ou dans certains
ouvrages une σ-algèbre sur E ), si elle vérifie les trois axiomes suivants :
1. E ∈ A,
2. Si A ∈ A, alors Ac ∈ A, [
3. Si (An )N est une suite d’éléments de A, alors An ∈ A.
n∈N
Définition 1.5.
Le couple (E , A) s’appelle un espace mesurable et les éléments de A sont appelés les
parties mesurables de E relativement à la tribu A ou parties A-mesurables de E
On notera bien que A est un ensemble constitué de parties de E et donc une partie de P(E ),
l’ensemble de toutes les parties de E .
Exemples 1.2.
les familles de parties de E , {Ø, E } et P(E ), sont des tribus sur E appelées tribus triviales
de E . On peut donc définir au moins une tribu sur tout ensemble E .

Soient n un entier strictement positif et (A1 , A2 , · · · , An ) une partition de E , i.e. une suite
de parties non vides de E , deux à deux disjointes, dont la réunion est égale à E . Soit A
la famille des réunions qu’on peut fabriquer à partir de toutes les sous-familles
[ de la suite
(A1 , A2 , · · · , An ), c’est-à-dire la famille des parties de E de la forme Ai où K parcourt
i∈K
l’ensemble des parties de {1, 2, · · · , n}. Montrer que la famille A est une tribu sur E .
Pour une généralisation de ce résultat, on pourra consulter [2] exercice I-7 question 2.

Montrer que l’intersection d’une famille quelconque de tribus est une tribu. En est-il de
même pour la réunion ?
La proposition suivante donne un procédé de construction de parties mesurables à partir d’autres

éléments de la tribu :
Besançon
Proposition 1.2.
Soit A une tribu sur E .
1. Ø ∈ A.
2. Si (Ai )i∈I , où I ⊆ N, est une suite (finie ou infinie) d’éléments de A, alors
\ [
Ai ∈ A et Ai ∈ A.
i∈I i∈I
Démonstration : Ø = E c , on conclut par les axiomes 1 et 2 de la définition des tribus.

On pose A0i := Ai pour tout entier i ∈ I et A0i := Ø pour tout entier
S i ∈ N\S I . On applique le
0
résultat précédent
T et l’axiome 3 de la définition pour montrer que A
i∈I i = n∈N An ∈ A.
Pour montrer i∈I Ai ∈ A, on remarque que
!c
\ [
Ai = Aci
i∈I i∈I
On utilise alors le résultat précédent et l’axiome 2. 2

Montrer que si A et B sont deux parties mesurables de E relativement à la tribu A, alors
A \ B ∈ A.
Pour des raisons techniques qui seront précisées plus loin, lorsqu’on travaille sur E := R ou
plus généralement E := Rd avec d ∈ N∗ , il n’est pas possible d’utiliser la tribu P(R) ou
P(Rd ) car elle est trop "grosse". Pour des explications plus détaillées consulter l’annexe ??,
page ??. On doit donc définir une tribu plus "petite" (au sens de l’inclusion des ensembles)
mais suffisamment riche en éléments pour contenir au moins les ensembles utilisés dans les
applications pratiques de la théorie des probabilités, comme les intervalles de R ou les pavés de
Rd , et leurs réunions ou intersections dénombrables.
Pour cela on définit la tribu borélienne ou tribu de Borel de R notée B(R). C’est la plus
petite des tribus sur R contenant tous les intervalles de la forme ]a, b], où a et b sont des réels
tels que a < b. Cette dernière phrase signifie que si A est une tribu sur R contenant tous les
intervalles de la forme ]a, b], où a et b sont des réels tels que a < b, alors tout élément de la
tribu B(R) est un élément de la tribu A.
Plus généralement,
Définition 1.6.
La tribu borélienne ou tribu de Borel de Rd ,, notée B(Rd ), est la plus petite des tribus sur
Rd contenant tous les pavés de Rd i.e. les parties de la forme ]a1 , b1 ]×]a2 , b2 ]× · · · ×]ad , bd ]
où, pour tout entier 1 ≤ i ≤ d, ai et bi sont des réels tels que ai < bi .
On peut de même définir la tribu borélienne sur B(R) :

Besançon
Définition 1.7.
La tribu borélienne sur R, notée B(R), est la plus petite des tribus sur R contenant tous les
intervalles de la forme ]a, b], où a et b sont des réels tels que a < b, et les intervalles ]a, +∞]
où a ∈ R.
Définition 1.8.
Les éléments des tribus B(R), resp. B(Rd ), sont appelés boréliens de R, resp. Rd .

Prouver l’existence de la tribu de Borel de R. Pour cela, montrer que B(R) est l’intersection
de la famille (non vide car la tribu P(R) en fait partie) des tribus contenant tous les in-
tervalles de la forme ]a, b] où a et b sont des réels tels que a < b.
Plus généralement :
Définition 1.9.
Soit C une famille de partie d’un ensemble E . On appelle tribu engendrée par C sur E , et
on note σ( C), la plus petite tribu (au sens de l’inclusion) définie sur E contenant la famille C.
On vérifiera aisément que la tribu σ( C) est l’intersection de toutes les tribus sur E qui conti-
ennent C.
Exemples 1.3.
On montre en théorie de la mesure que la tribu borélienne de Rd est engendrée par la
famille constituée des parties ouvertes de Rd .

Soient n un entier strictement positif et (A1 , A2 , · · · , An ) une partition de E . Montrer
que la tribu construite dans l’exercice 1.4 est la tribu sur E engendrée par la famille
(A1 , A2 , · · · , An ).
Dans la suite du cours les ensembles R et Rd seront toujours supposés munis de leurs tribus
boréliennes.
La proposition suivante donne des exemples de boréliens de R. Pratiquement ceux-ci correspon-

dent à la plupart des ensembles qui seront manipulés dans la suite :
Proposition 1.3.
1. Tout singleton de R est un borélien.
2. Toute partie dénombrable de R est un borélien.
3. Tous les intervalles de R, quelle que soit leur forme, sont des boréliens de R.
4. Toutes les réunions dénombrables ou intersections dénombrables d’intervalles de R, ou
plus généralement de boréliens, sont des boréliens.
Démonstration : Pour le singleton, on remarque que si a ∈ R, on peut écrire

+∞
\
1
{a} = a − ,a .
k=1
k
Besançon
On conclut alors avec la proposition 1.2 de la page 4. Pour l’assertion 2, on utilise l’axiome
3 de la définition des tribus. Pour démontrer 3, on montre que tout intervalle peut être écrit
comme réunion ou intersection dénombrable d’intervalles de la forme ]a, b] ou de singletons.
Par exemple [a, b] =]a, b] ∪ {a} ce qui prouve que tout intervalle fermé borné est borélien.
Autres exemples : ]a, b[=]a, b] \ {b} ou encore
+∞
[ +∞
1 [
]a, b[= a, b − , ] − ∞, b] = ] − k, b].2
k=1
k k>−b
On notera que si toute réunion dénombrable ou intersection dénombrable d’intervalles de R est

un borélien, cela ne signifie pas pour autant que tous les boréliens de R sont de cette forme.
De plus on montre que B(Rd ) est strictement incluse dans l’ensemble des parties de Rd . Il
existe donc des parties de Rd qui ne sont pas mesurables pour la tribu de Borel. Mais dans
la pratique, tous les ensembles que nous serons amenés à utiliser dans Rd seront en fait des
boréliens.
1.3 Mesures et probabilités

1.3.1 Mesure
Définition 1.10.
Soit (E , A) un espace mesurable. Une mesure sur (E , A) est une application µ de A dans
[0, +∞] vérifiant les axiomes :
1. µ(Ø) = 0,
2. σ-additivité : pour toute suite (An )N d’éléments de A deux à deux disjoints
+∞
! +∞
[ X
µ Ak = µ(Ak ).
k=0 k=0
Le triplet (E , A, µ) s’appelle un espace mesuré.
! +∞ i.e. pour toute suite finie A1 , · · · , An d’éléments

La σ-additivité entraîne la simple-additivité
+∞
[ X
de A deux à deux disjoints µ Ak = µ(Ak ). Mais la réciproque est fausse, c’est-à-dire
k=0 k=0
qu’il ne suffit pas que le deuxième axiome de la définition précédente soit vrai pour les suites
finies deux à deux disjointes pour qu’il le soit pour les suites infinies deux à deux disjointes. Un
contre-exemple est proposé dans l’exercice suivant.

On considère l’application µ de P(N) dans [0, +∞] définie, pour tout A ⊆ N, par
X 1 1
µ(A) := 2
(avec la convention = +∞) si A est fini, µ(A) = +∞ si A est infini,
n∈A
n 0
et µ(Ø) = 0. Montrer que
Besançon
1. µ est simplement-additive sur N, i.e.!pour toute suite finie A1 , · · · , An de parties de

n
[ Xn
N, deux à deux disjointes, µ Ak = µ(Ak ).
k=1 k=1
2. µ n’est pas σ-additive sur N.
On admettra qu’il existe une unique mesure sur (Rd , B(Rd )), notée λ(d) et appelée mesure
de Lebesgue sur Rd , telle que, pour tout pavé de la forme ]a1 , b1 ]×]a2 , b2 ]× · · · ×]ad , bd ]
où pour tout entier 1 ≤ i ≤ d, les réels ai et bi vérifient ai < bi ,
λ(d) (]a1 , b1 ]×]a2 , b2 ]× · · · ×]ad , bd ]) = (b1 − a1 )(b2 − a2 ) · · · (bd − ad ).
La mesure de Lebesgue étend donc les notions de mesure de longueur (cas d = 1), mesure
d’aire (cas d = 2), mesure de volume (cas d = 3) à toutes les parties de Rd qui sont des
boréliens. Dans le cas d = 1 on notera, pour simplifier, λ := λ(1) .

On montre que λ(d) Rd = +∞. On dit que la mesure de Lebesgue est une mesure non finie
contrairement aux probabilités que nous allons définir ci-dessous et qui sont des cas particuliers
de mesures finies.
Exercice 1.10. (Corrigé

[ de l’exercice : page 149)
Vérifier que R = ]k, k + 1] et en déduire que λ (R) = +∞ en appliquant l’axiome de
k∈Z
σ-additivité de la mesure de Lebesgue.
1.3.2 Probabilités et événements

Définition 1.11.
Une probabilité sur (E , A) est une mesure µ sur (E , A) telle que µ(E ) = 1. Le triplet
(E , A, µ) s’appelle alors un espace de probabilité, les parties mesurables s’appellent les
événements relatifs à µ. E est l’événement certain, Ø est l’événement impossible. Deux
événements disjoints sont dits incompatibles.
Dorénavant, sauf indication contraire, (E , A, µ) désignera un espace de probabilité.
Définition 1.12.
Une partie A de E est dite négligeable pour µ, s’il existe un événement B tel que A ⊆ B avec
µ(B) = 0. Une propriété P(x), dépendant de l’élément x ∈ E , est dite µ-presque-sûre (en
abrégé µ-p.s.) si l’ensemble des x ∈ E pour lesquels la propriété P(x) n’est pas vérifiée est
négligeable pour µ.
Définition 1.13.
Deux événements A et B sont dits µ-presque-sûrement égaux si l’événement (A\B)∪(B \A)
est négligeable pour µ.
Un événement négligeable pour µ est µ-presque-sûrement vide, c’est-à-dire µ-presque-sûrement
impossible.

Besançon
Exemples 1.4.
1) Donnons un premier exemple de probabilité sur E := Rd . Comme convenu on sous-
entend A := B(Rd ). Soit a ∈ Rd fixé, on note δa l’application de B(Rd ) dans {0, 1}
définie, pour tout borélien A, par δa (A) = 1lA (a) c-à-d δa (A) = 1 si a ∈ A et δa (A) = 0
sinon.
δa est une probabilité sur Rd , B(Rd ) appelée probabilité de Dirac au point a sur Rd .
On vérifie aisément que toute partie de Rd ne contenant pas a est négligeable pour δa . Le
singleton {a} est un événement δa -presque-sûrement égal à l’événement certain Rd .
2) D’après le résultat de l’exercice 1.10, la mesure de Lebesgue n’est pas une probabilité
sur Rd .

Vérifier que δa , où a est un réel, est bien une probabilité sur R.
Donnons sous forme de proposition un exemple générateur de mesures et en particulier de

probabilités :
Proposition 1.4.
Soient (µk )N une suite de mesures sur (E , A) et (αk )N une suite de réels positifs. Alors
l’application
+∞
X
µ : A ∈ A 7→ µ(A) := αk µk (A)
k=0
est une mesure sur (E , A) notée

+∞
X
µ := α k µk .
k=0
Démonstration : On vérifie aisément que µ(Ø) = 0. La σ-additivité de µ découle immédiatement

du lemme suivant sur l’interversion des indices, souvent utile dans les calculs : Si (ai,j )(i,j)∈N2
est une suite-double de réels positifs, alors
+∞ X
X +∞ +∞ X
X +∞
ai,j = ai,j .
i=0 j=0 j=0 i=0
Cette somme peut être éventuellement infinie. Pour une démonstration du lemme se reporter
à [1] tome 2, p. 306. 2
+∞
X
On notera que si les mesures µk sont des probabilités sur (E , A) et si αk = 1, alors la
k=0
+∞
X
mesure αk µk est une probabilité sur (E , A).
k=0
Exemples 1.5.
Appliqué au cas particulier où les probabilités µk sont les probabilités sur R de Dirac au
point k ∈ N, le procédé précédent permet de construire d’autres exemples classiques de
probabilités. Si n ∈ N∗ , α ∈]0, +∞[, p ∈]0, 1[ et q := 1 − p, on définit :
Besançon
1. la probabilité binomiale de paramètres n et p :

n
X
B(n, p) := Cnk p k q n−k δk .
k=0
2. la probabilité de Poisson de paramètre α :

∞
X αk
P(α) := e −α δk .
k=0
k!
3. la probabilité géométrique de paramètre p :

+∞
X
G(p) := pq k−1 δk .
k=1
4. la probabilité uniforme-discrète de paramètre n ou équiprobabilité sur {1, 2, · · · , n}

: n
1X
U(n) := δk .
n k=1
La probabilité B(1, p) est appelée probabilité de Bernoulli de paramètre p et se note
simplement B(p).

Vérifier que les probabilités introduites dans l’exemple précédent sont bien des probabilités
construites suivant le procédé de la proposition 1.4.

1) Expliciter les expressions analytiques, pour tout i ∈ N, de B(n, p)({i}) et P(α) ({i}) .
1 3
2) Expliciter et calculer P( ) ({1, 3, 5, 7}) et B(7, ) ({0, 3, 5}) .
10 10
Définition 1.14.
d
Une probabilité µ sur
XR est dite discrète et portée par l’ensemble F si elle peut s’écrire
sous la forme µ = pn δan où (pn )N est une suite de réels positifs ou nuls, (an )N est une suite
n∈N
de vecteurs de Rd et F désigne l’ensemble des an ∈ Rd pour lesquels pn > 0.
Exemples 1.6.
Les probabilités binomiale B(n, p), de Poisson P(α), de Dirac δa sont discrètes et portées
respectivement par les ensembles {0, 1, · · · , n}, N, {a}.
Il ne faut pas croire que toutes les probabilités soient discrètes. Par exemple on admettra qu’il
existe une unique probabilité sur R, notée N 1 (0, 1) et appelée probabilité de Gauss-Laplace
standard, ou probabilité normale standard, telle que pour tout x ∈ R,
Z x
1 1 2
N 1 (0, 1) (] − ∞, x]) = √ e − 2 t dt.
2π −∞
Besançon
On verra un peu plus loin que cette probabilité ne peut pas s’écrire sous la forme d’une com-
binaison linéaire de probabilités de Dirac et n’est donc pas discrète.
Remarquons que le nombre réel N 1 (0, 1) (] − ∞, x]) représente la mesure de l’aire délimitée
1 1 2
par l’axe des abscisses t, la courbe d’équation y = √ e − 2 t , et la droite d’équation t = x. On
2π
1 1 2
dira pour simplifier qu’il s’agit de la mesure de l’aire sous la courbe d’équation y = √ e − 2 t ,
2π
comprise entre −∞ et x.
On peut généraliser un peu la construction précédente.

Définition 1.15.
Nous appellerons densité de probabilité sur R toute application ρ positive de R dans
[0, +∞], continue sur R, Zsauf éventuellement en un nombre fini de points où la courbe présente
+∞
des sauts finis, telle que ρ(t)dt = 1.
−∞
On montre alors qu’il existe une unique probabilité µ sur R telle que, pour tout x ∈ R,
Z x
µ (] − ∞, x]) = ρ(t)dt.
−∞
On dit que µ est une probabilité à densité sur R. On écrit µ = ρ · λ pour exprimer que µ
admet ρ pour densité. Nous généraliserons de façon définitive la définition de densité d’une
probabilité sur Rd au chapitre III par la définition 3.2, page 35.
Comme précédemment, le réel µ (] − ∞, x]) représente la mesure de l’aire sous la courbe

d’équation y = ρ(t), comprise entre −∞ et x.
On peut de façon plus générale définir des mesures à densité, qui ne sont plus nécessaire-
ment des probabilités, en remplaçant dans laZ définition de la densité ci-dessus, la condition
Z +∞ +∞
ρ(t)dt = 1 par la condition plus faible ρ(t)dt < +∞.
−∞ −∞
L’existence des mesures à densité résulte d’un théorème de prolongement assez technique que
nous n’énoncerons pas. Nous nous contenterons d’admettre l’existence de telles mesures.
Exemples 1.7.
1. La probabilité de Gauss-Laplace standard vue plus haut admet la densité ρ définie

1 1 2
sur R par ρ(t) := √ e − 2 t .
2π
1
2. L’application ρ := 1l[a,b] , avec a < b, est la densité d’une probabilité sur R
b−a
appelée probabilité uniforme-continue sur [a, b] et notée U([a, b]).
3. L’application ρ, définie sur R par ρ(t) := αe −αt 1l]0,+∞[ (t), est la densité d’une proba-
bilité sur R appelée probabilité exponentielle de paramètre α > 0 et notée E(α).

Besançon
On pourrait se demander pourquoi on ne définit pas les mesures comme des applications µ
σ-additives de l’ensemble des parties de E dans [0, +∞] avec µ(Ø) = 0. Cela reviendrait à
prendre toujours A := P(E ) et éviterait le recours à la notion de tribu. En fait, on montre que
certaines probabilités, comme celle de Gauss définie plus haut, ne peuvent pas être définies pour
toutes les parties de R. Plus précisément, on montre que, toujours dans le cas de E := R, les
seules probabilités qui satisferaient à cette nouvelle définition seraient les probabilités discrètes.
Malheureusement cette famille n’est pas assez riche pour permettre de modéliser grand nombre
des situations aléatoires qui se présentent dans les applications concrètes de la théorie. Pour
plus de développements se reporter à l’annexe ??, page ??, de ce cours.
1.3.3 Propriétés élémentaires des probabilités

(E , A, µ) désigne un espace de probabilité.
Proposition 1.5.
1. Pour tout A, B ∈ A tel que A ⊆ B, µ(A) ≤ µ(B). En particulier pour tout A ∈ A,
µ(A) ≤ 1.
2. Pour tout A, B ∈ A, µ(B \ A) = µ(B) − µ(A ∩ B). En particulier si A ⊆ B,
µ(B \ A) = µ(B) − µ(A).
3. Pour tout A, B ∈ A, µ(A ∪ B) = µ(A) + µ(B) − µ(A ∩ B).
4. Pour tout A ∈ A, µ(Ac ) = 1 − µ(A).
Démonstration : 1) On remarque que B = (B \ A) ∪ A car A ⊆ B. De plus (B \ A) ∩ A = Ø.

D’où µ(B) = µ(A) + µ(B \ A) ≥ µ(A) l’égalité résultant de ce que l’union est disjointe. On
conclut par l’axiome 2 des mesures. Pour la deuxième partie prendre B = E .
2) résulte de l’égalité ensembliste (B \ A) ∪ (A ∩ B) = B avec (B \ A) ∩ (A ∩ B) = Ø. Pour la
deuxième partie remarquer que si A ⊆ B, A ∩ B = A.
3) résulte de A ∪ B = (A \ B) ∪ B où l’union est disjointe.
4) résulte de Ac = E \ A avec A ⊆ E . 2
Pour démontrer l’inégalité de Bonferroni nous aurons besoin du résultat ensembliste suivant
laissé en exercice :
Proposition 1.6.
Soit (An )N une suite de parties d’un ensemble E . Posons B0 := A0 et, pour tout entier k ≥ 1,
Bk := Ak \ (A0 ∪ A1 ∪ · · · ∪ Ak−1 ) . Alors, pour tout entier n ≥ 0, Bn ⊆ An et la suite (Bn )N est
[n [n
formée de parties deux à deux disjointes vérifiant, pour tout entier naturel n, Bk = Ak ,
k=0 k=0
+∞
[ +∞
[
et Bk = Ak .
k=0 k=0

Démontrer la proposition 1.6.
Ce résultat est souvent utile pour se ramener à des familles de parties deux à deux disjointes
car, du fait de l’axiome de σ-additivité, il est beaucoup plus facile de manipuler des réunions
Besançon
de parties de E deux à deux disjointes. Voici une illustration de cette remarque dans la
démonstration ci-dessous de l’inégalité de Bonferroni.
Proposition 1.7.
Inégalité de Bonferroni ou propriété de sous-additivité
Pour toute suite (An )N d’éléments de A,
+∞
! +∞
[ X
µ Ak ≤ µ(Ak ).
k=0 k=0
En conséquence, une réunion dénombrable d’événements négligeables pour µ est négligeable.
Démonstration : On applique la σ-additivité des mesures à la suite (Bn )N de la proposition 1.6

et on utilise les propriétés élémentaires des probabilités énoncées dans la proposition 1.5. 2
La formule de Poincaré ci-dessous, qu’on admettra , généralise au cas de n événements la

relation 3) de la proposition 1.5, page 11, établie pour deux événements (la démonstration
peut se faire par récurrence sur l’entier n, une autre démonstration utilisant les propriété de
l’intégrale sera proposée au chapitre III dans l’exemple 3.9, page 37).
Proposition 1.8.
Formule de Poincaré
Pour toute suite (A1 , A2 , · · · , An ) d’éléments de A,
k=n
! k=n !
[ X X
µ Ak = (−1)k+1 µ (Ai1 ∩ Ai2 ∩ · · · ∩ Aik ) .
k=1 k=1 1≤i1 <i2 <···<ik ≤n
Proposition 1.9.
Théorème de continuité monotone
1. Pour toute suite (An )N d’éléments de A, croissante au!sens de l’inclusion, (µ(An ))N est
+∞
[
une suite réelle croissante convergeant vers µ Ak c-à-d
k=0
+∞
!
[
µ Ak = lim µ(An ).
n→+∞
k=0
2. Pour toute suite (An )N d’éléments de A, décroissante au sens de l’inclusion,

! la suite
+∞
\
(µ(An ))N est une suite réelle décroissante convergeant vers µ Ak c-à-d
k=0
+∞
!
\
µ Ak = lim µ(An ).
n→+∞
k=0
Démonstration : 1) Soit (An )N suite croissante d’éléments de A. Utilisons la suite construite

dans la proposition 1.6. Comme la suite (An )N est croissante, pour tout entier n ≥ 1,
Besançon
Bn = An \ An−1 et B0 = A0 . (Bn )N est une suite d’éléments de A deux à deux disjoints

+∞
[ +∞
[
avec Ak = Bk . Il vient
k=0 k=0
+∞
! +∞
! +∞ +∞
[ [ X X
µ Ak = µ Bk = µ(Bk ) = µ(A0 ) + (µ(Ak ) − µ(Ak−1 ))
k=0 k=0 k=0 k=1
k=n
X
= µ(A0 ) + lim (µ(Ak ) − µ(Ak−1 )) = lim µ(An ).
n n
k=1
D’où la première partie.

2) Comme µ est une probabilité,
+∞
! +∞
!
\ [
µ Ak =1−µ Ack .
k=0 k=0
Or (Acn )N est une suite

! croissante d’éléments de A. D’après la première partie de la démon-
+∞
[
stration, µ Ack = lim µ(Acn ). Par suite
n
k=0
+∞
!
\
µ Ak = lim (1 − µ(Acn )) = lim µ(An ).
n n
k=0
D’où la deuxième partie. 2
1.4 Fonctions de répartition

La possibilité de définir une probabilité sur une tribu à partir de la connaissance des valeurs
de cette mesure sur une sous-famille de la tribu, résulte d’un théorème de prolongement assez
technique que nous n’énoncerons pas. En revanche, il est souvent utile de montrer qu’il existe
une unique probabilité sur la tribu qui prend des valeurs seulement connues sur une sous-famille
de la tribu.
L’unicité dans le cas des probabilités résulte d’un théorème, appelé théorème d’unicité, qui
découle lui-même du théorème des classes monotones qu’on admettra, dont il est utile de
connaître l’énoncé. Commençons tout d’abord par donner deux définitions :
Définition 1.16.
Une famille M de parties de E est appelée une classe monotone sur E si elle vérifie les trois
axiomes suivants :
1. E ∈ M.
2. Si A ∈ M et B ∈ M avec B ⊆ A, alors A \ B ∈ M.
3. Si (An )N est une suite croissante au sens de l’inclusion d’éléments de la famille M, alors
+∞
[
An ∈ M.
n=0

Besançon
De façon analogue à la définition correspondante pour les tribus, si J est une famille de parties
de E , on appellera classe monotone engendrée par J la plus petite classe monotone sur
E contenant tous les éléments de la famille J . On vérifie aisément que la classe monotone
engendrée par J est l’intersection de toutes les classes monotones sur E contenant tous les
éléments de la famille J .
Moyennant ces deux définitions le théorème des classes monotones s’énonce :

Proposition 1.10.
Théorème des classes monotones (admis)
Soit J une famille, stable par intersections finies, de parties d’un ensemble E , alors la classe
monotone engendrée par J coïncide avec la tribu engendrée par J .
Une application importante de ce théorème est le théorème d’unicité sur les probabilités :
Proposition 1.11.
Théorème d’unicité pour les probabilités
Soit C une famille, stable par intersections finies, de parties d’un ensemble E . Soit A la tribu
engendrée par C, i.e. A = σ( C). Si µ et ν sont deux probabilités définies sur l’espace (E , A)
telles que, pour tout A ∈ C, µ(A) = ν(A), alors, pour tout A ∈ A, µ(A) = ν(A), i.e. µ = ν.
Démonstration : Notons H la famille des événements A ∈ A tels que µ(A) = ν(A). D’après
l’item 1 de la proposition 1.9, on vérifie aisément que H est une classe monotone qui contient la
famille C. Donc H contient la classe monotone engendrée par C. Comme, par hypothèse C est
stable par intersections finies, d’après le théorème des classes monotones, la classe monotone
engendrée par C coïncide avec la tribu engendrée par C, c’est-à-dire A. Finalement, pour tout
A ∈ A ⊆ H, µ(A) = ν(A). 2
Ce résultat montre que pour prouver que deux probabilités sont égales, il suffit de mettre en
évidence qu’elles coïncident sur une famille engendrant la tribu, stable par intersections finies.
Cette remarque justifie la définition suivante :
Définition 1.17.
Une famille de parties d’un ensemble non vide E stable par intersections finies est appelée un
π-système de parties de E .
Par exemple, si nous prenons E = R, la famille C de tous les intervalles de R de la forme

] − ∞, x] où x parcourt R, est un π-système de parties de R. De plus C engendre la tribu
borélienne de R car, pour tout réel a et b avec a < b, ]a, b] =] − ∞, b]\] − ∞, a]. Le théorème
d’unicité 1.11 appliqué à C et R muni de la tribu de Borel devient alors :
Proposition 1.12.
Lemme d’unicité pour les probabilités sur R
Soient µ et ν deux probabilités sur R.
Si pour tout x ∈ R µ(] − ∞, x]) = ν(] − ∞, x]), alors µ = ν.
Ce résultat a pour conséquence que pour identifier une probabilité µ sur R, il suffit d’identifier
l’application Fµ de R dans [0, 1], définie, pour tout x ∈ R, par Fµ (x) := µ(] − ∞, x]).

Besançon
Définition 1.18.
On dit que Fµ est la fonction de répartition de la probabilité µ, en abrégé f.r. .
Avec ces notations on peut énoncer autrement le lemme d’unicité pour les probabilités sur R :
Proposition 1.13.
Deux probabilités sur R sont identiques si, et seulement si, elles ont la même fonction de
répartition.
Exemples 1.8.
1) La f.r. de δa , où a ∈ R, est 1l[a,+∞[ .
2) La f.r. de B(p) est p1l[1,+∞[ + (1 − p)1l[0,+∞[ .

1 3 1 3
3) La f.r. de δ0 + N 1 (0, 1) est 1l[0,+∞[ + F où F désigne la f.r. de la probabilité N 1 (0, 1).
4 4 4 4
Les valeurs de la fonction de répartition de la probabilité N 1 (0, 1) sont "tabulées". On trou-
vera la tables des valeurs de la fonction de répartition de la probabilité normale standard,
appelée communément table de la loi normale centrée-réduite, avec un mode d’emploi
dans l’annexe B, page 211, de ce cours.
A titre d’entraînement, on pourra également chercher à exprimer les fonctions de répartition

des probabilités E(α) et U([a, b]) (On trouvera leur expression dans le formulaire reproduit en
annexe A, page 205.

1
Soit F l’application de R dans R définie, pour tout réel x, par F (x) := 1 − e −x si x ≥ 0,
2
1 x
et F (x) := e si x ≤ 0. Montrer que F est la fonction de répartition d’une probabilité à
2
densité qu’on déterminera.
Proposition 1.14.
Soit µ une probabilité sur R de fonction de répartition F . Alors
1. F est croissante sur R et admet des limites à droite en tout point de R ∪ {−∞} et à
gauche en tout point de R ∪ {+∞}. De plus F est continue-à-droite sur R,
lim F (x) = 0 et lim F (x) = 1.

x→−∞ x→+∞
2. Pour tous réels a, b avec a < b :

(a) µ(]a, b]) = F (b) − F (a) et µ(] − ∞, a[) = F (a−) où F (a−) désigne la limite-à-
gauche de F au point a.
(b) µ({a}) = F (a) − F (a−).
(c) F est continue en a si, et seulement si, µ({a}) = 0.
Démonstration : 1) Soient x, y des réels vérifiant x ≤ y . Comme ] − ∞, x] ⊆] − ∞, y ] il vient

F (x) = µ(] − ∞, x]) ≤ µ(] − ∞, y ]) = F (y ). Donc F est croissante sur R.
Besançon
Pour montrer que F admet une limite-à-gauche, considérons un point a de R∪{+∞} et posons
l := sup F (x). l est dans R puisque F est bornée par 1. Soit ε > 0, il existe x0 < a tel que
x<a
l ≥ F (x0 ) > l − ε. Donc, pour tout x ∈]x0 , a[, l ≥ F (x) ≥ F (x0 ) > l − ε c-à-d |F (x) − l| < ε,
ce qui donne l’existence de la limite-à-gauche en a pour F .
On montre de même l’existence d’une limite-à-droite F (a+) := inf F (x).
x>a
+∞
1 \ 1
La suite d’intervalles ] − ∞, a + ] est décroissante et ] − ∞, a + ] =] − ∞, a], donc
n N∗ k=0
n
par le théorème de continuité monotone 1.9 de la page 12

1
µ (] − ∞, a]) = lim µ ] − ∞, a + ]
n n

1
c-à-d F (a) = lim F a + = F (a+) car la limite-à-droite existe au point a. F est donc
n n
continue-à-droite en tout point de R.
+∞
\
La suite d’intervalles (] − ∞, −n])N est décroissante et ]−∞, −n] = Ø. La suite (] − ∞, n])N
n=0
+∞
[
est croissante et ] − ∞, n] = R. Par application du théorème de continuité monotone à ces
n=0
deux dernières suites, on obtient les valeurs des limites de F en −∞ et +∞.
2-a) µ(]a, b]) = µ(] − ∞, b]) − µ(] − ∞, a]) car ]a, b] =] − ∞, b]\] − ∞, a]. D’où le premier
résultat. [ 1
Comme ] − ∞, a[= ] − ∞, a − ] et que F admet une limite-à-gauche en a d’après la
n≥1
n
première partie,

1 1
µ(] − ∞, a[) = lim µ(] − ∞, a − ]) = lim F a − = lim F (x) = F (a−).
n→+∞ n n→+∞ n x→a,x<a
ce qui donne le second résultat.

2-b) On peut écrire {a} =]−∞, a]\]−∞, a[. Par suite, µ({a}) = µ(]−∞, a])−µ(]−∞, a[) =
F (a) − F (a−).
2-c) F est continue en a si, et seulement si, F (a) = F (a−) c-à-d µ({a}) = 0, d’après 2-b. 2

Montrer que, pour tout réel x, N 1 (0, 1) ({x}) = 0 et en déduire que la probabilité N 1 (0, 1)
ne peut pas s’écrire comme combinaison linéaire de probabilités de Dirac.

1. Montrer que si µ est une probabilité admettant une densité sur R, alors pour tout
réel a, µ({a}) = 0, c’est-à-dire tout singleton est négligeable pour µ. On dit dans ce
cas que la probabilité µ est diffuse sur R.
2. Avec les notations de la proposition précédente, montrer que pour tous réels a, b
vérifiant a < b, µ(]a, b[) = F (b−) − F (a) et µ([a, b[) = F (b−) − F (a−).
Besançon
Exercice 1.18. (Corrigé

de l’exercice : page 151)

1 4 9
Calculer U([0, 1]) [ , ] , U([0, 1]) (Q) , E(2) {π} ∪ [ , 7] .
6 3 2
On admettra le résultat suivant, réciproque de l’item 1 de la proposition 1.14, qui prouve qu’il y
a bijection entre l’ensemble des probabilités sur R et l’ensemble des fonctions sur R, croissantes,
continues-à-droite sur R, telles que lim F (x) = 0 et lim F (x) = 1 (cf. [3] exercice I-16) :
x→−∞ x→+∞
Proposition 1.15.
Si F est une application croissante de R dans [0, 1], continue-à-droite sur R avec
lim F (x) = 0 et lim F (x) = 1,

x→−∞ x→+∞
alors il existe une unique probabilité sur R dont F est la fonction de répartition.

Donner une représentation graphique de l’application
1 3
F : t ∈ R 7→ F (t) = (t + 2)1l[−1,0[∪]1,2[ (t) + 1l[0,1] (t) + 1l[2,+∞[ (t),
4 4
et montrer que F est la fonction de répartition d’une probabilité à densité qu’on précisera.

Besançon

Besançon
Chapitre 2. Loi d’un vecteur aléatoire 19
Chapitre 2
Loi d’un vecteur aléatoire
2.1 Remarques sur la modélisation de l’aléatoire

Le but de ce premier paragraphe est de fournir quelques éléments de réflexion sur la modélisa-
tion mathématique de phénomènes aléatoires. Pour une analyse plus approfondie sur l’intérêt
d’introduire la notion de variable aléatoire et de loi de probabilité, on pourra consulter l’annexe
??, page ??.
Considérons les deux situations suivantes :
2.1.1 Cas discret

Une personne s’intéresse à la somme des valeurs obtenues dans le lancer simultané de deux dés
équilibrés. On modélisera l’ensemble des issues possibles de cette expérience aléatoire par
Ω := {(i, j) ∈ N2 /1 ≤ i, j ≤ 6}.
Les événements peuvent être modélisés par des parties de Ω. On peut prendre comme tribu
des événements l’ensemble P(Ω) de toutes les parties de Ω. Les dés étant équilibrés, on
choisira pour probabilité P sur (Ω, P(Ω)) l’équiprobabilité sur Ω i.e. pour tout (i, j) ∈ Ω,
1 1 X
P({(i, j)}) = ou encore P = δ(i,j) .
36 36 1≤i,j≤6
Le triplet (Ω, P(Ω), P) représente le modèle mathématique permettant de traiter la situation.

Cependant comme on s’intéresse plutôt à la somme des valeurs obtenues, l’événement "La
somme des valeurs obtenues appartient à A", où A est un borélien de R, se modélise par la
partie eA de Ω formée des couples (i, j) tels que i + j ∈ A. On peut aussi écrire l’événement eA
grâce au langage des applications en notant X l’application de Ω dans R qui, à tout ω = (i, j),
associe X (ω) = i + j et en remarquant que eA = {ω ∈ Ω/X (ω) ∈ A} = {X ∈ A} c-à-d que
eA est l’image-réciproque de A par l’application X . On remarque enfin que ce qui est important
pour notre étude du phénomène c’est de connaître la valeur de P(eA ) = P(X ∈ A) pour tout
borélien A de R.
Besançon
2.1.2 Cas continu

Envisageons maintenant le cas d’un ingénieur hydraulicien qui s’intéresse aux risques d’inondation
par un fleuve dans l’intention de construire une digue protectrice. Pour cela il va considérer
l’évolution de la hauteur du niveau de l’eau sur l’année. Cela revient à considérer la hauteur sur
une année comme une application continue de [0, 1] dans R+ . L’ensemble des issues possibles
de ce phénomène aléatoire peut être modélisé par Ω := C([0, 1], R+ ) ensemble des applications
continues de [0, 1] dans R+ . Comme pour R, et contrairement à ce qu’on a fait pour le cas
précédent, il n’est pas possible de prendre P(Ω) comme tribu sur Ω. On considérera une tribu
F plus petite qu’on ne précise pas pour l’instant. De même on ne précisera pas la probabilité P
définie sur F. On verra plus loin qu’au fond ce n’est pas nécessaire, seule l’existence du triplet
(Ω, F, P) devant être assurée.
En fait l’ingénieur s’intéressera surtout aux événements de la forme "La hauteur maximale
du niveau du fleuve sur une année appartient à A" où A est un intervalle de R. Cet événe-
ment se modélise par la partie eA de Ω formée des fonctions ω ∈ C([0, 1], R+ ) telles que
sup0≤t≤1 ω(t) ∈ A. On peut aussi écrire l’événement eA grâce au langage des applications en
notant X l’application de Ω dans R qui à tout ω associe X (ω) = sup0≤t≤1 ω(t) et en remar-
quant que eA = {ω ∈ Ω/X (ω) ∈ A} = {X ∈ A} c-à-d que eA est l’image-réciproque de A par
l’application X .
Pour que l’expression P(X ∈ A) ait un sens, il faudra s’assurer (ou imposer) plus généralement
que, pour tout borélien A de R, l’image-réciproque de A par l’application X soit un élément
de F. Car, comme dans la situation précédente, c’est la valeur de P(X ∈ A) qui intéressera
l’ingénieur, c-à-d l’application PX : A ∈ F 7→ P(X ∈ A). PX est une probabilité sur R donc
un objet mathématique beaucoup plus facile à manipuler qu’une probabilité sur une tribu de
C([0, 1], R+ ).
2.1.3 Principe de modélisation

En conclusion de ces deux exemples on notera que, en pratique, modéliser mathématiquement
un phénomène aléatoire revient à introduire :
1. un triplet (Ω, F, P), sans en préciser davantage les termes, comme un espace de
probabilité abstrait,
2. une application X : Ω 7→ Rd telle que, pour tout borélien A de Rd , l’image-réciproque
de A par l’application X soit un élément de F.
C’est alors l’application PX : A ∈ F 7→ P(X ∈ A) qui sera l’objet important du modèle, celui
qui traduira mathématiquement le problème particulier qui intéresse l’ingénieur au sein de la
situation aléatoire globale.
Dans la suite de l’ouvrage le triplet (Ω, F, P) désignera un espace de probabilité pris comme
référence et quelquefois appelé espace de base . Les ensembles mesurables relativement à F
seront appelés événements de Ω.
Besançon
2.2 Applications mesurables

Définition 2.1.
Soient (E , A) et (F , B) deux espaces mesurables, une application f de E dans F est dite
( A, B)-mesurable si, pour tout B ∈ B, {f ∈ B} ∈ A.
Dans les cas où (E , A) est quelconque et (F , B) := (Rk , B(Rk )), on dit simplement
A-mesurable au lieu de ( A, B(Rk ))-mesurable.
Une application A-mesurable à valeurs dans R est une application ( A, B(R))-mesurable.
La proposition suivante donne un premier exemple d’applications mesurables :
Proposition 2.1.
Soit A une partie de E . Alors 1lA est A-mesurable si, et seulement si, A ∈ A.
Démonstration : On remarque que si B est un borélien de R, l’image réciproque de B par 1lA
est l’un des ensembles Ø, A, Ac , ou E . Ce qui prouve par définition de la mesurabilité que 1lA
est A-mesurable si, et seulement si, A est A-mesurable. 2
Définition 2.2.
Dans les cas où (E , A) := (Rn , B(Rn )) et (F , B) := (Rk , B(Rk )) on dit que f est borélienne
pour exprimer qu’elle est ( B(Rn ), B(Rk ))-mesurable.
La proposition suivante donne des classes importantes de fonctions boréliennes qui correspon-
dent à la plupart des cas qu’on considérera par la suite. Pour une démonstration d’une partie
de la proposition on pourra consulter [2] exercice I-10.
Proposition 2.2.
(admis)
Toute application continue de Rn dans Rk est borélienne. Toute application monotone de R
dans R est borélienne. Toute dérivée d’une application dérivable de R dans R est borélienne.

Soit f une application borélienne de Rk dans Rd et ϕ une application A-mesurable de E
dans Rk . Montrer que l’application f ◦ ϕ est une application A-mesurable de E dans Rd .
Comme pour la notion d’ensemble mesurable, les applications mesurables correspondent aux
applications sur lesquelles la théorie de la mesure permet de dire quelque chose d’intéressant.
On doit s’attendre à ce que toutes les applications qu’on est amené à manipuler dans la pratique
soient mesurables.
Introduisons la notation suivante qui est utile pour étendre une propriété, vraie pour la classe
des fonctions positives, à la classe des fonctions de signe quelconque :
Définition 2.3.
Si f est une application d’un ensemble E dans R notons f + := sup(f , 0) et f − := sup(−f , 0).
Les applications f + et f − sont appelées respectivement la partie positive et la partie
négative de f .

Besançon
On vérifie aisément que ce sont des applications à valeurs dans [0, +∞] telles que |f | = f + +f −
et f = f + − f − .
Exemples 2.1.
Supposons E := R, si f (x) = x, f + (x) = x1l[0,+∞[ (x) et f − (x) = −x1l]−∞,0] (x).
Grosso modo les opérations classiques sur les applications mesurables conservent la mesurabilité.
Plus précisément, on admettra :
Proposition 2.3.
1. Si f et g sont des applications A-mesurables d’un ensemble E dans Rd et α un réel,
alors αf , hf , g i, f + g , |f | sont des applications A-mesurables, où h·, ·i et | · | désignent
respectivement les produit scalaire et norme usuels de Rd .
2. Si f et g sont des applications A-mesurables d’un ensemble E dans R, alors f + , f − sont
des applications A-mesurables.
3. Si (fn )N est une suite d’applications A-mesurables d’un ensemble E dans R, Alors
supn∈N (fn ), inf n∈N (fn ) sont des applications A-mesurables.
4. Si (fn )N est une suite d’applications A-mesurables d’un ensemble E dans Rd convergeant
simplement vers une application f , alors sa limite f est A-mesurable.
Définition 2.4.
Une application A-mesurable f est dite étagée sur E si elle est à valeurs dans R et si elle
ne prend qu’un nombre fini de valeurs distinctes.
Si on note α1 , α2 , · · · , αn les valeurs deux à deux distinctes d’une application étagée f et si on

pose, pour tout entier k vérifiant 1 ≤ k ≤ n, Ak := {x ∈ E / f (x) = αk }, alors f s’écrit sous
la forme n
X
f = αk 1lAk .
k=1
Cette écriture s’appelle la décomposition canonique de f . On vérifie aisément que la dé-

composition canonique d’une application étagée est unique.
L’intérêt de cette définition réside dans la proposition suivante. Pour la démonstration on pourra
consulter [2] exercice I-13.
Proposition 2.4.
Lemme fondamental (admis)
Toute application A-mesurable de E dans [0, +∞] est la limite d’une suite croissante
d’applications A-mesurables étagées et positives.
Ce lemme est à la base d’une technique de démonstration utilisée en probabilités lorsqu’on veut
montrer que les applications A-mesurables possèdent une certaine propriété P. Pour cela, on
montre que les indicatrices 1lA , où A ∈ A, vérifient P, puis on montre qu’il en est de même
X n
pour les applications A-mesurables de la forme αi 1lAi où αi ∈ R+ et Ai ∈ A, 1 ≤ i ≤ n.
i=1

Besançon
On montre ensuite, en utilisant le lemme fondamental, que la propriété P est encore vérifiée par
les applications A-mesurables positives, puis par les applications A-mesurables quelconques f
en remarquant que f = f + − f − où f + := sup(f , 0) et f − := sup(−f , 0) sont des applications
A-mesurables positives. Cette technique de démonstration est souvent appelée "technique
des fonctions étagées" .
2.3 Loi d’une variable aléatoire

2.3.1 Variables aléatoires
Parallèlement aux définitions introduites ci-dessus, une terminologie différente est utilisée en
probabilité pour les applications mesurables dans le cas où (E , A) est l’espace mesurable de
base (Ω, F).
Définition 2.5.
Si (E , A) := (Ω, F) et (F , B) = (Rd , B(Rd )), une application ( F, B(Rd ))-mesurable
s’appelle un vecteur aléatoire , ou variable aléatoire vectorielle, de dimension d.
Un vecteur aléatoire de dimension d = 1 s’appelle aussi une variable aléatoire réelle en
abrégé v.a.r. .
On peut être quelquefois amené à considérer des variables aléatoires à valeurs dans R, ce sont
les applications ( F, B(R))-mesurables de Ω dans R.
Les variables aléatoires sont traditionnellement notées par des lettres majuscules X , Y , . . .
La proposition suivante est l’énoncé avec un vocabulaire différent du résultat de l’exercice 2.1
de la page 21 sur la composition des applications mesurables.
Proposition 2.5.
Si f est une application borélienne de Rk dans Rd et X un vecteur aléatoire de dimension k,
alors l’application f ◦ X est un vecteur aléatoire de dimension d.
Démonstration : Il suffit pour cela de remarquer que si B est un borélien de Rd , alors l’image-
réciproque de B par f ◦ X est (f ◦ X )−1 (B) = X −1 [(f −1 (B)] et d’appliquer ensuite la définition
de la mesurabilité de f et X . 2
On notera dans la suite par abus f (X ) au lieu de f ◦X . Par exemple, on écrira e X pour exprimer
l’application composée de l’application exponentielle et de la variable aléatoire réelle X .
Proposition 2.6.
X = (X1 , X2 , · · · , Xd ) un vecteur aléatoire de dimension k si, et seulement si, pour tout
i = 1, 2, · · · , d, Xi est une variable aléatoire réelle.
Démonstration : La démonstration est une conséquence directe de la proposition 2.5 où on

prend pour f les projections de Rd sur R. 2

Besançon
Deux vecteurs aléatoires X et Y de dimension d sont égaux presque-sûrement si, et seulement

si, P(X 6= Y ) = 0. L’égalité presque-sûre est une relation d’équivalence sur l’ensemble des
vecteurs aléatoires de dimension d.
2.3.2 Loi d’une variable aléatoire

Proposition 2.7.
Soit X un vecteur aléatoire de dimension d. L’application
PX : B ∈ B(Rd ) 7→ PX (B) := P ({X ∈ B}) ∈ [0, 1]
est une probabilité sur Rd .
Démonstration : On rappelle la notation {X ∈ B} := {ω ∈ Ω / X (ω) ∈ B} et on notera que

{X ∈ B} ∈ F, ce qui donne bien un sens à P({X ∈ B}).
Soit B ∈ B(Rd ), PX (B) = P({X ∈ B}) ∈ [0, 1]. De plus, comme {X ∈ Rd } = Ω,
PX (Rd ) = P({X ∈ Rd }) = P(Ω) = 1. Soit (An )N une suite deux à deux disjointe de boréliens
de Rd , alors ( )
[ [
X ∈ Ak = {X ∈ Ak }
k∈N k∈N
l’union du second membre étant deux à deux disjointe. Par suite

! ! !
[ [ [
PX Ak = P X ∈ Ak = P {X ∈ Ak }
k∈N k∈N k∈N
X X
= P(X ∈ Ak ) = PX (Ak )
k∈N k∈N
d’où la σ-additivité de PX . 2
Définition 2.6.
La probabilité PX est appelée la loi de probabilité relativement à P du vecteur aléatoire
X ou plus simplement la loi de X .
On notera que cette loi dépend de X mais aussi de la probabilité P de l’espace de probabilité
de base.
On admettra le résultat théorique suivant démontré dans [3] exercice I-16 :

Proposition 2.8.
Si µ est une probabilité sur R, alors il existe un espace de probabilité de base (Ω, F, P) et une
variable aléatoire réelle X sur cet espace telle que PX = µ.
Exemples 2.2.
Soit X une variable aléatoire réelle de loi N 1 (0, 1) (on notera qu’une telle affirmation a un
sens d’après la proposition précédente). Déterminons la loi de la variable aléatoire réelle
Y := X 2 .
Besançon
Pour cela il suffit d’identifier la fonction de répartition FY de la variable aléatoire réelle Y

i.e. la f.r. de la probabilité PY . Soit y ∈ R,
FY (y ) = PY (] − ∞, y ]) = P(Y ∈] − ∞, y ]) = P(Y ≤ y ).
Remarquons que, si y < 0, {Y ≤ y } = {X 2 ≤ y } = Ø et, si y ≥ 0,

√ √
{Y ≤ y } = {X 2 ≤ y } = {− y ≤ X ≤ y }.
Par suite si y < 0, FY (y ) = 0, et si y ≥ 0,

√ √ √ √ √ √
FY (y ) = P(− y ≤ X ≤ y ) = PX ([− y , y ]) = FX ( y ) − FX (− y )
Z √y Z y
1 − 1 t2 1 − x2
= √ e 2 dt = √ e dx.
√ 2π 2πx
− y 0
On notera qu’on a utilisé dans la troisième égalité la continuité (à gauche) de FX . Le

résultat précédent montre que la f.r. de PY peut s’écrire
Z y
1 x
FY (y ) = PY (] − ∞, y ]) = ρ(x)dx avec ρ(x) := √ e − 2 1l]0,+∞[ (x).
−∞ 2πx
La loi de Y , PY , est la probabilité sur R admettant ρ pour densité. Elle appartient à la
famille des lois gamma , voir la définition dans le formulaire de l’annexe A, page 205. On
la note γ( 21 , 12 ). 2

Soit X une variable aléatoire réelle de loi N 1 (0, 1). En utilisant une démarche analogue
à celle adoptée dans l’exemple précédent, montrer que la loi de la variable aléatoire réelle
Y := e X admet pour densité la fonction ρ définie sur R par

1 1 2
ρ(x) := √ exp − (ln x) 1l]0,+∞[ (x).
x 2π 2
On dit que Y suit la loi Log-normale standard .

On considère une variable aléatoire réelle X dont la fonction de répartition est donnée par
1 t
e 1l]−∞,0] (t) + (2 − e −t )1l]0,+∞[ (t) .

FX (t) :=
2
Déterminer la loi de la variable aléatoire réelle Y = |X |.
Définition 2.7.
Soient m ∈ R et σ > 0. Nous appellerons loi de Gauss-Laplace de paramètres m et σ 2 ,
et noterons N 1 (m, σ 2 ), la probabilité sur R admettant pour densité la fonction ρ définie sur
R, pour tout réel x, par
(x − m)2

1
ρ(x) := √ exp − .
σ 2π 2σ 2

Besançon
Le résultat suivant est souvent utile dans les calculs pratiques en permettant de se ramener à
des variables de loi de Gauss-Laplace standard :
Proposition 2.9.
Procédé de standardisation
Avec les notations précédentes, une variable aléatoire réelle X suit la loi N 1 (m, σ 2 ) si, et
X −m
seulement si, la variable aléatoire réelle Z := suit la loi N 1 (0, 1).
σ

Démontrer le résultat précédent.
Définition 2.8.
Une v.a. X à valeurs dans Rd est dite discrète si sa loi est discrète.
Les variables aléatoires réelles discrètes constituent une famille de v.a.r importante dans les
applications des probabilités, une autre classe de v.a.r. très importante aussi est celle des v.a.r.
à densité.
Définition 2.9.
Une variable aléatoire réelle est dite à densité (ou absolument continue) sur R si sa loi est
à densité sur R.
Exemples 2.3.
1) Les variables aléatoires réelles de Poisson, de Bernoulli, binomiale, hypergéométrique,
géométrique, uniforme-discrète sont des exemples de v.a.r. discrètes.
2) Les v.a.r. de Gauss-Laplace, exponentielle, uniforme sur un intervalle de R sont des
exemples de v.a.r. à densité sur R.
Pour les définitions des lois usuelles (discrètes ou à densité), on pourra se reporter au formulaire
de l’annexe A, page 205, de ce cours.

Montrer que si X est une variable aléatoire réelle de loi
X
PX := pn δn
n∈N
où (pn )N est une suite de réels positifs ou nuls, alors pn = P(X = n) pour tout n ∈ N.
On notera qu’on peut avoir affaire à des probabilités qui ne sont ni discrètes ni à densité. Par
exemple, on peut avoir des probabilités µ définies sur R, telles µ = µ1 +µ2 où µ1 est une mesure
à densité (mais pas une probabilité) et µ2 une mesure discrète (mais pas une probabilité), c’est-
à-dire qu’il existe une application f (par exemple positive et continue sur R), et une suite de
Z +∞ +∞
X
réels positifs (αn )N , avec f (t) dt + αn = 1, telle que, pour tout intervalle ]a, b[ de R,
−∞ n=0
Z b +∞
X
µ(]a, b[) = f (t) dt + αn δn (]a, b[).
a n=0

Besançon
Z b +∞
X
Dans ce cas µ1 (]a, b[) = f (t) dt et µ2 (]a, b[) = αn δn (]a, b[). Comme on n’a pas néces-
a n=0
Z +∞ +∞
X
sairement f (t) dt = 1 et αn = 1, les mesures µ1 et µ2 ne sont pas des probabilités.
−∞ n=0
Les variables aléatoires réelles discrètes sont les variables aléatoires réelles à valeurs presque-
sûrement dans un ensemble dénombrable. De façon précise :
Proposition 2.10.
Un vecteur aléatoire X de dimension d est discret si, et seulement si, il existe une partie
D := {ek , k ∈ K ⊆ N} de Rd telle que P(X ∈ D) = 1. Dans ce cas la loi du vecteur aléatoire
X s’écrit X
PX = P (X = ek ) δek .
k∈K
Démonstration : Soit X une v.a. telle qu’il existe une partie dénombrable D de Rd avec
X ∈ D := {ek , k ∈ K ⊆ N} presque-sûrement i.e. P(X ∈ D) = 1.
Soit A un borélien de Rd , on a PX (A) = PX (A ∩ D) = P(X ∈ A ∩ D). Comme
[
{X ∈ A ∩ D} = {X = x}
x∈A∩D
et que l’union est mutuellement disjointe, on peut écrire

X X X X
PX (A) = P(X = x) = P(X = x)1lA (x) = P(X = x)δx (A) = P (X = ek ) δek (A).
x∈A∩D x∈D x∈D k∈K
X
La v.a. X est donc discrète et sa loi est PX = P (X = ek ) δek .
Xk∈K
Réciproquement soit X une v.a. de loi µ = pn δen où (pn )K est une suite (finie ou infinie) de
n∈K
réels strictement positifs avec K ⊆ N, et (en )K une suite (finie ou infinie) d’éléments de Rd .
Prenant D := {en /n ∈ K }, on a P(X ∈ D) = 1 et, pour tout n ∈ K , P(X = en ) = pn . 2
On dit aussi dans ce cas que la loi de X est portée par D, ou encore que X a ses valeurs
presque-sûrement dans D, pour exprimer P(X ∈ D) = 1. On notera que D est une partie
dénombrable (finie ou infinie) de Rd .
Ce résultat ramène alors la détermination de la loi d’une variable aléatoire réelle discrète au
calcul des coefficients P(X = ak ) qui interviennent dans son écriture. Il explique aussi le choix
de certains auteurs de manuels scolaires de définir la loi d’une variable aléatoire réelle à valeurs
dans N comme étant l’application n ∈ N 7→ P(X = n). En fait cette définition n’est pas judi-
cieuse car elle ne se généralise pas au cas des variable aléatoire réelle à densité. En effet, pour
une variable aléatoire réelle à densité, pour tout réel x, P(X = x) = PX ({x}) = 0 d’après ce qui
a été vu au premier chapitre. Par suite l’application x ∈ R 7→ P(X = x) est l’application-nulle
pour toute variable aléatoire réelle X admettant un densité, ce qui ne présente plus d’intérêt.
La proposition précédente sera notamment appliquée dans le cas où les variable aléatoire réelle
sont entières i.e. prennent leurs valeurs dans N ou Z.
Besançon
Proposition 2.11.
Toute variable aléatoire réelle X à valeurs dans N, resp. Z, est discrète. Sa loi s’écrit alors
X X
PX = P(X = k)δk , resp. PX = P(X = k)δk .
k∈N k∈Z
Démonstration : Prendre D = N (resp. D = Z).2

Soit X une variable aléatoire dont la fonction de répartition F est définie pour tout nombre
1
réel x, par F (x) = 0 si x < 1 et, si x ≥ 1, par F (x) = 1 − où n est l’unique entier
n(n + 1)
strictement positif (dépendant de x) tel que n ≤ x < n + 1.
1. Donner une représentation graphique de la fonction F et expliquer brièvement
pourquoi c’est bien une fonction de répartition.
2. Calculer, pour tout entier naturel n, P(X = n).
3. Calculer l’espérance de la variable aléatoire X .
4. Que peut-on dire de la variance de la variable aléatoire X ?
Travail conseillé : Étudier dans [11], pages 147 à 171, l’interprétation probabiliste à l’aide de
tirages dans une urne, des variable aléatoire réelle de lois de Bernoulli, binomiale, géométrique,
de Pascal, binomiale-négative, hypergéométrique.

Besançon
Chapitre 3. Moments d’un vecteur aléatoire 29
Chapitre 3
Moments d’un vecteur

aléatoire
3.1 Rappels sur l’intégration des applications mesurables

(E , A, µ) désigne un espace mesuré quelconque.
3.1.1 Intégration des fonctions positives

Notons M+ (E , A) l’ensemble des applications A-mesurables (positives) d’un ensemble E dans
[0, +∞].
La première proposition de ce chapitre est fondamentale pour la suite. Elle affirme l’existence
et l’unicité d’un opérateur d’intégration, qu’on notera Eµ , défini sur M+ (E , A).
Cet opérateur est construit d’après le procédé suivant :

Dans un premier temps, on définit cet opérateur sur l’ensemble E + des applications A-
mesurables étagées et positives de E dans R+ . Pour cela, si ϕ ∈ E + on considère sa
Xn
décomposition canonique ϕ = αk 1lAk où α1 ≥ 0, α2 ≥ 0, · · · , αn ≥ 0 sont les valeurs deux
k=1
à deux distinctes de ϕ et, pour tout entier k vérifiant 1 ≤ k ≤ n, Ak := {x ∈ E / f (x) = αk }.
Remarquons que Ak ∈ A. On pose alors, avec la convention 0×(+∞) := 0,
n
X
Eµ (ϕ) := αk µ(Ak ).
k=1
On remarquera que, par sa définition, Eµ (ϕ) est un nombre positif éventuellement infini
(par exemple si un des µ(Ak ) est infini avec αk > 0) c-à-d Eµ (ϕ) ∈ [0, +∞]. Dans un
deuxième temps, on prolonge cet opérateur aux applications de M+ (E , A) en posant, pour
tout f ∈ M+ (E , A),
Eµ (f ) := sup Eµ (ϕ) / ϕ ∈ E + et ϕ ≤ f .

Pour une démonstration détaillée, on se reportera à [8], pages 79 à 85. On remarquera encore
que, par sa définition, Eµ (f ) est un nombre positif éventuellement infini c-à-d Eµ (f ) ∈ [0, +∞].

Besançon
Exemples 3.1.
Considérons E = R et A = B(R) et µ la mesure de Lebesgue sur R i.e. µ = λ. Soit
Xn
ϕ= αk 1l]ak−1 ,ak ] où a0 < a1 < a2 < · · · < an est un suite strictement croissante de n + 1
k=1
réels, les réels α1 , α2 , · · · , αn n’étant pas nécessairement deux à deux distincts. On dit que
ϕ est une fonction en escalier sur R. Alors
n
X n
X
Eλ (ϕ) := αk λ (]ak−1 , ak ]) = αk (ak − ak−1 ).
k=1 k=1
Dans ce cas, Eλ (ϕ) représente la mesure de l’aire située sous la courbe représentative de
ϕ. 2
On notera qu’une fonction en escalier est borélienne et étagée sur R mais que, par exemple,
1lQ est borélienne et étagée sur R sans être en escalier.
La proposition suivante caractérise l’opérateur Eµ par trois propriétés fondamentales (pour la

démonstration voir [8], page 84).
Proposition 3.1.
Théorème fondamental de l’intégration par rapport à une mesure (admis)
1. Si µ est une mesure sur (E , A), il existe une application notée Eµ , et une seule, de
M+ (E , A) dans [0, +∞] possédant les trois propriétés suivantes :
(a) Pour tout A ∈ A, Eµ (1lA ) = µ(A).
(b) Pour tous f et g appartenant à M+ (E , A) et tout réel α ≥ 0.
Eµ (f + g ) = Eµ (f ) + Eµ (g ) et Eµ (αf ) = αEµ (f ),
avec la convention 0×(+∞) := 0.

(c) Propriété de convergence monotone de Beppo-Lévi
Pour toute suite croissante (fn )N d’éléments de M+ (E , A),

lim Eµ (fn ) = Eµ lim fn .
n→+∞ n→+∞
2. Soient f et g deux éléments de M+ (E , A). Si f ≤ g , alors Eµ (f ) ≤ Eµ (g ).
On notera bien qu’on peut avoir Eµ (f ) = +∞ et qu’on ne parle dans cette proposition que
d’applications mesurables et positives. Celles de signe quelconque seront considérées plus loin.
On trouve, suivant les ouvrages ou les usages, différentes notations pour Eµ (f ) :

Z Z Z
Eµ (f ) = f dµ = f (x)dµ(x) = f (x)µ(dx).
E E E
Eµ s’appelle l’opérateur d’intégration sur E suivant µ. Eµ (f ) s’appelle l’intégrale de f

sur E suivant µ.

Besançon
La proposition précédente est un théorème d’existence et d’unicité mais ne permet pas

d’expliciter directement le nombre Eµ (f ) si ce n’est dans des cas simples. Par exemple :
Exemples 3.2.
n
X
1) Si f est l’application f = ai 1lAi , où (A1 , A2 , · · · , An ) est une famille finie d’éléments
i=1
de A et (a1 , a2 , · · · , an ) une famille de réels positifs, alors
n
X
Eµ (f ) = ai µ(Ai ).
i=1
f dµ = 34 π + 7. 2
R
2) Si µ := δ0 + δ5 + λ et f := π1l[0, 1 ] + 1l[6,10] + 31l{5} , alors R
3

Vérifier les affirmations de l’exemple précédent.
Les propositions admises suivantes donnent quelques "règles d’intégration" suivant la mesure
considérée. Ces règles seront suffisantes pour la suite et seront constamment utilisées. Elles
diffèrent bien sûr en fonction des mesures utilisées. Commençons par le cas de la mesure de
Lebesgue sur R. Le cas de la mesure de Lebesgue sur Rd avec d ≥ 2 sera traité au chapitre
suivant.
Proposition 3.2.
Cas de la mesure de Lebesgue sur R pour les fonctions positives (admis)
On suppose E := R, A := B(R), µ := λ où λ désigne la mesure de Lebesgue sur R.
Si f est une application borélienne de R dans [0, +∞] intégrable au sens de Riemann sur
tout intervalle fermé borné de R, alors son intégrale sur R suivant λ est égale à son intégrale
généralisée au sens de Riemann c-à-d
Z Z +∞
Eµ (f ) = f (t) dλ(t) = f (t)dt.
R −∞
Exemples 3.3.
Z Z +∞ Z
−x −x
e 1l[0,+∞[ (x)dλ(x) = e dx = 1 et x 2 1l[0,+∞[ (x)dλ(x) = +∞.
R 0 R
Proposition 3.3.
Cas de la mesure de Dirac sur Rd (admis)
On suppose E := Rd , A := B(Rd ), µ := δa où a ∈ Rd .
Si f est une application borélienne de Rd dans [0, +∞], alors
Z
Eµ (f ) = f (t) dµ(t) = f (a).
Rd
La proposition qui suit généralise la précédente :

Besançon
Proposition 3.4.
Cas des mesures discrètes sur Rd (admis)
+∞
X
d d
On suppose E := R , A := B(R ), µ := αi δai où (ak )N est une suite de vecteurs de Rd
i=0
et (αk )N une suite de réels positifs ou nuls.
Si f est une application borélienne de Rd dans [0, +∞], alors
Z +∞
X
Eµ (f ) = f (t) dµ(t) = αi f (ai ).
Rd i=0
Exemples 3.4.
+∞
X αk
Soient µ = P(α) := e −α δk la probabilité de Poisson sur R où α > 0.
k=0
k!
i) Si f est une application borélienne de R dans [0, +∞], alors
+∞
X αk
Eµ (f ) = e −α f (k)
k=0
k!
ii)
+∞
αk
Z X
x(x − 1)1l[1,+∞[ (x)dµ(x) = e −α k(k − 1) = α2 .
R k=2
k!
Exemples 3.5.
Soit (un )N une suite de réels positifs ou nuls.
+∞
X +∞
X
Considérons l’application f := uk 1l{k} et la mesure µ := δi . On vérifie aisément que
k=0 i=0
+∞
X
Eµ (f ) = uk .2
k=0
Ce dernier exemple montre que la théorie des séries à termes réels positifs peut être consid-
érée comme une théorie de l’intégration suivant la mesure sur R dite de dénombrement
+∞
X
µ := δi . La théorie de l’intégration permet ainsi d’unifier dans un même formalisme l’étude
i=0
des probabilités discrètes, qui font intervenir des séries dans les calculs, et celle des probabilités
à densité où pratiquement interviennent des intégrales de Riemann classiques.
La proposition suivante ramène le calcul d’intégrales suivant les mesures à densité au calcul
d’une intégrale de Lebesgue sur R qu’on effectue alors par application de la proposition 3.2.
Besançon
Proposition 3.5.
Cas des mesures à densité sur R (admis)
On suppose E := R, A := B(R), µ une mesure admettant une densité ρ sur R.
Si f est une application borélienne de R dans [0, +∞], alors,
Z Z
Eµ (f ) = f (t) dµ(t) = f (t)ρ(t) dλ(t) = Eλ (f ρ).
R R
Exemples 3.6. Z Z
1 1 2
Soit µ := N 1 (0, 1), 2
x dµ(x) = x 2 √ e − 2 x dλ(x). On est ramené au calcul d’une
R R 2π
intégrale suivant la mesure de Lebesgue. D’où
Z Z +∞
2 1 − 21 x 2 1 1 2
x √ e dλ(x) = x 2 √ e − 2 x dx = 1,
R 2π −∞ 2π
Z
c-à-d x 2 dµ(x) = 1. 2
R

1. Soient µ et ν deux mesures sur (E , A). A l’aide du théorème fondamental de
l’intégration montrer que, pour tout f ∈ M+ (E , A), Eµ+ν (f ) = Eµ (f ) + Eν (f ).
−αx
2. Soient α > 0, µ la mesure Z sur R de densité ρ définie par ρ(x) := αe 1l[0,1] (x) et
ν := e −α δ1 . Montrer que e αx d(µ + ν)(x) = α + 1.
R
3. Soient α > 0, µ la mesure sur R de densité ρ définie par ρ(x) := e −αx 1l[−1,1] (x) et
+∞ k Z Z
X α αx
ν := δk . Calculer e d(µ + ν)(x) et 1lR d(µ + ν).
k=0
k! R R
La mesure µ + ν est-elle une probabilité ?
3.1.2 Intégration des fonctions numériques

Soit f une application A-mesurable de E dans [−∞, +∞]. Les applications f + := sup(f , 0)
et f − := sup(−f , 0) sont des applications A-mesurables de E dans [0, +∞]. D’après ce qui
précède les quantités Eµ (f + ) et Eµ (f − ) sont des éléments de [0, +∞] éventuellement infinies.
La différence Eµ (f + ) − Eµ (f − ) aura un sens si Eµ (f + ) et Eµ (f − ) sont toutes les deux finies.
On pourra alors poser Eµ (f ) := Eµ (f + ) − Eµ (f − ), d’où les définitions :
Définition 3.1.
Une application f de E dans [−∞, +∞] est dite intégrable sur E suivant µ ou plus
simplement µ-intégrable si elle est A-mesurable et si les quantités Eµ (f + ) et Eµ (f − ) sont
toutes les deux finies. Dans ce cas on appelle intégrale de f sur E suivant µ le réel
Eµ (f ) := Eµ (f + ) − Eµ (f − ).

Besançon
On remarquera que Eµ (f ) ∈ R.
On utilise aussi les mêmes notations que celles déjà vues dans le cas des fonctions positives
pour Eµ (f ).
Proposition 3.6.
Soit f une application A-mesurable de E dans [−∞, +∞]. Alors f est intégrable si, et seulement
si, Eµ (|f |) est fini.
Démonstration : |f | = f + + f − est une application A-mesurable positive et, d’après l’item

1 de la proposition 3.1, Eµ (|f |) = Eµ (f + ) + Eµ (f − ). Par suite, f est intégrable si, et seule-
ment si, Eµ (f + ) et Eµ (f − ) sont toutes les deux finies c-à-d si, et seulement si, Eµ (|f |) =
Eµ (f + ) + Eµ (f − ) est fini.2
Exemples 3.7. Z
1) Soit µ := N 1 (0, 1), xdµ(x) = 0.
R
En effet, f + (x) = x1l[0,+∞[ (x) et f − (x) = −x1l]−∞,0] (x). On vérifie les deux suites d’égalités
Z Z Z +∞
1 1 2
+
f (x)dµ(x) = x1l[0,+∞[ (x)dµ(x) = √ te − 2 t dt < +∞
R R 2π 0
Z Z Z 0
− 1 1 2
et f (x)dµ(x) = −x1l]−∞,0] (x)dµ(x) = √ −te − 2 t dt
R R 2π −∞
Z +∞
1 1 2
= √ te − 2 t dt < +∞,
2π 0
en vertu de la convergence de la Zdernière intégrale

Z (généraliséeZau sens de Riemann).
D’après la définition de l’intégrale xdµ(x) := f + (x)dµ(x) − f − (x)dµ(x) = 0.
R R R
2) Soit µ := δa où a ∈ R. Les applications boréliennes de R dans [−∞, +∞] intégrables

suivant δa sont celles qui prennent une valeur finie au point a.
En effet, f est δa -intégrable si, et seulement si, Eδa (|f |) = |f (a)| < +∞ c-à-d si, et seulement
si, f (a) ∈ R. 2

+∞
X
Soit µ := αi δai où, pour tout i ∈ N, ai ∈ Rd et (αk )N est une suite de réels positifs.
i=0
Montrer que les applications boréliennes f de Rd dans [−∞, +∞] intégrables suivant µ
+∞
X
sont celles pour lesquelles la série numérique αi f (ai ) est absolument convergente.
i=0
Les règles d’intégration des fonctions de signe quelconque intégrables sont les mêmes que
celles pour les fonctions positives vues dans le cas des mesures discrètes ou à densité. On
peut démontrer cela en écrivant les fonctions comme différence de leur partie positive et de
leur partie négative. Par contre dans le cas de la mesure de Lebesgue sur R la proposition 3.2
devient fausse pour les fonctions qui ne sont pas de signe constant. Dans ce cas on utilise si
possible la proposition suivante :
Besançon
Proposition 3.7.
Cas de la mesure de Lebesgue sur R pour les fonctions réelles (admis)
On suppose E := R, A := B(R), µ := λ où λ désigne la mesure de Lebesgue sur R.
1. Si f est une application borélienne de R dans R nulle en dehors d’un intervalle fermé
borné [a, b] et intégrable au sens de Riemann sur [a, b], alors son intégrale sur R suivant
λ est égale à son intégrale au sens de Riemann sur [a, b], c-à-d
Z Z b
Eµ (f ) = f (t) dλ(t) = f (t)dt.
R a
2. Si f est une application borélienne de R Zdans R intégrable au sens de Riemann sur tout
+∞
intervalle fermé borné de R et telle que |f (t)|dt < +∞, alors son intégrale sur R
−∞
suivant λ est égale à son intégrale généralisée au sens de Riemann c-à-d
Z Z +∞
Eµ (f ) = f (t) dλ(t) = f (t)dt.
R −∞
Le théorème précédent s’applique en particulier lorsque f est continue ou monotone sur un

nombre fini d’intervalles de R et nulle en dehors de la réunion de ces intervalles.
Nous sommes en mesure maintenant d’étendre la définition des probabilités à densité, consid-
érées jusqu’à présent uniquement sur R, au cas des probabilités sur les espaces Rd avec d ≥ 1.
Cette définition sera en particulier utile dans les chapitres IV et V.
Définition 3.2.
On appelle densité de probabilité sur Rd toute application borélienne positive ρ de Rd dans
[0, +∞] vérifiant Z
ρdλ(d) = 1.
Rd
La proposition suivante (admise) montre que la règle d’intégration suivant une mesure de prob-
abilité à densité est tout à fait analogue à celle déjà vue pour les fonctions positives.
Proposition 3.8.
Soit ρ une densité de probabilité sur Rd .
1. L’application Z
d
ν : A ∈ B(R ) 7→ ν(A) := 1lA ρdλ(d) ∈ [0, 1]
Rd
est une probabilité sur Rd .

On dit que ν admet ρ pour densité sur Rd et on note ν = ρ · λ(d) .
2. Si f est une application de Rd dans R borélienne positive, resp. intégrable suivant ν,
alors l’application f ρ est borélienne positive, resp. intégrable suivant λ(d) , et
Z Z
Eν (f ) = f (t) dν(t) = f (t)ρ(t)dλ(d) (t).
Rd Rd

Besançon

Démontrer la première partie de la proposition précédente.
On remarquera que les définitions 1.15, page 10, de densité et de probabilité à densité introduites
au chapitre I sont bien des cas particuliers de la définition donnée ci-dessus.
3.1.3 Intégration des fonctions vectorielles

Soit f une application A-mesurable de E dans Rd . Dans la base canonique de Rd , f admet les
composantes f1 , f2 , · · · , fd , où, pour tout entier k ≤ d, fk est une application A-mesurable de
E dans R. On écrira f := (f1 , f2 , · · · , fd ).
Définition 3.3.
On dit que f est intégrable sur E suivant µ si toutes les applications-composantes
f1 , f2 , · · · , fd sont intégrables sur E suivant µ. Dans ce cas on appelle intégrale de f sur E
suivant µ le vecteur de Rd de composantes dans la base canonique Eµ (f1 ), Eµ (f2 ), · · · , Eµ (fd ),
et on note Eµ (f ) := (Eµ (f1 ), Eµ (f2 ), · · · , Eµ (fd )) .

Montrer que f := (f1 , f2 , · · · , fd ) est intégrable suivant µ si, et seulement si, Eµ (|f |) < +∞
où | · | désigne la norme usuelle de Rd .
Un cas particulier intéressant pour la suite est le cas où f est à valeurs dans le plan com-
plexe C qu’on identifie à R2 . On écrit alors f := f1 + if2 identifié à f := (f1 , f2 ) et on pose
Eµ (f ) := Eµ (f1 ) + iEµ (f2 ).
A titre d’exemple, développons une application de la notion de fonction vectorielle µ-intégrable.

Soient E := Rn , µ une probabilité sur Rn et f l’application définie sur Rn à valeurs dans C, par
f (x) := exp (ihx, ui) où u est un vecteur fixé de Rn , h·, ·i et | · | les produit scalaire et norme
usuels de Rn .
Alors f1 (x) := coshx, ui et f2 (x) := sinhx, ui. D’où, pour k = 1 ou 2,
Z Z
Eµ (|fk |) = |fk |dµ ≤ 1lRn dµ = µ (Rn ) = 1.
Rn Rn
f1 et f2 sont donc µ-intégrables, par définition il en est de même de f . On peut donc définir
Eµ (f ) ∈ C pour tout vecteur u de Rn .
Définition 3.4.
L’application Z
n
Φµ : u ∈ R 7→ Φµ (u) := exp (ihx, ui) dµ(x)
Rn
s’appelle la fonction caractéristique de µ, en abrégé f.c. . Si X est un vecteur aléatoire,

on appelle fonction caractéristique de X , et on note ΦX , la f.c. de la loi de X .

Besançon
Exemples 3.8.
Si µ est la
Z probabilité de Bernoulli de paramètres p.
Φµ (t) = e itx d(pδ1 + (1 − p)δ0 )(x) = pe it + (1 − p) d’après les règles d’intégration par
R
rapport à une mesure de Dirac.

Expliciter les fonctions caractéristiques des probabilités de Dirac, binomiale, de Poisson.
On montrera dans l’exercice 3.20, page 60, que la fonction caractéristique de la probabilité
1
normale N 1 (m, σ 2 ) est définie sur R, pour tout réel t, par Φ(t) := exp(imt − t 2 σ 2 ).
2
Plus généralement, on trouvera la liste des fonctions caractéristiques des probabilités usuelles
sur R dans le formulaire donné dans l’annexe A, page 205, de ce cours.
3.1.4 Propriétés de l’intégrale

L’intégrale d’une fonction suivant une mesure µ possède toutes les propriétés des intégrales
classiques vues en premier cycle universitaire, on admettra :
Proposition 3.9.
Soient f et g deux applications de E dans Rd intégrables suivant µ, a et b deux réels, alors
1. Eµ (af + bg ) = aEµ (f ) + bEµ (g ).
2. |Eµ (f )| ≤ Eµ (|f |) où | · | est la norme euclidienne sur Rd .
3. Si de plus d = 1 et f ≤ g , alors Eµ (f ) ≤ Eµ (g ).
Exemples 3.9.
Comme l’indicatrice de A1 ∪ A2 ∪ · · · ∪ An , où A1 , A2 , · · · , An , sont des parties de E , est
donnée par
1lA1 ∪A2 ∪···∪An = 1 − (1 − 1lA1 )(1 − 1lA2 ) · · · (1 − 1lAn ),
en développant le second membre de cette égalité et en utilisant les propriétés 1)a du
théorème fondamental de l’intégration et 1) de la proposition précédente, on obtient aisé-
ment une autre démonstration de la formule de Poincaré 1.8, page 12, énoncée dans le
premier chapitre.
Les énoncés de théorèmes permettant d’intervertir les symboles Eµ et lim sont particulière-
n→+∞
ment simples dans cette théorie de l’intégration. Commençons par rappeler (cf. [8], page 82) :
Proposition 3.10.
Théorème de convergence monotone de Beppo-Lévi (admis)
Pour toute suite croissante (fn )N d’applications A-mesurables positives,

Eµ lim fn = lim Eµ (fn ).
n→+∞ n→+∞

Besançon
Ce résultat a pour corollaire :

Proposition 3.11.
∞
X
Théorème d’interversion de Eµ et
0
Pour toute suite (fn )N d’applications A-mesurables positives,
∞
! ∞
X X
Eµ fn = Eµ (fn ).
n=0 n=0
n
X
Démonstration : Posons, pour tout entier n, gn := fk . On applique alors le théorème de
k=0
Beppo-Lévi à la suite croissante d’applications A-mesurables positives (gn )N . 2
On en déduit aussi la proposition suivante (cf.[8], page 83) :

Proposition 3.12.
Lemme de Fatou
Si (fn )N est une suite d’applications A-mesurables positives, alors

Eµ lim inf fn ≤ lim inf Eµ (fn ).
n→+∞ n→+∞
Notons que ces trois résultats précédents sont faux si les fonctions fn ne sont plus supposées
positives.
Terminons par un théorème valable pour les fonctions (à valeurs réelles) de signe quelconque
à la condition d’être intégrables (cf. [8], page 102). Ce théorème ainsi que celui de Beppo-Lévi
sont des théorèmes fondamentaux de la théorie de l’intégration. Ce sont principalement ces
résultats qui font la supériorité de la théorie de Lebesgue sur celle de Riemann vue en premier
cycle universitaire.
Proposition 3.13.
Théorème de convergence dominée de Lebesgue (admis)
Si (fn )N est une suite d’applications A-mesurables convergeant presque-partout vers une
application A-mesurable f et s’il existe une application intégrable ϕ telle que, pour tout k ∈ N,
|fk | ≤ ϕ, alors f est intégrable et Eµ (f ) = lim Eµ (fn ).
n→+∞
3.1.5 Espaces de Lebesgue d’ordre p

Pour les démonstrations et énoncés plus généraux de ce paragraphe, on pourra se reporter à
[8], pages 149 à 156.
Soit (E , A, µ) un espace de probabilité. Soit 1 ≤ p < ∞, si f est une application de E dans R,

1
A-mesurable, définie et finie µ-presque sûrement, on posera ||f ||p = [E (|f |p )] p si l’application
Besançon
|f |p est intégrable pour µ, et ||f ||p = +∞ sinon.
On note Lp (E , A, µ) l’ensemble des applications f de E dans R, A-mesurables, définies

et finies µ-presque sûrement, telles que ||f ||p < +∞. Lp (E , A, µ) est un espace vectoriel,
et ||f ||p est une semi-norme sur cet espace. On note alors Lp (E , A, µ) l’espace des classes
d’équivalence des applications A-mesurables de Lp (E , A, µ) pour l’égalité µ-presque-sûre. En
particulier, l’espace L1 (E , A, µ) est constitué des classes d’équivalence des applications de E
dans R, A-mesurables, définies et finies µ-presque sûrement, intégrables pour µ, égales µ-
presque sûrement.
On définit également ||f ||∞ = sup {α ∈ R / µ[|f | ≥ α] > 0}, et L∞ (E , A, µ) comme l’ensemble
des classes d’équivalence, pour l’égalité µ-presque-sûre, des applications de E dans R, A-
mesurables, définies et finies µ-presque sûrement, telles que ||f ||∞ < +∞.
Définition 3.5.
Les espaces Lp (E , A, µ) pour tout réel p tel que 1 ≤ p ≤ ∞ sont appelés les espaces de
Lebesgue d’ordre p.
Moyennant ces définitions, on rappelle le résultat suivant sur les espaces de Lebesgue :
Proposition 3.14.
Soit (E , A, µ) un espace de probabilité,
1. Pour tout réel p tel que 1 ≤ p ≤ ∞, la semi-norme || · ||p induit une norme sur l’espace
de Lebesgue Lp (E , A, µ), encore notée || · ||p .
2. Pour tout réel p tel que 1 ≤ p ≤ ∞, l’espace de Lebesgue Lp (E , A, µ) muni de la norme
|| · ||p est un espace de Banach.
3. Pour tout p et q tels que 1 ≤ p < q ≤ ∞, on a la suite des inégalités
|| · ||1 ≤ || · ||p < || · ||q ≤ || · ||∞ ,
et la suite d’inclusions
L∞ (E , A, µ) ⊆ Lq (E , A, µ) ⊆ Lp (E , A, µ) ⊆ L1 (E , A, µ).
1 1
4. Si p et q sont tels que 1 ≤ p, q ≤ ∞ avec + = 1, alors, pour tout f ∈ Lp (E , A, µ)
p q
et g ∈ Lq (E , A, µ), l’application f g ∈ L1 (E , A, µ) et on a ||f g ||1 ≤ ||f ||p ||g ||q .
Remarque : L’inégalité de l’item 4 s’appelle l’inégalité de Hölder. Pour le cas particulier,

p = q = 2, cette inégalité se ramène à l’inégalité de Schwarz car l’espace L2 (E , A, µ), muni
du produit scalaire < f , g >= E(f g ) est un espace de Hilbert.
L’item 3 de la proposition précédente n’est plus vrai dès que µ n’est plus une mesure finie.
Désormais dans la suite du cours, les fonctions utilisées seront souvent définies seulement
presque-partout. Nous écrirons par abus, f ∈ Lq (E , A, µ) pour exprimer que f est une
application de E dans R, A-mesurable, définie et finie µ-presque sûrement, et que sa classe
d’équivalence pour l’égalité presque-partout est dans Lq (E , A, µ).
Besançon
3.2 Théorème du transfert et moments d’une v.a.
(Ω, F, P) désigne l’espace de probabilité de base.
Les variables aléatoires utilisées seront souvent définies seulement presque-sûrement. En appli-
quant aux variables aléatoires la convention d’écriture de la fin du paragraphe précédent, nous
écrirons par abus, X ∈ Lp (Ω, F, P) pour exprimer que X est une variable aléatoire définie et
finie presque-sûrement sur Ω et que sa classe d’équivalence pour l’égalité presque-sûre est dans
Lp (Ω, F, P).
Suivant l’usage on notera dorénavant, sauf cas exceptionnels, l’opérateur d’intégration (sur
l’espace de probabilité de base) E au lieu de EP . On appelle E l’espérance mathématique
suivant P ou, plus simplement s’il n’y a pas de risque de confusion, espérance. Ainsi si X
est une variable aléatoire
Z positive, resp.
Z vectorielle intégrable, on utilisera indifféremment les
notations E(X ) ou X (ω)dP(ω) ou X dP pour désigner EP (X ).
Ω Ω
Si h est une application de Rd dans Rn et X un vecteur aléatoire de dimension d, on rappelle

la notation abusive déjà introduite h(X ) := h ◦ X .
3.2.1 Théorème du transfert et identification de lois
Le théorème du transfert est d’un usage constant en probabilité. Donnons-en deux versions, une
pour les fonctions positives (c’est la plus utile), l’autre pour les fonctions vectorielles intégrables.
Proposition 3.15.
Théorème du transfert (cas positif)
Soient h une application borélienne positive de Rd dans [0, +∞] et X un vecteur aléatoire de
dimension d, alors Z
E[h(X )] = hdPX = EPX (h)
Rd
qu’on écrit également sous la forme :

Z Z
h(ω)dPX (ω) = h(x)dPX (x).
Ω Rd
Démonstration : Cette proposition se démontre à l’aide de la technique des fonctions étagées. 2

Besançon
Proposition 3.16.
Théorème du transfert (cas vectoriel) (admis)
Soient h une application borélienne de Rd dans Rn et X un vecteur aléatoire de dimension d.
Alors h est intégrable sur Rd suivant PX si, et seulement si, h(X ) est intégrable sur Ω suivant
P, et dans ce cas Z
E[h(X )] = hdPX = EPX (h)
Rd
qu’on écrit également sous la forme :

Z Z
h(ω)dPX (ω) = h(x)dPX (x).
Ω Rd
Exemples 3.10.
Soient X un vecteur aléatoire de dimension d et ΦX sa fonction caractéristique. Par
application du théorème du transfert (cas vectoriel) on obtient, pour tout élément u de Rd ,
Z
ΦX (u) := exp (ihx, ui) dPX (x) = E [exp (ihX , ui)] .2
Rd
Exemples 3.11.
Soit X une variable aléatoire réelle de loi N 1 (0, 1) i.e. PX = N 1 (0, 1). Calculons E(X 2 ).
Donnons deux méthodes.
• Première méthode : E(X 2 ) est de la forme E[h(X )] avec h(t) := t 2 . On applique le
théorème du transfert (cas positif), on remarque que h est continue donc borélienne. On
doit donc calculer à l’aide d’une intégration par parties,
Z Z −∞
1 1 2
2
E(X ) = 2
t dPX (t) = √ t 2 e − 2 t dt = 1.
R 2π −∞
• Deuxième méthode : On a vu au chapitre II dans l’exemple 2.2, page 24, que la variable
aléatoire réelle Y := X 2 suit la loi γ( 21 , 12 ) de densité
1 x
ρ(x) := √ e − 2 1l]0,+∞[ (x).
2πx
On cherche à calculer
Z Z
1 x
2
E(X ) = E(Y ) = tdPY (t) = x√ e − 2 1l]0,+∞[ (x)dλ(x)
R R 2πx
Z +∞ Z +∞ √
√ 1 −x x x
= x √ e 2 1l]0,+∞[ (x)dx = √ e − 2 dx = 1.
−∞ 2π 0 2π
Dans ces calculs nous avons utilisé les règles d’intégration suivant une mesure à densité et
une mesure de Lebesgue, puis effectué un changement de variable pour calculer l’intégrale
généralisée finale. 2

Besançon

Soit X une variable aléatoire réelle de loi N 1 (0, 1).
a) Calculer de deux façons différentes E(e X ).
b) Montrer que X 3 est intégrable (suivant la mesure P) et calculer E(X 3 ).
Le théorème du transfert permet d’établir un critère d’identification des lois utilisant les
fonctions boréliennes positives :
Proposition 3.17.
Critère des fonctions boréliennes positives
Soient X un vecteur aléatoire de dimension d et µ une probabilité sur Rd . Alors le vecteur
aléatoire X a pour loi µ si, et seulement si, pour toute application borélienne positive h de Rd
dans [0, +∞], Z
E[h(X )] = hdµ,
Rd
qui peut aussi s’écrire Z Z

h(X )dP = h(x)dµ(x).
Ω Rd
Démonstration : • C.N. - Si PX = µ, d’après le théorème

Z du transfert,
Z pour toute application
d
borélienne positive h de R dans [0, +∞], E[h(X )] = hdPX = hdµ.
Rd Rd
• C.S. - Supposons
Z que, pour toute application borélienne positive h de Rd dans [0, +∞],
E[h(X )] = hdµ. Alors, comme pour tout B ∈ B(Rd ) h := 1lB est une application borélienne
Rd
positive de Rd dans [0, +∞], par hypothèse d’une part
E[h(X )] = E[1lB (X )] = Eµ (1lB ) = µ(B),
et par le théorème de transfert d’autre part
Z
E[h(X )] = E[1lB (X )] = 1lB dPX = PX (B).
Rd
D’où, pour tout B ∈ B(Rd ), PX (B) = µ(B) ce qui signifie que PX = µ. 2
Exemples 3.12.
X 1
Soit X un vecteur aléatoire de dimension 2 de loi PX := δ(k,l) . On note X1 , X2
k≥1,l≥1
2k+l
les composantes de X dans la base canonique de R2 . Déterminons la loi de la variable
aléatoire réelle Y := sup(X1 , X2 ). Pour cela notons A := {(x, y ) ∈ R2 / x < y }. Soit h
une application borélienne de R dans [0, +∞]. En remarquant que, pour tout (x, y ) ∈ R2 ,
h(sup(x, y )) = h(y )1lA (x, y ) + h(x)1lAc (x, y ), il vient
Besançon
Z
E[h(Y )] = E[h(sup(X1 , X2 ))] = h(sup(x, y ))dPX (x, y )
Z R2 Z
= h(y )1lA (x, y )dPX (x, y ) + h(x)1lAc (x, y )dPX (x, y )
R2 R2
+∞ X+∞ +∞ X+∞
X 1 X 1
= i+j
h(j)1l A (i, j) + i+j
h(i)1lAc (i, j)
i=1 j=1
2 i=1 j=1
2
+∞ Xj−1 +∞ X i
X 1 X 1
= i+j
h(j) + i+j
h(i)
j=1 i=1
2 i=1 j=1
2
+∞ +∞ +∞
X 1 1 X 1 1 X 1 3
= j
1 − j−1 h(j) + i
1 − i h(i) = i
2 − i h(i)
j=1
2 2 i=1
2 2 i=1
2 2
+∞ Z
X 1 3
= 2− i h(z)dδi (z).
i=1
2i 2 R
On notera que, pour obtenir le premier X terme X de la quatrième égalité, il a été fait usage
du lemme de permutation des symboles et pour une suite-double de réels positifs.
i j
Z +∞
X 1 3
On a donc E[h(Y )] = hdµ avec µ := 2 − i δi , ce qui prouve que µ est la loi
R i=1
2i 2
de la variable aléatoire réelle Y .
On pourra se reporter à [3] exercice I-4 question 2 pour trouver une autre démonstration
utilisant la remarque suivant la proposition 2.10, page 27, sur le calcul de lois de variable
aléatoire réelle discrètes. 2
Un autre critère fait intervenir plus particulièrement les fonctions continues positives à support
compact (qui forment une sous-classe des fonctions boréliennes positives).
Proposition 3.18.
Critère des fonctions à support compact
aléatoire X a pour loi µ si, et seulement si, pour toute application positive h de Rd dans
[0, +∞], continue et à support compact,
Z
E[h(X )] = hdµ.
Rd
Ce qui peut aussi s’écrire avec la notation des opérateurs d’intégration
EP [h(X )] = Eµ (h).
Démonstration : • - C.N. Supposons que PX = µ. Si f est une fonction continue positive à

support compact, elle est en particulier une fonction positive borélienne.ZDonc d’après le critère
des fonctions positives boréliennes vu précédemment, on a E[f (X )] = f dµ.
Rd
d
• - C.S. Réciproquement, supposons que, pour
Z toute application positive h de R dans [0, +∞],
continue et à support compact, E[h(X )] = hdµ. Soit A une partie ouverte de Rd . D’après
Rd
une résultat d’analyse fonctionnelle, il existe une suite croissante (fn )N de fonctions positives,
Besançon
continues et à Rsupport compact sur Rd qui converge vers la fonction indicatrice de A. On a d’une
part µ(A) = Rd 1A dµ et PX (A) = E(1lZA ), et d’autreZpart, par le théorème de convergence
Z
monotone de Beppo-Lévi, on obtient : 1A dµ = ( lim fn ) dµ = lim fn dµ =
Z Z Rd Rd n→+∞
Z n→+∞ Rd
lim E(fn (X )) = lim fn dPX = ( lim fn ) dPX = 1lA dPX . Par suite, pour tout
n→+∞ n→+∞ Rd Rd n→+∞ Rd
d
ouvert A de R , µ(A) = PX (A). Les probabilités µ et PX coïncident sur une famille de parties
de Rd stable par intersection finie (π-système) qui engendre la tribu borélienne de Rd , donc
elles sont égales en vertu du théorème d’unicité 1.11 de la page 14.2
Les deux critères des fonctions positives expriment qu’un vecteur aléatoire X , de dimension d,
a pour loi la probabilité µsi, et seulement si, la relation EP [h(X )] = Eµ (h) est vérifiée pour
tout fonction h de la famille C des applications boréliennes positives définies sur Rd (ou de de
la famille C des applications continues positives à support compact sur Rd ).
Le critère d’identification de lois utilisant les fonctions de répartition (lemme d’unicité) peut
aussi s’énoncer sous cette forme. Ainsi, ces trois critères peuvent se formuler en un seul énoncé :
Proposition 3.19.
Critères d’identification de lois
aléatoire X a pour loi µ si, et seulement si, la relation EP [h(X )] = Eµ (h) est vérifiée pour tous
les éléments h d’un des ensembles C suivants :
1. Si d ≥ 1, C est l’ensemble des applications boréliennes de Rd dans [0, +∞].
2. Si d ≥ 1, C est l’ensemble des applications positives continues et à support compact de
Rd dans [0, +∞].
3. Si d = 1, C est l’ensemble des indicatrices 1l]−∞,u] lorsque u parcourt R.
Démonstration : 1) A déjà été vu dans la proposition 3.17.

2) A déjà été vu dans la proposition 3.18.
3) On se limite au cas d = 1. On remarque que, pour tout u ∈ R,

PX (] − ∞, u]) = E 1l]−∞,u] (X )
et µ (] − ∞, u]) = Eµ (1l]−∞,u] ).
On conclut par le lemme d’unicité 1.12, page 14. 2

Avec les notations de l’exemple précédent 3.12, montrer que E(X ) = (2, 2) et que la loi de
la variable aléatoire réelle Z := X1 + X2 est
+∞
X i −1
PZ = i
δi .
i=1
2

Besançon
3.2.2 Moments d’une variable aléatoire
Définition 3.6.
Soit X est une v.a.r. sur (Ω, F, P). On appelle espérance mathématique de X suivant
P ou quelquefois
Z moyenne de X , et on note E(X ), la quantité (si elle est définie)
E(X ) = X dP.
Ω
Plus généralement si p ∈ N∗ , on appelle moment d’ordre p de X , resp. moment centré
d’ordre p de X , le nombre réel (s’il est défini) mp := E(X p ), resp. mp0 := E [(X − m1 )p ] .
Définition 3.7.
Le moment centré d’ordre 2 s’appelle aussi la variance de X et se note Var(X ). Sa racine
carrée positive s’appelle l’écart-type de X et se note σX .
Si X et Y sont deux v.a.r. on appelle covariance de X et Y , le réel (s’il est défini)
Cov(X , Y ) := E([X − E(X )][Y − E(Y )]).
La proposition suivante donne une condition suffisante d’existence des moments d’une v.a.r. .
Proposition 3.20.
Existence des moments de v.a.r.
1. Soit X une v.a.r. telle qu’il existe un entier naturel non nul p vérifiant E(|X |p ) < +∞,
i.e. X ∈ Lp (Ω, F, P). Alors, pour tout entier k vérifiant 1 ≤ k ≤ p, les moments d’ordre
k 0 k

k, mk := E(X ) et mk := E (X − m1 ) , existent dans R.
2. Si X et Y sont deux variables aléatoires réelles vérifiant E(X 2 ) < +∞ et E(Y 2 ) < +∞,
i.e. X et Y sont dans L2 (Ω, F, P), alors la covariance de X et Y , Cov(X , Y ), existe
dans R.
Démonstration : 1) Pour tout k ≤ p, |X k | ≤ 1 + |X |p . D’où
E(|X k |) ≤ 1 + E(|X p |) < +∞,
ce qui prouve que la variable aléatoire réelle X k est intégrable et donc que E(X k ) est bien défini
dans R.
De même, |X − m1 |k ≤ (|m1 | + |X |)k . En développant le second membre, en prenant
l’espérance de l’expression et en utilisant le résultat démontré juste avant, on obtient que
E(|X − m1 |k ) < +∞. Par suite E (X − m1 )k est bien défini dans R.
2) Si X et Y sont de carré intégrable, d’après l’inégalité |X Y | ≤ X 2 +Y 2 déduite du développe-
ment de (|X | − |Y |)2 ≥ 0, on obtient E(|X Y |) ≤ E(X 2 ) + E(Y 2 ) < +∞. La variable aléatoire
réelle X Y est donc intégrable ainsi que la variable aléatoire réelle Z := [X − E(X )][Y − E(Y )],
ce qui donne bien un sens à la covariance de X et de Y . 2
Par application du théorème de transfert il vient aisément :

Besançon
Proposition 3.21.
Sous les conditions d’existence des différents moments,
Z Z
m1 := E(X ) = X (ω)dP(ω) = xdPX (x).
Z Ω Z R
2
σX := (X (ω) − m1 ) dP(ω) = (x − m1 )2 dPX (x).
2
ZΩ Z R
mp := X p (ω)dP(ω) = x p dPX (x).

ZΩ R Z
0
mp := (X (ω) − m1 ) dP(ω) = (x − m1 )p dPX (x).
p
Ω R
Par commodité on pose la définition suivante :
Définition 3.8.
Une variable aléatoire réelle X est dite de carré intégrable si E(X 2 ) < +∞, i.e.
X ∈ L2 (Ω, F, P).
Exemples 3.13.
Soit X une variable aléatoire normale standard. Le calcul développé dans l’exemple 3.7
, page 34, prouve que E(X ) = 0 et celui développé dans l’exemple 3.6, page 33, que
V ar (X ) = 1. Plus généralement, on vérifie aisément par un calcul élémentaire que, si X est
une variable de loi normale N (m, σ 2 ), alors E(X ) = m et Var(X ) = σ 2 . 2
Proposition 3.22.
Formules de König-Huygens
Soient X et Y deux variable aléatoire réelle de carré intégrable. Alors
1. Var(X ) = Cov(X , X ) = E(X 2 ) − [E(X )]2 .
2. Cov(X , Y ) = E(X Y ) − E(X )E(Y ).

Vérifier les formules de König-Huygens.
On vérifie aisément qu’on retrouve les définitions classiques de l’espérance pour les v.a.r.
discrètes ou à densité comme l’indique le résultat suivant :
Besançon
Proposition 3.23.
1. Si X est une variable aléatoire réelle intégrable discrète de loi
X+∞
PX := P(X = ak )δak , alors
k=0
+∞
X
E(X ) = ak P(X = ak ).
k=0
2. Si X est une variable aléatoire réelle intégrable à densité ρ continue sur R, alors
Z +∞
E(X ) = tρ(t)dt.
−∞
On trouvera la liste des valeurs de l’espérance et de la variance des v.a.r. de lois usuelles dans
le formulaire de l’annexe A, page 205, de ce cours.

Soit X une variable aléatoire réelle suivant la loi de Rayleigh de densité définie sur R par
x2
ρ(x) := xe − 2 1lR+ (x). Montrer que, pour tout entier k ≥ 1,
r
2k−1 (2k)! π
et E X 2k = 2k k!.

E X = k
2 k! 2
Expliciter l’espérance et la variance de la variable aléatoire réelle X .
Définition 3.9.
Soit X un vecteur aléatoire de dimension d de composantes X1 , X2 , ..., Xd intégrables suivant
P. On appelle espérance de X suivant P, et on note E(X ), le vecteur de Rd ,
E(X ) := (E(X1 ), E(X2 ), ..., E(Xd )) .
Si X est une v.a. à valeurs matricielles, on appelle espérance de X , et on note E(X ), la

matrice dont les coefficients sont les espérances de ceux de X .
Définition 3.10.
Une variable aléatoire vectorielle ou matricielle d’espérance nulle est dite centrée. Une variable
aléatoire réelle de carré intégrable et de variance égale à 1 est dite réduite.

Montrer que les variable aléatoire réelle X1 , X2 , · · · , Xd sont de carré intégrable si, et
seulement si, E(|X |2 ) < +∞ où X := (X1 , X2 , · · · , Xd ).
Besançon
Définition 3.11.
Soit X un vecteur aléatoire de dimension d de composantes X1 , X2 , ..., Xd de carré intégrable
sur Ω. On appelle matrice de dispersion de X ou matrice des covariances de X , et on
la note DX , l’espérance de la matrice carrée aléatoire [X − E(X )][X − E(X )]∗ d’ordre d où ∗
désigne l’opération de transposition des matrices, c’est-à-dire
DX = E ([X − E(X )][X − E(X )]∗ ) .
La terminologie est justifiée par la troisième assertion de la proposition suivante :

Proposition 3.24.
Si X est un vecteur aléatoire de dimension d tel que E(|X |2 ) < +∞ et M une matrice
(déterministe) à coefficients réels à c lignes et d colonnes, alors
1. Le coefficient d’indice (i, j) de DX est la covariance Cov(Xi , Xj ) des v.a.r. Xi et Xj . Les
éléments diagonaux de DX sont les variances des composantes de X .
2.
D[X −E(X )] = DX , E(MX ) = ME(X ), DMX = MDX M ∗ .
3. DX est une matrice symétrique. DX est de type positif i.e., pour tout u ∈ Rd ,
u ∗ DX u ≥ 0. En particulier, DX est une matrice diagonalisable sur R dont les valeurs
propres sont des réels positifs ou nuls.
Exemples 3.14.
Soit X un vecteur aléatoire de dimension 2 de loi
X 1
PX := δ(k,l) .
k≥1,l≥1
2k+l
Notons X1 , X2 les composantes de X dans la base canonique de R2 . Par définition

E(X ) = (E(X1 ), E(X2 )) et d’après la proposition précédente,

Var(X1 ) Cov(X1 , X2 )
DX = .
Cov(X1 , X2 ) Var(X2 )
En calculant E(X1 ) = E(X2 ) = 2 puis E(X12 ) = E(X22 ) = 6 et Cov(X1 , X2 ) = 0 on obtient,

par application de la formule de König-Huygens,

2 0
E(X ) = (2, 2) et DX = .2
0 2

Démontrer la proposition 3.24, page 48.

Soient X et Y deux variables aléatoires réelles telles que E(X 2 ) < +∞ et E(Y 2 ) < +∞.
Besançon
1. Montrer que |Y X | ≤ X 2 + Y 2 . En déduire que les variables aléatoires réelles X , Y et

X Y sont intégrables suivant P.
2. En étudiant le signe de l’expression E [(X + αYp)2 ] pour p tout α ∈ R, prouver
l’inégalité de Cauchy-Schwarz : |E(X Y )| ≤ E(X ) E(Y 2 ). En donner une
2
interprétation géométrique.

Soit X := (X1 , X2 , · · · , Xn ) un vecteur aléatoire tel que E(|X |2 ) < +∞.
Xn
1. Montrer que la variable aléatoire réelle Y := Xk est de carré intégrable.
k=1
2. Démontrer la relation
n
! n
X X X
Var Xk = Var(Xk ) + 2 Cov(Xi , Xj ).
k=1 k=1 1≤i<j≤n
3.3 Fonction caractéristique et loi d’une v.a.

Dans le sous-paragraphe 3 du paragraphe 1, nous avons introduit la notion de fonction
caractéristique.
On rappelle que :
Définition 3.12.
Si µ est une probabilité sur Rd , l’application
Z
d
Φµ : u ∈ R 7→ Φµ (u) := exp (ihx, ui) dµ(x) ∈ C,
Rd
s’appelle la fonction caractéristique de µ, (en abrégé f.c.).

Si X est un vecteur aléatoire de dimension d, la fonction caractéristique de X est
l’application de Rd dans C définie, pour tout vecteur u de Rd , par
Z
ΦX (u) := exp (ihx, ui) dPX (x) = E (exp (ihX , ui)) .
Rd
Donnons quelques propriétés classiques des fonctions caractéristiques :

Proposition 3.25.
1. Φ(0) = 1
2. Pour tout u ∈ Rd , Φ(−u) = Φ(u) et |Φ(u)| ≤ 1. Une fonction caractéristique est donc
une application bornée sur Rd .
3. La fonction caractéristique Φ d’un vecteur aléatoire X de dimension d est une fonction
uniformément continue sur Rd . En particulier, une fonction caractéristique Φ est continue
en 0.
Si µ et ν sontZ deux probabilités sur Rd , alors
4. Z
Φµ dν = Φν dµ.
Rd Rd

Besançon
Démonstration : • Φ(0) = 1 est immédiat à vérifier.

• Pour toutZu ∈ Rd , Φ(−u) = Φ(u) est
d
Z immédiat à vérifier. Pour Ztout vecteur u de R ,

|ΦX (u)| = exp (ihx, ui) dPX (x) ≤ |exp (ihx, ui)| dPX (x) ≤ dPX (x) = 1, donc
dR d R d R
ΦX est bornée sur Rd .
Z
d
• Pour tous vecteurs u et v de R , |ΦX (u)−ΦX (v )| ≤ |exp (ihx, ui) − exp (ihx, v i)| dPX (x).
R d
Z t
it
Or, pour tout réel t, e − 1 = ie ix dx, d’où |e it − 1| ≤ inf(2, |t|). Par suite, pour tous
0
vecteurs u et v de Rd , par application de l’inégalité de Cauchy-Schwarz, il vient
|exp (ihx, ui) − exp (ihx, v i)| ≤ |exp [i (hx, ui − hx, v i)] − 1| = |exp (ihx, u − v i) − 1|
≤ inf(2, |hx, u − v i|) ≤ inf(2,
Z |x||u − v |).
D’où, pour tous vecteurs u et v de Rd , |ΦX (u)−ΦX (v )| ≤ inf(2, |x||u−v |)dPX (x). En parti-
Rd
1
culier, pour tout entier naturel non nul n, et pour tous vecteurs u et v de Rd , tels que |u−v | ≤ ,
n
|x| |x|
Z
on a |ΦX (u) − ΦX (v )| ≤ inf 2, dPX (x). La suite de fonctions inf 2, est
Rd n n N∗
dominée par la fonction constante qui vaut 2 sur Rd , et converge Z vers la fonction-nulle
sur
|x|
Rd . Par le théorème de convergence dominée de Lebesgue, lim inf 2, dPX (x) = 0.
n→+∞ Rd
n
|x|
Z
Soit ε > 0 donné, on peut donc trouver un entier n tel que | inf 2, dPX (x)| ≤ ε. Par
Rd n
1
suite, pour tout ε > 0, il existe η (prendre η = ) tel que, pour tous vecteurs u et v de Rd ,
n
|u − v | ≤ η implique |ΦX (u) − ΦX (v )| ≤ ε, ce qui prouve l’uniforme continuité de la fonction
caractéristique. Z Z
• Pour prouver que Φµ dν = Φν dµ, il suffit d’appliquer le théorème de Fubini vu en
Rd Rd
théorie de la mesure et de l’intégration et rappelé dans le chapitre suivant, proposition 4.3,
page 63. 2
La fonction caractéristique présente plusieurs points d’intérêt :

1. pour identifier la loi d’un vecteur aléatoire,
2. pour calculer les moments d’une variable aléatoire,
3. pour étudier l’indépendance d’une suite de v.a.r..
Nous allons nous intéresser dans ce paragraphe aux deux premiers points. Le dernier sera traité
au chapitre IV.
Commençons par le premier point, qui est dû au résultat suivant :

Proposition 3.26.
Théorème d’injectivité des f.c.
Deux probabilités sur Rd sont identiques si, et seulement si, elles ont la même fonction
caractéristique.

Besançon
Démonstration : • En préambule à la démonstration, montrons que, pour tout réel a > 0,
2d ad
Z
I (x − y ) = e i<u,y −x> e −a(|u1 |+|u2 |+···|ud |) dλ(d) (u) = Qk=d .
2 2
Rd k=1 (a + (yk − xk ) )
En effet, en intégrant séparément sur ] − ∞, 0], puis sur [0, +∞[, on obtient
Z Z 0 Z +∞
itx −a|t| 1 1 2a
K (x) = e e dλ(t) = e itx at
e dt + e itx e −at dt = + = 2 .
R −∞ 0 a − ix a + ix a + x2
Z
Par suite, I (x − y ) = e i[u1 (y1 −x1 )+u2 (y2 −x2 )+···+ud (yd −xd )]−a(|u1 |+|u2 |+···|ud |) dλ(d) (u) ou encore
Rd
Z k=d
Y
I (x − y ) = e i[uk (yk −xk )−a|uk | dλ(d) (u).
Rd k=1
Par le théorème de Fubini (son énoncé est rappelé dans le prochain chapitre, proposition 4.3,
page 63), compte tenu de ce que la fonction à intégrer est à variables séparées, il vient
k=d
YZ k=d k=d
Y Y 2a
I (x − y ) = e i[uk (yk −xk )−a|uk | dλ(uk ) = K (yk − xk ) = 2 + (y − x )2
, d’où
k=1 R k=1 k=1
a k k
2d ad
I (x − y ) = Qk=d .
k=1 (a2 + (yk − xk )2 )
• Montrons maintenant que :
2d ad
Z Z
Jµ (x) = Qk=d 2 dµ(y ) = e −i<u,x> e −a(|u1 |+|u2 |+···|ud |) Φµ (u) dλ(d) (u).
2
Rd k=1 (a + (yk − xk ) ) Rd
En effet, en
Z utilisant le résultat Zprécédent
Z et en reportant dans l’intégrale à calculer, on
a Jµ (x) = I (x − y ) dµ(y ) = e i<u,y −x> e −a(|u1 |+|u2 |+···|ud |) dλ(d) (u) dµ(y ). Par
Rd Rd Rd
application du théorème de Fubini aux mesures λ(d) et µ (vérifier que les hypothèses du théorème
sont bien satisfaites), cette intégrale peut s’écrire :
Z Z
i<u,−x> −a(|u1 |+|u2 |+···|ud |) i<u,y >
Jµ (x) = e e e dµ(y ) dλ(d) (u),
Rd Rd
ou encore, par définition de la fonction caractéristique de µ,

Z
Jµ (x) = e −i<u,x> e −a(|u1 |+|u2 |+···|ud |) Φµ (u) dλ(d) (u).
Rd
•Z Soit f une fonction de Rd dans R, continue et à support compact. Calculons Hµ (a) =

f (x)Jµ (x) dλ(d) (x).
R d
"Z #
2d ad
Z
On a Hµ (a) = f (x) Qk=d 2 dµ(y ) dλ(d) (x). Par le théorème de Fu-
2
Rd Rd k=1 (a + (yk − xk ) )
Z "Z d d
#
2 a
bini, Hµ (a) = f (x) Qk=d dλ(d) (x) dµ(y ). Notons Ga (y ) l’intégrale
2 2
Rd Rd k=1 (a + (yk − xk ) )

Besançon
entre crochets. Elle peut s’écrire, après le changement de variables dans Rd , (u1 , u2 , · · · , ud ) =
(y1 − x1 , yZ2 − x2 , · · · , yd − xd ), ou u = y − x, dont le Zjacobien est de valeur absolue égale à 1,
2d ad (d) 2d ad
Ga (y ) = f (x) Qk=d dλ (x) = f (y −u) Qk=d dλ(d) (u).
2 2 2 2
Rd Zk=1 (a + (yk − xk ) ) Rd k=1 (a + (uk ) )
Par suite, Hµ (a) = Ga (y ) dµ(y ).

Rd
• Étudions maintenant, pour tout vecteur y ∈ Rd , la limite lim Ga (y ).

a→0
Z d d
2 a
Pour tout vecteur y ∈ Rd , Ga (y ) = f (y −u) Qk=d dλ(d) (u). Par le changement
2 2
k=1 (a + (uk ) )
R d
d u1 u2 ud
de variables dans R , (x1 , x2 , · · · , xd ) = ( , , · · · , ), qu’on peut écrire de façon plus
a a a
1
synthétique, x = u, dont le jacobien est de valeur absolue égale à ad , l’intégrale devient
a
2d ad
Z
Ga (y ) = f (y − ax) Qk=d ad dλ(d) (x)
2 2
k=1 (a + (axk ) )
d
ZR
2d
= f (y − ax) Qk=d 2
dλ(d) (x).
Rd k=1 (1 + xk )
Comme f est continue à support compact, elle est bornée par un réel M. La famille, indexée par
2d 2d
a, des fonctions x 7→ f (y −ax) Qk=d 2
est dominée par la fonction x →
7 M Q k=d 2
k=1 (1 + xk ) k=1 (1 + xk )
intégrable sur Rd pour la mesure de Lebesgue. En effet, par le théorème de Fubini,
Z +∞ d
2d
Z
(d) d 1 d +∞ d
= M2d π d ,

M Qk=d dλ (x) = M2 2
dt = M2 [Arctan(x)] −∞
Rd k=1 (1 + x 2
k ) −∞ 1 + t
2d
ce qui prouve que la fonction x 7→ M Qk=d est intégrable sur Rd .
k=1 (1 + xk2 )
Par suite Zen faisant tendre a vers 0, en vertu du théorème de convergence dominée, l’intégrale
2d
Ga (y ) = f (y − ax) Qk=d 2
dλ(d) (x) tend vers l’intégrale
k=1 (1 + xk )
R d
2d 2d
Z Z
(d)
f (y ) Qk=d 2
dλ (x) = f (y ) Qk=d 2
dλ(d) (x) = 2d π d f (y ),
Rd k=1 (1 + xk ) Rd k=1 (1 + xk )
d’après le calcul qui vient d’être fait plus haut, c’est-à-dire lim Ga (y ) = 2d π d f (y ).
a→0
• Nous pouvons maintenant en déduire la limite de l’intégrale Hµ (a) lorsque a tend vers 0.
En effet, pour tout réel a et tout y ∈ Rd ,
2d ad
Z
|Ga (y )| ≤ |f (y − ax)| Qk=d ad dλ(d) (x)
2 2
k=1 (a + (axk ) )
R d
2d ad
Z
≤ M Qk=d 2 ad dλ(d) (x) = M2d π d .
2
k=1 (a + (axk ) )
R d
La famille de fonctions Ga indexées par a, est donc dominée par la constante M2d π d intégrable
par rapport à la mesure de probabilité µ. Par le théorème de convergence dominée de Lebesgue,
Besançon
Z Z
il vient lim Hµ (a) = lim Ga (y ) dµ(y ) = 2d π d f (y ) dµ(y ).
a→0 Rd a→0 Rd
• Pour conclure, rassemblons les résultats précédents, en tenant compte que µ et ν sont
deux probabilités sur Rd ayant la même fonction caractéristique Φµ = Φν . On remar-
que alors que Jµ (x) = Jν (x) et, par suite, pour tout réel a > 0, Hµ (a) = Hν (a). On
en déduit alors, en faisant tendre a vers 0, que lim Hµ (a) = lim Hν (a), c’est-à-dire que
Z Z a→0 Z a→0 Z
d d d d
2 π f (y ) dµ(y ) = 2 π f (y ) dν(y ), et finalement f (y ) dµ(y ) = f (y ) dν(y ),
Rd Rd Rd Rd
d
pour toute fonction f de R dans R, continue et à support compact. Par le critère des fonctions
à support compact (proposition 3.18, page 43), on en conclut µ = ν. 2
Le théorème d’injectivité s’énonce alors avec les vecteurs aléatoires :

Proposition 3.27.
Critère d’identification de lois par les f.c.
Deux vecteurs aléatoires sur Rd ont la même loi si, et seulement si, ils ont la même fonction
caractéristique.
Nous pouvons maintenant regrouper tous les critères d’identification de lois vus jusqu’à présent
sous une formulation unique qui complète la proposition 3.19, page 44 :
Proposition 3.28.
Critères d’identification de lois
aléatoire X a pour loi µ si, et seulement si, la relation
Z
E[h(X )] = h(t) dµ(t)
Rd
est vérifiée pour tous les éléments h d’un des ensembles C suivants :
1. Si d ≥ 1, C est l’ensemble des applications boréliennes de Rd dans [0, +∞].
2. Si d ≥ 1, C est l’ensemble des applications positives continues et à support compact de
Rd dans [0, +∞].
3. Si d ≥ 1, C est l’ensemble des applications
hu : x ∈ Rd 7→ hu (x) = exp(ihu, xi) ∈ C
lorsque u parcourt Rd .
4. Si d = 1, C est l’ensemble des indicatrices 1l]−∞,u] lorsque u parcourt R.
Démonstration : Il suffit de prouver l’item 3, les autres ayant déjà été vus dans le théorème 3.19
de la page 44. On remarque que, pour tout u ∈ Rd , ΦX (u) = E (exp(ihu, X i)) = E (hu (X )) et
Φµ (u) = Eµ (hu ) On conclut par le théorème d’injectivité 3.26. 2
Définition 3.13.
Les familles de fonctions qui apparaissent dans les différents item de la proposition précédente
sont souvent appelées familles de fonctions-test.
Dans le cas où d = 1, les formules d’inversion données ci-dessous précisent le lien entre la
Besançon
probabilité et sa fonction caractéristique. Elles permettent de retrouver la probabilité à partir

de sa f.c. :
Proposition 3.29.
Formules d’inversion ou de réciprocité de Perron-Stieltjès
Si µ est une probabilité sur R de f.c. Φ, a et b deux
réels tels que a < b, alors :
Z n −ita
1 e − e −itb
1. La suite d’intégrales au sens de Riemann Φ(t)dt est conver-
2π −n it N
Z n −ita
1 e − e −itb 1
gente dans R et lim Φ(t)dt = µ(]a, b[) + µ({a, b}).
n→+∞ 2π −n it 2
Z n
1
2. La suite d’intégrales au sens de Riemann e −ita Φ(t)dt est convergente dans
Z n 2n −n N∗
1
R et lim e −ita Φ(t)dt = µ({a}).
n→+∞ 2n −n
Indications pour la démonstration (laissée en exercice non corrigé).

Vérifier que les intégrales qui interviennent dans la proposition peuvent bien être prises au
sens de Riemann car les fonctions complexes
Z +∞ à intégrer sont continues (ou prolongeables par
sin t
continuité) sur [−n, n]. On rappelle que dt = π.
−∞ t
• Premier item : Justifier qu’on peut appliquer le théorème de Fubini pour obtenir :
n n n
e −ita − e −itb
Z Z
sin(t(x − a)) sin(t(x − b))
Z Z
In := Φ(t)dt = dt − dt dµ(x).
−n it R −n t −n t
uZ
sin t u
Posons, pour tout u ∈ R, S(u) := dt et sg n(u) := si u 6= 0 avec sg n(0) := 0.
Z n 0 t |u| Z
sin tu
Montrer que, pour tout u ∈ R, dt = 2sg n(u)S(n|u|) et que In = fn dµ où, pour
−n t R
tout x ∈ R, fn (x) := 2sg n(x − a)S(n|x − a|) − 2sg n(x − b)S(n|x − b|). Montrer que la suite
(fn )N converge vers π1l{a,b} + 2π1l]a,b[ et qu’il existe M > 0 tel que, pour tout n ∈ N, |fn | ≤ M.
Conclure à l’aide du théorème de convergence dominée.
• Second item : Utiliser une démarche analogue. 2
Dans le cas où la f.c. est intégrable au sens de Lebesgue sur R, on peut préciser la connaissance
de µ :
Proposition 3.30.
Soit µ une probabilité sur R de f.c. Φ. Si Φ est intégrable au sens de Lebesgue sur R, alors
µ admet une densité f par rapport à la mesure de Lebesgue sur R. L’application f est une
fonction à valeurs réelles, positive, bornée, continue sur R et, pourZ tout x ∈ R, f (x) s’exprime
+∞
1
à l’aide de l’intégrale généralisée au sens de Riemann f (x) = e −itx Φ(t)dt.
2π −∞
Démonstration : • Remarquons que, pour tous réels a et b avec a < b,

e −ita − e −itb Z b Z b
−itx
−itx
= e dλ(x) ≤ e dλ(x) ≤ |b − a|.

it

a a

Besançon

Z n −ita
− e −itb
Z n
e

Par suite, Φ(t) dt ≤ |b − a| |Φ(t)| dt. Comme Φ est supposée in-

it

−n −n
Z +∞
tégrable au sens de Lebesgue, on a |Φ(t)| dt < +∞, ce qui prouve que l’intégrale
−∞
Z n −ita
e − e −itb
Φ(t) dt est absolument convergente. On a donc d’après la proposition 3.7,

it

−n
page 35,
n
e −ita − e −itb +∞
e −ita − e −itb e −ita − e −itb
Z Z Z
lim Φ(t) dt = Φ(t) dt = Φ(t)dλ(t).
n→+∞ −n it −∞ it R it
• D’après le premier item de la proposition 3.29, nous pouvons donc écrire
1 e −ita − e −itb
Z
1
µ(]a, b[) + µ({a, b}) = Φ(t)dλ(t).
2 2π R it
On a alors, pour tous réels a et b avec a < b,

1 1 1 Z e −ita − e −itb
µ({a}) ≤ µ(]a, b[) + µ({a, b}) = Φ(t)dλ(t)

2 2 2π R it
Z −ita −itb

1 e −e 1
Z
≤ Φ(t) dλ(t) ≤ |b − a| |Φ(t)| dλ(t) = C |b − a|,

2π R it 2π

R
1
Z
où C = |Φ(t)| dλ(t) est une constante finie car Φ est intégrable au sens de Lebesgue.
2π R
Fixons a, en faisant tendre b vers a, dans l’inégalité précédente, on en déduit que la mesure µ
est diffuse sur R, c’est-à-dire que µ({x}) = 0, pour tout réel x.
• En revenant à la première formule d’inversion de la proposition 3.29, on obtient alors en
tenant compte de la remarque précédente et du théorème de Fubini, pour tous réels a et b avec
a < b, Z −ita
− e −itb
Z Z
1 e 1 −itx
µ(]a, b[) = Φ(t) dλ(t) = e dλ(x) Φ(t) dλ(t)
2π R it ! 2π R [a,b]
1
Z Z Z
−itx
= e Φ(t) dλ(t) dλ(x) = f (x) dλ(x)
[a,b] 2π R [a,b]
1
Z
où on a posé, pour tout réel x, f (x) = e −itx Φ(t) dλ(t).
2π R
• On vérifie aisément à l’aide du théorème de convergence dominée que f est une fonction
continue. De plus f est bornée sur R. Comme, pour tout réel t, Φ(−t) = Φ(t), on en déduit
en prenant le conjugué de l’intégrale suivi d’un changement de variable élémentaire que, pour
tout réel x, f (x) = f (x), ce quiZprouve que f est une fonction à valeurs réelles. Pour tous réels
a et b avec a < b, µ(]a, b[) = f (x) dλ(x) ≥ 0 et f est continue, on en déduit que f est
[a,b]
positive et que c’est bien une densité de probabilité sur R. Comme la fonction sous l’intégrale
t 7→ e −itx Φ(t) est elle-même continue et bornée et intégrable au sens de Lebesgue, l’intégrale
1
Z
au sens de Lebesgue e −itx Φ(t) dλ(t) peut s’écrire sous la forme d’une intégrale général-
2π R
isée au sens de Riemann (cf. proposition 3.7, page 35).
Besançon
• La probabilité µ coïncide donc avec la probabilité de densité f sur la famille C des intervalles
ouverts de R. On vérifie aisément que C est un π-système qui engendre la tribu borélienne de
R. On conclut alors par le théorème d’unicité pour les probabilités (cf. proposition 1.11, page
14) que µ est la probabilité de densité f . 2
La réciproque de ce résultat est fausse. En effet on vérifie aisément que la loi exponentielle de
paramètre 1 sur R fournit un contre-exemple. Cependant, sous certaines hypothèses, on peut
avoir des renseignements sur le comportement à l’infini de la fonction caractéristique Φ, comme
le prouve la proposition suivante :
Proposition 3.31.
Soit µ une probabilité sur R de f.c. Φ. On suppose que µ admet une densité f de classe C n
telle que, pour tout entier 0 ≤ k ≤ n, la dérivée f (k) d’ordre k de f soit intégrable au sens de
Lebesgue sur R (on pose f (0) := f ). Alors lim u n−1 Φ(u) = 0.
u→+∞
Indications pour la démonstration (laissée en exercice non corrigé) : Soit k un entier, 1 ≤ k ≤ n.

Prouver la relation, pour tout x ∈ R :
Z x
(k−1)
f (x) = f (k) (u)du + f (k−1) (0).
0
En déduire que lim |f (k−1) (u)| = 0.

u→+∞
Par une intégration par parties, montrer que, pour tout u 6= 0,
Z +∞ Z +∞
−iux (k−1) i
e f (x)dx = e −iux f (k) (x)dx.
−∞ u −∞
n Z +∞
i
En déduire que Φ(u) = e −iux f (n) (x)dx. Conclure. 2
u −∞

1
Avec les notations de Landau, le résultat démontré peut s’écrire Φ(u) = o au voisi-
u n−1
nage de +∞. En fait, si f a ses n dérivées premières qui existent et sont intégrables au sens
de Lebesgue sur R, en utilisant
le lemme de Riemann-Lebesgue (cf [4], exercice VI-30), on
1
démontre que Φ(u) = o au voisinage de +∞.
un
Passons maintenant au second point d’intérêt de la notion de f.c.. Les propositions ci-dessous,
3.33, 3.34 et 3.35, donnent un procédé de calcul des moments d’une variable aléatoire réelle
à l’aide de sa fonction caractéristique.
Z Ces résultats se démontrent en utilisant le théorème de
dérivation sous le signe vu en théorie de l’intégration, que nous rappelons sans le démontrer
dans le cas particulier qui nous intéresse (cf. [8], page 105) :
Besançon
Proposition 3.32. Z
Théorème de dérivation sous le signe
Soit (E , E, µ) un espace de probabilité, f une application de E × R dans R (ou C). Si f vérifie
les trois hypothèses suivantes :
1. pour µ-presque-tout x ∈ E , t ∈ R 7→ f (x, t) ∈ R est dérivable sur R,
2. pour tout t ∈ R, x ∈ E 7→ f (x, t) ∈ R est intégrable par rapport à µ,
3. il existe une application g , intégrable
par rapport à µ, telle que, pour µ-presque-tout
∂f
x ∈ E et pour tout t ∈ R, (x, t) ≤ g (x),
∂t
alors, Z
1. L’application F : t ∈ R 7→ F (t) := f (x, t)dµ(x) ∈ R est dérivable sur R,
E
∂f
2. Pour tout t ∈ R, x ∈ E 7→ (x, t) ∈ R est intégrable par rapport à µ,
Z ∂t
∂f
3. Pour tout t ∈ R, F 0 (t) = (x, t)dµ(x).
E ∂t
En appliquant ce résultat à l’application (x, u) ∈ R × R 7→ exp (ihx, ui) , et en raisonnant par

récurrence, on obtient :
Proposition 3.33.
Si X est une variable aléatoire réelle telle que E(|X |n ) < +∞, i.e. X ∈ Ln (Ω, F, P), où n est
un entier naturel non nul, alors la fonction caractéristique ΦX de X est continûment dérivable
jusqu’à l’ordre n et on a, pour tout réel u :
Z
(n) n
x n e iux dPX (x) = i n E X n e iuX .

ΦX (u) = i
R
Z
(n) n
En particulier ΦX (0) =i x n dPX (x) = i n E (X n ) .
R
Pour les vecteurs aléatoires, nous avons en particulier :
Proposition 3.34.
Si X = (X1 , X2 , · · · , Xd ) est un vecteur aléatoire de dimension d tel que E(|X |2 ) < +∞,
i.e. X ∈ L2 (Ω, F, P), où d est un entier naturel non nul, alors, pour tout k = 1, 2, · · · , d et
∂ΦX ∂ 2 ΦX
j = 1, 2, · · · , d on a E(Xk ) = −i (0) et E(Xk Xj ) = − (0).
∂uk ∂uk ∂uj
Pour le calcul des moments d’une variable aléatoire réelle, la proposition suivante est parfois
utile :
Besançon
Proposition 3.35.
Soient X une variable aléatoire réelle et n un entier naturel tels que la f.c. de X , ΦX , soit
dérivable en 0 à l’ordre n. Alors
1. E(X 2p ) < +∞ où 2p est le plus grand entier pair inférieur à n. En particulier, X admet
des moments jusqu’à l’ordre 2p.
2. De plus, si le développement limité de ΦX au voisinage de 0 à l’ordre n s’écrit
k=n
X
ΦX (u) = 1 + ak u k + o(u n ) alors, pour tout 1 ≤ k ≤ 2p, E(X k ) = (−i)k ak k!.
k=1
Indications pour la démonstration (laissée en exercice non corrigé) : Supposons que ΦX soit
n-fois dérivable en 0. Faisons un raisonnement par récurrence finie sur k tel que 2k ≤ n, en
prenant pour propriété de récurrence à l’ordre k, ( P k ) : "M2k < +∞."
• Montrons d’abord ( P 1 ).
Pour simplifier notons f la partie-réelle de ΦX et g sa partie-imaginaire. Montrer que g
(2n) (2n)
est
impaire et fpaire. En déduire ΦX (0) = f (0). Montrer que la suite de fonctions
1
2n2 (1 − f ( )) converge dans R vers −f 00 (0). En appliquant le lemme de Fatou (proposition
n N x
3.12, page 38) à la suite de fonctions 2n2 (1 − cos ) , prouver que M2 ≤ −f 00 (0) < +∞.
n N
• Montrons l’hérédité de la propriété.
Supposons ( P k−1 ), pour un entier naturel k tel que 2k ≤ n, et montrons
Z ( Pk) :
(2k−2)
Notons h la partie-réelle de ΦX . Montrer que h(t) = (−1)k−1 x 2k−2 cos(tx)dPX (x)
R
(2k)
et que h00 (0) =ΦX (0). En déduire,Zen utilisant la convergence de la suite de fonctions

1 x (2k)
2n2 (1 − h( )) , que lim (−1)k−1 2n2 x 2k−2 (1 − cos )dPX (x) = −ΦX (0). En appli-
n N
n→+∞ R n
k (2k)
quant le lemme de Fatou, prouver que M2k ≤ (−1) ΦX (0) < +∞. Appliquer le théorème de
récurrence finie sur k pour conclure.
La deuxième partie résulte de la proposition 3.33 précédente.2
On notera que la connaissance des moments ne détermine pas en général la probabilité µ

(cf. [14], page 89, exemple 11.1). Cependant, sous certaines hypothèses, la connaissance des
moments détermine la probabilité µ. C’est le cas notamment dans le cas précisé par le résultat
suivant :
Proposition 3.36.
Soit µ une probabilité
Z sur R de f.c. Φ. Supposons qu’il existe un réel α > 0 tel que, pour tout
entier naturel n, |x |dµ(x) ≤ αn . Alors la f.c. Φ est développable en série entière sur R au
n
R
vosinage de 0.
Indications pour la démonstration (laissée en exercice non corrigé) : Justifier l’application de la

formule de Taylor-Lagrange à l’ordre n dont on majorera le reste pour prouver que la f.c. est
développable en série entière en 0 de rayon de convergence +∞. Conclure. 2
Une conséquence immédiate de ce résultat est :

Besançon
Proposition 3.37.
Soit µ uneZprobabilité sur R. Supposons qu’il existe un réel α > 0 tel que, pour tout entier
naturel n, |x n |dµ(x) ≤ αn . Si ν est une probabilité sur R ayant les mêmes moments que µ,
R
alors µ = ν.
Démonstration : D’après la proposition 3.36, les f.c. de µ et ν sont développables chacunes en

série entière. Comme, d’après la proposition 3.35, les coefficients des ces deux séries entières
sont complètement déterminés par les moments des probabilités µ et ν, et comme ces deux
probabilités ont les mêmes moments par hypothèse, on en déduit que les deux séries entières
sont identiques et par suite que leurs f.c., qui sont respectivement égales aux sommes de ces
deux séries, sont égales. On conclut par le théorème d’injectivité des f.c.. 2
3.4 Exercices de révision sur les chapitres I à III

Soit X une v.a.r. de loi N 1 (0, 1). Pour tout réel a > 0, on pose
Xa := X 1l{|X |≤a} − X 1l{|X |>a} .
1. Vérifier que, pour tout réel a > 0 et toute application h de R dans R,
h(Xa ) = h(X )1l[0,a] (|X |) + h(−X )1l]a,+∞[ (|X |).
2. En déduire que, pour tout réel positif a > 0, la v.a.r. Xa suit la loi normale réduite
centrée.

Soit X une variable aléatoire de densité f définie pour tout nombre réel x, par
 a
 x si − e ≤ x < −1
f (x) = x + 1 − a si − 1 ≤ x < 0
0 sinon

où a est un nombre réel.

1. Calculer a et déterminer la fonction de répartition F de X .
2. Calculer l’espérance de la variable aléatoire X .

Soit X une variable aléatoire normale centrée réduite. Préciser, dans chacun des cas ci-
dessous, la loi de probabilité de la variable aléatoire Y définie en fonction de X
1. Y = X 3 .
2. Y = F (X ) où F est la fonction de répartition de la variable X .

Besançon

Soit α un paramètre réel strictement positif et f l’application définie sur R par
1 −αx
2
αe si x ≥ 0
f (x) = 1 αx
2
αe si x ≤ 0
1. Vérifier que f est bien une densité de probabilité.
2. Soit X une variable aléatoire réelle de densité f , quelle est la loi de la variable aléatoire
Y = |X | ? En déduire la variance de la variable X .

Soit X une variable aléatoire réelle uniforme continue sur [0, 1]. Montrer que la relation
1
Y = − ln(1−X ), où α est un paramètre réel strictement positif, définit presque-sûrement
α
une variable aléatoire réelle. Quelle est la loi de la variable aléatoire Y ?

Soit X une v.a.r. normale de loi N (m, σ 2 ), où m et σ sont des réels avec σ > 0.
1. Montrer que la fonction caractéristique de X peut s’exprimer à l’aide de la fonction
caractéristique Φ de la loi de Gauss-Laplace standard N (0, 1).
Z
2. En utilisant le théorème 3.32, page 57, de dérivation sous le signe , montrer
que Φ est une solution particulière de l’équation différentielle du premier ordre
y 0 (t) + ty (t) = 0. En déduire l’expression analytique de la fonction Φ, puis celle
de la fonction caractéristique de la variable X .

1. Montrer que si X et Y sont deux v.a.r. presque-sûrement égales, alors elles ont la
même loi. Montrer que la réciproque est fausse.
2. Soient X et Y deux v.a.r. de même loi, g une application borélienne de R dans R.
Montrer que les v.a.r. g (X ) et g (Y ) ont la même loi. Soit Z une autre v.a.r., montrer
que les v.a.r. X Z et Y Z n’ont pas nécessairement la même loi.

Calculer la fonction caractéristique des variables aléatoire suivantes (pour les définitions
se reporter au formulaire de l’annexe A, page 205) :
1. X suit une loi géométrique G(p).
2. Y suit une loi uniforme U([a, b]).
3. Z suit une loi exponentielle E(α).

Soit µ une mesure de probabilité sur R et D une partie partout dense dans R (i.e.
l’adhérence de D est égale à R) telle que, pour tout t ∈ D, Fµ (t) ∈ {0, 1}. Montrer
qu’il existe a ∈ R tel que µ = δa .

Besançon
Chapitre 4. Indépendance stochastique 61
Chapitre 4
Indépendance stochastique
Dans la suite, si A et B sont respectivement des parties de Rn et Rp , on posera avec un léger
abus,
A×B := {(x1 , · · · , xn+p ) ∈ Rn+p /(x1 , · · · , xn ) ∈ A et (xn+1 , · · · , xn+p ) ∈ B},
c-à-d A×B := (A×Rp ) ∩ (Rn ×B). De même, si a := (a1 , · · · , an ) ∈ Rn et b := (b1 , · · · , bp ) ∈
Rp , on notera (a, b) := (a1 , · · · , an , b1 , · · · , bp ) considéré comme élément de Rn+p . On dit que
(a, b) est obtenu par concaténation de a et b.
4.1 Intégration sur Rn+p

Pour introduire la problématique de l’intégration sur Rn+p , commençons par considérer les deux
situations suivantes :
1) Soient a := (a1 , · · · , an ) ∈ Rn et b := (b1 , · · · , bp ) ∈ Rp . On remarque qu’avec les notations
précisées en préliminaires on peut écrire, pour tous boréliens A et B respectivement de Rn et
Rp ,
δ(a,b) (A×B) = 1lA×B (a, b) = 1lA (a)1lB (b) = δa (A)δb (B).
2) De même, considérons la mesure de Lebesgue sur R2 . Par définition pour tous réels
a, b, c, d, avec a < b et c < d, λ(2) (]a, b]×]c, d]) = λ(]a, b])λ(]c, d]) où λ désigne la mesure
de Lebesgue sur R. Plus généralement on montre que, pour tous boréliens A et B de R,
λ(2) (A×B) = λ(A)λ(B).
Généralisons ces situations en considérant le problème suivant : Étant donné deux mesures µ et
ν respectivement sur Rn et Rp , existe-t-il une mesure α sur Rn+p telle que, pour tous boréliens A
et B respectivement de Rn et Rp , α(A×B) = µ(A)ν(B) ? Si oui, y a-t-il unicité de la mesure α ?
On montre que dans le cas où µ et ν sont des probabilités la réponse est positive. Dans le cas
des mesures plus générales ce n’est plus nécessairement vrai, cependant c’est encore vrai pour
les mesures de Lebesgue. Plus précisément, on admettra le résultat suivant :
Proposition 4.1.
Soit µ (respectivement ν) une probabilité ou la mesure de Lebesgue sur Rn (respectivement
sur Rp ) alors il existe une unique mesure sur Rn+p , notée µ ⊗ ν, telle que, pour tous boréliens
A et B respectivement de Rn et Rp , µ ⊗ ν(A×B) = µ(A)ν(B).

Besançon
Définition 4.1.
On dit que µ ⊗ ν est le produit des mesures µ et ν. On dit aussi que µ ⊗ ν est une
mesure-produit sur Rn+p .
On notera que toutes les mesures sur Rn+p ne sont pas nécessairement des mesures-produit.
Exemples 4.1.
On admettra que, pour tous entiers n ≥ 1 et p ≥ 1, λ(n+p) = λ(n) ⊗ λ(p) . En particulier on
utilisera souvent la relation λ(2) = λ ⊗ λ. 2
Le théorème suivant, énoncé sous la forme la plus utilisée dans ce cours, est un cas particulier
du théorème de Tonelli vu en théorie de la mesure et de l’intégration. Il donne un procédé
de calcul des intégrales sur Rn+p . Il permettra par un procédé de récurrence d’en déduire une
méthode de calcul des intégrales sur Rd .
Proposition 4.2.
Théorème de Tonelli (admis)
Soient µ une probabilité ou la mesure de Lebesgue sur Rn , ν une probabilité ou la mesure de
Lebesgue sur Rp et f une application borélienne positive de Rn+p dans [0, +∞], alors
1. Pour tous y ∈ Rp et x ∈ Rn , les applications partielles
u ∈ Rn 7→ f (u, y ) ∈ [0, +∞] et v ∈ Rp 7→ f (x, v ) ∈ [0, +∞]
sont boréliennes positives.

2. Les applications
Z Z
n p
x ∈ R 7→ f (x, v )dν(v ) ∈ [0, +∞] et y ∈ R 7→ f (u, y )dν(u) ∈ [0, +∞]
Rp Rn
sont boréliennes positives,

3. On a les égalités
Z Z Z
f d(µ ⊗ ν) = f (x, y )dµ(x) dν(y )
Rn+p Rp Rn
Z Z
= f (x, y )dν(y ) dµ(x).
Rn Rp
Le théorème de Tonelli permet en pratique de ramener le calcul d’une intégrale multiple, i.e.
sur Rd , au calcul d’une succession de d intégrales simples, i.e. sur R, pour lesquelles on
peut appliquer séparément les règles d’intégration déjà vues au chapitre III.
Ce résultat est encore vrai pour les applications f de signe quelconque à condition qu’elles
soient supposées intégrables sur Rn+p suivant la mesure-produit µ ⊗ ν. Il est alors connu sous
le nom de théorème de Fubini :
Besançon
Proposition 4.3.
Théorème de Fubini
Soient µ une probabilité ou la mesure de Lebesgue sur Rn , ν une probabilité ou la mesure de
Lebesgue sur Rp et f une application (µ ⊗ ν)-intégrable de Rn+p dans R, alors,
1. Pour µ-presque-tout x ∈ Rn , l’application y ∈ Rp 7→ f (x, y ) ∈ R est ν-intégrable, et,
pour ν-presque-tout y ∈ Rp , l’application x ∈ Rn 7→ f (x, y ) ∈ R est µ-intégrable.
Z
p
2. L’application y ∈ R 7→ f (x, y )dµ(x) ∈ R est définie ν-presque-partout et ν-
Rn Z
n
intégrable, et l’application x ∈ R 7→ f (x, y )dν(y ) ∈ R est définie µ-presque-partout
Rp
et µ-intégrable.
3. L’intégrale de fZ par rapport à la mesure-produit
Z Z µ ⊗ ν est donnée par :
f d(µ ⊗ ν) = f (x, y )dν(y ) dµ(x)
Rn+p ZRn ZRp
= f (x, y )dµ(x) dν(y ).
Rp Rn
D’autres notations sont utilisées dans les ouvrages pour noter une intégrale suivant une mesure-
produit. On trouvera indifféremment
Z Z Z
f d(µ ⊗ ν) = f (x, y ) d(µ ⊗ ν)(x, y ) = f (x, y ) dµ(x) ⊗ dν(y )
Rn+p ZR
n+p Rn+p
= f (x, y ) dµ(x)dν(y ).
Rn+p
Exemples 4.2.
Considérons l’application f définie sur R2 par f (x, y ) := 1l]0,+∞[ (x)1l]a,b[ (y )e −xy où a et b
sont des réels tels que 0 < a < b. C’est une fonction borélienne positive sur R2 . Appliquons
le théorème de Tonelli à f et à la mesure λ(2) = λ ⊗ λ,
Z Z Z
(2) −xy
f dλ = 1l]0,+∞[ (x) 1l]a,b[ (y )e dλ(y ) dλ(x)
R2 R R
Z Z
−xy
= 1l]a,b[ (y ) 1l]0,+∞[ (x)e dλ(x) dλ(y ).
R R
Ce qui donne en utilisant la règle d’intégration suivant la mesure de Lebesgue sur R des
fonctions boréliennes positives,
Z +∞ −ax
− e −bx
Z
(2) e
f dλ = dx
R2 0 x
Z Z b
1 1 b
= 1l]a,b[ (y ) dλ(y ) = dy = ln .
R y a y a
On a ainsi par la même occasion établi la valeur de l’intégrale généralisée au sens de
Riemann Z +∞ −ax
− e −bx

e b
dx = ln .2
0 x a

Besançon
Pour compléter les techniques d’intégration suivant la mesure de Lebesgue sur Rd , le théorème
suivant, dit de changement de variable, est très utile.
Rappelons qu’un difféomorphisme F de classe C 1 d’un ouvert U sur un ouvert V de Rd

est une application bijective, différentiable de U sur V telle que F −1 soit différentiable avec les
applications différentielles de F et F −1 continues. De plus si f1 , · · · , fd sont les applications-
composantes de F , on appelle jacobien de F au point u ∈ U le déterminant de la matrice carré
d’ordre d de coefficient général ∂j fi (u) où ∂j fi (u) désigne la dérivée-partielle de l’application fi
par rapport à la j ième variable calculée au point u ∈ U.
Proposition 4.4.
Théorème de changement de variable dans Rd (admis)
Soient T un difféomorphisme de classe C 1 d’un ouvert U sur un ouvert V de Rd et f une
application borélienne de Rd dans R. Notons J(v ) le jacobien de T −1 au point v ∈ V .
1. Si f est à valeurs dans [0, +∞], alors x ∈ Rd 7→ 1lV (x)f (T −1 (x))|J(x)| est une
application borélienne positive.
2. Si l’application x ∈ Rd 7→ 1lU (x)f (x) est λ(d) -intégrable sur Rd , alors l’application
x ∈ Rd 7→ 1lV (x)f (T −1 (x))|J(x)| est λ(d) -intégrable sur Rd .
De plus, dans les deux cas ci-dessus
Z Z
(d)
1lV (v )f T −1 (v ) |J(v )| dλ(d) (v ),

1lU (u)f (u)dλ (u) =
Rd Rd
qu’on écrit encore :

Z Z
(d)
f T −1 (v ) |J(v )| dλ(d) (v ).

f (u)dλ (u) =
U V
On dit alors qu’on a effectué le changement de variable v := T (u) où v désigne le vecteur

des "nouvelles" variables et u celui des "anciennes". On remarquera surtout que le jacobien
utilisé est celui de la transformation exprimant les "anciennes" variables en fonction des "nou-
velles" c-à-d de T −1 .
Illustrons par un exemple l’utilisation des théorèmes de Tonelli et de changement de variable.
Exemples 4.3.
Montrons que
Z
2 +y 2 ) π
I := 1l]0,+∞[2 (x, y )e −(x dλ(2) (x, y ) = .
R2 4
En effet, ici U :=]0, +∞[2 , u := (x, y ). Considérons le changement de variable x = r cos θ

Besançon
et y = r sin θ où v := (r , θ) ∈ V :=]0, +∞[×]0, π2 [. Comme |J(v )| = r , il vient

Z
2
I = 1l]0,+∞[×]0, π2 [ (r , θ)e −r r dλ(2) (r , θ)
2
ZR Z
−r 2
= 1l]0,+∞[ (r )e r 1l]0, π2 [ (θ)dλ(θ) dλ(r )
R R
Z Z Z +∞
−r 2 −r 2 π π
= 1l]0,+∞[ (r )e r dλ(r ) 1l]0, π2 [ (θ)dλ(θ) = e r dr = .
R R 0 2 4
Dans le calcul précédent on a utilisé le théorème de Tonelli et la règle d’intégration suivant
la mesure de Lebesgue sur R. 2

1) Déduire du résultat de l’exemple précédent les deux relations
Z +∞ Z +∞
−x 2 1√ 1 1 2
e dx = π et √ e − 2 x dx = 1.
0 2 2π −∞
2 2 2 2
Z remarquant que x + 2xy + 2y = (x + y ) + y , déduire de la question précédente
2) En
2 2
que e −(x +2xy +2y ) dλ(2) (x, y ) = π.
R2
Le théorème de Fubini ou de Tonelli sont en particulier très utiles dans les calculs faisant
intervenir des probabilités à densité définies sur Rd . Donnons un exemple d’utilisation de la
proposition 3.8, page 35, dans le calcul de lois de probabilité sur R2 .
Exemples 4.4.
Soit (X , Y ) un vecteur aléatoire de R2 dont la loi admet pour densité la fonction définie sur
R2 ρ := 21 1l∆ où ∆ := {(x, y ) ∈ R2 /|x| + |y | ≤ 1}. Cherchons la loi de la variable aléatoire
réelle X .
Soit A un borélien de R. Calculons PX (A). Par définition de la notion de loi et comme
{X ∈ A} = {(X , Y ) ∈ A×R},
PX (A) = P(X ∈ A) = P ((X , Y ) ∈ A×R)
Z
= P(X ,Y ) (A×R) = 1lA (x)1lR (y )dP(X ,Y ) (x, y ).
R2
D’après la règle d’intégration des mesures à densité sur R2 puis par application du théorème
de Tonelli à λ(2) = λ ⊗ λ,
Z Z
1
1lA (x)1lR (y )dP(X ,Y ) (x, y ) = 1lA (x)1lR (y ) 1l∆ (x, y )dλ(2) (x, y )
R2 2 2
ZR Z
1
= 1lA (x) 1l∆ (x, y )dλ(y ) dλ(x)
R R 2
Z
= 1lA (x)χ(x)dλ(x)
R
où on a posé après le calcul de l’intégrale

Z
1
χ(x) := 1l∆ (x, y )dλ(y ) = (1 − |x|)1l[−1,1] (x).
R 2

Besançon
Ce qui prouve que la variable aléatoire réelle X a pour loi la probabilité définie sur R par
la densité χ. On trouve par symétrie des rôles joués par X et Y que Y a même loi que X
(cela ne signifie pas que X = Y !). 2

Citer un exemple simple de variables aléatoires réelles X et Y distinctes et de même loi.
En fait on vient de montrer, sur un cas particulier, le résultat important ci-dessous qui affirme
que si un vecteur aléatoire admet une densité, alors ses composantes sont des variables aléatoires
réelles à densité. La réciproque est fausse en général comme le montre le contre-exemple proposé
dans l’exercice 4.4 ci-dessous. Plus précisément :
Proposition 4.5.
Si X := (X1 , · · · , Xd ) est un vecteur aléatoire de densité ρ sur Rd , alors, pour tout entier
1 ≤ k ≤ d, la v.a.r. Xk admet pour densité l’application χk définie sur R par
Z
χk (t) := ρ(x1 , · · · , xk−1 , t, xk+1 , · · · , xd )dλ(d−1) (x1 , · · · , xk−1 , xk+1 , · · · , xd ).
Rd−1
La réciproque est fausse.

Démontrer cette proposition pour d = 3 en adaptant la démarche développée dans
l’exemple précédent dans lequel on avait d = 2.

Soit X une variable aléatoire réelle de loi normale standard N 1 (0, 1). On pose ∆ :=
{(x, y ) ∈ R2 , y = x}, Prouver que P(X ,X ) (∆) = 1. En supposant que le vecteur aléatoire
(X , X ), admette une densité sur R2 , prouver que, sous cette hypothèse, P(X ,X ) (∆) = 0.
En déduire que le vecteur aléatoire (X , X ) de dimension 2 n’admet pas de densité sur R2
et que la réciproque de la proposition 4.5 est fausse.
4.2 Indépendance de vecteurs aléatoires, d’événements,

de tribus
4.2.1 Indépendance de vecteurs aléatoires
Exemples 4.5.
Revenons à l’exemple 4.4 de la page 65 pour montrer que, dans ce cas, P(X ,Y ) 6= PX ⊗ PY .
En effet, considérons le borélien de R2 , G :=] 21 , 1[×] 12 , 1[, et comparons P(X ,Y ) (G ) avec

PX ⊗ PY (G ). Il vient d’une part,
Z Z
1
P(X ,Y ) (G ) = 1lG (x, y )dP(X ,Y ) (x, y ) = 1lG (x, y ) 1l∆ (x, y )dλ(2) (x, y ) = 0
R2 R2 2
Besançon
car 1lG 1l∆ est l’application nulle sur R2 , et d’autre part,

1 1
PX ⊗ PY (G ) = PX ] , 1[ PY ] , 1[ .
2 2
Or
Z Z Z 1
1 1
PX ] , 1[ = 1l] 1 ,1[ dPX = (1 − |x|)1l[−1,1] (x)1l] 1 ,1[ (x)dλ(x) = (1 − x)dx = .
2 R
2
R
2 1
2
8
Ce qui montre que 0 = P(X ,Y ) (G ) 6= PX ⊗ PY (G ) = ( 18 )2 et prouve que le produit des lois

de X et Y , qui est une probabilité sur R2 , n’est pas égal à la loi du vecteur (X , Y ) i.e.
P(X ,Y ) 6= PX ⊗ PY . 2
Les situations pour lesquelles on aura l’égalité seront celles où on dira qu’il y a indépendance
des variables suivant la définition :
Définition 4.2.
Une suite finie de vecteurs aléatoires (X1 , · · · , Xn ), de dimensions quelconques (éventuellement
distinctes), est dite indépendante (relativement à P) si
P(X1 ,··· ,Xn ) = PX1 ⊗ PX2 ⊗ · · · ⊗ PXn .
On dit aussi, par abus, que les vecteurs aléatoires X1 , · · · , Xn sont indépendants. Il s’agit là
d’un abus car l’indépendance est une propriété de la suite (X1 , · · · , Xn ) et non de chacune des
variables aléatoires réelles Xk .
Définition 4.3.
La loi du vecteur aléatoire concaténé X := (X1 , · · · , Xn ) est dite aussi loi conjointe des
vecteurs X1 , · · · , Xn . Pour tout entier k = 1, · · · , n, la loi du vecteur aléatoire Xk s’appelle
alors la loi marginale de X de rang k.
Exemples 4.6.
Avec cette terminologie, on peut énoncer le résultat de l’exemple 4.5 précédent en expri-
mant que le couple de variables aléatoires réelles (X , Y ) n’est pas indépendant.
Dans le chapitre sur les convergences de suite de variables aléatoires réelles on aura besoin de
la définition suivante :
Définition 4.4.
Une suite infinie (Xk )N de vecteurs aléatoires est dite indépendante (relativement à P) si
toute sous-famille finie est indépendante relativement à P.
On montre que si (µk )k∈I , où I ⊆ N, est une suite (finie ou infinie) de probabilités sur R, on
peut toujours construire un espace de probabilité (Ω, F, P) et une suite indépendante (Xk )k∈I
de variables aléatoires réelles définies sur (Ω, F, P) telle que, pour tout k ∈ I , µk soit la loi de
la variable aléatoire réelle Xk .
On peut vérifier aisément qu’une suite infinie de vecteurs aléatoires (Xk )N est indépendante si,
et seulement si, pour tout entier n ∈ N, la suite finie (X0 , · · · , Xn ) est indépendante.
Besançon

Soit (U, V ) un couple indépendant de variables aléatoires réelles dont la loi de chaque
composante
√ est la loi uniforme U([0,
√ 1]) de densité 1l[0,1] . On définit les variables aléatoires
X := −2 ln U cos(2πV ) et Y := −2 ln U sin(2πV ).
1. Montrer que le vecteur aléatoire (X , Y ) de dimension 2 admet pour densité
1 − x 2 +y 2
l’application définie sur R2 par ρ(x, y ) := e 2 . On dit qu’il suit une loi nor-
2π
male de dimension 2. Les vecteurs de ce type seront étudiés plus en détail au
chapitre suivant.
2. Montrer que les variables aléatoires réelles X et Y ont toutes les deux pour loi
N 1 (0, 1).
3. Déduire des questions précédentes que le couple de variables aléatoires réelles (X , Y )
est indépendant.
4.2.2 Critères d’indépendance de vecteurs aléatoires

Les propositions qui suivent ont pour but de donner des critères permettant de reconnaître si
une suite finie de vecteurs aléatoires est indépendante.
Proposition 4.6.
Soit (X1 , · · · , Xn ) une suite de vecteurs aléatoires de dimensions respectives d1 , · · · , dn . Les
assertions suivantes sont équivalentes :
1. La suite (X1 , · · · , Xn ) est indépendante.
2. Pour tout entier 1 ≤ k ≤ n et tout borélien Bk de Rdk ,
P(X1 ,··· ,Xn ) (B1 ×B2 × · · · ×Bn ) = PX1 (B1 )PX2 (B2 ) · · · PXn (Bn ).
P [X1 , · · · , Xn ) ∈ B1 × · · · ×Bn ] = P(X1 ∈ B1 ) · · · P(Xn ∈ Bn ).
P [{X1 ∈ B1 } ∩ · · · ∩ {Xn ∈ Bn }] = P(X1 ∈ B1 ) · · · P(Xn ∈ Bn ).
Démonstration : "(1) implique (2)" résulte de la définition des produits de lois. "(2) implique
(3)" résulte de la définition de la notion de loi et des notations. "(3) implique (4)" résulte de
la relation ensembliste immédiate à vérifier :
{(X1 , · · · , Xn ) ∈ B1 × · · · ×Bn } = {X1 ∈ B1 } ∩ {X2 ∈ B2 } ∩ · · · ∩ {Xn ∈ Bn }.
L’implication " (4) implique (1) " résulte de ce que la probabilité P(X1 ,··· ,Xn ) vérifie la propriété
caractéristique des mesures-produits : Pour tout entier 1 ≤ k ≤ n et tout borélien Bk de Rdk ,
P(X1 ,··· ,Xn ) (B1 ×B2 × · · · ×Bn ) = PX1 (B1 )PX2 (B2 ) · · · PXn (Bn ). Par unicité de la mesure-produit,
on en déduit que P(X1 ,··· ,Xn ) = PX1 ⊗ PX2 ⊗ · · · ⊗ PXn . Ce qui prouve (1). 2

Besançon
Dans les cas où on manipule des variables aléatoires réelles discrètes la proposition précédente
a pour corollaire le critère d’indépendance ci-dessous. Pour simplifier on supposera que les
variables aléatoires réelles sont portées par N mais le résultat se généralise aux variables
aléatoires réelles portées par un ensemble dénombrable quelconque de R, notamment Z.
Proposition 4.7.
Critère des v.a.r. discrètes
Soit (X1 , · · · , Xn ) une suite de variables aléatoires réelles discrètes portées par N, alors la suite
(X1 , · · · , Xn ) est indépendante si, et seulement si, pour tout (k1 , · · · , kn ) ∈ Nn ,
P ({X1 = k1 } ∩ · · · ∩ {Xn = kn }) = P(X1 = k1 ) · · · P(Xn = kn ).
Démonstration : La condition nécessaire résulte de l’implication "(1) implique (4)" de la

proposition précédente où on a pris Bi := {ki }, i = 1, · · · , n, qui sont bien des boréliens
de R.
La condition suffisante résulte du fait que P(X1 ,··· ,Xn ) est une probabilité discrète sur Rn , elle est
donc entièrement déterminée par la connaissance des nombres
P(X1 ,··· ,Xn ) ({k1 }×{k2 }× · · · ×{kn })
qui sont, par hypothèse, égaux à
P(X1 = k1 )P(X2 = k2 ) · · · P(Xn = kn ).
De même on vérifie que PX1 ⊗ · · · ⊗ PXn est une probabilités portée par Nn donc discrète. Elle
est donc entièrement déterminée par la connaissance des nombres
PX1 ⊗ · · · ⊗ PXn ({k1 }×{k2 }× · · · ×{kn }) = P(X1 = k1 )P(X2 = k2 ) · · · P(Xn = kn ).
Par suite
P(X1 ,··· ,Xn ) = PX1 ⊗ · · · ⊗ PXn .
Ce qui prouve l’indépendance de la suite (X1 , · · · , Xn ). 2
Exemples 4.7.
Reprenons les notations de l’exemple 3.12, page 42. X := (X1 , X2 ) est un vecteur aléatoire
de dimension 2 de loi X 1
PX := δ .
k+l (k,l)
k≥1,l≥1
2
Par suite, pour tous k ∈ N∗ et l ∈ N∗ ,

1 1
P[{X1 = k} ∩ {X2 = l}] = et P(X1 = k) = P(X2 = k) = .
2k+l 2k
Ce qui montre que, pour tous k ∈ N∗ et l ∈ N∗ ,
P[{X1 = k} ∩ {X2 = l}] = P(X1 = k)P(X2 = l)
et prouve ainsi l’indépendance de la suite de variables aléatoires réelles (X1 , X2 ). 2

Besançon
On vient d’établir un critère d’indépendance pour une grande famille de probabilités, celle des
probabilités discrètes, donnons maintenant un critère pour une autre grande famille de proba-
bilités, celle des probabilités à densité.
Proposition 4.8.
Critère des v.a.r. à densité
1. Si (X1 , · · · , Xn ) est une suite indépendante de variables aléatoires réelles telle que, pour
tout k = 1, · · · , n, la variable aléatoire réelle Xk soit de densité ρk sur R, alors le vecteur
aléatoire X := (X1 , · · · , Xn ) de dimension n admet pour densité sur Rn l’application
ρ : (x1 , · · · , xn ) ∈ Rn 7→ ρ(x1 , · · · , xn ) := ρ1 (x1 )ρ2 (x2 ) · · · ρn (xn ) ∈ [0, +∞].
2. Réciproquement, si X := (X1 , · · · , Xn ) est un vecteur aléatoire de dimension n admettant

pour densité sur Rn une application ρ définie par une relation de la forme ρ(x1 , · · · , xn ) :=
g1 (x1 )g2 (x2 ) · · · gn (xn ), où, pour tout k = 1, · · · , n, gk est une application borélienne
positive de R dans [0, +∞], alors la suite de variables aléatoires réelles (X1 , · · · , Xn )
est indépendante et, pour tout k = 1, · · · , n, la variable aléatoire réelle Xk admet pour
densité sur R l’application
gk (t)
χk : t ∈ R 7→ χk (t) := R ∈ [0, +∞].
g dλ
R k
Démonstration : Pour simplifier les notations, faisons la démonstration dans le cas n = 3.

1) Soient (X , Y , Z ) une suite indépendante de variables aléatoires réelles et h une application
borélienne positive de R3 dans [0, +∞]. Par le théorème du transfert, l’indépendance de la
suite (X , Y , Z ) i.e. P(X ,Y ,Z ) = PX ⊗ PY ⊗ PZ , puis en appliquant le théorème de Tonelli à
PX ⊗ PY ⊗ PZ , la définition des lois à densité et à nouveau le théorème de Tonelli en sens
inverse à λ ⊗ λ ⊗ λ = λ(3) , il vient successivement
Z
E[h(X , Y , Z )] = h(u, v , w )dPX ⊗ PY ⊗ PZ (u, v , w )
R3
Z Z Z
= h(u, v , w )dPX (u) dPY (v ) dPZ (w )
R R R
Z Z Z
= h(u, v , w )ρ1 (u)dλ(u) ρ2 (v )dλ(v ) ρ3 (w )dλ(w )
ZR R R
= h(u, v , w )ρ1 (u)ρ2 (v )ρ3 (w )dλ(3) (u, v , w ).

R3
Ce qui prouve que la loi du vecteur aléatoire (X , Y , Z ) admet pour densité sur R3 l’application
ρ définie par ρ(u, v , w ) := ρ1 (u)ρ2 (v )ρ3 (w ).
2) Supposons que le vecteur aléatoire (X , Y , Z ) admette pour densité sur R3 l’application ρ
définie par ρ(u, v , w ) := g1 (u)g2 (v )g3 (w ).
Commençons par étudier la loi de la première composante X .
D’après la proposition 4.5,Rla variable aléatoire réelle X admet pour densité sur R l’application
χ1 définie par χ1 (t) := R2 ρ(t, u, v )dλ(2) (u, v ). Par application du théorème de Tonelli à
Besançon
λ(2) = λ ⊗ λ, il vient
Z Z Z
(2)
χ1 (t) = g1 (t)g2 (u)g3 (v )dλ (u, v ) = g1 (t) g2 (u) g3 (v )dλ(v ) dλ(u)
R2 R R
Z Z
g1 (t)
= g1 (t) g2 dλ g3 dλ = R ,
R R g dλ
R 1
car, comme ρ est une densité de probabilité,

Z Z
(3)
1= ρ(t, u, v )dλ (t, u, v ) = g1 (t)g2 (u)g3 (v )dλ(3) (t, u, v )
R3 3
RZ Z Z
= g1 dλ g2 dλ g3 dλ .
R R R
R
On notera que cela implique en particulier que R g1 dλ 6= 0. On trouve de la même manière
un résultat analogue pour Y et Z .
Montrons l’indépendance de la suite (X , Y , Z ).
Soient A, B, C des boréliens de R. En notant que, pour tout ω ∈ Ω,
1l{(X ,Y ,Z )∈A×B×C } (ω) = 1l{X ∈A}∩{Y ∈B}∩{Z ∈C } (ω) = 1l{X ∈A} (ω)1l{Y ∈B} (ω)1l{Z ∈C } (ω)
et 1l{X ∈A} (ω) = 1lA (X (ω)), en utilisant les propriétés de l’opérateur d’intégration donnée dans
la proposition 3.1, page 30, puis en appliquant les théorèmes du transfert et de Tonelli, il vient
P(X ,Y ,Z ) (A×B×C ) = E[1l{(X ,Y ,Z )∈A×B×C } ] = E[1lA (X )1lB (Y )1lC (Z )]

Z
= 1lA (x)1lB (y )1lC (z)g1 (x)g2 (y )g3 (z)dλ(3) (x, y , z, )
3
RZ Z Z
= 1lA g1 dλ 1lB g2 dλ 1lC g3 dλ .
R R R
De plus, comme les variables aléatoires réelles X , Y , et Z ont pour densités respectives χ1 , χ2 ,
et χ3 ,
Z Z Z
PX (A)PY (B)PZ (C ) = 1lA χ1 dλ 1lB χ2 dλ 1lC χ3 dλ
R R R
Z Z Z
g1 (t) g2 (t) g3 (t)
= 1lA (t) R dλ(t) 1lB (t) R dλ(t) 1lC (t) R dλ(t)
R R
g 1 dλ R R
g 2 dλ R g dλ
R 3
Z Z Z
= 1lA g1 dλ 1lB g2 dλ 1lC g3 dλ ,
R R R
toujours en vertu de Z Z Z
g1 dλ g2 dλ g3 dλ = 1.
R R R
Ce qui montre que, pour tous boréliens A, B, C de R,
P(X ,Y ,Z ) (A×B×C ) = PX (A)PY (B)PZ (C )
et prouve ainsi l’indépendance de la suite de variables aléatoires réelles (X , Y , Z ). 2

Besançon
Donnons un autre énoncé, beaucoup plus utile dans la pratique, du critère d’indépendance des
variable aléatoire réelle à densité :
Proposition 4.9.
Soit (X1 , · · · , Xn ) une suite de variables aléatoires réelles telle que, pour tout k = 1, · · · , n, la
variable aléatoire réelle Xk soit de densité ρk sur R. Alors la suite de variables aléatoires réelles
(X1 , · · · , Xn ) est indépendante si, et seulement si, le vecteur aléatoire X := (X1 , · · · , Xn ) de
dimension n admet pour densité sur Rn l’application
ρ : (x1 , · · · , xn ) ∈ Rn 7→ ρ(x1 , · · · , xn ) := ρ1 (x1 )ρ2 (x2 ) · · · ρn (xn ) ∈ [0, +∞].
Démonstration : La condition nécessaire est l’assertion 1) de la proposition 4.8 précédente et

la condition suffisante résulte deR l’assertion 2) avec, pour tout k = 1, · · · , n, gk := ρk en
remarquant que, par hypothèse, R ρk dλ = 1. 2.
Exemples 4.8.
1) Reprenons les notations de l’exercice 4.5, page 68. On y établit que le vecteur aléatoire
1 − x 2 +y 2
(X , Y ) de dimension 2 admet pour densité sur R2 l’application ρ(x, y ) := e 2 et
2π
que les variables aléatoires réelles X et Y suivent la même loi N 1 (0, 1). Leurs densités
1 t2
ρX et ρY sur R sont définies sur R par ρX (t) = ρY (t) = √ e − 2 et vérifient la rela-
2π
tion ρ(x, y ) = ρX (x)ρY (y ), ce qui prouve l’indépendance de la suite de variables aléatoires
réelles (X , Y ) en vertu de la proposition précédente.
2) Dans l’exemple 4.4, page 65, on vérifie aisément que ρ(x, y ) 6= χ(x)χ(y ), ce qui est une
autre façon de prouver que la suite de variables aléatoires réelles (X , Y ) n’est pas indépen-
dante. 2
Donnons un critère valable pour des vecteurs aléatoires généraux sans hypothèses sur le type
de loi qu’ils satisfont.
Proposition 4.10.
Critère des fonctions positives
Soit (X1 , · · · , Xn ) une suite de vecteurs aléatoires de dimensions respectives d1 , · · · , dn . Alors,
la suite (X1 , · · · , Xn ) est indépendante si, et seulement si, pour tout entier 1 ≤ k ≤ n et toute
application borélienne positive fk de Rdk dans [0, +∞],
E [f1 (X1 )f2 (X2 ) · · · fn (Xn )] = E [f1 (X1 )] E [f2 (X2 )] · · · E [fn (Xn )] .
Démonstration : Faisons la démonstration pour n = 2.

• - C.N. Par application des théorèmes du transfert et de Tonelli où on utilise l’indépendance
Besançon
en écrivant P(X1 ,X2 ) = PX1 ⊗ PX2 , il vient

Z
E [f1 (X1 )f2 (X2 )] = f1 (x)f2 (y )dP(X1 ,X2 ) (x, y )
Rd1 +d2
Z Z
= f1 (x) f2 (y )dPX2 (y ) dPX1 (x)
Rd1 Rd2
Z Z
= f1 dPX1 f2 dPX2
Rd1 Rd2
= E [f1 (X1 )] E [f2 (X2 )] .
• - C.S. Il suffit de prendre f1 := 1lA et f2 := 1lB où A et B sont des boréliens respectivement

de Rd1 et Rd2 . En explicitant la relation de l’hypothèse
E [1lA (X1 )1lB (X2 )] = E [1lA (X1 )] E [1lB (X2 )]
on obtient
P[(X1 , X2 ) ∈ A×B] = P[X1 ∈ A]P[X2 ∈ B],
ce qui prouve que P(X1 ,X2 ) = PX1 ⊗ PX2 . 2
A titre d’exemple d’utilisation de cette proposition, donnons un corollaire très utile dans les
calculs faisant intervenir des variables aléatoires réelles indépendantes et intégrables :
Proposition 4.11.
Soit (X1 , · · · , Xn ) une suite de variables aléatoires réelles intégrables. Si la suite (X1 , · · · , Xn )
est indépendante, alors la variable aléatoire réelle produit X1 X2 · · · Xn est intégrable et
E[X1 X2 · · · Xn ] = E(X1 )E(X2 ) · · · E(Xn ).

Démonstration : Faisons-la pour deux variables aléatoires réelles X et Y indépendantes et
intégrables i.e. E(|Y |) < +∞ et E(|X |) < +∞. On peut écrire
E(|X Y |) = E(|X ||Y |) = E(|X |)E(|Y |) < +∞,
où on a appliqué, dans la deuxième égalité, la proposition 4.10 avec les fonctions positives
x 7→ |x| grâce à l’indépendance de (X , Y ). On a donc prouvé que la variable aléatoire réelle
X Y est intégrable.
Montrons la deuxième relation. Remarquons qu’en introduisant les parties positives et négatives
des v.a.r. , on peut écrire
X Y = (X + − X − )(Y + − Y − ) = X + Y + + X − Y − − X − Y + − X + Y −
qui donne, en prenant les espérances de chaque membres de l’égalité précédente et en appliquant
la proposition 4.10 aux fonctions boréliennes positives x 7→ x + et x 7→ x − ,
E(X Y ) = E[X + Y + ] + E[X − Y − ] − E[X − Y + ] − E[X + Y − ]

= E(X + )E(Y + ) + E(X − )E(Y − ) − E(X − )E(Y + ) − E(X + )E(Y − )
= E(X )E(Y ).
Besançon
d’où la relation cherchée. 2
L’exercice suivant propose un contre-exemple prouvant que la réciproque de la proposition

précédente 4.11 est fausse. Cet exercice est souvent à la base de nombreux contre-exemples
concernant l’indépendance des variables aléatoires.

Soient X une variable aléatoire réelle de loi N 1 (0, 1) et ε une variable aléatoire réelle in-
dépendante de X de loi 12 (δ−1 + δ1 ). Montrer que la variable aléatoire réelle Y := εX est
de loi N 1 (0, 1). Prouver que les v.a.r. X , Y vérifient la relation E(X Y ) = E(X )E(Y ) mais
que le couple (X , Y ) n’est pas indépendant (pour cela on calculera E(X 2 Y 2 ) et on utilisera
la proposition 4.10).
Proposition 4.12.
Critère des fonctions bornée
la suite (X1 , · · · , Xn ) est indépendante si, et seulement si, pour tout entier 1 ≤ k ≤ n et toute
application borélienne bornée fk de Rdk dans [0, +∞],
E [f1 (X1 )f2 (X2 ) · · · fn (Xn )] = E [f1 (X1 )] E [f2 (X2 )] · · · E [fn (Xn )] .
Démonstration : Faisons la démonstration pour n = 2.

• - C.N. Par application des théorèmes du transfert et de Fubini (car les fonctions boréliennes
bornées sont intégrables) où on utilise l’indépendance en écrivant P(X1 ,X2 ) = PX1 ⊗ PX2 , il vient
Z
E [f1 (X1 )f2 (X2 )] = f1 (x)f2 (y )dP(X1 ,X2 ) (x, y )
Rd1 +d2
Z Z
= f1 (x) f2 (y )dPX2 (y ) dPX1 (x)
Rd1 Rd2
Z Z
= f1 dPX1 f2 dPX2
Rd1 Rd2
= E [f1 (X1 )] E [f2 (X2 )] .
• - C.S. Il suffit de prendre f1 := 1lA et f2 := 1lB où A et B sont des boréliens respectivement
de Rd1 et Rd2 . En explicitant la relation de l’hypothèse
E [1lA (X1 )1lB (X2 )] = E [1lA (X1 )] E [1lB (X2 )]
on obtient
P[(X1 , X2 ) ∈ A×B] = P[X1 ∈ A]P[X2 ∈ B],
ce qui prouve que P(X1 ,X2 ) = PX1 ⊗ PX2 . 2

Soit (X , Y ) un couple indépendant de variables aléatoires réelles de même loi N 1 (m, σ 2 ),
montrer que E [(X + Y )2 ] = 4m2 + 2σ 2 .

Besançon
Comme corollaire de la proposition 4.11,

Proposition 4.13.
Soit X := (X1 , X2 , ..., Xd ) un vecteur aléatoire de carré intégrable de dimension d. Si la suite
de variables aléatoires réelles (X1 , X2 , ..., Xd ) est indépendante, alors la matrice de dispersion
de X est diagonale.
Démonstration : La proposition 4.11 entraîne que, pour tout couple d’entiers (i, j) avec i 6= j,
Cov(Xi , Xj ) = 0. On conclut en utilisant l’assertion 3) de la proposition 3.24, page 48. 2
Donnons un procédé simple de construction de suites indépendantes de vecteurs aléatoires à

partir de deux fonctions de v.a.r.. Ce procédé peut se généraliser à un nombre quelconque de
fonctions.
Proposition 4.14.
Indépendance de fonctions de v.a.r.
Si (X1 , · · · , Xn , Y1 , · · · , Yp ) est une suite indépendante de v.a.r., alors, pour toutes applications
boréliennes ϕ de Rn dans Rd1 et ψ de Rp dans Rd2 , le couple de vecteurs aléatoires
(ϕ(X1 , · · · , Xn ), ψ(Y1 , · · · , Yp )) est indépendant.
Démonstration : • Considérons les vecteurs aléatoires X := (X1 , · · · , Xn ) et Y := (Y1 , · · · , Yp ).

Commençons par montrer que le couple de vecteurs aléatoires (X , Y ) est indépendant. Comme
(X1 , · · · , Xn , Y1 , · · · , Yp ) est une suite indépendante, pour tous boréliens de R, A1 , · · · , An , il
vient
PX [A1 × · · · ×An ] = P(X1 ,··· ,Xn ) [A1 × · · · ×An ]

= P(X1 ,··· ,Xn ,Y1 ,··· ,Yp ) [A1 × · · · ×An ×Rp ]
= PX1 (A1 ) · · · PXn (An ).
Ce qui prouve que PX = P(X1 ,··· ,Xn ) = PX1 ⊗ · · · ⊗ PXn , et par suite
P(X ,Y ) = P(X1 ,··· ,Xn ,Y1 ,··· ,Yp )

= PX1 ⊗ · · · ⊗ PXn ⊗ PY1 ⊗ · · · ⊗ PYp
= PX ⊗ PY .
Le couple de vecteurs aléatoires (X , Y ) est donc indépendant.

• Considérons maintenant deux applications boréliennes positives f1 et f2 définies respectivement
sur Rd1 et Rd2 . Comme f1 ◦ ϕ et f2 ◦ ψ sont des fonctions boréliennes positives, en appliquant la
condition nécessaire du critère des fonctions positives à ces fonctions et à la suite indépendante
(X , Y ), il vient
E[f1 (ϕ(X ))f2 (ψ(Y ))] = E[f1 (ϕ(X ))]E[f2 (ψ(Y ))].
On applique alors la condition suffisante du critère des fonctions positives aux fonctions f1 , f2
et à la suite (ϕ(X ), ψ(Y )) pour conclure qu’elle est indépendante.2
On pourra vérifier que si un couple de vecteurs aléatoires (X , Y ) de dimensions respectives d

et k est indépendant avec X := (X1 , · · · , Xd ) et Y := (Y1 , · · · , Yk ) alors, pour tout (i, j) avec
Besançon
1 ≤ i ≤ d et 1 ≤ j ≤ k, le couple de v.a.r. (Xi , Yj ) est indépendant.
Donnons un cas particulier de la proposition précédente, très utilisé en pratique :

Proposition 4.15.
Indépendance de fonctions de v.a.r. (cas usuel)
Si (X1 , · · · , Xn ) est une suite indépendante de v.a.r., alors, pour toute suite d’applications
boréliennes (f1 , · · · , fn ) de R dans R, la suite de variables aléatoires réelles (f1 (X1 ), · · · , fn (Xn ))
est indépendante.
Terminons par un critère d’indépendance, simple d’application, utilisant les fonctions caractéris-
tiques :
Proposition 4.16.
Critère d’indépendance par les f.c.
la suite (X1 , · · · , Xn ) est indépendante si, et seulement si, pour tout u1 ∈ Rd1 , · · · un ∈ Rdn ,
Φ(X1 ,··· ,Xn ) (u1 , · · · , un ) = ΦX1 (u1 ) · · · ΦXn (un )

" n
!#
X
= E e i <u1 ,X1 > · · · E e i <un ,Xn > .

i.e. E exp i < uk , Xk >
k =1
Démonstration : • - C.N. Supposons que les vecteurs aléatoires (X1 , · · · , Xn ) sont indépendants.
Alors, pour tout u1 ∈ Rd1 , · · · , un ∈ Rdn ,
k=n
!
Y
i[<u1 ,X1 >+<u2 ,X2 >+···+<un ,Xn >]
e i<uk ,Xk >

Φ(X1 ,··· ,Xn ) (u1 , · · · , un ) = E e =E .
k=1
D’après la propriété 4.12, page 74, appliquée aux fonctions boréliennes bornées e i<u1 ,x1 > ,
e i<u2 ,x2 > , · · · , e i<un ,xn > , on a
k=n
Y
E e i<uk ,Xk > = ΦX1 (u1 ) · · · ΦXn (un ).

Φ(X1 ,··· ,Xn ) (u1 , · · · , un ) =
k=1
• - C.S. Soit u1 ∈ Rd1 , · · · , un ∈ Rdn , et u = (u1 , u2 , · · · , un ) ∈ Rd1 +d2 +···+dn . Soit

X = (X1 , X2 , · · · , Xn ) un vecteur aléatoire de dimension d1 + d2 + · · · + dn de loi PX , la
condition Φ(X1 ,··· ,Xn ) (u1 , · · · , un ) = ΦX1 (u1 ) · · · ΦXn (un ) s’écrit, en appliquant le théorème du
transfert et celui de Fubini,
Z Z
i<u,x>
e dP(X1 ,··· ,Xn ) (x) = e i<u,x> d[PX1 ⊗ PX2 ⊗ · · · ⊗ PXn ](x).
Rd1 +d2 +···+dn Rd1 +d2 +···+dn
Ce qui prouve que les probabilités PX1 ⊗ PX2 ⊗ · · · ⊗ PXn et P(X1 ,··· ,Xn ) ont les mêmes fonctions
caractéristiques, donc sont égales en vertu du critère d’identification des lois par les fonctions
caractéristiques. 2
Besançon
4.2.3 Indépendance d’événements, de tribus

On se donne comme référence un espace de probabilité (Ω, F, P). Les résultats précédents
incitent à élargir la notion d’indépendance aux famille d’événements (Ai )I et aux familles ( F i )I
de sous-tribus de F, où I est un ensemble quelconque.
Définition 4.5.
Une famille quelconque (Ai )I d’événements, est dite (mutuellement) indépendante pour
P si, pour toute sous-famille finie (Ai )K , K ⊆ I et K fini, on a :
!
\ Y
P Ai = P(Ai ).
i∈K i∈K
Définition 4.6.
Une famille quelconque ( F i )I de sous-tribus de F, est dite (mutuellement) indépendante
pour P si toute famille d’événements (Ai )I avec Ai ∈ F i , pour tout i ∈ I , est indépendante
pour P.
On dit aussi plus fréquemment, et par abus de langage, que les événements (Ai )I , sont in-
dépendants (resp. les tribus ( F i )I , sont indépendantes).
On remarquera bien que la notion d’indépendance dépend de la probabilité P choisie sur (Ω, F).
De plus si l’indépendance mutuelle d’une famille d’événements entraîne leur indépendance deux
à deux, il faut noter que la réciproque est fausse (cf. [14] ex. 3-1 à 3-3).
La preuve de l’indépendance de tribus peut s’établir en considérant des π-systèmes de

générateurs d’après la proposition :
Proposition 4.17.
Soient C et D deux familles d’événements stables par intersection finie (π-systèmes). Si, pour
tout (A, B) ∈ C × D, les événements A et B sont indépendants, alors les sous-tribus engendrées
respectivement par C et D sont indépendantes.
Démonstration : Il suffit de montrer que, pour tout (A, B) ∈ σ( C) × σ( D), P(A ∩ B) =

P(A)P(B).
• Montrons d’abord que, pour tout B ∈ D et pour tout A ∈ σ( C), on a P(A∩B) = P(A)P(B).
Soit B ∈ D fixé.
Si P(B) = 0, alors pour tout A ∈ σ( C), A ∩ B ⊆ B et par suite P(A ∩ B) ≤ P(B) = 0. Donc,
dans ce cas, pour tout A ∈ σ( C), on a bien P(A ∩ B) = 0 = P(A)P(B).
P(A ∩ B)
Si P(B) > 0, Considérons l’application A ∈ σ( C) 7→ PB (A) = ∈ [0, 1]. On vérifie
P(B)
aisément que c’est une probabilité sur (Ω, σ( C)). De plus la probabilité PB , coïncide avec la
probabilité P sur le π-système C, car en vertu de l’hypothèse, pour tout (A, B) ∈ C × D,
les événements A et B sont indépendants, on a bien P(A ∩ B) = P(A)P(B), c’est-à-dire
PB (A) = P(A). Donc d’après le théorème d’unicité pour les probabilités (cf. proposition 1.11,
page 14) on en déduit que la probabilité PB coïncide avec la probabilité P sur la tribu σ( C)
engendrée par le π-système C c’est-à-dire que, pour tout A ∈ σ( C), PB (A) = P(A), ou encore
Besançon
P(A ∩ B)
pour tout A ∈ σ( C), = P(A), ou P(A ∩ B) = P(A)P(B).
P(B)
En résumé, on a bien montré que, pour tout B ∈ D et pour tout A ∈ σ( C), on a
P(A ∩ B) = P(A)P(B).
• Montrons maintenant que, pour tout B ∈ σ( D) et pour tout A ∈ σ( C), on a P(A ∩ B) =
P(A)P(B).
Utilisons la même démarche. Soit A ∈ σ( C) fixé.
Si P(A) = 0, alors pour tout B ∈ σ( D), A ∩ B ⊆ A et par suite P(A ∩ B) ≤ P(A) = 0. Donc,
dans ce cas, pour tout B ∈ σ( D), on a bien P(A ∩ B) = 0 = P(A)P(B).
P(A ∩ B)
Si P(A) > 0, considérons l’application B ∈ σ( D) 7→ PA (B) = ∈ [0, 1]. On vérifie
P(A)
de même que c’est une probabilité sur (Ω, σ( D)). De plus la probabilité PA , coïncide avec la
probabilité P sur le π-système D, car en vertu de l’hypothèse, pour tout (A, B) ∈ C × D, les
événements A et B sont indépendants, on a P(A ∩ B) = P(A)P(B). Donc d’après le théorème
d’unicité pour les probabilités (cf. proposition 1.11, page 14) on en déduit que la probabilité PA
coïncide avec la probabilité P sur la tribu σ( D) engendrée par le π-système D c’est-à-dire que,
P(A ∩ B)
pour tout B ∈ σ( D), PA (B) = P(B), ou encore pour tout B ∈ σ( D), = P(B), ou
P(A)
P(A ∩ B) = P(A)P(B).
Finalement, on a bien montré que, pour tout B ∈ σ( D) et pour tout A ∈ σ( C), on a
P(A ∩ B) = P(A)P(B). 2
En utilisant la même démarche, on peut établir un critère d’indépendance des vecteurs aléatoires,
qui prouve que dans le critère 4.6, page 68, on peut se limiter qu’à certains boréliens de Rd :
Proposition 4.18.
Une suite (X1 , · · · , Xn ) de vecteurs aléatoires de dimensions respectives d1 , · · · , dn , est indépen-
dante si, et seulement si,
"k=n # k=n
\ Y
P {Xk ∈ Ak } = P(Xk ∈ Ak ),
k=1 k=1
pour tous Ak ∈ C k , où, pour tous k = 1, 2, · · · , n, C k est un π-système engendrant la tribu

borélienne B(Rdk ).
"k=n #
\
Démonstration : Pour la démonstration remarquer que la relation P {Xk ∈ Ak } =
k=1
k=n
Y k=n
Y
P(Xk ∈ Ak ), peut s’écrire encore P(X1 ,··· ,Xn ) (A1 × · · · × An ) = PXk (Ak ). On montre
k=1 k=1
la proposition pour n = 2 en raisonnant comme dans la proposition 4.17, puis on généralise par
récurrence au cas n quelconque. 2
En particulier, la proposition précédente 4.17 a pour corollaire le théorème :

Proposition 4.19.
Soit ( F i )I une famille indépendante de sous-tribus de F. Si K et J sont deux [
parties disjointes
[
et non vides de I , alors les tribus engendrées respectivement par les familles F i et Fi
i∈J i∈K
sont indépendantes.

Besançon
[
Démonstration : Notons C J la famille des intersections de familles finies d’événements de Fi.
\ i∈J
Un élément de C J est de la forme Ai où J 0 est une partie finie de J et, pour tout i ∈ J 0 ,
i∈J 0
Ai ∈ F i . [
On définit de même C K la famille des intersections de familles finies d’événements de Fi.
\ i∈K
Un élément de C K est de la forme Ai où K est une partie finie de K et, pour tout i ∈ K 0 ,
0
i∈K 0
Ai ∈ F i . ! !
[ [
• On a σ( C J ) = σ Fi et σ( C K ) = σ Fi .
i∈J i∈K [
En effet, en considérant les familles à un seul élément, on a facilement l’inclusion F i ⊆ CJ ,
! i∈J
[
d’où l’inclusion des tribus engendrées correspondantes σ F i ⊆ σ( C J ). Réciproque-
i∈J !
[
ment, par la stabilité de l’intersection finie dans les tribus, on a C J ⊆ σ F i , et
! i∈J
[
par suite σ( C J ) ⊆ σ F i . D’où l’égalité. On montre de la même façon la relation
! i∈J
[
σ( C K ) = σ F i . De plus, on vérifie aisément que les familles C J et C K sont des π-
i∈K
systèmes.
• Montrons que, pour tout (A, B) ∈ C J × C K , \
les événements A et B sont indépendants.
En effet, soit A ∈ C J et B ∈ C K . Alors A = Ai où J 0 est une partie finie de J et, pour
\ i∈J 0
tout i ∈ J 0 , Ai ∈ F i , et B = Ai où K 0 est une partie finie de K et, pour tout i ∈ K 0 ,
i∈K 0 \
Ai ∈ F i . Par suite, comme J ∩ K = Ø, on a J 0 ∩ K 0 = Ø, et A ∩ B = Ai . Il vient alors,
0
i∈J ∪K 0
!
\ Y
P(A ∩ B) = P Ai = P (Ai ) , car la suite ( F i )I est une famille indépendante de
i∈J 0 ∪K 0 i∈J 0 ∪K 0
sous-tribus de F. Par la commutativitéY
et l’associativité
Ydu produit,Y et puis par l’indépendance
des sous-tribus, on peut alors écrire P (Ai ) = P (Ai ) × P (Ai ) = P(A) × P(B).
i∈J 0 ∪K 0 i∈J 0 i∈K 0
Ce qui prouve que, pour tout (A, B) ∈ C J × C K , les événements A et B sont indépendants.
• On peut alors appliquer la proposition 4.17 aux π-systèmes C J et C K pour obtenir le résultat
recherché. 2
Comme corollaire, nous avons un résultat similaire avec les événements :
Proposition 4.20.
Soit (Ai )I une famille indépendante d’événements de F. Si K et J sont deux parties disjointes
et non vides de I , alors les tribus engendrées σ ((Ai )i∈J ) et σ ((Ai )i∈K ) sont indépendantes.

Besançon
Démonstration : Il suffit d’appliquer la proposition 4.19 à la famille des sous-tribus (σ(Ai ))I
de F, et[de remarquer [ que σ ((Ai )i∈J ) (resp. σ ((Ai )i∈K )) est aussi la tribu engendrée par la
famille σ (Ai ) (resp. σ (Ai )). 2
i∈J i∈K
On peut vérifier facilement que :
Proposition 4.21.
Si la famille d’événements (Ai )I est indépendante, il en est de même de la famille d’événements
(Bi )I où, pour tout i ∈ I , Bi := Ai ou Bi := Aci .
Définition 4.7.
Si X est un vecteur aléatoire de dimension d, on note σ(X ) la plus petite sous-tribu de F
rendant mesurable l’application X . σ(X ) s’appelle la tribu engendrée par la variable X .
On vérifie facilement que σ(X ) est l’ensemble des images-réciproques de tous les boréliens de
Rd . (cf. aussi exercice 4.20, page 93, pour une généralisation)
Exemples 4.9.
Si A est un événement de F, σ(1lA ) = σ(A) = {Ø, A, Ac , Ω}.
Avec ces notations, le lien entre la notion d’indépendance pour les événements, celle pour les
vecteurs aléatoires et celle pour les tribus est mis en évidence par les propositions suivantes
dont les démonstrations sont élémentaires et laissées en exercice :
Proposition 4.22.
Une famille quelconque (Xi )I de vecteurs aléatoires Xi de dimension di , i ∈ I , est indépendante
si, et seulement si, la famille de sous-tribus (σ(Xi ))I est indépendante.
Proposition 4.23.
La famille d’événements (Ai )I est indépendante si, et seulement si, la famille des sous-tribus
(σ(Ai ))I est indépendante.
Proposition 4.24.
La famille d’événements (Ai )I est indépendante si, et seulement si, la famille des v.a.r. (1lAi )I
est indépendante.
Proposition 4.25.
Si A et B sont deux sous-tribus de F indépendantes, X et Y deux vecteurs aléatoires
respectivement A-mesurable et B-mesurable, alors les vecteurs aléatoires X et Y sont
indépendants.
4.3 Tribu et événements asymptotiques

Soit (Ω, F, P) un espace de probabilité et (An )N une suite d’événements de F. Pour tout
n ∈ N, notons An la tribu engendrée par la suite d’événements (Ak )k≥n i.e. An :=
σ(An , An+1 , ..., An+k , ...).

Besançon
Définition 4.8.
Un événement A de F est dit événement asymptotique (relativement à la suite
d’événements (An )N ) si A est mesurable par rapport à toutes les tribus de la suite ( An )N . Cela
∞
\
équivaut à dire que A est mesurable par rapport à la tribu An appelée tribu asymptotique
n=0
relative à la suite d’événements (An )N .
La loi du Tout ou Rien de Kolmogorov donne des informations sur la valeur de la probabilité
d’un événement asymptotique relativement à une suite indépendante d’événements (An )N :
Proposition 4.26.
Loi du Tout ou Rien ou du Zéro-Un de Kolmogorov
Soit (An )N une suite indépendante d’événements. Si A est un événement asymptotique
relativement à la suite d’événements (An )N , alors P(A) = 0 ou P(A) = 1.
Démonstration : On note, pour tout entier naturel n, An := σ(An , An+1 , · · · , An+k , · · · ), et

∞
\
0
An := σ(A0 , A1 , A2 , · · · , An ). On note A la tribu asymptotique An .
n=0
L’idée de la démonstration est de montrer que la tribu asymptotique A est indépendante d’elle-
même.
• Montrons que, pour tout entier naturel n, An+1 = σ(An+1 , An+2 , · · · , An+k , · · · ), et
A0n := σ(A0 , A1 , A2 , · · · , An ) sont des tribus indépendantes.
Pour cela il suffit d’appliquer la proposition 4.20, en reprenant ses notations, au cas où I = N
avec J = {0, 1, · · · , n} et K = {n + 1, n + 2, · · · , n + k, · · · }.
• Montrons que, pour tout A ∈ A et pour tout B ∈ A0 , on a P(A ∩ B) =
P(A)P(B) (ce qui exprime que la tribu asymptotique A est indépendante de la tribu A0 :=
σ(A0 , A1 , A2 , · · · , Ak , · · · ).)
Remarquons tout d’abord que, suivant une démarche déjà utilisée dans la démonstration de la
\ A0 est également engendrée par le π-système C constitué des intersections
proposition 4.19,
de la forme Bi où I est une partie finie de N avec, pour tout i ∈ I , Bi ∈ σ(Ai ). Donc
i∈I
A0 = σ( C).
Il reste à montrer que, pour tout A ∈ A et pour tout B ∈ A0 , on a P(A ∩ B) = P(A)P(B).
Raisonnons comme dans la démonstration de la proposition 4.18.
Soit A ∈ A fixé.
Si P(A) = 0, alors pour tout B ∈ A0 , A ∩ B ⊆ A et par suite P(A ∩ B) ≤ P(A) = 0. Donc,
dans ce cas, pour tout B ∈ A0 , on a bien P(A ∩ B) = 0 = P(A)P(B).
P(A ∩ B)
Si P(A) > 0, considérons l’application B ∈ A0 7→ PA (B) = ∈ [0, 1]. C’est une
P(A)
probabilité sur (Ω, A0 ).
\ PA , coïncide avec la probabilité P sur le π-système C. En effet, soit B ∈ C,
La probabilité
alors B = Bi où I est une partie finie de N avec, pour tout i ∈ I , Bi ∈ σ(Ai ). Posons
i∈I
n0 = max(I ), alors B ∈ A0n0 = σ(A0 , A1 , A2 , · · · , An0 ). mais A ∈ A ⊆ An0 +1 . Comme
d’après le premier point de la démonstration, les tribus An0 +1 et A0n0 sont indépendantes, on
a P(A ∩ B) = P(A)P(B), c’est-à-dire PA (B) = P(B).
Donc d’après le théorème d’unicité pour les probabilités (cf. proposition 1.11, page 14) on en
déduit que la probabilité PA coïncide avec la probabilité P sur la tribu A0 = σ( C) engendrée
Besançon
par le π-système C c’est-à-dire que, pour tout B ∈ A0 = σ( C), PA (B) = P(B), ou encore
P(A ∩ B)
pour tout B ∈ A0 = σ( C), = P(B), et par suite P(A ∩ B) = P(A)P(B).
P(A)
Finalement, on a bien montré que, pour tout B ∈ A0 et pour tout A ∈ A, on a
P(A ∩ B) = P(A)P(B).
• Soit A un événement asymptotique relativement à la suite indépendante d’événements (An )N ,
i.e. A ∈ A. Comme A ⊆ A0 , on peut appliquer alors le résultat du point précédent à A ∈ A
et à B = A ∈ A0 , ce qui donne P(A ∩ A) = P(A)P(A), ou encore P(A) = [P(A)]2 , ce qui
implique que P(A) ne peut prendre que la valeur 0 ou la valeur 1. 2
Donnons deux exemples importants d’événements asymptotiques :

Si (An )N est une suite d’événements, on notera lim sup An l’ensemble des ω ∈ Ω tels que
{n ∈ N / ω ∈ An } est infini. En conséquence, l’événement lim sup An est réalisé si, et seulement
si, une infinité d’événements de la suite (An )N sont réalisés.
Si (An )N est une suite d’événements, on notera lim inf An l’ensemble des ω ∈ Ω tels que
{n ∈ N / ω 6∈ An } est fini. En conséquence, l’événement lim inf An est réalisé si, et seulement
si, tous les événements de la suite (An )N , sauf éventuellement un nombre fini d’entre eux, sont
réalisés.
La proposition suivante affirme que les événements lim sup(An ) et lim inf(An ) sont bien des
événements asymptotiques :
Proposition 4.27.
Si (An )N est une suite d’événements, alors
1. lim inf An ⊆ lim sup An . !
∞
\ [∞
2. lim sup An = Ak .
p=0 k=p
∞ ∞
!
[ \
3. lim inf An = Ak .
p=0 k=p
4. lim sup An et lim inf An sont des événements asymptotiques relativement à la suite
d’événements (An )N .
Démonstration : Les propriétés 1), 2) et 3) résultent directement des définitions de lim sup An
et lim inf An .
Montrons la propriété 4) pour l’événement lim sup An . Le raisonnement est analogue pour
∞
[
lim inf An . Posons, pour tout entier naturel p, Bp = Ak . La suite (Bn )N est une suite décrois-
k=p
∞
\ ∞
\
sante pour l’inclusion. Par suite, pour tout entier naturel p, Bk = Bk . La suite des tribus
k=0 k=p
( An := σ(An , An+1 , ..., An+k , ...))N est une suite décroissante, donc pour tout entier naturel p
et pour tout entier naturel k ≥ p, Bk ∈ Ak ⊆ Ap , ce qui implique que, pour tout entier naturel
\∞ ∞
\ ∞
\
p, Bk ∈ Ap . Par suite, pour tout entier naturel p, lim sup An = Bk = Bk ∈ Ap . Ce
k=p k=0 k=p

Besançon
∞
\
qui prouve que lim sup An ∈ Ap . 2
p=0
En combinant l’item 4) de la proposition 4.27 précédente et la loi du Tout ou Rien, on obtient

aisément le corollaire suivant :
Proposition 4.28.
Si (An )N est une suite indépendante d’événements, alors
1. P(lim sup An ) = 0 ou P(lim sup An ) = 1.
2. P(lim inf An ) = 0 ou P(lim inf An ) = 1.
Le lemme suivant donne des conditions suffisantes permettant de préciser laquelle des deux
valeurs possibles est la bonne :
Proposition 4.29.
Lemme de Borel-Cantelli
1. X
Soit (An )N une suite d’événements (non nécessairement indépendante). Si la série
P(An ) de terme général positif P(An ) converge dans R, alors P(lim sup An ) = 0,
c’est-à-dire presque-sûrement seul un nombre fini des événements An est réalisé.
X
2. Soit (An )N une suite d’événements indépendante. Si la série P(An ) de terme général
positif P(An ) diverge dans R, alors P(lim sup An ) = 1, c’est-à-dire presque-sûrement un
nombre infini des événements An est réalisé.
Démonstration :
k=+∞
[
1. Posons, pour tout entier naturel m, Bm = Ak . La suite ensembliste (Bm )N
k=m
est une suite décroissante (au sens de l’inclusion). D’après le théorème de continuité
monotone des probabilités (cf. proposition 1.9, page 12), P(lim sup An ) = lim P(Bm ).
m→+∞
k=+∞
! k=+∞
[ X
Or P(Bm ) = P Ak ≤ P(Ak ), en vertu de l’inégalité de Bonferroni. Mais
k=m k=m
+∞
X X
P(Ak ) est le reste de rang m de la série P(An ) convergente par hypothèse, donc
k=m
+∞
X
lim P(Ak ) = 0, et par suite lim P(Bm ) = 0. Donc P(lim sup An ) = 0, ce qu’il
m→+∞ m→+∞
k=m
fallait démontrer. !
p=+∞ k=+∞
\ [
2. Posons, pour simplifier les écritures, A = lim sup An . Comme A = Ak ,
p=0 k=p
p=+∞ k=+∞
!
[ \
il vient en passant au complémentaire, Ac = Ack . Posons, pour tout
p=0 k=p
k=+∞
\
entier naturel p, Bpc = Ack . Notons que la suite ensembliste (Bpc )N est crois-
k=p
m=+∞ k=m
!
\ \
sante. On peut aussi écrire Bpc = Ack . Donc, pour tout entier naturel
m=p k=p

Besançon
"m=+∞ k=m !# k=m
!
\ \ \
p, P(Bpc ) = P Ack . Comme la suite ensembliste Ack est
m=p k=p k=p m∈N
décroissante, par le théorème de continuité monotone des probabilités, il vient P(Bpc ) =
k=m
!
\
c
lim P Ak . Comme la suite des événements (An )N est indépendante, il en est de
m→+∞
k=p
même de la suite des événements (Acn )N (cf. proposition
! 4.21, page 80). Par suite, pour
k=m
\ k=m
Y
c c
tout entier naturel p, P(Bp ) = lim P Ak = lim P (Ack ) . Donc finale-
m→+∞ m→+∞
k=p k=p
k=m
Y X
ment P(Bpc ) = lim (1 − P(Ak )) . La série ln(1 − P(An )) a son terme général
m→+∞
k=p
X tout entier naturel n, ln(1 − P(An )) ≤ −P(An ). Comme, par

négatif qui vérifie, pour
hypothèse, la série P(An ) de terme général positif P(An ) diverge dans R, la série
X
ln(1 − P(An )) de terme général négatif ln(1 − P(An )) diverge vers −∞, et donc,
k=m
Y
pour tout entier naturel n, lim (1 − P(Ak )) = 0. D’où, pour tout entier naturel p,
m→+∞
k=p
p=+∞
!
[
P(Bpc ) c
= 0, et par suite P(A ) = P Bpc = lim P(Bpc ) = 0, par le théorème de
p→+∞
p=0
continuité monotone appliqué à la suite croissante (Bpc )N . Finalement P(A) = 1. 2
On notera que si l’hypothèse d’indépendance n’est pas utile dans l’item 1) du lemme de Borel-
Cantelli, elle est par contre nécessaire dans l’item 2) car, sans cette hypothèse, on peut construire
des contre-exemples où P(lim sup An ) = 0 avec la série de terme général P(An ) divergente. En
effet, considérons l’exemple suivant :
Exemples 4.10.
Soit l’espace de probabilité (R, B(R), λ) où λ désigne la mesure de Lebesgue sur R. Posons,
1
pour tout entier naturel n, An =]0, n+1 ]. Alors on vérifie aisément que lim sup An = Ø, d’où
1
P(lim sup An ) = 0, mais, pour tout entier naturel n, P(An ) = , ce qui entraîne que la
X n+1
série P(An ) à terme général positif diverge. Ici la suite d’événements (An )N n’est pas
1 1 1
indépendante car par exemple P(A1 ∩ A2 ) = P(A2 ) = alors que P(A1 ) · P(A2 ) = × =
3 2 3
1
6= P(A1 ∩ A2 ). 2
6
4.4 Somme de v.a.r. indépendantes
Démontrons d’abord un important corollaire de l’exercice 3.14, page 49 :

Besançon
Proposition 4.30.
Si (X1 , X2 , · · · , Xn ) est une suite indépendante de variables aléatoires réelles de carré intégrable,
alors  !2  !
Xn X n Xn
E  Xk  < +∞ et Var Xk = Var(Xk ).
k=1 k=1 k=1
Démonstration : Montrons l’intégrabilité. On effectue les majorations
n
!2 n
!2 n n
X X X X
2
Xk ≤ |Xk | = |Xk | + 2 |Xk ||Xl |.
k=1 k=1 k=1 1≤k<l≤n
Mais |Xk ||Xl | ≤ 21 (|Xk |2 + |Xl |2 ), d’où
n
X n
X n
X
2
|Xk | + 2 |Xk ||Xl | ≤ K |Xk |2
k=1 1≤k<l≤n k=1
où K est une constante. Par suite, grâce aux hypothèses d’intégrabilité sur les variables aléatoires
réelles 
n
!2  n
! n
X X X
2
E |Xk |2 < +∞.

E  Xk  ≤ KE |Xk | = K
k=1 k=1 k=1
On vérifie aisément que
n
! n
X X X
Var Xk = Var(Xk ) + 2 Cov(Xi , Xj )
k=1 k=1 1≤i<j≤n
et on conclut en remarquant que, par indépendance des v.a.r. , Cov(Xi , Xj ) = 0 pour tout
couple d’entiers (i, j) tel que i 6= j. 2

Trouver, parmi les exercices ou exemples déjà proposés, un contre-exemple prouvant que
la réciproque de l’implication précédente est fausse.
On peut généraliser la proposition 4.30 aux vecteurs aléatoires en montrant que, si (X , Y )

est un couple indépendant de vecteurs aléatoires de dimension d et de carré intégrable, alors
DX +Y = DX + DY , où DX désigne la matrice de dispersion de X .
Nous allons maintenant donner quelques résultats sur la somme de v.a.r. indépendantes suivant
des lois classiques. Auparavant énonçons un corollaire du critère des fonctions caractéristiques
qui sera commode dans la recherche des lois de sommes de variables aléatoires réelles
indépendantes.
Besançon
Proposition 4.31.
Si (X1 , X2 , · · · , Xn ) est une suite indépendante de v.a.r., alors, pour tout u ∈ R,
ΦX1 +···+Xn (u) = ΦX1 (u) · · · ΦXn (u)

" n
!#
X
= E e iuX1 · · · E e iuXn .

i.e. E exp iu Xk
k =1
Démonstration : Il suffit de prendre u := u1 = u2 = · · · = un dans la condition nécessaire du

critère des fonctions caractéristiques. 2

Pour prouver que la réciproque est fausse, construire un contre-exemple en considérant
les deux variables aléatoires réelles X et Y := X où X est une variable aléatoire réelle de
1
Cauchy de paramètre 1 i.e. de densité ρ définie sur R par ρ(x) := dont la
π(1 + x 2 )
fonction caractéristique Φ est définie sur R par Φ(t) := e −|t| . Pour montrer que (X , Y )
est non indépendant, on considérera le borélien A = [−1 , 1] et on calculera P(X ,Y ) (A×Ac )
qu’on comparera au produit PX (A)PY (Ac ).
A titre d’application de la proposition précédente, voici un résultat qui sera fondamental dans
le chapitre sur les vecteurs gaussiens.
Proposition 4.32.
Stabilité des lois normales
Si (X1 , X2 , · · · , Xp ) est une suite indépendante de v.a.r. normales de lois respectives
N 1 (m1 , σ12 ), · · · , N 1 (mp , σp2 ), alors la v.a.r. Sp := X1 + · · · + Xp est une v.a.r. normale
d’espérance m1 + · · · + mp et de variance σ12 + · · · + σp2 .
Démonstration : On applique le résultat précédent 4.31 en notant que la fonction caractéris-

tique d’une variable aléatoire réelle X de loi N 1 (m, σ 2 ) est ΦX (t) = exp(imt − 21 t 2 σ 2 ). On
applique ensuite le théorème d’injectivité 3.26 en remarquant que la fonction caractéristique de
la variable aléatoire réelle Sp est celle de la loi N 1 (m1 + · · · + mp , σ12 + · · · + σp2 ). 2
Citons, à titre d’exemple, un autre résultat fondamental dont la démonstration est laissée en
exercice :
Proposition 4.33.
Si (X1 , X2 , · · · , Xn ) est une suite indépendante de variables aléatoires réelles de Bernoulli de
même paramètre p ∈]0, 1[, alors la variable aléatoire réelle Sn := X1 + · · · + Xn suit la loi
binomiale B(n, p).

Démontrer la proposition précédente.

Soit (X1 , · · · , Xn ) une suite indépendante de n variables aléatoires réelles de même densité
Besançon
ρ définie sur R par ρ(x) := αe −αx 1l[0,+∞[ (x) où α > 0. Pour tout ω ∈ Ω, on range les
nombres réels X1 (ω), · · · , Xn (ω) dans l’ordre décroissant et on note X(k) (ω) le k ième de ces
nombres ainsi rangés où k = 1, · · · , n.
1. Vérifier que X(1) = max(X1 , · · · , Xn ) et calculer sa fonction de répartition.
2. Que représente la variable aléatoire réelle X(n) ? Calculer sa fonction de répartition.
3. Soit t > 0. Pour tout k = 1, · · · , n, on pose Yk := 1l]t,+∞[ (Xk ).
(a) Prouver que la loi de la variable aléatoire réelle Yk est PYk = e −αt δ1 +(1−e −αt )δ0 .
Quelle est la loi de la variable aléatoire réelle Y1 + Y2 + · · · + Yn ?
(b) Comparer les événements {X(k) ≤ t} et {Y1 + Y2 + · · · + Yn ≤ k − 1}.
4. Déterminer, pour tout k = 1, · · · , n, la fonction de répartition de la variable aléatoire
réelle X(k) .
Dans certains cas on peut directement calculer la loi de la variable aléatoire réelle "somme".
En voici deux exemples énoncés sous forme de propositions 4.34 et 4.36, la démonstration de
la seconde proposition 4.36 est laissée en exercice.
Proposition 4.34.
Stabilité des lois binomiales
Si (X , Y ) est un couple indépendant de variables aléatoires réelles de lois binomiales respectives
B(n, p) et B(m, p) de même paramètre p ∈]0, 1[, alors la variable aléatoire réelle X + Y suit
la loi binomiale B(n + m, p).
Démonstration : Dans ce qui suit on adoptera la convention d’écriture : Cnj := 0 pour tout
entier j > n ou j < 0. X et Y sont des lois discrètes portées respectivement par {0, 1, · · · , n}
et {0, 1, · · · , m}. La loi de la variable aléatoire réelle X + Y sera aussi discrète et portée par
{0, 1, · · · , n + m}. D’après la proposition 2.10, page 27, il suffit de calculer, pour tout entier
0 ≤ k ≤ n + m, le nombre P(X + Y = k). Par l’égalité ensembliste facile à vérifier
j=k
[
{X + Y = k} = ({X = j} ∩ {Y = k − j})
j=0
et comme l’union est deux à deux disjointe il vient, en appliquant le critère d’indépendance des
variables aléatoires réelles discrètes au couple (X , Y ),
j=k j=k
X X
P(X + Y = k) = P(X = j)P(Y = k − j) = Cnj Cmk−j p k (1 − p)n+m−k
j=0 j=0
k
= Cn+m p k (1 − p)n+m−k
.
La dernière égalité du calcul précédent résulte de la formule de Vandermonde rappelée ci-dessous

(proposition 4.35). La loi de la variable aléatoire réelle X + Y s’écrit alors
n+m
X
k
PX +Y = Cn+m p k (1 − p)n+m−k δk .
k=0
On reconnaît la loi binomiale B(n + m, p). 2

Besançon
Proposition 4.35.
Formule de Vandermonde
Soient n et m deux entiers naturels non nuls. Pour tout entier naturel k vérifiant 0 ≤ k ≤ n+m,
on a
j=k
X
k
Cnj Cmk−j = Cn+m ,
j=0
avec la convention habituelle sur les Cni (cf. formulaire de l’annexe A, page 205)
Démonstration : Il suffit de développer de deux manières différentes l’égalité (1 + X )n+m =

(1 + X )n (1 + X )m et d’égaler le coefficient de X k des deux expressions, où 0 ≤ k ≤ n + m. 2
Proposition 4.36.
Stabilité des lois de Poisson
Si (X , Y ) est un couple indépendant de variables aléatoires réelles de lois de Poisson respectives
P(α) et P(β), où les réels α et β sont strictement positifs, alors la variable aléatoire réelle
X + Y suit la loi de Poisson P(α + β).

Donner deux démonstrations de la proposition précédente, l’une directe en s’inspirant de
la démonstration pour le cas des variables binomiales et l’autre en utilisant les fonctions
caractéristiques.
Voici quelques résultats plus généraux sur les sommes de variables aléatoires réelles indépen-
dantes. Plus que de retenir des formules, Il faut surtout être capable de refaire directement les
calculs dans chaque cas particulier.
Dans la proposition suivante la notation ∗ désigne le produit de convolution de deux

fonctions f et g positives boréliennes de R dans R défini comme l’application
Z
f ∗ g : x ∈ R 7→ f ∗ g (x) := f (x − u)g (u)dλ(u) ∈ [0, +∞].
R
Proposition 4.37.
Soit (X , Y ) un couple indépendant de variables aléatoires réelles admettant pour densités
respectives ρX et ρY , alors la variable aléatoire réelle X + Y , admet pour densité l’application
ρX +Y := ρX ∗ ρY .
Démonstration : Soit h une application positive borélienne définie sur R. Par les théorèmes de
Besançon
transfert, de Tonelli et l’indépendance de (X , Y ), il vient

Z Z
E[h(X + Y )] = h(x + y )dP(X ,Y ) (x, y ) = h(x + y )dPX ⊗ PY (x, y )
R2 R2
Z Z
= h(x + y )dPX (x) dPY (y )
R R
Z Z
= h(x + y )ρX (x)dλ(x) ρY (y )dλ(y )
R R
Z
= h(x + y )ρX (x)ρY (y )dλ ⊗ λ(x, y )
R2
Z
= h(x + y )ρX (x)ρY (y )dλ(2) (x, y )
R2
Effectuons le changement de variables, (u, v ) := (x + y , x). Le jacobien de l’application inverse

en (u, v ) est J(u, v ) = −1 d’où, par application du théorème de changement de variable à la
dernière intégrale précédente,
Z
E[h(X + Y )] = h(u)ρX (v )ρY (u − v )dλ(2) (u, v )
R2
Z Z
= h(u) ρX (v )ρY (u − v )dλ(v ) dλ(u)
R R
Z
= h(u)(ρX ∗ ρY )(u)dλ(d) (u),
Rd
ce qui prouve que ρX ∗ ρY est bien la densité de X + Y . 2
Exemples 4.11.
Soit (X , Y ) un couple indépendant de v.a.r.. On suppose que la variable aléatoire réelle X
suit la loi uniforme U([0, 1]) définie par la densité ρX := 1l[0,1] et Y suit la loi exponentielle
de paramètre 1 de densité ρY définie sur R par ρY (t) := 1l[0,+∞[ (t)e −t . La densité de la vari-
Z +∞
able aléatoire réelle X +Y est définie sur R par ρX +Y (t) := 1l[0,1] (t−x)1l[0,+∞[ (x)e −x dx.
−∞
Ce qui après le calcul de l’intégrale donne ρX +Y (t) = 1 − e −t 1l[0,1] (t) + e −t (e −

1)1l]1,+∞[ (t).2
Proposition 4.38.
Soit (X , Y ) un couple indépendant de v.a.r. . On suppose que X admet une densité ρX et
+∞
X
que Y est une variable discrète portée par N de loi pk δk . Alors la variable aléatoire réelle
k=0
Z := X + Y admet pour densité l’application
+∞
X
ρX +Y : x ∈ R 7→ ρX +Y (x) := pk ρX (x − k) ∈ [0, +∞].
k=0

Besançon
Démonstration : Soit h une application de R dans R borélienne positive. En utilisant le théorème

du transfert puis l’indépendance de (X , Y ) avec le théorème de Tonelli, il vient
Z Z
E[h(X + Y )] = h(x + y )dP(X ,Y ) (x, y ) = h(x + y )d(PX ⊗ PY )(x, y )
R2 R2
Z Z
= h(x + y )dPX (x) dPY (y )
R R
Z Z +∞
!
X
= h(x + y )ρX (x)dλ(x) d pk δk (y )
R R k=0
+∞
X Z
= pk h(x + k)ρX (x)dλ(x).
k=0 R
Z
Appliquons alors à h(x + k)ρX (x)dλ(x) le changement de variable défini sur R, pour k ∈ N
R
fixé, par u := x + k. Il vient
Z Z
h(x + k)ρX (x)dλ(x) = h(u)ρX (u − k)dλ(u).
R R
Par suite, revenant aux égalités précédentes,

+∞
X Z +∞
X Z
E[h(X + Y )] = pk h(x + k)ρX (x)dλ(x) = pk h(u)ρX (u − k)dλ(u)
k=0 R k=0 R
Z +∞
!
X
= pk ρX (u − k) h(u)dλ(u)
R k=0
La dernière égalité se justifie par la propriété de Beppo-Lévi vue au chapitre III. D’où le résultat.
2
Exemples 4.12.
Soit (X , Y ) un couple indépendant de v.a.r. . On suppose que la v.a.r. X suit la loi de
Gauss-Laplace N 1 (0, 1), et Y suit la loi de Poisson de paramètre α > 0. Alors la densité
de la v.a.r. X + Y est définie sur R par
+∞ −α k +∞
e −α X αk

X e α 1 2 1 2
ρX +Y (t) := √ exp − (t − k) = √ exp − (t − k) .2
k=0
k! 2π 2 2π k=0
k! 2
4.5 Exercices de révision sur les chapitres I à IV

Soient A et B deux v.a.r. indépendantes de loi uniforme U([0, 1]). Quelle est la probabilité
que le polynôme x 2 − 2Ax + B ait :
1. deux racines réelles distinctes,
2. deux racines complexes et non réelles,
Besançon
3. une racine double.

4. Traiter les questions précédentes en utilisant la loi de la v.a.r. ∆ := A2 − B.

On considère une variable aléatoire (X , Y ) à valeurs dans R2 dont la loi P(X ,Y ) admet la
densité
f (x, y ) := α(1 − x 2 )1l[0,1] (x)ye −3y 1l]0,+∞[ (y ),
où α est un réel, par rapport à la mesure de Lebesgue λ(2) sur R2 .
1. Déterminer la valeur du réel α.
2. Déterminer les lois marginales du couple (X , Y ).
3. Calculer P(0 < X ≤ 2, Y ≥ 1).
4. Calculer la matrice de dispersion D de (X , Y ).

Soient n et m deux entiers naturels non nuls, X et Y deux variables aléatoires réelles
indépendantes. On suppose que la variable aléatoire réelle X est binomiale de paramètres
1 1
n et , et que la variable aléatoire réelle Y est binomiale de paramètres m et . Calculer
2 2
la probabilité que X = Y .

Soit (Xk )k∈N une suite indépendante de v.a.r. de Bernoulli toutes de même paramètre
0 < p < 1. Soit un entier r ≥ 1, on définit deux nouvelles v.a.r. , en posant pour tout
ω ∈ Ω,
τr (ω) := inf{n ∈ N∗ /X1 (ω) + X2 (ω) + ... + Xn (ω) = r }
et
θr (ω) := inf{n ∈ N∗ /X1 (ω) + X2 (ω) + ... + Xn+r (ω) = r }
avec la convention inf Ø := +∞.
1. Montrer, pour tout x ∈]0, 1[, la relation
+∞
X 1
Ckr −1 x k−r +1 = .
k=r −1
(1 − x)r
2. Montrer que la variable aléatoire réelle τr est une variable aléatoire réelle discrète de
loi (dite loi de Pascal de paramètres r et p )
+∞
X
r −1 r
P(r , p) := Ck−1 p (1 − p)k−r δk .
k=r
Vérifier que P(τr = +∞) = 0.

3. Montrer que la variable aléatoire réelle θr est une variable aléatoire réelle discrète de
loi (dite loi binomiale-négative de paramètres r et p )
+∞
X
r −1 r k
I(r , p) := Ck+r −1 p (1 − p) δk .
k=0
Vérifier que P(θr = +∞) = 0.

Besançon
4. Donner une interprétation des variables aléatoires réelles τr et θr en terme de jeu de

Pile-ou-Face.
5. Montrer qu’un des deux modèles précédents permet de formaliser le problème dit
des boîtes d’allumettes de Stephan Banach :
Un fumeur a dans chacune de ses deux poches une boîte contenant au départ N
allumettes. Chaque fois qu’il désire fumer une cigarette, il choisit une poche au
hasard. Quelle est la probabilité que, le fumeur se rendant compte pour la première
fois qu’une boîte est vide, l’autre boîte contienne k allumettes où k est un entier
naturel inférieur ou égal à N ?

On considère une v.a.r. réelle positive X de fonction de répartition FX .
1. Pour tout entier naturel n non nul, en considérant sur l’espace mesuré (Ω × R+ , F ⊗
B(R+ ), P ⊗ λ), où λ est la mesure de Lebesgue, la fonction à valeurs réelles définie
par H(ω, t) := nt n−1 1l]t,+∞[ (X (ω)), montrer que
Z +∞ Z +∞
n n−1
E[X ] = nt P(X > t)dt = nt n−1 (1 − FX (t))dt.
0 0
2. Montrer par un exemple que l’hypothèse X positive est nécessaire.

3. En utilisant le résultat de la première question, calculer l’espérance et la variance des
variables aléatoires suivantes :
(a) X de fonction de répartition FX (t) := t1l[0,1] (t) + 1l]1,+∞[ (t).
(b) Y de fonction de répartition FY (t) := (1 − e −αt )1l[0,+∞[ (t) où α > 0.
+∞
X αn
(c) Z de fonction de répartition FZ (t) := e −α 1l[n,+∞] (t)
n=0
n!

On considère (Xn )N∗ une suite indépendante de v.a.r. de même loi de Bernoulli B(p) définies
sur un même espace de Probabilité (Ω, F, P). Pour ω ∈ Ω on définit
T (ω) := inf{n ∈ N / Xn (ω) = 1}
∗
avec la convention inf Ø = +∞. Montrer que T est une v.a. à valeurs dans N , déterminer
sa loi et calculer son espérance.

Le but de cet exercice est de montrer qu’il n’existe pas de probabilité P sur l’espace
1
(N∗ , P(N∗ ) telle que, pour tout n ≥ 1, P(nN∗ ) = où nN∗ = {nk, k ∈ N∗ }.
n
Supposons qu’une telle probabilité existe. Soit (pk )N la suite des nombres entiers premiers
rangés en ordre croissant.
1. Par un raisonnement simple montrer que P(lim sup(pk N∗ )) = 0.
k
∗
2. Montrer que la suite (pk N )N est indépendante. En déduire, en utilisant le fait que la
X 1
série = +∞, une autre valeur de P(lim sup(pk N∗ )). Conclure que la probabilité
k
pk k
P n’existe pas.
Besançon

Soit (Xi )I une famille quelconque de v.a.r. sur un même espace de probabilité (Ω, F, P).
On note σ(Xi , i ∈ I ) la plus petite (au sens de l’inclusion) des sous-tribus A de F telles
que, pour tout i ∈ I , Xi est A-mesurable (Cette définition est une généralisation, au cas
de plusieurs v.a.r., de la définition 4.7, page 80)
1. Justifier l’existence de σ(Xi , i ∈ I ).
2. Soit C la famille des intersections finies d’événements de la forme {Xi ∈ B} où i ∈ I
et B ∈ B(R). Montrer que σ(Xi , i ∈ I ) est la tribu sur Ω engendrée par C.
3. On suppose que la famille de v.a.r. (Xi )I est indépendante. Montrer que, si J et K sont
deux parties disjointes et non vides de I , alors les tribus σ(Xi , i ∈ J) et σ(Xi , i ∈ K )
sont indépendantes.

Déterminer la loi d’une somme de variables aléatoires indépendantes dans les cas suivants :
1. Y := X1 + X2 où X1 suit une loi gamma γ(a, α) et X2 une loi gamma γ(b, α).
2. Z := X1 + ... + Xn où, pour tout k = 1, ..., n, Xk suit la loi exponentielle E(α).

On considère (Xj )j≥1 une suite indépendante de v.a.r. de même loi sur un même espace
de probabilité (Ω, F, P), et donc de même fonction caractéristique Φ. Soit Y une v.a.r.
discrète à valeurs dans N∗ et indépendante
X de la suite (Xj )j≥1 . En utilisant la fonction
n
définie sur ] − 1, 1[ par ψ(t) := t P(Y = n), déterminer la fonction caractéristique ΦZ
n≥1
de la v.a.r. Z définie, pour presque tout ω ∈ Ω, par
j=Y (ω)
X
Z (ω) := Xj (ω).
j=1

Soient X et Y deux v.a.r. à valeurs dans N∗ , indépendantes et de même loi sur un espace
de probabilité (Ω, F, P). On définit les v.a.r. D := X − Y et M := min(X , Y ).
1. On suppose que X et Y suivent la loi géométrique de paramètre p ∈]0, 1[ i.e.
X∞
PX = PY := pq k−1 δk où q := 1 − p.
k=1
(a) Montrer que, pour tout (i, j) ∈ Z × N∗ ,

{X = i + j} ∩ {Y = j} si i ≥ 0,
{D = i} ∩ {M = j} =
{X = j} ∩ {Y = j − i} si i < 0,
et en déduire que
p2 p
P(D = i) = 2
q |i| et P(M = j) = 2 q 2j (q + 1).
1−q q
(b) Démontrer que les v.a.r. D et M sont indépendantes.

Besançon
2. Réciproquement, on suppose que les v.a.r. D et M sont indépendantes, montrer que,

pour tout entier n ≥ 1,
P [(X = n + 1) ∩ (Y = n)] P(X = n + 1) P(D = 1)

= = .
P [(X = n) ∩ (Y = n)] P(X = n) P(D = 0)
En déduire que les v.a.r. X et Y suivent une loi géométrique dont on déterminera le
paramètre.

Soit X et Y deux variables aléatoires uniformes sur l’intervalle [0, α] où α est un réel
strictement positif. On suppose que les variables X et Y sont indépendantes. On pose
inf(X , Y )
Z = sup(X , Y ) − inf(X , Y ) et T = . Déterminer les lois des variables Z et T .
sup(X , Y )

Besançon
Chapitre 5. Vecteurs aléatoires gaussiens 95
Chapitre 5
Vecteurs aléatoires gaussiens

Rappelons que, si m et σ sont des réels avec σ > 0, N 1 (m, σ 2 ) désigne la mesure de probabilité
sur R admettant la densité ρ définie sur R par
(x − m)2

1
ρ(x) := √ exp − .
σ 2π 2σ 2
Afin de simplifier les énoncés des théorèmes sur les vecteurs gaussiens, on est amené à consid-
érer la probabilité de Dirac au point m ∈ R comme un cas, dit dégénéré, de loi gaussienne
et par suite on pose N 1 (m, 0) := δm .
Dans la suite, M ∗ désignera la matrice-transposée, det(M) le déterminant de la matrice M,

h·, ·i et | · | le produit-scalaire et la norme usuels de Rd où d ∈ N∗ . Sauf précision contraire, les
vecteurs de Rd seront repérés par leurs composantes dans la base canonique de Rd . La base
canonique de Rd est le système de vecteurs (e1 , e2 , ..., ed ) où, pour tout i = 1, · · · , d, ei est le
d-uplet dont tous les termes prennent la valeur 0 sauf le terme de rang i qui prend la valeur 1.
5.1 Vecteur gaussien

Définition 5.1.
Une variable aléatoire réelle de loi N 1 (m, σ 2 ), où m est un réel et σ un réel positif ou nul, est
dite gaussienne.
En clair, une variable aléatoire réelle gaussienne (de loi N 1 (m, σ 2 )) est soit une variable aléa-
toire réelle normale d’espérance m et de variance σ 2 > 0, soit une variable aléatoire réelle de
Dirac au point m (constante déterministe égale à m, c’est le cas où σ 2 = 0).
Définition 5.2.
Soient X un vecteur aléatoire de dimension d et (X1 , X2 , ..., Xd ) ses composantes dans la base
canonique de Rd . On dit que X est un vecteur (aléatoire) gaussien de dimension d si,
pour tous réels a1 , a2 , ..., ad , la variable aléatoire réelle a1 X1 + a2 X2 + ... + ad Xd est une variable
aléatoire réelle gaussienne.

Besançon
Exemples 5.1.
Une variable aléatoire réelle gaussienne est un vecteur gaussien de dimension 1.
Compte tenu que, dans un changement de base dans Rd , les composantes dans une nouvelle
base sont des combinaisons linéaires des composantes dans l’ancienne base, la propriété d’être
gaussien pour un vecteur ne dépend pas de la base choisie pour exprimer les composantes du
vecteurs.
La proposition suivante est un corollaire immédiat, dont la démonstration est laissée en exercice,
de la définition.
Proposition 5.1.
Soit (X1 , X2 , ..., Xd ) une suite de v.a.r. . Si le vecteur aléatoire X := (X1 , X2 , ..., Xd ) est un
vecteur gaussien de dimension d alors, pour tout k = 1, 2, ..., d, Xk est une variable aléatoire
réelle gaussienne.
Exemples 5.2.
Reprenons les hypothèses et notations de l’exercice 4.6, page 74. On vérifie facilement que
P(X + Y = 0) = 21 , et donc que la variable aléatoire réelle X + Y n’est pas une v.a.r. gaussi-
enne, sinon comme X + Y n’est pas une variable déterministe (i.e. de loi une probabilité de
Dirac), cela veut dire que X + Y serait une v.a.r. normale et on aurait P(X + Y = 0) = 0.
Le vecteur aléatoire (X , Y ) n’est donc pas gaussien (sinon X + Y serait une v.a.r. gaussi-
enne) alors que ses composantes sont des v.a.r. gaussiennes, ce qui donne un contre-exemple
à la réciproque de la proposition 5.1 précédente. 2
En revanche si on rajoute une hypothèse d’indépendance sur la suite des composantes du

vecteur X , on obtient un procédé simple de construction de vecteurs gaussiens de dimensions
d ≥ 2 grâce à la proposition :
Proposition 5.2.
Soit (X1 , X2 , ..., Xd ) une suite indépendante de v.a.r. . Le vecteur aléatoire X := (X1 , X2 , ..., Xd )
est un vecteur gaussien de dimension d si, et seulement si, pour tout k = 1, 2, ..., d, Xk est une
variable aléatoire réelle gaussienne.
Démonstration : • La condition nécessaire résulte de la définition des vecteurs gaussiens et
n’utilise pas l’hypothèse d’indépendance. C’est un cas particulier de la proposition précédente.
• La condition suffisante résulte de ce que, si (X1 , X2 , ..., Xd ) est une suite indépendante de
v.a.r. , alors pour tous réels a1 , a2 , ..., ad , la suite (a1 X1 , a2 X2 , ..., ad Xd ) est indépendante. De
plus si la variable aléatoire réelle Xk a pour loi N 1 (mk , σk2 ), la variable aléatoire réelle ak Xk
a pour loi N 1 (ak mk , ak2 σk2 ). D’après la proposition 4.32, page 86, la variable aléatoire réelle
a1 X1 + a2 X2 + ... + ad Xd est alors une variable aléatoire réelle gaussienne comme somme de
variables aléatoires réelles gaussiennes indépendantes. 2
La proposition 5.1 a aussi pour conséquence que si X = (X1 , X2 , ..., Xd ) est un vecteur gaussien
de dimension d, alors, pour tout k = 1, 2, ..., d, Xk est une variable aléatoire réelle de carré
intégrable car de loi gaussienne. Par suite on peut définir l’espérance m := E(X ) et la matrice
de dispersion DX := E ([X − E(X )][X − E(X )]∗ ) du vecteur gaussien X . L’espérance m est
Besançon
un vecteur de Rd et DX est une matrice carrée d’ordre d à coefficients réels, symétrique et

de type positif d’après la proposition 3.24, page 48, sur les propriétés des matrices de dispersion.

Soit (Uk )N une suite indépendante de variable aléatoire réelle de même loi normale centrée
et de variance σ 2 > 0. Pour tout θ ∈ R, on définit la suite (Xk )N∗ où Xk = θUk−1 + Uk ,
pour tout entier k ≥ 2, et X1 = U1 .
Montrer que, pour tout n ∈ N∗ , X := (X1 , X2 , · · · , Xn ) est un vecteur gaussien.
L’espérance et la matrice de dispersion déterminent complètement la fonction caractéristique

d’un vecteur gaussien comme le montre le résultat suivant :
Proposition 5.3.
Soit X un vecteur aléatoire de dimension d admettant une espérance m := (m1 , · · · , md ) ∈ Rd
et une matrice de dispersion D. Alors X est un vecteur gaussien si, et seulement si, sa fonction
caractéristique ΦX est donnée, pour tout u ∈ Rd , par

1 ∗ 1 ∗
ΦX (u) = exp ihu, mi − hu, Dui ou ΦX (u) = exp iu m − u Du .
2 2
Démonstration : • Montrons la condition nécessaire. Posons X := (X1 , · · · , Xd ), u :=

(u1 , · · · , ud ) et Y := u1 X1 + · · · + ud Xd . Comme X est un vecteur gaussien, la variable
aléatoire réelle Y est de loi gaussienne i.e. PY = N 1 (mY , σY2 ). De plus
mY := E(Y ) = u1 E(X1 ) + · · · + ud E(Xd ) = u1 m1 + · · · + ud md = hu, mi = u ∗ m,
et
h i
σY2 = E[(Y − mY )2 ] = E (u1 (X1 − m1 ) + · · · + ud (Xd − md ))2
X
= ui uj E [(Xi − mi )(Xj − mj )]
1≤i,j≤d
X
= ui uj Cov(Xi , Xj ) = hu, Dui = u ∗ Du.
1≤i,j≤d
Comme pour tout u ∈ Rd ,

ΦX (u) = E e i(u1 X1 +···+ud Xd ) = E e iY = ΦY (1)

et que ΦY (1) = exp imY − 21 σY2 , on obtient ΦX (u) = exp ihu, mi − 21 hu, Dui .

• Montrons la condition suffisante. Soit X := (X1 , · · · , Xd ) un vecteur aléatoire quelconque de

fonction caractéristique définie sur Rd par

1
ΦX (u) = exp ihu, mi − hu, Dui .
2
Soit Y := a1 X1 + · · · + ad Xd une combinaison linéaire des composantes de X . En considérant
la fonction caractéristique de Y , il vient, pour tout réel t,
ΦY (t) = E e iY t = E e i(ta1 X1 +···+tad Xd ) = ΦX (a1 t, · · · , ad t)

1 2
= exp itha, mi − t ha, Dai
2
Besançon
où on a posé a := (a1 , · · · , ad ).
Ce qui prouve que, pour tout n-uplet de réels (a1 , · · · , ad ), la variable aléatoire réelle a1 X1 +
· · · + ad Xd est une variable aléatoire réelle gaussienne de loi N 1 (ha, mi, ha, Dai). X est bien
un vecteur gaussien. 2
5.2 Loi d’un vecteur gaussien

La dernière proposition 5.1 a pour conséquence que la loi d’un vecteur gaussien X de dimension
d est entièrement déterminée par la connaissance des deux paramètres que sont l’espérance m
et la matrice de dispersion D du vecteur gaussien X .
L’existence de vecteurs gaussiens d’espérance m et de matrice de dispersion D données a priori
est affirmée par le résultat suivant que nous admettrons (pour la démonstration consulter [3]
exercice VII-11) :
Proposition 5.4.
Si m ∈ Rd et D est une matrice carrée d’ordre d à coefficients réels, symétrique et de type
positif, il existe un espace de probabilité (Ω, F, P) et un vecteur gaussien de dimension d sur
(Ω, F, P) d’espérance m et de matrice de dispersion D.
Les résultats précédents autorisent la définition suivante :

Définition 5.3.
On appelle loi de Gauss-Laplace ou loi normale sur Rd de paramètres m et D la loi
de probabilité d’un vecteur gaussien de dimension d d’espérance m et de matrice de dispersion
D. Dans ce cas on note N d (m, D) cette probabilité.
La proposition ci-dessous sera souvent utilisée pour prouver que certains vecteurs sont
gaussiens :
Proposition 5.5.
Si X est un vecteur gaussien de dimension d, A une matrice rectangulaire k×d à coefficients
réels et b un vecteur de dimension k, alors le vecteur aléatoire Y := AX + b est un
vecteur gaussien de dimension k. De plus si N d (m, D) est la loi de X , la loi de Y est
N k (Am + b, ADA∗ ) ,
Démonstration : Il suffit de remarquer que les composantes de AX sont des combinaisons

linéaires des composantes de X . Donc toute combinaison linéaire des composantes de Y est
une combinaison linéaire des composantes de X (qui est une v.a.r. gaussienne car X est supposé
gaussien) à laquelle on ajoute une constante, dont la somme est encore une v.a.r. gaussienne.
Y suit donc une loi normale de dimension k. Il reste à en préciser les paramètres : espérance et
matrice de dispersion. On applique alors l’item 2 de la proposition 3.24, page 48, pour préciser
les paramètres de la loi normale de dimmension k. 2

En reprenant les hypothèses et notations de l’exercice 5.1,
1. Montrer que le vecteur gaussien X admet une densité sur Rn qu’on explicitera.
Besançon
2. Montrer que le vecteur gaussien X est centré de matrice de dispersion

DX = [di,j ]1≤i,j≤n où
d1,1 = σ 2
di,i = σ 2 (θ2 + 1) pour i = 2, · · · , n,
dj+1,j = dj,j+1 = θσ 2 pour j = 1, · · · , n − 1,
di,j = 0 dans les autres cas.
La forme de la fonction caractéristique d’un vecteur gaussien permet d’établir un critère

important d’indépendance des composantes d’un vecteur gaussien.
Proposition 5.6.
Soit X := (X1 , X2 , ..., Xd ) un vecteur gaussien de dimension d. Alors la suite de variables
aléatoires réelles (X1 , X2 , ..., Xd ) est indépendante si, et seulement si, la matrice de dispersion
de X est diagonale.
Démonstration : • La condition nécessaire résulte de la proposition 4.13, page 75.

• Pour la condition suffisante, en vertu du critère d’indépendance 4.16, page 76, utilisant les
fonctions caractéristiques, il suffit de montrer que si la matrice de dispersion est diagonale, alors
pour tout (u1 , · · · , ud ) ∈ Rd ,
ΦX (u1 , · · · , un ) = ΦX1 (u1 ) · · · ΦXd (ud ).
Or, en utilisant la proposition 5.3 pour obtenir la première des deux égalités suivantes,
d d
!
X 1X 2
ΦX (u1 , · · · , un ) = exp i uk E(Xk ) − uk Var(Xk ) = ΦX1 (u1 ) · · · ΦXd (ud ),
k=1
2 k=1
car, pour tout entier k, la variable aléatoire réelle Xk est gaussienne et

1 2
ΦXk (uk ) = exp iuk E(Xk ) − uk Var(Xk ) .2
2
On peut donner un énoncé plus général de cette proposition. Pour cela introduisons une
définition.
Définition 5.4.
Deux vecteurs aléatoires X et Y de dimensions quelconques seront dits non-corrélés si la
matrice d’intercorrélation
IX ,Y := E ([X − E(X )][Y − E(Y )]∗ )
est égale à la matrice-nulle.
On peut vérifier facilement, en explicitant les coefficients des matrices, que :

Besançon
Proposition 5.7.
Si X et Y sont deux vecteurs aléatoires de dimensions respectives d et k, DZ la matrice de
dispersion du vecteur concaténé Z := (X , Y ) de dimension d + k, DX et DY les matrices de
dispersion de X et Y , alors :
1. La matrice d’intercorrélation IX ,Y est une matrice rectangulaire à d lignes et k colonnes
dont le coefficient général d’indice (i, j), où 1 ≤ i ≤ d et 1 ≤ j ≤ k, est Cov(Xi , Yj ).
2. IY ,X = IX∗ ,Y , DX = IX ,X et DZ est la matrice par blocs

DX IX ,Y
DZ = .
IY ,X DY
D’où une version plus générale de la proposition 5.6 :

Proposition 5.8.
Soient X := (X1 , X2 , ..., Xd ) un vecteur aléatoire de dimension d et Y := (Y1 , Y2 , ..., Yk ) un
vecteur aléatoire de dimension k.
Supposons que le vecteur concaténé Z := (X1 , X2 , ..., Xd , Y1 , Y2 , ..., Yk ) soit gaussien de
dimension d + k. Alors le couple de vecteurs aléatoires (X , Y ) est indépendant si, et seulement
si, les vecteurs X et Y sont non-corrélés.
Démonstration : • La condition nécessaire résulte du fait que, si le couple de vecteurs aléatoires
(X , Y ) est indépendant, alors, pour tout (i, j) avec 1 ≤ i ≤ d et 1 ≤ j ≤ k, le couple de
variable aléatoire réelle (Xi , Yj ) est indépendant et par suite le coefficient général de la matrice
d’intercorrélation Cov(Xi , Yj ) = 0.
• Réciproquement,
si IX ,Y = 0, alors, d’après la proposition 5.7, IY ,X = 0, et DZ =
DX 0
où Z est le vecteur concaténé (X , Y ). On vérifie alors que, pour tout vecteur
0 DY
w := (u1 , · · · , ud , v1 , · · · , vk ) ∈ Rd+k , si on considère les vecteurs u := (u1 , · · · , ud ),
v := (v1 , · · · , vk ), mX := E(X ) et mY := E(Y ),
w ∗ DZ w = u ∗ DX u + v ∗ DY v et w ∗ E(Z ) = u ∗ mX + v ∗ mY .
La fonction caractéristique du vecteur Z est alors définie sur Rd+k par

∗ ∗ 1 ∗ 1 ∗
ΦZ (u1 , · · · , ud , v1 , · · · , vk ) = exp (iu mX + iv mY ) exp − u DX u − v DY v
2 2
= ΦX (u1 , · · · , ud )ΦY (v1 , · · · , vk ).
On conclut en appliquant le critère d’indépendance utilisant les fonctions caractéristiques. 2
On notera la nécessité pour le vecteur Z = (X1 , X2 , ..., Xd , Y1 , Y2 , ..., Yk ) d’être gaussien a

priori. Cette hypothèse implique que les vecteurs X et Y sont gaussiens, mais on prendra garde
qu’il ne suffit pas que les vecteurs X et Y soient gaussiens pour que le vecteur concaténé
(X1 , X2 , ..., Xd , Y1 , Y2 , ..., Yk ) soit gaussien.
L’exercice 4.6, page 74, fournit encore un contre-exemple prouvant que la proposition devient
fausse si on ne suppose plus a priori que le vecteur (X1 , X2 , ..., Xd , Y1 , Y2 , ..., Yk ) est gaussien.
On vérifie facilement que la proposition 5.6 est bien un cas particulier de la proposition 5.8.

Besançon

On reprend les notations, hypothèses et résultats de l’exercice 3.15, page 59.
1. Existe-t-il un réel strictement positif a tel que (X , Xa ) soit non-corrélé ?
2. Existe-t-il un réel strictement positif a tel que (X , Xa ) soit un vecteur gaussien ?
3. Existe-t-il un réel strictement positif a tel que (X , Xa ) soit un couple indépendant ?
Terminons par un résultat précisant la forme de la loi normale dans le cas où D est une matrice
inversible, ce qui a pour conséquence que D est une matrice définie-positive. La loi de Gauss
s’explicite alors facilement :
Proposition 5.9.
Soient m ∈ Rd et D une matrice carrée d’ordre d à coefficients réels, symétrique et de type
positif. Si D est inversible, alors la probabilité N d (m, D) admet la densité ρ sur Rd

d 1 1 ∗ −1
ρ : x ∈ R 7→ ρ(x) := p exp − (x − m) D (x − m) .
(2π)d det(D) 2
Démonstration : Soit X un vecteur gaussien de loi N d (m, D) où m ∈ Rd et D une matrice

carrée d’ordre d à coefficients réels, symétrique, positive et inversible. Comme D est symétrique
réelle, il existe alors une matrice A d’ordre d orthogonale telle que ADA∗ = ∆ où ∆ est une
matrice diagonale. Les éléments diagonaux de ∆ sont strictement positifs car D est positive
et inversible. Notons σ12 , · · · , σd2 les éléments diagonaux de ∆. Considérons le vecteur aléatoire
Z := A(X − m). D’après la proposition5.5, Z est un vecteur gaussien de dimension d de loi
N d (0, ∆). Soient (Z1 , · · · , Zd ) les composantes de Z . Comme la matrice de dispersion de Z ,
∆, est diagonale, la suite de variable aléatoire réelle (Z1 , · · · , Zd ) est indépendante et, pour
tout entier 1 ≤ k ≤ d, la loi de Zk est N 1 (0, σk2 ) d’après la proposition 4.5, page 66. La
variable aléatoire réelle Zk a donc pour densité l’application fk définie sur R par
t2

1
fk (t) := p exp − 2 .
2πσk2 2σk
Par suite, d’après la proposition 4.9, page 72, Z admet pour densité l’application définie sur
Rd par
d d
!
1 X tk2

1 1
f (t1 , · · · , td ) = f1 (t1 ) · · · fd (td ) = √ exp − .
2 k=1 σk2
p
2π σ12 · · · σd2
Pd
Comme σ12 · · · σd2 = det(D) et 1 2
k=1 σk2 tk = t ∗ ∆−1 t, où t := (t1 , · · · , td ), on obtient
d
1 1 1 ∗ −1
f (t) = f (t1 , · · · , td ) = √ p exp − t ∆ t .
2π det(D) 2
Montrons que la loi de X admet une densité. Soit h une application borélienne positive de Rd
dans [0, +∞]. Comme X = A∗ Z + m, en appliquant le théorème du transfert à Z ,
Z Z
∗
E[h(X )] = h(A z + m)dPZ (z) = h(A∗ z + m)f (z)dλ(d) (z).
Rd Rd

Besançon
Effectuons le changement de variable dans Rd , z ∈ Rd 7→ x := A∗ z + m dont le jacobien de

la transformation x ∈ Rd 7→ z = A(x − m) est det(A). Remarquons que, A étant orthogonale,
| det(A)| = 1 et appliquons le théorème de changement de variable. Il vient
Z
E[h(X )] = h(x)f (A(x − m))dλ(d) (x).
Rd
Le vecteur X admet donc la densité définie sur Rd par ρ(x) := f (A(x − m)). Par suite,
d
1 1 1 ∗ ∗ −1
ρ(x) = √ p exp − (x − m) A ∆ A(x − m)
2π det(D) 2
d
1 1 1 ∗ −1
= √ p exp − (x − m) D (x − m) ,
2π det(D) 2
d’où le résultat cherché. 2
On admettra que si la matrice D n’est pas inversible, la loi de Gauss n’a pas de densité par
rapport à la mesure de Lebesgue sur Rd car on montre qu’elle est portée par un sous-espace
affine de Rd de dimension strictement inférieure à d.
Définition 5.5.
Si la matrice D est inversible, on dira que la loi de Gauss (ou le vecteur gaussien) N d (m, D)
est non-dégénérée. Dans le cas contraire on dira qu’elle est dégénérée.
Exemples 5.3.
1) Une variable aléatoire réelle gaussienne est non-dégénérée si, et seulement si, sa loi
est une loi normale de variance non nulle. Donc une variable aléatoire réelle gaussienne
dégénérée est une variable de loi δm où m est un réel quelconque.
2) Soit (X , Y ) un couple de variables

√ aléatoires réelles admettant pour densité l’application

2 3 1 2 2
définie sur R par ρ(x, y ) := exp − (x − xy + y ) . On vérifie alors que
4π 2

2 2
1 −1/2 x −1 x
x − xy + y = x y = x y D
−1/2 1 y y

4/3 2/3
où D := est la matrice de dispersion du vecteur (X , Y ). On en déduit que
2/3 4/3
(X , Y ) est un vecteur gaussien de loi N 2 (0, D). On peut aussi affirmer que X et Y suivent
la loi N 1 (0, 43 ) et, puisque D n’est pas diagonale, que le couple de variables aléatoires
réelles (X , Y ) n’est pas indépendant. 2

Soit X un vecteur aléatoire
 de dimension 3. On suppose que la loi de X est N 3 (0, Γ ) où
3 −1 0
Γ :=  −1 3 0 . Trouver une matrice A carrée d’ordre 3 telle que les composantes
0 0 2
du vecteur AX soient indépendantes et non dégénérées.

Besançon
5.3 Exercices de révision sur les chapitres I à V

Soient X un vecteur aléatoire de dimension 2, de loi N 2 (0, I ) où 0 désigne le vecteur nul de
R2 et I la matrice-identité d’ordre 2 . Soit A une matrice orthogonale d’ordre 2 à coefficients
réels. Déterminer la loi du vecteur aléatoire de dimension 2 défini par U := AX .

1 2 2
Soit (X , Y ) un couple de variables aléatoires réelles de loi P(X ,Y ) = αe − 2 (x −xy +y ) · λ(2)
où λ(2) est la mesure de Lebesgue sur R2 . Déterminer la constante α et la matrice de
dispersion du couple (X , Y ). Préciser les lois respectives des variables aléatoires réelles X
et Y . Le couple de variables aléatoires réelles (X , Y ) est-il indépendant ?

Soit X une variable aléatoire réelle de loi N 1 (0, 1). On pose
Y = X 1l[0,π] (|X |) − X 1l]π,+∞[ (|X |).
1. Vérifier que, pour toute application h de R dans R,
h(Y ) = h(X )1l[0,π] (|X |) + h(−X )1l]π,+∞[ (|X |).
2. Montrer que la variable aléatoire réelle Y suit la loi normale réduite centrée.
3. Le vecteur aléatoire (X , Y ) est-il gaussien ?
4. Le couple de variable aléatoire réelle (X , Y ) est-il indépendant ?

Soient X , Y , Z trois variables aléatoires réelles indépendantes de même loi N1 (0, 1).
1. Déterminer les lois respectives des variables aléatoires réelles U := X + Y + Z ,
V := 2X − Y − Z et W := Y − Z .
2. Montrer que les variables aléatoires réelles X − Y , Y − Z et Z − X sont chacunes
indépendantes de la v.a.r. U.
3. Le vecteur aléatoire de dimension 3, (U, V , W ), est-il gaussien ? Préciser sa loi.
4. Le triplet de variables aléatoires réelles (U, V , W ) est-il indépendant ?
5. On note ϕ la fonction caractéristique de X 2 [on admettra que, pour tout réel x,
1
ϕ(x) = (1 − 2ix)− 2 ]. On pose T := (X − Y )2 + (Y − Z )2 + (Z − X )2 . Vérifier, pour
tout (x, y , z) ∈ R3 , l’égalité
2
1 3
(x − y ) + (y − z) + (z − x) = 2 x − (y + z) + (y − z)2 ,
2 2 2
2 2
et exprimer la fonction caractéristique Φ(U,T ) du vecteur aléatoire (U, T ) à l’aide de

ϕ. En déduire l’expression de Φ(U,T ) (u, t) en fonction de u et t .

Besançon

Théorème de Fisher-Cochran
Soit n ∈ N∗ et (X1 , · · · , Xn ) une suite indépendante de v.a.r. toutes de même loi N 1 (0, 1).
On définit respectivement les v.a.r. moyenne empirique et variance empirique par
n
X1 + · · · + Xn 1 X
X := et S 2 := (Xk − X )2 .
n n − 1 k=1
1. Montrer que la v.a.r. X12 suit la loi γ( 21 , 12 ) aussi appelée loi du Khi-deux à 1 degré
de liberté et notée χ2 (1).
2. En utilisant la fonction caractéristique des lois Gamma, en déduire que la loi de la
n
X
v.a.r. Xk2 est γ( 12 , n2 ) aussi appelée loi du Khi-deux à n degrés de liberté notée
k=1
χ2 (n).
3. Montrer qu’il existe une matrice orthogonale C de la forme
 
c1,1 c1,2 · · · c1,n
 c2,1 c2,2 · · · c2,n 
 .. .. .. 
 
C = . ...
. . .
· · · cn−1,n 
 
 cn−1,1 cn−1,2
√1 √1 ··· √1
n n n
4. Déterminer la loi du vecteur aléatoire Y := C X .

n
X 1
5. Calculer Yn et Yk2 à l’aide de X1 , · · · , Xn . En déduire que X = √ Yn et
k=1
n
n−1
2 1 X 2
S = Y .
n − 1 k=1 k
6. Démontrer le théorème de Fisher-Cochran : Soit (X1 , · · · , Xn ) une suite indépen-
dante de v.a.r. de même loi N 1 (0, 1). Alors (X , S 2 ) est indépendant, X suit la loi
N 1 (0, n1 ) et (n − 1)S 2 suit la loi χ2 (n − 1).

Soit (εi )i≥1 une suite indépendante de v.a.r. de même loi N 1 (0, 1) et X0 une v.a.r. indépen-
dante de la suite (εi )i≥1 et de loi PX0 = N 1 (m, σ 2 ). On définit la suite de v.a.r. (Xn )n≥1
de la façon suivante : Xn := ln (X0 , . . . , Xn−1 ) + bn εn où (bn )n≥1 est une suite de réels et
(ln )n≥1 une suite de formes linéaires sur Rn . Montrer que, pour tout n ≥ 1, il existe une
forme linéaire Ln sur Rn+1 telle que Xn = Ln (X0 , ε1 , · · · , εn ) et en déduire que le vecteur
(X0 , . . . , Xn ) est gaussien.

Besançon
Chapitre 6. Lois des grands nombres et convergences de v.a.r. 105
Chapitre 6
Lois des grands nombres et

convergences de v.a.r.
Dans ce chapitre, sauf indication contraire, toutes les variables aléatoires considérées seront
réelles et définies sur un même espace de probabilité (Ω, F, P).
La plupart des résultats et définitions de ce chapitre sont une traduction en langage probabiliste
de ceux vus en théorie de la mesure (cf. [2] chapitre V). Ils peuvent s’étendre aux v.a. à valeurs
dans Rd en prenant pour | · | la norme euclidienne de Rd .
Les espaces Lp (Ω, F, P) et Lp (Ω, F, P) ont été introduits en théorie de la mesure pour
p ∈ [1, +∞]. On rappelle que, pour tout 1 < p < q < +∞,
L∞ ⊆ Lq ⊆ Lp ⊆ L1 et k · kLp ≤ k · kLq .
\ [
De plus Lp 6= L∞ et Lp 6= L1 (cf. [2] p. 67 ex IV-8 et IV-11).
p≥1 p≥1
On note L0 (Ω, F, P) ou plus simplement L0 , l’ensemble des classes d’équivalence, pour l’égalité
P-presque-sûre, des v.a. à valeurs dans R sur (Ω, F, P), définies et finies P-presque-sûrement.
On notera en cas de nécessité Xb la classe d’équivalence P-presque-sûre de la v.a. X . On a, pour
tout p ∈ [1, +∞], L ⊆ L . (Xn )N désignera une suite d’éléments de L0 et X
p 0 c b un élément de L0 .
Dans ce chapitre, nous allons passer en revue ces différents modes de convergence initialement
étudiés dans le cours de théorie de la mesure en les appliquant au cas particulier où la mesure
est une probabilité.
6.1 Convergence en probabilité d’une suite de v.a.r.

6.1.1 Loi faible des grands nombres
Commençons par démontrer deux inégalités souvent utilisées en probabilité :
Besançon
Proposition 6.1.
Inégalité de Markov
Soient X une variable aléatoire réelle et ϕ une application borélienne de R dans [0, +∞], alors
pour tout réel a > 0,
E[ϕ(X )]
P [ϕ(X ) ≥ a] ≤ .
a
Démonstration : Posons A := {ϕ(X ) ≥ a}. Puisque ϕ est positive, on peut écrire :
E[ϕ(X )] = E[ϕ(X )1lA ] + E[ϕ(X )1lAc ] ≥ E[ϕ(X )1lA ] ≥ aE(1lA ) = aP(A). 2
Proposition 6.2.
Inégalité de Bienaymé-Tchébycheff
Soit X une v.a.r. telle que E(X 2 ) < +∞. Alors pour tout réel α > 0,
1
P [|X − E(X )| ≥ α] ≤ Var(X ).
α2
Démonstration : On applique l’inégalité de Markov avec ϕ(t) := [t − E(X )]2 et a := α2 . 2
Très utile en théorie, l’inégalité de Bienaymé-Tchébycheff peut être parfois trop grossière pour
apporter des informations utiles dans la pratique. Dans ce cas on établit d’autres majorations
plus appropriées à la situation étudiée. A titre d’exemple, on pourra étudier l’exercice 6.2.
Exemples 6.1.
1) Si X est une variable aléatoire réelle de loi binomiale B(10, 12 ) alors E(X ) = 5 et
Var(X ) = 52 . Un calcul direct donne l’estimation
10
0 1 9 10
1
P (|X − 5| ≥ 4) = C10 + C10 + C10 + C10 ≈ 0, 021,
2
alors que l’inégalité de Bienaymé-Tchébycheff donne la majoration

2, 5
P (|X − 5| ≥ 4) ≤ ≈ 0, 156.
42
2) Si X est une variable aléatoire réelle de carré intégrable de variance σ 2 , l’inégalité de
Bienaymé-Tchébycheff devient P (|X − m| ≥ σ) ≤ 1, alors que dans le cas d’une variable
aléatoire réelle gaussienne de loi N 1 (m, σ 2 )
Z +∞
x2

1
P (|X − m| ≥ σ) = 2 √ exp − 2 dx
σ σ 2π 2σ
Z +∞ 2
1 t
= 2 √ exp − dt ≈ 0, 3174,
1 2π 2
et par suite P (m − σ < X < m + σ) ≈ 0, 6826. 2

Besançon

Règle des trois "sigmas"
Soit X une v.a.r. telle que E(X 2 ) < +∞ de variance σ 2 et de moyenne m.
a) Montrer que
8 3
P (m − 3σ < X < m + 3σ) ≥ et P (m − 2σ < X < m + 2σ) ≥ .
9 4
b) Comparer les valeurs obtenues dans la question précédente avec celles données par le
calcul dans le cas où X est une variable aléatoire réelle de loi N 1 (m, σ 2 ).

1. On considère une variable aléatoire réelle X de carré intégrable, centrée et de variance
σ 2 . A l’aide de l’inégalité de Cauchy-Schwarz de l’exercice 3.13, page 48, montrer que,
pour tout réel a > 0,
p √
a ≤ E (a − X )1l]−∞,a] (X ) ≤ P(X ≤ a) σ 2 + a2 .
En déduire que
σ2
P(X > a) ≤ .
σ 2 + a2
2. Une usine fabrique chaque semaine un nombre aléatoire Y d’objets. On suppose
E[Y ] = 100 et Var(Y ) = 400. Trouver à l’aide de la question précédente un majorant
de la probabilité que la production hebdomadaire dépasse 120. Comparer ce résultat
avec celui obtenu par application de l’inégalité de Bienaymé-Tchébycheff.
Définition 6.1.
Une suite (Xn )N de variables aléatoires réelles est dite identiquement-distribuée , en abrégé
i.d., si toutes les variables aléatoires réelles de la suite ont la même loi. Une suite i.i.d. de
variables aléatoires réelles est une suite indépendante et identiquement distribuée de v.a.r..
Définition 6.2.
Si (Xn )N est une suite de variables aléatoires réelles pour tout entier n ≥ 1, on appelle moyenne
empirique d’ordre n associée à la suite (Xn )N , et on note X (n) ou plus simplement X , la
v.a.r. définie par
X1 + · · · + Xn
X (n) := .
n
La démonstration de la proposition suivante est immédiate et laissée en exercice.

Proposition 6.3.
Si (Xn )N est une suite indépendante et identiquement distribuée de variables aléatoires réelles
de carré intégrable, d’espérance m et de variance σ 2 , alors
σ2

X1 + · · · + Xn X1 + · · · + Xn
E = m et Var = .
n n n

Besançon
Une application de l’inégalité de Bienaymé-Tchébycheff dont le résultat est historiquement

célèbre est :
Proposition 6.4.
Théorème de Bernoulli
Soit (Xn )N une suite indépendante et identiquement distribuée de variables aléatoires réelles de
Bernoulli de paramètre p ∈]0, 1[ i.e. de loi B(1, p). Alors, pour tout réel a > 0 et tout entier
n ≥ 1,
X1 + · · · + Xn 1
P − p ≥ a ≤ 2 .
n 4a n
Démonstration : On applique l’inégalité de Bienaymé-Tchébycheff à la variable aléatoire réelle

X (n) et on utilise la proposition précédente pour obtenir la majoration

X1 + · · · + Xn Var(X0 )
P − m ≥ a ≤ .
n na2
Comme les variable aléatoire réelle sont de Bernoulli E(X0 ) = m = p et Var(X0 ) = p(1 − p).
On conclut en vérifiant que, pour tout p ∈]0, 1[, p(1 − p) ≤ 14 . 2
Exemples 6.2.
Dans son Essai d’arithmétique morale paru en 1777, Buffon relate l’expérience qui consiste
à lancer 4040 fois une pièce de monnaie. Dans la réalisation ω0 de cette expérience Buffon
obtient 2049 fois "Pile". Si on note Xk l’application qui à chaque réalisation associe le
nombre 1 si la pièce tombe sur "Pile" lors du k ième lancer et 0 sinon, la variable aléatoire
réelle Xk est une variable aléatoire réelle de Bernoulli de paramètre p inconnu. On modélise
cette situation en représentant les lancers successifs indépendants par une suite i.i.d. de
variable aléatoire réelle de Bernoulli. On est donc dans les conditions du théorème de
Bernoulli. Avec les notations introduites précédemment, pour l’observation ω0 de Buffon,
on peut écrire
2049
X (4040) (ω0 ) = ≈ 0, 507.
4040
1
Choisissons a tel que ≈ 0, 05. Par exemple prenons a = 0, 0352. D’après le
4a2 · 4040
théorème de Bernoulli,

P ω ∈ Ω / X (4040) (ω) − p ≥ 0, 0352 ≤ 0, 05.
La probabilité que la réalisation ω0 de cette expérience satisfasse l’événement
{ω ∈ Ω / |X (4040) (ω) − p| ≥ 0, 0352}
est inférieure à 0, 05. Autrement dit, la probabilité que le paramètre p vérifie la condition
|X (4040) (ω0 ) − p| ≥ 0, 0352, c-à-d approximativement |0, 507 − p| ≥ 0, 0352, est inférieure à
0, 05. Par suite, on peut affirmer, avec une probabilité supérieure à 0, 95, que l’encadrement
de p obtenu lors de l’observation ω0 , i.e. 0, 4718 ≤ p ≤ 0, 5422, est correct.
L’intervalle [0, 4718; 0, 5422] est dit intervalle de confiance pour p de niveau de confi-
ance 0, 95. 2

Besançon
La technique de détermination des intervalles de confiance pour des paramètres à estimer

relève du domaine de la statistique inférentielle et sera développée dans l’unité d’enseignement
de Statistique.

On cherche à mesurer une grandeur physique en faisant N mesures indépendantes.
Toutes ces mesures sont entachées d’erreur et donnent donc des résultats aléatoires dont
l’espérance commune m est la "vraie" valeur de la grandeur à mesurer. Ces mesures sont
supposées identiquement distribuées. Sachant que la variance de chacune d’elles est 0, 25,
on veut obtenir un résultat qui soit éloigné de moins de 0, 05 de la "vraie" valeur m avec
une probabilité de 0, 99. Quelle valeur choisir pour N ?
En fait la majoration du théorème de Bernoulli peut être améliorée pour montrer que la
convergence vers 0 du second membre est de type exponentiel. C’est ce résultat, donné à
titre d’information, qu’énonce le cas particulier suivant du théorème des grandes déviations
(admis et hors programme, pour la démonstration voir [3] exercice IV-13) :
Proposition 6.5.
Théorème des grandes déviations pour les v.a.r. de Bernoulli (Hors programme)
Si (Xn )N est une suite indépendante de v.a.r. de Bernoulli de même paramètre p ∈]0, 1[, alors
pour tout ε > 0, il existe une constante Cε > 0 telle que pour tout n ∈ N∗ ,

X1 + X2 + ... + Xn
P − p ≥ ε ≤ 2 exp (−nCε ) .

n
Énonçons une conséquence plus faible de l’inégalité de Bienaymé-Tchébycheff :

Proposition 6.6.
Loi faible des grands nombres (1er énoncé)
de carré intégrable et d’espérance m, alors, pour tout réel a > 0,

X1 + · · · + Xn
lim P − m ≥ a = 0.

n→+∞ n
Démonstration : On applique l’inégalité de Bienaymé-Tchébycheff comme dans la démonstration

du théorème de Bernoulli pour obtenir

X1 + · · · + Xn Var(X0 )
P − m ≥ a ≤
.
n na2
Ce qui donne le résultat par passage à la limite. 2
6.1.2 Convergence en probabilité

L’énoncé de la loi faible des grands nombres suggère alors la définition suivante :
Besançon
Définition 6.3.
On dit qu’une suite de variables aléatoires réelles (Xn )N converge en probabilité vers une
variable aléatoire réelle Y si, pour tout réel a > 0,
lim P (|Xn − Y | ≥ a) = 0.
n→+∞
On retrouve ici la traduction de la "convergence en mesure" dans le cas où la mesure est une
probabilité.
Avec cette nouvelle définition, la loi faible s’énonce :

Proposition 6.7.
Loi faible des grands nombres (2ième énoncé)
Si (Xn )N est une suite indépendante et identiquement distribuée de variables aléatoires
réelles
de carré intégrable
et d’espérance m, alors la suite des moyennes empiriques
X1 + X2 + ... + Xn
converge en probabilité vers la variable aléatoire réelle constante m.
n N∗
Exemples 6.3.
1 n
Si, pour tout entier n ≥ 1, Xn est une variable aléatoire réelle de loi δn + δ1 ,
n+1 n+1 n
alors la suite (Xn )N converge en probabilité vers la variable aléatoire réelle constante 0.
En effet, soit a > 0 et n un entier tel que n > a > n1 . Comme la variable aléatoire réelle Xn
est discrète portée par l’ensemble {n, n1 },
1
P(|Xn | ≥ a) = P(Xn = n) = .
n+1
Ce qui prouve le résultat en faisant tendre n vers +∞. 2

Montrer que si, pour tout entier n ≥ 1, Xn est une variable aléatoire réelle de densité n1l[0, 1 ]
n
alors la suite (Xn )N converge en probabilité vers la variable aléatoire réelle constante 0.
La limite d’une suite de variables aléatoires réelles convergeant en probabilité est "presque-
sûrement" unique comme l’énonce de façon précise le résultat suivant :
Proposition 6.8.
Si (Xn )N est une suite de variables aléatoires réelles convergeant en probabilité vers les variables
aléatoires réelles X et Y , alors les variables aléatoires réelles X et Y sont égales presque-
sûrement, i.e. P(X 6= Y ) = 0.
Démonstration : Avec les notations du théorème on peut écrire, pour tout entier naturel n,
|X − Y | ≤ |X − Xn | + |Xn − Y |. Soit a > 0 un réel, on vérifie l’inclusion entre événements
n ao n ao
{|X − Y | ≥ a} ⊆ |X − Xn | ≥ ∪ |Xn − Y | ≥ .
2 2
Besançon
Par suite, pour tout a > 0,

a a
P(|X − Y | ≥ a) ≤ P |X − Xn | ≥ + P |Xn − Y | ≥
2 2
et en passant à la limite dans le second membre de l’inégalité précédente, on trouve par définition
de la convergence en probabilité, que, pour tout réel a > 0, P(|X − Y | ≥ a) = 0. Or
[ 1

{X 6= Y } = {|X − Y | > 0} = |X − Y | ≥ .
n≥1
n
D’où
X 1

6 Y) ≤
P(X = P |X − Y | ≥ = 0.2
n≥1
n
La proposition précédente entraîne que la convergence en probabilité induit une convergence
dans l’espace L0 définie de la façon suivante :
Définition 6.4.
On dit que (X
cn ) converge en probabilité vers X b si, pour tout δ > 0, lim P(|Xn − X | ≥
N n→+∞
δ) = 0.
P b
cn )N −→
On note alors (X X ou X
b = P-limn (X
cn ).
On montre (cf. [2] p. 86 ex V-9), et nous l’admettrons, le résultat suivant :

Proposition 6.9.
(Hors programme)
L’application
∆ : (X b ) ∈ L0 × L0 7→ ∆(X
b, Y b ) := inf{δ > 0, P(|X − Y | ≥ δ) ≤ δ}
b, Y
définit une métrique sur L0 appelée métrique de Ky-Fan. De plus (L0 , ∆) est complet et
cn )N converge en probabilité vers X
(X b si, et seulement si, lim ∆(X b) = 0 .
cn , X
n
La proposition suivante permet d’effectuer des calculs sur les limites en probabilité.
Proposition 6.10.
Soient f une application continue de R2 dans R, (Xn )N et (Yn )N deux suites de variables
aléatoires réelles convergeant en probabilité respectivement vers les variables aléatoires réelles
X et Y , alors la suite de variables aléatoires réelles (f (Xn , Yn ))N converge en probabilité vers
la variable aléatoire réelle f (X , Y ).
Démonstration : Nous allons démontrer cette proposition dans le cadre plus restrictif des appli-
cations f uniformément continues sur R2 . On admettra le résultat pour les fonctions seulement
continues.
Comme f est uniformément continues sur R2 , pour tout réel ε > 0, il existe un réel η > 0
(dépendant de ε), tel que, pour tout (x, y ) ∈ R2 et (x 0 , y 0 ) ∈ R2 , |x − x 0 | + |y − y 0 | < η
implique |f (x, y ) − f (x 0 , y 0 )| < ε.
Soit ε > 0 fixé. Pour tout entier naturel n, on a alors
{|f (Xn , Yn ) − f (X , Y )| ≥ ε} ⊆ n {|Xn − X | + |Yno− Yn| ≥ η}
η ηo
⊆ |Xn − X | ≥ ∪ |Yn − Y | ≥ .
2 2
Besançon
D’où, en faisant tendre n vers +∞, lim P (|f (Xn , Yn ) − f (X , Y )| ≥ ε) = 0, ce qui prouve
n→+∞
que la suite de variables aléatoires réelles (f (Xn , Yn ))N converge en probabilité vers la variable
aléatoire réelle f (X , Y ). 2
On admettra également que cette proposition devient fausse si l’application f n’est plus sup-
posée continue.
Un corollaire immédiat, et très utilisé en pratique, de la proposition précédente est :

Proposition 6.11.
Si (Xn )N et (Yn )N sont deux suites de variables aléatoires réelles convergeant en probabilité
respectivement vers les variables aléatoires réelles X et Y , alors les suites de variables aléatoires
réelles (Xn + Yn )N et (Xn Yn )N convergent en probabilité respectivement vers les v.a.r. X + Y
et X Y .

Trouver, parmi les exercices ou exemples déjà proposés dans ce cours, un contre-exemple
prouvant que si la suite de variables aléatoires réelles (Xn )N converge en probabilité vers la
variable aléatoire réelle X , cela n’entraîne pas nécessairement que la suite des espérances
(si elles existent) (E(Xn ))N converge vers le réel E(X ) (s’il existe).
6.2 Convergence presque-sûre d’une suite de v.a.r.

6.2.1 Loi forte des grands nombres
La proposition suivante, difficile à démontrer, a une grande importance de par sa signification
probabiliste. Nous en donnerons une démonstration plus loin (cf. proposition 6.19, page 117)
dans le cas des variables aléatoires de carré intégrable. C’est en partie grâce à ce théorème que
le formalisme des probabilités trouve sa cohérence.
Proposition 6.12.
Loi forte des grands nombres de Kolmogorov (1er énoncé) (admis)
Si (Xn )N est une suite indépendante et identiquement distribuée de variables aléatoires
réelles
intégrables et d’espérance
m, alors l’ensemble des ω ∈ Ω tels que la suite
X1 (ω) + X2 (ω) + ... + Xn (ω)
ne converge pas vers m est un événement de probabilité
n N∗
nulle.
Donnons une interprétation intuitive de la loi forte des grands nombres. Considérons un
événement A de probabilité inconnue p relatif à une situation aléatoire. Répétons un grand
nombre de fois l’expérience relative à cette situation aléatoire et notons Xk l’application qui à
chaque essai associe le nombre 1 si l’événement A est réalisé lors de la k ième expérience et 0
sinon. La variable aléatoire réelle Xk est une variable aléatoire réelle de Bernoulli de paramètre
p inconnu. On modélise cette situation en considérant les essais successifs indépendants par
une suite i.i.d. de variables aléatoires réelles de Bernoulli. On est donc dans les conditions
d’application de la loi forte de Kolmogorov. Cette loi signifie que presque-sûrement, pour n
assez grand, la moyenne empirique des variables aléatoires réelles Xk , c’est-à-dire la fréquence
de réalisation de l’événement A, est une bonne approximation de la probabilité de A.
Besançon
6.2.2 Convergence presque-sûre

On peut énoncer la loi forte sous sa forme classique en introduisant un autre mode de conver-
gence pour les suites de variables aléatoires.
Auparavant remarquons que :

Proposition 6.13.
Si (Xn )N est une suite de variables aléatoires réelles et Y une v.a.r., alors l’ensemble ∆Y des
ω ∈ Ω tels que la suite réelle (Xn (ω))N ne converge pas vers Y (ω) est un événement de l’espace
de probabilité (Ω, F, P), i.e. ∆Y ∈ F.
Démonstration : Vérifions au préalable que

+∞
[ +∞
\ +∞
[
1
∆Y = |Xl − Y | > .
n=1 k=0 l=k
n
En effet en prenant la contraposée de la définition de la convergence de la suite réelle (Xn (ω))N

vers Y (ω) : ω ∈ ∆Y si, et seulement si, il existe un entier n ≥ 1 tel que, pour tout entier
naturel k, il existe un entier l ≥ k avec |Xl (ω) − Y (ω)| > n1 .
On conclut alors en utilisant la mesurabilité des variables aléatoires réelles Xi et Y ainsi que la
stabilité des tribus pour les opérations de réunion et d’intersection dénombrables (cf. Chapitre
I). 2
On peut alors donner la définition suivante :

Définition 6.5.
On dit qu’une suite de variables aléatoires réelles (Xn )N converge presque-sûrement vers
une variable aléatoire réelle Y si P(∆Y ) = 0.
Cette définition est la traduction en langage probabiliste de la définition de la "convergence

presque-partout" définie en théorie de la mesure.
Exemples 6.4.
Soient Ω := R, F := B(R) et P la probabilité sur R de densité 1l[0,1] . Pour tout entier
n ≥ 1, considérons la variable aléatoire réelle Xn := π +n1l[0, 1 ] . Alors la suite (Xn )N converge
n
presque-sûrement vers la variable aléatoire réelle constante Y := π.
En effet, on vérifie aisément que ∆Y = {0} car limn Xn (0) = +∞ et, pour tout ω ∈ Ω \ {0},
limn Xn (ω) = π. De plus P({0}) = 0, d’où le résultat. 2
Donnons quelques propriétés de la convergence presque-sûre. La limite d’une suite de variables

aléatoires réelles convergeant presque-sûrement est "unique" dans le sens suivant :
Proposition 6.14.
Si (Xn )N est une suite de variable aléatoire réelle convergeant presque-sûrement vers les variables
aléatoires réelles X et Y , alors les variables aléatoires réelles X et Y sont égales presque-
sûrement, i.e. P(X 6= Y ) = 0.
Démonstration : Avec les notations introduites ci-dessus on peut écrire
{X 6= Y } ⊆ ∆X ∪ ∆Y ,
Besançon
et par suite P(X 6= Y ) ≤ P(∆X ) + P(∆Y ) = 0. 2
La proposition précédente entraîne que la convergence presque-sûre induit une convergence

dans l’espace L0 définie de la façon suivante :
Définition 6.6.
On dit que (Xcn )N converge P-presque-sûrement (ou plus simplement presque-sûrement
, ou en abrégé p.s.,) vers X b , si l’ensemble des ω ∈ Ω tels que (Xn (ω))N ne converge pas dans
R vers X (ω) est P-négligeable.
On note alors (Xcn )N P−p.s.
−→ X b ou X b = p.s.-limn (X
cn ).
En général il n’existe pas de métrique d sur L0 telle que, pour toute suite (Xcn )N d’éléments de L0
b ∈ L0 , on ait : lim d(X
et X b ) = 0 si, et seulement si, (X
cn , X cn )N converge P-presque-sûrement
n→+∞
vers X
b . On peut montrer qu’il existe une topologie associée à la convergence presque-sûre si,
et seulement si, la probabilité P est discrète (cf. [2] p. 86 ex V-10).
La proposition suivante permet d’effectuer des calculs sur les limites presque-sûres.
Proposition 6.15.
Soit f une application continue de R2 dans R, (Xn )N et (Yn )N deux suites de variables aléatoires
réelles convergeant presque-sûrement respectivement vers les variables aléatoires réelles X et
Y , alors la suite de variables aléatoires réelles (f (Xn , Yn ))N converge presque-sûrement vers la
variable aléatoire réelle f (X , Y ).
Cette proposition devient fausse si l’application f n’est plus supposée continue (cf. [14] ex
14-11).
Un corollaire immédiat de la proposition précédente est :
Proposition 6.16.
Si (Xn )N et (Yn )N sont deux suites de variables aléatoires réelles convergeant presque-sûrement
respectivement vers les variables aléatoires réelles X et Y , alors les suites de variables aléatoires
réelles (Xn + Yn )N et (Xn Yn )N convergent presque-sûrement respectivement vers les variables
aléatoires réelles X + Y et X Y .

Démontrer les propositions 6.15 et 6.16.
L’inégalité de Tchébycheff est utile dans l’étude des questions de convergence en probabilité.
Le lemme de Borel-Cantelli, quant à lui, est souvent utilisé dans les questions de convergence
p.s. grâce à la proposition suivante :
Besançon
Proposition 6.17.
1. La suite (Xn )N converge p.s. vers la v.a.r. X si, et seulement si, pour tout ε > 0,
P(lim sup{|Xn − X | ≥ ε}) = 0.
n
X
2. Si pour tout ε > 0, la série P({|Xn − X | ≥ ε}) converge dans R, alors la suite (Xn )N
n
converge p.s. vers la v.a.r. X .
3. Si la suite d’événements ({|Xn −X | ≥ ε})N est indépendante, alorsX la suite (Xn )N converge
p.s. vers la v.a.r. X si, et seulement si, pour tout ε > 0, la série P({|Xn − X | ≥ ε})
n
converge dans R.
Démonstration de 6.17 :
1. • (Xn (ω))N converge vers X (ω) si, et seulement si, pour tout ε > 0, il existe un
entier naturel N tel que, pour tout n ∈ N, n > N implique |Xn (ω) − X (ω)| ≤ ε.
En prenant la négation, (Xn (ω))N ne converge pas vers X (ω) si, et seulement si, il
existe ε > 0, tel que, pour tout entier naturel N, il existe n ∈ N, vérifiant n > N et
|Xn (ω) − X (ω)| > ε. La dernière partie de la phrase peut aussi s’énoncer : il existe ε > 0,
tel que ω appartienne à une infinité d’événements de la suite ({|Xn − X | > ε})N ; ou
encore par définition de la limite-supérieure d’une suite d’événements : il existe ε > 0, tel
que ω ∈ lim sup{|Xn − X | > ε}. Par suite,
n
[
{ω ∈ Ω/(Xn (ω))N ne converge pas vers X (ω)} = lim sup{|Xn − X | > ε}.
ε∈]0,∞[
En remarquant que (Xn (ω))N converge vers X (ω) si, et seulement si, pour tout p ∈ N∗ , il
1
existe un entier naturel N tel que, pour tout n ∈ N, n > N implique |Xn (ω)−X (ω)| ≤ ,
p
et en raisonnant comme précédemment on obtient l’égalité
[ 1
{ω ∈ Ω/(Xn (ω))N ne converge pas vers X (ω)} = lim sup{|Xn − X | > }.
p∈N∗
n p
• Si la suite (Xn )N converge presque-sûrement vers X , alors

P ({(Xn )N ne converge pas vers X }) = 0.
Comme, pour tout ε > 0,
lim sup{|Xn − X | > ε} ⊆ {ω ∈ Ω/(Xn (ω))N ne converge pas vers X (ω)}
on en déduit que, pour tout ε > 0, P (lim sup{|Xn − X | > ε}) = 0.
Réciproquement, supposons que, pour tout ε > 0, P (lim sup{|Xn − X | > ε}) = 0, alors
!
[ 1 X 1

P lim sup{|Xn − X | > } ≤ P lim sup{|Xn − X | > } = 0.
p∈N ∗
p p∈N∗
p
D’après la première partie on obtient

P ({(Xn )N ne converge pas vers X }) = 0
c’est-à-dire que (Xn )N converge presque-sûrement vers X .
Besançon
2. Compte tenu de l’item 1) qu’on vient de démontrer, le résultat des item 2) et 3) de la

proposition est une conséquence immédiate du lemme de Borel-Cantelli. 2
On remarquera que dans le troisième item l’indépendance est une hypothèse essentielle ; on
trouvera un contre-exemple dans ([14] ex 14-4). Le premier item souligne le lien existant entre
les convergences p.s. et en probabilité en s’énonçant :
Proposition 6.18.
La suite (Xn )N converge presque-sûrement vers X si, et seulement si, la suite (Mn )N , définie
pour tout n ∈ N par Mn := sup |Xk − X |, converge en probabilité vers 0.
k≥n
∞ ∞
!
\ [
Démonstration : Soit ε > 0, lim sup{|Xn − X | ≥ ε} = {|Xk − X | ≥ ε} . En utilisant
n=0 k=n
le théorème de convergence monotone des probabilités, on obtient
∞
!
[
P(lim sup{|Xn − X | ≥ ε}) = lim P {|Xk − X | ≥ ε} .
n→+∞
k=n
∞
[
De plus, {|Xk − X | ≥ ε} = {sup |Xk − X | ≥ ε}. On conclut alors en vertu du premier
k≥n
k=n
item de la proposition 6.17 : (Xn )N converge p.s. vers la v.a.r. X si, et seulement si, pour
tout ε > 0, P(lim sup{|Xn − X | ≥ ε}) = 0, ou encore (Xn )N converge p.s. vers la v.a.r. X
n
si, et seulement si, pour tout ε > 0, lim P sup |Xk − X | ≥ ε = 0, ou encore (Xn )N con-
n→+∞ k≥n
verge p.s. vers la v.a.r. X si, et seulement si, pour tout ε > 0, lim P (Mn ≥ ε}) = 0, où on a
n→+∞
posé Mn = sup |Xk −X |. Ce qui traduit la convergence en probabilité vers 0 de la suite (Mn )N . 2
k≥n

Soit (Xn )N une suite i.i.d. de variables aléatoires réelles de carré intégrable, de variance σ 2 .
On note, pour tout entier n ≥ 2,
n
1 X 2
Sn2 := Xk − X (n) ,
n − 1 k=1
la variance empirique d’ordre n de la suite (Xn )N . Montrer que

n
1 X 2 n 2
Sn2 = Xk − X (n) (Formule de Steiner)
n − 1 k=1 n−1
et en déduire que la suite de variables aléatoires réelles (Sn2 )N converge presque-sûrement

vers σ 2 .
Avec la notion de convergence presque-sûre, la loi forte de Kolmogorov s’énonce :

Besançon
Proposition 6.19.
Loi forte des grands nombres de Kolmogorov (2ième énoncé)
Si (Xn )N est une suite indépendante et identiquement distribuée de variables
aléatoires réelles

X1 + X2 + ... + Xn
intégrables et d’espérance m, alors la suite des moyennes empiriques
n N∗
converge presque-sûrement vers la variable aléatoire réelle constante m.
Démonstration : Conformément au programme de l’unité, on ne fera la démonstration de ce
théorème que dans le cadre plus restreint des variables de carré intégrable seulement. Remar-
quons qu’en posant, pour tout entier naturel n, Yn = Xn − m, on peut se ramener, sans perte
de généralité, à ne faire la démonstration que dans le cas d’une suite de variables aléatoires
centrées. On notera σ 2 la variance commune des variables Xn .
Soit (Xn )N une suite indépendante et identiquement distribuée de variables aléatoires réelles
centrées de carré intégrable.
Pour tout entier naturel non nul n, posons Sn = X1 +X2 +· · ·+Xn .
Sn2
• Montrons que la suite converge presque-sûrement vers 0.
n2 n∈N∗
En effet, pour tout ε > 0, nous avons,
par application de l’inégalité de Bienaymé-Tchebychev,
Sn2 σ2
en tenant compte de l’égalité V ar = 2 (vérifier le calcul),
n2 n

V ar Sn2
σ2

Sn2 n2
P 2 ≥ ε ≤ = .
n ε2 n 2 ε2
X Sn2
Ce qui prouve que la série numérique à termes positifs P 2 ≥ ε est convergente, car

n
n
son terme général est majorée par le terme général d’une série de Riemann convergente.
On
Sn2
conclut alors, en appliquant l’item 2) de la proposition 6.17, que la suite converge
n2 n∈N∗
presque-sûrement vers 0. √
• Pour tout entier naturel non nul n, notons pn la partie entière de n, i.e. pn est l’unique
√

Spn2
entier naturel vérifiant la double inégalité pn ≤ n < pn + 1. Montrons que la suite
n n∈N∗
converge presque-sûrement vers 0.√ √ √
De la double inégalité, on obtient n − 1 < pn ≤ n, puis, en élevant au carré, n − 2 n + 1 <
p2 √
pn2 ≤ n, ce qui implique lim n = 1 et n − pn2 ≤ 2 n. Comme, d’après ce qui vient d’être
n→+∞ n
Sn2 Spn2
vu, la suite converge presque-sûrement vers 0, la suite converge aussi
n2 n∈N∗ pn2 n∈N∗
Sp2 Sp 2 p 2
presque-sûrement vers 0. De la relation, pour tout entier naturel non nul n, n = 2n · n , on
n pn n
Spn 2
peut conclure, en passant à la limite presque-sûre, que converge presque-sûrement
n n∈N∗
vers 0.
• Pour conclure la démonstration du théorème, utilisons à nouveau l’inégalité de Bienaymé-
Tchebychev. Pour
tout ε > 0, √ 2
2 2

Sn Spn2 1 (n − p n )σ 2 nσ
P − ≥ε = P Xp2 +1 + Xp2 +2 + · · · + Xn ≥ ε ≤ ≤ ,
n n n n n
n 2 ε2 n 2 ε2
Besançon
√
car ona vu que n − pn2 ≤ 2 n. Ce qui prouve que la série numérique à termes positifs
X Sn Sp2
P − n ≥ ε est convergente, car son terme général est majorée par le terme
n
n n
général d’une série de Riemannconvergente. Toujours en appliquant l’item 2) de la propo-
Sn Spn2
sition 6.17, on en conclut que − converge presque-sûrement vers 0. Donc en
n n n∈N2
tenant compte
des résultats démontrés
dans les deux points précédents, et de l’inégalité trian-
Sn Sn Spn2 Spn2
gulaire ≤ − + , vraie pour tout entier naturel non nul n, on en conclut que
n n n n
Sn
converge aussi presque-sûrement vers 0. 2
n n∈N∗
En fait la réciproque de 6.19 est aussi vraie. Pour cela on se reportera à l’exercice 6.12, page

X1 + X2 + ... + Xn
122, qui montre que si la v.a.r. X n’est pas intégrable, alors la suite
n N∗
ne peut pas converger presque-sûrement dans R. Par contraposée, on obtient justement la
réciproque de la proposition 6.19.
On notera que des conditions suffisantes d’existence de loi forte peuvent être démontrées sans
l’hypothèse de l’identité des lois ou de l’indépendance mutuelle de la suite de v.a.r..
Par exemple on montre, et on les admettra, les deux propositions 6.20 et 6.21 (hors programme)
suivantes :
Proposition 6.20.
Loi forte des grands nombres pour des v.a.r. uniformément bornées (Hors pro-
gramme)
Si (Xn )N est une suite indépendante de v.a.r., centrées et telles qu’il existe M > 0 véri-
fiant,
pour tous n ∈N et ω ∈ Ω, |Xn (ω)| ≤ M, alors la suite des moyennes empiriques
X1 + X2 + ... + Xn
converge presque-sûrement vers 0.
n N∗
Proposition 6.21.
Loi forte des grands nombres pour des v.a.r. deux à deux indépendantes (Hors
programme)
Si (Xn )N est une suite de v.a.r. intégrables, deux à deux
indépendantes, demême loi et
X1 + X2 + ... + Xn
d’espérance m, alors la suite des moyennes empiriques converge
n N∗
presque-sûrement vers m.
6.3 Convergence dans Lp (Ω , F, P) où p ∈ [1, +∞]

La topologie d’espace vectoriel normé de Lp permet de définir un autre mode de convergence
pour les suites d’éléments de L0 qui sont dans Lp .

Besançon
Définition 6.7.
Si p ∈ [1, +∞], on dit que la suite de v.a.r. (Xn )N converge en moyenne d’ordre p vers
la v.a.r. X ou plus simplement converge dans Lp vers la v.a.r. X si X b ∈ Lp et pour tout
p
n ∈ N, Xn ∈ L avec lim kXn − X kLp = 0. Si p = 2 on parle aussi de convergence en
c c b
n
moyenne quadratique.
Lp
On note alors (Xn )N −→ X ou X = Lp -limn (Xn ).
On ne confondra pas la convergence dans Lp avec la convergence de la suite des espérances

mathématiques. Plus précisément :
Proposition 6.22.
Si la suite (Xn )N converge dans Lp vers la v.a.r. X , alors la suite des espérances (E(Xn ))N
converge dans R vers E(X ).
Concernant la réciproque on a cependant le résultat suivant :

Proposition 6.23.
Si la suite (Xn )N converge p.s. vers la v.a.r. X et si, pour tout entier naturel n, Xn ≥ 0, alors
(Xn )N converge dans L1 vers la v.a.r. X si, et seulement si, (E(Xn ))N converge dans R vers
E(X ).
6.4 Comparaison des convergences dans L0(Ω , F, P)

Il existe des relations entre les différents modes de convergence de suites de variables aléatoires.
Ces relations sont la traduction en langage probabiliste des relations entre les modes de con-
vergence vus en théorie de la mesure. Rappelons-les pour mémoire :
La convergence presque-sûre est plus forte que la convergence en probabilité comme le précise
la proposition :
Proposition 6.24.
Si (Xn )N est une suite de variables aléatoires réelles convergeant presque-sûrement vers la
variable aléatoire réelle Y , alors la suite (Xn )N converge en probabilité vers la variable aléatoire
réelle Y .
Démonstration : En partant de la définition de la convergence des suites, on vérifie d’abord

que, pour tout réel a > 0,
\ [
{|Xn − Y | ≥ a} ⊆ ∆Y .
m∈N n≥m
On observe de plus que P(∆Y ) = 0 et que, par le théorème de convergence monotone de

Beppo-Lévi,
! !
\ [ [
P {|Xn − Y | ≥ a} = lim P {|Xn − Y | ≥ a} .
m→+∞
m∈N n≥m n≥m

Besançon
Comme, pour tout entier m,

!
[
P {|Xn − Y | ≥ a} ≥ P ({|Xm − Y | ≥ a}) ,
n≥m
on obtient
!
\ [
0 ≥ P(∆Y ) ≥ P {|Xn − Y | ≥ a} ≥ lim P ({|Xm − Y | ≥ a}) ≥ 0.
m→+∞
m∈N n≥m
Ce qui entraîne que lim P(|Xm − Y | ≥ a) = 0 c-à-d que la suite de variables aléatoires
m→+∞
réelles (Xn )N converge en probabilité vers la variable aléatoire réelle Y . 2
Ce dernier résultat n’est plus vrai si la mesure n’est pas finie ([2] p. 85 ex V-8). Quant à la
réciproque, elle n’est pas vraie, la convergence en probabilité n’entraîne pas la convergence
presque-sûre (cf. [14] ex 14-3). Cependant on a les résultats suivants :
Proposition 6.25.
Si (Xn )N converge en probabilité vers X , alors il existe une sous-suite convergeant presque-
sûrement vers X .
Le résultat suivant montre à quelle condition les notions de convergences en probabilité et
presque-sûre coïncident (cf. [2] p. 86 ex V-10) :
Proposition 6.26.
Les notions de convergences en probabilité et presque-sûre coïncident si, et seulement si, la
probabilité P est discrète.
Tenant compte de ce que les variables aléatoires réelles de carré intégrable sont intégrables
d’après la proposition 3.20, page 45, la loi faible des grands nombres apparaît ainsi comme une
conséquence immédiate de la loi forte de Kolmogorov.
Proposition 6.27.
Si 1 < p < q < +∞ et si la suite (Xn )N converge dans Lq vers la v.a.r. X , alors la suite (Xn )N
converge dans Lp vers la v.a.r. X .
La réciproque est fausse (cf. [14] ex 14-5). La topologie de Lq contient la topologie induite sur
Lq par celle de Lp , mais on n’a pas l’égalité des topologies.
Concernant le lien entre les convergences presque-sûre et dans Lp , en général la convergence

presque-sûre d’une suite de v.a. de Lp n’entraîne pas la convergence de cette suite dans Lp (cf.
[14] ex 14-8). Cependant on a les deux résultats suivants :
Proposition 6.28.
Si (Xn )N est dominée dans Lp , 1 ≤ p < +∞, et converge presque-sûrement vers X , alors elle
converge dans Lp vers X .
La réciproque de cette proposition est fausse, la convergence dans Lp n’entraîne pas la

convergence presque-sûre (cf. [14] ex 14-7, [2] p. 83 ex V-1-(3)), mais :
Besançon
Proposition 6.29.
Si (Xn )N converge dans Lp vers X , 1 ≤ p < +∞, alors il existe une sous-suite convergeant
presque-sûrement vers X .
Concernant le lien entre les convergences dans Lp et en probabilité, on a :

Proposition 6.30.
Si (Xn )N converge dans Lp vers X , 1 ≤ p < +∞, alors elle converge en probabilité vers X .
La réciproque est fausse, la convergence en probabilité n’entraîne pas la convergence dans Lp

(cf. [14] ex 14-6, [2] p. 83 ex V-1-(5)).
6.5 Exercices de révision sur les chapitres I à VI

Soient (Xn )n≥1 une suite de v.a.r. de carré intégrable non corrélées. On suppose qu’il existe
un réel µ et un réel positif C tels que, pour tout n ≥ 1, E[Xn ] = µ et Var(Xn ) ≤ C . Montrer
que la suite
X1 + · · · + Xn
n n≥1
converge vers µ dans L2 et en probabilité.

Théorème de Monte-Carlo
Soit f une application de [0, 1] dans R de carré intégrable au sens de Lebesgue sur [0, 1].
On considère une suite indépendante (Un )N de v.a.r. de loi uniforme sur [0, 1]. Démontrer
directement et sans utiliser la loi des grands nombres que la suite des moyennes empiriques
associée àRla suite de v.a.r. (f (Un ))N converge en probabilité vers l’intégrale au sens de
Lebesgue [0,1] f dλ.

A l’aide de la loi forte des grands nombres et en considérant une suite indépendante de
v.a.r. (Xi )i≥1 de même loi uniforme U([0, 1]), calculer
x1 + · · · + xn
Z
lim f( )dλ(n) (x1 , · · · , xn ),
n→+∞ [0,1]n n
où λ(n) est la mesure de Lebesgue dans Rn et f une application continue bornée de R dans
R.

Théorème de Weierstrass
Soient f une application continue de [0, 1] dans R et x ∈ [0, 1]. Pour tout n ∈ N∗ , notons
Sn une v.a.r. binomiale de loi B(n, x).
Besançon
1. Montrer que pn (x) := E[f ( n1 Sn )] est un polynôme en x appelé polynôme de

Bernstein de f .
2. En utilisant l’uniforme continuité de f sur [0, 1] montrer que, pour tout ε > 0, il
existe δ > 0 tel que, pour tout n ∈ N∗ et tout x ∈ [0, 1],
1
|pn (x) − f (x)| ≤ E[|f ( Sn ) − f (x)|]
n
1 1
≤ εP | Sn − x| < δ + 2P | Sn − x| ≥ δ sup |f (x)|.
n n 0≤x≤1
En déduire que, pour tout ε > 0, il existe δ > 0 tel que, pour tout n ∈ N∗ et tout
x ∈ [0, 1],
x(1 − x)
|pn (x) − f (x)| ≤ ε + 2 sup |f (x)|.
nδ 2 0≤x≤1
3. Démontrer le théorème de Weierstrass : Toute application continue de [0, 1] dans
R est limite uniforme sur [0, 1] d’une suite de polynômes.

Pour la première question de cet exercice, on pourra utiliser le résultat de l’exercice 4.17,
page 92. X
1. Soit X une v.a.r. , montrer que E(|X |) ≤ P(|X | ≥ n).
n≥0
2. Soit (Xn )N une suite indépendante de v.a.r. de même loi. On pose, pour tout n ∈ N∗ ,
Sn := X1 + X2 + ... + Xn . En utilisant la relation
Sn Sn+1 Sn Xn+1
− = − ,
n n+1 n(n + 1) n + 1
Montrer que
1
{( Sn )N∗ converge dans R} ⊆ [lim sup{|Xn | ≥ n}]c .
n n→+∞
3. On suppose de plus que X1 n’est pas intégrable. A l’aide du lemme de Borel-Cantelli,

1
montrer que la suite de v.a.r. ( Sn )N∗ ne converge pas presque-sûrement dans R.
n

Soit (Xn )N une suite indépendante de v.a.r. intégrables, de même loi et d’espérance m 6= 0.
On note, pour tout entier n ≥ 1, Sn := X1 + X2 + ... + Xn . Soit I un intervalle borné de R.
1. Montrer l’inclusion
c
1
Sn converge vers m ⊆ lim sup{Sn ∈ I } .
n N∗ n
2. En déduire que presque-sûrement seulement un nombre fini des événements {Sn ∈ I }

sont réalisés.

Besançon
Chapitre 7. Théorème-limite central et convergence de lois 123
Chapitre 7
Théorème-limite central et
convergence de lois
Dans ce chapitre, sauf indication contraire, toutes les variables aléatoires considérées seront
réelles et définies sur un même espace de probabilité (Ω, F, P). On notera M1 (R), ou plus
simplement M1 , l’ensemble des mesures de probabilité sur R. On se propose de munir cet
ensemble d’une structure topologique appelée topologie de la convergence étroite . La
notation Cb (Rd ) désignera l’espace fonctionnel des applications, appelées fonctions-test ,
continues et bornées de Rd dans R.
7.1 Théorème-limite central (TLC)

7.1.1 Énoncé du théorème-limite central (TLC)
Pour introduire l’énoncé du TLC, commençons par une proposition élémentaire très utilisée en
statistique inférentielle.
Proposition 7.1.
Si (Xn )N est une suite indépendante et identiquement distribuée (i.i.d.) de variables aléatoires
réelles gaussiennes d’espérance m et de variance σ 2 > 0, alors, pour tout entier n > 0, la
variable aléatoire réelle
X1 + · · · + Xn
−m
n
σ2
est une variable aléatoire normale centrée de variance .
n
Démonstration : Soit n ∈ N∗ fixé. Comme (X1 , · · · , Xn ) est une suite indépendante de variables
aléatoires réelles gaussiennes, la somme X1 +· · ·+Xn est une variable aléatoire réelle gaussienne
de loi N 1 (nm, nσ 2 ). Par suite la v.a.r.
X1 + · · · + Xn
−m
n
σ2
est de loi N 1 (0, ). 2
n

Besançon
En particulier, pour tout x ∈ R, on peut écrire avec les notations de la proposition précédente,
r !
x
X1 + · · · + Xn σ2
Z
1 u2
P −m ≤x =√ e − 2 du.
n n 2π −∞
On peut aussi énoncer la proposition précédente sous la forme :

Proposition 7.2.
gaussiennes d’espérance m et de variance σ 2 > 0, alors, pour tout entier n > 0, la variable
aléatoire réelle Sn := X1 + · · · + Xn est une variable aléatoire normale d’espérance nm et de
variance nσ 2 .
Si, dans les hypothèses de la proposition 7.1, on supprime la connaissance a priori de la loi
commune des v.a.r. , le résultat précédent devient seulement "asymptotiquement" vrai au sens
précisé dans l’énoncé du théorème suivant, connu sous le nom de Théorème-limite central ou
en abrégé TLC, très important en statistique inférentielle. Vu son importance, nous donnerons
dans ce chapitre plusieurs énoncés équivalents de ce résultat que nous démontrerons à la page
138 après avoir étudié la notion de convergence étroite d’une suite de probabilités.
Proposition 7.3.
Théorème-limite central (version "moyenne empirique")
de carré intégrable d’espérance m et de variance σ 2 > 0, alors, pour tout x ∈ R,
r ! Z x
X1 + · · · + Xn σ2 1 t2
lim P −m ≤x =√ e − 2 dt.
n→+∞ n n 2π −∞
La loi forte des grands nombres affirme que presque-sûrement, pour n assez grand, la moyenne
X1 + · · · + Xn
empirique est proche de m. Le théorème-limite central quant à lui, donne des
n
X1 + · · · + Xn
renseignements, pour n "assez grand", sur la loi approximative de l’erreur −m
n
X1 + · · · + Xn
commise en prenant comme estimation de m.
n
D’un point de vue pratique, si (Xn )N est une suite indépendante et identiquement distribuée de
variables aléatoires réelles de carré intégrable d’espérance m et de variance σ 2 > 0, alors, pour
tout entier naturel n assez grand et pour tout x ∈ R,
Z x√ n
X1 + · · · + Xn 1 σ2 t2
P −m ≤x ≈√ e − 2 dt
n 2π −∞
q
σ2
c-à-d avec le changement de variable u := t n
,
x u2

X1 + · · · + Xn
Z
1 −
2 σn
2
P −m ≤x ≈q e du.
n 2π σn
2
−∞

Besançon
X1 + · · · + Xn
On peut dire qu’asymptotiquement, i.e. pour tout entier n assez grand, l’erreur −
n
2
σ X1 + · · · + Xn
m suit la loi normale N 1 (0, ) ou encore que la moyenne empirique suit approx-
n n
σ2
imativement la loi N 1 (m, ). Cela signifie qu’asymptotiquement la v.a.r. Sn = X1 + · · · + Xn
n
peut être approximée par une variable aléatoire normale d’espérance nm et de variance nσ 2 .
On peut alors donner une autre forme équivalente du TLC qui porte sur la somme de n v.a.r
i.i.d. :
Proposition 7.4.
Théorème-limite central (version "somme de n v.a.r.")
de carré intégrable, d’espérance m et de variance σ 2 > 0, alors, pour tout réel x,
Z x
Sn − nm 1 t2
lim P √ ≤x = √ e − 2σ2 dt.
n→+∞ n σ 2π −∞
On peut aussi exprimer le TCL sous une forme plus intuitive, calquée sur l’énoncé de la
proposition 7.2 mais cette fois sans l’hypothèse de normalité des variables, ce qui conduit
à un résultat analogue vrai seulement asymptotiquement sur n, au lieu de l’être pour tout n.
C’est d’ailleurs souvent sous cette dernière forme que le TLC est énoncé et utilisé dans les
applications pratiques en statistique.
Proposition 7.5.
Approximation d’une somme de v.a.r. par la loi normale
de carré intégrable, d’espérance m et de variance σ 2 > 0, alors, pour tout entier naturel n ≥ 1
suffisamment grand (en pratique n ≥ 30), la variable aléatoire réelle Sn := X1 + · · · + Xn
se comporte approximativement comme une variable aléatoire normale d’espérance nm et de
variance nσ 2 .
Exemples 7.1.
Considérons une suite i.i.d. (Xn )N de variables aléatoires réelles de loi uniforme sur
365
X
1 1
l’intervalle [− 2 , 2 ]. Posons S := Xk . Alors P(|S| ≤ 15) ≈ 0, 99.
k=1
En effet, en gardant les mêmes notations que plus haut, un calcul d’espérance et de variance
pour la variable aléatoire réelle X1 de loi uniforme sur l’intervalle [− 12 , 21 ] on obtient,
1
m = E(X1 ) = 0 et σ 2 = Var(X1 ) = 12 . Par suite E(S) = 0 et, en vertu de l’identité
des lois et de l’indépendance de la suite (Xn )N ,
365
! 365
X X 365
Var(S) = Var Xk = Var(Xk ) = .
k=1 k=1
12
Comme d’après ce qui a été écrit plus haut, S est pratiquement une variable aléatoire
réelle normale car n peut être considéré comme grand, on en déduit que la loi
qde S est
pratiquement N 1 (0, 365
12
). Cela signifie aussi que la variable aléatoire réelle 12
365
S est
Besançon
q
12
pratiquement de loi N 1 (0, 1). Par suite comme 15 365 ≈ 2, 72,
r r ! Z
12 2,72
12 1 t2
P(|S| ≤ 15) = P S ≤ 15 = √ e − 2 dt.

365 365 −2,72 2π
En utilisant la table de la loi normale centrée réduite de l’annexe B, page 211, on trouve
P(|S| ≤ 15) ≈ 0, 99.
Comparons ce résultat à ce que donnerait l’inégalité de Bienaymé-Tchébychev. Par appli-

cation de cette inégalité,
Var(S)
P(|S| > 15) = P(|S − E(S)| > 15) ≤ ≈ 0, 135,
152
c-à-d P(|S| ≤ 15) ≥ 0, 865. 2
On voit qu’un des intérêts du TLC est de permettre d’approximer la loi d’une variable aléatoire
réelle dans des situations où le calcul exact de cette loi serait pratiquement très compliqué,
voire impossible.
7.1.2 Cas particuliers du théorème-limite central (TLC)

Appliquons le TLC à des cas particuliers. Voici un corollaire du théorème-limite central
historiquement important.
Proposition 7.6.
Approximation d’une loi binomiale par une loi normale (Théorème de De Moivre-
Laplace)
Si p ∈]0, 1[ et, pour tout entier n ≥ 1, Zn est une variable aléatoire réelle de loi binomiale
B(n, p), alors pour tout réel x
! Z x
Zn − np 1 t2
lim P p ≤x = √ e − 2 dt.
n→+∞ np(1 − p) 2π −∞
Démonstration : D’après la proposition 4.33, page 86, la variable aléatoire réelle

Z − np
p n
np(1 − p)
a même loi que la variable aléatoire réelle

X1 + · · · + Xn − np
Yn := p
np(1 − p)
où (Xn )N est une suite indépendante et identiquement distribuée de variables aléatoires

réelles de Bernoulli de loi B(p). De plus avec les notations habituelles, m = E(X0 ) = p,
σ 2 = Var(X0 ) = p(1 − p).
On applique alors le théorème-limite central (version "moyenne empirique", cf. proposition 7.3)
Besançon
à la suite (Xn )N . 2
Le théorème de De Moivre-Laplace exprime que dans la pratique, pour n assez grand, une
variable aléatoire réelle X binomiale de taille n peut être approximée par une variable aléatoire
réelle normale X 0 . Plus précisément, si a et b sont des réels avec a < b, alors
!
a − np X − np b − np
P (a < X ≤ b) = P p <p ≤p .
np(1 − p) np(1 − p) np(1 − p)
D’où pour un entier n assez grand,

Z √ b−np
1 np(1−p) t2
P (a < X ≤ b) ≈ √ e − 2 dt
2π √ a−np
np(1−p)
u − np
c-à-d avec le changement de variable t = p ,
np(1 − p)
Z b
(u − np)2

1
P (a < X ≤ b) ≈ p exp − du = P (a < X 0 ≤ b)
2πnp(1 − p) a 2np(1 − p)
où X 0 est une variable aléatoire réelle normale d’espérance np et de variance np(1 − p).
En conclusion, on peut dire qu’asymptotiquement, i.e. pour n assez grand, la v.a.r. X

binomiale B(n, p), peut être approximée par une variable aléatoire normale X 0 d’espérance np
et de variance np(1 − p). Dans la pratique cette approximation est considérée satisfaisante si
n ≥ 20 et p ≈ 12 .

Un cinéma comporte deux salles contenant chacune n places. N personnes se présentent à
l’entrée de ce cinéma. On admet que les choix des spectateurs sont indépendants les uns
des autres et qu’un spectateur quelconque a une chance sur deux d’aller dans la première
salle.
1. Quelle est la probabilité P que tous les spectateurs ne puissent pas voir le film qu’ils
ont choisi ?
2. Comment le constructeur aurait-il dû choisir n si on sait que N = 1000 et si on veut
que P ≤ 0, 01 ?
On peut faire, pour les variables aléatoires réelles de Poisson, un raisonnement analogue à celui
fait pour les variables binomiales pour obtenir la proposition suivante :
Proposition 7.7.
Approximation d’une loi de Poisson par une loi normale
Soient un réel α > 0 et, pour tout entier n ≥ 1, Zn une variable aléatoire réelle de loi de
Poisson P(nα), alors pour tout réel x,
Z x
Zn − nα 1 t2
lim P √ ≤x = √ e − 2 dt.
n→+∞ nα 2π −∞

Besançon
Démonstration : La démonstration de cette proposition se calque facilement sur celle du

théorème de De Moivre-Laplace. 2
Une conséquence de la proposition 7.7 est que, pour un réel β assez grand, une variable aléatoire
réelle X de Poisson P(β) peut être approximée par une variable aléatoire réelle X 0 normale
N 1 (β, β). Dans la pratique cette approximation est considérée satisfaisante si β ≥ 10.
7.1.3 Correction de continuité

Prenons le cas de l’approximation d’une variable aléatoire réelle X binomiale B(n, p), par une
variable aléatoire réelle X 0 normale N 1 [np, np(1 − p)]. Si on remplace "brutalement" X par X 0
dans les calculs, on aura, pour tout entier 0 ≤ k ≤ n, P(X = k) ≈ P(X 0 = k) = 0 car X 0 étant
une variable aléatoire réelle à densité, P(X 0 = x) = 0 pour tout réel x. Ce qui n’a aucun intérêt.
En général pour éviter cet inconvénient, quand on veut approximer dans un calcul pratique une
variable aléatoire réelle X discrète portée par N par une variable aléatoire réelle X 0 admettant
une densité ρ sur R de fonction de répartition F , on effectue une correction appelée correction
de continuité.
Les corrections de continuité sont données par :

1. Pour tout entier 0 ≤ k ≤ n, on approxime P(X = k) de la façon suivante :

1 1 1 0 1
P(X = k) = P k − ≤ X ≤ k + ≈P k− ≤X ≤k+
2 2 2 2
c’est-à-dire
Z k+ 12
1 1
P(X = k) ≈ ρ(t)dλ(t) = F k+ −F k− .
k− 12 2 2
2. Plus généralement, si a et b sont des réels avec a < b, on approxime P(a < X < b) de
la façon suivante (mêmes écritures avec les inégalités larges) :

1 1 1 0 1
P(a < X < b) = P a − ≤ X ≤ b + ≈P a− ≤X ≤b+
2 2 2 2
c’est-à-dire
Z b+ 21
1 1
P(a < X < b) ≈ ρ(t)dλ(t) = F b+ −F a− .
a− 12 2 2
3. On écrit, pour tout réel b, (mêmes écritures avec les inégalités larges) :
Z b+ 1
1 0 1 2 1
P(X < b) = P X ≤ b + ≈P X ≤b+ = ρ(t)dλ(t) = F b + .
2 2 −∞ 2
4. On écrit, pour tout réel a, (mêmes écritures avec les inégalités larges) :
Z +∞
1 1 0 1
P(a < X ) = P a − ≤ X ≈ P a − ≤ X = ρ(t)dλ(t) = 1−F a − .
2 2 a− 12 2

Besançon
7.2 Convergence d’une suite de probabilités, conver-

gence en loi
L’importance du théorème-limite central conduit à introduire une notion de convergence dans
l’ensemble M1 (R) des probabilités sur R. Auparavant disons qu’un réel x est point de conti-
nuité , resp. point de discontinuité , d’une application f de R dans R si l’application f est
continue en x, resp. discontinue en x.
Définition 7.1.
Soient (µn )N une suite de probabilités sur R et µ une probabilité sur R. On dit que la suite
de probabilités (µn )N converge étroitement vers la probabilité µ, si, pour tout point de
continuité x de la fonction de répartition Fµ de µ, la suite réelle (Fµn (x))N converge vers le réel
Fµ (x).
On remarquera qu’on n’exige pas que la suite de réels (Fµn (x))N converge vers Fµ (x) aux points
x ∈ R où la fonction de répartition Fµ de µ n’est pas continue. Il se peut qu’il n’y ait pas con-
vergence en certains points de discontinuité.
On notera le résultat suivant d’analyse, conséquence de la monotonie de la fonction de

répartition :
Proposition 7.8.
L’ensemble des points de discontinuité d’une fonction de répartition, est dénombrable.
Démonstration : On rappelle qu’on a vu dans le premier chapitre, proposition 1.14, page 15, que
la fonction de répartition de µ n’est pas continue en un point x si, et seulement si, µ({x}) > 0.
On en déduit donc que l’ensemble des discontinuités de Fµ est égal à
+∞
[
1
x ∈ R / µ({x}) > .
k=1
k
1
Mais, pour tout entier k ≥ 1, {x ∈ R/µ({x}) > } contient au plus k éléments. Par suite
k
l’ensemble des discontinuités de la fonction de répartition d’une probabilité est une réunion
dénombrable d’ensembles dénombrables, donc est un ensemble dénombrable. 2
On prendra garde que, si une suite de fonctions de répartition de probabilités converge, sa

limite n’est pas nécessairement la fonction de répartition d’une probabilité, comme le montre
l’exercice 7.2 ci-dessous. En revanche, on admettra que :
Proposition 7.9.
La limite, si elle existe, d’une suite de fonctions de répartition est une application de R dans
[0, 1] continue à droite et croissante.

En considérant la suite de probabilités de Dirac au point n sur R, (δn )N , montrer que la
limite, si elle existe, d’une suite de fonctions de répartition n’est pas nécessairement une
fonction de répartition et qu’on peut avoir la convergence simple de la suite (Fµn )N sans
Besançon
que la suite (µn )N converge.
Définition 7.2.
Si (Xn )N est une suite de variables aléatoires réelles et X une v.a.r., on dit que la suite (Xn )N
converge en loi vers la variable aléatoire réelle X pour exprimer que la suite (PXn )N des lois
des variables aléatoires réelles Xn converge vers la loi PX de la variable aléatoire réelle X .
On prendra garde que cette dernière terminologie est très dangereuse car une suite de variables
aléatoires réelles (Xn )N peut converger en loi vers des variables aléatoires réelles différentes.
Tout ce qu’on peut affirmer a priori c’est que toutes ces variables aléatoires réelles auront alors
la même loi, comme le précise le résultat qui suit :
Proposition 7.10.
Si une suite de probabilités sur R, (µn )N , converge étroitement vers deux probabilités sur R, µ
et ν, alors µ = ν.
Démonstration : Notons C (Fµ ), resp. C (Fν ), l’ensemble des points de continuité de la fonction
de répartition de µ, resp. ν. Comme l’ensemble des discontinuités de la fonction de répartition
d’une probabilité est un ensemble dénombrable (cf. proposition 7.8), l’ensemble des points de
continuité communs à Fµ et Fν , i.e. C (Fµ ) ∩ C (Fν ), est dense dans R comme complémentaire
d’un ensemble dénombrable. Pour tout x ∈ C (Fµ ) ∩ C (Fν ), Fµ (x) = lim Fµn (x) = Fν (x) car
n
la suite (µn )N , converge à la fois vers les deux probabilités µ et ν. Fµ et Fν étant continues à
droite sur R, on en conclut que Fµ = Fν et par suite µ = ν. 2
On admettra qu’on peut munir l’ensemble M1 (R) d’une structure d’espace métrique dont la
topologie associée est celle de la convergence étroite (cf. [3], exercice V-17). Précisément :
Proposition 7.11.
(Hors programme)
1. L’application d de M1 × M1 dans R+ définie par
d(µ, ν) := inf {ε > 0; ∀x ∈ R, Fµ (x − ε) − ε ≤ Fν (x) ≤ Fµ (x + ε) + ε} ,
où Fµ et Fν désignent les fonctions de répartition respectivement de µ et ν, définit une

métrique, dite métrique de Lévy, sur M1 (R).
2. La suite (µn )N de probabilités converge étroitement vers la probabilité µ si, et seulement
si, la suite réelle (d(µn , µ))N converge vers 0.
3. De plus, pour tout couple de v.a.r. (X , Y ), on a d(PX , PY ) ≤ ∆(X
b, Yb ), où ∆ désigne la
métrique de Ky-Fan (cf. proposition 6.9, page 111).
En utilisant la terminologie (abusive) de la convergence en loi et la version "somme de n v.a.r."

du TLC, on vérifie aisément qu’on peut énoncer le TLC en termes de convergence en loi.
Cet énoncé englobe le cas où σ 2 = 0 et se généralise au cas où les variables aléatoires sont
vectorielles (cf. proposition 7.25, page 138) :
Besançon
Proposition 7.12.
Théorème-limite central (version réelle)
Soient (Xn )N une suite indépendante et identiquement distribuée de variables aléatoires réelles
de carré intégrable (i.e. E(|X0 |2 ) < +∞), d’espérance m ∈ R et de variance σ 2 . On pose, pour
naturelnon nul n, Sn = X1 + X2 + · · · + Xn . Alors, la suite de variables aléatoires
tout entier
Sn − nm
réelles √ converge en loi vers une variable aléatoire gaussienne centrée de variance
n N∗
σ2.

Soit (Xn )n≥1 une suite indépendante de variables aléatoires réelles de même loi de Poisson
k=n
X
P(1). Pour n ≥ 1, on pose Sn := Xk . Préciser la loi de Sn et calculer la limite de la
k=1
suite réelle !
k=n k
X n
e −n .
k=0
k!
n≥1
Dans le cas où la suite de probabilités est composée de probabilités discrètes portées par N, on
utilise le critère de convergence suivant :
Proposition 7.13.
Critère de convergence pour les probabilités discrètes
Soient, pour tout n ∈ N, µn et µ des probabilités discrètes portées par N. Alors la suite (µn )N
converge vers µ si, et seulement si, pour tout k ∈ N, la suite de réels (µn ({k}))N converge vers
µ({k}).
Démonstration : Montrons la condition nécessaire. Comme µ est une probabilité discrète portée
par N, sa fonction de répartition est définie sur R par
+∞
X
Fµ (x) = µ({k})1l[k,+∞[ (x).
k=0
On a une écriture analogue pour les fonctions de répartition des probabilités µn . L’ensemble des
points de discontinuité de Fµ est inclus dans N. Par suite, pour tout entier k, k + 21 et k − 21
sont des points de continuité de Fµ et Fµn . Comme µ({k}) = Fµ (k + 12 ) − Fµ (k − 12 ), il vient
en utilisant le fait que, pour tout point de continuité x de Fµ , Fµ (x) = limn Fµn (x),

1 1
µ({k}) = lim Fµn k + − lim Fµn k −
n 2 n 2

1 1
= lim Fµn k + − Fµn k −
n 2 2
= lim µn ({k}).
n
La condition suffisante est immédiate d’après l’écriture des fonctions de répartition de µ et µn . 2
On notera que le critère précédent devient faux si les probabilités sont portées par une partie
dénombrable D de R dont les points ne sont pas tous topologiquement isolés. On rappelle qu’un
Besançon
point x ∈ D est dit topologiquement isolé s’il existe un intervalle de la forme ]x − ε, x + ε[,
avec ε > 0, ne contenant pas d’autre point de D que x lui-même. On peut construire un
contre-exemple en considérant, pour tout entier n ≥ 1, les probabilités µn := δ 1 et prendre
n
µ := δ0 .
Donnons comme exemple d’application aux lois classiques du critère des probabilités discrètes
le résultat suivant :
Proposition 7.14.
Soit α ∈]0, +∞[. Si (pn )N est une suite de réels de ]0, 1[ telle que limn (npn ) = α, alors la suite
de probabilités ( B(n, pn ))N∗ converge vers P(α).
Démonstration : Fixons k ∈ N, par définition de la probabilité binomiale
n(n − 1)...(n − k + 1) k
B(n, pn )({k}) = Cnk pnk (1 − pn )n−k = pn (1 − pn )n−k .
k!
Au voisinage de +∞, nk est un équivalent de n(n − 1)...(n − k + 1) et B(n, pn )({k}) admet

pour équivalent
(npn )k
(1 − pn )n−k .
k!
De plus, toujours au voisinage de +∞,
n−k
ln(1 − pn )n−k = (n − k) ln(1 − pn ) ∼ (n − k)(−pn ) ∼ (−α) ∼ −α,
n
par suite limn (1 − pn )n−k = e −α . Par passage à la limite on obtient donc
(npn )k αk −α
lim (1 − pn )n−k = e
n→+∞ k! k!
et par équivalence
αk −α
lim B(n, pn )({k}) = e = P(α)({k}),
n→+∞ k!
pour tout entier k, ce qui donne le résultat cherché. 2
Dans les calculs pratiques ce résultat est utilisé de la façon suivante :

si n ≥ 30, p ≤ 0, 1 np ≤ 10, on assimile une variable binomiale de loi B(n, p) à une variable
de Poisson de paramètre np.

Un fabriquant produit des transistors dont un pour cent sont défectueux. Il les ensache par
paquets de 100 et les garantit à 98 pour cent. Quelle est la probabilité que cette garantie
tombe en défaut ?
Donnons, toujours à titre d’exemple, une approximation de la loi hypergéométrique.

Besançon
Définition 7.3.
On appelle loi hypergéométrique de paramètres N, n, p, la probabilité sur R définie par
n k n−k
X CNp CNq
H(N, n, p) := δk ,
k=0
CNn
où n ∈ N∗ , N ∈ N∗ , p ∈]0, 1[ tels que Np ∈ N, et q := 1 − p.
On trouvera la valeur de l’espérance et de la variance de la loi hypergéométrique dans le

formulaire de l’annexe A, page 205.
Proposition 7.15.
Soient n ∈ N∗ et p ∈]0, 1[. Notons S := {N ∈ N / Np ∈ N}.
Alors la suite de probabilités ( H(N, n, p))N∈S converge étroitement vers B(n, p).

Démontrer la proposition 7.15 précédente.
Dans les calculs pratiques ce résultat est utilisé de la façon suivante :

si N > 10n, on assimile une variable hypergéométrique de loi H(N, n, p) à une variable bino-
miale de loi B(n, p).
On notera aussi qu’une suite de probabilités discrètes peut converger vers une probabilité non-
discrète comme le prouve le théorème de De Moivre-Laplace.
Dans les cas généraux, on dispose de critères de convergence étroite utilisant des familles de
fonctions-test, par exemple le critère suivant (pour une démonstration, on pourra se reporter à
[4], page 178) :
Proposition 7.16.
Critère de convergence étroite par les fonctions continues bornées
Soient (µn )N une suite de probabilités sur R et µ une probabilité sur R. La suite de probabilités
(µn )N convergeZ étroitement vers la probabilité µZ si, et seulement si, pour tout f ∈ Cb (R), la
suite de réels ( f dµn )N converge dans R vers f dµ.
R R
Énoncé en terme de convergence en loi de v.a.r. cette dernière proposition devient, par
application du théorème du transfert :
Proposition 7.17.
Critère de convergence en loi par les fonctions continues bornées
Soient (Xn )N une suite de v.a.r. et X une v.a.r.. La suite de v.a.r. (Xn )N converge en loi vers la
v.a.r. X si, et seulement si, pour tout f ∈ Cb (R), la suite de réels (E(f (Xn ))N converge dans
R vers E(f (X )).
A titre d’application de ce résultat, prouvons la proposition suivante :

Besançon
Proposition 7.18.
Soit (Xn )n∈N une suite de v.a.r. et f une application continue de R dans R. Si la suite de v.a.r.
(Xn )N converge en loi vers une v.a.r. X , alors la suite de v.a.r. (f (Xn ))N converge en loi vers
f (X ).
Démonstration : On remarque tout d’abord que, pour tout n ∈ N, l’application f (Xn ) de

Ω dans R est bien une variable aléatoire puisqu’elle est la composée de l’application Xn
qui est ( F, B(R))-mesurable et de l’application f qui est continue donc ( B(R), B(R))-
mesurable. Si ϕ est une application de R dans R continue bornée alors ϕ ◦ f est égale-
ment continue bornée. L’hypothèse de convergence en loi de la suite (Xn )N vers X en-
Z appliquée à ϕ ◦ f et du théorème de transfert,
traîne, compte tenu deZ la proposition 7.16
lim E[ϕ ◦ f (Xn )] = lim ϕ ◦ f (x)dPXn = ϕ ◦ f (x)dPX = E[ϕ ◦ f (X )] que l’on peut écrire
n n R R
lim E[ϕ(f (Xn ))] = E[ϕ(f (X ))]. Ceci étant valable pour toute application continue bornée ϕ,
n
on conclut que la suite (f (Xn ))N converge en loi vers f (X ). 2
Il peut être utile d’avoir des critères utilisant d’autres familles de fonctions-test, comme par
exemple celle des fonctions continues à support compact ou celle des fonctions continues nulles
à l’infini :
Proposition 7.19.
Critère de convergence étroite par les fonctions continues à support compact
Soient (µn )N une suite de probabilités sur Rd et µ une probabilité sur Rd . La suite de probabilités
(µn )N converge étroitement vers la probabilité µ si, et seulement si,Zpour toute fonction f de
Rd dans R, continue et à support compact sur Rd , la suite de réels ( f dµn )N converge dans
Z Rd
R vers f dµ.
R
Démonstration : Faisons la démonstration dans le cas où d = 1. On admettra le résultat pour

d > 1.
• C.N. - Si la suite (µn )N de probabilités converge étroitement vers
Z la probabilité µ, alors,
d’après la proposition 7.16, pour tout f ∈ Cb (R), la suite de réels ( f dµn )N converge dans
Z R
R vers f dµ. Comme les fonctions continues à support compact sont bornées, on a bien
R Z
que, pour toute fonction f continue et à support compact sur R, la suite de réels ( f dµn )N
Z R
converge dans R vers f dµ.

R
• C.S. -
On
Z suppose que, pour toute fonctionZ f continue et à support compact sur R, la suite
de réels f dµn converge dans R vers f dµ.
R N R
Considérons, pour tout entier naturel non nul k, la fonction ϕk , définie, pour tout réel x, par


 0, si x < −(k + 1) ou x > k + 1 ;
1, si −k ≤ x ≤ k ;

ϕ(x) =

 −x + k + 1, si k ≤ x ≤ k + 1 ;
x + k + 1, si −(k + 1) ≤ x ≤ −k.


Besançon
Pour tout entier naturel non nul k, la fonction ϕk , est une fonction continue à support compact
telle que 0 ≤ ϕk ≤ 1 et la suite de fonctions (ϕk )N∗ converge simplement sur R vers la
fonction constante égale à 1. Donc, la suite (1 − ϕk )N∗ converge simplement sur R vers la
fonction nulle et cette suite de fonctions est dominée par la fonction µ-intégrable 1lR , car µ
est par
Z hypothèse une Zprobabilité. Donc par le théorème de convergence dominée, on obtient
lim (1 − ϕk )dµ = lim (1 − ϕk )dµ = 0.
k→∞ R R k→∞
Soit h une fonction continue, bornée sur R par M. On a, pour tout entier naturel non nul k,
et tout entier naturel n,
Z Z Z Z Z Z

hdµn − hdµ ≤ (h − hϕk )dµn + hϕk dµn − hϕk dµ + (hϕk − h)dµ

R R RZ Z R ZR R
Z

≤ M (1 − ϕk )dµn + hϕk dµn − hϕk dµ + M (1 − ϕk )dµ,
ZR RZ R Z R

≤ M (1 − ϕk )dµ + M (1 − ϕk )dµn − (1 − ϕk )dµ +
Z R Z R Z R

+ hϕk dµn − hϕk dµ + M (1 − ϕk )dµ,
RZ R Z R Z

≤ M (1 − ϕk )dµ + M ϕk dµn − ϕk dµ +

Z R Z R Z R

+ hϕk dµn − hϕk dµ + M (1 − ϕk )dµ,

R R R
Z Z Z Z
car (1 − ϕk )dµn − (1 − ϕk )dµ = ϕk dµ − ϕk dµn , puisque, µ et µn étant des
R Z ZR R R
probabilités, 1ldµ = 1ldµn = 1. Or les fonctions ϕk et hϕk sont continues à support

R R
compact. Comme, par Z hypothèse,
pour toute fonction Z f continue et à support compact sur
R, la suite de réels f dµn converge dans R vers f dµ, on a, pour tout entier k fixé,
Z Z R N Z R
Z

lim ϕk dµn = ϕk dµ, ou encore lim ϕk dµn − ϕk dµ = 0. Pour la même raison,
n→∞ R R n→∞
Z ZR R

pour tout entier k fixé, lim (hϕk )dµn − hϕk dµ = 0.
n→∞ R R
Soit ε > 0 donné. Alors, à condition de
Z choisir et fixer
Z k suffisamment
grand, puis de prendre

n suffisamment grand, on pourra avoir hdµn − hdµ ≤ ε. Ce qui prouve que, pour tout
Z R R Z
h ∈ Cb (R), la suite de réels ( hdµn )N converge dans R vers hdµ, et donc que la suite de
R R
probabilités (µn )N converge étroitement vers la probabilité µ. 2
On peut remplacer dans la proposition précédente les fonctions continues à support compact
par les fonctions continues "nulles à l’infini".
Définition 7.4.
Une application f de Rd dans R est dite nulle à l’infini si, pour tout ε > 0, il existe un
compact K ⊆ Rd tel que, pour tout x ∈ K c , |f (x)| ≤ ε.
On note souvent C0 (Rd ) l’ensemble des applications de Rd dans R continues et nulles à l’infini.

Besançon
On obtient alors le critère suivant :

Proposition 7.20.
Critère de convergence étroite par les fonctions continues nulles à l’infini
Soient (µn )N une suite de probabilités sur Rd et µ une probabilité sur Rd . La suite de probabilités
(µn )N converge étroitement vers la probabilité µ si, et seulementZsi, pour toute fonction f de
Rd dans R, continue sur Rd et nulle à l’infini , la suite de réels ( f dµn )N converge dans R
Z Rd
vers f dµ.
R
Démonstration : Raisonnons toujours en dimension d = 1. On peut reprendre mot pour mot

la démonstration de la proposition 7.19 en remplaçant l’expression "à support compact" par
"nulle à l’infini", car on vérifie en reprenant ses notations que, pour tout k, les fonctions ϕk et
hϕk sont continues et nulles à l’infini. 2
Dans le cas des probabilités à densité on dispose de la condition suffisante (mais non nécessaire)
de convergence étroite suivante :
Proposition 7.21.
Théorème de Scheffé
Soient, pour tout n ∈ N, µn et µ des probabilités absolument continues sur R de densités
respectives fn et f par rapport à la mesure de Lebesgue λ. Si la suite des densités (fn )N converge
λ-presque-partout vers la densité f , alors la suite de probabilités (µn )N converge étroitement
vers µ.
Z
Démonstration : Comme f et fn sont des densités, pour tout n ∈ N, (f − fn )dλ = 0 . Donc
R
Z Z Z
+ − 1
(f − fn ) dλ = (f − fn ) dλ = |f − fn |dλ
R R 2 R
où on utilise que, pour tout x ∈ R, x = x + − x − et |x| = x + + x − . La suite ((f − fn )+ )N

est dominée par f et converge λ-presque-partout vers 0 car l’application x 7→Z x + est continue.

+
D’après le théorème de convergence dominée de Lebesgue, on en déduit que (f − fn ) dλ
Z R N
converge vers 0 et par suite |f − fn |dλ converge également vers 0. Enfin comme, pour
Z R Z N Z

tout t ∈ R, (f − fn )dλ ≤
|f − fn |dλ, la suite (f − fn )dλ tend vers 0
]−∞,t] R ]−∞,t] N
quand n tend vers l’infini. On a montré que, pour tout t ∈ R, la suite (Fn (t))N converge vers
F (t) où Fn est la fonction de répartition de µn et F celle de µ. D’où la convergence étroite de
(µn )N vers µ. 2
La réciproque est fausse comme le prouve l’exercice suivant :

En considérant, pour tout entier n ≥ 1, les applications définies, pour tout réel x, par
Besançon
fn (x) := [1 − cos(2πnx)]1l[0,1] (x), montrer qu’il existe une suite de probabilités qui con-
verge étroitement vers une probabilité µ sans que la suite des densités associées converge
λ-presque-partout vers la densité de µ.
Les fonctions caractéristiques (f.c.) sont aussi un outil extrêmement commode dans l’étude
des convergences étroites, grâce au résultat suivant qu’on admettra (on pourra en trouver une
démonstration dans [4], pages 179-181) :
Proposition 7.22.
Théorème de continuité de Paul Lévy
Soit (µn )N une suite de probabilités sur Rd . La suite des f.c. (Φµn )N converge simplement sur Rd
vers une application ϕ de Rd dans C continue en 0 si, et seulement si, il existe une probabilité µ
sur Rd , de fonction caractéristique Φµ = ϕ, telle que la suite (µn )N converge étroitement vers µ.
L’hypothèse de la continuité de ϕ en 0 est essentielle. Dans la proposition 7.22, le fait que

(µn )N converge vers une limite µ qui est une probabilité fait partie du résultat de la proposition,
contrairement à la proposition 7.23 qui suit, où le fait que µ soit une probabilité fait partie des
hypothèses de la proposition.
Le théorème de continuité de Lévy a pour corollaire un critère pratique de convergence étroite

utilisant les fonctions caractéristiques.
Proposition 7.23.
Critère de convergence étroite par les f.c.
Soient (µn )N une suite de probabilités sur Rd et µ une probabilité sur Rd . La suite de
probabilités (µn )N converge étroitement vers la probabilité µ si, et seulement si, la suite des
f.c. (Φµn )N converge simplement sur Rd vers la f.c. Φµ .
ou encore, énoncé avec les v.a.r. :

Proposition 7.24.
Critère de convergence en loi par les f.c.
Soient (Xn )N une suite de v.a.r. et X une v.a.r.. La suite (Xn )N converge en loi vers X si, et
seulement si, la suite des f.c. (ΦXn )N converge simplement sur R vers la f.c. ΦX .
Démonstration : • C.N. - Supposons que (µn )N converge étroitement vers la probabilité µ. Les
fonctions eu : x ∈ Rd 7→ e i<x,u> ∈ C, où u ∈ Rd , sont continues et bornées sur Rd . Par
application du critère de convergence étroite par les fonctions continues et bornées (proposi-
tion 7.16) appliqué aux parties réelles et imaginaires
Z des fonctions eu , on en conclut que, pour
tout u ∈ Rd , la suite de nombres complexes e i<x,u> dµn (x) converge dans C vers
Z Rd N
e i<x,u> dµ(x), donc la suite des f.c. (Φµn )N converge simplement sur Rd vers la f.c. Φµ .
Rd
• C.S. - Supposons que la suite des f.c. (Φµn )N converge simplement sur Rd vers la f.c. Φµ .
Prenons, avec les notations du théorème de continuité de Lévy, ϕ = Φµ . Alors, la suite des
f.c. (Φµn )N converge simplement sur Rd vers une application ϕ de Rd dans C continue en 0.
Par le théorème de continuité de Lévy, on en conclut qu’il existe une probabilité ν sur Rd , de
fonction caractéristique Φν = ϕ, et que la suite (µn )N converge étroitement vers ν. Comme
Besançon
Φν = ϕ = Φµ , on conclut par le théorème d’injectivité des f.c. que µ = ν, et que la suite (µn )N
converge bien étroitement vers µ. 2
Exemples 7.2.
Si (an )N et (σn )N sont deux suites réelles convergeant respectivement vers les réels a et
σ, alors la suite de probabilités ( N 1 (an , σn2 ))N converge étroitement vers la probabilité
N 1 (a, σ 2 ). 2

Démontrer l’affirmation de l’exemple 7.2 précédent. Pour cela utiliser la fonction caractéris-
tique de la loi N 1 (an , σn2 ), faire tendre n vers l’infini et conclure en appliquant le critère
des fonctions caractéristiques pour la convergence étroite des probabilités.
Utilisons le critère de convergence étroite par les f.c. pour donner une démonstration du
théorème-limite central que nous énonçons maintenant dans le cadre vectoriel qui généralise
l’énoncé donné dans la proposition 7.12 en dimension d = 1 :
Proposition 7.25.
Théorème-limite central (version vectorielle)
Soient (Xn )N une suite indépendante et identiquement distribuée de vecteurs aléatoires réels de
dimension d, de carré intégrable (i.e. E(|X0 |2 ) < +∞), d’espérance m ∈ Rd et de matrice de
dispersion D. On pose, pour tout entier naturelnon nul n, Sn = X1 + X2 + · · · + Xn .
Sn − nm
Alors, la suite des lois des vecteurs aléatoires √ converge étroitement vers la loi
n N∗
gaussienne de dimension d, N d (0, D).
Démonstration : Nous allons démontrer le TLC dans le cas d = 1.

Soit (Xn )N une suite indépendante et identiquement distribuée de variables aléatoires réelles de
carré intégrable, d’espérance m et de variance σ 2 .
• Considérons d’abord le cas σ 2 = 0. Les v.a.r. sont alors déterministes et égales à la constante
Sn − nm
m. Dans ce cas, pour tout entier non nul n, Sn = nm et √ = 0. La suite des v.a.r.
n
Sn − nm
√ est la suite stationnaire nulle. Elle converge étroitement vers la loi gaussienne
n N∗
dégénérée de dimension N 1 (0, 0) = δ0 . Ce qui prouve le théorème dans le cas σ 2 = 0.
• Plaçons-nous maintenant dans le cas σ 2 > 0.
Soit Φ la fonction caractéristique de la v.a.r. X1 − m. D’après la proposition 3.33, page 57,
comme les variables sont de carré intégrable, la f.c. Φ est de classe C 2 . De plus, on a Φ(0) = 1,
Φ 0 (0) = E(X1 − m) = 0 et Φ 00 (0) = i 2 E[(X1 − m)2 ] = −Var(X1 ) = −σ 2 . La fonction Φ admet
σ2
un développement limité en 0 à l’ordre 2 donné, pour tout réel t, par Φ(t) = 1 − t 2 + t 2 ε(t)
2
Sn − nm
avec lim ε(t) = 0. Donc, la fonction caractéristique de la v.a.r. √ est l’application Φn
t→0 n
définie, pour tout réel t, par
h Sn −nm i h i h Pk=n i
i< √n ,t> i<S −nm, √1n > i< k=1 Xk , √1n >
Φn (t) = E e =E e n =E e .

Besançon
in t n n
σ2 2 t 2

h
i<X1 , √1n > t
D’où Φn (t) = E e = Φ √ , ou encore Φn (t) = 1 − t + ε √ .
n 2n n n
σ2 t 2
Il ne reste plus qu’à montrer que, pour tout réel t, lim Φn (t) = e − 2 .
n→+∞
En effet, d’après la formule du binôme de Newton,
n k=n k

σ2 t2 Cnk t 2k
2
t X σ t
1 − t2 + ε √ = − +ε √ .
2n n n k=0
nk 2 n
X
Considérons la série numérique uk (n) de terme général : uk (n) = 0 si k > n, et
k
k
Cnk t 2k
2
σ t
uk (n) = − + ε √ si 0 ≤ k ≤ n. Pour tout réel t fixé, il existe une
nk 2 n
Mk
constante M telle que, pour tout entier naturel non nul n, |uk (n)| ≤ . Donc la série
k!
X +∞
X
uk (n) converge normalement. On peut donc intervertir les symboles lim et , on ob-
n→+∞
k k=0
+∞ +∞ +∞
X X X −σ 2 t 2k 2 2
− σ 2t
tient lim uk (n) = lim uk (n) = =e . Donc la suite des fonctions
n→+∞
k=0 k=0
n→+∞
k=0
2(k!)
Sn − nm
caractéristiques des v.a.r. √ converge vers la fonction caractéristique de la loi normale
n
centrée de variance σ 2 . Ce qui prouve, en vertu du critère de convergence en loi par les fonctions
Sn − nm
caractéristiques (proposition 7.24, page 137) que la suite des v.a.r. √ converge en loi
n
vers une v.a.r. normale centrée de variance σ 2 . 2
Pour compléter l’étude des liens, commencée au chapitre précédent, entre les divers modes
de convergences, signalons le résultat suivant qui prouve que la convergence en probabilité,
et a fortiori la convergence presque-sûre, d’une suite de variables aléatoires réelles implique la
convergence de la suite des lois de ces v.a.r. :
Proposition 7.26.
Si (Xn )N est une suite de variables aléatoires réelles convergeant en probabilité vers la variable
aléatoire réelle Y , alors la suite des lois (PXn )N converge vers la loi PY de la variable aléatoire
réelle Y .
Démonstration : Soit h une fonction numérique positive définie sur Rd , continue et à support
compact. La fonction h est donc uniformément continue sur Rd . Fixons ε > 0. Il existe donc
un réel ηε > 0, tel que, pour tout x, y ∈ Rd , |x − y | ≤ ηε implique |h(x) − h(y )| ≤ ε.
Comme la suite (Xn )N converge en probabilité vers la variable aléatoire réelle Y , il existe un
entier naturel Nε tel que, pour tout entier n ≥ Nε , P(|Xn − Y | > ηε ) ≤ ε. Alors, pour tout
entier naturel n ≥ Nε , on a
Besançon
|E[h(Xn ) − h(Y )]| ≤ E [|h(X

n ) − h(Y )|]
= E |h(X
n ) − h(Y )| 1l {|Xn −Y |≤η ε
} + E |h(Xn
) − h(Y )| 1l{|Xn −Y |>ηε }
≤ εE 1l{|Xn −Y |≤ηε } + 2||h||∞ E 1l{|Xn −Y |>ηε }
≤ εE 1l{|Xn −Y |≤ηε } + 2||h||∞ P(|Xn − Y | > ηε )
≤ ε + 2||h||∞ ε = (1 + 2||h||∞ )ε.
Ce qui prouve que lim E [h(Xn )] = E [h(Y )] , pour toute fonction numérique h positive définie
n→∞
sur Rd , continue et à support compact. On conclut alors en vertu du critère de convergence
étroite par les fonctions continues à support compact. 2
La convergence des lois d’une suite de variables aléatoires réelles n’implique pas nécessairement
la convergence en probabilité de la suite de v.a.r., cependant cette conclusion devient vraie si
la suite des lois converge vers une probabilité de Dirac :
Proposition 7.27.
Si (Xn )N est une suite de variables aléatoires réelles sur un même espace de probabilité
(Ω, F, P) telle que la suite des lois (PXn )N converge vers la probabilité de Dirac δa où a est un
réel, alors la suite de variables aléatoires réelles (Xn )N converge en probabilité vers la variable
aléatoire réelle constante a.
Résultat qu’on peut aussi énoncer :

Proposition 7.28.
Une suite de v.a.r. (Xn )N converge en loi vers une constante a ∈ R si, et seulement si, elle
converge en probabilité vers a.
Démonstration : Soit ε > 0 et fε l’application de R dans R définie par

1
fε (x) := 1l]a−ε,a+ε[c (x) + |x − a|1l]a−ε,a+ε[ (x).
ε
fε est continue bornée donc la suite (E[fε (Xn )])n≥1 converge vers E[fε (a)] = 0, d’après la
proposition 7.17 . Comme
P(|Xn − a| ≥ ε) = E[1l]a−ε,a+ε[c (Xn )] ≤ E[fε (Xn )],
on conclut que la suite (Xn )n≥1 converge en probabilité vers a. On remarque que, lorsque la
limite est une v.a.r. presque-sûrement constante, il y a équivalence entre la convergence en loi
et la convergence en probabilité.2
Notons que, dans le cas général, on ne peut pas effectuer d’opérations élémentaires sur les
limites-en-loi. Cependant on admettra (pour une démonstration de la première assertion on
pourra se reporter à l’exercice 7.10, page 142) :
Proposition 7.29.
Théorème de Slutsky
Soient (Xn )N une suite de v.a.r. convergeant en loi vers une v.a.r. X et (Yn )N une suite de v.a.r.
convergeant en loi vers 0, alors
1. la suite de v.a.r. (Xn + Yn )N converge en loi vers X ,
2. la suite de v.a.r. (Xn Yn )N converge en loi (et aussi en probabilité) vers 0.

Besançon
Pour terminer citons pour information deux théorèmes-limites particulièrement importants

portant sur la convergence de lois, (que nous admettrons et qui sont hors programme) :
Proposition 7.30.
Loi des événements rares (Hors programme)
(n) (n)
Soient (Xk )(k,n)∈N2 une suite de v.a.r. indépendantes à valeurs dans N. On pose pk :=
(n) (n) (n)
P(Xk = 1) et k := P(Xk ≥ 2). On suppose de plus que
(n) (n)
1. lim(p1 + p2 + ... + pn(n) ) = α ∈]0, +∞[,
n
(n) (n)
2. lim(max(p1 , p2 , ..., pn(n) )) = 0,
n
(n) (n)
3. lim(1 + 2 + ... + (n)
n ) = 0.
n
(n) (n)
Alors la suite de v.a.r. (X1 + X2 + ... + Xn(n) )N∗ converge en loi vers une v.a.r. de loi P(α).
En remarquant qu’une v.a.r. de loi binomiale B(n, p) a même loi que la somme de n v.a.r.
indépendantes de loi B(p), la proposition 7.14 est un cas particulier de la loi des événements
rares (cf. [3], exercice V-16).
Notons que les théorèmes-limites jouent un rôle théorique important en statistique dans la
vérification des modèles probabilistes de phénomènes aléatoires. En particulier celui-ci (cf. [3],
problème V-1) :
Proposition 7.31.
Théorème fondamental de la statistique (Hors programme)
Soit (Xn )N une suite de v.a.r. indépendantes et de même loi. Alors, pour P-presque-tout ω ∈ Ω,
la suite des lois empiriques de (X1 , X2 , ..., Xn )
k=n
!
1X
δX (ω)
n k=1 k ∗
n∈N
converge étroitement vers la loi de X1 .
7.3 Exercices de révision sur les chapitres I à VII

Étudier la convergence étroite de la suite de probabilités (µn )n≥1 de densités respectives
(fn )n≥1 où, pour tout n ≥ 1, fn est définie par fn (x) := nx n−1 1l[0,1] (x).

Soit (Xn )n≥1 une suite indépendante de v.a.r. de même loi de Cauchy C(1) (Pour la déf-
k=n
X
inition, cf. formulaire de l’annexe A, page 205). Pour tout n ≥ 1, on pose Sn := Xk .
k=1
1 1
Étudier les convergences en probabilité et en loi des suites de v.a.r. √ Sn , Sn
n n≥1 n n≥1

Besançon

1
et Sn .
n2 n≥1

Le but de cet exercice est de prouver l’item 1 du Théorème de Slutsky (cf. proposition
7.29, page 140).
Soient X une v.a.r. , (Xn )N et (Yn )N deux suites de v.a.r..
1. Montrer que, pour tous t ∈ R, α > 0, et n ∈ N,
|ΦXn +Yn (t) − ΦXn (t)| ≤ 2P(|Yn | > α) + E 1l]−∞,α] (|Yn |)|e itYn − 1|

où ΦZ désigne la fonction caractéristique de la v.a.r. Z .

2. Démontrer le théorème de Slutsky : Si (Xn )N converge en loi vers X et (Yn )N converge
en loi vers 0, alors la suite (Xn + Yn )N converge en loi vers X .
3. A l’aide d’un exemple, montrer que l’on a pas nécessairement (Xn − X )N qui converge
en loi vers 0.

Soit (Uk )N une suite indépendante de v.a.r. de loi normale centrée et de variance σ 2 > 0.
Pour tout θ ∈ R, on définit la suite (Xk )N par la relation de récurrence Xn = θXn−1 + Un ,
pour tout n ≥ 1, avec X0 = 0.
1. Déterminer, pour tout n ∈ N, la loi de la v.a.r. Xn .
2. Étudier la convergence en loi de la suite de v.a.r. (Xk )N .

Soient X une v.a.r. et (Xn )N une suite de v.a.r.. On suppose que, pour tout n ∈ N, PXn := δxn
où xn ∈ R.
1. Si PX = δx , où x ∈ R, montrer que la suite (Xn )N converge en loi vers X si et seulement
si la suite de réels (xn )N converge vers x.
2. Montrer que si la suite (Xn )N converge en loi vers X , alors il existe x ∈ R tel que
PX = δx . On pourra utiliser le résultat de l’exercice 3.23, page 60.

Dans cet exercice on se propose de démontrer la réciproque du résultat de l’exercice 7.7,
page 138.
Soit (µn )N une suite de probabilités de Gauss où, pour tout n ∈ N, µn := N 1 (an , σn2 ).
On suppose que cette suite converge étroitement vers une probabilité µ. On se propose de
montrer qu’alors les suites réelles (an )N et (σn2 )N convergent respectivement vers les réels a
et σ 2 et que µ = N 1 (a, σ 2 ) (avec la convention N 1 (a, 0) = δa ).
1. En utilisant les fonctions caractéristiques, montrer que la suite (σn2 )N est bornée et
qu’elle admet une seule valeur d’adhérence dans R. En déduire qu’elle converge dans
R, on notera σ 2 sa limite.
Besançon
2. A l’aide du théorème de continuité de Lévy, montrer que la suite (δan )N converge

étroitement vers la probabilité de Dirac en un point a. En déduire que la suite (an )N
converge vers a et que µ = N 1 (a, σ 2 ).

Besançon

Besançon
Chapitre 8. Corrigés des exercices 145
Chapitre 8
Corrigés des exercices
8.1 Corrigés des exercices du chapitre I

Corrigé de l’exercice 1.1, page 2
1. S’il existe x ∈ {f ∈ Ø}, alors f (x) appartient à Ø ce qui est absurde. Donc {f ∈ Ø} = Ø.
2. Soit x ∈ {f ∈ A}, alors f (x) ∈ A et comme A ⊂ B, f (x) ∈ B et donc x ∈ {f ∈ B}.
On a donc montrer que tout élément x de l’ensemble {f ∈ A} est aussi dans {f ∈ B}
ce qui signifie que {f ∈ A} ⊂ {f ∈ B}.
3. On va raisonner par équivalence1 . On a
x ∈ {f ∈ ∪i∈I Ai } ⇔ f (x) ∈ ∪i∈I Ai ⇔ ∃i0 ; f (x) ∈ Ai0 ⇔ ∃i0 ; x ∈ {f ∈ Ai0 }

⇔ x ∈ ∪i∈I {f ∈ Ai } .
D’où l’égalité. De même on écrit
x ∈ {f ∈ ∩i∈I Ai } ⇔ f (x) ∈ ∩i∈I Ai ⇔ ∀i ; f (x) ∈ Ai ⇔ ∀i ; x ∈ {f ∈ Ai }

⇔ x ∈ ∩i∈I {f ∈ Ai } .
4. On procède encore par équivalence :
x ∈ {f ∈ A}c ⇔ x ∈ / A ⇔ f (x) ∈ Ac ⇔ x ∈ {f ∈ Ac } .
/ {f ∈ A} ⇔ f (x) ∈

1. Dans les deux cas (a) et (b) on a 1lA∩B = 1lA .1lB . Par contre 1lA∪B s’exprime différemment
suivant que A et B sont disjoints ou non. On peut vérifier cela en étudiant toutes les
valeurs prises par ces fonctions
.
1lA (x) 1lB (x) 1lA (x).1lB (x) 1lA∪B (x) cas (a) 1lA∪B cas (b)
x ∈ (A ∪ B)c 0 0 0 0 0
c
x ∈A∩B 1 0 0 1 1
x ∈ Ac ∩ B 0 1 0 1 1
x ∈A∩B 1 1 1 1 0
1
Si vous n’êtes pas sûr de vous lors de l’écriture d’une équivalence, vérifiez rapidement les deux implications
pour vous en persuader

Besançon
Ainsi dans le cas (a) : 1lA∪B = 1lA + 1lB

et dans le cas (b) : 1lA∪B = 1lA + 1lB − 1lA .1lB .
2. On a trivialement 1lAc = 1 − 1lA et 1lA\B = 1lA∩B c = 1lA .1lB c = 1lA (1 − 1lB ). On remarque
que si B ⊆ A, 1lA .1lB = 1lB et dans ce cas 1lA\B = 1lA − 1lB .
Enfin 1lA∪B∪C = 1l(A∪B)∪C = 1lA∪B + 1lC − 1lC 1lA∪B . On développe de même l’indicatrice
de A ∪ B et on obtient :
1lA∪B∪C = 1lA + 1lB + 1lC − (1lA 1lB + 1lB 1lC + 1lC 1lA ) + (1lA 1lB 1lC )

X
1. Représentation graphique de la fonction 1l[n,+∞[ :
n≥0
n+1 r b
2 r b
1 r b
b -
1 2 n n+1
X
2. Représentation graphique de la fonction 1l[0,n] :
n≥0
+∞ r
b -
X
3. Représentation graphique de la fonction (n + 1)1l[n,n+1[ :
n≥0

Besançon
n+1 r b
2 r b
1 r b
b -
1 2 n n+1
Cet exercice n’est pas difficile mais demande de la rigueur lors de sa rédaction. Il faut démontrer
les trois axiomes qui feront de A une tribu.
i) Tout d’abord E ∈ A car E = A1 ∪ · · · ∪ An par définition d’une partition. Donc E s’écrit
bien comme ∪i∈I Ai en choisissant I = {1, ..., n}.
ii) Soit B ∈ A. Montrons que B c ∈ A. On a :
B ∈ A ⇔ ∃I ⊂ {1, ..., n} ; B = ∪i∈I Ai
et comme les A1 , ..., An forment une partition de E on a B c = ∪j∈J Aj où J est le complémentaire

de I dans {1, ..., n}. Donc B c ∈ A.
iii) Soit maintenant (Bk )k∈N une suite d’éléments de A. Pour tout k ∈ N, il existe un sous-
ensemble Ik ⊂ {1, ..., n} tel que Bk = ∪i∈Ik Ai . Par suite
∪k∈N Bk = ∪k∈N (∪i∈Ik Ai ) = ∪j∈J Aj
où J = ∪k∈N Ik ⊂ {1, ..., n}. Ainsi ∪k∈N Bk est bien la réunion d’une sous-famille des A1 , ..., An
et donc ∪k∈N Bk ∈ A.

1) On commence par considérer une famille quelconque (finie ou infinie) de tribu : (Ai )i∈I . On
considère B la famille des parties de E communes à toutes les tribus Ai pour i ∈ I . On dit que
B est l’intersection des tribus Ai et on écrit B = ∩i∈I Ai . On va montrer que B est elle-même
une tribu.
– E ∈ Ai pour tout i car les Ai sont des tribus et donc E ∈ B.
– Soit A ∈ B. Alors A ∈ Ai pour tout i et donc Ac ∈ Ai pour tout i. Donc pour tout
A ∈ B.
– Soit (Ak )k∈N une suite d’éléments de B. On a ∀k ∈ N, ∀i ∈ I , Ak ∈ Ai . Donc comme
Ai est une tribu, pour tout i ∈ I , ∪k∈N Ak ∈ Ai . Par suite ∪k∈N Ak ∈ B.
Ainsi B est une tribu sur E .
2) Prouvons par un contre-exemple que la réunion d’une famille de tribu sur E n’est pas néces-
sairement une tribu sur E . En effet prenons E = R, A = {1} et B = {2} deux parties de E .
On vérifie facilement que la famille à quatre éléments a = {Ø,A,Ac ,E } est une tribu sur E . Il
Besançon
en est de même pour la famille B = {Ø,B,B c ,E }. Considérons la réunion C = a ∪ B. On a

C = {Ø,A,Ac ,B,B c ,E }. Ce n’est pas une tribu car on n’a pas A ∪ B ∈ C.

A et B mesurables relativement à la tribu A signifie juste que A ∈ A et B ∈ A. Comme A
est une tribu, B c ∈ A et donc A \ B = A ∩ B c est l’intersection de deux éléments de la tribu
A et donc c’est aussi un élément de A. Donc A \ B est mesurable par rapport à A.

On note F la famille des tribus sur R contenant tous les intervalles de la forme ]a, b] où a et
b sont des réels tels que a < b. Notons B la tribu obtenue par intersection de toutes les tribus
de la famille F. B est une tribu d’après le résultat de l’exercice 1.5. On remarque qu’on a :
– B est une tribu,
– B contient tous les intervalles de la forme ]a, b] où a et b sont des réels tels que a < b.
B appartient donc à la famille F définie plus haut.
– B est la plus petite, au sens de l’inclusion, des tribus de la famille F. Cela signifie que si A
est une tribu sur R appartenant à la famille F, alors B ⊆ A, car B, qui est l’intersection
des tribus de la famille F, est contenue dans toutes les tribus de la famille F et en
particulier dans la tribu A.
Des trois points ci-dessus, on déduit que B = B(R) est la tribu de Borel sur R.

Il faut montrer que si B est une tribu contenant les parties A1 , ..., An , alors A ⊆ B. Soit
B une telle tribu. Par définition et propriétés des tribus, elle contient toutes les réunions des
sous-familles de A1 , ..., An c’est-à-dire que pour tout sous-ensemble I de {1, ..., n}, ∪i∈I Ai ∈ B.
Donc B contient tous les éléments de A et on a donc bien A ⊆ B.

1. Soit A1 , ..., An une suite finie de parties de N deux à deux disjointes. Deux cas se
présentent :
– Premier cas : 0 ∈ n1 Ai . Alors µ( n1 Ai ) = +∞ et S
S S Pn
1 µ(Ai ) =P +∞ car il existe
un Aio contenant 0 et donc de mesure infinie. Donc µ( 1 Ai ) = n1 µ(Ai ).
n
– Second cas : 0 6∈ n1 Ai . Alors si n1 Ai est fini, tous les Ai sont finis et

S S
n n X n
[ X 1 X 1 X
µ( Ai ) = = ( )= µ(Ai ).
1
S k2 1 k∈A
k2 1
k∈ i Ai i
Si n1 Ai est infini, alors il existe un Aio infini et on a µ( n1 Ai ) = +∞ = n1 µ(Ai ).

S S P
L’application µ est donc additive.
2. Cependant que µ n’est pas σ-additiveS(et donc ce n’est pas une mesure). En effet,
considérons N∗ , µ(N∗ ) = +∞ et N∗P= +∞ 1 {k}. Comme P la suite ({k})N∗ est formée de
parties deux à deux disjointes on a k≥1 µ({k}) = k≥1 k12 < +∞. Ainsi
!
[ X
µ {k} 6= µ ({k}) .
k≥1 k≥1

Besançon
En conséquence, l’application µ n’est pas σ-additive bien qu’elle soit additive.
Corrigé de l’exercice 1.10,Spage 7

On vérifie aisément que R = k∈Z ]k, k + 1]. Les intervalles ]k,k + 1] sont des boréliens disjoints
deux à deux. Par σ-additivité de la mesure de Lebesgue λ sur R, on obtient
! k=+∞
[ X
λ(R) = λ ]k, k + 1] = λ ]k,k + 1] .
k∈Z k=−∞
Or pourPtout k ∈ Z, λ(]k,k + 1]) = 1 (la longueur de l’intervalle ]k,k + 1]), d’où

+∞
λ(R) = k=−∞ 1 = +∞.

On peut remarquer tout d’abord que si A est un borélien alors δa (A) = 1l{a} (A). Vérifions que
δa est une mesure sur R,B(R)).
– C’est bien une application positive de B(R) dans [0, + ∞].
– On a δa (Ø) = 0.
– Soit (An )n∈N une suite de boréliens deux à deux disjoints. Deux cas se présentent.
Tout d’abord si a ∈ ∪n∈N An alors il existe un unique n0 (les An sont disjoints deux à
deux) tel que a ∈ An0 et donc δa (∪n∈N An ) = 1 et
∞
X
δa (An ) = δa (A0 ) + ... + δa (An0 −1 ) + δa (An0 ) + ∞
P
δa (Ak ),
| {z } | {z } | k =n0 +1
n=0
{z }
=0 =1 =0
P
d’où l’égalité δa (∪n∈N An ) = n∈N δa (An ).
P maintenant a ∈
Si / ∪n∈N An , alors ∀n ∈ N ; a ∈/ An et par suite δa (∪n∈N An ) = 0 et
δ
n∈N a (A n ) = 0 donc on a encore l’égalité.
Ainsi δa est une mesure et comme δa (R) = 1, c’est aussi une probabilité.

Avec les notations de la proposition 1.4, page 8, il suffit de prendre µk = δk , pour tout k ∈ N
et, suivant le cas,
1. pour la probabilité binomiale :
– αk = Cnk p k (1 − p)n−k pour 0 6 k 6 n
– αk = 0 pour k > n + 1.
k
2. pour la probabilité de Poisson : αk = e −α αk! , pour tout k ∈ N.
3. pour la probabilité géométrique : α0 = 0, et αk = p(1 − p)k−1 pour k > 1.
4. pour la probabilité uniforme-discrète :
– αk = n1 pour 1 6 k 6 n
– α0 = 0 et αk = 0 pour k > n + 1.
Corrigé de l’exercice
P 1.13, page 9
1) B(n; p)({i}) = nk=0 Cnk p k (1 − p)n−k δk ({i}) où δk ({i}) = 1 si i = k et 0 sinon. On a donc
B(n; p)({i}) = Cni p i (1 − p)n−i .
Besançon
i
De même pour la loi de Poisson on trouve P(α)({i}) = e −α αi! .
2) On a par l’additivité des probabilités pour les ensembles deux à deux disjoints :
P(1/10)({1, 3, 5, 7}) = P(1/10)({1}) + P(1/10)({3}) + P(1/10)({5}) + P(1/10)({7}).
On trouve donc
(0, 1)1 (0, 1)3 (0, 1)5 (0, 1)7

−0,1
P(1/10)({1, 3, 5, 7}) = e + + +
1! 3! 5! 7!
' 0, 0905 + 0, 0002 + 0 + 0 ' 0, 0907 .
De même on trouve B(7; 0.3)({0, 3, 5} ' 0.3343.

Le fait que, pour tout entier naturel n, Bn ⊆ An est évident. Pour montrer que les Bn sont
disjoints deux à deux, supposons que Bn ∩Bm 6= Ø pour n 6= m. On peut considérer que n < m.
Soit x ∈ Bn ∩ Bm . Comme x ∈ Bm , x ∈ / A0 ∪ A1 ∪ ... ∪ Am−1 donc x ∈ / An car n 6 m − 1.
Donc x ∈ / Bn car Bn ⊆ An . Ainsi x ∈/ Bn ∩ Bm et il y a donc contradiction. Donc par l’absurde,
Bn ∩ Bm = Ø.
Comme Bn ⊆ An , ∪∞ ∞ ∞
n=0 Bn ⊆ ∪n=0 An . Montrons l’inclusion inverse. Soit x ∈ ∪n=0 An , il existe
n0 tel que x ∈ An0 et pour tout k < n0 , x ∈ / Ak (cet indice n0 peut être 0), donc x ∈ Bn0
et ainsi x ∈ ∪∞ B
n=0 n . On vient de montrer l’inclusion ∪∞ ∞
n=0 An ⊆ ∪n=0 Bn et on en déduit donc
l’égalité souhaitée.
Soit K un entier naturel. Comme Bn ⊆ An , ∪n=K n=K
n=0 Bn ⊆ ∪n=0 An . Montrons l’inclusion inverse.
n=K
Soit x ∈ ∪n=0 An , il existe n0 tel que x ∈ An0 et pour tout k < n0 , x ∈/ Ak (cet indice n0 peut
être 0), donc x ∈ Bn0 et ainsi x ∈ ∪n=0 Bn . On vient de montrer l’inclusion ∪n=K
n=K n=K
n=0 An ⊆ ∪n=0 Bn
et on en déduit donc l’égalité souhaitée.
Corrigé de l’exercice 1.15, page 15 Rx

On doit trouver une fonction f de R dans R intégrable telle que F (x) = −∞ f (t)dt. Comme
F est dérivable à dérivée continue sur R, il suffit de prendre f = F 0 c’est-à-dire
1 +x
2
e , si x 6 0 ;
f (x) = 1 −x
2
e , si x > 0.
Ainsi F est la fonction de répartition d’une probabilité à densité f définie par f (x) = 12 e −|x| .

La f.r. de N1 (0; 1) est l’application Φ de R dans [0,1] définie par
Z x
1 t2
Φ(x) = √ e − 2 dt
−∞ 2π
c’est donc une application continue sur R. Par suite d’après la proposition 1.14 2.(c), page 15,
on en déduit que pour tout réel x, N1 (0;P1)({x}) = 0.
SupposonsPmaintenant que N1 (0; 1) = ∞ k=0 pk δαk où (pk )k∈N est une suite de réels positifs
telle que ∞ p
k=0 k = 1 et (α )
k k∈N est une suite de nombres réels, deux à deux distincts. On
aPalors, pour tout entier naturel k, N1 (0; 1)({αk }) = pk = 0 ; ce qui contredit le fait que
∞
k=0 pk = 1. Donc N1 (0; 1) n’est pas une probabilité discrète.

Besançon
Rx
1. Cela résulte de la continuité de la fonction de répartition x 7→ −∞ ρ(t)dt et de la
proposition 1.14, 2.(c), page 15.
2. On a µ(]a,b[) = µ(]a,b]) − µ({b}) = (F (b) − F (a)) − (F (b) − F (b−)) = F (b−) − F (a).
De même µ([a,b[) = µ(]a,b[) + µ({a}) = (F (b−) − F (a)) + (F (a) − F (a−)) =
F (b−) − F (a−).

La fonction de répartition F de U([0,1]) est continue sur R et est donnée par

 0, si x < 0 ;
F (x) = x, si 0 6 x 6 1 ;
1, si x > 1.

On a donc U([0,1])([1/6,4/3]) = F (4/3) − F (1/6−) = F (4/3) − F (1/6) = 1 − 1/6 = 5/6.

Comme Q = ∪q∈Q {q} (union de singletons disjoints deux à deux), on a par continuité de la
f.r., X
U([0,1])(Q) = U([0,1])({q}) = 0 .
| {z }
q∈Q =0
La fonction de répartition de E(2) est continue et est donnée par

0, si x < 0 ;
F (x) = −2x
1 − e , si x > 0.
Donc E(2)({π}) = 0 et E(2)({π}∪[9/2,7]) = E(2)({π})+E(2)([9/2,7]) = 0+F (7)−F (9/2) =
e −9 − e −14 .

La représentation graphique de F est :
6
1

3/4 r
1/2 b

r
1/4
b -
-2 -1 0 1 2 3
On peut écrire F de la manière (moins synthétique mais plus lisible) suivante :



 0, si x < −1 ;
 x+2
4
, si −1 6 x < 0 ou 1 6 x 6 2 ;
F (x) = 3
, si 0 6 x 6 1;
 4


1, si x > 2.
Besançon
La fonction F présente des sauts ce qui est révélateur de la présence de Dirac dans l’expression
de la probabilité.
Par ailleurs, F est bien une fonction de répartition car elle est croissante, continue à droite et
limx→−∞ F (x) = 0 et limx→+∞ F (x) = 1.
La mesure µ sera la somme d’une mesure à densité et d’une variable discrète. A priori
on ne dispose pas de résultat dans le cours pour conjecturer ce fait mais en pratique (en
refaisant d’autres exercices de ce type) la méthode décrite ci-après permet de conclure. On
peut considérer que pour tout x ∈ R, F (x) = F1 (x) + F2 (x) où


 0, si x < −1 ;
x+1
 4 , si −1 6 x < 0 ;


1
F1 (x) = 4
, si 0 6 x 6 1 ;
x
, si 1 6 x 6 2 ;


 14


2
, si x > 2.
et 
 0, si x < −1 ;
1
F2 (x) = , si −1 6 x < 0 ; .
 14
2
, si x > 0.
On remarque
R x que F1 est continue et F2 permet de prendre en compte les sauts. On peut écrire
F1 (x) = −∞ f1 (t)dt où
1

4
,si −1 6 t < 0 ou 1 6 t 6 2 ;
f1 (t) = .
0, sinon.
Ainsi F1 (x) = µ1 (] − ∞,x]) où µ1 est la mesure de densité f1 . Pour F2 on écrit
1 1
F2 (x) = 1l[−1,+∞[ (x) + 1l[0,+∞[ (x)
4 4
1 1
= δ−1 (] − ∞,x]) + δ0 (−∞,x])
4 4
= µ2 (] − ∞,x])
où µ2 = 41 δ−1 + 14 δ0 . Finalement F est la fonction de répartition de la probabilité µ = µ1 + µ2 .

On remarquera que µ1 et µ2 ne sont pas elles-mêmes des probabilités.
8.2 Corrigés des exercices du chapitre II

Il suffit de vérifier que ∀B ∈ B(Rd ), (f ◦ ϕ)−1 (B) ∈ A. Or (f ◦ ϕ)−1 (B) = ϕ−1 (f −1 (B)),
comme f est borélienne, f −1 (B) ∈ B(Rk ) et comme ϕ est A−mesurable, ϕ−1 (f −1 (B)) ∈ A
d’où le résultat.

Soit FX et FY les f.r. de X et Y respectivement. Soit t ∈ R.
– Si t 6 0, comme ∀ω ∈ Ω, Y (ω) = e X (ω) > 0 on en déduit que FY (t) = P(Y 6 t) =
P(Ø) = 0.
Besançon
– Supposons maintenant
√ R x que t > 0. On rappelle que X étant une v.a.r. de loi N1 (0; 1),
−u 2 /2
FX (x) = (1/ 2π) −∞ e du. On a donc
FY (t) = P(Y 6 t) = P(e X 6 t) = P(X 6 ln t) = FX (ln t)

Z ln t
1 2
=√ e −u /2 du
2π −∞
et en faisant le changement de variable u = ln x (en remarquant que −∞ < u 6 ln t ⇔
0 < x < t) on obtient
Z t −(ln x)2 /2
1 e
FY (t) = √ dx.
2π 0 x
Il reste à faire apparaître une densité ce qui revient à écrire FY (t) sous forme d’une intégrale
entre −∞ et t :
Z t
FY (t) = ρ(x)dx
−∞
où on a posé
1 1 2
ρ(x) = √ e − 2 (ln x) 1l]0,+∞[ (x)
2πx
d’où le résultat cherché.

Déterminons la fonction de répartition de la v.a.r. Y .

0 si t < 0
FY (t) = P(Y ≤ t) =
P(−t ≤ X ≤ t) si t ≥ 0
Puisque FX est continue, on peut écrire P(−t ≤ X ≤ t) = FX (t) − FX (−t) = 12 (2 − e −t ) −

1 −t
2
e = 1 − e −t . On reconnaît la fonction de répartitiond’une v.a. de loi exponentielle E(1).

On écrit les équivalences suivantes :
t Z
1 (x−m)2
Y = σX + m 2
suit une loi N 1 (m; σ ) ⇔ ∀t ∈ R ; P(Y 6 t) = √ e − 2σ2 dx
−∞ 2πσ
Z t
t −m 1 (x−m)2
⇔ ∀t ∈ R ; P X 6 = √ e − 2σ2 dx
σ −∞ 2πσ
Z x
1 v2
⇔ ∀x ∈ R ; P (X 6 x) = √ e − 2σ2 dv ,
−∞ 2π
où on a d’abord posé x = (t − m)/σ puis fait le changement de variable v = (u − m)/σ.

Soit X une variable aléatoire réelle de loi
X
PX := p k δk .
k∈N

Besançon
Fixons n ∈ N, il vient X
PX ({n}) := pk δk ({n}).
k∈N
P
Or δk ({n}) = 0, si k 6= n et δn ({n}) = 1. Par suite k∈N pk δk ({n}) = pn et PX ({n}) = pn .
D’où le résultat cherché.
1. Le graphe de F est une fonction en escalier, croissante et continue à droite, présentant

des sauts de discontinuité de première espèce en tout point d’abscisse n ≥ 1, la hauteur
du saut étant égale à P(X = n).
2. F est une fonction de répartition car elle est définie sur R à valeurs dans [0, 1], croissante,
continue à droite en tout point, avec lim F (x) = 0 et lim F (x) = 1.
x→−∞ x→+∞
3. Soit n > 1 un entier naturel. D’après le cours, pour tout réel x, P(X = x) est égal à la
valeur du saut de F au point d’abscisse x. C’est-à-dire

1 1 2
P(X = n) = F (n) − F (n−) = 1 − − 1− = 2
.
n(n + 1) n(n − 1) n(n − 1)
1
On a de même P(X = 0) = 0 et P(X = 1) = .
2
4. Par définition, comme X est une variable discrète à valeurs dans N,
∞
X
E(X ) := nP(X = n)
n=1
∞
1 X 2
E(X ) = +
2 n=2 (n − 1)(n + 1)
∞
1 X 1
E(X ) = + −
2 n=2 n − 1 n + 1

1 1 1 1 1 1 1 1
E(X ) = + 1− + − + − + ··· + − + ···
2 3 2 3 3 4 n−1 n+1
1 1
E(X ) = + 1 + = 2.
2 2
5. Calculons la variance de X . Vérifions auparavant que la variable X est de carré intégrable,
c’est-à-dire que E(X 2 ) est un réel fini. Or, par définition des moments d’ordre 2, et suivant
un calcul analogue au précédent, il vient :
∞ ∞
X 1 X 2n
E(X 2 ) = n2 P(X = n) = + .
n=1
2 n=2 (n − 1)(n + 1)
∞
X 2n
La série à terme général réel positif ne converge pas. En effet, son
n=2
(n − 1)(n + 1)
1
terme général est équivalent à , terme général d’une série divergente (série harmonique).
n
Besançon
D’après le critère de l’équivalence pour les séries à terme général positif, la série
∞
X 2n
diverge. Donc la variable aléatoire X n’admet pas de variance.
n=2
(n − 1)(n + 1)
8.3 Corrigés des exercices du chapitre III

Pn
1. D’après la conclusion 1.(b) de la proposition 3.1, page 30, Eµ (f ) = i=1 ai Eµ (1lAi ).
Or
Pn d’après 1.(a) de cette même proposition, Eµ (1lAi ) = µ(Ai ) et donc Eµ (f ) =
i=1 ai µ(1lAi ).
2. D’après ce qui vient d’être vu, Eµ (f ) = πµ([0,1/3]) + µ([6,10] + 3µ({5}). Mais
µ([0,1/3]) = δ0 ([0,1/3]) + δ5 ([0,1/3]) + λ([0,1/3]) = 4/3 .
| {z } | {z } | {z }
=1 =0 =1/3−0
De même
µ([6,10]) = δ0 ([6,10]) + δ5 ([6,10]) + λ([6,10]) = 4 et
| {z } | {z } | {z }
=0 =0 =10−6
µ({5}) = δ0 ({5}) + δ5 ({5}) + λ({5}) = 1 .

| {z } | {z } | {z }
=0 =1 =0
Par suite Eµ (f ) = 34 π + 7.

1. On introduit l’application Ĩ : M+ → [0,∞] définie pour f ∈ M+ (E , A) par
Ĩ (f ) = Eµ (f ) + Eν (f ). On montre aisément que Ĩ vérifie les conditions 1.(a), 1(b)
et 1.(c) de la proposition 3.1, page 30, c’est-à-dire :
(a) Pour tout A ∈ A, Ĩ (1lA ) = (µ + ν)(A).
(b) Pour tous f et g appartenant à M+ (E , A) et tout réel α ≥ 0.
Ĩ (f + g ) = Ĩ (f ) + Ĩ (g ) et Ĩ (αf ) = αĨ (f ).
(c) Pour toute suite croissante (fn )n∈N d’éléments de M+ (E , A),

lim Ĩ (fn ) = Ĩ lim fn .
n→+∞ n→+∞
On conclut alors par l’unicité de l’opérateur que Ĩ = Eµ+ν , c’est-à-dire que pour tout
f ∈ M+ (E , A), Ĩ (f ) = Eµ+ν (f ) ou encore Eµ (f ) + Eν (f ) = Eµ+ν (f ).
2. D’après la question précédente, Eµ (f ) + Eν (f ) = Eµ+ν (f ) or
Eµ (f ) = Eλ (ρf ) d’après la proposition 3.1, page 30,
Z +∞
= ρ(x)f (x)dx d’après la proposition 3.2, page 31,
−∞
Z 1
= αe −αx e αx dx = α ,
0
et Eν (f ) = e −α f (1) d’après la proposition 3.4, page 32,
= e −α e α×1 = 1 .

Besançon
Finalement Eµ+ν (f ) = α + 1.
3. Un raisonnement analogue conduit à :
Z 1
Eµ (f ) = e −αx e αx dx = 2
−1
∞ ∞ ∞
X αk X αk αk
X (αe α )k
Eν (f ) = f (k) = e = = exp(αe α ) .
k=0
k! k=0
k! k=0
k!
Par suite Eµ+ν (f ) = 2 + exp(αe α ). De même

1 ∞
αk e α − e −α
Z X
−αx
Eµ+ν (1lR ) = Eµ (1lR ) + Eν (1lR ) = e dx + = + eα > 1
−1 k=0
k! α
donc µ + ν n’est pas une probabilité.

L’application borélienne f est intégrable suivant µ si, et seulement si, Eµ (|f |) < +∞. Or
d’après la proposition 3.4, page 32,
∞
X ∞
X
Eµ (|f |) = αi |f |(ai ) = αi |f (ai )|.
i=0 i=0
par rapport à µ = ∞
P
Ainsi f sera intégrable
P∞ i=0 αi δi si, et seulement si, la série numérique à
termes positifs i=0Pαi |f (ai )| est convergente ce qui est équivalent à l’absolue convergence de
la série numérique ∞ i=0 αi f (ai ).
Corrigé de l’exercice 3.5, page p36

Soit x = (x1 , ..., xd ) ∈ Rd , |x| = x12p
+ ... + xd2 . L’application f sera intégrable pour µ si, et
seulement si, Eµ (|f |) < ∞, c-à-d Eµ ( f12 + ... + fd2 ) < ∞. Or pour tout i = 1, ..., d on a
q
|fi | 6 f12 + ... + fd2 6 |f1 | + ... + |fd | .
D’où par la croissance de l’opérateur Eµ pour les fonctions positives (proposition 3.1, assertion
2, page 30),
d
X
Eµ (|fi |) 6 Eµ (|f |) 6 Eµ (|fi |)
i=1
et par suite Eµ (|f |) < +∞ ⇔ ∀i = 1, ..., d ; Eµ (|fi |) < +∞.

1. Cas où µRest la probabilité de Dirac sur R au point a.
Φµ (t) = R e itx d(δa )(x) = e iat .
2. Cas où µRest la Pprobabilité binomiale de paramètres
P n et p.
Φµ (t) = R e itx nk=0 Cnp p k (1−p)n−k dδk (x) = nk=0 Cnp (pe it )k (1−p)n−k . Ce qui donne
avec la formule du binôme de Newton : φµ (t) = (1 − p + pe it )n .
Besançon
3. Cas où µ est la probabilité de Poisson de paramètres α > 0.

it k
Φµ (t) = R e itx +∞ −α (αe ) it
dδk (x) = e −α(e −1) .
R P
k=0 e k!

1. Méthode 1) : on applique le théorème de transfert (cas positif) à la fonction h définie
par h(x) = e x . En notant µ = PX = N (0; 1) on a (d’après les règles d’intégration)
Z Z Z +∞
X x x 1 −x 2 /2 1 2
E(e ) = Eµ (h) = e dPX (x) = e √ e dλ(x) = √ e x−x /2 dx .
R R 2π −∞ 2π
Or x − x 2 /2 = −(x − 1)2 /2 + 1/2 d’où
√ Z +∞
X e 1 2 √
E(e ) = √ e 2 (x−1) dx = e .
2π −∞
Méthode 2) : On a vu au chapitre II, exercice 2.3, page 22, que la v.a.r. Y = e X est une
v.a.r.à densité ρ donnée par

1 1 2
ρ(x) := √ exp − (ln x) 1l]0,+∞[ (x).
x 2π 2
On a alors E(e X ) = E(Y ) = Eµ (f ) où f (y ) = y et µ est la probabilité de densité ρ.
Ainsi
Z Z +∞
X y 1 2
E(e ) = y ρ(y )dλ(y ) = √ exp − (ln y ) 1l]0,+∞[ (y )
R −∞ y 2π 2
Z ∞ Z +∞
1 1 2 1 2
=√ e − 2 (ln y ) dy = √ e −u /2 e u du
2π 0 −∞ 2π
R +∞ 2
où on a effectué le changement de variables u = ln y . D’où E(e X ) = −∞ √12π e u−u /2 du
et on est ramené à la même intégrale que dans la première méthode.
2. En effectuant le changement de variable u = x 2 et en faisant une intégration par parties
on écrit
Z +∞ Z +∞
1 3 −x 2 /2 2 2
3
E(|X | ) = √ |x| e dx = √ |x|3 e −x /2 dx
2π −∞ 2π 0
Z +∞
2 √ du
=√ u ue −u/2 √
2π 0 2 u
∞ Z +∞
1 −u /2 1
= √ (−2u)e −√ (−2)e −u/2 du ,
2π 0 | 2π 0
{z }
√
| {z }
=0 =4/ 2π
√
d’où E(|X |3 ) = 4/ 2π < ∞ donc X 3 est intégrable.
Calculons E(X 3 ) :
Z +∞
1 2
3
E(X ) = √ x 3 e −x /2 dx = 0
2π −∞
2 /2
car la fonction x 7→ x 3 e −x est impaire sur R.

Besançon

• On montre que E(XZ ) = (2;2). On sait que si X = (X1 ,X2 ), E(X ) = (E(X1 ),E(X2 )). Or
E(X1 ) = E(h(X )) = h(x, y )dPX (x, y ) où on a posé h fonction de R+ × R+ → R+ définie
R2
par h(x, y ) = x. D’où
Z ∞ X ∞ ∞ X ∞
P∞ 1
X 1 X k
E(X1 ) = h(x, y )d k ,l =1 2k+l δ(k ,l ) (x, y ) = k+l
h(k, l) = k+l
.
R2 k=1 l=1
2 | {z }
k=1 l=1
2
=k
Par suite !
∞ ∞ ∞ k
X k X 1 X 1
E(X1 ) = = k
k=1
2k 2l 2
| l=1{z } k=1
=1
et comme en dérivant terme à terme une série géométrique on montre facilement que
∞
X x 1/2
x kx k−1 = 2
pour 0 < x < 1, on déduit que E(X 1 ) = 2
= 2. On
k=1
(x − 1) (1 − 1/2)
raisonne de même pour montrer que E(X2 ) = 2.
• On détermine la loi de la v.a.r. Z = X1 + X2 . On applique le critère d’identification des lois
par les fonctions boréliennes positives. Soit h de R → [0,∞] borélienne. En posant ϕ(x, y ) =
h(x + y ) (qui est borélienne positive car h l’est), on a E(h(Z )) = E(h(X1 + X2 )) = E(ϕ(Z )).
Par le théorème du transfert,
Z Z
P∞ 1

E(h(Z )) = ϕ(x, y )dPX (x, y ) = h(x + y )d k ,l =1 2k+l
δ(k ,l ) (x, y )
R2 R2
∞ ∞ ∞
XX 1 X X 1
= h(k + l) = h(i) .
k=1 l=1
2k+l i=2 (k,l)/k+l=i
2i
X 1
Or il existe i − 1 couples (k, l) tels que k + l = i avec 1 6 k et 1 6 l donc h(i) =
2i
(k,l)/k+l=i
(i − 1) × h(i)/2i . D’où
∞
i −1
X Z
E(h(Z )) = i
h(i) = h(x)dµ(x)
i=2
2 R
∞ ∞
X i −1 X i −1
avec µ = i
δi = i
δi car i − 1 = 0 pour i = 1.
i=2
2 i=1
2
1. On a V ar (X ) = E((X − E(x)2 ) = C ov (X , X ). En posant E(X ) = m :
V ar (X ) = E(X − m)2 = E(X 2 − 2mX + m2 ) = E(X 2 ) − 2mE(X ) + m2

E(X 2 ) − 2m2 + m2 = E(X 2 ) − m2 = E(X 2 ) − (E(X ))2 .

Besançon
2. On pose mX = E(X ) et mY = E(Y ) et on a :
C ov (X , Y ) = E((X − mX )(Y − mY )) = E(X Y ) − mX E(Y ) − mY E(X ) + mX mY

= E(X Y ) − E(X )mY − mY E(X ) + mX mY = E(X Y ) − mX mY
= E(X Y ) − E(X )E(Y ) .

On
R +∞peut−xvérifier que ρ est bien une densité de probabilité sur R. En particulier on a donc
2 /2
0
xe dx = 1. On remarque que X est une v.a.r. positive (presque-sûrement) c’est-à-
dire P(X < 0) = 0 ou encore P(X = 0) = 1. On peut donc faire les calculs comme si X est à
valeurs dans [0, + ∞].
Soit r un entier naturel strictement positif, par le théorème de transfert :
Z Z Z ∞
r +1 −x 2 /2 2 /2
r
E(X ) = r
x dPX (x) = x e 1lR+ (x)dλ(x) = x r +1 e −x dx .
R R 0
Par des techniques d’intégration par parties successives, on recherche une relation de récurrence
sur l’entier r > 2 : Z ∞ Z ∞
r +1 −x 2 /2 2 /2
x e dx = r x r −1 e −x dx
0 0
r −2
c’est-à-dire E(X r ) =
R ∞r E(X ). Enpdistinguant les cas où r = 2k et r = 2k − 1, et en
2
tenant compte que 0 e −x /2 dx = π/2, on trouve les relations demandées. En particulier
p
E(X ) = π/2 et E(X 2 ) = 2 d’où V ar (X ) = 2 − π/2.
Corrigé de l’exercice 3.11, page 47 Pd

Supposons tout d’abord que pour tout i, E(Xi2 ) < ∞. Alors comme |X |2 = 2
i=1 Xi ,
E(|X |2 ) = di=1 E(Xi2 ) < ∞.
P
Réciproquement, si E(|X |2 ) < ∞ alors E(Xi2 ) < ∞ car Xi2 6 |X |2 .

Notons X1 , ..., Xd les composantes de X dans la base canonique de Rd , M la matrice
[aij ]16i6c,16j6d . Le vecteur MX de Rc a pour composante ((MX )1 , ..., (MX )c ) où pour
i = 1, ..., c, (MX )i = dj=1 aij Xj .
P
• Le vecteur Y = X − E(X ) ∈ Rd a pour composante Yi = Xi − E(Xi ) d’où E(Yi ) = 0. Ainsi

Y = Y − E(Y ) = X − E(X ) et par suite
DY = E ((Y − E(Y ))(Y − E(Y ))t ) = E ((X − E(X ))(X − E(X ))t ) = DX
d’où une première assertion du point 2) de la Pproposition 3.24, page 48.

• Le vecteur E(MX ) a pour composantes dj=1 aij E(Xj ) pour i = 1, ..., c. Ce sont aussi les
composantes de M × E(X ). D’où l’égalité E(MX ) = ME(X ).
• Le terme (i, j de la matrice DX est E[(Xi − E(Xi ))(Xj − E(Xj ))] = C ov (Xi ,Xj ), ce qui prouve
aussi que DX est symétrique car C ov (Xi ,Xj ) = C ov (xj ,Xi ). Par ailleurs, les éléments diagonaux
de DX sont C ov (Xi ,Xi ) = V ar (Xi ) pour i = 1, ..., d.
Besançon
• Montrons que DMX = MDX M t . Soit i, j = 1, ..., c, le coefficient (i, j) de DMX est

C ov (MX )i ,(MX )j = E[(MX )i (MX )j ] − E[(MX )i ]E[(MX )j ]
" d d
# " d # " d #
X X X X
=E aik Xk ajl Xl − E aik Xk E ajl Xl
k=1 l=1 k=1 l=1
d
XX d h i
= aik ajl E(Xk Xl ) − E(Xk )E(Xl )
| {z }
k=1 l=1
=C ov (Xk ,Xl )
d X
X d
= aik C ov (Xk ,Xl )ajl
k=1 l=1
= coefficient (i, j) de la matrice MDX M t (matrice carrée d’ordre c)
d’où l’égalité cherchée.

t d
• Montrons que dx est positive. Soit U = (u1 , ..., uP
d ) ∈ R (U est aussi une matrice colonne).
d
On a DU t X = U t DX (U t )t = U t DX U. Or U t X = j=1 uj Xj et DU t X représente la variance de
cette v.a.r. . Ainsi U t DX U > 0 pour tout vecteur U (ou matrice unicolonne).
Le reste des propriétés de la matrice DX se déduisent de la théorie de la diagonalisation des
matrices symétriques, de type positif.

1. Les équivalences suivantes donnent :
2
|X | − |Y | > 0 ⇔ X 2 + Y 2 − 2|X Y | > 0 ⇔ X 2 + Y 2 > 2|X Y | > |X Y | .
On en déduit que E(|X Y |) 6 E(X 2 ) + E(Y 2 ) < ∞, ainsi la v.a.r. X Y est intégrable.
En choisissant Y = 1lΩ (c’est la variable aléatoire constante égale à 1), on a |X Y | =
|X | 6 X 2 + 1lΩ d’où
E(|X |) 6 E(X 2 ) + E(1lΩ ) = E(X 2 ) + 1 < ∞ .
On procède de même pour Y .

2. Pour tout α ∈ R,
0 6 E((X + αY )2 ) = α2 E(Y 2 ) + 2αE(X Y ) + E(X 2 ) .
Nous avons un polynôme en α de degré deux qui est positif. Il ne peut donc pas avoir
de racines
2 réelles 2distinctes et son discriminant est donc négatif ou nul, c’est-à-dire
2
E(X Y ) − E(Y )E(X ) 6 0 d’où le résultat.

Besançon
1. Pour tout i = 1, ..., n, Xi est de carré intégrable car E(|X |2 ) < ∞. On a

n
X X
2
Y = Xi2 + Xi X j
i=1 16i6=j6n
Xn X
6 Xi2 + |Xi X j| ce qui entraîne
i=1 16i6=j6n
n
X X
E(Y 2 ) 6 E(Xi2 ) + E(|Xi X j|) ,
|i=1 {z } 16i6=j6n
| {z }
<∞ car Xi intégrables <∞ d’après l’exercice 3.13, page48
Pn
d’où E(Y 2 ) < ∞ ce qui prouve que k=1 Xi est de carré intégrable.
2. On a :
 !2 
n
X
V ar (Y ) = E[(Y − E(Y ))2 ] = E  (Xi − E(Xi )) 
i=1
n
X X
= E[(Xi − E(Xi ))2 ] + E[(Xi − E(Xi ))(Xj − E(Xj ))] ,
| {z } | {z }
i=1 16i6=j6n
=V ar (Xi ) =C ov (Xi ,Xj )
d’où le résultat en remarquant que

X X
E[(Xi − E(Xi ))(Xj − E(Xj ))] = 2 E[(Xi − E(Xi ))(Xj − E(Xj ))]
16i6=j6n 16i<j6n
car C ov (Xi , Xj ) = C ov (Xj , Xi ).
1. Pour vérifier la relation, on étudie la valeur de chacun des deux membres de l’égalité pour
ω tel que |X (ω)| > a, puis pour ω tel que |X (ω)| ≤ a. On constate alors que les deux
membres coïncident dans chaque cas.
2. Remarquons que X et −X ont la même loi. En effet l’étude des fonctions caractéristiques
1 2
donne Φ−X (t) = E[e −itX ] = ΦX (−t) = e − 2 t = ΦX (t). Soient h une application
borélienne positive de R dans R, a un réel strictement positif, de la relation,
h(Xa ) = h(X )1l[0,a] (|X |) + h(−X )1l]a,+∞[ (|X |)
on obtient, en passant à l’espérance,
E[h(Xa )] = E[h(X )1l[0,a] (|X |)] + E[h(−X )1l]a,+∞[ (|X |)].
En remarquant que X et −X ont la même loi et en utilisant le théorème du transfert, il
vient
E[h(−X )1l]a,+∞[ (|X |)] = E[h(X )1l]a,+∞[ (|X |)].
Ce qui, en reportant dans le deuxième membre de l’égalité précédente, donne E[h(Xa )] =
E[h(X )], pour toute application borélienne positive de R dans R. Ce qui prouve que Xa
suit la même loi que X c’est-à-dire N 1 (0, 1).

Besançon
Corrigé de l’exercice 3.16, page 59 R +∞

1. Le réel a est déterminée par la contrainte −∞ f (x)dx = 1 qui s’exprime ici par
Z −1 Z 0
a
dx + (x + 1 − a)dx = 0
−e x −1
et un rapide calculRdonne a = −1/4. La fonction de répartition de X est définie pour

x
x ∈ R par F (x) = −∞ f (t)dt. On a :
Si x 6 −e, F (x) = 0.
Rx Rx
Si −e < x < −1, F (x) = −e f (t)dt = −e −1/(4t)dt = −(1/4) ln(−x) + 1/4.
R −1 Rx
Si −1 6 x < 0, F (x) = −e −1/(4t)dt + −1 (t + 5/4)dt = x 2 /2 + 5x/4 + 1.
Rx R0
Si x > 0, F (x) = −∞ f (t)dt = −e f (t)dt = 1.
D’où F est définie par


 0 si x 6 −e ;
−(1/4) ln(−x) + 1/4, si −e < x 6 −1 ;

F (x) =

 x 2 /2 + 5x/4 + 1, si −1 < x 6 0 ;
1, si x > 0.

2. Pour calculer E(X ) on écrit que

Z +∞ Z −1 Z 0
x
E(X ) = xf (x)dx = − dx + (x 2 + 5x/4)dx = −(6e + 1)/24 .
−∞ −e 4x −1

1. Écrivons la fonction de répartition de Y = X 3 . Soit y ∈ R,
Z y 1/3
1 2
3
FY (y ) = P(Y 6 y ) = P(X 6 y ) = P(X 6 y 1/3
)= √ e −t /2 dt
−∞ 2π
Z y
1 2/3 1
= √ e −z /2 z −2/3 dz ,
3
−∞
| 2π {z }
:=f (z)
Ry
où on a effectué le changement de variables t = z 1/3 . Par suite FY (y ) = −∞ f (z)dz et
X 3 est une v.a.r. à de densité f donnée ci-dessus.
2. La fonction de répartition de la loi normale centrée réduite est une application continue,
strictement croissante donc bijective de R sur ]0,1[. Ainsi F −1 existe bien et on peut
écrire pour tout y ∈]0,1[
P(Y 6 y ) = P(F (X ) 6 y ) = P(X 6 F −1 (y )) = F (F −1 (y )) = y .
Comme F prend ses valeurs dans l’intervalle ]0,1[, l’ensemble {F (X ) 6 y } = Ø dès que
y 6 0 et donc FY (y ) = P(F (X ) 6 y ) = 0 quand y 6 0.
Pour la même raison, {F (X ) 6 y } = Ω dès que y > 1 et dans ce cas FY (y ) = P(Ω) = 1.
En conclusion on a 
 0, si y 6 0 ;
FY (y ) = y , si 0 < y < 1 ;
1, si y > 1.

donc Y est une v.a.r. uniforme sur [0,1].

Besançon
Corrigé de l’exercice 3.18, page 60 R +∞ R∞

1. L’application f est bien positive, continue sur R et on a −∞ f (t)dt = 0 αe −αu du = 1.
2. La v.a.r. Y = |X | ne prend que des valeurs positives. On procède comme dans l’exercice
3.17, page 59,. Soit y ∈ R+ ,
Z y
FY (y ) = P(Y 6 y ) = P(|X | 6 y ) = P(−y 6 X 6 y ) = f (t)dt
−y
Z y
= αe −αt dt = 1 − e −αy .
0
Si maintenant y < 0, {T 6 y } = {|X | 6 y } = Ø et donc FY (y ) = P(Ø) = 0.

Finalement, FY (y ) = (1 − e −αy )1lR+ (y ) et donc Y est une v.a.r. exponentielle de
paramètre α > 0.
D’après le formulaire de l’annexe A, page 205, on sait que E(Y ) = 1/α et V ar (Y ) =
1/α2 . Par la formule de König (proposition 3.22, page 46), E(Y 2 ) = V ar (Y )+(E(Y ))2 =
2/α2 . Or Y 2 = X 2 et donc E(X 2 ) = 2/α2 . On vérifie que E(X ) = 0 et on conclut que
V ar (X ) = E(X 2 ) = 2/α2 .

Remarquons que si ω ∈ Ω est tel que X (ω) = 1, alors Y (ω) n’est pas définie. Mais comme
P({X = 1}) = 0, la probabilité que Y soit définie est 1. On remarque que Y prend ses valeurs
dans R+ . Soit y > 0, FY (y ) = P(Y 6 y ) = P(X 6 1−e −αy ) = 1−e −αy car 0 6 1−e −αy 6 1
et x suit une loi uniforme sur [0,1]. Comme pour y 6 0, P(Y 6 y ) = 0 on reconnaît que Y
suit la loi exponentielle de paramètre α > 0.

X −m
Si on considère la v.a. Y := alors Y suit la loi normale N 1 (0, 1), d’après le théorème
σ
de standardisation. D’où, pour tout réel u, ΦX (u) = E[e iu(σY +m) ] = e ium Φ(σu) avec
Z Z
1 x2
iY t
Φ(t) = E(e ) = ixt
e dPY (x) = √ e − 2 e ixt dλ(x).
R 2π R
Pour calculer cette intégrale, on va montrer que Φ vérifie une équation différentielle.
Z
1 x2
Φ(t) = √ e − 2 (cos(tx) + i sin(tx))dλ(x)
2π ZR
1 x2
= √ e − 2 cos(tx)dλ(x).
2π R
x2 x2

Comme −xe − 2 cos(tx) ≤ |x|e − 2 et que cette dernière fonction est intégrable sur R pour la

R
mesure de Lebesgue, par le théorème de dérivation sous le signe de la théorie de Lebesgue,
on en déduit que Φ est dérivable et que
Z
0 1 x2
Φ (t) = − √ xe − 2 sin(tx)dλ(x)
2π R
1 h − x2 i+∞ 1
Z
x2
= √ e 2 sin(tx) −√ te − 2 cos(tx)dλ(x)
2π −∞ 2π R
= −tΦ(t).
Besançon
Z
x2
Car e − 2 sin(tx)dλ(x) = 0 comme intégrale par rapport à la mesure de Lebesgue, sur
R
un intervalle centré en 0 d’une fonction impaire. Comme Φ est une f.c., elle prend néces-
sairement la valeur 1 au point 0. Donc Φ est la solution particulière de l’équation différen-
tielle y 0 + ty = 0 telle que y (0) = 1. La solution particulière de cette équation différentielle
t2
qui prend la valeur 1 en 0 est Φ(t) = e − 2 . Par suite, en revenant au début du corrigé
2 2
2
σ u 2 σ u
ΦX (u) = E[e iu(σY +m) ] = e ium Φ(σu) = e ium e − 2 = exp ium − .
2
1. Soit A un événement. On a P(X ∈ A) = E(1lA (X )) et P(Y ∈ A) = E(1lA (Y )).
Comme X = Y presque-sûrement, on a 1lA (X ) = 1lA (Y ) presque-sûrement. Par suite
P(X ∈ A) = P(Y ∈ A), c-à-d PX = PY .
La réciproque est fausse. Pour montrer cela donnons deux contre-exemples, un dans le
cas discret, un dans le cas non discret.
Pour le cas discret, considérons le jeu de Pile-ou-Face modélisé de la façon suivante :
Ω := {P, F }, F := P({P, F }), P est définie sur F à partir de P({F }) = P({P}) = 21 ,
considérons les v.a.r. X := 1lA et Y := 1lAc . On vérifie aisément que ces deux v.a.r. ont
pour loi 12 (δ0 + δ1 ) (il s’agit d’une loi de Bernoulli), cependant ces v.a.r. ne sont pas
presque-sûrement égales.
Pour le cas non discret, considérons une v.a.r. X de loi N 1 (0, 1) et posons Y := −X .
On a alors, en utilisant le théorème du transfert,
Z Z
P(Y ∈ A) = E(1lA (−X )) = 1lA (−X )dP = 1lA (−x)dPX (x)
Ω R
Z +∞ Z +∞
1 x2 1 t2
= 1lA (−x) √ exp(− )dx = 1lA (t) √ exp(− )dt
−∞ 2π 2 −∞ 2π 2
= P(X ∈ A).
X et Y ont donc la même loi, bien qu’elles ne soient pas presque-sûrement-égales car
P(X = Y ) = P(X = −X ) = P(X = 0) = 0.
2. Soit h une application positive borélienne de R dans R.
Z Z
E[h(g (X ))] = h(g (X ))dP = h(g (x))dPX (x)
ZΩ R Z
= h(g (x))dPY (x) = h(g (Y ))dP = E[h(g (Y ))],

R Ω
d’où le résultat cherché. On peut aussi remarquer que h ◦ g est une application positive
borélienne de R dans R. On applique alors l’équivalence PX = PY si, et seulement si,
pour toute application k positive borélienne de R dans R, E(k(X )) = E(k(Y )) avec
k = h ◦ g.
Montrons par un contre-exemple qu’on peut avoir PX = PY et PX Z 6= PY Z . Considérons
le jeu de Pile-ou-Face précédent et avec les notations précédentes posons Z = X . On a
alors X Z = X 2 = X et Y Z = Y X = 0. Par suite PX = PX Z 6= PY Z = δ0 bien que
PX = PY .

Besançon
Corrigé de l’exercice 3.22, page 60 Z

itX
D’une façon générale, par le théorème du transfert, on a ΦX (t) = E[e ] = e itx dPX (x).
R
Z +∞ +∞ it
X X pe
1. ΦX (t) = e itx pq k−1 dδk (x) = pq k−1 e itk = .
R k=1 k=1
1 − qe it
1 e ita − e itb
Z
1
2. ΦY (t) = e itx 1l[a,b] (x)dλ(x) = .
b−a R b−a it
Z +∞
itx −αx (1) α (it−α)x α
3. ΦZ (t) = e αe 1l[0,+∞[ (x)dα (x) = e = .
R it − α 0 α − it
Montrons que, pour tout t ∈ R, Fµ (t) ∈ {0, 1}. En effet, par densité de D dans R si t ∈ R, il
existe une suite décroissante (tn )N de réels de D convergeant vers t. Par continuité à droite de
la fonction de répartition Fµ , la suite (Fµ (tn ))N converge vers Fµ (t). Comme pour tout n ∈ N
Fµ (tn ) ∈ {0, 1}, par passage à la limite Fµ (t) ∈ {0, 1}.
Considérons a := inf{t ∈ R/Fµ (t) = 1}. On ne peut pas avoir a = +∞ sinon, pour tout
t ∈ R, Fµ (t) = 0, ce qui contredirait le fait que lim Fµ (t) = 1. De même on ne peut pas
t→+∞
avoir a = −∞ sinon, pour tout t ∈ R, Fµ (t) = 1, ce qui contredirait le fait que lim Fµ (t) = 0.
t→−∞
a est donc un réel et la continuité à droite de Fµ implique que Fµ (a) = 1. Enfin la propriété
de croissance des fonctions de répartition implique que Fµ = 1l[a,+∞[ , c’est-à-dire que µ est la
mesure de Dirac au point a.
Ce résultat s’applique en particulier à l’ensemble D des points où la fonction de répartition est
continue, puisque son complémentaire dans R est un ensemble dénombrable.
8.4 Corrigés des exercices du chapitre IV

2 2 2
1. En posant f (x, y ) = 1l]0,∞[ (x)1l]0,∞[ (y )e −x e −y = h(x) × g (y ) avec h(x) = 1l]0,∞[ (x)e −x
2
et g (y ) = 1l]0,∞[ (y )e −y , et en utilisant l’exemple 4.3, page 64, on a
Z Z Z
π (2)
= f (x, y )dλ (x, y ) = g (y ) h(x)dλ(x) dλ(y )
4 R2 R R
Z Z
= g (y )dλ(y ) × h(x)dλ(x)
R R
Z ∞ Z ∞
−y 2 −x 2
= e dy × e dx .
0 0
R∞ 2 √
Comme les deux intégrales ci-dessus sont égales, on obtient 0 e −x dx = π/2. L’autre
égalité est immédiate après un changement de variable.
2. D’après la remarque de l’énoncé,
Z Z
−(x 2 +2xy +2y 2 ) 2 2
e (2)
dλ (x, y ) = e −(x+y ) +y dλ(2) (x, y )
R2 R2
Effectuons le changement de variables T de classe C 1 défini par T : (x, y ) ∈ R2 →

T (x, y ) = (u, v ) ∈ R2 avec u = x + y et v = y . Le jacobien de T −1 au point (u, v )
Besançon
vaut 1. Le théorème de changement de variable donne :

Z Z
−(x+y )2 +y 2 2 2
e (2)
dλ (x, y ) = e −(u +v ) dλ(2) (u, v )
R2 R2
Z Z
−u 2 −v 2
= e dλ(u) × e dλ(v )
R R
Z +∞ 2 Z +∞ 2 √ 2
−x 2 −x 2 π
= e dx = 2 e dx =4 =π ,
−∞ 2 2
où l’on a utilisé le théorème de Tonelli et le résultat de la première question.

Vérifions que ν est une probabilité sur B(Rd ) que l’on notera B dans cette correction.
– L’application 1lA ρ est borélienne et positive pour tout A ∈ B donc ν(A) ∈ [0,∞].
R
– La fonction 1lØ est la fonction-nulle sur Rd donc ν(Ø) = Rd 1lØ ρdλ(d) = 0.
R R
– Par définition de la densité ρ, ν(Rd ) = Rd 1lRd ρdλ(d) = Rd ρdλ(d) = 1.
P∞suite d’éléments de B deux à deux
– Il reste à montrer la σ-additivité. Soit (Ak )k∈N une
∞
disjoints. Alors si on note A = ∪k=1 Ak , 1lA = k=0 1lAk car les Ak sont deux à deux
disjoints. On a alors en utilisant le théorème de Beppo-Levi
Z Z ∞
X ∞ Z
X ∞
X
(d) (d)
ν(A) = 1lA ρdλ = ρ dλ = 1lAk ρdλ(d) = ν(Ak ) ,
Rd Rd k=0 k=0 Rd k=0
ce qui donne la σ-additivité.

ν est donc bien une mesure de probabilité.

Considérons un dé équilibré à 6 faces. On lance le dé deux fois de suite. Soit X le résultat
obtenu au premier lancer et Y celui obtenu au second.
– Les v.a.r. X et Y ont la même loi. En effet elles sont à valeurs dans {1, 2, 3, 4, 5, 6} et
pour k = 1, ..., 6, P(X = k) = P(Y = k) = 1/6, c’est-à-dire que PX = PY .
– En revanche, X 6= Y car l’égalité signifierait que, à chaque double lancer, le résultat du
second lancer est toujours le même que celui du premier lancer ce qui est faux.

Soit (X , Y , Z ) un vecteur aléatoire de densité ρ sur R3 . Cherchons la loi de Y (ce serait la
même chose pour X et Z ). Soit A un borélien de R, {Y ∈ A} = {(X , Y , Z ) ∈ R × A × R}
d’où

PY (A) = P(Y ∈ A) = P (X , Y , Z ) ∈ R × A × R = P(X ,Y ,Z ) (R × A × R)
Z
= 1lR (x)1lA (y )1lR (z)dP(X ,Y ,Z ) (x, y , z)
R3
et par application des règles d’intégration des mesures à densité (proposition 3.8, page 35,) et
du théorème de Tonelli, on obtient comme dans l’exemple 4.4, page 65, que
Z Z Z
(2)
PY (A) = 1lA (y ) 1lR (x)1lR (z)ρ(x, y , z)dλ (x, z) dλ(x) = 1lA (y )χ(y )dλ(y )
R R2 R
| {z }
:=χ(y )

Besançon
ce qui prouve que la v.a.r. Y admet pour densité la fonction χ définie ci-dessus.

Tout d’abord, comme l’événement {(X , X ) ∈ ∆} est certain, on a P((X , X ) ∈ ∆) = 1.
Supposons que ρ soit une densité pour le vecteur (X , X ). Un autre calcul donnerait alors :
Z
P((X , X ) ∈ ∆) = P(X ,X ) (∆) = 1l∆ (x, y )ρ(x, y )dλ(2) (x, y )
Z R2
= 1l∆ (x, y )ρ(x, x)dλ(2) (x, y )

2
ZR Z
= ρ(x, x) 1l∆ (x, y )dλ(y ) dλ(x) .
R R
R R
Or R 1l∆ (x, y )dλ(y ) = R 1l{x} (y )dλ(y ) = λ({x}) = 0 pour tout x ∈ R. Par suite
P((X , X ) ∈ ∆) = 0 ce qui contredit le premier calcul et fournit ainsi un contre-exemple
pour la réciproque de la proposition 4.5, page 66.

1. Soit h une application borélienne positive de R2 dans R+ . En utilisant successivement le
théorème du transfert, l’indépendance de U et V , les règles d’intégration par rapport à
des mesures à densité, on obtient :
√ √
E(h(X , Y )) = E h −2 ln U cos(2πV ), −2 ln U sin(2πV )
√ √
Z

= h −2 ln u cos(2πv ), −2 ln u sin(2πv ) dP(U,V ) (u, v )
2
ZR
√ √
= h −2 ln u cos(2πv ), −2 ln u sin(2πv ) dPU ⊗ dPV (u, v )
2
ZR
√ √
h −2 ln u cos(2πv ), −2 ln u sin(2πv ) 1l]0,1[ (u)1l]0,1[ (v )dλ(2) (u, v ) .

=
R2
Effectuons le changement de variable T : ]0,1[2 → R2 défini pour (u, v ) ∈ R2 par

√
x = √−2 ln u cos(2πv ) u = exp(−(x 2 + y 2 )/2)
⇐⇒ 1 .
y = −2 ln u sin(2πv ) v = 2π arctan(y /x)
Le jacobien de T −1 est
2 +y 2 2 +y 2
!
−x −x 1 − x 2 +y 2
JT −1 = det −xe 2 −ye 2
=− e 2 .
1 y 1 x
− 2π x 2 +y 2 2π x 2 +y 2
2π
On obtient par le théorème de changement de variable :

Z
1 x 2 +y 2
h(x, y ) e − 2 dλ(2) (x, y ) ,

E h(X , Y ) =
R2 2π
et donc la v.a. (X , Y ) admet bien la densité ρ annoncée.

Besançon
2. Pour trouver la loi de la v.a.r. X (idem pour Y ), on applique la proposition 4.5, page 66,
qui nous permet d’affirmer que X est une v.a.r. de densité ρX définie par
Z Z
1 −x 2 /2 −y 2 /2
ρX (x) = ρ(x, y )dλ(y ) = e e dy
R Z R 2π
1 −x 2 /2 2 1 2
= e e −y /2 dy = √ e −x /2 ,
2π 2π
| R {z√
}
= 2π
donc X est une v.a.r. normale centrée réduite (idem pour Y ).

3. Pour tout A, B boréliens de R
Z
1 x 2 +y 2
P(X ,Y ) (A × B) = 1lA (x)1lB (y ) e − 2 dλ(2) (x, y )
2 2π
RZ Z
1 −x 2 /2 1 −y 2 /2
= 1lA (x) √ e dλ(x) × 1lB (y ) √ e dλ(y )
R 2π R 2π
= PX (A) × PY (B)
et ceci pour tout boréliens A et B ce qui prouve que P(X ,Y ) = PX × PY et donc (X , Y )

est un couple indépendant.

Étudions la fonction de répartition de la v.a.r. Y . Pour tout y ∈ R, FY (y ) = P(Y 6 y ). On
peut exprimer l’événement {Y 6 y } en fonction des v.a.r. ε et X :
{Y 6 y } = [{ε = 1} ∩ {X 6 t}] ∪ [{ε = −1} ∩ {X > −y }]
Comme (ε, X ) indépendants, les événements {ε = 1} et {X 6 y } sont indépendants (il en est

de même pour {ε = −1} et {X > −1}). Les événements entre crochets étant disjoints, on
obtient :
FY (y ) = P(ε = 1) × P(X 6 y ) + P(ε = −1) × P(X > −y )

1 y 1 +∞ 1 −x 2 /2
Z Z Z y
1 −x 2 /2 1 2
= √ e dx + √ e dx = √ e −x /2 dx
2 −∞ 2π 2 −y 2π −∞ 2π
et donc Y est une v.a.r. de loi N (0; 1).
Pour montrer que X et Y sont non-corrélés, il suffit de calculer
E[(X − E[X ])(Y − E[Y ])] = E[εX 2 ] = E[ε]E[X 2 ] = 0
du fait que (X , ε) est indépendant et que ε est centrée. Si (X , Y ) était indépendant, alors
(X 2 , Y 2 ) le serait aussi et on aurait
E[X 2 Y 2 ] = E[X 2 ]E[Y 2 ].
Cependant, du fait que Y 2 = X 2 ,
E[X 2 Y 2 ] = E[X 2 ]E[Y 2 ] = (E[X 2 ])2 = 1.

Besançon
Mais, par ailleurs,

Z
1 1 2
2 2
E[X Y ] = E[X ] = √ 4
x 4 e − 2 x dλ(1) (x) = 3 ,
2π R
où la dernière intégrale est calculée par une intégration par parties ; ce qui montre une contra-
diction. Le couple de v.a.r. (X , Y ) n’est donc pas indépendant.

D’après les formules de König-Huygens (Proposition 3.22, page 46), V ar (X ) = E(X 2 ) −
(E(X ))2 . D’où E(X 2 ) = V ar (X ) + (E(X ))2 = σ 2 + m2 (idem pour Y ). Par indépendance de
(X , Y ), E(X Y ) = E(X )E(Y ) et donc on a
E((X + Y )2 ) = E(X 2 + 2X Y + Y 2 ) = E(X 2 ) + 2E(X Y ) + E(Y 2 )

== E(X 2 ) + 2E(X )E(Y ) + E(Y 2 ) = 4m2 + 2σ 2 .

On reprend les notations de l’exercice 4.6, page 74. On a
V ar (X + Y ) = V ar (X ) + 2 C ov (X , Y ) +V ar (Y )
| {z }
=0
= V ar (X ) + V ar (Y )
bien que (X , Y ) ne soit pas indépendant.

– On a ΦX +Y (t) = Φ2X (t) = E[e 2itX ] = e −2|t| = (e −|t| )2 = (ΦX (t))2 = ΦX (t) × ΦY (t).
– Pour montrer que (X , Y ) est non indépendant, on prend (comme le recommande
l’énoncé) A = [−1 , 1] et on calcule
Z 1
1 1 1 1 1 π π 1
PX (A) = dx = [arctan(x)]−1 = + = .
−1 π 1 + x2 π π 4 4 2
On a alors P(X ,Y ) (A×Ac ) = P((X , X ) ∈ A×Ac ) = 0 et P(A)×P(Ac ) = P(A)(1−P(A)) =

1/4 6= 0. Donc X et Y ne sont pas indépendants.

Si Xk est une v.a.r. de Bernoulli de paramètre p ∈]0,1[, sa fonction caractéristique est
ΦXk (t) = pe it + (1 − p). Par indépendance de X1 , ..., Xn on a
n
ΦSn (t) = ΦX1 (t) × ... × ΦXn (t) = pe it + (1 − p)

et on reconnaît la fonction caractéristique d’une loi B(n; p). Donc Sn est une v.a.r. B(n; p).

Besançon
1. Pour tout ω ∈ Ω, X(1) (ω) = max(X1 (ω), ..., Xn (ω)) car c’est le premier nombre dans la
suite X1 (ω), ..., Xn (ω) réordonnés de façon croissante. Soit x ∈ R, FX(1) (x) = P(X(1) 6 x)
or {max(X1 , ..., Xn ) 6 x} = ∩nk=1 {Xk 6 x} et par indépendance de X1 , ..., Xn on déduit
que
n
n
Y n
Fx(1) (x) = P (∩k=1 {Xk 6 x}) = P(Xk 6 x) = F (x)
k=1
où F est la fonction de répartition des v.a.r. Xi , c’est à dire que F (x) = (1 −

e −αx )1l]0,∞[ (x). D’où FX(1) (x) = (1 − e −αx )n 1l]0,∞[ (x).
2. On vérifie de même que X(n) = min(X1 , ..., Xn ). Soit x ∈ R, {X(n) 6 x} = {X(n) >
x}c = ∩nk=1 {Xk > x}. Par suite
n
Y
FX(n) (x) = 1 − P(X(n) > x) = 1 − P (∩nk=1 {Xk > x}) = 1 − P(Xk > x)
k=1
n
Y n
Y
=1− (1 − P(Xk 6 x)) = 1 − [1 − F (x)] = 1 − [1 − F (x)]n
k=1 k=1
−nαx
= (1 − e )1l]0,∞[ (x) .
3. (a) La v.a.r. Yk ne prend que deux valeurs, 0 et 1. C’est donc une v.a.r. de Bernoulli
de paramètre
p = P(Yk = 1) = P(Xk > t) = 1 − P(Xk 6 t) = 1 − F (t) = 1 − (1 − e −αt )
d’où p = e −αt et donc PYk = e −αt δ1 + (1 − e −αt )δ0 , pour k = 1, ..., n. Par suite
Y1 + ... + Yn est une somme de v.a.r. de Bernoulli de même paramètre p. Ces v.a.r.
sont indépendantes car elles sont de la formes f1 (X1 ), ..., fn (Xn ) avec fk = 1l]t,∞[ (on
utilise la proposition 4.15, page 76). La v.a.r. Y1 + ... + Yn est donc une v.a.r. de
loi B(n; p).
(b) On remarque que Yk = 1 signifie que Xk est strictement supérieur à t. Ainsi
Y1 + ... + Yk est égal au nombre de v.a.r. Xi qui sont strictement supérieure à
t. Ceci entraîne que {Y1 + ... + Yn 6 k − 1} = {X(k) 6 t}.
4. Soit t ∈ R, d’après ce qui précède on a :
k−1
X
FX(k) (t) = P(X(k) 6 t) = P(Y1 + ... + Yn 6 k − 1) = Cnj p j (1 − p)n−j
j=0
k−1
X
= Cnj e −jαt (1 − e −αt )n−j .
j=0

On fait la preuve du deuxième point (l’autre preuve est identique, à quelques aménagements
évidents prés, à celle utilisée dans la démonstration de la proposition 4.34, page 87). On a
ΦX (t) = exp[α(e it − 1)] et ΦY (t) = [β(e it − 1)]. Comme (X , Y ) indépendant, la fonction
caractéristique de X + Y est donnée pour tout t ∈ R par
ΦX +Y (t) = ΦX (t) × ΦY (t) = exp[(α + β)(e it − 1)]

Besançon
et ainsi ΦX +Y est la fonction caractéristique d’une loi de Poisson de paramètre α + β.

Pour ω ∈ Ω donné, le polynôme x 2 − 2A(ω)x + B(ω) admet :
1. deux racines réelles distinctes si, et seulement si, A2 (ω) − B(ω) > 0.
En utilisant le théorème de transfert, l’indépendance du couple de v.a.r. (A, B), le
théorème de Tonelli, ainsi que le passage de l’intégrale de Lebesgue à celle de Riemann,
il vient
P(A2 − B > 0) = E[1l]0,+∞[ (A2 − B)]
Z
= 1l]0,+∞[ (x 2 − y )dP(A,B) (x, y )
R2
Z Z
2
= 1l]0,+∞[ (x − y )1l[0,1] (x)1l[0,1] (y )dλ(y ) dλ(x)
R R
Z Z
2
= 1l[0,1] (x) 1l]0,+∞[ (x − y )1l[0,1] (y )dλ(y ) dλ(x)
R R
Z 1 Z x2 ! Z 1
1
= dy dx = x 2 dx = .
0 0 0 3
2. deux racines complexes et non réelles distinctes si, et seulement si, A2 (ω) − B(ω) < 0.
En menant le calcul de façon analogue au cas précédent, il vient
P(A2 − B < 0) = E[1l]−∞,0[ (A2 − B)]
Z
= 1l]−∞,0[ (x 2 − y )dP(A,B) (x, y )
2
ZR Z
2
= 1l]−∞,0[ (x − y )1l[0,1] (x)1l[0,1] (y )dλ(y ) dλ(x)
R R
Z Z
2
= 1l[0,1] (x) 1l]−∞,0[ (x − y )1l[0,1] (y )dλ(y ) dλ(x)
R R
Z 1 Z 1 Z 1
2
= dy dx = (1 − x 2 )dx = .
0 x2 0 3
3. une racine double si, et seulement si, A2 (ω) − B(ω) = 0.
En remarquant que {A2 − B = 0}c = {A2 − B > 0} ∪ {A2 − B < 0}, il vient
P(A2 − B = 0) = 1 − P(A2 − B < 0) − P(A2 − B > 0) = 0.
4. Déterminons la loi de la v.a.r. ∆ := A2 − B. Soit h une application borélienne positive

de R dans R.
Z Z
2 (2)
E[h(∆)] = h(x − y )dλ (x, y ) = h(x 2 − y )dλ(2) (x, y ).
[0,1]2 ]0,1[2
Par le changement de variable de classe C 1 y = t 2 − z et x = t l’ouvert ]0, 1[2 a pour

image réciproque l’ouvert
√
U := {(t, z) ∈ R2 / z ∈ [0, 1[, t ∈] z, 1[}
√
{(t, z) ∈ R2 / z ∈] − 1, 0[, t ∈]0, 1 + z[}.
S

Besançon
Par le théorème de changement de variable (cf. 4.4, page 64) puisque la valeur absolue
du jacobien est égale à 1, il vient
Z Z
2 (2)
h(x − y )dλ (x, y ) = h(z)dλ(2) (t, z).
]0,1[2 U
Par suite, en utilisant le théorème de Tonelli, et en remarquant que 1lU (t, z) =

1l[0,1[ (z)1l]√z,1[ (t) + 1l]−1,0[ (z)1l]0,√1+z[ (t),
E[h(∆)
Z = Z Z
= √ √
h(z) 1l]0,1[ (z) 1l] z,1[ (t)dλ(t) + 1l]−1,0[ (z) 1l]0, 1+z[ (t)dλ(t) dλ(z)
ZR R R
√ √
= h(z) 1l]0,1[ (z)(1 − z) + 1l]−1,0[ (z) 1 + z dλ(z).
R
La loi de ∆ est la mesure de probabilité sur R admettant la fonction

√ √
1l]0,1[ (z)(1 − z) + 1l]−1,0[ (z) 1 + z
pour densité par rapport à la mesure de Lebesgue. On retrouve les résultats des questions
précédentes en calculant
Z
P(∆ > 0) = 1l{∆>0} (ω)dP(ω)
Ω
√ √
Z
= 1l]0,+∞[ (z)(1l]0,1[ (z)(1 − z) + 1l]−1,0[ (z) 1 + z)dλ(z)
R
Z 1
√ 2 1
= 1 − zdz = 1 − = ,
0 3 3
Z
P(∆ < 0) = 1l{∆<0} (ω)dP(ω)
Ω
√ √
Z
= 1l]−∞,0[ (z)(1l]0,1[ (z)(1 − z) + 1l]−1,0[ (z) 1 + z)dλ(z)
R
0
√
Z 0
2 3/2 2
= 1 + zdz = (1 + z) = ,
−1 3 −1 3
P(∆ = 0) = 1 − P(∆ > 0) − P(∆ < 0) = 0.

1. La fonction f étant borélienne positive, on peut lui appliquer le théorème de Tonelli et
en se ramenant à des intégrales de Riemann on obtient
Z
2
P(X ,Y ) (R ) = f (x, y )dλ(2) (x, y )
R2
Z 1 Z +∞
= α 2
(1 − x )dx ye −3y dy
0 0
x 3 1 −1 −3y +∞

−1 −3y +∞ 2
= α[x − ]0 [ ye ]0 + [ e ]0 =α .
3 3 9 27
Besançon
Comme P(X ,Y ) est une mesure de probabilité sur R2 , on a P(X ,Y ) (R2 ) = 1 d’où on déduit
α = 27
2
.
2. En utilisant le résultat de l’exercice I-9, on sait que X et Y admettent des densités fX et
fY déterminées par :
Z
1 3
fX (x) := f (x, y )dλ(y ) = α(1 − x 2 )1l[0,1] (x) = (1 − x 2 )1l[0,1] (x)
9 2
ZR
fY (y ) := f (x, y )dλ(x) = 9ye −3y 1l[0,+∞[ (y ).
R
3. La relation ensembliste {0 < X ≤ 2} ∩ {Y ≥ 1} = {(X , Y ) ∈]0, 2] × [1, +∞[} permet

d’écrire
P(0 < X ≤ 2, Y ≥ 1) = P((X , Y ) ∈]0, 2] × [1, +∞[)

= P(X ,Y ) (]0, 2] × [1, +∞[)
Z
= f (x, y )dλ(2) (x, y )
]0,2]×[1,+∞[
x 3 1 −1 −3y +∞

−1 −3y +∞
= α[x − ]0 [ ye ]1 + [ e ]1
3 3 9
1 1
= 9( e −3 + e −3 ) = 4e −3 .
3 9
4. Il s’agit de calculer Var(X ), Var(Y ) et Cov(X , Y ).
Z Z 1
3 3
E[X ] = xfX (x)dλ(x) = (x − x 3 )dx =
R 0 2 8
Z Z 1
3 2 1
E[X 2 ] = x 2 fX (x)dλ(x) = (x − x 4 )dx =
2 5
ZR Z 0+∞
2
E[Y ] = y fY (y )dλ(y ) = 9y 2 e −3y dy =
3
ZR Z0 +∞
2
E[Y 2 ] = y 2 fY (y )dλ(y ) = 9y 3 e −3y dy = .
R 0 3
Par suite
19
Var(X ) = E[X 2 ] − (E[X ])2 =
320
2
Var(Y ) = E[Y 2 ] − (E[Y ])2 =
9
Cov(X , Y ) = E[X Y ] − E[X ]E[Y ] = 0
où la dernière égalité est une conséquence directe du théorème de Fubini en remarquant

que xy f (x, y ) = (xfX (x))(y fY (y )) et par suite que E[X Y ] = E[X ]E[Y ]. La matrice de
dispersion est alors donnée par :
 11 
64
0
D= .
2
0 9

Besançon

Sans restreindre la généralité, on peut supposer que n 6 m. On a
{X = Y } = ∪nk=0 [{X = k} ∩ {Y = k}]
et la réunion est formée de sous-ensemble de Ω deux à deux disjoints. On a alors

n
X
P(X = Y ) = P {X = k} ∩ {Y = k}
k=0
n
X
= P(X = k) × P(Y = k) par indépendance de X et Y
k=0
n n m
X 1 1
= Cnk k
Cm
k=0
2 2
n+m X n
! n
!
n+m
1 k k 1 X
= Cn Cm = Cnk Cmm−k
2 k=0
2 k=0
1
et en utilisant l’indication de l’énoncé, on obtient P(X = Y ) = Cm .
2n+m n+m

1. Cette relation est obtenue par (r − 1) dérivations successives à partir de la somme de la
X 1
série entière xk = .
k∈N
1−x
2. τr est une v.a.r. à valeurs dans N ∪ {+∞}. En effet, a priori il se peut très bien qu’on
ait un ω tel que {n ∈ N∗ /X1 (ω) + X2 (ω) + ... + Xn (ω) = r } soit vide, dans ce cas par
convention, τr (ω) := +∞.
On sait alors que la loi de τr sera de la forme
X
P τr = P{τr = k}δk + P(τr = +∞)δ+∞
k≥0
Fixons un entier k ∈ N et considérons l’événement {τr = k}.

Si k < r , {τr = k} = Ø, et si k ≥ r , on peut écrire,
Xk−1
{τr = k} = { Xi = r − 1} ∩ {Xk = 1}.
i=1
De plus en vertu de l’indépendance de la suite de v.a.r. (Xi )N ,
Xk−1
P{τr = k} = P({ Xi = r − 1} ∩ {Xk = 1})
i=1
k−1
X
= P({ Xi = r − 1})P({Xk = 1}).
i=1

Besançon
La variable aléatoire réelle k−1

P
i=1 Xi est la somme de (k − 1) v.a. de Bernoulli indépen-
dantes et de paramètre p, elle suit donc la loi binomiale B(k − 1, p). On trouve alors, en
posant pour simplifier les écritures q := 1 − p :
r −1 r −1 (k−1)−(r −1) r −1 r k−r
P{τr = k} = Ck−1 p q p = Ck−1 pq
Remarquons que
+∞
X X
r −1 r k−r 1
P{τr = k} = Ck−1 pq = pr = 1
k=0 k≥r
(1 − q)r
où la dernière égalité a été obtenue par application de la relation de la première question.

Ce qui donne la loi cherchée pour la variable aléatoire réelle τr car P(τr = +∞) = 0. Il
suffit de remarquer pour cela que P(τr = +∞) = 1 − P{τr ∈ N}, et
+∞
X
P{τr ∈ N} = P{τr = k} = 1.
k=0
Il vient alors que P{τr = +∞} = 0. On dit que τr est presque-sûrement finie.
3. Remarquons d’abord que θr = τr − r ≥ 0. Cela prouve que θr est une v.a. à valeurs
N ∪ {+∞}, qu’elle est presque-sûrement finie et que sa loi est donnée par
X
Pθr = P{θr = k}δk
k≥0
où
r −1 r k
P{θr = k} = P{τr = k + r } = Ck+r −1 p q ,
ce qui donne le résultat cherché.
4. Interprétons ce qui précède de la façon suivante : Appelons jeu de Pile-ou-Face

l’expérience aléatoire qui consiste à lancer, une infinité de fois, la même pièce de monnaie
truquée. On note p la probabilité d’avoir "Face" (ou "succès") et q = 1 − p la probabilité
d’avoir "Pile" (ou "échec").
La suite des v.a.r. (Xk )N représente les valeurs successives obtenues dans un jeu de
Pile-ou-Face, en notant Xk = 1 quand on a obtenu "Face" lors du k i ème -lancer et par
conséquent Xk = 0 quand on a obtenu "Pile" lors du k i ème -lancer.
La v.a.r. X1 + X2 + ... + Xn représente alors le nombre de "succès" en n lancers dans ce
jeu.
La v.a.r. τr représente le rang d’arrivée (ou encore temps d’attente) du r i ème -"succès" et
la v.a.r. θr représente le nombre d’"échecs" avant le r i ème -"succès" dans une infinité de
lancers d’une pièce de monnaie.
Si on prend r = 1, la variable aléatoire réelle τ1 est le temps d’attente du premier "succès"
dans une infinité de lancers d’une pièce de monnaie, c’est-à-dire une variable aléatoire
réelle géométrique de paramètre p. Une variable aléatoire réelle géométrique de paramètre
p est une variable aléatoire réelle de Pascal de paramètres r = 1 et p.

Besançon
5. Soit (Ω, F, P) un espace probabilisé. Notons Ak l’événement "le fumeur se rendant

compte pour la première fois qu’une boîte est vide, l’autre boîte contient k allumettes",
Gk l’événement "le fumeur se rendant compte pour la première fois que la boîte Gauche
est vide, la boîte droite contient k allumettes", Dk l’événement "le fumeur se rendant
compte pour la première fois que la boîte Droite est vide, la boîte gauche contient k
allumettes". Nous avons la réunion disjointe Ak = Gk ∪ Dk et, pour des raisons de
symétrie, P(Dk ) = P(Gk ) d’où P(Ak ) = 2P(Gk ).
Notons Xn la variable aléatoire réelle définie, pour tout ω ∈ Ω, par Xn (ω) = 0 si, au
ni ème -coup, on cherche l’allumette dans la poche droite et Xn (ω) = 1 si, au ni ème -coup,
on cherche l’allumette dans la poche gauche. On suppose l’équiprobabilité de tirer dans
la poche gauche ou dans celle de droite, ce que l’on exprime en disant que la variable
aléatoire réelle Xn suit une loi de Bernoulli de paramètre 21 . La variable aléatoire réelle
Sn := X1 + X2 + ... + Xn représente le nombre de fois où le fumeur a puisé dans sa poche
gauche. On considérera que le fumeur s’apercevra que la boîte gauche est vide lorsqu’il
cherchera une allumette dans cette poche pour la (N + 1)i ème-fois. Cela signifie que
l’événement Gk est réalisé lorsqu’on extrait N − k allumettes de la boîte droite avant la
(N + 1)i ème-fois où on puise dans la poche gauche. Par suite avec les notations de la
question 2, Gk = {θN+1 = N − k}. Il vient alors
1 1
P(Ak ) = 2P(Gk ) = 2CN2N−k ( )2N−k+1 = CN2N−k ( )2N−k .
2 2
1. Considérons sur l’espace mesuré (Ω × R+ , F ⊗ B(R+ ), P ⊗ λ), où λ est la mesure de
Lebesgue, la fonction à valeurs réelles définie par H(ω, t) := nt n−1 1l]t,+∞[ (X (ω)). H est
positive et ( F ⊗ B(R+ ), B(R))-mesurable, on peut appliquer le théorème de Tonelli,
Z Z Z
n−1
Hd(P ⊗ λ) = nt 1l[0,X (ω)[ (t)dλ(t) dP(ω)
Ω×R+ Ω R+
Z
= (X (ω))n dP(ω)
ZΩ
= X n dP = E[X n ]
Ω
et
Z Z Z
n−1
Hd(P ⊗ λ) = nt 1l{X >t} (ω)dP(ω) dλ(t)
Ω×R+ R+ Ω
Z
= nt n−1 P(X > t)dλ(t).
R+
Comme l’application t 7→ P(X > t) est monotone, son ensemble des points de
discontinuités est dénombrable donc de mesure de Lebesgue nulle. Par suite l’application
t 7→ nt n−1 P(X > t) est intégrable au sens de Riemann sur tout compact de R+ (cf [2]
proposition 0-6 p.9). On obtient le résultat en remarquant que P(X > t) = 1 − FX (t).
1
2. Considérons maintenant une v.a. dont la loi est donnée par PX := (δ−1 + δ1 ). Sa
2
1
fonction de répartition est FX (t) = (1l[−1,+∞[ (t) + 1l[1,+∞[ (t)) et
2
Z +∞
1 1 n−1
Z
n−1 1
nt (1 − F (t))dt = nt dt =
0 2 0 2
Besançon
alors que E[X n ] = 12 ((−1)n + 1). La formule n’est vérifiée pour aucune valeur de n ≥ 1.
La condition X positive est bien nécessaire. On peut évidement calculer les espérances
E[|X |n ] par la formule démontrée ici mais en prenant la fonction de répartition de |X |.
3. Comme les trois variables sont positives presque-sûrement, on peut utiliser la relation
de la question 1) avec n = 1 pour l’espérance et n = 2 pour E[X 2 ], puis on calcule
σX2 = E[X 2 ] − (E[X ])2 .
(a) Pour la variable X on obtient :
Z +∞ Z 1 Z +∞
1
E[X ] = (1 − FX (t))dt = (1 − t)dt + 0dt =
0 0 1 2
Z +∞ Z 1
2 1
E[X 2 ] = 2t(1 − FX (t))dt = 2t(1 − t)dt = [t 2 − t 3 ]10 =
0 0 3 3
1 1 1
σX2 = E[X 2 ] − (E[X ])2 = − = .
3 4 12
(b) Pour la variable Y on obtient :
Z +∞ Z +∞
1
E[Y ] = (1 − FY (t))dt = e −λt dt =
λ
Z0 +∞ 0
Z +∞
E[Y 2 ] = 2t(1 − FY (t))dt = 2te −λt dt
0 0
−λt +∞ Z +∞

2te 2 −λt 2
= − + e dt = 2
λ 0 0 λ λ
2 1 1
σY2 = E[Y 2 ] − (E[Y ])2 = 2 − 2 = 2 .
λ λ λ
+∞
X λk
(c) On a 1 − FZ (t) = e −λ
1l]−∞,k[ (t). Comme 1 − FZ (t) est la somme d’une série
k=0
k!
R P
de fonctions positives mesurables, on peut intervertir et .
+∞ +∞ Z k
λk
Z X
E[Z ] = (1 − FZ (t))dt = e −λ dt
0 k=0 0 k!
+∞
X λk
= e −λ =λ
k=1
(k − 1)!
+∞ +∞ Z k k +∞
λk
Z
−λ λ
X X
2
E[Z ] = 2t(1 − FX (t))dt = e 2tdt = e −λ k
0 k=0 0
k! k=1
(k − 1)!
+∞ +∞
X λk−2 X λk−1
= λe −λ [λ ] + ] = λ2 + λ
k=2
(k − 2)! k=1 (k − 1)!
σZ2 = E[Z ] − (E[Z ])2 = λ.
2

Pour tout entier k ≥ 1 on a {T = k} = {Xk = 1} ∩ k−1
T
i=1 {Xi = 0} ∈ F et

Besançon
∗
{T = +∞} = +∞
T
i=1 {Xi = 0} ∈ F. T est bien une variable aléatoire à valeurs dans N .
Calculons la loi de T . Pour k ≥ 1 on a, en utilisant l’indépendance des variables (X1 , ..., Xk ),
k−1
\
P(T = k) = P({Xk = 1} ∩ {Xi = 0})
i=1
= P(Xk = 1)P(X1 = 0) · · · P(Xk−1 = 0) = p(1 − p)k−1 .
P+∞ P+∞ k−1
Comme P(T < +∞) = k=1 P(T = k) = k=1 p(1 − p) = 1, on en déduit que
+∞
P(T = +∞) = 0 c-à-d que T est finie p.s. . PT = k=1 p(1 − p)k−1 δk est la loi géométrique
P
G(p).
Calculons maintenant l’espérance de T . Il vient en utilisant le théorème du transfert
Z +∞
X Z +∞
X
k−1
E[T ] = tdPT (t) = p(1 − p) tdδk (t) = p(1 − p)k−1 k.
R k=1 R k=1
P+∞ k
On reconnaît
P+∞ k la dérivée terme à terme de la série k=1 px calculée pour x = p − 1. De plus
1 1
k=1 x = 1−x
et sa dérivée est (1−x)2
. En conclusion E[T ] = p1 .

1. On a \[ \
lim sup(pk N∗ ) = pn N∗ ⊆ [pk , +∞[= Ø,
k
k n≥k k
∗
donc P(lim sup(pk N )) = 0.
k
2. Montrons que la suite (pk N∗ )k∈N∗ est indépendante. Soit {pk1 , ..., pkn } des entiers
premiers, comme pk1 N∗ ∩ ... ∩ pkn N∗ = (pk1 ...pkn )N∗ , il vient
P(pk1 N∗ ∩ ... ∩ pkn N∗ ) = P ((pk1 ...pkn )N∗ )

1
=
pk1 ...pkn
= P(pk1 N∗ )...P(pkn N∗ ).
Ce qui prouve l’indépendance de la suite (pk N∗ )k∈N∗ . D’après un résultat d’arithmétique

+∞
X 1
la série = +∞, et comme les pk N∗ sont indépendants par rapport à P, en appli-
k=1
pk
quant le théorème de Borel-Cantelli on déduit que P(lim sup(pk N∗ )) = 1. La contradiction
k
prouve que la probabilité P n’existe pas.

1. Considérons la famille de toutes les sous-tribus A de F telles que, pour tout i ∈ I , Xi
est A-mesurable. Cette famille est non vide car elle contient la tribu F. On vérifie alors
que σ(Xi , i ∈ I ) est l’intersection de toutes les tribus composant cette famille.
2. Un élément de C est donc de la forme
{Xi1 ∈ B1 } ∩ {Xi2 ∈ B2 } ∩ ... ∩ {Xin ∈ Bn }

Besançon
où n ∈ N∗ , i1 , i2 , ..., in ∈ I sont distincts deux à deux et B1 , B2 , ..., Bn ∈ B(R).

Comme, pour tout k ∈ I , Xk est σ(Xi , i ∈ I )-mesurable, {Xk ∈ B} ∈ σ(Xi , i ∈ I ) pour
tout borélien B. Par suite la famille C est incluse dans la tribu σ(Xi , i ∈ I ). Il en est de
même pour la tribu engendrée par C.
Réciproquement, pour tous k ∈ I et borélien B de R, {Xk ∈ B} ∈ C. Donc, pour tout
k ∈ I , l’application Xk est mesurable par rapport à la tribu engendrée par C. Par suite
la tribu engendrée par C contient la tribu σ(Xi , i ∈ I ) qui est la plus petite à posséder
cette propriété.
3. Notons C J (resp. C K ) la famille définie comme dans la question précédente et engendrant
la tribu σ(Xi , i ∈ J) (resp. σ(Xi , i ∈ K )).
Comme les familles C J et C K sont stables par intersections finies, pour montrer
l’indépendance des tribus σ(Xi , i ∈ J) et σ(Xi , i ∈ K ), il suffit de montrer que, pour
tous C ∈ C J et D ∈ C K , on a P(C ∩ D) = P(C )P(D).
C ∈ C J est donc de la forme {Xj1 ∈ A1 } ∩ {Xj2 ∈ A2 } ∩ ... ∩ {Xjn ∈ An } où n ∈ N∗ ,
j1 , j2 , ..., jn ∈ J sont distincts deux à deux et A1 , A2 , ..., An ∈ B(R), et, de même, D ∈ C K
est de la forme {Xk1 ∈ B1 }∩{Xk2 ∈ B2 }∩...∩{Xkm ∈ Bm } où m ∈ N∗ , k1 , k2 , ..., km ∈ K
sont distincts deux à deux et B1 , B2 , ..., Bm ∈ B(R).
Par suite, en vertu de l’indépendance des v.a.r. (Xi )I , il vient
P(C ∩ D) =
= P ({Xj1 ∈ A1 } ∩ ... ∩ {Xjn ∈ An } ∩ {Xk1 ∈ B1 } ∩ ... ∩ {Xkm ∈ Bm })
= P(Xj1 ∈ A1 )...P(Xjn ∈ An )P(Xk1 ∈ B1 )...P(Xkm ∈ Bm )
= P ({Xj1 ∈ A1 } ∩ ... ∩ {Xjn ∈ An }) P ({Xk1 ∈ B1 } ∩ ... ∩ {Xkm ∈ Bm })
= P(C )P(D).
D’où la relation cherchée.

Nous utiliserons le fait que la fonction caractéristique d’une somme finie de variables aléatoires
indépendantes est égale au produit des fonctions caractéristiques des variables aléatoires de la
somme (Pour obtenir les fonctions caractéristiques des lois classiques on pourra se reporter au
formulaire de l’annexe A, page 205).
1. Comme les fonctions caractéristiques de X1 et X2 sont données par ΦX1 (t) = (1 − itα)−a
et ΦX2 (t) = (1 − itα)−b , on a ΦY (t) = (1 − itα)−(a+b) et Y est une v.a.r. de loi gamma
γ(a + b, α).
2. On sait que, pour tout k = 1, 2, · · · , n, ΦXk (t) = (1 − itα)−1 , on a donc ΦZ (t) =
(1 − itα)−n et Z est une v.a.r. de loi gamma γ(n, α).

Par définition
" +∞ #
h PY i X Pn
itZ it j=1 Xj it j=1 Xj
ΦZ (t) = E[e ]=E e =E e 1l(Y =n) .
n=1
k
X Pn
Or la suite de v.a.r. ( e it j=1 Xj 1l(Y =n) )k≥1 est bornée en module par 1, une seule des
n=1
indicatrices 1l(Y =n) est éventuellement non nulle. On obtient donc en utilisant le théorème
Besançon
de convergence dominée puis l’indépendance des v.a.r.

+∞
X h Pn i X+∞ n
Y
it j=1 Xj
ΦZ (t) = E e 1l(Y =n) = E[1l(Y =n) ] E[e itXj ]
n=1 n=1 j=1
+∞
X
= P(Y = n)(Φ(t))n = ψ ◦ Φ(t).
n=1
L’application ψ qui est aussi définie par ψ(t) = E[t Y ] est appelée fonction génératrice de
la variable discrète Y .
D est une v.a.r. à valeurs Z et M à valeurs N∗ . De plus, les v.a.r. étant discrètes, le couple
(D, M) est indépendant si, et seulement si, pour tout (i, j) ∈ Z × N∗ , P({D = i} ∩ {M =
j}) = P(D = i)P(M = j).
1. Supposons que X et Y suivent la loi géométrique de paramètre p ∈]0, 1[.
On vérifie aisément que, pour j ∈ N∗ fixé,

{X = i + j} ∩ {Y = j} si i ≥ 0,
{D = i} ∩ {M = j} =
{X = j} ∩ {Y = j − i} si i < 0.
Par suite en vertu de l’indépendance du couple (X , Y ) il vient
si i ≥ 0, P({D = i} ∩ {M = j}) = P({X = i + j} ∩ {Y = j})
= P(X = i + j)P(Y = j) = p 2 q i+j−1 q j−1 = p 2 q i+2j−2
si i < 0, P({D = i} ∩ {M = j}) = P({X = j} ∩ {Y = j − i})

= P(X = j)P(Y = j − i) = p 2 q j−i−1 q j−1 = p 2 q 2j−i−2
p2
On peut rassembler ces deux écritures sous la forme P({D = i} ∩ {M = j}) = 2 q 2j+|i| .
[ q
Calculons, pour tout i ∈ Z fixé, P(D = i). Comme {D = i} = ({D = i} ∩ {M = j})
j∈N∗
où l’union est mutuellement disjointe et par un calcul simple de somme de séries
géométriques, il vient
X
P(D = i) = P ({D = i} ∩ {M = j})
j∈N∗
X p2 p2
= 2
q 2j+|i|
= 2
q |i| .
j∈N∗
q 1 − q
∗
[ j ∈ N fixé, P(M = j). De la même façon que
Calculons maintenant, pour tout
précédemment {M = j} = ({D = i} ∩ {M = j}) où l’union est mutuellement
i∈Z
disjointe. Par un calcul simple de somme de séries géométriques, il vient
X
P(M = j) = P ({D = i} ∩ {M = j})
i∈Z
X p2 p 2j
= q 2j+|i| = q (q + 1).
i∈Z
q2 q2

Besançon
Comparant les trois valeurs trouvées, on vérifie aisément que P({D = i} ∩ {M = j}) =
P(D = i)P(M = j), ce qui prouve l’indépendance du couple (D, M).
2. Réciproquement, supposons les v.a.r. D et M indépendantes. Soit n ∈ N∗ , fixé. Par
l’indépendance du couple (X , Y ), il vient
P ((X = n + 1) ∩ (Y = n)) P(X = n + 1)P(Y = n) P(X = n + 1)
= = ,
P ((X = n) ∩ (Y = n)) P(Y = n)P(X = n) P(X = n)
ce qui donne la première égalité.
De plus (X = n + 1) ∩ (Y = n) = (D = 1) ∩ (M = n) et (X = n) ∩ (Y = n) = (D =
0) ∩ (M = n). Par l’indépendance du couple (M, D), il vient
P ((X = n + 1) ∩ (Y = n)) P(D = 1)P(M = n) P(D = 1)
== =
P ((X = n) ∩ (Y = n)) P(D = 0)P(M = n) P(D = 0)
d’où la deuxième égalité.
On remarque que le rapport ne dépend pas de l’entier n. Soit α sa valeur. On a la relation
de récurrence, pour tout n ∈ N∗ , P(X = n + 1) = αP(X = n).
Par suite, pour tout n ∈ N∗ , P(X = n) = αn−1 P(X = 1). De la relation k≥1 P(X =
P
X 1
k) = 1 on déduit que αk−1 P(X = 1) = P(X = 1) = 1, et par suite que
k≥1
1 − α
P(X = 1) = 1 − α. X
La loi de X et Y s’écrit alors : PX = PY = αk−1 (1 − α)δk . Les v.a.r. X et Y suivent
k≥1
donc la loi géométrique de paramètre 1 − α.

La probabilité que les variables aléatoires X et Y prennent leurs valeurs dans le complémentaire
de l’intervalle ]0, α[ est nulle. On peut donc considérer, dans la suite, que les variables X et Y
sont à valeurs dans l’intervalle ]0, α[.
Par ailleurs, en vertu de l’indépendance du couple (X , Y ), le vecteur aléatoire (X , Y ) de dimen-
1
sion 2 admet pour densité ρ la fonction définie sur R2 par : pour tout (x, y ) ∈ R2 , ρ(x, y ) = 2
α
si (x, y ) ∈]0, α[2 , et ρ(x, y ) = 0 si (x, y ) ∈]0,
/ α[2 . C’est-à-dire que la vecteur aléatoire (X , Y )
de dimension 2 suit la loi uniforme de dimension 2 sur ]0, α[2 .
a(∆∩]0, α[2 )
En conséquence, pour tout borélien A de R2 , P[(X , Y ) ∈ ∆] = , où a(∆∩]0, α[2 )
α2
désigne la mesure de l’aire de l’intersection du borélien ∆ avec le carré ouvert ]0, α[2 .
Pour déterminer les lois des variables Z et T , nous pouvons étudier leurs fonctions de réparti-
tion, que nous noterons respectivement F et G .
Loi de Z .
Remarquons que la variable Z peut aussi s’écrire Z = max(X , Y ) − min(X , Y ) = |X − Y |.
C’est une variable aléatoire positive qui prend ses valeurs dans l’intervalle [0, α].
Étudions la fonction de répartition F de Z . Soit z réel fixé. Cela revient à étudier la probabilité
F (z) = P(Z ≤ z) de l’événement {Z ≤ z}.
Si z < 0, comme Z est positive, l’événement {Z ≤ z} = Ø (événement impossible). Par
suite F (z) = 0.
Besançon
Si z ≥ α, comme Z prend ses valeurs dans [0, α], l’événement {Z ≤ z} = Ω (événement

certain). Par suite F (z) = 1.
Il reste à étudier le cas 0 ≤ z < α. Supposons 0 ≤ z < α fixé. On peut écrire
{Z ≤ z} = {(X , Y ) ∈ ∆∩]0, α[2 } où ∆ = {(x, y ) ∈ R2 / |x − y | ≤ z} désigne la
bande définie par les points de R2 contenus entre les deux droites d’équations respectives
y = x + z et y = x − z dans un système d’axes orthonormé. Un raisonnement
géométrique élémentaire montre que la mesure de l’aire de l’intersection ∆∩]0, α[2 est :
a ∆∩]0, α[2 = α2 − (α − z)2 .
En conséquence, d’après la remarque préliminaire sur la loi du couple (X , Y ),
α2 − (α − z)2 z 2
F (z) = P(Z ≤ z) = P (X , Y ) ∈ ∆∩]0, α[2 =

= 1 − 1 − .
α2 α
En résumé, la fonction de répartition de la variable aléatoire Z est donnée, pour tout réel
z, par :

 0 si z < 0,
z
2
F (z) = 1− 1− α si 0 ≤ z < α,
1 si z ≥ α.

Comme la fonction de répartition est de classe C 1 sur les trois intervalles ] − ∞, 0[, ]0, α[
et ]α, +∞[, une densité f vérifiera l’équation F 0 = f sur chacun de ces intervalles. Les
valeurs de f aux bornes, f (0) et f (α), peuvent être choisies arbitrairement (on rappelle
qu’une densité n’est définie que presque-partout pour la mesure de Lebesgue).
En conclusion, la variable aléatoire Z admet pour densité, la fonction f définie pour tout
réel z, par :
(
0 si z < 0 ou si z > α,
f (z) = 2 z
1− si 0 ≤ z ≤ α,
α α
Loi de T
Remarquons que la variable T est une variable aléatoire positive qui prend ses valeurs dans
l’intervalle [0, 1].
Étudions la fonction de répartition G de T . Soit z réel fixé. Cela revient à étudier la probabilité
G (z) = P(T ≤ z) de l’événement {T ≤ z}.
Si z < 0, comme T est positive, l’événement {T ≤ z} = Ø (événement impossible). Par
suite G (z) = 0.
Si z ≥ 1, comme T prend ses valeurs dans [0, 1], l’événement {T ≤ z} = Ω (événement
certain). Par suite G (z) = 1.
Il reste à étudier le cas 0 ≤ z < 1. Supposons 0 ≤ z < 1 fixé. On peut
écrire
{T ≤ z} = {(X , Y ) ∈ ∆0 ∩]0, α[2 } où ∆0 = ∆1 ∪ ∆2 avec ∆1 =
x n y o
(x, y ) ∈ R2 / 0 < x < y et ≤ z et ∆2 = (x, y ) ∈ R2 / 0 < y < x et ≤z .
y x
∆0 est le complémentaire (dans ]0, +∞[2 ) du secteur angulaire défini par les points de
x
]0, +∞[2 contenus entre les deux droites d’équations respectives y = et y = zx dans
z
un système d’axes orthonormé. Un raisonnement géométrique élémentaire montre que la
0 0 2 2
2

mesure de l’aire de l’intersection ∆ ∩]0, α[ est : a ∆ ∩]0, α[ = zα .
Besançon
En conséquence, d’après la remarque préliminaire sur la loi du couple (X , Y ),
zα2
G (z) = P(T ≤ z) = P (X , Y ) ∈ ∆0 ∩]0, α[2 = 2 = z.

α
En résumé, la fonction de répartition de la variable aléatoire T est donnée, pour tout réel
z, par : 
 0 si z < 0,
G (z) = z si 0 ≤ z < 1,
1 si z ≥ 1.

On reconnaît la fonction de répartition de la loi uniforme sur l’intervalle [0, 1]. La variable
aléatoire T suit donc la loi uniforme sur l’intervalle [0, 1].
8.5 Corrigés des exercices du chapitre V

Le vecteur aléatoire X est l’image du vecteur U par l’application linéaire A dont la matrice
[ai,j ]1≤i,j≤n dans la base canonique de Rn a pour coefficients
ai,i = 1 pour i = 1, · · · , n,
aj+1,j = θ pour j = 1, · · · , n − 1,
ai,j = 0 dans les autres cas.
Par suite toute combinaison linéaire des variables aléatoires X1 , X2 , · · · , Xn est une combinaison
linéaire des variables aléatoires U1 , U2 , · · · , Un . Comme (U1 , U2 , · · · , Un ) est une suite indépen-
dante de variable aléatoire réelle gaussiennes, le vecteur U est gaussien. Par suite toute com-
binaison linéaire des variables aléatoires U1 , U2 , · · · , Un est une variable aléatoire gaussienne.
Il en est donc de même de toute combinaison linéaire des variables aléatoires X1 , X2 , · · · , Xn .
Ce qui prouve, par définition des vecteurs gaussiens, que le vecteur X = AU est lui-même un
vecteur gaussien.

1. Déterminons la loi de X par le critère d’identification des lois par les fonctions positives.
Soit h une application borélienne positive de Rd dans [0, +∞[. Reprenons les notations
du corrigé 8.5, page 183, de l’exercice 5.1, page 97. Par application du théorème du
transfert au vecteur U, par indépendance de la suite (U1 , U2 , · · · , Un ) en notant f (t) la
densité de N 1 (0, σ 2 ) et x = (x1 , x2 , · · · , xn ), il vient
Z
E(h(X )) = E(h(AU)) = h(Ax)dPU (x)
Z Rn
= h(Ax)f (x1 )f (x2 ) · · · f (xn )dλ(n) (x).

Rn
Faisons le changement de variable à l’aide du C 1 -difféomorphisme A i.e. y := Ax, pour

tout x ∈ Rn . L’application réciproque est définie, pour tout entier 1 ≤ k ≤ n, par
Besançon
Pk−1
xk = j
j=0 (−θ) yk−j et son jacobien en un point y est det(A−1 ) = 1. On obtient
Z n−1
!
X
E(h(X )) = h(y )f (y1 )f (y2 − θy1 ) · · · f (−θ)j yn−j dλ(n) (y )
Rn j=0
 !2 
Z n n k−1
1 1 X X
= h(y ) √ exp − 2
 (−θ)j yk−j  dλ(n) (y ).
Rn 2π 2σ k=1 j=0
Ce qui prouve que X est un vecteur aléatoire de densité définie, pour tout
x = (x1 , x2 , · · · , xn ) ∈ Rn , par
 !2 
n n k−1
1 1 X X
fX (x) = √ exp − 2
 (−θ)j xk−j .
2π 2σ k=1 j=0
2. L’espérance de X est E[X ] = E[AU] = AE[U] = 0 (vecteur nul de Rn ).

La matrice de dispersion de X est donnée par
DX := E(X X ∗ ) = E(AU(AU)∗ ) = ADU A∗ = σ 2 AA∗
car DU = σ 2 In , où In désigne la matrice-identité d’ordre n. On peut calculer DX en

effectuant le produit matriciel AA∗ . On trouve que DX = [di,j ]1≤i,j≤n où
d1,1 = σ 2
di,i = σ 2 (θ2 + 1) pour i = 2, · · · , n,
dj+1,j = dj,j+1 = θσ 2 pour j = 1, · · · , n − 1,
di,j = 0 dans les autres cas.

1. On remarque que E[X Xa ] = E[X 2 1l{|X |≤a} ] − E[X 2 1l{|X |>a} ]. Le théorème du transfert
permet d’écrire
Z a Z +∞
1 2 − 21 x 2 2 1 2
2
E[X 1l{|X |≤a} ] = √ x e 2
dx, E[X 1l{|X |>a} ] = √ x 2 e − 2 x dx.
2π −a 2π a
E[X Xa ] est donc égale à la différence de deux fonctions de la variable a réelle positive,
continues sur R+ , dont la première est strictement croissante de 0 à E[X 2 ] = 1 et la
seconde strictement décroissante de E[X 2 ] = 1 à 0. Il existe donc une unique valeur de
a0 pour laquelle E[X Xa0 ] = 0 c’est-à-dire (X , Xa0 ) est non-corrélé.
2. Comme, pour tout réel a > 0, X + Xa = 2X 1l{|X |≤a} n’est pas une v.a.r. gaussienne car
X + Xa est une variable aléatoire bornée par 2a, le vecteur (X , Xa ) n’est gaussien pour
aucune valeur de a.
3. Si le couple (X , Xa ) était indépendant, le vecteur (X , Xa ) serait gaussien car ses com-
posantes seraient des v.a.r. gaussiennes indépendantes. D’après la question précédente, il
y aurait contradiction. Pour tout réel a > 0, le couple (X , Xa ) n’est donc pas indépendant.

Besançon

Si on considère X comme un vecteur colonne, alors le vecteur aléatoire Y := AX suit une loi
gaussienne N 3 (A0, AΓ A∗ ) = N 3 (0, AΓ A∗ ). Comme Y est un vecteur gaussien il suffit, pour
que ses composantes soient indépendantes, que la matrice AΓ A∗ soit diagonale. Si de plus on
veut que les composantes de AX soient non-dégénérées, alors il faut que la matrice AΓ A∗ soit
inversible. Comme Γ est réelle symétrique, elle est diagonalisable dans R et il existe une matrice
orthogonale U telle que la matrice ∆ := U −1 Γ U soit diagonale. Les valeurs propres de Γ sont
2 et 4. La matrice ∆ est donc inversible ainsi que la matrice Γ . Les vecteurs e1 := √12 (1, 1, 0) et
e2 := (0, 0, 1) sont des vecteurs propres linéairement-indépendants associés à la valeur propre
double 2 et e3 := √12 (1, −1, 0) est un vecteur propre associé à la valeur propre 4. La base de
vecteurs propres (e1 , e2 , e3 ) est orthonormée et la matrice
 √ √ 
1/√2 0 1/ √2
U :=  1/ 2 0 −1/ 2 
0 1 0
est orthogonale. Posons A = U ∗ = U −1 . On vérifie que la matrice A ainsi définie répond à la
question posée.

Avec les notations du cours concernant les opérations matricielles, l’espérance de U est donnée
par A0 = 0 et sa matrice de dispersion est donnée par AI A∗ = AA∗ = I . En effet A est une
matrice orthogonale donc A∗ = A−1 . L’image du vecteur gaussien X par l’endomorphisme de
R2 de matrice A dans la base canonique de R2 est encore un vecteur gaussien. Par suite la loi
de U est N 2 (0, I ).

1. Comme P(X ,Y ) est une probabilité sur R2 , α doit être tel que P(X ,Y ) (R2 ) = 1. Le théorème
de Tonelli permet d’écrire
Z
1 2 2
2
P(X ,Y ) (R ) = α e − 2 (x −xy +y ) dλ(2) (x, y )
2
ZR Z
y 2
− 83 y 2 1
= α e e − 2 (x− 2 ) dλ(1) (x)dλ(1) (y )
ZR ZR
3 2 1 2
= α e− 8 y e − 2 x dλ(1) (x)dλ(1) (y )
ZR √
R
√ Z − 3 y 2 (1)
− 83 y 2 (1) 4π
= α e 2πdλ (y ) = α 2π e 8 dλ (y ) = α √ .
R R 3
R − (x−m)2 (1) √
Où on
√
a utilisé la valeur de l’intégrale de Gauss R
e 2σ 2 dλ (x) = σ 2π. Par suite
3
α = 4π .
2. On rappelle que la loi N 2 (m, D) admet une densité par rapport à la mesure de Lebesgue
λ(2) si et seulement si la matrice D est inversible (cf cours). Dans ce cas la densité s’écrit,
pour tout t ∈ R2 ,

1 1 ∗ −1
p exp − (t − m) D (t − m) .
2π det(D) 2
Besançon
Le terme constant m∗ D −1 m, obtenu par t = 0 dans l’expression (t − m)∗ D −1 (t − m),

représente la norme du vecteur m relativement à la forme quadratique définie positive
définie par D −1 . Il est nul si et seulement si m = 0. Comme

2 2
1 −1/2 x
x − xy + y = x y ,
−1/2 1 y
on reconnaît en P(X ,Y ) la loi gaussienne N 2 (m, D) où m =0 puisqu’il n’y

a pas de terme

−1 1 −1/2 4/3 2/3
constant dans l’exponentielle et D = . Donc D :=
−1/2 1 2/3 4/3
est la matrice de dispersion du vecteur (X , Y ).
On en déduit que X et Y suivent la loi N 1 (0, 34 ) et, puisque D n’est pas diagonale, le
couple de variable aléatoire réelle (X , Y ) n’est pas indépendant.
On peut aussi déterminer directement Var(X ), Var(Y ) et Cov(X , Y ) par un calcul

d’intégrales à partir de la densité de la loi du couple (X , Y ).

Remarquons que X et −X ont la même loi. En effet l’étude des fonctions caractéristiques donne
1 2
Φ−X (t) = E[e −itX ] = ΦX (−t) = e − 2 t = ΦX (t) pour tout réel t.
1. La relation
h(Y ) = h(X )1l[0,π] (|X |) + h(−X )1l]π,+∞[ (|X |)
est facile à vérifier. Il suffit pour cela d’étudier séparément le cas où ω satisfait
|X (ω)| ∈ [0, π] et le cas où ω satisfait |X (ω)| ∈]π, +∞[. Pour observer que dans le
premier cas, h(Y (ω)) = h(X (ω)) et dans le second cas h(Y (ω)) = h(−X (ω)). La rela-
tion avec les indicatrices sert à résumer ces deux cas en une seule expression.
2. Soient h une application borélienne positive de R dans R, de la relation
h(Y ) = h(X )1l[0,π] (|X |) + h(−X )1l]π,+∞[ (|X |).
on obtient, en passant à l’espérance,
E[h(Y )] = E[h(X )1l[0,π] (|X |)] + E[h(−X )1l]π,+∞[ (|X |)].
En remarquant que X et −X ont la même loi et en utilisant le théorème du transfert, il

vient
E[h(−X )1l]π,+∞[ (|X |)] = E[h(X )1l]π,+∞[ (|X |)].
Ce qui, en reportant dans le deuxième membre de l’égalité précédente, donne E[h(Y )] =
E[h(X )], pour toute application borélienne positive de R dans R. Ce qui prouve que Y
suit la même loi que X c’est-à-dire N 1 (0, 1).
3. La variable aléatoire réelle X + Y = 2X 1l[0,π] (|X |) n’est pas une gaussienne car X + Y
est une variable aléatoire bornée par 2π. Le vecteur (X , Y ) n’est donc pas gaussien.

Besançon
4. Si le couple (X , Y ) était indépendant, le vecteur aléatoire (X , Y ) serait gaussien car ses

composantes seraient des variable aléatoire réelle gaussiennes indépendantes. D’après la
question précédente, il y aurait contradiction. En conclusion, le couple (X , Y ) n’est donc
pas indépendant.

1. Du fait de l’indépendance des variables aléatoires réelles X , Y et Z , la fonction carac-
téristique de U est égale au produit des fonctions caractéristiques de X , Y et Z . Cette
3 2
fonction caractéristiqueest donc donnée, pour tout t ∈ R, par ΦU (t) = e − 2 t et par suite
U a pour loi N 1 (0, 3).
De la même façon, on montre que la variable aléatoire réelle V := 2X − Y − Z suit la
loi N 1 (0, 6) et que la variable aléatoire réelle W := Y − Z suit la loi N 1 (0, 2).
2. On remarque que le couple (U, X − Y ) est l’image de (X , Y , Z ) par l’application

linéairede R3 dans R2 de matrice, dans les bases canoniques respectives de R3 et R2 ,
1 1 1
A := . Comme (X , Y , Z ) est un vecteur gaussien de loi N 3 (0, I ) où 0
1 −1 0
est le vecteur nul de R3 et I la matrice identité d’ordre 3, le vecteur (U, X − Y ) est
∗
aussi gaussien
loi N 2 (0, AI A ). La matrice de dispersion de (U, X − Y ) est donc
de
3 0
AA∗ = . Cette matrice étant diagonale, le couple de variables aléatoires réelles
0 2
(U, X − Y ) est indépendant.
On procède de façon analogue pour les couples (U, Y − Z ) et (U, Z − X ).
3. On remarque que le vecteur (X + Y + Z , 2X − Y − Z , Y − Z ) est l’image du vecteur

3 3
gaussien
 (X , Y , Z ) parl’endomorphisme de R de matrice (dans la base canonique de R )
1 1 1
B :=  2 −1 −1  . Le vecteur aléatoire (U, V , W ) est donc un vecteur gaussien de
0 1 −1  
3 0 0
loi N 3 (0, BI B ∗ ) = N 3 (0, BB ∗ ) où BB ∗ =  0 6 0  .
0 0 2
4. La matrice des covariances du vecteur (U, V , W ), BB ∗ , est diagonale et le vecteur

(U, V , W ) gaussien, le triplet des variables aléatoires réelles (U, V , W ) est donc indépen-
dant.
5. La fonction caractéristique du couple (U, T ) est définie, pour tout (u, t) ∈ R2 , par
Φ(U ,T ) (u, t)
= E [exp (i(uU + v T ))]

1 2 3 2
= E exp iu(X + Y + Z ) + it(2X − Y − Z ) + it(Y − Z ) ,
2 2
où on a utilisé l’identité à vérifier. Comme la famille des v.a.r. (U, 2X − Y − Z , Y − Z )

Besançon
est indépendante,
Φ(U ,T ) (u, t)

iuU 1 2 3 2
= E e E exp it(2X − Y − Z ) E exp it(Y − Z )
2 2
3 2
= e − 2 u Φ 1 (2X −Y −Z )2 (3t)Φ 1 (Y −Z )2 (3t).
6 2
Comme (2X − Y − Z ) suit la loi N 1 (0, 6) et que (Y − Z ) suit la loi N 1 (0, 2),
1 1
√ (2X − Y − Z ) et √ (Y − Z ) suivent la loi N 1 (0, 1). On conclut à l’égalité des
6 2
fonctions caractéristiques Φ √1 (2X −Y −Z )2 = Φ √1 (Y −Z )2 = ϕ. Il vient alors
6 2
3 2 3 2 1
Φ(U,T ) (u, t) = e − 2 u [ϕ(3t)]2 = e − 2 u .
1 − 6it
1. En utilisant la technique des fonctions boréliennes positives, si h est une telle fonction,
on a
Z Z
1 1 2
2
E[h(X1 )] = 2
h(x )dPX1 (x) = h(x 2 ) √ e − 2 x dλ(x)
R
Z R 2π
1 1 2
= 2 h(x 2 ) √ e − 2 x dλ(x),
R+ 2π
puisque la fonction intégrée par rapport à la mesure de Lebesgue est paire. On utilise
ensuite le théorème de changement de variable dans une intégrale relative à la mesure de
Lebesgue, en posant t = x 2 .
Z Z
2 1 −t 1 1 1
E[h(X1 )] = h(t) √ e 2 t 2 1lR+ (t)dλ(t) = h(t)dγ( , )(t).
R 2π R 2 2
On a montré PX12 = γ( 12 , 12 ) = χ2 (1).
2. En utilisant les fonctions caractéristiques des lois Gamma (voir le formulaire de l’annexe
A, page 205) et la proposition 4.31, page 86, la somme de deux v.a.r. indépendantes de
loi respective γ(a, b) et γ(a, b 0 )P
est une v.a.r. de loi γ(a, b +b 0 ). Par récurrence immédiate
sur n, on montre que la v.a.r. nk=1 Xk2 suit une loi γ( 12 , n2 ) = χ2 (n).
 
1
3. On considère l’espace vectoriel euclidien R et on pose Vn := √n  ... . D’après les
n 1  
1
théorèmes d’algèbre linéaire, il est possible de construire une base B orthomormée qui
complète la famille libre (Vn ), B = (V1 , · · · , Vn ). La matrice de passage de la base
canonique à B est la matrice orthogonale ( i.e. sa transposée est égale à son inverse)
formée des vecteurs colonnes de B. Sa transposée, que l’on note C , est aussi orthogonale
et de la forme  
c1,1 c1,2 · · · c1,n
 c2,1 c2,2 · · · c2,n 
 .. .. .. 
 
C = . . .
. . . .
 cn−1,1 cn−1,2 · · · cn−1,n 
 
√1 √1 ··· √1
n n n

Besançon
4. En utilisant la proposition 5.5, page 98, comme X suit la loi N n (0, In ), Y = C X suit la
loi N n (0, C In C ∗ ) = N n (0, In ), où C ∗ désigne la transposée de C , et C ∗ = C −1 puisque
C est orthogonale.
n
1 X √
5. De Y = C X , on déduit facilement que Yn = √ Xk = n X . Avec les règles du
n k=1
calcul matriciel, on remarque que
n
X n
X
∗ ∗ ∗ ∗ ∗
Yk2 = Y Y = (C X ) (C X ) = X (C C )X = X X = Xk2 .
k=1 k=1
De plus,
n n
X X 2
(n − 1)S 2 = (Xk − X )2 = (Xk2 − 2X Xk + X )
k=1 k=1
n n n
X X 2 X 2 2
= Xk2 − 2X Xk + nX = Xk2 + n(−2X + X )
k=1 k=1 k=1
n n n−1
X 2 X X
= Xk2 − nX = Yk2 − Yn2 = Yk2 .
k=1 k=1 k=1
n−1
1 1 X 2
Ainsi X = √ Yn et S 2 = Y . Le vecteur Y est gaussien et sa matrice
n n − 1 k=1 k
de dispersion est diagonale donc (Y1 , · · · , Yn ) est indépendant. Par suite X et S 2 sont
indépendantes en vertu du théorème d’indépendance des fonctions de v.a.r. (cf proposition
4.14, page 75).
6. La fonction caractéristique de X est
i √t n Yn t 1 2
ΦX (t) = E[e itX ] = E[e ] = ΦYn ( √ ) = e − 2n t .
n
1
Donc PX = N 1 (0, ). Enfin, d’après la deuxième question, le vecteur aléatoire
n
(Y1 , · · · , Yn−1 ) suit la loi N n−1 (0, In−1 ), la v.a.r. (n − 1)S 2 suit la loi χ2 (n − 1).

Montrons que, pour tout entier n ≥ 1, il existe une forme linéaire Ln sur Rn+1 telle que
Xn = Ln (X0 , ε1 , . . . , εn ). Pour n = 1, posons L1 (x0 , x1 ) := l1 (x0 ) + b1 x1 et remarquons que
X1 = L1 (X0 , ε1 ). Supposons construites les formes linéaires Li pour i = 1, · · · , n et construisons
Ln+1 . On a
Xn+1 = ln+1 (X0 , X1 , . . . , Xn ) + bn+1 εn+1

= ln+1 (X0 , L1 (X0 , ε1 ), . . . , Ln (X0 , ε1 , . . . , εn )) + bn+1 εn+1 .
Posons
Ln+1 (x0 , . . . , xn+1 ) := ln+1 (x0 , L1 (x0 , x1 ), . . . , Ln (x0 , x1 , . . . , xn )) + bn+1 xn+1 .

Besançon
Ln+1 est bien une forme linéaire sur Rn+2 et Xn+1 = Ln+1 (X0 , ε1 , . . . , εn+1 ), ce qui prouve
l’existence de la suite (Ln )n≥1 .
Maintenant, pour tout n ≥ 0, construisons l’endomorphisme An de Rn+1 en posant, pour tout
(x0 , x1 , · · · , xn ) ∈ Rn+1 ,
An+1 (x0 , . . . , xn ) := (x0 , L1 (x0 , x1 ), . . . , Ln (x0 , . . . , xn )) .
Avec ces notations,

(X0 , X1 , . . . , Xn ) = An (X0 , ε1 , . . . , εn ).
Comme les composantes de (X0 , ε1 , . . . , εn ) sont gaussiennes et mutuellement indépendantes,
ce vecteur est gaussien. Par suite le vecteur (X0 , X1 , . . . , Xn ) est également gaussien comme
image d’un vecteur gaussien par une application linéaire.
8.6 Corrigés des exercices du chapitre VI

Dans ce paragraphe, toutes les variables aléatoires considérées sont supposées définies sur un
même espace de probabilité (Ω, F, P).

σ2 1
1. D’après l’inégalité de Bienaymé-Tchébycheff, P(|X − m| > 3σ) 6 = et donc
9σ 2 9
8
P(m − 3σ < X < m + 3σ) = 1 − P(|X − m| > σ) ≥ ' 0.88 .
9
Un raisonnement analogue donne l’autre partie de la question.
2. Comme X est de loi N (m; σ 2 ), on utilise les tables numériques (voir mode d’emploi dans
l’annexe B, page 211) et on obtient en notant T = (X − m)/σ qui est de loi gaussienne
centrée réduite

X −m
P(m − 3σ < X < m + 3σ) = P −3 < <3
σ
= P(−3 < T < 3) = P(T < 3) − P(T < −3)
= P(T < 3) − [1 − P(T < 3)] = 2P(T < 3) − 1
' 2 × 0.99865 − 1 ' 0.9973 ,
où l’on a lu P(T < 3) dans la partie basse de la table correspondant aux grandes valeurs
de u. On trouverait de même P(m − 2σ < X < m + 2σ) ' 0.9544.

1. En utilisant le fait que X est d’espérance nulle on a :
a = E[a − X ] = E[(a − X )1l(X ≤a) + (a − X )1l(X >a) ]

1 1
≤ E[(a − X )1l(X ≤a) ] ≤ (P(X ≤ a)) 2 (E[(a − X )2 ]) 2
Besançon
où la dernière inégalité est obtenue en utilisant l’inégalité de Cauchy-Schwarz. De plus

E[(a − X )2 ] = a2 − 2aE[X ] + E[X 2 ] = a2 + σ 2 ce qui donne :
1√
a ≤ E[(a − X )1l(X ≤a) ] ≤ (P(X ≤ a)) 2 a2 + σ 2 .
En élevant au carré l’inégalité précédente on obtient :
a2 σ2
P(X > a) = 1 − P(X ≤ a) ≤ 1 − 2 = 2 .
a + σ2 a + σ2
2. Si on pose X = Y − 100 alors X est une v.a. centrée de variance
Var(X ) = E[(Y − 100)2 ] = E[(Y − E[Y ])2 ] = Var(Y ) = 400.
L’inégalité de la question 1) nous conduit à

400 1
P(Y > 120) = P(X > 20) ≤ = .
202 + 400 2
Avec l’inégalité de Bienaymé-Tchebycheff on obtient :
400
P(Y > 120) = P(X > 20) ≤ P(|X | > 20) ≤ =1
202
qui ne donne pas de renseignement.

Notons Xk la kième mesure effectuée sur les N. On peut considérer que Xk est une v.a.r.
d’espérance m, que les v.a.r. X1 , ..., XN sont indépendantes et de même loi. On note
N
1 X
XN = Xk la moyenne empirique des valeurs observées. Par l’inégalité de Bienaymé-
N k=1
V ar (X N ) V ar (X1 ) 0.25
Tchébicheff, P(|X N − m| > 0.05) 6 2
. Or V ar (X N ) = = et donc
(0.05) N N
0.25 0.25
P(|X N − m| > 0.05) 6 2
. On cherche donc N tel que 6 0.01 d’où
N(0.05) N(0.05)2
0.25
N≥ = 10000.
(0.05)2 × 0.01
Soit a > 0, prenons un entier n suffisamment grand pour que 0 < 1/n < a. On veut étudier la
limite quand n → ∞ de P(|Xn − 0| > a). Pour n tel que 1/n < a, on a
P(|Xn − 0| > a) = P(|Xn | > a) = P(Xn 6 −a) + P(Xn > a)

Z −a Z +∞
= n 1l[0, 1 ] (x) dx + n 1l[0, 1 ] (x) dx
n n
−∞ | {z } a | {z }
=0 sur ] − ∞, − a[ =0 sur [a, + ∞[
d’où pour tout a > 0, limn→∞ P(|Xn − 0| > a) = 0 ce qui prouve que (Xn )n∈N converge en
probabilité vers 0.

Besançon

On considère l’exemple 6.3, page 110, du cours. La suite (Xn )n∈N converge en probabilité vers
n 1 n
la v.a.r. 0. Mais pour tout entier n > 1, E(Xn ) = + = 1. Donc la suite des
n+1 nn+1
espérances (E(Xn ))n∈N∗ ne converge pas vers l’espérance de la limite qui est 0 = E(0).

p.s
1) Comme Xn −−−→ X , il existe ∆X tel que P(∆X ) = 0 et pour tout ω ∈ ∆cX ,
n→∞
lim Xn (ω) = X (ω). De même il existe ∆Y de probabilité nulle tel que pour tout ω ∈ ∆cY ,
n→∞
lim Yn (ω) = Y (ω). Posons ∆ = ∆X ∪ ∆Y , alors pour tout ω ∈ ∆c , lim Xn (ω) = X (ω) et
n→∞ n→∞
limn→∞ Yn (ω) = Y (ω). Comme la fonction f est continue sur R2 , la suite (f (Xn (ω), Yn (ω)))n∈N
converge vers f (X (ω), Y (ω)). De plus, 0 6 P(∆) 6 P(∆X ) + P(∆Y ) et donc P(∆) = 0 ce qui
prouve la convergence presque-sûre de (f (Xn , Yn ))n∈N vers f (X , Y ).
2) Il suffit d’appliquer le premier point avec f : (x, y ) → x + y et g : (x, y ) → xy qui sont
des applications continues sur R2 .

Xn
On commence par remarquer que Xk = nX n et on a
k=1
n n
X
2
X 2
(Xk − X n ) = (Xk2 − 2Xk X n + X n )
k=1 k=1
n
! n
!
X X 2
= Xk2 − 2X n Xk + nX n
k=1 k=1
n
! n
!
X 2 2 X 2
= Xk2 − 2nX n + nX n = Xk2 − nX n
k=1 k=1
d’où la relation pour Sn2 .

D’après la loi forte des grands nombres appliquée à la suite (Xn )n∈N où la moyenne commune
à tous les Xk est m = E(X0 ) et la variance commune est σ 2 = V ar (X0 ). On a
p.s. 2 p.s.
X n −−−→ m et X n −−−→ m2 .
n→∞ n→∞
De même la suite (Xk2 )k∈N est une suite i.i.d. et on peut donc lui appliquer la loi forte des
grands nombres qui prouve que
n
1 X 2 p.s.
X −−−→ E(X02 ) .
n k=1 k n→∞
Ainsi n
n 1X 2 n 2 p.s.
Sn2 = × Xk − × X n −−−→ E(X02 ) − m2 = σ 2 .
n − 1 n n − 1 |{z} n→∞
| k=1
| {z } | {z } →m2
→1 →1
{z }
→E(X02 )

Besançon

Posons, pour tout n ≥ 1, Sn := X1 + · · · + Xn . En utilisant le fait que E(Sn ) = nµ et que la
variance d’une somme de variables non corrélées est égale à la somme des variances, on obtient
n
Sn 2 Sn 1 X C
E ( − µ) = Var = 2 Var(Xi ) ≤ .
n n n i=1 n
On a donc la convergence vers µ dans L2 , et par conséquent en probabilité, de la suite ( Snn )n≥1 .

n
X 1
Posons, pour tout entier n ≥ 1, In := f (Uk ) et remarquons que
k=1
n
n
!
1 X 1
E(In ) = E(f (U1 )), Var(In ) = 2 Var f (Uk ) = Var (f (U1 )) .
n k=1
n
Pour obtenir ces deux résultats, on utilise l’indépendance et l’identité des lois des v.a.r. f (Uk ).
De plus comme f est une application de carré intégrable, la constante C := Var (f (U1 )) est
finie.
Soit δ > 0, appliquons l’inégalité de Bienaymé-Tchebycheff à la v.a.r. In ∈ L2 . Il vient, pour
tout entier n ≥ 1,
Var(In ) C
P (|In − E(In )| ≥ δ) ≤ 2
d’où P (|In − E(f (U1 ))| ≥ δ) ≤ 2
δ nδ
en reportant les expressions trouvées ci-dessus. Cela prouve que, pour tout δ > 0,
lim P (|In − E(In )| ≥ δ) = 0, c’est-à-dire que la suite de v.a.r. (In )N∗ converge en probabil-
n
ité vers E(f (U1 )).
Calculons E(f (U1 )). Par le théorème de transfert il vient
Z Z
E(f (U1 )) = f (U1 )dP = f (x)dPU1 (x)
ZΩ R Z
= f (x)1l[0,1] dλ(x) = f dλ
R [0,1]
ce qui achève la démonstration.

Pour tout i ≥ 1, Xi est une v.a.r. intégrable. La loi forte des grands nombres implique
n
1X p.s. 1
Xi −→ E[X1 ] = ,
n i=1 2
d’où, comme f est continue,

n
1X p.s. 1
f( Xi ) −→ f ( ).
n i=1 2
Besançon
n
1X
Comme f est bornée, il existe une constante M telle que, pour tout n ≥ 1, |f ( Xi )| ≤ M.
n i=1
Par application du théorème de convergence dominée de Lebesgue
" n
#
1X 1 1
E f( Xi ) −→ E f ( ) = f ( ).
n i=1 2 2
On applique maintenant le théorème du transfert à la variable aléatoire vectorielle (X1 , · · · , Xn ),
il vient
" n
#
x1 + · · · + xn
Z
1X
E f( Xi ) = f( ) dP(X1 ,··· ,Xn ) (x1 , · · · , xn )
n i=1 Rn n
n
x1 + · · · + xn Y
Z
= f( ) 1l[0,1] (xi )dλ(n) (x1 , · · · , xn )
Rn n i=1
x1 + · · · + xn
Z
= f( )dλ(n) (x1 , · · · , xn ).
[0,1]n n
en conclusion,
x1 + · · · + xn
Z
1
lim f( )dλ(n) (x1 , · · · , xn ) = f ( ).
n→+∞ [0,1]n n 2
1. Comme f est continue sur le compact [0, 1] elle est bornée et en particulier sup |f (x)|
0≤x≤1
1
est fini, de plus la v.a.r. f ( Sn ) est intégrable. Par le théorème de transfert il vient
n
Z n
!
1 t X
k k n−k
pn (x) := E[f ( Sn )] = f( ) d Cn x (1 − x) δk (t)
n R n k=0
n
X k
= f ( )Cnk x k (1 − x)n−k .
k=0
n
2. Comme f est continue sur le compact [0, 1] elle est uniformément continue sur [0, 1].
Fixons ε > 0, il existe alors δ > 0 tel que, pour tout (x, y ) ∈ [0, 1]2 , |x − y | < δ implique
|f (x) − f (y )| < ε. De plus

1 1
|pn (x) − f (x)| = |E f ( Sn ) − f (x) | ≤ E |f ( Sn ) − f (x)| .
n n
1
Considérons l’événement An := {| Sn − x| < δ}, il vient
n

1 1 1
E |f ( Sn ) − f (x)| = E 1lAn |f ( Sn ) − f (x)| + E 1lAcn |f ( Sn ) − f (x)|
n n n
≤ εE(1lAn ) + 2E(1lAcn ) sup |f (x)|
0≤x≤1
≤ εP(An ) + 2P(Acn )
sup |f (x)|
0≤x≤1

1
≤ ε + 2P | Sn − x| ≥ δ sup |f (x)|
n 0≤x≤1

Besançon
ce qui prouve la deuxième inégalité.

Utilisons maintenant l’inégalité de Bienaymé-Tchebycheff pour majorer le deuxième terme
du second membre de l’inégalité précédente.
1
Comme {| Sn − x| ≥ δ} = {|Sn − E(Sn )| ≥ nδ} il vient
n
1 1 x(1 − x)
P(| Sn − x| ≥ δ) = P(|Sn − E(Sn )| ≥ nδ) ≤ 2
Var(Sn ) =
n (nδ) nδ 2
ce qui en revenant à la deuxième inégalité donne, pour tout n ∈ N∗ et tout x ∈ [0, 1],
x(1 − x)
|pn (x) − f (x)| ≤ ε + 2 sup |f (x)|.
nδ 2 0≤x≤1
3. D’après la question précédente, pour tout n ∈ N∗ , on obtient

1
sup |pn (x) − f (x)| ≤ ε + sup |f (x)|
0≤x≤1 2nδ 2 0≤x≤1
1
où on a utilisé sup (x(1 − x)) = (Étudier la fonction numérique h(x) := x(1 − x) sur
0≤x≤1 4
[0, 1]).
Par suite, pour tout ε > 0, il existe N ∈ N tel que, pour tout n ∈ N∗ , n ≥ N implique
sup |pn (x) − f (x)| < 2ε, ce qui prouve que la suite de polynômes (pn )N converge uni-
0≤x≤1
formément sur [0, 1] vers la fonction f .
1. Appliquons le résultatRde l’exercice 4.17, page 92, à la v.a.r. positive |X | pour n = 1.

+∞
Cela donne E(|X |) = 0 P(|X | > t)dt. On peut alors écrire
Z +∞ X
E(|X |) = 1l[n,n+1[ (t)P(|X | > t)dt
0 n≥0
XZ +∞ X
= 1l[n,n+1[ (t)P(|X | > t)dt ≤ P(|X | ≥ n)
n≥0 0 n≥0
où pour obtenir la dernière inégalité on a utilisé la majoration
1l[n,n+1[ (t)P(|X | > t) ≤ 1l[n,n+1[ (t)P(|X | ≥ n).
1
2. Soit ω ∈ {( Sn )N∗ converge dans R}. Comme
n
Sn (ω) Sn+1 (ω) Sn (ω) Xn+1 (ω)
− = −
n n+1 n(n + 1) n+1
et que
Sn (ω) Sn+1 (ω) Sn (ω)
lim − = 0 = lim ,
n→+∞ n n+1 n→+∞ n(n + 1)

Besançon

1
la suite Xn+1 (ω) converge vers 0. Par suite seuls un nombre fini d’entiers n
n+1 N
1
vérifient Xn (ω) ≥ 1 ou encore |Xn (ω)| ≥ n. ω ne peut donc pas appartenir à l’ensemble
n
lim sup{|Xn | ≥ n}, ce qui prouve l’inclusion cherchée.
n
3. Comme les v.a.r. sont toutes de même loi, pour tout n ∈ N, nous avons P(|X1 | ≥ n) =
P(|Xn | ≥ n) et par suite, en revenant à l’inégalité de la première question appliquée à la
v.a.r. X1 , X X
E(|X1 |) ≤ P(|X1 | ≥ n) = P(|Xn | ≥ n).
n≥0 n≥0
Comme X1 n’est pas P intégrable, E(|X1 |) = +∞ et par suite en vertu de l’inégalité

précédente, la série n P(|Xn | ≥ n) diverge. Comme la suite (Xn )N est indépendante, les
événements {|Xn | ≥ n} sont indépendants. Par application du lemme de Borel-Cantelli

on en déduit que P(lim sup{|Xn | ≥ n}) = 1 ou encore P [lim sup{|Xn | ≥ n}]c = 0.
n n
Mais de l’inclusion de la deuxième question on déduit que

1
P ( Sn )N∗ converge dans R = 0.
n
1
Ce qui signifie que la suite de v.a.r. ( Sn )N∗ ne converge pas presque-sûrement dans R.
n
1
1. Considérons l’événement A := {( Sn )N∗ converge vers m}. Soit ω ∈ A, alors la suite
n
(Sn (ω))N∗ converge vers +∞ si m > 0 ou −∞ si m < 0. Par suite l’ensemble
{n ∈ N/Sn (ω) ∈ I } est fini car l’intervalle I est supposé borné; ce qui signifie
que
c c
ω∈ lim sup{Sn ∈ I } . On a donc l’inclusion d’événements A ⊆ lim sup{Sn ∈ I } .
n n
c
2. Il s’agit de montrer que P lim sup{Sn ∈ I } = 1. D’après la loi forte des grands
n
1
nombres, l’événement A = {( Sn )N∗ converge vers m} est de probabilité égale à 1, c’est-
n
à-dire P(A) = 1. Ce qui donne, compte-tenu de l’inclusion démontrée en 1), le résultat
cherché.
8.7 Corrigés des exercices du chapitre VII

Dans ce paragraphe, toutes les variables aléatoires considérées sont supposées définies sur un
même espace de probabilité (Ω, F, P).

1) Considérons pour k = 1, ..., N la v.a.r. Xk = 1 si la kième va dans la salle 1 et Xk = 0 sinon
(elle va alors dans la salle 2). La v.a.r. Xk est de loi de Bernoulli de paramètre 1/2. Comme
le choix des spectateurs est supposé indépendant, X1 , ..., XN sont des v.a.r. indépendantes. Le
nombre de spectateurs qui désirent aller dans la salle 1 est donc S = SN = X1 + ... + XN qui
Besançon
est une v.a.r. B(N; 12 ). L’événement "tous les spectateurs ne peuvent pas voir le film qu’ils ont
choisi" se modélise par :
{S > n} ∪ {N − S > n} = {S > n} ∪ {S < N − n} .
On remarque que si N > 2n, on est sûr qu’il y a au moins un spectateur qui ne verra pas son
film. Dans ce cas, P = 1. De même, si N < n, on est sûr que tous les spectateurs pourront
voir leur film. Dans ce cas, P = 0.
Étudions le cas où n ≤ N 6 2n c’est-à-dire 0 ≤ N − n 6 n. Dans ce cas, {S > n} ∩ {S <
N − n} = Ø et donc P = P(S > n) + P(S 6 N − n). D’après le théorème central limite (N
est implicitement supposé grand), on a
! Z
S 1 x
− 1 2
lim P N 1 2 6 x = √ e −u /2 du .
N→∞ √ −∞ 2π
2 N
S 1
N
− 2
Si on note T = 1 , c’est une v.a.r. asymptotiquement de loi N (0,1) et donc
√
2 N
! !
n− N N − n − N2
P =P T > p 2 +P T < p
N/4 N/4
!
n− N √
= P |T | > p 2 = 2 1 − Φ (2n − N)/ N ,
N/4
où Φ désigne la fonction de répartition de la loi N (0,1). √

2) Si N = 1000 et si on veut P 6 0.01, il faut choisir n pour que Φ[(2n−1000)/ √1000] > 0.95.
La lecture inverse de la table de N (0, 1) donne Φ(2.58) ' 0.95 d’où (2n−1000)/ 1000 > 2.58
et par suite il faut prendre n > 541.

La fonction de répartition de δn est 1l[n,∞[ pour tout n ∈ N. De plus lim 1l[n,∞[ (x) = 0 donc la
n→∞
limite de la suite de fonctions de répartition (1l[n,∞[ )n∈N est la fonction-nulle qui n’est pas une
fonction de répartition car elle ne vérifie pas lim F (x) = 1.
x→∞
On a donc la convergence simple de la suite de fonction de répartitions (Fδn )n∈N mais la suite
(δn )n∈N ne converge pas étroitement vers une limite µ, sinon on aurait lim Fδn (x) = Fµ (x) = 0
n→∞
pour tout point x de continuité de Fµ et donc Fµ = 0, ce qui est impossible.

On sait par le théorème de stabilité de la somme de variables de Poisson indépendantes, que la
loi de Sn est P(n). Remarquons alors que
k=n k
−n
X n 1
e = P(Sn ≤ n) et {Sn ≤ n} = { √ (Sn − n) ≤ 0}.
k=0
k! n
Par suite,
k=n k
−n
X n 1
e =P √ (Sn − n) ≤ 0 .
k=0
k! n
Besançon

1
Le théorème-limite central permet d’affirmer que la suite √ (Sn − n) converge en loi
n n≥1
1 1
vers une variable Y de loi N 1 (0, 1). En particulier P( √ (Sn −n) ≤ 0) tend vers P(Y ≤ 0) =
n ! 2
k=n
X nk 1
quand n tend vers +∞. On conclut donc que la suite e −n converge vers .
k=0
k! 2
n≥1

Soit X le nombre de transistors défectueux dans un sachet de 100, X suit une loi B(100;0.01).
L’événement "la garantie tombe en defaut" se modélise par {X > 3}. Comme le proposent les
commentaires qui suivent la proposition 7.14, page 132, on approxime la loi binomiale par la
loi de Poisson de paramètre 1 car on a n = 100 > 30, np = 100 × 0.01 < 10 et p 6 0.1. D’où
P(X > 3) = 1 − P(X 6 2) ' 1 − P(P(1) 6 2) ' 1 − 0.92 ' 8% .

Pour tout N ∈ S, posons µN := H(N, n, p). µN est une probabilité discrète portée par
l’ensemble des entiers compris entre 0 et n. D’après le critère de convergence des probabilités
discrètes, il suffit de montrer que, pour tout entier k compris entre 0 et n, la suite (µN ({k}))N∈S
converge vers B(n, p)({k}) = Cnk p k q n−k .
Soit k un entier compris entre 0 et n, après explicitation des coefficients binomiaux, on peut
écrire
[(Np)(Np − 1)...(Np − k + 1)] [(Nq)(Nq − 1)...(Nq − n + k + 1)]
µN ({k}) = Cnk .
[N(N − 1)...(N − n + 1)]
Mais, pour N voisin de l’infini,
[(Np)(Np − 1)...(Np − k + 1)] , [(Nq)(Nq − 1)...(Nq − n + k + 1)]
et
[N(N − 1)...(N − n + 1)]
sont respectivement équivalents à (Np)k , (Nq)n−k et N n . Par suite, pour N voisin de l’infini,
µN ({k}) est équivalent à Cnk p k q n−k , ce qui termine la démonstration. Ce résultat exprime
qu’une loi hypergéométrique peut être approximée par une loi binomiale.

Pour tout n ≥ 1, on vérifie facilement que l’application définie par

1 − cos(2πnx) si x ∈ [0, 1]
fn (x) :=
0 si x ∈ [0, 1]c
est une densité de probabilité. La fonction de répartition Fn associée à la probabilité de densité

fn est donnée par

Z  0 si t ∈] − ∞, 0],
1
Fn (t) = fn (x)dλ(x) = t − 2πn sin(2πnt) si t ∈]0, 1],
]−∞,t] 
1 si t ∈]1, +∞[.
Besançon
La suite (Fn )n≥1 converge simplement vers la fonction F définie par F (t) := t1l[0,1[ (t) +
1l[1,+∞[ (t). F est la fonction de répartition de la loi uniforme U([0, 1]) de densité f = 1l[0,1] . On
a donc une convergence étroite des probabilités de densités fn vers la loi uniforme, mais la suite
des densités n’a de limite en aucun point de ]0, 1[.

Si (an )N et (σn )N convergent respectivement vers les réels a et σ, alors (an )N et (σn2 )N con-
2
vergent
respectivement vers les réels a et σ, et pour tout t ∈ R, la suite (Φµn (t))N =
1 2 2 1 2 2
exp ian t − t σn converge vers exp iat − t σ . La suite des fonctions carac-
2 N 2
téristiques Φ N 1 (an ,σn2 ) N converge simplement vers la fonction caractéristique de la probabilité
N 1 (a, σ 2 ). On conclut alors en utilisant le critère des fonctions caractéristiques.

On obtient facilement, pour tout n ≥ 1, la fonction de répartition Fn de µn : Fn (t) =
t n 1l[0,1[ (t) + 1l[1,+∞[ (t). Cette suite de fonctions de répartition converge simplement vers 1l[1,+∞[
qui est la fonction de répartition de δ1 . La suite (µn )n≥1 converge donc étroitement vers δ1 . On
remarquera qu’une suite de probabilités absolument continues peut converger étroitement vers
une probabilité discrète.

On sait que la fonction caractéristique de la loi de Cauchy est définie par Φ(t) = e −|t| .
1
• Pour tout n ≥ 1, la fonction caractéristique de √ Sn est donnée par
n
it
it
n √
√ S √ X
Φ √1 Sn (t) = E[e n n ] = E[e n 1 ] = e −|t| n
n
√
du fait de l’indépendance de la suite (Xn )n≥1 . Comme la suite e −|t| n tend vers 1l{0} (t)
n≥1
qui définit une application non continue en 0, c-à-d
quela limite des fonctions caractéristiques
1
n’est pas une fonction caractéristique, la suite √ Sn ne converge pas en loi et donc ne
n n≥1
peut pas converger en probabilité.
1
• Pour tout n ≥ 1, la fonction caractéristique de Sn est donnée par Φ 1 Sn (t) = e −|t| . La suite
n n
1
Sn converge donc en loi vers une v.a.r. de loi de Cauchy. Si cette suite convergeait en
n n≥1
Sn S2n
probabilité, alors la suite − convergerait en probabilité vers 0 et donc convergerait
n 2n n≥1
Sn S2n
en loi vers 0. Or la fonction caractéristique de − est donnée par
n 2n
it
Φ Sn − S2n (t) = E[e 2n (X1 +···+Xn −(Xn+1 +···+X2n )) ] = e −|t|
n 2n
qui ne converge pas vers1R , fonction

caractéristique de la v.a.r. constante 0, lorsque n tend
1
vers +∞. Donc la suite Sn ne converge pas en probabilité.
n n≥1

Besançon
1 |t|
−n
• Pour tout n ≥ 1, la fonction caractéristique de S n est donnée par Φ 1
S (t) = e qui
n2 n2 n
1
converge en +∞ vers 1, fonction caractéristique de la v.a.r. 0. La suite Sn converge
n2 n≥1
donc en loi vers 0 et d’après la première question, elle converge aussi en probabilité vers 0.
1. Pour tous t ∈ R, α > 0, et n ∈ N,

|ΦXn +Yn (t) − ΦXn (t)| = E e itXn (e itYn − 1) ≤ E |e itYn − 1|

Z Z
itYn
= |e − 1|dP + |e itYn − 1|dP
{|Yn |>α} {|Yn |≤α}
Z
≤ 2P(|Yn | > α) + |e itYn − 1|dP.
{|Yn |≤α}
2. Remarquons que (Yn )N converge en loi vers la v.a.r. 0 si et seulement si (Yn )N converge
en probabilité vers la v.a.r. 0 (cf. exercice V-6). Soit ε > 0, il existe α0 > 0 tel que pour
|y | ≤ α0 on ait |e ity − 1| ≤ ε. De plus la convergence de la suite (Yn )N en probabilité
vers 0 conduit à l’existence de n0 ∈ N tel que pour n ≥ n0 , P(|Yn | > α0 ) ≤ ε et par
suite |ΦXn +Yn (t) − ΦXn (t)| ≤ 3ε. La convergence en loi vers X de la suite (Xn )N entraîne
l’existence d’un entier n1 , que l’on peut choisir plus grand que n0 , tel que, pour tout
n ≥ n1 , |ΦXn (t) − ΦX (t)| ≤ ε. On a montré que pour tout n ≥ n1 ,
|ΦXn +Yn (t) − ΦX (t)| ≤ |ΦXn +Yn (t) − ΦXn (t)| + |ΦXn (t) − ΦX (t)| ≤ 4ε,
ce qui prouve la convergence en loi vers X de la suite (Xn + Yn )N .

3. Supposons que X soit une v.a.r. de loi symétrique , i.e. X a même loi que −X (par
exemple PX := 21 (δ−1 + δ1 ) ou PX := N 1 (0, 1)), et posons, pour tout n ∈ N, Xn := −X .
Il est clair que la suite (Xn )N converge en loi vers X et que la suite (Xn − X )N converge
en loi vers −2X 6= 0.
1. Un raisonnement par récurrence montre facilement que, pour tout n ∈ N∗ ,

n
X
Xn = θn−k Uk .
k=1
La suite des v.a.r. (θn−k Uk )k=1,··· ,n est indépendante, car (Uk )N l’est. De plus on vérifie
aisément que la loi de θn−k Uk est N 1 (0, θ2n−2k σ 2 ).
Xn est la somme de v.a.r. normales indépendantes centrées, sa loi est donc la loi normale
centrée de variance
2n
6 1, Var(Xn ) = nk=1 θ2n−2k σ 2 = 1−θ σ2
P
si |θ| = 1−θ2
si |θ| = 1, Var(Xn ) = nσ 2 .

Besançon
2. Considérons la fonction caractéristique de la v.a.r. Xn . Pour tout t ∈ R,

1−θ2n 2 2
si |θ| =
6 1, ΦXn (t) = exp − 1−θ2 σ t
si |θ| = 1, ΦXn (t) = exp (−nσ 2 t 2 ) .

1 2 2
Si |θ| < 1, la suite (ΦXn (t))N converge, pour tout t ∈ R, vers exp − 2
σ t qui
1 −
θ
1 2
est la valeur en t de la fonction caractéristique de la loi N 1 0, σ . Dans ce cas
1 − θ2
1
la suite (Xk )N converge en loi vers une v.a.r. de loi N 1 0, σ2 .
1 − θ2
Si |θ| = 1, la suite (ΦXn (t))N converge, pour tout t 6= 0, vers 0 et pour t = 0, vers 1. La
fonction limite n’étant pas continue en 0, elle ne peut pas être la fonction caractéristique
d’une probabilité. Dans ce cas la suite (Xk )N ne converge pas en loi.
Si |θ| > 1, la suite (ΦXn (t))N converge, pour tout t ∈ R, vers 0. La fonction limite
ne prenant pas la valeur 1 en 0, elle ne peut pas être la fonction caractéristique d’une
probabilité. Dans ce cas la suite (Xk )N ne converge pas en loi.
1. Supposons que la suite (Xn )N converge en loi vers X et considérons l’application continue
bornée fε , ε > 0, définie par
fε (t) := (x − ε)1l]−∞,x−ε[ (t) + t1l[x−ε,x+ε[ (t) + (x + ε)1l[x+ε,+∞[ (t).
Comme E[fε (Xn )] = fε (xn ), pour tout n ∈ N, la suite (fε (xn ))N converge vers fε (x) = x. Il
existe un entier n0 tel que, pour tout entier n ≥ n0 ,, |fε (xn ) − x| < ε, par suite fε (xn ) = xn
et |xn − x| < ε. La suite (xn )N converge vers x.
Réciproquement si la suite (xn )N converge vers x alors, pour toute application f de R

dans R continue bornée et tout n ∈ N, E[f (Xn )] = f (xn ). Comme E[f (X )] = f (x), on
en déduit que la suite (E[f (Xn )])N converge vers E[f (X )], d’où la convergence en loi de
la suite (Xn )N vers X .
2. Soit FX la fonction de répartition de la v.a.r. X et FXn celle de Xn , n ∈ N. Par hypothèse,
en dehors de l’ensemble D des points de discontinuité de F , la suite (Fn )N converge
simplement vers FX . Comme, pour tous n ∈ N et t 6∈ D, FXn (t) = 1l[xn ,+∞[ (t), il vient
FX (t) ∈ {0, 1}. On peut alors utiliser le résultat de l’exercice 3.23, page 60, puisque
D := Dc est partout dense comme complémentaire d’un ensemble dénombrable dans
R (cf. proposition 7.8, page 129). Donc il existe x ∈ R tel que PX = δx et d’après la
question précédente on peut ajouter que la suite (xn )N converge vers x.

2
la f.c. de la probabilité de Gauss N 1 (a, σ ) est l’application définie sur R par
On rappelle que
1
Φµ (t) = exp iat − t 2 σ 2 .
2
Besançon
1. (a) Montrons que la suite (σn2 )N est bornée.

Raisonnons par l’absurde et supposons que la suite de réels positifs (σn2 )N n’est
pas bornée. Il existe alors une suite (σn2k )k∈N extraite de la précédente convergeant
vers +∞. Comme la suite (µn )N converge étroitement vers µ, d’après le critère des
fonctions caractéristiques, la f.c. Φµ de µ est la limite simple sur R de la suite de
f.c. (Φµn )N . En considérant la suite des modules de ces f.c. on obtient, pour tout
t ∈ R,

1 2 2
|Φµ (t)| = lim | exp(ian t)| exp − t σn
n 2

1 2 2 1 2 2
= lim exp − t σn = lim exp − t σnk .
n 2 k 2
Par suite, |Φµ (0)| = 1 et si t 6= 0, |Φµ (t)| = 0. La f.c. Φµ n’est donc pas continue
en 0, ce qui contredit la propriété de continuité sur R des f.c. et prouve ainsi que la
suite (σn2 )N est bornée.
Montrons que la suite (σn2 )N est convergente.
La suite (σn2 )N est bornée, donc il existe M > 0 tel que, pour tout n ∈ N, σn2 ∈ [0, M].
Comme [0, M] est un compact, la suite (σn2 )N admet au moins une valeur d’adhérence
σ 2 dans [0, M]. Si (σn2 )N admet une autre valeur d’adhérence τ 2 dans [0, M], alors
τ 2 (resp. σ 2 ) est limite de la suite (σm
2
)
k k∈N
(resp. (σn2k )k∈N ) extraite de (σn2 )N . Par
un raisonnement déjà effectué, il vient, pour tout t ∈ R,

1 2 2 1 2 2
|Φµ (t)| = lim exp − t σnk = exp − t σ
k 2 2

1 2 2 1 2 2
= lim exp − t σmk = exp − t τ ,
k 2 2
ce qui implique que τ 2 = σ 2 . Cela montre que σ 2 est la seule valeur d’adhérence de
la suite (σn2 )N dans le compact [0, M], d’où
lim inf (σn2 ) = lim sup(σn2 ) = lim(σn2 ) = σ 2 .
n n n
(b) Considérons, pour tout n ∈ N, la f.c. Φn de δan . On peut écrire, pour tout t ∈ R,

1 2 2
Φn (t) = exp(ian t) = Φµn (t) exp t σ
2 n

1 2 2
et par passage à la limite Ψ(t) := lim Φn (t) = Φµ (t) exp t σ . L’application Ψ
n 2
ainsi définie est continue en 0 et limite simple d’une suite de f.c.. D’après le théorème
de continuité de Lévy, il existe une probabilité ν sur R dont Ψ est la f.c. et la suite
(δan )N converge étroitement vers ν. Par suite, si on note C l’ensemble des réels où
la fonction de répartition de ν est continue, pour tout t ∈ C , Fν (t) = lim Fδan (t).
n
On en déduit que, pour tout t ∈ C , Fν (t) ∈ {0, 1}, mais C est une partie partout
dense de R, ce qui implique que ν est la mesure de Dirac en un point a ∈ R. On
conclut alors que la suite (an )N converge dans R vers le réel a.
Revenant à la fonction caractéristique de µ, on peut écrire, pour tout t ∈ R,

1 2 2 1 2 2
Φµ (t) = lim exp ian t − t σn = exp iat − t σ ,
n 2 2
Besançon
Annexe . Corrigés des exercices 203
ce qui, avec la convention adoptée, prouve que µ = N 1 (a, σ 2 ).

Besançon

Besançon
Annexe A. Formulaire 205
Annexe A
Formulaire
Ce formulaire sera fourni avec les sujets lors des épreuves terminales.
A.1 Rappels de notations

On rappelle les conventions et notations suivantes :
n!
1. Pour tous entiers relatifs k et n, Cnk := si 0 ≤ k ≤ n, et Cnk := 0 sinon.
k!(n − k)!
2. L’écriture µ := ρ · λ signifie que ρ est une densité de probabilité définie sur R par ρ(x)
et que µ est la probabilité sur R définie par cette densité ρ.
3. λ désigne la mesure de Lebesgue sur R.
Z +∞
√
4. Pour tout réel a > 0, Γ (a) := e −x x a−1 dx. En particulier, Γ (1/2) = π et, pour
0
tout entier n ≥ 1, Γ (n) = (n − 1)! .
Pour chaque probabilité µ de la liste, on trouvera :

1. son nom, sa notation, sa définition ;
2. sa fonction de répartition F définie sur R par F (x) := µ(] − ∞, x]) ;
Z
3. sa fonction caractéristique Φ définie sur R par Φ(t) := e itx dµ(x) (sauf pour la
R
probabilité hypergéométrique) ;
Z
4. son espérance (moment d’ordre 1) m := xdµ(x) et sa variance (moment centré d’ordre
Z R
2) σ 2 := (x − m)2 dµ(x), si ces moments existent.

R
A.2 Quelques relations à connaître en probabilités

Somme d’une série géométrique et ses dérivées terme à terme
Pour tout réel 0 < x < 1,
+∞
X 1
xk =
k=0
1−x
Besançon
+∞
X 1
kx k−1 =
k=1
(1 − x)2
+∞
X 2
k(k − 1)x k−2 =
k=2
(1 − x)3
et de façon plus générale, pour tout entier naturel p ≥ 1,
+∞
X p!
k(k − 1)(k − 2) · · · (k − p + 1)x k−p = .
k=p
(1 − x)p+1
Somme de la série exponentielle népérienne

Pour tout réel x,
+∞ k
X x
= ex
k=0
k!
Intégrale de Gauss
Z +∞
1 2 √
e − 2 t dt = 2π
−∞
Formule du binôme de Newton

Pour tous réels a, b, et tout entier naturel n,
k=n
X
n
(a + b) = Cnk ak b n−k
k=0
Relation de Vandermonde
Pour tous entiers naturels n, m, et N tels que 0 ≤ N ≤ n + m,
k=N
X
Cnk CmN−k = Cn+m
N
k=0
Relation de Pascal
Pour tous entiers naturels n, k tels que 0 ≤ k ≤ n,
k
Cn+1 = Cnk + Cnk−1
Deux autres relations utiles

Pour tous entiers naturels n, p tels que 0 ≤ p ≤ n,
p−1
pCnp = nCn−1
k=n+p
X
n+1
Ckn = Cn+p+1
k=n

Besançon
A.3 Probabilités usuelles discrètes

1. Dirac : δa , a ∈ R
F (x) = 1l[a,+∞[ (x) et Φ(t) = e ita
m = a et σ 2 = 0
2. Bernoulli : B(p) := pδ1 + (1 − p)δ0 , p ∈]0, 1[
F (x) = (1 − p)1l[0,1[ (x) + 1l[1,+∞[ (x) et Φ(t) = 1 − p + pe it
m = p et σ 2 = p(1 − p)
3. Bernoulli-symétrique : B s (p) := (1 − p)δ−1 + pδ1 , p ∈]0, 1[
F (x) = (1 − p)1l[−1,1[ (x) + 1l[1,+∞[ (x) et Φ(t) = (1 − p)e −it + pe it
m = 2p − 1 et σ 2 = 4p(1 − p)
k=n
X
4. Binomiale : B(n, p) := Cnk p k (1 − p)n−k δk , p ∈]0, 1[ et n ∈ N∗
k=0
k=n
X
F (x) = Cnk p k (1 − p)n−k 1l[k,+∞[ (x) et Φ(t) = (1 − p + pe it )n
k=0
m = np et σ 2 = np(1 − p)
X
r −1 r k ∗
5. Binomiale-négative : I(r , p) := Ck+r −1 p (1 − p) δk , p ∈]0, 1[ et r ∈ N
k≥0
+∞ r
X
r −1 r k p
F (x) = Ck+r −1 p (1 − p) 1l[k,+∞[ (x) et Φ(t) =
k=0
1 − (1 − p)e it
r (1 − p) r (1 − p)
m= et σ 2 =
p p2
+∞
X
6. Géométrique : G(p) := p(1 − p)k−1 δk , p ∈]0, 1[
k=1
+∞
X
k−1 pe it
F (x) = p(1 − p) 1l[k,+∞[ (x) et Φ(t) =
k=1
1 − (1 − p)e it
1 1−p
m= et σ 2 =
p p2
k=n
X Cnk Cnn−k
7. Hypergéométrique : H(n1 , n2 , n) := 1 2
δk , n ∈ N∗ , n1 ∈ N∗ et n2 ∈ N∗
k=0
Cnn1 +n2
avec n ≤ n1 + n2
k=n
X Cnk Cnn−k
1 2
F (x) = 1l[k,+∞[ (x)
k=0
Cnn1 +n2

Besançon
nn1 n1 n2 (n1 + n2 − n)
m= et σ 2 = n
n1 + n2 (n1 + n2 )2 (n1 + n2 − 1)
+∞
X αk
8. Poisson : P(α) := e −α δk , α > 0
k=0
k!
+∞
X αk
e −α 1l[k,+∞[ (x) et Φ(t) = exp α(e it − 1)

F (x) =
k=0
k!
m = α et σ 2 = α
k=n
1X
9. Uniforme-discrète : U(n) := δk , n ∈ N∗
n k=1
k=n k=n
1X 1 X itk
F (x) = 1l[k,+∞[ (x) et Φ(t) = e
n k=1 n k=1
n+1 n2 − 1
m= et σ 2 =
2 12
A.4 Probabilités usuelles à densité

1. Uniforme-continue : U([a, b]) := ρ · λ, a, b ∈ R avec a < b et
1
ρ(x) := 1l]a,b[ (x)
b−a
x −a e itb − e ita
F (x) = 1l[a,b[ (x) + 1l[b,+∞[ (x) et Φ(t) =
b−a it(b − a)
a+b (b − a)2
m= et σ 2 =
2 12
θa x a−1 −θx
2. Gamma : γ(a, θ) := ρ · λ, a > 0 et θ > 0 avec ρ(x) := e 1l]0,+∞[ (x)
Γ (a)
x a
θa −θt a−1
Z
θ
F (x) = e t 1l]0,+∞[ (t)dt et Φ(t) =
−∞ Γ (a) θ − it
a a
m = et σ 2 = 2
θ θ
3. Exponentielle : E(α) := γ(1, α) = ρ · λ, α > 0 avec ρ(x) := αe −αx 1l]0,+∞[ (x)
α
F (x) = (1 − e −αx )1l[0,+∞[ (x) et Φ(t) =
α − it
1 1
m= et σ 2 = 2
α α
n
n 1 x 2 −1 − x
4. Khi-deux : χ (n) := γ( , ) = ρ · λ, n ∈ N∗ avec ρ(x) :=
2
n e 2 1l]0,+∞[ (x)
2 2 Γ n2 2 2
Z x n2
1
F (x) = ρ(t)dt et Φ(t) =
−∞ 1 − 2it
m = n et σ 2 = 2n
Besançon
a
5. Cauchy : C(a) := ρ · λ, a > 0 avec ρ(x) :=
π(a + x 2 )
2
1 hπ x i
F (x) = + arctan et Φ(t) = e −a|t|
π 2 a
Les moments m et σ 2 n’existent pas
6. Normale ou Gauss-Laplace : N 1 (a, b) := ρ · λ, a ∈ R et b > 0 avec ρ(x) :=

1 (x−a)2
√ e − 2b
2bπ
Z x
bt 2

1 (u−a)2
− 2b
F (x) = √ e du et Φ(t) = exp iat −
2bπ −∞ 2
m = a et σ 2 = b
7. Normale d-dimensionnelle : N d (m, D) := ρ · λd , où d ∈ N∗ , m ∈ Rd , D ma-

trice carrée d’ordre d à coefficients
réels, symétrique, inversible, de type positif, et
1 1
ρ(x) := p exp − (x − m)∗ D −1 (x − m) , où x ∈ Rd ;
d
(2π) det(D) 2

1
ΦX (u) = exp iu ∗ m − u ∗ Du , où u ∈ Rd et l’opération ∗ désigne la transposition ;
2
m est le vecteur-espérance et D la matrice de dispersion de N d (m, D)

Besançon

Besançon
Annexe B. Table de la loi normale standard 211
Annexe B
Table de la loi normale

standard
Dans ce cours nous n’utiliserons que la table de la fonction de répartition de la loi normale
standard appelée aussi loi normale centrée-réduite ou loi de Gauss-Laplace standard.
Cette table, qui est reproduite à la fin de l’annexe, sera fournie, sans les explications d’utilisation,
avec les sujets lors des épreuves terminales.
B.1 Calculs avec des v.a.r. normales centrées-réduites

Voici quelques exemples d’utilisation de la table de la loi normale standard.
Tout calcul numérique de probabilité avec une variable aléatoire X normale standard se ramène
à déterminer la valeur d’expressions de la forme P(a < X < b) ou P(X < b) ou P(a < X ).
Les inégalités pouvant être strictes ou larges, cela ne change rien aux calculs car la fonction de
répartition de la loi normale standard est continue sur R.
La table de la loi normale standard reproduite donne les valeurs, connaissant le réel t positif,
des expressions P(X < t). On peut toujours se ramener à ces cas moyennant les relations
1. Si t est une réel positif, P(X < t) est donné par la table.
2. Si t est une réel positif, P(X > t) = 1 − P(X < t).
3. Si t est une réel strictement négatif, P(X < t) = 1 − P(X < −t).
4. Si t est une réel strictement négatif, P(X > t) = P(X < −t).
Pour lire dans la table la valeur de P(X < t) pour t positif, par exemple pour t = 2, 37, on
procède de la façon suivante. On remarque que 2, 37 = 2, 3 + 0, 07. La valeur de P(X < 2, 37)
est lue à l’intersection de la ligne horizontale 2, 3 (valeur lue dans la première colonne de la
table) et de la colonne verticale 0, 07 (valeur lue dans la première ligne de la table). On trouve
P(X < 2, 37) = 0, 9911.
On peut remarquer que la table ne donne des valeurs de P(X < t) que pour 0 < t < 3. Cela
est dû au fait que pour les valeurs supérieures à 3, P(X < t) ≈ 1 et par suite P(X > t) ≈ 0.
Toutefois la table donne les valeurs de P(X < t) pour t prenant des valeurs entre 3 et 4, 5 avec
cinq décimales (tables des grandes valeurs pour t située au bas de la page).
Besançon
B.2 Calculs avec des v.a.r. normales de paramètres

quelconques
Pour ce qui est du calcul de probabilité dans le cas de v.a.r. normales quelconques, on rappelle
la proposition suivante, qui est une réécriture avec le langage des v.a.r. de la proposition 2.9,
page 26 :
Proposition B.1.
Procédé de standardisation
Une v.a.r. X est normale d’espérance m et de variance σ 2 > 0 si, et seulement, si la v.a.r.
X −m
Z := est une v.a.r. normale centrée-réduite.
σ
Comme, pour tout réel a et b avec a < b,
a−m b−m
{a < X < b} = { <Z < },
σ σ
on a !
a−m b−m
P(a < X < b) = P <Z < .
σ σ
Ainsi tout événement faisant intervenir dans sa formulation une v.a.r. X normale d’espérance m
X −m
et de variance σ 2 > 0 peut donc être exprimé avec la v.a.r. Z := de loi normale centrée-
σ
réduite. Le procédé de standardisation permet de ramener tout calcul de probabilité relatif à
une loi normale quelconque à un calcul de probabilité relatif à la loi normale centrée-réduite, et
donc à l’utilisation uniquement de la table statistique de la loi normale centrée-réduite.

Besançon
Annexe B. Table de la loi normale standard 213
Fonction de répartition de la loi normale centrée-réduite ou standard

(Pour tout u > 0, la table donne la probabilité que la v.a. prenne une valeur inférieure à u>0)
u 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389
1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
2,0 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981
2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986
Table pour les grandes valeurs de u
u 3 3,1 3,2 3,3 3,4 3,5 4 4,5

F(u) 0,99865 0,99903 0,99931 0,99952 0,99966 0,99977 0,99997 0,999997

Besançon

Besançon
Annexe C. Devoirs à envoyer à la correction 215
Annexe C
Devoirs à envoyer à la
correction
Les trois devoirs ci-dessous sont à renvoyer pour leur correction, au plus tard à la date indiquée,
à l’adresse suivante :
Bruno Saussereau,
Laboratoire de Mathématiques de Besançon,
UFR Sciences et Techniques,
16, route de Gray,
25030 Besançon cedex, FRANCE
Le but premier d’un devoir est de montrer au correcteur que vous avez compris le cours, que
vous connaissez les résultats vus en cours et les hypothèses qui les commandent, et que vous
savez les mobiliser pour répondre à une question ou démontrer un résultat nouveau. Il est donc
recommander de tout mettre en oeuvre pour atteindre cet objectif.
En particulier :
Un devoir de mathématiques est un devoir de français qui traite de mathématiques, c’est
donc avant tout un texte de français. Il doit donc être rédigée de façon correcte en français.
Les hypothèses spécifiques justifiant l’utilisation de chaque théorème doivent être correctement
explicitées et le résultat du cours utilisé doit être clairement identifié voire explicitement énoncé.
Les résultats intermédiaires et les conclusions obtenues doivent être mis en évidence. Les
notations utilisées ou introduites, surtout si elles sont nouvelles par rapport au cours, doivent
être clairement annoncées. La rédaction du cours peut être considérée comme un guide de
rédaction d’un texte mathématique.

Besançon
C.1 Devoir 1 à renvoyer le 21 février 2014 au plus tard

La rédaction et la présentation de la copie, la justification des affirmations par référence aux
résultats du cours seront des éléments d’appréciation essentiels dans la notation.
Exercice I
Soit X une variable aléatoire normale centrée réduite. Préciser, dans chacun des cas ci-dessous,
la loi de probabilité de la variable aléatoire Y définie en fonction de X
1. Y = X 3 .
2. Y = F (X ) où F est la fonction de répartition de la variable X .
Exercice II
Soit X une v.a.r. normale de loi N (m, σ 2 ), où m et σ sont des réels avec σ > 0.
1. Montrer que la fonction caractéristique de X peut s’exprimer à l’aide de la fonction
caractéristique Φ de la loi de Gauss-Laplace standard N (0, 1).
Z
2. En utilisant le théorème de dérivation sous le signe , montrer que Φ est une solution
particulière de l’équation différentielle du premier ordre y 0 (t) + ty (t) = 0. En déduire
l’expression analytique de la fonction Φ, puis celle de la fonction caractéristique de la
variable X .
Exercice III
Soit (Xk )k∈N une suite indépendante de v.a.r. de Bernoulli toutes de même paramètre 0 < p <
1. Soit un entier r ≥ 1, on définit deux nouvelles v.a.r. , en posant pour tout ω ∈ Ω,
τr (ω) := inf{n ∈ N∗ /X1 (ω) + X2 (ω) + ... + Xn (ω) = r }
et
θr (ω) := inf{n ∈ N∗ /X1 (ω) + X2 (ω) + ... + Xn+r (ω) = r }
avec la convention inf Ø := +∞.
1. Montrer, pour tout x ∈]0, 1[, la relation
+∞
X 1
Ckr −1 x k−r +1 = .
k=r −1
(1 − x)r
2. Montrer que la variable aléatoire réelle τr est une variable aléatoire réelle discrète de loi
(dite loi de Pascal de paramètres r et p )
+∞
X
r −1 r
P(r , p) := Ck−1 p (1 − p)k−r δk .
k=r
Vérifier que P(τr = +∞) = 0.

Besançon
3. Montrer que la variable aléatoire réelle θr est une variable aléatoire réelle discrète de loi
(dite loi binomiale-négative de paramètres r et p )
+∞
X
r −1 r k
I(r , p) := Ck+r −1 p (1 − p) δk .
k=0
Vérifier que P(θr = +∞) = 0.

4. Donner une interprétation des variables aléatoires réelles τr et θr en terme de jeu de
Pile-ou-Face.
5. Montrer qu’un des deux modèles précédents permet de formaliser le problème dit des
boîtes d’allumettes de Stephan Banach :
Un fumeur a dans chacune de ses deux poches une boîte contenant au départ N
allumettes. Chaque fois qu’il désire fumer une cigarette, il choisit une poche au hasard.
Quelle est la probabilité que, le fumeur se rendant compte pour la première fois qu’une
boîte est vide, l’autre boîte contienne k allumettes où k est un entier naturel inférieur ou
égal à N ?
Exercice IV
Le but de cet exercice est de montrer qu’il n’existe pas de probabilité P sur l’espace (N∗ , P(N∗ )
1
telle que, pour tout n ≥ 1, P(nN∗ ) = où nN∗ = {nk, k ∈ N∗ }.
n
Supposons qu’une telle probabilité existe. Soit (pk )N la suite des nombres entiers premiers rangés
en ordre croissant.
1. Par un raisonnement simple montrer que P(lim sup(pk N∗ )) = 0.
k
2. Montrer que la suite (pk N∗ )N est indépendante. En déduire, en utilisant le fait que la
X 1
série = +∞, une autre valeur de P(lim sup(pk N∗ )). Conclure que la probabilité P
k
pk k
n’existe pas.

Besançon
C.2 Devoir 2 à renvoyer le 28 mars 2014 au plus tard

Exercice I
1 2 2
Soit (X , Y ) un couple de variables aléatoires réelles de loi P(X ,Y ) = αe − 2 (x −xy +y ) · λ(2) où
λ(2) est la mesure de Lebesgue sur R2 . Déterminer la constante α et la matrice de dispersion
du couple (X , Y ). Préciser les lois respectives des variables aléatoires réelles X et Y . Le couple
de variables aléatoires réelles (X , Y ) est-il indépendant ?
Exercice II
Théorème de Fisher-Cochran
Soit n ∈ N∗ et (X1 , · · · , Xn ) une suite indépendante de v.a.r. toutes de même loi N 1 (0, 1).
On définit respectivement les v.a.r. moyenne empirique et variance empirique par
n
X1 + · · · + Xn 1 X
X := et S 2 := (Xk − X )2 .
n n − 1 k=1
1. Montrer que la v.a.r. X12 suit la loi γ( 12 , 12 ) aussi appelée loi du Khi-deux à 1 degré de
liberté et notée χ2 (1).
2. En utilisant la fonction caractéristique des lois Gamma, en déduire que la loi de la v.a.r.
Xn
Xk2 est γ( 12 , n2 ) aussi appelée loi du Khi-deux à n degrés de liberté notée χ2 (n).
k=1
3. Montrer qu’il existe une matrice orthogonale C de la forme
 
c1,1 c1,2 ··· c1,n
 c2,1 c2,2 ··· c2,n 
 .. .. ..
 
C = . ..
. . . .

···
 
 cn−1,1 cn−1,2 cn−1,n 
√1 √1 ··· √1
n n n
4. Déterminer la loi du vecteur aléatoire Y := C X .

n
X 1
5. Calculer Yn et Yk2 à l’aide de X1 , · · · , Xn . En déduire que X = √ Yn et S 2 =
k=1
n
n−1
1 X 2
Y .
n − 1 k=1 k
6. Démontrer le théorème de Fisher-Cochran : Soit (X1 , · · · , Xn ) une suite indépendante
de v.a.r. de même loi N 1 (0, 1). Alors (X , S 2 ) est indépendant, X suit la loi N 1 (0, n1 ) et
(n − 1)S 2 suit la loi χ2 (n − 1).
Exercice III
Besançon
Soit (εi )i≥1 une suite indépendante de v.a.r. de même loi N 1 (0, 1) et X0 une v.a.r. indépen-
dante de la suite (εi )i≥1 et de loi PX0 = N 1 (m, σ 2 ). On définit la suite de v.a.r. (Xn )n≥1 de
la façon suivante : Xn := ln (X0 , . . . , Xn−1 ) + bn εn où (bn )n≥1 est une suite de réels et (ln )n≥1
une suite de formes linéaires sur Rn . Montrer que, pour tout n ≥ 1, il existe une forme linéaire
Ln sur Rn+1 telle que Xn = Ln (X0 , ε1 , · · · , εn ) et en déduire que le vecteur (X0 , . . . , Xn ) est
gaussien.

Besançon
C.3 Devoir 3 à renvoyer le 18 avril 2014 au plus tard

Exercice I
Théorème de Weierstrass
Soient f une application continue de [0, 1] dans R et x ∈ [0, 1]. Pour tout n ∈ N∗ , notons Sn
une v.a.r. binomiale de loi B(n, x).
1. Montrer que pn (x) := E[f ( n1 Sn )] est un polynôme en x appelé polynôme de Bernstein
de f .
2. En utilisant l’uniforme continuité de f sur [0, 1] montrer que, pour tout ε > 0, il existe
δ > 0 tel que, pour tout n ∈ N∗ et tout x ∈ [0, 1],
1
|pn (x) − f (x)| ≤ E[|f ( Sn ) − f (x)|]
n
1 1
≤ εP | Sn − x| < δ + 2P | Sn − x| ≥ δ sup |f (x)|.
n n 0≤x≤1
En déduire que, pour tout ε > 0, il existe δ > 0 tel que, pour tout n ∈ N∗ et tout
x ∈ [0, 1],
x(1 − x)
|pn (x) − f (x)| ≤ ε + 2 sup |f (x)|.
nδ 2 0≤x≤1
3. Démontrer le théorème de Weierstrass : Toute application continue de [0, 1] dans R
est limite uniforme sur [0, 1] d’une suite de polynômes.
Exercice II
Soit (Xn )n≥1 une suite indépendante de v.a.r. de même loi de Cauchy C(1) (Pour la définition,
k=n
X
cf. formulaire de l’annexe A, page 205). Pour tout n ≥ 1, on pose Sn := Xk . Étudier les con-
k=1
1 1 1
vergences en probabilité et en loi des suites de v.a.r. √ Sn , Sn et Sn .
n n≥1 n n≥1 n2 n≥1
Exercice III
Soit (Uk )N une suite indépendante de v.a.r. de loi normale centrée et de variance σ 2 > 0. Pour
tout θ ∈ R, on définit la suite (Xk )N par la relation de récurrence Xn = θXn−1 + Un , pour tout
n ≥ 1, avec X0 = 0.
1. Déterminer, pour tout n ∈ N, la loi de la v.a.r. Xn .
2. Étudier la convergence en loi de la suite de v.a.r. (Xk )N .

Besançon
Bibliographie.
[1] Lelong-Ferrand J. - Arnaudiès J.M., Cours de mathématiques, Dunod, 1977.
[2] Ansel J.P.- Ducel Y., Exercices corrigés en théorie de la mesure et de l’intégration, Ellipses,
1995.
[3] Ansel J.P.- Ducel Y., Exercices corrigés en théorie des probabilités, Ellipses, 1996.
[4] Bouleau N., Probabilités de l’ingénieur : variables aléatoires et simulation, Hermann, 1986.
[5] Brémaud P., Introduction aux probabilités : modélisation des phénomènes aléatoires,
Springer-Verlag, 1988.
[6] Commission inter-IREM "Statistique et Probabilités" (coordination M. Henry), Autour
de la modélisation en probabilités, Presses universitaires de Franche-Comté, collection
"Didactiques", Besançon, 2001
[7] Ducel Y., Introduction à la théorie mathématique des probabilités, Ellipses, 1998.
[8] Gramain A., Intégration, Hermann, coll. Méthodes, 1994.
[9] Guinot M., Le paradoxe de Banach-Tarski, Aléas, 1991.
[10] Hennequin P.L., Pourquoi des tribus ?, Bulletin APMEP n ¡ 303, pp 183-195.
[11] Leboeuf C.- Roque J.L.- Guegand J., Cours de probabilités et de statistiques, Ellipses,
2ème édition 1983.
[12] Leboeuf C.- Roque J.L.- Guegand J., Exercices corrigés de probabilités, Ellipses, 1987.
[13] Revuz D., Mesure et intégration, Hermann, coll. Méthodes, 1994.
[14] Stoyanov J., Counterexamples in probability, John Wiley and Sons, 1989.

Theorie Des Probabilites

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Theorie Des Probabilites

Uploaded by

Copyright:

Available Formats

Cours de théorie des

Licence de mathématiques, 3ième année

Année universitaire 2013-2014

En revanche ce cours suppose connus les concepts classiques de la théorie de la mesure et

Outre ces résultats spécifiques, le cours nécessitera la connaissance de résultats et de techniques

Les exercices sont divisés en deux catégories :

Pour une justification du choix du formalisme et de sa signification en tant que modèle de la

CT U C entre de T élé-enseignement U niversitaire–Franche-Comté–Besançon

Bruno Saussereau, Laboratoire de Mathématiques de Besançon, UFR des Sciences

Besançon, le 10 janvier 2014,

C entre de T élé-enseignement U niversitaire–Franche-Comté–Besançon CT U

CT U C entre de T élé-enseignement U niversitaire–Franche-Comté–Besançon

2 Loi d’un vecteur aléatoire 19

3 Moments d’un vecteur aléatoire 29

5 Vecteurs aléatoires gaussiens 95

6 Lois des grands nombres et convergences de v.a.r. 105

7 Théorème-limite central et convergence de lois 123

8 Corrigés des exercices 145

B Table de la loi normale standard 211

C Devoirs à envoyer à la correction 215

C entre de T élé-enseignement U niversitaire–Franche-Comté–Besançon CT U

CT U C entre de T élé-enseignement U niversitaire–Franche-Comté–Besançon

On pose R := R ∪ {+∞, −∞}. On étend l’ordre usuel de R à R en posant, pour tout x ∈ R,

Le symbole de Halmos, 2, désignera la fin d’une démonstration.

C entre de T élé-enseignement U niversitaire–Franche-Comté–Besançon CT U

CT U C entre de T élé-enseignement U niversitaire–Franche-Comté–Besançon

Si A et B sont deux parties d’un ensemble E , on note Ac := {x ∈ E / x 6∈ A}, ou aussi {E A

L’ensemble {f ∈ A} est donc une partie de E .

C entre de T élé-enseignement U niversitaire–Franche-Comté–Besançon CT U

Voici quelques propriétés classiques de l’image-réciproque :

On fera attention à l’ambiguïté de la notation c pour le complémentaire d’un ensemble dans

Exercice 1.1. (Corrigé de l’exercice : page 145)

Exercice 1.2. (Corrigé de l’exercice : page 145)

Exercice 1.3. (Corrigé de l’exercice : page 146)

CT U C entre de T élé-enseignement U niversitaire–Franche-Comté–Besançon

1.2 Tribu sur un ensemble

Exercice 1.4. (Corrigé de l’exercice : page 147)

Exercice 1.5. (Corrigé de l’exercice : page 147)

La proposition suivante donne un procédé de construction de parties mesurables à partir d’autres

Démonstration : Ø = E c , on conclut par les axiomes 1 et 2 de la définition des tribus.

On utilise alors le résultat précédent et l’axiome 2. 2

Exercice 1.6. (Corrigé de l’exercice : page 148)

On peut de même définir la tribu borélienne sur B(R) :

Exercice 1.7. (Corrigé de l’exercice : page 148)

Exercice 1.8. (Corrigé de l’exercice : page 148)

La proposition suivante donne des exemples de boréliens de R. Pratiquement ceux-ci correspon-

Démonstration : Pour le singleton, on remarque que si a ∈ R, on peut écrire

On notera que si toute réunion dénombrable ou intersection dénombrable d’intervalles de R est

1.3 Mesures et probabilités

Le triplet (E , A, µ) s’appelle un espace mesuré.

! +∞ i.e. pour toute suite finie A1 , · · · , An d’éléments

Exercice 1.9. (Corrigé de l’exercice : page 148)

1. µ est simplement-additive sur N, i.e.!pour toute suite finie A1 , · · · , An de parties de

λ(d) (]a1 , b1 ]×]a2 , b2 ]× · · · ×]ad , bd ]) = (b1 − a1 )(b2 − a2 ) · · · (bd − ad ).

Exercice 1.10. (Corrigé

1.3.2 Probabilités et événements

Dorénavant, sauf indication contraire, (E , A, µ) désignera un espace de probabilité.

C entre de T élé-enseignement U niversitaire–Franche-Comté–Besançon CT U

Exercice 1.11. (Corrigé de l’exercice : page 149)

Donnons sous forme de proposition un exemple générateur de mesures et en particulier de

est une mesure sur (E , A) notée

Démonstration : On vérifie aisément que µ(Ø) = 0. La σ-additivité de µ découle immédiatement

1. la probabilité binomiale de paramètres n et p :

2. la probabilité de Poisson de paramètre α :