Professional Documents
Culture Documents
probabilités
avec exercices corrigés et devoirs
1 Bruno Saussereau, Laboratoire de Mathématiques de Besançon, UFR Sciences & Techniques, 16,
route de Gray, 25030 Besançon cedex, France. Courriel : bruno.saussereau@univ-fcomte.fr
Présentation du cours i
Présentation du cours
Ce cours correspond à l’unité d’enseignement de théorie des probabilités dispensée dans le cadre
du semestre 5 de l’enseignement à distance de la Licence de Mathématiques.
La diffusion de ce cours est strictement limitée aux étudiants régulièrement inscrits à l’unité
d’enseignement correspondante du Centre de Télé-enseignement Universitaire.
Public visé
Cet enseignement par correspondance s’adresse en priorité aux étudiants désireux de poursuivre
des études de Master en vue de la recherche, de passer le concours de l’agrégation externe de
mathématiques ou à ceux qui se destinent à des études de mathématiques appliquées en vue
de devenir ingénieurs-mathématiciens.
Pré-requis et révisions
Ce cours ne suppose aucun pré-requis sur le formalisme des probabilités. Tout le formalisme et
le vocabulaire des probabilités est défini et introduit au fur et à mesure des besoins. Il suppose
juste une sensibilisation aux phénomènes aléatoires et à leur étude élémentaire telle qu’elle est
enseignée depuis quelques années au lycée et dans le semestre 4 de la Licence. Pour une rapide
mise à niveau sur l’approche élémentaire des probabilités on peut se reporter aux deux ouvrages
classiques [11] et [12]. Certains des exercices proposés dans cette unité sont inspirés de ces
deux ouvrages moyennant quelques adaptations de vocabulaire dues au formalisme introduit
dans le cours.
1. les notions et résultats élémentaires de la théorie des ensembles : ensembles, parties d’un
ensemble, inclusion, appartenance, partition d’un ensemble, intersection et réunion de
plusieurs sous-ensembles, différence de deux sous-ensembles, complémentaire d’un sous-
ensemble, applications, bijections, image-réciproque d’une application, opérations sur les
applications, composition de deux applications,...
2. les éléments de théorie de la mesure et de l’intégrale de Lebesgue
3. le calcul des sommes de séries : série géométrique, série exponentielle, dérivation des
séries entières, ...
4. quelques éléments d’algèbre générale et multilinéaire en dimension finie : binôme de
Newton, nombre de combinaisons, espaces vectoriels, produit scalaire euclidien, norme
euclidienne, calcul matriciel, transposé d’une matrice, opérations élémentaires sur les
matrices, diagonalisation d’une matrice symétrique, ...
Conseils de travail
Le cours proprement dit comprendra des définitions, des propositions (théorèmes, lemmes,
formules, ...), des démonstrations, des exemples et des exercices corrigés. Les démonstrations
doivent être connues, elles sont exigibles lors des épreuves d’évaluation.
Les démonstrations développées dans le cours sont choisies en fonction de l’intérêt péda-
gogique du raisonnement qu’elles mettent en oeuvre. Il faut les étudier, crayon en main, essayer
de les refaire en mettant en évidence les deux ou trois axes de la démonstration qu’il convient
de retenir pour être capable de la restituer sans document. C’est à ce critère que vous pourrez
mesurer si vous avez compris quelque chose. Il est conseillé aussi de bien mettre en évidence
dans ces démonstrations, en les énonçant complètement et en vérifiant que leurs hypothèses
de validité sont satisfaites, les résultats antérieurs sur lesquels elles prennent appui. Certaines
démonstration seront détaillées, d’autres seront volontairement plus succinctes afin de vous
entraîner à détailler par vous-même les passages rapides de la démonstration.
Les exemples du cours servent à illustrer une définition sur un cas particulier ou à montrer
une application concrète d’une proposition. Leur rédaction est aussi parfois volontairement suc-
cincte. Il convient alors d’en détailler les calculs, de vérifier les résultats annoncés, et d’essayer
de noter les astuces ou techniques utilisées et transposables dans d’autres situations, éventuelle-
ment moyennant certaines adaptations. Ce qui est dit pour les exemples est aussi valable pour
tous les exercices proposés en auto-correction et leurs corrigés.
Vous devez essayer de chercher à résoudre le maximum d’exercices, en vous aidant du cours.
Pour les exercices que vous ne savez pas résoudre ou que vous n’avez pas pu chercher, par
exemple par manque de temps, il faut au moins étudier leurs solutions en vous reportant au
chapitre VIII.
Ce qui a été dit, plus haut, pour l’étude des démonstrations s’applique également pour étudier
la correction d’un exercice. Encore une fois, après avoir étudié une démonstration ou la
solution d’un exercice, vous devez être capable de refaire cette démonstration ou cet exercice,
sans regarder le cours, trois ou quatre jours plus tard. C’est là un bon test pour savoir si vous
avez compris la démonstration ou la solution de l’exercice. Il ne faut pas hésiter à réviser les
chapitres déjà travaillés c’est-à-dire à revenir plusieurs fois, après de longs intervalles de temps,
sur les démonstrations ou exercices étudiés auparavant.
Trois devoirs à rédiger et à retourner à la correction sont proposés dans le cadre de cet
enseignement afin de vous permettre de tester vos connaissances et de vous inciter à un travail
régulier. Ces devoirs permettent aussi de montrer au correcteur que vous avez compris le cours,
que vous connaissez les résultats vus en cours et les hypothèses qui les commandent, et que
vous savez les mobiliser pour répondre à une question ou démontrer un résultat nouveau. Il est
donc recommander de tout mettre en œuvre pour atteindre cet objectif.
Il est bon de porter son attention, en particulier, sur les conseils suivants :
Un devoir de mathématiques est un devoir de français qui traite de mathématiques, c’est donc
avant tout un texte de français. Il doit donc être rédigée de façon correcte en français. Les
hypothèses spécifiques justifiant l’utilisation de chaque théorème doivent être correctement ex-
plicitées et le résultat du cours utilisé doit être clairement identifié voire explicitement énoncé.
Les résultats intermédiaires et les conclusions obtenues doivent être mis en évidence. Les nota-
tions utilisées ou introduites, surtout si elles sont nouvelles par rapport au cours, doivent être
clairement annoncées. La rédaction du cours peut être considérée comme un guide de rédaction
d’un texte mathématique.
Les épreuves d’examen comporteront des exercices et des questions portant sur l’ensemble
du cours. Elles peuvent également comprendre des questions de cours proprement dites : énon-
cer un ou plusieurs résultats du cours, refaire une ou plusieurs démonstrations vues en cours,
traiter un exemple ou un exercice corrigé proposés dans les documents fournis dans le cadre de
cette unité d’enseignement. La table de la loi normale standard de l’annexe B (sans les explica-
tions sur son utilisation), ainsi que le formulaire de l’annexe A, seront disponibles avec les sujets
lors des épreuves d’évaluation. Lors de ces épreuves, l’utilisation d’une calculatrice est autorisée.
Certaines propositions du cours concernent des résultats mentionnés "hors programme". Ils
sont simplement donnés dans un but de culture mathématique, mais ne feront donc pas l’objet
d’évaluation et leur connaissance n’est pas exigible dans les évaluations. Souvent ils apportent
des compléments ou des précisions sur un résultat ou une remarque qui viennent d’être faits.
Enfin, il est évident que l’appréciation d’une copie par le correcteur, que ce soit celle d’un
devoir ou d’une épreuve d’examen, accordera une place importante à la rédaction, à la clarté
des justifications et de l’argumentation ainsi qu’à la présentation globale de la copie. Une copie
illisible ou mal rédigée pourra ne pas être corrigée et sera sanctionnée en conséquence.
C entre de T élé-enseignement U niversitaire–Franche-Comté–Besançon CT U
Besançon
iv Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014
Annexes
Ce document comprend cinq annexes :
1. L’annexe A, page 205, est un rappel des principales relations mathématiques utilisées
dans les calculs de probabilités et des lois de probabilités classiques à connaître. Ce
formulaire sera disponible lors des épreuves de contrôles ou d’examens.
2. L’annexe B, page 211, explique l’usage de la table statistique de la loi normale centrée-
réduite reproduite en fin de l’annexe. La table de la loi normale standard, sans les
explications qui l’accompagnent, sera disponible lors des épreuves d’examen.
3. L’annexe C, page 215, comprend les sujets des trois devoirs qui devront être envoyés
à la correction et précise les dates de ces trois envois. Les corrigés de ces devoirs seront
retournés avec la copie corrigée.
Bibliographie
Pour le cours, et surtout pour apporter des compléments à ce cours, on pourra utiliser avec
profit le livre de [4]. Pour les exercices on pourra se reporter à [2] pour ceux relevant de la
théorie de la mesure de de l’intégration, et à [3] où on trouvera des exercices supplémentaires
concernant la théorie des probabilités.
Calendrier de travail
Le cours lui-même est divisé en sept chapitres auxquels s’ajoute un huitième chapitre regroupant
les corrections des exercices proposés dans les chapitres précédents.
Les trois premiers chapitres sont principalement destinés à mettre en place le formalisme des
probabilités en transcrivant dans le langage des probabilités les notions de théorie de la mesure
et de l’intégration vues dans l’unité correspondante : tribu, application mesurable, mesure,
image d’une mesure, règles d’intégration, théorèmes de Lebesgue, ... etc. Normalement ces
notions ont été vues dans l’unité d’intégration qui est conseillée pour suivre cet enseignement
de probabilité. Elles doivent être étudiées assez rapidement de façon à faire porter votre travail
sur les autres chapitres. Dans ces trois premiers chapitres la notion de loi de probabilité, le
théorème du transfert, la notion de fonction caractéristique et les critères d’identification des
lois, doivent être bien assimilés et maîtrisés.
Les concepts vraiment nouveaux et propres à la théorie des probabilités : indépendance, vecteurs
gaussiens, convergences, théorèmes-limites, ... etc, sont vues dans les quatre derniers chapitres
et constituent le noyau de l’unité de probabilités.
Il faut consacrer en gros un tiers du temps de travail de l’unité à l’étude des chapitres 1, 2 et
3. Un tiers du temps aux chapitres 4 et 5, et un tiers du temps aux chapitres 6 et 7.
Vous avez à rédiger trois devoirs à envoyer pour correction à l’adresse suivante :
1. Le devoir 1, dont le texte se trouve en annexe C, page 216, porte sur les chapitres I, II
et III. Il doit être envoyé au plus tard pour le 21 février 2014.
2. Le devoir 2, dont le texte se trouve en annexe C, page 218, porte principalement sur le
chapitre IV et V mais pourra bien sûr faire appel à des résultats des chapitres précédents.
Il doit être envoyé au plus tard pour le 28 mars 2014.
3. Le devoir 3, dont le texte se trouve en annexe C, page 220, porte principalement sur
les chapitres VI et VII, mais pourra bien sûr faire appel à des résultats des chapitres
précédents. Il doit être envoyé au plus tard pour le 18 avril 2014.
Le calendrier ci-dessus est donné à titre indicatif. Bien entendu, j’accepterai de corriger
vos devoirs à n’importe quel moment. Cependant je vous conseille d’essayer de travailler
régulièrement et de suivre ce calendrier.
Remarque finale
Comme pour tout document, des erreurs ou des coquilles peuvent s’être glissées lors de sa
rédaction, merci de me signaler celles que vous pourriez relever. Plus généralement, si vous
avez des remarques sur le document, n’hésitez pas à m’en faire part.
Bruno Saussereau
Présentation du cours i
Notations xi
1 Modèles probabilistes 1
1.1 Préliminaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Tribu sur un ensemble . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Mesures et probabilités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3.1 Mesure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3.2 Probabilités et événements . . . . . . . . . . . . . . . . . . . . . . . 7
1.3.3 Propriétés élémentaires des probabilités . . . . . . . . . . . . . . . . . 11
1.4 Fonctions de répartition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4 Indépendance stochastique 61
4.1 Intégration sur Rn+p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.2 Indépendance de vecteurs aléatoires, d’événements, de tribus . . . . . . . . . . 66
4.2.1 Indépendance de vecteurs aléatoires . . . . . . . . . . . . . . . . . . . 66
4.2.2 Critères d’indépendance de vecteurs aléatoires . . . . . . . . . . . . . 68
4.2.3 Indépendance d’événements, de tribus . . . . . . . . . . . . . . . . . . 77
4.3 Tribu et événements asymptotiques . . . . . . . . . . . . . . . . . . . . . . . 80
4.4 Somme de v.a.r. indépendantes . . . . . . . . . . . . . . . . . . . . . . . . . 84
4.5 Exercices de révision sur les chapitres I à IV . . . . . . . . . . . . . . . . . . . 90
A Formulaire 205
A.1 Rappels de notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
A.2 Quelques relations à connaître en probabilités . . . . . . . . . . . . . . . . . . 205
A.3 Probabilités usuelles discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . 207
A.4 Probabilités usuelles à densité . . . . . . . . . . . . . . . . . . . . . . . . . . 208
CT U C entre de T élé-enseignement U niversitaire–Franche-Comté–Besançon
Besançon
Table des matières. ix
Bibliographie. 221
Notations
Nous répertorions ici quelques notations générales qui seront utilisées dans l’ensemble du cours.
On note de façon classique respectivement par les lettres, N, Z, Q, R, C, les ensembles des
nombres entiers naturels, relatifs, rationnels, réels, complexes.
Les lettres P et E seront introduites dans le cours mais ne devront pas être confondues avec
les notations d’ensembles de nombres.
On suppose connues les notations classiques de la théorie élémentaire des ensembles : intersec-
tion ∩, réunion ∪, différence de deux ensembles \, ensemble vide Ø, passage au complémentaire
{ ou plus fréquemment c , inclusion (au sens large) ⊆.
Le symbole := signifie "est égal par définition". Il indique que le membre de gauche de := est
une notation pour le membre de droite.
Chaque proposition, exemple, exercice, est numérotée par deux nombres séparés par un point.
Par exemple "proposition 5.12" désigne la proposition 12 du chapitre 5.
Chapitre 1
Modèles probabilistes
Le formalisme de la théorie des probabilités utilise les outils de la théorie de la mesure en
adoptant un vocabulaire spécifique aux probabilités.
1.1 Préliminaires
Certaines définitions et notations de la théorie élémentaire des ensembles seront constamment
utilisées dans la suite. Afin d’éviter toute ambiguïté nous les rappelons rapidement dans ce
paragraphe.
Définition 1.1.
Dans ce cours un ensemble sera dit dénombrable s’il est en bijection avec une partie (finie ou
infinie) de N.
(Attention : dans certains ouvrages, un tel ensemble est dit au-plus-dénombrable, le quali-
ficatif dénombrable désignant alors les ensembles possédant un nombre fini d’éléments.)
A \ B := A ∩ B c = {x ∈ A / x 6∈ B}.
Définition 1.2.
Soit f une application d’un ensemble E dans un ensemble F . Si A est une partie de F ,
l’image-réciproque de A par f est l’ensemble, noté par les probabilistes {f ∈ A}, défini par
{f ∈ A} := {x ∈ E / f (x) ∈ A}.
Exemples 1.1.
Si f et g sont deux applications de E dans R et a un réel,
{f = g } := {x ∈ E / f (x) = g (x)}, {f ≤ g } := {x ∈ E / f (x) ≤ g (x)},
{f = a} := {x ∈ E / f (x) = a}.
En vue de la proposition
[ suivante, rappelons que si (Ai )I est une famille quelconque de parties
d’un ensemble F , Ai désigne la partie de F constituée des éléments x de F tels qu’il existe
i∈I
au moins un indice k ∈ I , x ∈ Ak . De même,
big capi∈I Ai désigne la partie de F constituée des éléments x de F tels que, pour tout indice
k ∈ I , x ∈ Ak .
4. {f ∈ A}c = E \ {f ∈ A} = {f ∈ F \ A} = {f ∈ Ac }.
Définition 1.3.
L’indicatrice d’une partie A de E est l’application, notée 1lA , de E dans R définie, pour
tout x ∈ E , par 1lA (x) := 0 si x 6∈ A et 1lA (x) := 1 si x ∈ A.
Enfin, rappelons que, si f et g sont deux applications d’un ensemble E dans R, la notation
f ≤ g signifie que, pour tout x ∈ E , f (x) ≤ g (x).
Définition 1.5.
Le couple (E , A) s’appelle un espace mesurable et les éléments de A sont appelés les
parties mesurables de E relativement à la tribu A ou parties A-mesurables de E
On notera bien que A est un ensemble constitué de parties de E et donc une partie de P(E ),
l’ensemble de toutes les parties de E .
Exemples 1.2.
les familles de parties de E , {Ø, E } et P(E ), sont des tribus sur E appelées tribus triviales
de E . On peut donc définir au moins une tribu sur tout ensemble E .
Proposition 1.2.
Soit A une tribu sur E .
1. Ø ∈ A.
2. Si (Ai )i∈I , où I ⊆ N, est une suite (finie ou infinie) d’éléments de A, alors
\ [
Ai ∈ A et Ai ∈ A.
i∈I i∈I
!c
\ [
Ai = Aci
i∈I i∈I
Pour des raisons techniques qui seront précisées plus loin, lorsqu’on travaille sur E := R ou
plus généralement E := Rd avec d ∈ N∗ , il n’est pas possible d’utiliser la tribu P(R) ou
P(Rd ) car elle est trop "grosse". Pour des explications plus détaillées consulter l’annexe ??,
page ??. On doit donc définir une tribu plus "petite" (au sens de l’inclusion des ensembles)
mais suffisamment riche en éléments pour contenir au moins les ensembles utilisés dans les
applications pratiques de la théorie des probabilités, comme les intervalles de R ou les pavés de
Rd , et leurs réunions ou intersections dénombrables.
Pour cela on définit la tribu borélienne ou tribu de Borel de R notée B(R). C’est la plus
petite des tribus sur R contenant tous les intervalles de la forme ]a, b], où a et b sont des réels
tels que a < b. Cette dernière phrase signifie que si A est une tribu sur R contenant tous les
intervalles de la forme ]a, b], où a et b sont des réels tels que a < b, alors tout élément de la
tribu B(R) est un élément de la tribu A.
Plus généralement,
Définition 1.6.
La tribu borélienne ou tribu de Borel de Rd ,, notée B(Rd ), est la plus petite des tribus sur
Rd contenant tous les pavés de Rd i.e. les parties de la forme ]a1 , b1 ]×]a2 , b2 ]× · · · ×]ad , bd ]
où, pour tout entier 1 ≤ i ≤ d, ai et bi sont des réels tels que ai < bi .
Définition 1.7.
La tribu borélienne sur R, notée B(R), est la plus petite des tribus sur R contenant tous les
intervalles de la forme ]a, b], où a et b sont des réels tels que a < b, et les intervalles ]a, +∞]
où a ∈ R.
Définition 1.8.
Les éléments des tribus B(R), resp. B(Rd ), sont appelés boréliens de R, resp. Rd .
Plus généralement :
Définition 1.9.
Soit C une famille de partie d’un ensemble E . On appelle tribu engendrée par C sur E , et
on note σ( C), la plus petite tribu (au sens de l’inclusion) définie sur E contenant la famille C.
On vérifiera aisément que la tribu σ( C) est l’intersection de toutes les tribus sur E qui conti-
ennent C.
Exemples 1.3.
On montre en théorie de la mesure que la tribu borélienne de Rd est engendrée par la
famille constituée des parties ouvertes de Rd .
Dans la suite du cours les ensembles R et Rd seront toujours supposés munis de leurs tribus
boréliennes.
On conclut alors avec la proposition 1.2 de la page 4. Pour l’assertion 2, on utilise l’axiome
3 de la définition des tribus. Pour démontrer 3, on montre que tout intervalle peut être écrit
comme réunion ou intersection dénombrable d’intervalles de la forme ]a, b] ou de singletons.
Par exemple [a, b] =]a, b] ∪ {a} ce qui prouve que tout intervalle fermé borné est borélien.
Autres exemples : ]a, b[=]a, b] \ {b} ou encore
+∞
[ +∞
1 [
]a, b[= a, b − , ] − ∞, b] = ] − k, b].2
k=1
k k>−b
De plus on montre que B(Rd ) est strictement incluse dans l’ensemble des parties de Rd . Il
existe donc des parties de Rd qui ne sont pas mesurables pour la tribu de Borel. Mais dans
la pratique, tous les ensembles que nous serons amenés à utiliser dans Rd seront en fait des
boréliens.
On admettra qu’il existe une unique mesure sur (Rd , B(Rd )), notée λ(d) et appelée mesure
de Lebesgue sur Rd , telle que, pour tout pavé de la forme ]a1 , b1 ]×]a2 , b2 ]× · · · ×]ad , bd ]
où pour tout entier 1 ≤ i ≤ d, les réels ai et bi vérifient ai < bi ,
La mesure de Lebesgue étend donc les notions de mesure de longueur (cas d = 1), mesure
d’aire (cas d = 2), mesure de volume (cas d = 3) à toutes les parties de Rd qui sont des
boréliens. Dans le cas d = 1 on notera, pour simplifier, λ := λ(1) .
On montre que λ(d) Rd = +∞. On dit que la mesure de Lebesgue est une mesure non finie
contrairement aux probabilités que nous allons définir ci-dessous et qui sont des cas particuliers
de mesures finies.
Définition 1.12.
Une partie A de E est dite négligeable pour µ, s’il existe un événement B tel que A ⊆ B avec
µ(B) = 0. Une propriété P(x), dépendant de l’élément x ∈ E , est dite µ-presque-sûre (en
abrégé µ-p.s.) si l’ensemble des x ∈ E pour lesquels la propriété P(x) n’est pas vérifiée est
négligeable pour µ.
Définition 1.13.
Deux événements A et B sont dits µ-presque-sûrement égaux si l’événement (A\B)∪(B \A)
est négligeable pour µ.
Un événement négligeable pour µ est µ-presque-sûrement vide, c’est-à-dire µ-presque-sûrement
impossible.
Exemples 1.4.
1) Donnons un premier exemple de probabilité sur E := Rd . Comme convenu on sous-
entend A := B(Rd ). Soit a ∈ Rd fixé, on note δa l’application de B(Rd ) dans {0, 1}
définie, pour tout borélien A, par δa (A) = 1lA (a) c-à-d δa (A) = 1 si a ∈ A et δa (A) = 0
sinon.
δa est une probabilité sur Rd , B(Rd ) appelée probabilité de Dirac au point a sur Rd .
On vérifie aisément que toute partie de Rd ne contenant pas a est négligeable pour δa . Le
singleton {a} est un événement δa -presque-sûrement égal à l’événement certain Rd .
2) D’après le résultat de l’exercice 1.10, la mesure de Lebesgue n’est pas une probabilité
sur Rd .
Cette somme peut être éventuellement infinie. Pour une démonstration du lemme se reporter
à [1] tome 2, p. 306. 2
+∞
X
On notera que si les mesures µk sont des probabilités sur (E , A) et si αk = 1, alors la
k=0
+∞
X
mesure αk µk est une probabilité sur (E , A).
k=0
Exemples 1.5.
Appliqué au cas particulier où les probabilités µk sont les probabilités sur R de Dirac au
point k ∈ N, le procédé précédent permet de construire d’autres exemples classiques de
probabilités. Si n ∈ N∗ , α ∈]0, +∞[, p ∈]0, 1[ et q := 1 − p, on définit :
CT U C entre de T élé-enseignement U niversitaire–Franche-Comté–Besançon
Besançon
Chapitre 1. Modèles probabilistes 9
Définition 1.14.
d
Une probabilité µ sur
XR est dite discrète et portée par l’ensemble F si elle peut s’écrire
sous la forme µ = pn δan où (pn )N est une suite de réels positifs ou nuls, (an )N est une suite
n∈N
de vecteurs de Rd et F désigne l’ensemble des an ∈ Rd pour lesquels pn > 0.
Exemples 1.6.
Les probabilités binomiale B(n, p), de Poisson P(α), de Dirac δa sont discrètes et portées
respectivement par les ensembles {0, 1, · · · , n}, N, {a}.
Il ne faut pas croire que toutes les probabilités soient discrètes. Par exemple on admettra qu’il
existe une unique probabilité sur R, notée N 1 (0, 1) et appelée probabilité de Gauss-Laplace
standard, ou probabilité normale standard, telle que pour tout x ∈ R,
Z x
1 1 2
N 1 (0, 1) (] − ∞, x]) = √ e − 2 t dt.
2π −∞
C entre de T élé-enseignement U niversitaire–Franche-Comté–Besançon CT U
Besançon
10 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014
On verra un peu plus loin que cette probabilité ne peut pas s’écrire sous la forme d’une com-
binaison linéaire de probabilités de Dirac et n’est donc pas discrète.
Remarquons que le nombre réel N 1 (0, 1) (] − ∞, x]) représente la mesure de l’aire délimitée
1 1 2
par l’axe des abscisses t, la courbe d’équation y = √ e − 2 t , et la droite d’équation t = x. On
2π
1 1 2
dira pour simplifier qu’il s’agit de la mesure de l’aire sous la courbe d’équation y = √ e − 2 t ,
2π
comprise entre −∞ et x.
On montre alors qu’il existe une unique probabilité µ sur R telle que, pour tout x ∈ R,
Z x
µ (] − ∞, x]) = ρ(t)dt.
−∞
On dit que µ est une probabilité à densité sur R. On écrit µ = ρ · λ pour exprimer que µ
admet ρ pour densité. Nous généraliserons de façon définitive la définition de densité d’une
probabilité sur Rd au chapitre III par la définition 3.2, page 35.
On peut de façon plus générale définir des mesures à densité, qui ne sont plus nécessaire-
ment des probabilités, en remplaçant dans laZ définition de la densité ci-dessus, la condition
Z +∞ +∞
ρ(t)dt = 1 par la condition plus faible ρ(t)dt < +∞.
−∞ −∞
L’existence des mesures à densité résulte d’un théorème de prolongement assez technique que
nous n’énoncerons pas. Nous nous contenterons d’admettre l’existence de telles mesures.
Exemples 1.7.
On pourrait se demander pourquoi on ne définit pas les mesures comme des applications µ
σ-additives de l’ensemble des parties de E dans [0, +∞] avec µ(Ø) = 0. Cela reviendrait à
prendre toujours A := P(E ) et éviterait le recours à la notion de tribu. En fait, on montre que
certaines probabilités, comme celle de Gauss définie plus haut, ne peuvent pas être définies pour
toutes les parties de R. Plus précisément, on montre que, toujours dans le cas de E := R, les
seules probabilités qui satisferaient à cette nouvelle définition seraient les probabilités discrètes.
Malheureusement cette famille n’est pas assez riche pour permettre de modéliser grand nombre
des situations aléatoires qui se présentent dans les applications concrètes de la théorie. Pour
plus de développements se reporter à l’annexe ??, page ??, de ce cours.
Pour démontrer l’inégalité de Bonferroni nous aurons besoin du résultat ensembliste suivant
laissé en exercice :
Proposition 1.6.
Soit (An )N une suite de parties d’un ensemble E . Posons B0 := A0 et, pour tout entier k ≥ 1,
Bk := Ak \ (A0 ∪ A1 ∪ · · · ∪ Ak−1 ) . Alors, pour tout entier n ≥ 0, Bn ⊆ An et la suite (Bn )N est
[n [n
formée de parties deux à deux disjointes vérifiant, pour tout entier naturel n, Bk = Ak ,
k=0 k=0
+∞
[ +∞
[
et Bk = Ak .
k=0 k=0
Ce résultat est souvent utile pour se ramener à des familles de parties deux à deux disjointes
car, du fait de l’axiome de σ-additivité, il est beaucoup plus facile de manipuler des réunions
C entre de T élé-enseignement U niversitaire–Franche-Comté–Besançon CT U
Besançon
12 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014
de parties de E deux à deux disjointes. Voici une illustration de cette remarque dans la
démonstration ci-dessous de l’inégalité de Bonferroni.
Proposition 1.7.
Inégalité de Bonferroni ou propriété de sous-additivité
Pour toute suite (An )N d’éléments de A,
+∞
! +∞
[ X
µ Ak ≤ µ(Ak ).
k=0 k=0
Proposition 1.9.
Théorème de continuité monotone
1. Pour toute suite (An )N d’éléments de A, croissante au!sens de l’inclusion, (µ(An ))N est
+∞
[
une suite réelle croissante convergeant vers µ Ak c-à-d
k=0
+∞
!
[
µ Ak = lim µ(An ).
n→+∞
k=0
+∞
!
\
µ Ak = lim µ(An ).
n→+∞
k=0
+∞
! +∞
! +∞ +∞
[ [ X X
µ Ak = µ Bk = µ(Bk ) = µ(A0 ) + (µ(Ak ) − µ(Ak−1 ))
k=0 k=0 k=0 k=1
k=n
X
= µ(A0 ) + lim (µ(Ak ) − µ(Ak−1 )) = lim µ(An ).
n n
k=1
+∞
!
\
µ Ak = lim (1 − µ(Acn )) = lim µ(An ).
n n
k=0
L’unicité dans le cas des probabilités résulte d’un théorème, appelé théorème d’unicité, qui
découle lui-même du théorème des classes monotones qu’on admettra, dont il est utile de
connaître l’énoncé. Commençons tout d’abord par donner deux définitions :
Définition 1.16.
Une famille M de parties de E est appelée une classe monotone sur E si elle vérifie les trois
axiomes suivants :
1. E ∈ M.
2. Si A ∈ M et B ∈ M avec B ⊆ A, alors A \ B ∈ M.
3. Si (An )N est une suite croissante au sens de l’inclusion d’éléments de la famille M, alors
+∞
[
An ∈ M.
n=0
De façon analogue à la définition correspondante pour les tribus, si J est une famille de parties
de E , on appellera classe monotone engendrée par J la plus petite classe monotone sur
E contenant tous les éléments de la famille J . On vérifie aisément que la classe monotone
engendrée par J est l’intersection de toutes les classes monotones sur E contenant tous les
éléments de la famille J .
Une application importante de ce théorème est le théorème d’unicité sur les probabilités :
Proposition 1.11.
Théorème d’unicité pour les probabilités
Soit C une famille, stable par intersections finies, de parties d’un ensemble E . Soit A la tribu
engendrée par C, i.e. A = σ( C). Si µ et ν sont deux probabilités définies sur l’espace (E , A)
telles que, pour tout A ∈ C, µ(A) = ν(A), alors, pour tout A ∈ A, µ(A) = ν(A), i.e. µ = ν.
Démonstration : Notons H la famille des événements A ∈ A tels que µ(A) = ν(A). D’après
l’item 1 de la proposition 1.9, on vérifie aisément que H est une classe monotone qui contient la
famille C. Donc H contient la classe monotone engendrée par C. Comme, par hypothèse C est
stable par intersections finies, d’après le théorème des classes monotones, la classe monotone
engendrée par C coïncide avec la tribu engendrée par C, c’est-à-dire A. Finalement, pour tout
A ∈ A ⊆ H, µ(A) = ν(A). 2
Ce résultat montre que pour prouver que deux probabilités sont égales, il suffit de mettre en
évidence qu’elles coïncident sur une famille engendrant la tribu, stable par intersections finies.
Cette remarque justifie la définition suivante :
Définition 1.17.
Une famille de parties d’un ensemble non vide E stable par intersections finies est appelée un
π-système de parties de E .
Ce résultat a pour conséquence que pour identifier une probabilité µ sur R, il suffit d’identifier
l’application Fµ de R dans [0, 1], définie, pour tout x ∈ R, par Fµ (x) := µ(] − ∞, x]).
Définition 1.18.
On dit que Fµ est la fonction de répartition de la probabilité µ, en abrégé f.r. .
Avec ces notations on peut énoncer autrement le lemme d’unicité pour les probabilités sur R :
Proposition 1.13.
Deux probabilités sur R sont identiques si, et seulement si, elles ont la même fonction de
répartition.
Exemples 1.8.
1) La f.r. de δa , où a ∈ R, est 1l[a,+∞[ .
Pour montrer que F admet une limite-à-gauche, considérons un point a de R∪{+∞} et posons
l := sup F (x). l est dans R puisque F est bornée par 1. Soit ε > 0, il existe x0 < a tel que
x<a
l ≥ F (x0 ) > l − ε. Donc, pour tout x ∈]x0 , a[, l ≥ F (x) ≥ F (x0 ) > l − ε c-à-d |F (x) − l| < ε,
ce qui donne l’existence de la limite-à-gauche en a pour F .
On montre de même l’existence d’une limite-à-droite F (a+) := inf F (x).
x>a
+∞
1 \ 1
La suite d’intervalles ] − ∞, a + ] est décroissante et ] − ∞, a + ] =] − ∞, a], donc
n N∗ k=0
n
par le théorème de continuité monotone 1.9 de la page 12
1
µ (] − ∞, a]) = lim µ ] − ∞, a + ]
n n
1
c-à-d F (a) = lim F a + = F (a+) car la limite-à-droite existe au point a. F est donc
n n
continue-à-droite en tout point de R.
+∞
\
La suite d’intervalles (] − ∞, −n])N est décroissante et ]−∞, −n] = Ø. La suite (] − ∞, n])N
n=0
+∞
[
est croissante et ] − ∞, n] = R. Par application du théorème de continuité monotone à ces
n=0
deux dernières suites, on obtient les valeurs des limites de F en −∞ et +∞.
2-a) µ(]a, b]) = µ(] − ∞, b]) − µ(] − ∞, a]) car ]a, b] =] − ∞, b]\] − ∞, a]. D’où le premier
résultat. [ 1
Comme ] − ∞, a[= ] − ∞, a − ] et que F admet une limite-à-gauche en a d’après la
n≥1
n
première partie,
1 1
µ(] − ∞, a[) = lim µ(] − ∞, a − ]) = lim F a − = lim F (x) = F (a−).
n→+∞ n n→+∞ n x→a,x<a
alors il existe une unique probabilité sur R dont F est la fonction de répartition.
Chapitre 2
Ω := {(i, j) ∈ N2 /1 ≤ i, j ≤ 6}.
Les événements peuvent être modélisés par des parties de Ω. On peut prendre comme tribu
des événements l’ensemble P(Ω) de toutes les parties de Ω. Les dés étant équilibrés, on
choisira pour probabilité P sur (Ω, P(Ω)) l’équiprobabilité sur Ω i.e. pour tout (i, j) ∈ Ω,
1 1 X
P({(i, j)}) = ou encore P = δ(i,j) .
36 36 1≤i,j≤6
En fait l’ingénieur s’intéressera surtout aux événements de la forme "La hauteur maximale
du niveau du fleuve sur une année appartient à A" où A est un intervalle de R. Cet événe-
ment se modélise par la partie eA de Ω formée des fonctions ω ∈ C([0, 1], R+ ) telles que
sup0≤t≤1 ω(t) ∈ A. On peut aussi écrire l’événement eA grâce au langage des applications en
notant X l’application de Ω dans R qui à tout ω associe X (ω) = sup0≤t≤1 ω(t) et en remar-
quant que eA = {ω ∈ Ω/X (ω) ∈ A} = {X ∈ A} c-à-d que eA est l’image-réciproque de A par
l’application X .
Pour que l’expression P(X ∈ A) ait un sens, il faudra s’assurer (ou imposer) plus généralement
que, pour tout borélien A de R, l’image-réciproque de A par l’application X soit un élément
de F. Car, comme dans la situation précédente, c’est la valeur de P(X ∈ A) qui intéressera
l’ingénieur, c-à-d l’application PX : A ∈ F 7→ P(X ∈ A). PX est une probabilité sur R donc
un objet mathématique beaucoup plus facile à manipuler qu’une probabilité sur une tribu de
C([0, 1], R+ ).
Dans la suite de l’ouvrage le triplet (Ω, F, P) désignera un espace de probabilité pris comme
référence et quelquefois appelé espace de base . Les ensembles mesurables relativement à F
seront appelés événements de Ω.
CT U C entre de T élé-enseignement U niversitaire–Franche-Comté–Besançon
Besançon
Chapitre 2. Loi d’un vecteur aléatoire 21
Proposition 2.1.
Soit A une partie de E . Alors 1lA est A-mesurable si, et seulement si, A ∈ A.
Démonstration : On remarque que si B est un borélien de R, l’image réciproque de B par 1lA
est l’un des ensembles Ø, A, Ac , ou E . Ce qui prouve par définition de la mesurabilité que 1lA
est A-mesurable si, et seulement si, A est A-mesurable. 2
Définition 2.2.
Dans les cas où (E , A) := (Rn , B(Rn )) et (F , B) := (Rk , B(Rk )) on dit que f est borélienne
pour exprimer qu’elle est ( B(Rn ), B(Rk ))-mesurable.
La proposition suivante donne des classes importantes de fonctions boréliennes qui correspon-
dent à la plupart des cas qu’on considérera par la suite. Pour une démonstration d’une partie
de la proposition on pourra consulter [2] exercice I-10.
Proposition 2.2.
(admis)
Toute application continue de Rn dans Rk est borélienne. Toute application monotone de R
dans R est borélienne. Toute dérivée d’une application dérivable de R dans R est borélienne.
Comme pour la notion d’ensemble mesurable, les applications mesurables correspondent aux
applications sur lesquelles la théorie de la mesure permet de dire quelque chose d’intéressant.
On doit s’attendre à ce que toutes les applications qu’on est amené à manipuler dans la pratique
soient mesurables.
Introduisons la notation suivante qui est utile pour étendre une propriété, vraie pour la classe
des fonctions positives, à la classe des fonctions de signe quelconque :
Définition 2.3.
Si f est une application d’un ensemble E dans R notons f + := sup(f , 0) et f − := sup(−f , 0).
Les applications f + et f − sont appelées respectivement la partie positive et la partie
négative de f .
On vérifie aisément que ce sont des applications à valeurs dans [0, +∞] telles que |f | = f + +f −
et f = f + − f − .
Exemples 2.1.
Supposons E := R, si f (x) = x, f + (x) = x1l[0,+∞[ (x) et f − (x) = −x1l]−∞,0] (x).
Grosso modo les opérations classiques sur les applications mesurables conservent la mesurabilité.
Plus précisément, on admettra :
Proposition 2.3.
1. Si f et g sont des applications A-mesurables d’un ensemble E dans Rd et α un réel,
alors αf , hf , g i, f + g , |f | sont des applications A-mesurables, où h·, ·i et | · | désignent
respectivement les produit scalaire et norme usuels de Rd .
2. Si f et g sont des applications A-mesurables d’un ensemble E dans R, alors f + , f − sont
des applications A-mesurables.
3. Si (fn )N est une suite d’applications A-mesurables d’un ensemble E dans R, Alors
supn∈N (fn ), inf n∈N (fn ) sont des applications A-mesurables.
4. Si (fn )N est une suite d’applications A-mesurables d’un ensemble E dans Rd convergeant
simplement vers une application f , alors sa limite f est A-mesurable.
Définition 2.4.
Une application A-mesurable f est dite étagée sur E si elle est à valeurs dans R et si elle
ne prend qu’un nombre fini de valeurs distinctes.
L’intérêt de cette définition réside dans la proposition suivante. Pour la démonstration on pourra
consulter [2] exercice I-13.
Proposition 2.4.
Lemme fondamental (admis)
Toute application A-mesurable de E dans [0, +∞] est la limite d’une suite croissante
d’applications A-mesurables étagées et positives.
Ce lemme est à la base d’une technique de démonstration utilisée en probabilités lorsqu’on veut
montrer que les applications A-mesurables possèdent une certaine propriété P. Pour cela, on
montre que les indicatrices 1lA , où A ∈ A, vérifient P, puis on montre qu’il en est de même
X n
pour les applications A-mesurables de la forme αi 1lAi où αi ∈ R+ et Ai ∈ A, 1 ≤ i ≤ n.
i=1
On montre ensuite, en utilisant le lemme fondamental, que la propriété P est encore vérifiée par
les applications A-mesurables positives, puis par les applications A-mesurables quelconques f
en remarquant que f = f + − f − où f + := sup(f , 0) et f − := sup(−f , 0) sont des applications
A-mesurables positives. Cette technique de démonstration est souvent appelée "technique
des fonctions étagées" .
Définition 2.5.
Si (E , A) := (Ω, F) et (F , B) = (Rd , B(Rd )), une application ( F, B(Rd ))-mesurable
s’appelle un vecteur aléatoire , ou variable aléatoire vectorielle, de dimension d.
Un vecteur aléatoire de dimension d = 1 s’appelle aussi une variable aléatoire réelle en
abrégé v.a.r. .
On peut être quelquefois amené à considérer des variables aléatoires à valeurs dans R, ce sont
les applications ( F, B(R))-mesurables de Ω dans R.
Les variables aléatoires sont traditionnellement notées par des lettres majuscules X , Y , . . .
La proposition suivante est l’énoncé avec un vocabulaire différent du résultat de l’exercice 2.1
de la page 21 sur la composition des applications mesurables.
Proposition 2.5.
Si f est une application borélienne de Rk dans Rd et X un vecteur aléatoire de dimension k,
alors l’application f ◦ X est un vecteur aléatoire de dimension d.
Démonstration : Il suffit pour cela de remarquer que si B est un borélien de Rd , alors l’image-
réciproque de B par f ◦ X est (f ◦ X )−1 (B) = X −1 [(f −1 (B)] et d’appliquer ensuite la définition
de la mesurabilité de f et X . 2
On notera dans la suite par abus f (X ) au lieu de f ◦X . Par exemple, on écrira e X pour exprimer
l’application composée de l’application exponentielle et de la variable aléatoire réelle X .
Proposition 2.6.
X = (X1 , X2 , · · · , Xd ) un vecteur aléatoire de dimension k si, et seulement si, pour tout
i = 1, 2, · · · , d, Xi est une variable aléatoire réelle.
d’où la σ-additivité de PX . 2
Définition 2.6.
La probabilité PX est appelée la loi de probabilité relativement à P du vecteur aléatoire
X ou plus simplement la loi de X .
On notera que cette loi dépend de X mais aussi de la probabilité P de l’espace de probabilité
de base.
Exemples 2.2.
Soit X une variable aléatoire réelle de loi N 1 (0, 1) (on notera qu’une telle affirmation a un
sens d’après la proposition précédente). Déterminons la loi de la variable aléatoire réelle
Y := X 2 .
CT U C entre de T élé-enseignement U niversitaire–Franche-Comté–Besançon
Besançon
Chapitre 2. Loi d’un vecteur aléatoire 25
FY (y ) = PY (] − ∞, y ]) = P(Y ∈] − ∞, y ]) = P(Y ≤ y ).
Définition 2.7.
Soient m ∈ R et σ > 0. Nous appellerons loi de Gauss-Laplace de paramètres m et σ 2 ,
et noterons N 1 (m, σ 2 ), la probabilité sur R admettant pour densité la fonction ρ définie sur
R, pour tout réel x, par
(x − m)2
1
ρ(x) := √ exp − .
σ 2π 2σ 2
Le résultat suivant est souvent utile dans les calculs pratiques en permettant de se ramener à
des variables de loi de Gauss-Laplace standard :
Proposition 2.9.
Procédé de standardisation
Avec les notations précédentes, une variable aléatoire réelle X suit la loi N 1 (m, σ 2 ) si, et
X −m
seulement si, la variable aléatoire réelle Z := suit la loi N 1 (0, 1).
σ
Définition 2.8.
Une v.a. X à valeurs dans Rd est dite discrète si sa loi est discrète.
Les variables aléatoires réelles discrètes constituent une famille de v.a.r importante dans les
applications des probabilités, une autre classe de v.a.r. très importante aussi est celle des v.a.r.
à densité.
Définition 2.9.
Une variable aléatoire réelle est dite à densité (ou absolument continue) sur R si sa loi est
à densité sur R.
Exemples 2.3.
1) Les variables aléatoires réelles de Poisson, de Bernoulli, binomiale, hypergéométrique,
géométrique, uniforme-discrète sont des exemples de v.a.r. discrètes.
2) Les v.a.r. de Gauss-Laplace, exponentielle, uniforme sur un intervalle de R sont des
exemples de v.a.r. à densité sur R.
Pour les définitions des lois usuelles (discrètes ou à densité), on pourra se reporter au formulaire
de l’annexe A, page 205, de ce cours.
où (pn )N est une suite de réels positifs ou nuls, alors pn = P(X = n) pour tout n ∈ N.
On notera qu’on peut avoir affaire à des probabilités qui ne sont ni discrètes ni à densité. Par
exemple, on peut avoir des probabilités µ définies sur R, telles µ = µ1 +µ2 où µ1 est une mesure
à densité (mais pas une probabilité) et µ2 une mesure discrète (mais pas une probabilité), c’est-
à-dire qu’il existe une application f (par exemple positive et continue sur R), et une suite de
Z +∞ +∞
X
réels positifs (αn )N , avec f (t) dt + αn = 1, telle que, pour tout intervalle ]a, b[ de R,
−∞ n=0
Z b +∞
X
µ(]a, b[) = f (t) dt + αn δn (]a, b[).
a n=0
Les variables aléatoires réelles discrètes sont les variables aléatoires réelles à valeurs presque-
sûrement dans un ensemble dénombrable. De façon précise :
Proposition 2.10.
Un vecteur aléatoire X de dimension d est discret si, et seulement si, il existe une partie
D := {ek , k ∈ K ⊆ N} de Rd telle que P(X ∈ D) = 1. Dans ce cas la loi du vecteur aléatoire
X s’écrit X
PX = P (X = ek ) δek .
k∈K
Démonstration : Soit X une v.a. telle qu’il existe une partie dénombrable D de Rd avec
X ∈ D := {ek , k ∈ K ⊆ N} presque-sûrement i.e. P(X ∈ D) = 1.
Soit A un borélien de Rd , on a PX (A) = PX (A ∩ D) = P(X ∈ A ∩ D). Comme
[
{X ∈ A ∩ D} = {X = x}
x∈A∩D
X
La v.a. X est donc discrète et sa loi est PX = P (X = ek ) δek .
Xk∈K
Réciproquement soit X une v.a. de loi µ = pn δen où (pn )K est une suite (finie ou infinie) de
n∈K
réels strictement positifs avec K ⊆ N, et (en )K une suite (finie ou infinie) d’éléments de Rd .
Prenant D := {en /n ∈ K }, on a P(X ∈ D) = 1 et, pour tout n ∈ K , P(X = en ) = pn . 2
On dit aussi dans ce cas que la loi de X est portée par D, ou encore que X a ses valeurs
presque-sûrement dans D, pour exprimer P(X ∈ D) = 1. On notera que D est une partie
dénombrable (finie ou infinie) de Rd .
Ce résultat ramène alors la détermination de la loi d’une variable aléatoire réelle discrète au
calcul des coefficients P(X = ak ) qui interviennent dans son écriture. Il explique aussi le choix
de certains auteurs de manuels scolaires de définir la loi d’une variable aléatoire réelle à valeurs
dans N comme étant l’application n ∈ N 7→ P(X = n). En fait cette définition n’est pas judi-
cieuse car elle ne se généralise pas au cas des variable aléatoire réelle à densité. En effet, pour
une variable aléatoire réelle à densité, pour tout réel x, P(X = x) = PX ({x}) = 0 d’après ce qui
a été vu au premier chapitre. Par suite l’application x ∈ R 7→ P(X = x) est l’application-nulle
pour toute variable aléatoire réelle X admettant un densité, ce qui ne présente plus d’intérêt.
La proposition précédente sera notamment appliquée dans le cas où les variable aléatoire réelle
sont entières i.e. prennent leurs valeurs dans N ou Z.
C entre de T élé-enseignement U niversitaire–Franche-Comté–Besançon CT U
Besançon
28 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014
Proposition 2.11.
Toute variable aléatoire réelle X à valeurs dans N, resp. Z, est discrète. Sa loi s’écrit alors
X X
PX = P(X = k)δk , resp. PX = P(X = k)δk .
k∈N k∈Z
Travail conseillé : Étudier dans [11], pages 147 à 171, l’interprétation probabiliste à l’aide de
tirages dans une urne, des variable aléatoire réelle de lois de Bernoulli, binomiale, géométrique,
de Pascal, binomiale-négative, hypergéométrique.
Chapitre 3
La première proposition de ce chapitre est fondamentale pour la suite. Elle affirme l’existence
et l’unicité d’un opérateur d’intégration, qu’on notera Eµ , défini sur M+ (E , A).
On remarquera que, par sa définition, Eµ (ϕ) est un nombre positif éventuellement infini
(par exemple si un des µ(Ak ) est infini avec αk > 0) c-à-d Eµ (ϕ) ∈ [0, +∞]. Dans un
deuxième temps, on prolonge cet opérateur aux applications de M+ (E , A) en posant, pour
tout f ∈ M+ (E , A),
Eµ (f ) := sup Eµ (ϕ) / ϕ ∈ E + et ϕ ≤ f .
Pour une démonstration détaillée, on se reportera à [8], pages 79 à 85. On remarquera encore
que, par sa définition, Eµ (f ) est un nombre positif éventuellement infini c-à-d Eµ (f ) ∈ [0, +∞].
Exemples 3.1.
Considérons E = R et A = B(R) et µ la mesure de Lebesgue sur R i.e. µ = λ. Soit
Xn
ϕ= αk 1l]ak−1 ,ak ] où a0 < a1 < a2 < · · · < an est un suite strictement croissante de n + 1
k=1
réels, les réels α1 , α2 , · · · , αn n’étant pas nécessairement deux à deux distincts. On dit que
ϕ est une fonction en escalier sur R. Alors
n
X n
X
Eλ (ϕ) := αk λ (]ak−1 , ak ]) = αk (ak − ak−1 ).
k=1 k=1
Dans ce cas, Eλ (ϕ) représente la mesure de l’aire située sous la courbe représentative de
ϕ. 2
On notera qu’une fonction en escalier est borélienne et étagée sur R mais que, par exemple,
1lQ est borélienne et étagée sur R sans être en escalier.
Eµ (f + g ) = Eµ (f ) + Eµ (g ) et Eµ (αf ) = αEµ (f ),
On notera bien qu’on peut avoir Eµ (f ) = +∞ et qu’on ne parle dans cette proposition que
d’applications mesurables et positives. Celles de signe quelconque seront considérées plus loin.
f dµ = 34 π + 7. 2
R
2) Si µ := δ0 + δ5 + λ et f := π1l[0, 1 ] + 1l[6,10] + 31l{5} , alors R
3
Les propositions admises suivantes donnent quelques "règles d’intégration" suivant la mesure
considérée. Ces règles seront suffisantes pour la suite et seront constamment utilisées. Elles
diffèrent bien sûr en fonction des mesures utilisées. Commençons par le cas de la mesure de
Lebesgue sur R. Le cas de la mesure de Lebesgue sur Rd avec d ≥ 2 sera traité au chapitre
suivant.
Proposition 3.2.
Cas de la mesure de Lebesgue sur R pour les fonctions positives (admis)
On suppose E := R, A := B(R), µ := λ où λ désigne la mesure de Lebesgue sur R.
Si f est une application borélienne de R dans [0, +∞] intégrable au sens de Riemann sur
tout intervalle fermé borné de R, alors son intégrale sur R suivant λ est égale à son intégrale
généralisée au sens de Riemann c-à-d
Z Z +∞
Eµ (f ) = f (t) dλ(t) = f (t)dt.
R −∞
Exemples 3.3.
Z Z +∞ Z
−x −x
e 1l[0,+∞[ (x)dλ(x) = e dx = 1 et x 2 1l[0,+∞[ (x)dλ(x) = +∞.
R 0 R
Proposition 3.3.
Cas de la mesure de Dirac sur Rd (admis)
On suppose E := Rd , A := B(Rd ), µ := δa où a ∈ Rd .
Si f est une application borélienne de Rd dans [0, +∞], alors
Z
Eµ (f ) = f (t) dµ(t) = f (a).
Rd
Proposition 3.4.
Cas des mesures discrètes sur Rd (admis)
+∞
X
d d
On suppose E := R , A := B(R ), µ := αi δai où (ak )N est une suite de vecteurs de Rd
i=0
et (αk )N une suite de réels positifs ou nuls.
Si f est une application borélienne de Rd dans [0, +∞], alors
Z +∞
X
Eµ (f ) = f (t) dµ(t) = αi f (ai ).
Rd i=0
Exemples 3.4.
+∞
X αk
Soient µ = P(α) := e −α δk la probabilité de Poisson sur R où α > 0.
k=0
k!
i) Si f est une application borélienne de R dans [0, +∞], alors
+∞
X αk
Eµ (f ) = e −α f (k)
k=0
k!
ii)
+∞
αk
Z X
x(x − 1)1l[1,+∞[ (x)dµ(x) = e −α k(k − 1) = α2 .
R k=2
k!
Exemples 3.5.
Soit (un )N une suite de réels positifs ou nuls.
+∞
X +∞
X
Considérons l’application f := uk 1l{k} et la mesure µ := δi . On vérifie aisément que
k=0 i=0
+∞
X
Eµ (f ) = uk .2
k=0
Ce dernier exemple montre que la théorie des séries à termes réels positifs peut être consid-
érée comme une théorie de l’intégration suivant la mesure sur R dite de dénombrement
+∞
X
µ := δi . La théorie de l’intégration permet ainsi d’unifier dans un même formalisme l’étude
i=0
des probabilités discrètes, qui font intervenir des séries dans les calculs, et celle des probabilités
à densité où pratiquement interviennent des intégrales de Riemann classiques.
La proposition suivante ramène le calcul d’intégrales suivant les mesures à densité au calcul
d’une intégrale de Lebesgue sur R qu’on effectue alors par application de la proposition 3.2.
CT U C entre de T élé-enseignement U niversitaire–Franche-Comté–Besançon
Besançon
Chapitre 3. Moments d’un vecteur aléatoire 33
Proposition 3.5.
Cas des mesures à densité sur R (admis)
On suppose E := R, A := B(R), µ une mesure admettant une densité ρ sur R.
Si f est une application borélienne de R dans [0, +∞], alors,
Z Z
Eµ (f ) = f (t) dµ(t) = f (t)ρ(t) dλ(t) = Eλ (f ρ).
R R
Exemples 3.6. Z Z
1 1 2
Soit µ := N 1 (0, 1), 2
x dµ(x) = x 2 √ e − 2 x dλ(x). On est ramené au calcul d’une
R R 2π
intégrale suivant la mesure de Lebesgue. D’où
Z Z +∞
2 1 − 21 x 2 1 1 2
x √ e dλ(x) = x 2 √ e − 2 x dx = 1,
R 2π −∞ 2π
Z
c-à-d x 2 dµ(x) = 1. 2
R
−αx
2. Soient α > 0, µ la mesure Z sur R de densité ρ définie par ρ(x) := αe 1l[0,1] (x) et
ν := e −α δ1 . Montrer que e αx d(µ + ν)(x) = α + 1.
R
3. Soient α > 0, µ la mesure sur R de densité ρ définie par ρ(x) := e −αx 1l[−1,1] (x) et
+∞ k Z Z
X α αx
ν := δk . Calculer e d(µ + ν)(x) et 1lR d(µ + ν).
k=0
k! R R
La mesure µ + ν est-elle une probabilité ?
Définition 3.1.
Une application f de E dans [−∞, +∞] est dite intégrable sur E suivant µ ou plus
simplement µ-intégrable si elle est A-mesurable et si les quantités Eµ (f + ) et Eµ (f − ) sont
toutes les deux finies. Dans ce cas on appelle intégrale de f sur E suivant µ le réel
Eµ (f ) := Eµ (f + ) − Eµ (f − ).
On remarquera que Eµ (f ) ∈ R.
On utilise aussi les mêmes notations que celles déjà vues dans le cas des fonctions positives
pour Eµ (f ).
Proposition 3.6.
Soit f une application A-mesurable de E dans [−∞, +∞]. Alors f est intégrable si, et seulement
si, Eµ (|f |) est fini.
Exemples 3.7. Z
1) Soit µ := N 1 (0, 1), xdµ(x) = 0.
R
En effet, f + (x) = x1l[0,+∞[ (x) et f − (x) = −x1l]−∞,0] (x). On vérifie les deux suites d’égalités
Z Z Z +∞
1 1 2
+
f (x)dµ(x) = x1l[0,+∞[ (x)dµ(x) = √ te − 2 t dt < +∞
R R 2π 0
Z Z Z 0
− 1 1 2
et f (x)dµ(x) = −x1l]−∞,0] (x)dµ(x) = √ −te − 2 t dt
R R 2π −∞
Z +∞
1 1 2
= √ te − 2 t dt < +∞,
2π 0
Les règles d’intégration des fonctions de signe quelconque intégrables sont les mêmes que
celles pour les fonctions positives vues dans le cas des mesures discrètes ou à densité. On
peut démontrer cela en écrivant les fonctions comme différence de leur partie positive et de
leur partie négative. Par contre dans le cas de la mesure de Lebesgue sur R la proposition 3.2
devient fausse pour les fonctions qui ne sont pas de signe constant. Dans ce cas on utilise si
possible la proposition suivante :
CT U C entre de T élé-enseignement U niversitaire–Franche-Comté–Besançon
Besançon
Chapitre 3. Moments d’un vecteur aléatoire 35
Proposition 3.7.
Cas de la mesure de Lebesgue sur R pour les fonctions réelles (admis)
On suppose E := R, A := B(R), µ := λ où λ désigne la mesure de Lebesgue sur R.
1. Si f est une application borélienne de R dans R nulle en dehors d’un intervalle fermé
borné [a, b] et intégrable au sens de Riemann sur [a, b], alors son intégrale sur R suivant
λ est égale à son intégrale au sens de Riemann sur [a, b], c-à-d
Z Z b
Eµ (f ) = f (t) dλ(t) = f (t)dt.
R a
2. Si f est une application borélienne de R Zdans R intégrable au sens de Riemann sur tout
+∞
intervalle fermé borné de R et telle que |f (t)|dt < +∞, alors son intégrale sur R
−∞
suivant λ est égale à son intégrale généralisée au sens de Riemann c-à-d
Z Z +∞
Eµ (f ) = f (t) dλ(t) = f (t)dt.
R −∞
Nous sommes en mesure maintenant d’étendre la définition des probabilités à densité, consid-
érées jusqu’à présent uniquement sur R, au cas des probabilités sur les espaces Rd avec d ≥ 1.
Cette définition sera en particulier utile dans les chapitres IV et V.
Définition 3.2.
On appelle densité de probabilité sur Rd toute application borélienne positive ρ de Rd dans
[0, +∞] vérifiant Z
ρdλ(d) = 1.
Rd
La proposition suivante (admise) montre que la règle d’intégration suivant une mesure de prob-
abilité à densité est tout à fait analogue à celle déjà vue pour les fonctions positives.
Proposition 3.8.
Soit ρ une densité de probabilité sur Rd .
1. L’application Z
d
ν : A ∈ B(R ) 7→ ν(A) := 1lA ρdλ(d) ∈ [0, 1]
Rd
On remarquera que les définitions 1.15, page 10, de densité et de probabilité à densité introduites
au chapitre I sont bien des cas particuliers de la définition donnée ci-dessus.
Définition 3.3.
On dit que f est intégrable sur E suivant µ si toutes les applications-composantes
f1 , f2 , · · · , fd sont intégrables sur E suivant µ. Dans ce cas on appelle intégrale de f sur E
suivant µ le vecteur de Rd de composantes dans la base canonique Eµ (f1 ), Eµ (f2 ), · · · , Eµ (fd ),
et on note Eµ (f ) := (Eµ (f1 ), Eµ (f2 ), · · · , Eµ (fd )) .
Un cas particulier intéressant pour la suite est le cas où f est à valeurs dans le plan com-
plexe C qu’on identifie à R2 . On écrit alors f := f1 + if2 identifié à f := (f1 , f2 ) et on pose
Eµ (f ) := Eµ (f1 ) + iEµ (f2 ).
f1 et f2 sont donc µ-intégrables, par définition il en est de même de f . On peut donc définir
Eµ (f ) ∈ C pour tout vecteur u de Rn .
Définition 3.4.
L’application Z
n
Φµ : u ∈ R 7→ Φµ (u) := exp (ihx, ui) dµ(x)
Rn
Exemples 3.8.
Si µ est la
Z probabilité de Bernoulli de paramètres p.
Φµ (t) = e itx d(pδ1 + (1 − p)δ0 )(x) = pe it + (1 − p) d’après les règles d’intégration par
R
rapport à une mesure de Dirac.
On montrera dans l’exercice 3.20, page 60, que la fonction caractéristique de la probabilité
1
normale N 1 (m, σ 2 ) est définie sur R, pour tout réel t, par Φ(t) := exp(imt − t 2 σ 2 ).
2
Plus généralement, on trouvera la liste des fonctions caractéristiques des probabilités usuelles
sur R dans le formulaire donné dans l’annexe A, page 205, de ce cours.
Exemples 3.9.
Comme l’indicatrice de A1 ∪ A2 ∪ · · · ∪ An , où A1 , A2 , · · · , An , sont des parties de E , est
donnée par
1lA1 ∪A2 ∪···∪An = 1 − (1 − 1lA1 )(1 − 1lA2 ) · · · (1 − 1lAn ),
en développant le second membre de cette égalité et en utilisant les propriétés 1)a du
théorème fondamental de l’intégration et 1) de la proposition précédente, on obtient aisé-
ment une autre démonstration de la formule de Poincaré 1.8, page 12, énoncée dans le
premier chapitre.
Les énoncés de théorèmes permettant d’intervertir les symboles Eµ et lim sont particulière-
n→+∞
ment simples dans cette théorie de l’intégration. Commençons par rappeler (cf. [8], page 82) :
Proposition 3.10.
Théorème de convergence monotone de Beppo-Lévi (admis)
Pour toute suite croissante (fn )N d’applications A-mesurables positives,
Eµ lim fn = lim Eµ (fn ).
n→+∞ n→+∞
n
X
Démonstration : Posons, pour tout entier n, gn := fk . On applique alors le théorème de
k=0
Beppo-Lévi à la suite croissante d’applications A-mesurables positives (gn )N . 2
Notons que ces trois résultats précédents sont faux si les fonctions fn ne sont plus supposées
positives.
Terminons par un théorème valable pour les fonctions (à valeurs réelles) de signe quelconque
à la condition d’être intégrables (cf. [8], page 102). Ce théorème ainsi que celui de Beppo-Lévi
sont des théorèmes fondamentaux de la théorie de l’intégration. Ce sont principalement ces
résultats qui font la supériorité de la théorie de Lebesgue sur celle de Riemann vue en premier
cycle universitaire.
Proposition 3.13.
Théorème de convergence dominée de Lebesgue (admis)
Si (fn )N est une suite d’applications A-mesurables convergeant presque-partout vers une
application A-mesurable f et s’il existe une application intégrable ϕ telle que, pour tout k ∈ N,
|fk | ≤ ϕ, alors f est intégrable et Eµ (f ) = lim Eµ (fn ).
n→+∞
On définit également ||f ||∞ = sup {α ∈ R / µ[|f | ≥ α] > 0}, et L∞ (E , A, µ) comme l’ensemble
des classes d’équivalence, pour l’égalité µ-presque-sûre, des applications de E dans R, A-
mesurables, définies et finies µ-presque sûrement, telles que ||f ||∞ < +∞.
Définition 3.5.
Les espaces Lp (E , A, µ) pour tout réel p tel que 1 ≤ p ≤ ∞ sont appelés les espaces de
Lebesgue d’ordre p.
Moyennant ces définitions, on rappelle le résultat suivant sur les espaces de Lebesgue :
Proposition 3.14.
Soit (E , A, µ) un espace de probabilité,
1. Pour tout réel p tel que 1 ≤ p ≤ ∞, la semi-norme || · ||p induit une norme sur l’espace
de Lebesgue Lp (E , A, µ), encore notée || · ||p .
2. Pour tout réel p tel que 1 ≤ p ≤ ∞, l’espace de Lebesgue Lp (E , A, µ) muni de la norme
|| · ||p est un espace de Banach.
3. Pour tout p et q tels que 1 ≤ p < q ≤ ∞, on a la suite des inégalités
et la suite d’inclusions
L∞ (E , A, µ) ⊆ Lq (E , A, µ) ⊆ Lp (E , A, µ) ⊆ L1 (E , A, µ).
1 1
4. Si p et q sont tels que 1 ≤ p, q ≤ ∞ avec + = 1, alors, pour tout f ∈ Lp (E , A, µ)
p q
et g ∈ Lq (E , A, µ), l’application f g ∈ L1 (E , A, µ) et on a ||f g ||1 ≤ ||f ||p ||g ||q .
Désormais dans la suite du cours, les fonctions utilisées seront souvent définies seulement
presque-partout. Nous écrirons par abus, f ∈ Lq (E , A, µ) pour exprimer que f est une
application de E dans R, A-mesurable, définie et finie µ-presque sûrement, et que sa classe
d’équivalence pour l’égalité presque-partout est dans Lq (E , A, µ).
C entre de T élé-enseignement U niversitaire–Franche-Comté–Besançon CT U
Besançon
40 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014
Les variables aléatoires utilisées seront souvent définies seulement presque-sûrement. En appli-
quant aux variables aléatoires la convention d’écriture de la fin du paragraphe précédent, nous
écrirons par abus, X ∈ Lp (Ω, F, P) pour exprimer que X est une variable aléatoire définie et
finie presque-sûrement sur Ω et que sa classe d’équivalence pour l’égalité presque-sûre est dans
Lp (Ω, F, P).
Suivant l’usage on notera dorénavant, sauf cas exceptionnels, l’opérateur d’intégration (sur
l’espace de probabilité de base) E au lieu de EP . On appelle E l’espérance mathématique
suivant P ou, plus simplement s’il n’y a pas de risque de confusion, espérance. Ainsi si X
est une variable aléatoire
Z positive, resp.
Z vectorielle intégrable, on utilisera indifféremment les
notations E(X ) ou X (ω)dP(ω) ou X dP pour désigner EP (X ).
Ω Ω
Le théorème du transfert est d’un usage constant en probabilité. Donnons-en deux versions, une
pour les fonctions positives (c’est la plus utile), l’autre pour les fonctions vectorielles intégrables.
Proposition 3.15.
Théorème du transfert (cas positif)
Soient h une application borélienne positive de Rd dans [0, +∞] et X un vecteur aléatoire de
dimension d, alors Z
E[h(X )] = hdPX = EPX (h)
Rd
Proposition 3.16.
Théorème du transfert (cas vectoriel) (admis)
Soient h une application borélienne de Rd dans Rn et X un vecteur aléatoire de dimension d.
Alors h est intégrable sur Rd suivant PX si, et seulement si, h(X ) est intégrable sur Ω suivant
P, et dans ce cas Z
E[h(X )] = hdPX = EPX (h)
Rd
Exemples 3.10.
Soient X un vecteur aléatoire de dimension d et ΦX sa fonction caractéristique. Par
application du théorème du transfert (cas vectoriel) on obtient, pour tout élément u de Rd ,
Z
ΦX (u) := exp (ihx, ui) dPX (x) = E [exp (ihX , ui)] .2
Rd
Exemples 3.11.
Soit X une variable aléatoire réelle de loi N 1 (0, 1) i.e. PX = N 1 (0, 1). Calculons E(X 2 ).
Donnons deux méthodes.
• Première méthode : E(X 2 ) est de la forme E[h(X )] avec h(t) := t 2 . On applique le
théorème du transfert (cas positif), on remarque que h est continue donc borélienne. On
doit donc calculer à l’aide d’une intégration par parties,
Z Z −∞
1 1 2
2
E(X ) = 2
t dPX (t) = √ t 2 e − 2 t dt = 1.
R 2π −∞
• Deuxième méthode : On a vu au chapitre II dans l’exemple 2.2, page 24, que la variable
aléatoire réelle Y := X 2 suit la loi γ( 21 , 12 ) de densité
1 x
ρ(x) := √ e − 2 1l]0,+∞[ (x).
2πx
On cherche à calculer
Z Z
1 x
2
E(X ) = E(Y ) = tdPY (t) = x√ e − 2 1l]0,+∞[ (x)dλ(x)
R R 2πx
Z +∞ Z +∞ √
√ 1 −x x x
= x √ e 2 1l]0,+∞[ (x)dx = √ e − 2 dx = 1.
−∞ 2π 0 2π
Dans ces calculs nous avons utilisé les règles d’intégration suivant une mesure à densité et
une mesure de Lebesgue, puis effectué un changement de variable pour calculer l’intégrale
généralisée finale. 2
Le théorème du transfert permet d’établir un critère d’identification des lois utilisant les
fonctions boréliennes positives :
Proposition 3.17.
Critère des fonctions boréliennes positives
Soient X un vecteur aléatoire de dimension d et µ une probabilité sur Rd . Alors le vecteur
aléatoire X a pour loi µ si, et seulement si, pour toute application borélienne positive h de Rd
dans [0, +∞], Z
E[h(X )] = hdµ,
Rd
Z
E[h(X )] = E[1lB (X )] = 1lB dPX = PX (B).
Rd
Exemples 3.12.
X 1
Soit X un vecteur aléatoire de dimension 2 de loi PX := δ(k,l) . On note X1 , X2
k≥1,l≥1
2k+l
les composantes de X dans la base canonique de R2 . Déterminons la loi de la variable
aléatoire réelle Y := sup(X1 , X2 ). Pour cela notons A := {(x, y ) ∈ R2 / x < y }. Soit h
une application borélienne de R dans [0, +∞]. En remarquant que, pour tout (x, y ) ∈ R2 ,
h(sup(x, y )) = h(y )1lA (x, y ) + h(x)1lAc (x, y ), il vient
CT U C entre de T élé-enseignement U niversitaire–Franche-Comté–Besançon
Besançon
Chapitre 3. Moments d’un vecteur aléatoire 43
Z
E[h(Y )] = E[h(sup(X1 , X2 ))] = h(sup(x, y ))dPX (x, y )
Z R2 Z
= h(y )1lA (x, y )dPX (x, y ) + h(x)1lAc (x, y )dPX (x, y )
R2 R2
+∞ X+∞ +∞ X+∞
X 1 X 1
= i+j
h(j)1l A (i, j) + i+j
h(i)1lAc (i, j)
i=1 j=1
2 i=1 j=1
2
+∞ Xj−1 +∞ X i
X 1 X 1
= i+j
h(j) + i+j
h(i)
j=1 i=1
2 i=1 j=1
2
+∞ +∞ +∞
X 1 1 X 1 1 X 1 3
= j
1 − j−1 h(j) + i
1 − i h(i) = i
2 − i h(i)
j=1
2 2 i=1
2 2 i=1
2 2
+∞ Z
X 1 3
= 2− i h(z)dδi (z).
i=1
2i 2 R
On notera que, pour obtenir le premier X terme X de la quatrième égalité, il a été fait usage
du lemme de permutation des symboles et pour une suite-double de réels positifs.
i j
Z +∞
X 1 3
On a donc E[h(Y )] = hdµ avec µ := 2 − i δi , ce qui prouve que µ est la loi
R i=1
2i 2
de la variable aléatoire réelle Y .
On pourra se reporter à [3] exercice I-4 question 2 pour trouver une autre démonstration
utilisant la remarque suivant la proposition 2.10, page 27, sur le calcul de lois de variable
aléatoire réelle discrètes. 2
Un autre critère fait intervenir plus particulièrement les fonctions continues positives à support
compact (qui forment une sous-classe des fonctions boréliennes positives).
Proposition 3.18.
Critère des fonctions à support compact
Soient X un vecteur aléatoire de dimension d et µ une probabilité sur Rd . Alors le vecteur
aléatoire X a pour loi µ si, et seulement si, pour toute application positive h de Rd dans
[0, +∞], continue et à support compact,
Z
E[h(X )] = hdµ.
Rd
EP [h(X )] = Eµ (h).
continues et à Rsupport compact sur Rd qui converge vers la fonction indicatrice de A. On a d’une
part µ(A) = Rd 1A dµ et PX (A) = E(1lZA ), et d’autreZpart, par le théorème de convergence
Z
monotone de Beppo-Lévi, on obtient : 1A dµ = ( lim fn ) dµ = lim fn dµ =
Z Z Rd Rd n→+∞
Z n→+∞ Rd
lim E(fn (X )) = lim fn dPX = ( lim fn ) dPX = 1lA dPX . Par suite, pour tout
n→+∞ n→+∞ Rd Rd n→+∞ Rd
d
ouvert A de R , µ(A) = PX (A). Les probabilités µ et PX coïncident sur une famille de parties
de Rd stable par intersection finie (π-système) qui engendre la tribu borélienne de Rd , donc
elles sont égales en vertu du théorème d’unicité 1.11 de la page 14.2
Les deux critères des fonctions positives expriment qu’un vecteur aléatoire X , de dimension d,
a pour loi la probabilité µsi, et seulement si, la relation EP [h(X )] = Eµ (h) est vérifiée pour
tout fonction h de la famille C des applications boréliennes positives définies sur Rd (ou de de
la famille C des applications continues positives à support compact sur Rd ).
Le critère d’identification de lois utilisant les fonctions de répartition (lemme d’unicité) peut
aussi s’énoncer sous cette forme. Ainsi, ces trois critères peuvent se formuler en un seul énoncé :
Proposition 3.19.
Critères d’identification de lois
Soient X un vecteur aléatoire de dimension d et µ une probabilité sur Rd . Alors le vecteur
aléatoire X a pour loi µ si, et seulement si, la relation EP [h(X )] = Eµ (h) est vérifiée pour tous
les éléments h d’un des ensembles C suivants :
1. Si d ≥ 1, C est l’ensemble des applications boréliennes de Rd dans [0, +∞].
2. Si d ≥ 1, C est l’ensemble des applications positives continues et à support compact de
Rd dans [0, +∞].
3. Si d = 1, C est l’ensemble des indicatrices 1l]−∞,u] lorsque u parcourt R.
PX (] − ∞, u]) = E 1l]−∞,u] (X )
et µ (] − ∞, u]) = Eµ (1l]−∞,u] ).
+∞
X i −1
PZ = i
δi .
i=1
2
Définition 3.6.
Soit X est une v.a.r. sur (Ω, F, P). On appelle espérance mathématique de X suivant
P ou quelquefois
Z moyenne de X , et on note E(X ), la quantité (si elle est définie)
E(X ) = X dP.
Ω
Plus généralement si p ∈ N∗ , on appelle moment d’ordre p de X , resp. moment centré
d’ordre p de X , le nombre réel (s’il est défini) mp := E(X p ), resp. mp0 := E [(X − m1 )p ] .
Définition 3.7.
Le moment centré d’ordre 2 s’appelle aussi la variance de X et se note Var(X ). Sa racine
carrée positive s’appelle l’écart-type de X et se note σX .
Si X et Y sont deux v.a.r. on appelle covariance de X et Y , le réel (s’il est défini)
Cov(X , Y ) := E([X − E(X )][Y − E(Y )]).
La proposition suivante donne une condition suffisante d’existence des moments d’une v.a.r. .
Proposition 3.20.
Existence des moments de v.a.r.
1. Soit X une v.a.r. telle qu’il existe un entier naturel non nul p vérifiant E(|X |p ) < +∞,
i.e. X ∈ Lp (Ω, F, P). Alors, pour tout entier k vérifiant 1 ≤ k ≤ p, les moments d’ordre
k 0 k
k, mk := E(X ) et mk := E (X − m1 ) , existent dans R.
2. Si X et Y sont deux variables aléatoires réelles vérifiant E(X 2 ) < +∞ et E(Y 2 ) < +∞,
i.e. X et Y sont dans L2 (Ω, F, P), alors la covariance de X et Y , Cov(X , Y ), existe
dans R.
ce qui prouve que la variable aléatoire réelle X k est intégrable et donc que E(X k ) est bien défini
dans R.
De même, |X − m1 |k ≤ (|m1 | + |X |)k . En développant le second membre, en prenant
l’espérance de l’expression et en utilisant le résultat démontré juste avant, on obtient que
E(|X − m1 |k ) < +∞. Par suite E (X − m1 )k est bien défini dans R.
2) Si X et Y sont de carré intégrable, d’après l’inégalité |X Y | ≤ X 2 +Y 2 déduite du développe-
ment de (|X | − |Y |)2 ≥ 0, on obtient E(|X Y |) ≤ E(X 2 ) + E(Y 2 ) < +∞. La variable aléatoire
réelle X Y est donc intégrable ainsi que la variable aléatoire réelle Z := [X − E(X )][Y − E(Y )],
ce qui donne bien un sens à la covariance de X et de Y . 2
Proposition 3.21.
Sous les conditions d’existence des différents moments,
Z Z
m1 := E(X ) = X (ω)dP(ω) = xdPX (x).
Z Ω Z R
2
σX := (X (ω) − m1 ) dP(ω) = (x − m1 )2 dPX (x).
2
ZΩ Z R
Définition 3.8.
Une variable aléatoire réelle X est dite de carré intégrable si E(X 2 ) < +∞, i.e.
X ∈ L2 (Ω, F, P).
Exemples 3.13.
Soit X une variable aléatoire normale standard. Le calcul développé dans l’exemple 3.7
, page 34, prouve que E(X ) = 0 et celui développé dans l’exemple 3.6, page 33, que
V ar (X ) = 1. Plus généralement, on vérifie aisément par un calcul élémentaire que, si X est
une variable de loi normale N (m, σ 2 ), alors E(X ) = m et Var(X ) = σ 2 . 2
Proposition 3.22.
Formules de König-Huygens
Soient X et Y deux variable aléatoire réelle de carré intégrable. Alors
1. Var(X ) = Cov(X , X ) = E(X 2 ) − [E(X )]2 .
2. Cov(X , Y ) = E(X Y ) − E(X )E(Y ).
On vérifie aisément qu’on retrouve les définitions classiques de l’espérance pour les v.a.r.
discrètes ou à densité comme l’indique le résultat suivant :
CT U C entre de T élé-enseignement U niversitaire–Franche-Comté–Besançon
Besançon
Chapitre 3. Moments d’un vecteur aléatoire 47
Proposition 3.23.
1. Si X est une variable aléatoire réelle intégrable discrète de loi
X+∞
PX := P(X = ak )δak , alors
k=0
+∞
X
E(X ) = ak P(X = ak ).
k=0
2. Si X est une variable aléatoire réelle intégrable à densité ρ continue sur R, alors
Z +∞
E(X ) = tρ(t)dt.
−∞
On trouvera la liste des valeurs de l’espérance et de la variance des v.a.r. de lois usuelles dans
le formulaire de l’annexe A, page 205, de ce cours.
r
2k−1 (2k)! π
et E X 2k = 2k k!.
E X = k
2 k! 2
Définition 3.9.
Soit X un vecteur aléatoire de dimension d de composantes X1 , X2 , ..., Xd intégrables suivant
P. On appelle espérance de X suivant P, et on note E(X ), le vecteur de Rd ,
Définition 3.10.
Une variable aléatoire vectorielle ou matricielle d’espérance nulle est dite centrée. Une variable
aléatoire réelle de carré intégrable et de variance égale à 1 est dite réduite.
Définition 3.11.
Soit X un vecteur aléatoire de dimension d de composantes X1 , X2 , ..., Xd de carré intégrable
sur Ω. On appelle matrice de dispersion de X ou matrice des covariances de X , et on
la note DX , l’espérance de la matrice carrée aléatoire [X − E(X )][X − E(X )]∗ d’ordre d où ∗
désigne l’opération de transposition des matrices, c’est-à-dire
Exemples 3.14.
Soit X un vecteur aléatoire de dimension 2 de loi
X 1
PX := δ(k,l) .
k≥1,l≥1
2k+l
interprétation géométrique.
2. Démontrer la relation
n
! n
X X X
Var Xk = Var(Xk ) + 2 Cov(Xi , Xj ).
k=1 k=1 1≤i<j≤n
Nous allons nous intéresser dans ce paragraphe aux deux premiers points. Le dernier sera traité
au chapitre IV.
2d ad
Z
I (x − y ) = e i<u,y −x> e −a(|u1 |+|u2 |+···|ud |) dλ(d) (u) = Qk=d .
2 2
Rd k=1 (a + (yk − xk ) )
En effet, en intégrant séparément sur ] − ∞, 0], puis sur [0, +∞[, on obtient
Z Z 0 Z +∞
itx −a|t| 1 1 2a
K (x) = e e dλ(t) = e itx at
e dt + e itx e −at dt = + = 2 .
R −∞ 0 a − ix a + ix a + x2
Z
Par suite, I (x − y ) = e i[u1 (y1 −x1 )+u2 (y2 −x2 )+···+ud (yd −xd )]−a(|u1 |+|u2 |+···|ud |) dλ(d) (u) ou encore
Rd
Z k=d
Y
I (x − y ) = e i[uk (yk −xk )−a|uk | dλ(d) (u).
Rd k=1
Par le théorème de Fubini (son énoncé est rappelé dans le prochain chapitre, proposition 4.3,
page 63), compte tenu de ce que la fonction à intégrer est à variables séparées, il vient
k=d
YZ k=d k=d
Y Y 2a
I (x − y ) = e i[uk (yk −xk )−a|uk | dλ(uk ) = K (yk − xk ) = 2 + (y − x )2
, d’où
k=1 R k=1 k=1
a k k
2d ad
I (x − y ) = Qk=d .
k=1 (a2 + (yk − xk )2 )
• Montrons maintenant que :
2d ad
Z Z
Jµ (x) = Qk=d 2 dµ(y ) = e −i<u,x> e −a(|u1 |+|u2 |+···|ud |) Φµ (u) dλ(d) (u).
2
Rd k=1 (a + (yk − xk ) ) Rd
En effet, en
Z utilisant le résultat Zprécédent
Z et en reportant dans l’intégrale à calculer, on
a Jµ (x) = I (x − y ) dµ(y ) = e i<u,y −x> e −a(|u1 |+|u2 |+···|ud |) dλ(d) (u) dµ(y ). Par
Rd Rd Rd
application du théorème de Fubini aux mesures λ(d) et µ (vérifier que les hypothèses du théorème
sont bien satisfaites), cette intégrale peut s’écrire :
Z Z
i<u,−x> −a(|u1 |+|u2 |+···|ud |) i<u,y >
Jµ (x) = e e e dµ(y ) dλ(d) (u),
Rd Rd
entre crochets. Elle peut s’écrire, après le changement de variables dans Rd , (u1 , u2 , · · · , ud ) =
(y1 − x1 , yZ2 − x2 , · · · , yd − xd ), ou u = y − x, dont le Zjacobien est de valeur absolue égale à 1,
2d ad (d) 2d ad
Ga (y ) = f (x) Qk=d dλ (x) = f (y −u) Qk=d dλ(d) (u).
2 2 2 2
Rd Zk=1 (a + (yk − xk ) ) Rd k=1 (a + (uk ) )
d u1 u2 ud
de variables dans R , (x1 , x2 , · · · , xd ) = ( , , · · · , ), qu’on peut écrire de façon plus
a a a
1
synthétique, x = u, dont le jacobien est de valeur absolue égale à ad , l’intégrale devient
a
2d ad
Z
Ga (y ) = f (y − ax) Qk=d ad dλ(d) (x)
2 2
k=1 (a + (axk ) )
d
ZR
2d
= f (y − ax) Qk=d 2
dλ(d) (x).
Rd k=1 (1 + xk )
Comme f est continue à support compact, elle est bornée par un réel M. La famille, indexée par
2d 2d
a, des fonctions x 7→ f (y −ax) Qk=d 2
est dominée par la fonction x →
7 M Q k=d 2
k=1 (1 + xk ) k=1 (1 + xk )
intégrable sur Rd pour la mesure de Lebesgue. En effet, par le théorème de Fubini,
Z +∞ d
2d
Z
(d) d 1 d +∞ d
= M2d π d ,
M Qk=d dλ (x) = M2 2
dt = M2 [Arctan(x)] −∞
Rd k=1 (1 + x 2
k ) −∞ 1 + t
2d
ce qui prouve que la fonction x 7→ M Qk=d est intégrable sur Rd .
k=1 (1 + xk2 )
Par suite Zen faisant tendre a vers 0, en vertu du théorème de convergence dominée, l’intégrale
2d
Ga (y ) = f (y − ax) Qk=d 2
dλ(d) (x) tend vers l’intégrale
k=1 (1 + xk )
R d
2d 2d
Z Z
(d)
f (y ) Qk=d 2
dλ (x) = f (y ) Qk=d 2
dλ(d) (x) = 2d π d f (y ),
Rd k=1 (1 + xk ) Rd k=1 (1 + xk )
d’après le calcul qui vient d’être fait plus haut, c’est-à-dire lim Ga (y ) = 2d π d f (y ).
a→0
• Nous pouvons maintenant en déduire la limite de l’intégrale Hµ (a) lorsque a tend vers 0.
En effet, pour tout réel a et tout y ∈ Rd ,
2d ad
Z
|Ga (y )| ≤ |f (y − ax)| Qk=d ad dλ(d) (x)
2 2
k=1 (a + (axk ) )
R d
2d ad
Z
≤ M Qk=d 2 ad dλ(d) (x) = M2d π d .
2
k=1 (a + (axk ) )
R d
La famille de fonctions Ga indexées par a, est donc dominée par la constante M2d π d intégrable
par rapport à la mesure de probabilité µ. Par le théorème de convergence dominée de Lebesgue,
CT U C entre de T élé-enseignement U niversitaire–Franche-Comté–Besançon
Besançon
Chapitre 3. Moments d’un vecteur aléatoire 53
Z Z
il vient lim Hµ (a) = lim Ga (y ) dµ(y ) = 2d π d f (y ) dµ(y ).
a→0 Rd a→0 Rd
• Pour conclure, rassemblons les résultats précédents, en tenant compte que µ et ν sont
deux probabilités sur Rd ayant la même fonction caractéristique Φµ = Φν . On remar-
que alors que Jµ (x) = Jν (x) et, par suite, pour tout réel a > 0, Hµ (a) = Hν (a). On
en déduit alors, en faisant tendre a vers 0, que lim Hµ (a) = lim Hν (a), c’est-à-dire que
Z Z a→0 Z a→0 Z
d d d d
2 π f (y ) dµ(y ) = 2 π f (y ) dν(y ), et finalement f (y ) dµ(y ) = f (y ) dν(y ),
Rd Rd Rd Rd
d
pour toute fonction f de R dans R, continue et à support compact. Par le critère des fonctions
à support compact (proposition 3.18, page 43), on en conclut µ = ν. 2
Nous pouvons maintenant regrouper tous les critères d’identification de lois vus jusqu’à présent
sous une formulation unique qui complète la proposition 3.19, page 44 :
Proposition 3.28.
Critères d’identification de lois
Soient X un vecteur aléatoire de dimension d et µ une probabilité sur Rd . Alors le vecteur
aléatoire X a pour loi µ si, et seulement si, la relation
Z
E[h(X )] = h(t) dµ(t)
Rd
est vérifiée pour tous les éléments h d’un des ensembles C suivants :
1. Si d ≥ 1, C est l’ensemble des applications boréliennes de Rd dans [0, +∞].
2. Si d ≥ 1, C est l’ensemble des applications positives continues et à support compact de
Rd dans [0, +∞].
3. Si d ≥ 1, C est l’ensemble des applications
lorsque u parcourt Rd .
4. Si d = 1, C est l’ensemble des indicatrices 1l]−∞,u] lorsque u parcourt R.
Démonstration : Il suffit de prouver l’item 3, les autres ayant déjà été vus dans le théorème 3.19
de la page 44. On remarque que, pour tout u ∈ Rd , ΦX (u) = E (exp(ihu, X i)) = E (hu (X )) et
Φµ (u) = Eµ (hu ) On conclut par le théorème d’injectivité 3.26. 2
Définition 3.13.
Les familles de fonctions qui apparaissent dans les différents item de la proposition précédente
sont souvent appelées familles de fonctions-test.
Dans le cas où d = 1, les formules d’inversion données ci-dessous précisent le lien entre la
C entre de T élé-enseignement U niversitaire–Franche-Comté–Besançon CT U
Besançon
54 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014
Dans le cas où la f.c. est intégrable au sens de Lebesgue sur R, on peut préciser la connaissance
de µ :
Proposition 3.30.
Soit µ une probabilité sur R de f.c. Φ. Si Φ est intégrable au sens de Lebesgue sur R, alors
µ admet une densité f par rapport à la mesure de Lebesgue sur R. L’application f est une
fonction à valeurs réelles, positive, bornée, continue sur R et, pourZ tout x ∈ R, f (x) s’exprime
+∞
1
à l’aide de l’intégrale généralisée au sens de Riemann f (x) = e −itx Φ(t)dt.
2π −∞
1 e −ita − e −itb
Z
1
µ(]a, b[) + µ({a, b}) = Φ(t)dλ(t).
2 2π R it
• La probabilité µ coïncide donc avec la probabilité de densité f sur la famille C des intervalles
ouverts de R. On vérifie aisément que C est un π-système qui engendre la tribu borélienne de
R. On conclut alors par le théorème d’unicité pour les probabilités (cf. proposition 1.11, page
14) que µ est la probabilité de densité f . 2
La réciproque de ce résultat est fausse. En effet on vérifie aisément que la loi exponentielle de
paramètre 1 sur R fournit un contre-exemple. Cependant, sous certaines hypothèses, on peut
avoir des renseignements sur le comportement à l’infini de la fonction caractéristique Φ, comme
le prouve la proposition suivante :
Proposition 3.31.
Soit µ une probabilité sur R de f.c. Φ. On suppose que µ admet une densité f de classe C n
telle que, pour tout entier 0 ≤ k ≤ n, la dérivée f (k) d’ordre k de f soit intégrable au sens de
Lebesgue sur R (on pose f (0) := f ). Alors lim u n−1 Φ(u) = 0.
u→+∞
Z x
(k−1)
f (x) = f (k) (u)du + f (k−1) (0).
0
Z +∞ Z +∞
−iux (k−1) i
e f (x)dx = e −iux f (k) (x)dx.
−∞ u −∞
n Z +∞
i
En déduire que Φ(u) = e −iux f (n) (x)dx. Conclure. 2
u −∞
1
Avec les notations de Landau, le résultat démontré peut s’écrire Φ(u) = o au voisi-
u n−1
nage de +∞. En fait, si f a ses n dérivées premières qui existent et sont intégrables au sens
de Lebesgue sur R, en utilisant
le lemme de Riemann-Lebesgue (cf [4], exercice VI-30), on
1
démontre que Φ(u) = o au voisinage de +∞.
un
Passons maintenant au second point d’intérêt de la notion de f.c.. Les propositions ci-dessous,
3.33, 3.34 et 3.35, donnent un procédé de calcul des moments d’une variable aléatoire réelle
à l’aide de sa fonction caractéristique.
Z Ces résultats se démontrent en utilisant le théorème de
dérivation sous le signe vu en théorie de l’intégration, que nous rappelons sans le démontrer
dans le cas particulier qui nous intéresse (cf. [8], page 105) :
CT U C entre de T élé-enseignement U niversitaire–Franche-Comté–Besançon
Besançon
Chapitre 3. Moments d’un vecteur aléatoire 57
Proposition 3.32. Z
Théorème de dérivation sous le signe
Soit (E , E, µ) un espace de probabilité, f une application de E × R dans R (ou C). Si f vérifie
les trois hypothèses suivantes :
1. pour µ-presque-tout x ∈ E , t ∈ R 7→ f (x, t) ∈ R est dérivable sur R,
2. pour tout t ∈ R, x ∈ E 7→ f (x, t) ∈ R est intégrable par rapport à µ,
3. il existe une application g , intégrable
par rapport à µ, telle que, pour µ-presque-tout
∂f
x ∈ E et pour tout t ∈ R, (x, t) ≤ g (x),
∂t
alors, Z
1. L’application F : t ∈ R 7→ F (t) := f (x, t)dµ(x) ∈ R est dérivable sur R,
E
∂f
2. Pour tout t ∈ R, x ∈ E 7→ (x, t) ∈ R est intégrable par rapport à µ,
Z ∂t
∂f
3. Pour tout t ∈ R, F 0 (t) = (x, t)dµ(x).
E ∂t
Proposition 3.33.
Si X est une variable aléatoire réelle telle que E(|X |n ) < +∞, i.e. X ∈ Ln (Ω, F, P), où n est
un entier naturel non nul, alors la fonction caractéristique ΦX de X est continûment dérivable
jusqu’à l’ordre n et on a, pour tout réel u :
Z
(n) n
x n e iux dPX (x) = i n E X n e iuX .
ΦX (u) = i
R
Z
(n) n
En particulier ΦX (0) =i x n dPX (x) = i n E (X n ) .
R
Proposition 3.34.
Si X = (X1 , X2 , · · · , Xd ) est un vecteur aléatoire de dimension d tel que E(|X |2 ) < +∞,
i.e. X ∈ L2 (Ω, F, P), où d est un entier naturel non nul, alors, pour tout k = 1, 2, · · · , d et
∂ΦX ∂ 2 ΦX
j = 1, 2, · · · , d on a E(Xk ) = −i (0) et E(Xk Xj ) = − (0).
∂uk ∂uk ∂uj
Pour le calcul des moments d’une variable aléatoire réelle, la proposition suivante est parfois
utile :
C entre de T élé-enseignement U niversitaire–Franche-Comté–Besançon CT U
Besançon
58 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014
Proposition 3.35.
Soient X une variable aléatoire réelle et n un entier naturel tels que la f.c. de X , ΦX , soit
dérivable en 0 à l’ordre n. Alors
1. E(X 2p ) < +∞ où 2p est le plus grand entier pair inférieur à n. En particulier, X admet
des moments jusqu’à l’ordre 2p.
2. De plus, si le développement limité de ΦX au voisinage de 0 à l’ordre n s’écrit
k=n
X
ΦX (u) = 1 + ak u k + o(u n ) alors, pour tout 1 ≤ k ≤ 2p, E(X k ) = (−i)k ak k!.
k=1
Indications pour la démonstration (laissée en exercice non corrigé) : Supposons que ΦX soit
n-fois dérivable en 0. Faisons un raisonnement par récurrence finie sur k tel que 2k ≤ n, en
prenant pour propriété de récurrence à l’ordre k, ( P k ) : "M2k < +∞."
• Montrons d’abord ( P 1 ).
Pour simplifier notons f la partie-réelle de ΦX et g sa partie-imaginaire. Montrer que g
(2n) (2n)
est
impaire et fpaire. En déduire ΦX (0) = f (0). Montrer que la suite de fonctions
1
2n2 (1 − f ( )) converge dans R vers −f 00 (0). En appliquant le lemme de Fatou (proposition
n N x
3.12, page 38) à la suite de fonctions 2n2 (1 − cos ) , prouver que M2 ≤ −f 00 (0) < +∞.
n N
• Montrons l’hérédité de la propriété.
Supposons ( P k−1 ), pour un entier naturel k tel que 2k ≤ n, et montrons
Z ( Pk) :
(2k−2)
Notons h la partie-réelle de ΦX . Montrer que h(t) = (−1)k−1 x 2k−2 cos(tx)dPX (x)
R
(2k)
et que h00 (0) =ΦX (0). En déduire,Zen utilisant la convergence de la suite de fonctions
1 x (2k)
2n2 (1 − h( )) , que lim (−1)k−1 2n2 x 2k−2 (1 − cos )dPX (x) = −ΦX (0). En appli-
n N
n→+∞ R n
k (2k)
quant le lemme de Fatou, prouver que M2k ≤ (−1) ΦX (0) < +∞. Appliquer le théorème de
récurrence finie sur k pour conclure.
La deuxième partie résulte de la proposition 3.33 précédente.2
Proposition 3.37.
Soit µ uneZprobabilité sur R. Supposons qu’il existe un réel α > 0 tel que, pour tout entier
naturel n, |x n |dµ(x) ≤ αn . Si ν est une probabilité sur R ayant les mêmes moments que µ,
R
alors µ = ν.
2. En déduire que, pour tout réel positif a > 0, la v.a.r. Xa suit la loi normale réduite
centrée.
Chapitre 4
Indépendance stochastique
Dans la suite, si A et B sont respectivement des parties de Rn et Rp , on posera avec un léger
abus,
A×B := {(x1 , · · · , xn+p ) ∈ Rn+p /(x1 , · · · , xn ) ∈ A et (xn+1 , · · · , xn+p ) ∈ B},
c-à-d A×B := (A×Rp ) ∩ (Rn ×B). De même, si a := (a1 , · · · , an ) ∈ Rn et b := (b1 , · · · , bp ) ∈
Rp , on notera (a, b) := (a1 , · · · , an , b1 , · · · , bp ) considéré comme élément de Rn+p . On dit que
(a, b) est obtenu par concaténation de a et b.
Généralisons ces situations en considérant le problème suivant : Étant donné deux mesures µ et
ν respectivement sur Rn et Rp , existe-t-il une mesure α sur Rn+p telle que, pour tous boréliens A
et B respectivement de Rn et Rp , α(A×B) = µ(A)ν(B) ? Si oui, y a-t-il unicité de la mesure α ?
On montre que dans le cas où µ et ν sont des probabilités la réponse est positive. Dans le cas
des mesures plus générales ce n’est plus nécessairement vrai, cependant c’est encore vrai pour
les mesures de Lebesgue. Plus précisément, on admettra le résultat suivant :
Proposition 4.1.
Soit µ (respectivement ν) une probabilité ou la mesure de Lebesgue sur Rn (respectivement
sur Rp ) alors il existe une unique mesure sur Rn+p , notée µ ⊗ ν, telle que, pour tous boréliens
A et B respectivement de Rn et Rp , µ ⊗ ν(A×B) = µ(A)ν(B).
Définition 4.1.
On dit que µ ⊗ ν est le produit des mesures µ et ν. On dit aussi que µ ⊗ ν est une
mesure-produit sur Rn+p .
On notera que toutes les mesures sur Rn+p ne sont pas nécessairement des mesures-produit.
Exemples 4.1.
On admettra que, pour tous entiers n ≥ 1 et p ≥ 1, λ(n+p) = λ(n) ⊗ λ(p) . En particulier on
utilisera souvent la relation λ(2) = λ ⊗ λ. 2
Le théorème suivant, énoncé sous la forme la plus utilisée dans ce cours, est un cas particulier
du théorème de Tonelli vu en théorie de la mesure et de l’intégration. Il donne un procédé
de calcul des intégrales sur Rn+p . Il permettra par un procédé de récurrence d’en déduire une
méthode de calcul des intégrales sur Rd .
Proposition 4.2.
Théorème de Tonelli (admis)
Soient µ une probabilité ou la mesure de Lebesgue sur Rn , ν une probabilité ou la mesure de
Lebesgue sur Rp et f une application borélienne positive de Rn+p dans [0, +∞], alors
1. Pour tous y ∈ Rp et x ∈ Rn , les applications partielles
Le théorème de Tonelli permet en pratique de ramener le calcul d’une intégrale multiple, i.e.
sur Rd , au calcul d’une succession de d intégrales simples, i.e. sur R, pour lesquelles on
peut appliquer séparément les règles d’intégration déjà vues au chapitre III.
Ce résultat est encore vrai pour les applications f de signe quelconque à condition qu’elles
soient supposées intégrables sur Rn+p suivant la mesure-produit µ ⊗ ν. Il est alors connu sous
le nom de théorème de Fubini :
CT U C entre de T élé-enseignement U niversitaire–Franche-Comté–Besançon
Besançon
Chapitre 4. Indépendance stochastique 63
Proposition 4.3.
Théorème de Fubini
Soient µ une probabilité ou la mesure de Lebesgue sur Rn , ν une probabilité ou la mesure de
Lebesgue sur Rp et f une application (µ ⊗ ν)-intégrable de Rn+p dans R, alors,
1. Pour µ-presque-tout x ∈ Rn , l’application y ∈ Rp 7→ f (x, y ) ∈ R est ν-intégrable, et,
pour ν-presque-tout y ∈ Rp , l’application x ∈ Rn 7→ f (x, y ) ∈ R est µ-intégrable.
Z
p
2. L’application y ∈ R 7→ f (x, y )dµ(x) ∈ R est définie ν-presque-partout et ν-
Rn Z
n
intégrable, et l’application x ∈ R 7→ f (x, y )dν(y ) ∈ R est définie µ-presque-partout
Rp
et µ-intégrable.
3. L’intégrale de fZ par rapport à la mesure-produit
Z Z µ ⊗ ν est donnée par :
f d(µ ⊗ ν) = f (x, y )dν(y ) dµ(x)
Rn+p ZRn ZRp
= f (x, y )dµ(x) dν(y ).
Rp Rn
D’autres notations sont utilisées dans les ouvrages pour noter une intégrale suivant une mesure-
produit. On trouvera indifféremment
Z Z Z
f d(µ ⊗ ν) = f (x, y ) d(µ ⊗ ν)(x, y ) = f (x, y ) dµ(x) ⊗ dν(y )
Rn+p ZR
n+p Rn+p
= f (x, y ) dµ(x)dν(y ).
Rn+p
Exemples 4.2.
Considérons l’application f définie sur R2 par f (x, y ) := 1l]0,+∞[ (x)1l]a,b[ (y )e −xy où a et b
sont des réels tels que 0 < a < b. C’est une fonction borélienne positive sur R2 . Appliquons
le théorème de Tonelli à f et à la mesure λ(2) = λ ⊗ λ,
Z Z Z
(2) −xy
f dλ = 1l]0,+∞[ (x) 1l]a,b[ (y )e dλ(y ) dλ(x)
R2 R R
Z Z
−xy
= 1l]a,b[ (y ) 1l]0,+∞[ (x)e dλ(x) dλ(y ).
R R
Ce qui donne en utilisant la règle d’intégration suivant la mesure de Lebesgue sur R des
fonctions boréliennes positives,
Z +∞ −ax
− e −bx
Z
(2) e
f dλ = dx
R2 0 x
Z Z b
1 1 b
= 1l]a,b[ (y ) dλ(y ) = dy = ln .
R y a y a
On a ainsi par la même occasion établi la valeur de l’intégrale généralisée au sens de
Riemann Z +∞ −ax
− e −bx
e b
dx = ln .2
0 x a
Pour compléter les techniques d’intégration suivant la mesure de Lebesgue sur Rd , le théorème
suivant, dit de changement de variable, est très utile.
Proposition 4.4.
Théorème de changement de variable dans Rd (admis)
Soient T un difféomorphisme de classe C 1 d’un ouvert U sur un ouvert V de Rd et f une
application borélienne de Rd dans R. Notons J(v ) le jacobien de T −1 au point v ∈ V .
1. Si f est à valeurs dans [0, +∞], alors x ∈ Rd 7→ 1lV (x)f (T −1 (x))|J(x)| est une
application borélienne positive.
2. Si l’application x ∈ Rd 7→ 1lU (x)f (x) est λ(d) -intégrable sur Rd , alors l’application
x ∈ Rd 7→ 1lV (x)f (T −1 (x))|J(x)| est λ(d) -intégrable sur Rd .
De plus, dans les deux cas ci-dessus
Z Z
(d)
1lV (v )f T −1 (v ) |J(v )| dλ(d) (v ),
1lU (u)f (u)dλ (u) =
Rd Rd
Exemples 4.3.
Montrons que
Z
2 +y 2 ) π
I := 1l]0,+∞[2 (x, y )e −(x dλ(2) (x, y ) = .
R2 4
Le théorème de Fubini ou de Tonelli sont en particulier très utiles dans les calculs faisant
intervenir des probabilités à densité définies sur Rd . Donnons un exemple d’utilisation de la
proposition 3.8, page 35, dans le calcul de lois de probabilité sur R2 .
Exemples 4.4.
Soit (X , Y ) un vecteur aléatoire de R2 dont la loi admet pour densité la fonction définie sur
R2 ρ := 21 1l∆ où ∆ := {(x, y ) ∈ R2 /|x| + |y | ≤ 1}. Cherchons la loi de la variable aléatoire
réelle X .
Soit A un borélien de R. Calculons PX (A). Par définition de la notion de loi et comme
{X ∈ A} = {(X , Y ) ∈ A×R},
PX (A) = P(X ∈ A) = P ((X , Y ) ∈ A×R)
Z
= P(X ,Y ) (A×R) = 1lA (x)1lR (y )dP(X ,Y ) (x, y ).
R2
D’après la règle d’intégration des mesures à densité sur R2 puis par application du théorème
de Tonelli à λ(2) = λ ⊗ λ,
Z Z
1
1lA (x)1lR (y )dP(X ,Y ) (x, y ) = 1lA (x)1lR (y ) 1l∆ (x, y )dλ(2) (x, y )
R2 2 2
ZR Z
1
= 1lA (x) 1l∆ (x, y )dλ(y ) dλ(x)
R R 2
Z
= 1lA (x)χ(x)dλ(x)
R
Ce qui prouve que la variable aléatoire réelle X a pour loi la probabilité définie sur R par
la densité χ. On trouve par symétrie des rôles joués par X et Y que Y a même loi que X
(cela ne signifie pas que X = Y !). 2
En fait on vient de montrer, sur un cas particulier, le résultat important ci-dessous qui affirme
que si un vecteur aléatoire admet une densité, alors ses composantes sont des variables aléatoires
réelles à densité. La réciproque est fausse en général comme le montre le contre-exemple proposé
dans l’exercice 4.4 ci-dessous. Plus précisément :
Proposition 4.5.
Si X := (X1 , · · · , Xd ) est un vecteur aléatoire de densité ρ sur Rd , alors, pour tout entier
1 ≤ k ≤ d, la v.a.r. Xk admet pour densité l’application χk définie sur R par
Z
χk (t) := ρ(x1 , · · · , xk−1 , t, xk+1 , · · · , xd )dλ(d−1) (x1 , · · · , xk−1 , xk+1 , · · · , xd ).
Rd−1
Les situations pour lesquelles on aura l’égalité seront celles où on dira qu’il y a indépendance
des variables suivant la définition :
Définition 4.2.
Une suite finie de vecteurs aléatoires (X1 , · · · , Xn ), de dimensions quelconques (éventuellement
distinctes), est dite indépendante (relativement à P) si
On dit aussi, par abus, que les vecteurs aléatoires X1 , · · · , Xn sont indépendants. Il s’agit là
d’un abus car l’indépendance est une propriété de la suite (X1 , · · · , Xn ) et non de chacune des
variables aléatoires réelles Xk .
Définition 4.3.
La loi du vecteur aléatoire concaténé X := (X1 , · · · , Xn ) est dite aussi loi conjointe des
vecteurs X1 , · · · , Xn . Pour tout entier k = 1, · · · , n, la loi du vecteur aléatoire Xk s’appelle
alors la loi marginale de X de rang k.
Exemples 4.6.
Avec cette terminologie, on peut énoncer le résultat de l’exemple 4.5 précédent en expri-
mant que le couple de variables aléatoires réelles (X , Y ) n’est pas indépendant.
Dans le chapitre sur les convergences de suite de variables aléatoires réelles on aura besoin de
la définition suivante :
Définition 4.4.
Une suite infinie (Xk )N de vecteurs aléatoires est dite indépendante (relativement à P) si
toute sous-famille finie est indépendante relativement à P.
On montre que si (µk )k∈I , où I ⊆ N, est une suite (finie ou infinie) de probabilités sur R, on
peut toujours construire un espace de probabilité (Ω, F, P) et une suite indépendante (Xk )k∈I
de variables aléatoires réelles définies sur (Ω, F, P) telle que, pour tout k ∈ I , µk soit la loi de
la variable aléatoire réelle Xk .
On peut vérifier aisément qu’une suite infinie de vecteurs aléatoires (Xk )N est indépendante si,
et seulement si, pour tout entier n ∈ N, la suite finie (X0 , · · · , Xn ) est indépendante.
C entre de T élé-enseignement U niversitaire–Franche-Comté–Besançon CT U
Besançon
68 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014
Proposition 4.6.
Soit (X1 , · · · , Xn ) une suite de vecteurs aléatoires de dimensions respectives d1 , · · · , dn . Les
assertions suivantes sont équivalentes :
1. La suite (X1 , · · · , Xn ) est indépendante.
2. Pour tout entier 1 ≤ k ≤ n et tout borélien Bk de Rdk ,
P(X1 ,··· ,Xn ) (B1 ×B2 × · · · ×Bn ) = PX1 (B1 )PX2 (B2 ) · · · PXn (Bn ).
Démonstration : "(1) implique (2)" résulte de la définition des produits de lois. "(2) implique
(3)" résulte de la définition de la notion de loi et des notations. "(3) implique (4)" résulte de
la relation ensembliste immédiate à vérifier :
L’implication " (4) implique (1) " résulte de ce que la probabilité P(X1 ,··· ,Xn ) vérifie la propriété
caractéristique des mesures-produits : Pour tout entier 1 ≤ k ≤ n et tout borélien Bk de Rdk ,
P(X1 ,··· ,Xn ) (B1 ×B2 × · · · ×Bn ) = PX1 (B1 )PX2 (B2 ) · · · PXn (Bn ). Par unicité de la mesure-produit,
on en déduit que P(X1 ,··· ,Xn ) = PX1 ⊗ PX2 ⊗ · · · ⊗ PXn . Ce qui prouve (1). 2
Dans les cas où on manipule des variables aléatoires réelles discrètes la proposition précédente
a pour corollaire le critère d’indépendance ci-dessous. Pour simplifier on supposera que les
variables aléatoires réelles sont portées par N mais le résultat se généralise aux variables
aléatoires réelles portées par un ensemble dénombrable quelconque de R, notamment Z.
Proposition 4.7.
Critère des v.a.r. discrètes
Soit (X1 , · · · , Xn ) une suite de variables aléatoires réelles discrètes portées par N, alors la suite
(X1 , · · · , Xn ) est indépendante si, et seulement si, pour tout (k1 , · · · , kn ) ∈ Nn ,
De même on vérifie que PX1 ⊗ · · · ⊗ PXn est une probabilités portée par Nn donc discrète. Elle
est donc entièrement déterminée par la connaissance des nombres
Par suite
P(X1 ,··· ,Xn ) = PX1 ⊗ · · · ⊗ PXn .
Ce qui prouve l’indépendance de la suite (X1 , · · · , Xn ). 2
Exemples 4.7.
Reprenons les notations de l’exemple 3.12, page 42. X := (X1 , X2 ) est un vecteur aléatoire
de dimension 2 de loi X 1
PX := δ .
k+l (k,l)
k≥1,l≥1
2
On vient d’établir un critère d’indépendance pour une grande famille de probabilités, celle des
probabilités discrètes, donnons maintenant un critère pour une autre grande famille de proba-
bilités, celle des probabilités à densité.
Proposition 4.8.
Critère des v.a.r. à densité
1. Si (X1 , · · · , Xn ) est une suite indépendante de variables aléatoires réelles telle que, pour
tout k = 1, · · · , n, la variable aléatoire réelle Xk soit de densité ρk sur R, alors le vecteur
aléatoire X := (X1 , · · · , Xn ) de dimension n admet pour densité sur Rn l’application
gk (t)
χk : t ∈ R 7→ χk (t) := R ∈ [0, +∞].
g dλ
R k
Ce qui prouve que la loi du vecteur aléatoire (X , Y , Z ) admet pour densité sur R3 l’application
ρ définie par ρ(u, v , w ) := ρ1 (u)ρ2 (v )ρ3 (w ).
2) Supposons que le vecteur aléatoire (X , Y , Z ) admette pour densité sur R3 l’application ρ
définie par ρ(u, v , w ) := g1 (u)g2 (v )g3 (w ).
Commençons par étudier la loi de la première composante X .
D’après la proposition 4.5,Rla variable aléatoire réelle X admet pour densité sur R l’application
χ1 définie par χ1 (t) := R2 ρ(t, u, v )dλ(2) (u, v ). Par application du théorème de Tonelli à
CT U C entre de T élé-enseignement U niversitaire–Franche-Comté–Besançon
Besançon
Chapitre 4. Indépendance stochastique 71
λ(2) = λ ⊗ λ, il vient
Z Z Z
(2)
χ1 (t) = g1 (t)g2 (u)g3 (v )dλ (u, v ) = g1 (t) g2 (u) g3 (v )dλ(v ) dλ(u)
R2 R R
Z Z
g1 (t)
= g1 (t) g2 dλ g3 dλ = R ,
R R g dλ
R 1
1l{(X ,Y ,Z )∈A×B×C } (ω) = 1l{X ∈A}∩{Y ∈B}∩{Z ∈C } (ω) = 1l{X ∈A} (ω)1l{Y ∈B} (ω)1l{Z ∈C } (ω)
et 1l{X ∈A} (ω) = 1lA (X (ω)), en utilisant les propriétés de l’opérateur d’intégration donnée dans
la proposition 3.1, page 30, puis en appliquant les théorèmes du transfert et de Tonelli, il vient
De plus, comme les variables aléatoires réelles X , Y , et Z ont pour densités respectives χ1 , χ2 ,
et χ3 ,
Z Z Z
PX (A)PY (B)PZ (C ) = 1lA χ1 dλ 1lB χ2 dλ 1lC χ3 dλ
R R R
Z Z Z
g1 (t) g2 (t) g3 (t)
= 1lA (t) R dλ(t) 1lB (t) R dλ(t) 1lC (t) R dλ(t)
R R
g 1 dλ R R
g 2 dλ R g dλ
R 3
Z Z Z
= 1lA g1 dλ 1lB g2 dλ 1lC g3 dλ ,
R R R
toujours en vertu de Z Z Z
g1 dλ g2 dλ g3 dλ = 1.
R R R
Donnons un autre énoncé, beaucoup plus utile dans la pratique, du critère d’indépendance des
variable aléatoire réelle à densité :
Proposition 4.9.
Soit (X1 , · · · , Xn ) une suite de variables aléatoires réelles telle que, pour tout k = 1, · · · , n, la
variable aléatoire réelle Xk soit de densité ρk sur R. Alors la suite de variables aléatoires réelles
(X1 , · · · , Xn ) est indépendante si, et seulement si, le vecteur aléatoire X := (X1 , · · · , Xn ) de
dimension n admet pour densité sur Rn l’application
Exemples 4.8.
1) Reprenons les notations de l’exercice 4.5, page 68. On y établit que le vecteur aléatoire
1 − x 2 +y 2
(X , Y ) de dimension 2 admet pour densité sur R2 l’application ρ(x, y ) := e 2 et
2π
que les variables aléatoires réelles X et Y suivent la même loi N 1 (0, 1). Leurs densités
1 t2
ρX et ρY sur R sont définies sur R par ρX (t) = ρY (t) = √ e − 2 et vérifient la rela-
2π
tion ρ(x, y ) = ρX (x)ρY (y ), ce qui prouve l’indépendance de la suite de variables aléatoires
réelles (X , Y ) en vertu de la proposition précédente.
2) Dans l’exemple 4.4, page 65, on vérifie aisément que ρ(x, y ) 6= χ(x)χ(y ), ce qui est une
autre façon de prouver que la suite de variables aléatoires réelles (X , Y ) n’est pas indépen-
dante. 2
Donnons un critère valable pour des vecteurs aléatoires généraux sans hypothèses sur le type
de loi qu’ils satisfont.
Proposition 4.10.
Critère des fonctions positives
Soit (X1 , · · · , Xn ) une suite de vecteurs aléatoires de dimensions respectives d1 , · · · , dn . Alors,
la suite (X1 , · · · , Xn ) est indépendante si, et seulement si, pour tout entier 1 ≤ k ≤ n et toute
application borélienne positive fk de Rdk dans [0, +∞],
E [f1 (X1 )f2 (X2 ) · · · fn (Xn )] = E [f1 (X1 )] E [f2 (X2 )] · · · E [fn (Xn )] .
on obtient
P[(X1 , X2 ) ∈ A×B] = P[X1 ∈ A]P[X2 ∈ B],
ce qui prouve que P(X1 ,X2 ) = PX1 ⊗ PX2 . 2
A titre d’exemple d’utilisation de cette proposition, donnons un corollaire très utile dans les
calculs faisant intervenir des variables aléatoires réelles indépendantes et intégrables :
Proposition 4.11.
Soit (X1 , · · · , Xn ) une suite de variables aléatoires réelles intégrables. Si la suite (X1 , · · · , Xn )
est indépendante, alors la variable aléatoire réelle produit X1 X2 · · · Xn est intégrable et
où on a appliqué, dans la deuxième égalité, la proposition 4.10 avec les fonctions positives
x 7→ |x| grâce à l’indépendance de (X , Y ). On a donc prouvé que la variable aléatoire réelle
X Y est intégrable.
Montrons la deuxième relation. Remarquons qu’en introduisant les parties positives et négatives
des v.a.r. , on peut écrire
X Y = (X + − X − )(Y + − Y − ) = X + Y + + X − Y − − X − Y + − X + Y −
qui donne, en prenant les espérances de chaque membres de l’égalité précédente et en appliquant
la proposition 4.10 aux fonctions boréliennes positives x 7→ x + et x 7→ x − ,
Proposition 4.12.
Critère des fonctions bornée
Soit (X1 , · · · , Xn ) une suite de vecteurs aléatoires de dimensions respectives d1 , · · · , dn . Alors,
la suite (X1 , · · · , Xn ) est indépendante si, et seulement si, pour tout entier 1 ≤ k ≤ n et toute
application borélienne bornée fk de Rdk dans [0, +∞],
E [f1 (X1 )f2 (X2 ) · · · fn (Xn )] = E [f1 (X1 )] E [f2 (X2 )] · · · E [fn (Xn )] .
Démonstration : La proposition 4.11 entraîne que, pour tout couple d’entiers (i, j) avec i 6= j,
Cov(Xi , Xj ) = 0. On conclut en utilisant l’assertion 3) de la proposition 3.24, page 48. 2
Proposition 4.14.
Indépendance de fonctions de v.a.r.
Si (X1 , · · · , Xn , Y1 , · · · , Yp ) est une suite indépendante de v.a.r., alors, pour toutes applications
boréliennes ϕ de Rn dans Rd1 et ψ de Rp dans Rd2 , le couple de vecteurs aléatoires
(ϕ(X1 , · · · , Xn ), ψ(Y1 , · · · , Yp )) est indépendant.
Ce qui prouve que PX = P(X1 ,··· ,Xn ) = PX1 ⊗ · · · ⊗ PXn , et par suite
Terminons par un critère d’indépendance, simple d’application, utilisant les fonctions caractéris-
tiques :
Proposition 4.16.
Critère d’indépendance par les f.c.
Soit (X1 , · · · , Xn ) une suite de vecteurs aléatoires de dimensions respectives d1 , · · · , dn . Alors,
la suite (X1 , · · · , Xn ) est indépendante si, et seulement si, pour tout u1 ∈ Rd1 , · · · un ∈ Rdn ,
Démonstration : • - C.N. Supposons que les vecteurs aléatoires (X1 , · · · , Xn ) sont indépendants.
Alors, pour tout u1 ∈ Rd1 , · · · , un ∈ Rdn ,
k=n
!
Y
i[<u1 ,X1 >+<u2 ,X2 >+···+<un ,Xn >]
e i<uk ,Xk >
Φ(X1 ,··· ,Xn ) (u1 , · · · , un ) = E e =E .
k=1
D’après la propriété 4.12, page 74, appliquée aux fonctions boréliennes bornées e i<u1 ,x1 > ,
e i<u2 ,x2 > , · · · , e i<un ,xn > , on a
k=n
Y
E e i<uk ,Xk > = ΦX1 (u1 ) · · · ΦXn (un ).
Φ(X1 ,··· ,Xn ) (u1 , · · · , un ) =
k=1
Ce qui prouve que les probabilités PX1 ⊗ PX2 ⊗ · · · ⊗ PXn et P(X1 ,··· ,Xn ) ont les mêmes fonctions
caractéristiques, donc sont égales en vertu du critère d’identification des lois par les fonctions
caractéristiques. 2
CT U C entre de T élé-enseignement U niversitaire–Franche-Comté–Besançon
Besançon
Chapitre 4. Indépendance stochastique 77
Définition 4.5.
Une famille quelconque (Ai )I d’événements, est dite (mutuellement) indépendante pour
P si, pour toute sous-famille finie (Ai )K , K ⊆ I et K fini, on a :
!
\ Y
P Ai = P(Ai ).
i∈K i∈K
Définition 4.6.
Une famille quelconque ( F i )I de sous-tribus de F, est dite (mutuellement) indépendante
pour P si toute famille d’événements (Ai )I avec Ai ∈ F i , pour tout i ∈ I , est indépendante
pour P.
On dit aussi plus fréquemment, et par abus de langage, que les événements (Ai )I , sont in-
dépendants (resp. les tribus ( F i )I , sont indépendantes).
On remarquera bien que la notion d’indépendance dépend de la probabilité P choisie sur (Ω, F).
De plus si l’indépendance mutuelle d’une famille d’événements entraîne leur indépendance deux
à deux, il faut noter que la réciproque est fausse (cf. [14] ex. 3-1 à 3-3).
P(A ∩ B)
pour tout A ∈ σ( C), = P(A), ou P(A ∩ B) = P(A)P(B).
P(B)
En résumé, on a bien montré que, pour tout B ∈ D et pour tout A ∈ σ( C), on a
P(A ∩ B) = P(A)P(B).
• Montrons maintenant que, pour tout B ∈ σ( D) et pour tout A ∈ σ( C), on a P(A ∩ B) =
P(A)P(B).
Utilisons la même démarche. Soit A ∈ σ( C) fixé.
Si P(A) = 0, alors pour tout B ∈ σ( D), A ∩ B ⊆ A et par suite P(A ∩ B) ≤ P(A) = 0. Donc,
dans ce cas, pour tout B ∈ σ( D), on a bien P(A ∩ B) = 0 = P(A)P(B).
P(A ∩ B)
Si P(A) > 0, considérons l’application B ∈ σ( D) 7→ PA (B) = ∈ [0, 1]. On vérifie
P(A)
de même que c’est une probabilité sur (Ω, σ( D)). De plus la probabilité PA , coïncide avec la
probabilité P sur le π-système D, car en vertu de l’hypothèse, pour tout (A, B) ∈ C × D, les
événements A et B sont indépendants, on a P(A ∩ B) = P(A)P(B). Donc d’après le théorème
d’unicité pour les probabilités (cf. proposition 1.11, page 14) on en déduit que la probabilité PA
coïncide avec la probabilité P sur la tribu σ( D) engendrée par le π-système D c’est-à-dire que,
P(A ∩ B)
pour tout B ∈ σ( D), PA (B) = P(B), ou encore pour tout B ∈ σ( D), = P(B), ou
P(A)
P(A ∩ B) = P(A)P(B).
Finalement, on a bien montré que, pour tout B ∈ σ( D) et pour tout A ∈ σ( C), on a
P(A ∩ B) = P(A)P(B). 2
En utilisant la même démarche, on peut établir un critère d’indépendance des vecteurs aléatoires,
qui prouve que dans le critère 4.6, page 68, on peut se limiter qu’à certains boréliens de Rd :
Proposition 4.18.
Une suite (X1 , · · · , Xn ) de vecteurs aléatoires de dimensions respectives d1 , · · · , dn , est indépen-
dante si, et seulement si,
"k=n # k=n
\ Y
P {Xk ∈ Ak } = P(Xk ∈ Ak ),
k=1 k=1
i∈K 0
Ai ∈ F i . ! !
[ [
• On a σ( C J ) = σ Fi et σ( C K ) = σ Fi .
i∈J i∈K [
En effet, en considérant les familles à un seul élément, on a facilement l’inclusion F i ⊆ CJ ,
! i∈J
[
d’où l’inclusion des tribus engendrées correspondantes σ F i ⊆ σ( C J ). Réciproque-
i∈J !
[
ment, par la stabilité de l’intersection finie dans les tribus, on a C J ⊆ σ F i , et
! i∈J
[
par suite σ( C J ) ⊆ σ F i . D’où l’égalité. On montre de la même façon la relation
! i∈J
[
σ( C K ) = σ F i . De plus, on vérifie aisément que les familles C J et C K sont des π-
i∈K
systèmes.
• Montrons que, pour tout (A, B) ∈ C J × C K , \
les événements A et B sont indépendants.
En effet, soit A ∈ C J et B ∈ C K . Alors A = Ai où J 0 est une partie finie de J et, pour
\ i∈J 0
tout i ∈ J 0 , Ai ∈ F i , et B = Ai où K 0 est une partie finie de K et, pour tout i ∈ K 0 ,
i∈K 0 \
Ai ∈ F i . Par suite, comme J ∩ K = Ø, on a J 0 ∩ K 0 = Ø, et A ∩ B = Ai . Il vient alors,
0
i∈J ∪K 0
!
\ Y
P(A ∩ B) = P Ai = P (Ai ) , car la suite ( F i )I est une famille indépendante de
i∈J 0 ∪K 0 i∈J 0 ∪K 0
sous-tribus de F. Par la commutativitéY
et l’associativité
Ydu produit,Y et puis par l’indépendance
des sous-tribus, on peut alors écrire P (Ai ) = P (Ai ) × P (Ai ) = P(A) × P(B).
i∈J 0 ∪K 0 i∈J 0 i∈K 0
Ce qui prouve que, pour tout (A, B) ∈ C J × C K , les événements A et B sont indépendants.
• On peut alors appliquer la proposition 4.17 aux π-systèmes C J et C K pour obtenir le résultat
recherché. 2
Proposition 4.20.
Soit (Ai )I une famille indépendante d’événements de F. Si K et J sont deux parties disjointes
et non vides de I , alors les tribus engendrées σ ((Ai )i∈J ) et σ ((Ai )i∈K ) sont indépendantes.
Démonstration : Il suffit d’appliquer la proposition 4.19 à la famille des sous-tribus (σ(Ai ))I
de F, et[de remarquer [ que σ ((Ai )i∈J ) (resp. σ ((Ai )i∈K )) est aussi la tribu engendrée par la
famille σ (Ai ) (resp. σ (Ai )). 2
i∈J i∈K
On peut vérifier facilement que :
Proposition 4.21.
Si la famille d’événements (Ai )I est indépendante, il en est de même de la famille d’événements
(Bi )I où, pour tout i ∈ I , Bi := Ai ou Bi := Aci .
Définition 4.7.
Si X est un vecteur aléatoire de dimension d, on note σ(X ) la plus petite sous-tribu de F
rendant mesurable l’application X . σ(X ) s’appelle la tribu engendrée par la variable X .
On vérifie facilement que σ(X ) est l’ensemble des images-réciproques de tous les boréliens de
Rd . (cf. aussi exercice 4.20, page 93, pour une généralisation)
Exemples 4.9.
Si A est un événement de F, σ(1lA ) = σ(A) = {Ø, A, Ac , Ω}.
Avec ces notations, le lien entre la notion d’indépendance pour les événements, celle pour les
vecteurs aléatoires et celle pour les tribus est mis en évidence par les propositions suivantes
dont les démonstrations sont élémentaires et laissées en exercice :
Proposition 4.22.
Une famille quelconque (Xi )I de vecteurs aléatoires Xi de dimension di , i ∈ I , est indépendante
si, et seulement si, la famille de sous-tribus (σ(Xi ))I est indépendante.
Proposition 4.23.
La famille d’événements (Ai )I est indépendante si, et seulement si, la famille des sous-tribus
(σ(Ai ))I est indépendante.
Proposition 4.24.
La famille d’événements (Ai )I est indépendante si, et seulement si, la famille des v.a.r. (1lAi )I
est indépendante.
Proposition 4.25.
Si A et B sont deux sous-tribus de F indépendantes, X et Y deux vecteurs aléatoires
respectivement A-mesurable et B-mesurable, alors les vecteurs aléatoires X et Y sont
indépendants.
Définition 4.8.
Un événement A de F est dit événement asymptotique (relativement à la suite
d’événements (An )N ) si A est mesurable par rapport à toutes les tribus de la suite ( An )N . Cela
∞
\
équivaut à dire que A est mesurable par rapport à la tribu An appelée tribu asymptotique
n=0
relative à la suite d’événements (An )N .
La loi du Tout ou Rien de Kolmogorov donne des informations sur la valeur de la probabilité
d’un événement asymptotique relativement à une suite indépendante d’événements (An )N :
Proposition 4.26.
Loi du Tout ou Rien ou du Zéro-Un de Kolmogorov
Soit (An )N une suite indépendante d’événements. Si A est un événement asymptotique
relativement à la suite d’événements (An )N , alors P(A) = 0 ou P(A) = 1.
par le π-système C c’est-à-dire que, pour tout B ∈ A0 = σ( C), PA (B) = P(B), ou encore
P(A ∩ B)
pour tout B ∈ A0 = σ( C), = P(B), et par suite P(A ∩ B) = P(A)P(B).
P(A)
Finalement, on a bien montré que, pour tout B ∈ A0 et pour tout A ∈ A, on a
P(A ∩ B) = P(A)P(B).
• Soit A un événement asymptotique relativement à la suite indépendante d’événements (An )N ,
i.e. A ∈ A. Comme A ⊆ A0 , on peut appliquer alors le résultat du point précédent à A ∈ A
et à B = A ∈ A0 , ce qui donne P(A ∩ A) = P(A)P(A), ou encore P(A) = [P(A)]2 , ce qui
implique que P(A) ne peut prendre que la valeur 0 ou la valeur 1. 2
Si (An )N est une suite d’événements, on notera lim inf An l’ensemble des ω ∈ Ω tels que
{n ∈ N / ω 6∈ An } est fini. En conséquence, l’événement lim inf An est réalisé si, et seulement
si, tous les événements de la suite (An )N , sauf éventuellement un nombre fini d’entre eux, sont
réalisés.
La proposition suivante affirme que les événements lim sup(An ) et lim inf(An ) sont bien des
événements asymptotiques :
Proposition 4.27.
Si (An )N est une suite d’événements, alors
1. lim inf An ⊆ lim sup An . !
∞
\ [∞
2. lim sup An = Ak .
p=0 k=p
∞ ∞
!
[ \
3. lim inf An = Ak .
p=0 k=p
4. lim sup An et lim inf An sont des événements asymptotiques relativement à la suite
d’événements (An )N .
Démonstration : Les propriétés 1), 2) et 3) résultent directement des définitions de lim sup An
et lim inf An .
Montrons la propriété 4) pour l’événement lim sup An . Le raisonnement est analogue pour
∞
[
lim inf An . Posons, pour tout entier naturel p, Bp = Ak . La suite (Bn )N est une suite décrois-
k=p
∞
\ ∞
\
sante pour l’inclusion. Par suite, pour tout entier naturel p, Bk = Bk . La suite des tribus
k=0 k=p
( An := σ(An , An+1 , ..., An+k , ...))N est une suite décroissante, donc pour tout entier naturel p
et pour tout entier naturel k ≥ p, Bk ∈ Ak ⊆ Ap , ce qui implique que, pour tout entier naturel
\∞ ∞
\ ∞
\
p, Bk ∈ Ap . Par suite, pour tout entier naturel p, lim sup An = Bk = Bk ∈ Ap . Ce
k=p k=0 k=p
Le lemme suivant donne des conditions suffisantes permettant de préciser laquelle des deux
valeurs possibles est la bonne :
Proposition 4.29.
Lemme de Borel-Cantelli
1. X
Soit (An )N une suite d’événements (non nécessairement indépendante). Si la série
P(An ) de terme général positif P(An ) converge dans R, alors P(lim sup An ) = 0,
c’est-à-dire presque-sûrement seul un nombre fini des événements An est réalisé.
X
2. Soit (An )N une suite d’événements indépendante. Si la série P(An ) de terme général
positif P(An ) diverge dans R, alors P(lim sup An ) = 1, c’est-à-dire presque-sûrement un
nombre infini des événements An est réalisé.
Démonstration :
k=+∞
[
1. Posons, pour tout entier naturel m, Bm = Ak . La suite ensembliste (Bm )N
k=m
est une suite décroissante (au sens de l’inclusion). D’après le théorème de continuité
monotone des probabilités (cf. proposition 1.9, page 12), P(lim sup An ) = lim P(Bm ).
m→+∞
k=+∞
! k=+∞
[ X
Or P(Bm ) = P Ak ≤ P(Ak ), en vertu de l’inégalité de Bonferroni. Mais
k=m k=m
+∞
X X
P(Ak ) est le reste de rang m de la série P(An ) convergente par hypothèse, donc
k=m
+∞
X
lim P(Ak ) = 0, et par suite lim P(Bm ) = 0. Donc P(lim sup An ) = 0, ce qu’il
m→+∞ m→+∞
k=m
fallait démontrer. !
p=+∞ k=+∞
\ [
2. Posons, pour simplifier les écritures, A = lim sup An . Comme A = Ak ,
p=0 k=p
p=+∞ k=+∞
!
[ \
il vient en passant au complémentaire, Ac = Ack . Posons, pour tout
p=0 k=p
k=+∞
\
entier naturel p, Bpc = Ack . Notons que la suite ensembliste (Bpc )N est crois-
k=p
m=+∞ k=m
!
\ \
sante. On peut aussi écrire Bpc = Ack . Donc, pour tout entier naturel
m=p k=p
On notera que si l’hypothèse d’indépendance n’est pas utile dans l’item 1) du lemme de Borel-
Cantelli, elle est par contre nécessaire dans l’item 2) car, sans cette hypothèse, on peut construire
des contre-exemples où P(lim sup An ) = 0 avec la série de terme général P(An ) divergente. En
effet, considérons l’exemple suivant :
Exemples 4.10.
Soit l’espace de probabilité (R, B(R), λ) où λ désigne la mesure de Lebesgue sur R. Posons,
1
pour tout entier naturel n, An =]0, n+1 ]. Alors on vérifie aisément que lim sup An = Ø, d’où
1
P(lim sup An ) = 0, mais, pour tout entier naturel n, P(An ) = , ce qui entraîne que la
X n+1
série P(An ) à terme général positif diverge. Ici la suite d’événements (An )N n’est pas
1 1 1
indépendante car par exemple P(A1 ∩ A2 ) = P(A2 ) = alors que P(A1 ) · P(A2 ) = × =
3 2 3
1
6= P(A1 ∩ A2 ). 2
6
Proposition 4.30.
Si (X1 , X2 , · · · , Xn ) est une suite indépendante de variables aléatoires réelles de carré intégrable,
alors !2 !
Xn X n Xn
E Xk < +∞ et Var Xk = Var(Xk ).
k=1 k=1 k=1
n
!2 n
!2 n n
X X X X
2
Xk ≤ |Xk | = |Xk | + 2 |Xk ||Xl |.
k=1 k=1 k=1 1≤k<l≤n
n
X n
X n
X
2
|Xk | + 2 |Xk ||Xl | ≤ K |Xk |2
k=1 1≤k<l≤n k=1
où K est une constante. Par suite, grâce aux hypothèses d’intégrabilité sur les variables aléatoires
réelles
n
!2 n
! n
X X X
2
E |Xk |2 < +∞.
E Xk ≤ KE |Xk | = K
k=1 k=1 k=1
n
! n
X X X
Var Xk = Var(Xk ) + 2 Cov(Xi , Xj )
k=1 k=1 1≤i<j≤n
et on conclut en remarquant que, par indépendance des v.a.r. , Cov(Xi , Xj ) = 0 pour tout
couple d’entiers (i, j) tel que i 6= j. 2
Nous allons maintenant donner quelques résultats sur la somme de v.a.r. indépendantes suivant
des lois classiques. Auparavant énonçons un corollaire du critère des fonctions caractéristiques
qui sera commode dans la recherche des lois de sommes de variables aléatoires réelles
indépendantes.
C entre de T élé-enseignement U niversitaire–Franche-Comté–Besançon CT U
Besançon
86 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014
Proposition 4.31.
Si (X1 , X2 , · · · , Xn ) est une suite indépendante de v.a.r., alors, pour tout u ∈ R,
A titre d’application de la proposition précédente, voici un résultat qui sera fondamental dans
le chapitre sur les vecteurs gaussiens.
Proposition 4.32.
Stabilité des lois normales
Si (X1 , X2 , · · · , Xp ) est une suite indépendante de v.a.r. normales de lois respectives
N 1 (m1 , σ12 ), · · · , N 1 (mp , σp2 ), alors la v.a.r. Sp := X1 + · · · + Xp est une v.a.r. normale
d’espérance m1 + · · · + mp et de variance σ12 + · · · + σp2 .
Citons, à titre d’exemple, un autre résultat fondamental dont la démonstration est laissée en
exercice :
Proposition 4.33.
Si (X1 , X2 , · · · , Xn ) est une suite indépendante de variables aléatoires réelles de Bernoulli de
même paramètre p ∈]0, 1[, alors la variable aléatoire réelle Sn := X1 + · · · + Xn suit la loi
binomiale B(n, p).
ρ définie sur R par ρ(x) := αe −αx 1l[0,+∞[ (x) où α > 0. Pour tout ω ∈ Ω, on range les
nombres réels X1 (ω), · · · , Xn (ω) dans l’ordre décroissant et on note X(k) (ω) le k ième de ces
nombres ainsi rangés où k = 1, · · · , n.
1. Vérifier que X(1) = max(X1 , · · · , Xn ) et calculer sa fonction de répartition.
2. Que représente la variable aléatoire réelle X(n) ? Calculer sa fonction de répartition.
3. Soit t > 0. Pour tout k = 1, · · · , n, on pose Yk := 1l]t,+∞[ (Xk ).
(a) Prouver que la loi de la variable aléatoire réelle Yk est PYk = e −αt δ1 +(1−e −αt )δ0 .
Quelle est la loi de la variable aléatoire réelle Y1 + Y2 + · · · + Yn ?
(b) Comparer les événements {X(k) ≤ t} et {Y1 + Y2 + · · · + Yn ≤ k − 1}.
4. Déterminer, pour tout k = 1, · · · , n, la fonction de répartition de la variable aléatoire
réelle X(k) .
Dans certains cas on peut directement calculer la loi de la variable aléatoire réelle "somme".
En voici deux exemples énoncés sous forme de propositions 4.34 et 4.36, la démonstration de
la seconde proposition 4.36 est laissée en exercice.
Proposition 4.34.
Stabilité des lois binomiales
Si (X , Y ) est un couple indépendant de variables aléatoires réelles de lois binomiales respectives
B(n, p) et B(m, p) de même paramètre p ∈]0, 1[, alors la variable aléatoire réelle X + Y suit
la loi binomiale B(n + m, p).
Démonstration : Dans ce qui suit on adoptera la convention d’écriture : Cnj := 0 pour tout
entier j > n ou j < 0. X et Y sont des lois discrètes portées respectivement par {0, 1, · · · , n}
et {0, 1, · · · , m}. La loi de la variable aléatoire réelle X + Y sera aussi discrète et portée par
{0, 1, · · · , n + m}. D’après la proposition 2.10, page 27, il suffit de calculer, pour tout entier
0 ≤ k ≤ n + m, le nombre P(X + Y = k). Par l’égalité ensembliste facile à vérifier
j=k
[
{X + Y = k} = ({X = j} ∩ {Y = k − j})
j=0
et comme l’union est deux à deux disjointe il vient, en appliquant le critère d’indépendance des
variables aléatoires réelles discrètes au couple (X , Y ),
j=k j=k
X X
P(X + Y = k) = P(X = j)P(Y = k − j) = Cnj Cmk−j p k (1 − p)n+m−k
j=0 j=0
k
= Cn+m p k (1 − p)n+m−k
.
Proposition 4.35.
Formule de Vandermonde
Soient n et m deux entiers naturels non nuls. Pour tout entier naturel k vérifiant 0 ≤ k ≤ n+m,
on a
j=k
X
k
Cnj Cmk−j = Cn+m ,
j=0
avec la convention habituelle sur les Cni (cf. formulaire de l’annexe A, page 205)
Proposition 4.36.
Stabilité des lois de Poisson
Si (X , Y ) est un couple indépendant de variables aléatoires réelles de lois de Poisson respectives
P(α) et P(β), où les réels α et β sont strictement positifs, alors la variable aléatoire réelle
X + Y suit la loi de Poisson P(α + β).
Voici quelques résultats plus généraux sur les sommes de variables aléatoires réelles indépen-
dantes. Plus que de retenir des formules, Il faut surtout être capable de refaire directement les
calculs dans chaque cas particulier.
Z
f ∗ g : x ∈ R 7→ f ∗ g (x) := f (x − u)g (u)dλ(u) ∈ [0, +∞].
R
Proposition 4.37.
Soit (X , Y ) un couple indépendant de variables aléatoires réelles admettant pour densités
respectives ρX et ρY , alors la variable aléatoire réelle X + Y , admet pour densité l’application
ρX +Y := ρX ∗ ρY .
Démonstration : Soit h une application positive borélienne définie sur R. Par les théorèmes de
CT U C entre de T élé-enseignement U niversitaire–Franche-Comté–Besançon
Besançon
Chapitre 4. Indépendance stochastique 89
Exemples 4.11.
Soit (X , Y ) un couple indépendant de v.a.r.. On suppose que la variable aléatoire réelle X
suit la loi uniforme U([0, 1]) définie par la densité ρX := 1l[0,1] et Y suit la loi exponentielle
de paramètre 1 de densité ρY définie sur R par ρY (t) := 1l[0,+∞[ (t)e −t . La densité de la vari-
Z +∞
able aléatoire réelle X +Y est définie sur R par ρX +Y (t) := 1l[0,1] (t−x)1l[0,+∞[ (x)e −x dx.
−∞
Ce qui après le calcul de l’intégrale donne ρX +Y (t) = 1 − e −t 1l[0,1] (t) + e −t (e −
1)1l]1,+∞[ (t).2
Proposition 4.38.
Soit (X , Y ) un couple indépendant de v.a.r. . On suppose que X admet une densité ρX et
+∞
X
que Y est une variable discrète portée par N de loi pk δk . Alors la variable aléatoire réelle
k=0
Z := X + Y admet pour densité l’application
+∞
X
ρX +Y : x ∈ R 7→ ρX +Y (x) := pk ρX (x − k) ∈ [0, +∞].
k=0
Z
Appliquons alors à h(x + k)ρX (x)dλ(x) le changement de variable défini sur R, pour k ∈ N
R
fixé, par u := x + k. Il vient
Z Z
h(x + k)ρX (x)dλ(x) = h(u)ρX (u − k)dλ(u).
R R
La dernière égalité se justifie par la propriété de Beppo-Lévi vue au chapitre III. D’où le résultat.
2
Exemples 4.12.
Soit (X , Y ) un couple indépendant de v.a.r. . On suppose que la v.a.r. X suit la loi de
Gauss-Laplace N 1 (0, 1), et Y suit la loi de Poisson de paramètre α > 0. Alors la densité
de la v.a.r. X + Y est définie sur R par
+∞ −α k +∞
e −α X αk
X e α 1 2 1 2
ρX +Y (t) := √ exp − (t − k) = √ exp − (t − k) .2
k=0
k! 2π 2 2π k=0
k! 2
2. Montrer que la variable aléatoire réelle τr est une variable aléatoire réelle discrète de
loi (dite loi de Pascal de paramètres r et p )
+∞
X
r −1 r
P(r , p) := Ck−1 p (1 − p)k−r δk .
k=r
et en déduire que
p2 p
P(D = i) = 2
q |i| et P(M = j) = 2 q 2j (q + 1).
1−q q
En déduire que les v.a.r. X et Y suivent une loi géométrique dont on déterminera le
paramètre.
Chapitre 5
(x − m)2
1
ρ(x) := √ exp − .
σ 2π 2σ 2
Afin de simplifier les énoncés des théorèmes sur les vecteurs gaussiens, on est amené à consid-
érer la probabilité de Dirac au point m ∈ R comme un cas, dit dégénéré, de loi gaussienne
et par suite on pose N 1 (m, 0) := δm .
En clair, une variable aléatoire réelle gaussienne (de loi N 1 (m, σ 2 )) est soit une variable aléa-
toire réelle normale d’espérance m et de variance σ 2 > 0, soit une variable aléatoire réelle de
Dirac au point m (constante déterministe égale à m, c’est le cas où σ 2 = 0).
Définition 5.2.
Soient X un vecteur aléatoire de dimension d et (X1 , X2 , ..., Xd ) ses composantes dans la base
canonique de Rd . On dit que X est un vecteur (aléatoire) gaussien de dimension d si,
pour tous réels a1 , a2 , ..., ad , la variable aléatoire réelle a1 X1 + a2 X2 + ... + ad Xd est une variable
aléatoire réelle gaussienne.
Exemples 5.1.
Une variable aléatoire réelle gaussienne est un vecteur gaussien de dimension 1.
Compte tenu que, dans un changement de base dans Rd , les composantes dans une nouvelle
base sont des combinaisons linéaires des composantes dans l’ancienne base, la propriété d’être
gaussien pour un vecteur ne dépend pas de la base choisie pour exprimer les composantes du
vecteurs.
La proposition suivante est un corollaire immédiat, dont la démonstration est laissée en exercice,
de la définition.
Proposition 5.1.
Soit (X1 , X2 , ..., Xd ) une suite de v.a.r. . Si le vecteur aléatoire X := (X1 , X2 , ..., Xd ) est un
vecteur gaussien de dimension d alors, pour tout k = 1, 2, ..., d, Xk est une variable aléatoire
réelle gaussienne.
La réciproque est fausse.
Exemples 5.2.
Reprenons les hypothèses et notations de l’exercice 4.6, page 74. On vérifie facilement que
P(X + Y = 0) = 21 , et donc que la variable aléatoire réelle X + Y n’est pas une v.a.r. gaussi-
enne, sinon comme X + Y n’est pas une variable déterministe (i.e. de loi une probabilité de
Dirac), cela veut dire que X + Y serait une v.a.r. normale et on aurait P(X + Y = 0) = 0.
Le vecteur aléatoire (X , Y ) n’est donc pas gaussien (sinon X + Y serait une v.a.r. gaussi-
enne) alors que ses composantes sont des v.a.r. gaussiennes, ce qui donne un contre-exemple
à la réciproque de la proposition 5.1 précédente. 2
Proposition 5.2.
Soit (X1 , X2 , ..., Xd ) une suite indépendante de v.a.r. . Le vecteur aléatoire X := (X1 , X2 , ..., Xd )
est un vecteur gaussien de dimension d si, et seulement si, pour tout k = 1, 2, ..., d, Xk est une
variable aléatoire réelle gaussienne.
Démonstration : • La condition nécessaire résulte de la définition des vecteurs gaussiens et
n’utilise pas l’hypothèse d’indépendance. C’est un cas particulier de la proposition précédente.
• La condition suffisante résulte de ce que, si (X1 , X2 , ..., Xd ) est une suite indépendante de
v.a.r. , alors pour tous réels a1 , a2 , ..., ad , la suite (a1 X1 , a2 X2 , ..., ad Xd ) est indépendante. De
plus si la variable aléatoire réelle Xk a pour loi N 1 (mk , σk2 ), la variable aléatoire réelle ak Xk
a pour loi N 1 (ak mk , ak2 σk2 ). D’après la proposition 4.32, page 86, la variable aléatoire réelle
a1 X1 + a2 X2 + ... + ad Xd est alors une variable aléatoire réelle gaussienne comme somme de
variables aléatoires réelles gaussiennes indépendantes. 2
La proposition 5.1 a aussi pour conséquence que si X = (X1 , X2 , ..., Xd ) est un vecteur gaussien
de dimension d, alors, pour tout k = 1, 2, ..., d, Xk est une variable aléatoire réelle de carré
intégrable car de loi gaussienne. Par suite on peut définir l’espérance m := E(X ) et la matrice
de dispersion DX := E ([X − E(X )][X − E(X )]∗ ) du vecteur gaussien X . L’espérance m est
CT U C entre de T élé-enseignement U niversitaire–Franche-Comté–Besançon
Besançon
Chapitre 5. Vecteurs aléatoires gaussiens 97
et que ΦY (1) = exp imY − 21 σY2 , on obtient ΦX (u) = exp ihu, mi − 21 hu, Dui .
où on a posé a := (a1 , · · · , ad ).
Ce qui prouve que, pour tout n-uplet de réels (a1 , · · · , ad ), la variable aléatoire réelle a1 X1 +
· · · + ad Xd est une variable aléatoire réelle gaussienne de loi N 1 (ha, mi, ha, Dai). X est bien
un vecteur gaussien. 2
La proposition ci-dessous sera souvent utilisée pour prouver que certains vecteurs sont
gaussiens :
Proposition 5.5.
Si X est un vecteur gaussien de dimension d, A une matrice rectangulaire k×d à coefficients
réels et b un vecteur de dimension k, alors le vecteur aléatoire Y := AX + b est un
vecteur gaussien de dimension k. De plus si N d (m, D) est la loi de X , la loi de Y est
N k (Am + b, ADA∗ ) ,
d1,1 = σ 2
di,i = σ 2 (θ2 + 1) pour i = 2, · · · , n,
dj+1,j = dj,j+1 = θσ 2 pour j = 1, · · · , n − 1,
di,j = 0 dans les autres cas.
Or, en utilisant la proposition 5.3 pour obtenir la première des deux égalités suivantes,
d d
!
X 1X 2
ΦX (u1 , · · · , un ) = exp i uk E(Xk ) − uk Var(Xk ) = ΦX1 (u1 ) · · · ΦXd (ud ),
k=1
2 k=1
On peut donner un énoncé plus général de cette proposition. Pour cela introduisons une
définition.
Définition 5.4.
Deux vecteurs aléatoires X et Y de dimensions quelconques seront dits non-corrélés si la
matrice d’intercorrélation
Proposition 5.7.
Si X et Y sont deux vecteurs aléatoires de dimensions respectives d et k, DZ la matrice de
dispersion du vecteur concaténé Z := (X , Y ) de dimension d + k, DX et DY les matrices de
dispersion de X et Y , alors :
1. La matrice d’intercorrélation IX ,Y est une matrice rectangulaire à d lignes et k colonnes
dont le coefficient général d’indice (i, j), où 1 ≤ i ≤ d et 1 ≤ j ≤ k, est Cov(Xi , Yj ).
2. IY ,X = IX∗ ,Y , DX = IX ,X et DZ est la matrice par blocs
DX IX ,Y
DZ = .
IY ,X DY
w ∗ DZ w = u ∗ DX u + v ∗ DY v et w ∗ E(Z ) = u ∗ mX + v ∗ mY .
Terminons par un résultat précisant la forme de la loi normale dans le cas où D est une matrice
inversible, ce qui a pour conséquence que D est une matrice définie-positive. La loi de Gauss
s’explicite alors facilement :
Proposition 5.9.
Soient m ∈ Rd et D une matrice carrée d’ordre d à coefficients réels, symétrique et de type
positif. Si D est inversible, alors la probabilité N d (m, D) admet la densité ρ sur Rd
d 1 1 ∗ −1
ρ : x ∈ R 7→ ρ(x) := p exp − (x − m) D (x − m) .
(2π)d det(D) 2
t2
1
fk (t) := p exp − 2 .
2πσk2 2σk
Par suite, d’après la proposition 4.9, page 72, Z admet pour densité l’application définie sur
Rd par
d d
!
1 X tk2
1 1
f (t1 , · · · , td ) = f1 (t1 ) · · · fd (td ) = √ exp − .
2 k=1 σk2
p
2π σ12 · · · σd2
Pd
Comme σ12 · · · σd2 = det(D) et 1 2
k=1 σk2 tk = t ∗ ∆−1 t, où t := (t1 , · · · , td ), on obtient
d
1 1 1 ∗ −1
f (t) = f (t1 , · · · , td ) = √ p exp − t ∆ t .
2π det(D) 2
Montrons que la loi de X admet une densité. Soit h une application borélienne positive de Rd
dans [0, +∞]. Comme X = A∗ Z + m, en appliquant le théorème du transfert à Z ,
Z Z
∗
E[h(X )] = h(A z + m)dPZ (z) = h(A∗ z + m)f (z)dλ(d) (z).
Rd Rd
Le vecteur X admet donc la densité définie sur Rd par ρ(x) := f (A(x − m)). Par suite,
d
1 1 1 ∗ ∗ −1
ρ(x) = √ p exp − (x − m) A ∆ A(x − m)
2π det(D) 2
d
1 1 1 ∗ −1
= √ p exp − (x − m) D (x − m) ,
2π det(D) 2
On admettra que si la matrice D n’est pas inversible, la loi de Gauss n’a pas de densité par
rapport à la mesure de Lebesgue sur Rd car on montre qu’elle est portée par un sous-espace
affine de Rd de dimension strictement inférieure à d.
Définition 5.5.
Si la matrice D est inversible, on dira que la loi de Gauss (ou le vecteur gaussien) N d (m, D)
est non-dégénérée. Dans le cas contraire on dira qu’elle est dégénérée.
Exemples 5.3.
1) Une variable aléatoire réelle gaussienne est non-dégénérée si, et seulement si, sa loi
est une loi normale de variance non nulle. Donc une variable aléatoire réelle gaussienne
dégénérée est une variable de loi δm où m est un réel quelconque.
2. Montrer que la variable aléatoire réelle Y suit la loi normale réduite centrée.
3. Le vecteur aléatoire (X , Y ) est-il gaussien ?
4. Le couple de variable aléatoire réelle (X , Y ) est-il indépendant ?
1. Montrer que la v.a.r. X12 suit la loi γ( 21 , 12 ) aussi appelée loi du Khi-deux à 1 degré
de liberté et notée χ2 (1).
2. En utilisant la fonction caractéristique des lois Gamma, en déduire que la loi de la
n
X
v.a.r. Xk2 est γ( 12 , n2 ) aussi appelée loi du Khi-deux à n degrés de liberté notée
k=1
χ2 (n).
3. Montrer qu’il existe une matrice orthogonale C de la forme
c1,1 c1,2 · · · c1,n
c2,1 c2,2 · · · c2,n
.. .. ..
C = . ...
. . .
· · · cn−1,n
cn−1,1 cn−1,2
√1 √1 ··· √1
n n n
Chapitre 6
La plupart des résultats et définitions de ce chapitre sont une traduction en langage probabiliste
de ceux vus en théorie de la mesure (cf. [2] chapitre V). Ils peuvent s’étendre aux v.a. à valeurs
dans Rd en prenant pour | · | la norme euclidienne de Rd .
Les espaces Lp (Ω, F, P) et Lp (Ω, F, P) ont été introduits en théorie de la mesure pour
p ∈ [1, +∞]. On rappelle que, pour tout 1 < p < q < +∞,
L∞ ⊆ Lq ⊆ Lp ⊆ L1 et k · kLp ≤ k · kLq .
\ [
De plus Lp 6= L∞ et Lp 6= L1 (cf. [2] p. 67 ex IV-8 et IV-11).
p≥1 p≥1
On note L0 (Ω, F, P) ou plus simplement L0 , l’ensemble des classes d’équivalence, pour l’égalité
P-presque-sûre, des v.a. à valeurs dans R sur (Ω, F, P), définies et finies P-presque-sûrement.
On notera en cas de nécessité Xb la classe d’équivalence P-presque-sûre de la v.a. X . On a, pour
tout p ∈ [1, +∞], L ⊆ L . (Xn )N désignera une suite d’éléments de L0 et X
p 0 c b un élément de L0 .
Dans ce chapitre, nous allons passer en revue ces différents modes de convergence initialement
étudiés dans le cours de théorie de la mesure en les appliquant au cas particulier où la mesure
est une probabilité.
Proposition 6.1.
Inégalité de Markov
Soient X une variable aléatoire réelle et ϕ une application borélienne de R dans [0, +∞], alors
pour tout réel a > 0,
E[ϕ(X )]
P [ϕ(X ) ≥ a] ≤ .
a
Proposition 6.2.
Inégalité de Bienaymé-Tchébycheff
Soit X une v.a.r. telle que E(X 2 ) < +∞. Alors pour tout réel α > 0,
1
P [|X − E(X )| ≥ α] ≤ Var(X ).
α2
Très utile en théorie, l’inégalité de Bienaymé-Tchébycheff peut être parfois trop grossière pour
apporter des informations utiles dans la pratique. Dans ce cas on établit d’autres majorations
plus appropriées à la situation étudiée. A titre d’exemple, on pourra étudier l’exercice 6.2.
Exemples 6.1.
1) Si X est une variable aléatoire réelle de loi binomiale B(10, 12 ) alors E(X ) = 5 et
Var(X ) = 52 . Un calcul direct donne l’estimation
10
0 1 9 10
1
P (|X − 5| ≥ 4) = C10 + C10 + C10 + C10 ≈ 0, 021,
2
8 3
P (m − 3σ < X < m + 3σ) ≥ et P (m − 2σ < X < m + 2σ) ≥ .
9 4
b) Comparer les valeurs obtenues dans la question précédente avec celles données par le
calcul dans le cas où X est une variable aléatoire réelle de loi N 1 (m, σ 2 ).
En déduire que
σ2
P(X > a) ≤ .
σ 2 + a2
2. Une usine fabrique chaque semaine un nombre aléatoire Y d’objets. On suppose
E[Y ] = 100 et Var(Y ) = 400. Trouver à l’aide de la question précédente un majorant
de la probabilité que la production hebdomadaire dépasse 120. Comparer ce résultat
avec celui obtenu par application de l’inégalité de Bienaymé-Tchébycheff.
Définition 6.1.
Une suite (Xn )N de variables aléatoires réelles est dite identiquement-distribuée , en abrégé
i.d., si toutes les variables aléatoires réelles de la suite ont la même loi. Une suite i.i.d. de
variables aléatoires réelles est une suite indépendante et identiquement distribuée de v.a.r..
Définition 6.2.
Si (Xn )N est une suite de variables aléatoires réelles pour tout entier n ≥ 1, on appelle moyenne
empirique d’ordre n associée à la suite (Xn )N , et on note X (n) ou plus simplement X , la
v.a.r. définie par
X1 + · · · + Xn
X (n) := .
n
σ2
X1 + · · · + Xn X1 + · · · + Xn
E = m et Var = .
n n n
Comme les variable aléatoire réelle sont de Bernoulli E(X0 ) = m = p et Var(X0 ) = p(1 − p).
On conclut en vérifiant que, pour tout p ∈]0, 1[, p(1 − p) ≤ 14 . 2
Exemples 6.2.
Dans son Essai d’arithmétique morale paru en 1777, Buffon relate l’expérience qui consiste
à lancer 4040 fois une pièce de monnaie. Dans la réalisation ω0 de cette expérience Buffon
obtient 2049 fois "Pile". Si on note Xk l’application qui à chaque réalisation associe le
nombre 1 si la pièce tombe sur "Pile" lors du k ième lancer et 0 sinon, la variable aléatoire
réelle Xk est une variable aléatoire réelle de Bernoulli de paramètre p inconnu. On modélise
cette situation en représentant les lancers successifs indépendants par une suite i.i.d. de
variable aléatoire réelle de Bernoulli. On est donc dans les conditions du théorème de
Bernoulli. Avec les notations introduites précédemment, pour l’observation ω0 de Buffon,
on peut écrire
2049
X (4040) (ω0 ) = ≈ 0, 507.
4040
1
Choisissons a tel que ≈ 0, 05. Par exemple prenons a = 0, 0352. D’après le
4a2 · 4040
théorème de Bernoulli,
P ω ∈ Ω / X (4040) (ω) − p ≥ 0, 0352 ≤ 0, 05.
est inférieure à 0, 05. Autrement dit, la probabilité que le paramètre p vérifie la condition
|X (4040) (ω0 ) − p| ≥ 0, 0352, c-à-d approximativement |0, 507 − p| ≥ 0, 0352, est inférieure à
0, 05. Par suite, on peut affirmer, avec une probabilité supérieure à 0, 95, que l’encadrement
de p obtenu lors de l’observation ω0 , i.e. 0, 4718 ≤ p ≤ 0, 5422, est correct.
L’intervalle [0, 4718; 0, 5422] est dit intervalle de confiance pour p de niveau de confi-
ance 0, 95. 2
En fait la majoration du théorème de Bernoulli peut être améliorée pour montrer que la
convergence vers 0 du second membre est de type exponentiel. C’est ce résultat, donné à
titre d’information, qu’énonce le cas particulier suivant du théorème des grandes déviations
(admis et hors programme, pour la démonstration voir [3] exercice IV-13) :
Proposition 6.5.
Théorème des grandes déviations pour les v.a.r. de Bernoulli (Hors programme)
Si (Xn )N est une suite indépendante de v.a.r. de Bernoulli de même paramètre p ∈]0, 1[, alors
pour tout ε > 0, il existe une constante Cε > 0 telle que pour tout n ∈ N∗ ,
X1 + X2 + ... + Xn
P − p ≥ ε ≤ 2 exp (−nCε ) .
n
Définition 6.3.
On dit qu’une suite de variables aléatoires réelles (Xn )N converge en probabilité vers une
variable aléatoire réelle Y si, pour tout réel a > 0,
lim P (|Xn − Y | ≥ a) = 0.
n→+∞
On retrouve ici la traduction de la "convergence en mesure" dans le cas où la mesure est une
probabilité.
Exemples 6.3.
1 n
Si, pour tout entier n ≥ 1, Xn est une variable aléatoire réelle de loi δn + δ1 ,
n+1 n+1 n
alors la suite (Xn )N converge en probabilité vers la variable aléatoire réelle constante 0.
En effet, soit a > 0 et n un entier tel que n > a > n1 . Comme la variable aléatoire réelle Xn
est discrète portée par l’ensemble {n, n1 },
1
P(|Xn | ≥ a) = P(Xn = n) = .
n+1
Ce qui prouve le résultat en faisant tendre n vers +∞. 2
La limite d’une suite de variables aléatoires réelles convergeant en probabilité est "presque-
sûrement" unique comme l’énonce de façon précise le résultat suivant :
Proposition 6.8.
Si (Xn )N est une suite de variables aléatoires réelles convergeant en probabilité vers les variables
aléatoires réelles X et Y , alors les variables aléatoires réelles X et Y sont égales presque-
sûrement, i.e. P(X 6= Y ) = 0.
Démonstration : Avec les notations du théorème on peut écrire, pour tout entier naturel n,
|X − Y | ≤ |X − Xn | + |Xn − Y |. Soit a > 0 un réel, on vérifie l’inclusion entre événements
n ao n ao
{|X − Y | ≥ a} ⊆ |X − Xn | ≥ ∪ |Xn − Y | ≥ .
2 2
CT U C entre de T élé-enseignement U niversitaire–Franche-Comté–Besançon
Besançon
Chapitre 6. Lois des grands nombres et convergences de v.a.r. 111
D’où
X 1
6 Y) ≤
P(X = P |X − Y | ≥ = 0.2
n≥1
n
La proposition précédente entraîne que la convergence en probabilité induit une convergence
dans l’espace L0 définie de la façon suivante :
Définition 6.4.
On dit que (X
cn ) converge en probabilité vers X b si, pour tout δ > 0, lim P(|Xn − X | ≥
N n→+∞
δ) = 0.
P b
cn )N −→
On note alors (X X ou X
b = P-limn (X
cn ).
∆ : (X b ) ∈ L0 × L0 7→ ∆(X
b, Y b ) := inf{δ > 0, P(|X − Y | ≥ δ) ≤ δ}
b, Y
définit une métrique sur L0 appelée métrique de Ky-Fan. De plus (L0 , ∆) est complet et
cn )N converge en probabilité vers X
(X b si, et seulement si, lim ∆(X b) = 0 .
cn , X
n
La proposition suivante permet d’effectuer des calculs sur les limites en probabilité.
Proposition 6.10.
Soient f une application continue de R2 dans R, (Xn )N et (Yn )N deux suites de variables
aléatoires réelles convergeant en probabilité respectivement vers les variables aléatoires réelles
X et Y , alors la suite de variables aléatoires réelles (f (Xn , Yn ))N converge en probabilité vers
la variable aléatoire réelle f (X , Y ).
Démonstration : Nous allons démontrer cette proposition dans le cadre plus restrictif des appli-
cations f uniformément continues sur R2 . On admettra le résultat pour les fonctions seulement
continues.
Comme f est uniformément continues sur R2 , pour tout réel ε > 0, il existe un réel η > 0
(dépendant de ε), tel que, pour tout (x, y ) ∈ R2 et (x 0 , y 0 ) ∈ R2 , |x − x 0 | + |y − y 0 | < η
implique |f (x, y ) − f (x 0 , y 0 )| < ε.
Soit ε > 0 fixé. Pour tout entier naturel n, on a alors
{|f (Xn , Yn ) − f (X , Y )| ≥ ε} ⊆ n {|Xn − X | + |Yno− Yn| ≥ η}
η ηo
⊆ |Xn − X | ≥ ∪ |Yn − Y | ≥ .
2 2
C entre de T élé-enseignement U niversitaire–Franche-Comté–Besançon CT U
Besançon
112 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014
D’où, en faisant tendre n vers +∞, lim P (|f (Xn , Yn ) − f (X , Y )| ≥ ε) = 0, ce qui prouve
n→+∞
que la suite de variables aléatoires réelles (f (Xn , Yn ))N converge en probabilité vers la variable
aléatoire réelle f (X , Y ). 2
On admettra également que cette proposition devient fausse si l’application f n’est plus sup-
posée continue.
Exemples 6.4.
Soient Ω := R, F := B(R) et P la probabilité sur R de densité 1l[0,1] . Pour tout entier
n ≥ 1, considérons la variable aléatoire réelle Xn := π +n1l[0, 1 ] . Alors la suite (Xn )N converge
n
presque-sûrement vers la variable aléatoire réelle constante Y := π.
En effet, on vérifie aisément que ∆Y = {0} car limn Xn (0) = +∞ et, pour tout ω ∈ Ω \ {0},
limn Xn (ω) = π. De plus P({0}) = 0, d’où le résultat. 2
{X 6= Y } ⊆ ∆X ∪ ∆Y ,
C entre de T élé-enseignement U niversitaire–Franche-Comté–Besançon CT U
Besançon
114 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014
Définition 6.6.
On dit que (Xcn )N converge P-presque-sûrement (ou plus simplement presque-sûrement
, ou en abrégé p.s.,) vers X b , si l’ensemble des ω ∈ Ω tels que (Xn (ω))N ne converge pas dans
R vers X (ω) est P-négligeable.
On note alors (Xcn )N P−p.s.
−→ X b ou X b = p.s.-limn (X
cn ).
En général il n’existe pas de métrique d sur L0 telle que, pour toute suite (Xcn )N d’éléments de L0
b ∈ L0 , on ait : lim d(X
et X b ) = 0 si, et seulement si, (X
cn , X cn )N converge P-presque-sûrement
n→+∞
vers X
b . On peut montrer qu’il existe une topologie associée à la convergence presque-sûre si,
et seulement si, la probabilité P est discrète (cf. [2] p. 86 ex V-10).
La proposition suivante permet d’effectuer des calculs sur les limites presque-sûres.
Proposition 6.15.
Soit f une application continue de R2 dans R, (Xn )N et (Yn )N deux suites de variables aléatoires
réelles convergeant presque-sûrement respectivement vers les variables aléatoires réelles X et
Y , alors la suite de variables aléatoires réelles (f (Xn , Yn ))N converge presque-sûrement vers la
variable aléatoire réelle f (X , Y ).
Cette proposition devient fausse si l’application f n’est plus supposée continue (cf. [14] ex
14-11).
Proposition 6.16.
Si (Xn )N et (Yn )N sont deux suites de variables aléatoires réelles convergeant presque-sûrement
respectivement vers les variables aléatoires réelles X et Y , alors les suites de variables aléatoires
réelles (Xn + Yn )N et (Xn Yn )N convergent presque-sûrement respectivement vers les variables
aléatoires réelles X + Y et X Y .
L’inégalité de Tchébycheff est utile dans l’étude des questions de convergence en probabilité.
Le lemme de Borel-Cantelli, quant à lui, est souvent utilisé dans les questions de convergence
p.s. grâce à la proposition suivante :
CT U C entre de T élé-enseignement U niversitaire–Franche-Comté–Besançon
Besançon
Chapitre 6. Lois des grands nombres et convergences de v.a.r. 115
Proposition 6.17.
1. La suite (Xn )N converge p.s. vers la v.a.r. X si, et seulement si, pour tout ε > 0,
P(lim sup{|Xn − X | ≥ ε}) = 0.
n
X
2. Si pour tout ε > 0, la série P({|Xn − X | ≥ ε}) converge dans R, alors la suite (Xn )N
n
converge p.s. vers la v.a.r. X .
3. Si la suite d’événements ({|Xn −X | ≥ ε})N est indépendante, alorsX la suite (Xn )N converge
p.s. vers la v.a.r. X si, et seulement si, pour tout ε > 0, la série P({|Xn − X | ≥ ε})
n
converge dans R.
Démonstration de 6.17 :
1. • (Xn (ω))N converge vers X (ω) si, et seulement si, pour tout ε > 0, il existe un
entier naturel N tel que, pour tout n ∈ N, n > N implique |Xn (ω) − X (ω)| ≤ ε.
En prenant la négation, (Xn (ω))N ne converge pas vers X (ω) si, et seulement si, il
existe ε > 0, tel que, pour tout entier naturel N, il existe n ∈ N, vérifiant n > N et
|Xn (ω) − X (ω)| > ε. La dernière partie de la phrase peut aussi s’énoncer : il existe ε > 0,
tel que ω appartienne à une infinité d’événements de la suite ({|Xn − X | > ε})N ; ou
encore par définition de la limite-supérieure d’une suite d’événements : il existe ε > 0, tel
que ω ∈ lim sup{|Xn − X | > ε}. Par suite,
n
[
{ω ∈ Ω/(Xn (ω))N ne converge pas vers X (ω)} = lim sup{|Xn − X | > ε}.
ε∈]0,∞[
En remarquant que (Xn (ω))N converge vers X (ω) si, et seulement si, pour tout p ∈ N∗ , il
1
existe un entier naturel N tel que, pour tout n ∈ N, n > N implique |Xn (ω)−X (ω)| ≤ ,
p
et en raisonnant comme précédemment on obtient l’égalité
[ 1
{ω ∈ Ω/(Xn (ω))N ne converge pas vers X (ω)} = lim sup{|Xn − X | > }.
p∈N∗
n p
On remarquera que dans le troisième item l’indépendance est une hypothèse essentielle ; on
trouvera un contre-exemple dans ([14] ex 14-4). Le premier item souligne le lien existant entre
les convergences p.s. et en probabilité en s’énonçant :
Proposition 6.18.
La suite (Xn )N converge presque-sûrement vers X si, et seulement si, la suite (Mn )N , définie
pour tout n ∈ N par Mn := sup |Xk − X |, converge en probabilité vers 0.
k≥n
∞ ∞
!
\ [
Démonstration : Soit ε > 0, lim sup{|Xn − X | ≥ ε} = {|Xk − X | ≥ ε} . En utilisant
n=0 k=n
le théorème de convergence monotone des probabilités, on obtient
∞
!
[
P(lim sup{|Xn − X | ≥ ε}) = lim P {|Xk − X | ≥ ε} .
n→+∞
k=n
∞
[
De plus, {|Xk − X | ≥ ε} = {sup |Xk − X | ≥ ε}. On conclut alors en vertu du premier
k≥n
k=n
item de la proposition 6.17 : (Xn )N converge p.s. vers la v.a.r. X si, et seulement si, pour
tout ε > 0, P(lim sup{|Xn − X | ≥ ε}) = 0, ou encore (Xn )N converge p.s. vers la v.a.r. X
n
si, et seulement si, pour tout ε > 0, lim P sup |Xk − X | ≥ ε = 0, ou encore (Xn )N con-
n→+∞ k≥n
verge p.s. vers la v.a.r. X si, et seulement si, pour tout ε > 0, lim P (Mn ≥ ε}) = 0, où on a
n→+∞
posé Mn = sup |Xk −X |. Ce qui traduit la convergence en probabilité vers 0 de la suite (Mn )N . 2
k≥n
Proposition 6.19.
Loi forte des grands nombres de Kolmogorov (2ième énoncé)
Si (Xn )N est une suite indépendante et identiquement distribuée de variables
aléatoires réelles
X1 + X2 + ... + Xn
intégrables et d’espérance m, alors la suite des moyennes empiriques
n N∗
converge presque-sûrement vers la variable aléatoire réelle constante m.
Démonstration : Conformément au programme de l’unité, on ne fera la démonstration de ce
théorème que dans le cadre plus restreint des variables de carré intégrable seulement. Remar-
quons qu’en posant, pour tout entier naturel n, Yn = Xn − m, on peut se ramener, sans perte
de généralité, à ne faire la démonstration que dans le cas d’une suite de variables aléatoires
centrées. On notera σ 2 la variance commune des variables Xn .
Soit (Xn )N une suite indépendante et identiquement distribuée de variables aléatoires réelles
centrées de carré intégrable.
Pour tout entier naturel non nul n, posons Sn = X1 +X2 +· · ·+Xn .
Sn2
• Montrons que la suite converge presque-sûrement vers 0.
n2 n∈N∗
En effet, pour tout ε > 0, nous avons,
par application de l’inégalité de Bienaymé-Tchebychev,
Sn2 σ2
en tenant compte de l’égalité V ar = 2 (vérifier le calcul),
n2 n
V ar Sn2
σ2
Sn2 n2
P 2 ≥ ε ≤ = .
n ε2 n 2 ε2
X Sn2
Ce qui prouve que la série numérique à termes positifs P 2 ≥ ε est convergente, car
n
n
son terme général est majorée par le terme général d’une série de Riemann convergente.
On
Sn2
conclut alors, en appliquant l’item 2) de la proposition 6.17, que la suite converge
n2 n∈N∗
presque-sûrement vers 0. √
• Pour tout entier naturel non nul n, notons pn la partie entière de n, i.e. pn est l’unique
√
Spn2
entier naturel vérifiant la double inégalité pn ≤ n < pn + 1. Montrons que la suite
n n∈N∗
converge presque-sûrement vers 0.√ √ √
De la double inégalité, on obtient n − 1 < pn ≤ n, puis, en élevant au carré, n − 2 n + 1 <
p2 √
pn2 ≤ n, ce qui implique lim n = 1 et n − pn2 ≤ 2 n. Comme, d’après ce qui vient d’être
n→+∞ n
Sn2 Spn2
vu, la suite converge presque-sûrement vers 0, la suite converge aussi
n2 n∈N∗ pn2 n∈N∗
Sp2 Sp 2 p 2
presque-sûrement vers 0. De la relation, pour tout entier naturel non nul n, n = 2n · n , on
n pn n
Spn 2
peut conclure, en passant à la limite presque-sûre, que converge presque-sûrement
n n∈N∗
vers 0.
• Pour conclure la démonstration du théorème, utilisons à nouveau l’inégalité de Bienaymé-
Tchebychev. Pour
tout ε > 0, √ 2
2 2
Sn Spn2 1 (n − p n )σ 2 nσ
P − ≥ε = P Xp2 +1 + Xp2 +2 + · · · + Xn ≥ ε ≤ ≤ ,
n n n n n
n 2 ε2 n 2 ε2
C entre de T élé-enseignement U niversitaire–Franche-Comté–Besançon CT U
Besançon
118 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014
√
car ona vu que n − pn2 ≤ 2 n. Ce qui prouve que la série numérique à termes positifs
X Sn Sp2
P − n ≥ ε est convergente, car son terme général est majorée par le terme
n
n n
général d’une série de Riemannconvergente. Toujours en appliquant l’item 2) de la propo-
Sn Spn2
sition 6.17, on en conclut que − converge presque-sûrement vers 0. Donc en
n n n∈N2
tenant compte
des résultats démontrés
dans les deux points précédents, et de l’inégalité trian-
Sn Sn Spn2 Spn2
gulaire ≤ − + , vraie pour tout entier naturel non nul n, on en conclut que
n n n n
Sn
converge aussi presque-sûrement vers 0. 2
n n∈N∗
En fait la réciproque de 6.19 est aussi vraie. Pour cela on se reportera à l’exercice 6.12, page
X1 + X2 + ... + Xn
122, qui montre que si la v.a.r. X n’est pas intégrable, alors la suite
n N∗
ne peut pas converger presque-sûrement dans R. Par contraposée, on obtient justement la
réciproque de la proposition 6.19.
On notera que des conditions suffisantes d’existence de loi forte peuvent être démontrées sans
l’hypothèse de l’identité des lois ou de l’indépendance mutuelle de la suite de v.a.r..
Par exemple on montre, et on les admettra, les deux propositions 6.20 et 6.21 (hors programme)
suivantes :
Proposition 6.20.
Loi forte des grands nombres pour des v.a.r. uniformément bornées (Hors pro-
gramme)
Si (Xn )N est une suite indépendante de v.a.r., centrées et telles qu’il existe M > 0 véri-
fiant,
pour tous n ∈N et ω ∈ Ω, |Xn (ω)| ≤ M, alors la suite des moyennes empiriques
X1 + X2 + ... + Xn
converge presque-sûrement vers 0.
n N∗
Proposition 6.21.
Loi forte des grands nombres pour des v.a.r. deux à deux indépendantes (Hors
programme)
Si (Xn )N est une suite de v.a.r. intégrables, deux à deux
indépendantes, demême loi et
X1 + X2 + ... + Xn
d’espérance m, alors la suite des moyennes empiriques converge
n N∗
presque-sûrement vers m.
Définition 6.7.
Si p ∈ [1, +∞], on dit que la suite de v.a.r. (Xn )N converge en moyenne d’ordre p vers
la v.a.r. X ou plus simplement converge dans Lp vers la v.a.r. X si X b ∈ Lp et pour tout
p
n ∈ N, Xn ∈ L avec lim kXn − X kLp = 0. Si p = 2 on parle aussi de convergence en
c c b
n
moyenne quadratique.
Lp
On note alors (Xn )N −→ X ou X = Lp -limn (Xn ).
La convergence presque-sûre est plus forte que la convergence en probabilité comme le précise
la proposition :
Proposition 6.24.
Si (Xn )N est une suite de variables aléatoires réelles convergeant presque-sûrement vers la
variable aléatoire réelle Y , alors la suite (Xn )N converge en probabilité vers la variable aléatoire
réelle Y .
La réciproque est fausse.
on obtient
!
\ [
0 ≥ P(∆Y ) ≥ P {|Xn − Y | ≥ a} ≥ lim P ({|Xm − Y | ≥ a}) ≥ 0.
m→+∞
m∈N n≥m
Ce qui entraîne que lim P(|Xm − Y | ≥ a) = 0 c-à-d que la suite de variables aléatoires
m→+∞
réelles (Xn )N converge en probabilité vers la variable aléatoire réelle Y . 2
Ce dernier résultat n’est plus vrai si la mesure n’est pas finie ([2] p. 85 ex V-8). Quant à la
réciproque, elle n’est pas vraie, la convergence en probabilité n’entraîne pas la convergence
presque-sûre (cf. [14] ex 14-3). Cependant on a les résultats suivants :
Proposition 6.25.
Si (Xn )N converge en probabilité vers X , alors il existe une sous-suite convergeant presque-
sûrement vers X .
Le résultat suivant montre à quelle condition les notions de convergences en probabilité et
presque-sûre coïncident (cf. [2] p. 86 ex V-10) :
Proposition 6.26.
Les notions de convergences en probabilité et presque-sûre coïncident si, et seulement si, la
probabilité P est discrète.
Tenant compte de ce que les variables aléatoires réelles de carré intégrable sont intégrables
d’après la proposition 3.20, page 45, la loi faible des grands nombres apparaît ainsi comme une
conséquence immédiate de la loi forte de Kolmogorov.
Proposition 6.27.
Si 1 < p < q < +∞ et si la suite (Xn )N converge dans Lq vers la v.a.r. X , alors la suite (Xn )N
converge dans Lp vers la v.a.r. X .
La réciproque est fausse (cf. [14] ex 14-5). La topologie de Lq contient la topologie induite sur
Lq par celle de Lp , mais on n’a pas l’égalité des topologies.
Proposition 6.29.
Si (Xn )N converge dans Lp vers X , 1 ≤ p < +∞, alors il existe une sous-suite convergeant
presque-sûrement vers X .
x1 + · · · + xn
Z
lim f( )dλ(n) (x1 , · · · , xn ),
n→+∞ [0,1]n n
où λ(n) est la mesure de Lebesgue dans Rn et f une application continue bornée de R dans
R.
En déduire que, pour tout ε > 0, il existe δ > 0 tel que, pour tout n ∈ N∗ et tout
x ∈ [0, 1],
x(1 − x)
|pn (x) − f (x)| ≤ ε + 2 sup |f (x)|.
nδ 2 0≤x≤1
3. Démontrer le théorème de Weierstrass : Toute application continue de [0, 1] dans
R est limite uniforme sur [0, 1] d’une suite de polynômes.
Montrer que
1
{( Sn )N∗ converge dans R} ⊆ [lim sup{|Xn | ≥ n}]c .
n n→+∞
Chapitre 7
Théorème-limite central et
convergence de lois
Dans ce chapitre, sauf indication contraire, toutes les variables aléatoires considérées seront
réelles et définies sur un même espace de probabilité (Ω, F, P). On notera M1 (R), ou plus
simplement M1 , l’ensemble des mesures de probabilité sur R. On se propose de munir cet
ensemble d’une structure topologique appelée topologie de la convergence étroite . La
notation Cb (Rd ) désignera l’espace fonctionnel des applications, appelées fonctions-test ,
continues et bornées de Rd dans R.
Démonstration : Soit n ∈ N∗ fixé. Comme (X1 , · · · , Xn ) est une suite indépendante de variables
aléatoires réelles gaussiennes, la somme X1 +· · ·+Xn est une variable aléatoire réelle gaussienne
de loi N 1 (nm, nσ 2 ). Par suite la v.a.r.
X1 + · · · + Xn
−m
n
σ2
est de loi N 1 (0, ). 2
n
En particulier, pour tout x ∈ R, on peut écrire avec les notations de la proposition précédente,
r !
x
X1 + · · · + Xn σ2
Z
1 u2
P −m ≤x =√ e − 2 du.
n n 2π −∞
Si, dans les hypothèses de la proposition 7.1, on supprime la connaissance a priori de la loi
commune des v.a.r. , le résultat précédent devient seulement "asymptotiquement" vrai au sens
précisé dans l’énoncé du théorème suivant, connu sous le nom de Théorème-limite central ou
en abrégé TLC, très important en statistique inférentielle. Vu son importance, nous donnerons
dans ce chapitre plusieurs énoncés équivalents de ce résultat que nous démontrerons à la page
138 après avoir étudié la notion de convergence étroite d’une suite de probabilités.
Proposition 7.3.
Théorème-limite central (version "moyenne empirique")
Si (Xn )N est une suite indépendante et identiquement distribuée de variables aléatoires réelles
de carré intégrable d’espérance m et de variance σ 2 > 0, alors, pour tout x ∈ R,
r ! Z x
X1 + · · · + Xn σ2 1 t2
lim P −m ≤x =√ e − 2 dt.
n→+∞ n n 2π −∞
La loi forte des grands nombres affirme que presque-sûrement, pour n assez grand, la moyenne
X1 + · · · + Xn
empirique est proche de m. Le théorème-limite central quant à lui, donne des
n
X1 + · · · + Xn
renseignements, pour n "assez grand", sur la loi approximative de l’erreur −m
n
X1 + · · · + Xn
commise en prenant comme estimation de m.
n
D’un point de vue pratique, si (Xn )N est une suite indépendante et identiquement distribuée de
variables aléatoires réelles de carré intégrable d’espérance m et de variance σ 2 > 0, alors, pour
tout entier naturel n assez grand et pour tout x ∈ R,
Z x√ n
X1 + · · · + Xn 1 σ2 t2
P −m ≤x ≈√ e − 2 dt
n 2π −∞
q
σ2
c-à-d avec le changement de variable u := t n
,
x u2
X1 + · · · + Xn
Z
1 −
2 σn
2
P −m ≤x ≈q e du.
n 2π σn
2
−∞
On peut alors donner une autre forme équivalente du TLC qui porte sur la somme de n v.a.r
i.i.d. :
Proposition 7.4.
Théorème-limite central (version "somme de n v.a.r.")
Si (Xn )N est une suite indépendante et identiquement distribuée de variables aléatoires réelles
de carré intégrable, d’espérance m et de variance σ 2 > 0, alors, pour tout réel x,
Z x
Sn − nm 1 t2
lim P √ ≤x = √ e − 2σ2 dt.
n→+∞ n σ 2π −∞
On peut aussi exprimer le TCL sous une forme plus intuitive, calquée sur l’énoncé de la
proposition 7.2 mais cette fois sans l’hypothèse de normalité des variables, ce qui conduit
à un résultat analogue vrai seulement asymptotiquement sur n, au lieu de l’être pour tout n.
C’est d’ailleurs souvent sous cette dernière forme que le TLC est énoncé et utilisé dans les
applications pratiques en statistique.
Proposition 7.5.
Approximation d’une somme de v.a.r. par la loi normale
Si (Xn )N est une suite indépendante et identiquement distribuée de variables aléatoires réelles
de carré intégrable, d’espérance m et de variance σ 2 > 0, alors, pour tout entier naturel n ≥ 1
suffisamment grand (en pratique n ≥ 30), la variable aléatoire réelle Sn := X1 + · · · + Xn
se comporte approximativement comme une variable aléatoire normale d’espérance nm et de
variance nσ 2 .
Exemples 7.1.
Considérons une suite i.i.d. (Xn )N de variables aléatoires réelles de loi uniforme sur
365
X
1 1
l’intervalle [− 2 , 2 ]. Posons S := Xk . Alors P(|S| ≤ 15) ≈ 0, 99.
k=1
En effet, en gardant les mêmes notations que plus haut, un calcul d’espérance et de variance
pour la variable aléatoire réelle X1 de loi uniforme sur l’intervalle [− 12 , 21 ] on obtient,
1
m = E(X1 ) = 0 et σ 2 = Var(X1 ) = 12 . Par suite E(S) = 0 et, en vertu de l’identité
des lois et de l’indépendance de la suite (Xn )N ,
365
! 365
X X 365
Var(S) = Var Xk = Var(Xk ) = .
k=1 k=1
12
Comme d’après ce qui a été écrit plus haut, S est pratiquement une variable aléatoire
réelle normale car n peut être considéré comme grand, on en déduit que la loi
qde S est
pratiquement N 1 (0, 365
12
). Cela signifie aussi que la variable aléatoire réelle 12
365
S est
C entre de T élé-enseignement U niversitaire–Franche-Comté–Besançon CT U
Besançon
126 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014
q
12
pratiquement de loi N 1 (0, 1). Par suite comme 15 365 ≈ 2, 72,
r r ! Z
12 2,72
12 1 t2
P(|S| ≤ 15) = P S ≤ 15 = √ e − 2 dt.
365 365 −2,72 2π
En utilisant la table de la loi normale centrée réduite de l’annexe B, page 211, on trouve
P(|S| ≤ 15) ≈ 0, 99.
Var(S)
P(|S| > 15) = P(|S − E(S)| > 15) ≤ ≈ 0, 135,
152
c-à-d P(|S| ≤ 15) ≥ 0, 865. 2
On voit qu’un des intérêts du TLC est de permettre d’approximer la loi d’une variable aléatoire
réelle dans des situations où le calcul exact de cette loi serait pratiquement très compliqué,
voire impossible.
à la suite (Xn )N . 2
Le théorème de De Moivre-Laplace exprime que dans la pratique, pour n assez grand, une
variable aléatoire réelle X binomiale de taille n peut être approximée par une variable aléatoire
réelle normale X 0 . Plus précisément, si a et b sont des réels avec a < b, alors
!
a − np X − np b − np
P (a < X ≤ b) = P p <p ≤p .
np(1 − p) np(1 − p) np(1 − p)
u − np
c-à-d avec le changement de variable t = p ,
np(1 − p)
Z b
(u − np)2
1
P (a < X ≤ b) ≈ p exp − du = P (a < X 0 ≤ b)
2πnp(1 − p) a 2np(1 − p)
où X 0 est une variable aléatoire réelle normale d’espérance np et de variance np(1 − p).
On peut faire, pour les variables aléatoires réelles de Poisson, un raisonnement analogue à celui
fait pour les variables binomiales pour obtenir la proposition suivante :
Proposition 7.7.
Approximation d’une loi de Poisson par une loi normale
Soient un réel α > 0 et, pour tout entier n ≥ 1, Zn une variable aléatoire réelle de loi de
Poisson P(nα), alors pour tout réel x,
Z x
Zn − nα 1 t2
lim P √ ≤x = √ e − 2 dt.
n→+∞ nα 2π −∞
Une conséquence de la proposition 7.7 est que, pour un réel β assez grand, une variable aléatoire
réelle X de Poisson P(β) peut être approximée par une variable aléatoire réelle X 0 normale
N 1 (β, β). Dans la pratique cette approximation est considérée satisfaisante si β ≥ 10.
En général pour éviter cet inconvénient, quand on veut approximer dans un calcul pratique une
variable aléatoire réelle X discrète portée par N par une variable aléatoire réelle X 0 admettant
une densité ρ sur R de fonction de répartition F , on effectue une correction appelée correction
de continuité.
2. Plus généralement, si a et b sont des réels avec a < b, on approxime P(a < X < b) de
la façon suivante (mêmes écritures avec les inégalités larges) :
1 1 1 0 1
P(a < X < b) = P a − ≤ X ≤ b + ≈P a− ≤X ≤b+
2 2 2 2
c’est-à-dire
Z b+ 21
1 1
P(a < X < b) ≈ ρ(t)dλ(t) = F b+ −F a− .
a− 12 2 2
3. On écrit, pour tout réel b, (mêmes écritures avec les inégalités larges) :
Z b+ 1
1 0 1 2 1
P(X < b) = P X ≤ b + ≈P X ≤b+ = ρ(t)dλ(t) = F b + .
2 2 −∞ 2
4. On écrit, pour tout réel a, (mêmes écritures avec les inégalités larges) :
Z +∞
1 1 0 1
P(a < X ) = P a − ≤ X ≈ P a − ≤ X = ρ(t)dλ(t) = 1−F a − .
2 2 a− 12 2
Définition 7.1.
Soient (µn )N une suite de probabilités sur R et µ une probabilité sur R. On dit que la suite
de probabilités (µn )N converge étroitement vers la probabilité µ, si, pour tout point de
continuité x de la fonction de répartition Fµ de µ, la suite réelle (Fµn (x))N converge vers le réel
Fµ (x).
On remarquera qu’on n’exige pas que la suite de réels (Fµn (x))N converge vers Fµ (x) aux points
x ∈ R où la fonction de répartition Fµ de µ n’est pas continue. Il se peut qu’il n’y ait pas con-
vergence en certains points de discontinuité.
Démonstration : On rappelle qu’on a vu dans le premier chapitre, proposition 1.14, page 15, que
la fonction de répartition de µ n’est pas continue en un point x si, et seulement si, µ({x}) > 0.
On en déduit donc que l’ensemble des discontinuités de Fµ est égal à
+∞
[
1
x ∈ R / µ({x}) > .
k=1
k
1
Mais, pour tout entier k ≥ 1, {x ∈ R/µ({x}) > } contient au plus k éléments. Par suite
k
l’ensemble des discontinuités de la fonction de répartition d’une probabilité est une réunion
dénombrable d’ensembles dénombrables, donc est un ensemble dénombrable. 2
Définition 7.2.
Si (Xn )N est une suite de variables aléatoires réelles et X une v.a.r., on dit que la suite (Xn )N
converge en loi vers la variable aléatoire réelle X pour exprimer que la suite (PXn )N des lois
des variables aléatoires réelles Xn converge vers la loi PX de la variable aléatoire réelle X .
On prendra garde que cette dernière terminologie est très dangereuse car une suite de variables
aléatoires réelles (Xn )N peut converger en loi vers des variables aléatoires réelles différentes.
Tout ce qu’on peut affirmer a priori c’est que toutes ces variables aléatoires réelles auront alors
la même loi, comme le précise le résultat qui suit :
Proposition 7.10.
Si une suite de probabilités sur R, (µn )N , converge étroitement vers deux probabilités sur R, µ
et ν, alors µ = ν.
Démonstration : Notons C (Fµ ), resp. C (Fν ), l’ensemble des points de continuité de la fonction
de répartition de µ, resp. ν. Comme l’ensemble des discontinuités de la fonction de répartition
d’une probabilité est un ensemble dénombrable (cf. proposition 7.8), l’ensemble des points de
continuité communs à Fµ et Fν , i.e. C (Fµ ) ∩ C (Fν ), est dense dans R comme complémentaire
d’un ensemble dénombrable. Pour tout x ∈ C (Fµ ) ∩ C (Fν ), Fµ (x) = lim Fµn (x) = Fν (x) car
n
la suite (µn )N , converge à la fois vers les deux probabilités µ et ν. Fµ et Fν étant continues à
droite sur R, on en conclut que Fµ = Fν et par suite µ = ν. 2
On admettra qu’on peut munir l’ensemble M1 (R) d’une structure d’espace métrique dont la
topologie associée est celle de la convergence étroite (cf. [3], exercice V-17). Précisément :
Proposition 7.11.
(Hors programme)
1. L’application d de M1 × M1 dans R+ définie par
Proposition 7.12.
Théorème-limite central (version réelle)
Soient (Xn )N une suite indépendante et identiquement distribuée de variables aléatoires réelles
de carré intégrable (i.e. E(|X0 |2 ) < +∞), d’espérance m ∈ R et de variance σ 2 . On pose, pour
naturelnon nul n, Sn = X1 + X2 + · · · + Xn . Alors, la suite de variables aléatoires
tout entier
Sn − nm
réelles √ converge en loi vers une variable aléatoire gaussienne centrée de variance
n N∗
σ2.
Dans le cas où la suite de probabilités est composée de probabilités discrètes portées par N, on
utilise le critère de convergence suivant :
Proposition 7.13.
Critère de convergence pour les probabilités discrètes
Soient, pour tout n ∈ N, µn et µ des probabilités discrètes portées par N. Alors la suite (µn )N
converge vers µ si, et seulement si, pour tout k ∈ N, la suite de réels (µn ({k}))N converge vers
µ({k}).
Démonstration : Montrons la condition nécessaire. Comme µ est une probabilité discrète portée
par N, sa fonction de répartition est définie sur R par
+∞
X
Fµ (x) = µ({k})1l[k,+∞[ (x).
k=0
On a une écriture analogue pour les fonctions de répartition des probabilités µn . L’ensemble des
points de discontinuité de Fµ est inclus dans N. Par suite, pour tout entier k, k + 21 et k − 21
sont des points de continuité de Fµ et Fµn . Comme µ({k}) = Fµ (k + 12 ) − Fµ (k − 12 ), il vient
en utilisant le fait que, pour tout point de continuité x de Fµ , Fµ (x) = limn Fµn (x),
1 1
µ({k}) = lim Fµn k + − lim Fµn k −
n 2 n 2
1 1
= lim Fµn k + − Fµn k −
n 2 2
= lim µn ({k}).
n
On notera que le critère précédent devient faux si les probabilités sont portées par une partie
dénombrable D de R dont les points ne sont pas tous topologiquement isolés. On rappelle qu’un
C entre de T élé-enseignement U niversitaire–Franche-Comté–Besançon CT U
Besançon
132 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014
point x ∈ D est dit topologiquement isolé s’il existe un intervalle de la forme ]x − ε, x + ε[,
avec ε > 0, ne contenant pas d’autre point de D que x lui-même. On peut construire un
contre-exemple en considérant, pour tout entier n ≥ 1, les probabilités µn := δ 1 et prendre
n
µ := δ0 .
Donnons comme exemple d’application aux lois classiques du critère des probabilités discrètes
le résultat suivant :
Proposition 7.14.
Soit α ∈]0, +∞[. Si (pn )N est une suite de réels de ]0, 1[ telle que limn (npn ) = α, alors la suite
de probabilités ( B(n, pn ))N∗ converge vers P(α).
n(n − 1)...(n − k + 1) k
B(n, pn )({k}) = Cnk pnk (1 − pn )n−k = pn (1 − pn )n−k .
k!
n−k
ln(1 − pn )n−k = (n − k) ln(1 − pn ) ∼ (n − k)(−pn ) ∼ (−α) ∼ −α,
n
(npn )k αk −α
lim (1 − pn )n−k = e
n→+∞ k! k!
et par équivalence
αk −α
lim B(n, pn )({k}) = e = P(α)({k}),
n→+∞ k!
pour tout entier k, ce qui donne le résultat cherché. 2
Définition 7.3.
On appelle loi hypergéométrique de paramètres N, n, p, la probabilité sur R définie par
n k n−k
X CNp CNq
H(N, n, p) := δk ,
k=0
CNn
On notera aussi qu’une suite de probabilités discrètes peut converger vers une probabilité non-
discrète comme le prouve le théorème de De Moivre-Laplace.
Dans les cas généraux, on dispose de critères de convergence étroite utilisant des familles de
fonctions-test, par exemple le critère suivant (pour une démonstration, on pourra se reporter à
[4], page 178) :
Proposition 7.16.
Critère de convergence étroite par les fonctions continues bornées
Soient (µn )N une suite de probabilités sur R et µ une probabilité sur R. La suite de probabilités
(µn )N convergeZ étroitement vers la probabilité µZ si, et seulement si, pour tout f ∈ Cb (R), la
suite de réels ( f dµn )N converge dans R vers f dµ.
R R
Énoncé en terme de convergence en loi de v.a.r. cette dernière proposition devient, par
application du théorème du transfert :
Proposition 7.17.
Critère de convergence en loi par les fonctions continues bornées
Soient (Xn )N une suite de v.a.r. et X une v.a.r.. La suite de v.a.r. (Xn )N converge en loi vers la
v.a.r. X si, et seulement si, pour tout f ∈ Cb (R), la suite de réels (E(f (Xn ))N converge dans
R vers E(f (X )).
Proposition 7.18.
Soit (Xn )n∈N une suite de v.a.r. et f une application continue de R dans R. Si la suite de v.a.r.
(Xn )N converge en loi vers une v.a.r. X , alors la suite de v.a.r. (f (Xn ))N converge en loi vers
f (X ).
Il peut être utile d’avoir des critères utilisant d’autres familles de fonctions-test, comme par
exemple celle des fonctions continues à support compact ou celle des fonctions continues nulles
à l’infini :
Proposition 7.19.
Critère de convergence étroite par les fonctions continues à support compact
Soient (µn )N une suite de probabilités sur Rd et µ une probabilité sur Rd . La suite de probabilités
(µn )N converge étroitement vers la probabilité µ si, et seulement si,Zpour toute fonction f de
Rd dans R, continue et à support compact sur Rd , la suite de réels ( f dµn )N converge dans
Z Rd
R vers f dµ.
R
R vers f dµ. Comme les fonctions continues à support compact sont bornées, on a bien
R Z
que, pour toute fonction f continue et à support compact sur R, la suite de réels ( f dµn )N
Z R
Pour tout entier naturel non nul k, la fonction ϕk , est une fonction continue à support compact
telle que 0 ≤ ϕk ≤ 1 et la suite de fonctions (ϕk )N∗ converge simplement sur R vers la
fonction constante égale à 1. Donc, la suite (1 − ϕk )N∗ converge simplement sur R vers la
fonction nulle et cette suite de fonctions est dominée par la fonction µ-intégrable 1lR , car µ
est par
Z hypothèse une Zprobabilité. Donc par le théorème de convergence dominée, on obtient
lim (1 − ϕk )dµ = lim (1 − ϕk )dµ = 0.
k→∞ R R k→∞
Soit h une fonction continue, bornée sur R par M. On a, pour tout entier naturel non nul k,
et tout entier naturel n,
Z Z Z Z Z Z
hdµn − hdµ ≤ (h − hϕk )dµn + hϕk dµn − hϕk dµ + (hϕk − h)dµ
R R RZ Z R ZR R
Z
≤ M (1 − ϕk )dµn + hϕk dµn − hϕk dµ + M (1 − ϕk )dµ,
ZR RZ R Z R
≤ M (1 − ϕk )dµ + M (1 − ϕk )dµn − (1 − ϕk )dµ +
Z R Z R Z R
+ hϕk dµn − hϕk dµ + M (1 − ϕk )dµ,
RZ R Z R Z
≤ M (1 − ϕk )dµ + M ϕk dµn − ϕk dµ +
Z R Z R Z R
+ hϕk dµn − hϕk dµ + M (1 − ϕk )dµ,
R R R
Z Z Z Z
car (1 − ϕk )dµn − (1 − ϕk )dµ = ϕk dµ − ϕk dµn , puisque, µ et µn étant des
R Z ZR R R
On peut remplacer dans la proposition précédente les fonctions continues à support compact
par les fonctions continues "nulles à l’infini".
Définition 7.4.
Une application f de Rd dans R est dite nulle à l’infini si, pour tout ε > 0, il existe un
compact K ⊆ Rd tel que, pour tout x ∈ K c , |f (x)| ≤ ε.
On note souvent C0 (Rd ) l’ensemble des applications de Rd dans R continues et nulles à l’infini.
vers f dµ.
R
Dans le cas des probabilités à densité on dispose de la condition suffisante (mais non nécessaire)
de convergence étroite suivante :
Proposition 7.21.
Théorème de Scheffé
Soient, pour tout n ∈ N, µn et µ des probabilités absolument continues sur R de densités
respectives fn et f par rapport à la mesure de Lebesgue λ. Si la suite des densités (fn )N converge
λ-presque-partout vers la densité f , alors la suite de probabilités (µn )N converge étroitement
vers µ.
La réciproque est fausse.
Z
Démonstration : Comme f et fn sont des densités, pour tout n ∈ N, (f − fn )dλ = 0 . Donc
R
Z Z Z
+ − 1
(f − fn ) dλ = (f − fn ) dλ = |f − fn |dλ
R R 2 R
converge vers 0 et par suite |f − fn |dλ converge également vers 0. Enfin comme, pour
Z R Z N Z
tout t ∈ R, (f − fn )dλ ≤
|f − fn |dλ, la suite (f − fn )dλ tend vers 0
]−∞,t] R ]−∞,t] N
quand n tend vers l’infini. On a montré que, pour tout t ∈ R, la suite (Fn (t))N converge vers
F (t) où Fn est la fonction de répartition de µn et F celle de µ. D’où la convergence étroite de
(µn )N vers µ. 2
fn (x) := [1 − cos(2πnx)]1l[0,1] (x), montrer qu’il existe une suite de probabilités qui con-
verge étroitement vers une probabilité µ sans que la suite des densités associées converge
λ-presque-partout vers la densité de µ.
Les fonctions caractéristiques (f.c.) sont aussi un outil extrêmement commode dans l’étude
des convergences étroites, grâce au résultat suivant qu’on admettra (on pourra en trouver une
démonstration dans [4], pages 179-181) :
Proposition 7.22.
Théorème de continuité de Paul Lévy
Soit (µn )N une suite de probabilités sur Rd . La suite des f.c. (Φµn )N converge simplement sur Rd
vers une application ϕ de Rd dans C continue en 0 si, et seulement si, il existe une probabilité µ
sur Rd , de fonction caractéristique Φµ = ϕ, telle que la suite (µn )N converge étroitement vers µ.
Démonstration : • C.N. - Supposons que (µn )N converge étroitement vers la probabilité µ. Les
fonctions eu : x ∈ Rd 7→ e i<x,u> ∈ C, où u ∈ Rd , sont continues et bornées sur Rd . Par
application du critère de convergence étroite par les fonctions continues et bornées (proposi-
tion 7.16) appliqué aux parties réelles et imaginaires
Z des fonctions eu , on en conclut que, pour
tout u ∈ Rd , la suite de nombres complexes e i<x,u> dµn (x) converge dans C vers
Z Rd N
e i<x,u> dµ(x), donc la suite des f.c. (Φµn )N converge simplement sur Rd vers la f.c. Φµ .
Rd
• C.S. - Supposons que la suite des f.c. (Φµn )N converge simplement sur Rd vers la f.c. Φµ .
Prenons, avec les notations du théorème de continuité de Lévy, ϕ = Φµ . Alors, la suite des
f.c. (Φµn )N converge simplement sur Rd vers une application ϕ de Rd dans C continue en 0.
Par le théorème de continuité de Lévy, on en conclut qu’il existe une probabilité ν sur Rd , de
fonction caractéristique Φν = ϕ, et que la suite (µn )N converge étroitement vers ν. Comme
C entre de T élé-enseignement U niversitaire–Franche-Comté–Besançon CT U
Besançon
138 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014
Φν = ϕ = Φµ , on conclut par le théorème d’injectivité des f.c. que µ = ν, et que la suite (µn )N
converge bien étroitement vers µ. 2
Exemples 7.2.
Si (an )N et (σn )N sont deux suites réelles convergeant respectivement vers les réels a et
σ, alors la suite de probabilités ( N 1 (an , σn2 ))N converge étroitement vers la probabilité
N 1 (a, σ 2 ). 2
Utilisons le critère de convergence étroite par les f.c. pour donner une démonstration du
théorème-limite central que nous énonçons maintenant dans le cadre vectoriel qui généralise
l’énoncé donné dans la proposition 7.12 en dimension d = 1 :
Proposition 7.25.
Théorème-limite central (version vectorielle)
Soient (Xn )N une suite indépendante et identiquement distribuée de vecteurs aléatoires réels de
dimension d, de carré intégrable (i.e. E(|X0 |2 ) < +∞), d’espérance m ∈ Rd et de matrice de
dispersion D. On pose, pour tout entier naturelnon nul n, Sn = X1 + X2 + · · · + Xn .
Sn − nm
Alors, la suite des lois des vecteurs aléatoires √ converge étroitement vers la loi
n N∗
gaussienne de dimension d, N d (0, D).
X
Considérons la série numérique uk (n) de terme général : uk (n) = 0 si k > n, et
k
k
Cnk t 2k
2
σ t
uk (n) = − + ε √ si 0 ≤ k ≤ n. Pour tout réel t fixé, il existe une
nk 2 n
Mk
constante M telle que, pour tout entier naturel non nul n, |uk (n)| ≤ . Donc la série
k!
X +∞
X
uk (n) converge normalement. On peut donc intervertir les symboles lim et , on ob-
n→+∞
k k=0
+∞ +∞ +∞
X X X −σ 2 t 2k 2 2
− σ 2t
tient lim uk (n) = lim uk (n) = =e . Donc la suite des fonctions
n→+∞
k=0 k=0
n→+∞
k=0
2(k!)
Sn − nm
caractéristiques des v.a.r. √ converge vers la fonction caractéristique de la loi normale
n
centrée de variance σ 2 . Ce qui prouve, en vertu du critère de convergence en loi par les fonctions
Sn − nm
caractéristiques (proposition 7.24, page 137) que la suite des v.a.r. √ converge en loi
n
vers une v.a.r. normale centrée de variance σ 2 . 2
Pour compléter l’étude des liens, commencée au chapitre précédent, entre les divers modes
de convergences, signalons le résultat suivant qui prouve que la convergence en probabilité,
et a fortiori la convergence presque-sûre, d’une suite de variables aléatoires réelles implique la
convergence de la suite des lois de ces v.a.r. :
Proposition 7.26.
Si (Xn )N est une suite de variables aléatoires réelles convergeant en probabilité vers la variable
aléatoire réelle Y , alors la suite des lois (PXn )N converge vers la loi PY de la variable aléatoire
réelle Y .
La réciproque est fausse.
Démonstration : Soit h une fonction numérique positive définie sur Rd , continue et à support
compact. La fonction h est donc uniformément continue sur Rd . Fixons ε > 0. Il existe donc
un réel ηε > 0, tel que, pour tout x, y ∈ Rd , |x − y | ≤ ηε implique |h(x) − h(y )| ≤ ε.
Comme la suite (Xn )N converge en probabilité vers la variable aléatoire réelle Y , il existe un
entier naturel Nε tel que, pour tout entier n ≥ Nε , P(|Xn − Y | > ηε ) ≤ ε. Alors, pour tout
entier naturel n ≥ Nε , on a
C entre de T élé-enseignement U niversitaire–Franche-Comté–Besançon CT U
Besançon
140 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014
La convergence des lois d’une suite de variables aléatoires réelles n’implique pas nécessairement
la convergence en probabilité de la suite de v.a.r., cependant cette conclusion devient vraie si
la suite des lois converge vers une probabilité de Dirac :
Proposition 7.27.
Si (Xn )N est une suite de variables aléatoires réelles sur un même espace de probabilité
(Ω, F, P) telle que la suite des lois (PXn )N converge vers la probabilité de Dirac δa où a est un
réel, alors la suite de variables aléatoires réelles (Xn )N converge en probabilité vers la variable
aléatoire réelle constante a.
on conclut que la suite (Xn )n≥1 converge en probabilité vers a. On remarque que, lorsque la
limite est une v.a.r. presque-sûrement constante, il y a équivalence entre la convergence en loi
et la convergence en probabilité.2
Notons que, dans le cas général, on ne peut pas effectuer d’opérations élémentaires sur les
limites-en-loi. Cependant on admettra (pour une démonstration de la première assertion on
pourra se reporter à l’exercice 7.10, page 142) :
Proposition 7.29.
Théorème de Slutsky
Soient (Xn )N une suite de v.a.r. convergeant en loi vers une v.a.r. X et (Yn )N une suite de v.a.r.
convergeant en loi vers 0, alors
1. la suite de v.a.r. (Xn + Yn )N converge en loi vers X ,
2. la suite de v.a.r. (Xn Yn )N converge en loi (et aussi en probabilité) vers 0.
En remarquant qu’une v.a.r. de loi binomiale B(n, p) a même loi que la somme de n v.a.r.
indépendantes de loi B(p), la proposition 7.14 est un cas particulier de la loi des événements
rares (cf. [3], exercice V-16).
Notons que les théorèmes-limites jouent un rôle théorique important en statistique dans la
vérification des modèles probabilistes de phénomènes aléatoires. En particulier celui-ci (cf. [3],
problème V-1) :
Proposition 7.31.
Théorème fondamental de la statistique (Hors programme)
Soit (Xn )N une suite de v.a.r. indépendantes et de même loi. Alors, pour P-presque-tout ω ∈ Ω,
la suite des lois empiriques de (X1 , X2 , ..., Xn )
k=n
!
1X
δX (ω)
n k=1 k ∗
n∈N
|ΦXn +Yn (t) − ΦXn (t)| ≤ 2P(|Yn | > α) + E 1l]−∞,α] (|Yn |)|e itYn − 1|
Chapitre 8
x ∈ {f ∈ A}c ⇔ x ∈ / A ⇔ f (x) ∈ Ac ⇔ x ∈ {f ∈ Ac } .
/ {f ∈ A} ⇔ f (x) ∈
Enfin 1lA∪B∪C = 1l(A∪B)∪C = 1lA∪B + 1lC − 1lC 1lA∪B . On développe de même l’indicatrice
de A ∪ B et on obtient :
1lA∪B∪C = 1lA + 1lB + 1lC − (1lA 1lB + 1lB 1lC + 1lC 1lA ) + (1lA 1lB 1lC )
n+1 r b
2 r b
1 r b
b -
1 2 n n+1
X
2. Représentation graphique de la fonction 1l[0,n] :
n≥0
+∞ r
b -
X
3. Représentation graphique de la fonction (n + 1)1l[n,n+1[ :
n≥0
n+1 r b
2 r b
1 r b
b -
1 2 n n+1
Corrigé de l’exercice 1.4, page 3
Cet exercice n’est pas difficile mais demande de la rigueur lors de sa rédaction. Il faut démontrer
les trois axiomes qui feront de A une tribu.
i) Tout d’abord E ∈ A car E = A1 ∪ · · · ∪ An par définition d’une partition. Donc E s’écrit
bien comme ∪i∈I Ai en choisissant I = {1, ..., n}.
ii) Soit B ∈ A. Montrons que B c ∈ A. On a :
où J = ∪k∈N Ik ⊂ {1, ..., n}. Ainsi ∪k∈N Bk est bien la réunion d’une sous-famille des A1 , ..., An
et donc ∪k∈N Bk ∈ A.
n n X n
[ X 1 X 1 X
µ( Ai ) = = ( )= µ(Ai ).
1
S k2 1 k∈A
k2 1
k∈ i Ai i
Corrigé de l’exercice
P 1.13, page 9
1) B(n; p)({i}) = nk=0 Cnk p k (1 − p)n−k δk ({i}) où δk ({i}) = 1 si i = k et 0 sinon. On a donc
B(n; p)({i}) = Cni p i (1 − p)n−i .
C entre de T élé-enseignement U niversitaire–Franche-Comté–Besançon CT U
Besançon
150 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014
i
De même pour la loi de Poisson on trouve P(α)({i}) = e −α αi! .
2) On a par l’additivité des probabilités pour les ensembles deux à deux disjoints :
P(1/10)({1, 3, 5, 7}) = P(1/10)({1}) + P(1/10)({3}) + P(1/10)({5}) + P(1/10)({7}).
On trouve donc
(0, 1)1 (0, 1)3 (0, 1)5 (0, 1)7
−0,1
P(1/10)({1, 3, 5, 7}) = e + + +
1! 3! 5! 7!
' 0, 0905 + 0, 0002 + 0 + 0 ' 0, 0907 .
De même on trouve B(7; 0.3)({0, 3, 5} ' 0.3343.
6
1
3/4 r
1/2 b
r
1/4
b -
-2 -1 0 1 2 3
La fonction F présente des sauts ce qui est révélateur de la présence de Dirac dans l’expression
de la probabilité.
Par ailleurs, F est bien une fonction de répartition car elle est croissante, continue à droite et
limx→−∞ F (x) = 0 et limx→+∞ F (x) = 1.
La mesure µ sera la somme d’une mesure à densité et d’une variable discrète. A priori
on ne dispose pas de résultat dans le cours pour conjecturer ce fait mais en pratique (en
refaisant d’autres exercices de ce type) la méthode décrite ci-après permet de conclure. On
peut considérer que pour tout x ∈ R, F (x) = F1 (x) + F2 (x) où
0, si x < −1 ;
x+1
4 , si −1 6 x < 0 ;
1
F1 (x) = 4
, si 0 6 x 6 1 ;
x
, si 1 6 x 6 2 ;
14
2
, si x > 2.
et
0, si x < −1 ;
1
F2 (x) = , si −1 6 x < 0 ; .
14
2
, si x > 0.
On remarque
R x que F1 est continue et F2 permet de prendre en compte les sauts. On peut écrire
F1 (x) = −∞ f1 (t)dt où
1
4
,si −1 6 t < 0 ou 1 6 t 6 2 ;
f1 (t) = .
0, sinon.
1 1
F2 (x) = 1l[−1,+∞[ (x) + 1l[0,+∞[ (x)
4 4
1 1
= δ−1 (] − ∞,x]) + δ0 (−∞,x])
4 4
= µ2 (] − ∞,x])
– Supposons maintenant
√ R x que t > 0. On rappelle que X étant une v.a.r. de loi N1 (0; 1),
−u 2 /2
FX (x) = (1/ 2π) −∞ e du. On a donc
où on a posé
1 1 2
ρ(x) = √ e − 2 (ln x) 1l]0,+∞[ (x)
2πx
d’où le résultat cherché.
Fixons n ∈ N, il vient X
PX ({n}) := pk δk ({n}).
k∈N
P
Or δk ({n}) = 0, si k 6= n et δn ({n}) = 1. Par suite k∈N pk δk ({n}) = pn et PX ({n}) = pn .
D’où le résultat cherché.
1
On a de même P(X = 0) = 0 et P(X = 1) = .
2
4. Par définition, comme X est une variable discrète à valeurs dans N,
∞
X
E(X ) := nP(X = n)
n=1
∞
1 X 2
E(X ) = +
2 n=2 (n − 1)(n + 1)
∞
1 X 1
E(X ) = + −
2 n=2 n − 1 n + 1
1 1 1 1 1 1 1 1
E(X ) = + 1− + − + − + ··· + − + ···
2 3 2 3 3 4 n−1 n+1
1 1
E(X ) = + 1 + = 2.
2 2
5. Calculons la variance de X . Vérifions auparavant que la variable X est de carré intégrable,
c’est-à-dire que E(X 2 ) est un réel fini. Or, par définition des moments d’ordre 2, et suivant
un calcul analogue au précédent, il vient :
∞ ∞
X 1 X 2n
E(X 2 ) = n2 P(X = n) = + .
n=1
2 n=2 (n − 1)(n + 1)
∞
X 2n
La série à terme général réel positif ne converge pas. En effet, son
n=2
(n − 1)(n + 1)
1
terme général est équivalent à , terme général d’une série divergente (série harmonique).
n
CT U C entre de T élé-enseignement U niversitaire–Franche-Comté–Besançon
Besançon
Chapitre 8. Corrigés des exercices 155
D’après le critère de l’équivalence pour les séries à terme général positif, la série
∞
X 2n
diverge. Donc la variable aléatoire X n’admet pas de variance.
n=2
(n − 1)(n + 1)
De même
µ([6,10]) = δ0 ([6,10]) + δ5 ([6,10]) + λ([6,10]) = 4 et
| {z } | {z } | {z }
=0 =0 =10−6
Par suite Eµ (f ) = 34 π + 7.
On conclut alors par l’unicité de l’opérateur que Ĩ = Eµ+ν , c’est-à-dire que pour tout
f ∈ M+ (E , A), Ĩ (f ) = Eµ+ν (f ) ou encore Eµ (f ) + Eν (f ) = Eµ+ν (f ).
2. D’après la question précédente, Eµ (f ) + Eν (f ) = Eµ+ν (f ) or
Eµ (f ) = Eλ (ρf ) d’après la proposition 3.1, page 30,
Z +∞
= ρ(x)f (x)dx d’après la proposition 3.2, page 31,
−∞
Z 1
= αe −αx e αx dx = α ,
0
et Eν (f ) = e −α f (1) d’après la proposition 3.4, page 32,
= e −α e α×1 = 1 .
Finalement Eµ+ν (f ) = α + 1.
3. Un raisonnement analogue conduit à :
Z 1
Eµ (f ) = e −αx e αx dx = 2
−1
∞ ∞ ∞
X αk X αk αk
X (αe α )k
Eν (f ) = f (k) = e = = exp(αe α ) .
k=0
k! k=0
k! k=0
k!
par rapport à µ = ∞
P
Ainsi f sera intégrable
P∞ i=0 αi δi si, et seulement si, la série numérique à
termes positifs i=0Pαi |f (ai )| est convergente ce qui est équivalent à l’absolue convergence de
la série numérique ∞ i=0 αi f (ai ).
D’où par la croissance de l’opérateur Eµ pour les fonctions positives (proposition 3.1, assertion
2, page 30),
d
X
Eµ (|fi |) 6 Eµ (|f |) 6 Eµ (|fi |)
i=1
Par suite !
∞ ∞ ∞ k
X k X 1 X 1
E(X1 ) = = k
k=1
2k 2l 2
| l=1{z } k=1
=1
et comme en dérivant terme à terme une série géométrique on montre facilement que
∞
X x 1/2
x kx k−1 = 2
pour 0 < x < 1, on déduit que E(X 1 ) = 2
= 2. On
k=1
(x − 1) (1 − 1/2)
raisonne de même pour montrer que E(X2 ) = 2.
• On détermine la loi de la v.a.r. Z = X1 + X2 . On applique le critère d’identification des lois
par les fonctions boréliennes positives. Soit h de R → [0,∞] borélienne. En posant ϕ(x, y ) =
h(x + y ) (qui est borélienne positive car h l’est), on a E(h(Z )) = E(h(X1 + X2 )) = E(ϕ(Z )).
Par le théorème du transfert,
Z Z
P∞ 1
E(h(Z )) = ϕ(x, y )dPX (x, y ) = h(x + y )d k ,l =1 2k+l
δ(k ,l ) (x, y )
R2 R2
∞ ∞ ∞
XX 1 X X 1
= h(k + l) = h(i) .
k=1 l=1
2k+l i=2 (k,l)/k+l=i
2i
X 1
Or il existe i − 1 couples (k, l) tels que k + l = i avec 1 6 k et 1 6 l donc h(i) =
2i
(k,l)/k+l=i
(i − 1) × h(i)/2i . D’où
∞
i −1
X Z
E(h(Z )) = i
h(i) = h(x)dµ(x)
i=2
2 R
∞ ∞
X i −1 X i −1
avec µ = i
δi = i
δi car i − 1 = 0 pour i = 1.
i=2
2 i=1
2
Corrigé de l’exercice 3.9, page 46
1. On a V ar (X ) = E((X − E(x)2 ) = C ov (X , X ). En posant E(X ) = m :
Par des techniques d’intégration par parties successives, on recherche une relation de récurrence
sur l’entier r > 2 : Z ∞ Z ∞
r +1 −x 2 /2 2 /2
x e dx = r x r −1 e −x dx
0 0
r −2
c’est-à-dire E(X r ) =
R ∞r E(X ). Enpdistinguant les cas où r = 2k et r = 2k − 1, et en
2
tenant compte que 0 e −x /2 dx = π/2, on trouve les relations demandées. En particulier
p
E(X ) = π/2 et E(X 2 ) = 2 d’où V ar (X ) = 2 − π/2.
DY = E ((Y − E(Y ))(Y − E(Y ))t ) = E ((X − E(X ))(X − E(X ))t ) = DX
• Montrons que DMX = MDX M t . Soit i, j = 1, ..., c, le coefficient (i, j) de DMX est
C ov (MX )i ,(MX )j = E[(MX )i (MX )j ] − E[(MX )i ]E[(MX )j ]
" d d
# " d # " d #
X X X X
=E aik Xk ajl Xl − E aik Xk E ajl Xl
k=1 l=1 k=1 l=1
d
XX d h i
= aik ajl E(Xk Xl ) − E(Xk )E(Xl )
| {z }
k=1 l=1
=C ov (Xk ,Xl )
d X
X d
= aik C ov (Xk ,Xl )ajl
k=1 l=1
= coefficient (i, j) de la matrice MDX M t (matrice carrée d’ordre c)
2
|X | − |Y | > 0 ⇔ X 2 + Y 2 − 2|X Y | > 0 ⇔ X 2 + Y 2 > 2|X Y | > |X Y | .
On en déduit que E(|X Y |) 6 E(X 2 ) + E(Y 2 ) < ∞, ainsi la v.a.r. X Y est intégrable.
En choisissant Y = 1lΩ (c’est la variable aléatoire constante égale à 1), on a |X Y | =
|X | 6 X 2 + 1lΩ d’où
Nous avons un polynôme en α de degré deux qui est positif. Il ne peut donc pas avoir
de racines
2 réelles 2distinctes et son discriminant est donc négatif ou nul, c’est-à-dire
2
E(X Y ) − E(Y )E(X ) 6 0 d’où le résultat.
1. Pour vérifier la relation, on étudie la valeur de chacun des deux membres de l’égalité pour
ω tel que |X (ω)| > a, puis pour ω tel que |X (ω)| ≤ a. On constate alors que les deux
membres coïncident dans chaque cas.
2. Remarquons que X et −X ont la même loi. En effet l’étude des fonctions caractéristiques
1 2
donne Φ−X (t) = E[e −itX ] = ΦX (−t) = e − 2 t = ΦX (t). Soient h une application
borélienne positive de R dans R, a un réel strictement positif, de la relation,
h(Xa ) = h(X )1l[0,a] (|X |) + h(−X )1l]a,+∞[ (|X |)
on obtient, en passant à l’espérance,
E[h(Xa )] = E[h(X )1l[0,a] (|X |)] + E[h(−X )1l]a,+∞[ (|X |)].
En remarquant que X et −X ont la même loi et en utilisant le théorème du transfert, il
vient
E[h(−X )1l]a,+∞[ (|X |)] = E[h(X )1l]a,+∞[ (|X |)].
Ce qui, en reportant dans le deuxième membre de l’égalité précédente, donne E[h(Xa )] =
E[h(X )], pour toute application borélienne positive de R dans R. Ce qui prouve que Xa
suit la même loi que X c’est-à-dire N 1 (0, 1).
X et Y ont donc la même loi, bien qu’elles ne soient pas presque-sûrement-égales car
P(X = Y ) = P(X = −X ) = P(X = 0) = 0.
2. Soit h une application positive borélienne de R dans R.
Z Z
E[h(g (X ))] = h(g (X ))dP = h(g (x))dPX (x)
ZΩ R Z
d’où le résultat cherché. On peut aussi remarquer que h ◦ g est une application positive
borélienne de R dans R. On applique alors l’équivalence PX = PY si, et seulement si,
pour toute application k positive borélienne de R dans R, E(k(X )) = E(k(Y )) avec
k = h ◦ g.
Montrons par un contre-exemple qu’on peut avoir PX = PY et PX Z 6= PY Z . Considérons
le jeu de Pile-ou-Face précédent et avec les notations précédentes posons Z = X . On a
alors X Z = X 2 = X et Y Z = Y X = 0. Par suite PX = PX Z 6= PY Z = δ0 bien que
PX = PY .
ce qui prouve que la v.a.r. Y admet pour densité la fonction χ définie ci-dessus.
Le jacobien de T −1 est
2 +y 2 2 +y 2
!
−x −x 1 − x 2 +y 2
JT −1 = det −xe 2 −ye 2
=− e 2 .
1 y 1 x
− 2π x 2 +y 2 2π x 2 +y 2
2π
2. Pour trouver la loi de la v.a.r. X (idem pour Y ), on applique la proposition 4.5, page 66,
qui nous permet d’affirmer que X est une v.a.r. de densité ρX définie par
Z Z
1 −x 2 /2 −y 2 /2
ρX (x) = ρ(x, y )dλ(y ) = e e dy
R Z R 2π
1 −x 2 /2 2 1 2
= e e −y /2 dy = √ e −x /2 ,
2π 2π
| R {z√
}
= 2π
du fait que (X , ε) est indépendant et que ε est centrée. Si (X , Y ) était indépendant, alors
(X 2 , Y 2 ) le serait aussi et on aurait
où la dernière intégrale est calculée par une intégration par parties ; ce qui montre une contra-
diction. Le couple de v.a.r. (X , Y ) n’est donc pas indépendant.
V ar (X + Y ) = V ar (X ) + 2 C ov (X , Y ) +V ar (Y )
| {z }
=0
= V ar (X ) + V ar (Y )
et on reconnaît la fonction caractéristique d’une loi B(n; p). Donc Sn est une v.a.r. B(n; p).
1. Pour tout ω ∈ Ω, X(1) (ω) = max(X1 (ω), ..., Xn (ω)) car c’est le premier nombre dans la
suite X1 (ω), ..., Xn (ω) réordonnés de façon croissante. Soit x ∈ R, FX(1) (x) = P(X(1) 6 x)
or {max(X1 , ..., Xn ) 6 x} = ∩nk=1 {Xk 6 x} et par indépendance de X1 , ..., Xn on déduit
que
n
n
Y n
Fx(1) (x) = P (∩k=1 {Xk 6 x}) = P(Xk 6 x) = F (x)
k=1
3. (a) La v.a.r. Yk ne prend que deux valeurs, 0 et 1. C’est donc une v.a.r. de Bernoulli
de paramètre
p = P(Yk = 1) = P(Xk > t) = 1 − P(Xk 6 t) = 1 − F (t) = 1 − (1 − e −αt )
d’où p = e −αt et donc PYk = e −αt δ1 + (1 − e −αt )δ0 , pour k = 1, ..., n. Par suite
Y1 + ... + Yn est une somme de v.a.r. de Bernoulli de même paramètre p. Ces v.a.r.
sont indépendantes car elles sont de la formes f1 (X1 ), ..., fn (Xn ) avec fk = 1l]t,∞[ (on
utilise la proposition 4.15, page 76). La v.a.r. Y1 + ... + Yn est donc une v.a.r. de
loi B(n; p).
(b) On remarque que Yk = 1 signifie que Xk est strictement supérieur à t. Ainsi
Y1 + ... + Yk est égal au nombre de v.a.r. Xi qui sont strictement supérieure à
t. Ceci entraîne que {Y1 + ... + Yn 6 k − 1} = {X(k) 6 t}.
4. Soit t ∈ R, d’après ce qui précède on a :
k−1
X
FX(k) (t) = P(X(k) 6 t) = P(Y1 + ... + Yn 6 k − 1) = Cnj p j (1 − p)n−j
j=0
k−1
X
= Cnj e −jαt (1 − e −αt )n−j .
j=0
2. deux racines complexes et non réelles distinctes si, et seulement si, A2 (ω) − B(ω) < 0.
En menant le calcul de façon analogue au cas précédent, il vient
P(A2 − B < 0) = E[1l]−∞,0[ (A2 − B)]
Z
= 1l]−∞,0[ (x 2 − y )dP(A,B) (x, y )
2
ZR Z
2
= 1l]−∞,0[ (x − y )1l[0,1] (x)1l[0,1] (y )dλ(y ) dλ(x)
R R
Z Z
2
= 1l[0,1] (x) 1l]−∞,0[ (x − y )1l[0,1] (y )dλ(y ) dλ(x)
R R
Z 1 Z 1 Z 1
2
= dy dx = (1 − x 2 )dx = .
0 x2 0 3
3. une racine double si, et seulement si, A2 (ω) − B(ω) = 0.
En remarquant que {A2 − B = 0}c = {A2 − B > 0} ∪ {A2 − B < 0}, il vient
P(A2 − B = 0) = 1 − P(A2 − B < 0) − P(A2 − B > 0) = 0.
Par le théorème de changement de variable (cf. 4.4, page 64) puisque la valeur absolue
du jacobien est égale à 1, il vient
Z Z
2 (2)
h(x − y )dλ (x, y ) = h(z)dλ(2) (t, z).
]0,1[2 U
E[h(∆)
Z = Z Z
= √ √
h(z) 1l]0,1[ (z) 1l] z,1[ (t)dλ(t) + 1l]−1,0[ (z) 1l]0, 1+z[ (t)dλ(t) dλ(z)
ZR R R
√ √
= h(z) 1l]0,1[ (z)(1 − z) + 1l]−1,0[ (z) 1 + z dλ(z).
R
pour densité par rapport à la mesure de Lebesgue. On retrouve les résultats des questions
précédentes en calculant
Z
P(∆ > 0) = 1l{∆>0} (ω)dP(ω)
Ω
√ √
Z
= 1l]0,+∞[ (z)(1l]0,1[ (z)(1 − z) + 1l]−1,0[ (z) 1 + z)dλ(z)
R
Z 1
√ 2 1
= 1 − zdz = 1 − = ,
0 3 3
Z
P(∆ < 0) = 1l{∆<0} (ω)dP(ω)
Ω
√ √
Z
= 1l]−∞,0[ (z)(1l]0,1[ (z)(1 − z) + 1l]−1,0[ (z) 1 + z)dλ(z)
R
0
√
Z 0
2 3/2 2
= 1 + zdz = (1 + z) = ,
−1 3 −1 3
Comme P(X ,Y ) est une mesure de probabilité sur R2 , on a P(X ,Y ) (R2 ) = 1 d’où on déduit
α = 27
2
.
2. En utilisant le résultat de l’exercice I-9, on sait que X et Y admettent des densités fX et
fY déterminées par :
Z
1 3
fX (x) := f (x, y )dλ(y ) = α(1 − x 2 )1l[0,1] (x) = (1 − x 2 )1l[0,1] (x)
9 2
ZR
fY (y ) := f (x, y )dλ(x) = 9ye −3y 1l[0,+∞[ (y ).
R
1
et en utilisant l’indication de l’énoncé, on obtient P(X = Y ) = Cm .
2n+m n+m
2. τr est une v.a.r. à valeurs dans N ∪ {+∞}. En effet, a priori il se peut très bien qu’on
ait un ω tel que {n ∈ N∗ /X1 (ω) + X2 (ω) + ... + Xn (ω) = r } soit vide, dans ce cas par
convention, τr (ω) := +∞.
On sait alors que la loi de τr sera de la forme
X
P τr = P{τr = k}δk + P(τr = +∞)δ+∞
k≥0
Xk−1
{τr = k} = { Xi = r − 1} ∩ {Xk = 1}.
i=1
Xk−1
P{τr = k} = P({ Xi = r − 1} ∩ {Xk = 1})
i=1
k−1
X
= P({ Xi = r − 1})P({Xk = 1}).
i=1
Remarquons que
+∞
X X
r −1 r k−r 1
P{τr = k} = Ck−1 pq = pr = 1
k=0 k≥r
(1 − q)r
Il vient alors que P{τr = +∞} = 0. On dit que τr est presque-sûrement finie.
3. Remarquons d’abord que θr = τr − r ≥ 0. Cela prouve que θr est une v.a. à valeurs
N ∪ {+∞}, qu’elle est presque-sûrement finie et que sa loi est donnée par
X
Pθr = P{θr = k}δk
k≥0
où
r −1 r k
P{θr = k} = P{τr = k + r } = Ck+r −1 p q ,
alors que E[X n ] = 12 ((−1)n + 1). La formule n’est vérifiée pour aucune valeur de n ≥ 1.
La condition X positive est bien nécessaire. On peut évidement calculer les espérances
E[|X |n ] par la formule démontrée ici mais en prenant la fonction de répartition de |X |.
3. Comme les trois variables sont positives presque-sûrement, on peut utiliser la relation
de la question 1) avec n = 1 pour l’espérance et n = 2 pour E[X 2 ], puis on calcule
σX2 = E[X 2 ] − (E[X ])2 .
(a) Pour la variable X on obtient :
Z +∞ Z 1 Z +∞
1
E[X ] = (1 − FX (t))dt = (1 − t)dt + 0dt =
0 0 1 2
Z +∞ Z 1
2 1
E[X 2 ] = 2t(1 − FX (t))dt = 2t(1 − t)dt = [t 2 − t 3 ]10 =
0 0 3 3
1 1 1
σX2 = E[X 2 ] − (E[X ])2 = − = .
3 4 12
(b) Pour la variable Y on obtient :
Z +∞ Z +∞
1
E[Y ] = (1 − FY (t))dt = e −λt dt =
λ
Z0 +∞ 0
Z +∞
E[Y 2 ] = 2t(1 − FY (t))dt = 2te −λt dt
0 0
−λt +∞ Z +∞
2te 2 −λt 2
= − + e dt = 2
λ 0 0 λ λ
2 1 1
σY2 = E[Y 2 ] − (E[Y ])2 = 2 − 2 = 2 .
λ λ λ
+∞
X λk
(c) On a 1 − FZ (t) = e −λ
1l]−∞,k[ (t). Comme 1 − FZ (t) est la somme d’une série
k=0
k!
R P
de fonctions positives mesurables, on peut intervertir et .
+∞ +∞ Z k
λk
Z X
E[Z ] = (1 − FZ (t))dt = e −λ dt
0 k=0 0 k!
+∞
X λk
= e −λ =λ
k=1
(k − 1)!
+∞ +∞ Z k k +∞
λk
Z
−λ λ
X X
2
E[Z ] = 2t(1 − FX (t))dt = e 2tdt = e −λ k
0 k=0 0
k! k=1
(k − 1)!
+∞ +∞
X λk−2 X λk−1
= λe −λ [λ ] + ] = λ2 + λ
k=2
(k − 2)! k=1 (k − 1)!
σZ2 = E[Z ] − (E[Z ])2 = λ.
2
P+∞ k
On reconnaît
P+∞ k la dérivée terme à terme de la série k=1 px calculée pour x = p − 1. De plus
1 1
k=1 x = 1−x
et sa dérivée est (1−x)2
. En conclusion E[T ] = p1 .
P(C ∩ D) =
= P ({Xj1 ∈ A1 } ∩ ... ∩ {Xjn ∈ An } ∩ {Xk1 ∈ B1 } ∩ ... ∩ {Xkm ∈ Bm })
= P(Xj1 ∈ A1 )...P(Xjn ∈ An )P(Xk1 ∈ B1 )...P(Xkm ∈ Bm )
= P ({Xj1 ∈ A1 } ∩ ... ∩ {Xjn ∈ An }) P ({Xk1 ∈ B1 } ∩ ... ∩ {Xkm ∈ Bm })
= P(C )P(D).
k
X Pn
Or la suite de v.a.r. ( e it j=1 Xj 1l(Y =n) )k≥1 est bornée en module par 1, une seule des
n=1
indicatrices 1l(Y =n) est éventuellement non nulle. On obtient donc en utilisant le théorème
C entre de T élé-enseignement U niversitaire–Franche-Comté–Besançon CT U
Besançon
180 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014
L’application ψ qui est aussi définie par ψ(t) = E[t Y ] est appelée fonction génératrice de
la variable discrète Y .
Corrigé de l’exercice 4.23, page 93
D est une v.a.r. à valeurs Z et M à valeurs N∗ . De plus, les v.a.r. étant discrètes, le couple
(D, M) est indépendant si, et seulement si, pour tout (i, j) ∈ Z × N∗ , P({D = i} ∩ {M =
j}) = P(D = i)P(M = j).
1. Supposons que X et Y suivent la loi géométrique de paramètre p ∈]0, 1[.
On vérifie aisément que, pour j ∈ N∗ fixé,
{X = i + j} ∩ {Y = j} si i ≥ 0,
{D = i} ∩ {M = j} =
{X = j} ∩ {Y = j − i} si i < 0.
Par suite en vertu de l’indépendance du couple (X , Y ) il vient
si i ≥ 0, P({D = i} ∩ {M = j}) = P({X = i + j} ∩ {Y = j})
= P(X = i + j)P(Y = j) = p 2 q i+j−1 q j−1 = p 2 q i+2j−2
∗
[ j ∈ N fixé, P(M = j). De la même façon que
Calculons maintenant, pour tout
précédemment {M = j} = ({D = i} ∩ {M = j}) où l’union est mutuellement
i∈Z
disjointe. Par un calcul simple de somme de séries géométriques, il vient
X
P(M = j) = P ({D = i} ∩ {M = j})
i∈Z
X p2 p 2j
= q 2j+|i| = q (q + 1).
i∈Z
q2 q2
Comparant les trois valeurs trouvées, on vérifie aisément que P({D = i} ∩ {M = j}) =
P(D = i)P(M = j), ce qui prouve l’indépendance du couple (D, M).
2. Réciproquement, supposons les v.a.r. D et M indépendantes. Soit n ∈ N∗ , fixé. Par
l’indépendance du couple (X , Y ), il vient
P ((X = n + 1) ∩ (Y = n)) P(X = n + 1)P(Y = n) P(X = n + 1)
= = ,
P ((X = n) ∩ (Y = n)) P(Y = n)P(X = n) P(X = n)
ce qui donne la première égalité.
De plus (X = n + 1) ∩ (Y = n) = (D = 1) ∩ (M = n) et (X = n) ∩ (Y = n) = (D =
0) ∩ (M = n). Par l’indépendance du couple (M, D), il vient
P ((X = n + 1) ∩ (Y = n)) P(D = 1)P(M = n) P(D = 1)
== =
P ((X = n) ∩ (Y = n)) P(D = 0)P(M = n) P(D = 0)
d’où la deuxième égalité.
On remarque que le rapport ne dépend pas de l’entier n. Soit α sa valeur. On a la relation
de récurrence, pour tout n ∈ N∗ , P(X = n + 1) = αP(X = n).
Par suite, pour tout n ∈ N∗ , P(X = n) = αn−1 P(X = 1). De la relation k≥1 P(X =
P
X 1
k) = 1 on déduit que αk−1 P(X = 1) = P(X = 1) = 1, et par suite que
k≥1
1 − α
P(X = 1) = 1 − α. X
La loi de X et Y s’écrit alors : PX = PY = αk−1 (1 − α)δk . Les v.a.r. X et Y suivent
k≥1
donc la loi géométrique de paramètre 1 − α.
Pour déterminer les lois des variables Z et T , nous pouvons étudier leurs fonctions de réparti-
tion, que nous noterons respectivement F et G .
Loi de Z .
Remarquons que la variable Z peut aussi s’écrire Z = max(X , Y ) − min(X , Y ) = |X − Y |.
C’est une variable aléatoire positive qui prend ses valeurs dans l’intervalle [0, α].
Étudions la fonction de répartition F de Z . Soit z réel fixé. Cela revient à étudier la probabilité
F (z) = P(Z ≤ z) de l’événement {Z ≤ z}.
Si z < 0, comme Z est positive, l’événement {Z ≤ z} = Ø (événement impossible). Par
suite F (z) = 0.
C entre de T élé-enseignement U niversitaire–Franche-Comté–Besançon CT U
Besançon
182 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014
α2 − (α − z)2 z 2
F (z) = P(Z ≤ z) = P (X , Y ) ∈ ∆∩]0, α[2 =
= 1 − 1 − .
α2 α
En résumé, la fonction de répartition de la variable aléatoire Z est donnée, pour tout réel
z, par :
0 si z < 0,
z
2
F (z) = 1− 1− α si 0 ≤ z < α,
1 si z ≥ α.
Comme la fonction de répartition est de classe C 1 sur les trois intervalles ] − ∞, 0[, ]0, α[
et ]α, +∞[, une densité f vérifiera l’équation F 0 = f sur chacun de ces intervalles. Les
valeurs de f aux bornes, f (0) et f (α), peuvent être choisies arbitrairement (on rappelle
qu’une densité n’est définie que presque-partout pour la mesure de Lebesgue).
En conclusion, la variable aléatoire Z admet pour densité, la fonction f définie pour tout
réel z, par :
(
0 si z < 0 ou si z > α,
f (z) = 2 z
1− si 0 ≤ z ≤ α,
α α
Loi de T
Remarquons que la variable T est une variable aléatoire positive qui prend ses valeurs dans
l’intervalle [0, 1].
Étudions la fonction de répartition G de T . Soit z réel fixé. Cela revient à étudier la probabilité
G (z) = P(T ≤ z) de l’événement {T ≤ z}.
Si z < 0, comme T est positive, l’événement {T ≤ z} = Ø (événement impossible). Par
suite G (z) = 0.
Si z ≥ 1, comme T prend ses valeurs dans [0, 1], l’événement {T ≤ z} = Ω (événement
certain). Par suite G (z) = 1.
Il reste à étudier le cas 0 ≤ z < 1. Supposons 0 ≤ z < 1 fixé. On peut
écrire
{T ≤ z} = {(X , Y ) ∈ ∆0 ∩]0, α[2 } où ∆0 = ∆1 ∪ ∆2 avec ∆1 =
x n y o
(x, y ) ∈ R2 / 0 < x < y et ≤ z et ∆2 = (x, y ) ∈ R2 / 0 < y < x et ≤z .
y x
∆0 est le complémentaire (dans ]0, +∞[2 ) du secteur angulaire défini par les points de
x
]0, +∞[2 contenus entre les deux droites d’équations respectives y = et y = zx dans
z
un système d’axes orthonormé. Un raisonnement géométrique élémentaire montre que la
0 0 2 2
2
mesure de l’aire de l’intersection ∆ ∩]0, α[ est : a ∆ ∩]0, α[ = zα .
CT U C entre de T élé-enseignement U niversitaire–Franche-Comté–Besançon
Besançon
Chapitre 8. Corrigés des exercices 183
zα2
G (z) = P(T ≤ z) = P (X , Y ) ∈ ∆0 ∩]0, α[2 = 2 = z.
α
En résumé, la fonction de répartition de la variable aléatoire T est donnée, pour tout réel
z, par :
0 si z < 0,
G (z) = z si 0 ≤ z < 1,
1 si z ≥ 1.
On reconnaît la fonction de répartition de la loi uniforme sur l’intervalle [0, 1]. La variable
aléatoire T suit donc la loi uniforme sur l’intervalle [0, 1].
ai,i = 1 pour i = 1, · · · , n,
aj+1,j = θ pour j = 1, · · · , n − 1,
ai,j = 0 dans les autres cas.
Par suite toute combinaison linéaire des variables aléatoires X1 , X2 , · · · , Xn est une combinaison
linéaire des variables aléatoires U1 , U2 , · · · , Un . Comme (U1 , U2 , · · · , Un ) est une suite indépen-
dante de variable aléatoire réelle gaussiennes, le vecteur U est gaussien. Par suite toute com-
binaison linéaire des variables aléatoires U1 , U2 , · · · , Un est une variable aléatoire gaussienne.
Il en est donc de même de toute combinaison linéaire des variables aléatoires X1 , X2 , · · · , Xn .
Ce qui prouve, par définition des vecteurs gaussiens, que le vecteur X = AU est lui-même un
vecteur gaussien.
Z n−1
!
X
E(h(X )) = h(y )f (y1 )f (y2 − θy1 ) · · · f (−θ)j yn−j dλ(n) (y )
Rn j=0
!2
Z n n k−1
1 1 X X
= h(y ) √ exp − 2
(−θ)j yk−j dλ(n) (y ).
Rn 2π 2σ k=1 j=0
Ce qui prouve que X est un vecteur aléatoire de densité définie, pour tout
x = (x1 , x2 , · · · , xn ) ∈ Rn , par
!2
n n k−1
1 1 X X
fX (x) = √ exp − 2
(−θ)j xk−j .
2π 2σ k=1 j=0
d1,1 = σ 2
di,i = σ 2 (θ2 + 1) pour i = 2, · · · , n,
dj+1,j = dj,j+1 = θσ 2 pour j = 1, · · · , n − 1,
di,j = 0 dans les autres cas.
E[X Xa ] est donc égale à la différence de deux fonctions de la variable a réelle positive,
continues sur R+ , dont la première est strictement croissante de 0 à E[X 2 ] = 1 et la
seconde strictement décroissante de E[X 2 ] = 1 à 0. Il existe donc une unique valeur de
a0 pour laquelle E[X Xa0 ] = 0 c’est-à-dire (X , Xa0 ) est non-corrélé.
2. Comme, pour tout réel a > 0, X + Xa = 2X 1l{|X |≤a} n’est pas une v.a.r. gaussienne car
X + Xa est une variable aléatoire bornée par 2a, le vecteur (X , Xa ) n’est gaussien pour
aucune valeur de a.
3. Si le couple (X , Xa ) était indépendant, le vecteur (X , Xa ) serait gaussien car ses com-
posantes seraient des v.a.r. gaussiennes indépendantes. D’après la question précédente, il
y aurait contradiction. Pour tout réel a > 0, le couple (X , Xa ) n’est donc pas indépendant.
2. On rappelle que la loi N 2 (m, D) admet une densité par rapport à la mesure de Lebesgue
λ(2) si et seulement si la matrice D est inversible (cf cours). Dans ce cas la densité s’écrit,
pour tout t ∈ R2 ,
1 1 ∗ −1
p exp − (t − m) D (t − m) .
2π det(D) 2
C entre de T élé-enseignement U niversitaire–Franche-Comté–Besançon CT U
Besançon
186 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014
3. La variable aléatoire réelle X + Y = 2X 1l[0,π] (|X |) n’est pas une gaussienne car X + Y
est une variable aléatoire bornée par 2π. Le vecteur (X , Y ) n’est donc pas gaussien.
5. La fonction caractéristique du couple (U, T ) est définie, pour tout (u, t) ∈ R2 , par
Φ(U ,T ) (u, t)
= E [exp (i(uU + v T ))]
1 2 3 2
= E exp iu(X + Y + Z ) + it(2X − Y − Z ) + it(Y − Z ) ,
2 2
est indépendante,
Φ(U ,T ) (u, t)
iuU 1 2 3 2
= E e E exp it(2X − Y − Z ) E exp it(Y − Z )
2 2
3 2
= e − 2 u Φ 1 (2X −Y −Z )2 (3t)Φ 1 (Y −Z )2 (3t).
6 2
Comme (2X − Y − Z ) suit la loi N 1 (0, 6) et que (Y − Z ) suit la loi N 1 (0, 2),
1 1
√ (2X − Y − Z ) et √ (Y − Z ) suivent la loi N 1 (0, 1). On conclut à l’égalité des
6 2
fonctions caractéristiques Φ √1 (2X −Y −Z )2 = Φ √1 (Y −Z )2 = ϕ. Il vient alors
6 2
3 2 3 2 1
Φ(U,T ) (u, t) = e − 2 u [ϕ(3t)]2 = e − 2 u .
1 − 6it
Corrigé de l’exercice 5.9, page 104
1. En utilisant la technique des fonctions boréliennes positives, si h est une telle fonction,
on a
Z Z
1 1 2
2
E[h(X1 )] = 2
h(x )dPX1 (x) = h(x 2 ) √ e − 2 x dλ(x)
R
Z R 2π
1 1 2
= 2 h(x 2 ) √ e − 2 x dλ(x),
R+ 2π
puisque la fonction intégrée par rapport à la mesure de Lebesgue est paire. On utilise
ensuite le théorème de changement de variable dans une intégrale relative à la mesure de
Lebesgue, en posant t = x 2 .
Z Z
2 1 −t 1 1 1
E[h(X1 )] = h(t) √ e 2 t 2 1lR+ (t)dλ(t) = h(t)dγ( , )(t).
R 2π R 2 2
On a montré PX12 = γ( 12 , 12 ) = χ2 (1).
2. En utilisant les fonctions caractéristiques des lois Gamma (voir le formulaire de l’annexe
A, page 205) et la proposition 4.31, page 86, la somme de deux v.a.r. indépendantes de
loi respective γ(a, b) et γ(a, b 0 )P
est une v.a.r. de loi γ(a, b +b 0 ). Par récurrence immédiate
sur n, on montre que la v.a.r. nk=1 Xk2 suit une loi γ( 12 , n2 ) = χ2 (n).
1
3. On considère l’espace vectoriel euclidien R et on pose Vn := √n ... . D’après les
n 1
1
théorèmes d’algèbre linéaire, il est possible de construire une base B orthomormée qui
complète la famille libre (Vn ), B = (V1 , · · · , Vn ). La matrice de passage de la base
canonique à B est la matrice orthogonale ( i.e. sa transposée est égale à son inverse)
formée des vecteurs colonnes de B. Sa transposée, que l’on note C , est aussi orthogonale
et de la forme
c1,1 c1,2 · · · c1,n
c2,1 c2,2 · · · c2,n
.. .. ..
C = . . .
. . . .
cn−1,1 cn−1,2 · · · cn−1,n
√1 √1 ··· √1
n n n
4. En utilisant la proposition 5.5, page 98, comme X suit la loi N n (0, In ), Y = C X suit la
loi N n (0, C In C ∗ ) = N n (0, In ), où C ∗ désigne la transposée de C , et C ∗ = C −1 puisque
C est orthogonale.
n
1 X √
5. De Y = C X , on déduit facilement que Yn = √ Xk = n X . Avec les règles du
n k=1
calcul matriciel, on remarque que
n
X n
X
∗ ∗ ∗ ∗ ∗
Yk2 = Y Y = (C X ) (C X ) = X (C C )X = X X = Xk2 .
k=1 k=1
De plus,
n n
X X 2
(n − 1)S 2 = (Xk − X )2 = (Xk2 − 2X Xk + X )
k=1 k=1
n n n
X X 2 X 2 2
= Xk2 − 2X Xk + nX = Xk2 + n(−2X + X )
k=1 k=1 k=1
n n n−1
X 2 X X
= Xk2 − nX = Yk2 − Yn2 = Yk2 .
k=1 k=1 k=1
n−1
1 1 X 2
Ainsi X = √ Yn et S 2 = Y . Le vecteur Y est gaussien et sa matrice
n n − 1 k=1 k
de dispersion est diagonale donc (Y1 , · · · , Yn ) est indépendant. Par suite X et S 2 sont
indépendantes en vertu du théorème d’indépendance des fonctions de v.a.r. (cf proposition
4.14, page 75).
6. La fonction caractéristique de X est
i √t n Yn t 1 2
ΦX (t) = E[e itX ] = E[e ] = ΦYn ( √ ) = e − 2n t .
n
1
Donc PX = N 1 (0, ). Enfin, d’après la deuxième question, le vecteur aléatoire
n
(Y1 , · · · , Yn−1 ) suit la loi N n−1 (0, In−1 ), la v.a.r. (n − 1)S 2 suit la loi χ2 (n − 1).
Posons
Ln+1 est bien une forme linéaire sur Rn+2 et Xn+1 = Ln+1 (X0 , ε1 , . . . , εn+1 ), ce qui prouve
l’existence de la suite (Ln )n≥1 .
Maintenant, pour tout n ≥ 0, construisons l’endomorphisme An de Rn+1 en posant, pour tout
(x0 , x1 , · · · , xn ) ∈ Rn+1 ,
où l’on a lu P(T < 3) dans la partie basse de la table correspondant aux grandes valeurs
de u. On trouverait de même P(m − 2σ < X < m + 2σ) ' 0.9544.
a2 σ2
P(X > a) = 1 − P(X ≤ a) ≤ 1 − 2 = 2 .
a + σ2 a + σ2
2. Si on pose X = Y − 100 alors X est une v.a. centrée de variance
d’où pour tout a > 0, limn→∞ P(|Xn − 0| > a) = 0 ce qui prouve que (Xn )n∈N converge en
probabilité vers 0.
n n
X
2
X 2
(Xk − X n ) = (Xk2 − 2Xk X n + X n )
k=1 k=1
n
! n
!
X X 2
= Xk2 − 2X n Xk + nX n
k=1 k=1
n
! n
!
X 2 2 X 2
= Xk2 − 2nX n + nX n = Xk2 − nX n
k=1 k=1
De même la suite (Xk2 )k∈N est une suite i.i.d. et on peut donc lui appliquer la loi forte des
grands nombres qui prouve que
n
1 X 2 p.s.
X −−−→ E(X02 ) .
n k=1 k n→∞
Ainsi n
n 1X 2 n 2 p.s.
Sn2 = × Xk − × X n −−−→ E(X02 ) − m2 = σ 2 .
n − 1 n n − 1 |{z} n→∞
| k=1
| {z } | {z } →m2
→1 →1
{z }
→E(X02 )
On a donc la convergence vers µ dans L2 , et par conséquent en probabilité, de la suite ( Snn )n≥1 .
n
!
1 X 1
E(In ) = E(f (U1 )), Var(In ) = 2 Var f (Uk ) = Var (f (U1 )) .
n k=1
n
Pour obtenir ces deux résultats, on utilise l’indépendance et l’identité des lois des v.a.r. f (Uk ).
De plus comme f est une application de carré intégrable, la constante C := Var (f (U1 )) est
finie.
Soit δ > 0, appliquons l’inégalité de Bienaymé-Tchebycheff à la v.a.r. In ∈ L2 . Il vient, pour
tout entier n ≥ 1,
Var(In ) C
P (|In − E(In )| ≥ δ) ≤ 2
d’où P (|In − E(f (U1 ))| ≥ δ) ≤ 2
δ nδ
en reportant les expressions trouvées ci-dessus. Cela prouve que, pour tout δ > 0,
lim P (|In − E(In )| ≥ δ) = 0, c’est-à-dire que la suite de v.a.r. (In )N∗ converge en probabil-
n
ité vers E(f (U1 )).
Calculons E(f (U1 )). Par le théorème de transfert il vient
Z Z
E(f (U1 )) = f (U1 )dP = f (x)dPU1 (x)
ZΩ R Z
= f (x)1l[0,1] dλ(x) = f dλ
R [0,1]
1. Comme f est continue sur le compact [0, 1] elle est bornée et en particulier sup |f (x)|
0≤x≤1
1
est fini, de plus la v.a.r. f ( Sn ) est intégrable. Par le théorème de transfert il vient
n
Z n
!
1 t X
k k n−k
pn (x) := E[f ( Sn )] = f( ) d Cn x (1 − x) δk (t)
n R n k=0
n
X k
= f ( )Cnk x k (1 − x)n−k .
k=0
n
2. Comme f est continue sur le compact [0, 1] elle est uniformément continue sur [0, 1].
Fixons ε > 0, il existe alors δ > 0 tel que, pour tout (x, y ) ∈ [0, 1]2 , |x − y | < δ implique
|f (x) − f (y )| < ε. De plus
1 1
|pn (x) − f (x)| = |E f ( Sn ) − f (x) | ≤ E |f ( Sn ) − f (x)| .
n n
1
Considérons l’événement An := {| Sn − x| < δ}, il vient
n
1 1 1
E |f ( Sn ) − f (x)| = E 1lAn |f ( Sn ) − f (x)| + E 1lAcn |f ( Sn ) − f (x)|
n n n
≤ εE(1lAn ) + 2E(1lAcn ) sup |f (x)|
0≤x≤1
≤ εP(An ) + 2P(Acn )
sup |f (x)|
0≤x≤1
1
≤ ε + 2P | Sn − x| ≥ δ sup |f (x)|
n 0≤x≤1
ce qui en revenant à la deuxième inégalité donne, pour tout n ∈ N∗ et tout x ∈ [0, 1],
x(1 − x)
|pn (x) − f (x)| ≤ ε + 2 sup |f (x)|.
nδ 2 0≤x≤1
1
où on a utilisé sup (x(1 − x)) = (Étudier la fonction numérique h(x) := x(1 − x) sur
0≤x≤1 4
[0, 1]).
Par suite, pour tout ε > 0, il existe N ∈ N tel que, pour tout n ∈ N∗ , n ≥ N implique
sup |pn (x) − f (x)| < 2ε, ce qui prouve que la suite de polynômes (pn )N converge uni-
0≤x≤1
formément sur [0, 1] vers la fonction f .
1
2. Soit ω ∈ {( Sn )N∗ converge dans R}. Comme
n
Sn (ω) Sn+1 (ω) Sn (ω) Xn+1 (ω)
− = −
n n+1 n(n + 1) n+1
et que
Sn (ω) Sn+1 (ω) Sn (ω)
lim − = 0 = lim ,
n→+∞ n n+1 n→+∞ n(n + 1)
1
Ce qui signifie que la suite de v.a.r. ( Sn )N∗ ne converge pas presque-sûrement dans R.
n
Corrigé de l’exercice 6.13, page 122
1
1. Considérons l’événement A := {( Sn )N∗ converge vers m}. Soit ω ∈ A, alors la suite
n
(Sn (ω))N∗ converge vers +∞ si m > 0 ou −∞ si m < 0. Par suite l’ensemble
{n ∈ N/Sn (ω) ∈ I } est fini car l’intervalle I est supposé borné; ce qui signifie
que
c c
ω∈ lim sup{Sn ∈ I } . On a donc l’inclusion d’événements A ⊆ lim sup{Sn ∈ I } .
n n
c
2. Il s’agit de montrer que P lim sup{Sn ∈ I } = 1. D’après la loi forte des grands
n
1
nombres, l’événement A = {( Sn )N∗ converge vers m} est de probabilité égale à 1, c’est-
n
à-dire P(A) = 1. Ce qui donne, compte-tenu de l’inclusion démontrée en 1), le résultat
cherché.
est une v.a.r. B(N; 12 ). L’événement "tous les spectateurs ne peuvent pas voir le film qu’ils ont
choisi" se modélise par :
On remarque que si N > 2n, on est sûr qu’il y a au moins un spectateur qui ne verra pas son
film. Dans ce cas, P = 1. De même, si N < n, on est sûr que tous les spectateurs pourront
voir leur film. Dans ce cas, P = 0.
Étudions le cas où n ≤ N 6 2n c’est-à-dire 0 ≤ N − n 6 n. Dans ce cas, {S > n} ∩ {S <
N − n} = Ø et donc P = P(S > n) + P(S 6 N − n). D’après le théorème central limite (N
est implicitement supposé grand), on a
! Z
S 1 x
− 1 2
lim P N 1 2 6 x = √ e −u /2 du .
N→∞ √ −∞ 2π
2 N
S 1
N
− 2
Si on note T = 1 , c’est une v.a.r. asymptotiquement de loi N (0,1) et donc
√
2 N
! !
n− N N − n − N2
P =P T > p 2 +P T < p
N/4 N/4
!
n− N √
= P |T | > p 2 = 2 1 − Φ (2n − N)/ N ,
N/4
Par suite,
k=n k
−n
X n 1
e =P √ (Sn − n) ≤ 0 .
k=0
k! n
C entre de T élé-enseignement U niversitaire–Franche-Comté–Besançon CT U
Besançon
198 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014
1
Le théorème-limite central permet d’affirmer que la suite √ (Sn − n) converge en loi
n n≥1
1 1
vers une variable Y de loi N 1 (0, 1). En particulier P( √ (Sn −n) ≤ 0) tend vers P(Y ≤ 0) =
n ! 2
k=n
X nk 1
quand n tend vers +∞. On conclut donc que la suite e −n converge vers .
k=0
k! 2
n≥1
et
[N(N − 1)...(N − n + 1)]
sont respectivement équivalents à (Np)k , (Nq)n−k et N n . Par suite, pour N voisin de l’infini,
µN ({k}) est équivalent à Cnk p k q n−k , ce qui termine la démonstration. Ce résultat exprime
qu’une loi hypergéométrique peut être approximée par une loi binomiale.
La suite (Fn )n≥1 converge simplement vers la fonction F définie par F (t) := t1l[0,1[ (t) +
1l[1,+∞[ (t). F est la fonction de répartition de la loi uniforme U([0, 1]) de densité f = 1l[0,1] . On
a donc une convergence étroite des probabilités de densités fn vers la loi uniforme, mais la suite
des densités n’a de limite en aucun point de ]0, 1[.
1
Sn converge donc en loi vers une v.a.r. de loi de Cauchy. Si cette suite convergeait en
n n≥1
Sn S2n
probabilité, alors la suite − convergerait en probabilité vers 0 et donc convergerait
n 2n n≥1
Sn S2n
en loi vers 0. Or la fonction caractéristique de − est donnée par
n 2n
it
Φ Sn − S2n (t) = E[e 2n (X1 +···+Xn −(Xn+1 +···+X2n )) ] = e −|t|
n 2n
1
converge en +∞ vers 1, fonction caractéristique de la v.a.r. 0. La suite Sn converge
n2 n≥1
donc en loi vers 0 et d’après la première question, elle converge aussi en probabilité vers 0.
2. Remarquons que (Yn )N converge en loi vers la v.a.r. 0 si et seulement si (Yn )N converge
en probabilité vers la v.a.r. 0 (cf. exercice V-6). Soit ε > 0, il existe α0 > 0 tel que pour
|y | ≤ α0 on ait |e ity − 1| ≤ ε. De plus la convergence de la suite (Yn )N en probabilité
vers 0 conduit à l’existence de n0 ∈ N tel que pour n ≥ n0 , P(|Yn | > α0 ) ≤ ε et par
suite |ΦXn +Yn (t) − ΦXn (t)| ≤ 3ε. La convergence en loi vers X de la suite (Xn )N entraîne
l’existence d’un entier n1 , que l’on peut choisir plus grand que n0 , tel que, pour tout
n ≥ n1 , |ΦXn (t) − ΦX (t)| ≤ ε. On a montré que pour tout n ≥ n1 ,
|ΦXn +Yn (t) − ΦX (t)| ≤ |ΦXn +Yn (t) − ΦXn (t)| + |ΦXn (t) − ΦX (t)| ≤ 4ε,
La suite des v.a.r. (θn−k Uk )k=1,··· ,n est indépendante, car (Uk )N l’est. De plus on vérifie
aisément que la loi de θn−k Uk est N 1 (0, θ2n−2k σ 2 ).
Xn est la somme de v.a.r. normales indépendantes centrées, sa loi est donc la loi normale
centrée de variance
2n
6 1, Var(Xn ) = nk=1 θ2n−2k σ 2 = 1−θ σ2
P
si |θ| = 1−θ2
si |θ| = 1, Var(Xn ) = nσ 2 .
Si |θ| > 1, la suite (ΦXn (t))N converge, pour tout t ∈ R, vers 0. La fonction limite
ne prenant pas la valeur 1 en 0, elle ne peut pas être la fonction caractéristique d’une
probabilité. Dans ce cas la suite (Xk )N ne converge pas en loi.
1. Supposons que la suite (Xn )N converge en loi vers X et considérons l’application continue
bornée fε , ε > 0, définie par
Comme E[fε (Xn )] = fε (xn ), pour tout n ∈ N, la suite (fε (xn ))N converge vers fε (x) = x. Il
existe un entier n0 tel que, pour tout entier n ≥ n0 ,, |fε (xn ) − x| < ε, par suite fε (xn ) = xn
et |xn − x| < ε. La suite (xn )N converge vers x.
(b) Considérons, pour tout n ∈ N, la f.c. Φn de δan . On peut écrire, pour tout t ∈ R,
1 2 2
Φn (t) = exp(ian t) = Φµn (t) exp t σ
2 n
1 2 2
et par passage à la limite Ψ(t) := lim Φn (t) = Φµ (t) exp t σ . L’application Ψ
n 2
ainsi définie est continue en 0 et limite simple d’une suite de f.c.. D’après le théorème
de continuité de Lévy, il existe une probabilité ν sur R dont Ψ est la f.c. et la suite
(δan )N converge étroitement vers ν. Par suite, si on note C l’ensemble des réels où
la fonction de répartition de ν est continue, pour tout t ∈ C , Fν (t) = lim Fδan (t).
n
On en déduit que, pour tout t ∈ C , Fν (t) ∈ {0, 1}, mais C est une partie partout
dense de R, ce qui implique que ν est la mesure de Dirac en un point a ∈ R. On
conclut alors que la suite (an )N converge dans R vers le réel a.
Revenant à la fonction caractéristique de µ, on peut écrire, pour tout t ∈ R,
1 2 2 1 2 2
Φµ (t) = lim exp ian t − t σn = exp iat − t σ ,
n 2 2
CT U C entre de T élé-enseignement U niversitaire–Franche-Comté–Besançon
Besançon
Annexe . Corrigés des exercices 203
Annexe A
Formulaire
Ce formulaire sera fourni avec les sujets lors des épreuves terminales.
+∞
X 2
k(k − 1)x k−2 =
k=2
(1 − x)3
+∞
X p!
k(k − 1)(k − 2) · · · (k − p + 1)x k−p = .
k=p
(1 − x)p+1
Intégrale de Gauss
Z +∞
1 2 √
e − 2 t dt = 2π
−∞
k=n
X
n
(a + b) = Cnk ak b n−k
k=0
Relation de Vandermonde
Pour tous entiers naturels n, m, et N tels que 0 ≤ N ≤ n + m,
k=N
X
Cnk CmN−k = Cn+m
N
k=0
Relation de Pascal
Pour tous entiers naturels n, k tels que 0 ≤ k ≤ n,
k
Cn+1 = Cnk + Cnk−1
p−1
pCnp = nCn−1
k=n+p
X
n+1
Ckn = Cn+p+1
k=n
m = a et σ 2 = 0
2. Bernoulli : B(p) := pδ1 + (1 − p)δ0 , p ∈]0, 1[
m = p et σ 2 = p(1 − p)
3. Bernoulli-symétrique : B s (p) := (1 − p)δ−1 + pδ1 , p ∈]0, 1[
m = 2p − 1 et σ 2 = 4p(1 − p)
k=n
X
4. Binomiale : B(n, p) := Cnk p k (1 − p)n−k δk , p ∈]0, 1[ et n ∈ N∗
k=0
k=n
X
F (x) = Cnk p k (1 − p)n−k 1l[k,+∞[ (x) et Φ(t) = (1 − p + pe it )n
k=0
m = np et σ 2 = np(1 − p)
X
r −1 r k ∗
5. Binomiale-négative : I(r , p) := Ck+r −1 p (1 − p) δk , p ∈]0, 1[ et r ∈ N
k≥0
+∞ r
X
r −1 r k p
F (x) = Ck+r −1 p (1 − p) 1l[k,+∞[ (x) et Φ(t) =
k=0
1 − (1 − p)e it
r (1 − p) r (1 − p)
m= et σ 2 =
p p2
+∞
X
6. Géométrique : G(p) := p(1 − p)k−1 δk , p ∈]0, 1[
k=1
+∞
X
k−1 pe it
F (x) = p(1 − p) 1l[k,+∞[ (x) et Φ(t) =
k=1
1 − (1 − p)e it
1 1−p
m= et σ 2 =
p p2
k=n
X Cnk Cnn−k
7. Hypergéométrique : H(n1 , n2 , n) := 1 2
δk , n ∈ N∗ , n1 ∈ N∗ et n2 ∈ N∗
k=0
Cnn1 +n2
avec n ≤ n1 + n2
k=n
X Cnk Cnn−k
1 2
F (x) = 1l[k,+∞[ (x)
k=0
Cnn1 +n2
nn1 n1 n2 (n1 + n2 − n)
m= et σ 2 = n
n1 + n2 (n1 + n2 )2 (n1 + n2 − 1)
+∞
X αk
8. Poisson : P(α) := e −α δk , α > 0
k=0
k!
+∞
X αk
e −α 1l[k,+∞[ (x) et Φ(t) = exp α(e it − 1)
F (x) =
k=0
k!
m = α et σ 2 = α
k=n
1X
9. Uniforme-discrète : U(n) := δk , n ∈ N∗
n k=1
k=n k=n
1X 1 X itk
F (x) = 1l[k,+∞[ (x) et Φ(t) = e
n k=1 n k=1
n+1 n2 − 1
m= et σ 2 =
2 12
1 hπ x i
F (x) = + arctan et Φ(t) = e −a|t|
π 2 a
Les moments m et σ 2 n’existent pas
Annexe B
Tout calcul numérique de probabilité avec une variable aléatoire X normale standard se ramène
à déterminer la valeur d’expressions de la forme P(a < X < b) ou P(X < b) ou P(a < X ).
Les inégalités pouvant être strictes ou larges, cela ne change rien aux calculs car la fonction de
répartition de la loi normale standard est continue sur R.
La table de la loi normale standard reproduite donne les valeurs, connaissant le réel t positif,
des expressions P(X < t). On peut toujours se ramener à ces cas moyennant les relations
1. Si t est une réel positif, P(X < t) est donné par la table.
2. Si t est une réel positif, P(X > t) = 1 − P(X < t).
3. Si t est une réel strictement négatif, P(X < t) = 1 − P(X < −t).
4. Si t est une réel strictement négatif, P(X > t) = P(X < −t).
Pour lire dans la table la valeur de P(X < t) pour t positif, par exemple pour t = 2, 37, on
procède de la façon suivante. On remarque que 2, 37 = 2, 3 + 0, 07. La valeur de P(X < 2, 37)
est lue à l’intersection de la ligne horizontale 2, 3 (valeur lue dans la première colonne de la
table) et de la colonne verticale 0, 07 (valeur lue dans la première ligne de la table). On trouve
P(X < 2, 37) = 0, 9911.
On peut remarquer que la table ne donne des valeurs de P(X < t) que pour 0 < t < 3. Cela
est dû au fait que pour les valeurs supérieures à 3, P(X < t) ≈ 1 et par suite P(X > t) ≈ 0.
Toutefois la table donne les valeurs de P(X < t) pour t prenant des valeurs entre 3 et 4, 5 avec
cinq décimales (tables des grandes valeurs pour t située au bas de la page).
C entre de T élé-enseignement U niversitaire–Franche-Comté–Besançon CT U
Besançon
212 Théorie des probabilités, Bruno Saussereau, 2013-2014, version 10/01/2014
a−m b−m
{a < X < b} = { <Z < },
σ σ
on a !
a−m b−m
P(a < X < b) = P <Z < .
σ σ
Ainsi tout événement faisant intervenir dans sa formulation une v.a.r. X normale d’espérance m
X −m
et de variance σ 2 > 0 peut donc être exprimé avec la v.a.r. Z := de loi normale centrée-
σ
réduite. Le procédé de standardisation permet de ramener tout calcul de probabilité relatif à
une loi normale quelconque à un calcul de probabilité relatif à la loi normale centrée-réduite, et
donc à l’utilisation uniquement de la table statistique de la loi normale centrée-réduite.
Annexe C
Devoirs à envoyer à la
correction
Les trois devoirs ci-dessous sont à renvoyer pour leur correction, au plus tard à la date indiquée,
à l’adresse suivante :
Bruno Saussereau,
Laboratoire de Mathématiques de Besançon,
UFR Sciences et Techniques,
16, route de Gray,
25030 Besançon cedex, FRANCE
Le but premier d’un devoir est de montrer au correcteur que vous avez compris le cours, que
vous connaissez les résultats vus en cours et les hypothèses qui les commandent, et que vous
savez les mobiliser pour répondre à une question ou démontrer un résultat nouveau. Il est donc
recommander de tout mettre en oeuvre pour atteindre cet objectif.
En particulier :
Un devoir de mathématiques est un devoir de français qui traite de mathématiques, c’est
donc avant tout un texte de français. Il doit donc être rédigée de façon correcte en français.
Les hypothèses spécifiques justifiant l’utilisation de chaque théorème doivent être correctement
explicitées et le résultat du cours utilisé doit être clairement identifié voire explicitement énoncé.
Les résultats intermédiaires et les conclusions obtenues doivent être mis en évidence. Les
notations utilisées ou introduites, surtout si elles sont nouvelles par rapport au cours, doivent
être clairement annoncées. La rédaction du cours peut être considérée comme un guide de
rédaction d’un texte mathématique.
Exercice I
Soit X une variable aléatoire normale centrée réduite. Préciser, dans chacun des cas ci-dessous,
la loi de probabilité de la variable aléatoire Y définie en fonction de X
1. Y = X 3 .
2. Y = F (X ) où F est la fonction de répartition de la variable X .
Exercice II
Soit X une v.a.r. normale de loi N (m, σ 2 ), où m et σ sont des réels avec σ > 0.
1. Montrer que la fonction caractéristique de X peut s’exprimer à l’aide de la fonction
caractéristique Φ de la loi de Gauss-Laplace standard N (0, 1).
Z
2. En utilisant le théorème de dérivation sous le signe , montrer que Φ est une solution
particulière de l’équation différentielle du premier ordre y 0 (t) + ty (t) = 0. En déduire
l’expression analytique de la fonction Φ, puis celle de la fonction caractéristique de la
variable X .
Exercice III
Soit (Xk )k∈N une suite indépendante de v.a.r. de Bernoulli toutes de même paramètre 0 < p <
1. Soit un entier r ≥ 1, on définit deux nouvelles v.a.r. , en posant pour tout ω ∈ Ω,
et
θr (ω) := inf{n ∈ N∗ /X1 (ω) + X2 (ω) + ... + Xn+r (ω) = r }
avec la convention inf Ø := +∞.
1. Montrer, pour tout x ∈]0, 1[, la relation
+∞
X 1
Ckr −1 x k−r +1 = .
k=r −1
(1 − x)r
2. Montrer que la variable aléatoire réelle τr est une variable aléatoire réelle discrète de loi
(dite loi de Pascal de paramètres r et p )
+∞
X
r −1 r
P(r , p) := Ck−1 p (1 − p)k−r δk .
k=r
3. Montrer que la variable aléatoire réelle θr est une variable aléatoire réelle discrète de loi
(dite loi binomiale-négative de paramètres r et p )
+∞
X
r −1 r k
I(r , p) := Ck+r −1 p (1 − p) δk .
k=0
Exercice IV
Le but de cet exercice est de montrer qu’il n’existe pas de probabilité P sur l’espace (N∗ , P(N∗ )
1
telle que, pour tout n ≥ 1, P(nN∗ ) = où nN∗ = {nk, k ∈ N∗ }.
n
Supposons qu’une telle probabilité existe. Soit (pk )N la suite des nombres entiers premiers rangés
en ordre croissant.
1. Par un raisonnement simple montrer que P(lim sup(pk N∗ )) = 0.
k
2. Montrer que la suite (pk N∗ )N est indépendante. En déduire, en utilisant le fait que la
X 1
série = +∞, une autre valeur de P(lim sup(pk N∗ )). Conclure que la probabilité P
k
pk k
n’existe pas.
Exercice I
1 2 2
Soit (X , Y ) un couple de variables aléatoires réelles de loi P(X ,Y ) = αe − 2 (x −xy +y ) · λ(2) où
λ(2) est la mesure de Lebesgue sur R2 . Déterminer la constante α et la matrice de dispersion
du couple (X , Y ). Préciser les lois respectives des variables aléatoires réelles X et Y . Le couple
de variables aléatoires réelles (X , Y ) est-il indépendant ?
Exercice II
Théorème de Fisher-Cochran
Soit n ∈ N∗ et (X1 , · · · , Xn ) une suite indépendante de v.a.r. toutes de même loi N 1 (0, 1).
On définit respectivement les v.a.r. moyenne empirique et variance empirique par
n
X1 + · · · + Xn 1 X
X := et S 2 := (Xk − X )2 .
n n − 1 k=1
1. Montrer que la v.a.r. X12 suit la loi γ( 12 , 12 ) aussi appelée loi du Khi-deux à 1 degré de
liberté et notée χ2 (1).
2. En utilisant la fonction caractéristique des lois Gamma, en déduire que la loi de la v.a.r.
Xn
Xk2 est γ( 12 , n2 ) aussi appelée loi du Khi-deux à n degrés de liberté notée χ2 (n).
k=1
3. Montrer qu’il existe une matrice orthogonale C de la forme
c1,1 c1,2 ··· c1,n
c2,1 c2,2 ··· c2,n
.. .. ..
C = . ..
. . . .
···
cn−1,1 cn−1,2 cn−1,n
√1 √1 ··· √1
n n n
Exercice III
CT U C entre de T élé-enseignement U niversitaire–Franche-Comté–Besançon
Besançon
Annexe C. Devoirs à envoyer à la correction 219
Soit (εi )i≥1 une suite indépendante de v.a.r. de même loi N 1 (0, 1) et X0 une v.a.r. indépen-
dante de la suite (εi )i≥1 et de loi PX0 = N 1 (m, σ 2 ). On définit la suite de v.a.r. (Xn )n≥1 de
la façon suivante : Xn := ln (X0 , . . . , Xn−1 ) + bn εn où (bn )n≥1 est une suite de réels et (ln )n≥1
une suite de formes linéaires sur Rn . Montrer que, pour tout n ≥ 1, il existe une forme linéaire
Ln sur Rn+1 telle que Xn = Ln (X0 , ε1 , · · · , εn ) et en déduire que le vecteur (X0 , . . . , Xn ) est
gaussien.
Exercice I
Théorème de Weierstrass
Soient f une application continue de [0, 1] dans R et x ∈ [0, 1]. Pour tout n ∈ N∗ , notons Sn
une v.a.r. binomiale de loi B(n, x).
1. Montrer que pn (x) := E[f ( n1 Sn )] est un polynôme en x appelé polynôme de Bernstein
de f .
2. En utilisant l’uniforme continuité de f sur [0, 1] montrer que, pour tout ε > 0, il existe
δ > 0 tel que, pour tout n ∈ N∗ et tout x ∈ [0, 1],
1
|pn (x) − f (x)| ≤ E[|f ( Sn ) − f (x)|]
n
1 1
≤ εP | Sn − x| < δ + 2P | Sn − x| ≥ δ sup |f (x)|.
n n 0≤x≤1
En déduire que, pour tout ε > 0, il existe δ > 0 tel que, pour tout n ∈ N∗ et tout
x ∈ [0, 1],
x(1 − x)
|pn (x) − f (x)| ≤ ε + 2 sup |f (x)|.
nδ 2 0≤x≤1
3. Démontrer le théorème de Weierstrass : Toute application continue de [0, 1] dans R
est limite uniforme sur [0, 1] d’une suite de polynômes.
Exercice II
Soit (Xn )n≥1 une suite indépendante de v.a.r. de même loi de Cauchy C(1) (Pour la définition,
k=n
X
cf. formulaire de l’annexe A, page 205). Pour tout n ≥ 1, on pose Sn := Xk . Étudier les con-
k=1
1 1 1
vergences en probabilité et en loi des suites de v.a.r. √ Sn , Sn et Sn .
n n≥1 n n≥1 n2 n≥1
Exercice III
Soit (Uk )N une suite indépendante de v.a.r. de loi normale centrée et de variance σ 2 > 0. Pour
tout θ ∈ R, on définit la suite (Xk )N par la relation de récurrence Xn = θXn−1 + Un , pour tout
n ≥ 1, avec X0 = 0.
1. Déterminer, pour tout n ∈ N, la loi de la v.a.r. Xn .
2. Étudier la convergence en loi de la suite de v.a.r. (Xk )N .