Professional Documents
Culture Documents
f (x, y) dx d y =
2
f (x, y )dx d y =
f (x, y)d y dx .
O les trois termes sont ou bien ni et gaux ou bien simultanment +. Si f est de signe quelconque mais intgrable au sens que R2 | f (x, y )|dxd y < + alors lgalit des trois intgrales reste vraie. Exemple 2. f (x, y ) = xexyIx
0 1 <y < 2.
Dun part
f (x, y)dxd y =
2
R R R
1 2
= = = Dautre part
xexyIx
dy 1 = . y2 2
y2
f (x, y )dxd y =
2
+ 0 + 0
x
1
exyd y dx 1 . 2
(ex e2 x)dx =
Exemple 3. Voyons un contre-exemple lutilisation de Fubini dans un cas o lintgrale double nest pas dni. Soit f (x, y ) = alors I =
1 0 0 1 0 1 1 0
x2 y 2 (x2 + y 2)2
| f (x, y )|dxd y =
y 2 x2 dx d y + (x2 + y2)2 1 1 d y = + y 1 + y2 1
1 0 0
x2 y 2 d y dx (x2 + y 2)2
=
0
I1 =
0
x2 y 2 dx d y, (x2 + y 2)2
1 0
I2 =
0
x2 y 2 d y dx (x2 + y 2)2
x2 y 2 dy = (x2 + y 2)2
1
1 0
1 dy 2 (x2 + y 2)
1 0
1 y2 dy = 1 + x2 (x2 + y2)2
et alors I2 =
0
1 dx = [arctan (x)]1 = I1 0= 1 + x2 4
ce qui est in contradiction avec une application nave de Fubini (car dans ce cas I1 = I2 = I = 0). Thorme 4. ( Changement des variables ) Soit h: Rn Rn. On note hi(x) ses composantes dans la base canonique: h(x) = (h1(x), , hn(x)) et Jh son Jacobien: Jh(x) = det Supposons que i. les drives partielles de hi(x) sont continues sur ii. h est une bijection. iii. Jh(x) 0 pour tout x Rn. hi(x) x j .
i,j =1, ,n
Rn pour i = 1,
, n.
Alors pour toute fonction f : Rn R et tout ensemble Borelin K Rn tels que f (x)dx =
K h 1(K )
| f (x)|dx <
Remarque 5. Par le Thorme de la fonction inverse, sous le condition du Thorme 4 la fonction inverse g( y ) = h1( y ) existe partout dans Rn et Jg ( y ) = 1 . Jh( g ( y ))
On voit donc que h vrie les conditions i,ii et iii du Theoreme 4 si et seulement si g aussi vrie ces conditions.
Vecteurs alatoires
Soit (, A , P) un espace probabilis. Un vecteur alatoire X de dimension n (ou dans Rn) est une application X : Rn telle que tout les ensembles de la forme {X B } = { : X ( ) B } pour B Borlien de Rn appartiennent la tribu A. En particulier on peut calculer la probabilit P(X B ) de lvnement {X B } (car P(A) est dnie seulement pour A A). La loi de X est la lapplication X : B (Rn) [0, 1] qui tout B Borlien de Rn associe P(X B ). On appelle fonction de rpartition de X la fonction FX : Rn [0, 1] dnie par FX (x1, , xn) = P(X1 2 x1, , Xn xn)
o (Xi)i =1, ,n sont les composantes de X ( ) = (X1( ), , Xn( )) (donc des v.a. relles). La fonction de rpartition caractrise la loi de X , i.e. nimporte quel vnement {X B } peut tre calcul laide de FX . Exemple 6. Soit n = 2 et B = ]x1, y1] x2, y2] alors il est facile de vrier que
P(X B ) = P(X1 ]x1, y1], Y ]x2, y2]) = FX (y1, y2) FX ( y1, x2) FX (x1, y2) + FX (x1, x2)
en utilisant les proprits lmentaires des probabilits (en particulier P(B ) P(A B )):
P(A
B) =
P(A)
y1, x2 < X2
y2) y2)
=P(X1
=P(X1 (P(X1
=FX ( y1, y2) FX ( y1, x2) FX (x1, y2) + FX (x1, x2) . Dnition 7. Le vecteur X valeurs dans Rn est discret si il peut prendre que une quantit d au plus dnombrable des valeurs distinct. Autrement dit si il existent des ensembles au plus dnombrables X1, , Xn tels que P(X1 X1, , Xn Xn) = 1. Dans ce cas on appelle la quantit pX (x) = p(X1, la densit discrete de X. La densit discrete dun vecteur X satisfait a) pX (x) b)
x1 X1 ,Xn)(x1,
, Xn = xn)
x1 X1,
, xn Xn
0;
x2 X2 xn Xn
pX (x1,
, xn) = 1 .
Dnition 8. On dit que X est un vecteur continu ou que il admet une densit (continue) fX : Rn R+ ssi pour tout Borlien B B(Rn) (la tribu Borlienne de Rn) on peut exprimer la probabilit de lvnement {X B } par une intgrale sur B de fX:
P(X B ) =
La densit (continue ou discrete), si elle existe, est unique et caractrise la loi de X . On a que fX (x1, , xn)dx1 dxn =P(X Rn) = 1
en particulier fX est intgrable. La fonction de rpartition FX : Rn [0, 1] de X est donn par FX (t1, , tn) = P(X1
def t1 tn
t1,
, Xn
tn) =
fX (x1,
, xn)dx1 dxn
cest la probabilit de lvnement {X B } pour B =] , t1] dterminer la densit en drivant la fonction de rpartition: fX (t1, , tn) = n FX (t1, t1 tn , tn)
, tn)/t1 tn.
Linterprtation intuitive de la densit fX est la suivante: si xi 1 alors la probabilit de lvnement {Xi [xi , xi + xi] pour i = 1, , n } est approchable par
x1 +x1
xn +xn
, n) =
x1 xn
fX (t1, , xn)x1 xn .
, tn)dt1 dtn
fX (x1,
La densit est donc proportionnelle la mesure de probabilit dun petit voisinage du point (x1, , xn). Autrement dit, si Bn(x, ) = { y Rn : |x y | } Rn est la boule n-dimensionnelle de rayon centre en x Rn et Vn( ) = |Bn(x, )| le volume de B (x, ), i.e. Vn( ) = B (x,) d n t1 dtn alors si 1 on a lapproximation P(X B (x, )) fX (x) Vn( ). Exemple 9. Soit Z = (X , Y ): donne par
o q (s) = max (0, min (s, 1)). Alors non dnie si x = 0, 1 ou y = 0, 1 2 FZ (x, y ) = 1 si (x, y ) ]0, 1[2 xy 0 autrement
x y
FZ (x, y ) =
I]0,1[(z1) I]0,1[(z2)dz1dz2 .
Donc fZ (z1, z2) = I]0, 1[(z1) I]0, 1[(z2) est la densit de Z . Dnition 10. Soit D Rn un ensemble mesurable et tel que Vol(D ) = D dx > 0 (son volume est positif). On dit que X : Rn a une loi uniforme sur D si X admet densit fX (x) =
ID(x) . Vol(D )
Thorme 11. Soit X un vecteur alatoire continu valeurs dans Rn de densit fX et h: Rn Rn une transformation vriant les hypotheses du Theoreme 4, alors la v.a. Y = h(X ) admet la densit fY donne par fY ( y ) = fX (h1( y )) pour tout y Rn. 4 1 |Jh(h1( y ))|
Dmonstration. Considrons la fonction de repartition de Y : FY (t1, o A(t) = {x Rn: h1(x) t1, , tn) = P(Y1 , hn(x) fX (x)dx =
A(t) h(A(t))
t1,
, Yn
tn) =
A(t)
fX (x)dx
, h(xn)
FY (t1,
, tn) =
fX (h1( y ))
dy . |Jh(h1( y ))|
Exercice 1. Montrer que si X est un vecteur alatoire valeurs dans Rn de densit fX et si A est une matrice n n inversible et b Rn alors la v.a. Y = A X + b a densit fY donne par fY ( y ) = fX (A1( y b)) 1 . |Det(A)|
Densits marginales
Dnition 12. Si Z est un vecteur alatoire dans Rn admettant une densit fZ alors tout sousvecteurs Y de Z de dimension k n admettent une densit quon obtient en intgrant fZ par rapport aux composantes qui ne gurent pas dans Y. On appelle cette densit la densit marginale de Y. Explicitement si Y = (Z1, , Zk) alors
P(Y B ) = P((Z1,
=
B
fZ (z1,
(z1, ,zk) B
, zn)dz1 dzn
R
n k
n k
donc fY ( y1,
, yk ) =
fZ ( y1 ,
yk , zk +1,
, zn)dzk +1 dzn.
Cas particulier (n = 2). Soit Z = (X , Y ) un vecteur alatoire bidimensionnel de densit fZ . La densit marginale de X est fX (x) = R fZ (x, y )d y et la densit marginale de Y est fZ ( y ) = R fZ (x, y )dx. Exemple 13. Considrons le couple (X , Y ) de densit e y f(X ,Y )(x, y ) = I0 <x< y2 Iy > 0 2 x Dterminer > 0 t.q. f(X ,Y ) soit correctement normalise. Dterminer les densits marginales fX et fY . Calculer
Calculons I = =
0
0 0
y2
dx eyd y 2 x
y eyd y =
donc = 1. fX (x) =
R R
e x d y = Ix> 0 2 x
fY ( y ) =
y2 0
dx = y e y I y > 0 2 x
P(X > 1) =
fX (x)dx =
1
1 e x dx = e 2 x
Exemple 14. Deux densits fX ,Y (x, y ) et gX ,Y (x, y ) peuvent avoir les mmes marginales. Par exemple il est facile de montrer que les densits fX ,Y (x, y ) = 1 (x2 + y2)/2 e , 2 gX ,Y (x, y ) = 1 (x2 + y2)/2 e [1 + x y I[1, 1](x)I[1, 1]( y)] 2
R
on obtient que fX (x) = et gX (x) =
2 1 fX ,Y (x, y )d y = ex /2 2
gX ,Y (x, y )d y =
2 1 = ex /2 2
car
R
par symtrie.
2 1 e y /2 y I[1,1]( y )d y = 0 2
Cette dnition est motive par le fait que, si 1: Bm(x, ), Y Bn( y, )) f(X ,Y )(x, y )Vm( )Vn( ) P(X Bm(x, )|Y Bn( y, )) = P(X P (Y B ( y, )) f ( y )V ( )
n Y n
donc la densit conditionnelle est proportionnelle la probabilit conditionnelle de trouver X dans une petite boule centre en x sachant que Y est dans une petite boule centre en y. Exemple 16. Considrons Z = (X , Y ) de densit fZ (x, y ) = 2 2e(x + y)I0 <x< y. Quelle est la densit conditionnelle de X sachant Y = y ? Calculons dabord fY ( y ): fY ( y ) = Il vient que fX |Y = y(x) = exI0 <x< y 2 2e(x + y)I0 <x< y = 2 ey(1 ey)I y> 0 1 ey pour tout y > 0. 2 2e(x+ y)I0 <x< ydx = 2eyIy > 0
y 0
Dnition 17. Une famille (Xi)i =1, on a que les vnements {Xi Bi }i =1,
,n
de v.a. est indpendante ssi pour tout Bi, i = 1, ,n sont indpendants, i.e.:
, n,
P(X1 B1,
P(Xn Bn).
Dans cette dnition les v.a.s Xi peuvent tre relles ou bien des vecteurs alatoires elles mmes. Les v.a. X , Y sont indpendantes ssi F(X ,Y )(x, y ) = FX (x) FY ( y ). Pour les v.a. avec densit on a la proposition suivante. Proposition 18. Soient X et Y deux v.a. admettant respectivement les densits fX et fY. Alors X et Y sont indpendantes ssi fX |Y = y ne dpend de y. Dans ce cas l fX |Y = y(x) = fX (x). Dmonstration. Si X , Y sont indpendantes alors F(X ,Y )(x, y ) = FX (x)FY ( y ) et donc on a que le couple admet la densit jointe f(X ,Y )(x, y ) = fX (x) fY ( y ) car 2 2 F(X ,Y )(x, y ) = FX (x)FY ( y) = fX (x) fY ( y) xy xy et donc fX |Y = y(x) = f(X ,Y )(x, y)/ fY ( y ) = fX (x) qui ne dpend pas de y . Rciproquement on a f(X ,Y )(x, y ) = fX |Y = y(x) fY ( y ) et si la densit conditionnelle ne dpends pas de y fX (x) =
fY ( y )d y = fX |Y = y(x)
Proposition 19. Soient X et Y deux v.a. avec densit jointe f(X ,Y )(x, y). Alors X et Y sont indpendantes ssi il existe deux applications g, h telles que f(X ,Y )(x, y ) = g (x) h( y ). Dmonstration. Si X et Y sont indpendantes alors on peut prendre g = fX et h = fY . Rciproquement: supposons que f(X ,Y )(x, y ) = g (x)h( y ): fX (x) = f(X ,Y )(x, y )d y = g (x) h( y )d y, f Y ( y ) = h( y ) g (x)dx
1=
fX (x)dx =
g (x)dx
h( y )d y
et donc f(X ,Y )(x, y) = fX (x) fY ( y). Exemple 20. Soit (X , Y ) un couple de v.a. dans R2 admettant pour densit f(X ,Y )(x, y ) = 8 x y I0 <x<y < 1. X et Y ne sont pas indpendantes car la fonction I0 <x< y< 1 ne peut pas scrire sous la forme dun produit. En eet f(X ,Y )(1/2, 2/3) > 0 et f(X ,Y )(1/4, 1/3) > 0. Si f(X ,Y )(x, y ) = q (x) h( y ) alors on doit avoir que q (1/2) > 0 et h(1/3) > 0 mais alors f(X ,Y )(1/2, 1/3) > 0 ce quest en contradiction avec la denition de f(X ,Y ) car f(X ,Y )(1/2, 1/3) = 0.
E[ g(X )] =
g (x) fX (x)dx
n
(1)
qui est toujours une quantit positive bien dnie mme si elle peut prendre la valeur +. Si g est de signe quelconque et E[| g (X )|] < alors on dit que g(X ) est intgrable et on peut dnir lesprance de g (X ) par la mme formule (1). Si g (X ) nest pas intgrable lintgrale dans la formule (1) nest pas bien dnie. Thorme 21. Soit X un vecteur alatoire valeurs dans tion mesurable borne g : Rn R
E[ g(X )] =
g (x) q (x)dx
n
pour une certaine fonction q : Rn R+. Alors X admet densit fX = q. Remarque 22. Ce resultat est assez pratique pour determiner la densit par changement des variables. Dnition 23. Soit Z = (X , Y ) un vecteur alatoire de Rn Rm. Soit g: Rn Rm R une fonction telle que g (X , Y ) est intgrable, c--d E| g (X , Y )| < +. On appellera esprance conditionnelle de g(X , Y ) sachant Y et on notera E[ g(X , Y )|Y ] la v.a. (Y ) o ( y ) =
g (x, y ) fX |Y = y(x)dx,
y Rm : fY ( y ) > 0 .
Remarque 24. Par convenance on note E[ g (X )|Y = y ] = Rn g (x, y ) fX |Y = y(x)dx lesprance par rapport la loi conditionnelle de X sachant Y = y . Cette esprance est une fonction relle de y . Exemple 25. Revenons lexemple 16 et calculons E[X Y |Y ] (il faut donc prendre g (x, y) = x y). Vrions dabord la condition dintegrabilit (qui donne sens au calcul de lesprance conditionnelle):
E[|X Y |] =
22
R
0
xye(x + y)dxd y = 22
x exdx
<
x y fX |Y = y(x)dx = y Iy > 0 ( y ) =
x exdx
0
et donc
y 1 ey y ey I y >0 y 1e
Y
Y eY
E[ g(X , Y )|Y ]h(Y ) = E[ g(X , Y )h(Y )|Y ] E[E[ g(X , Y )|Y ]h(Y )] = E[ g(X , Y )h(Y )]
g (x, y ) fX |Y = y(x)dx,
( y ) =
( y ) fY ( y)d y
R R
n
R R
n
=E[ g (X , Y )h(Y )] par la dnition de la densit conditionnelle et desprance. Cas particuliers: g (x, y ) = x et h( y ) = 1:
Exemple 27. Soient X et Y deux v.a. indpendantes de loi exponentielle de densit f (x) = exIx> 0 avec > 0. Calculons la densit conditionnelle fX |X + Y et lesprance conditionnelle E[X |X + Y ]. Si z < x
z 0 0
z u
f (u) f (v )dudv
x 0 0
z u
f (u) f (v )dudv .
x la densit jointe du couple (X + Y , X ) est 2 P(X + Y < z, X < x) = f (z x)f (x) = 2ez uv
f(X + Y ,X )(z, x) =
et f(X + Y ,X )(z, x) = 0 si z < x. Par ailleurs, la densit de X + Y est la convolution de deux densits exponentielles, i.e. fX + Y (z ) = 2z ez Iz > 0. Donc la densit conditionnelle de X sachant X + Y est fX |X + Y (x |z ) = f(X + Y ,X )(z , x) 1 = I0 fX + Y (z ) z
x z
qui est la densit uniforme sur lintervalle [0, z ]. Donc on calcule facilement que z z ] = 2 et nalement que +Y E[X |X + Y ] = X 2 .
E[X |X + Y
Une application de cet exemple est la suivante. Soit X linstant o la premire demande arrive un systme de service et Y linterval de temps entre larrive de la premiere et la deuxime demandes. Si on sait que la deuxime arrive au temps z (donc X + Y = z ) alors on vient de determiner que la loi du temps darrive de la premiere est donne par la densit 1/z sur lintervalle [0, z ]. En particulier, la moyenne du temps darrive de la premiere est z /2.
[Preuve: considrer le discriminant du polynme positive P (t) = Var(X + tY ) Le coecient de corrlation X ,Y est dni par X ,Y = Cov(X , Y ) [1, 1] Var(X ) Var(Y )
Exemple 30. Si X ,Y = 1 et Var(Y ) > 0 alors existe R tel que Var(X Y ) = 0 et donc X Y = constante qui donne que Cov(X , Y ) = Cov(Y , Y ) = Var(Y ), Var(X ) = 2 Var(Y ) et X ,Y = sign . Donc on voit bien que le signe de est celui de X ,Y . Pour le prouver, considrer le polynme quadratique en dni par P () = Var(X Y ) = Var(X ) 2 Cov(X , Y ) + 2Var(Y ). Or P () 0 et donc lquation P () = 0 admet au plus une solution et il admet une solution seulement si le discriminant est nul. Ici = 4 [Cov(X , Y )]2 4Var(X )Var(Y ) = 4 Var(X ) Var(Y ) ( 2 0 et donc = 0 | X ,Y | = 1. Apres il est X ,Y 1) clair que si X = Y +c avec c constant on doit avoir X ,Y = Cov(Y + c, Y ) = Var(Y + c) Var(Y ) Cov(Y , Y ) = = sgn (). 2 | | Var(Y ) Var(Y )
Exercice 2. Montrer que X ,Y = sgn(a d) a X + b,dY + d, c--d que le coecient de corrlation est invariante par des transformation anes des variables elles vrient sgn(ad) = 1. Dnition 31. On appelle variance conditionnelle de X sachant Y et on notera Var(X |Y ) la v.a. Var(X |Y ) = E[(X E[X |Y ])2|Y ] Proposition 32. On a Var(X |Y ) = E[X 2|Y ] (E[X |Y ])2 Dmonstration. Var(X |Y ) =E[X 2 2X E[X |Y ] + (E[X |Y ])2|Y ] =E[X 2|Y ] 2(E[X |Y ])2 + (E[X |Y ])2 =E[X 2|Y ] (E[X |Y ])2 car
Proposition 33. (Identit de la variance conditionnelle) Soient X et Y 2 v.a. sur le mme espace de probabilit et E[X 2] < +. Alors Var(X ) = E[Var(X |Y )] + Var[E(X |Y )] Dmonstration. Var(X ) = E[X 2] (E[X ])2 = E[E[X 2|Y ] (E(X |Y ))2] + E[(E(X |Y ))2] (E[E[X |Y ]])2 =E[Var(X |Y )] + Var[E(X |Y )] 11
La fonction g (x) = E[Y |X = x] est dite fonction de regression de Y sur X . Dans le cas o X , Y sont des v.a. relles la regression est dite simple. Si X , Y sont des v.a. valeurs vectorielles alors la regression est dite multiple ou multivarie. Exemple 35. Soit (X , Y ) un vecteur alatoire dans
R2 de densit
fX ,Y (x, y ) = (x + y )I0 <x,y < 1 . Explicitions la fonction de regression de X sur Y : g(x) = E[Y |X = x]. La densit marginale de X est donne par fX (x) =
fX ,Y (x, y )d y = x +
1 2
I0<x<1 .
12
Alors la densit conditionnelle est donne par fY |X ( y |x) = et g (x) = x+ y I0<x, y<1 x + 1/2
x 1
y fY |X ( y |x)d y =
pour tout x ]0, 1[. Soulignons que, en general, g est une fonction non-lineaire de x. Si g est la fonction de regression de X sur Y alors la v.a. = Y g(X ) = Y E[Y |X ] represente lerreur stochastique dans la prevision de Y par g(X ). On appelle le residu de regression. Par denition desperance conditionnelle
E[ |X ] = 0
et donc aussi
par g (X ) est
On appelle la variance rsiduelle. On a que Var(Y ): par le thorme de meilleur prevision, pour tout h: R R mesurable E[(Y h(X ))2]. En choisissant h(x) = E[Y ] (constante) on a que On a aussi que Var(Y ) = Var(E[Y |X ]) + E[Var(Y |X )] = Var( g (X )) + car = E[Y 2] E[E[Y |X ]2] = E[Var(Y |X )].
13