You are on page 1of 13

Statistiques Gubinelli Massimiliano

DEMI2E Polycopi 1 - v.3 20110204

Rappels sur les intgrales multiples


Loutil principal pour calculer des intgrales en plusieurs variables est le thorme de FubiniTonelli. Thorme 1. [Fubini-Tonelli, cas n = 2 ] Soit f : R2 R une fonction positive, alors

f (x, y) dx d y =
2

f (x, y )dx d y =

f (x, y)d y dx .

O les trois termes sont ou bien ni et gaux ou bien simultanment +. Si f est de signe quelconque mais intgrable au sens que R2 | f (x, y )|dxd y < + alors lgalit des trois intgrales reste vraie. Exemple 2. f (x, y ) = xexyIx
0 1 <y < 2.

Dun part

f (x, y)dxd y =
2

R R R
1 2

= = = Dautre part

I1<y <2d y I <2 d y y2 xexyIx 0d x 1 < y y2 R I xexIx 0dx 1 < y < 2 d y


R
0dx

xexyIx

dy 1 = . y2 2

y2

f (x, y )dxd y =
2

+ 0 + 0

x
1

exyd y dx 1 . 2

(ex e2 x)dx =

Exemple 3. Voyons un contre-exemple lutilisation de Fubini dans un cas o lintgrale double nest pas dni. Soit f (x, y ) = alors I =
1 0 0 1 0 1 1 0

x2 y 2 (x2 + y 2)2

f (x, y )dxd y nest pas bien dni car


1 y 0 1

| f (x, y )|dxd y =

y 2 x2 dx d y + (x2 + y2)2 1 1 d y = + y 1 + y2 1

1 0 0

x2 y 2 d y dx (x2 + y 2)2

=
0

Or, les intgrales


1 1 0

I1 =
0

x2 y 2 dx d y, (x2 + y 2)2

1 0

I2 =
0

x2 y 2 d y dx (x2 + y 2)2

sont bien dni et il satisfont I1 = I2. En eet:


1 0

x2 y 2 dy = (x2 + y 2)2
1

1 0

1 dy 2 (x2 + y 2)

1 0

1 y2 dy = 1 + x2 (x2 + y2)2

et alors I2 =
0

1 dx = [arctan (x)]1 = I1 0= 1 + x2 4

ce qui est in contradiction avec une application nave de Fubini (car dans ce cas I1 = I2 = I = 0). Thorme 4. ( Changement des variables ) Soit h: Rn Rn. On note hi(x) ses composantes dans la base canonique: h(x) = (h1(x), , hn(x)) et Jh son Jacobien: Jh(x) = det Supposons que i. les drives partielles de hi(x) sont continues sur ii. h est une bijection. iii. Jh(x) 0 pour tout x Rn. hi(x) x j .
i,j =1, ,n

Rn pour i = 1,

, n.

Alors pour toute fonction f : Rn R et tout ensemble Borelin K Rn tels que f (x)dx =
K h 1(K )

| f (x)|dx <

f (h( y))|Jh( y )|d y .

Remarque 5. Par le Thorme de la fonction inverse, sous le condition du Thorme 4 la fonction inverse g( y ) = h1( y ) existe partout dans Rn et Jg ( y ) = 1 . Jh( g ( y ))

On voit donc que h vrie les conditions i,ii et iii du Theoreme 4 si et seulement si g aussi vrie ces conditions.

Vecteurs alatoires
Soit (, A , P) un espace probabilis. Un vecteur alatoire X de dimension n (ou dans Rn) est une application X : Rn telle que tout les ensembles de la forme {X B } = { : X ( ) B } pour B Borlien de Rn appartiennent la tribu A. En particulier on peut calculer la probabilit P(X B ) de lvnement {X B } (car P(A) est dnie seulement pour A A). La loi de X est la lapplication X : B (Rn) [0, 1] qui tout B Borlien de Rn associe P(X B ). On appelle fonction de rpartition de X la fonction FX : Rn [0, 1] dnie par FX (x1, , xn) = P(X1 2 x1, , Xn xn)

o (Xi)i =1, ,n sont les composantes de X ( ) = (X1( ), , Xn( )) (donc des v.a. relles). La fonction de rpartition caractrise la loi de X , i.e. nimporte quel vnement {X B } peut tre calcul laide de FX . Exemple 6. Soit n = 2 et B = ]x1, y1] x2, y2] alors il est facile de vrier que

P(X B ) = P(X1 ]x1, y1], Y ]x2, y2]) = FX (y1, y2) FX ( y1, x2) FX (x1, y2) + FX (x1, x2)
en utilisant les proprits lmentaires des probabilits (en particulier P(B ) P(A B )):

P(A

B) =

P(A)

P(X B ) = P(x1 < X1


y1, x2 X2 y1, X2 x1, X2

y1, x2 < X2

y2) y2)

=P(X1

y2) P(X1 y2) (X1 y2) P(X1

x1, x2 < X2 y1, X2 x1, X2 x2) x2))

=P(X1 (P(X1

=FX ( y1, y2) FX ( y1, x2) FX (x1, y2) + FX (x1, x2) . Dnition 7. Le vecteur X valeurs dans Rn est discret si il peut prendre que une quantit d au plus dnombrable des valeurs distinct. Autrement dit si il existent des ensembles au plus dnombrables X1, , Xn tels que P(X1 X1, , Xn Xn) = 1. Dans ce cas on appelle la quantit pX (x) = p(X1, la densit discrete de X. La densit discrete dun vecteur X satisfait a) pX (x) b)
x1 X1 ,Xn)(x1,

, xn) = P(X1 = x1,

, Xn = xn)

x1 X1,

, xn Xn

0;
x2 X2 xn Xn

pX (x1,

, xn) = 1 .

Dnition 8. On dit que X est un vecteur continu ou que il admet une densit (continue) fX : Rn R+ ssi pour tout Borlien B B(Rn) (la tribu Borlienne de Rn) on peut exprimer la probabilit de lvnement {X B } par une intgrale sur B de fX:

P(X B ) =

fX (x1, , xn)dx1 dxn .


B

La densit (continue ou discrete), si elle existe, est unique et caractrise la loi de X . On a que fX (x1, , xn)dx1 dxn =P(X Rn) = 1

en particulier fX est intgrable. La fonction de rpartition FX : Rn [0, 1] de X est donn par FX (t1, , tn) = P(X1
def t1 tn

t1,

, Xn

tn) =

fX (x1,

, xn)dx1 dxn

cest la probabilit de lvnement {X B } pour B =] , t1] dterminer la densit en drivant la fonction de rpartition: fX (t1, , tn) = n FX (t1, t1 tn , tn)

] , tn] Rn. On peut

formule valable en tout point de continuit de nFX (t1,

, tn)/t1 tn.

Linterprtation intuitive de la densit fX est la suivante: si xi 1 alors la probabilit de lvnement {Xi [xi , xi + xi] pour i = 1, , n } est approchable par

P(Xi [xi , xi + xi] pour i = 1,

x1 +x1

xn +xn

, n) =
x1 xn

fX (t1, , xn)x1 xn .

, tn)dt1 dtn

fX (x1,

La densit est donc proportionnelle la mesure de probabilit dun petit voisinage du point (x1, , xn). Autrement dit, si Bn(x, ) = { y Rn : |x y | } Rn est la boule n-dimensionnelle de rayon centre en x Rn et Vn( ) = |Bn(x, )| le volume de B (x, ), i.e. Vn( ) = B (x,) d n t1 dtn alors si 1 on a lapproximation P(X B (x, )) fX (x) Vn( ). Exemple 9. Soit Z = (X , Y ): donne par

R2 un couple alatoire dont la fonction de rpartition est


FZ (x, y ) = q (x) q ( y )

o q (s) = max (0, min (s, 1)). Alors non dnie si x = 0, 1 ou y = 0, 1 2 FZ (x, y ) = 1 si (x, y ) ]0, 1[2 xy 0 autrement
x y

et on peut vrier que

FZ (x, y ) =

I]0,1[(z1) I]0,1[(z2)dz1dz2 .

Donc fZ (z1, z2) = I]0, 1[(z1) I]0, 1[(z2) est la densit de Z . Dnition 10. Soit D Rn un ensemble mesurable et tel que Vol(D ) = D dx > 0 (son volume est positif). On dit que X : Rn a une loi uniforme sur D si X admet densit fX (x) =

ID(x) . Vol(D )

Thorme 11. Soit X un vecteur alatoire continu valeurs dans Rn de densit fX et h: Rn Rn une transformation vriant les hypotheses du Theoreme 4, alors la v.a. Y = h(X ) admet la densit fY donne par fY ( y ) = fX (h1( y )) pour tout y Rn. 4 1 |Jh(h1( y ))|

Dmonstration. Considrons la fonction de repartition de Y : FY (t1, o A(t) = {x Rn: h1(x) t1, , tn) = P(Y1 , hn(x) fX (x)dx =
A(t) h(A(t))

t1,

, Yn

tn) =
A(t)

fX (x)dx

tn }. Par le Thorme 4 on a que ( y = h(x)) fX (h1( y )) t1, dy |Jh(h1( y))| tn } = { y 1 t1 , , yn tn }.

or h(A(t)) = { y = h(x): x A(t)} = { y = h(x): h(x1) Donc


t1 tn

, h(xn)

FY (t1,

, tn) =

fX (h1( y ))

dy . |Jh(h1( y ))|

Exercice 1. Montrer que si X est un vecteur alatoire valeurs dans Rn de densit fX et si A est une matrice n n inversible et b Rn alors la v.a. Y = A X + b a densit fY donne par fY ( y ) = fX (A1( y b)) 1 . |Det(A)|

Densits marginales
Dnition 12. Si Z est un vecteur alatoire dans Rn admettant une densit fZ alors tout sousvecteurs Y de Z de dimension k n admettent une densit quon obtient en intgrant fZ par rapport aux composantes qui ne gurent pas dans Y. On appelle cette densit la densit marginale de Y. Explicitement si Y = (Z1, , Zk) alors

P(Y B ) = P((Z1,
=
B

, Zk) B ) = P(Z B Rn k) = fZ (z1, , zk , zk +1,

fZ (z1,
(z1, ,zk) B

, zn)dz1 dzn

R
n k

n k

, zn)dzk +1 dzn dz1 dzk

donc fY ( y1,

, yk ) =

fZ ( y1 ,

yk , zk +1,

, zn)dzk +1 dzn.

Cas particulier (n = 2). Soit Z = (X , Y ) un vecteur alatoire bidimensionnel de densit fZ . La densit marginale de X est fX (x) = R fZ (x, y )d y et la densit marginale de Y est fZ ( y ) = R fZ (x, y )dx. Exemple 13. Considrons le couple (X , Y ) de densit e y f(X ,Y )(x, y ) = I0 <x< y2 Iy > 0 2 x Dterminer > 0 t.q. f(X ,Y ) soit correctement normalise. Dterminer les densits marginales fX et fY . Calculer

P(X > 1).


5

Calculons I = =
0

f(X ,Y )(x, y )dxd y =


2

0 0

y2

dx eyd y 2 x

y eyd y =

donc = 1. fX (x) =

R R

I 0 f(X ,Y )(x, y )d y = x>


2 x

e x d y = Ix> 0 2 x

fY ( y ) =

f(X ,Y )(x, y)dx = I y >0 e y


1

y2 0

dx = y e y I y > 0 2 x

P(X > 1) =

fX (x)dx =
1

1 e x dx = e 2 x

Exemple 14. Deux densits fX ,Y (x, y ) et gX ,Y (x, y ) peuvent avoir les mmes marginales. Par exemple il est facile de montrer que les densits fX ,Y (x, y ) = 1 (x2 + y2)/2 e , 2 gX ,Y (x, y ) = 1 (x2 + y2)/2 e [1 + x y I[1, 1](x)I[1, 1]( y)] 2

ont les mmes marginales ( fX = gX et fY = gY ). En eet en utilisant lintgrale remarquable


2 1 ex /2dx = 1 2

R
on obtient que fX (x) = et gX (x) =

2 1 fX ,Y (x, y )d y = ex /2 2

gX ,Y (x, y )d y =

1 (x2 + y2)/2 e [1 + x y I[1,1](x)I[1, 1]( y)]d y 2

2 1 = ex /2 2

2 2 1 1 e y /2[1 + x y I[1,1](x)I[1,1]( y )]d y = ex /2 2 2

car

R
par symtrie.

2 1 e y /2 y I[1,1]( y )d y = 0 2

Densit et esprance conditionnelle


Dnition 15. Soit Z = (X , Y ) un vecteur alatoire dans Rm Rn admettant une densit fZ. Soient fX et fY les densits marginales des vecteurs X et Y. On appelle densit conditionnelle de X sachant Y = y la densit donne par fX |Y = y(x) = f(X ,Y )(x, y ) fY ( y ) pour tout y Rn t.q. fY ( y ) > 0. 6

Cette dnition est motive par le fait que, si 1: Bm(x, ), Y Bn( y, )) f(X ,Y )(x, y )Vm( )Vn( ) P(X Bm(x, )|Y Bn( y, )) = P(X P (Y B ( y, )) f ( y )V ( )
n Y n

f(X ,Y )(x, y ) Vm( ) = fX |Y = y(x)Vm( ) fY ( y )

donc la densit conditionnelle est proportionnelle la probabilit conditionnelle de trouver X dans une petite boule centre en x sachant que Y est dans une petite boule centre en y. Exemple 16. Considrons Z = (X , Y ) de densit fZ (x, y ) = 2 2e(x + y)I0 <x< y. Quelle est la densit conditionnelle de X sachant Y = y ? Calculons dabord fY ( y ): fY ( y ) = Il vient que fX |Y = y(x) = exI0 <x< y 2 2e(x + y)I0 <x< y = 2 ey(1 ey)I y> 0 1 ey pour tout y > 0. 2 2e(x+ y)I0 <x< ydx = 2eyIy > 0
y 0

exdx =2 ey(1 ey)I y> 0

Dnition 17. Une famille (Xi)i =1, on a que les vnements {Xi Bi }i =1,

,n

de v.a. est indpendante ssi pour tout Bi, i = 1, ,n sont indpendants, i.e.:

, n,

P(X1 B1,

, Xn Bn) = P(X1 B1)

P(Xn Bn).

Dans cette dnition les v.a.s Xi peuvent tre relles ou bien des vecteurs alatoires elles mmes. Les v.a. X , Y sont indpendantes ssi F(X ,Y )(x, y ) = FX (x) FY ( y ). Pour les v.a. avec densit on a la proposition suivante. Proposition 18. Soient X et Y deux v.a. admettant respectivement les densits fX et fY. Alors X et Y sont indpendantes ssi fX |Y = y ne dpend de y. Dans ce cas l fX |Y = y(x) = fX (x). Dmonstration. Si X , Y sont indpendantes alors F(X ,Y )(x, y ) = FX (x)FY ( y ) et donc on a que le couple admet la densit jointe f(X ,Y )(x, y ) = fX (x) fY ( y ) car 2 2 F(X ,Y )(x, y ) = FX (x)FY ( y) = fX (x) fY ( y) xy xy et donc fX |Y = y(x) = f(X ,Y )(x, y)/ fY ( y ) = fX (x) qui ne dpend pas de y . Rciproquement on a f(X ,Y )(x, y ) = fX |Y = y(x) fY ( y ) et si la densit conditionnelle ne dpends pas de y fX (x) =

f(X ,Y )(x, y )d y = fX |Y = y(x)

fY ( y )d y = fX |Y = y(x)

et donc f(X ,Y )(x, y) = fX (x) fY ( y ) qui implique lindpendance de X et Y . 7

Proposition 19. Soient X et Y deux v.a. avec densit jointe f(X ,Y )(x, y). Alors X et Y sont indpendantes ssi il existe deux applications g, h telles que f(X ,Y )(x, y ) = g (x) h( y ). Dmonstration. Si X et Y sont indpendantes alors on peut prendre g = fX et h = fY . Rciproquement: supposons que f(X ,Y )(x, y ) = g (x)h( y ): fX (x) = f(X ,Y )(x, y )d y = g (x) h( y )d y, f Y ( y ) = h( y ) g (x)dx

1=

fX (x)dx =

g (x)dx

h( y )d y

et donc f(X ,Y )(x, y) = fX (x) fY ( y). Exemple 20. Soit (X , Y ) un couple de v.a. dans R2 admettant pour densit f(X ,Y )(x, y ) = 8 x y I0 <x<y < 1. X et Y ne sont pas indpendantes car la fonction I0 <x< y< 1 ne peut pas scrire sous la forme dun produit. En eet f(X ,Y )(1/2, 2/3) > 0 et f(X ,Y )(1/4, 1/3) > 0. Si f(X ,Y )(x, y ) = q (x) h( y ) alors on doit avoir que q (1/2) > 0 et h(1/3) > 0 mais alors f(X ,Y )(1/2, 1/3) > 0 ce quest en contradiction avec la denition de f(X ,Y ) car f(X ,Y )(1/2, 1/3) = 0.

Esprance et esprance conditionnelle


Si X est un vecteur alatoire dans Rn admettant fX comme densit et g : Rn R est une fonction positive alors on dni lesprance E[ g (X )] de la v.a. g (X ) par la formule

E[ g(X )] =

g (x) fX (x)dx
n

(1)

qui est toujours une quantit positive bien dnie mme si elle peut prendre la valeur +. Si g est de signe quelconque et E[| g (X )|] < alors on dit que g(X ) est intgrable et on peut dnir lesprance de g (X ) par la mme formule (1). Si g (X ) nest pas intgrable lintgrale dans la formule (1) nest pas bien dnie. Thorme 21. Soit X un vecteur alatoire valeurs dans tion mesurable borne g : Rn R

Rn et supposons que pour tout fonc-

E[ g(X )] =

g (x) q (x)dx
n

pour une certaine fonction q : Rn R+. Alors X admet densit fX = q. Remarque 22. Ce resultat est assez pratique pour determiner la densit par changement des variables. Dnition 23. Soit Z = (X , Y ) un vecteur alatoire de Rn Rm. Soit g: Rn Rm R une fonction telle que g (X , Y ) est intgrable, c--d E| g (X , Y )| < +. On appellera esprance conditionnelle de g(X , Y ) sachant Y et on notera E[ g(X , Y )|Y ] la v.a. (Y ) o ( y ) =

g (x, y ) fX |Y = y(x)dx,

y Rm : fY ( y ) > 0 .

Il est importante de remarquer que lesprance conditionnelle toire. 8

E[ g(X ,Y )|Y ] est une variable ala-

Remarque 24. Par convenance on note E[ g (X )|Y = y ] = Rn g (x, y ) fX |Y = y(x)dx lesprance par rapport la loi conditionnelle de X sachant Y = y . Cette esprance est une fonction relle de y . Exemple 25. Revenons lexemple 16 et calculons E[X Y |Y ] (il faut donc prendre g (x, y) = x y). Vrions dabord la condition dintegrabilit (qui donne sens au calcul de lesprance conditionnelle):

E[|X Y |] =
22

R
0

|x y | f(X ,Y )(x, y )dxd y = 22


0

xye(x + y)I0 <x<ydxd y


0

xye(x + y)dxd y = 22

x exdx

<

donc X Y est bien intgrable. ( y ) =

x y fX |Y = y(x)dx = y Iy > 0 ( y ) =

exI0 <x< y y dx = I y >0 y 1e 1 ey

x exdx
0

et donc

y 1 ey y ey I y >0 y 1e
Y

1e E[XY |Y ] = 1 Y eY Proposition 26. Soit h une application de Alors 1. 2.

Y eY

Rn Rm R telle que g(X , Y )h(Y ) est intgrable.

E[ g(X , Y )|Y ]h(Y ) = E[ g(X , Y )h(Y )|Y ] E[E[ g(X , Y )|Y ]h(Y )] = E[ g(X , Y )h(Y )]

Dmonstration. Soit (Y ) = E[ g (X , Y )|Y ] et (Y ) = E[ g (X , Y )h(Y )|Y ] o ( y ) =

g (x, y ) fX |Y = y(x)dx,

( y ) =

g (x, y )h( y ) fX |Y = y(x)dx

alors ( y ) = h( y )( y ) qui donne la premire galit. Pour la deuxime on remarque que

E[E[ g(X , Y )|Y ]h(Y )] = E[(Y )h(Y )] = E[(Y )] =


=

( y ) fY ( y)d y

R R
n

g (x, y )h( y ) fX |Y = y(x) fY ( y )dxd y =

R R
n

g (x, y )h( y ) f(X ,Y )(x, y )dxd y


m

=E[ g (X , Y )h(Y )] par la dnition de la densit conditionnelle et desprance. Cas particuliers: g (x, y ) = x et h( y ) = 1:

E[E[X |Y ]] = E[X ] g (x, y ) = 1, h(Y ) intgrable: E[h(Y )|Y ] = h(Y ).


9

Exemple 27. Soient X et Y deux v.a. indpendantes de loi exponentielle de densit f (x) = exIx> 0 avec > 0. Calculons la densit conditionnelle fX |X + Y et lesprance conditionnelle E[X |X + Y ]. Si z < x

P(X + Y < z , X < x) = P(X + Y < z, X < z) =


et si z x

z 0 0

z u

f (u) f (v )dudv

P(X + Y < z , X < x) =


Par consquent, pour z

x 0 0

z u

f (u) f (v )dudv .

x la densit jointe du couple (X + Y , X ) est 2 P(X + Y < z, X < x) = f (z x)f (x) = 2ez uv

f(X + Y ,X )(z, x) =

et f(X + Y ,X )(z, x) = 0 si z < x. Par ailleurs, la densit de X + Y est la convolution de deux densits exponentielles, i.e. fX + Y (z ) = 2z ez Iz > 0. Donc la densit conditionnelle de X sachant X + Y est fX |X + Y (x |z ) = f(X + Y ,X )(z , x) 1 = I0 fX + Y (z ) z
x z

qui est la densit uniforme sur lintervalle [0, z ]. Donc on calcule facilement que z z ] = 2 et nalement que +Y E[X |X + Y ] = X 2 .

E[X |X + Y

Une application de cet exemple est la suivante. Soit X linstant o la premire demande arrive un systme de service et Y linterval de temps entre larrive de la premiere et la deuxime demandes. Si on sait que la deuxime arrive au temps z (donc X + Y = z ) alors on vient de determiner que la loi du temps darrive de la premiere est donne par la densit 1/z sur lintervalle [0, z ]. En particulier, la moyenne du temps darrive de la premiere est z /2.

Variance, covariance et corrlation


Dnition 28. La covariance Cov(X , Y ) du couple (X , Y ) de v.a. relles est donne par Cov(X , Y ) = E[(X E[X ])(Y E[Y ])]. La variance de X est Var(X ) = Cov(X , X ) = E[(X E[X ])2] 0. Si Var(X ) = 0 alors X = E[X ] est une constante. La covariance est une fonction symtrique (Cov(X , Y ) = Cov(Y , X )) et linaire par rapport chacun de ses arguments (Cov(X + Y , Z ) = Cov(X , Z ) + Cov(Y , Z )). Var(X + c) = 2 Var(X ). On a que Var(X + Y ) = Cov(X + Y , X + Y ) = Cov(X , X ) + 2 Cov(X , Y ) + Cov(Y , Y ) =Var(X ) + 2 Cov(X , Y ) + Var(Y ). Si X , Y sont indpendantes Cov(X , Y ) = 0, le rciproque nest pas vrai en gnral. Exemple 29. Soit X N (0, 1) et Y = X 2. Alors Cov(X , Y ) = E[XY ] = E[X 3] = 0 mais videmment X , Y ne sont pas indpendantes: par exemple 0 = P(X > 1, Y < 1) P(X > 1)P(Y < 1) = P(X > 1)P(1 < X < 1) > 0. 10

On a lingalit Cov(X , Y )2 Var(X ) Var(Y ) 0].

[Preuve: considrer le discriminant du polynme positive P (t) = Var(X + tY ) Le coecient de corrlation X ,Y est dni par X ,Y = Cov(X , Y ) [1, 1] Var(X ) Var(Y )

Exemple 30. Si X ,Y = 1 et Var(Y ) > 0 alors existe R tel que Var(X Y ) = 0 et donc X Y = constante qui donne que Cov(X , Y ) = Cov(Y , Y ) = Var(Y ), Var(X ) = 2 Var(Y ) et X ,Y = sign . Donc on voit bien que le signe de est celui de X ,Y . Pour le prouver, considrer le polynme quadratique en dni par P () = Var(X Y ) = Var(X ) 2 Cov(X , Y ) + 2Var(Y ). Or P () 0 et donc lquation P () = 0 admet au plus une solution et il admet une solution seulement si le discriminant est nul. Ici = 4 [Cov(X , Y )]2 4Var(X )Var(Y ) = 4 Var(X ) Var(Y ) ( 2 0 et donc = 0 | X ,Y | = 1. Apres il est X ,Y 1) clair que si X = Y +c avec c constant on doit avoir X ,Y = Cov(Y + c, Y ) = Var(Y + c) Var(Y ) Cov(Y , Y ) = = sgn (). 2 | | Var(Y ) Var(Y )

Exercice 2. Montrer que X ,Y = sgn(a d) a X + b,dY + d, c--d que le coecient de corrlation est invariante par des transformation anes des variables elles vrient sgn(ad) = 1. Dnition 31. On appelle variance conditionnelle de X sachant Y et on notera Var(X |Y ) la v.a. Var(X |Y ) = E[(X E[X |Y ])2|Y ] Proposition 32. On a Var(X |Y ) = E[X 2|Y ] (E[X |Y ])2 Dmonstration. Var(X |Y ) =E[X 2 2X E[X |Y ] + (E[X |Y ])2|Y ] =E[X 2|Y ] 2(E[X |Y ])2 + (E[X |Y ])2 =E[X 2|Y ] (E[X |Y ])2 car

E[X E[X |Y ]|Y ] = E[X |Y ] E[X |Y ] et E[(E[X |Y ])2|Y ] = (E[X |Y ])2.

Proposition 33. (Identit de la variance conditionnelle) Soient X et Y 2 v.a. sur le mme espace de probabilit et E[X 2] < +. Alors Var(X ) = E[Var(X |Y )] + Var[E(X |Y )] Dmonstration. Var(X ) = E[X 2] (E[X ])2 = E[E[X 2|Y ] (E(X |Y ))2] + E[(E(X |Y ))2] (E[E[X |Y ]])2 =E[Var(X |Y )] + Var[E(X |Y )] 11

Meilleure prvision et regression


Soit X , Y un couple alatoire de densit jointe fX ,Y et tel que E[Y 2] < . Le problme de la meilleure prevision est de trouver une fonction g telle que lcart moyen quadratique de Y g (X ) soit le plus petit possible:

E[(Y g(X ))2] = inf E[(Y h(X ))2] h


Dans le contexte de la meilleure prevision la variable X est appele variable explicative ou predicteur et Y est appele variable explique . Lesperance conditionnelle (x) = E[Y |X = x] donn lunique solution de ce problme. Thorme 34. ( Meilleure prevision ) Soit (x) = E[Y |X = x] alors

E[(Y (X ))2] E[(Y h(X ))2]


pour tout h: R R mesurable et telle que Dmonstration. On a que

E[h(X )2] < .

E[(Y h(X ))2] = E[(Y (X ) + (X ) h(X ))2]


=E[(Y (X ))2] + E[((X ) h(X ))2] + 2 E[(Y (X ))((X ) h(X ))] . Or

E[(Y (X ))((X ) h(X ))] = E[E[(Y (X ))|X ]((X ) h(X ))] = 0


et donc

E[(Y h(X ))2] = E[(Y (X ))2] + E[((X ) h(X ))2]


ce quimplique que

E[(Y h(X ))2] E[(Y (X ))2]


avec galit si et seulement si

E[((X ) h(X ))2] = 0 cest dire si (X ) = h(X ).

La fonction g (x) = E[Y |X = x] est dite fonction de regression de Y sur X . Dans le cas o X , Y sont des v.a. relles la regression est dite simple. Si X , Y sont des v.a. valeurs vectorielles alors la regression est dite multiple ou multivarie. Exemple 35. Soit (X , Y ) un vecteur alatoire dans

R2 de densit

fX ,Y (x, y ) = (x + y )I0 <x,y < 1 . Explicitions la fonction de regression de X sur Y : g(x) = E[Y |X = x]. La densit marginale de X est donne par fX (x) =

fX ,Y (x, y )d y = x +

1 2

I0<x<1 .

12

Alors la densit conditionnelle est donne par fY |X ( y |x) = et g (x) = x+ y I0<x, y<1 x + 1/2
x 1

y fY |X ( y |x)d y =

+3 x+y y I0<x,y <1dy = 2 1 x + 1/2 x+ 2

pour tout x ]0, 1[. Soulignons que, en general, g est une fonction non-lineaire de x. Si g est la fonction de regression de X sur Y alors la v.a. = Y g(X ) = Y E[Y |X ] represente lerreur stochastique dans la prevision de Y par g(X ). On appelle le residu de regression. Par denition desperance conditionnelle

E[ |X ] = 0
et donc aussi

E[ ] = 0. Lerreur quadratique de lapproximation de Y


= E[(Y g (X ))2] = E( 2) = Var( ).

par g (X ) est

On appelle la variance rsiduelle. On a que Var(Y ): par le thorme de meilleur prevision, pour tout h: R R mesurable E[(Y h(X ))2]. En choisissant h(x) = E[Y ] (constante) on a que On a aussi que Var(Y ) = Var(E[Y |X ]) + E[Var(Y |X )] = Var( g (X )) + car = E[Y 2] E[E[Y |X ]2] = E[Var(Y |X )].

E[(Y h(X ))2] = E[(Y E[Y ])2] = Var(Y ).

13

You might also like