Stat 1

Statistiques Gubinelli Massimiliano
DEMI2E Polycopi 1 - v.3 20110204
Rappels sur les intgrales multiples

Loutil principal pour calculer des intgrales en plusieurs variables est le thorme de FubiniTonelli. Thorme 1. [Fubini-Tonelli, cas n = 2 ] Soit f : R2 R une fonction positive, alors
f (x, y) dx d y =
2
f (x, y )dx d y =
f (x, y)d y dx .
O les trois termes sont ou bien ni et gaux ou bien simultanment +. Si f est de signe quelconque mais intgrable au sens que R2 | f (x, y )|dxd y < + alors lgalit des trois intgrales reste vraie. Exemple 2. f (x, y ) = xexyIx
0 1 <y < 2.
Dun part
f (x, y)dxd y =
2
R R R
1 2
= = = Dautre part
I1<y <2d y I <2 d y y2 xexyIx 0d x 1 < y y2 R I xexIx 0dx 1 < y < 2 d y

R
0dx
xexyIx
dy 1 = . y2 2
y2
f (x, y )dxd y =
2
+ 0 + 0
x
1
exyd y dx 1 . 2
(ex e2 x)dx =
Exemple 3. Voyons un contre-exemple lutilisation de Fubini dans un cas o lintgrale double nest pas dni. Soit f (x, y ) = alors I =
1 0 0 1 0 1 1 0
x2 y 2 (x2 + y 2)2
f (x, y )dxd y nest pas bien dni car

1 y 0 1
| f (x, y )|dxd y =
y 2 x2 dx d y + (x2 + y2)2 1 1 d y = + y 1 + y2 1
1 0 0
x2 y 2 d y dx (x2 + y 2)2
=
0
Or, les intgrales

1 1 0
I1 =
0
x2 y 2 dx d y, (x2 + y 2)2
1 0
I2 =
0
x2 y 2 d y dx (x2 + y 2)2
sont bien dni et il satisfont I1 = I2. En eet:

1 0
x2 y 2 dy = (x2 + y 2)2
1
1 0
1 dy 2 (x2 + y 2)
1 0
1 y2 dy = 1 + x2 (x2 + y2)2
et alors I2 =
0
1 dx = [arctan (x)]1 = I1 0= 1 + x2 4
ce qui est in contradiction avec une application nave de Fubini (car dans ce cas I1 = I2 = I = 0). Thorme 4. ( Changement des variables ) Soit h: Rn Rn. On note hi(x) ses composantes dans la base canonique: h(x) = (h1(x), , hn(x)) et Jh son Jacobien: Jh(x) = det Supposons que i. les drives partielles de hi(x) sont continues sur ii. h est une bijection. iii. Jh(x) 0 pour tout x Rn. hi(x) x j .
i,j =1, ,n
Rn pour i = 1,
, n.
Alors pour toute fonction f : Rn R et tout ensemble Borelin K Rn tels que f (x)dx =
K h 1(K )
| f (x)|dx <
f (h( y))|Jh( y )|d y .
Remarque 5. Par le Thorme de la fonction inverse, sous le condition du Thorme 4 la fonction inverse g( y ) = h1( y ) existe partout dans Rn et Jg ( y ) = 1 . Jh( g ( y ))
On voit donc que h vrie les conditions i,ii et iii du Theoreme 4 si et seulement si g aussi vrie ces conditions.
Vecteurs alatoires
Soit (, A , P) un espace probabilis. Un vecteur alatoire X de dimension n (ou dans Rn) est une application X : Rn telle que tout les ensembles de la forme {X B } = { : X ( ) B } pour B Borlien de Rn appartiennent la tribu A. En particulier on peut calculer la probabilit P(X B ) de lvnement {X B } (car P(A) est dnie seulement pour A A). La loi de X est la lapplication X : B (Rn) [0, 1] qui tout B Borlien de Rn associe P(X B ). On appelle fonction de rpartition de X la fonction FX : Rn [0, 1] dnie par FX (x1, , xn) = P(X1 2 x1, , Xn xn)
o (Xi)i =1, ,n sont les composantes de X ( ) = (X1( ), , Xn( )) (donc des v.a. relles). La fonction de rpartition caractrise la loi de X , i.e. nimporte quel vnement {X B } peut tre calcul laide de FX . Exemple 6. Soit n = 2 et B = ]x1, y1] x2, y2] alors il est facile de vrier que
P(X B ) = P(X1 ]x1, y1], Y ]x2, y2]) = FX (y1, y2) FX ( y1, x2) FX (x1, y2) + FX (x1, x2)
en utilisant les proprits lmentaires des probabilits (en particulier P(B ) P(A B )):
P(A
B) =
P(A)
P(X B ) = P(x1 < X1

y1, x2 X2 y1, X2 x1, X2
y1, x2 < X2
y2) y2)
=P(X1
y2) P(X1 y2) (X1 y2) P(X1
x1, x2 < X2 y1, X2 x1, X2 x2) x2))
=P(X1 (P(X1
=FX ( y1, y2) FX ( y1, x2) FX (x1, y2) + FX (x1, x2) . Dnition 7. Le vecteur X valeurs dans Rn est discret si il peut prendre que une quantit d au plus dnombrable des valeurs distinct. Autrement dit si il existent des ensembles au plus dnombrables X1, , Xn tels que P(X1 X1, , Xn Xn) = 1. Dans ce cas on appelle la quantit pX (x) = p(X1, la densit discrete de X. La densit discrete dun vecteur X satisfait a) pX (x) b)
x1 X1 ,Xn)(x1,
, xn) = P(X1 = x1,
, Xn = xn)
x1 X1,
, xn Xn
0;
x2 X2 xn Xn
pX (x1,
, xn) = 1 .
Dnition 8. On dit que X est un vecteur continu ou que il admet une densit (continue) fX : Rn R+ ssi pour tout Borlien B B(Rn) (la tribu Borlienne de Rn) on peut exprimer la probabilit de lvnement {X B } par une intgrale sur B de fX:
P(X B ) =
fX (x1, , xn)dx1 dxn .

B
La densit (continue ou discrete), si elle existe, est unique et caractrise la loi de X . On a que fX (x1, , xn)dx1 dxn =P(X Rn) = 1
en particulier fX est intgrable. La fonction de rpartition FX : Rn [0, 1] de X est donn par FX (t1, , tn) = P(X1
def t1 tn
t1,
, Xn
tn) =

fX (x1,
, xn)dx1 dxn
cest la probabilit de lvnement {X B } pour B =] , t1] dterminer la densit en drivant la fonction de rpartition: fX (t1, , tn) = n FX (t1, t1 tn , tn)
] , tn] Rn. On peut
formule valable en tout point de continuit de nFX (t1,
, tn)/t1 tn.
Linterprtation intuitive de la densit fX est la suivante: si xi 1 alors la probabilit de lvnement {Xi [xi , xi + xi] pour i = 1, , n } est approchable par
P(Xi [xi , xi + xi] pour i = 1,
x1 +x1
xn +xn
, n) =
x1 xn
fX (t1, , xn)x1 xn .
, tn)dt1 dtn
fX (x1,
La densit est donc proportionnelle la mesure de probabilit dun petit voisinage du point (x1, , xn). Autrement dit, si Bn(x, ) = { y Rn : |x y | } Rn est la boule n-dimensionnelle de rayon centre en x Rn et Vn( ) = |Bn(x, )| le volume de B (x, ), i.e. Vn( ) = B (x,) d n t1 dtn alors si 1 on a lapproximation P(X B (x, )) fX (x) Vn( ). Exemple 9. Soit Z = (X , Y ): donne par
R2 un couple alatoire dont la fonction de rpartition est

FZ (x, y ) = q (x) q ( y )
o q (s) = max (0, min (s, 1)). Alors non dnie si x = 0, 1 ou y = 0, 1 2 FZ (x, y ) = 1 si (x, y ) ]0, 1[2 xy 0 autrement
x y
et on peut vrier que
FZ (x, y ) =
I]0,1[(z1) I]0,1[(z2)dz1dz2 .
Donc fZ (z1, z2) = I]0, 1[(z1) I]0, 1[(z2) est la densit de Z . Dnition 10. Soit D Rn un ensemble mesurable et tel que Vol(D ) = D dx > 0 (son volume est positif). On dit que X : Rn a une loi uniforme sur D si X admet densit fX (x) =
ID(x) . Vol(D )
Thorme 11. Soit X un vecteur alatoire continu valeurs dans Rn de densit fX et h: Rn Rn une transformation vriant les hypotheses du Theoreme 4, alors la v.a. Y = h(X ) admet la densit fY donne par fY ( y ) = fX (h1( y )) pour tout y Rn. 4 1 |Jh(h1( y ))|
Dmonstration. Considrons la fonction de repartition de Y : FY (t1, o A(t) = {x Rn: h1(x) t1, , tn) = P(Y1 , hn(x) fX (x)dx =
A(t) h(A(t))
t1,
, Yn
tn) =
A(t)
fX (x)dx
tn }. Par le Thorme 4 on a que ( y = h(x)) fX (h1( y )) t1, dy |Jh(h1( y))| tn } = { y 1 t1 , , yn tn }.
or h(A(t)) = { y = h(x): x A(t)} = { y = h(x): h(x1) Donc

t1 tn
, h(xn)
FY (t1,
, tn) =

fX (h1( y ))
dy . |Jh(h1( y ))|
Exercice 1. Montrer que si X est un vecteur alatoire valeurs dans Rn de densit fX et si A est une matrice n n inversible et b Rn alors la v.a. Y = A X + b a densit fY donne par fY ( y ) = fX (A1( y b)) 1 . |Det(A)|
Densits marginales
Dnition 12. Si Z est un vecteur alatoire dans Rn admettant une densit fZ alors tout sousvecteurs Y de Z de dimension k n admettent une densit quon obtient en intgrant fZ par rapport aux composantes qui ne gurent pas dans Y. On appelle cette densit la densit marginale de Y. Explicitement si Y = (Z1, , Zk) alors
P(Y B ) = P((Z1,
=
B
, Zk) B ) = P(Z B Rn k) = fZ (z1, , zk , zk +1,
fZ (z1,
(z1, ,zk) B
, zn)dz1 dzn
R
n k
n k
, zn)dzk +1 dzn dz1 dzk
donc fY ( y1,
, yk ) =
fZ ( y1 ,
yk , zk +1,
, zn)dzk +1 dzn.
Cas particulier (n = 2). Soit Z = (X , Y ) un vecteur alatoire bidimensionnel de densit fZ . La densit marginale de X est fX (x) = R fZ (x, y )d y et la densit marginale de Y est fZ ( y ) = R fZ (x, y )dx. Exemple 13. Considrons le couple (X , Y ) de densit e y f(X ,Y )(x, y ) = I0 <x< y2 Iy > 0 2 x Dterminer > 0 t.q. f(X ,Y ) soit correctement normalise. Dterminer les densits marginales fX et fY . Calculer
P(X > 1).

5
Calculons I = =
0
f(X ,Y )(x, y )dxd y =

2
0 0
y2
dx eyd y 2 x
y eyd y =
donc = 1. fX (x) =
R R
I 0 f(X ,Y )(x, y )d y = x>

2 x
e x d y = Ix> 0 2 x
fY ( y ) =
f(X ,Y )(x, y)dx = I y >0 e y

1
y2 0
dx = y e y I y > 0 2 x
P(X > 1) =
fX (x)dx =
1
1 e x dx = e 2 x
Exemple 14. Deux densits fX ,Y (x, y ) et gX ,Y (x, y ) peuvent avoir les mmes marginales. Par exemple il est facile de montrer que les densits fX ,Y (x, y ) = 1 (x2 + y2)/2 e , 2 gX ,Y (x, y ) = 1 (x2 + y2)/2 e [1 + x y I[1, 1](x)I[1, 1]( y)] 2
ont les mmes marginales ( fX = gX et fY = gY ). En eet en utilisant lintgrale remarquable

2 1 ex /2dx = 1 2
R
on obtient que fX (x) = et gX (x) =
2 1 fX ,Y (x, y )d y = ex /2 2
gX ,Y (x, y )d y =
1 (x2 + y2)/2 e [1 + x y I[1,1](x)I[1, 1]( y)]d y 2
2 1 = ex /2 2
2 2 1 1 e y /2[1 + x y I[1,1](x)I[1,1]( y )]d y = ex /2 2 2
car
R
par symtrie.
2 1 e y /2 y I[1,1]( y )d y = 0 2
Densit et esprance conditionnelle

Dnition 15. Soit Z = (X , Y ) un vecteur alatoire dans Rm Rn admettant une densit fZ. Soient fX et fY les densits marginales des vecteurs X et Y. On appelle densit conditionnelle de X sachant Y = y la densit donne par fX |Y = y(x) = f(X ,Y )(x, y ) fY ( y ) pour tout y Rn t.q. fY ( y ) > 0. 6
Cette dnition est motive par le fait que, si 1: Bm(x, ), Y Bn( y, )) f(X ,Y )(x, y )Vm( )Vn( ) P(X Bm(x, )|Y Bn( y, )) = P(X P (Y B ( y, )) f ( y )V ( )
n Y n
f(X ,Y )(x, y ) Vm( ) = fX |Y = y(x)Vm( ) fY ( y )
donc la densit conditionnelle est proportionnelle la probabilit conditionnelle de trouver X dans une petite boule centre en x sachant que Y est dans une petite boule centre en y. Exemple 16. Considrons Z = (X , Y ) de densit fZ (x, y ) = 2 2e(x + y)I0 <x< y. Quelle est la densit conditionnelle de X sachant Y = y ? Calculons dabord fY ( y ): fY ( y ) = Il vient que fX |Y = y(x) = exI0 <x< y 2 2e(x + y)I0 <x< y = 2 ey(1 ey)I y> 0 1 ey pour tout y > 0. 2 2e(x+ y)I0 <x< ydx = 2eyIy > 0
y 0
exdx =2 ey(1 ey)I y> 0
Dnition 17. Une famille (Xi)i =1, on a que les vnements {Xi Bi }i =1,
,n
de v.a. est indpendante ssi pour tout Bi, i = 1, ,n sont indpendants, i.e.:
, n,
P(X1 B1,
, Xn Bn) = P(X1 B1)
P(Xn Bn).
Dans cette dnition les v.a.s Xi peuvent tre relles ou bien des vecteurs alatoires elles mmes. Les v.a. X , Y sont indpendantes ssi F(X ,Y )(x, y ) = FX (x) FY ( y ). Pour les v.a. avec densit on a la proposition suivante. Proposition 18. Soient X et Y deux v.a. admettant respectivement les densits fX et fY. Alors X et Y sont indpendantes ssi fX |Y = y ne dpend de y. Dans ce cas l fX |Y = y(x) = fX (x). Dmonstration. Si X , Y sont indpendantes alors F(X ,Y )(x, y ) = FX (x)FY ( y ) et donc on a que le couple admet la densit jointe f(X ,Y )(x, y ) = fX (x) fY ( y ) car 2 2 F(X ,Y )(x, y ) = FX (x)FY ( y) = fX (x) fY ( y) xy xy et donc fX |Y = y(x) = f(X ,Y )(x, y)/ fY ( y ) = fX (x) qui ne dpend pas de y . Rciproquement on a f(X ,Y )(x, y ) = fX |Y = y(x) fY ( y ) et si la densit conditionnelle ne dpends pas de y fX (x) =
f(X ,Y )(x, y )d y = fX |Y = y(x)
fY ( y )d y = fX |Y = y(x)
et donc f(X ,Y )(x, y) = fX (x) fY ( y ) qui implique lindpendance de X et Y . 7
Proposition 19. Soient X et Y deux v.a. avec densit jointe f(X ,Y )(x, y). Alors X et Y sont indpendantes ssi il existe deux applications g, h telles que f(X ,Y )(x, y ) = g (x) h( y ). Dmonstration. Si X et Y sont indpendantes alors on peut prendre g = fX et h = fY . Rciproquement: supposons que f(X ,Y )(x, y ) = g (x)h( y ): fX (x) = f(X ,Y )(x, y )d y = g (x) h( y )d y, f Y ( y ) = h( y ) g (x)dx
1=
fX (x)dx =
g (x)dx
h( y )d y
et donc f(X ,Y )(x, y) = fX (x) fY ( y). Exemple 20. Soit (X , Y ) un couple de v.a. dans R2 admettant pour densit f(X ,Y )(x, y ) = 8 x y I0 <x<y < 1. X et Y ne sont pas indpendantes car la fonction I0 <x< y< 1 ne peut pas scrire sous la forme dun produit. En eet f(X ,Y )(1/2, 2/3) > 0 et f(X ,Y )(1/4, 1/3) > 0. Si f(X ,Y )(x, y ) = q (x) h( y ) alors on doit avoir que q (1/2) > 0 et h(1/3) > 0 mais alors f(X ,Y )(1/2, 1/3) > 0 ce quest en contradiction avec la denition de f(X ,Y ) car f(X ,Y )(1/2, 1/3) = 0.
Esprance et esprance conditionnelle

Si X est un vecteur alatoire dans Rn admettant fX comme densit et g : Rn R est une fonction positive alors on dni lesprance E[ g (X )] de la v.a. g (X ) par la formule
E[ g(X )] =
g (x) fX (x)dx
n
(1)
qui est toujours une quantit positive bien dnie mme si elle peut prendre la valeur +. Si g est de signe quelconque et E[| g (X )|] < alors on dit que g(X ) est intgrable et on peut dnir lesprance de g (X ) par la mme formule (1). Si g (X ) nest pas intgrable lintgrale dans la formule (1) nest pas bien dnie. Thorme 21. Soit X un vecteur alatoire valeurs dans tion mesurable borne g : Rn R
Rn et supposons que pour tout fonc-
E[ g(X )] =
g (x) q (x)dx
n
pour une certaine fonction q : Rn R+. Alors X admet densit fX = q. Remarque 22. Ce resultat est assez pratique pour determiner la densit par changement des variables. Dnition 23. Soit Z = (X , Y ) un vecteur alatoire de Rn Rm. Soit g: Rn Rm R une fonction telle que g (X , Y ) est intgrable, c--d E| g (X , Y )| < +. On appellera esprance conditionnelle de g(X , Y ) sachant Y et on notera E[ g(X , Y )|Y ] la v.a. (Y ) o ( y ) =
g (x, y ) fX |Y = y(x)dx,
y Rm : fY ( y ) > 0 .
Il est importante de remarquer que lesprance conditionnelle toire. 8
E[ g(X ,Y )|Y ] est une variable ala-
Remarque 24. Par convenance on note E[ g (X )|Y = y ] = Rn g (x, y ) fX |Y = y(x)dx lesprance par rapport la loi conditionnelle de X sachant Y = y . Cette esprance est une fonction relle de y . Exemple 25. Revenons lexemple 16 et calculons E[X Y |Y ] (il faut donc prendre g (x, y) = x y). Vrions dabord la condition dintegrabilit (qui donne sens au calcul de lesprance conditionnelle):
E[|X Y |] =
22
R
0
|x y | f(X ,Y )(x, y )dxd y = 22

0
xye(x + y)I0 <x<ydxd y

0
xye(x + y)dxd y = 22
x exdx
<
donc X Y est bien intgrable. ( y ) =
x y fX |Y = y(x)dx = y Iy > 0 ( y ) =
exI0 <x< y y dx = I y >0 y 1e 1 ey
x exdx
0
et donc
y 1 ey y ey I y >0 y 1e
Y
1e E[XY |Y ] = 1 Y eY Proposition 26. Soit h une application de Alors 1. 2.
Y eY
Rn Rm R telle que g(X , Y )h(Y ) est intgrable.
E[ g(X , Y )|Y ]h(Y ) = E[ g(X , Y )h(Y )|Y ] E[E[ g(X , Y )|Y ]h(Y )] = E[ g(X , Y )h(Y )]
Dmonstration. Soit (Y ) = E[ g (X , Y )|Y ] et (Y ) = E[ g (X , Y )h(Y )|Y ] o ( y ) =
g (x, y ) fX |Y = y(x)dx,
( y ) =
g (x, y )h( y ) fX |Y = y(x)dx
alors ( y ) = h( y )( y ) qui donne la premire galit. Pour la deuxime on remarque que
E[E[ g(X , Y )|Y ]h(Y )] = E[(Y )h(Y )] = E[(Y )] =

=
( y ) fY ( y)d y
R R
n
g (x, y )h( y ) fX |Y = y(x) fY ( y )dxd y =
R R
n
g (x, y )h( y ) f(X ,Y )(x, y )dxd y

m
=E[ g (X , Y )h(Y )] par la dnition de la densit conditionnelle et desprance. Cas particuliers: g (x, y ) = x et h( y ) = 1:
E[E[X |Y ]] = E[X ] g (x, y ) = 1, h(Y ) intgrable: E[h(Y )|Y ] = h(Y ).

9
Exemple 27. Soient X et Y deux v.a. indpendantes de loi exponentielle de densit f (x) = exIx> 0 avec > 0. Calculons la densit conditionnelle fX |X + Y et lesprance conditionnelle E[X |X + Y ]. Si z < x
P(X + Y < z , X < x) = P(X + Y < z, X < z) =

et si z x
z 0 0
z u
f (u) f (v )dudv
P(X + Y < z , X < x) =

Par consquent, pour z
x 0 0
z u
f (u) f (v )dudv .
x la densit jointe du couple (X + Y , X ) est 2 P(X + Y < z, X < x) = f (z x)f (x) = 2ez uv
f(X + Y ,X )(z, x) =
et f(X + Y ,X )(z, x) = 0 si z < x. Par ailleurs, la densit de X + Y est la convolution de deux densits exponentielles, i.e. fX + Y (z ) = 2z ez Iz > 0. Donc la densit conditionnelle de X sachant X + Y est fX |X + Y (x |z ) = f(X + Y ,X )(z , x) 1 = I0 fX + Y (z ) z
x z
qui est la densit uniforme sur lintervalle [0, z ]. Donc on calcule facilement que z z ] = 2 et nalement que +Y E[X |X + Y ] = X 2 .
E[X |X + Y
Une application de cet exemple est la suivante. Soit X linstant o la premire demande arrive un systme de service et Y linterval de temps entre larrive de la premiere et la deuxime demandes. Si on sait que la deuxime arrive au temps z (donc X + Y = z ) alors on vient de determiner que la loi du temps darrive de la premiere est donne par la densit 1/z sur lintervalle [0, z ]. En particulier, la moyenne du temps darrive de la premiere est z /2.
Variance, covariance et corrlation

Dnition 28. La covariance Cov(X , Y ) du couple (X , Y ) de v.a. relles est donne par Cov(X , Y ) = E[(X E[X ])(Y E[Y ])]. La variance de X est Var(X ) = Cov(X , X ) = E[(X E[X ])2] 0. Si Var(X ) = 0 alors X = E[X ] est une constante. La covariance est une fonction symtrique (Cov(X , Y ) = Cov(Y , X )) et linaire par rapport chacun de ses arguments (Cov(X + Y , Z ) = Cov(X , Z ) + Cov(Y , Z )). Var(X + c) = 2 Var(X ). On a que Var(X + Y ) = Cov(X + Y , X + Y ) = Cov(X , X ) + 2 Cov(X , Y ) + Cov(Y , Y ) =Var(X ) + 2 Cov(X , Y ) + Var(Y ). Si X , Y sont indpendantes Cov(X , Y ) = 0, le rciproque nest pas vrai en gnral. Exemple 29. Soit X N (0, 1) et Y = X 2. Alors Cov(X , Y ) = E[XY ] = E[X 3] = 0 mais videmment X , Y ne sont pas indpendantes: par exemple 0 = P(X > 1, Y < 1) P(X > 1)P(Y < 1) = P(X > 1)P(1 < X < 1) > 0. 10
On a lingalit Cov(X , Y )2 Var(X ) Var(Y ) 0].
[Preuve: considrer le discriminant du polynme positive P (t) = Var(X + tY ) Le coecient de corrlation X ,Y est dni par X ,Y = Cov(X , Y ) [1, 1] Var(X ) Var(Y )
Exemple 30. Si X ,Y = 1 et Var(Y ) > 0 alors existe R tel que Var(X Y ) = 0 et donc X Y = constante qui donne que Cov(X , Y ) = Cov(Y , Y ) = Var(Y ), Var(X ) = 2 Var(Y ) et X ,Y = sign . Donc on voit bien que le signe de est celui de X ,Y . Pour le prouver, considrer le polynme quadratique en dni par P () = Var(X Y ) = Var(X ) 2 Cov(X , Y ) + 2Var(Y ). Or P () 0 et donc lquation P () = 0 admet au plus une solution et il admet une solution seulement si le discriminant est nul. Ici = 4 [Cov(X , Y )]2 4Var(X )Var(Y ) = 4 Var(X ) Var(Y ) ( 2 0 et donc = 0 | X ,Y | = 1. Apres il est X ,Y 1) clair que si X = Y +c avec c constant on doit avoir X ,Y = Cov(Y + c, Y ) = Var(Y + c) Var(Y ) Cov(Y , Y ) = = sgn (). 2 | | Var(Y ) Var(Y )
Exercice 2. Montrer que X ,Y = sgn(a d) a X + b,dY + d, c--d que le coecient de corrlation est invariante par des transformation anes des variables elles vrient sgn(ad) = 1. Dnition 31. On appelle variance conditionnelle de X sachant Y et on notera Var(X |Y ) la v.a. Var(X |Y ) = E[(X E[X |Y ])2|Y ] Proposition 32. On a Var(X |Y ) = E[X 2|Y ] (E[X |Y ])2 Dmonstration. Var(X |Y ) =E[X 2 2X E[X |Y ] + (E[X |Y ])2|Y ] =E[X 2|Y ] 2(E[X |Y ])2 + (E[X |Y ])2 =E[X 2|Y ] (E[X |Y ])2 car
E[X E[X |Y ]|Y ] = E[X |Y ] E[X |Y ] et E[(E[X |Y ])2|Y ] = (E[X |Y ])2.
Proposition 33. (Identit de la variance conditionnelle) Soient X et Y 2 v.a. sur le mme espace de probabilit et E[X 2] < +. Alors Var(X ) = E[Var(X |Y )] + Var[E(X |Y )] Dmonstration. Var(X ) = E[X 2] (E[X ])2 = E[E[X 2|Y ] (E(X |Y ))2] + E[(E(X |Y ))2] (E[E[X |Y ]])2 =E[Var(X |Y )] + Var[E(X |Y )] 11
Meilleure prvision et regression

Soit X , Y un couple alatoire de densit jointe fX ,Y et tel que E[Y 2] < . Le problme de la meilleure prevision est de trouver une fonction g telle que lcart moyen quadratique de Y g (X ) soit le plus petit possible:
E[(Y g(X ))2] = inf E[(Y h(X ))2] h

Dans le contexte de la meilleure prevision la variable X est appele variable explicative ou predicteur et Y est appele variable explique . Lesperance conditionnelle (x) = E[Y |X = x] donn lunique solution de ce problme. Thorme 34. ( Meilleure prevision ) Soit (x) = E[Y |X = x] alors
E[(Y (X ))2] E[(Y h(X ))2]

pour tout h: R R mesurable et telle que Dmonstration. On a que
E[h(X )2] < .
E[(Y h(X ))2] = E[(Y (X ) + (X ) h(X ))2]

=E[(Y (X ))2] + E[((X ) h(X ))2] + 2 E[(Y (X ))((X ) h(X ))] . Or
E[(Y (X ))((X ) h(X ))] = E[E[(Y (X ))|X ]((X ) h(X ))] = 0

et donc
E[(Y h(X ))2] = E[(Y (X ))2] + E[((X ) h(X ))2]

ce quimplique que
E[(Y h(X ))2] E[(Y (X ))2]

avec galit si et seulement si
E[((X ) h(X ))2] = 0 cest dire si (X ) = h(X ).
La fonction g (x) = E[Y |X = x] est dite fonction de regression de Y sur X . Dans le cas o X , Y sont des v.a. relles la regression est dite simple. Si X , Y sont des v.a. valeurs vectorielles alors la regression est dite multiple ou multivarie. Exemple 35. Soit (X , Y ) un vecteur alatoire dans
R2 de densit
fX ,Y (x, y ) = (x + y )I0 <x,y < 1 . Explicitions la fonction de regression de X sur Y : g(x) = E[Y |X = x]. La densit marginale de X est donne par fX (x) =
fX ,Y (x, y )d y = x +
1 2
I0<x<1 .
12
Alors la densit conditionnelle est donne par fY |X ( y |x) = et g (x) = x+ y I0<x, y<1 x + 1/2
x 1
y fY |X ( y |x)d y =
+3 x+y y I0<x,y <1dy = 2 1 x + 1/2 x+ 2
pour tout x ]0, 1[. Soulignons que, en general, g est une fonction non-lineaire de x. Si g est la fonction de regression de X sur Y alors la v.a. = Y g(X ) = Y E[Y |X ] represente lerreur stochastique dans la prevision de Y par g(X ). On appelle le residu de regression. Par denition desperance conditionnelle
E[ |X ] = 0
et donc aussi
E[ ] = 0. Lerreur quadratique de lapproximation de Y

= E[(Y g (X ))2] = E( 2) = Var( ).
par g (X ) est
On appelle la variance rsiduelle. On a que Var(Y ): par le thorme de meilleur prevision, pour tout h: R R mesurable E[(Y h(X ))2]. En choisissant h(x) = E[Y ] (constante) on a que On a aussi que Var(Y ) = Var(E[Y |X ]) + E[Var(Y |X )] = Var( g (X )) + car = E[Y 2] E[E[Y |X ]2] = E[Var(Y |X )].
E[(Y h(X ))2] = E[(Y E[Y ])2] = Var(Y ).
13

Stat 1

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Stat 1

Uploaded by

Copyright:

Available Formats

Statistiques Gubinelli Massimiliano

DEMI2E Polycopi 1 - v.3 20110204

Rappels sur les intgrales multiples

I1<y <2d y I <2 d y y2 xexyIx 0d x 1 < y y2 R I xexIx 0dx 1 < y < 2 d y

f (x, y )dxd y nest pas bien dni car

Or, les intgrales

sont bien dni et il satisfont I1 = I2. En eet:

f (h( y))|Jh( y )|d y .

P(X B ) = P(x1 < X1

y2) P(X1 y2) (X1 y2) P(X1

x1, x2 < X2 y1, X2 x1, X2 x2) x2))

, xn) = P(X1 = x1,

fX (x1, , xn)dx1 dxn .

] , tn] Rn. On peut

formule valable en tout point de continuit de nFX (t1,

P(Xi [xi , xi + xi] pour i = 1,

R2 un couple alatoire dont la fonction de rpartition est

et on peut vrier que

tn }. Par le Thorme 4 on a que ( y = h(x)) fX (h1( y )) t1, dy |Jh(h1( y))| tn } = { y 1 t1 , , yn tn }.

or h(A(t)) = { y = h(x): x A(t)} = { y = h(x): h(x1) Donc

, Zk) B ) = P(Z B Rn k) = fZ (z1, , zk , zk +1,

, zn)dzk +1 dzn dz1 dzk

P(X > 1).

f(X ,Y )(x, y )dxd y =

I 0 f(X ,Y )(x, y )d y = x>

f(X ,Y )(x, y)dx = I y >0 e y

ont les mmes marginales ( fX = gX et fY = gY ). En eet en utilisant lintgrale remarquable

1 (x2 + y2)/2 e [1 + x y I[1,1](x)I[1, 1]( y)]d y 2

2 2 1 1 e y /2[1 + x y I[1,1](x)I[1,1]( y )]d y = ex /2 2 2

Densit et esprance conditionnelle

f(X ,Y )(x, y ) Vm( ) = fX |Y = y(x)Vm( ) fY ( y )

exdx =2 ey(1 ey)I y> 0

, Xn Bn) = P(X1 B1)

f(X ,Y )(x, y )d y = fX |Y = y(x)

et donc f(X ,Y )(x, y) = fX (x) fY ( y ) qui implique lindpendance de X et Y . 7

Esprance et esprance conditionnelle

Rn et supposons que pour tout fonc-

Il est importante de remarquer que lesprance conditionnelle toire. 8

E[ g(X ,Y )|Y ] est une variable ala-

|x y | f(X ,Y )(x, y )dxd y = 22

xye(x + y)I0 <x<ydxd y

donc X Y est bien intgrable. ( y ) =

exI0 <x< y y dx = I y >0 y 1e 1 ey

1e E[XY |Y ] = 1 Y eY Proposition 26. Soit h une application de Alors 1. 2.

Rn Rm R telle que g(X , Y )h(Y ) est intgrable.

Dmonstration. Soit (Y ) = E[ g (X , Y )|Y ] et (Y ) = E[ g (X , Y )h(Y )|Y ] o ( y ) =

g (x, y )h( y ) fX |Y = y(x)dx

alors ( y ) = h( y )( y ) qui donne la premire galit. Pour la deuxime on remarque que

E[E[ g(X , Y )|Y ]h(Y )] = E[(Y )h(Y )] = E[(Y )] =

g (x, y )h( y ) fX |Y = y(x) fY ( y )dxd y =

g (x, y )h( y ) f(X ,Y )(x, y )dxd y

E[E[X |Y ]] = E[X ] g (x, y ) = 1, h(Y ) intgrable: E[h(Y )|Y ] = h(Y ).

P(X + Y < z , X < x) = P(X + Y < z, X < z) =

P(X + Y < z , X < x) =

Variance, covariance et corrlation

On a lingalit Cov(X , Y )2 Var(X ) Var(Y ) 0].

E[X E[X |Y ]|Y ] = E[X |Y ] E[X |Y ] et E[(E[X |Y ])2|Y ] = (E[X |Y ])2.

Meilleure prvision et regression

E[(Y g(X ))2] = inf E[(Y h(X ))2] h

E[(Y (X ))2] E[(Y h(X ))2]

E[h(X )2] < .

E[(Y h(X ))2] = E[(Y (X ) + (X ) h(X ))2]

E[(Y (X ))((X ) h(X ))] = E[E[(Y (X ))|X ]((X ) h(X ))] = 0