Professional Documents
Culture Documents
n a la Estadstica,
Introduccio
Los errores que puedan contener son total responsabilidad de quien las transcribe
Por sugerencias y correcciones: acholaquidis@cmat.edu.uy
Indice general
1. Introducci
on
1.1. Esperanza Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2. Nociones de convergencia de variables aletorias . . . . . . . . . . . . . . . . . . . .
3
3
6
8
8
8
13
3. Teora de la Estimaci
on, m
etodos de estimaci
on
3.1. Algunas definiciones previas . . . . . . . . . . . .
3.2. Metodo de los momentos . . . . . . . . . . . . . .
3.3. Metodo de M
axima Verosimilitud . . . . . . . . .
3.4. metodo de estimaci
on por cuantiles . . . . . . . .
3.5. Estimaci
on de la funci
on de Distribucion . . . . .
3.6. Convergencia casi segura de Percentiles . . . . .
15
15
15
16
20
21
23
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4. Evaluaci
on de Estimadores
24
33
6. Pruebas de hip
otesis
6.1. Regi
on Crtica Optima,
Teorema de Neyman-Pearson
6.2. Familias con cociente de verosimilitud monotono . . .
6.3. Metodo de la raz
on de verosimilitud para RC: . . . . .
6.4. Pruebas de Bondad de ajuste . . . . . . . . . . . . . .
6.4.1. Test de 2 : . . . . . . . . . . . . . . . . . . . .
6.4.2. Test de Kolmogorov-Smirnov . . . . . . . . . .
6.5. An
alisis de Varianza, (ANOVA) . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
36
37
40
42
43
43
43
44
7. Modelos Lineales
7.1. Variable Normal Multivariada
7.2. Modelos Lineales . . . . . . .
7.3. Hip
otesis del modelo . . . . .
7.4. Aplicaci
on . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
47
47
49
49
52
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Captulo 1
Introducci
on
Este captulo pretende introducir los conceptos de esperanza condicional, as como las nociones
de convergencia de variables aletorias, que seran necesarios para los siguientes captulos. Se asumira
que el lector est
a familiarizado con los conceptos basicos de la probabilidad, correspondientes a un
primer curso introductorio, no as los del analisis real.
1.1.
Esperanza Condicional
Definici
on 1.1. Dado , A, P un espacio de probabilidad, y X, Y : R variables aleatorias,
definimos la Esperanza Condicional de X dado Y que anotaremos
E X|Y ,
como la funci
on de Y que verifica
E XIY (B) = E E(X|Y )IY (B)
para todo B perteneciente a la sigma
algebra de borel de R, que anotaremos de aqu en mas como
B(R)
Observaci
on 1.2. E(X|Y ) est
a bien definido
existencia: Se sigue del Teorema de Radon-Nikodym
unicidad: Supongamos que (Y ) y (Y ) cumplen
E XIY (B) = E (Y )IY (B)
= E (Y )IY (B) .
B B(R)
Consideremos B = {(Y ) > (Y )}, sabemos que 0 = E ((Y ) (Y ))IY (B) , como ((Y )
(Y ))IY (B) 0 y su esperanza es 0 entonces ((Y ) (Y ))IY (B) = 0 c.s.. De forma
= {(Y ) > (Y )}, obtenemos que ((Y ) (Y ))IY (B)
=
totalmente an
aloga, tomando B
0, c.s., de donde se sigue que = c.s.
Proposici
on 1.3. Veamos ahora algunas propiedades de las esperanza condicional, X, Y, Z ser
an
variables aleatorias a valores reales y a, b n
umeros reales.
1) Linealidad: E(aX + bY |Z) = aE(X|Z) + bE(Y |Z).
2) Si X 0
c.s..
Captulo 1.
Introduccion
4) E(X|X) = X.
5) E(a|Y ) = a.
6) E(X|Y ) = E(X) si X e Y son independientes.
7) E(Xg(Y )|Y ) = g(Y )E(X|Y ).
8) E E(X|Y ) = E(X).
Demostraci
on.
1) Por la unicidad, basta demostrar que, para todo B B(R)
E (aX + bY )IB (Z) = E (aE(X|Z) + bE(Y |Z))IB (Z) ,
usando la linealidad de la esperanza el u
ltimo termino es
aE E(X|Z)IB (Z) + bE E(Y |Z)IB (Z) ,
que, por definici
on de esperanza condicional, es igual a
aE XIB (Z) + bE Y IB (Z) .
2) La demostraci
on necesita de conceptos del analisis real.
3) Es consecuencia inmediata de 2).
4) Es consecuencia inmediata de la unicidad.
6) Queremos ver que E XIB (Y) = E E(X)IB (Y ) , E XIB (Y ) = E(X)E(IB (Y )) por la independencia, y E E(X)IB (Y ) = E(X)E(IB (Y )) dado que una constante es independiente de
cualquier variable.
5) Es una consecuencia inmediata de 6).
7) La demostraci
on necesita de conceptos del analisis real.
8) Basta tomar en la definici
on B = R.
Proposici
on 1.4. Desigualdad de Jensen: Sea : R R convexa, entonces
E(X) E (X)
E(X|Y ) E (X)|Y
Recordemos que es convexa si y solo si (p + (1 )q) (p) + (1 )(q) p, q, [0, 1],
y que si es C 2 , es convexa si y solo si 00 (x) 0 x.
Definici
on 1.5. Distribuci
on Condicional: Dadas X, Y v.a., definimos
FX|Y =y (x) := P (X x|Y = y) := E(I( ,x] (x)|Y = y).
Definici
on 1.6. Probabilidad Condicional: Dadas X, Y v.a., definimos
P (X [a, b]|Y ) := E(I[a,b] (X)|Y ).
Ejemplo 1.7. Veamos por separado, primero el caso en que las variables son discretas, y luego el
caso continuo.
Captulo 1.
Introduccion
Caso Discreto: Sea (X, Y ) vector aleatorio bidimensional tal que Rec(X, Y ) = (xn , ym ) : n, m N , definimos la probabilidad condicional en el sentido usual, como
PX,Y (x, y)
PY (y)
x Rec(X), y Rec(Y ),
entonces
X
E(X|Y ) =
xPX|Y (x),
xRec(X)
Demostraci
on. Sabemos que
X
xPX|Y =y (x) =
xRec(X)
1
PY (y)
xRec(X)
1
E
PY (Y )
xPX,Y (x, Y )IB (Y ) = E XIB (Y ) ,
xRec(X)
1
E
PY (Y )
xRec(X)
(y)PY (y)
yRec(Y )B
yRec(Y ) xRec(X)
= E XIB (Y ) .
E(X|Y ) =
fX,Y (x, Y )
dx
fY (Y )
Demostraci
on.
Z +
Z + Z +
fX,Y (x, Y )
fXY (x, y)
E
x
dxIB (Y ) =
IB (y)dx fy (y)dy
x
fY (Y )
fy (y)
Z + Z +
=
xIB (y)fX,Y (x, y)dxdy
= E(XIB (Y )).
Luego, la tesis es consecuencia de la unicidad.
Proposici
on 1.8. F
ormula de la distribuci
on conjunta: Dadas X, Y v.a. se tiene que
Z y
FX,Y (x, y) =
FX|Y =t (x)dFy (t)
Captulo 1.
Introduccion
Demostraci
on.
FXY (x, y) = P (X x, Y y) = E I(,x] (X)I(,y] (Y )
= E E I(,x] (X)I(,y] (Y ) Y
Z +
I(,y] (t)FX|Y =t (x)dFY (t)
=
Z y
=
FX|Y =t (x)dFY (t)
Definici
on 1.9. Distribuci
on condicionada a un conjunto: Dada X v.a. y A A con P (A) 6= 0
definimos
P (X x A)
FX|A = P (X x|A) =
P (A)
Definici
on 1.10. Esperanza condicionada a un conjunto:
Z +
E(X|A) =
xdFX|A (x) A A, P (A) 6= 0
1.2.
Definici
on 1.11. Convergencia en probabilidad y casi segura: Dado , A, P
probabilidad, {Xn } una sucesi
on de v.a. y X una v.a. decimos que
espacio de
c.s.
Definici
on: Sean Xn v.a. en n , An , Pn y X v.a. en
on 1.12. Convergencia en distribuci
, A, P , decimos que Xn converge en distribucion a X y anotamos
d
Xn X
si
n+
Proposici
on 1.13. Relaci
on entre convergencias: Si {Xn } y X son v.a. sobre , A, P entonces
c.s.
P
d
Xn X Xn X Xn X.
Observaci
on 1.14. Todos los recprocos de la proposici
on anterior son falsos.
Teorema 1.15. Ley Fuerte de los grandes n
umeros: Sean {Xn } v.a. sobre , A, P y Xn
independientes identicamentes distribuidas (i.i.d.) en L1 y = E(X) entonces
Xn =
X1 + + Xn c.s.
n
Captulo 1.
Introduccion
Teorema 1.16. Teorema Central del Lmite: Sean {Xn } definidas en , A, P v.a. i.i.d. en
L2 entonces
Xn d
N (0, 1).
/ n
Donde N (0, 1) denota la distribuci
on normal con esperanza 0 y varianza 1.
2
Observaci
on 1.17. Si n es grande y fijo, FXn se aproxima por la distribuci
on N (, n ) donde
= E(Xn ) y 2 = V ar(Xn )
Captulo 2
Definici
on 2.1. Muestra aleatoria simple (M.A.S.): X1 , . . . , Xn v.a. definidas en , A, P
son una aleatoria simple si son independientes identicamente distribuidas (i.i.d.) con distribucion
igual a la de X.
Definici
on 2.2. Media muestral y Varianza Muestral: dada X1 , . . . , Xn una M.A.S. definimos
1) Media Muestral: Xn =
X1 + . . . , Xn
.
n
n
1 X
(Xi Xn )2
n 1 i=1
n
Observaci
on 2.3. Sn2 =
1 X
2
Xi2 nXn
n 1 i=1
c.s.
Observaci
on 2.4. Si X L1 , Xn = E(X) por L.F.G.N.
c.s.
Observaci
on 2.5. Si X L2 , Sn2 2 = V ar(X).
Demostraci
on.
Sn2
n
=
n1
1X 2
2
X Xn
n i=1 i
!
c.s.
E(X 2 ) 2 = 2 ,
2.2.
Definici
on 2.6. Distribuci
on Gamma: Decimos que X tiene distribucion Gamma(, ) si su
densidad es
x1 ex si x > 0
fX (x) =
()
0
si x = 0
Observaci
on 2.7. Tres propiedades importantes de la distribuci
on Gamma son:
1) Si X v Gamma(, ) entonces E(X) = / y V ar(X) = /2 .
Captulo 2.
xk/21 ex/2
I(0,+)
(k/2)2k/2
Observaci
on 2.9. Se puede demostrar que
E(2k ) = k
V ar(2k ) = 2k
t) =
Z t
Z t
Z t
1
1 1 s2
1 1 s2
1
1
2
2
e
e
ds = 2
ds =
e 2 u ,
u
2
2
2 0
t
0
2
e 2 u
,
2 u
es la densidad de 21 pero esto se sigue de que Gamma(1/2) =
Captulo 2.
Definici
on 2.11. Distribuci
on T-Student con k grados de libertad: Sean X v N (0, 1) e
Y v 2k independientes, la distribuci
on de
X
,
Tk = p
Y /n
se llama distribuci
on T Student con k grados de libertad. Decimos que la variable Tk tiene
distribuci
on T Student no central, con parametro de no centralidad > 0 si
X +
Tk = p
Y /k
Observaci
on 2.12. Se verifica que
E(Tk ) = 0
V ar(Tk ) = k/(k 2) para k > 2.
Teorema 2.13. Sea T v Tk , entonces la densidad es
fT (t) =
( k+1
2 )
k( k2 ) 1 +
t2
k
k+1
2
Demostraci
on. Tomemos el vector (X, Y ), su densidad es
y
1 2
1 2 y2
e
1
fX,Y (x, y) = e 2 x
k I(0,+) (y).
k
2
( 2 )2 2
y/k
0
luego, sustituyendo
1
u
k2 v
!
y
p
det Jg (x, y) = k/y,
2
1
k
v
1 e 2k u v v 2 1 e 2
v
fU,V (u, v) =
I
(v)
,
(0,+)
( k2 )2k/2
2
k
2k(k/2)2 2
k1
2
u2
2k
+ 12
dv,
()
x1 ex dx = 1 entonces
x1 ex dx = ,
() 0
0
si tomamos entonces =
k+1
2
x=v y=
u2
2k
1
2
se concluye la tesis.
10
Captulo 2.
n1 2
S v 2n1 .
2 n
(Xn )
n
v Tn .
Sn
Demostraci
on.
4)
1) es inmediato
3) tomemos = 1, por inducci
on en n, para n = 2 tenemos que
2
2
X1 + X2
X1 + X2
2
S2 = X1
+ X2
2
2
2
2
2
X1 X2
X2 X1
X1 X2
=
+
=
v 21 ,
2
2
2
n1
(Xn
n
o lo que es lo
2
supongamos cierto para n1. Vamos a usar la igualdad (n1)Sn2 = (n2)Sn1
+
Xn1 )2 , como estamos tomando = 1 tenemos que ver que (n 1)Sn2 v 2n1
2
2
2
mismo (n 2)Sn1
+ n1
n (Xn Xn1 ) v n1 ,
2
2
2
por hip
otesis de inducci
on (n 2)Sn1 v n2 , ademas n1
n (Xn Xn ) es independiente de
2
2
2
(n 2)Sn1
pues Xn es independiente de Sn1
por la parte 2), y Xn es independiente de Sn1
2
pues Sn1 depende s
olo de X1 , . . . , Xn y la muestra son un M.A.S.
2
2
Basta entonces ver que n1
n (Xn Xn ) v 1 ,
1
n
n1
Xn Xn1 v N 0, 1 +
= N 0,
(Xn Xn1 )2 v 21 ,
n1
n1
n
y, como la suma de 2 es tiene distribucion 2 con la suma de los grados tenemos que 2n2 +
21 v 2n1 .
11
Captulo 2.
n
X
1
(X1 Xn )2 +
(Xi Xn )2
n1
i=2
n
n
X
X
1
2
=
(
Xi Xn ) +
(Xi Xn )2 ,
n 1 i=2
i=2
1
1
1
...
n
n
n
1 1 1 ...
n1
n
n
Jg = .
.
..
..
.
1
1
1
n
... 1 n
n
Es f
acil ver que det(Jg ) = 1/n, basta sumar la primer fila a las demas, y queda una matriz
triangular superior con diagonal 1/n, 1, . . . , 1.
x2 = y2 + y1 , . . . , xn = yn + y1 de donde
!
X
1
g (y) =
yi y1 , y2 + y1 , . . . , yn + y1 ,
2
entonces
1
| det Jg (g 1 (y))|
(
!)
X
X
X
1
2
2
2
2
exp
y1 2y1
yi + (
yi ) +
(yi + 2y1 yi + y1 )
2
2
2
2
!)
(
n n o
X
X
1
exp y12 exp
(
yi ) 2 +
yi2
.
2
2
2
2
fY (y) = fX (g 1 (y)
=
n
(2)n/2
n
(2)n/2
Distribuci
on F de Fisher: Sea X v 2n e Y v 2m independientes, la
X/n
Y /m
se denomina distribuci
on F de Fisher de parametros n y m, y la anotamos F (n, m).
A modo de motivaci
on geometrica de la distribucion F de Fisher, vamos a enunciar el siguiente
teorema.
Teorema 2.16. Sea A el
angulo que forma un vector X v N (0, 2 ) en Rd con un subespacio R de
dimensi
on , entonces
tan2 (A) v F (d , )
d
12
Captulo 2.
Observaci
on 2.17. Si Z v F (n, m) entonces
n
n
n+m
n 2
w 2 1
2
fZ (w) =
n+m I(0,+) (w)
m
n2 m
n
2
1+ m
w 2
2
Teorema 2.18. Sea X1 , . . . , Xn M.A.S. de X v N (X , X
) y Y1 , . . . , Yn M.A.S. de Y v N (Y , Y2 )
X e Y independientes, entonces
2
2
SX
/X
v F (n 1, m 1)
2
2
SY /Y
Demostraci
on. La demostraci
on se sigue de la parte 3) y 2) del teorema 2.14
2.3.
Definici
on 2.19. Muestra Ordenada: Sea X1 , . . . , Xn una M.A.S. de X v FX , definimos
X1:n = mn{X1 , . . . , Xn }
X2:n = mn {X1 , . . . , Xn } \ {X1:n }
..
.
Xn:n = mn {X1 , . . . , Xn } \ {X1:n , . . . , Xn:n }
j1
nj
n!
fX (x) FX (x)
1 FX (x)
(j 1)!(n j)!
Demostraci
on. FXj:n = P (Xj:n x) es decir, que al menos j variables sean menores o iguales
uqe x. Consideremos Y la cantidad de observaciones que son menores o iguales que x, entonces
Y v Bin(n, p) con p = FX (x).
P (Xj:n x) = P (Y j) =
n
X
P (Y = k) =
k=j
n
X
Ckn FX (x)
k
1 FX (x)
nk
k=j
n!
kpk1 fX (x)q nk fX (x)(n k)q nk1 pk
(n k)!k!
k=j
n
n1
X
X
1
1
= fX (x)n!
pk1 q nk
pk q nk1
(n k)!(k 1)!
(n k 1)!k!
k=j
k=j
n
n
X
X
1
1
= fX (x)n!
pk1 q nk
pk1 q nk
(n k)!(k 1)!
(n k)!(k 1)!
fXj:n (x) =
k=j
k=j+1
1
= fX (x)n!
pj1 q nj
(n j)!(j 1)!
13
Captulo 2.
n1
n1
y fXmin (x) = nfX (x) 1 FX (x)
Observaci
on 2.21. fXmax (x) = nfX (x) FX (x)
Definici
on 2.22. Si X tiene densidad f (x) =
( + ) 1
x
(1 x)1 I(0,1) (x) decimos que X v
()()
Beta(, )
Observaci
on 2.23. Si X v Beta(, ) entonces E(X) = /(+) y V ar(X) =
.
( + )2 ( + + 1)
Observaci
on 2.24. Si X1 , . . . , Xn es una M.A.S. de X v U[0,1] entonces Xj:n v Beta(j, n j + 1).
14
Captulo 3
Teora de la Estimaci
on, m
etodos
de estimaci
on
3.1.
1 , . . . , xn ) =
(x
x1 + + xn
1 X
x1 + + xn
xi
,
n
n 1 i=1
n
!
: Rn R2
entonces
1 , . . . , Xn ) = (Xn , S 2 )
(X
n
es un estimador de .
Observemos que si bien es un vector, es un vector aleatorio a valores en Rk .
Definici
on 3.3. Si X1 , . . . , Xn es una M.A.S. de X v FX (X|) y es un estimador, decimos que
P
c.s.
es debilmente consistente si . Decimos que es fuertemente consistente si
Ejemplo 3.4. Si X v N (, 2 ) y = (Xn , Sn2 ) entonces es fuertemente consistente.
Notaci
on: Anotamos como (H) al conjunto de valores posibles, que puede tomar el parametro
. Por ejemplo si X v N (, 2 ) = (, 2 ) entonces (H) = R R+ .
3.2.
M
etodo de los momentos
E(X) =
E(X 2 ) =
..
E(X ) =
15
= (1 , . . . , k ) Rk y X L1 . Consideremos
Xn
n
1X 2
Xi
n i
..
.
n
1X k
Xi
n i
M1 = Xn E(X)
..
.
1 X k c.s.
Mk =
Xi E(X k )
n i
y F 1 es continua entonces
c.s.
(1 , . . . , k ) = F 1 (M1 , . . . , Mk )
F 1 E(X), . . . , E(X k )
= F 1 F (1 , . . . , k ) = (1 , . . . , k ),
3.3.
M
etodo de M
axima Verosimilitud
Definici
on 3.7. Funci
on de Verosimilitud: Dada una M.A.S. de X v F (X|) (H) Rk
L(, x
) =
L(, x
) =
n
Y
i=1
n
Y
i=1
de .
16
n1
L () =
!)
exp
xi
xi
n
y por lo tanto, como 6= 0, si hacemos L0 () = 0 obtenemos = P
i xi
el signo de L0 () que es un m
aximo.
1
, es facil ver, mirando
Xn
Ejemplo 3.9. Sea X1 , . . . , Xn una M.A.S. de X v U[0,b] (H) = {b > 0}, la funcion de verosimilitud
es entonces
(
(
n
1
1
Y
1
si
0
<
x
,
.
.
.
,
x
<
b
si b > max{x1 , . . . , xn }
1
n
n
=
L(b) =
I[0,b] (xi ) =
b
bn
b
0
si no
0
si no
i=1
Como la funci
on 1/bn es decreciente obtenemos que b = xn:n = max{x1 , . . . , xn }.
Observaci
on 3.10. Interpretaci
on del m
etodo: Para el caso discreto, si tenemos X1 , . . . , Xn
una M.A.S. y X v pX (X|) entonces
L(|
x) =
n
Y
pX (xi |) =
i=1
n
Y
P (X = xi |) = P (X1 = x1 , . . . , Xn = xn |),
i=1
esto es, la probabilidad de que salga la muestra (x1 , . . . , xn ) en funcion de . El metodo busca
maximizar la probabilidad de obtener el resultado que efectivamente obtuve, el que haga que la
muestra sea m
as probable.
Principio de invarianza del E.M.V.: Supongamos que tenemos un parametro (H) y
g : (H) R, y que estamos interesados en estimar g() por el metodo de maxima verosimilitud, es
que haga que la muestra sea mas probable. Queremos maximizar
= g()
decir queremos encontrar M
entonces
L (M |
x) =
sup
L(|
x),
{:g()=M }
x)
L(|
x) = sup L(, x
) = L(|
sup
M {:g()=M }
(H)
y
x
L (g(),
) =
sup
x).
L(|
x) = L(|
{:g()=g()}
es E.M.V. de g().
Entonces g()
Ejemplo 3.11. Sea X1 , . . . , Xn v Ber(p), el E.M.V. de p es p = Xn , como 2 = p(1 p) = g(p)
por el Principio de Invarianza
2 = g(
p) = p(1 p).
P
Observaci
on 3.12. Si h() = log(L()) = log(fX (xi |) podemos, dado que log(x) es una funci
on
creciente, tomar el que maximiza h()
17
c.s.
h(n ) = 0 y n 0
n (H) tal que
Demostraci
on.
h(0 ) h(0 ) =
n
X
log((f (xi |0 ))
i=1
n
X
i=1
n
X
i=1
log
f (xi |0 )
f (xi |0 )
entonces
h(0 ) h(0 )
1X
=
log
n
n
f (xi |0 )
f (xi |0 )
L.F.G.N.
f (xi |0 )
E log
c.s.,
f (xi |0 )
f (xi |0 )
f (xi |0 )
f (x|0 )
f (x|0 )dx =
f (x|0 )
f (x|0 )dx = 1.
n
o
B = : n (0 , 0 + ) y
h(n ) = 0 .
\
P
B1/n = 1.
i=1
c.s.
La sucesi
on n verifica n 0 y es cero de
h.
Observaci
on 3.14. El teorema anterior no asegura la existencia ni la unicidad del E.M.V.
P
c.s.
h(n ) = 0 n y n 0
18
3) E
3
con E(M (X))
< .
h(|
x) M (X)
3
!
f (x|)
= 0.
f (x|)
2
2 f (x|)
4) E
f (x|)
5) i() := E
!
= 0.
f (x|)
f (x|)
Entonces
!2
> 0, el n
umero i se denomina n
umero de informacion de Fischer.
n n 0
N 0,
d
1
i(0 )
Demostraci
on. La demostraci
on ser
a una consecuencia de dos afirmaciones:
1
h(0 ) N (0, i(0 ))
Afirmaci
on 1:
n
P
Afirmaci
on 2: n(n 0 )
h(0 ) 0.
ni(0 )
Veamos primero c
omo, a partir de estas afirmaciones, usando el Lema de Slutsky se concluye la
tesis. En efecto, podemos escribir
n(n 0 ) =
n(n 0 )
h(0 ) +
h(0 )
ni(0 )
ni(0 )
Veamos la demostraci
on de la Afirmacion 1:
n
f (xi |0 ) 1 X
f (xi |0 )
1 X
1
h(0 ) =
= n
= nZ n .
n i=1 f (xi |0 )
n
n i=1 f (xi |0 )
d
si aplicamos el T.C.L. tenemos que nZ n N (0, i(0 )). Lo que concluye la demostracion de la
afirmaci
on 1.
Veamos la demostraci
on de la Afirmacion 2: podemos escribir, usando el desarrollo de Taylor y
la hip
otesis 1,
0=
2
3
(n 0 )2
h(n ) =
h(0 ) + 2 h(0 )(n 0 ) + 3 h(n )
h(n )
2
3
(n 0 )
2 h(0 ) +
3 h(n )
h(n ) n
1
1
h(0 ) = 2
h(0 ) =
n(n 0 )
3
(
n
0
ni(0 )
ni(0 )
2 h(0 ) + 3 h(n )
2
"
#
1
1
1
h(0 )
1 2
1 3
(n 0 )
i(0 )
n
n 2 h(0 ) + n 3 h(n )
2
(3.1)
19
n
n
f
(x|
)
f
(x
|
)
f
(x
|
)
2
X
X
2
0
i
0
i
0
1
1
1
f (xi |0 )
h(0 ) =
=
.
2
n 2
n i=1
f (xi |0 )
n i=1
f (xi |0 )
Si aplicamos ahora la L.F.G.N el promedio anterior tiende a su esperanza, que es, aplicando la
hip
otesis 4:
!2
2
f
(x
|
)
f
(x
|
)
i 0
i 0
f
(x|)
2
E
= i(0 )
E
2
f (x|)
f (x|0 )
de donde se concluye que la expresi
on entre [] en 3.1. converge en probabilidad a 0 como queramos
demostrar.
Observaci
on 3.17. Sobre las hip
otesis del teorema anterior
1) Es la tesis del Teorema 3.13.
!
Z +
Z +
f (x|)
f (x|)
=
f (x|)dx =
f (x|)dx, observemos que si pudiera3) E
f (x|)
f
(x|)
Z +
4) An
alogo a 3).
5) Por 3), 5) es pedir que
3.4.
f (x|)
f (x|)
no sea constante.
m
etodo de estimaci
on por cuantiles
Definici
on 3.18. Cuantil o percentil p: Sea X v.a., dado p (0, 1) el cuantil p es
xp = nf x R : FX (x) p
Observaci
on 3.19. xp existe, y es mnimo
Demostraci
on. Es el infimo de un conjunto acotado inferiormente, por lo tanto existe. Si {xn } es
tal que F (xn ) p y xn p, como F es continua por derecha
lm F (xn ) = F (lm xn ) = F (xp ) p.
n
Definici
on 3.20. Percentil emprico: Sea X1 , . . . , Xn M.A.S. de X, consideremos la muestra
ordenada X1 = X1:n Xn = Xn:n , entonces
Xnp
si np N
Xp =
X[np]+1
si np
/N
20
1
1 +
x 2
.
Es f
acil ver que E(X) = y que su mediana es . Vamos a estimar = (, 2 ) por el metodo
0,25 , Q2 = X
0,5 y Q3 = X
0,75 , estimadores de los cuartiles.
de cuantiles. Tomamos k = 4, Q1 = X
Entonces, la funci
on a minimizar es
g(, 2 ) = (Q1 x0,25 )2 + (Q2 x0,5 )2 + (Q3 x0,75 )2
Calculemos los cuartiles x0,25 , x0,5 y x0,75 en funcion de y .
1
1
x
2
FX (x|, ) = + arctan
2
x
4
x0,5 = y x0,75 = + (estos valores se calculan facilmente a partir de x0,25 usando la paridad de
fX ). Luego, la funci
on a minimizar resulta entonces
g(, 2 ) = (Q1 + )2 + (Q2 )2 + (Q3 )2
Derivando esta funci
on respecto de y de , el gradiente resultante se anula en
3.5.
Q1 + Q2 + Q3
3
Q3 Q1
2
Estimaci
on de la funci
on de Distribuci
on
Definici
on 3.22. Distribuci
on Emprica: Sea X1 , . . . , Xn M.A.S. de X v FX donde FX es
desconocida, la distribuci
on emprica se define como
n
Fn (x) =
1X
I(,x] (Xi )
n i=1
Observemos que en cada x nos da la proporcion de observaciones menores o iguales que x, y que,
para x y n fijos, Fn (x) es una v.a. Observemos ademas que si xi 6= xj i 6= j los incrementos de Fn
son n , y de tama
no 1/n.
c.s.
Proposici
on 3.23. Fn (x) F (x) x R.
Demostraci
on. Es una consecuencia inmediata de la L.F.G.N a las variables I(,x] v Ber(p) con
p = FX (x).
Teorema 3.24. Teorema fundamental de la Estadstica, Glivenko-Cantelli, 1937: Sea
X1 , . . . , Xn una M.A.S. de X v FX entonces
c.s.
kFn FX k = sup Fn (x) FX (x) 0
xR
.
Demostraci
on. Para la demostraci
on vamos a necesitar el siguiente lema:
Lema 3.25. Yn = supxR Fn (x) FX (X) es una v.a., es decir, es medible.
21
xQ
xy
n+
22
3.6.
Teorema 3.26. Dado p (0, 1) tal que > 0 F (xp + ) > p entonces el percentil emprico
c.s.
Xp,n x p .
Demostraci
on. Observemos que
Fn (Xp,n )
=
1
n np = p
1
n ([np] +
1) p
si np N
.
si np
/N
n
n
dado > 0 sabemos que Fn (xp + ) F (xp + ) > p c.s. y Fn (Xp.n ) p por lo tanto n n0 se
c.s. n
cumple que Fn (Xp,n ) < Fn (xp + ), de donde Xp,n < xp + . Ademas Fn (xp ) F (xp ) < p
c.s
p,n
y, razonando de forma an
aloga xp < xp . Por lo tanto X
xp .
23
Captulo 4
Evaluaci
on de Estimadores
Definici
on 4.1. Estimador insesgado: Dada X1 , . . . , Xn M.A.S. de FX (x|) y T = Tn (X1 , . . . , Xn )
estimador de g() con g a valores reales, conocida. Decimos que
Tn es insesgado si E(Tn ) = g() (H)
n
Tn es asint
oticamente insesgado si E(Tn ) g()
Definici
on 4.2. Sesgo de un estimador: Se define el sesgo de un estimador Tn como E(Tn )g()
2
Definici
on 4.3. Error cuadr
atico medio: Se define E.C.M (Tn ) = E Tn g()
Es claro que si Tn es un estimador insesgado E.C.M.(Tn ) = V (Tn ), es natural entonces, tomar
estimadores con E.C.M. mnimo.
Definici
on 4.4. Estimador de mnima varianza: Sea Tn un estimador de g() tal que Tn L2 ,
decimos que es insesgado en 0 (H), de varianza mnima si
i) Tn es insesgado en 0
ii) Si Tn0 L2 es insesgado en 0 V ar0 (Tn ) V ar0 (Tn0 ).
R
Observaci
on 4.5. E Tn (X1 , . . . , Xn ) = Rn Tn (x1 , . . . , xn )dFX (x|)
Observaci
on 4.6. Si no pedimos que que Tn sea insesgado, cualquier constante es de mnima
varianza.
Teorema 4.7. Tn es insesgado de minima varianza en 0 si y solo si
E0 (f (X1 , . . . , Xn )Tn (X1 , . . . , Xn )) = 0 para toda f (x1 , . . . , xn ) a valores reales, tal que E (f ) = 0.
Demostraci
on. Para demostrar el teorema sera necesario el siguiente lema
Lema 4.8. Tn es insesgado de mnima varianza en 0 si y solo si Tn es insesgado y V ar0 (Tn )
V ar0 (Tn + f ) para todo R , para todo f tal que E0 (f ) = 0.
Demostraci
on. Veamos el directo, sea y f tal que E0 (f ) = 0, Tn0 = Tn + f es insesgado pues
E(Tn + f ) = E(Tn ) + E(f ) = E(Tn ) = g(). Como Tn es de mnima varianza V ar0 (Tn )
V ar0 (Tn0 ).
Para demostrar el recproco consideremos Tn0 insesgado, entonces Tn0 = Tn + (Tn0 Tn ), tomemos
f = Tn0 Tn y = 1 entonces E(f ) = 0, luego, por hipotesis
V ar0 (Tn ) V ar0 (Tn + f ) = V ar0 (Tn0 ).
24
Definici
on 4.9. Estimador insesgado de mnima varianza uniformemente: Tn es estimador
I.M.V.U. si es insesgado de varianza mnima (H).
Ejemplo 4.10. Sea X1 , . . . , Xn M.A.S. de X v exp(), = 1/. Un estimador de es Xn , veamos
c.s.
que es de mnima varianza. Sabemos que Xn E(X) = 1/ = . Si f es tal que E(f ) = 0 para
todo .
Z
X
E(f ) =
f (x1 , . . . , xn )n exp{
xi }dx1 . . . dxn = 0
[0,+)n
entonces
Z
f (x1 , . . . , xn ) exp{
xi }dx1 . . . dxn = 0 R.
[0,+)n
f (x1 , . . . , xn )
[0,+)n
n
X
1 X
xi exp{
xi }dx1 . . . dxn = 0
n i=1
X
f (x1 , . . . , xn ) exp{
xi } dx1 . . . dxn = 0
X
f (x1 , . . . , xn ) exp{
xi } dx1 . . . dxn = 0
f (x1 , . . . , xn )
[0,+)n
[0,+)n
n
X
1 X n
xi exp{
xi }dx1 . . . dxn = 0
n i=1
[0,+)n
E(f ) =
(x1 ,...,xn
(x1 ,...,xn
){0,1}n
n
X
n
Y
i=1
P
){0,1}n
f (x1 , . . . , xn )
f (x1 , . . . , xn )p
f (x1 , . . . , xn )p
p(xi |p)
P
xi
xi
xi
(1 p)n
xi
(1 p)n
k=0 x1 ++xn =k
n
X
k=0
"
#
X
f (x1 , . . . , xn ) pk (1 p)nk = 0
x1 ++xn =k
25
x1 ++xn =k
Tn
E(Tn ) =
fX (xi |) dx1 . . . dxn
Rn
i=1
y
n
Y
Z
fX (xi |)dxi =
Rn i=1
Rn
entonces
n
Y
fX (xi |)dxi ,
i=1
g 0 ()
V ar(Tn )
nE
f (x|)
2 .
f (x|)
Adem
as, el igual se da si y solo si existe = (n, ) tal que
c.s.
Tn (X1 , . . . , Xn ) g() =
n
X
f (xi |)
i=1
f (xi |)
Demostraci
on.
Z
n
Y
g () = E(Tn ) =
Tn (x1 , . . . , xn )
fX (x|)dx1 . . . dxn
Rn
i=1
#
"
Z
n
Y
fX (xi |) dx1 . . . dx n
Tn (x1 , . . . , xn )
=
Rn
i=1
Z
n
Y
=
Tn (x1 , . . . , xn ) g()
fX (xi |)dx1 . . . dxn
i=1
Rn
r
Qn
Z
Yn
fX (xi |)
Tn (x1 , . . . , xn ) g()
=
fX (xi |) pQni=1
dx1 . . . dxn
i=1
Rn
i=1 fX (xi |)
0
26
2
Tn g()
n
2 Y
Rn
Z
fX (xi |)
i=1
Rn
2
Qn
Q i=1 fX (xi |)
n
i=1 fX (xi |)
2
Qn
Z
Q i=1 fX (xi |)
=V (Tn )
n
Rn
i=1 fX (xi |)
2 !2
Q
n
f
(x
|)
X
i
Q i=1
=V (Tn )E
n
i=1 fX (xi |)
!2
n
Y
=V (Tn )E
log
fX (xi |)
i=1
2
!2
X f (xi |)
=V (Tn )E
.
f (xi |)
Definamos g(Xi ) =
E
f (xi |)
f (xi |)
X
X
X
2
g(Xi ) = E
g 2 (Xi ) + 2
g(Xi )g(Xj ) = nE g(Xi )2 + 2
E g(Xi )g(Xj ) .
i6=j
i6=j
Basta ver
que
E
g(X
)g(X
)
=
0
para
todo
i
=
6
j.
Como
son
independientes
E
g(X
)g(X
)
=
i
j
i
j
E g(Xi ) E g(Xj ) .
Z
f (xi |)
f (xi |)dx
f (xi |)
Z
f (xi |)dx = 0.
=
R
E(g(Xi )) =
Para ver cuando se da el igual, observemos que hemos usado la desigualdad de Cauchy-Schwartz,
por lo tanto el igual se da si y solo si existe = (n, ) independiente de x1 , . . . , xn tal que
Q
qY
fX (xi |)
(Tn g())
fX (xi |) = pQ
fX (xi |)
y esto sucede si y solo si
Y
X
fX (xi |)
log
fX (xi |) =
log fX (xi |)
=
fX (xi |)
fX (xi |)
Tn g() =
=
fX (xi |)
Definici
on 4.13. Estimador eficiente: Si Tn es un estimador insesgado para g() y cumple el
igual en la desigualdad de Cramer-Rao se dice que es eficiente
Observaci
on 4.14. Si es un estimador de , es eficiente si y solo si
i) es insesgado
27
=
ii) V ar()
nE
f (x|)
2
f (x|)
Observaci
on 4.15. Observemos que si es eficiente, es de mnima varianza (entre el conjunto de
estimadores que estan el las hip
otesis del Teorema de Cramer-Rao). Podria no existir un estimador
eficiente, adem
as, existen estimadores de mnima varianza que no cumplen la igualdad.
Ejemplo 4.16. Sea X1 , . . . , Xn M.A.S. de X v Ber(p), Xn es insesgado y ademas
!2
!
2
1
1
1
1
p p(x|p)
nE
p+
(1 p) = n
=n
=
,
2
p(x|p)
p
1p
p(1 p)
V ar(X)
por lo tanto p = Xn es eficiente. Como Xn es eficiente es de mnima varianza varianza ya que X es
de recorrido finito.
Definici
on 4.17. Estimador Suficiente: Dada X1 , . . . , Xn M.A.S. de X v F (x|) y T (X1 , . . . , Xn )
estimador, decimos que T es suficiente para si y solo si FX1 ,...,Xn |T no depende de .
Pn
Ejemplo 4.18. Sea X1 , . . . , Xn M.A.S. tal que X v Ber(p) entonces T = i=1 Xi es un estimador
suficiente para estimar p.
Demostraci
on.
pX1 ,...,Xn |T =t (x1 , . . . , xn ) = P (X1 = x1 , . . . , Xn = xn |T = t) =
(
P
0
si t 6= xi
P
P (X1 =x1 )...P (Xn =xn )
si t = xi
P (T =t)
P
P (X1 , . . . , Xn , T = t)
=
P (T = t)
(1 p)n xi
=
n
Ct pt (1 p)nt
1
= n.
Ct
p
xi
Qn
i=1
f (xi |) = g T (
x), h(
x)
Demostraci
on. (Caso discreto:)
L(
x|) =
n
Y
i=1
pX (xi |) =
n
Y
P (X = xi |) = P (X1 = x1 , . . . , Xn = xn |) =
i=1
P (X1 = x1 , . . . , Xn = xn |T = t)P (T = t) = h(
x)g(T (
x, ))
Veamos el recproco, supongamos que P (T = t) > 0.
P (X1 = x1 , . . . , Xn = xn , T = t)
P (T = t)
(
0
si t 6= T (
x)
=
P (X1 =x1 ,...,Xn =xn )
si t = T (
x)
P (T =t)
P (X1 = x1 , . . . , Xn = xn |T = t) =
P (X1 = x1 , . . . , Xn = xn |T = t) = P
28
L(
x|(, )) =
exp 2 (xi )2
2
i=1
(
)
n
1
1 X
2
=
exp 2
(xi )
2 i=1
(2)n/2 n
( n
)
n
X
X
2 n
2
2
= (2 ) 2 exp
xi 2
xi + n
i=1
n
2
= (2)
i=1
1
n exp 2 T2 2T1 + n2 .
2
Luego T (
x) = (T1 , T2 ) es suficiente.
Observaci
on 4.23. Si T es fuciente, el E.M.V. es funci
on de un estimador suficiente, ya que
en este caso L(
x|) = g(T (
x), )h(
x), y, al maximizar en como h no vara, podemos maximizar
solamente en g(T (
x), )
Definici
on 4.24. Estimador suficiente minimal: T estimador suficiente, es minimal si para
todo T 0 estimador suficiente, T es funci
on de T 0 .
Teorema 4.25. Sea X1 , . . . , Xn M.A.S. de X v FX (x|), si T es un estimador que cumple:
L(
x|)
no depende de T (
x) = T (
y)
L(
y |)
entonces T es suficiente minimal.
29
E(g(T )) =
Z
g(t)fT (t)dt =
n
tn1 1
g(t)n n1 dt = n
tn1 g(t)dt,
R
luego E(g(T )) = 0 si y solo si 0 tn1 g(t)dt = 0 lo cual implica que g(t) = 0, ya que esta integral es
derivable c.s., n1 g() = 0 entonces g() = 0 para todo .
Definici
on 4.28. funci
on de P
erdida: Sea (H) y L : (H) (H) R que verifica
i) L(u, v) = L(v, u) para todo u, v (H).
ii) L(u, v) = 0 si y solo si u = v.
iii) L es convexa, es decir,
para todo p, q (H) (H) L(p + (1 )q) L(p) + (1 )L(q).
se denomina funci
on de perdida.
Observaci
on 4.29. Si L es C 2 es convexa si y solo si H(x,y) L es semidefinido positivo
Definici
on 4.30. funci
on de riesgo: Sea X1 , . . . , Xn M.A.S. de X v FX (x|) y (H) desconocida, dado T (X1 , . . . , Xn ) estimador de y L una funcion de perdida, definimos la funcion de
riesgo
R(, T ) = E L(, T ) .
Definici
on 4.31. Estimador de riesgo mnimo, uniformemente entre los insesgados: T
es E.R.M.U entre los insesgados si dado T 0 estimador insesgado se cumple que
R(, T ) R(, T 0 ) (H).
Teorema 4.32.
entonces
entonces
R(, ) R(, ).
30
n
X
k=0 x1 ++xn =k
n
X
k
k
k=0
= (1 p)n
k
pk (1 p)nk
n
p (1 p)nk Ank = 0 p
X k p k
k!
g
.
n
1p
(n k)!
31
32
Captulo 5
/ n
/ n
nk
nk
=
nk
=2
1,
nk
nk
1 /2 =
entonces
= 1 (1 /2),
k = 1 (1 /2).
n
Notacin: Anotaremos Zp = 1 (p), con esta notacin el intervalo de confianza del ejemplo
anterior es
X n Z1/2 , X n + Z1/2 .
n
n
33
Captulo 5.
n(X n )
v Tn1 ,
Sn
entonces
P ( I) =P nk T nk
=2FT ( nk) 1 = 1 ,
donde hemos usado la simetra de F . Despejando obtenemos
k=
t1/2 (n 1)
FT1 (1 /2)
=
,
n
n
donde usamos la notacin FT1 (p) = tp (n 1) donde n 1 son los grados de libertad. Por lo tanto el
intervalo de confianza para al nivel 1 es
Sn
Sn
I = X n t1/2 (n 1), X n + t1/2 (n 1) .
n
n
c.s.
n(X n ) d
Tn =
N (0, 1),
Sn
tp (n 1) Zp .
Sn2
v 2n1 ,
2
entonces
P ( 2 /b Sn2 2 /a) = P
(n 1)Sn2
n1
(n 1)
2
b
=F
n1
a
F
n1
b
,
Basta elegir a tal que F ((n 1)/a) = 1/2 y b tal que F ((n 1)/b) = /2, de donde
a=
n1
21/2 (n
1)
b=
n1
,
1)
2/2 (n
2
2
donde hemos usado la notacin F1
con (n 1) grados de
2 (p) = p (n 1), para la distribucin
libertad. Luego el intervalo es
"
#
n1
n
1
S2 ,
.
I=
21/2 (n 1) n 2/2 (n 1)
34
Captulo 5.
Ejemplo 5.6. Sea X v Ber(p) con nqgrande tomemos = p, si aproximamos usando el T.C.L. es
facil ver, como 2 = p(1 p) y Sn = X n (1 Xn ), nos queda el intervalo
q
q
Xn (1 Xn )
Xn (1 Xn )
I = Xn
Z1/2 , Xn +
Z1/2
n
n
Ejemplo 5.7. Aplicacin del T.C.L.: Intervalos de confianza aproximados para = E(X) cuando
2 = f (). Consideremos X1 , . . . , Xn M.A.S. de X L2 y g : R R clase C 1 . Si g 0 () 6= 0, veamos
d
que n(g(Xn g()) N (0, (g 0 ())2 ) :
35
Captulo 6
Pruebas de hip
otesis
Supongamos que queremos saber si una moneda esta balanceada o no. Se tira 100 veces y
obtenemos 54 caras, debemos tomar una decision entre
H0 : p = 1/2
donde p = P (cara)
H1 : p 6= 1/2.
Definici
on 6.1. Test de hip
otesis: Dada X1 , . . . , Xn M.A.S. de FX (x|) con desconocido, un
test de hip
otesis es decidir entre 2 hip
otesis;
H0 : A
hipotesis nula
H1 : B
hipotesis alternativa
Definici
on 6.7. Probabilidad del error tipo 2: definimos, para B
() = PH1 (X1 , . . . , Xn )
/ RC = P ( error tipo 2 ).
Definici
on 6.8. Potencia de la prueba: se define como
() = P (X1 , . . . , Xn ) RC
36
0,402 p
0,598 p
=
p(1p)
100
p(1p)
100
Donde hemos usado que Xn v N p, p(1p)
.
100
Observaci
on 6.12. Si construimos una RC con un nivel dado entonces puedo controlar el error
de tipo 1, y no el error de tipo 2, podria decirse entonces que el error de tipo 1 es mas grave.
Observaci
on 6.13. En general, uno define la regi
on crtica a partir de un estimador insesgado
RC = {| 0 | k}.
Observaci
on 6.14. Al permitir variar el tama
no de la muestra uno puede fijar los errores y y
hallar un n que verifique las igualdades.
Observaci
on 6.15. Como el error de tipo 1 es m
as grave, al rechazar H0 uno debe estar seguro
(tener evidencia) de que H0 es falso. No rechazar H0 implica que no hay suficiente evidencia emprica
para decir que H0 es falso. No es que se acepte H0 .
6.1.
Regi
on Crtica Optima,
Teorema de Neyman-Pearson
(
Sea Sk =
n
Y
f (xi , 1 )
i=1
f (xi |0 )
H0 :
= 0
H1 :
= 1
)
k , si k es tal que
PH0 (Sk ) = PH0 (X1 , . . . , Xn ) Sk = ,
entonces Sk es entre todas las RC de nivel la que tiene menor (maxima potencia).
37
Z
=
n
Y
n
Y
"Z
Z
f (xi |0 )dx1 . . . dxn
n
Y
#
f (xi |0 )dx1 . . . dxn
S0c Sk i=1
n
Y
Skc i=1
k P0 (Skc )
S0c Sk i=1
n
Y
n
Y
=k
S0c i=1
S0c i=1
P0 (S0c ) = k[1 (1 )] = 0.
n
Y
f (xi |1 )
i=1
f (xi |0 )
n
Y
e 2 (xi 1 )
+ 12 (xi 0 )2
H0 :
= 0
H1 :
= 1
= e 2
Pn
2
2
i=1 (xi ) +(xi 0 )
= e 2 (20 21 )
Pn
i=1
xi +n(21 20 )
i=1
n
Y
f (xi |0 )
f (xi |1 )
i=1
k (1 0 )
n
X
xi + n(21 20 ) k
i=1
(1 0 )xn (21 20 ) = k.
n
n
Por lo tanto la regi
on crtica es: Si 0 > 1 RC = (x1 , . . . , xn ) Rn : xn
n
o
k
y si 1 > 0 la regi
on crtica es RC = (x1 , . . . , xn ) Rn : xn 0
1
k
0 1
= 0
H1 :
= 1
Xn 0
n(k 0 )
1/ n
=
1
n(k 0 ) = Z1 entonces k = 0 +
n(k 0 ) = .
Z1
.
n
38
= 0
H1 :
> 1
Resulta una RC
optima de la misma forma (observar que el hecho de que H1 : = 1 se usa s
olo
cuando 1 > 0). En este caso decimos que es una RC uniformemente
optima o uniformemente
de m
axima potencia.
Observaci
on 6.20. Si fuese
H0 : 0
H1 : > 1
Resulta la misma region crtica que en el caso anterior. Observemos ademas que se calcula =
on PH0 (Xn k) crece con y el supremo es en 0 .
sup PH0 (Xn k) la funci
Corolario 6.21. Corolario de Neyman-Pearson, en las hipotesis del teorema, + 1
Demostraci
on.
c
= PH1 (S ) =
n
Y
Z
f (xi |1 )dx1 . . . dxn k
n
Y
S c i=1
S c i=1
k 1
Z Y
n
f (xi |1 )dx1 . . . dxn = k(1 ),
S i=1
si k 1 entonces 1 de donde + 1,
si k 1
1 = PH1 (S) =
Z Y
n
Z Y
n
S i=1
S i=1
n
Y
f (Xi |1 )
i=1
Demostraci
on. log
f (Xi |0 )
n
Y
f (Xi |1 )
i=1
f (Xi |0 )
n
Y
1
f (Xi |1 )
log
n
f
(Xi |0 )
i=1
H0 :
= 0
H1 :
!
= 1
kn
n
X
= entonces n 0.
log
i=1
y por la L.F.G.N.
f (X|1 )
E log
f (X|0 )
f (X|1 )
< log E
f (X|0 )
Z
f (x|1 )
= log
f (x|0 )dx = log(1) = 0.
f (x|0 )
c.s.
f (Xi |1 )
f (Xxi |0 )
39
(
Sn =
n
Y
f (Xi |1 )
kn
f (Xi |)
i=1
y
(
An,m
n
X
log
i=1
f (Xi |)
f (Xi |)
< m .
n
X
log
i=1
f (Xi ()|1 )
f (Xi ()|0 )
< m,
Sea Sn =
nQ
n
f (xi |1 )
i=1 f (xi |0 )
= 0
H1 : = 1
o
1 entonces n + n 0
Pn
P
i |1 )
Demostraci
on. Si H0 es cierto entonces i=1 log ff (X
, de donde n = PH0 (Sn ) =
(Xi |0 )
P
n
n
f (Xi |1 )
PH 0
i=1 log f (Xi |0 ) 0 0.
Pn
P
(Xi |0 )
Si H1 es cierto entonces i=1 log ff (X
.
i |1 )
n = PH 1
n
X
i=1
6.2.
log
f (Xi |1 )
f (Xi |0 )
!
0
0.
Definici
on 6.24. Familia con C.V.M.: Una familia de densidades f (|) con (H) R tiene
C.V.M. si
Qn
L(
x|)
i=1 f (xi |)
Q
=
= g T (
x) ,
n
0
0
L(
x| )
i=1 f (xi | )
donde g : R R es estrictamente creciente, > 0 , y T = Tn es un estimador. Observemos que g
depende de n de y de 0
40
f (xi |) = Cn eQ()t(x) h(
x)
con Cn () > 0,
i=1
(6.1)
Sea S 0 = {T (
x) k} con k 0 tal que S 0 (0 ) = S (0 ), (tal k 0 existe porque hemos supuesto que
T es absolutamente continua). Como hemos supuesto que la familia tiene C.V.M. sabemos por
el teorema de Neyman Person que S 0 es uniformemente de maxima potencia para la prueba 6.1.
S ().
Como S (0 ) = R (0 ) o
Entonces S 0 () S () 0 . En particular S 0 ()
0
lo que es lo mismo P0 (T (
x) k ) P0 (T (
x k) obtenemos que k k 0 , pero esto contradice
41
6.3.
M
etodo de la raz
on de verosimilitud para RC:
n
Y
f (xi |0 )
i=1
sup L(
x|) =
(H)
x|0 ) =
L(
x|1 ) =
L(
n
Y
i=1
n
Y
f (xi |0 ) de donde R =
f (xi |1 )
i=1
Entonces, la RC de de la raz
on de verosimilitud queda
)
(
n
Y
f (xi |0 )
n
k
x
R :
f (xi |1 )
i=1
que es la RCO del teorema de Neyman Pearson.
Ejemplo 6.27. Sea X1 , . . . , Xn M.A.S. de X v N (, 1) y la prueba
H0 : = 0
H1 : 6= 0
Hallaremos la RC de la razon de verosimilitud. Tenemos que
sup L(
x|) = L(
x|x)
R
y
L(
x|) =
entonces
n
1X 2 n 2
exp
x
2 i=1 i
2
)
exp{nx}
n2
0
2
n2
2
n
L(
x|0 )
e 2 +n0 x
2 0 +n0 x nx
2
=
=
e
= e 2 (0 x)
2
nx
2
+nx
L(
x|x)
e 2
si planteamos la regi
on critica
L(
x|0 )
n
k (x 0 )2 L(k) = k 0 |x 0 | k 00
L(
x|x)
2
por lo tanto la regi
on crtica es de la forma
RC = {
x Rn : |x 0 | k}
Proposici
on 6.28. Consideremos la prueba
H0 : A (H)
H1 :
/A
(
x) =
supA L(
x|)
supA g(T (
x), )h(
x)
supA g(T (
x), )
=
=
= (T (
x))
sup(H) L(
x|)
sup(H) g(T (
x), )h(
x)
sup(H) g(T (
x, ))
42
6.4.
6.4.1.
Test de 2 :
Consideremos la prueba
H 0 : FX = F0
H1 : FX 6= F0
Dado k N elijo I1 , . . . , Ik intervalos en R tal que Ii = (ai1 , ai ], I1 = (, a1 ] y Ik = (ak , +]
tal que Ii Ij = si i 6= j, y ki=1 Ii = R. Si H0 es cierto P (X Ij ) = F0 (aj ) F0 (aj1 ) = F0 (Ij ),
c.s.
dada X1 , . . . , Xn M.A.S. de X definimos Fn la distribucion emprica, sabemos que Fn (Ij )
FX (Ij ). Sea bj la cantidad de observaciones en Ij . Si tomo los valores esperados (bajo H0 cierto) en
Pk
el intervalo Ij := Ej = nF0 (Ij ), consideremos T = i=1 (bj Ej )2 . Es razonable entonces construir
la RC = {T k}. P
(a E )2
j
j
, bajo la hipotesis H0 , se prueba que Tn 2k1 . Luego si =
Si definimos Tn =
Ej
PH0 (Tn k), se aproxima con la distribucion de una 2k1 y se halla un k aproximado.
6.4.2.
Test de Kolmogorov-Smirnov
Consideremos
H0 : FX = F0 completamente conocidaH1 ; FX 6= F0
tomemos RC = {supxR |Fn (x) F0 (x)| k}, por GilvencoCantelli Fn converge uniformemente
a F0 (x). Para conocer la distribuci
on de supxR |Fn (x) F0 (x)| tneemos el siguiente teorema.
Teorema 6.29. Kolmogorov: Si Dn = supxR |Fn (x) F0 (x)| entonces, si F0 es continua
lm P
n+
X
2 2
(1)n1 e2n z
nDn z = 1 2
n=1
Definici
on 6.30. Dada una prueba de hipotesis
H0 : A
H1 :
/A
cuya regi
on crtica sea RC = {T k} con T = T (X1 , . . . , Xn ) estimador de , el p valor es
T (
sup P T (X)
x)
A
k < P P T (X)
T (
= sup P T (X)
x)
0
de donde T (
x) < k por lo tanto x
/ RC y no rechado H0 . El razonamiento es analogo si >
p valor.
Observaci
on 6.33. La propiedad se cumple si H0 es simple ( = 0 ), o en el caso de concientes
de verosimilitud mon
otonos.
6.5.
An
alisis de Varianza, (ANOVA)
Supongamos que tenemos {Yij } observaciones, con i = {1, . . . , k} y j = {1, . . . , nj } y que Yij v
N (i , 2 ) para todo i, j. Queremos testear si los i son todos iguales o no. El supuesto de que 2
es la misma se llama homocedasticidad. Supongamos que las variables Yij son independientes. Para
cada i {1, . . . , k} definimos
n
1 X
Yij ,
Yi =
ni j=1
y
n
Si2 =
i
1 X
(Yij Yij )2 .
ni 1 j=1
Sabemos que
(ni 1) 2
Si v 2ni 1
2
P
Observaci
on 6.34. Si A = {a = (a1 , . . . , ak ) Rk :
ai = 0} entonces
X
1 = = k a A,
ai i = 0
Yi v N (i , 2 /ni )
Demostraci
on. El directo es inmediato, veamos el recproco, tomemos a1 = 1, a2 = 1, a3 = =
ak = 0 entonces 1 2 = 0 y as sucesivamente 1 = = k .
Pk
P
Observaci
on 6.35. Si defino Sp2 = N 1k i=1 (ni 1)Sik con N =
ni . entonces
k
N k 2 X (ni 1) 2
Sp =
Si v 2N k .
2
2
i=1
Adem
as
k
X
i=1
ai Yi v N
k
X
i=1
Pk
ai i ,
2 2
i=1 ai
ni
!
.
P
Se puede demostrar que Sp2 y
ai Yi son independientes, luego, si recordamos que si X v N (0, 1)
es independiente de 2n entonces
X
p
v tn
2n /n
44
i=1
i=1 ai /ni
q
= qP
v tN k
(N K) 2
k
2 /n
S
/(N
k)
S
a
2
p
i
p
i=1 i
k
X
)
P
| ai Yi |
pP
>m ,
Sp
ai /ni
!
P
| ai Yi |
pP
>k ,
Sp
ai /ni
ai i = 0 a A
H1 : noH0
P
ai Yi
2
Tomo el estadstico Ta = pP 2
, resulta natural plantear la region crtica RC = sup Ta > k .
Sp
ai /ni
aA
Debemos
entonces
hallar
la
distribuci
o
n
de
sup
T
bajo
la
hip
o
tesis
H
cierto.
Llamemos
Ci = Yi
0
aA a
P
ni Ci
y Ci = N .
P ai
2
2
P
(Ci C) ni
a
C
1
n
i
i
i
P
sup Ta2 =
sup P
= sup
,
Sp aA
ai /ni
ai /ni
aA
aA
P
donde hemos usado que
ai C = 0, si aplicamos la desigualdad de Cauchy-Schwartz
P ai
2
P 2
P
(Ci C) ni
X
ai /ni ni (Ci C)2
ni
P
P
sup
=
ni (Ci C)2 .
sup
ai /ni
ai /ni
aA
aA
Obtuvimos
una cota para el supremo, veamos que se alcanza, si tomamos ai = cteni (Ci C) es claro
P
que
ai = 0, entonces el supremo se alcanza. (Basta observar que la igualdad en Cauchy-Schwartz
se da en ese caso).
sup Ta2 =
aA
Pk
i=1
ni (Yi Y )2
Sp2
Pk
donde
Y =
i=1
ni Yi
45
k
X
i=1
2 2k1
> cte
2 2
aA N k /(N k)
sup
2k1 /(k 1)
v F (k 1, N k) cte/(k 1).
2N k /(N k)
Planteamos
= PH0 (RC) = 1 PH0 F (k 1, N k)
cte
entonces
k1
46
Captulo 7
Modelos Lineales
7.1.
Definici
on 7.1. Dado un vector aleatorio (X1 , . . . , Xn ) recordemos que el
(1 , . . . , n ) := (E(X1 ), . . . , E(Xn )), y la matriz de covarianzas es
nn =
..
..
..
.
.
.
cov(Xn X1 )
...
vector de medias =
V ar(Xn )
V ar(AX + b) = AX At .
fU (x) =
e 2 kxk
n .
(2) 2
47
fX (x) =
e 2 (x) (x)
(2)n/2 | det |1/2
= CC t .
Demostraci
on. X = CU + = g(U ), g : Rn Rn es invertible ya que C lo es.
fX (x) = fg(U ) (x) = fU ((g 1 (x))
1
1
1
= fU (C 1 (x ))
| det Jg (g 1 (x))|
| det C|
1 t
e 2 (x)(C ) C (x)
(2)n/2 | det |1/2
2) La distribuci
on normal tpica es invariante bajo tranformaciones ortogonales. De hecho es
la u
nica distribuci
on que depende solamente de la norma, y que es invariante bajo transformaciones ortogonales (a menos de multiplicarla por constantes). Que es invariante bajo
transformaciones ortogonales se sigue de la definici
on y de la propiedad anterior.
3) Si X es normal multivariada, entonces AX + b tambien lo es, con Amn y bm1 constantes.
4) Si X = CU + y C es sobreyectiva entonces X es absolutamente continua.
Definici
on 7.8. Normal multivariada degenerada: Si X = CU + con U normal tpica,
decimos que es degenerada si C no es sobreyectiva
Observaci
on 7.9. Si X es degenerada entonces no es absolutamente conitnua.
Demostraci
on. Supongamos por absurdo que existe una densidad fX . Recordemos que C no es sobre
si y solo si det(CC t ) = det() = 0, si det() = 0 entonces ttt = V ar(tX) = 0 entonces tX es c.s.
constante, de donde se sigue que esta contenida en un hiperplano S, si existiese fX (x1 , . . . , xn ), al
integrarla en S obtendramos que debera dar 1 porque X esta contenida ahi, pero 0 porque S tiene
medida nula, absurdo.
Observaci
on 7.10. Si X v N (, ) cualquier subvector de X tambien es normal multivariado.
Esto es obvio de hecho de que si X es normal multivariado, AX tambien lo es, basta tomar A
adecuadamente.
Observaci
on 7.11. Si (X1 , . . . , Xk , Y1 , . . . , Yk ) v N (, ) entonces si cov(Xi , Yj ) = 0
ces (X1 , . . . , Xk ) y (Y1 , . . . , Yk ) son independientes.
i, j enont-
Demostraci
on. Si es invertible, entonces
1 =
1
X
0
0
1
Y
y es f
acil ver que fX,Y (x) = gX (x)gY (y).
Si no es invertible, y Y si, entonces (X1 , . . . , Xk ) S, variedad lineal de dimensi
on k,
supongamos que S esta generado por X1 , . . . , X entonces
(X1 , . . . , X , Y1 , . . . , Ym ) est
a en las hip
otesis anteriores y por lo tanto son independientes, de donde
(X1 , . . . , Xk , Y1 , . . . , Ym ) lo son. El caso en que Y tampoco es invertible es an
alogo.
48
7.2.
Modelos Lineales
1
X11 X12 . . . X1k
Y1
.
..
..
..
..
.
. = ..
.
.
Xn1
Xn2
...
Xnk
X11
..
X= .
Xn1
X12
..
.
...
..
.
...
X1k
Yn
Se observan n muestras de Y ,
Xn2
Xnk
es la matriz de dise
no (constante y conocida).
En el modelo lineal planteamos Y = X + e donde, X es una matriz de dise
no, y
Y1
1
e1
..
..
..
Y = . = . e = . ,
Yn
k
en
e aleatorio (vector de errores).
Ejemplo 7.12. An
alisis de varianza: Yij = i + eij , en este caso la matrix X es un vector n 1
con entradas todas iguales a 1.
Ejemplo 7.13. Modelo lineal simple: Y = + X + e, tomamos (Y1 , X1 ), . . . , (Yn , Xn ) y
= (, ), y como matriz de dise
no la matriz
1 X1
1 X2
X= .
,
..
Xn
1 X1 X12 . . . X1k
..
..
X= .
.
.
1
Xn
Xn2
...
Xnk
Observaci
on 7.15. Observemos que, en vistas del ejemplo anterior, la funci
on y = g(x1 , . . . , xn , )
es lineal en pero no en x
= (x1 , . . . , xn ), podra ser x3 = cos(x1 ) etc.
7.3.
Hip
otesis del modelo
1) Rango(g(X)) = k.
2) Los errores tienen media 0, E(ei ) = 0 para todo i.
49
Rk ,
si consideramos la multiplicaci
on por X como una transformacion lineal de Rk en Rn entonces X
es la proyecci
on de Y sobre la imagen de X, entonces Y X X
para todo Rk , esto es
t
adem
as el E.M.V. de es n1 kY X k.
.
Teorema 7.19. Bajo las hip
otesis 1) a 4) es insesgado de mnima varianza, uniformemente.
Demostraci
on. Veamos que es suficiente:
1
2 exp 1 kX Xk2 = h(
)
L(y1 , . . . , yn |, 2 ) = (2 2 )n/2 exp 2 kY X k
y )g(,
2
2 2
donde hemos usado que Y X es perpendicular a X X. Es facil ver que es completo y por lo
tanto minimiza el riesgo uniformemente entre los insesgados, considerando como funcion de riesgo
kk2 .
Teorema 7.20. Bajo 1) , 2) y 3), si los ei son independientes (no necesariamente con distribuci
on Noramal), entonces es uniformemente de minima varianza entre los estimadores lineales e
insesgados, (es decir los
= CY ).
Teorema 7.21. Bajo los supuestos 1) a 4):
50
a)
2
kY X k
n
2
=
v 2(nk)
2
2
b) s2 =
n
2
kY X k
=
es insesgado (de donde
2 es asint
oticamente insesgado).
nk
nk
c)
kX( )k2
v F (k, n k)
ks2
d)
1 (1 1 ) + (2 2 ) + + n (n n )
p
v tnk
s t (X t X)1
Rn
Demostraci
on.
a) Sea H = {v1 , . . . , vn } base ortonormal de Rn tal que {v1 , . . . , vk } es base
ortonormal
Pnde S = Im(X), tenemos entonces que existen Z1 , . . . , Zn variables aleatorias tal
que Y = i=1 Zi vi . Si B es la matriz de cambio de base de la base H a la base canonica, B
es ortogonal y
Y = BZ de donde Z = B 1 Y = B t Y v N (B t X, B t 2 IdB) y por lo tanto Z es normal
multivariado y Z = 2 Id, adem
as Zi son variables aleatorias independientes con distribucion
N (1 , 2 ).
2
2
X
n
n
k
n
X
X
X
2
Zi2 ,
Z i vi
=
Z j vj
=
Z i vi
kY X k =
j=1
i=1
i=k+1
k=1
2
n
X
2
Zi
kY X k
=
2
i=k+1
Zi
v N (i , 1),
2
bastaria entones
Pn demostrar que todos los i para i = k + 1 son 0. Observemos que E(Y ) = X S
y E(Y ) = i=1 i vi .
!
2
kY X k
1
2
E kY X k) =
E
= 2
b) E(s ) =
nk
nk
2
2
k
k
k
X
X
X
2
c) kX Xk =
Z i vi
i vi
=
(Zi i )2 . entonces
i=1
i=1
k
kX X
=
ks2
i=1
P Zi i 2
k
1
2 nk kY
X k
2k /k
2
nk /(n
k)
v F (k, n k).
por lo tanto si usamos la parte b) solo basta ver que son independientes, esto se sigue de que
kY Xk2 depende de Zk+1 , . . . , Zn y X de Zk+1 , . . . , Zk .
51
7.4.
Aplicaci
on
Construcci
on de intervalos de confianza para t . Consideremos
I = t ks, t + ks ,
!
!
t ( )
t
)
k
,
1 = P (t I) = P
k =P p t t
p t t 1
s (X X)1
s
(X X)
p
de donde, por la parte d) k = t1/2 (n k) t (X t X)1 .
Observemos que en particular tomando = (1, . . . , 0) obtenemos un intervalo de confianza para 1 .
52