Notas de Estadistica

Notas para el curso de
n a la Estadstica,
Introduccio
dictado por Juan Kalemkerian 1

en la Facultad de Ciencias, el segundo semestre de 2008.
Los errores que puedan contener son total responsabilidad de quien las transcribe
Por sugerencias y correcciones: acholaquidis@cmat.edu.uy
Indice general
1. Introducci
on
1.1. Esperanza Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2. Nociones de convergencia de variables aletorias . . . . . . . . . . . . . . . . . . . .
3
3
6
2. Muestreo aleatorio simple

2.1. Algunas definiciones previas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2. Muestreo en poblaciones normales . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3. Estadsticos de Orden para una M.A.S. . . . . . . . . . . . . . . . . . . . . . . . . .
8
8
8
13
3. Teora de la Estimaci
on, m
etodos de estimaci
on
3.1. Algunas definiciones previas . . . . . . . . . . . .
3.2. Metodo de los momentos . . . . . . . . . . . . . .
3.3. Metodo de M
axima Verosimilitud . . . . . . . . .
3.4. metodo de estimaci
on por cuantiles . . . . . . . .
3.5. Estimaci
on de la funci
on de Distribucion . . . . .
3.6. Convergencia casi segura de Percentiles . . . . .
15
15
15
16
20
21
23
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4. Evaluaci
on de Estimadores
24
5. Estimacin por intervalos de confianza
33
6. Pruebas de hip
otesis
6.1. Regi
on Crtica Optima,
Teorema de Neyman-Pearson
6.2. Familias con cociente de verosimilitud monotono . . .
6.3. Metodo de la raz
on de verosimilitud para RC: . . . . .
6.4. Pruebas de Bondad de ajuste . . . . . . . . . . . . . .
6.4.1. Test de 2 : . . . . . . . . . . . . . . . . . . . .
6.4.2. Test de Kolmogorov-Smirnov . . . . . . . . . .
6.5. An
alisis de Varianza, (ANOVA) . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
36
37
40
42
43
43
43
44
7. Modelos Lineales
7.1. Variable Normal Multivariada
7.2. Modelos Lineales . . . . . . .
7.3. Hip
otesis del modelo . . . . .
7.4. Aplicaci
on . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
47
47
49
49
52
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Captulo 1
Introducci
on
Este captulo pretende introducir los conceptos de esperanza condicional, as como las nociones
de convergencia de variables aletorias, que seran necesarios para los siguientes captulos. Se asumira
que el lector est
a familiarizado con los conceptos basicos de la probabilidad, correspondientes a un
primer curso introductorio, no as los del analisis real.
1.1.
Esperanza Condicional

Definici
on 1.1. Dado , A, P un espacio de probabilidad, y X, Y : R variables aleatorias,
definimos la Esperanza Condicional de X dado Y que anotaremos

E X|Y ,
como la funci
on de Y que verifica

E XIY (B) = E E(X|Y )IY (B)
para todo B perteneciente a la sigma
algebra de borel de R, que anotaremos de aqu en mas como
B(R)
Observaci
on 1.2. E(X|Y ) est
a bien definido
existencia: Se sigue del Teorema de Radon-Nikodym
unicidad: Supongamos que (Y ) y (Y ) cumplen

E XIY (B) = E (Y )IY (B)

= E (Y )IY (B) .
B B(R)

Consideremos B = {(Y ) > (Y )}, sabemos que 0 = E ((Y ) (Y ))IY (B) , como ((Y )
(Y ))IY (B) 0 y su esperanza es 0 entonces ((Y ) (Y ))IY (B) = 0 c.s.. De forma
= {(Y ) > (Y )}, obtenemos que ((Y ) (Y ))IY (B)
=
totalmente an
aloga, tomando B
0, c.s., de donde se sigue que = c.s.
Proposici
on 1.3. Veamos ahora algunas propiedades de las esperanza condicional, X, Y, Z ser
an
variables aleatorias a valores reales y a, b n
umeros reales.
1) Linealidad: E(aX + bY |Z) = aE(X|Z) + bE(Y |Z).
2) Si X 0
c.s. entonces E(X|Y ) 0
c.s..
3) Si X Z entonces E(X|Y ) E(Z|Y ).

3
Captulo 1.
Introduccion
4) E(X|X) = X.
5) E(a|Y ) = a.
6) E(X|Y ) = E(X) si X e Y son independientes.
7) E(Xg(Y )|Y ) = g(Y )E(X|Y ).

8) E E(X|Y ) = E(X).
Demostraci
on.
1) Por la unicidad, basta demostrar que, para todo B B(R)

E (aX + bY )IB (Z) = E (aE(X|Z) + bE(Y |Z))IB (Z) ,
usando la linealidad de la esperanza el u
ltimo termino es

aE E(X|Z)IB (Z) + bE E(Y |Z)IB (Z) ,
que, por definici
on de esperanza condicional, es igual a

aE XIB (Z) + bE Y IB (Z) .
2) La demostraci
on necesita de conceptos del analisis real.
3) Es consecuencia inmediata de 2).
4) Es consecuencia inmediata de la unicidad.

6) Queremos ver que E XIB (Y) = E E(X)IB (Y ) , E XIB (Y ) = E(X)E(IB (Y )) por la independencia, y E E(X)IB (Y ) = E(X)E(IB (Y )) dado que una constante es independiente de
cualquier variable.
5) Es una consecuencia inmediata de 6).
7) La demostraci
on necesita de conceptos del analisis real.
8) Basta tomar en la definici
on B = R.
Proposici
on 1.4. Desigualdad de Jensen: Sea : R R convexa, entonces

E(X) E (X)

E(X|Y ) E (X)|Y
Recordemos que es convexa si y solo si (p + (1 )q) (p) + (1 )(q) p, q, [0, 1],
y que si es C 2 , es convexa si y solo si 00 (x) 0 x.
Definici
on 1.5. Distribuci
on Condicional: Dadas X, Y v.a., definimos
FX|Y =y (x) := P (X x|Y = y) := E(I( ,x] (x)|Y = y).
Definici
on 1.6. Probabilidad Condicional: Dadas X, Y v.a., definimos
P (X [a, b]|Y ) := E(I[a,b] (X)|Y ).
Ejemplo 1.7. Veamos por separado, primero el caso en que las variables son discretas, y luego el
caso continuo.
Captulo 1.
Introduccion

Caso Discreto: Sea (X, Y ) vector aleatorio bidimensional tal que Rec(X, Y ) = (xn , ym ) : n, m N , definimos la probabilidad condicional en el sentido usual, como
PX,Y (x, y)
PY (y)
PX|Y =y (x) = P (X = x|Y = y) =
x Rec(X), y Rec(Y ),
entonces
X
E(X|Y ) =
xPX|Y (x),
xRec(X)
Demostraci
on. Sabemos que
X
xPX|Y =y (x) =
xRec(X)
1
PY (y)
xPX,Y (x, y) =: (Y )(y),
xRec(X)
queremos demostrar que
1
E
PY (Y )

xPX,Y (x, Y )IB (Y ) = E XIB (Y ) ,
xRec(X)
1
E
PY (Y )
xPX,Y (x, Y )IB (Y ) =
xRec(X)
(y)PY (y)
yRec(Y )B
xPX,Y (x, y)IB (Y )
yRec(Y ) xRec(X)

= E XIB (Y ) .
Caso Continuo: Sea (X, Y ) absolutamente continuo, entonces

Z
E(X|Y ) =
fX,Y (x, Y )
dx
fY (Y )
Demostraci
on.
Z +

Z + Z +
fX,Y (x, Y )
fXY (x, y)
E
x
dxIB (Y ) =
IB (y)dx fy (y)dy
x
fY (Y )
fy (y)
Z + Z +
=
xIB (y)fX,Y (x, y)dxdy
= E(XIB (Y )).
Luego, la tesis es consecuencia de la unicidad.
Proposici
on 1.8. F
ormula de la distribuci
on conjunta: Dadas X, Y v.a. se tiene que
Z y
FX,Y (x, y) =
FX|Y =t (x)dFy (t)
Captulo 1.
Introduccion
Demostraci
on.

FXY (x, y) = P (X x, Y y) = E I(,x] (X)I(,y] (Y )

= E E I(,x] (X)I(,y] (Y ) Y
Z +
I(,y] (t)FX|Y =t (x)dFY (t)
=
Z y
=
FX|Y =t (x)dFY (t)
Definici
on 1.9. Distribuci
on condicionada a un conjunto: Dada X v.a. y A A con P (A) 6= 0
definimos
P (X x A)
FX|A = P (X x|A) =
P (A)
Definici
on 1.10. Esperanza condicionada a un conjunto:
Z +
E(X|A) =
xdFX|A (x) A A, P (A) 6= 0
1.2.
Nociones de convergencia de variables aletorias
Definici
on 1.11. Convergencia en probabilidad y casi segura: Dado , A, P
probabilidad, {Xn } una sucesi
on de v.a. y X una v.a. decimos que
espacio de
1) Xn converge a X en probabilidad, y anotamos Xn X si

lm P |Xn X| = 1
n+
c.s.
2) Xn converge a X casi seguramente, y anotamos Xn X si

P
lm Xn = X = 1
n+

Definici
on: Sean Xn v.a. en n , An , Pn y X v.a. en
on 1.12. Convergencia en distribuci
, A, P , decimos que Xn converge en distribucion a X y anotamos
d
Xn X
si
lm FXn (x) = FX (x) x punto de continuidad de FX
n+

Proposici
on 1.13. Relaci
on entre convergencias: Si {Xn } y X son v.a. sobre , A, P entonces
c.s.
P
d
Xn X Xn X Xn X.
Observaci
on 1.14. Todos los recprocos de la proposici
on anterior son falsos.

Teorema 1.15. Ley Fuerte de los grandes n
umeros: Sean {Xn } v.a. sobre , A, P y Xn
independientes identicamentes distribuidas (i.i.d.) en L1 y = E(X) entonces
Xn =
X1 + + Xn c.s.

n
Captulo 1.
Introduccion

Teorema 1.16. Teorema Central del Lmite: Sean {Xn } definidas en , A, P v.a. i.i.d. en
L2 entonces
Xn d
N (0, 1).
/ n
Donde N (0, 1) denota la distribuci
on normal con esperanza 0 y varianza 1.
2
Observaci
on 1.17. Si n es grande y fijo, FXn se aproxima por la distribuci
on N (, n ) donde
= E(Xn ) y 2 = V ar(Xn )
Captulo 2
Muestreo aleatorio simple

2.1.
Algunas definiciones previas

Definici
on 2.1. Muestra aleatoria simple (M.A.S.): X1 , . . . , Xn v.a. definidas en , A, P
son una aleatoria simple si son independientes identicamente distribuidas (i.i.d.) con distribucion
igual a la de X.
Definici
on 2.2. Media muestral y Varianza Muestral: dada X1 , . . . , Xn una M.A.S. definimos
1) Media Muestral: Xn =
X1 + . . . , Xn
.
n
n
2) Varianza Muestra Sn2 =
1 X
(Xi Xn )2
n 1 i=1
n
Observaci
on 2.3. Sn2 =
1 X
2
Xi2 nXn
n 1 i=1
c.s.
Observaci
on 2.4. Si X L1 , Xn = E(X) por L.F.G.N.
c.s.
Observaci
on 2.5. Si X L2 , Sn2 2 = V ar(X).
Demostraci
on.
Sn2
n
=
n1
1X 2
2
X Xn
n i=1 i
!
c.s.
E(X 2 ) 2 = 2 ,
donde hemos usado la L.F.G.N. para las variables Yn = Xn2 .
2.2.
Muestreo en poblaciones normales
Definici
on 2.6. Distribuci
on Gamma: Decimos que X tiene distribucion Gamma(, ) si su
densidad es

x1 ex si x > 0
fX (x) =
()
0
si x = 0
Observaci
on 2.7. Tres propiedades importantes de la distribuci
on Gamma son:
1) Si X v Gamma(, ) entonces E(X) = / y V ar(X) = /2 .
Captulo 2.
2) Si X v Gamma(, ) e Y v Gamma(, ) y son independientes entonces X+Y v Gamma(+

, ).
3) Si = 1, Gamma(1, ) = Exp().
Definici
on 2.8. Distribuci
on Chi cuadrado con k grados de libertad: Decimos que X v 2k
si X v Gamma(k/2, 1/2) es decir si
fX (x) =
xk/21 ex/2
I(0,+)
(k/2)2k/2
Observaci
on 2.9. Se puede demostrar que
E(2k ) = k
V ar(2k ) = 2k
Teorema 2.10. Si X1 , . . . , Xn es una M.A.S. y X v N (0, 1), entonces

X12 + + Xk2 = k(X1 , . . . , Xk )k2 v 2k
Demostraci
on. Por la propiedad 2) de las distribuciones Gamma, es suficientedemostrar
que Xi2 v
2
2
1 . Si X v N (0, 1) entonces, tomando t > 0, FX 2 (t) = P (X t) = P (|X| t) = P ( t X
t) =
Z t
Z t
Z t
1
1 1 s2
1 1 s2
1
1
2
2
e
e
ds = 2
ds =
e 2 u ,
u
2
2
2 0
t
0
2
donde en la primera igualdad hemos usado

que la funcion e1/2x es par, y en la seguna hemos
2
hecho el cambio de variable u = s , 2ds = 1/ udu. Para concluir basta observar que
1
e 2 u
,
2 u
es la densidad de 21 pero esto se sigue de que Gamma(1/2) =
Captulo 2.
Definici
on 2.11. Distribuci
on T-Student con k grados de libertad: Sean X v N (0, 1) e
Y v 2k independientes, la distribuci
on de
X
,
Tk = p
Y /n
se llama distribuci
on T Student con k grados de libertad. Decimos que la variable Tk tiene
distribuci
on T Student no central, con parametro de no centralidad > 0 si
X +
Tk = p
Y /k
Observaci
on 2.12. Se verifica que
E(Tk ) = 0
V ar(Tk ) = k/(k 2) para k > 2.
Teorema 2.13. Sea T v Tk , entonces la densidad es
fT (t) =
( k+1
2 )
k( k2 ) 1 +
t2
k
k+1
2
Demostraci
on. Tomemos el vector (X, Y ), su densidad es
y
1 2
1 2 y2
e
1
fX,Y (x, y) = e 2 x
k I(0,+) (y).
k
2
( 2 )2 2
Sea g : Rk R+ Rk R+ tal que

!
p

x
g(x, y) = p
, y , g es biyectiva y g 1 (u, v) = u v/k, v ,
y/k
tenemos entonces que g(X, Y ) = (U, V )

I(0,+) (v)

fg(x,y) (u, v) = fU,V (u, v) = fX,Y g 1 (u, v)
det Jg g 1 (u, v)
donde
y/k
0
luego, sustituyendo
1
u
k2 v
!
y

p
det Jg (x, y) = k/y,
2
1
k
v
1 e 2k u v v 2 1 e 2
v
fU,V (u, v) =
I
(v)
,
(0,+)
( k2 )2k/2
2
k
como T = U tenemos que

Z +
fU (u) =
fU,V (u, v)dv =
2k(k/2)2 2
k1
2
u2
2k
+ 12
dv,
por otro lado sabemos que

Z +
Z +
()
x1 ex dx = 1 entonces
x1 ex dx = ,
() 0
0
si tomamos entonces =
k+1
2
x=v y=
u2
2k
1
2
se concluye la tesis.
10
Captulo 2.
Teorema 2.14. Sea X1 , . . . , Xn M.A.S. de X v N (, 2 ), entonces

2
1) Xn v N ,
.
n
2) Xn y Sn2 son independientes.
3)
n1 2
S v 2n1 .
2 n
(Xn )
n
v Tn .
Sn
Demostraci
on.
4)
1) es inmediato
3) tomemos = 1, por inducci
on en n, para n = 2 tenemos que

2
2
X1 + X2
X1 + X2
2
S2 = X1
+ X2
2
2

2
2
2
X1 X2
X2 X1
X1 X2
=
+
=
v 21 ,
2
2
2
n1
(Xn
n
o lo que es lo
2
supongamos cierto para n1. Vamos a usar la igualdad (n1)Sn2 = (n2)Sn1
+
Xn1 )2 , como estamos tomando = 1 tenemos que ver que (n 1)Sn2 v 2n1
2
2
2
mismo (n 2)Sn1
+ n1
n (Xn Xn1 ) v n1 ,
2
2
2
por hip
otesis de inducci
on (n 2)Sn1 v n2 , ademas n1
n (Xn Xn ) es independiente de
2
2
2
(n 2)Sn1
pues Xn es independiente de Sn1
por la parte 2), y Xn es independiente de Sn1
2
pues Sn1 depende s
olo de X1 , . . . , Xn y la muestra son un M.A.S.
2
2
Basta entonces ver que n1
n (Xn Xn ) v 1 ,

1
n
n1
Xn Xn1 v N 0, 1 +
= N 0,
(Xn Xn1 )2 v 21 ,
n1
n1
n
y, como la suma de 2 es tiene distribucion 2 con la suma de los grados tenemos que 2n2 +
21 v 2n1 .
11
Captulo 2.
4) Es inmediato a partir de 1,2 y 3.

2)
Sn2 =
n
X

1
(X1 Xn )2 +
(Xi Xn )2
n1
i=2
n
n
X
X

1
2
=
(
Xi Xn ) +
(Xi Xn )2 ,
n 1 i=2
i=2
hemos escrito entonces Sn2 en funci

on de X2 Xn , . . . , Xn Xn , basta demostrar entonces que
Xn es independiente de X2 Xn , . . . , Xn Xn .
Consideremos Y1 = Xn , Y2 = X2 Xn , . . . , Yn = Xn Xn , y1 = xn , y2 = x2 xn , . . . , yn =
xn xn y y = g(x1 , . . . , xn ) entonces
1
1
1
...
n
n
n
1 1 1 ...
n1
n
n
Jg = .
.
..
..
.
1
1
1
n
... 1 n
n
Es f
acil ver que det(Jg ) = 1/n, basta sumar la primer fila a las demas, y queda una matriz
triangular superior con diagonal 1/n, 1, . . . , 1.
x2 = y2 + y1 , . . . , xn = yn + y1 de donde
!
X
1
g (y) =
yi y1 , y2 + y1 , . . . , yn + y1 ,
2
entonces
1
| det Jg (g 1 (y))|
(
!)
X
X
X
1
2
2
2
2
exp
y1 2y1
yi + (
yi ) +
(yi + 2y1 yi + y1 )
2
2
2
2
!)
(
n n o
X
X
1
exp y12 exp
(
yi ) 2 +
yi2
.
2
2
2
2
fY (y) = fX (g 1 (y)
=
n
(2)n/2
n
(2)n/2
Por lo tanto factorizamos respecto de y1 , iterando, son independientes.

Observaci
on 2.15.
distribuci
on de
Distribuci
on F de Fisher: Sea X v 2n e Y v 2m independientes, la
X/n
Y /m
se denomina distribuci
on F de Fisher de parametros n y m, y la anotamos F (n, m).
A modo de motivaci
on geometrica de la distribucion F de Fisher, vamos a enunciar el siguiente
teorema.
Teorema 2.16. Sea A el
angulo que forma un vector X v N (0, 2 ) en Rd con un subespacio R de
dimensi
on , entonces
tan2 (A) v F (d , )
d
12
Captulo 2.
Observaci
on 2.17. Si Z v F (n, m) entonces
n
n
n+m
n 2
w 2 1
2

fZ (w) =
n+m I(0,+) (w)
m
n2 m
n
2
1+ m
w 2
2
Teorema 2.18. Sea X1 , . . . , Xn M.A.S. de X v N (X , X
) y Y1 , . . . , Yn M.A.S. de Y v N (Y , Y2 )
X e Y independientes, entonces
2
2
SX
/X
v F (n 1, m 1)
2
2
SY /Y
Demostraci
on. La demostraci
on se sigue de la parte 3) y 2) del teorema 2.14
2.3.
Estadsticos de Orden para una M.A.S.
Definici
on 2.19. Muestra Ordenada: Sea X1 , . . . , Xn una M.A.S. de X v FX , definimos
X1:n = mn{X1 , . . . , Xn }

X2:n = mn {X1 , . . . , Xn } \ {X1:n }
..
.
Xn:n = mn {X1 , . . . , Xn } \ {X1:n , . . . , Xn:n }
se tiene entonces que X1:n Xn:n

Teorema 2.20. Distribuci
on de los percentiles: Sea X1 , . . . , Xn una M.A.S. de X absolutamente continua, entonces
fXj:n (x) =
j1
nj
n!
fX (x) FX (x)
1 FX (x)
(j 1)!(n j)!
Demostraci
on. FXj:n = P (Xj:n x) es decir, que al menos j variables sean menores o iguales
uqe x. Consideremos Y la cantidad de observaciones que son menores o iguales que x, entonces
Y v Bin(n, p) con p = FX (x).
P (Xj:n x) = P (Y j) =
n
X
P (Y = k) =
k=j
n
X
Ckn FX (x)
k
1 FX (x)
nk
k=j
entonces, derivando y usando q = 1 p

n
X

n!
kpk1 fX (x)q nk fX (x)(n k)q nk1 pk
(n k)!k!
k=j
n
n1
X
X
1
1
= fX (x)n!
pk1 q nk
pk q nk1
(n k)!(k 1)!
(n k 1)!k!
k=j
k=j
n
n
X
X
1
1
= fX (x)n!
pk1 q nk
pk1 q nk
(n k)!(k 1)!
(n k)!(k 1)!
fXj:n (x) =
k=j
k=j+1
1
= fX (x)n!
pj1 q nj
(n j)!(j 1)!
13
Captulo 2.
n1
n1
y fXmin (x) = nfX (x) 1 FX (x)
Observaci
on 2.21. fXmax (x) = nfX (x) FX (x)
Definici
on 2.22. Si X tiene densidad f (x) =
( + ) 1
x
(1 x)1 I(0,1) (x) decimos que X v
()()
Beta(, )
Observaci
on 2.23. Si X v Beta(, ) entonces E(X) = /(+) y V ar(X) =
.
( + )2 ( + + 1)
Observaci
on 2.24. Si X1 , . . . , Xn es una M.A.S. de X v U[0,1] entonces Xj:n v Beta(j, n j + 1).
14
Captulo 3
Teora de la Estimaci
on, m
etodos
de estimaci
on
3.1.
Algunas definiciones previas
Consideremos el caso en que tenemos X1 , . . . , Xn M.A.S. de X v FX (x|) donde Rk es un

par
ametro desconocido.
1 , . . . , Xn ) : Rk
Definici
on 3.1. Sea : Rn Rk medible, independiente de , entonces (X
es un estimador de .
Ejemplo 3.2. Si X v N (, 2 ) y = (, 2 ) entonces si definimos
n
1 , . . . , xn ) =
(x
x1 + + xn
1 X
x1 + + xn
xi
,
n
n 1 i=1
n
!
: Rn R2
entonces
1 , . . . , Xn ) = (Xn , S 2 )
(X
n
es un estimador de .
Observemos que si bien es un vector, es un vector aleatorio a valores en Rk .
Definici
on 3.3. Si X1 , . . . , Xn es una M.A.S. de X v FX (X|) y es un estimador, decimos que
P
c.s.
es debilmente consistente si . Decimos que es fuertemente consistente si
Ejemplo 3.4. Si X v N (, 2 ) y = (Xn , Sn2 ) entonces es fuertemente consistente.
Notaci
on: Anotamos como (H) al conjunto de valores posibles, que puede tomar el parametro
. Por ejemplo si X v N (, 2 ) = (, 2 ) entonces (H) = R R+ .
3.2.
M
etodo de los momentos
Si X1 , . . . , Xn es una M.A.S. de X v F (X|) y

el sistema
E(X) =
E(X 2 ) =
..
E(X ) =
15
= (1 , . . . , k ) Rk y X L1 . Consideremos
Xn
n
1X 2
Xi
n i
..
.
n
1X k
Xi
n i
Captulo 3. Teora de la Estimacion, metodos de estimacion

Los E(X k ) se llaman momentos poblacionales y las expresiones al otro lado de la igualdad, momentos
muestrales. Los i aparecen en los momentos poblacionales y si despejamos las k incognitas de las
k ecuaciones obtenemos los estimadores. Dicho sistema no necesariamente tiene que tener solucion
ni ser u
nica. Observemos que por la ley fuerte, los estiamdores que se despejan para cada i son
consistentes.
Ejemplo 3.5. Sea X1 , . . . , Xn M.A.S. de X v U[a,b] y = (a, b) entonces el metodo de los momentos
es

1/2(b a)
=
P Xn
1/12(b a)2 + 1/4(a + b)2 = 1/n Xi2 =: M2
Si despejamos b en la primer ecuaci
on y sustituimos en la segunda obtenemos las soluciones
q
q
a = Xn 3(M2 Xn ), b = Xn 3(M2 Xn )
Como (H) = {(a, b) R2 : a < b} descartamos soluciones y nos queda
q
q
a
= Xn 3(M2 Xn ), b = Xn + 3(M2 Xn ).
Teorema 3.6. M
etodo de los momentos, existencia de soluci
on: Si F : (H) Rk Rk
2
k
es tal que F (1 , . . . , n ) = (E(X), E(X ), . . . , E(X )), entonces, si F es inyectiva, F 1 y F son
continuas y si Xn , M2 , . . . , Mk F (H) c.s. entonces los estimadores por momentos convergen c.s.
a 1 , . . . , k .
Demostraci
on. F (1 , . . . , n ) = (M1 , . . . , Mk ) entonces (1 , . . . , k ) = F 1 (M1 , . . . , Mk ), como
c.s.
M1 = Xn E(X)
..
.
1 X k c.s.
Mk =
Xi E(X k )
n i
y F 1 es continua entonces
c.s.
(1 , . . . , k ) = F 1 (M1 , . . . , Mk )

F 1 E(X), . . . , E(X k )

= F 1 F (1 , . . . , k ) = (1 , . . . , k ),
de donde es fuertemente consistente.
3.3.
M
etodo de M
axima Verosimilitud
Definici
on 3.7. Funci
on de Verosimilitud: Dada una M.A.S. de X v F (X|) (H) Rk
L(, x
) =
L(, x
) =
n
Y
i=1
n
Y
fX (xi |) si X es absolutamente continua

pX (xi |) si es discreta
i=1
El metodo consiste entonces en hallar (H) donde se realice max(H) L(, x

), dicho es el
estimador de m
axima verosimilitud (E.M.V.) de . El metodo no asegura la existencia y/o unicidad
de .
16

Ejemplo 3.8. Sea X1 , . . . , Xn una M.A.S. de X v exp() entonces la funcion de verosimilitud para
es
n
Y
X
L() =
exp{xi } = n exp{
xi },
i=1
con xi 0 i, derivando obtenemos

(
0
n1
L () =
!)
exp
xi
xi
n
y por lo tanto, como 6= 0, si hacemos L0 () = 0 obtenemos = P
i xi
el signo de L0 () que es un m
aximo.
1
, es facil ver, mirando
Xn
Ejemplo 3.9. Sea X1 , . . . , Xn una M.A.S. de X v U[0,b] (H) = {b > 0}, la funcion de verosimilitud
es entonces
(
(
n
1
1
Y
1
si
0
<
x
,
.
.
.
,
x
<
b
si b > max{x1 , . . . , xn }
1
n
n
=
L(b) =
I[0,b] (xi ) =
b
bn
b
0
si no
0
si no
i=1
Como la funci
on 1/bn es decreciente obtenemos que b = xn:n = max{x1 , . . . , xn }.
Observaci
on 3.10. Interpretaci
on del m
etodo: Para el caso discreto, si tenemos X1 , . . . , Xn
una M.A.S. y X v pX (X|) entonces
L(|
x) =
n
Y
pX (xi |) =
i=1
n
Y
P (X = xi |) = P (X1 = x1 , . . . , Xn = xn |),
i=1
esto es, la probabilidad de que salga la muestra (x1 , . . . , xn ) en funcion de . El metodo busca
maximizar la probabilidad de obtener el resultado que efectivamente obtuve, el que haga que la
muestra sea m
as probable.
Principio de invarianza del E.M.V.: Supongamos que tenemos un parametro (H) y
g : (H) R, y que estamos interesados en estimar g() por el metodo de maxima verosimilitud, es
que haga que la muestra sea mas probable. Queremos maximizar
= g()
decir queremos encontrar M
entonces
L (M |
x) =
sup
L(|
x),
{:g()=M }
= E.M.V. de g(), es decir donde se realiza el maximo de L entonces M

= g()
Veremos que si M
siendo = E.M.V de . En efecto:
|
L (M
x) = sup L (M |
x) = sup
M
x)
L(|
x) = sup L(, x
) = L(|
sup
M {:g()=M }
(H)
y
x
L (g(),
) =
sup
x).
L(|
x) = L(|
{:g()=g()}
es E.M.V. de g().
Entonces g()
Ejemplo 3.11. Sea X1 , . . . , Xn v Ber(p), el E.M.V. de p es p = Xn , como 2 = p(1 p) = g(p)
por el Principio de Invarianza
2 = g(
p) = p(1 p).
P
Observaci
on 3.12. Si h() = log(L()) = log(fX (xi |) podemos, dado que log(x) es una funci
on
creciente, tomar el que maximiza h()
17

Teorema 3.13. Consistencia del E.M.V.: Sea X1 , . . . , Xn i.i.d v f (x|) y (H) R donde
(H) es tal que si 0 es el valor exacto de entonces > 0 tal que (0 , 0 + ) (H), si
h() = log(L()) es derivable como funcion de y ademas f (x|) = f (x|0 ) implica = 0 c.s.
entonces
c.s.
h(n ) = 0 y n 0
n (H) tal que
Demostraci
on.
h(0 ) h(0 ) =
n
X
log((f (xi |0 ))
i=1
n
X
log((f (xi |0 ))) =
i=1
n
X
i=1

log
f (xi |0 )
f (xi |0 )
entonces
h(0 ) h(0 )
1X
=
log
n
n
f (xi |0 )
f (xi |0 )
L.F.G.N.

f (xi |0 )
E log
c.s.,
f (xi |0 )
como log es una funci

on convexa, usando la desigualdad de Jensen y la inyectividad.

f (xi |0 )
f (xi |0 )
E log
< log E
,
f (xi |0 )
f (xi |0 )
por otro lado

E
f (xi |0 )
f (xi |0 )
f (x|0 )
f (x|0 )dx =
f (x|0 )
f (x|0 )dx = 1.
Luego el lmite anterior es negativo. Lo mismo para 0 . Definamos

o
n
f (xi |0 )
h(0 ) h(0 ) c.s.
E log
<0 .
A = :
n
f (xi |0 )
Por la L.F.G.N. P (A ) = 1. Fijado Aj existe n0 = n0 (, ) tal que h(0 ) > h(0 ) n n0 ,
existe n tal que

h(n ) = 0. Definamos
n
o
B = : n (0 , 0 + ) y
h(n ) = 0 .
Como A B tenemos que P (B ), si tomamos = 1/n,

!
\
P
B1/n = 1.
i=1
c.s.
La sucesi
on n verifica n 0 y es cero de
h.
Observaci
on 3.14. El teorema anterior no asegura la existencia ni la unicidad del E.M.V.
P
Lema 3.15. Lema de Slutsky: Si Xn c y Yn Y con c constante entonces Xn +Yn c+Y

d
y Xn Yn cY .
d
P
Recordemos que Xn c Xn c.
Teorema 3.16. Normalidad asint
otica del E.M.V: Sea X1 , . . . , Xn una M.A.S. de X v f (x|),
supongamos que existe > 0 tal que (0 , 0 +) (H), si se cumplen, para todo (0 , 0 +)
1) {n } variables aleatorias tal que
c.s.
h(n ) = 0 n y n 0
18

2) E
3) E

3
con E(M (X))
< .
h(|
x) M (X)
3
!
f (x|)
= 0.
f (x|)
2
2 f (x|)
4) E
f (x|)
5) i() := E
!
= 0.
f (x|)
f (x|)
Entonces
!2
> 0, el n
umero i se denomina n
umero de informacion de Fischer.
n n 0

N 0,
d
1
i(0 )
Demostraci
on. La demostraci
on ser
a una consecuencia de dos afirmaciones:
1
h(0 ) N (0, i(0 ))
Afirmaci
on 1:
n
P
Afirmaci
on 2: n(n 0 )
h(0 ) 0.
ni(0 )
Veamos primero c
omo, a partir de estas afirmaciones, usando el Lema de Slutsky se concluye la
tesis. En efecto, podemos escribir

n(n 0 ) =
n(n 0 )
h(0 ) +
h(0 )
ni(0 )
ni(0 )
Veamos la demostraci
on de la Afirmacion 1:
n
f (xi |0 ) 1 X
f (xi |0 )
1 X
1
h(0 ) =
= n
= nZ n .
n i=1 f (xi |0 )
n
n i=1 f (xi |0 )
E(Zi ) = 0 por la hip

otesis 3) y V ar(Zi ) = E(Zi2 ) E 2 (Zi ) = i() > 0 por la hipotesis 5). Luego,
d
si aplicamos el T.C.L. tenemos que nZ n N (0, i(0 )). Lo que concluye la demostracion de la
afirmaci
on 1.
on de la Afirmacion 2: podemos escribir, usando el desarrollo de Taylor y
la hip
otesis 1,
0=
2
3
(n 0 )2
h(n ) =
h(0 ) + 2 h(0 )(n 0 ) + 3 h(n )
donde n [0 , n ], despejando obtenemos

n 0 =

h(n )
2
3
(n 0 )
2 h(0 ) +
3 h(n )

h(n ) n
1
1
h(0 ) = 2
h(0 ) =
n(n 0 )
3
(
n
0
ni(0 )
ni(0 )
2 h(0 ) + 3 h(n )
2
"
#
1
1
1
h(0 )
1 2
1 3
(n 0 )
i(0 )
n
n 2 h(0 ) + n 3 h(n )
2
(3.1)
19

1
d
Nuevamente, como
h(0 ) N (0, i(0 )), por el lema de Slutsky, la afirmacion 2 queda
n
demostrada si probamos que la expresi
on entre [] tiende en probabilidad a 0 (o lo que es lo mismo,
en distribuci
on a 0).
Sabemos que
(n 0 ) P
1 3
h(n )
0,
n 3
2
P
donde hemos usado que si Xn 0 y si E(Yn ) k n entonces Xn Yn 0.

2

2
!
n
n
f
(x|
)
f
(x
|
)
f
(x
|
)
2
X
X
2
0
i
0
i
0
1
1
1
f (xi |0 )
h(0 ) =
=
.

2
n 2
n i=1
f (xi |0 )
n i=1
f (xi |0 )
Si aplicamos ahora la L.F.G.N el promedio anterior tiende a su esperanza, que es, aplicando la
hip
otesis 4:

!2
2
f
(x
|
)
f
(x
|
)
i 0
i 0
f
(x|)
2
E
= i(0 )
E

2
f (x|)
f (x|0 )
de donde se concluye que la expresi
on entre [] en 3.1. converge en probabilidad a 0 como queramos
demostrar.
Observaci
on 3.17. Sobre las hip
otesis del teorema anterior
1) Es la tesis del Teorema 3.13.
!
Z +
Z +
f (x|)
f (x|)
=
f (x|)dx =
f (x|)dx, observemos que si pudiera3) E
f (x|)
f
(x|)
Z +
mos aplicar convergencia dominada

f (x|)dx =
1 = 0.

4) An
alogo a 3).
5) Por 3), 5) es pedir que
3.4.
f (x|)
f (x|)
no sea constante.
m
etodo de estimaci
on por cuantiles
Definici
on 3.18. Cuantil o percentil p: Sea X v.a., dado p (0, 1) el cuantil p es

xp = nf x R : FX (x) p
Observaci
on 3.19. xp existe, y es mnimo
Demostraci
on. Es el infimo de un conjunto acotado inferiormente, por lo tanto existe. Si {xn } es
tal que F (xn ) p y xn p, como F es continua por derecha
lm F (xn ) = F (lm xn ) = F (xp ) p.
n
Definici
on 3.20. Percentil emprico: Sea X1 , . . . , Xn M.A.S. de X, consideremos la muestra
ordenada X1 = X1:n Xn = Xn:n , entonces

Xnp
si np N
Xp =
X[np]+1
si np
/N
20

Pk
El metodo consiste en plantear la funcion g() = i=1 (Xpi xpi )2 donde los pi y k son cualesquiera. Lo que se busca es el mnimo de g(). El argumento que minimiza g() sera y dependera de
los cuantiles empricos Xpi .
Ejemplo 3.21. Si X v (, 2 ), entonces fX (x|, 2 ) =
1

1 +

x 2
.
Es f
acil ver que E(X) = y que su mediana es . Vamos a estimar = (, 2 ) por el metodo
0,25 , Q2 = X
0,5 y Q3 = X
0,75 , estimadores de los cuartiles.
de cuantiles. Tomamos k = 4, Q1 = X
Entonces, la funci
on a minimizar es
g(, 2 ) = (Q1 x0,25 )2 + (Q2 x0,5 )2 + (Q3 x0,75 )2
Calculemos los cuartiles x0,25 , x0,5 y x0,75 en funcion de y .

1
1
x
2
FX (x|, ) = + arctan
2

x
Si hacemos FX (x|, 2 ) = 0,25 entonces arctan

= de donde x = . Analogamente
4
x0,5 = y x0,75 = + (estos valores se calculan facilmente a partir de x0,25 usando la paridad de
fX ). Luego, la funci
on a minimizar resulta entonces
g(, 2 ) = (Q1 + )2 + (Q2 )2 + (Q3 )2
Derivando esta funci
on respecto de y de , el gradiente resultante se anula en
3.5.
Q1 + Q2 + Q3
3
Q3 Q1
2
Estimaci
on de la funci
on de Distribuci
on
Definici
on 3.22. Distribuci
on Emprica: Sea X1 , . . . , Xn M.A.S. de X v FX donde FX es
desconocida, la distribuci
on emprica se define como
n
Fn (x) =
1X
I(,x] (Xi )
n i=1
Observemos que en cada x nos da la proporcion de observaciones menores o iguales que x, y que,
para x y n fijos, Fn (x) es una v.a. Observemos ademas que si xi 6= xj i 6= j los incrementos de Fn
son n , y de tama
no 1/n.
c.s.
Proposici
on 3.23. Fn (x) F (x) x R.
Demostraci
on. Es una consecuencia inmediata de la L.F.G.N a las variables I(,x] v Ber(p) con
p = FX (x).
Teorema 3.24. Teorema fundamental de la Estadstica, Glivenko-Cantelli, 1937: Sea
X1 , . . . , Xn una M.A.S. de X v FX entonces

c.s.
kFn FX k = sup Fn (x) FX (x) 0
xR
.
Demostraci
on. Para la demostraci
on vamos a necesitar el siguiente lema:

Lema 3.25. Yn = supxR Fn (x) FX (X) es una v.a., es decir, es medible.
21

Demostraci
on. Basta demostrar que {Yn } A f orall.

{Yn } = |Fn (x) FX (x)| x R = F (x) Fn (x) F (x) + x R
\

=
F (x) Fn (x) F (x) +
xR
Basta demostrar que

\
\

F (x) Fn (x) F (x) + =
F (x) Fn (x) F (x) +
xR
xQ
Fijemos x R, dado > 0 y Q, y x tal que

1) Fn (y) Fn (x) pues Fn es continua por derecha.
2) F (y) F (x) pues F es continua por derecha.
3) F (y) Fn (y) F (y) + .
Podemos escribir entonces
xy
xy
F (x) F (y) Fn (y) Fn (x) Fn (y) F (y) + F (x) + +

y por lo tanto
F (x) Fn (x) F (x) + + > 0
entonces
F (x) Fn (x) F (x) + .
lo cual concluye la demostraci
on del lema.
on del teorema, para el caso continuo, dado x R sea Ax = { :
F
(x)}.
Por
la proposici
on anterior sabemos que P (Ax ) = 1 para todo x. Luego
lmn Fn (x) =

T
P
xQ Ax = 1.
T
Sea A := xQ Ax , basta ver que A { : lmn supxR |Fn (x) FX (x)|0}. Sea > 0.
Como lmx+ F (x) = 0 existe k1 Q tal que x < k1 F (x) < .
Como lmx+ F (x) = 1 existe k2 Q tal que x > k2 1 F (x) < .
Como F es uniformemente continua en [k1 , k2 ] existe k1 x2 < . . . < xm k2 Q tal que
F (xk+1 ) F (xk ) < para todo k = 2, . . . , m 1.
Luego si tomamos = x0 < x1 = k1 < x2 < . . . < xm < xm+1 = k2 < + = xm+2 se verifica
que F (xk+1 ) F (xk ) < para todo k = 0, . . . , m + 1. Si x R existe k {0, . . . , m + 2} tal que
xk x xk+1 entonces
1
Fn (x) Fn (xk+1 ) F (xk+1 ) + F (x) + + = F (x) + 2,

donde 1 es porque xk+1 Q y hemos tomado A. Esta desigualdad vale para n > n0 , que no
depende de x. La desigualdad 2 se sigue de que F (xk+1 ) F (xk ) + F (x) + . Razonando de
forma an
aloga llegamos a que, para n > n1 , para todo x tenemos que
F (x) 2 Fn (x) F (x) + 2
de donde
lm sup |Fn F | = 0.
n+
22
3.6.
Convergencia casi segura de Percentiles
Teorema 3.26. Dado p (0, 1) tal que > 0 F (xp + ) > p entonces el percentil emprico
c.s.
Xp,n x p .
Demostraci
on. Observemos que
Fn (Xp,n )

=
1
n np = p
1
n ([np] +
1) p
si np N
.
si np
/N
n
n
dado > 0 sabemos que Fn (xp + ) F (xp + ) > p c.s. y Fn (Xp.n ) p por lo tanto n n0 se
c.s. n
cumple que Fn (Xp,n ) < Fn (xp + ), de donde Xp,n < xp + . Ademas Fn (xp ) F (xp ) < p
c.s
p,n
y, razonando de forma an
aloga xp < xp . Por lo tanto X
xp .
23
Captulo 4
Evaluaci
on de Estimadores
Definici
on 4.1. Estimador insesgado: Dada X1 , . . . , Xn M.A.S. de FX (x|) y T = Tn (X1 , . . . , Xn )
estimador de g() con g a valores reales, conocida. Decimos que
Tn es insesgado si E(Tn ) = g() (H)
n
Tn es asint
oticamente insesgado si E(Tn ) g()
Definici
on 4.2. Sesgo de un estimador: Se define el sesgo de un estimador Tn como E(Tn )g()
2
Definici
on 4.3. Error cuadr
atico medio: Se define E.C.M (Tn ) = E Tn g()
Es claro que si Tn es un estimador insesgado E.C.M.(Tn ) = V (Tn ), es natural entonces, tomar
estimadores con E.C.M. mnimo.
Definici
on 4.4. Estimador de mnima varianza: Sea Tn un estimador de g() tal que Tn L2 ,
decimos que es insesgado en 0 (H), de varianza mnima si
i) Tn es insesgado en 0
ii) Si Tn0 L2 es insesgado en 0 V ar0 (Tn ) V ar0 (Tn0 ).
R
Observaci
on 4.5. E Tn (X1 , . . . , Xn ) = Rn Tn (x1 , . . . , xn )dFX (x|)
Observaci
on 4.6. Si no pedimos que que Tn sea insesgado, cualquier constante es de mnima
varianza.
Teorema 4.7. Tn es insesgado de minima varianza en 0 si y solo si
E0 (f (X1 , . . . , Xn )Tn (X1 , . . . , Xn )) = 0 para toda f (x1 , . . . , xn ) a valores reales, tal que E (f ) = 0.
Demostraci
on. Para demostrar el teorema sera necesario el siguiente lema
Lema 4.8. Tn es insesgado de mnima varianza en 0 si y solo si Tn es insesgado y V ar0 (Tn )
V ar0 (Tn + f ) para todo R , para todo f tal que E0 (f ) = 0.
Demostraci
on. Veamos el directo, sea y f tal que E0 (f ) = 0, Tn0 = Tn + f es insesgado pues
E(Tn + f ) = E(Tn ) + E(f ) = E(Tn ) = g(). Como Tn es de mnima varianza V ar0 (Tn )
V ar0 (Tn0 ).
Para demostrar el recproco consideremos Tn0 insesgado, entonces Tn0 = Tn + (Tn0 Tn ), tomemos
f = Tn0 Tn y = 1 entonces E(f ) = 0, luego, por hipotesis
V ar0 (Tn ) V ar0 (Tn + f ) = V ar0 (Tn0 ).
24
Captulo 4. Evaluacion de Estimadores

Veamos ahora la demostraci
on del teorema. Por el lema basta ver que V ar (Tn ) V ar0 (Tn +f )
si y solo si E0 (f Tn ) = 0.
V ar0 (Tn + f ) = V ar(Tn ) + 2 V (f ) + 2cov(Tn , f ) V ar0 (Tn ) R
2 V ar0 (f ) + 2cov(Tn , f ) 0 R
p() = 2 V ar0 2cov(Tn , f ) 0 cov(Tn , f ) = 0,
de lo contrario p tendr
a 2 raices.
cov(Tn , f ) = E(Tn f ) E(Tn )E(f ) = 0 E(Tn f ) = 0.
Definici
on 4.9. Estimador insesgado de mnima varianza uniformemente: Tn es estimador
I.M.V.U. si es insesgado de varianza mnima (H).
Ejemplo 4.10. Sea X1 , . . . , Xn M.A.S. de X v exp(), = 1/. Un estimador de es Xn , veamos
c.s.
que es de mnima varianza. Sabemos que Xn E(X) = 1/ = . Si f es tal que E(f ) = 0 para
todo .
Z
X
E(f ) =
f (x1 , . . . , xn )n exp{
xi }dx1 . . . dxn = 0
[0,+)n
entonces
Z
f (x1 , . . . , xn ) exp{
xi }dx1 . . . dxn = 0 R.
[0,+)n
Veamos que E(f Xn ) = 0.

Z
E(f Xn ) =
f (x1 , . . . , xn )
[0,+)n
n
X
1 X
xi exp{
xi }dx1 . . . dxn = 0
n i=1

X

f (x1 , . . . , xn ) exp{
xi } dx1 . . . dxn = 0

X
f (x1 , . . . , xn ) exp{
xi } dx1 . . . dxn = 0
f (x1 , . . . , xn )
[0,+)n
[0,+)n
n
X
1 X n
xi exp{
xi }dx1 . . . dxn = 0
n i=1
[0,+)n
Ejemplo 4.11. Sea X1 , . . . , Xn M.A.S. de X v Ber(p). Consideremos Xn estimador de p. Veamos

que es de mnima varianza, sea f tal que E(f ) = 0
X
E(f ) =
(x1 ,...,xn
(x1 ,...,xn
){0,1}n
n
X
n
Y
i=1
P
){0,1}n
f (x1 , . . . , xn )
f (x1 , . . . , xn )p
f (x1 , . . . , xn )p
p(xi |p)
P
xi
xi
xi
(1 p)n
xi
(1 p)n
k=0 x1 ++xn =k
n
X
k=0
"
#
X
f (x1 , . . . , xn ) pk (1 p)nk = 0
x1 ++xn =k
25

Tenemos entonces un polinomio de grado a lo sumo n con mas de n raices, y por lo tanto todos sus
coeficientes son nulos. Luego si calculamos
!
n
X
X
k k
f (x1 , . . . , xn )
p (1 p)nk = 0
E(f Xn ) =
n
k=0
x1 ++xn =k
Teorema 4.12. Desigualdad de Cramer-Rao: Sea X1 , . . . , Xn M.A.S. de X v fX (x|). Si Tn

es un estimador insesgado de g(). Asumiremos que estamos en las hipotesis de derivacion dentro
de la integral, es decir que
!
Z
n
Y
Tn
E(Tn ) =
fX (xi |) dx1 . . . dxn
Rn
i=1
y
n
Y
Z
fX (xi |)dxi =
Rn i=1
Rn
entonces
n
Y
fX (xi |)dxi ,
i=1
g 0 ()
V ar(Tn )
nE
f (x|)
2 .
f (x|)
Adem
as, el igual se da si y solo si existe = (n, ) tal que
c.s.
Tn (X1 , . . . , Xn ) g() =
n
X
f (xi |)
i=1
f (xi |)
Demostraci
on.
Z
n
Y
g () = E(Tn ) =
Tn (x1 , . . . , xn )
fX (x|)dx1 . . . dxn
Rn
i=1
#
"
Z
n
Y
fX (xi |) dx1 . . . dx n
Tn (x1 , . . . , xn )
=
Rn
i=1
Z
n
Y
=
Tn (x1 , . . . , xn ) g()
fX (xi |)dx1 . . . dxn
i=1
Rn
r
Qn
Z
Yn
fX (xi |)
Tn (x1 , . . . , xn ) g()
=
fX (xi |) pQni=1
dx1 . . . dxn
i=1
Rn
i=1 fX (xi |)
0
26

entonces, si aplicamos la desigualdad de Cauchy-Schwartz
g 0 ()
2
Tn g()
n
2 Y
Rn
Z
fX (xi |)
i=1
Rn
2
Qn
Q i=1 fX (xi |)
n
i=1 fX (xi |)
2
Qn
Z
Q i=1 fX (xi |)
=V (Tn )
n
Rn
i=1 fX (xi |)
2 !2
Q
n
f
(x
|)
X
i
Q i=1
=V (Tn )E
n
i=1 fX (xi |)
!2
n
Y
=V (Tn )E
log
fX (xi |)
i=1
2

log(fX (xi |))

=V (Tn )E
!2
X f (xi |)
=V (Tn )E
.
f (xi |)
Definamos g(Xi ) =
E
f (xi |)
f (xi |)
X
X
X
2

g(Xi ) = E
g 2 (Xi ) + 2
g(Xi )g(Xj ) = nE g(Xi )2 + 2
E g(Xi )g(Xj ) .
i6=j
i6=j

Basta ver
que
E
g(X
)g(X
)
=
0
para
todo
i
=
6
j.
Como
son
independientes
E
g(X
)g(X
)
=
i
j
i
j

E g(Xi ) E g(Xj ) .
Z
f (xi |)
f (xi |)dx
f (xi |)
Z
f (xi |)dx = 0.
=
R
E(g(Xi )) =
Para ver cuando se da el igual, observemos que hemos usado la desigualdad de Cauchy-Schwartz,
por lo tanto el igual se da si y solo si existe = (n, ) independiente de x1 , . . . , xn tal que
Q
qY
fX (xi |)
(Tn g())
fX (xi |) = pQ
fX (xi |)
y esto sucede si y solo si
Y
X

fX (xi |)

log
fX (xi |) =
log fX (xi |)
=
fX (xi |)
fX (xi |)
Tn g() =
=
fX (xi |)
Definici
on 4.13. Estimador eficiente: Si Tn es un estimador insesgado para g() y cumple el
igual en la desigualdad de Cramer-Rao se dice que es eficiente
Observaci
on 4.14. Si es un estimador de , es eficiente si y solo si
i) es insesgado
27

1
=
ii) V ar()
nE
f (x|)
2
f (x|)
Observaci
on 4.15. Observemos que si es eficiente, es de mnima varianza (entre el conjunto de
estimadores que estan el las hip
otesis del Teorema de Cramer-Rao). Podria no existir un estimador
eficiente, adem
as, existen estimadores de mnima varianza que no cumplen la igualdad.
Ejemplo 4.16. Sea X1 , . . . , Xn M.A.S. de X v Ber(p), Xn es insesgado y ademas
!2
!

2
1
1
1
1
p p(x|p)
nE
p+
(1 p) = n
=n
=
,
2
p(x|p)
p
1p
p(1 p)
V ar(X)
por lo tanto p = Xn es eficiente. Como Xn es eficiente es de mnima varianza varianza ya que X es
de recorrido finito.
Definici
on 4.17. Estimador Suficiente: Dada X1 , . . . , Xn M.A.S. de X v F (x|) y T (X1 , . . . , Xn )
estimador, decimos que T es suficiente para si y solo si FX1 ,...,Xn |T no depende de .
Pn
Ejemplo 4.18. Sea X1 , . . . , Xn M.A.S. tal que X v Ber(p) entonces T = i=1 Xi es un estimador
suficiente para estimar p.
Demostraci
on.
pX1 ,...,Xn |T =t (x1 , . . . , xn ) = P (X1 = x1 , . . . , Xn = xn |T = t) =
(
P
0
si t 6= xi
P
P (X1 =x1 )...P (Xn =xn )
si t = xi
P (T =t)
P
P (X1 , . . . , Xn , T = t)
=
P (T = t)
(1 p)n xi
=
n
Ct pt (1 p)nt
1
= n.
Ct
p
xi
Que no depende de p, hemos usado que T v Bin(n, p).

Teorema 4.19. T es suficiente para si y solo si L(
x|) =
Qn
i=1

f (xi |) = g T (
x), h(
x)
Demostraci
on. (Caso discreto:)
L(
x|) =
n
Y
i=1
pX (xi |) =
n
Y
P (X = xi |) = P (X1 = x1 , . . . , Xn = xn |) =
i=1
P (X1 = x1 , . . . , Xn = xn |T = t)P (T = t) = h(
x)g(T (
x, ))
Veamos el recproco, supongamos que P (T = t) > 0.
P (X1 = x1 , . . . , Xn = xn , T = t)
P (T = t)
(
0
si t 6= T (
x)
=
P (X1 =x1 ,...,Xn =xn )
si t = T (
x)
P (T =t)
P (X1 = x1 , . . . , Xn = xn |T = t) =
Para el caso en que t = T (

x)
P (X1 = x1 , . . . , Xn = xn )
g(T (
x))h(
x)
=P
.
y ), )h(
y)
y:T (
y )=t P (X1 = y1 , . . . , Xn = yn )
y:T (
y )=t g(T (
P (X1 = x1 , . . . , Xn = xn |T = t) = P
28

Observemos que, dado que estamos en el caso T (
x) = t y g(T (
x), ) = g(t, ) = g(T (
y ), ). Por
lo tanto
h(
x)
P (X1 = x1 , . . . , Xn = xn |T = t) = P
.
y)
y:T (
y )=t h(
Que no depende de .
Ejemplo
Sea X1 , . . . , Xn M.A.S. de X v N (, 2 ). Estimamos y 2 , consideremos T (
x) =
P
P 4.20.
2
( xi , xi ) = (T1 , T2 ).

n
Y
1
1
L(
x|(, )) =
exp 2 (xi )2
2
i=1
(
)
n
1
1 X
2
=
exp 2
(xi )
2 i=1
(2)n/2 n
( n
)
n
X
X
2 n
2
2
= (2 ) 2 exp
xi 2
xi + n
i=1
n
2
= (2)
i=1

1
n exp 2 T2 2T1 + n2 .
2
Por lo tanto si definimos

n
1
x), (, 2 ) = n exp 2 T2 2T1 + n2 .
h(
x) = (2) 2 y g T (
2
De donde T es suficiente.
Observaci
on 4.21. Siempre existe un estimador suficiente, basta tomar T (
x) = x
y h constante.
Esto significa que tener toda la muestra es suficiente.
Ejemplo 4.22. Si X1 , . . . , Xn es una M.A.S. de X v U [a, b], estimamos (a, b).
Q 1

si
a < xi < b
ba
L x
|(a, b) =
0
si no

(b a)n si
a < xi < b
=
0
si no

(b a)n si
a < x1:i ; xn:n < b
=
0
si no

(b a)n si
a < T1 ; T2 < b
=
0
si no
Luego T (
x) = (T1 , T2 ) es suficiente.
Observaci
on 4.23. Si T es fuciente, el E.M.V. es funci
on de un estimador suficiente, ya que
en este caso L(
x|) = g(T (
x), )h(
x), y, al maximizar en como h no vara, podemos maximizar
solamente en g(T (
x), )
Definici
on 4.24. Estimador suficiente minimal: T estimador suficiente, es minimal si para
todo T 0 estimador suficiente, T es funci
on de T 0 .
Teorema 4.25. Sea X1 , . . . , Xn M.A.S. de X v FX (x|), si T es un estimador que cumple:
L(
x|)
no depende de T (
x) = T (
y)
L(
y |)
entonces T es suficiente minimal.
29

Demostraci
on. Veamos primero que T es suficiente, podemos escribir, tomando y tal que T (
y) =
T (
x)

L(
x|)
L(
y |) = h(
x)L(
y |) = h(
x)g T (
x), ) .
L(
x|) =
L(
y |)
Por lo tanto, por el teorema anterior, T es suficiente ya que hemos podido factorizar la funcion de
verosimilitud.

Veamos que T es minimal, sea T 0 suficiente, podemos escribir entonces L(
x|) = g 0 T 0 (
x), h0 (
x).
Sea x
y y, T 0 (
x) = T 0 (
y ) entonces
g 0 (T 0 (
x), )h0 (
x)
h0 (
x)
L(
x|)
= 0 0
=
,
L(
y |)
g (T (
y ), )h0 (
y)
h0 (
y)
que no depende de , entonces, usando el directo de nuestra hipotesis tenemos que T (
x) = T (
y ).
Hemos demostrado que cada ves que T 0 (
x) = T 0 (
y ) entonces T (
x) = T (
y ). Veamos que esto implica
que T = f (T 0 ). Definimos para z
/ Im(T 0 ) f (z) cualquier cosa, y para z Im(T 0 ) entonces
0
z = T (x) y f (z) := T (x).
Definici
on 4.26. Estadstico Completo: T se dice completo si toda vez que tenga una funcion
g tal que E g(T ) = 0 para todo (H) implica que g(T ) = 0 c.s.
Ejemplo 4.27. Sea X1 , . . . , Xn M.A.S. de X v U (0, ) veamos que = xn:n es completo.
Z
E(g(T )) =
Z
g(t)fT (t)dt =
n
tn1 1
g(t)n n1 dt = n
tn1 g(t)dt,
R
luego E(g(T )) = 0 si y solo si 0 tn1 g(t)dt = 0 lo cual implica que g(t) = 0, ya que esta integral es
derivable c.s., n1 g() = 0 entonces g() = 0 para todo .
Definici
on 4.28. funci
on de P
erdida: Sea (H) y L : (H) (H) R que verifica
i) L(u, v) = L(v, u) para todo u, v (H).
ii) L(u, v) = 0 si y solo si u = v.
iii) L es convexa, es decir,
para todo p, q (H) (H) L(p + (1 )q) L(p) + (1 )L(q).
se denomina funci
on de perdida.
Observaci
on 4.29. Si L es C 2 es convexa si y solo si H(x,y) L es semidefinido positivo
Definici
on 4.30. funci
on de riesgo: Sea X1 , . . . , Xn M.A.S. de X v FX (x|) y (H) desconocida, dado T (X1 , . . . , Xn ) estimador de y L una funcion de perdida, definimos la funcion de
riesgo

R(, T ) = E L(, T ) .
Definici
on 4.31. Estimador de riesgo mnimo, uniformemente entre los insesgados: T
es E.R.M.U entre los insesgados si dado T 0 estimador insesgado se cumple que
R(, T ) R(, T 0 ) (H).
Teorema 4.32.
entonces
Rao-Blackwell: Si (X1 , . . . , Xn ) es insesgado y T (X1 , . . . , Xn ) es suficiente,

(X1 , . . . , Xn ) = E (X1 , . . . , Xn )|T (X1 , . . . , Xn ) ,
entonces
R(, ) R(, ).
30

Demostraci
on.

R(, ) = E L(, ) = E L(, E(|T )) = E L(E(, |T ))

E E(L(, )|T ) = E L(, ) .
Donde hemos usado la desigualdad de Jensen.
Observaci
on 4.33. En la demostraci
on anterior, la hip
otesis de que T es suficiente es necesaria
para que sea un estimador de .
Observaci
on 4.34. es insesgado E() = E(E(|T )) = E() = .

Lema 4.35. Sea T suficiente, y T (X
on de
1 , . . . , Xn ) tal que si
f T (X1 , . . . , Xn ) es una funci
T insesgada entonces T (X1 , . . . , Xn ) = f T (X1 , . . . , Xn ) c.s. entonces (T ) es uniformemente
de mnimo riesgo entre los insesgados.
Demostraci
on. Sea insesgado, por Rao-Blackwell, como T es suficiente R(, ) R(, ), sea
= E(|T ) es una funci
on de T y es insesgado entonces por hipotesis f (T ) = (T ) c.s.. Entonces
= (T ), y R(, (T )) R(, ), donde es arbitrario dentro de los insesgados, por lo tanto es
uniformemente de mnimo riesgo.
Lema 4.36. Si T es completo y f (T (X1 , . . . , Xn )) (T (X1 , . . . , Xn )) son insesgados entonces entonces
f (T (X1 , . . . , Xn )) = (T (X1 , . . . , Xn )) c.s.
Demostraci
on. E(f (T ) (T )) = 0 para todo (H), como T es completo, tomamos g(T ) =
f (T ) (T ) entonces E(g(T )) = 0 para todo (H), entonces g = 0 c.s..
Teorema 4.37.
1) Si T es suficiente y completo y es insesgado entonces E(|T ) minimiza el riesgo uniformemente entre los insesgados.
2) Si T es suficiente, completo e insesgado entonces T minimiza el riesgo uniformemente entre
los insesgados.
Demostraci
on.
1) Sea (T ) = E(|T ), entonces es insesgado ya que lo es. Si f (T ) es insesgado, por el Lema
4.36 f (T ) = (T ) c.s., entonces, por el Lema 4.35 (T ) minimiza el riesgo uniformemente
entre los insesgados.
2) Tomamos = E(T |T ) = T y se concluye usando la parte anterior.
Ejemplo 4.38. Sea X1 , . . . , Xn M.A.S. de X v Ber(p). Entonces p = Xn es uniformemente de
mnimo riesgo entre los insesgados. Como ya vimos p es insesgado y suficiente como ya vimos, veamos
que es completo.
X
0 = E(g(
p)) =
g(x)P (X1 = x1 , . . . , Xn = xn )
x1 ,...,xn {0,1}
n
X
k=0 x1 ++xn =k

n
X
k
k
k=0
= (1 p)n

k
pk (1 p)nk
n
p (1 p)nk Ank = 0 p
X k p k
k!
g
.
n
1p
(n k)!
31

Como p (0, 1) y tomamos t = p/(1p). Luego, tenemos un polinomio de grado n, en t con infinitas
raices, entonces g(k/n) = 0, para todo k, y para todo n, entonces g(T ) = 0 es 0 c.s.
32
Captulo 5
Estimacin por intervalos de

confianza
Definici
on 5.1. Intervalo de confianza: Dada X1 , . . . , Xn M.A.S. de X v FX (x|) con desconocido, R. Un intervalo de confianza al nivel 1 con (0, 1) es

I = L(X1 , . . . , Xn ), U (X1 , . . . , Xn ) ,
donde L y U son estimadores y P ( I) = 1 .
Ejemplo 5.2. Construccin de intervalos de confianza: Sea X v N (, 2 ) con 2 conocido,
tomamos = . Buscamos un intervalo de la forma

X n k, X n + k .
Debemos hallar k tal que P ( I) = 1 , entonces
1 =P (X n k X n + k)
=P ( k X n + k)

k
+k
/ n
/ n

nk
nk
=

nk
=2
1,
donde en la tercer igualdad hemos usado que X v N (, 2 /) y en la ltima la paridad de . Por lo

tanto obtuvimos que

nk
nk
1 /2 =
entonces
= 1 (1 /2),
y por lo tanto tomamos
k = 1 (1 /2).
n
Notacin: Anotaremos Zp = 1 (p), con esta notacin el intervalo de confianza del ejemplo
anterior es

X n Z1/2 , X n + Z1/2 .
n
n
33
Captulo 5.
Estimacin por intervalos de confianza
Ejemplo 5.3. Se X v N (, 2 ) con 2 desconocido, y = , buscamos un intervalo de la forma

X n kSn , X n + kSn .

n|X n |
P ( I) = P |X n | kSn = P
nk .
Sn
Recordemos que
n(X n )
v Tn1 ,
Sn
entonces

P ( I) =P nk T nk
=FT ( nk) FT ( nk)
=2FT ( nk) 1 = 1 ,
donde hemos usado la simetra de F . Despejando obtenemos
k=
t1/2 (n 1)
FT1 (1 /2)
=
,
n
n
donde usamos la notacin FT1 (p) = tp (n 1) donde n 1 son los grados de libertad. Por lo tanto el
intervalo de confianza para al nivel 1 es

Sn
Sn
I = X n t1/2 (n 1), X n + t1/2 (n 1) .
n
n
c.s.
Obervemos que como Sn entonces
n(X n ) d
Tn =
N (0, 1),
Sn
tp (n 1) Zp .
Ejemplo 5.4. Si X L2 cualquiera con E(X) = y V ar(X) = 2 , si n es grande, en vista de las

observaciones anteriores, un intervalo de confianza aproximado, para al nivel 1 es

Sn
Sn
X n Z1/2 , X n + Z1/2 .
n
n
Ejemplo 5.5. Si X v N (, 2 ) con desconocido, tomamos = 2 , busquemos a y b tal que

P aSn2 2 bSn2 = 1 ,
Recordemos que
(n 1)
Sn2
v 2n1 ,
2
entonces
P ( 2 /b Sn2 2 /a) = P
(n 1)Sn2
n1
(n 1)
2
b

=F
n1
a

F
n1
b

,
Basta elegir a tal que F ((n 1)/a) = 1/2 y b tal que F ((n 1)/b) = /2, de donde
a=
n1
21/2 (n
1)
b=
n1
,
1)
2/2 (n
2
2
donde hemos usado la notacin F1
con (n 1) grados de
2 (p) = p (n 1), para la distribucin
libertad. Luego el intervalo es
"
#
n1
n
1
S2 ,
.
I=
21/2 (n 1) n 2/2 (n 1)
34
Captulo 5.
Estimacin por intervalos de confianza
Ejemplo 5.6. Sea X v Ber(p) con nqgrande tomemos = p, si aproximamos usando el T.C.L. es
facil ver, como 2 = p(1 p) y Sn = X n (1 Xn ), nos queda el intervalo
q
q
Xn (1 Xn )
Xn (1 Xn )
I = Xn
Z1/2 , Xn +
Z1/2
n
n
Ejemplo 5.7. Aplicacin del T.C.L.: Intervalos de confianza aproximados para = E(X) cuando
2 = f (). Consideremos X1 , . . . , Xn M.A.S. de X L2 y g : R R clase C 1 . Si g 0 () 6= 0, veamos
d
que n(g(Xn g()) N (0, (g 0 ())2 ) :
n(g(Xn g()) = ng 0 (Cn )(Xn ) = g 0 (Cn ) n(Xn ),

c.s.
con Cn [Xn , ] o Cn [, Xn ], sabemos que g 0 (Cn ) g 0 () y

tanto usando el lema de Slutsky
n(Xn ) N (0, 2 ), por lo
35
Captulo 6
Pruebas de hip
otesis
Supongamos que queremos saber si una moneda esta balanceada o no. Se tira 100 veces y
obtenemos 54 caras, debemos tomar una decision entre
H0 : p = 1/2
donde p = P (cara)
H1 : p 6= 1/2.
Definici
on 6.1. Test de hip
otesis: Dada X1 , . . . , Xn M.A.S. de FX (x|) con desconocido, un
test de hip
otesis es decidir entre 2 hip
otesis;
H0 : A
hipotesis nula
H1 : B
hipotesis alternativa
donde suponemos que A, B (H) y A B = .

Definici
on 6.2. Regi
on Crtica: La region critica, que anotaremos como RC Rn con n el
tama
no de la muestra, es la zona de rechazo de H0 .
Definici
on 6.3. Regla de decisi
on: Si (x1 , . . . , xn ) RC entonces rechazo H0 , en caso contrario
si (x1 , . . . , xn )
/ RC no rechazo H0 (acepto H0 ).
Ejemplo 6.4. En nuestro ejemplo de la moneda es natural tomar

RC = (x1 , . . . , xn ) {0, 1}n Rn : |Xn 1/2| k
Definici
on 6.5. Errores de tipo 1 y 2:
* error tipo 1: rechazar H0 siendo cierta
* error tipo 2: aceptar H0 siendo falsa, H1 es cierta.
Definici
on 6.6. Significaci
on de una prueba:

= sup P (X1 , . . . , Xn ) RC = P ( error tipo 1 ).
A
Definici
on 6.7. Probabilidad del error tipo 2: definimos, para B

() = PH1 (X1 , . . . , Xn )
/ RC = P ( error tipo 2 ).
Definici
on 6.8. Potencia de la prueba: se define como
() = P (X1 , . . . , Xn ) RC
36
Captulo 6. Pruebas de hipotesis

Observaci
on 6.9. () = 1() si B y () si A. En particualr si A es 0 (0 ) = .
Ejemplo 6.10. Para el caso de la moneda, si tomamos = 0,05 es decir el 5 %, entonces 2 = 1/4.

= P1/2 (X1 , . . . , Xn ) [1/2 k, 1/2 + k]c

= P1/2 Xn [1/2 k, 1/2 + k]c

= P 20(Xn 1/2) [20k, 20k]c
= 1 (20k) + (20k) = 2 2(20k)
donde hemos usado la aproximaci

on de 100
(Xn 1/2) por una N (0, 1). Obtenemos entonces 20k =
Z0,975 de donde k = 0,098. Tenemos entonces la region crtica

RC = (x1 , . . . , xn ) Rn : |xn 1/2| 0,098 .
Como |0, 54 1/2| no es mayor o igual que 0,98 no rechazo H0 al nivel 5 %.
Observaci
on 6.11. La decisi
on depende fuertemente del nivel al que trabajo. Concretamente si
elegimos = 0, es decir, la probabilidad de rechazar H0 siendo cierto es 0 siempre acpeto H0 .
Calculemos (p) con p H1 = {1/2}c con
(p) = Pp (RC c )
= Pp (|Xn 1/2| < 0,098)
= P (0,402 < Xn < 0,598)
0,402 p
0,598 p

=
p(1p)
100
p(1p)
100

Donde hemos usado que Xn v N p, p(1p)
.
100
Observaci
on 6.12. Si construimos una RC con un nivel dado entonces puedo controlar el error
de tipo 1, y no el error de tipo 2, podria decirse entonces que el error de tipo 1 es mas grave.
Observaci
on 6.13. En general, uno define la regi
on crtica a partir de un estimador insesgado
RC = {| 0 | k}.
Observaci
on 6.14. Al permitir variar el tama
no de la muestra uno puede fijar los errores y y
hallar un n que verifique las igualdades.
Observaci
on 6.15. Como el error de tipo 1 es m
as grave, al rechazar H0 uno debe estar seguro
(tener evidencia) de que H0 es falso. No rechazar H0 implica que no hay suficiente evidencia emprica
para decir que H0 es falso. No es que se acepte H0 .
6.1.
Regi
on Crtica Optima,
Teorema de Neyman-Pearson
Teorema 6.16. Neyman-Pearson: Sea X1 , . . . , Xn M.A.S. de X v FX (x|) absolutamente continua, y el test
(
Sea Sk =
n
Y
f (xi , 1 )
i=1
f (xi |0 )
H0 :
= 0
H1 :
= 1
)
k , si k es tal que

PH0 (Sk ) = PH0 (X1 , . . . , Xn ) Sk = ,
entonces Sk es entre todas las RC de nivel la que tiene menor (maxima potencia).
37

Demostraci
on. Sea = P1 (Skc ) y 0 = P1 (S0c ) donde S0 es otra RC de nivel , entonces
0 = P1 (Skc ) P1 (S0c )
Z Y
Z
n
=
f (xi |1 )dx1 . . . dxn
Skc i=1
Z
=
n
Y
n
Y
"Z
f (xi |1 )dx1 . . . dxn
Z
f (xi |0 )dx1 . . . dxn
Skc \S0c i=1

"Z
n
Y
n
Y
#
f (xi |0 )dx1 . . . dxn
S0c Sk i=1
n
Y
f (xi |0 )dx1 . . . dxn
Skc i=1

k P0 (Skc )
f (xi |1 )dx1 . . . dxn
S0c Sk i=1
n
Y
n
Y
Skc \S0c i=1
=k
f (xi |1 )dx1 . . . dxn
S0c i=1
f (xi |0 )dx1 . . . dxn
S0c i=1

P0 (S0c ) = k[1 (1 )] = 0.
Luego 0 , como 0 es arbitrario es mnimo.

Ejemplo 6.17. Hallar la forma de la RC optima para el caso X v N (, 1) y el problema
n
Y
f (xi |1 )
i=1
f (xi |0 )
n
Y
e 2 (xi 1 )
+ 12 (xi 0 )2
H0 :
= 0
H1 :
= 1
= e 2
Pn
2
2
i=1 (xi ) +(xi 0 )
= e 2 (20 21 )
Pn
i=1
xi +n(21 20 )
i=1
n
Y
f (xi |0 )
f (xi |1 )
i=1
k (1 0 )
n
X
xi + n(21 20 ) k
i=1
n(1 0 )xn + n(21 20 ) k

k
(1 0 )xn (21 20 ) = k.
n
n
Por lo tanto la regi
on crtica es: Si 0 > 1 RC = (x1 , . . . , xn ) Rn : xn
n
o
k
y si 1 > 0 la regi
on crtica es RC = (x1 , . . . , xn ) Rn : xn 0
1
k
0 1
Ejemplo 6.18. Sea X1 , . . . , Xn M.A.S. de X v N (, 1) y el problema

H0 :
= 0
H1 :
= 1
con 0 < 1 . Vamos a hallar la RC

optima. Como es optima, del ejemplo anterior sabemos que
tiene la forma {xn k}, vamos a hallar k tal que P (RC) = .

PH0 (Xn k) = 1 PH0 (Xn k) = 1 PH0
Xn 0
n(k 0 )
1/ n

=
1
Luego si despejamos obtenemos
n(k 0 ) = Z1 entonces k = 0 +

n(k 0 ) = .
Z1
.
n
38

Observaci
on 6.19. Si fuese
H0 :
= 0
H1 :
> 1
Resulta una RC
optima de la misma forma (observar que el hecho de que H1 : = 1 se usa s
olo
cuando 1 > 0). En este caso decimos que es una RC uniformemente
optima o uniformemente
de m
axima potencia.
Observaci
on 6.20. Si fuese
H0 : 0
H1 : > 1
Resulta la misma region crtica que en el caso anterior. Observemos ademas que se calcula =
on PH0 (Xn k) crece con y el supremo es en 0 .
sup PH0 (Xn k) la funci
Corolario 6.21. Corolario de Neyman-Pearson, en las hipotesis del teorema, + 1
Demostraci
on.
c
= PH1 (S ) =
n
Y
Z
f (xi |1 )dx1 . . . dxn k
n
Y
f (xi |0 )dx1 . . . dxn =
S c i=1
S c i=1
k 1
Z Y
n

f (xi |1 )dx1 . . . dxn = k(1 ),
S i=1
si k 1 entonces 1 de donde + 1,
si k 1
1 = PH1 (S) =
Z Y
n
f (xi |1 )dx1 . . . dxn k
Z Y
n
f (xi |0 )dx1 . . . dxn = k,
S i=1
S i=1
como k 1 entonces 1 k de donde + 1.

Teorema 6.22. Consideremos X1 , . . . , Xn una M.A.S. de X v FX (x|) absolutamente continua, y
la prueba
y k = kn es tal que PH0
n
Y
f (Xi |1 )
i=1
Demostraci
on. log
f (Xi |0 )
n
Y
f (Xi |1 )
i=1
f (Xi |0 )
n
Y
1
f (Xi |1 )
log
n
f
(Xi |0 )
i=1
H0 :
= 0
H1 :
!
= 1
kn
n
X
= entonces n 0.

log
i=1

y por la L.F.G.N.

f (X|1 )
E log
f (X|0 )

f (X|1 )
< log E
f (X|0 )
Z

f (x|1 )
= log
f (x|0 )dx = log(1) = 0.
f (x|0 )
c.s.
f (Xi |1 )
f (Xxi |0 )

39

Donde en la primera desigualdad usamos Jensen (estricta porque log es estrictamente concava), y
en la siguiente igualdad hicimos el supuesto de H0 cierto, es decir = 0 . Tenemos entonces que

n
X
f (Xi |1 ) c.s.
.
log
f (Xi |0 )
i=1
Luego, para todo > 0 tomando = , y para todo m N existe n0 tal que n n0
!

n
X
f (Xi |1 )
P
< m 1 = 1 .
log
f (Xi |0 )
i=1
Llamemos
(
Sn =
n
Y
f (Xi |1 )
kn
f (Xi |)
i=1
y
(
An,m
n
X

log
i=1
f (Xi |)
f (Xi |)
< m .
Si tomamos An,m Sn entonces

log(Kn )
n
X

log
i=1
f (Xi ()|1 )
f (Xi ()|0 )

< m,
luego, tenemos que m N, n0 tal que n n0 log(kn ) < m de donde kn 0.

Observemos que Sn ARn,mQ6= ya que P (SnR) +QP (An,m ) > + 1 > 1, luego, se intersectan.
c
Como n = PH1 (Snc ) = S c f (xi |)dx kn n f (xi |)dx 0.
n
Corolario 6.23. Consideremos el caso particular

H0 :
Sea Sn =
nQ
n
f (xi |1 )
i=1 f (xi |0 )
= 0
H1 : = 1
o
1 entonces n + n 0

Pn
P
i |1 )
Demostraci
on. Si H0 es cierto entonces i=1 log ff (X
, de donde n = PH0 (Sn ) =
(Xi |0 )
P

n
n
f (Xi |1 )
PH 0
i=1 log f (Xi |0 ) 0 0.

Pn
P
(Xi |0 )
Si H1 es cierto entonces i=1 log ff (X
.
i |1 )
n = PH 1
n
X
i=1
6.2.

log
f (Xi |1 )
f (Xi |0 )
!
0
0.
Familias con cociente de verosimilitud mon

otono
Definici
on 6.24. Familia con C.V.M.: Una familia de densidades f (|) con (H) R tiene
C.V.M. si
Qn

L(
x|)
i=1 f (xi |)
Q
=
= g T (
x) ,
n
0
0
L(
x| )
i=1 f (xi | )
donde g : R R es estrictamente creciente, > 0 , y T = Tn es un estimador. Observemos que g
depende de n de y de 0
40

Ejemplo 6.25. f (|) es una familia exponencial (para (H) R) si
n
Y
f (xi |) = Cn eQ()t(x) h(
x)
con Cn () > 0,
i=1
si Q es estrictamente creciente la familia tiene C.V.M.:

x)
Cn () eQ()t(x) h(
Cn () t(x) Q()Q(0 )
L(
x|)
=
=
e
= g(t(
x))
L(
x|0 )
Cn (0 ) eQ(0 )t(x) h(
x)
Cn (0 )

() s Q()Q( 0 )
e
, luego, g es una funcion creciente de s.
con g(s) = CCnn(
0)
Teorema 6.26. Sea X1 , . . . , Xn M.A.S. de X con densidad f (|) perteneciente a una familia con
C.V.M, sea T (
x) absolutamente continua y (H) R, consideremos
H0 : 0
H1 : > 0
Si R = {
x Rn : T (
x) k} donde k es tal que R sea R.C. de nivel , entonces R es R.C.
uniformemente de m
axima potencia.
Demostraci
on. En el conjutno { : 0 } (H) defino k () = () = P (R). Probaremos
que es creciente y por lo tanto supH0 () = (0 ), de donde el k de la hipotesis es tal que
P0 (T (
x) k) = . Consideremos la prueba
H0 : = 0
H1 : = 00
Con 00 > 0 . Por lo tanto aplicando el teorema de Neyman Pearson a esta prueba obtenemos la
regi
on crtica
optima
)
( n
Y f (xi |00 )
0
k = {T (
x) g 1 (k 0 )},
0)
f
(x
|
i
i=1
en esta igualdad hemos usado que g es creciente, llamemos k 00 = g 1 (k 0 ). Para esta prueba + 1,
= P0 ({T (
x k)}) = (0 ) y = P00 ({T (
x) k 00 }c ) = 1 P00 ({T (
x) k 00 }) = 1 (00 ).
0
00
0
00
0
00
Entonces ( ) + 1 ( ) 1 y por lo tanto ( ) ( ). Como y son arbitrarios se deduce
que creciente.
Veamos ahora que R es
optima, es decir, uniformemente de maxima potencia. Supongamos por
< R (),
sabemos que
absurdo, que existe otra S RC de nivel tal que existe > 0 y S ()
sup0 S () = ya que hemos supuesto que S es RC de nivel , por lo tanto S (0 ) .
Consideremos la prueba
H0 : = 0
H1 : > 0
(6.1)
Sea S 0 = {T (
x) k} con k 0 tal que S 0 (0 ) = S (0 ), (tal k 0 existe porque hemos supuesto que
T es absolutamente continua). Como hemos supuesto que la familia tiene C.V.M. sabemos por
el teorema de Neyman Person que S 0 es uniformemente de maxima potencia para la prueba 6.1.
S ().
Como S (0 ) = R (0 ) o
Entonces S 0 () S () 0 . En particular S 0 ()
0
lo que es lo mismo P0 (T (
x) k ) P0 (T (
x k) obtenemos que k k 0 , pero esto contradice
S 0 () S () ya que esto es equivalente a que P({T (

x) k 0 }c ) < P({T (
x) k}c ) ya que esto
0
implica k k .
41
6.3.
M
etodo de la raz
on de verosimilitud para RC:
Consideremos X1 , . . . , Xn M.A.S. de X v FX (x|) con (H) Rk y la prueba

H0 : A (H)
H1 :
/A
Planteamos una RC de la forma

supA L(
x|)
n
k .
R= x
R :
supH L(
x|)
Observemos que para hip
otesis simples H0 : = 0 y H1 : = 1 se obtiene
sup L(
x|) = L(
x|0 ) =
A
n
Y
f (xi |0 )
i=1
sup L(
x|) =
(H)
x|0 ) =
L(
x|1 ) =
L(
n
Y
i=1
n
Y
f (xi |0 ) de donde R =
f (xi |1 )
i=1
Entonces, la RC de de la raz
on de verosimilitud queda
)
(
n
Y
f (xi |0 )
n
k
x
R :
f (xi |1 )
i=1
que es la RCO del teorema de Neyman Pearson.
Ejemplo 6.27. Sea X1 , . . . , Xn M.A.S. de X v N (, 1) y la prueba
H0 : = 0
H1 : 6= 0
Hallaremos la RC de la razon de verosimilitud. Tenemos que
sup L(
x|) = L(
x|x)
R
y

L(
x|) =
entonces
n
1X 2 n 2
exp
x
2 i=1 i
2
)
exp{nx}
n2
0
2
n2
2
n
L(
x|0 )
e 2 +n0 x
2 0 +n0 x nx
2
=
=
e
= e 2 (0 x)
2
nx
2
+nx
L(
x|x)
e 2
si planteamos la regi
on critica
L(
x|0 )
n
k (x 0 )2 L(k) = k 0 |x 0 | k 00
L(
x|x)
2
por lo tanto la regi
on crtica es de la forma
RC = {
x Rn : |x 0 | k}
Proposici
on 6.28. Consideremos la prueba
H0 : A (H)
H1 :
/A
(
x) =
supA L(
x|)
supA g(T (
x), )h(
x)
supA g(T (
x), )
=
=
= (T (
x))
sup(H) L(
x|)
sup(H) g(T (
x), )h(
x)
sup(H) g(T (
x, ))
42
6.4.
Pruebas de Bondad de ajuste
Se tiene una M.A.S. X1 , . . . , Xn de X v FX desconocida. Dada F0 una distribucion, (conocida

o no) se queire tomar una decisi
on acerca de si X distribuye como F0 o no, es decir,
H0 : FX = F0
H1 : FX 6= F0
6.4.1.
Test de 2 :
Consideremos la prueba
H 0 : FX = F0
H1 : FX 6= F0
Dado k N elijo I1 , . . . , Ik intervalos en R tal que Ii = (ai1 , ai ], I1 = (, a1 ] y Ik = (ak , +]
tal que Ii Ij = si i 6= j, y ki=1 Ii = R. Si H0 es cierto P (X Ij ) = F0 (aj ) F0 (aj1 ) = F0 (Ij ),
c.s.
dada X1 , . . . , Xn M.A.S. de X definimos Fn la distribucion emprica, sabemos que Fn (Ij )
FX (Ij ). Sea bj la cantidad de observaciones en Ij . Si tomo los valores esperados (bajo H0 cierto) en
Pk
el intervalo Ij := Ej = nF0 (Ij ), consideremos T = i=1 (bj Ej )2 . Es razonable entonces construir
la RC = {T k}. P
(a E )2
j
j
, bajo la hipotesis H0 , se prueba que Tn 2k1 . Luego si =
Si definimos Tn =
Ej
PH0 (Tn k), se aproxima con la distribucion de una 2k1 y se halla un k aproximado.
6.4.2.
Test de Kolmogorov-Smirnov
Consideremos
H0 : FX = F0 completamente conocidaH1 ; FX 6= F0
tomemos RC = {supxR |Fn (x) F0 (x)| k}, por GilvencoCantelli Fn converge uniformemente
a F0 (x). Para conocer la distribuci
on de supxR |Fn (x) F0 (x)| tneemos el siguiente teorema.
Teorema 6.29. Kolmogorov: Si Dn = supxR |Fn (x) F0 (x)| entonces, si F0 es continua
lm P
n+
X

2 2
(1)n1 e2n z
nDn z = 1 2
n=1
Definici
on 6.30. Dada una prueba de hipotesis
H0 : A
H1 :
/A
cuya regi
on crtica sea RC = {T k} con T = T (X1 , . . . , Xn ) estimador de , el p valor es

T (
sup P T (X)
x)
A
Ejemplo 6.31. Sea X1 , . . . , Xn M.A.S. de X v N (, 1), consideremos la prueba

H0 : = 0 = 0
H1 : 6= 0 = 0
Sabemos que RC = {|xn k} entonces T (X) = |Xn | el p valor es
PH0 (|Xn |x) = 1 PH0 (|Xn | |x|) = 1 ( n|x|) + ( n|x|) = 2 1 ( n|x|)

43

Proposici
on 6.32. Si los supremos se realizan en un mismo 0 A, < p valor no rechazo
H0 al nivel .

k) ,
Demostraci
on. Si < p valor entonces hallamos k tal que = supA P ( T (X

k < sup P T (X
T (
= sup P T (X)
x)
A
k < P P T (X)
T (
= sup P T (X)
x)
0
de donde T (
x) < k por lo tanto x

/ RC y no rechado H0 . El razonamiento es analogo si >
p valor.
Observaci
on 6.33. La propiedad se cumple si H0 es simple ( = 0 ), o en el caso de concientes
de verosimilitud mon
otonos.
6.5.
An
alisis de Varianza, (ANOVA)
Supongamos que tenemos {Yij } observaciones, con i = {1, . . . , k} y j = {1, . . . , nj } y que Yij v
N (i , 2 ) para todo i, j. Queremos testear si los i son todos iguales o no. El supuesto de que 2
es la misma se llama homocedasticidad. Supongamos que las variables Yij son independientes. Para
cada i {1, . . . , k} definimos
n
1 X
Yij ,
Yi =
ni j=1
y
n
Si2 =
i
1 X
(Yij Yij )2 .
ni 1 j=1
Sabemos que
(ni 1) 2
Si v 2ni 1
2
P
Observaci
on 6.34. Si A = {a = (a1 , . . . , ak ) Rk :
ai = 0} entonces
X
1 = = k a A,
ai i = 0
Yi v N (i , 2 /ni )
Demostraci
on. El directo es inmediato, veamos el recproco, tomemos a1 = 1, a2 = 1, a3 = =
ak = 0 entonces 1 2 = 0 y as sucesivamente 1 = = k .
Pk
P
Observaci
on 6.35. Si defino Sp2 = N 1k i=1 (ni 1)Sik con N =
ni . entonces
k
N k 2 X (ni 1) 2
Sp =
Si v 2N k .
2
2
i=1
Adem
as
k
X
i=1
ai Yi v N
k
X
i=1
Pk
ai i ,
2 2
i=1 ai
ni
!
.
P
Se puede demostrar que Sp2 y
ai Yi son independientes, luego, si recordamos que si X v N (0, 1)
es independiente de 2n entonces
X
p
v tn
2n /n
44

obtenemos que
k
X
k
a i i
ai Yi
X
ai (Yi i )
i=1
i=1
Pk
2
i=1
i=1 ai /ni
q
= qP
v tN k
(N K) 2
k
2 /n
S
/(N
k)
S
a
2
p
i
p
i=1 i
k
X
Supongamos que a A fijo, y (0, 1) tenemos

X
H0 :
ai i = 0
H1 : no H0
Consideremos la regi
on crtica,
(
RC =
)
P
| ai Yi |
pP
>m ,
Sp
ai /ni
= PH0 (RC) = PH0
!
P
| ai Yi |
pP
>k ,
Sp
ai /ni
como estamos bajo H0 si utilizamos la observacion anterior

= 1 P (m < T < m), con T v tN k ,
y por lo tanto 1 /2 = F (m), k = t1/2 (N k).
Nos planteamos ahora la siguiente prueba
H0 : 1 = = k
H1 : noH0
y esto es si y solo si
H0 :
ai i = 0 a A
H1 : noH0
P

ai Yi
2
Tomo el estadstico Ta = pP 2
, resulta natural plantear la region crtica RC = sup Ta > k .
Sp
ai /ni
aA
Debemos
entonces
hallar
la
distribuci
o
n
de
sup
T
bajo
la
hip
o
tesis
H
cierto.
Llamemos
Ci = Yi
0
aA a
P
ni Ci
y Ci = N .
P ai
2
2
P
(Ci C) ni
a
C
1
n
i
i
i
P
sup Ta2 =
sup P
= sup
,
Sp aA
ai /ni
ai /ni
aA
aA
P
donde hemos usado que
ai C = 0, si aplicamos la desigualdad de Cauchy-Schwartz
P ai
2
P 2
P
(Ci C) ni
X
ai /ni ni (Ci C)2
ni
P
P
sup
=
ni (Ci C)2 .
sup
ai /ni
ai /ni
aA
aA
Obtuvimos
una cota para el supremo, veamos que se alcanza, si tomamos ai = cteni (Ci C) es claro
P
que
ai = 0, entonces el supremo se alcanza. (Basta observar que la igualdad en Cauchy-Schwartz
se da en ese caso).
sup Ta2 =
aA
Pk
i=1
ni (Yi Y )2
Sp2
Pk
donde
Y =
i=1
ni Yi
45

recordemos que
2n /n
v F (n, m),
2m /m
se puede demostrar que
k
X
ni (Yi Yi )2 v 2k1 y por lo tanto
i=1
2 2k1
> cte
2 2
aA N k /(N k)
sup
2k1 /(k 1)
v F (k 1, N k) cte/(k 1).
2N k /(N k)
Planteamos
= PH0 (RC) = 1 PH0 F (k 1, N k)
cte
entonces
k1
cte = F1 (k 1, N k)(k 1).
Finalmente, obtuvimos la regi

on crtica
(
)
k
1 X
2
RC =
ni (Yi Yi ) F1 (k 1, N k)(k 1) .
Sp i=1
46
Captulo 7
Modelos Lineales
7.1.
Variable Normal Multivariada
Definici
on 7.1. Dado un vector aleatorio (X1 , . . . , Xn ) recordemos que el
(1 , . . . , n ) := (E(X1 ), . . . , E(Xn )), y la matriz de covarianzas es
V ar(X1 ) cov(X1 X2 ) . . . cov(X1 Xn )

cov(X2 X1 ) V ar(X2 )
nn =
..
..
..
.
.
.
cov(Xn X1 )
...
vector de medias =
V ar(Xn )
Anotamos = E(X) y V ar(X) = nn .

Observaci
on 7.2. Veamos algunas propiedades
1) Si A Mkn es constante entonces E(AX) = AE(X).
2) V ar(AX) = Ann At .
3) Si X Rn es un vector aleatorio A es una matriz k n y b un vector k 1 constante entonces
E(AX + b) = AE(X) + b
V ar(AX + b) = AX At .
4) Si X es un vector aleatorio en Rn , X es semidefinida positiva.

Demostraci
on.

2) Es inmediato a partir de observar que V ar(X) = E (X E(X))(X E(X))t .
4) Tenemos que ver P
que para todo = (1 , . . . , n ) Rn entonces t 0, y esto se sigue de
t
que = V ar( i Xi ).
Definici
on 7.3. Normal tpica en Rn : Decimos que el vector U = (U1 , . . . , Un ) tiene distribucion
normal tpica en Rn si las Ui v N (0, 1) y son independientes.
Observaci
on 7.4. La densidad conjunta de U es
1
fU (x) =
e 2 kxk
n .
(2) 2
47
Captulo 7. Modelos Lineales

Definici
on 7.5. Normal multivariada Decimos que X tiene distribucion normal multivariada si
existe una matris n k C y un vector n 1 tal que X = CU + .
Observaci
on 7.6. Observemos que si X tiene distribuci
on normal multivariada entonces E(X) =
y X = CC t
Proposici
on 7.7. Veamos algunas propiedades de la normal multivariada
1) Si Cnn es invertible, X es absolutamente coninua y
1
fX (x) =
e 2 (x) (x)
(2)n/2 | det |1/2
= CC t .
Demostraci
on. X = CU + = g(U ), g : Rn Rn es invertible ya que C lo es.
fX (x) = fg(U ) (x) = fU ((g 1 (x))
1
1
1
= fU (C 1 (x ))
| det Jg (g 1 (x))|
| det C|
1 t
e 2 (x)(C ) C (x)
(2)n/2 | det |1/2
2) La distribuci
on normal tpica es invariante bajo tranformaciones ortogonales. De hecho es
la u
nica distribuci
on que depende solamente de la norma, y que es invariante bajo transformaciones ortogonales (a menos de multiplicarla por constantes). Que es invariante bajo
transformaciones ortogonales se sigue de la definici
on y de la propiedad anterior.
3) Si X es normal multivariada, entonces AX + b tambien lo es, con Amn y bm1 constantes.
4) Si X = CU + y C es sobreyectiva entonces X es absolutamente continua.
Definici
on 7.8. Normal multivariada degenerada: Si X = CU + con U normal tpica,
decimos que es degenerada si C no es sobreyectiva
Observaci
on 7.9. Si X es degenerada entonces no es absolutamente conitnua.
Demostraci
on. Supongamos por absurdo que existe una densidad fX . Recordemos que C no es sobre
si y solo si det(CC t ) = det() = 0, si det() = 0 entonces ttt = V ar(tX) = 0 entonces tX es c.s.
constante, de donde se sigue que esta contenida en un hiperplano S, si existiese fX (x1 , . . . , xn ), al
integrarla en S obtendramos que debera dar 1 porque X esta contenida ahi, pero 0 porque S tiene
medida nula, absurdo.
Observaci
on 7.10. Si X v N (, ) cualquier subvector de X tambien es normal multivariado.
Esto es obvio de hecho de que si X es normal multivariado, AX tambien lo es, basta tomar A
adecuadamente.
Observaci
on 7.11. Si (X1 , . . . , Xk , Y1 , . . . , Yk ) v N (, ) entonces si cov(Xi , Yj ) = 0
ces (X1 , . . . , Xk ) y (Y1 , . . . , Yk ) son independientes.
i, j enont-
Demostraci
on. Si es invertible, entonces
1 =
1
X
0
0
1
Y
y es f
acil ver que fX,Y (x) = gX (x)gY (y).
Si no es invertible, y Y si, entonces (X1 , . . . , Xk ) S, variedad lineal de dimensi
on k,
supongamos que S esta generado por X1 , . . . , X entonces
(X1 , . . . , X , Y1 , . . . , Ym ) est
a en las hip
otesis anteriores y por lo tanto son independientes, de donde
(X1 , . . . , Xk , Y1 , . . . , Ym ) lo son. El caso en que Y tampoco es invertible es an
alogo.
48
7.2.
Modelos Lineales
Se desea estimar Y = g(X1 , . . . , Xk ), se observan medidas de las variables X1 , . . . , Xk y se desea

estimar g. A las variables Xi se las denomina explicativas y a la Y explicada. Se plantea entonces
g(
x) = g(
x, ) = 1 X1 + + k Xk , = (1 , . . . , k ). Para estimar g estimamos . Se plantea
entonces
1
X11 X12 . . . X1k
Y1
.
..
..
..
..
.
. = ..
.
.
Xn1
Xn2
...
Xnk
X11
..
X= .
Xn1
X12
..
.
...
..
.
...
X1k
Yn
Se observan n muestras de Y ,
Xn2
Xnk
es la matriz de dise
no (constante y conocida).
En el modelo lineal planteamos Y = X + e donde, X es una matriz de dise
no, y
Y1
1
e1
..
..
..
Y = . = . e = . ,
Yn
k
en
e aleatorio (vector de errores).
Ejemplo 7.12. An
alisis de varianza: Yij = i + eij , en este caso la matrix X es un vector n 1
con entradas todas iguales a 1.
Ejemplo 7.13. Modelo lineal simple: Y = + X + e, tomamos (Y1 , X1 ), . . . , (Yn , Xn ) y
= (, ), y como matriz de dise
no la matriz
1 X1
1 X2
X= .
,
..
Xn
lo que se busca es entonces ajustar una recta a los datos.

Ejemplo 7.14. Ajuste de un polinomio de grado k: De forma analoga al ejemplo anterior, si
Y = + 1 x + 2 x2 + + k xk + e, planteamos la matriz de dise
no
1 X1 X12 . . . X1k
..
..
X= .
.
.
1
Xn
Xn2
...
Xnk
Observaci
on 7.15. Observemos que, en vistas del ejemplo anterior, la funci
on y = g(x1 , . . . , xn , )
es lineal en pero no en x
= (x1 , . . . , xn ), podra ser x3 = cos(x1 ) etc.
7.3.
Hip
otesis del modelo
1) Rango(g(X)) = k.
2) Los errores tienen media 0, E(ei ) = 0 para todo i.
49

3) Homocedasticidad: V ar(ei ) = 2 para todo i.
3) cov(ei , ej ) = 0 para todo i 6= j.
4) el vector e de errores tiene distribucion N (0, 2 I) en este caso se cumplen 2), 3) y 30 )
Para estimar Rk se utiliza el metodo de los mnimos cuadrados, consiste en hallar Rk
donde se realize
mn kY Xk.
Rk
Teorema 7.16. Bajo la hip

otesis 1 se cumple que (X t X)1 X t Y es el estimador por mnimos
cuadrados de .
Demostraci
on. Sea el valor donde se obtiene el mnimo, es decir
2 kY Xk2
kY X k
Rk ,
si consideramos la multiplicaci
on por X como una transformacion lineal de Rk en Rn entonces X
es la proyecci
on de Y sobre la imagen de X, entonces Y X X
para todo Rk , esto es
t
0 = (X) (Y X ), o lo que es lo mismo

t X t Y = t X t X Rk ,
luego las transformaciones lineales X t Y y X t X son iguales, de donde = (X t X)1 X t Y .
Teorema 7.17.
a) Bajo las hip
otesis 1) y 2), es insesgado.
b) Bajo las hip
otesis 1), 2) y 3), = 2 (X t X)1 .
Demostraci
on.
= (X t X)1 X t E(Y ) = (X t X)1 X t X = .
a) E()
b) = (X t X)1 X t e+ = (X t X)1 X t ( 2 Id)X(X t X)1 , donde usamos que AX+C = AX At ,
finalmente se obtiene, = 2 (X t X)1 , ya que transponer e invertir conmutan.
Teorema 7.18. Bajo las hip
otesis 1) a 4) el E.M.V. de coincide con el de mnimos cuadrados y
adem
as el E.M.V. de es n1 kY X k.
.
Teorema 7.19. Bajo las hip
otesis 1) a 4) es insesgado de mnima varianza, uniformemente.
Demostraci
on. Veamos que es suficiente:

1
2 exp 1 kX Xk2 = h(
)
L(y1 , . . . , yn |, 2 ) = (2 2 )n/2 exp 2 kY X k
y )g(,
2
2 2
donde hemos usado que Y X es perpendicular a X X. Es facil ver que es completo y por lo
tanto minimiza el riesgo uniformemente entre los insesgados, considerando como funcion de riesgo
kk2 .
Teorema 7.20. Bajo 1) , 2) y 3), si los ei son independientes (no necesariamente con distribuci
on Noramal), entonces es uniformemente de minima varianza entre los estimadores lineales e
insesgados, (es decir los
= CY ).
Teorema 7.21. Bajo los supuestos 1) a 4):
50
a)
2
kY X k
n
2
=
v 2(nk)
2
2
b) s2 =
n
2
kY X k
=
es insesgado (de donde
2 es asint
oticamente insesgado).
nk
nk
c)
kX( )k2
v F (k, n k)
ks2
d)
1 (1 1 ) + (2 2 ) + + n (n n )
p
v tnk
s t (X t X)1
Rn
Demostraci
on.
a) Sea H = {v1 , . . . , vn } base ortonormal de Rn tal que {v1 , . . . , vk } es base
ortonormal
Pnde S = Im(X), tenemos entonces que existen Z1 , . . . , Zn variables aleatorias tal
que Y = i=1 Zi vi . Si B es la matriz de cambio de base de la base H a la base canonica, B
es ortogonal y
Y = BZ de donde Z = B 1 Y = B t Y v N (B t X, B t 2 IdB) y por lo tanto Z es normal
multivariado y Z = 2 Id, adem
as Zi son variables aleatorias independientes con distribucion
N (1 , 2 ).
2

2

X
n
n
k
n
X

X
X

2

Zi2 ,
Z i vi =
Z j vj =
Z i vi
kY X k =

j=1
i=1
i=k+1
k=1
2
n
X
2
Zi
kY X k
=
2
i=k+1
Zi
v N (i , 1),
2
bastaria entones
Pn demostrar que todos los i para i = k + 1 son 0. Observemos que E(Y ) = X S
y E(Y ) = i=1 i vi .
!
2
kY X k
1
2
E kY X k) =
E
= 2
b) E(s ) =
nk
nk
2

2
k
k
k
X

X
X

2
c) kX Xk =
Z i vi
i vi =
(Zi i )2 . entonces

i=1
i=1
k
kX X
=
ks2
i=1
P Zi i 2
k
1
2 nk kY
X k
2k /k
2
nk /(n
k)
v F (k, n k).
d) 1 (1 1 ) + + n (n n ) = t ( ), como v N (, 2 (X t X)1 ), entonces t ( ) v

N (0, t 2 (X t X)1 ),
t
()
t
( )
(X t X)1
p
=
,
s
s t (X t X)1
por lo tanto si usamos la parte b) solo basta ver que son independientes, esto se sigue de que
kY Xk2 depende de Zk+1 , . . . , Zn y X de Zk+1 , . . . , Zk .
51
7.4.
Aplicaci
on
Construcci
on de intervalos de confianza para t . Consideremos

I = t ks, t + ks ,

!
!

t ( )
t
)
k

,
1 = P (t I) = P
k =P p t t
p t t 1
s (X X)1

s
(X X)
p
de donde, por la parte d) k = t1/2 (n k) t (X t X)1 .
Observemos que en particular tomando = (1, . . . , 0) obtenemos un intervalo de confianza para 1 .
52

Notas de Estadistica

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Notas de Estadistica

Uploaded by

Copyright:

Available Formats

Notas para el curso de

dictado por Juan Kalemkerian 1

2. Muestreo aleatorio simple

5. Estimacin por intervalos de confianza

c.s. entonces E(X|Y ) 0

3) Si X Z entonces E(X|Y ) E(Z|Y ).

PX|Y =y (x) = P (X = x|Y = y) =

xPX,Y (x, y) =: (Y )(y),

queremos demostrar que

xPX,Y (x, Y )IB (Y ) =

xPX,Y (x, y)IB (Y )

Caso Continuo: Sea (X, Y ) absolutamente continuo, entonces

Nociones de convergencia de variables aletorias

1) Xn converge a X en probabilidad, y anotamos Xn X si

2) Xn converge a X casi seguramente, y anotamos Xn X si

lm FXn (x) = FX (x) x punto de continuidad de FX

Muestreo aleatorio simple

Algunas definiciones previas

2) Varianza Muestra Sn2 =

donde hemos usado la L.F.G.N. para las variables Yn = Xn2 .

Muestreo en poblaciones normales

Muestreo aleatorio simple

2) Si X v Gamma(, ) e Y v Gamma(, ) y son independientes entonces X+Y v Gamma(+

Teorema 2.10. Si X1 , . . . , Xn es una M.A.S. y X v N (0, 1), entonces

donde en la primera igualdad hemos usado

Muestreo aleatorio simple

Sea g : Rk R+ Rk R+ tal que

como T = U tenemos que

por otro lado sabemos que

Muestreo aleatorio simple

Teorema 2.14. Sea X1 , . . . , Xn M.A.S. de X v N (, 2 ), entonces

Muestreo aleatorio simple

4) Es inmediato a partir de 1,2 y 3.

hemos escrito entonces Sn2 en funci

Por lo tanto factorizamos respecto de y1 , iterando, son independientes.

Muestreo aleatorio simple

Estadsticos de Orden para una M.A.S.

se tiene entonces que X1:n Xn:n

entonces, derivando y usando q = 1 p

Muestreo aleatorio simple

Algunas definiciones previas

Consideremos el caso en que tenemos X1 , . . . , Xn M.A.S. de X v FX (x|) donde Rk es un

Si X1 , . . . , Xn es una M.A.S. de X v F (X|) y

Captulo 3. Teora de la Estimacion, metodos de estimacion

de donde es fuertemente consistente.

fX (xi |) si X es absolutamente continua

El metodo consiste entonces en hallar (H) donde se realice max(H) L(, x

Captulo 3. Teora de la Estimacion, metodos de estimacion

con xi 0 i, derivando obtenemos

= E.M.V. de g(), es decir donde se realiza el maximo de L entonces M

Captulo 3. Teora de la Estimacion, metodos de estimacion

log((f (xi |0 ))) =

como log es una funci

Luego el lmite anterior es negativo. Lo mismo para 0 . Definamos

existe n tal que

Como A B tenemos que P (B ), si tomamos = 1/n,

Lema 3.15. Lema de Slutsky: Si Xn c y Yn Y con c constante entonces Xn +Yn c+Y

Captulo 3. Teora de la Estimacion, metodos de estimacion

E(Zi ) = 0 por la hip

donde n [0 , n ], despejando obtenemos

Captulo 3. Teora de la Estimacion, metodos de estimacion

donde hemos usado que si Xn 0 y si E(Yn ) k n entonces Xn Yn 0.

mos aplicar convergencia dominada

Captulo 3. Teora de la Estimacion, metodos de estimacion