Regresion MHM

1 II Modelo de Regresin Lineal Mahil Herrera M.
I.- Distribucin Normal Multivariada

1.1 Resultados de lgebra Lineal

Lema 1.1.1. A y B son dos matrices cuadradas con inversa cada una entonces
(AB)
-1
=B
-1
A
-1

Lema 1.1.2. a) tr(A+B)=tr(A)+tr(B)
b) tr(AB)=tr(BA) siempre que AB y BA puedan efectuarse

Lema 1.1.3.. Si una matriz A es simtrica entonces tambin lo es su inversa A
-1
. O sea, si
A es simtrica, (A
-1
)
t
= A
-1
.

Lema 1.1.4. a) |AB|=|A||B|
b)|A
-1
|=
1
A

Lema 1.1.5. Las races caracterstica de una matriz simtrica son reales.

Lema 1.1.6. Las races caractersticas de A distintas de cero son igual al rango de A.

Lema 1.1.7. Una matriz simtrica con races iguales a cero o a uno es una matriz
idempotente.

Lema 1.1.8 Si A + B = I y AB = 0, entonces A y B son idempotentes.

Lema 1.1.8. Si A es idempotente y simtrica de rango r, existe una matriz ortogonal P tal
que P
t
AP = E
r
donde E
r
es una matriz diagonal con r elementos iguales a uno y el resto
a ceros.

Lema 1.1.9. Si A es idempotente y simtrica de rango r entonces tr(A) = r.

Lema 1.1.10 Si A es idempotente y simtrica y P es ortogonal P
t
AP es idempotente y
simtrica.

2 I Distribucin Normal Multivariada Mahil Herrera M.
Definicin 1.1.1. Si X
t
AX > 0 se dice que X
t
AX es definida positiva, para todo X 0 y A
es positiva.

Definicin 1.1.2. Si X
t
AX 0 se dice que X
t
AX es semipositiva, para todo X 0 y A es
semipositiva.

Definicin 1.1.3. Si A es positiva o semipositiva A es no negativa.

Lema 1.1.11. La matriz A es positiva si, y slo si todos los determinantes de sus
matrices angulares son positivos.

Lema 1.1.12. Si P es no singular P
t
AP es o no es definida positiva ( semi ) si A es o no lo
es.

Lema 1.1.13. Matrices definidas positivas son no singulares.

Lema 1.1.14. Matrices semipositvas son singulares ( el caso contrario no siempre ocurre
es decir una matriz singular no es siempre semipositiva.

Lema 1.1.15. Las races de una matriz positiva ( semi ) son todas mayores que cero (
mayor o igual a cero).

Lema 1.1.16. AA
t
es positiva cuando A es de rango completo por filas y semipositiva en
cualquier otro caso.

Lema 1.1.17. A
t
A es positiva cuando A tiene rango completo por columna y
semipositiva en cualquier otro caso.

Lema 1.1.18. Si A es simtrica de orden n y rango r puede escribirse como A = LL
t
, L es
de n r de rango r.

Lema 1.1.19. Si A es simtrica, es positiva si, y slo si puede escribirse como PP
t
con P
no singular.

Lema 1.1.20 (Lema de Loynes). Si B es simtrica e idempotente y Q es simtrica y no
negativa y si IBQ es no negativa entonces BQ = QB = 0.

Dermostracin.
Sea Y = BX para algn X, entonces
t
Y BY = BBX = BX = Y
t
Y
t
Y
t
Y
y
t
Y (I B Q)Y = QY
t
Y
Actuara Anlisis de Regresin 3
como IBQ es no negativa entonces QY = 0, como Q es simtrica, Q =
L , QY= LL Y = 0 implica que Y = 0 y entonces L Y = 0, lo que es lo
mismo QY = QBX = 0 como es para algn X, QB = 0 y as tenemos
t
Y
t t
L
t
Y
t
Y
t
L
t
L
(QB)
t
= = BQ = 0
t
B Q
t

Teorema 1.1.1. Si A
i
son matrices de n n simtricas de rango k
i
, i = 1,, p.
Sea A = , simtrica de rango k
1
A
p
i
i =
Entonces las condiciones

a) A
i
es idempotente para todo i
b) A
i
A
j
= 0 para todo i j
c) A es idempotente
d) k =

1
p
i
i
k
=
I) Para alguna de las dos a), b) y c) implica a), b), c) y d).
II) si c) y d) a) y b)
III)si c) y A
1
, A
2
, , A
p 1
idempotentes con A
p
no negativa implica A
p
idempotente
implica a) y por consiguiente b) y d).

Demostracin.

I) Si se cumple a) y c) b)

Podemos observar que IA es idempotente y por tanto no negativa y AA
i
A
j
=
por a) es no negativa I A + A A
1
A

=
i r j
p
i
r
i
A
j
= I A
i
A
j
, entonces por Loynes A
i
A
j
= 0
para i j .

I) Si se cumple b) y a) c)

AA = = = =A.
2
1
A
=
| |
|
\ .
p
i
i
2
1 1 1
A A
= = =
+

i j
p p p
i i
i i j
A
j
2
1
A
=
p
i
i

I) Si se cumple b) y c) a)

Sea A
1
v = v para todo 0, despejando v =
1
A v
, entonces A
i
v =
1
A A v
i
, i 1
Por b) A
i
v = 0, luego entonces tenemos que Av = A
1
v = v, como A es idempotente,
entonces sus races deben ser 0 1, por lo tanto las races de A
1
son 0 1 lo que
significa que A
1
es idempotente haciendo lo mismo para el resto de las matrices
tenemos que a) se verifica.

I) Si se cumple a) y c) d)
k = rango(A) = tr(A) = = =
1
tr A
=
| |
|
\ .
p
i
i
(
1
tr A
=
p
i
i
)
1 =
p
i
i
k
II) Si c) y d) a) y b)

Como A es idempotente A I lo es y tiene rango nk, tenemos que

(A I)X = 0 tiene nk ecuaciones linealmente independientes
A
2
X = 0 tiene k
2
ecuaciones linealmente independientes
#
A
p
X = 0 tiene k
p
ecuaciones linealmente independientes

El nmero mximo de ecuaciones linealmente independientes del sistema anterior es
nk
1
, el sistema anterior lo podemos reducir a A
1
X = X, tiene por lo menos n(n
k
1
)=k
1
ecuaciones linealmente independientes. Tenemos que 1 es una raz caracterstica
de A
1,
con

multiplicidad de al menos k
1 ,
pero como rango(A
1
) = k
1
, as tenemos A
1
que es idempotente, conn lo que queda demostrado el punto II.
Ahora III) Si c) y A
1
, A
2
, , A
p 1
idempotentes con A
p
p

idempotente que implica a) y por consiguiente b) y d).

Como A es no negativa entonces tambin lo es IA, como A
1
, A
2
, , A
p1

idempotentes, significa que son no negativas y como tambin es no negativa entonces
AA
i
A
j
= es no negativa
1
A

=
i r j
p
i
r
Luego I A + A A
i
A
j
= I A
i
A
j
, es no negativa entonces por Loynes A
i
A
j
= 0
para i j . Con lo que b) se cumple y de ah todas las dems.

Teorema 1.1.2. Si X es un vector de p 1 con elementos x
i
y sea A un vector con de p 1 con
elementos a
i
y sea Z = X
t
A = A
t
X la derivada de Z con respecto a X es
Z
X
=
1
Z
Z
| |
|
|
|
\ .
p
x
x
#
|
=A
Demostracin.
El i-simo elemento de
Z
X
es;
1 Z =
| |
\ .
=

p
j j
j
i i
a x
x x

as que el i-simo elemento de
Z
X
es a
i
, por lo que
Z
X
=A

Teorema 1.1.3. Sea A un vector de p 1 y B de q 1 y X una matriz de p q cuyo ij-simo
elemento es x
ij
. Sea Z= A
t
XB = , entonces
q p
n nm m
m=1 n=1
a x b
Z
X
=AB
t
.

Demostracin.
El ij-simo elemento de
Z
X
es
Z
| |
\ .
=

q p
n nm m
m=1 n=1
ij ij
a x b
x x
=a
i
b
j
por

tanto se sigue que
Z
X
= AB
t
.

Teorema 1.1.4. Sea A una matriz simtrica de p p y X de p 1. Sea Z= X
t
AX, entonces
Z
A
=2XX
t
D(XX
t
) , donde D(XX
t
) es la matriz diagonal cuyos lementos son la diagonal de
XX
t
.

Demostracin.

Z
A
es
Z
| |
\ .
=

p p
n m mn
m=1 n=1
ij ij
x x a
a a

si i = j ,
2
Z
=
i
ij
x
a
. Si i j
Z
ij
a
= 2x
i
x
j
. As tenemos que
Z
A
=2XX
t
D(XX
t
).


Teorema 1.1.5. Sea A una matriz simtrica de p p y X de p 1. Sea Z= X
t
AX, entonces

Z
X
=2AX .

Demostracin.
Z
X
es
Z
| |
\ .
=

p p
n m mn
m=1 n=1
i i
x x a
x x

=
2
1 1
| |
|
+
|
\ .

p q p
m mm n m mn
m=1 m= n=
m n
i
x a x x a
x

= 2x
i
a
ii
+ 2 = 2
p
n in
n=
n i
x a
1
p
n in
n=
x a
luego entonces
Z
X
=2AX.

1.2 Normal Multivariada

1.2.1 Definicin y propiedades

La generalizacin de la funcin de densidad de una distribucin Normal a varias
dimensiones juega un papel importante en el anlisis de regresin.

Una ventaja de la distribucin normal multivariada parte del hecho de que es
matemticamente tratable y se pueden obtener resultados buenos . Frecuentemente
este no es el caso con otras distribuciones multivariadas.

Antes de definir la distribucin Normal Multivariada, necesitamos definir
algunos momentos de un vector aleatorio, es decir, un vector cuyos componentes estn
distribuidos conjuntamente. La media o esperanza de un vector aleatorio X =
| |
|
\ .
#
1
m
x
x
|
|
de
m1 esta definido por ser el vector de esperanzas:
E(X) =
E( )
E( )
| |
|
|
|
\ .
#
1
m
x
x

Mas generalmente, si Z = (z
ij
) es una matriz aleatoria de pq, entonces E(Z), la
esperanza de Z, es la matriz cuyo ij-simo elemento es E(z
ij
). Aunque no entremos en
detalle del desarrollo del siguiente resultado, es simple comprobar que si B, C y D son
matrices de constantes de mp, qn y mn respectivamente, entonces

E (BZC + D) = B E(Z) C + D (1.1)

Si X tiene media la matriz de varianza-covarianza(varcov) de X esta definida por la
matriz de

= Cov(X) = .
t
E ( X )( X ) (

El elemento ij-simo de es
( )( )
E
(

ij i i j j
= x - x - ,

la covarianza entre las variables x
i
y x
j
, y el ii-simo elemento es

( )
2
E
(

ii i i
= x - ,

la varianza de x
i
, la matriz de varianza-covarianza la podemos poner como

=
(
(
(
(
(
pp p p
p
p

"
# # #
"
"
2 1
2 22 12
1 12 11

es decir, es una matriz de orden p y donde
jk
es la covarianza entre la variable j e i ,
como podemos ver los elementos de la diagonal de son no negativos. es simtrica,
es decir, =
t
.. Adems, la clase de matrices de varianza-covarianza coincide con la
clase de matrices no-negativas definida. Recordemos que una matriz simtrica A de
mm es no negativa definida si

t
A 0 para toda R
m

y definida positiva si
t
A > 0 para toda R
m
.

Teorema 1.2.1. La matriz de mm es una matriz de varianza-covarianza , si, y solo si es
no-negativa definida.

Demostracin.

Supongamos que es la matriz de varianza-covarianza de un vector aleatorio X,
donde X tiene media , entonces para toda R
mx1
,

Var (
t
X) =E [ (
t
X
t
) (
t
X
t
)
t
] (1.2)
= E [
t
(X )( X )
t
]
=
t
0
luego es no negativa definida.

Ahora supongamos que es una matriz no-negativa definida de rango r,
digamos (r m). Escribimos = C C
t
, donde C es una matriz de mr de rango r. Sea
Y un vector de r1 de variables aleatorias independientes con media 0 y Cov (Y) = I
para X = CY. Entonces E (X) = 0 y

Cov (X) = E [XX
t
] = E[C YY
t
C
t
]
=CE (Y Y
t
)C
t

= CC
t
= ,

tal que es una matriz varcov.

Comnmente hacemos transformaciones lineales de vectores aleatorios y
necesitamos saber como las matrices de varianza-covarianza son transformadas.
Supongamos que X es un vector aleatorio de m1 con media
x
y matriz de varianza-
covarianza
x
y sea Y = BX + b , donde B es de km y b es de k1. la media de Y es,
Y
= B
x
+ b, y la matriz de varianza-covarianza de Y es;

y
= E[ (Y
Y
)(Y
Y
)
t
] (1.3)
= E [ ( BX + b (B
X
+ b)) (BX + b (B
X
+ b))
t
]
= BE[(X
X
) (X
X
)
t
]B
t

= B B
t

Recordemos que la distribucin normal univariada, con media y varianza
2
,
tiene funcin de densidad:
f(x) =
2
2
2
1
2
2
1
|
.
|
\
|
x
e - < x <
ahora considerando el exponente:
2
|
.
|
\
|
x
= (x ) (
2
)
-1
(x )
podemos generalizarlo para un vector de las observaciones sobre varias variables, X de
p1 tal que tendramos
(X
X
)
t
(X
1
X
)

donde el vector
X
de p1 representa el valor esperado del vector aleatorio X y la
matriz es la matriz de varianza covarianza.
La constante de la normal univariada
2
2
1
se sustituya por una constante

mas general, la constante para la distribucin normal multivariada es (2 )
p/2
||
1/2
,
consecuentemente la densidad normal pdimensional para el vector aleatorio X tiene la
forma:

f
X
(X) =
2 / 1 2 /
| | ) 2 (
1
( ) ( )
t 1
X X
1
X X
2
e

donde - < x
i
< , i = 1, . . ., p. y es de rango p. La media de X esta definida por
E[X] = , y la matriz de varianza covarianza por E [(X
X
)(X
X
)
t
] = .

Usualmente la densidad normal p-dimensional se denota por N
p
(, ), la cual
es anloga al caso univariado.

Ahora daremos la definicin formal de la densidad normal multivariada.

Definicin 1.2.1. Si y
1
, y
2
,,y
p
son p variables aleatorias y si Y es el vector p1 de estas
variables

f(y
1
, y
2
,,y
p
) = K
( ) (
t 1
Y R Y
2
)
e - < y
i
< , i = 1, , p

es la funcin de densidad de una normal multivariada si se cumple

a) R es una matriz definida positiva, r
ij
son constantes.
b) K es una constante positiva.
c)
i
es el i-simo elemento de ,
i
son constantes.
K =
( )
1 2
2
R
2
/
p /

Haciendo R = , tenemos la misma funcin deducida anteriormente a partir
de la funcin de densidad normal univariada.
1

Otra definicin alterna es la siguiente.

Definicin 1.2.2. El vector aleatorio de m1 X se dice que tiene una distribucin normal
m-variada si, para cada R
mx1
, la distribucin de
t
X es normal univariada.

A partir de las definiciones ahora estableceremos algunas propiedades de la
distribucin normal multivariada.

Teorema 1.2.2. Si X es N
m
( , ) entonces la funcin caracterstica de X es

X
(v) = exp ( iv
t
v
t
v). (1.4)
v R
mx1

Demostracin.

Aqu
X
(v) = E [ exp(iv
t
X

)

] = , ( )
t
v X
1
El lado derecho denota la funcin caracterstica de la variable aleatoria v
t
X
evaluada en 1. Ya que X es N
m
(, ) entonces v
t
X se distribuye como una normal
univariada, v
t
X N(v
t
, v
t
v) tal que

( )
t
v X
1 = exp (i v
t
v
t
v).

lo cual completa la demostracin.

Si u
i
con i = 1, 2, , r, son v.a.i.i.d con distribucin normal estndar, si U es el
vector de r1 cuyos elementos son dichas variables.

U
(v) = E [ exp (i v
t
U)

]
=
(por
independencia)
1
E exp( i )
=

r
j j
j
v u (
=
2
1
1
exp
2
=
|
\ .
r
j
j
v
|
|
(por normalidad)
=
t
1
p v v
2
| |
|
\ .
ex
Ahora si ponemos
X = CU +

donde C es una matriz de mr de rango r tal que = CC
t
, y R
mx1
. Entonces X
tiene funcin caracterstica (1.4),

E [exp (iv
t
X)] = E[ exp (iv
t
CU) ] exp (iv
t
)
=
U
(C
t
v) exp (i v
t
)
= exp (- v
t
CC
t
v) exp (i
t
v)
= exp ( iv
t
v
t
v).

Vale comentar que podramos haber definido la distribucin normal
multivariada N
m
(, ) por medio de la transformacin lineal sobre variables normal
estndar independientes. Tal que dicha representacin en la practica es muy til.

1.2.2 Formas lineales, Marginales y Condicionales.

Regresando a las propiedades de la distribucin normal multivariada, los
siguientes resultados muestran que cualquier transformacin lineal de un vector normal
tiene una distribucin normal.

m
( , ) y B es una matriz de dimensin km, b es un vector
de k1, entonces

Y = BX+b es N
k
( B + b , B B
t
).

Demostracin.

El hecho de que Y es normal k-variada es una consecuencia directa de la
definicin 1.2.2, puesto que todas las funciones lineales de los componentes de Y son
funciones lineales de los componentes de X y estos son todos normales. La media y la
covarianza de la matriz Y estn claramente definidas.

Una propiedad importante de la distribucin normal multivariada es que todas las
distribuciones marginales son normales.

m
( , ), entonces la distribucin marginal de cualquier
subconjunto de k < m componentes de X es normal k-variada.

Demostracin.

Esto se sigue directamente de la definicin, o del teorema 1.2.3. Por ejemplo,
hacemos una particin de X, y como
1
2
X
X
X
| |
=
|
\ .
, ,
1
2
|
=
\ .
|
| (

=
22 21
12 11
donde X
1
y
1
son de k1 y
11
es de kk, poniendo

B = [ I
k
: 0] es de dimensin km y b = 0

En el teorema 1.2.3 se muestra inmediatamente que X
1
es N
m
(
1
,
11
).

Una consecuencia de este teorema es que la distribucin marginal de cada
componente de X es normal univariada. Lo inverso no es cierto en general; esto es, el
hecho de que cada componente de un vector aleatorio no es (marginalmente) normal
no implica que el vector tenga una distribucin normal multivariada. [Esta es una de las
razones por la cual el problema de pruebas (de hiptesis) de normalidad multivariada es
hasta cierto punto un tanto complicado en la practica].
Recordemos que la independencia de dos variables aleatorias implican que la
covarianza entre ellas, si esta existe, es cero, pero que el caso contrario en general no es
cierto. Esta caracterstica, para la distribucin normal multivariada, es como la muestra
el siguiente resultado.

m
( , ) y X, y es una particin como la siguiente:

1
2
X
X
X
| |
=
|
\ .
, =
|
, ,
1
2
| |
\ .
|
|
.
|
\
|

=
22 21
12 11

donde X
1
y
1
son de k 1 y
11
es de k k, entonces los subvectores X
1
y X
2
son
independientes si, y solo si
12
= 0.

Demostracin.

12
es la matriz de covarianzas entre los componentes de X
1
y los componentes
de X
2
, de tal manera que la independencia de X
1
y X
2
implica que
12
= 0.

Sea
12
= 0, la funcin de densidad de X es,

f(X) =
( )
1 2
2 11
22
1
0
2
0
/
p /

| |
\ .
t 1
1 1 11 1 1
2 2 22 2 2
X 0 X
1
X 0 X 2
e

| | | | |
| |
|
|

\ . \ . \ .

=
( )
1 2 1 2 2
11 22
1
2
/ / p /

( ) ( ) ( ) (
( )
t t 1 1
1 1 11 1 1 2 2 22 2 2
1
X X X X
2
e

+ )

=f(X
1
)f(X
2
)
por lo tanto X
1
, X
2
son independientes.

Este teorema se puede extender al caso donde se hacen particiones de X en un
numero de subvectores. Lo importante de esto es que para determinar si dos
subvectores de un vector distribuido normalmente son independientes es suficiente
comprobar que la matriz de covarianzas entre lo dos subvectores es cero.

Teorema 1.2.6. Si los vectores aleatorios X y Y de m 1 son independientes y X + Y
tienen una distribucin normal m-variada, entonces X y Y se distribuyen como normal.

Demostracin.
Para cada R
mx1
, la distribucin de
t
(X + Y) =
t
X +
t
Y es normal (por la
definicin 1.2.3, ya que X + Y es normal). Puesto que
t
X y
t
Y son independientes,
implica que ambas son normales, y por lo tanto X y Y son normal m-variada.

Una propiedad bien conocida de la distribucin normal univariada es que las
combinaciones lineales de variables normales independientes son normales. La
generalizacin a la situacin multivariada, es como se muestra a continuacin.
Teorema 1.2.7. Si X
1
, . . . ,X
N
son todas independientes, y X
i
es N
m
(
i
,
i
) para i =
1, . . . , N, entonces para cualquier constante fija
1
, . . . ,
N
,

=
N
i
i i
X
1
es
|
N . |
.
|
\

= =
N
i
N
i
i i i i m
1 1
2
,

La demostracin de este teorema se sigue de la definicin 1.2.2, o por inspeccin
de la funcin caracterstica de .
=
N
i
i i
X
1
Teorema 1.2.8. Si X ~ N(, ), XR

k
1
, con X = , ( X
1
2
X
X
|
\ .
21 1

|
|
1
, X
2
son conjuntamente
normales) X
2
| X
1
~ N( + ). ( )
1 1
2 2 1 1 1 22 1 12
X ,
1 1

Demostracin.

Sea A =
1
21 11
I 0
I
| |

\ .
|
)
, es claro que |A| = I, si
W = A(X-) =
|
=
1
21 11
I 0
I

\ .
|
|
1 1
2 2
X
X

| |
|
\ .
( ) (
1 1
1
21 11 1 1 2 2
X
X X

| |
|
+
\ .
Luego
W=
1
2
W
W
| |
\ .
|
~N
|

11
1
22 21 11 12
0 0
0 0
,

| |
| | | |
| |

\ . \ .
\ .
( )
1 2
WW 1 2
f W,W =
( )
1
1 2 2
11
1
2
/ k /

( )
1 t
1 11 1
1
W W
2
e

( )
2
1 2
2
1
22 21 11 12
1
2
/
k /

( )
1
t 1
2 22 21 11 12 2
1
W W
2
e

| |

|
\ .

( )
1 2
X X 1 2
f X ,X =f A |I| ( ( )
1 2
WW
X-)
) = ( ) ( ( )
1 2
1
W W 1 1 2 2 22 11 1 1
f X - X - X - ,

( )
2 1
X |X 2 1
f X |X =
( )
2
1 2
2
1
22 21 11 12
1
2
/
k /

( ) ( ) ( ) ( ) ( ) ( ) ( )
t 1
1 1 1
2 2 21 11 1 1 22 21 11 12 2 2 21 11 1 1
1
X X X X
2
e

| |

|
\ .

Como podemos ver X
2
| X
1
~ N( + ). ( )
1 1
2 21 11 1 1 22 21 11 12
X ,

=
( )
1
1 2 2
11
1
2
/ k /

( )
1 t
1 11 1
1
W W
2
e

( )
2
1 2
2
1
22 21 11 12
1
2
/
k /

( )
1
t 1
2 22 21 11 12 2
1
W W
2
e

| |

|
\ .

Definicin 1.2.3. A Q = ( X se le denomina la forma cuadrtica asociada
a la funcin de densidad f
t 1
) ( X )

X
(X) = K
( ) ( )
t 1
X X
X X

1
2

e

Teorema 1.2.9. Si X ~ N( , ), XR
k
1
con forma cuadrtica Q, el vector de medias
es aquel que da la solucin al sistema de ecuaciones
Q
X
=0.
Demostracin.
La densidad la podemos poner como f
X
(X) = K
1
Q
2
e
el valor de X que
maximiza f
X
(X) es el valor de X tal que Q=0, como Q=( X y es
definida positiva, Q slo puede ser cero en el punto X=0, es decir el punto en donde
X = , por lo que podemos decir que es el punto que maximiza a f
t 1
) ( X )

X
(X).
La solucin al sistema
X
f ( X)
X
=0 da el punto mximo de f
X
(X) y por lo
mencionado anteriormente tal punto es . Pero como
X
f ( X)
X
=
1
Q
2
1 Q
Ke
2 X

| |
\ .

Se sigue que el vector que satisface
X
f ( X)
X
=0, es el mismo que satisface

Q
X
=0. Por
tanto el vector es la solucin al sistema
Q
X
=0

Ejemplo. Sea x
1
, x
2
, dos variables distribuidos conjuntamente como una normal
multivariada con forma cuadrtica
Q = x
2 2
1
2 x x +
2
1
x
2
3x
1
2x
2
+4
A partir de la forma cuadrtica deseamos encontrar el vector de medias y la
matriz de varianza covarianza. La forma cuadrtica la podemos escribir como
Q=( X =
t 1
) ( X )

t 1
X X
t 1 t 1 t 1
X X

+
X
X
2
El nico trmino que tiene trminos de segundo grado es , as tenemos que
t 1
X

t 1
X

= x
2 2
1
2 x x +
1
x
2
=
t
1 1
2 2
1
1
2
1
2
2
x x
x x
| |
|
| | | |
|
|
\ . \ . |
|
\ .
|

as tenemos que
1
=
1
1
2
1
2
2
| |
|
|
|
|
\ .
y =
8 2
7 7
2 4
7 7
| |
|
|
|
\ .
|

ahora slo nos hace falta obtener la media, por el teorema anterior esta la podemos
obtener resolviendo el sistema
Q
X
=0.
Tenemos que
1
Q
x
= 2x
1
x
2
3 = 0
2
Q
x
= x
1
+ 4x
2
2 = 0
La solucin al sistema anterior es x
2
= 1, x
1
= 2 as tenemos que
1
= 2 y
2
=1.

1.3 Distribucin de formas cuadrticas.

Recordemos que una funcin de densidad es un mezcla de funciones si:
f
X
(x) = ( )
1
p f x
n
j j
j =
con p
j
es tal que p
j
0 y = 1 y f
1
p
=
j
j
j
(x) son funciones de densidad, j = 1, , n.

Definicin 1.3.1 La funcin de densidad
f
X
(x; , p) =
2
0
p f (x)
+
=
j p j
j
donde f
p+2j
(x) es la funcin de densidad de una
2
(p+2j)
y p
j
= e
!

j
j
, j = 0, 1, 2 , .
a la funcin de densidad anterior se le denomina
2
no central con parmetro de no
centralizad y p grados de libertad ( ).
2
( , )
p

Teorema 1.3.1 El valor esperado y la varianza de la variable definida anteriormente son:
E(X) = p+2
V(X) = 2(p+4)
Demostracin.
E(X) = =
2
0
0
x p f (x)d

+
=
j p j
j
x (
0
e
!
j
j
p j
j
) 2
x
= p+2

E(X
2
) =
2
2
0
0
x p f (x)d

+
=
j p j
j
= ( ) ( )
( )
2
0
e 2 2 2
!
+ + +
j
j
p j p j
j

= ( ) ( )
2 2
0
e 2 4 4
!
+ +
j
j
p + p p j +4j
j

= 2p+ p
2
+(4+4p) +4(+
2
)
= 4
2
+8 + 4p + 2p+ p
2

V(X) = E(X
2
) E(X)
2

= 4
2
+8 + 4p + 2p+ p
2
(p+2)
2
= 2(p+4)

Teorema 1.3.2 La funcin caracterstica de una es;
2
( , )
X
(t) = ( )
2
1 2it

p
1
1
1 2it
e
| |

|
\ .

Demostracin.
X
(t) =
itx
2
0
0
e p f (x)d

+
=
j p j
j
x
=
itx
2
0
0
e e f (x
!
+
=

j
p j
j
j
)dx
=
2
2
0
1
e
! 1 2it
+
| |
|
\ .
p j
j
j
j

=
2
0
1 1
e
1 2it ! 1 2it
| |
|

\ . \ .
p
j
j
j
| |
|

=( )
2
1 2it

p
1
1
1 2it
e
| |

|
\ .

Corolario 1.3.2.1. Si X se distribuye como una , si = 0 entonces X es una .
2
( , )
p
2
( )
p

Definicin 1.3.2. Si W y U son dos variables independientes, la variable
V =
2
( , )
p
2
( ,0)
q
W
U
p
q
, tiene funcin de densidad F no central con parmetro de no centralidad y
p y q grados de libertad en el numerador y denominador respectivamente ( F
(p,q,)
).

Teorema 1.3.3. Si X N
p
(,I) entonces X
t
X , con =
2
( , )
p
t
1
2
.

Demostracin.
( )
t
X X
v =
( )
( ) ( )
t
t
2
1
X X
ivX X
2
1
e e
2

p
" dX
=
( )
t
t
t
2
1 1 1 1
X 1 2iv X 1 2iv
2 2 1 2iv 1 2iv 1 2iv
1
e d
2
| |
| | | |
|
| |
|
\ . \ .
\ .

p
" X
Haciendo Z = X 1 2iv
=
( )
t t
t
2
2
1
1 1 1
Z Z
2 1 2iv
2 1 2iv 1 2iv
1 1
e e
1 2iv
2
| |

| | | |
|
| | |
\ . \ . \ .
| |
|
\ .

p
p
" dZ
=
( )
t
2
1 1
1
2 1 2iv
1
e
1 2iv
| |

|
\ .
p

Si tomamos como =
t
1
2
, hemos llegado a la funcin caracterstica de una ,
con =
2
( , )
p
t
1
2

Corolario 1.3.3.1 Si X N
p
(0, I) entonces X
t
X .
2
( )
p

Teorema 1.3.4. Si XN
n
(,) entonces X
t
AX , con rango(A)=p y =
2
( , )
p
t
1
2
A , si,
y slo si, A es idempotente.

Demostracin.

La funcin caracterstica de X
t
AX es
( )
t
X AX
v =
( )
( ) ( )
t 1
t
1
2 2
1
X X
ivX AX
2
1
e e
2

n
" dX
=
( )
( )
( ) ( )
t 1
t 1 t 1
1
2 2
1
1
2
X I 2ivA X X
2
e
e d
2

+

n
" X
=
( )
( )
( )
1 1 t 1 t 1 1
1
2
2
1 1
I 2ivA
1
2 2
e I 2ivA e

= ( )
( )
( )
1 t 1
1
2
1
I I 2ivA
2
I 2ivA e

=
( )
( ) ( )
t 1
1
2
1
1
2iv A
2
1
1 2iv e

=
| |
|
|
\ .
k k
k
n
j
j =

donde
j
son las races caractersticas de A, con A es idempotente de rango p, p
valores de
j
son uno y n p son ceros y como = A ( ) A
p

( )
t
X AX
v = ( )
( )
t 1
1
1 2
1
2iv A
2
1
1 2iv e

=
(
(
k
k
p
j =

=( )
( )
( )
1 t
1
2
1
A 1 1 2iv
2
1 2iv e

p

luego entonces X
t
AX , =
2
( , )
p
t
1
2
A .

Ahora suponiendo que X
t
AX , hay que probar que A es idempotente
con rango(A)= p.
2
( , )
p

Tenemos que

( )
t
X AX
v = ( )
( )
( )
1 t 1
1
2
1
I I 2ivA
2
I 2ivA e

= ( )
( )
( )
1 t
1
2
1
A 1 1 2iv
2
1 2iv e

p

Lo anterior es para cualquier , sin perdida de generalidad tomemos a =0,
substituyendo = 0 en la igualdad anterior

( )
1
2
1 2iv

p
= ( )
1
2
I 2ivA

haciendo u = 2iv

( ) 1 u
p
= ( ) I uA

sean
1
,
2
, ,
n
las races caractersticas de A, entonces tenemos que
( ) 1 u
p
=
( )
1
1 u
=

n
j
j
para que la igualdad se cumpla debemos tener np races caractersticas iguales a cero,
luego entonces, nos queda que
( ) 1 u
p
=
( )
1
1 u
=

p
j
j
sacando logaritmo de ambos lados tenemos que los
j
son iguales a uno, luego
entonces A es una matriz idempotente con rango(A)= p.

Corolario 1.3.4..1 Si X N
n
(0,I) entonces X
t
AX , con rango(A) = k ,si y slo si A
es idempotente.
2
( )
k

Corolario 1.3.4.2 Si XN
n
(,I) entonces X
t
AX , con rango(A)=p y =
2
( , )
p
t
1
2
A ,
si, y slo si, A es idempotente.

Teorema 1.3.5. Si X ~ N( ,) entonces AX y BX son independientes, si, y slo si
BA= 0.
t
X

Demostracin.
Por ser A simtrica A=L , donde L es de rango completo .
t
L
Por lo que
Cov(BX, X) = E(BXB)( L X )
t
L
t t
L
t
= E( B(X-)(X-)
t
L)
= B L

Pero como tenemos que BA = 0 tenemos que BL =0, como L es de rango
completo L L tiene inversa y
t
L
t

B L =0 implica B L =0
t
L

Por lo que BX es independiente de L X. Entonces BX es independiente de L X =
AX.
t t
X
t
L
t
X
Ahora demostremos que si AX y BX son independientes entonces BA = 0.
Como AX y BX son independientes tenemos que Cov(BX, AX) =0
t
X
t
X
t
X

Cov(BX, AX) = E(BXB)( AX E( AX ))
t
X
t
X
t
X
t

= BE(X)( AX p
t
X
t
A)
= BE(X)[(X)
t
A(X)+ 2(X)
t
A p]
= 2BA
lo que significa que BA = 0.

Teorema 1.3.6. Si X~N(,), A y B simtricas, AX y BX son independientes si y
slo AB=0 (o equivalentemente BA= 0)
t
X
t
X
(Considerando que, A y B son idempotentes y el rango(A)=q
1
y rango(B)=q
2
)

Demostracin.
Si AX y BX son independientes, tenemos que AX+ BX =
(A+B)X se distribuye como una , con p=q
t
X
t
X
t
X
t
X
t
X
2
( , )
p
1
+q
2
y = ( )
t
1
2
A B + .
Tenemos que (A+B) debe ser idempotentes, luego entonces AB=0.
Ahora demostremos que si AB=0 entonces AX y BX son
independientes,
t
X
t
X
((A+B) ) ((A+B) ) = AA+ AB+ BA+ BB
= A+ AB+ BA+ B
= (A+B)
Lo que significa que (A+B)X se distribuye como una con p y
definidas como arriba , luego entonces AX y BX son independientes.
t
X
2
( , )
p
t
X
t
X

La demostracin del siguiente teorema se sigue a partir del teorema 1.1.1 y los
resultados de est seccin.

Teorema 1.3.5. (Teorema de Cochran) Sea Y ~ N( ,
2
I ) y A
i
son matrices de n n
simtricas de rango k
i
, i = 1,, p.
y A =
, simtrica de rango k, entonces las

1
A
=
p
i
i
2
1
YA
j
Y~ con p = r
'
) , p (
2
j
y
=
2
2
1
A
j
, sern independientes y
2
1
YAY~ con p = r y =
'
) , p (
2
2
2
1
A si
y slo si
I) Si se cumplen alguna de las dos a), b) y c) implica a), b), c) y d).
II) c) y d) a) y b)
III) c) y A
1
, A
2
, , A
p-1
idempotentes con A
p
p

idempotente y por tanto implica a) y por consiguiente b) y d).

e) A
i
es idempotente para todo i
f) A
i
A
j
= 0 para todo i j
g) A es idempotente
con k =
.
=
p
i
i k
1

II.- Modelo de Regresin Lineal.

2.1 Estimacin de los parmetros.

Para el modelo lineal general con n observaciones y p coeficientes, en forma
vectorial tenemos
Y = X + e
con

Y =
1
2
y
y
y
| |
|
|
|
\ . n
#
|
|
, X = , =
11 21 11
12 22 12
1 2 1
1 x x x
1 x x x
1 x x x
| |
|
|
|
|
|
\ .
p-
p-
n n p- n
"
"
# # # % #
"
0
1
1
| |
|
|
|
\ .
p-
#
|
|
, e= ,
1
2
| |
|
|
|
|
|
\ .
#
n
e
e
e

Donde Y, X son conocidas y desconocida, adems e~ N(0 ,
2
I ) y X de rango
completo,

f (e; 0 ,
2
I) =
2 /2
1
(2 )
p
( )
( )
( )
t
1
2
1
I
2
exp
e e

=
2 /2
1
(2 )
p
( )
( )
( )
t
1
2
1
Y X I Y X
2
exp

=
2 /2
1
(2 )
p
( ) ( )
t
2
1
Y X Y X
2
exp

como los s son desconocidos, busquemos sus valores estimando por mxima
verosimilitud, la funcin de verosimilitud es;

L(
2
,; e) =
2 /2
1
(2 )
p
( ) ( )
t
2
1
Y X Y X
2
exp

Ln(L(
2
,;e)) =
( )
2
ln 2 ln
2
+
p
( ) ( )
t
2
1
Y X Y X
2

24 II Modelo de Regresin Linea Mahil Herrera M.

dado que
t t t
X Y Y X =

=
( )
2
ln 2 ln
2
+
p

( )
t t t t t
2
1
Y Y 2 X Y X X
2
+

Ln(L( ))
=
( )
t t
2
1
2X Y 2X X
2
+

2
Ln(L( ))
=
2
2
p
+
( )
t t t t
4
1
Y Y 2Y X X X
2
+

=
2
2
p
+ ( ) ( )
t
4
1
Y X Y X
2

igualando a cero ambas ecuaciones,

( )
t t t
2
1
2 X Y 2X X
2
+
= 0
= 0
t t t
X Y X X +

( )
1
t t
X X X Y
=
2
2
p
+ ( ) ( )
t
4
1
Y X Y X
2

= 0
=
m2

( )

( )
t
Y X Y X
p

Ahora obtengamos la esperanza de los estimadores.

( )
E = haciendo S = y sustituyendo Y = X + e
( )
( )
1
t t
E X X X Y
t
X X

( )
E = = =+ = ( ) ( )
1 t
E S X X e
+
( )
1 t 1 t
E S X X S X e

+ ( )
1 t
S X E e

es decir, es un estimador insesgado de , ahora calculemos la esperanza de
m2
m
( )
2
E =

( )

( )
t
Y X Y X
E
| |

|
|
|
\ .
p

sustituyendo el valor de
=
1
p
( ) (
( )
t
1 t 1 t
E Y XS X Y Y XS X Y

)

=
1
p
( ) ( )
( )
t
t 1 t 1 t
E Y I XS X I XS X Y

Podemos ver que es idempotente
1
I XS X
t

=
1
p
( ) ( )
t 1 t
E Y I XS X Y

Sustituyendo Y= X + e

=
1
p
( )
( )
( )
( )
t
1 t
E X I XS X X e e
+ +
=
( ) ( ) ( ) ( )
t t t t 1 t t t 1 t t 1 t t 1 t
1
E X X X XS X X X I XS X I XS X X I XS X e e e e

+ + +
p

Como E(e) = 0
m
( )
2
E =
1
p
( ) ( )
t 1 t
E I XS X e e

Por lo demostrado en la tarea 4 (Si X es el vector p 1 con X ~ N(0 ,
2
I ) y A es
idempotente de rango k entonces E( AX) = k
t
X
2
.)
=
1
p

2
( n p)
Luego entonces para poder tener un estimador insesgado de la varianza debemos
considerar a
m2
=
( )

( )
t
Y X Y X
n - p

Ahora obtengamos la matriz de varianza covarianza de

V( ) = E( E( ))( E( ))

t
= E( )( )
t

sustituyendo el valor de Y y de

= ( ) ( ) ( ) ( )
t
1 t 1 t
E S X X S X X e e

+ +
=
( )(
t
1 t 1 t
E S X S X e e

+ +
)
es claro que S S
( )
t
1 1
=
=
( )
1 t t 1
E S X XS ee

=S X
( )
1 t t 1
E XS ee

=
2
S X
1 t 1
XS

=
2
S
1

de aqu podemos deducir que N(,
2
S
1
).

2.2. Mnimos Cuadrados y Proyeccin Ortogonal.

En esta seccin veremos la relacin que existe entre el mtodo de estimacin de
mnimos cuadrados empleado en el anlisis de regresin con la mejor aproximacin a
un vector, empecemos con un ejemplo antes de empezar con el formalismo del tema.

Ejemplo. Un investigador recolecta informacin mediante la realizacin de mediciones
y
1
, y
2
,, y
m
en los instantes t
1
, t
2
,,t
m
, respectivamente. Por ejemplo, pueden realizarse
mediciones sobre el desempleo en distintas fechas durante un perodo. Supngase que
grfica los datos (t
1
,y
1
),,(t
m
,y
m
) como puntos del plano. A causa de la distribucin de
tales puntos, l piensa que exista una correlacin lineal entre y y t, tal como y=ct+d . El
investigador est interesado en encontrar los parmetros c y d de tal manera que la recta
represente y=ct+d represente el mejor ajuste posible para los datos recopilados. Una
estimacin del ajuste es calcular el error e que representa la suma de cuadrados de las
distancias verticales de los puntos a la recta, esto es,

e = (y
i
m
=
1
i
-ct
i
-d)
2

As, su problema es encontrar las constantes c y d que minimicen a e . Esto lo
conduce a considerar el siguiente sistema de ecuaciones :

t
1
+c+d=y
1

t
2
+c+d=y
2

#
t
m
+c+d=y
m

o bien AX = y, donde A=
1
1
1
| |
|
|
|
\ .
# #
1
2
m
t
t
t
|
|
, X=
| |
|
\ .
c
d
y y=
|
|
.
| |
|
|
|
\ .
#
1
2
m
y
y
y

Por supuesto que parecera irreal suponer que tal sistema tiene una solucin
puesto que en la prctica , el nmero de ecuaciones excede con mucho al nmero de
incgnitas, para resolver este tipo de problema veamos los siguientes resultados.

Para x, y en F
n
, denotaremos por x,y
n
al producto interno cannico (ordinario)
de x, y en F
n
.

Lema 2.2.1. Sean A una matriz de m x n sobre F, x est en F
n
, y en F
m
. Entonces

Ax,y
m
=x,A
*
y
n

Demostracin.
Sea Ax =c donde c F
m
y c est definida por c
i
=
con i = 1,..., m, por

tanto;
1
n
ij j
j
A x
=
Ax,y = c
1
y
1
+" + c
m
y
m
= y
1
( ) + "+ y
1
1
n
j j
j
A x
=
m
( )
1
n
mj j
j
A x
=
=
1 1
m n
i ij
i j
y A x
= =
| |
|
\ .
=
1 1
m n
ij j i
i j
A x y
= =
j
i

Por otro lado A
*
y=d donde d est en F
n
y d est definida por d
j
= =
con j =1,,n. El lado derecho de la igualdad queda como:
1
m
*
ji i
i
A y
=
1
m
ij i
i
A y
=

x,A
*
y= d
1
x
1
+" + d
m
x
m
= x
1
( ) + " +x
1
1
m
i i
i
A y
=
n
( )
1
m
in i
i
A y
=
=
1 1
n m
j ij
j i
x A y
= =
| |
|
\ .

=
1 1
n m
ij i j
j i
A y x
= =

= =Ax,y
1 1
m n
ij j i
i j
A x y
= =

Lema 2.2.2. Sea A una matriz de mn sobre F. Entonces el rango(A
*
A)= rango(A).

Demostracin.
Slo tenemos que demostrar que, para x en F
n
, A
*
Ax = 0 si y slo si Ax = 0.
Claramente si Ax = 0 implica que A
*
Ax = 0. Por ello supngase que A
*
Ax = 0.

Entonces 0=A
*
Ax,x
n
=Ax, A
**
x
m
=Ax,Ax
m
de modo que Ax = 0.

Corolario 2.2.1. Si A es una matriz de mxn tal que el rango(A) = n , entonces A
*
A es
invertible.

Demostracin.
Como A es de rango n entonces por el lema anterior A
*
A es de rango n pero
como A
*
A es una matriz de n x n entonces A
*
A es invertible.

Teorema 2.2.1. Sea A una matriz de m n sobre F, y en F
m
. Entonces, existe x
0
en F
n
tal
que
(A
*
A)x
0
= A
*
y
y

0
Ax y Ax y para toda xF
n
.

Adems, si rango(A)=n, entonces x
0
=(A
*
A)
-1
A
*
y.

Demostracin.
Considrese a Ax = y, definimos a W={Ax: x F
n
}. Haciendo a E la proyeccin
ortogonal sobre W, escjase a x
0
en F
n
tal que E(y)=Ax
0
. Entonces por
( y ) y E u y para toda u en W; esto es,
0
Ax y Ax y para toda x en
F
n
.

Observemos que como E es una proyeccin ortogonal, Ax
0
y =E(y)-y estn en
W
, entonces Ax,Ax
0
y
m
= 0 para toda x en F
n
. Luego por el Lema 1, tenemos que
x,A
*
(Ax
0
y)
n
=0 para toda x en F
n
; esto es, A
*
( Ax
0
y)=0. As nicamente tenemos
que encontrar una solucin para A
*
Ax
0
=A
*
y. Si adems suponemos que rango(A)=n,
entonces por Lema 2 tenemos que x
0
=(A
*
A)
-1
A
*
y.

El teorema anterior se mostr que , si rango(A)=n, entonces existe un elemento
x
0
F
n
nico tal que Ax
0
, es el punto en W ms cercano a y. Por supuesto, si
rango(A)<n, existir un nmero infinito de estos vectores.

Est forma de aproximacin es mejor conocida como mnimos cuadrados es muy
til para resolver sistemas de ecuaciones cuyos problemas envuelvan en que el nmero
de ecuaciones exceda del nmero de incgnitas, muy utilizado esto en la rea de
estadstica.

Regresando a nuestro ejemplo anterior, pero ahora con un ejemplo numrico.
Supongamos que el investigador recopilo la siguiente datos: (1,2), (2,3), (3,5) y (4,7).
Entonces
A= y y =
;
1 1
2 1
3 1
4 1
|
\
|
.
|
|
|
|
2
3
5
7
|
\
|
.
|
|
|
|
por lo tanto
A
*
A=
=
1 1
2 1
3 1
4 1
|
\
|
.
|
|
|
|
1 2 3 4
1 1 1 1
|
\
|
.
|
30 10
10 4
|
\
|
.
|
y entonces
(A
*
A)
-1
=
1
20
4 1
10 30
|
\
|
.
|
0

Por consiguiente
x
0
= =
c
d
|
\
|
.
|
1
20
4 1
10 30
|
\
|
.
|
0 1 2 3 4
1 1 1 1
|
\
|
.
|
2
3
5
7
|
\
|
.
|
|
|
|
=
|
.
17
0
.
\
|
.
|
As, la recta y=1.7t es la recta de mnimos cuadrados. El error E puede calcularse
directamente como Ax y
0
2
=0.3

Pero que pasa si el rango de A es menor a n, este problema se resuelve por
medio de matrices pseudinversas.

2.3 Intervalos de Confianza.

Para el modelo lineal general con n observaciones y p coeficientes a estimar, que en
forma vectorial tenemos
Y = X + e
con

Y =
1
2
y
y
y
| |
|
|
|
\ . n
#
|
|
, X = , =
11 21 11
12 22 12
1 2 1
1 x x x
1 x x x
1 x x x
| |
|
|
|
|
|
\ .
p-
p-
n n p- n
"
"
# # # % #
"
0
1
1
| |
|
|
|
\ .
p-
#
|
|
, e= ,
1
2
| |
|
|
|
|
|
\ .
#
n
e
e
e

Donde Y, X son conocidas y desconocida, adems e~ N(0 ,
2
I ) y X de
rango completo,

Recordemos que, los estimadores mximo verosimiles del modelo son;
=
( )
1
t t
X X X Y
=
m2

( )

( )
t
Y X Y X
n p
=
p n
1
Y
t
(I X(X
t
X)
-1
X
t
)Y
en el caso de la varianza utilizaremos el insesgado.

De las ecuaciones anteriores hemos deducido que N(,
2
1
S
) donde S =
, y tambin tenemos que
t
X X
m2
2
)
n - p ( , ahora obtengamos algunos

intervalos de confianza.
2
(
n p )

2.3.1 Intervalos de confianza para
i

La marginal del i-simo elemento de es, N(

i
i
,
2
c
ii
), donde c
ii
= ,
entonces
( )
1
S
ii
Z =
2
c

i
ii
i
N(0,1)
y
T =
2
c

i i
ii
t
(
n p)

Si buscamos el valor de k tal que
2
P
c
| |

\ .
i i
ii
k
|
|
k = 1 , est es, k =
2
( ) t
n - p


2 2
2 2
1 1
( ) ( ) P t c t c

| |
+
|
\ .
i i ii i ii
n - p n - p = 1
lo que acabamos de obtener, es el intervalo de confianza para
i
con el (1 )100%
de confianza.

2.3.2 Intervalo de confianza para
2
.

Para obtener el intervalo de confianza de
2
usemos la pivotal
m2
2
)
n - p ( ,
2
( )
n p

m2
1 2 2
P ( )
| |
|
|
\ .
k n - p k = 1
m m 2 2
2
2 1
P ( ) ( )
| |

|
|
\ .
n - p n - p
k k
= 1

2
(
2
n - p
k
^
2
,
1
n - p
k
^
2
) con una confianza del (1 )100%, con k
1
=
2
2
(
n - p ) y
k
2
=
2
1 2
( )
n - p

2.3.3 Intervalo de confianza para E(y) ( E(y|x
1
,x
2
, ,x
p-1
)).

E(y) =
t
* x
=

1
0 =
p-
i
i
x
i

(queremos el valor esperado de y

dado que conocemos x
0
= 1, x
1
, x
2
, ,x
p-1
).

=
*
x
1
1
1
| |
|
|
|
\ .
p-
x
x
#
|
|
es una observacin de las variables independientes y =
|
|
.
0
1
1
| |
|
|
|
\ .
p-
#
El estimador de la esperanza de E(y) es = =
.
n
E( ) y
t
* x

1
0 =

p-
i i
i
x
Sabemos que N(,
2
S
1
) luego entonces x N( ,
t
*

t
* x
2
x
t
*
1
S
*
x ).

Tenemos que
Z =
2 1
t t
* *
t
*
x x
x S x
*
N(0,1)
y
T =
( )
2
1 *
t t
* *
t
*
x x
x S x
t
(
n p)

( )
2
1 *
t t
* *
t
*
x x
P
x S x
| |
|

|
|
\ .
k k = 1

( )

( )
2 2
2 2
1 * 1 *
1 1
t t t t
* ( ) * * * ( ) * P x t x S x x x t x S

| |
+
|
\ .
n - p n - p
t
x = 1

1
0 =
p-
i

i
x
i
(
1
0 =

p-
i i
i
x
2
1
( ) t

n - p

( )
2
1 * t
* x S x
, +
1
0 =

p-
i i
i
x
2
1
( ) t

n - p

( )
2
1 * t
* x S x
) es el
intervalo de confianza de
1
0 =
p-
i
i
x
i
con una confianza del (1 )100%.
Nota. No hay que olvidar que x
0
= 1.

2.3.4 Intervalos de confianza para observaciones simultaneas.

Si tenemos x , ,, (vectores de p1), si quisiramos inferir
simultneamente para , , , buscamos k-intervalos tales que,
I
1
*
2
* x
1
t
* x
t
* x
k
2
t
*
t
x
*
t
* x
k
1
t
* x
1
, x I
2
t
*
2
, , I x
k
k
, si a cada uno de estos eventos los designamos
por A
j
, es decir, cada uno cumple con P(A
1
)= 1
1
, P(A
2
)= 1
2
, , P(A
k
)= 1
k
nosotros buscamos que el evento A
1
A
2
" A
k
suceda con una probabilidad de
por lo menos 1

P(A
1
A
2
" A
k
) = 1 P(A
1
A
2
" A
k
)
c
= 1 P(
c c
1 2
A A A )
k
"
c
c
1 ( P( ) si P( =
c c
1 2
A ) P( A ) P( A ) + + +
k
"
c
A )
k

k

1 (
k
+
k
+"+
k
)= 1
Haciendo P(A
1
)= 1
k
, P(A
2
)= 1
k
,, P(A
k
)= 1
k
, podemos obtener lo
que queremos. De aqu, podemos decir, que para obtener simultneamente k-intervalos
para , , , tenemos que calcular los k-intervalos
1
t
* x
2
t
* x
t
* x
k

I
j
= (
t
* x
j
^
2k
1
( ) t

n - p

( )
t 2
* 1 *
x S x
j j
, +
t
* x
j
^
2k
1
( ) t

n - p

( )
t 2
* 1 *
x S x
j j
)

As lo k-intervalos ocurren simultneamente con una confianza (1 )100%
, j = 1, , k.

Si ahora quisiramos un intervalo de confianza no slo para algunos si no para
todo x* lo que buscamos es algo como;

( )
2
1 *
t t
* *
t
*
x x
P
x S x
| |
|
\ .
c
|
|
= 1 para todo x*

buscando es valor de c, tenemos

( )
2
1 * t t t
* * * x x c x S x
para todo x*

( )

(
2
2
2 t t t
* * * x x c x S x

)
1 *
*
para todo x*

( )

( )
( )
t
2
2 1 t
* 0 x c S x
para todo x*
Sea W =
t
A u
u cte
| |
|
\ .
|W| =
t 1
t
1
cte
A cte u A u
cte A u u

W es semidefinida positiva si, y slo si cte si, y slo si
t 1
u A u 0

t
1
cte
A u u 0

Haciendo A = S
1
, u= y cte = , W es semidefinida positiva si, y slo si
si, y slo si
2
2
c

( )

(
t
2
2
c S 0

( )

( )
t
2
2
1
c

1
S 0
Sabemos que N(,
2
1
S
) luego entonces N(0,
2
1
S
)

( )
1
2 t
X X

(
)
N(0,
2
I)

1
( )
1
2 t
X X

(
)
N(0,I)

2
1

( )
t
( )
t
X X

( )

2
( )
p

Como
m2
2
)
n - p ( , entonces
2
(
n p )
( )

( )
t
t
2
X X
p
F(p,np) , por tanto c
es el percentil de una F(p,np), el intervalo de confianza buscado es

t
* x ( x
t
*
^
1
( , ) F

p n - p p

( )
2
1 * t
* x S x
t
* x
^
,
+
1
( , ) F

p n - p p

( )
2
1 * t
* x S x
) con
una confianza del (1 )100%.

2.3.5 Intervalo de confianza para y
F

Sean , , , observaciones independientes de una poblacin N( ,
F
1
y
F
2
y
F
s
y
t
*
x
2
) ( e independientes de y
1
, y
2
,,y
n
) es decir, , , , no estn en la muestra
original con la que estimamos los coeficientes del modelo, aqu
F
1
y
F
2
y
F
s
y
x
*
=
1
1
1
| |
|
|
|
|
|
\ .
p-
x
x
#
es un vector de p 1. Si definimos a y
F
=
F
1
y
=
s
i
i
s
N( ,
t
*
x
2
/s), anteriormente vimos
que N( ,
t
* x

t
* x
2
t
* x
1
S
*
x ), luego entonces
y
F

t
* x

2 t 1
1
, x * S x *
| | | |
+
| |
\ . \ .
s
N 0

F
t
2 t 1
y x *
1
x * S x *

| |
+
|
\ . s
N(0,1)

F
t
2
t 1
S
y x *
1
x * x *

| |
+
|
\ . s
t
(
n p)
luego entonces el intervalo de confianza para y
F
es;
y
F
(
t
* x
^
2
1
( ) t

n - p

2
t 1
1
x * S x *
s
| |
+
|
\ .
, +
t
* x
^
2
1
( ) t

n - p

2
t 1
1
x * S x *
s
| |
+
|
\ .
)
es el intervalo de confianza de y
F

con una confianza del (1 )100%.

2.4 Pruebas de Hiptesis.

2.4.1 H
0
: = 0

Y = X + e
con

Y =
1
2
y
y
y
| |
|
|
|
\ . n
#
|
|
, X = , =
11 21 11
12 22 12
1 2 1
1 x x x
1 x x x
1 x x x
| |
|
|
|
|
|
\ .
p-
p-
n n p- n
"
"
# # # % #
"
0
1
1
| |
|
|
|
\ .
p-
#
|
|
, e= ,
1
2
| |
|
|
|
|
|
\ .
#
n
e
e
e

Donde Y, X son conocidas y desconocida, adems e~ N
n
(0 ,
2
I ) y X de
rango completo,

Deseamos buscar la prueba para H
0
:=0.

Usando el cociente de verosimilitud generalizada, lo que buscamos, es lo
siguiente, vamos a rechazar H
0
, si,
=
0
SupL( , )
SupL( , )

<k, k una constante positiva
donde L(,) es la funcin de verosimilitud y
0
son los parmetros desconocidos
bajo la hiptesis nula y son todos los parmetros desconocidos, la funcin de
verosimilitud del modelo es;
L(
2
,; e) =
2 /2
1
(2 )
n
( ) ( )
t
2
1
Y X Y X
2
exp

para encontrar el denominador de , lo nico que se debe de hacer es sustituir los
estimadores mximos verosmiles del modelo en la funcin de verosimilitud, esto es:

SupL( , )
2
/2
1
(2 )
n
( )

( )
t
2
1
Y X Y X
2
exp

donde = y =
( )
1
t t
X X X Y

( )

( )
t
Y X Y X
n

Ahora bien, bajo H
0
tenemos que = 0, as tenemos que,
L(
2
; e) =
2 /2
1
(2 )
n
t
2
1
Y Y
2
exp

Ln(L(
2
; e)) =
(
2
ln 2 ln
2
+
n
)
t
2
1
Y Y
2

2
Ln(L( ))
=
2
2
n
+
t
4
1
Y Y
2

igualando a cero,
2
2
n
+
t
4
1
Y Y
2
= 0 =
2
0
t
Y Y
n

De aqu tenemos que el numerador de es:

0
SupL( , )
2
/2
0
1
(2 )
n
t
2
0
1
Y Y
2
exp

sabemos que =
t
Y Y
2
Y

de manera

semejante, =
( )

( )
t
Y X Y X

2
Y X
=
0
SupL( , )
SupL( , )
2
2
0
2
2
1
Y
2
2
/2
0
1
Y X
2
2
/2
1
exp
(2 )
1
exp
(2 )
n
n

=

2
2
2
0
| |
\ .
n
|
|

=
2
2
2
Y X
Y
| |

|
|
\ .
n
n
n
|
|

=

2
2
2 2
2
Y X
Y X X
| |

|
|
| +
\ .
n

como
2
Y X =

2
2
Y X , lo anterior nos queda como
=
2
2
2
1
X
1
Y X
| |
|
|
|
|
|
|
+
|
|
|
\ .
n
p p
n - p
n - p
|
|

Rechazamos H
0
si
2
2
X
Y X

p
n - p
>k
0 ,
ahora busquemos el valor de k
0
, es fcil verificar
que
2
2
Y X
y
2
(
n p )
2
2
X
y como ambas formas cuadrticas son

independientes
2
( )
p

F =
2
2
X
Y X

p
n - p
F(p,np)

La probabilidad de cometer el error tipo I sera P(F>k
0
) = , esto bajo H
0
, de aqu
podemos deducir que k
0
= F
1
(p,np) .

Alo que hemos llegado, es que, rechazamos H
0
si

2
2
X
Y X

p
n - p
> F
1
(p,np)
Lo que hemos hecho se resume en la siguiente tabla denominada como la tabla de
Anlisis de Varianza

Tabla de Anlisis de Varianza
Variacin g.l Suma de
Cuadrados.
Cuadrados
medios
Prueba F
Debido a
P
2
X
2
X
p

2
2
X
Y X

p
n - p

Error n p
2
Y X
2
Y X
n - p

Total N
2
Y
2
Y
n


2.4.2 H
0
:
1
= 0

Y = X + e

Si realizamos la siguiente particin sobre , =
| |
|
es decir
1
2
x1
( )

\ .
r
p r x1
|
|
1
es un
vector de r 1 que contiene r coeficientes de y
2
es un vector de (p-r)1 que
contiene pr coeficientes de (diferentes de
1
). Podemos particionar nuestro modelo
original de la siguiente forma
Y = (X
1
X
2
)
|
+ e , X
1
2
\ .
1
es de n r y X
2
es de n (pr)

Deseamos buscar la prueba para H
0
:
1
=0.

Usando el cociente de verosimilitud generalizada, lo que buscamos, es que,

=
0
SupL( , )
SupL( , )

<k, k una constante positiva
para poder rechazar H
0
.

La funcin de verosimilitud del modelo es;
L(
2
,; e) =
2 /2
1
(2 )
n
( ) ( )
t
2
1
Y X Y X
2
exp

el denominador de , sera,

SupL( , )
2
/2
1
(2 )
n
( )

( )
t
2
1
Y X Y X
2
exp

donde = y =
( )
1
t t
X X X Y
m2

( )

( )
t
Y X Y X
n

bajo H
0
tenemos que
1
= 0, as tenemos que, la funcin de verosimilitud sera,
L(
2
,
2
; e) =
2 /2
1
(2 )
n
( ) (
t
2 2 2 2
2
1
Y X Y X
2
exp

)

Es claro que, el numerador de , es:

0
SupL( , )
( )
/2
2
0
1
2
n

( )

( )
t
2 2 2 2 2
0
1
Y X Y X
2
exp

donde = y =
( )
1
t t
2 2 2 2
X X X Y

2
0

( )

( )
t
2 2 2 2
Y X Y X
n

sabemos que
( )
=

( )
t
Y X Y X

2
Y X

=
0
SupL( , )
SupL( , )
2
2 2 2
0
2
2
1
Y X
2
2
/2
0
1
Y X
2
2
/2
1
exp
(2 )
1
exp
(2 )

n
n

=

2
2
2
0
| |
|
|
\ .
n

=
2
2
2
2 2
Y X
Y X
| |

|
|
|

|
\ .
n
n
n

=

2
2 2
2 2
2
1
Y X Y X
1
Y X
| |
|
|

|
+
|
|
\ .
n
|
|

=

2
2 2
2 2
2
1
X X
1
Y X
| |
|
|
|
|

|
|
+
|

|
|
\ .
n
r
r
n p
n p
|
|

Rechazamos H
0
si

2 2
2
2
X X
Y X

r
n p
>k
0 ,
ahora busquemos el valor de k
0
, tenemos que

2
X =
( )
=

( )
t
X X
( )
1
t t t
Y X X X X Y

y de manera semejante
2
2 2
X =
( )
1
t t t
2 2 2 2
Y X X X X Y

de las dos anteriores desigualdades

2
X

2
2 2
X =
( ) ( )
( )
1 1
t t t t t
2 2 2 2
Y X X X X X X X X Y

por otro lado tenemos que =X

( )
1
t t
2
X X X X X
( )
1
t t
X X X X
2
, para la matriz de la forma cuadrtica
anterior , si hacemos A = y B= .
( )
1
t t
2 2 2
X X X X
2
) ( ) =A ( A B A B
2
AB BA +B
2
= A AB BA + B , pero AB = B lo que hemo
probado que A B es idempotente, de aqu entonces podemos decir que,

2
1
( ) ( )
( )
1
t t t t t
2 2 2 2
Y X X X X X X X X Y
1
y
2
( )
2
2
Y X
y como ambas
formas cuadrticas son independientes
2
(
n p )

F =

2 2
2 2
2
X X
Y X

r
n p
F(r ,np)

La probabilidad de cometer el error tipo I sera P(F>k
0
) = , esto bajo H
0
, de aqu
podemos deducir que k
0
= F
1
(r,np)

A lo que hemos llegado, es que, rechazamos H
0
si

2 2
2 2
2
X X
Y X

r
n p
> F
1
(r,np)

Lo que hemos hecho, se resume en la siguiente tabla de Anlisis de Varianza.

Tabla de Anlisis de Varianza
Variacin g.l Suma de
Cuadrados.
Cuadrados
medios
Prueba F
A la Hiptesis r
2
X

2
2 2
X

2 2
2 2
X X
p r

2 2
2 2
2
X X
Y X

r
n - p

Modelo
reducido

pr

2
2 2
X
2
X
r

Error n p
2
Y X
2
Y X
n - p

Total n
2
Y
2
Y
n

Regresion MHM

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Regresion MHM

Uploaded by

Copyright:

Available Formats

1 II Modelo de Regresin Lineal Mahil Herrera M.

I.- Distribucin Normal Multivariada

Entonces las condiciones

se sustituya por una constante

Teorema 1.2.8. Si X ~ N(, ), XR

=0, es el mismo que satisface

, simtrica de rango k, entonces las

con i = 1,..., m, por

n - p ( , ahora obtengamos algunos

) luego entonces N(0,

y como ambas formas cuadrticas son

por otro lado tenemos que =X

You might also like