You are on page 1of 20

LINEAL SIMPLE

REGRESION
Dr. Arturo Erdely Ruiz
04 de septiembre de 2009

Resumen
Con apoyo en diversos libros en la materia que se enumeran al final de este trabajo, se
desarrolla una exposici on sobre la Unidad 3. REGRESION LINEAL SIMPLE, de la
asignatura Estadstica II en la Licenciatura en Actuara de la Facultad de Estudios Superiores
Acatlan de la UNAM. Esto supone conocimientos previos sobre las asignaturas de Probabilidad
I y II, Estadstica I y lo correspondiente a las dos primeras unidades de Estadstica II, par-
ticularmente respecto a variables aleatorias y sus transformaciones, as como los principios y
metodos basicos de inferencia estadstica.

1. Regresi
on y el caso lineal simple
Segun la etimologa latina del espa adior
nol,1 la palabra regresion viene de re = hacia atras y gr
= ir, caminar, es decir accion de ir hacia atras. Fue Francis Galton quien, en trabajos publica-
dos en 1886 y 1889, introdujo el concepto de regresion en la disciplina estadstica, junto con el de
correlacion, ver Kotz et al. (2006). Galton (1886) encontro que, a pesar de la tendencia de padres
altos a tener hijos altos, y de padres de baja estatura a tener hijos de baja estatura, la estatura
promedio de hijos de padres altos tiende a ser menor que la estatura promedio de sus padres, y que
la estatura promedio de hijos de padres bajos tiende a ser mayor que la estatura promedio de sus
padres, esto es, que la estatura promedio de unos y otros tiende a regresar hacia la estatura prome-
dio de la poblacion total. Sin embargo, de acuerdo a Gujarati (1997) el concepto ha evolucionado y
la interpretacion moderna de la regresion es bastante diferente:

El analisis de regresion trata del estudio de la dependencia de la variable dependiente,


en una o mas variables explicativas, con el objetivo de estimar y/o predecir la media
o valor promedio poblacional de la primera, en terminos de los valores conocidos o fijos
(en muestras repetidas) de las u ltimas.

En este trabajo se considera el caso de una sola variable explicativa para una variable aleatoria
dependiente Y . Dado un vector aleatorio (X, Y ) con funcion de distribucion conjunta H, es posible
ltima la funcion de distribucion de Y condicional en el evento {X = x}, esto
obtener a partir de esta u
es FY | X (y | x) = P(Y y | X = x). Para cada x en el rango de la variable aleatoria X denotemos
Yx a la variable aleatoria con funcion de distribucion FY | X (y | x). En caso de que exista la esperanza
1
Segura Mungua, S. (2003) Nuevo diccionario etimol
ogico Latn-Espa
nol y de las voces derivadas, Universidad de
Deusto (Bilbao).

1
de Yx , a la funcion (x) := E(Yx ) = E(Y | X = x) se le conoce como funcion o curva de regresi on.
Pero normalmente H es desconocida, y por tanto es necesario hacer algunos supuestos sobre Yx y/o
estimar FY | X (y | x), o al menos (x), con base en observaciones de las variables aleatorias Yx , dado
un numero finito de valores de x.
Definici on 1. Sea Yg(w) una variable aleatoria con segundo momento finito, con esperanza
E(Yg(w) ) = + g(w) y varianza V(Yg(w) ) = 2 , donde w D, siendo D alg un subconjunto
de los n umeros reales R, y g una funcion de D en R. Sea D0 un subconjunto finito de D. A la
coleccion (finita) de variables aleatorias {Yg(w) : w D0 } se le denomina modelo de regresi
on
lineal simple.
La palabra lineal en la definicion anterior se refiere a la relacion de la esperanza respecto a los
parametros y , y no respecto a la forma funcional de g. Por simplicidad, definimos x := g(w) y por
tanto E(Yx ) = + x y V(Yx ) = 2 . Sean x1 , . . . , xn los elementos de la imagen directa g(D0 ). Para
i = 1, . . . , n definimos las variables aleatorias i := Yi xi , donde se escribe Yi en vez de Yxi
sin lugar a confusion. Entonces E(i ) = 0 y V(i ) = 2 . Lo anterior permite una forma equivalente
de definir un modelo de regresion lineal simple, congruente con la Definicion 1 anterior:

Yi = + xi + i , i = 1, . . . , n ,
E(i ) = 0 , V(i ) = 2 , (1)

en donde los parametros , y 2 son desconocidos, y los valores xi conocidos. Es importante


destacar, como lo hacen Mood et al. (1974), que Y1 , . . . , Yn no es una muestra aleatoria de tama
no
n de una variable aleatoria Y, se trata de n muestras aleatorias de tama no 1, una por cada una de
las n variables aleatorias no necesariamente independientes, y distintas, al menos, en cuanto a sus
esperanzas E(Yi ) = + xi , aunque con varianza com un V(Yi ) = 2 .

2. Modelo cl
asico de regresi
on lineal simple
En esta seccion solamente se agrega a (1) el supuesto de que Cov(i , j ) = 0 para todo i 6= j ,
lo cual implica a su vez que Cov(Yi , Yj ) = 0 (y que no implica necesariamente independencia). Esto
permite obtener estimadores puntuales para y , que resultan ser optimos en el sentido de lo
siguiente:
Definicion 2. Si un estimador b = (Y1 , . . . , Yn ) de un parametro desconocido es lineal, insesgado
y de varianza mnima, esto es, respectivamente:
n
X
a) b = di Yi para ciertas constantes conocidas di ,
i=1

b) E( b ) = ,

c) para cualquier otro estimador lineal insesgado de , digamos b , se cumple: V( b ) V(b ) ,


se dice entonces que b es el mejor estimador lineal insesgado (MELI) para .
En Mood et al. (1974), Lehmann y Casella (1998) o en Casella y Berger (2002), se puede consultar
los detalles de la demostracion del siguiente:

2
Teorema 1. Los siguientes estimadores son los MELIs para y en (1) bajo el supuesto de que
Cov(i , j ) = 0 para todo i 6= j :
Pn
(Y Y )(xi x)
=
b P1 n i
i=
2
, b = Y b x ,

(x
i=1 i x)
1
Pn 1
Pn
en donde Y := n i=1 Yi , x := n i=1 xi .

Recordando la diferencia entre estimador y estimacion (el primero es variable aleatoria, el segundo
es un valor observado del primero, y por tanto un n umero real), dadas las observaciones y1 , . . . , yn
de las variables aleatorias Y1 , . . . , Yn en (1), a las estimaciones:
Pn
= 1 (yi y)(xi x)
iP
b = n 2
, a = y bx , (2)
i = 1 (xi x)

se les conoce como estimaciones por mnimos cuadrados ordinarios (MCO) de y ya


que la funcion cuadratica
n
X
h(, ) := ( yi xi ) 2 (3)
i=1

se minimiza justamente en (, ) = (a, b), lo cual es sencillo de verificar mediante tecnicas estandar
de calculo de varias variables, ver por ejemplo Calero (1998). Se podran proponer otras funciones
para minimizar diferencias entre los valores yi y + xi (diferencias absolutas, por ejemplo) pero la
ventaja que ya se tiene con la estimacion por MCO es que el Teorema 1 demuestra que los estimadores
correspondientes son los MELIs y por tanto no habra propuesta que los supere en este sentido.
Como sera de esperarse, para 2 = V(Yi ) no se tiene un MELI ya que su estimacion involucra
a los momentos de segundo orden de las variables aleatorias Yi , lo cual no es posible lograr con un
estimador lineal. Sin embargo, es factible obtener, cuando menos, un estimador insesgado para 2
definiendo las variables aleatorias ei := Yi
b x
b i , respecto a las cuales se puede verificar que
E( ei ) = (n 2) 2 , ver Calero (1998), y por lo tanto, para n 3, se tiene que un estimador
P 2
insesgado es:
n n
2
1 X 2 1 X b i )2 .
:=
b e = ( Yi
b x (4)
n 2 i=1 i n 2 i=1

3. Modelo cl
asico bajo Normalidad
Mientras no se haga alg un supuesto sobre la distribucion de probabilidad de las variables aleatorias
i en (1), no es posible obtener estimadores de maxima verosimilitud, ni construir pruebas de hipotesis
o intervalos de confianza para los parametros.2 Con el supuesto de la seccion anterior, Cov(i , j ) = 0
para todo i 6= j , solo es posible abordar el problema de estimacion puntual, encontrando estimadores
2
Estrictamente hablando, antes de imponer una distribucion de probabilidad, se podra analizar el comportamiento
asint
otico de los estimadores obtenidos en el Teorema 1 y en (4) por medio de teoremas de Estadstica Asint otica en
donde se obtienen versiones del Teorema Central del Lmite para variables aleatorias independientes no identicamente
distribudas, como por ejemplo el Teorema de Lindeberg-Feller, as como teoremas relacionados con estadsticos U,
pero son tecnicas que requieren conocimientos que usualmente no se adquieren en una licenciatura en Actuara. Veanse
las referencias de Serfling (1980), van der Vaart (1998) y DasGupta (2008).

3

b, ,b y b2 , con optimalidad u nicamente para los dos primeros, y restringiendose a la clase de los
estimadores lineales insesgados.
Para el resto de la presente exposicion, agregaremos a (1) el supuesto de que las variables aleatorias
1 , . . . , n son iid (independientes e identicamente distribudas) Normal (0, 2 ). Por que se escoge
esta distribucion de probabilidad y no otra? Esencialmente porque bajo Normalidad los estimadores
de maxima verosimilitud para y coinciden con los MELIs obtenidos en la seccion anterior, y mas
a
un, los estimadores obtenidos en el Teorema 1 y en (4) resultan ser (ahora s, los tres) optimos y
sobre una clase mas amplia: la de los estimadores insesgados en general (sin la restriccion de
que sean lineales).
Como consecuencia inmediata del supuesto de Normalidad se tiene ahora que las variables aleato-
rias Y1 , . . . , Yn son independientes, mas no identicamente distribudas. Especficamente se tiene ahora
que Yi Normal ( + xi , 2 ), i = 1, . . . , n , con funcion de densidad de probabilidad:
1 2
fYi (yi | + xi , 2 ) = exp yi ( + xi ) /(2 2 ) .

(5)
2 2

3.1. Inferencia sobre los par


ametros
Recuerdese que una familia de funciones de densidad de probabilidades f (y | ), en donde
= (1 , . . . , k ), es una familia exponencial si puede expresarse en la forma
k
X 
f (y | ) = h(y)c () exp wj ()tj (y) , (6)
j =1

en donde las funciones h : R R+ {0} y tj : R R solo dependen de y (no pueden depender de


), y donde las funciones c : Rk R+ {0} y wj : Rk R solo dependen de (no pueden depender
de y), ver Casella y Berger (2002). Es inmediato verificar que (5) es una familia exponencial con
k = 3, = (, , 2 ), y con

( + xi )2
 
1 2 1
h(yi ) = , c (, , ) = exp ,
2 2 2 2

w1 (, , 2 ) = 2 , t1 (yi ) = yi ,


w2 (, , 2 ) = 2 , t2 (yi ) = xi yi ,

1
w3 (, , 2 ) = 2 , t3 (yi ) = yi2 . (7)
2

Lo anterior tiene especial relevancia en cuanto a que al modelo de regresion lineal simple, bajo los
supuestos de esta seccion, le son aplicables resultados para familias exponenciales en general. Por
ejemplo, de acuerdo a Cox y Hinkley (1974) y Mood et al. (1974) se tiene el siguiente:

Teorema 2. Sean Y1 , . . . , Yn variables aleatorias independientes con funcionesPk de densidad 


fYi (y | i , ), pertenecientes a la misma familia exponencial h(y)c (, ) exp j = 1 wj (, )tj (y) ,

4
pero con parametro distinto i , en donde este ultimo es funcion lineal de . Entonces el vector de
estimadores X n n 
X
T = t1 (Yi ) , . . . , tk (Yi )
i=1 i=1

es conjuntamente completo y suficiente minimal para (, ).


Los conceptos de estadstico completo y estadstico suficiente minimal pueden repasarse en Mood
et al. (1974), Cox y Hinkley (1974) o Casella y Berger (2002). De manera informal y concisa, el que
un estadstico sea suficiente minimal implica que representa la mayor reduccion o simplificacion
posible de la informacion contenida en (Y1 , . . . , Yn ) pero sin perder informacion valiosa para la
estimacion de los parametros involucrados. El concepto de completez es mas difcil de poner en pocas
palabras, quizas lo mas sencillo que se puede decir es que un estadstico es completo si y solo si el u
nico
estimador insesgado de 0 que es funcion de dicho estadstico es identicamente 0 con probabilidad 1.
El Teorema 2 es aplicable a (5) ya que en este caso i = + xi es funcion lineal de = (, ) , y
ademas = 2 , por lo que, utilizando (7), se tiene que el vector de estimadores
   X n Xn n
X 
2
T1 , T2 , T3 = Yi , xi Y i , Yi (8)
i=1 i=1 i=1

es completo y suficiente minimal para (, , 2 ) en el modelo de regresion lineal simple bajo Norma-
lidad. Esto sera u
til para determinar la optimalidad de estimadores puntuales insesgados en lo que
sigue:

Estimaci
on puntual
La independencia de las variables aleatorias Yi permite expresar la funcion de densidad conjunta
del vector aleatorio (Y1 , . . . , Yn ) como el producto de las densidades individuales (5), esto es
n
Y
2
fY1 Yn (y1 , . . . , yn | , , ) = fYi (yi | , , 2 ) ,
i=1
n
Y 1
exp (yi ( + xi ))2 /(2 2 ) ,

=
i=1 2 2
( n
X . )
1
= exp (yi xi )2 (2 2 ) . (9)
(2 2 )n/2 i=1

La expresion (9) permite calcular los estimadores de maxima verosimilitud (EMV) para , y 2 :
dadas las observaciones y1 , . . . , yn correspondientes a las variables aleatorias Y1 , . . . , Yn , los valores
que maximizan la funcion de log-verosimilitud

log L(, , 2 | y1 , . . . , yn ) = log fY1 Yn (y1 , . . . , yn | , , 2 ) ,


n
n n 1 X
= log 2 log 2 2 (yi xi )2 , (10)
2 2 2 i = 1

coinciden, para y , con los MELIs que se obtuvieron en el Teorema 1, y en el caso de 2 resulta ser
el que se obtuvo en (4) pero multiplicado por n2
n
, detalles en Calero (1998). El EMV para 2 tiene

5
sesgo (caracterstica frecuente en este tipo de estimadores), as que multiplicandolo por el recproco
del factor anterior se vuelve insesgado. En este caso particular, los EMVs para , , y el de 2 (en
version insesgada), resultan ser optimos en el sentido de lo siguiente:

Definici
on 3. Si un estimador b = (Y1 , . . . , Yn ) de un parametro desconocido es insesgado y de
varianza mnima para todo valor de (es decir, cumple incisos b y c de la Definicion 2) se dice que
es un estimador insesgado de varianza uniformemente mnima (EIVUM).
En general, cualquier funcion uno a uno (inyectiva) de un estadstico suficiente es tambien un
estadstico suficiente. Combinaremos esta propiedad con la siguiente generalizacion del Teorema de
Lehmann-Scheffe, que a su vez utiliza el Teorema de Rao-Blackwell, veanse Cox y Hinkley (1974) y
Mood et al. (1974) :
Teorema 3. Bajo los supuestos del Teorema 2, si : Rk Rk es funcion uno a uno (inyectiva) y
W = (T) es un vector de estimadores insesgados para (, ) entonces W es un vector de EIVUMs
para (, ).
Notese primero que los MELIs del Teorema 1 son transformacion lineal de (T1 , T2 ) en (8), esto es
    
d3 d2 T1
b
= , (11)
d2 d1 T2 b
en donde

1 1
d1 := Pn 2
d2 := d1 x d3 := d1 x 2 + (12)
i = 1 (xi x) n

1
Como la transformacion (11) es invertible y (4) puede reexpresarse de la forma b2 = n2 T3 +
(T1 , T2 ) , tenemos entonces que existe una funcion inyectiva que transforma (8) en los estimadores
(b b b2 ) obtenidos en el Teorema 1 y en (4), que a su vez son estimadores insesgados de (, , 2 ),
, ,
as que por el Teorema 3 se concluye que (b b b2 ) son EIVUMs para los parametros del modelo de
, ,
regresion lineal simple bajo Normalidad.
Estrictamente hablando, con lo anterior se cumple el objetivo de tener a los mejores estimadores
puntuales posibles, pero hay algo mas que decir, ahora en cuanto a la dependencia entre dichos
estimadores, que sera u
til mas adelante en estimacion por intervalos y pruebas de hipotesis. Para
analizar dicha dependencia es necesario, y afortunadamente posible, identificar la distribucion de
probabilidad conjunta del vector aleatorio (b b b2 ), vease Mood et al. (1974). Para ello, primero se
, ,
hace el cambio de variables
b
b (n 2)b2
b1 := , b2 := , b3 := , (13)
2
y luego se calcula la funcion generadora de momentos conjunta del vector aleatorio (b1 , b2 , b3 ) por
 
medio de mb1 b2 b3 (z1 , z2 , z3 ) = E exp(z1 b1 + z3 b2 + z3 b3 ) . La combinacion lineal z1 b1 + z3 b2 + z3 b3
es, en ultima instancia, una transformacion de las variables aleatorias Yi que de forma generica
denotaremos (Y1 , . . . , Yn ), y como se tiene la funcion de densidad conjunta de (Y1 , . . . , Yn ) dada en
(9), el calculo de mb1 b2 b3 se realiza como sigue:

6
 
mb1 b2 b3 (z1 , z2 , z3 ) = E exp(z1 b1 + z3 b2 + z3 b3 ) ,
 
= E (Y1 , . . . , Yn ) ,
Z Z
= (y1 , . . . , yn )fY1 Yn (y1 , . . . , yn | , , 2 ) dy1 dyn ,

.. .. .. ..
= . . . .
2 2 (n2)/2
 
= exp{d3 z1 + 2(d2 )z1 z2 + d1 z2 } (1 2z3 ) , siempre que z3 < 1/2 ,
= mb1 b2 (z1 , z2 )mb3 (z3 ) . (14)

En el resultado anterior hay que reconocer lo siguiente: primero, que la factorizacion resultante impli-
ca la independencia del vector aleatorio (b1 , b2 ) y la variable aleatoria b3 ; segundo, que mb1 b2 (z1 , z2 )
corresponde a la funcion generadora de momentos conjunta de una distribucion Normal Bivaria-
da y mb3 (z3 ) corresponde a la funcion generadora de momentos univariada de una distribucion de
probabilidad Ji-cuadrada con n 2 grados de libertad:
   
0 d3 d2
(1 , 2 ) N2
b b , , b3 2n2 . (15)
0 d2 d1

Notese que la matriz de varianza-covarianza de (b1 , b2 ) es la matriz correspondiente a la transfor-


macion lineal (11). El resultado anterior en combinacion con (13) nos permite establecer el siguiente:

Teorema 4. Para los EIVUM (b b b2 ) del modelo de regresion lineal simple bajo Normalidad, se
, ,
cumple:

a) El vector de estimadores (b b y el estimador b2 son independientes.


, )
   
b N2 2 d 3 d 2
b) (b
, ) , .
d2 d1

(n 2)b2
c) 2n2 .
2

Estimaci
on por intervalos
Utilizaremos el Teorema 4 para obtener estadsticos pivotales apropiados para la construccion de
intervalos de confianza para cada uno de los parametros del modelo de regresion lineal simple bajo
Normalidad. En el modelo particular que nos ocupa, un estadstico pivotal es una variable aleato-
ria Q que es funcion de (Y1 , . . . , Yn , , , 2 ) pero cuya distribucion de probabilidad no depende
de (, , 2 ). Un ejemplo inmediato es el inciso c del Teorema 4: denotemos por Q0 a dicho es-
tadstico pivotal. Como Q0 solo incluye de manera explcita al parametro desconocido 2 , esto lo
hace candidato a ser utilizado para construir un intervalo de confianza para dicho parametro. Dado
un valor 0 < < 1, recordemos que un intervalo de confianza al 100 % se construye encontran-
do, primero, cuantiles q1 < q2 tales que P (q1 < Q0 < q2 ) = ; luego, se reexpresa la desigualdad

7
q1 < Q0 < q2 en una equivalente pero de la forma 1 (Y1 , . . . , Yn ) < 2 < 2 (Y1 , . . . , Yn ) de modo que
P [ 1 (Y1 , . . . , Yn ) < 2 < 2 (Y1 , . . . , Yn ) ] = . Aunque normalmente hay una infinidad de pares de
valores (q1 , q2 ) que cumplen con la condicion requerida, lo usual es repartir la probabilidad sobre
un intervalo centrado en la mediana de la distribucion de probabilidad del estadstico pivotal, esto
es: Z 1 Z q2
2
fQ0 (u) du = = fQ0 (u) du . (16)
q1 2 1
2
1 1+
En el caso particular de Q0 , q1 y q2 representaran entonces los cuantiles 2
y 2
de una distribu-
cion Ji-cuadrada con n 2 grados de libertad. Luego
(n 2)b2 (n 2)b2 (n 2)b2
q1 < < q2 < 2 < ,
2 q2 q1
con lo que se obtiene:
 
2 (n 2)b2 (n 2)b2
Intervalo de confianza al 100 % para : I2 () = , . (17)
q2 q1
Del inciso b del Teorema 4 se desprende que el estimador b Normal (, 2 d3 ), por lo que
la variable aleatoria (b )/ 2 d3 Normal (0, 1), y por lo tanto dicha variable aleatoria es un
estadstico pivotal. Sin embargo, tal cual no es u
til para construir un intervalo de confianza para un
solo parametro desconocido al tener en su definicion dos parametros desconocidos, y 2 . Como ya
se cuenta con un intervalo de confianza para 2 , si hubiese forma de deshacerse de el al definir el
estadstico pivotal y que solo permanezca como parametro desconocido, se estara en condiciones
de construir un intervalo de confianza para este ultimo parametro. Un forma de deshacerse de 2 es
sustituirlo por elqestimador b2 , pero entonces la distribucion de probabilidad del estadstico pivotal
Q1 := (b )/ b2 d3 ya no sera Normal (0, 1); sin embargo, podemos hacer uso de un conocido
resultado de transformaciones de variables aleatorias: Si p Z Normal (0, 1), U Ji-cuadrada con k
grados de libertad, Z y U independientes, entonces Z/ U/k t-Student con k grados de libertad.
Por lo tanto, utilizando los tres inicisos del Teorema 4:

b )/ 2 d3
(b Normal (0, 1)
Q1 = q = q p 2 t-Student n2 . (18)
2 2
/ 2 n2 /(n 2)
d3
b b

Para construir un intervalo de confianza al 100 % para se requieren cuantiles q1 < q2 tales que
P (q1 < Q1 < q2 ) = . Nuevamente lo usual es repartir la probabilidad en un intervalo centrado en
la mediana, que en el caso de la distribucion t-Student es cero, y como ademas su funcion de densidad
es simetrica respecto a cero, basta tomar como q2 = q > 0 al cuantil (1 + )/2 de la distribucion
t-Student con n 2 grados de libertad (tn2 ), y por simetra q1 = q. Luego
q q
b

q < q <q b q b2 d3 < < b + q b2 d3
b2 d3
con lo que se obtiene:
 q q 
Intervalo de confianza al 100 % para : I () = bq
b2 d3 ,
b+q b2 d3 . (19)

8
Para el procedimiento es totalmente analogo al de , y se obtiene:
 q q 
b b2 b b2
Intervalo de confianza al 100 % para : I () = q d1 , + q d1 . (20)

Pruebas de hip
otesis
De acuerdo a Casella y Berger (2002), en el caso del modelo de regresion lineal simple, usualmente
se tiene mayor interes en que en , ya que este u
ltimo representa la esperanza de Yx cuando x = 0,
y dependiendo del problema, con frecuencia x = 0 no es un valor razonable o realista de la
variable explicativa. En contraste, representa la razon de cambio de E(Yx ) como funcion de x,
valida sobre todo el rango de valores razonables para x, por lo que centraremos nuestra atencion
en , pero en el entendido de que tecnicamente es posible hacer lo analogo respecto a .3
En terminos de pruebas de hipotesis, interesa en particular analizar la posibilidad de que = 0
ya que si las observaciones muestrales no proporcionan informacion que permita rechazar contunden-
temente esta posibilidad, se pondra en duda que x sea efectivamente una variable explicativa, que
es la esencia del modelo de regresion lineal simple. Construiremos entonces una prueba de hip otesis
para el contraste:
H0 : = 0 versus H1 : 6= 0 . (21)
Como consecuencia del inciso b del Teorema 4, y de un argumento analogo al utilizado en (18),
se tiene que, bajo la hipotesis H0 : = 0, la variable aleatoria

b H0
V := q tn2 (t-Student con n 2 grados de libertad) , (22)
b2 d1

por lo que resulta adecuada como estadstico de prueba para el contraste (21), conocido tambien como
del tipo de prueba de dos colas. Para una prueba de tama no se requiere de una regla de decision
que rechace incorrectamente H0 con probabilidad , situacion conocida como error tipo I. Aunque
0 < < 1, normalmente se utilizan valores peque nos para , tpicamente 0.05 o 0.01. Tomando
en cuenta la simetra de la distribucion de probabilidad de (22), para una prueba de dos colas se
reparte la probabilidad por partes iguales en las colas de la distribucion, y en caso de que el
valor observado del estadstico de prueba corresponda a una de las dos colas, se toma entonces la
decision de rechazar H0 , ya que existe una probabilidad (peque na) de que esto suceda bajo H0 .
En concreto, se calcula el valor q > 0 tal que

1 = P ( q < V < q ) , lo que equivale a que P ( | tn2 | > q ) = , (23)


3
En particular, interesara que hubiese evidencia muestral que permitiese rechazar la hipotesis nula H0 : = 0
versus la alternativa H1 : 6= 0, y si no fuese el caso de rechazar H0 , para decidir aceptar = 0 habra primero que
hacer un analisis del error tipo II, y en caso de decidirse por = 0, el modelo Yx = + xi + tendra que modificarse
a la versi
on mas simplificada Yx = xi + , regresi on lineal simple a traves del origen, y repetir un analisis similar al
que se ha hecho hasta el momento en este trabajo, ya que al haber un parametro menos que estimar, se modifican
algunos de los estimadores y sus propiedades estadsticas, ver Gujarati (1997).

9
Es decir, en este caso q es el cuantil 1 2 de la distribucion t-Student con n 2 grados de libertad.
Luego entonces la regla de decision para (21) queda como sigue:
Rechazar H0 : = 0 si |v| > q, (24)
en donde v es el valor observado del estadstico V de (22). Recuerdese que el tama no de prueba
lo establece el usuario de la misma. En ocasiones, en vez de fijar un valor , se prefiere conocer el
valor-p (en idioma ingles: p-value) que corresponde a una muestra observada, esto es, determinar el
mnimo valor bajo el cual se rechazara H0 de acuerdo a la regla de decision (24), y con base en
ello decidir rechazar H0 en la medida que el valor-p resulte aceptablemente peque no.4
La regla de decision para H0 : = 0 versus H1 : 6= 0 es totalmente q analoga: Rechazar H0
si | u | > q , en donde u es el valor observado del estadstico U := b/ b2 d3 . Tambien de forma
analoga, haciendo uso del iniciso c del Teorema 4, se pueden construir pruebas de hipotesis para 2 ,
por ejemplo del tipo H0 : 2 > s0 versus H1 : 2 s0 , que en este caso involucrara a la distribucion
Ji-cuadrada con n 2 grados de libertad.5

3.2. Respuesta media y predicci


on
Hasta el momento se han aplicado tecnicas generales de inferencia estadstica a los parametros
desconocidos del modelo (, , 2 ), pero no hay que olvidar que la esencia del modelo de regresion
lineal simple radica en poder estimar y/o predecir la media o valor promedio poblacional de la variable
dependiente (o de respuesta) Yx en terminos de valores conocidos o fijos (en muestras repetidas) de
la variable explicativa x. Salvo en los casos particulares en los que los parametros en s mismos son
el principal motivo de la inferencia, por la interpretacion que pudieran tener respecto a aquello a lo
cual se aplica el modelo, en general el asunto de hacer inferencia sobre los parametros es un paso
intermedio hacia el fin principal de hacer inferencia estadstica sobre la variable dependiente o de
respuesta Yx .
Si se escoge un valor x = x0 tendremos entonces que la variable aleatoria Yx0 = + x0 +
se distribuye Normal ( + x0 , 2 ), en donde a su vez Normal (0, 2 ). Respecto al estimador

b + x
b 0 notemos que

E (b
+ x
b 0 ) = E (b
) + x0 E ()
b = + x0 = E (Yx ) ,
0 (25)
esto es, que
b + x
b 0 es un estimador puntual insesgado para E (Yx ), la respuesta media cuando
0
x = x0 . Mas a
un, utilizando el inciso b del Teorema 4, y que de una combinacion lineal de variables
aleatorias con distribucion Normal resulta tambien una variable aleatoria Normal, la distribucion
de probabilidad del estimador b + x
b 0 quedara completamente especificada despues de calcular su
varianza:
b = 2 1 + d1 (x0 x)2 ,
 
V(b + x
b 0 ) = V(b ) + x20 V()
b + 2x0 Cov(b
, ) (26)
n
4
De hecho, en terminos de automatizar los calculos, lo usual es que el software estadstico reporte el p-value, en
vez de pedir al usuario que ingrese el valor que desea. Vease, por ejemplo, Ugarte et al. (2008), Crawley (2007),
Dalgaard (2002) y Everitt (2006).
5
M
as a
un, para construir pruebas de hipotesis en donde H0 sea una hip otesis compuesta (esto es, H0 : 0 , en
donde 0 tiene m as de un elemento), existen criterios para la construccion de pruebas uniformemente m as potentes
aprovechando el hecho de que el modelo de regresion lineal simple bajo Normalidad es una familia exponencial, ver
Lehmann (1986).

10
y por lo tanto, el estimador puntual insesgado de la respuesta media E (Yx0 ) se distribuye:
 
2 1

\ 2
b + x0 Normal E (Yx0 ) ,
E (Yx0 ) := b + d1 (x0 x) . (27)
n

Notese que la varianza de E\ (Yx0 ) alcanza un mnimo cuando x0 = x . Nuevamente, mediante un


razonamiento analogo al utilizado en (18) se tiene que

E\
(Yx ) E (Yx0 )
Q2 := r  0  tn2 , (28)
b2 n1 + d1 (x0 x)2

por lo que Q2 se puede utilizar como estadstico pivotal para construir un intervalo de confianza para
E (Yx0 ) ya que q < Q2 < q si y solo si
r  r 
\ 2
1 2

\ 2
1 2

E (Yx0 ) q b + d1 (x0 x) < E (Yx0 ) < E (Yx0 ) + q b + d1 (x0 x) , (29)
n n
y por lo tanto, si q es el cuantil 1+
2
de la distribucion t-Student con n 2 grados de libertad,
entonces un intervalo de confianza 100 % para la respuesta media E (Yx0 ) cuando x = x0 es
el siguiente:
 r  r   
\ 2
1 2

\ 2
1 2
I E (Yx0 ) () = E (Yx0 ) q
b + d1 (x0 x) , E (Yx0 ) + q b + d1 (x0 x) . (30)
n n

Si lo que se desea es hacer predicci


on sobre el valor que puede reportar la variable aleatoria Yx0
dado un nuevo valor x = x0 , es posible construir algo analogo a un intervalo de confianza, conocido
como intervalo de prediccion. Partiendo de que Yx0 Normal ( + x0 , 2 ), si los tres parametros
fuesen conocidos, entonces
Yx0 E (Yx0 ) Yx0 ( + x0 )
p = Normal (0, 1) , (31)
V(Yx0 ) 2

y si z es el cuantil 1+
2
de la distribucion Normal (0, 1) entonces se puede afirmar que

Yx0 ( + x0 )
 
= P z < < z = P + x0 z 2 < Yx0 < + x0 + z 2 , (32)
2
y entonces se le llama intervalo de prediccion 100 % para Yx0 al siguiente:
h i
+ x0 z 2 , + x0 + z 2 . (33)

Pero si (, , 2 ) son desconocidos y se pretende utilizar en su lugar a los estimadores (b b b2 ),


, ,
entonces la distribucion de probabilidad involucrada para obtener el intervalo de prediccion cambia
a t-Student con n 2 grados de libertad, como veremos a continuacion. Como x = x0 es un nuevo
valor (distinto a x1 , . . . , xn ) y los estimadores (b b b2 ) solo dependen de (Yx , . . . , Yxn ) entonces la
, , 1
2 2
variable aleatoria Yx0 Normal ( + x0 , ) y el vector aleatorio (b , , ) son independientes.
b b

11
De (27) ya sabemos que b + xb 0 se distribuye Normal con los parametros que ah se indican, por
lo que la diferencia Yx0 (b
+ x
b 0 ) tambien se distribuye Normal, con media

E Yx0 (b b 0 ) = E (Yx ) E (b
+ x 0
b 0 ) = + x0 ( + x0 ) = 0 ,
+ x (34)

y varianza

b 0 ) = 2 + 2 1 + d1 (x0 x)2 , (35)


  
V Yx0 (b
+ x
b 0 ) = V(Yx ) + V(b
0 + x
b 0 ) + 2Cov(Yx ,
0 b + x
n

ya que Cov(Yx0 ,
b + x
b 0 ) = 0 dada la independencia de Yx y (b b b2 ). Es decir,
, ,
0

 
2
 1 2
Yx0 (b b 0 ) Normal 0 , 1 +
+ x + d1 (x0 x) . (36)
n

Haremos ahora lo analogo a (31) pero sustituyendo a (, ) por (b b y a 2 por


, )
 
b2 1 + n1 + d1 (x0 x)2 :

Yx0 (b b 0 )E(Yx (b
+x 0 +x
b 0 ))
Y (b
+ x
b 0) V(Yx (b
+x0 ))
r  x0
b
 = q0 ,
b2 1 + 1
+ d1 (x0 x)2 b2 / 2
n

Normal (0, 1)
p 2 tn2 , (37)
n2 / (n 2)

en donde la independencia de numerador y denominador esta garantizada por la independencia de


b2 respecto a Yx0 y (b b Si q es el cuantil 1+ de la distribucion t-Student con n 2 grados de
, ). 2
libertad, entonces
 
Yx0 (b
+ x
b 0)
= P q < r   < q , (38)
2 1 2
1 + n + d1 (x0 x)
b

de donde se obtiene el intervalo de prediccion 100 % para Yx0 :


 r  r   
b 0 q b2 1 + 1  1

b + x + d1 (x0 x)2 , b 0 + q b2 1 +
b + x + d1 (x0 x)2 . (39)
n n

Notese que (30) y (39) solo difieren en el 1 que aparece en las races cuadradas de (39).

4. An
alisis residual y el coeficiente de determinaci
on
Se han presentado ya los principales resultados de inferencia estadstica (estimacion puntual y
por intervalo, pruebas de hipotesis, prediccion) que son validos para el modelo de regresion lineal
simple {Yi = + xi + i : i = 1, . . . , n} PERO bajo los supuestos de que 1 , . . . , n son variables
aleatorias independientes e id enticamente distribudas Normal con esperanza E (i ) = 0 y
varianza constante V(i ) = 2 , y que los valores dados x1 , . . . , xn corresponden a una variable

12
explicativa. Con mucha frecuencia se cuenta con los datos (x1 , y1 ), . . . , (xn , yn ) mas no con informacion
que garantice que las observaciones y1 , . . . , yn provienen de variables aleatorias Yi que cumplen los
supuestos anteriores, razon por la cual surge la inquietud de analizar, con base en dichos datos,
posibles violaciones de los supuestos siguientes:
Normalidad.
Independencia.
Varianza constante.
Que x1 , . . . , xn efectivamente corresponden a una variable explicativa (validez del modelo).
Los tres primeros supuestos tienen que ver directa y claramente con las variables aleatorias i ,
pero indirectamente tambien el cuarto supuesto, como se vera mas adelante. Sabemos que
i = Yi ( + xi ) = Yi E (Yi ) Normal (0, 2 ) , (40)
pero al ser y parametros desconocidos, no contamos con observaciones de las variables i para
analizar, debido a que son de la forma yi ( + xi ) . En su lugar, de forma natural surge la idea
de analizar los valores observados yi (a + b xi ) , ver (2), que de hecho corresponden a las variables
aleatorias que a continuacion se definen:
Definici
on 4. A las variables aleatorias e1 , . . . , en definidas
\
ei := Yi E (Yi ) = Yi (b
+ x
b i) , i = 1, . . . , n ,
se les denomina variables aleatorias residuales del modelo clasico del regresion lineal simple. A
las observaciones yi (a+b xi ) de dichas variables aleatorias residuales se les denominara residuos.6
Notese que, sin haberlas llamado por su nombre, las variables aleatorias residuales se ocupan
para obtener el estimador insesgado de 2 en (4). Bajo el supuesto de Normalidad sabemos que Yi
se distribuye Normal, por el Teorema 4 los estimadores b y b tambien tienen distribucion Normal,
y como de combinacion lineal de variables aleatorias Normales resulta tambien una variable aleato-
ria Normal, tenemos entonces que las variables aleatorias residuales ei tambien tienen distribucion
Normal, con esperanza:
E (ei ) = E (Yi ) E (b
+ x
b i) = 0 , (41)
y con varianza:
V(ei ) = V(Yi ) + V(b b i ) 2Cov(Yi ,
+ x b + x
b i) ,
 
2 2 1 2
 
= + + d1 (xi x) 2 Cov(Yi ,
b) + xi Cov(Yi , ) ,
b
n
.. .. ..
=  . .  .
1
= 2 1 d1 (xi x)2 . (42)
n
6
La palabra residuo es un sustantivo, en contraste con residual que es un adjetivo. En idioma ingles, las traduccio-
nes son residue y residual, respectivamente, aunque residue ha cado en desuso debido a que en ese idioma tambien
se acepta utilizar residual como sustantivo. Seber (1977), por ejemplo, cuando define las variables aleatorias ei dice
que ellas are called the residuals. En libros en idioma espanol sobre el tema, normalmente se utiliza unicamente la
palabra residuo, sin aclarar si se esta haciendo referencia a variables aleatorias o a sus observaciones. Es propuesta
de quien esto escribe hacer tal distinci
on, como en la Definicion 4.

13
Es decir,   1 
2 2
ei Normal 0, 1 d1 (xi x) , i = 1, . . . , n . (43)
n
Notese que V(ei ) < 2 = V(i ). Mas a
un, como E (ei ) = 0 entonces V(ei ) = E (ei2 ), y por lo tanto:
Xn  n n  
2
X
2 2
X n1 2
E ei = E (ei ) = d1 (xi x) = 2 (n 2) , (44)
i=1 i=1 i=1
n

de donde se obtiene (4). Ademas, para i 6= j :

Cov( ei , ej ) = E( ei ej ) E (ei )E (ej ) ,


h 1i
= 2 d1 (xi x)(xj x) + 6= 0 . (45)
n
En pocas palabras, las variables aleatorias residuales e1 , . . . , en tienen distribucion Normal, pero
resulta que no son independientes, no tienen varianza constante y por tanto no son identicamente
distribudas a
un cuando 1 , . . . , n s cumplan los supuestos! Ante la imposibilidad de tener acceso
a observaciones de las variables aleatorias i para analizar si se viola normalidad, independencia
y varianza constante, usualmente se pretende que las variables aleatorias residuales ei , que s son
observables, seran un buen sustituto, pero si de entrada las ei ya violan algunos de los supuestos
que se desea analizar, pues es, al menos, cuestionable hacerlo de esta manera.
En defensa de la utilizacion de las variables aleatorias residuales para el analisis de supuestos del
modelo, podra argumentarse, por ejemplo, que el que no tengan varianza constante no es tan grave
porque la variabilidad de acuerdo a (42) se puede considerar Pinsignificante para valores grandes
2 n 2
de n ya que (xi x) es tan solo uno de los n sumandos de j = 1 (xj x) y por tanto la cantidad
2
d1 (xi x) puede considerarse despreciable. En cuanto a la no independencia, Neter et al. (1996)
comentan lo siguiente:

Los residuales ei no son variables aleatorias independientes [. . . ] Cuando el tama


no de
muestra es grande en comparacion con el numero de parametros en el modelo de regresion,
el efecto de la dependencia entre las ei es relativamente poco importante y puede ser
ignorada para la mayora de los propositos.

Desafortunadamente Neter et al. (1996) no proporcionan en su libro elementos o referencias que den
sustento a tal afirmacion, si es que esto realmente fuese posible. De acuerdo a (45), si n es muy
grande entonces Cov( ei , ej ) estara muy cerca de cero, pero a
un Cov( ei , ej ) = 0 NO IMPLICA
INDEPENDENCIA! A un cuando ei y ej sean variables aleatorias Normales con covarianza igual a
cero, es posible que exista una grado de dependencia relevante. Por ejemplo, considerese una variable
aleatoria Z1 Normal (0, 1) y defnase la variable aleatoria
 
1
Z2 := 1 2(Z1 ) ,

en donde es la funcion de distribucion (acumulativa) de una variable aleatoria Normal (0, 1).
Entonces Z2 tambien se distribuye Normal (0, 1) y ademas Cov(Z1 , Z2 ) = 0 a pesar de que existe
una evidente dependencia, por definicion, entre Z1 y Z2 : si Z1 = z entonces Z2 reporta el valor
especfico 1 (|1 2(z)|) con probabilidad 1! De hecho, se puede demostrar que utilizando una

14
medida de dependencia 7 como la de Schweizer y Wolff (1981), el grado de dependencia en este caso
es de 0.5 en una escala de 0 a 1, lo cual sera bastante cuestionable considerar poco importante e
ignorarlo como proponen Neter et al. (1996).
Si aun bajo el supuesto de que las variables aleatorias i sean independientes, las variables aleato-
rias residuales ei no lo son ni hay claridad respecto a que tan lejos estan de serlo, estrictamente no
se les debiera utilizar en pruebas estadsticas basadas en este supuesto, como es el caso de muchas
pruebas para Normalidad, bondad de ajuste en general, heteroscedasticidad (varianza no constante),
etc. Es entonces la falta de independencia entre las variables aleatorias residuales, bajo el supuesto
de que las i s lo sean, lo que lleva a cuestionar su utilidad para validar supuestos en el modelo de
regresion lineal simple.

Coeficiente de determinaci
on
Este concepto esta asociado al interes de analizar la bondad del ajuste o validez del modelo como
tal, de acuerdo a la informacion de los datos. Dicho de otro modo, analizar si los valores conoci-
dos x1 , . . . , xn tienen una capacidad relevante para explicar el comportamiento de las variables
aleatorias de respuesta Y1 , . . . , Yn , bajo el modelo de regresion lineal simple.
Para este fin, se toma como punto de referencia a la media muestral Y (ver definicion en Teorema
1) dePlas variables aleatorias Yi . De este modo, Y se ubica en el centro de las variables Yi ya
n
que i = 1 (Yi Y ) = 0, esto es, se tendr an valores de Yi que sean mayores y menores que Y ,
cuyas diferencias, positivas y negativas, tienen suma cero. Si se elimina el efecto del signo en dichas
diferencias, digamos mediante (Yi Y )2 , se estara midiendo otro aspecto: la dispersion de las variables
Yi respecto a su media muestral.
En el caso particular P ndel modelo2 de regresion lineal simple, denominaremos suma total de
cuadrados (STC) a i = 1 (Yi Y ) . Se busca analizar la proporcion de la variabilidad total (STC)
que puede ser explicada por el modelo ajustado E \ (Yi ) =
b + xb i , y esto se logra descomponiendo
STC de la siguiente forma:
n
X n
X
2
STC = (Yi Y ) = \
(Yi E \
(Yi ) + E (Yi ) Y )2 ,
i=1 i=1
n
X
(Yi ))2 + (E (Yi ) Y )2 + 2(Yi E

= \
(Yi E \ \ \
(Yi ))(E (Yi ) Y ) ,
i=1
n
X n
X
= \
(Yi E (Yi ))2 + \
(E (Yi ) Y )2 ,
i=1 i=1
Xn n
X
= ei2 + \
(E (Yi ) Y )2 , (46)
i=1 i=1

donde ni= 1 (Yi E


P \ \
(Yi ))(E (Yi ) Y ) = 0, despues de algunas manipulaciones algebraicas, ver Calero
Pn \ 2
(1998). i = 1 (E (Yi )Y ) representa la parte de variabilidad que logra explicar el modelo ajustado,
7
Entre las caractersticas que se pide a una medida numerica de asociacion entre dos variables aleatorias para
ser considerada medida de dependencia, est a el que = 0 si y solo si las variables aleatorias son independientes, y
por ello medidas como el coeficiente de correlaci on lineal de Pearson no son apropiadas para medir dependencia en
general, vease por ejemplo Nelsen (1999), Embrechts et al. (1999) o Erdely (2009).

15
misma
P 2 que denominaremos suma de cuadrados de la regresi on (SCR). Como consecuencia,
ei representa la parte de la variabilidad que no logra explicar el modelo. Lo anterior motiva la
siguiente:

Definici on 5. El coeficiente de determinaci on (CD) asociado a un modelo de regresi on lineal


simple es la proporcion SCR/STC.
P 2
Como STC = ei + SCR entonces necesariamente 0 CD 1 y se le da la siguiente inter-
pretacion: en la medida en que el valor observado del CD sea mas cercano a 1 se dice que el modelo
explica mejor el comportamiento de la variable de respuesta. Con toda intencion se evito la notacion
usual R2 que surge porque el valor observado del CD coincide con el cuadrado de la formula para la
estimacion muestral del coeficiente de correlacion lineal de Pearson aplicado a (x1 , y1 ), . . . , (xn , yn ),
para detalles vease Calero (1998), pero conceptualmente no se justifica la relacion entre uno y otro,
porque en el caso del modelo de regresion lineal simple los valores x1 , . . . , xn estan fijados a priori
(no se consideran observaciones de una variable aleatoria), vease Gujarati (1997).
Sin embargo, el CD es esencialmente una medida descriptiva que no aprovecha el supuesto de
Normalidad
P 2 del modelo de regresioP
n lineal simple. Analicemos ahora la proporcion relativa de SCR y
ei . Valores grandes de SCR/ ei2 daran cuenta de un mejor ajuste del modelo, pero habra que
tener algun criterio para decidir cuanto es grande en este caso. Afortunadamente esto es posible,
analizando el cociente
(E (Yi ) Y )2
P \
SCR
F = P 2 = P 2 . (47)
ei /(n 2) ei /(n 2)
Primero notemos que
X X X X
ei = (Yi
b x
b i) = Yi nb
b xi = 0 ,

en donde
P la u ltima
P igualdad es consecuencia de que b = Y x,b ver Teorema 1, y por lo tanto
= Yi b xi . Luego,
nb
Y = b + x
b +e = b + x
b

ya que e = n1
P \
ei = 0. Entonces E b i x) y la suma
(Yi ) Y = (x

X X b 2
SCR = \
(E (Yi ) Y )2 = b 2 2
(xi x) = .
d1

ei2 /(n 2) = b2 , ver (4), nos permite reexpresar (47) como


P
Esto u
ltimo junto con el hecho de que

b 2
F = = V2 (48)
d1 b 2

que es el cuadrado del estadstico de prueba (22) bajo H0 : = 0 . Recordemos que = 0 implica
que el modelo (particularmente los valores x1 , . . . , xn ) no explica el comportamiento de la variable
de respuesta, y de acuerdo a (22) y (24) se rechazara tal hipotesis para valores de |V | que excedan
un umbral q (de acuerdo al tama no de prueba deseado). Como V 2 = F y V se distribuye t-Student
con n 2 grados de libertad, es un conocido resultado de probabilidad, ver Mood et al. (1974), que
entonces F tiene distribucion de Fisher con 1 y n 2 grados de libertad. Aqu el asunto relevante

16
es la congruencia entre lo que se buscaba medir con (47), en terminos de la variabilidad explicada
por el modelo en proporcion a la variabilidad no explicada, y la validez o no del modelo al poder
rechazar o no la hipotesis H0 : = 0, ya sea mediante el estadstico V con distribucion t-Student o
mediante el estadstico F de Fisher. Por lo tanto, en el caso del modelo de regresion lineal simple, la
bondad de ajuste del modelo se mide con base en el resultado de la prueba de hipotesis (21).

5. Ejemplo - resumen
Actualmente, el analisis estadstico de datos, aun a un nivel descriptivo, no se concibe ya sin
la ayuda de programas computacionales (software) dise nados para tal fin, ver Chambers (2008),
Dalgaard (2002) o Gentle (2002). Haremos uso del software libre R (www.r-project.org), que se
ha convertido en un estandar internacional en el analisis estadstico de datos, para aplicar la teora
descrita en las secciones anteriores y que esto nos permita resumir e ilustrar los principales resultados.
Se incluyen las instrucciones tal cual se ingresan en dicho programa computacional en este tipo
de letra.
Analizaremos datos generados mediante simulacion, bajo los supuestos del modelo clasico de
regresion lineal simple bajo Normalidad, para poder comparar las estimaciones versus los valores
teoricos. Esto es, fijaremos primero valores para , , 2 y x1 , . . . , xn , y luego simularemos con ayuda
de R observaciones yi a partir de las variables aleatorias independientes no identicamente distribudas
Normal ( + xi , 2 ). Lo anterior solo con fines ilustrativos y de comparacion, en el entendido de
que al trabajar con datos reales, por lo general, solo se cuenta con los datos (xi , yi ), y los verdaderos
valores teoricos de los parametros no se podran conocer, solo estimar.

Paso -1 : Definir los valores = 2, = 3, 2 = 300, n = 31 y los valores xi : 10, 11, 12, . . . , 40 :
> alfa.t <- 2 ; beta.t <- 3; sigma2.t <- 300 ; n <- 31
> x.i <- seq(from=10,to=40,length=31)

Paso 0: Simular valores i iid Normal (0, 2 ) y con ellos los valores yi = + xi + i :
> epsilon.i <- rnorm(n,0,sqrt(sigma2.t))
> y.i <- alfa.t + beta.t*x.i + epsilon.i

Paso 1: Es aqu donde usualmente comenzara el analisis de los datos (x1 , y1 ), . . . , (xn , yn ). Ajustamos el
modelo clasico de regresion lineal simple bajo Normalidad, utilizando la instruccion lm (linear
model ), y luego se solicita un summary (resumen) del modelo ajustado:

> regresion <- lm(y.i~x.i)


> summary(regresion)

Call:
lm(formula = y.i ~ x.i)

Residuals:
Min 1Q Median 3Q Max
-32.148 -12.850 -3.834 11.347 38.860

17
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 9.6356 9.8146 0.982 0.334
x.i 2.7213 0.3696 7.362 4.13e-08 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Residual standard error: 18.41 on 29 degrees of freedom


Multiple R-squared: 0.6514, Adjusted R-squared: 0.6394
F-statistic: 54.2 on 1 and 29 DF, p-value: 4.128e-08

Interpretacion: Las estimaciones puntuales para y , ver (2), son a = 9.6356 y b = 2.7213,
respectivamente. El p-value para H0 : = 0 es 4.13 108 , ver (21) y (24), esto es, la
probabilidad de rechazar H0 : = 0 erroneamente es tan peque na como 4.13 108 , y por
tanto decidimos rechazar que = 0. Notese que esto coincide con el p-value del F-statistic al
final de la tabla anterior, lo cual era de esperarse en concordancia con lo comentado en la seccion
anterior respecto a la equivalencia entre F y V 2 , ver (48), y por lo lo tanto se valida el modelo.
La probabilidad de rechazar erroneamente la hipotesis H0 : = 0 puede ser hasta de 0.334
y por lo tanto no es recomendable rechazarla, as que la estimacion puntual a = 9.6356 no es
confiable. Multiple R-squared: 0.6514 es el valor observado del coeficiente de determinacion.
La estimacion puntual de 2 se obtiene mediante la formula (4) y la instruccion:
> sum((residuals(regresion))^2)/(n-2)
[1] 338.8523

Paso 2: Calculo de intervalos de confianza 95 % para los parametros del modelo. De acuerdo a las
formulas (17), (19) y (20), requerimos los siguientes valores:
> s <- sum((residuals(regresion))^2)/(n-2)
> a <- coefficients(regresion)[1] ; b <- coefficients(regresion)[2]
> d1 <- (sum((x.i-mean(x.i))^2))^(-1) ; d3 <- d1*(mean(x.i)^2) + 1/n
Los intervalos de confianza para y se obtienen directamente mediante:

> confint(regresion,level=0.95)
2.5 % 97.5 %
(Intercept) -10.437587 29.708758
x.i 1.965338 3.477337

Y para 2 :
> q1 <-qchisq((1-0.95)/2,df=(n-2))
> q2 <-qchisq((1+0.95)/2,df=(n-2))
> (n-2)*s*c(1/q2,1/q1) # Intervalo:
> [1] 214.9218 612.3682

18
Paso 3: Generar una grafica con los valores (xi , yi ), la recta ajustada y = a + bx, intervalos de confianza
95 % para la respuesta media (se aprecian como bandas de confianza), e intervalos (bandas
tambien) de prediccion 95 %.

> plot(c(0,50),c(-50,200),main="Regresion lineal simple",


xlab="Variable explicativa x.i",ylab="Variable de respuesta y.i",type="n")
> points(x.i,y.i) # Graficar las observaciones (x.i,y.i)
> f <- function(x) 1/n + d1*((x-mean(x.i))^2) # factor para calcular bandas
> q <- qt((1+0.95)/2,df=(n-2)) # cuantil de t-Student (n-2 g.l.)
> x <- seq(from=0,to=50,length=1000) # valores de x a graficar
> lines(x,a+b*x,lwd=3) # recta ajustada y = a + bx (linea gruesa)
> lines(x,a+b*x-q*sqrt(s*(0+f(x)))) # banda inferior de confianza para E(Yx)
> lines(x,a+b*x+q*sqrt(s*(0+f(x)))) # banda superior de confianza para E(Yx)
> lines(x,a+b*x-q*sqrt(s*(1+f(x)))) # banda inferior de prediccion para Yx
> lines(x,a+b*x+q*sqrt(s*(1+f(x)))) # banda superior de prediccion para Yx

Regresin lineal simple


200
150
Variable de respuesta y.i



100










50




0
50

0 10 20 30 40 50

Variable explicativa x.i

La recta en lnea gruesa corresponde a y = a + bx, que son las estimaciones de E (Yx ) para
distintos valores de x. Las dos bandas que estan mas cerca de la lnea recta gruesa corresponden
a los intervalos de confianza 95 % para la respuesta media E(Yx ) para distintos valores de x,
de acuerdo a la formula (30). Las dos bandas mas distantes de la lnea gruesa corresponden a
los intervalos de prediccion 95 % para Yx , para distintos valores de x, de acuerdo a la formula
(39).

19
Bibliografa
Calero, A. (1998) Estadstica (Tomo II), IPN (Mexico D.F).
Casella, G., Berger, R.L. (2002) Statistical Inference, Duxbury (Pacific Grove).
Chambers, J.M. (2008) Software for Data Analysis, Springer (Nueva York).
Cox, D.R., Hinkley, D.V. (1974) Theoretical Statistics, Chapman & Hall/CRC (Boca Raton).
Crawley, M.J. (2007) The R book, Wiley (Chichester).
Dalgaard, P. (2002) Introductory Statistics with R, Springer (Nueva York).
DasGupta, A. (2008) Asymptotic Theory of Statistics and Probability, Springer (Nueva York).
Embrechts, P., McNeil, A.J., Straumann, D. (1999) Correlation: pitfalls and alternatives. Risk Maga-
zine 5, 6971.
Erdely, A. (2009) Copulas y dependencia de variables aleatorias: Una introduccion. Miscelanea Mate-
matica 48, 728.
Everitt, B.S. (2006) A Handbook of Statistical Analyses Using R, Chapman & Hall/CRC (Boca Raton).
Galton, F. (1886) Family Likeness in Stature. Proceedings of The Royal Society (Londres) 40, 4263.
Gentle, J.E. (2002) Elements of Computational Statistics, Springer (Nueva York).
Gujarati, D.N. (1997) Econometra, McGraw-Hill (Bogota).
Kotz, S., Balakrishnan, N., Read, C.B., Vidakovic, B., Johnson, N.L. (2006) Encyclopedia of Statistical
Sciences, Second edition (16 volumenes), Wiley (Hoboken).
Lehmann, E.L. (1986) Testing Statistical Hypothesis, Springer (Nueva York).
Lehmann, E.L., Casella, G. (1998) Theory of Point Estimation, Springer (Nueva York).
Mood, A.M., Graybill, F.A., Boes, D.C. (1974) Introduction to the theory of statistics, McGraw-Hill
(Nueva York).
Nelsen, R.B. (1999) An introduction to copulas, Springer (Nueva York).
Neter, J., Kutner, M.H., Nachtsheim, C.J., Wasserman, W. (1996) Applied Linear Statistical Models,
McGraw-Hill (Boston).
Schweizer, B., Wolff, E.F. (1981) On nonparametric measures of dependence for random variables.
Annals of Statistics 9, 879885.
Seber, G.A.F. (1977) Linear Regression Analysis, Wiley (Nueva York).
Serfling, R.J. (1980) Approximation Theorems of Mathematical Statistics, Wiley (Nueva York).
Ugarte, M.D., Militino, A.F., Arnholt, A.T. (2008) Probability and Statistics with R, Chapman &
Hall/CRC (Boca Raton).
van der Vaart, A.W. (1998) Asymptotic Statistics, Cambridge University Press (Cambridge UK).

20

You might also like