You are on page 1of 44

1

Regresin Lineal Simple


y
i
=
0
+
1
x
i
+ u
i


Javier Aparicio
Divisin de Estudios Polticos, CIDE
javier.aparicio@cide.edu

Primavera 2011

http://www.cide.edu/investigadores/aparicio/metodos.html

2
Contenido
Estimacin mediante el mtodo de
momentos
Estimacin por mnimos cuadrados
ordinarios
Bondad de ajuste: R
2

Propiedades de los estimadores MCO
Supuestos Gauss-Markov
Insesgamiento
Eficiencia
3
y = |
0
+ |
1
x + u
donde y es:
Variable dependiente
Variable explicada
Variable de lado
izquierdo (duh!)
Regresando
u es:
Residual
Trmino de error

mientras que x es:
Variable independiente
Variable explicativa
Covariable
Variable de control
Regresor
Variable de lado derecho
|
0
y |
1
: parmetros o
coeficientes a estimar

4
Algunos supuestos
El valor promedio de u, el trmino de error,
en la poblacin es = 0. Es decir,
E(u) = 0
Este supuesto no es muy restrictivo puesto
que siempre podemos ajustar el intercepto |
0

para normalizar E(u) = 0
5
Media condicional = 0
Hay un supuesto crucial sobre la relacin
entre el error y la variable explicativa:
cov(x, u)
Queremos que la informacin contenida en x
sea independiente de la informacin
contenida en u (ie, que no estn
relacionados), de modo que:
E(u|x) = E(u) = 0, lo cual implica:
E(y|x) = |
0
+ |
1
x

6
.
.
x
1
x
2

E(y|x) es una funcion lineal de x: para cada x,
la prediccin de y es E(y|x)
E(y|x) = |
0
+ |
1
x
y
f(y)
7
Mnimos Cuadrados Ordinarios (MCO)
La idea bsica es estimar parmetros
poblacionales a partir de una muestra.
Sea {(x
i
,y
i
): i=1, ,n} una muestra aleatoria
de tamao n de una poblacin.
Para cada observacin en la muestra,
tenemos:
y
i
= |
0
+ |
1
x
i
+ u
i
8
.
.
.
.
y
4
y
1
y
2
y
3
x
1
x
2
x
3
x
4
}
}
{
{
u
1
u
2
u
3
u
4
x
y
Lnea de regresin, observaciones y errores
E(y|x) = |
0
+ |
1
x
9
Derivacin de estimadores MCO /OLS
El supuesto E(u|x) = E(u) = 0 implica que

Cov(x,u) = E(xu) = 0

Por qu? En probabilidad bsica sabemos
que:
Cov(x,u) = E(xu) E(x)E(u)
y dado que E(u)=0 Cov(x,u) = E(xu) = 0

10
continuacin MCO/OLS
El doble supuesto E(xu) = E(u) = 0 se
traduce en dos restricciones.
Y dado que: u = y |
0
|
1
x,
podemos reescribir estas dos restricciones
en trminos de x, |
0
y |
1
:
E(u) = E(y |
0
|
1
x) = 0
E(xu) = E[x(y |
0
|
1
x)] = 0
Conocidas como las restricciones de
momentos
11
Derivacin de MCO usando el
Mtodo de Momentos (MOM)
(Breviario: el 1, 2, 3 y 4 momentos de una funcin de distribucin
de una variable aleatoria son la media, varianza, sesgo y kurtosis,
respectivamente.)
El mtodo de momentos consiste en imponer las
restricciones de momentos, asumidas como ciertas
para la poblacin, en los momentos de la muestra.
Pero cmo? Recuerden que un estimador
muestral de E(X), la media de una poblacin, es
simplemente la media aritmtica de la muestra.
12
Derivacin de MCO / OLS
La idea es buscar parmetros que nos aseguren
que las restricciones de momentos se cumplan en la
muestra.
Las restricciones muestrales son (el gorrito denota
parmetros estimados):
( )
( ) 0

0

1
1 0
1
1
1 0
1
=
=

n
i
i i i
n
i
i i
x y x n
x y n
| |
| |
(1)

(2 )
13
Estimador MCO / OLS: intercepto
Dada la definicin de media muestral y las
propiedades de la sumatorias, podemos reescribir la
primera restriccin como sigue:
x y
x y
1 0
1 0

bien o
,

| |
| |
=
+ =
( ) 0

1
1 0
1
=

n
i
i i
x y n | |
14
Derivacin de MCO / OLS
( ) ( )
( ) ( )
( )( ) ( )

= =
= =
=
=
=
=
n
i
i i
n
i
i
n
i
i i
n
i
i i
n
i
i i i
x x y y x x
x x x y y x
x x y y x
1
2
1
1
1
1
1
1
1 1

0

|
|
| |
Y ahora, sustituyendo |
0
en la segunda restriccin, tenemos:
( ) 0

1
1 0
1
=

n
i
i i i
x y x n | |
Aqu hay un paso mgico ver apndice A.7 y A.8.
15
estimador MCO / OLS: pendiente |
1
( )( )
( )
( ) 0 : varianza tenga que vez toda
) var(
) , cov(

1
2
1
2
1
1
>
=

=
=
=
n
i
i
n
i
i
n
i
i i
x x x
x
y x
x x
y y x x
|
( ) ( )( ) y y x x x x
i
n
i
i
n
i
i
=

= = 1 1
2
1

|
16
Sobre el estimador MCO de
1

|
1
, es la covarianza muestral entre x y y, dividida
entre la varianza muestral de x.
Si x y y estn correlacionados positivamente, |
1

ser positivo (pues la varianza del denominador
siempre es positiva).
Si x y y estn correlacionados negativamente, |
1

ser negativo.
Si x y y no tienen correlacin alguna, |
1
no ser
estadsticamente distinto de cero (volveremos a
esto ms tarde).
Obviamente, requerimos que x tenga cierta varianza
en la muestra.
17
MCO / OLS
Intuitivamente, MCO ajusta una lnea a
travs de los datos muestrale, de modo que
la suma de residuales al cuadrado (SSR) sea
la mnima posible: de ah el trmino mnimos
cuadrados.
El residual, , es un estimado del trmino de
error entre lo observado y lo predicho, es
decir, la diferencia entre la lnea de regresin
(fitted line) y el dato observado.
Ver grfica...
18
.
.
.
.
y
4
y
1
y
2
y
3
x
1
x
2
x
3
x
4
}
}
{
{

4
x
y
Lnea de regresin muestral, observaciones, y
residuales estimados
x y
1 0

| | + =
19
Un enfoque alternativo:
Minimizar residuales al cuadrado
Siguiendo la idea de ajustar una lnea de regresin,
podemos plantear un problema de minimizacin.
Es decir, buscar parmetros | tales que minimicen
la siguiente expresin:
( ) ( )

= =
=
n
i
i i
n
i
i
x y u
1
2
1 0
1
2

| |
20
...continuacin
Usando clculo para resolver un problema de
minimizacin con dos parmetros resulta en dos
condiciones de primer orden (FOC)similares a
las restricciones de momentos vistas antes, pero
ahora multiplicadas por n:
( )
( ) 0

0

1
1 0
1
1 0
=
=

=
=
n
i
i i i
n
i
i i
x y x
x y
| |
| |
21
Propiedades algebraicas de MCO / OLS
Al minimizar los residuales cuadrados:
La suma de los residuales de MCO ser igual a
cero.
Por ende, la media muestral de los residuales ser
cero tambin.
La covarianza muestral entre las variables
explicativas y los residuales ser cero.
La lnea de regresin de MCO siempre cruzar la
media de la muestra, ie, la media de x y la media
de y.
22
Propiedades algebraicas
(matemticamente)
x y
(x,u) u x
n
u
u
n
i
i i
n
i
i
n
i
i
1 0
1
1
1

0 cov por tanto, 0

por tanto, 0

| | + =
= =
= =

=
=
=
Es decir, la solucin de MCO es idntica a la del mtodo de momentos.
23
Suma de cuadrados: Terminologa
( )
( )
SSR SSE SST que implica cual Lo
SSR : cuadrados de Residual Suma la es

SSE : cuadrados de Explicada Suma la es

SST : cuadrados de Total Suma la es


: siguiente lo definir podemos que modo De

: explicado no componente un y co) (sistemti explicado
componente un en n observaci cada separar Podemos
2
2
2
+ =

+ =
i
i
i
i i i
u
y y
y y
u y y
SST es la suma de desviaciones al cuadrado de las observaciones
de la muestra: es proporcional, ms no igual, a VAR(y).
24
Demostracin: SST = SSE + SSR
( ) ( ) ( ) | |
( ) | |
( ) ( )
( )
( )
SSE SSR
0

que sabemos como y
SSE

2 SSR

2



SST
2
2
2
2
2
+ =
=
+ + =
+ + =
+ =
+ = =


y y u
y y u
y y y y u u
y y u
y y y y y y
i i
i i
i i i i
i i
i i i i
25
Bondad de ajuste: R
2
Cmo saber qu tan bueno es el ajuste
entre la lnea de regresin y los datos de la
muestra?
Podemos calcular la proporcin de la Suma
de cuadrados totales (SST) que es
explicada por el modelo.
Esto es la llamada R-cuadrada de una
regresin:
R
2
= SSE/SST = 1 SSR/SST
26
Haciendo regresiones con stata
Hemos visto como derivar las frmulas para
calcular estimadores MCO de nuestros
parmetros de inters |.
Podemos calcularlos a mano (muy tedioso),
o aplicar estas frmulas en una hoja de
clculo como excel (algo tedioso), o bien
usar un paquete estadstico estndar como
stata (muy fcil)
Para correr una regresin de y en x en stata:
regress y x1 x2 x3 (ver ejemplo)

27
Sesgo y eficiencia de MCO
Dos caractersticas deseables de cualquier
estimador estadstico son:
Insesgamiento (unbiasedness): que el parmetro
estimado sea, en promedio, igual al verdadero
parmetro poblacional.
Eficiencia (efficiency): que la varianza del
estimador sea mnima (ie, mxima precisin).
As, buscamos estimadores con sesgo mnimo y
mxima eficiencia (ie, mnima varianza).
MCO cuenta con ambas propiedades bajo ciertas
condiciones: los supuestos Gauss-Markov.
28
Supuestos Gauss-Markov I:
Insesgamiento de MCO/OLS

1. El modelo poblacional es lineal en sus
parmetros: y = |
0
+ |
1
x + u
2. Muestra aleatoria de tamao n,
{(x
i
, y
i
): i=1, 2, , n}, representativa de la
poblacin, de modo que el modelo muestral
es: y
i
= |
0
+ |
1
x
i
+ u
i

3. Media condicional cero: E(u|x) = 0 y por
tanto E(u
i
|x
i
) = 0
4. Varianza(x
i
) > 0
29
Insesgamiento de MCO
Para analizar el sesgo del estimador, necesitamos
reescribirlo en trminos del parmetro poblacional.
De modo que reescribimos la frmula para |
1
como:
( )
( )

=
2
2
2
1
donde ,

x x s
s
y x x
i x
x
i i
|
30
Insesgamiento de MCO (cont.)
( ) ( )( )
( ) ( ) ( )
( ) ( ) ( )
i i i i i
i i i i i
i i i i i
u x x x x x x x
u x x x x x x x
u x x x y x x



+ + =
+ + =
+ + =
1 0
1 0
1 0
| |
| |
| |
Sustituyendo para y
i
, el numerador de la expresin anterior
puede descomponerse como sigue:
desviaciones de x + n*var(x) + n*cov(x,u)
31
Insesgamiento de MCO (cont.)
( )
( ) ( )
( )
( )
2
1 1
2
1
2
2

tanto lo por y ,
: as se reescribir puede numerador el que modo de
y , 0
: que sabemos bsica, a estadstic Por
x
i i
i i x
x i i i
i
s
u x x
u x x s
s x x x x x
x x

+ =
+
= =
=
| |
|
32
Insesgamiento de MCO (cont.)
( )
( ) ( )
1
2
1 1
2
1
1
: esperado valor aplicamos y ,
1
que modo de , definimos si , Finalmente
| | |
| |
=
|
.
|

\
|
+ =
|
.
|

\
|
+ =
=

i i
x
i i
x
i
i i
u E d
s
E
u d
s
x x d
El operador E(.) aplica a u
i
, el nico componente aleatorio de la
expresin.
El valor esperado de la |
1
estimada es el verdadero parmetro
poblacionaltoda vez que los 4 supuestos Gauss-Markov se
cumplan.
33
Insesgamiento: resumen
Los estimadores MCO de |
1
y |
0
son
insesgados.
La demostracin de esto depende de los 4
supuestos Gauss-Markov: si alguno de ellos
no se cumple, MCO no necesariamente ser
insesgado.
El insesgamiento es una propiedad del
estimador muestral: dada cierta muestra,
ste puede estar cerca o lejos del verdadero
parmetro poblacional.
34
Varianza de los estimadores MCO
Ya vimos que la distribucin muestral de
nuestro estimador est centrada en torno al
verdadero parmetro.
Qu tan dispersa ser la distribucin del
estimador?
Para analizar esto, requerimos un supuesto
Gauss-Markov adicional (el 5):
var(u|x) = o
2
conocido como homoscedasticidad
(homoskedasticity): varianza constante.

35
Varianza de MCO (cont.)
Por estadstica sabemos que:
o
2
= Var(u|x) = E(u
2
|x)-[E(u|x)]
2

Y como E(u|x) = 0, entonces:
o
2
= E(u
2
|x) = E(u
2
) = Var(u)
De modo que o
2
es la varianza no condicional de
los residuales, tambin llamada varianza del error.
o, la raz cuadrada de la varianza del error, se
conoce como la desviacin estndar del error.
Con lo cual podemos decir que:
E(y|x)=|
0
+ |
1
x
Var(y|x) = o
2
36
.
.
x
1
x
2

Homoscedasticidad
E(y|x) = |
0
+ |
1
x
y
f(y|x)
37
.
x

f(y|x)
x
1
x
2
x
3
.
.
E(y|x) = |
0
+ |
1
x
Heteroscedasticidad
38
Varianza de MCO (cont.)
( )
( ) ( )
( )
1
2
2
2
2
2
2
2
2
2
2 2 2
2
2
2
2
2
2
2
2
1 1
1
1 1
1 1
1
|
o
o
o o
| |
Var
s
s
s
d
s
d
s
u Var d
s
u d Var
s
u d
s
Var Var
x
x
x
i
x
i
x
i i
x
i i
x
i i
x
= =
|
.
|

\
|
=
|
.
|

\
|
=
|
.
|

\
|
=
|
.
|

\
|
=
|
.
|

\
|
=
|
|
.
|

\
|
|
.
|

\
|
+ =

39
Varianza de MCO: resumen
A mayor varianza del error, o
2
, mayor
varianza del estimador de |
1
.
A mayor varianza en x
i
, menor varianza
del estimador de |
1
.
Por ende, a mayor tamao de muestra, n,
menor varianza del estimador de |
1
.
Pero ojo, la varianza del error es
desconocida: necesitamos estimarla
tambin.
40
Estimacin de la varianza del error
No conocemos la varianza del error, o
2
, porque no
observamos los errores de la poblacin, u
i

Lo que observamos son los residuales (estimados)
del modelo muestral:



Pero podemos usar los residuales estimados para
construir un estimador de la varianza del error.
i i i
x y u
1 0

| | =
41
Estimacin de la varianza del error
( )
( ) ( )
( ) ( ) 2

2
1

: es de insesgado estimador un que modo de


. eliminan.. se parntesis ambos nto, insesgamie por


para do sustituyen y ,

2 2
2
1 1 0 0
1 0 1 0
1 0

=
=
+ + =
=

n
SSR
u
n
x u
x u x
y x y u
i
i i
i i i
i i i i
o
o
| | | |
| | | |
| |
42
Estimacin de la varianza del error
( )
( )
( ) ( )
2
1
2
1
1
2

se
:

de estndar error el
tenemos entonces , de en vez

s sustituimo si

std.dev : que recordemos


regresin la de estndar error


=
=
= =
x x
s
i
x
o
|
|
o o
o
|
o o
Y, una vez que conocemos el error estndar de |
1
estimada, podemos
calcular su intervalo de confianza y hacer pruebas de hiptesis.
Apndice A.
Propiedades del operador Suma
43
Apndice A.
Propiedades del operador Suma
44