You are on page 1of 32

MDULO

rea: NEGOCIOS

3 Curso: ESTADSTICA APLICADA


Mdulo: Modelo de Regresin Lineal Simple
rea: NEGOCIOS M3
Curso: ESTADSTICA APLICADA

Modelo de Regresin Lineal Simple


ndice
Introduccin ......................................................................................................................................................... 1
1. Modelo de Regresin Lineal Clsico ............................................................................................................. 2
1.1. Definiciones .......................................................................................................................................................... 2
a. Terminologa y Notacin ...................................................................................................................................... 3
1.2. Metodologa en el planteamiento de un modelo de regresin lineal .................................................................. 4
a. Planteamiento de la teora o de la hiptesis ........................................................................................................ 4
b. Especificacin del modelo economtrico de la teora .......................................................................................... 4
c. Obtencin de datos o informacin ....................................................................................................................... 5
d. Estimacin de los parmetros del modelo ........................................................................................................... 5
e. Pruebas de Hiptesis ............................................................................................................................................ 5
f. Pronstico o Prediccin ........................................................................................................................................ 6
2. Mnimos Cuadrados Ordinarios .................................................................................................................... 6
2.1. Solucin de Parmetros........................................................................................................................................ 6
2.2. Linealidad en los parmetros v/s variables .......................................................................................................... 8
2.3. Interpretacin del trmino irregular o error ........................................................................................................ 8
3. Supuestos Clsicos del Modelo de Regresin .............................................................................................. 9
3.1 Modelo de Regresin Lineal ........................................................................................................................................ 9
3.2 El valor medio del componente irregular o error es cero ........................................................................................... 9
3.3 Homoscedasticidad.................................................................................................................................................... 10
3.4 No autocorrelacin de los errores ............................................................................................................................. 10
3.5 La covarianza entre los errores y la variable explicativa es nula ............................................................................... 11
3.6 El nmero de observaciones n debe ser mayor al nmero de parmetros a estimar ............................................... 11
3.7 La varianza de los valores X debe ser positiva, constante y finita ............................................................................. 11
3.8 Modelo bien especificado.......................................................................................................................................... 11
3.9 No hay multicolinealidad perfecta ............................................................................................................................ 11
3.10 Normalidad de los errores ....................................................................................................................................... 12
4. Estimacin de intervalos y prueba de hiptesis ......................................................................................... 12
4.1 Construccin de Intervalos de Confianza .................................................................................................................. 14
a. Ejemplos ............................................................................................................................................................. 15
4.2 P-Value....................................................................................................................................................................... 17
a. Intervalo de confianza para parmetros de la regresin ................................................................................... 17
5. Prediccin ................................................................................................................................................... 18
6. Aplicacin en Excel ..................................................................................................................................... 21
6.1 Representacin grfica .............................................................................................................................................. 21
6.2 Anlisis de datos ........................................................................................................................................................ 25
Cierre .................................................................................................................................................................. 27
rea: NEGOCIOS M3
Curso: ESTADSTICA APLICADA

Modelo de Regresin Lineal Simple


Mapa de Contenido

Modelo de Regresin Lineal


Definiciones Terminologa y Notacin
Clsico

Planteamiento de la teora o de
la hiptesis

Especificacin del modelo


economtrico de la teora

Obtencin de datos o
informacin
Metodologa
Modelo de Regresin Lineal Simple

Estimacin de los parmetros


del modelo

Pruebas de Hiptesis

Pronstico o Prediccin

Solucin de Parmetros

Linealidad en los parmetros


Mnimos Cuadrados Ordinarios
v/s variables

Supuestos Clsicos del Modelo Interpretacin del trmino


de Regresin irregular o error

Construccin de Intervalos de
Confianza
Estimacin de intervalos y
prueba de hiptesis
Intervalo de confianza para
P-Value
parmetros de la regresin
Prediccin

Representacin grfica

Aplicacin en Excel

Anlisis de datos
rea: NEGOCIOS M3
Curso: ESTADSTICA APLICADA Pg. 1

Modelo de Regresin Lineal Simple


Resultado de Formula la relacin estadstica entre dos variables asociadas a un problema y aplica un
Aprendizaje del modelo de regresin lineal simple a un conjunto de datos e interpretar correctamente sus
Mdulo/Unidad: resultados.

Introduccin
Las bases de datos disponibles en una organizacin no sern de utilidad si no pueden transformarse en
informacin. Esta frase algo clich es ms bien una necesidad real de las organizaciones de transformar sus
datos en herramientas que le permitan tomar acciones informadas y por ende conducentes a resultados ms
eficientes. Algunos ejemplos:

Un banco necesita saber cul es la probabilidad que


un solicitante de crdito realmente vaya a cumplir
con los pagos en la forma y plazos pactados, para
ello cuenta con toda la informacin que el cliente le
proporciona: datos demogrficos como gnero,
edad, estado civil y lugar de residencia y oficio entre
otros y de informacin de sus finanzas personales
como nivel de ingreso mensual, deuda actual en
consumo, deuda hipotecaria, etc. Y finalmente datos
del patrimonio: si tiene automvil, casa u otras
inversiones financieras.

El administrador de un portafolio de una administradora de fondos privados quisiera anticiparse al


efecto que tendr el eventual alza en el precio del cobre que el mercado est prediciendo en otras
variables de inters para su gestin, en particular el precio del tipo de cambio.

Una cadena de supermercados est evaluando subir algunos precios de sus productos para mejorar
sus mrgenes y con ello los resultados de la compaa, sin embargo, sabe que frente al aumento en
los precios los consumidores suelen reaccionar disminuyendo sus compras, para adelantarse a dicha
reaccin la empresa quisiera conocer la magnitud de dicha reaccin (que en economa se conoce
como elasticidad de la demanda) para realizar un ajuste que no tenga un efecto adverso en el total
de sus ventas.

Hasta aqu hemos estudiado tcnicas que nos permiten establecer ciertas caractersticas de nuestra variable
o serie de datos de inters, como asimismo hemos abordado tcnicas que nos permiten establecer inferencia
respecto de la significancia estadstica que puede tener la informacin muestral respecto de una poblacin.
En este mdulo iremos un paso ms adelante y abordaremos los fundamentos de las tcnicas de regresin.
La tcnica de regresin lineal es la tcnica ms comnmente utilizada para establecer relaciones de
dependencia entre variables, una vez que estas condiciones de dependencia son calculadas, es factible
realizar ejercicios que nos permitirn predecir qu valor tomara nuestras variables de inters cuando las
otras variables toman ciertos valores definidos, en los casos de los ejemplos anteriores:
rea: NEGOCIOS M3
Curso: ESTADSTICA APLICADA Pg. 2

Modelo de Regresin Lineal Simple


En funcin de las caractersticas de un cliente y su posicin
financiera, el banco puede calcular la probabilidad de pago de un
crdito, si esta est dentro de un rango pre definido entonces el
crdito se cursa, en caso contrario el crdito es rechazado.

En funcin de la informacin histrica conocida, el


administrador del portafolio puede calcular la relacin entre el
movimiento de precio del cobre y del tipo de cambio llegando a
establecer una conclusin tan concreta como por cada punto
porcentual que aumenta el precio del cobre, el tipo de cambio cae x puntos porcentuales.

El supermercado podr establecer el nivel de elasticidad para cada producto por lo que podr
establecer un ajuste ordenado que si bien no impedir que algunos consumidores posterguen sus
compras, tendr un efecto neto de aumentar los resultados por medio del mayor ingreso.

Estos son solo algunos ejemplos donde las tcnicas de regresin son tiles.

1. Modelo de Regresin Lineal Clsico


1.1. Definiciones
Entendemos por regresin al estudio de la dependencia de una variable (la variable
dependiente) de una o ms variables (variables independientes) con la idea de estimar y/o
predecir el valor poblacional medio de la primera en trminos de los valores conocidos de las
segundas.

Si bien el modelo de regresin puede determinar la dependencia entre dos variables, dicha relacin no
necesariamente implicara causalidad. El concepto de causalidad necesariamente debe atribuirse a la teora
que sustenta el modelo desarrollado.

Existe una diferencia entre el anlisis de regresin versus el anlisis de correlacin:

IMPORTANTE

Ntese que estamos interesados en determinar la relacin estadstica existente entre variables de tipo
aleatorias, en contraste con el tipo de relacin determinstica entre variables que pudieran darse por
ejemplo en el campo de la fsica. Lo anterior implica que estamos analizando relaciones entre variables
en el entendido de que en cualquier caso obtendremos una buena aproximacin, pero sta siempre
estar sujeta a error. Las ciencias exactas como la fsica pueden determinar relaciones sin errores como
por ejemplo cual es la velocidad a la que cae un objeto desde cierta altura determinado por su peso,
volumen, etc.
rea: NEGOCIOS M3
Curso: ESTADSTICA APLICADA Pg. 3

Modelo de Regresin Lineal Simple


Anlisis de Correlacin Anlisis de Regresin

Mide asociacin entre dos Busca determinar el valor de


variables una variable, una vez conocido
el valor de la otra variable

Por ejemplo, mientras el anlisis de correlacin me indica la fuerza de la relacin entre el crecimiento
econmico y el desempleo, el anlisis de regresin me indicara cual es el efecto puntual en el desempleo de
un crecimiento del PIB del 6%.

a. Terminologa y Notacin
Variable dependiente = Explicada = Predicha = Regresada = Endgena.
Variable explicativa = Independiente = Predictora = Regresora = Exgena.
Anlisis de regresin simple = regresin con dos variables (Y vs. X).
Anlisis de regresin mltiple = regresin con varias variables (Y vs X1, X2, , Xn)

En una relacin econmica podemos definir a priori una dependencia a travs del siguiente modelo:

Yi 0 1 X i i

Este corresponde a la funcin de regresin poblacional (FRP), sin embargo, no tenemos acceso a toda la
informacin necesaria para establecer con certeza el valor de los parmetros (betas) poblacionales sino que
normalmente tenemos acceso solo a una muestra de datos por lo que deberemos considerar la estimacin
de parmetros a partir de datos muestrales:

Yi 0 1 X i i

Ahora bien, dado que:

Yi 0 1 X i

Yi Yi i

Lo anterior implica que el verdadero valor de la variable de inters podr ser estimada a partir de un modelo,
pero dejando explicita la presencia de un componente de error que implica que normalmente no podemos
predecir con exactitud sino que estamos sujetos a predicciones con margen de error.
rea: NEGOCIOS M3
Curso: ESTADSTICA APLICADA Pg. 4

Modelo de Regresin Lineal Simple


1.2. Metodologa en el planteamiento de un modelo de
regresin lineal
La metodologa de la escuela tradicional es la que predomina en la investigacin emprica en economa y
finanzas y en reas relacionadas. Cuenta con el siguiente procedimiento:

Especificacin del
Planteamiento de
modelo Obtencin de datos
la teora o de la
economtrico de la o informacin
hiptesis
teora

Estimacin de los
Pronstico o Pruebas de
parmetros del
prediccin Hiptesis
modelo

a. Planteamiento de la teora o de la hiptesis

Ejemplo: Teora Keynesiana del Consumo, cuya hiptesis plantea que los individuos, en promedio, ante un
aumento del ingreso estn dispuestos a incrementar su consumo, pero en una proporcin distinta al del
aumento del ingreso. Esto es, la propensin marginal a consumir (PMgC), que corresponde a la tasa de
cambio del consumo generado por una unidad (o peso) de cambio en el ingreso, es mayor que cero y menor
que uno.

b. Especificacin del modelo economtrico de la teora

En el ejemplo, el modelo matemtico supone una relacin exacta o determinstica entre el consumo y el
ingreso. Pero por lo general las relaciones entre las variables econmicas son inexactas. Adems, sabemos
que el consumo depende de otros factores adems del ingreso, como las preferencias y gustos del individuo,
su edad, genero, entre otras. Para considerar esas variables inexactas se modifica la funcin matemtica,
agregndole un trmino de perturbacin o error, que es una variable aleatoria (que tiene propiedades
probabilsticas claramente definidas). Este trmino refleja todos aquellos factores que afectan el consumo y
que no estn definidas en el modelo.

Yi 0 1 X i i

Donde:
Y= Gasto de Consumo
X = Ingreso
0=Intercepto (Componente autnomo)
1=Pendiente (PMgC)
= error
rea: NEGOCIOS M3
Curso: ESTADSTICA APLICADA Pg. 5

Modelo de Regresin Lineal Simple


c. Obtencin de datos o informacin

Para estimar el modelo necesitamos datos, el cual es el elemento crucial para el anlisis. En el ejemplo del
modelo de Consumo, la variable dependiente Y se puede aproximar a partir de datos trimestrales de gasto de
consumo agregado (economa como un todo). Respecto de la variable independiente, X, puede utilizarse el
PIB como medida de ingreso agregado, ambos medidos en pesos o como ndices para un periodo de tiempo
relevante.

d. Estimacin de los parmetros del modelo

Una vez conseguidos los datos, el prximo paso es la estimacin del modelo. Esto se realiza mediante un
anlisis de regresin que es la herramienta principal utilizada para obtener los valores estimados. Utilizando
esta tcnica y los datos, supongamos que se obtienen los siguientes valores estimados: 1= 1400.8 y 2=0.85.
Luego la funcin de consumo estimada es:

Yi 1400.8 0.85 X i

Esto implica que el coeficiente de pendiente (o sea, PMgC) es de 0.85, lo que sugiere que para el perodo
muestral un aumento de un dlar en el Ingreso Real lleva, en promedio, a un incremento de cerca de 0.85
dlares (85 centavos) en el gasto de consumo real. Se dice en promedio, ya que la relacin entre el consumo
y el ingreso es calculada para el total de la muestra pero no para cada individuo en trminos particulares,
luego sabemos que cada persona se comporta en forma distinta.

e. Pruebas de Hiptesis

Suponiendo que el ejemplo es una aproximacin razonablemente adecuada de la realidad, se tienen que
desarrollar ciertos criterios apropiados para ver si los valores estimados obtenidos concuerdan con las
expectativas de la teora que est siendo probada.

En el ejemplo, que la PMgC sea 0.85 confirma lo de la teora Keynesiana de consumo que deca que debe ser
menos que uno. Pero el resultado nuestro es estadsticamente menor que 1 o solo es producto del azar o de
alguna peculiaridad de la informacin? Para confirmar o refutar las teoras en base a la evidencia muestral se
procede a realizar inferencia estadstica (a travs de pruebas de hiptesis). Las pruebas debern incluir
testear los resultados de parmetros especficos como tambin del modelo como un todo.
rea: NEGOCIOS M3
Curso: ESTADSTICA APLICADA Pg. 6

Modelo de Regresin Lineal Simple


f. Pronstico o Prediccin

Suponiendo que se espera que el PIB real de 20XX sea de US$ 6.000 (mil millones), Cul sera el pronstico
de gasto de consumo en 20XX?

Si se estima que la funcin de consumo seguir siendo vlida para 20XX, slo debemos reemplazar el nuevo
ingreso en la funcin:

Y= 1400.8 + 0.85 [6000] =>Y = 6500.8 (miles de millones de US$)

Luego el anterior es el procedimiento para realizar estimaciones con los parmetros ya calculados y
testeados.

2. Mnimos Cuadrados Ordinarios


Ahora abordaremos el procedimiento por el cual podemos calcular los parmetros del modelo, este
procedimiento se basa en un algoritmo de optimizacin cuyo objetivo es encontrar los parmetros de tal
forma que los errores de la estimacin sean lo ms pequeos posibles.

Se conoce como solucin de mnimos cuadrados (MICO) puesto que minimiza los errores al cuadrado, se
minimiza la suma de los errores al cuadrado porque la suma de errores podra minimizarse, incluso llegar a
cero para obtener amplios errores positivos y negativos que tenderan a anularse en la sumatoria, el uso de
los errores al cuadrado asegura que estos sean lo menor posible y sin la posibilidad de anularse dado que
un valor al cuadrado siempre ser positivo.

2.1. Solucin de Parmetros


La intuicin es ajustar una recta de regresin a travs de los puntos de un grfico de forma que est lo ms
prximo a los puntos. Se busca las distancias verticales (errores) sean lo ms pequeas posibles.
rea: NEGOCIOS M3
Curso: ESTADSTICA APLICADA Pg. 7

Modelo de Regresin Lineal Simple


Yi

Y1 Y3
e1
e2

Y2

Xi

Donde ei Yi Yi Yi 1 2 X son los errores.


MICO busca encontrar y tal que la suma de los cuadrados de los errores sea mnima. Es decir,
1 2

e
2
se busca minimizar, i .

Luego, en el caso del modelo de regresin simple el problema de minimizacin se plantea como:

L Mini ei i (Yi 1 2 X ) 2
2

1 , 2

Las condiciones de primer para encontrar el mnimo valor se encuentran donde las derivadas parciales
respecto de los parmetros son iguales a cero:

L 0
2
L 0
1

y las condiciones de segundo orden son:

2L 0
2
2

2L 0
1
2

Luego derivamos la expresin respecto de cada parmetro e igualamos a cero para luego resolver el sistema
de ecuaciones:
rea: NEGOCIOS M3
Curso: ESTADSTICA APLICADA Pg. 8

Modelo de Regresin Lineal Simple


L 2 (Yi 1 2 X i ) 0
1
Yi 1 2 X i 0
N1 Yi 2 X i
1 Y 2 X

L 2 (Yi 1 2 X i )X i 0
2
X i Yi 1 X i 2 X i 0
2

2
X Y i i N X Y
X NX2
2
i

De esta forma, hemos encontrado los valores de b1 y b2 que minimizan los errores del modelo, los cuales
pueden construirse con la informacin disponible de X e Y.

2.2. Linealidad en los parmetros v/s variables


Un modelo es lineal en la variable cuando estamos frente a una tpica ecuacin lineal que relaciona una
variable X con una variable Y, a travs de un intercepto y de una pendiente constante (y=a+bx). En
oposicin, un modelo del tipo (y=a+bx2) no es lineal en la variable x sino cuadrtico.

Por otra parte, el modelo se dice lineal en los parmetros siempre que estos (los betas) sean lineales, esto
es, cuyos exponentes sean igual a 1. Luego el modelo (y=a+b2x) no es lineal en el parmetro, aunque si es
lineal en la variable.

Para efectos de la teora expuesta en este curso lo relevante es la linealidad en los parmetros.

2.3. Interpretacin del trmino irregular o error


El modelo permite predecir en promedio el valor Y dado el valor de X, sin embargo, el modelo acepta la
existencia de una perturbacin estocstica, trmino irregular o simplemente un error de estimacin. Ahora
bien, cul es la fuente de este trmino de error? Existen varias fuentes de este componente:

Teora incompleta. Las teoras pudieran no ser exhaustiva


en trminos de los elementos que establecen la causalidad.
Falta de informacin.
Aleatoriedad en comportamiento humano.
Errores de medicin en las variables.
Error de especificacin
rea: NEGOCIOS M3
Curso: ESTADSTICA APLICADA Pg. 9

Modelo de Regresin Lineal Simple


3. Supuestos Clsicos del Modelo de Regresin
Para derivar los estimadores 1 y 2 no se realizaron supuestos sobre la forma en que se obtuvo la muestra
sino se hizo sobre la distribucin de probabilidad de los errores.

Los supuestos son necesarios para verificar las propiedades estadsticas que tienen los estimadores. Ellos son:

El valor medio del


Modelo de Regresin No autocorrelacin de
componente regular o Homoscedasticidad
Lineal los errores
error es cero

El nmero de La varianza de los


La covarianza entre los
observaciones n debe valores X debe ser Modelo bien
errores y la variable
ser mayor al nmero de positiva, constante y especificado
explicativa es nula
parmetros a estimar finita

No hay multicolinealidad Normalidad de los


perfecta errores

3.1 Modelo de Regresin Lineal

El primer supuesto es la linealidad en los parmetros, concepto que ya se revis en la seccin anterior.

Yi 1 2 X i ei

Recordemos que la linealidad es necesaria en los parmetros pero no es necesaria en las variables.

3.2 El valor medio del componente irregular o error es cero

E(ei/Xi)=0 i, los errores pueden ser positivos o negativos pero no existe razn a priori para esperar que
sistemticamente sean positivos o negativos.
rea: NEGOCIOS M3
Curso: ESTADSTICA APLICADA Pg. 10

Modelo de Regresin Lineal Simple


3.3 Homoscedasticidad
VAR ( i / X j ) 2

Las perturbaciones se distribuyen con la misma dispersin (varianza) respecto a la media.

EYi / Xi 1 2 X i EYi / Xi 1 2 X i
VAR ( i / X j ) 2 VAR ( i / X j ) i
2

Lo anterior implica que podemos asumir que la varianza es constante para distintos niveles de la variable
independiente.

3.4 No autocorrelacin de los errores

COV ( i , j ) 0 , i j


COV ( i , j ) E i E ( i ) j E ( j ) E i j 0

Esto implica que un error es independiente del error de la observacin anterior. Esto es particularmente
importante en el anlisis de series de tiempo puesto que, en dicho caso se suele dar que un error esta
correlacionado con el error del periodo anterior, por lo que se debe revisar si se cumple o no este supuesto.
rea: NEGOCIOS M3
Curso: ESTADSTICA APLICADA Pg. 11

Modelo de Regresin Lineal Simple


3.5 La covarianza entre los errores y la variable explicativa es nula

COV ( i , X i ) 0

Esto implica que no existe relacin entre la estructura de los errores resultantes del modelo y la variable
independiente.

3.6 El nmero de observaciones n debe ser mayor al nmero de


parmetros a estimar.
De otra forma no ser posible estimar los parmetros.

3.7 La varianza de los valores X debe ser positiva, constante y finita

Esto implica que no todos los valores deben ser iguales puesto que en dicho caso no se podra establecer la
relacin de causalidad.

3.8 Modelo bien especificado

No hay errores en la especificacin. Por ejemplo si la variable Y se explica en teora apartir de 3 variables: X1,
X2 y X3, es necesario que efectivamente estas estn presentes en los datos disponibles, si alguna de estas no
est disponible estaremos dejando fuera informacin importante.

3.9 No hay multicolinealidad perfecta

Esto implica que no hay relaciones lineales entre las variables explicativas. Si considero una variable X luego
no puedo considera una variable que se construya como 2X o 3X puesto que estaramos dando la misma
informacin dos veces.
rea: NEGOCIOS M3
Curso: ESTADSTICA APLICADA Pg. 12

Modelo de Regresin Lineal Simple


3.10 Normalidad de los errores
Los errores se distribuyen independiente e idnticamente normal.

~ N (0, 2 )

Este supuesto facilita la inferencia a partir de los resultados.

4. Estimacin de intervalos y prueba de hiptesis


Una vez que hemos desarrollado modelos de regresin lineal simples y hemos podido entender cmo estos
se construyen, damos paso a la siguiente etapa en el anlisis de modelo y que est relacionada con la
validacin de los resultados obtenidos.

Una vez obtenidos los resultados de los parmetros de una regresin lineal cabe preguntarse si estos
efectivamente corresponden a una relacin causal valida, dada la informacin muestral.

Por ejemplo, si los resultados obtenidos de una regresin lineal son los siguientes:

Y = 150 + 5.2X

Estos resultados muestran una relacin positiva entre ambas variables, el parmetro 1 tiene un valor de 5.2
lo que implica que por cada unidad adicional de X debiera obtener 5.2 unidades adicionales de Y, ahora bien,
qu tan robusto es este resultado?, Que pasar si considero una muestra distinta? Cambiar mucho este
valor? Lo mismo podemos preguntarnos respecto de 0.

Consideremos otro ejemplo:

logY = 5 + 2logX

En este caso el valor del parmetro 1 obtenido es mucho menor y la interpretacin es que frente a un
aumento de 1% en la variable X se reflejara un aumento de 2% en la variable Y. En este caso es evidente que
debemos estar muy seguros de la validez del parmetro encontrado dado que estamos realizando una
conclusin bastante fina respecto del comportamiento conjunto de las variables analizadas.

Finalmente, otro ejemplo:

Y = 0.5+ 0.05X
rea: NEGOCIOS M3
Curso: ESTADSTICA APLICADA Pg. 13

Modelo de Regresin Lineal Simple


En este caso, el valor del parmetro 1es bastante pequeo en valores absolutos (lo que en la prctica es
irrelevante como veremos ms adelante pero se plantea para graficar el punto) por lo que nos interesara
saber si el verdadero parmetro que rige la relacin corresponde a este nmero o no. De hecho un valor
muy cercano a cero podra interpretarse como que la relacin entre ambas variables en realidad es
inexistente! Y de existir, no sabramos con certeza si esta es positiva o negativa, es decir, el modelo podra no
ser concluyente en el sentido de lo que buscamos y por ende su aplicacin ser de muy limitada utilidad.

Para finalmente poder estar seguros de la utilidad de los parmetros estimados debemos conocer el
intervalo de confianza de los parmetros, para ello es muy til el test de hiptesis y la estimacin por
intervalos.

Para demostrar que tan confiables son los


resultados, necesitaremos utilizar los datos
para hacer afirmaciones de tipo probabilsticas
acerca de nuestra estimacin.

Para demostrar Por ejemplo podramos afirmar respecto del


Confiabilidad de los
Resultados ejemplo previo que con un 95% de
probabilidad el verdadero valor de la pendiente
se encuentra en el intervalo (0.03, 0.07), este
se conoce como el intervalo de confianza para
el parmetro estimado.
Hay que usar los datos
para hacer afirmaciones
probabilsticas sobre la
estimacin

Existe una estrecha relacin entre los intervalos de confianza y la tcnica de prueba de hiptesis,
supongamos que queremos probar la hiptesis de que la pendiente en realidad es cero (o sea que no hay
relacin entre X e Y), luego planteamos que la hiptesis nula es que la pendiente es cero. Dado que ya
conocemos el intervalo de confianza y podemos ver que el cero no est contenido en el mismo, podemos
rechazar la hiptesis.

Intervalos Prueba de
de Hiptesis
Confianza
rea: NEGOCIOS M3
Curso: ESTADSTICA APLICADA Pg. 14

Modelo de Regresin Lineal Simple


4.1 Construccin de Intervalos de Confianza
En el mdulo anterior se desarroll el proceso de test de hiptesis para estimaciones puntuales de medias,
diferencias de medias y varianzas. El proceso ahora es similar para testear la hiptesis respecto del valor de
los parmetros calculados en la regresin.

Supongamos que conocemos el valor de la varianza de una variable aleatoria X (que se distribuye Normal)
pero desconocemos su media y deseamos realizar afirmaciones respecto del valor estimado para ella.

Dado que es difcil hacer estimaciones respecto de la estimacin puntual se utiliza el intervalo de confianza,
supongamos que queremos obtener un intervalo de confianza del 95% respecto de la media muestra de esta
variable aleatoria. Dado el hecho de que la variable se distribuye en forma normal con una desviacin
estandarX/N, donde N es el nmero de observaciones, el intervalo de confianza es:

1.96 X 1.96 X
X X X
N N

Supongamos que N = 100 y X=10, entonces X est distribuida normalmente con varianza unitaria. Si la
estimacin puntual de X es X =3, el intervalo de confianza sera 1 X 5 .

El intervalo de confianza sugiere que existe un 95% de probabilidad de que el intervalo (1,5) contenga el
verdadero valor de la media X

En forma equivalente podemos calcular Z X , esta estadstica se distribuir en forma normal con
( X / N )
una varianza de 1 y, si la hiptesis nula es verdadera, una media de cero. Si la estadstica Z es mayor que 1.96
en valor absoluto (se redondea a 2), podemos rechazar la hiptesis nula con un nivel del 5%.

Grficamente:
rea: NEGOCIOS M3
Curso: ESTADSTICA APLICADA Pg. 15

Modelo de Regresin Lineal Simple


a. Ejemplos
Se desea estimar la media del tiempo empleado por un
producto en una de las etapas del proceso productivo por lo
cual se cronometran 10 de los mismos, obtenindose una media
de 41,5 minutos. Sabiendo por otras pruebas que la desviacin
tpica de esta variable es de 0,3 minutos, obtener un intervalo
de confianza con un 95% de confianza.

Estamos en el caso de un intervalo de confianza para la media


conociendo la desviacin tpica de la poblacin.

Del enunciado del problema se desprenden directamente los siguientes datos:

Tenemos que buscar un valor z/2, de modo que en la distribucin N(0,1) deje una rea de probabilidad a la
derecha igual a /2, es decir 0,025. Como la funcin de distribucin de probabilidad de la tabla N (0,1) me da
el rea de probabilidad acumulada, es decir a la izquierda, tengo que ver qu valor de z me deja a la izquierda
0,975, que se corresponde para un valor de z=1,96.

As pues el intervalo buscado es:

IMPORTANTE

Tambin se puede expresar as: Se estima que la media es 41,5 ms menos un margen de error de
0.1859. (Recordemos que el margen de error cometido en la estimacin es el radio del intervalo, es decir
0,1859), de alguna forma este margen de error nos indica el nivel de precisin de la estimacin o bondad
de ajuste.

Hasta aqu asumimos que la varianza es conocida, sin embargo, esta situacin no suele suceder, por lo que
reemplazamos la varianza desconocida X2 por la varianza muestra estimada S X2 , luego nuestro estadstico
ahora toma la siguiente forma:

tX
(S X / N )
rea: NEGOCIOS M3
Curso: ESTADSTICA APLICADA Pg. 16

Modelo de Regresin Lineal Simple


Esta estadstica ya no se distribuye normalmente sino que sigue una distribucin t de student, similar a la
normal.

tc S X tS
X X X c X
N N

Donde tc corresponde al valor crtico de la distribucin que estar determinado por el nivel de significancia y
los grados de libertad.

El nmero de grados de libertad estar determinado por el nmero de datos, menos el nmero de
parmetros que se est estimando. El nivel de significancia corresponde al nivel de certeza que se pretende
obtener con la construccin del intervalo de confianza, usualmente se utiliza niveles de 95% o 99%.

Grficamente:

Veamos otro ejemplo prctico:

Tomamos 20 muestras del peso de un producto recin salido de la


cadena de produccin , elegidos al azar, luego obtenemos una
media de 9,8525 y una cuasi desviacin tpica muestral de 0,0965.
Calcular un intervalo de confianza con un 95% para la nota media.
rea: NEGOCIOS M3
Curso: ESTADSTICA APLICADA Pg. 17

Modelo de Regresin Lineal Simple


Estamos en el caso de un intervalo de confianza para la media desconociendo la desviacin tpica de
la poblacin.

Del enunciado del problema se desprenden directamente los siguientes datos:

Tenemos que buscar un valor t/2, de modo que en la distribucin t-Student con 19 grados de
libertad deje una rea de probabilidad a la derecha igual a /2, es decir 0,025.

Dicho valor se corresponde con un valor de t =2,0930. (Tambin se suele redondear a 2, dado cierto
tamao de muestra razonable)

As pues el intervalo buscado es:

La media se estima en 9,8525 ms menos un margen de error de 4,5%

4.2 P-Value

Normalmente los resultados de estimaciones de regresin reportan el valor p (de probabilidad, o p-


value) el cual informa el nivel de probabilidad exacto de significancia, un nivel de p-value del 0.03
significa que el parmetro es significativo al 5% pero no lo es al 1%.

a. Intervalo de confianza para parmetros de la regresin

Lo que se busca es que P2 2 2 1 , es decir que la probabilidad que 2 est


entre 2 y 2 sea 1-.

2 2
Previamente sabemos que ~ t n2 , entonces 1- de esta distribucin t con N-2 grados de

2

libertad estar entre t y t .


2 2
rea: NEGOCIOS M3
Curso: ESTADSTICA APLICADA Pg. 18

Modelo de Regresin Lineal Simple


P t tn 2 t 1
2 2

2
P t 2 t 1
2 2 2

P 2 t 2 2 t 1
2 2 2 2

P 2 t 2 2 t 1
2 2 2 2

Por lo tanto el intervalo de confianza para 2 es:

2 2 t 2
2

5. Prediccin
Una vez que hemos estimado los parmetros y se han realizado las pruebas de hiptesis que
permitan validar estos resultados podemos proceder a realizar predicciones o pronsticos de la
variable de inters dados los parmetros estimados.

Supongamos que tenemos datos de ingreso de un grupo de individuos y de su nivel de educacin


medida en aos de escolaridad, los datos los podemos graficar de la siguiente forma:

Ingreso y Educacin
1.600.000
1.400.000
1.200.000
1.000.000
800.000
600.000
400.000
200.000
0
8 10 12 14 16 18 20

Del grfico se desprenden varios elementos que tenemos que tener en cuenta:
rea: NEGOCIOS M3
Curso: ESTADSTICA APLICADA Pg. 19

Modelo de Regresin Lineal Simple


Visualmente vemos una evidente relacin entre ambas variables, esto es, podemos ver que
en promedio a medida que los individuos muestran mayores niveles de escolaridad tambin
muestran mayores niveles de ingreso.
La relacin podra describirse como lineal (a partir de una lnea recta y no curva).
Es importante considerar el rango que toma la variable independiente, esto es el nivel de
escolaridad esta entre 10 y 18 aos, esto implica que podremos realizar pronsticos validos
en dicho rango.

Asumamos el siguiente modelo:


= 0 + 1 +

Supongamos que obtenemos los siguientes resultados de un ejercicio de regresin (el clculo
prctico lo abordamos en el siguiente captulo):

Parmetro Coeficientes Estadstico t t (5%, n-1=49)


0 -814,897 -9.23 2.01
1 107,579 17.60 2.01

El parmetro relevante para testear es el 1 dado que este establece la relacin entre ambas
variables.

La hiptesis ser:

0 : 1 = 0
1 : 1 0

Luego la hiptesis nula se rechaza si el valor del estadstico de contraste o prueba (estadstico t) es
mayor, en valor absoluto al valor de t (95%, n-1=49).

En este caso entonces rechazamos la hiptesis nula dado que el estadstico de contraste t es de 17.6
que es mucho mayor al estadstico de prueba o contraste al 5% con (n-1) grados de libertad que es
de 2.01.

Esto implica que se rechaza la hiptesis de que el parmetro sea cero, esto implica que es
significativamente distinto de cero lo que equivale a plantear que existe una relacin significativa
entre educacin e ingreso.
rea: NEGOCIOS M3
Curso: ESTADSTICA APLICADA Pg. 20

Modelo de Regresin Lineal Simple


Ahora bien, pasamos a interpretar los resultados de los parmetros:

Dados los valores de los parmetros podemos re-escribir el modelo:

= 814.897 + 107.579 +

Recordemos que en general podemos generar la relacin entre el valor observado y el estimado de
la siguiente forma:

= 0 + 1 +

Que equivale a:
= +

En trminos grficos podemos realizar la distincin a partir del grafico previo:

Ingreso y Educacin Cada observacin, esto es cada punto


corresponde a la variable dependiente
1.600.000 observada denotada por
1.400.000
1.200.000
El valor del modelo est representado
1.000.000 por la lnea roja, que representa a
800.000
600.000
La diferencia entre cada observacin y su
400.000 = valor estimado es el error de la estimacin,
200.000 que en el grafico esta presentado por la
0 diferencia entre cada punto repecto de la
8 10 12 14 16 18 20 lnea roja.

Ahora bien, podemos entender el modelo estimado a partir de:

= 814.897 + 107.579 +

= 814.897 + 107.579

Esto implica que podemos estimar el valor del ingreso (equivalente al nivel de la lnea recta roja del
grafico previo) dados los parmetros conocidos y realizar predicciones tales como:
rea: NEGOCIOS M3
Curso: ESTADSTICA APLICADA Pg. 21

Modelo de Regresin Lineal Simple


Cul ser el ingreso de una persona que tiene 16 aos de escolaridad?,
para esto simplemente reemplazamos en el modelo:

= 814.897 + 107.57916

= 906.367

Esto implica que el modelo predice un ingreso medio de $906.367 dados 16 aos de escolaridad.

Interpretacin de los parmetros:

Ahora que hemos graficado y realizado una prediccin es ms fcil interpretar el significado de los
parmetros.

El parmetro 0 corresponde a un parmetro de posicin o tambin llamado intercepto (dado que


es el valor en el que la lnea recta intercepta el eje vertical). En muchos casos este parmetro
carece de mayor importancia y no requiere ser testeado ni interpretado. En el ejemplo de hecho no
tiene significancia dado que en rigor representa el ingreso asociado a cero aos de escolaridad el
cual sera de $-814.897 lo cual no tiene sentido. Este sin sentido se da porque el modelo est
centrado en pronosticar el ingreso para valores de escolaridad entre 10 y 18 aos y no podr por
ende pronosticar para valores muy alejados de ese rango. Luego la utilidad de este parmetro es
solo para incluirlo en el clculo pero no para interpretarlo.

Respecto de 1, este es el parmetro que si es interpretable y corresponde a la tasa de cambio de la


variable dependiente (ingreso) por cada unidad de cambio en la variable independiente (educacin)
lo que implica que frente a un aumento de un ao de educacin, podemos esperar en promedio un
aumento de $107.579 en el ingreso bruto del individuo. (Por cierto, estos son datos ficticios!)

6. Aplicacin en Excel
6.1 Representacin grfica
Al igual que en los anteriores mdulos vamos a aplicar los conceptos desarrollados a travs del complemento
de anlisis de datos.
rea: NEGOCIOS M3
Curso: ESTADSTICA APLICADA Pg. 22

Modelo de Regresin Lineal Simple


Consideremos un simple ejemplo donde queremos relacionar la inversin publicitaria de una empresa con
sus niveles de ventas, en concreto consideramos los siguientes datos de una empresa (miles de pesos):

Ahora bien, podemos como primer paso revisar un grfico:


rea: NEGOCIOS M3
Curso: ESTADSTICA APLICADA Pg. 23

Modelo de Regresin Lineal Simple


Lo que produce el siguiente grfico:

Ventas
5000
4000
3000
2000
1000
0
0 20 40 60 80 100 120

Podemos ajustar ahora los valores de los ejes para apreciar mejor los datos (click derecho en el eje vertical):
rea: NEGOCIOS M3
Curso: ESTADSTICA APLICADA Pg. 24

Modelo de Regresin Lineal Simple


Luego realizamos un procedimiento similar con el eje horizontal, ajustando el valor mnimo a 802, con esto el
grafico resultante es el siguiente:

Ventas
4800
4600
4400
4200
4000
3800
3600
3400
80 85 90 95 100 105 110 115

El grfico muestra una clara relacin entre ambas variables, esto es, entre mayor es el nivel de inversin
publicitaria se observan mayores niveles de ventas. Claramente las variables dependientes son las ventas en
tanto la variable independiente es la inversin publicitaria.

Previo a usar el complemento de anlisis de datos, podemos revisar una alternativa grfica que nos entrega
Excel, es la inclusin de lneas de tendencias sobre el grfico, para esto debemos dar click derecho sobre
cualquier observacin (punto azul en el grfico) lo que desplegara el siguiente men:
rea: NEGOCIOS M3
Curso: ESTADSTICA APLICADA Pg. 25

Modelo de Regresin Lineal Simple


Las distintas
alternativas
corresponden a
distintas
especificaciones
del modelo.

La alternativa
ms utilizada y
que por ende
esta
seleccionada por
defecto es la
especificacin
lineal, que es la
hemos abordado
en el mdulo.

Adicionalmente podremos presentar la ecuacin que subyace este modelo lineal:

La opcin de presentar ecuacin en el


grafico implica mostrar el modelo estimado
junto a la lnea de tendencia.

Lo anterior corresponde a una aplicacin desde la perspectiva grfica, que sin embargo es muy til para
entender la idea de establecer relaciones a partir de dos variables que estn vinculadas a partir de una
relacin causal.

6.2 Anlisis de datos


Una vez entendida a partir de un ejemplo, en trminos grficos, el establecimiento de una relacin lineal
entre una variable independiente (publicidad) y una dependiente (ventas) podemos utilizar el complemento
de anlisis de datos que ya hemos usado en los mdulos previos.
rea: NEGOCIOS M3
Curso: ESTADSTICA APLICADA Pg. 26

Modelo de Regresin Lineal Simple


Lo anterior despliega el siguiente formulario:

Entrada de datos de las variables.


Este rango incluye el nombre de la
variable para facilitar su posterior
interpretacin.

El nivel de significancia del test es de


5% por defecto (equivalente a 95% de
confianza), pero se puede ajustar.

Lo anterior genera el siguiente resultado:

Los coeficientes calculados


corresponden a los parmetros de la
regresin o betas, ntese que son
iguales a los presentados en el grafico
en la seccin anterior.

Se presenta el estadstico t para cada


parmetro, el proceso de test de hiptesis
implica en este caso que le parmetro 1
es significativamente distinto de cero, lo
que implica que s existe una relacin
estadsticamente significativa entre
ambas variables en estudio.

Para cada parmetro se presenta el intervalo de confianza al 95% y al


porcentaje definido por defecto (que en este caso se mantuvo en
95%). Esto ayuda a entender cul es el rango de valores que toman los
parmetros.
rea: NEGOCIOS M3
Curso: ESTADSTICA APLICADA Pg. 27

Modelo de Regresin Lineal Simple


Ahora podemos interpretar el resultado de los parmetros:

0: El intercepto no tiene interpretacin econmica en este caso dado que nunca se ha dado un valor de
inversin cercano a cero y ciertamente un nivel de ventas negativo no tiene sentido. Luego este valor solo
sirve para participar en el ejercicio de proyeccin.

1: El parmetro asociado a la variable publicidad indica que por cada peso adicional de inversin publicitaria
podemos esperar un mayor nivel de ventas de $42.97 de ventas, esto es corresponde a la tasa de las ventas
respecto de la publicidad.

Finalmente, podemos proyectar un ejercicio hipottico: que pasara con las ventas si en el prximo periodo se
invierte 115 mil:


= 0 + 1


= 75.97 + 42.97

Ahora reemplazamos el valor hipottico de publicidad:


= 75.97 + 42.97115
= 4.865,6

Las ventas estimadas a un nivel de publicidad de 115(miles) es de 4.865 (miles).

Cierre
La tcnica de regresin lineal plantea una alternativa de clculo de parmetros a partir de una simple idea: la
optimizacin de los resultados del modelo a travs de encontrar aquel conjunto de parmetros que suponga
los mnimos niveles de errores de estimacin. La idea es simple y muy efectiva, nos permite establecer una
relacin entre dos variables que es interpretable y permite la prediccin de los valores de una variable en
funcin de valores hipotticos de otra variable.

Es importante tener en cuenta previo a la estimacin de modelos que siempre debe existir una base terica
que sustente la relacin a estimar, esto es, no basta que el precio de los tomates y el de los disfraces tengan
una correlacin positiva para estimar un modelo, debe existir una teora que nos fundamente no solo la
existencia de la relacin entre variables sino que adems deje muy clara la direccin de la causalidad, esto es,
que variable determina a que otra variable.

Una vez que ya estamos muy claros respecto de las variables que vamos a relacionar, debemos proceder a
revisar que los supuestos del modelo son razonablemente aplicables a nuestra situacin.
rea: NEGOCIOS M3
Curso: ESTADSTICA APLICADA Pg. 28

Modelo de Regresin Lineal Simple


El siguiente paso es la estimacin de los parmetros, como se aborda en el mdulo, incluso aplicaciones
como Excel ya tienen incorporadas funciones que permiten estimar los parmetros de forma muy rpida y
sencilla. Incluso Excel nos entrega la informacin para establecer el prximo paso que corresponde al test de
hiptesis de los parmetros que nos permite establecer rapidament5e si el parmetro estimado es o no
estadsticamente significativo.

Finalmente, una vez que nuestros parmetros han sido estimados y testeados, podemos proceder a la
interpretacin de los mismos y eventualmente al ejercicio de prediccin de la variable en estudio a partir de
valores hipotticos de la variable independiente. Este ltimo proceso es solo posible una vez calibrado un
modelo dado que un estudio o anlisis de correlacin no permite dicha simulacin. Este ltimo punto revela
la ventaja de este tipo de modelacin respecto del anlisis descriptivo de dos variables conjuntas.

Tener una
base Revisar que Realizar
Estimar y Interpretar
terica que los prediccin
testear los los
sustente la supuestos de la
parmetros parmetros
relacin a aplicables variable
estimar

La gran ventaja de los modelos de regresin es que a pesar de su simpleza son muy tiles para establecer
escenarios de variables y evaluar sus efectos. Adicionalmente los modelos de regresin son extremadamente
fciles de implementar tanto en Excel como en otros softwares estadsticos

APORTE A TU FORMACIN

El anlisis estadstico normalmente debe tener como objetivo el apoyo a la toma de decisiones, en este
sentido muchas veces el anlisis descriptivo de las variables no es suficiente, sino que es necesario
establecer con claridad una relacin cuantitativa que establezca el grado de causalidad entre las variables
de inters. En este sentido la aplicacin de modelos de regresin lineal es de gran uso en una gran
variedad de mbitos profesionales que van desde la investigacin farmacutica hasta la evaluacin de
campaas de marketing. La habilidad de llevar a cabo este tipo de anlisis corresponde a una
competencia laboral concreta que puede ser de gran ayuda en el desarrollo profesional.
rea: NEGOCIOS M3
Curso: ESTADSTICA APLICADA

Modelo de Regresin Lineal Simple


Bibliografa

Obligatoria
Lind, D. A., Marchal, W. G., & Wathen, S. A. (2005). Estadstica aplicada a los negocios y a la economa (12a.
ed.). Mxico, D.F., MX: McGraw-Hill Interamericana. Captulo 13.

Complementaria
Kazmier, L. J., & Daz, M. A. (1991). Estadstica aplicada a administracin y economa (2a. ed.). Mxico, D.F.,
MX: McGraw-Hill Interamericana. Captulo 14.

You might also like