You are on page 1of 60

QUINTA

SEMANA
Modelo de regresin Lineal Simple

Caso: Pizzeras Armand


Cadena de restaurantes de comida italiana que abarca cinco
estados. Los lugares donde sus establecimientos han tenido
ms xito estn cercanos a establecimientos de educacin
superior. Los administradores creen que las ventas en esos
restaurantes (representada por y), se relacionan en forma
positiva con la poblacin estudiantil (representada por x).
Esto es, que los restaurantes cercanos a centros escolares con
gran poblacin tienden a generar ms ventas que los que
estn cerca de centros con poblacin pequea. Aplicando el
anlisis de regresin podremos plantear una ecuacin que
muestre cmo se relaciona la variable dependiente y con la
variable independiente x.

Modelo de regresin y ecuacin de regresin


En el ejemplo de Pezzeras Armand, cada restaurante est asociado con un
valor de x (poblacin estudiantil) y un valor correspondiente de y (ventas
trimestrales). La ecuacin que describe cmo se relaciona y con x y con un
trmino de error se llama modelo de regresin.

Modelo de regresin lineal simple

Ecuacin de regresin lineal simple

Ecuacin de regresin estimada

En la regresin lineal simple, la ecuacin de regresin se


escribe en la siguiente forma:

Mtodo de cuadrados mnimos


El mtodo de cuadrados mnimos es un procedimiento para
encontrar la ecuacin de regresin estimada usando datos de
una muestra. Para ilustrarlo en el ejemplo de Pizzeras
Armand, suponga que se reunieron datos de una muestra de
10 restaurantes ubicados cerca de centros educativos. Para la
i-sima observacin o restaurante de la muestra, xi es el
tamao de la poblacin estudiantil, en miles, y yi son las
ventas trimestrales (en miles de dlares). Los valores de xi y
yi para los 10 restaurantes de la muestra se resumen en la
siguiente tabla:

Restaurante
i
1
2
3
4
5
6
7
8
9
10

Poblacin de
estudiantes (miles)
xi

Ventas trimestrales
(miles de dlares) yi

2
6
8
8
12
16
20
20
22
26

58
105
88
118
117
137
157
169
149
202

En la tabla, vemos que el restaurante 1, con x1 = 2 y y1 = 58 est cerca de un centro


con 2000 estudiantes y sus ventas trimestrales son de 58 000 dlares. El restaurante
2, con x2 = 6 y y2 = 105 est cerca de un centro con 6 000 estudiantes y sus ventas
trimestrales son de 105 000 dlares. El valor mximo de ventas es para el restaurante
10, que est cerca de un centro con 26 000 estudiantes y sus ventas trimestrales son
de 202 000 dlares.

Diagrama de dispersin
El diagrama de dispersin permite observar grficamente los
datos y hacer conclusiones preliminares acerca de la relacin
posible entre las variables. El tamao de la poblacin de
estudiantes se representa en el eje horizontal y el valor de las
ventas trimestrales en el eje vertical. Los diagramas de
dispersin, para el anlisis de regresin, se forman con
valores de la variable independiente x en el eje horizontal, y
los de la variable dependiente y en el eje vertical.

La siguiente figura muestra el diagrama de dispersin de los datos


de Pizzeras Armand.
Diagrama de dispersin de Pizzeras Armand
200
175

Ventas

150
125
100
75
50
0

10

15
Estudiantes

20

25

Para el i-simo restaurante, la ecuacin de regresin estimada es:

Pendiente e intercepcin y para la ecuacin de


regresin estimada

La ecuacin de regresin estimada, deducida con el mtodo de los cuadrados


mnimos es:

La pendiente de la ecuacin de regresin (b1 = 5) es positiva, lo cual


implica que al aumentar la poblacin de estudiantes, las ventas tambin
aumentan. De hecho, podemos llegar a la conclusin (ya que las ventas
se miden en miles de dlares y la poblacin en miles de estudiantes) que
un aumento de 1 000 estudiantes en la poblacin est asociado con un
aumento de 5 000 dlares en las ventas esperadas; esto es, se espera que
las ventas aumenten en 5.00 dlares por estudiante.
Si creemos que la ecuacin de regresin estimada con cuadrados
mnimos describe en forma adecuada la relacin entre x y y, parece
razonable usarla para predecir el valor de y para determinado valor de x.

Por ejemplo, si quisiramos predecir las ventas en un restaurante


ubicado cerca de un centro con 16 000 estudiantes, el resultado
sera,

En consecuencia, predeciramos ventas trimestrales de 140


000 dlares para este restaurante.

Coeficiente de determinacin

Coeficiente de correlacin
El coeficiente de correlacin es una medida descriptiva de la
intensidad de la asociacin lineal entre dos variables, x y y.
Los valores del coeficiente de correlacin siempre estn entre
-1 y +1. Un valor de +1 indica que las dos variables, x y y,
tienen una relacin lineal positiva perfecta. Esto es, todos los
puntos de datos estn en una lnea recta con pendiente
positiva. Un valor de -1 indica que x y y tienen una relacin
lineal negativa perfecta, y que todos los puntos de datos estn
en una recta con pendiente negativa. Los valores del
coeficiente de correlacin cercanos a cero indican que x y y
no tienen relacin lineal.

Si ya se ha hecho un anlisis de regresin y se ha


calculado el coeficiente de determinacin r2, el
coeficiente de correlacin de la muestra se puede calcular
como sigue:

El signo del coeficiente de correlacin es positivo si la


ecuacin de regresin tiene pendiente positiva (b1 >0) y
negativo si la ecuacin de regresin tiene pendiente
negativa (b1 < 0). Para nuestro ejemplo, como la pendiente
de la ecuacin de regresin es positiva, el coeficiente de
correlacin es:

Concluimos que, con un coeficiente de correlacin de la


muestra rxy =+0.9501, hay una fuerte asociacin lineal
positiva entre x y y.
Aunque el coeficiente de correlacin se restringe a una
relacin lineal entre dos variables, el coeficiente de
determinacin se puede emplear en relaciones no
lineales y en relaciones que tengan dos o ms variables
independientes. En este sentido, el coeficiente de
determinacin tiene una aplicabilidad ms amplia.

Pruebas de significancia

Para el ejemplo de Pizzeras Armand, se tiene:

Error estndar de la estimacin

Prueba t de significancia en la regresin lineal simple

Estadstico de prueba

Regla de rechazo

Desviacin estndar estimada de b1

Para nuestro ejemplo, se tiene:

como desviacin estndar estimada de b1.

SEXTA SEMANA
Modelo de regresin Lineal Simple

Al usar la prueba t de significancia, las hiptesis probadas fueron:

Prueba F

Prueba F de la significancia en la regresin lineal simple

Estadstico de prueba

Regla de rechazo

Hagamos la prueba F para nuestro ejemplo.

Forma general de la tabla de anlisis de varianza para regresin lineal simple

Uso de la ecuacin de regresin para evaluar y predecir


El modelo de regresin lineal simple es un supuesto acerca de la relacin entre x y y.
Al usar el mtodo de los cuadrados mnimos obtuvimos la ecuacin de regresin
lineal simple. Si los resultados tienen una relacin estadsticamente significativa
entre x y y, y si el ajuste que proporciona la ecuacin de regresin parece bueno, esa
ecuacin podra usarse para estimaciones y predicciones.

Estimacin puntual

Estimacin de intervalo
Las estimaciones puntuales no dan ninguna informacin de la
precisin asociada con la estimacin. Para este fin debemos
determinar estimaciones de intervalo. El primer tipo de
estimaciones de intervalo es la estimacin de intervalo de
confianza; es una estimacin de intervalo del valor medio de y
para determinado valor de x. El segundo tipo es la estimacin
de intervalo de prediccin, que se usa cuando deseamos una
estimacin de intervalo de un valor individual de y que
corresponde a determinado valor de x. La estimacin puntual
del valor medio de y es la misma que la correspondiente a un
valor individual de y. No obstante, son diferentes las
estimaciones de intervalo que obtenemos para estos dos casos.

Estimacin del intervalo de confianza del valor medio de y

La ecuacin de regresin determina una estimacin puntual del valor medio de y


para determinado valor de x. Al describir el procedimiento de estimacin del
intervalo de confianza usaremos la siguiente notacin:

Estimacin del intervalo de prediccin de un valor individual de y

Para nuestro ejemplo, la desviacin estndar estimada que corresponde a la prediccin


de ventas para determinado restaurante cercano a un centro con 10 000 estudiantes se
calcula como sigue:

Estimacin de intervalo de prediccin de yp

Anlisis de residuales: validacin de los supuestos del modelo

Residual en la observacin i
En otras palabras, el i-simo residual es el error debido al uso de la ecuacin de
regresin para predecir el valor de yi. Los residuales en el ejemplo de Pizzeras
Armand se calculan en la siguiente tabla.

Grfica de residuales en funcin de x


Esta es una grfica de residuales en la que los valores de la variable independiente se representan
en el eje horizontal y los valores de los residuos correspondientes en el eje vertical. La grfica
para nuestro ejemplo, sera:
Grfica de residuales en funcin de x
20

Residuo

10

-10

-20
0

10

15
Poblacin

20

25

Concluimos que la grfica de residuales no muestra evidencia de que se debe dudar de los
supuestos sobre los que se bas el modelo de regresin para Pezzeras Armand. Hasta ahora
confiamos en la conclusin de que es vlido el modelo de regresin lineal simple. Esto se puede
apreciar en la parte A de las grficas obtenidas en otros estudios.

La experiencia y el buen juicio son factores que facilitan la interpretacin de las grficas de
residuales. Casi nunca una grfica de residuales se apega exactamente a uno de los patrones
que presentamos a continuacin. Sin embargo, los analistas dedicados a estudios de
regresin, que revisan con frecuencia grficas de residuales, tienen mucha destreza para
captar las diferencias entre comportamientos razonables y patrones que indican que es
conveniente cuestionar los supuestos del modelo.

Grficas de residuales obtenidas en tres estudios de regresin

Residuos estandarizados
Muchas de las grficas de residuales que se obtienen con los programas de cmputo trabajan con
una versin estandarizada de los residuales. Con el mtodo de los cuadrados mnimos, el promedio
de los residuales es cero. As, tan slo con dividir cada residual entre su desviacin estndar se
obtiene el residual estandarizado.

Desviacin estndar del i-simo residual

siendo,

Una vez calculada la desviacin estndar de cada residual, se puede calcular el residual
estandarizado dividindolo entre su desviacin estndar.

Residual estandarizado para la observacin i

As, al trabajar en una grfica de residuales estandarizados cabe esperar que,


aproximadamente, 95% de los residuales estandarizados estn entre -2 y +2.
A continuacin presentamos la grfica de residuales estandarizados en funcin de la
variable independiente x, para nuestro ejemplo.

Grfica de residuales estandarizados en funcin de la variable x


1.5
1.0

SRES1

0.5
0.0
-0.5
-1.0
-1.5
-2.0
0

10

15
Poblacin

20

25

Anlisis de residuales: valores atpicos y observaciones influyentes


Describiremos cmo se puede aplicar el anlisis de residuales para identificar observaciones que
se pueden clasificar como valores atpicos, o que tengan una influencia especialmente grande para
determinar la ecuacin estimada de regresin. Describiremos algunas medidas que se deben tomar
cuando se hayan encontrado esas observaciones.

Deteccin de valores atpicos


Un valor atpico es un punto (observacin) que no se ajusta a la tendencia que muestran los datos
restantes. Los valores atpicos representan observaciones de alguna manera sospechosas, que
requieren un examen cuidadoso. Pueden representar datos errneos; en este caso, se deben
corregir los datos. Pueden evidenciar una violacin de los supuestos del modelo; en este caso se
debe tener en cuenta otro modelo. Por ltimo, simplemente pueden ser valores poco usuales que
han sucedido por casualidad. En este caso se deben conservar.
Para ilustrar el proceso de deteccin de valores atpicos revisaremos el conjunto de datos que se
presentan en la siguiente tabla:

Conjunto de datos

En el diagrama de dispersin, vemos que excepto por la observacin 4 (x4 = 3, y4 = 75), se


aprecia una tendencia que sugiere una relacin lineal negativa. En realidad, dada la tendencia del
resto de los datos, cabra esperar que y4 fuera mucho menor y, por consiguiente, esa observacin
es un valor atpico. Para el caso de la regresin lineal simple se pueden detectar los valores
atpicos, con frecuencia, tan slo examinando el diagrama de dispersin.
Tambin se pueden usar los residuales estandarizados para identificar los valores atpicos. Si una
observacin se desva mucho de la tendencia del resto de los datos, el residual estandarizado
correspondiente tendr valor absoluto grande. Muchos paquetes de cmputo identifican
observaciones cuyos residuales estandarizados tiene valor absoluto grande.

Deteccin de observaciones influyentes


Algunas veces, una o ms observaciones tienen una gran influencia sobre los
resultados obtenidos. Las observaciones influyentes se pueden identificar en un
diagrama de dispersin cuando slo hay una variable independiente. Una
observacin influyente tambin puede ser un valor atpico (observacin con un valor
de y que se desva mucho de la tendencia), puede corresponder a un valor de x muy
alejado de su promedio, o bien, puede ser causada por una combinacin de los dos
casos (un valor de y algo fuera de la tendencia y un valor de x algo extremo).
Como las observaciones influyentes tienen un efecto tan grande sobre la ecuacin de
regresin, se deben revisar con cuidado. Primero se comprueba que no se haya
cometido un error al recopilar o registrar los datos. Si se ha cometido un error se
puede corregir y formarse una nueva ecuacin de regresin. Si la observacin es
vlida, consideramos que es una fortuna contar con ella. Ese punto, si es vlido,
puede contribuir a una mejor comprensin del modelo adecuado y conducir a una
mejor ecuacin de regresin. La presencia de la observacin influyente, en caso de
ser vlida, sugerira tratar de obtener datos con valores intermedios de x para
comprender mejor la relacin entre x y y.

Las observaciones con valores extremos de la variable independiente se llaman puntos de


, mayo ser la influencia de la observacin i.
influencia. La influencia de una
observacin se determina por lo alejado que se encuentra el
valor de la variable independiente respecto al valor promedio. Para el caso de una sola variable
independiente, la influencia de la i-sima observacin, representada por hi, se puede calcular
con la ecuacin:

Veamos los datos de la siguiente tabla:

En el diagrama de dispersin del conjunto de datos de la tabla, vemos claramente que


la observacin 7 (x =70, y = 100) tiene un valor extremo de x. En consecuencia,
esperamos que sea identificado como un punto de alta influencia. Para esta
observacin, la influencia se calcula:

Las observaciones influyentes debidas a una interaccin de grandes residuales y gran influencia
son difciles de detectar. Se cuenta con procedimientos de diagnsticos que consideran ambas
cosas para determinar cundo una observacin es influyente. Una de estas medidas, llamado
estadstico D de Cook, lo veremos ms adelante cuando se vea la regresin mltiple.

You might also like