Professional Documents
Culture Documents
SEMANA
Modelo de regresin Lineal Simple
Restaurante
i
1
2
3
4
5
6
7
8
9
10
Poblacin de
estudiantes (miles)
xi
Ventas trimestrales
(miles de dlares) yi
2
6
8
8
12
16
20
20
22
26
58
105
88
118
117
137
157
169
149
202
Diagrama de dispersin
El diagrama de dispersin permite observar grficamente los
datos y hacer conclusiones preliminares acerca de la relacin
posible entre las variables. El tamao de la poblacin de
estudiantes se representa en el eje horizontal y el valor de las
ventas trimestrales en el eje vertical. Los diagramas de
dispersin, para el anlisis de regresin, se forman con
valores de la variable independiente x en el eje horizontal, y
los de la variable dependiente y en el eje vertical.
Ventas
150
125
100
75
50
0
10
15
Estudiantes
20
25
Coeficiente de determinacin
Coeficiente de correlacin
El coeficiente de correlacin es una medida descriptiva de la
intensidad de la asociacin lineal entre dos variables, x y y.
Los valores del coeficiente de correlacin siempre estn entre
-1 y +1. Un valor de +1 indica que las dos variables, x y y,
tienen una relacin lineal positiva perfecta. Esto es, todos los
puntos de datos estn en una lnea recta con pendiente
positiva. Un valor de -1 indica que x y y tienen una relacin
lineal negativa perfecta, y que todos los puntos de datos estn
en una recta con pendiente negativa. Los valores del
coeficiente de correlacin cercanos a cero indican que x y y
no tienen relacin lineal.
Pruebas de significancia
Estadstico de prueba
Regla de rechazo
SEXTA SEMANA
Modelo de regresin Lineal Simple
Prueba F
Estadstico de prueba
Regla de rechazo
Estimacin puntual
Estimacin de intervalo
Las estimaciones puntuales no dan ninguna informacin de la
precisin asociada con la estimacin. Para este fin debemos
determinar estimaciones de intervalo. El primer tipo de
estimaciones de intervalo es la estimacin de intervalo de
confianza; es una estimacin de intervalo del valor medio de y
para determinado valor de x. El segundo tipo es la estimacin
de intervalo de prediccin, que se usa cuando deseamos una
estimacin de intervalo de un valor individual de y que
corresponde a determinado valor de x. La estimacin puntual
del valor medio de y es la misma que la correspondiente a un
valor individual de y. No obstante, son diferentes las
estimaciones de intervalo que obtenemos para estos dos casos.
Residual en la observacin i
En otras palabras, el i-simo residual es el error debido al uso de la ecuacin de
regresin para predecir el valor de yi. Los residuales en el ejemplo de Pizzeras
Armand se calculan en la siguiente tabla.
Residuo
10
-10
-20
0
10
15
Poblacin
20
25
Concluimos que la grfica de residuales no muestra evidencia de que se debe dudar de los
supuestos sobre los que se bas el modelo de regresin para Pezzeras Armand. Hasta ahora
confiamos en la conclusin de que es vlido el modelo de regresin lineal simple. Esto se puede
apreciar en la parte A de las grficas obtenidas en otros estudios.
La experiencia y el buen juicio son factores que facilitan la interpretacin de las grficas de
residuales. Casi nunca una grfica de residuales se apega exactamente a uno de los patrones
que presentamos a continuacin. Sin embargo, los analistas dedicados a estudios de
regresin, que revisan con frecuencia grficas de residuales, tienen mucha destreza para
captar las diferencias entre comportamientos razonables y patrones que indican que es
conveniente cuestionar los supuestos del modelo.
Residuos estandarizados
Muchas de las grficas de residuales que se obtienen con los programas de cmputo trabajan con
una versin estandarizada de los residuales. Con el mtodo de los cuadrados mnimos, el promedio
de los residuales es cero. As, tan slo con dividir cada residual entre su desviacin estndar se
obtiene el residual estandarizado.
siendo,
Una vez calculada la desviacin estndar de cada residual, se puede calcular el residual
estandarizado dividindolo entre su desviacin estndar.
SRES1
0.5
0.0
-0.5
-1.0
-1.5
-2.0
0
10
15
Poblacin
20
25
Conjunto de datos
Las observaciones influyentes debidas a una interaccin de grandes residuales y gran influencia
son difciles de detectar. Se cuenta con procedimientos de diagnsticos que consideran ambas
cosas para determinar cundo una observacin es influyente. Una de estas medidas, llamado
estadstico D de Cook, lo veremos ms adelante cuando se vea la regresin mltiple.