1 Regresion Lineal Simple

Regresión Lineal simple
Dr. Edwin Johny Asnate Salazar

Objetivos de la sesión
Después de completar la sesión Ud. Sera

capaz de:
 Explicar el coeficiente de correlación y realizar una
prueba de hipótesis
 Obtener e interpretar un modelo de regresión lineal
simple para un conjunto de datos
 Describir el R2 como medida de la capacidad
explicativa del modelo de regresión
 Comprender los supuestos detrás de un análisis de
regresión
Análisis de correlación
 El análisis de Correlación se usa para medir la fuerza, sentido y
forma entre dos variables
 La fuerza extrema según el caso, mide el grado en que la línea
representa a la nube de puntos: si la nube es estrecha y alargada, se
representa por una línea recta, lo que indica que la relación es fuerte;
si la nube de puntos tiene una tendencia elíptica o circular, la
relación es débil.
 El sentido mide la variación de los valores de B con respecto a A: si
al crecer los valores de A lo hacen los de B, la relación es directa
(pendiente positiva); si al crecer los valores de A disminuyen los de
B, la relación es inversa (pendiente negativa).
 La forma establece el tipo de línea que define el mejor ajuste: la
línea recta, la curva monotónica o la curva no monotónica
Análisis de correlación
 El Coeficiente de correlación poblacional
se denota por ρ (la letra griega rho)
 El Coeficiente de correlación muestral es
s xy
r
sxsy
Donde
s xy 
 (x  x)(y  y)
i i
n 1
Prueba de hipótesis para Correlación
 Para probar la hipótesis nula de no asociación

lineal,
H0 : ρ  0
La estadística de prueba sigue la distribución t
Student con (n - 2) grados de libertad:
r (n  2)
t
(1 r ) 2
Reglas de Decisión
Prueba de hipótesis para la correlación
Cola Izquierda: Cola derecha: Ambas colas:

H0: ρ  0 H0: ρ ≤ 0 H0: ρ = 0
H1: ρ < 0 H1: ρ > 0 H1: ρ ≠ 0
a a a/2 a/2
-ta ta -ta/2 ta/2

Rechazar H0 si t < -tn-2, a Rechazar H0 si t > tn-2, a Rechazar H0 si t < -tn-2, a/2
ó t > tn-2, a/2
r (n  2)
Donde t  con n - 2 gl
(1 r )
2
Introducción al Análisis de
Regresión
 El análisis de Regresión se usa para:
 Predecir el valor de una variable dependiente basado
en el valor de al menos una variable independiente
 Explicar el impacto de los cambios en una variable
independiente sobre la variable dependiente
Variable dependiente (Y): Es la variable que deseamos
explicar (Variable endogena)
Variable Independiente (X): Es la variable utilizada para
explicar la variable dependiente
(Variable Exogena)
Modelo de Regresión Lineal
 La relación entre X e Y es descrito por una

función lineal
 Los cambios en Y se supone que es causada
por los cambios en X
 El modelo de regresión lineal poblacional es:
Yi  β0  β1xi  ε i
 Donde 0 y 1 son los coeficientes del

modelo y  es un término de error aleatorio.
El modelo de regresión de la población:
Término
Variable de error
Variable Independiente aleatorio
Dependiente
Yi  β0  β1Xi  ε i
Componente lineal Componente
aleatorio
Y Yi  β0  β1Xi  ε i
Valor Observado
de Y para Xi
εi Pediente = β1
Valor Error aleatorio
pronosticado
de Y para Xi para el valor de Xi
intercepto = β0
Xi X
Ecuación de la regresión
lineal simple
La ecuación de regression lineal simple proporciona una
estimación de la linea de regresión de la población
Valor estimado
Valor estimado
Valor estimado (o de la pendiente
del intercepto
predicho) y para de la regresión
de la regresión
la observación i
Valor de x
yˆ i  b0  b1xi para la
observación i
Los términos de error aleatorio individuales ei tienen media cero
ei  (yi - yˆ i )  yi - (b0  b1xi )

Estimadores de mínimos cuadrados
 b0 y b1 se obtienen mediante la busqueda de

los valores de b0 y b1 que minimicen la suma
de las diferencias al cuadrado entre y y ŷ :
min SSE  min  ei2
 min  (y i yˆ i )2
 min  [y i  (b0  b1x i )]2

Estimadores de mínimos cuadrados
 El estimador del coeficiente de la pendiente es

n
 (x  x)(y  y)
i i
sY
b1  i1
n
 rxy
 i
sX
(x  x) 2
i1
 Y la constante o intercepto es
b0  y  b1x
 La línea de regresión siempre pasa por la media x, y

Supuestos de la Regresión Lineal
 La relación es lineal (Y esta en función lineal de X, y tiene

error aleatorio)
 Los terminos de error, εi son independientes de los valores
de x
 Los términos de error son variables aleatorias con media 0 y
varianza constante, σ2
(la propiedad varianza constante se llama homocedasticidad)
E[ε i ]  0 and E[ε i ]  σ 2 for (i  1,  ,n)
2
 Los términos de error aleatorio, εi, no están correlacionados

entre sí, de modo que
E[ε iε j ]  0 for all i  j
Ejemplo
 Un agente de bienes raíces desea examinar la
relación entre el precio de venta de una casa y su
tamaño (medido en pies cuadrados)
 Se selecciona una muestra aleatoria de 10 casas

 Variable dependiente (Y) = precio de la vivienda
en miles de dolares
 Variable independiente (X) = tamaño (pies
cuadrados)
Precio de la vivienda Tamaño
(Y) (X)
245 1400
312 1600
279 1700
308 1875
199 1100
219 1550
405 2350
324 2450
319 1425
255 1700
Diagrama de Dispersión
Resultados
La ecuación de regresión es:

preciocasa  98.248  0.110 (tamaño)
Diagrama de Dispersión
 Modelo de precios de la vivienda: diagrama
de dispersión y recta de regresión
Pendiente
= 0.10977
Intercepto
= 98.248

Medidas de Variación
Y
yi 
 2 y
SSE = (yi - yi )
_
SST = (yi - y)2

y  _2
_ SSR = (yi - y) _
y y
xi X
Medidas de Variación
 Variación total se compone de dos partes:

SST  SSR  SSE
Suma de Suma de cuadrados Suma de cuadrados
cuadrados totales debido a la Regresion de lo errores
SST   (y i  y)2 SSR   (yˆ i  y)2 SSE   (y i  yˆ i )2

Donde:
y = El valor medio de la variable dependiente
yi = Los valores observados de la variable dependiente
ŷ = Valor pronosticado de y para el valor x
i i
Coeficiente de Determinación, R2
 El coeficiente de determinación es la
proporción de la variación total en la variable
dependiente que se explica por la variación en
la variable independiente
 El coeficiente de determinación es tambien
llamado R-squared y es denotado por R2
SSR suma de cuadrados debido a la regresión
R 
2

SST suma de cuadrados totales
nota: 0 R 1
2
Casos de aproximación del
r2
Y
r2 = 1
Relación lineal perfecta entre

X e Y:
X
r2 = 1
Y El 100% de la variación en Y
se explica por la variación en
X
X
r2 =1
Casos de aproximación del
r2
Y
0 < r2 < 1
Relaciones lineales
débiles entre X e Y:
X
Algunos, pero no todas las
Y
variaciones en Y se explica
por la variación en X
X
Resultados

Resultados
SSR 18934.935
R 
2
  0.581
SST 32600.500
El 58.1% de la variación de los
precios inmobiliarios se explica
por la variación del tamaño de
la vivienda
Estimación de la varianza de
los errores del modelo
 Un estimador de la varianza de los errores del modelo

de población es: n
 i
e
SSE
2
σˆ  s 
2 2
 i1
n2 n2
e
 Esta dibidido por n – 2 en lugar de n – 1 porque la regression lineal

simple usa dos parametros estimados, b0 y b1
El error estandar de los residuos es:
se  s2e
Resultados
s e  41.330
Comparando errores estandar de
las estimaciones
se Es una medida de la variación de los valores
de y observada desde la línea de regresión
Y Y
s e pequeño X s e grande X
Inferencias sobre el modelo de
regresión
 La varianza del coeficiente de la pendiente de

regresión (b1) esta estimado por:
2 2
s s
s2b  e
 e
1
 (xi  x) (n  1)s x
2 2
Donde:
s b1 = Estimación del error estandar de la pendiente
SSE
se  = Error estándar de la estimación
n2
Resultado
s b  0.033
1
Inferencia sobre la pendiente del modelo:
Estadístico t
 Prueba t para la pendiente poblacional
 ¿Existe una relación lineal entre X e Y?
H0: β1 = 0 (No hay una relación lineal)

H1: β1  0 (Existe relación lineal)
 Estadistico t
b1  β1
Donde:
t b1 = Pendiente de la regression
sb1 β1 = pendiente hipotética
sb1 = error estandar de la
g.l.  n  2 pendiente
Estadístico t
Precio Tamaño
(y) (x)
245 1400 preciocasa  98.248  0.110 (tamaño)

312 1600
279 1700
308 1875 La pendiente del modelo es 0.110
199 1100
219 1550
¿El tamaño de la casa afecta a su
405 2350 precio de venta?
324 2450
319 1425
255 1700
Estadístico t
b1 s b1
H0: β1 = 0 Resultado:
H1: β1  0
t
b1  β1 0.110  0
t   3.329
sb
1
0.033
Estadístico t
Estadístico t: t = 3.329
b1 s b1 t
H0: β1 = 0 Resultado:
H1: β1  0
g.l. = 10-2 = 8
t8,.025 = 2.3060
a/2=.025 a/2=.025
Decision:
rechazar H0
Conclusion
Rechazar H0 No rechazar H0 Rechazar H0 Hay suficiente evidencia para afirmar
-tn-2,α/2 0 tn-2,α/2
-2.3060 2.3060 3.329
:que el tamaño de la vivienda afecta
precio de la vivienda
Estadístico t
P-valor = 0.010 P-valor
H0: β1 = 0
H1: β1  0
Es una prueba de dos colas,

por lo que el valor de p es:
Decision: si P-valor < α
Entonces Rechazar H0
P(t > 3.329)+P(t < -3.329) Conclusion:
= 0.010 Hay suficiente evidencia para afirmar
(con 8 g.l.) que el tamaño de la vivienda afecta
precio de la vivienda
Intervalo de confianza para la
pendiente
Estimación del intervalo de confianza para le pendiente:
b1  t n2,α/2sb1  β1  b1  t n2,α/2sb1
g.l. = n - 2
Al 95% de nivel de confianza, el intervalo de confianza

para la pendiente es (0.034, 0.186)
Intervalo de confianza para la
pendiente
Dado que las unidades de la variable precio de la vivienda

es en miles de dolares, estamos seguros en un 95%, de
que el impacto promedio en el precio de venta es de entre
$34 y $186 por pie cuadrado de superficie de la casa.
Este intervalo de confianza no incluye el 0.

Conclusion: Existe una relación significativa entre el precio de la vivienda
y el tamaño en pies cuadrados con un nivel de significancia de 0.05
Prueba F de Significancia
 Estadistico F: MSR
F
MSE
donde SSR
MSR 
k
SSE
MSE 
n  k 1
donde F sigue una distribución F con k numerador y (n – k - 1)
denominador grados de libertad
(k = es el número de variables independientes en el modelo de regresión)

Resultado
MSR 18934.935
F   11.085
MSE 1708.196
Con 1 y 8 gl P-valor de
la prueba F
Prueba F de Significancia
H0: β0 = β1 = 0 Estadístico F:
H1: β0 ≠ β1 ≠ 0 MSR
F  11.08
a = 0.05 MSE
df1= 1 df2 = 8
Decision:
Critical Rechazar H0 con a = 0.05
Value:
Fa = 5.32
a = .05 Conclusion:
Existe suficiente evidencia de
0 F una relacion lineal con una
No rechazar H0 Rechazar H0
F.05 = 5.32
confianza de 95%
Predicción
 La ecuación de regresión se puede utilizar

para predecir un valor para y, dado un
determinado x
 Para una valor especificado, xn+1 , el valor
predicho es
yˆ n1  b0  b1xn1
Predicciones Usando
Análisis de regresión
Predecir el precio de una casa
con 2000 pies cuadrados:

 98.25  0.1098(200 0)
 317.85
El precio previsto para una casa con 2000
pies cuadrados es 317.85($1,000) = $317,850
Rango de datos relevantes
 Cuando se utiliza un modelo de regresión para la
predicción, solamente predecir dentro de la gama
de referencia de los datos
Rango relevante de los datos
Arriesgado intentar
extrapolar más allá del
rango de los valores de X’s
en la muestra

1 Regresion Lineal Simple

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

1 Regresion Lineal Simple

Uploaded by

Copyright:

Available Formats

Regresión Lineal simple

Dr. Edwin Johny Asnate Salazar

Después de completar la sesión Ud. Sera

 Para probar la hipótesis nula de no asociación

Cola Izquierda: Cola derecha: Ambas colas:

-ta ta -ta/2 ta/2

 La relación entre X e Y es descrito por una

 Donde 0 y 1 son los coeficientes del

Los términos de error aleatorio individuales ei tienen media cero

ei  (yi - yˆ i )  yi - (b0  b1xi )

 b0 y b1 se obtienen mediante la busqueda de

min SSE  min  ei2

 min  [y i  (b0  b1x i )]2

 El estimador del coeficiente de la pendiente es

 La línea de regresión siempre pasa por la media x, y

 La relación es lineal (Y esta en función lineal de X, y tiene

 Los términos de error aleatorio, εi, no están correlacionados

 Se selecciona una muestra aleatoria de 10 casas

La ecuación de regresión es:

preciocasa  98.248  0.110 (tamaño)

 Variación total se compone de dos partes:

SST   (y i  y)2 SSR   (yˆ i  y)2 SSE   (y i  yˆ i )2

Relación lineal perfecta entre

La ecuación de regresión es:

 Un estimador de la varianza de los errores del modelo

 Esta dibidido por n – 2 en lugar de n – 1 porque la regression lineal

El error estandar de los residuos es:

 La varianza del coeficiente de la pendiente de

H0: β1 = 0 (No hay una relación lineal)

245 1400 preciocasa  98.248  0.110 (tamaño)

Es una prueba de dos colas,

Al 95% de nivel de confianza, el intervalo de confianza

Dado que las unidades de la variable precio de la vivienda

Este intervalo de confianza no incluye el 0.

(k = es el número de variables independientes en el modelo de regresión)

 La ecuación de regresión se puede utilizar

preciocasa  98.25  0.1098 (tamaño)

You might also like