You are on page 1of 44

Regresión Lineal simple

Dr. Edwin Johny Asnate Salazar


Objetivos de la sesión

Después de completar la sesión Ud. Sera


capaz de:
 Explicar el coeficiente de correlación y realizar una
prueba de hipótesis
 Obtener e interpretar un modelo de regresión lineal
simple para un conjunto de datos
 Describir el R2 como medida de la capacidad
explicativa del modelo de regresión
 Comprender los supuestos detrás de un análisis de
regresión
Análisis de correlación
 El análisis de Correlación se usa para medir la fuerza, sentido y
forma entre dos variables
 La fuerza extrema según el caso, mide el grado en que la línea
representa a la nube de puntos: si la nube es estrecha y alargada, se
representa por una línea recta, lo que indica que la relación es fuerte;
si la nube de puntos tiene una tendencia elíptica o circular, la
relación es débil.
 El sentido mide la variación de los valores de B con respecto a A: si
al crecer los valores de A lo hacen los de B, la relación es directa
(pendiente positiva); si al crecer los valores de A disminuyen los de
B, la relación es inversa (pendiente negativa).
 La forma establece el tipo de línea que define el mejor ajuste: la
línea recta, la curva monotónica o la curva no monotónica
Análisis de correlación
 El Coeficiente de correlación poblacional
se denota por ρ (la letra griega rho)
 El Coeficiente de correlación muestral es
s xy
r
sxsy
Donde

s xy 
 (x  x)(y  y)
i i

n 1
Prueba de hipótesis para Correlación

 Para probar la hipótesis nula de no asociación


lineal,
H0 : ρ  0
La estadística de prueba sigue la distribución t
Student con (n - 2) grados de libertad:

r (n  2)
t
(1 r ) 2
Reglas de Decisión
Prueba de hipótesis para la correlación

Cola Izquierda: Cola derecha: Ambas colas:


H0: ρ  0 H0: ρ ≤ 0 H0: ρ = 0
H1: ρ < 0 H1: ρ > 0 H1: ρ ≠ 0

a a a/2 a/2

-ta ta -ta/2 ta/2


Rechazar H0 si t < -tn-2, a Rechazar H0 si t > tn-2, a Rechazar H0 si t < -tn-2, a/2
ó t > tn-2, a/2
r (n  2)
Donde t  con n - 2 gl
(1 r )
2
Introducción al Análisis de
Regresión
 El análisis de Regresión se usa para:
 Predecir el valor de una variable dependiente basado
en el valor de al menos una variable independiente
 Explicar el impacto de los cambios en una variable
independiente sobre la variable dependiente
Variable dependiente (Y): Es la variable que deseamos
explicar (Variable endogena)
Variable Independiente (X): Es la variable utilizada para
explicar la variable dependiente
(Variable Exogena)
Modelo de Regresión Lineal

 La relación entre X e Y es descrito por una


función lineal
 Los cambios en Y se supone que es causada
por los cambios en X
 El modelo de regresión lineal poblacional es:

Yi  β0  β1xi  ε i

 Donde 0 y 1 son los coeficientes del


modelo y  es un término de error aleatorio.
Modelo de Regresión Lineal
El modelo de regresión de la población:
Término
Variable de error
Variable Independiente aleatorio
Dependiente

Yi  β0  β1Xi  ε i
Componente lineal Componente
aleatorio
Modelo de Regresión Lineal

Y Yi  β0  β1Xi  ε i
Valor Observado
de Y para Xi

εi Pediente = β1
Valor Error aleatorio
pronosticado
de Y para Xi para el valor de Xi

intercepto = β0

Xi X
Ecuación de la regresión
lineal simple
La ecuación de regression lineal simple proporciona una
estimación de la linea de regresión de la población

Valor estimado
Valor estimado
Valor estimado (o de la pendiente
del intercepto
predicho) y para de la regresión
de la regresión
la observación i
Valor de x

yˆ i  b0  b1xi para la
observación i

Los términos de error aleatorio individuales ei tienen media cero

ei  (yi - yˆ i )  yi - (b0  b1xi )


Estimadores de mínimos cuadrados

 b0 y b1 se obtienen mediante la busqueda de


los valores de b0 y b1 que minimicen la suma
de las diferencias al cuadrado entre y y ŷ :

min SSE  min  ei2

 min  (y i yˆ i )2

 min  [y i  (b0  b1x i )]2


Estimadores de mínimos cuadrados

 El estimador del coeficiente de la pendiente es


n

 (x  x)(y  y)
i i
sY
b1  i1
n
 rxy
 i
sX
(x  x) 2

i1

 Y la constante o intercepto es

b0  y  b1x

 La línea de regresión siempre pasa por la media x, y


Supuestos de la Regresión Lineal

 La relación es lineal (Y esta en función lineal de X, y tiene


error aleatorio)
 Los terminos de error, εi son independientes de los valores
de x
 Los términos de error son variables aleatorias con media 0 y
varianza constante, σ2
(la propiedad varianza constante se llama homocedasticidad)
E[ε i ]  0 and E[ε i ]  σ 2 for (i  1,  ,n)
2

 Los términos de error aleatorio, εi, no están correlacionados


entre sí, de modo que
E[ε iε j ]  0 for all i  j
Ejemplo
 Un agente de bienes raíces desea examinar la
relación entre el precio de venta de una casa y su
tamaño (medido en pies cuadrados)

 Se selecciona una muestra aleatoria de 10 casas


 Variable dependiente (Y) = precio de la vivienda
en miles de dolares
 Variable independiente (X) = tamaño (pies
cuadrados)
Precio de la vivienda Tamaño
(Y) (X)
245 1400
312 1600
279 1700
308 1875
199 1100
219 1550
405 2350
324 2450
319 1425
255 1700
Diagrama de Dispersión
Resultados

La ecuación de regresión es:


preciocasa  98.248  0.110 (tamaño)
Diagrama de Dispersión
 Modelo de precios de la vivienda: diagrama
de dispersión y recta de regresión

Pendiente
= 0.10977

Intercepto
= 98.248

preciocasa  98.248  0.110 (tamaño)


Medidas de Variación
Y
yi 
 2 y
SSE = (yi - yi )
_
SST = (yi - y)2

y  _2
_ SSR = (yi - y) _
y y

xi X
Medidas de Variación

 Variación total se compone de dos partes:


SST  SSR  SSE
Suma de Suma de cuadrados Suma de cuadrados
cuadrados totales debido a la Regresion de lo errores

SST   (y i  y)2 SSR   (yˆ i  y)2 SSE   (y i  yˆ i )2


Donde:
y = El valor medio de la variable dependiente
yi = Los valores observados de la variable dependiente
ŷ = Valor pronosticado de y para el valor x
i i
Coeficiente de Determinación, R2
 El coeficiente de determinación es la
proporción de la variación total en la variable
dependiente que se explica por la variación en
la variable independiente
 El coeficiente de determinación es tambien
llamado R-squared y es denotado por R2
SSR suma de cuadrados debido a la regresión
R 
2

SST suma de cuadrados totales
nota: 0 R 1
2
Casos de aproximación del
r2
Y
r2 = 1

Relación lineal perfecta entre


X e Y:
X
r2 = 1
Y El 100% de la variación en Y
se explica por la variación en
X

X
r2 =1
Casos de aproximación del
r2
Y
0 < r2 < 1

Relaciones lineales
débiles entre X e Y:
X
Algunos, pero no todas las
Y
variaciones en Y se explica
por la variación en X

X
Resultados

La ecuación de regresión es:


preciocasa  98.248  0.110 (tamaño)
Resultados
SSR 18934.935
R 
2
  0.581
SST 32600.500
El 58.1% de la variación de los
precios inmobiliarios se explica
por la variación del tamaño de
la vivienda
Estimación de la varianza de
los errores del modelo

 Un estimador de la varianza de los errores del modelo


de población es: n

 i
e
SSE
2

σˆ  s 
2 2
 i1
n2 n2
e

 Esta dibidido por n – 2 en lugar de n – 1 porque la regression lineal


simple usa dos parametros estimados, b0 y b1

El error estandar de los residuos es:

se  s2e
Resultados

s e  41.330
Comparando errores estandar de
las estimaciones
se Es una medida de la variación de los valores
de y observada desde la línea de regresión

Y Y

s e pequeño X s e grande X
Inferencias sobre el modelo de
regresión

 La varianza del coeficiente de la pendiente de


regresión (b1) esta estimado por:

2 2
s s
s2b  e
 e
1
 (xi  x) (n  1)s x
2 2

Donde:
s b1 = Estimación del error estandar de la pendiente

SSE
se  = Error estándar de la estimación
n2
Resultado
s b  0.033
1
Inferencia sobre la pendiente del modelo:
Estadístico t
 Prueba t para la pendiente poblacional
 ¿Existe una relación lineal entre X e Y?

H0: β1 = 0 (No hay una relación lineal)


H1: β1  0 (Existe relación lineal)
 Estadistico t

b1  β1
Donde:

t b1 = Pendiente de la regression
sb1 β1 = pendiente hipotética
sb1 = error estandar de la

g.l.  n  2 pendiente
Inferencia sobre la pendiente del modelo:
Estadístico t

Precio Tamaño
La ecuación de regresión es:
(y) (x)

245 1400 preciocasa  98.248  0.110 (tamaño)


312 1600
279 1700
308 1875 La pendiente del modelo es 0.110
199 1100
219 1550
¿El tamaño de la casa afecta a su
405 2350 precio de venta?
324 2450
319 1425
255 1700
Inferencia sobre la pendiente del modelo:
Estadístico t

b1 s b1
H0: β1 = 0 Resultado:
H1: β1  0

t
b1  β1 0.110  0
t   3.329
sb
1
0.033
Inferencia sobre la pendiente del modelo:
Estadístico t
Estadístico t: t = 3.329
b1 s b1 t
H0: β1 = 0 Resultado:
H1: β1  0

g.l. = 10-2 = 8
t8,.025 = 2.3060

a/2=.025 a/2=.025
Decision:
rechazar H0
Conclusion
Rechazar H0 No rechazar H0 Rechazar H0 Hay suficiente evidencia para afirmar
-tn-2,α/2 0 tn-2,α/2
-2.3060 2.3060 3.329
:que el tamaño de la vivienda afecta
precio de la vivienda
Inferencia sobre la pendiente del modelo:
Estadístico t
P-valor = 0.010 P-valor

H0: β1 = 0
H1: β1  0

Es una prueba de dos colas,


por lo que el valor de p es:
Decision: si P-valor < α
Entonces Rechazar H0
P(t > 3.329)+P(t < -3.329) Conclusion:
= 0.010 Hay suficiente evidencia para afirmar
(con 8 g.l.) que el tamaño de la vivienda afecta
precio de la vivienda
Intervalo de confianza para la
pendiente
Estimación del intervalo de confianza para le pendiente:
b1  t n2,α/2sb1  β1  b1  t n2,α/2sb1
g.l. = n - 2

Al 95% de nivel de confianza, el intervalo de confianza


para la pendiente es (0.034, 0.186)
Intervalo de confianza para la
pendiente

Dado que las unidades de la variable precio de la vivienda


es en miles de dolares, estamos seguros en un 95%, de
que el impacto promedio en el precio de venta es de entre
$34 y $186 por pie cuadrado de superficie de la casa.

Este intervalo de confianza no incluye el 0.


Conclusion: Existe una relación significativa entre el precio de la vivienda
y el tamaño en pies cuadrados con un nivel de significancia de 0.05
Prueba F de Significancia

 Estadistico F: MSR
F
MSE
donde SSR
MSR 
k
SSE
MSE 
n  k 1
donde F sigue una distribución F con k numerador y (n – k - 1)
denominador grados de libertad

(k = es el número de variables independientes en el modelo de regresión)


Resultado

MSR 18934.935
F   11.085
MSE 1708.196
Con 1 y 8 gl P-valor de
la prueba F
Prueba F de Significancia

H0: β0 = β1 = 0 Estadístico F:
H1: β0 ≠ β1 ≠ 0 MSR
F  11.08
a = 0.05 MSE
df1= 1 df2 = 8
Decision:
Critical Rechazar H0 con a = 0.05
Value:
Fa = 5.32
a = .05 Conclusion:
Existe suficiente evidencia de
0 F una relacion lineal con una
No rechazar H0 Rechazar H0
F.05 = 5.32
confianza de 95%
Predicción

 La ecuación de regresión se puede utilizar


para predecir un valor para y, dado un
determinado x
 Para una valor especificado, xn+1 , el valor
predicho es

yˆ n1  b0  b1xn1
Predicciones Usando
Análisis de regresión
Predecir el precio de una casa
con 2000 pies cuadrados:

preciocasa  98.25  0.1098 (tamaño)


 98.25  0.1098(200 0)
 317.85
El precio previsto para una casa con 2000
pies cuadrados es 317.85($1,000) = $317,850
Rango de datos relevantes
 Cuando se utiliza un modelo de regresión para la
predicción, solamente predecir dentro de la gama
de referencia de los datos
Rango relevante de los datos

Arriesgado intentar
extrapolar más allá del
rango de los valores de X’s
en la muestra

You might also like