Análisis de Regresión Lineal Múltiple

ANÁLISIS DE REGRESIÓN
LINEAL MÚLTIPLE
LOGROS
Al finalizar el tema el alumno logrará:

• Formular modelos de regresión lineal
múltiple usando variables dentro del
contexto de su especialidad
• Evaluar los supuestos del modelo de
regresión lineal múltiple
• Realizar el análisis de la muticolinealidad
• Aplicar criterios para seleccionar y validar
el mejor modelo de regresión lineal
• Predecir valores para la variable
dependiente
Introducción
¿De que dependerá el Valor Comercial (Precio de
Venta) de una propiedad Inmueble?
¿Del área Total?
¿De la ubicación?
¿De La antigüedad de la construcción?
¿De los acabados de construcción?
¿De las instalaciones como calefacción, aire
acondicionado?
¿Y?
¿Cómo relacionaremos
estas variables?
Introducción
Para relacionar estas variables podemos utilizar un
modelo de regresión lineal múltiple.
Variable dependiente:
Y = Valor Comercial (Valuación) de una propiedad
Inmueble (Miles de dólares)
Variables independientes:
X1 = Área con Calefacción (miles de pie2 )
X2 = Antigüedad (años)
X3 = Tamaño del Lote (miles de pie2 )
El modelo de regresión lineal múltiple
Considerando “p” variables predictoras, el modelo de
regresión múltiple se expresa por:
y   0  1 x1   2 x2   3 x3  ...   p x p  
Donde:
y Es la variable dependiente que se
quiere predecir.
 0 , 1 ,...,  p Son parámetros. Son los coeficientes
de regresión.
x1 , x2 ,..., x p Son las variables independientes que
se miden sin error.
 Es el error o residual. Es una variable
aleatoria.
Prueba de supuestos
• Normalidad de los errores. (Prueba de K-S)
H 0 : Los errores tiene distribuci ón normal
• Independencia de los errores. (Prueba Durbin-
Watson)
H 0 : Los errores no están autocorrel acionados
• Multicolinealidad entre variables explicativas.
 rX Y
 i
Si : rX i X j   No existe multicolin ealidad entre X i y X j


rX jY
La correlación entre dos variables predictoras debe
ser menor, a la correlación de la variable dependiente
con cada una estas variables predictoras.
Modelo de regresión estimado
yˆ  ˆ0  ˆ1 x1  ˆ2 x2  ...  ˆ p x p

Un coeficiente de regresión estimado,
mide el cambio promedio en la variable
dependiente debido a un incremento de una
unidad en la variable predictora,
manteniendo constantes las otras
variables predictoras.
Medidas de bondad de ajuste
El error estándar de la estimación
SCE
Se   CME
n p
Coeficiente de determinación múltiple (R2)
SCR
R  2
SCT
Coeficiente de determinación ajustado
 n 1 
R corregido  1  (1  R ) 
2 2

n  p
Se usa para seleccionar el mejor modelo
Pruebas de hipótesis
• Prueba conjunta.
El estadístico de prueba es:
H o : 1   2  ...   k  0 CMR
F ~ F[ alfa, gl ( regr), gl (error)]
H1 : Al menos un  i  0 CME
 Pruebas individuales.
El estadístico de prueba es:

H 0 : i  0
ˆi   i
H1 :  i  0 t ~ t( gl ( error))
S ˆ
i
EJEMPLO 1. Una agencia inmobiliaria, desea modelar el Precio de una
propiedad en función del área de calefacción, antigüedad y tamaño de
la propiedad.
Propiedad Valuación (miles Área con calefacción Antiguedad (años) Tamaño del lote
2 2
de dólares) (miles de pie ) (miles de pie )
1 70.40 1.60 32.00 2.50
2 79.30 1.39 1.00 1.80
3 75.70 1.45 8.33 1.50
4 79.20 1.50 2.75 2.30
5 74.50 1.54 12.58 1.80
6 75.80 1.55 16.00 2.30
7 78.50 1.59 1.75 1.80
8 76.80 1.59 7.17 1.80
9 77.40 1.71 11.50 2.50
10 85.90 1.76 0.00 1.95
11 84.40 1.85 3.42 3.00
12 83.80 1.89 2.75 2.05
13 86.70 1.90 0.00 2.50
14 79.10 1.93 7.42 2.65
15 85.90 1.93 2.00 3.00
Análisis de la multicolinealidad
Matriz de Correlaciones
Correlación de Y X1 X2 X3
Pearson Precio Calefaccion Antiguedad Terreno
Y_Precio 1 .679 -.808 .360
X1_Calefaccion .679 1 -.270 .687
X2_Antiguedad -.808 -.270 1 .075
X3_Terreno .360 .687 .075 1
Variables Correlaciones Correlaciones de

predictoras entre Xi y Xj Y con cada Xi Análisis
rY , X 1  0.679 No existe
multicolinealidad
rX 1, X 2  0.270 rY , X 2  0.808 X1 y X2 pueden estar
X1 Vs. X2 juntas en el modelo.
rY , X 1  0.679 Si existe
multicolinealida. X1 y
rX 1, X 3  0.687
rY , X 3  0.360 X3 no deben estar
X1 Vs. X3 juntas en el modelo.
multicolinealidad. X2
rX 2, X 3  0.075
rY , X 3  0.360 y X3 si pueden estar
X2 Vs X3 juntas en el modelo.
Selección del mejor modelo
Modelos posibles : YX 1 , YX 2 , YX 3 , YX 1 X 2 , YX 2 X 3
YX 1
YX 2
YX 3
YX 1 X 2
YX 2 X 3
Prioridad Modelo R2 Corregido

1 Y Vs. X1,X2 0.862
2 Y Vs. X2,X3 0.803
3 Y Vs. X2 0.626
4 Y Vs. X1 0.419
5 Y Vs. X3 0.063
Valide los modelos usando un nivel de significación de 0.05.
Validación del modelo seleccionado: YX1X2
• Prueba conjunta.
H o : 1   2  0
H1 : Al menos  i  0
Sig  0.000    0.05. Se rechaza H 0 .
• Pruebas individuales.
H 0 : 1  0 H0 : 2  0
H1 : 1  0 H1 :  2  0
Sig  0.000  0.05. SR H 0 . Sig  0.000  0.05. SR H 0 .
Conclusión. Con un nivel de significación de 0.05, el área con
calefacción y la antigüedad son significativos al modelo.
yˆ  60.687  12.907 x1  0.386x2

Interpretación de los coeficientes:
ˆ1  12.907 Cuando el área de calefacción se

incrementa en 1000 pies2 y manteniendo
constante los años de antigüedad, el precio
se incrementa en 12.907 miles $.
ˆ2  0.386 Cuando la antigüedad de la propiedad se
incrementa en un año y manteniendo
constante el área de calefacción, el precio
disminuye en 0.386 miles $.
Valores predecidos
 Estimar el precio de una casa, cuando el área

de calefacción es de 1.55 miles pies2 ,
antigüedad de 16 años y tamaño del lote es de
2.2 pies2.
yˆ  60.687  12.907(1.55)  0.386(16)  74.52
Interpretación. Cuando el área de calefacción es

de 1.55 miles pies2 y la antigüedad de 16 años, se
estima que el precio de una casa será de 74.52
miles de dólares.
Pruebas de hipótesis
Se puede afirmar con un nivel de significación de 0.05, que cuando el área
de calefacción aumenta en mil pies2 el precio de la propiedad aumenta
en más de 11.5 miles de $; permaneciendo constante las otras variables.
H 0 : 1  11.5
Formulación de hipótesis:
H1 : 1 > 11.5
ˆ1  1 12.907  11.5
Prueba estadística: tc    0.526
S ˆ 2.674
1
Decisión estadística: tCrítico  t( 0.05,12)  1.78229 NR H 0

Conclusión. Con un nivel de significación de 0.05, no se puede afirmar
que cuando el área de calefacción aumenta en mil pies2 el precio de
la propiedad aumenta en más de 11.5 miles de $; permaneciendo
constante las otras variables.
EJEMPLO 2. (Pag. 150). El director de la universidad particular UPS le interesa determinar que efecto pueden
tener el promedio de calificaciones de un egresado, el número de capacitaciones adicionales y el salario inicial
(miles de soles), sobre el salario final (miles de soles) después de dos años de egresado. Recopiló esta
información para una muestra aleatoria de 10 egresados:
Graduado Sueldo final Promedio de Número de Sueldo Inicial

(miles de soles) calificaciones capacitaciones (miles de soles)
1 41,00 3,20 2 37,00
2 48,00 3,60 5 46,00
3 39,00 2,80 3 38,00
4 39,00 2,40 4 39,00
5 38,00 2,50 2 36,00
6 39,50 2,10 3 38,00
7 43,00 2,70 3 42,00
8 37,00 2,60 2 37,00
9 47,00 3,00 4 46,50
10 42,50 2,90 3 41,00
Las variables independientes son: x1.=Promedio de calificaciones;
x2=Número de capacitaciones y x3=Sueldo inicial.
La variable dependiente: Y=Sueldo final.
Matriz de Correlaciones
Y X1 X2 X3
Sueldo_Final Calificaciones Capacitaciones Sueldo_Inicial
Y 1 ,726 ,738 ,950
Sueldo_Final
X1 ,726 1 ,398 ,585
Calificaciones
X2 ,738 ,398 1 ,819
Capacitaciones
X3 ,950 ,585 ,819 1
Sueldo_Inicial
Variables Correlaciones Correlaciones de

predictoras entre Xi y Xj Y con cada Xi Análisis
rY , X 1  0.726
rX 1, X 2  0.398 No existe
X1 Vs. X2 rY , X 2  0.738 multicolinealidad
rX 1, X 3  0.585 multicolinealidad
X1 Vs. X3 rY , X 3  0.950
rY , X 2  0.738 Existe
rX 2, X 3  0.819 multicolinealidad
X2 Vs X3 rY , X 3  0.950
Modelos posibles : YX 1 , YX 2 , YX 3 , YX 1 X 2 , YX 1 X 3
YX 1
YX 2
YX 3
YX 1 X 2
YX 1 X 3

1 Y Vs. X1X3 0.932
2 Y Vs. X3 0.891
3 Y Vs. X1,X2 0.700
4 Y Vs. X2 0.487
5 Y Vs. X1 0.468

H 0 : 1  0 H 0 : 3  0
H1 : 1  0 H1 :  3  0
Sig  0.047 > 0.01. NR H 0 Sig  0.000 < 0.01. SR H 0 .
Conclusión. Con un nivel de significación de 0.01, el sueldo
inicial es significativo al modelo, pero el promedio de
calificaciones no es significativo al modelo. El modelo no es
válido.

1 Y Vs. X1X3 0.932
2 Y Vs. X3 0.891
3 Y Vs. X1,X2 0.700
4 Y Vs. X2 0.487
5 Y Vs. X1 0.468

Validación del modelo seleccionado: YX3
H 0 : 3  0
H1 :  3  0
Sig  0.000 < 0.01. SR H 0 .
Conclusión. Con un nivel de significación de 0.01, el sueldo
inicial del egresado es significativo al modelo. El modelo es
válido.
yˆ  3.547  0.945 x3
Interpretación del coeficiente:
ˆ3  0.945 Cuando el sueldo inicial aumenta

en mil soles, el sueldo final del
egresado se incrementa en 945
nuevos soles.
Valores predecidos
Estimar el sueldo final para un egresado, cuando

el promedio de calificaciones es 2.9, el número
de capacitaciones fue 4 y el sueldo inicial fue
de 35,000.
yˆ  3.547  0.945 x(35)  36.622

Interpretación. Cuando el sueldo inicial fue de
35,000, se estimar que el sueldo final para un
egresado será de 36 622 nuevos soles.
EVALUACION.
Ejercicio 1. Realice el análisis de la multicolinealidad.
Correlaciones
Y X1 X2 X3
Y 1 .303 .562 .806
X1 .303 1 .851 .773
X2 .562 .851 1 .786
X3 .806 .773 .786 1
Variables predictoras Resultado

X1 Vs. X2
X1 Vs. X3
X2 Vs X3
Los modelos posibles son: ___________________
Ejercicio 2. Valide el siguiente modelo . Use un nivel de
significación de 0.05
Coeficientesa
Coeficientes
Coeficientes no es tandarizad
es tandarizados os
Modelo B Error típ. Beta t Sig.
1 (Cons tante) -39.590 30.353 -1.304 .219
X1 .144 .201 .101 .719 .487
X2 1.252 .494 .568 2.533 .028
X3 .683 .440 .342 1.552 .149
a. Variable dependiente: Y
H 0 : 1  0 H0 : 2  0 H 0 : 3  0
H1 : 1  0 H1 :  2  0 H1 :  3  0
DE: DE: DE:
Conclusión.

Análisis de Regresión Lineal Múltiple

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Análisis de Regresión Lineal Múltiple

Uploaded by

Copyright:

Available Formats

ANÁLISIS DE REGRESIÓN

Al finalizar el tema el alumno logrará:

yˆ  ˆ0  ˆ1 x1  ˆ2 x2  ...  ˆ p x p

El estadístico de prueba es:

Variables Correlaciones Correlaciones de

Prioridad Modelo R2 Corregido

yˆ  60.687  12.907 x1  0.386x2

ˆ1  12.907 Cuando el área de calefacción se

 Estimar el precio de una casa, cuando el área

yˆ  60.687  12.907(1.55)  0.386(16)  74.52

Interpretación. Cuando el área de calefacción es

Decisión estadística: tCrítico  t( 0.05,12)  1.78229 NR H 0

Graduado Sueldo final Promedio de Número de Sueldo Inicial

Variables Correlaciones Correlaciones de

Prioridad Modelo R2 Corregido

Valide los modelos usando un nivel de significación de 0.01.

Prioridad Modelo R2 Corregido

Valide los modelos usando un nivel de significación de 0.01.

ˆ3  0.945 Cuando el sueldo inicial aumenta

Estimar el sueldo final para un egresado, cuando

yˆ  3.547  0.945 x(35)  36.622

Variables predictoras Resultado

You might also like