You are on page 1of 26

Regresin lineal mltiple

Modelo de Regresin Lineal


Se emplean ms de una variable
independiente.
relaciona y con x
1
, x
2
, ..., x
k
modelo:
c | | | | c + + + + + = + =
k k x x x y
x x x y
k

2 2 1 1 0 ,..., , |
2 1
Modelo de Regresin Lineal
Valor medio de y cuando los valores de las variables
independientes son x
1
, x
2
, ..., x
k
:



parmetros:
0
,
1
,
2
, ...,
k
trmino de error: c
k k x x x y
x x x y
k
| | | | + + + + = =
2 2 1 1 0 ,..., , |
2 1
Modelo de Regresin Lineal
Interpretacin de los parmetros de regresin
0
,
1
,
2
, ...,
k

Los parmetros relacionan la media de la variable dependiente con las
variables independientes en un sentido global.

0
: ordenada al origen

1
: cambio en el consumo medio de combustible a la semana que se asocia
con el incremento de un grado en la temperatura promedio cuando no
cambia el ndice de enfriamiento.

2
: cambio en el consumo medio de combustible a la semana que se asocia
con el incremento de una unidad en el ndice de enfriamiento cuando no
cambia la temperatura horaria promedio.
Modelo de Regresin Lineal
Interpretacin geomtrica del modelo de regresin
regin experimental: combinaciones de los
valores observados de x
1
, x
2
, ..., x
k

plano de medias

Estimaciones de Mnimos Cuadrados
y Estimacin Puntual y Prediccin
Estimacin puntual del valor medio y de un valor
individual de la variable dependiente y cuando los
valores de las variables independientes son x
01
,
x
02
, ..., x
0k
.


Se predice c = 0
Esta ecuacin se llama la ecuacin de prediccin
de mnimos cuadrados
k k
x b x b x b b y
0 02 2 01 1 0

+ + + + =
7
Suma de cuadrados: Terminologa
( )
( )
SSR SSE SST que implica cual Lo
SSR : cuadrados de Residual Suma la es

SSE : cuadrados de Explicada Suma la es

SST : cuadrados de Total Suma la es


: siguiente lo definir podemos que modo De

: explicado no componente un y co) (sistemti explicado
componente un en n observaci cada separar Podemos
2
2
2
+ =

+ =
i
i
i
i i i
u
y y
y y
u y y
SST es la suma de desviaciones al cuadrado de las observaciones de la
muestra: es proporcional, ms no igual, a VAR(y).
Error Cuadrtico Medio y Error
Estndar
Una estimacin puntual de
2
es el error
cuadrtico medio:



Una estimacin puntual de es el error estndar:

( ) 1
2
+
=
k n
SSE
s
( ) 1 +
=
k n
SSE
s
9
Bondad de ajuste: R
2
Cmo saber qu tan bueno es el ajuste entre
la regresin y los datos de la muestra?
Podemos calcular la proporcin de la Suma de
cuadrados totales (SST) que es explicada por
el modelo.
Esto es la llamada R-cuadrada de una
regresin:
R
2
= SSE/SST = 1 SSR/SST
10
Bondad de ajuste: R
2
( )( ) | |
( ) ( ) ( ) ( )



=
2
2
2
2
2


:

predichos, valores los y , , observados


valores los entre n correlaci de e coeficient del
cuadrado el como definirse puede tambin
y y y y
y y y y
R
y y
R
i i
i i
i i
El anlisis de varianza para regresin consiste en descomponer
la variacin total de la variable de respuesta en varias partes
llamadas fuentes de variacin.

La divisin de la suma de cuadrados por sus grados de libertad
es llamada cuadrado medio.
As se tienen tres cuadrados medios.
Cuadrado Medio de Regresin=MSR=SSR/1
Cuadrado Medio del Error= MSE=SSE/(n-2)
Cuadrado Medio del Total=MST=SST/(n-1)
Anlisis de Varianza
Tabla de Anlisis de Varianza
________________________________________________________________
Fuente de Variacin g.l. Sumas de Cuadrados Cuadrados Medios F
________________________________________________________________
Debido a
la Regresion 1 SSR MSR=SSR/1
Error n-2 SSE MSE=SSE/(n-2)
Total n-1 SST
________________________________________________________________

Se rechazara la hiptesis nula Ho:|=0 si el P-value de la
prueba de F es menor de 0.05
MSE
MSR
Utilidad del Modelo: R
2
, R
2

Ajustada y la Prueba F Global
H
0
:
0
=
1
=
2
=... =
k
= 0
H
a
: por lo menos uno de los
0
,
1
,
2
,
...,
k
0
Estadstica F global:

( )
( ) ( ) | | 1 / exp _
/ exp _
) (mod
+
=
k n licada in Variacin
k licada Variacin
elo F
Utilidad del Modelo: R
2
, R
2

Ajustada y la Prueba F Global
Se puede rechazar H
0
y aceptar H
a
en el nivel de
significancia si se mantiene alguna de las
condiciones siguientes:
Estadstica F (modelo) > F
[]
valor p <
donde el punto F
[]
se basa en k grados de libertad
pra el numerador y n-(k+1) para el denominador.

Prueba de la Significancia de Una
Variable Independiente
Defina la estadstica de una prueba





y asuma que las suposiciones de regresin
se mantienen.
j
b
j
s
b
t =
Prueba de la Significancia de Una
Variable Independiente
Hiptesis
alternativa

Condicin de
punto de
rechazo
Valor p
H
a
:
j
0 2 (rea bajo la curva t a
la derecha de |t|)
H
a
:
j
> 0 rea bajo la curva t a la
derecha de t
H
a
:
j
< 0 rea bajo la curva t a la
izquierda de t
| |
( )) 1 (
2 /
| |
+
>
k n
t t
o
| |
( ) ( ) 1 +
>
k n
t t
o
| |
( ) ( ) 1 +
<
k n
t t
o
Prueba de la Significancia de Una
Variable Independiente
Si se cumplen las suposiciones de la
regresin, un intervalo de confianza de
100(1-)% para el parmetro de
regresin
j
es
| |
( ) ( )
| |
j
b
k n
j
s t b
1
2 /
+

o
Ejemplo
X =
1 0.79 7.8 1.82 30 12.4
1 0.65 8 8.84 25 11.4
1 0.81 9.03 5.12 35 10.7
1 0.74 6.56 5.43 40 11.6
1 0.22 5.9 1.42 30 11.3
1 0.23 8.4 1.09 30 10.7
1 0.25 12 1.15 25 11.1
1 0.26 4.8 8.53 25 12.8
1 0.41 10.8 6.11 10 13.3
1 0.55 10.4 1.6 30 13.3
1 0.47 10.8 1.04 30 14.1
1 0.59 7.9 1.02 35 13.4
1 0.47 4.3 1.11 30 13.5
1 0.5 10.8 0.62 35 13.3
1 0.52 3.8 1.69 30 14.4
1 0.47 4.1 1.22 20 14.1
1 0.42 4.5 2.13 30 15.3
1 0.37 6.1 1.47 20 14

y =
0.68
0.85
0.66
0.5
1.86
2.33
2.17
1.83
1.68
2.05
1.83
1.84
1.87
1.82
1.85
1.75
1.51
1.38
X'X=
18 8.72 135.99 51.41 510 230.7
8.72 4.7968 66.365 26.616 256.1 111.52
135.99 66.365 1149.5 382.41 3841.9 1720.4
51.41 26.616 382.41 269.12 1388.7 639.59
510 256.1 3841.9 1388.7 15250 6500.5
230.7 111.52 1720.4 639.59 6500.5 2989.6


X' y =
28.46
12.438
217.59
69.167
791.25
367.7
b=(X'X)
-1
X' y =
1.1858
-2.3524
0.044719
-0.04593
0.0082322
0.085432

Modelo de regresin ajustado es
Y* = 1.1858 - 2.3524x
1
+ 0.044719x
2
- 0.04593x
3
+ 0.0082322x
4
+ 0.085432x
5


La matriz de covarianza de b es:
Cov (b) = o
2
(XX)
-1

o
2
= (yy bXy)/(n - p) = 0.083374
n=18;
p = 5 + 1;


Intervalos de confianza
Construiremos un intervalo de confianza de 95% respecto a:
b0 = 1.1858; elemento de la diagonal de (XX)
-1
C
0
= 15.619; o
2
= 0.083374, entonces t
0.025; 12

de la tabla es 2.179
C = inv(X'*X)

C =
15.619 1.5815 -0.2425 -0.2509 -0.11489 -0.82122
1.5815 2.6034 -0.035191 -0.075599 -0.040558 -0.094545
-0.2425 -0.035191 0.010536 0.0033754 0.0012989 0.010417
-0.2509 -0.075599 0.0033754 0.012702 0.0025207 0.012041
-0.11489 -0.040558 0.0012989 0.0025207 0.0021398 0.0044397
-0.82122 -0.094545 0.010417 0.012041 0.0044397 0.049009

b0 = 1.1858; C
0
= 15.619 -1.3007 s b0 s 3.6724
b1 = -2.3524 C
1
= 2.6034 -3.3676 s b1 s -1.3372
b2 = 0.044719 C
2
= 0.010536 -0.019862 s b2 s 0.1093
b3 = -0.04593 C
3
= 0.012702 -0.11684 s b3 s 0.024981
b4 = 0.0082322 C
4
= 0.0021398 -0.020872 s b4 s 0.037336
b5 = 0.085432 C
5
= 0.049009 -0.053855 s b5 s 0.22472

Prueba de hiptesis en la regresin
lineal mltiple
Prueba de significacin de regresin
Esta prueba es para determinar si hay una relacin lineal entre la variable dependiente y
y un subconjunto de las variables independientes X. Las hiptesis apropiadas son:
H
0
: b
1
= b
2
= . = b
k
= 0
H
1
: b
j
= 0
El rechazo de H
0
: b
j
= 0 implica que al menos una de las variables independientes X
contribuye significativamente al modelo.
S
YY
= SS
R
+ SS
E

SS
E
= y y bX y

SS
R
= bX y - >> SS
R
= 3.9728

S
YY
= y y - S
yy
= 5.0567

= 28.46
2
/ 18 = 809.97
>> SS
E
=S
yy
- SS
R
= 1.0839

n
y
n
i
i
2
1
|
.
|

\
|

=
n
y
n
i
i
2
1
|
.
|

\
|

=
n
y
n
i
i
2
1
|
.
|

\
|

=
Anlisis de varianza para la significacin
de la regresin en la regresin mltiple

Fuente de
variacin
Suma de
cuadrados
Grados de
libertad
Media cuadrtica F
Regresin SS
R
= 3.9728 k = 5
MS
R
= SS
R
/ k =
0.79456
MS
R
/ MS
E
=
8.7971
Error o
residuo
SS
E
=1.0839
nk1=18-5-
1=12
MS
E
= SS
E
/ (n-k-1)=
0.090321
Total S
yy
= 5.0567 n-1 = 17
De la tabla F
o, k, n-k-1
=F
0.05, 5, 12
= 3.11. Debido que F calculado es mayor que 3.11,
entonces las variables se relacionan entre si. Sin embargo, la relacin encontrada no
es necesariamente apropiada para predecir como se relacionan entre si las variables.
Se requiere pruebas adicionales de la suficiencia del modelo.

Pruebas de coeficientes individuales de regresin
Estas pruebas son tiles en la determinacin del valor de cada una de las
variables independientes en el modelo de regresin. El modelo podra ser
mas eficaz con la inclusin de variables adicionales, o quiz con la omisin
de una o mas variables ya en el modelo.
Las hiptesis para probar la significacin de cualquier coeficiente de regresin
individual son:
H
0
: b
j
= 0
H
1
: b
j
= 0
Si H
0
: b
j
= 0 no se rechaza, entonces esto indica que x
j
puede ser eliminada del
modelo.
Donde C
jj
es el elemento de la diagonal de (XX)
-1
correspondiente a b
j
.
C
0
= 15.619
C
1
= 2.6034
C
2
= 0.010536
C
3
= 0.012702
C
4
= 0.0021398
C
5
= 0.049009

t
i-1
=b(i)/(sqrt(MS
E
*C(i,i)))
La hiptesis nula se rechaza si | t | > t
o/2, n-k-1

t0 = 0.99841 no significativo
t1= - 4.8511 significativo
t2= 1.4496 no significativo
t3= - 1.356 no significativo
t4= 0.59216 no significativo
t5= 1.2841 no significativo
t
o/2, n-k-1
= t
0.025, 12
= 2.179
Puesto que t1 > t
0.025, 12
, rechazamos H
0
: b
1
= 0 y concluimos que la variable x1
contribuye de manera significativa al modelo.

Coeficiente valor Variable Test t
b0 1.1858 0.99841
b1 -2.3524 X1 - 4.8511
b2 0.044719 X2 1.4496
b3 -0.04593 X3 - 1.356
b4 0.0082322 X4 0.59216
b5 0.085432 X5 1.2841
Medidas de adecuacin del modelo
Coeficiente de determinacin mltiple
Es una medida del grado de reduccin en la
variabilidad de y obtenida mediante el empleo de
las variables regresivas X
R
2
= SS
R
/ S
YY
= 1 SS
E
/ S
YY
= 3.9728 / 5.0567 =
0.78566 = 78. 6%

You might also like