Professional Documents
Culture Documents
Los datos se pueden estructurar en la siguiente tabla:
Para hallar los estimadores de mnimos cuadrados para
b) Denote el modelo en forma matricial: , exprese con precisin todas las
matrices involucradas en el modelo.
[
] [
] [
] [
c) Proporcione la expresin matricial para los estimadores de mnimos cuadrados.
El estimador de mnimos cuadrados de es
El estimador de mnimos cuadrados de
d) Especifique la hiptesis de significancia del modelo y lo que significa aceptar o
rechazar esta hiptesis.
Para este modelo se tiene:
donde
La hiptesis nula se rechaza si
, o si el valor
lo que
significa que entre ms pequeo sea este estadstico, tiende a ser menor que el valor de rechazo o
significancia del problema.
Esto conlleva a que entre mayor sea
, como su
mismo nombre lo indica, se calculan de manera independiente para cada uno de ellos. Estas
hiptesis corresponden a:
donde
Si
El valor de este estadstico es utilizado para contrastar la hiptesis de que el coeficiente es igual
a cero (H0: = 0 frente a Ha: 0). La hiptesis nula se rechaza si |
|
, lo que
significa que entre el valor de este estadstico sea ms grande, tiende a ser mayor que el valor
crtico obtenido en tablas de distribucin T-Student, entonces se encuentra en el rea de
aceptacin.
h) Cules son los riesgos de hacer predicciones fuera de la regin de los datos
originales?
Fuera de la regin, los aspectos fsicos o sociales que estn atrs de todo modelo de
regresin pueden empezar a actuar de otra forma, muy fuera de la regin de los datos
originales empiezan a actuar otros fenmenos no considerados en el modelo original.
Este riesgo es ms grande en el anlisis de regresin mltiple, ya que se trabaja con
regiones multidimensionales.
Ejercicio 18 (Libro Gutirrez, De la Vara)
En una empresa dedicada a anodizar artculos de aluminio (bateras de cocina), el anodizado se
logra con una solucin hecha a base de cidos (sulfrico, ctrico, brico) y dicromato de aluminio. En
este proceso se controla el PH de la solucin, la temperatura, la corriente y el tiempo de
permanencia. Debido al poco grosor del anodizado, han aumentado las quejas por la escasa
resistencia y durabilidad del producto. Para resolver este problema se decide estudiar, mediante un
experimento, la relacin del PH y la temperatura con el grosor anodizado. Los datos se muestran en
la siguiente tabla:
PH Temperatura Espesor
1.2 -8 9
1.8 -8 14
1.2 8 10
1.8 8 19
1.2 -8 8
1.8 -8 12
1.2 8 11
1.8 8 20
1.5 0 14
1.5 0 13
a) Cules son las variables independientes y cul es la variable dependiente? Argumente.
R/a. Las variables independientes son la temperatura y el PH de la solucin, debido a que son las
que ocasionan la variabilidad en el espesor del anodizado y por lo general estn controladas en el
proceso:
1
X : PH
2
X : Temperatura Y: Espesor
b) Ajuste un modelo del tipo c | | | + + + =
2 2 1 1 0
X X Y y anote la ecuacin del modelo ajustado.
R/a. Modelo: c | | | + + + =
2 2 1 1 0
X X Y
Donde los valores de Y, X1, X2 se muestran en la siguiente tabla:
Obteniendo de esta forma, un modelo matricial:
(
(
(
(
(
(
(
(
(
(
(
(
(
(
+
(
(
(
(
(
(
(
(
(
(
(
(
(
(
(
(
(
(
(
(
=
(
(
(
(
(
(
(
(
(
(
(
(
(
(
10
9
8
7
6
5
4
3
2
1
22
11
2
1
0
0 5 , 1
0 5 , 1
8 8 , 1
8 2 , 1
8 - 8 , 1
8 - 2 , 1
8 8 , 1
8 2 , 1
8 - 8 , 1
8 - 2 , 1
13
14
20
11
12
8
19
10
14
9
c
c
c
c
c
c
c
c
c
c
|
|
|
|
|
Utilizando el programa Statgraphics, se obtuvo los coeficientes de cada variable independiente:
Parmetro Estimacin Error Estndar Estadstico T Valor-P
CONSTANTE -3,875 2,60682 -1,48648 0,1807
X1 11,25 1,71073 6,57615 0,0003
X2 0,265625 0,0641523 4,14054 0,0043
Y X1 X2
9 1,2 -8
14 1,8 -8
10 1,2 8
19 1,8 8
8 1,2 -8
12 1,8 -8
11 1,2 8
20 1,8 8
14 1,5 0
13 1,5 0
265625 , 0
25 , 11
875 , 3
2
1
0
=
=
=
|
|
|
c + + + =
2 1
265625 , 0 25 , 11 875 , 3 X X Y
c) A partir del modelo ajustado, cul es el espesor estimado cuando se utiliza un PH=2 y una
temperatura de 10 grados?
R/a. Cuando 10 y 2
2 1
= = X X
28125 , 21
) 10 ( 265625 , 0 ) 2 ( 25 , 11 875 , 3
=
+ + =
i
i
Y
Y
Es decir, que cuando la solucin tiene un PH de 2 y una temperatura de 10 grados, el espesor del
anodizado ser de 21,28125.
d) El modelo es adecuado? Argumente con base en grficas de residuo, pruebas de hiptesis y
coeficientes de determinacin.
R/a. Con el objeto de establecer si el modelo es adecuado, se procede a realizar las pruebas de
Hiptesis pertinentes.
En primera instancia se requiere comprobar si la regresin es significativa, a travs de la siguiente
hiptesis:
0
2 1 0
= = = | | H ; indicando que ninguna variable tiene una contribucin significativa al explicar la
variable de respuesta (Y).
2 1 1
| | = = H ; indicando que por lo menos un trmino en este modelo contribuye de manera
significativa a explicar la variable de respuesta (Y).
Tomando los datos de la ANOVA generados del programa para el anlisis de varianza se tiene que:
Fuente Suma de
Cuadrados
Gl Cuadrado
Medio
Razn-F Valor-P
Modelo 127,25 2 63,625 30,19 0,0004
Residuo 14,75 7 2,10714
Total (Corr.) 142,0 9
Con los cuales se procede a calcular el coeficiente de determinacin
2
R
y el coeficiente de
determinacin ajustado
aj R
2
:
% 6127 , 89
2
= =
yy
R
S
SC
R
% 644 , 86 1
2
= =
Total
E
aj
CM
CM
R
El estadstico R-Cuadrada indica que el modelo as ajustado explica 89,6127% de la variabilidad en
Y. El estadstico R-Cuadrada ajustada, que es ms apropiada para comparar modelos con diferente
nmero de variables independientes, es 86,6449%.
Por lo que como ambos coeficientes tienen valor superior a 0,7, se puede decir que el modelo tiene
un ajuste satisfactorio. Y teniendo en cuenta que el valor-P en la tabla ANOVA es menor que 0,05,
se dice que existe una relacin estadsticamente significativa entre las variables con un nivel de
confianza del 95,0%.
En segunda instancia se mira el anlisis de regresin generado:
Parmetro Estimacin Error Estndar Estadstico T Valor-P
CONSTANTE -3,875 2,60682 -1,48648 0,1807
X1 11,25 1,71073 6,57615 0,0003
X2 0,265625 0,0641523 4,14054 0,0043
Como el valor-P ms alto de las variables independientes es 0,0043, que corresponde a la
temperatura, y es menor que 0,05, ese trmino es estadsticamente significativo con un nivel de
confianza del 95,0%.
Y en ltima instancia, para determinar si el modelo es adecuado se analizan las siguientes grficas
de residuos:
- Grfico Y (Observado) Vs Y(Predicho)
En la cual se puede observar que los datos calculados se encuentran muy prximos a los
observados.
- Grfico de Residuos
Teniendo en cuenta la grfica anterior, se observa que de los 10 datos calculados 3 se alejan
considerablemente del valor observado, pero la mayora se encuentra dentro del margen de error
aceptado.
Por lo que tomando como base estas grficas, las pruebas de hiptesis y los coeficientes de
determinacin, se puede decir que el modelo ajustado es adecuado.
e) Cree que valdra la pena pensar en aadir otro trmino al modelo para mejorar el ajuste?
Argumente.
R/a. Teniendo en cuenta que
% 644 , 86
2
= aj R
tiende a ser menor que
% 6127 , 89
2
= R
, en el modelo hay
trminos que no contribuyen de manera significativa a este, y se piensa que podra ser la variable
TEMPERATURA, tomando como referencia la comparacin de los estadsticos de las dos variables
dependientes.
Ejercicio 6 (Libro Montgomery)
Se realiz un estudio sobre el desgaste y de un cojinete y su relacin con
193 1.6 851
230 15.5 816
172 22.0 1058
91 43.0 1201
113 33.0 1357
125 40.0 1115
a) Ajustar un modelo de regresin lineal mltiple a los datos.
Sea
Donde los
son los parmetros del modelo que se conocen como coeficientes de regresin y es
el error aleatorio, con media cero, y
Si en la ecuacin , se presenta
un caso de regresin lineal simple y el modelo es una lnea recta; si , tal ecuacin representa
un plano.
R-cuadrada = 86,179 %
R-cuadrado (ajustado para g.l.) = 76,965%
Parmetro Estimacin Error
Estndar
Estadstico t Valor-P
CONSTANTE 350,994 74,7531 4,69538 0,0183
Donde:
= 350,994
= - 1,27199
= - 0,1539
b) Probar la significacin de la regresin.
Anlisis de Varianza
Fuente Suma de
Cuadrados
Gl Cuadrado
Medio
Razn-F Valor-P
Modelo 12161,6 2 6080,79 9,35 0,0514
Residuo 1950,42 3 650,141
Total (Corr.) 14112,0 5
Grfico de Y
90 120 150 180 210 240
predicho
90
120
150
180
210
240
o
b
s
e
r
v
a
d
o
Puesto que el valor-P en la tabla ANOVA es mayor o igual que 0,05, no existe una relacin
estadsticamente significativa entre las variables con un nivel de confianza del 95,0%. Esto se puede
observar en el grfico Y, en donde se muestra que la mayora de los puntos se encuentran un poco
alejados de la lnea recta.
c) Calcular el estadstico t para cada parmetro del modelo. Qu conclusiones pueden
sacarse?
Parmetro Estimacin Error Estndar Estadstico T Valor-P
CONSTANTE 350,994 74,7531 4,69538 0,0183
X1 -1,27199 1,16914 -1,08797 0,3562
X2 -0,153904 0,0895297 -1,71903 0,1841
De acuerdo a las pruebas t, cada uno de los regresores del modelo no son necesarios, debido a que
el valor p para cada parmetro es mayor que 0,05, mostrando poca relacin estadsticamente
significativa entre las variables. De igual forma, en la tabla anterior se observa que el valor p para
Donde los
son los parmetros del modelo que se conocen como coeficientes de regresin y es
el error aleatorio, con media cero, y
Si en la ecuacin , se presenta
un caso de regresin lineal simple y el modelo es una lnea recta; si , tal ecuacin representa
un plano.
Parmetro Estimacin Error
Estndar
Estadstico T Valor-P
CONSTANTE -266,031 92,6737 -2,87062 0,0208
rpm 0,0107132 0,00448326 2,3896 0,0439
Octanaje 3,13481 0,844435 3,71231 0,0059
Compresin 1,86741 0,534526 3,49358 0,0082
R-cuadrada = 80,652 porciento
R-cuadrado (ajustado para g.l.) = 73,3965 porciento
Error estndar del est. = 8,81239
Error absoluto medio = 5,37969
Autocorrelacin de residuos en retraso 1 = 0,465392
De acuerdo a los resultados obtenidos en el software statgrphics para ajustar un modelo de
regresin lineal mltiple que describa la relacin entre Y y las 3 variables independientes, se obtiene
el siguiente modelo ajustado:
Potencia al freno = -266,031 + 0,0107132*rpm + 3,13481*Octanaje + 1,86741*Compresin
b) Probar la significancia de la regresin. Qu conclusiones pueden sacarse?
Anlisis de Varianza
Fuente Suma de
Cuadrados
Gl Cuadrado
Medio
Razn-F Valor-P
Modelo 2589,73 3 863,245 11,12 0,0032
Residuo 621,265 8 77,6581
Total (Corr.) 3211,0 11
Grfico de Potencia al freno
200 220 240 260 280
predicho
200
220
240
260
280
o
b
s
e
r
v
a
d
o
Puesto que el valor-P en la tabla ANOVA es menor que 0,05, existe una relacin estadsticamente
significativa entre las variables con un nivel de confianza del 95,0%. Esto se puede observar en el
grfico Y, en donde se muestra que la mayora de los puntos se encuentran cercanos a la lnea
recta.
c) Con base en las pruebas t, son necesarios los regresores en el modelo?
Parmetro Estimacin Error
Estndar
Estadstico T Valor-P
CONSTANTE -266,031 92,6737 -2,87062 0,0208
rpm 0,0107132 0,00448326 2,3896 0,0439
Octanaje 3,13481 0,844435 3,71231 0,0059
Compresin 1,86741 0,534526 3,49358 0,0082
De acuerdo a las pruebas t, cada uno de los regresores del modelo son necesarios, debido a que el
valor p para cada parmetro es menor que 0,05, mostrando una relacin estadsticamente
significativa entre las variables. De igual forma, en la tabla anterior se observa que el valor p para
es el ms alto, comparado con el nivel de significancia de 0,05, por lo que se recomienda
eliminarlo la observacin del modelo, para que este encuentre ms ajustado.
Grfico de Residuos
210 230 250 270 290
predicho Potencia al freno
-3
-2
-1
0
1
2
3
R
e
d
i
d
u
o
E
s
t
u
d
e
n
t
i
z
a
d
o