Professional Documents
Culture Documents
yi= 1xi y por lo tanto, al graficar nuestra recta de regresin sta pasa por el origen
formando respecto al eje de las abscisas, un ngulo de 45.
Con este resultado, no podemos considerar que nuestro modelo de regresin sea confiable
para predecir resultados debido a que no nos esta mostrando una relacin de significancia
entre nuestros parmetros.
Prueba de hiptesis para el parmetro 1 (que indica la pendiente de la recta, es
decir, el incremento o decremento de la variable y por cada incremento de x).
H0: 1 = 0
HA: 1 0
Al aceptar nuestra H0: 1 = 0, estamos considerando un valor nulo para nuestra pendiente, y
la ecuacin de regresin toma la siguiente forma: yi= 0 + (0) xi es decir, el ltimo trmino
queda eliminado y por lo tanto, a la hora de graficarlo nos queda de la siguiente manera:
plantea una relacin para podre predecir con cierta confianza valores para nuestra variable
dependiente y.
b) Anote en forma detallada el estadstico de prueba, t0, para cada una de las
hiptesis y d una explicacin de por qu sirven para probar las hiptesis. Es decir,
determine cundo estos estadsticos tienen valores pequeos o grandes, y la
decisin que se tomara con respecto a su hiptesis correspondiente.
Un estadstico de prueba es aquel calculado de una sola muestra aleatoria simple tomada de
la poblacin de inters, en una prueba de hiptesis para establecer la verdad o falsedad de
la hiptesis nula.
Para el parmetro 1 tenemos que:
Y recibe el nombre de error estndar de 1. Ntese que esta igualdad se toma en cuenta
para el clculo del estadstico.
La distribucin t-student se utiliza para muestras de n30. Tambin es importante
mencionar que como nuestra HA contiene desviaciones desde la hiptesis nula en cualquier
direccin (por lo de 10) se denomina hiptesis de dos colas, y he aqu donde se aplica la
distribucin t-student.
Para el parmetro 0 tenemos que:
Como en el caso anterior, para formular el estadstico de prueba se tomo en cuenta que el
parmetro de 0 sigue una distribucin normal considerando su media y varianza. Entonces
una estimacin de esta ltima es:
( )
De igual manera notamos que esto se toma en cuenta en la estructura del estadstico de
prueba.
En ambos casos para saber si aceptamos o rechazamos nuestra H0, representamos nuestro
criterio de rechazo de la siguiente manera:
| |
Si el valor de nuestro estadstico de prueba es grande o pequeo, podemos decir que es
respecto a los datos que se estn manejando para el anlisis del problema, obviamente para
saber si se rechaza nuestra H0, el valor del estadstico debe satisfacer la expresin anterior,
por lo tanto estaremos aceptando la H A, esto quiere decir que el valor del estadstico si es
mayor que el rea de rechazo (expresada con el valor que se obtiene de las tabla de
distribucin t-student, con cierto nivel de significancia), entonces se encuentra en el rea de
aceptacin y como todo esto esta en funcin de la H0 podemos sacar conclusiones respecto
de lo que estamos afirmando.
c) Con respecto al anlisis de varianza para el modelo, escriba y explique la hiptesis
correspondiente. Adems, anote con detalle el estadstico de prueba, F0, y d una
justificacin de por qu tal estadstico sirve para probar tal hiptesis.
En este caso, se plantea un anlisis enfocado hacia la variabilidad total observada en la
variable de respuesta (Syy), la variabilidad explicada por la recta de regresin (SCR)y la
variabilidad no explicada por la recta de regresin (SCE), obteniendo consecuentemente el
Cuadrado Medio del Error, considerando los grados de libertad. Todo esto se utiliza para
generar otra forma de probar la hiptesis sobre la significancia de la regresin.
Para el anlisis de varianza, slo utilizamos la prueba de hiptesis para el estimador 1,
como ya sabemos, la pendiente.
H0: 1 = 0
HA: 1 0
El estadstico de prueba respecto la hiptesis nula es:
F0 =
t02 =
= F0
La distribucin Fisher, se utiliza para probar si dos muestras provienen de poblaciones que
poseen varianzas iguales. Esta prueba es til para determinar si una poblacin normal tiene
una mayor variacin que la otra. Y como al principio se menciona que los datos del
problema estn sometidos a un anlisis de varianza, es por eso que debemos utilizar este
estadstico de prueba.
5.-Con respecto a los intervalos de confianza para la recta y los intervalos de prediccin,
seale Cmo se obtienen y para que se aplica cada uno de ellos?
Intervalo de confianza de la recta
-
Un intervalo de confianza est definido por dos valores entre los cuales se encuentra el
valor del parmetro con un determinado nivel de confianza que se denota (1 ) y que se
aplica para mostrar los valores entre los cuales se puede encontrar nuestro estimador
puntual, para dar una idea de la confiabilidad de nuestro estimador.
Los intervalos de prediccin
-
Donde cada coeficiente de regresin i se estima por bi de los datos de la muestra con el
uso del mtodo de mnimos cuadrados.
Con 4 variables (x1, x2, x3, x4) y 12 observaciones (n=12) El procedimiento matemtico es
mediante el ajuste del modelo de regresin lineal mltiple:
Y|x1 , x2, x3 , x4 = 0 + 1x1+ 2x2+ 3x3 + 4x4
A los puntos de datos
i= 1,2,....,12 y 12 >4 },
0,
1, 2,
3,
4,
Y=
X=
[
Para al menos un j = 1, 2, 3, 4
F0 = CMR/CME
F0 > F (, 4, 7)
j = 1, 2, 3, 4
Problema 7
En un proceso de extraccin se estudia la relacin entre tiempo de extraccin y
rendimiento. Los datos obtenidos se encuentran en la siguiente tabla.
Tiempo
(min)
10
15
20
8
12
13
15
12
14
20
19
18
Rendimiento
(%)
64
81.7
76.2
68.5
66.6
77.9
82.2
74.2
70
76
83.2
85.3
Existe correlacin lineal positiva ya que conforme aumenta el tiempo de extraccin tambin
aumenta el rendimiento, es razonable suponer que la relacin entre estas variables la
explique un modelo de regresin lineal simple.
c) Haga un anlisis de regresin (ajuste una lnea recta a estos datos, aplique pruebas
de hiptesis y verifique residuos)
Para ajustar la mejor recta que pasa ms cerca de todos los puntos y para calcular
estimadores, se usa mtodo de mnimos cuadrados, se resumen los clculos en la hoja de
Excel:
X
Tiempo
(min)
Y2
Xy
E2
-5.93
5.82
-5.63
0.95
-5.71
4.4
6.32
1.89
-4.69
-5.83
2.56
5.85
35.1649
33.8724
31.6969
0.9025
32.6041
19.36
39.9424
3.5721
21.9961
33.9889
6.5536
34.2225
293.8764
Y
estimado
Rendimiento
(%)
10
15
20
8
12
13
15
12
14
20
19
18
176
Suma
X2
64
81.7
76.2
68.5
66.6
77.9
82.2
74.2
70
76
83.2
85.3
905.8
100
4096
225 6674.89
400 5806.44
64 4692.25
144 4435.56
169 6068.41
225 6756.84
144 5505.64
196
4900
400
5776
361 6922.24
324 7276.09
2752 68910.36
640
1225.5
1524
548
799.2
1012.7
1233
890.4
980
1520
1580.8
1535.4
13489
69.93
75.88
81.83
67.55
72.31
73.5
75.88
72.31
74.69
81.83
80.64
79.45
)(
Por lo que se observa, se concluye que los errores estn distribuidos aleatoriamente, la
prueba de hiptesis de inters plantea que la pendiente es significativamente diferente
de 0.
Hiptesis a Establecer
Anlisis de Regresin
Para 1
H0 1 = 0
HA 1 0
t0
1 /
Para 0
H0 0= 0
HA 0 0
t0 0
CME [
H0 se rechaza si
|> F(
, n -2 )
Se observa que en la grfica de probabilidad normal la mayor parte de los puntos tienden
a ajustarse a la lnea recta pero en la de residuo contra valor ajustado hay cierto patrn, el
modelo registra falla.
Se concluye que aunque el modelo es significativo, la intensidad de la relacin lineal
entre las variables no es muy fuerte
Y 0 - t(
/ 2 , n -2 )
] <=
<=
Y 0 + t(
/2,n-
87.83 2.2281
87.83 10.174
Por lo tanto el intervalo de confianza es:
77.65 <=
<= 98.004
22.-se realiz un experimento para estudiar el sabor del queso panela en funcin de la
cantidad del cuajo y la sal. La variable de respuesta observada es el sabor promedio
reportado por un grupo de 5 panelistas que probaron todos los quesos y los calificaron
con una escala hednica. Los datos obtenidos se muestran a continuacin:
Sal
6
5.5
4.5
4
4.5
5.5
5
5
Cuajo
0.3
0.387
0.387
0.3
0.213
0.213
0.3
0.3
sabor
5.67
7.44
7.33
6.33
7.11
7.22
6.33
6.66
a) ajuste el modelo
La ecuacin de regresin es
Y= 7.30 - 0.183 x1 + 1.26 x2
b) el modelo explica la variacin observada en el sabor? Argumente con base en la
significancia del modelo, los residuales y el coeficiente de determinacin
Para hablar de un modelo que tiene un ajuste satisfactorio es necesario que ambos
coeficientes tengan valores superiores a 0.7, y en este caso muestro coeficiente de
determinacin presento un valor muy bajo del 0.05 (5%) y un coeficiente de
determinacin ajustado con valor negativo interpretando esto como un 0%. Esto se debe a
que en nuestro modelo hay trminos que no contribuyen de manera significativa por lo
tanto debemos depurar el modelo.
Anlisis de residuos.- en la grfica de probabilidad normal los puntos no se ajustan a la
recta y presentan un cierto nivel de simetra en el comportamiento de los mismos por lo
tanto podemos decir que el modelo no es aceptable. En la grfica de residuos vs predichos
si el modelo es adecuado se espera que en esta grafica los puntos no sigan ningn patrn
y que, por lo tanto, estn distribuidos ms o menos aleatoriamente a lo largo y ancho de
la grfica. Cuando esto ocurre significa que el modelo se ajusta de cualquier manera a lo
largo de los modelos de Y.
En el caso de nuestra grafica se observa que los puntos estn distribuidos a lo largo del eje
de las X de forma constante. Y por ltimo en la grfica de residuos vs observamos que
el comportamiento de los residuos maneja un patrn, lo cual quiere decir que nuestro
modelo no es adecuado.
Segundo modelo
R2=0.923 = 93.2%
R2aj= 0.761 = 76.1%