Professional Documents
Culture Documents
Suponga que el gerente de ventas de un distribuidor grande de partes de autos desea estimar
en el mes de abril las ventas totales anuales de una región. Con base en las ventas regionales,
también se pueden estimar las ventas totales de la compañía. Con base en la experiencia pasada,
se determina que las estimaciones de abril de las ventas anuales tienen una precisión razonable, en
años futuros esa predicción serviría para revisar los programas de producción y mantener el
inventario correcto en las tiendas de descuento minoristas. Parece que varios factores están
relacionados con las ventas, como el número de tiendas de descuento minoristas en la región que
1 de abril, y el ingreso total personal del primer trimestre del año. Al final se seleccionaron cinco
variables independientes como las más importantes (según el gerente de ventas). Luego se
recopilaron los datos de un año reciente. También se registraron las ventas totales anuales en ese
año por cada región. En la siguiente tabla observe que en la región 1 había 1 739 tiendas de
descuento minoristas que vendían los componentes de autos de la compañía y 9 270 000
automóviles registrados en la región desde el 1 de abril. Las ventas en ese año fueron $37 702 000.
a) Considere la siguiente matriz de correlación. ¿Qué variable individual tiene la correlación
más fuerte con la variable dependiente? Las correlaciones entre las variables
son muy fuertes. ¿Esto puede representar un problema? ¿Cómo se denomina esta
condición?
SOLUCIÓN:
Las variables individuales se muestran en la columna izquierda, en otras palabras, las variables
coeficiente de relación indica el grado de relación entre una variable independiente y otra
dependiente; y funciona así: a mayor cercanía a 1 mayor relación y a mayor cercanía a 0 menor
relación. Entonces, la variable independiente que tiene una correlación positiva fuerte con la
Las correlaciones entre las variables independientes tiendas de descuento e ingreso y tiendas
de descuento y automóviles, son superiores a 0.70+ por lo que se puede deducir que sí
SOLUCIÓN
Y, explicada por el conjunto de variables independientes. Este coeficiente se calcula utilizando los
En este caso:
1593.81
𝑅2 = = 𝟎. 𝟗𝟗𝟒𝟑𝟑
1602.89
Por lo tanto, las variables independientes tiendas de descuento, automóviles, ingreso, antigüedad
c) Realice una prueba global de hipótesis para determinar si alguno(s) de los coeficientes de
SOLUCIÓN
140.36
crítico es 6.26.
múltiple son cero. Esto significa que algunas variables independientes tienen la
d) Realice una prueba de hipótesis en cada una de las variables independientes. ¿Consideraría
SOLUCIÓN
Primero se deben determinar las hipótesis nulas y alternativas para cada variable:
Tiendas de
automóviles ingreso antigüedad supervisores
descuento
H0 : β1 = 0 H0 : β 2 = 0 H0 : β3 = 0 H0 : β4 = 0 H0 : β5 = 0
H1 : β1 ≠ 1 H1 : β 2 ≠ 1 H1 : β3 ≠ 1 H1 : β4 ≠ 1 H1 : β5 ≠ 1
- La regla de decisión es: Rechazar H0 si t es menor que -2776 o mayor que 2.776.
- Consultando con la tabla ANOVA sobre los coeficientes de regresión y los errores
estándar para cada variable, se pueden calcular los valores de t mediante la siguiente
fórmula:
Tiendas de
automóviles ingreso antigüedad supervisores
descuento
- Por lo tanto; para TIENDAS DE DESCUENTO, como t1 es menor que 2.776 entonces
se puede concluir que podría igualar a 0 por lo que esta variable independiente no es
menor que 2.776 entonces podría igualarse a 0 por lo que no es un factor de predicción.
SOLUCIÓN
En este caso:
1593.66
𝑅2 = = 𝟎. 𝟗𝟗𝟒𝟐𝟒
1602.89
Entonces, a partir del análisis anterior en el cuál R2 = 0.99433, el R2’ cambió en -0.009%.
SOLUCIÓN
Sí, porque las hojas y barras de los gráficos están distribuidos en forma de la curva normal.
g) La siguiente es una gráfica de los valores ajustados de Y (es decir, 𝑌̂) y de los residuos.
SOLUCIÓN
Existen 5 suposiciones principales:
- Relación lineal, la cual se cumple porque los puntos están dispersos sin un patrón obvio.
- Distribución de los residuos, al parecer este supuesto sí se está infringiendo porque los
- Multicolinealidad.
a) Considere la siguiente matriz de correlación. ¿Qué variable tiene la correlación más fuerte
con la variable dependiente? Algunas correlaciones entre las variables independientes son
SOLUCIÓN:
La variable que tiene la correlación más fuerte con la variable dependiente es promedio porque es
cercano a 0.70, en este caso, la calificación no cuenta porque sobrepasa a 0.70. De las
correlaciones mostradas, ninguna sobrepasa -0.70 ni 0.70, de forma que no hay problemas de
multicolinealidad. Además la variable con mayor correlación es SAT Matemáticas porque tiene
SOLUCIÓN
En este caso:
4.3595
𝑅2 = = 𝟎. 𝟖𝟔𝟏𝟎
5.0631
c) Realice una prueba global de hipótesis a partir del resultado anterior. ¿Alguno de los
SOLUCIÓN
- Hipótesis nula: β1 = β2 = β3 = 0
crítico es 5.41.
son cero. Esto significa que algunas variables independientes tienen la capacidad de
d) Realice una prueba de hipótesis de cada variable independiente. ¿Consideraría eliminar las
SOLUCION
Primero se deben determinar las hipótesis nulas y alternativas para cada variable:
H1 : β 1 ≠ 1 H1 : β2 ≠ 1 H1 : β3 ≠ 1
- La regla de decisión es: Rechazar H0 si t es menor que -2.571 o mayor que 2.571.
- Consultando con la tabla ANOVA sobre los coeficientes de regresión y los errores
estándar para cada variable, se pueden calcular los valores de t mediante la siguiente
fórmula:
- Por lo tanto; para VERBAL, como t2 es menor que 2.571 entonces se puede concluir
e) El análisis se vuelve a correr, pero ahora sin “verbal” y “matemáticas”. Observe la siguiente
SOLUCIÓN
El coeficiente de determinación se calcula de la siguiente forma:
En este caso:
4.2061
𝑅2 = = 𝟎. 𝟖𝟑𝟎𝟕
5.0631
Entonces, a partir del análisis anterior en el cuál R2 = 0.8610, el R2’ cambió en -3.03%.
residuales?
SOLUCIÓN
No, porque la distribución de los puntos no parece ser simétrica, de la forma de una campana de
- Relación lineal, la cual se cumple porque los puntos están dispersos sin un patrón obvio.
- Distribución de los residuos, al parecer este supuesto sí se está infringiendo porque los
- Multicolinealidad.
EJERCICIO 20
Mike Wilde es el presidente del sindicato de maestros del Otsego School District. A fin de
prepararse para negociaciones próximas, le gustaría investigar la estructura de los salarios de los
maestros del distrito. Wilde considera que hay tres factores que influyen en el salario de un
maestro: sus años de experiencia, la calificación de su eficiencia como docente por parte del
director y si cuenta con un posgrado. Una muestra de 20 maestros generó los siguientes datos.
a) Formule una matriz de correlación. ¿Qué variable independiente tiene la correlación más
La variable independiente que tiene una relación más ferte con la variable dependiente, es decir el
salario es la variable “años de experiencia”. Además, se puede deducir que sí existirán problemas
b) Determine la ecuación de regresión. ¿Qué salario estimaría para un maestro con cinco años
Entonces, según lo requerido, para un maestro con 5 años de experiencia, una calificación del
c) Realice una prueba global de la hipótesis para determinar si alguno de los coeficientes de
- Hipótesis nula: β1 = β2 = β3 = 0
3.8298
crítico es 3.10.
- La regla de decisión es: rechazar la hipótesis nula (H0) y aceptar H1 si el valor
son cero. Esto significa que algunas variables independientes tienen la capacidad de
SOLUCIÓN
Primero se deben determinar las hipótesis nulas y alternativas para cada variable:
Años de Calificación
Posgrado
experiencia director
H0 : β 1 = 0 H0 : β2 = 0 H0 : β3 = 0
H1 : β 1 ≠ 1 H1 : β2 ≠ 1 H1 : β3 ≠ 1
- La regla de decisión es: Rechazar H0 si t es menor que -2.120 o mayor que 2.120.
- Consultando con la tabla ANOVA sobre los coeficientes de regresión y los errores
estándar para cada variable, se pueden calcular los valores de t mediante la siguiente
fórmula:
Años de Calificación
Posgrado
experiencia director
- Por lo tanto; para AÑOS de EXPERIENCIA, como t1 es mayor que 2.120 entonces se
considera eliminar esta variable. Para Posgrado, como t3 es menor que 2.120,
Años de
experiencia
H0 : β1 = 0
H1 : β1 ≠ 1
- La regla de decisión es: Rechazar H0 si t es menor que -2.101 o mayor que 2.101.
- Consultando con la tabla ANOVA sobre los coeficientes de regresión y los errores
estándar para cada variable, se pueden calcular los valores de t mediante la siguiente
fórmula:
Años de
experiencia
1.2059 − 0
𝑡=
0.6317
𝒕 = 𝟏. 𝟗𝟎𝟗𝟎
- Por lo tanto; para AÑOS de EXPERIENCIA, como t1 es menor que 2.101 entonces se
puede concluir que podría es 0 por lo que esta variable independiente ya no es un factor
de predicción.
f) Determine los residuos de la ecuación del inciso e). Utilice un diagrama de tallo y hojas o
bien un histograma para verificar que la distribución de los residuos sea aproximadamente
normal.
SOLUCIÓN
A través de Excel y con los datos mostrados de este ejercicio, los residuos son:
Como se puede apreciar, la distribución delos residuos no siguen una distribución normal.
g) Trace los residuos calculados en el inciso f) en un diagrama de dispersión con las varianzas
residuales en el eje Y y los valores 𝑌̂ en el eje X. ¿La gráfica revela alguna violación de las
suposiciones de regresión?
SOLUCIÓN
De acuerdo a la tabla con los pronósticos y los residuos, se puede elaborar el siguiente gráfico de
dispersión:
DIAGRAMA DE DISPERSIÓN
6
0
0 5 10 15 20 25 30 35 40
-2
-4
-6