You are on page 1of 19

EJERCICIO 18

Suponga que el gerente de ventas de un distribuidor grande de partes de autos desea estimar

en el mes de abril las ventas totales anuales de una región. Con base en las ventas regionales,

también se pueden estimar las ventas totales de la compañía. Con base en la experiencia pasada,

se determina que las estimaciones de abril de las ventas anuales tienen una precisión razonable, en

años futuros esa predicción serviría para revisar los programas de producción y mantener el

inventario correcto en las tiendas de descuento minoristas. Parece que varios factores están

relacionados con las ventas, como el número de tiendas de descuento minoristas en la región que

venden componentes de la compañía, el número de automóviles en la región registrados desde el

1 de abril, y el ingreso total personal del primer trimestre del año. Al final se seleccionaron cinco

variables independientes como las más importantes (según el gerente de ventas). Luego se

recopilaron los datos de un año reciente. También se registraron las ventas totales anuales en ese

año por cada región. En la siguiente tabla observe que en la región 1 había 1 739 tiendas de

descuento minoristas que vendían los componentes de autos de la compañía y 9 270 000

automóviles registrados en la región desde el 1 de abril. Las ventas en ese año fueron $37 702 000.
a) Considere la siguiente matriz de correlación. ¿Qué variable individual tiene la correlación

más fuerte con la variable dependiente? Las correlaciones entre las variables

independientes, tiendas de descuento e ingreso, y entre automóviles y tiendas de descuento,

son muy fuertes. ¿Esto puede representar un problema? ¿Cómo se denomina esta

condición?

SOLUCIÓN:

Las variables individuales se muestran en la columna izquierda, en otras palabras, las variables

independientes son: tiendas de descuento, automóviles, ingreso, antigüedad, supervisores. El

coeficiente de relación indica el grado de relación entre una variable independiente y otra

dependiente; y funciona así: a mayor cercanía a 1 mayor relación y a mayor cercanía a 0 menor

relación. Entonces, la variable independiente que tiene una correlación positiva fuerte con la

variable dependiente es ingreso porque R = 0.964.

Las correlaciones entre las variables independientes tiendas de descuento e ingreso y tiendas

de descuento y automóviles, son superiores a 0.70+ por lo que se puede deducir que sí

representan un problema, esta condición es la de multicolinealidad.


b) En la siguiente tabla se presenta el resultado de la ecuación de regresión de las cinco

variables. ¿Qué porcentaje de la variación se explica mediante la ecuación de regresión?

SOLUCIÓN

El coeficiente de determinación es el porcentaje de variación de la variable dependiente,

Y, explicada por el conjunto de variables independientes. Este coeficiente se calcula utilizando los

datos de la tabla ANOVA, así:

En este caso:

1593.81
𝑅2 = = 𝟎. 𝟗𝟗𝟒𝟑𝟑
1602.89
Por lo tanto, las variables independientes tiendas de descuento, automóviles, ingreso, antigüedad

y supervisores explican, o contabilizan, 99.4% de la variación de las ventas.

c) Realice una prueba global de hipótesis para determinar si alguno(s) de los coeficientes de

regresión no son cero. Utilice el nivel de significancia 0.05.

SOLUCIÓN

Para realizar la prueba global de hipótesis se deben determinar:


- Hipótesis nula: β1 = β2 = β3 = β4 = β5 = 0

Hipótesis alternativa: No todas las βi son 0.

- Según la tabla ANOVA, el valor de la distribución F; es decir el F calculado es

140.36

- Utilizando la tabla de distribución F, con k = 5gl en el numerador, 4gl en el

denominador y con un nivel de significancia 0.05; se determina que el valor del F

crítico es 6.26.

- La regla de decisión es: rechazar la hipótesis nula (H0) y aceptar H1 si el valor

calculado de F es mayor que 6.26.

- El valor calculado de F es 140.36, que se encuentra en la región de rechazo. Por lo

tanto, se descarta la hipótesis nula de que todos los coeficientes de regresión

múltiple son cero. Esto significa que algunas variables independientes tienen la

capacidad de explicar la variación de la variable dependiente.

d) Realice una prueba de hipótesis en cada una de las variables independientes. ¿Consideraría

eliminar “tiendas de descuento” y “supervisores”? Utilice el nivel de significancia 0.05.

SOLUCIÓN

Primero se deben determinar las hipótesis nulas y alternativas para cada variable:

Tiendas de
automóviles ingreso antigüedad supervisores
descuento
H0 : β1 = 0 H0 : β 2 = 0 H0 : β3 = 0 H0 : β4 = 0 H0 : β5 = 0

H1 : β1 ≠ 1 H1 : β 2 ≠ 1 H1 : β3 ≠ 1 H1 : β4 ≠ 1 H1 : β5 ≠ 1

- Se probará la hipótesis con el nivel de significancia 0.05. El estadístico de prueba sigue

la distribución t de Student con n - (k + 1) gl. El número de observaciones muestrales


es n = 10. El número de variables independientes es k = 5. Así, hay 4gl. El valor crítico

de t según la tabla es 2.776.

- La regla de decisión es: Rechazar H0 si t es menor que -2776 o mayor que 2.776.

- Consultando con la tabla ANOVA sobre los coeficientes de regresión y los errores

estándar para cada variable, se pueden calcular los valores de t mediante la siguiente

fórmula:

Tiendas de
automóviles ingreso antigüedad supervisores
descuento

−0.0006 − 0 1.7399 − 0 0.4099 − 0 2.0357 − 0 −0.0344 − 0


𝑡= 𝑡= 𝑡= 𝑡= 𝑡=
0.0026 0.5530 0.0439 0.8779 0.1880

𝒕 = 𝟐. 𝟑𝟎𝟕𝟕 𝒕 = 𝟑. 𝟏𝟒𝟔𝟑 𝒕 = 𝟗. 𝟑𝟑𝟕𝟏 𝒕 = 𝟐. 𝟑𝟏𝟖𝟖 𝒕 = −𝟎. 𝟏𝟖𝟑𝟎

- Por lo tanto; para TIENDAS DE DESCUENTO, como t1 es menor que 2.776 entonces

se puede concluir que podría igualar a 0 por lo que esta variable independiente no es

un factor de predicción. En el caso de la variable SUPERVISORES, el valor de t5 es

menor que 2.776 entonces podría igualarse a 0 por lo que no es un factor de predicción.

En conclusión, sí se considera eliminar estas dos variables.


e) Se vuelve a correr la regresión, pero ahora sin “tiendas de descuento” y “supervisores”,

como se muestra a continuación. Calcule el coeficiente de determinación. ¿Cuánto cambió

R2 a partir del análisis anterior?

SOLUCIÓN

El coeficiente de determinación se calcula de la siguiente forma:

En este caso:

1593.66
𝑅2 = = 𝟎. 𝟗𝟗𝟒𝟐𝟒
1602.89
Entonces, a partir del análisis anterior en el cuál R2 = 0.99433, el R2’ cambió en -0.009%.

f) A continuación se presenta un histograma y un diagrama de tallo y hojas de los residuos.

¿Parece razonable la suposición de normalidad?

SOLUCIÓN

Sí, porque las hojas y barras de los gráficos están distribuidos en forma de la curva normal.
g) La siguiente es una gráfica de los valores ajustados de Y (es decir, 𝑌̂) y de los residuos.

¿Observa alguna violación de las suposiciones?

SOLUCIÓN
Existen 5 suposiciones principales:

- Relación lineal, la cual se cumple porque los puntos están dispersos sin un patrón obvio.

- La variación de los residuos es igual en el caso de valores grandes y pequeños de 𝑌̂;

suposición que no se ha violado.

- Distribución de los residuos, al parecer este supuesto sí se está infringiendo porque los

residuos no siguen una distribución de probabilidad normal.

- Multicolinealidad.

- Observaciones independientes, sí se cumple porque no hay un patrón definido y

además, no hay corridas muy largas entre residuos positivos o negativos.


EJERCICIO 19

El administrador de un nuevo programa para practicantes de leyes en Seagate Technical

College desea estimar el promedio de calificaciones en el programa, y considera que el promedio

de calificaciones en el bachillerato, la calificación en aptitudes verbales en el Examen de Aptitud

Escolar (SAT) y la calificación en matemáticas en el SAT serían buenos factores de predicción de

la calificación promedio en el programa. Los datos de nueve estudiantes son:

a) Considere la siguiente matriz de correlación. ¿Qué variable tiene la correlación más fuerte

con la variable dependiente? Algunas correlaciones entre las variables independientes son

fuertes. ¿Esto representaría un problema?

SOLUCIÓN:
La variable que tiene la correlación más fuerte con la variable dependiente es promedio porque es

cercano a 0.70, en este caso, la calificación no cuenta porque sobrepasa a 0.70. De las

correlaciones mostradas, ninguna sobrepasa -0.70 ni 0.70, de forma que no hay problemas de

multicolinealidad. Además la variable con mayor correlación es SAT Matemáticas porque tiene

un valor de 0.636 cercano a 0.70.


b) Considere el siguiente resultado. Calcule el coeficiente de determinación múltiple.

SOLUCIÓN

El coeficiente de determinación múltiple se calcula de la siguiente forma:

En este caso:

4.3595
𝑅2 = = 𝟎. 𝟖𝟔𝟏𝟎
5.0631
c) Realice una prueba global de hipótesis a partir del resultado anterior. ¿Alguno de los

coeficientes de regresión no es igual a cero?

SOLUCIÓN

Para realizar la prueba global de hipótesis se deben determinar:

- Hipótesis nula: β1 = β2 = β3 = 0

Hipótesis alternativa: No todas las βi son 0.

- Según la tabla ANOVA, el valor de la distribución F; es decir el F calculado es 10.33


- Utilizando la tabla de distribución F, con k = 3gl en el numerador, 5gl en el

denominador y con un nivel de significancia 0.05; se determina que el valor del F

crítico es 5.41.

- La regla de decisión es: rechazar la hipótesis nula (H0) y aceptar H1 si el valor

calculado de F es mayor que 5.41.

- El valor calculado de F es 10.33, se encuentra en la región de rechazo. Por lo tanto,

se descarta la hipótesis nula de que todos los coeficientes de regresión múltiple

son cero. Esto significa que algunas variables independientes tienen la capacidad de

explicar la variación de la variable dependiente.

d) Realice una prueba de hipótesis de cada variable independiente. ¿Consideraría eliminar las

variables “verbal” y “matemáticas”? Utilice un nivel α = 0.05.

SOLUCION

Primero se deben determinar las hipótesis nulas y alternativas para cada variable:

Calificación verbal matemáticas


H0 : β 1 = 0 H0 : β2 = 0 H0 : β3 = 0

H1 : β 1 ≠ 1 H1 : β2 ≠ 1 H1 : β3 ≠ 1

- Se probará la hipótesis con el nivel de significancia 0.05. El estadístico de prueba sigue

la distribución t de Student con n - (k + 1) gl. El número de observaciones muestrales

es n = 9. El número de variables independientes es k = 3. Así, hay 5gl. El valor crítico

de t según la tabla es 2.571.

- La regla de decisión es: Rechazar H0 si t es menor que -2.571 o mayor que 2.571.
- Consultando con la tabla ANOVA sobre los coeficientes de regresión y los errores

estándar para cada variable, se pueden calcular los valores de t mediante la siguiente

fórmula:

Calificación verbal matemáticas


1.2014 − 0 0.0016 − 0 −0.0019 − 0
𝑡= 𝑡= 𝑡=
0.2955 0.0022 0.0021

𝒕 = 𝟒. 𝟎𝟔𝟓𝟕 𝒕 = 𝟎. 𝟎𝟎𝟕𝟐 𝒕 = 𝟎. 𝟗𝟎𝟒𝟖

- Por lo tanto; para VERBAL, como t2 es menor que 2.571 entonces se puede concluir

que podría igualar a 0 por lo que esta variable independiente no es un factor de

predicción. En el caso de la variable MATEMÁTICAS, el valor de t3 es menor que

2.571 entonces podría igualarse a 0 por lo que no es un factor de predicción.

En conclusión, sí se considera eliminar estas dos variables.

e) El análisis se vuelve a correr, pero ahora sin “verbal” y “matemáticas”. Observe la siguiente

captura de pantalla. Calcule el coeficiente de determinación. ¿Cuánto cambió R2 a partir

del análisis anterior?

SOLUCIÓN
El coeficiente de determinación se calcula de la siguiente forma:

En este caso:

4.2061
𝑅2 = = 𝟎. 𝟖𝟑𝟎𝟕
5.0631
Entonces, a partir del análisis anterior en el cuál R2 = 0.8610, el R2’ cambió en -3.03%.

f) A continuación se presenta un histograma y un diagrama de tallo y hojas de las varianzas

residuales. ¿Parece razonable la suposición de normalidad en el caso de las varianzas

residuales?

SOLUCIÓN

No, porque la distribución de los puntos no parece ser simétrica, de la forma de una campana de

normalidad. Por lo tanto, la suposición de normalidad no parece ser razonable.


g) En la siguiente gráfica se presentan los valores de los residuos y los valores de 𝑌̂. ¿Observa

alguna violación de las suposiciones?

Existen 5 suposiciones principales:

- Relación lineal, la cual se cumple porque los puntos están dispersos sin un patrón obvio.

- La variación de los residuos es igual en el caso de valores grandes y pequeños de 𝑌̂;

suposición que no se ha violado.

- Distribución de los residuos, al parecer este supuesto sí se está infringiendo porque los

residuos no siguen una distribución de probabilidad normal.

- Multicolinealidad.

- Observaciones independientes, sí se cumple porque no hay un patrón definido y

además, no hay corridas muy largas entre residuos positivos o negativos.

EJERCICIO 20

Mike Wilde es el presidente del sindicato de maestros del Otsego School District. A fin de

prepararse para negociaciones próximas, le gustaría investigar la estructura de los salarios de los

maestros del distrito. Wilde considera que hay tres factores que influyen en el salario de un
maestro: sus años de experiencia, la calificación de su eficiencia como docente por parte del

director y si cuenta con un posgrado. Una muestra de 20 maestros generó los siguientes datos.

a) Formule una matriz de correlación. ¿Qué variable independiente tiene la correlación más

fuerte con la variable dependiente? ¿Habrá problemas respecto de la multicolinealidad?

Para calcular la matriz de correlación desde Excel será necesario:

- Activar la opción “análisis de datos”

- Click sobre esa opción y elegir “coeficiente de correlación”

- Luego, seleccionar todos los datos incluyendo los rótulos

- Finalmente, click en aceptar y la matriz de correlación aparecerá de la siguiente forma:

La variable independiente que tiene una relación más ferte con la variable dependiente, es decir el

salario es la variable “años de experiencia”. Además, se puede deducir que sí existirán problemas

de multicolinealidad porque la correlación entre las variables “posgrado” y “años de experiencia”

es menor que -0.70.

b) Determine la ecuación de regresión. ¿Qué salario estimaría para un maestro con cinco años

de experiencia, una calificación del director de 60 y sin posgrado?


SOLUCIÓN

Según los cálculos realizados en Excel y de la tabla ANOVA,

La ecuación de regresión es:

̂ = 𝟏𝟒. 𝟖𝟓𝟖 + 𝟏. 𝟕𝟖𝟔𝑿𝟏 + 𝟎. 𝟏𝟕𝟎𝑿𝟐 + 𝟏. 𝟒𝟔𝟏𝑿𝟑


𝒀

Entonces, según lo requerido, para un maestro con 5 años de experiencia, una calificación del

director de 60 y sin posgrado, el salario estimado sería:

̂ = 𝟏𝟒. 𝟖𝟓𝟖 + 𝟏. 𝟕𝟖𝟔(𝟓) + 𝟎. 𝟏𝟕𝟎(𝟔𝟎) + 𝟏. 𝟒𝟔𝟏(𝟎) = 𝟑𝟑. 𝟗𝟖𝟖 Miles de dólares.


𝒀

c) Realice una prueba global de la hipótesis para determinar si alguno de los coeficientes de

regresión difiere de cero. Utilice el nivel de significancia 0.05.

Para realizar la prueba global de hipótesis se deben determinar:

- Hipótesis nula: β1 = β2 = β3 = 0

Hipótesis alternativa: No todas las βi son 0.

- Según la tabla ANOVA, el valor de la distribución F; es decir el F calculado es

3.8298

- Utilizando la tabla de distribución F, con k = 3gl en el numerador, 16gl en el

denominador y con un nivel de significancia 0.05; se determina que el valor del F

crítico es 3.10.
- La regla de decisión es: rechazar la hipótesis nula (H0) y aceptar H1 si el valor

calculado de F es mayor que 3.10.

- El valor calculado de F es 3.8298, se encuentra en la región de rechazo. Por lo tanto,

se descarta la hipótesis nula de que todos los coeficientes de regresión múltiple

son cero. Esto significa que algunas variables independientes tienen la capacidad de

explicar la variación de la variable dependiente.

d) Realice la prueba de hipótesis de los coeficientes de regresión individuales. ¿Consideraría

eliminar alguna de las variables independientes? Utilice el nivel de significancia 0.05.

SOLUCIÓN

Primero se deben determinar las hipótesis nulas y alternativas para cada variable:

Años de Calificación
Posgrado
experiencia director
H0 : β 1 = 0 H0 : β2 = 0 H0 : β3 = 0

H1 : β 1 ≠ 1 H1 : β2 ≠ 1 H1 : β3 ≠ 1

- Se probará la hipótesis con el nivel de significancia 0.05. El estadístico de prueba sigue

la distribución t de Student con n - (k + 1) gl. El número de observaciones muestrales

es n = 20. El número de variables independientes es k = 3. Así, hay 16gl. El valor crítico

de t según la tabla es 2.120.

- La regla de decisión es: Rechazar H0 si t es menor que -2.120 o mayor que 2.120.

- Consultando con la tabla ANOVA sobre los coeficientes de regresión y los errores

estándar para cada variable, se pueden calcular los valores de t mediante la siguiente

fórmula:
Años de Calificación
Posgrado
experiencia director

1.7861 − 0 0.1704 − 0 1.4612 − 0


𝑡= 𝑡= 𝑡=
0.8091 0.0806 4.3314

𝒕 = 𝟐. 𝟐𝟎𝟕𝟓 𝒕 = 𝟐. 𝟏𝟏𝟒𝟏 𝒕 = 𝟎. 𝟑𝟑𝟕𝟒

- Por lo tanto; para AÑOS de EXPERIENCIA, como t1 es mayor que 2.120 entonces se

puede concluir es diferente de 0 por lo que esta variable independiente sí es un factor

de predicción. En el caso de la variable CALIFICACIÓN, el valor de t2 es menor que

2.120 entonces podría igualarse a 0 por lo que no es un factor de predicción y se

considera eliminar esta variable. Para Posgrado, como t3 es menor que 2.120,

entonces también se podría igualar a 0 por lo que debería eliminarse.

En conclusión, sí se considera eliminar estas dos últimas variables.

e) Si su conclusión en el inciso d) fue eliminar una o más variables independientes, realice de

nuevo el análisis sin estas variables.

Primero se deben determinar la hipótesis nula y alternativa para cada variable:

Años de
experiencia
H0 : β1 = 0

H1 : β1 ≠ 1

- Se probará la hipótesis con el nivel de significancia 0.05. El estadístico de prueba sigue

la distribución t de Student con n - (k + 1) gl. El número de observaciones muestrales

es n = 20. El número de variables independientes es k = 1. Así, hay 18gl. El valor crítico

de t según la tabla es 2.101.

- La regla de decisión es: Rechazar H0 si t es menor que -2.101 o mayor que 2.101.
- Consultando con la tabla ANOVA sobre los coeficientes de regresión y los errores

estándar para cada variable, se pueden calcular los valores de t mediante la siguiente

fórmula:

Años de
experiencia

1.2059 − 0
𝑡=
0.6317

𝒕 = 𝟏. 𝟗𝟎𝟗𝟎

- Por lo tanto; para AÑOS de EXPERIENCIA, como t1 es menor que 2.101 entonces se

puede concluir que podría es 0 por lo que esta variable independiente ya no es un factor

de predicción.

f) Determine los residuos de la ecuación del inciso e). Utilice un diagrama de tallo y hojas o

bien un histograma para verificar que la distribución de los residuos sea aproximadamente

normal.

SOLUCIÓN

A través de Excel y con los datos mostrados de este ejercicio, los residuos son:
Como se puede apreciar, la distribución delos residuos no siguen una distribución normal.

g) Trace los residuos calculados en el inciso f) en un diagrama de dispersión con las varianzas

residuales en el eje Y y los valores 𝑌̂ en el eje X. ¿La gráfica revela alguna violación de las

suposiciones de regresión?

SOLUCIÓN

De acuerdo a la tabla con los pronósticos y los residuos, se puede elaborar el siguiente gráfico de

dispersión:

DIAGRAMA DE DISPERSIÓN
6

0
0 5 10 15 20 25 30 35 40
-2

-4

-6

You might also like