Professional Documents
Culture Documents
APLICACIONES DE
1
FORMULAS PARA TRIUNFAR
LA FORMULA BÁSICA. Los investigadores se han dedicado a averiguar cuál ha sido la idea, el secreto que ha
llevado al triunfo a los grandes personajes de la historia. Y han encontrado una fórmula que todos los
triunfadores practicaron, y sin la cual no habrían llegado a ser grandes ni famosos. Esta fórmula consiste
en los siguientes cinco puntos:
a) Dirigir el pensamiento hacia una meta fija que se desea conseguir. Saber bien cuál es esa
meta que se desea alcanzar y no desviar la atención de ella.
b) Elaborar un plan para lograr conseguir esa meta, un plan cuidadoso y detallado que se va
siguiendo día por día, y que hace que nuestra actividad sea organizada y llena de entusiasmo.
c) Desarrollar un sincero deseo de realizar aquello que se desea conseguir. El deseo ardiente
es el más importante motivador de las acciones. El deseo de lograr éxitos consigue la costumbre de
conseguir éxitos.
e) Dedicarse a una acción tenaz e incansable para lograr obtener la meta que se busca
conseguir, sin desanimarse por los obstáculos, las críticas, las circunstancias adversas, o lo negativo que los
demás piensen, hagan o digan. Esa energía concentrada hacia la consecución de una meta, trae
enormemente las oportunidades, las cuales no se dejan atrapar por los que están sin hacer nada, pero se
acercan generosamente a quienes se atreven a atacar, a trabajar fuertemente por conseguir el éxito.
Esta fórmula básica Meyer la llamó “El plan del éxito personal a base de automotivación”, para desarrollar
al máximo el potencial de cada uno.
Meyer resume la fórmula básica en la siguiente frase:
Si una de tus metas es APRENDER aplica esta fórmula y “comienza con la mente abierta”. La cualidad más
importante que afectará tu éxito en el curso es tu ACTITUD. Ésta determinará lo que estés dispuesto a
hacer en el curso, y la calidad de ese esfuerzo contribuirá de la manera más significativa a tu éxito.
2
Contenido
I Documento introducción
II Estudio de Caso.
IV Estudio de caso
V Estudio de caso
Exportaciones de cobre por continente y países de destino ( Media geométrica- Tasa de crecimiento
promedio)
VI Estudio de caso
IX Estudio de caso
X Estudio de caso
XI Estudio de caso
3
I. Documento introducción :Análisis Inicial de los datos1
Cuando nos enfrentamos por primera vez a la realización de un análisis estadístico la máxima preocupación
es profundizar en la técnica estadística seleccionada, sin .embargo, existe una etapa previa incluso más
compleja y esencial que consiste en realizar un examen exhaustivo de los datos recabados.
La depuración de los datos o detección de problemas ocultos en los datos supondrá un gran avance en la
consecución de resultados lógicos consistentes. Dichos problemas se pueden subsanar comenzando por una
inspección visual de las representaciones gráficas de los datos, completándose con un análisis de datos
ausentes o perdidos y de los casos atípicos (conocidos bajo la denominación de outliers).
La difusión experimentada en los últimos años por los programas estadísticos ha facilitando la
incorporación de módulos específicamente diseñados para la inspección gráfica de los datos.
El estudio de cada variable es fundamental para conocer sus características y comprobar si es oportuna y
relevante su inclusión en el análisis. Para ello se aconseja observar la forma de su distribución. Esto se
consigue mediante el histograma, que representa gráficamente los datos mostrando en barras la frecuencia
de los casos en cada variable. Si a su vez se pretende evaluar la normalidad de la variable, se efectuará
superponiendo la curva normal sobre la distribución o realizando gráficos P-P o Q-Q.
Mediante el gráfico de dispersión se podrá examinar la relación entre dos o más variables. Se trata de un
gráfico de puntos de datos basados en dos variables, representadas una en el eje horizontal y la otra en el
vertical. El posicionamiento de los puntos a lo largo de una línea recta se debe a la existencia de correlación
lineal. Si los puntos siguen distintas formas la relación no podrá calificarse de lineal. La inexistencia de
relación se podrá constatar si la nube de puntos es aleatoria y dispersa. ( Mediante correlaciones
bivariadas Pearson se podrá determinar mediante una prueba de hipótesis si la correlación entre dos
variables de escala es significativa).
Mediante el gráfico de cajas o boxplot se puede llevar a cabo un análisis de las diferencias entre grupos, si
lo que se pretende es apreciar la existencia de dos o más grupos en una variable métrica, como ocurre en el
análisis discriminante o en el análisis de la varianza. Este gráfico distribuye los datos de tal forma que los
límites superior e inferior de la caja marcan los cuartiles superior e inferior. La longitud de la caja es la
distancia entre el primer y tercer cuartil; así, la caja contiene el 50 por ciento de los datos centrales de la
distribución. La mediana se representa mediante una línea dentro de la caja. Existirá asimetría si la
mediana se aproxima al final de la caja. El tamaño de la caja dependerá de la distancia entre las
observaciones. También se representa la distancia entre la mayor y la menor de las observaciones mediante
unas líneas que salen de la caja denominadas bigotes. En este tipo de gráfico los casos atípicos se pueden
detectar por estar situados entre 1,0 Y 1,5 cuartiles fuera de la caja.
Diagrama de caja simple: Contiene un único diagrama de caja para cada categoría o variable del eje de
categorías. Los diagramas de caja muestran la mediana, los cuartiles y los valores extremos para la
categoría o variable.
Diagrama de caja agrupado: Tipo de gráfico en el que un grupo de diagramas de caja representa cada
categoría o variable del eje de categorías. Los diagramas de caja dentro de cada agrupación vienen
definidos por una variable de definición distinta.
1
TP PT Análisis Estadístico Multivariable de Manuel Vivanco
4
Años de escolarización por raza
899 634
20
718
10
691
1.366 702
244 693
5
620 688
596 765 1.476
735
0
15
10
1.404
804
244 621 1.448 693
5
620 695 688
596 821 765
735
0
5
Detección de variables con categorías mal codificadas
En muchos archivos de datos se detectan problemas en variables nominales con categorías en formato
cadena sin un código asociado. Para detectar este problema es aconsejable realizar tablas de frecuencia de
las variables y observar si las categorías presentan errores de digitación, como por ejemplo la variable
sexo podría presentar problemas si las categorías están mal digitadas; Hombre, HOMBRE, hombre
representan a la misma categoría, sin embargo en una tabla de frecuencia aparecerán como categorías
diferentes. Para solucionar este problema se recomienda recodificar automáticamente asignándole a las
categorías de la variable un código numérico y luego con recodificar en distinta variable asignar
correctamente los códigos.
El problema de estos errores es el gran perjuicio que la inexistencia de datos ocasiona en los resultados y
sus efectos en el tamaño de la muestra disponible para el análisis, dado que esta ausencia puede convertir
lo que era una muestra adecuada en inadecuada. Por ello es necesario depurar esos casos y buscar
soluciones. Si se puede suponer que los fundamentos teóricos de la investigación no se alteran
sustancialmente, una opción sería suprimir aquellas variables y/o casos que peor se comportan respecto a
los datos ausentes. En este caso el investigador deberá sopesar lo que gana con la exclusión de esta
información y lo que pierde al no contar posteriormente en el análisis multivariante con la misma. Mediante
este proceder se asegura de que su matriz de datos está completa y posee observaciones válidas.
Otra posibilidad sería la estimación de valores ausentes empleando relaciones conocidas entre valores
válidos de otras variables y/o casos de la muestra. Por tanto, se trataría de imputar o sustituir los datos
ausentes por valores estimados (bien sea la media o un valor constante) en base a otra información
existente en la muestra.
Un porcentaje bajo de valores missing no es un problema que influya decisivamente en los resultados. Por
el contrario, la falta reiterada de respuesta puede alterar seriamente el análisis. No existe una estimación
respecto al porcentaje de missing que produce dificultades en una muestra determinada.
Según Tabachnik y Fidell (1983) más importante que el número de valores missing es la existencia de un
patrón de comportamiento en éstos. En efecto, la presencia de missing que se distribuyen aleatoriamente
no produce sesgos, sin embargo, la falta de respuesta sistemática asociada a ciertas variables puede
generar distorsión en los resultados.
La existencia de datos ausentes nunca debe impedir la aplicación del análisis multivariable o limitar la
posibilidad de generalizar los resultados de una investigación. La principal tarea del analista consistirá en
identificar su presencia, y desempeñar las acciones necesarias para minimizar sus efectos.
En datos correspondientes a encuestas es habitual encontrar códigos como los siguientes.
7= No procede, 8= No sabe , 9= No contesta
97= No procede, 98= No sabe, 99= No contesta
997= No procede, 998= No sabe, 999= No contesta
6
Se utilizan estos códigos cuando no son parte de los posibles datos de la variable.
El SPSS tiene un menú especial para tratar los valores perdidos.
El SPSS hace diferencia para los valores perdidos por el usuario y valores perdidos por el sistema.
Detección de outliers
Al examinar los datos recabados después de un proceso muestral el investigador puede detectar la
existencia de ciertas observaciones que no siguen el mismo comportamiento del resto, enfrentándose de
este modo a ciertos casos que, por ser claramente diferentes de otras observaciones de la muestra, son
calificados como outliers o atípicos.
El objetivo ante esta situación es identificar esa diferencia sustancial entre el valor real de la variable
criterio y su valor previsto, puesto que da lugar a observaciones que no son representaciones apropiadas de
la población de la cual se extrae la muestra.
Los casos atípicos se deben a errores en el procedimiento, o lo que es lo mismo, a falta al introducir los
datos o al codificar. Pero también pueden ser consecuencia de un evento extraordinario que hace destacar
esa observación. Este acontecimiento anormal puede tener o no una explicación. En cualquiera de estas
situaciones, una vez que: los outliers el analista debe juzgar qué es lo más apropiado: si evaluar toda la
incluyendo estas perturbaciones o eliminadas del análisis.
Estas decisiones han de justificarse, dado que determinados casos atípicos: aunque diferentes a la mayor
parte de la muestra, pueden contener información representativa de un segmento dominante. No obstante,
habrá situaciones donde lo más acertado sea su supresión porque pueden distorsionar seriamente los tests
estadísticos dados los problemas que presentan.
La detección de los casos atípicos desde una perspectiva univariable pasa por la observación de aquellos
casos que caigan fuera de los rangos de la distribución. Si lo que se pretende es evaluar conjuntamente
pares de variables se utilizará el gráfico de dispersión. Este método bivariable permite identificar los
casos atípicos al venir representado como puntos aislados. Por su parte, la detección multivariable supone
evaluar cada observación a lo largo de un conjunto de variables. Esto se consigue mediante el uso de la
Mahalanobis, puesto que es una medida de la distancia de cada observación en un espacio multidimensional
respecto del centro medio de las observaciones.
7
II. Estudio de Caso: Caracterización del Mundo2
Considere el archivo Mundo 95, que contiene las siguientes variables de los países del Mundo en el
año 1995:
Variable Etiqueta Etiqueta de Valor
país País
poblac Población x 1000
densidad Habitantes x Km2
urbana Habitantes en ciudades (%)
relig Religión mayoritaria
espvidaf Esperanza de vida Femenina
espvidam Esperanza de vida Masculina
alfabet Alfabetización (%)
inc_pob Aumento de población (% anual)
mortinf Mortalidad infantil (Muertes por 1000 nacimientos
vivos)
pib_cap Producto interno bruto per cápita
región Región Económica 1 = OCDE
2 = Europa Oriental
3 = Asia / Pacífico
4 = Africa
5 = Oriente Medio
6 = América Latina
calorías Ingesta diaria de calorías
sida Casos de SIDA
tasa_nat Tasa de natalidad (por 1.000 habitantes)
tasa_mor Tasa de mortalidad (por 1.000 habitantes)
tasasida Casos de SIDA por 100.000 habitantes
log_pib Log(10) de PIB_CAP
logtsida Log(10) de TASASIDA
nac_def Tasa nacimentos/defunciones
fertilid Número promedio de hijos
log_pob Log(10) de POBLAC
cregrano --
alfabmas Hombres alfabetizados (%)
alfabfem Mujeres alfabetizadas (%)
clima Clima predominante 1 = Desierto
2 = Arido / Desierto
3 = Arido
5 = Tropical
6 = Mediterráneo
7 = Marítimo
8 = Templado
2
TP Caso desarrollado por Sara Arancibia
8
9 = Artico /
Templado
10 = Artico
Usted debe realizar un informe donde compare los países en al menos los siguientes aspectos: Población,
densidad, % de habitantes en ciudades, esperanza de vida, alfabetización (%), tasas de natalidad y
mortalidad, número promedio de hijos por familia, tasa sida, considerando las variables nominales Región,
Religión mayoritaria y clima predominante.
Solución:
Comenzaremos el estudio determinando la frecuencia de las variables nominales; Región Económica, Religión
Predominante y Clima Predominante de los países
La tabla de frecuencia muestra el número de países por Región económica. Se observan dos regiones con la
mayor frecuencia, (21 países) las que corresponden a la Región OECD (Organización para la Cooperación y el
Desarrollo Económico) y a la Región de Latino América, correspondiendo al 19,3% del total de países. La
menor frecuencia se observa en Europa del Este con 14 países de un total de 109 países.
9
Frecuencia y porcentaje de países
por Religión Predominante
Other Buddhist
Protstnt
16,00 / 14,7%
Catholic
Orthodox
41,00 / 37,6%
8,00 / 7,3%
Muslim
27,00 / 24,8%
Se observa que 41 países que representan el 37,6% del total de países considerados tienen como religión
predominante a la religión Católica y 27 países a la religión Musulmana representando el 24,8% del total de
países considerados.
Predominant religion
Al cruzar las variables región y religión podemos observar en la tabla de contingencia que la Religión
Predominante Animista pertenece a países de África. La religión predominante Católica se encuentra en
todas las regiones excepto en la Región de Oriente donde la religión predominante es la Musulmana con 15
países de un total de 17 países de la región
10
Predominant religion * Region or economic group Crosstabulation
Count
Region or economic group
East Pacific/ Middle Latn
OECD Europe Asia Africa East America Total
Predominant Animist 4 4
religion Buddhist 7 7
Catholic 10 5 1 5 20 41
Hindu 1 1
Jewish 1 1
Muslim 1 5 6 15 27
Orthodox 1 6 1 8
Protstnt 10 2 1 2 1 16
Taoist 2 2
Tribal 1 1
Total 21 14 17 18 17 21 108
En relación al Clima Predominante se observa que las mayores frecuencias corresponden a los climas
Temperado y Tropical los que representan un 31,8% y 29,9% respectivamente, respecto al total de datos
válidos.
Predominant climate
Ahora consideremos la población, densidad y habitantes que viven en ciudades. Podemos observar del
gráfico correspondiente a la mediana de población por región económica que el 50% de los países del
Asia/Pacífico tienen una población mayor o igual a 59.400.000 habitantes, valor notablemente alto en
relación a las medianas del resto de las regiones las que oscilan entre 10.400.000 y 5.500.000 habitantes.
11
Mediana de Población por Región Económica
70000
60000
59400
50000
40000
30000
20000
10000
10400 9600 9100 7900
0 5500
OECD Pac ific/Asia Middle East
East Europe Africa Latn America
Coherente con lo anterior se observa que la mayor densidad por región económica corresponde a la región
Asia/Pacífico con un valor promedio de 802 habitantes por kmP 2P, la que es considerablemente superior a la
densidad promedio del resto de regiones, las que oscilan entre 127 y 62 habitantes por kmP2P
correspondiendo esta última a la región de África
800
802
600
400
200
108 127
77 62 88
0
OECD Pac ific/Asia Middle East
East Europe Africa Latn America
12
Media de porcentaje de población
que vive en ciudades
OECD 75
East Europe 62
Region or economic group
Pac ific/Asia 45
Africa 29
Middle East 66
Latn America 61
20 30 40 50 60 70 80
En relación al porcentaje de personas que viven en ciudades, se observa del gráfico que el mayor
porcentaje promedio corresponde a la Región OECD, con un 75% en promedio. Es considerable la diferencia
con la región de África donde el promedio de población urbana es del 29%, seguido de Asia/Pacífico con un
promedio del 45%.
Podemos complementar la información anterior con Cubos OLAP, los que muestran por grupos, los
estadísticos que se necesiten conocer. Específicamente los Cubos siguientes muestran para las regiones
OECD y África, el número de países el que corresponde a 21 y 18 países respectivamente. Se observa la
media para cada una de las variables consideradas y la desviación estándar que muestra cuánto se desvían
los datos, en promedio respecto a la media.
Al considerar el cubo correspondiente a la región OECD se observan los valores mínimo y máximo, es
sorprendente observar que existen países con una densidad de 2,3 habitantes por kmP 2P y de 366 personas
por kmP2P. Al considerar la población, dentro de los países del OECD se puede apreciar un valor mínimo de
263.000 habitantes en oposición al valor máximo de 260.800.000 habitantes. El mayor porcentaje de
población urbana corresponde al 96% y el menor corresponde al 34%.
OLAP Cubes
13
OLAP Cubes
Para identificar a qué países corresponden estos valores máximos y mínimos se puede solicitar los valores
extremos (outliers) que muestra los cinco valores mayores y menores.
Para generar las tablas: Analizar/Estadísticos Descriptivos/Explorar. En Factor colocar Región económica
y etiquetar por país. En Estadísticos seleccionar Valores Atípicos.
Ahora consideraremos las variables; Esperanza de vida femenina, esperanza de vida masculina, tasa de
natalidad, tasa de mortalidad, tasa sida, fertilidad y alfabetización
El gráfico siguiente muestra la media de esperanza de vida femenina y masculina por Región Económica. Se
observa que en todas las regiones es mayor la media de esperanza de vida femenina que masculina siendo la
región del OECD, la de mayor esperanza de vida, con un promedio de 80 y 74 años para mujeres y hombres
respectivamente. Es notable la diferencia con África donde se observa que el promedio de esperanza de
vida es muy baja siendo la media de 54 y 51 años para mujeres y hombres respectivamente.
14
Media de las variables Esperanza de Vida
80
80
76
74
70 72 72
68 67 67 66
60 63
Femenina
40 Masculina
OECD Pac ific/Asia Middle East
East Europe Africa Latn America
Región Económica
La tabla siguiente identifica los países con mayor y menor esperanza de vida
El siguiente gráfico apilado compara la tasa de natalidad y mortalidad por región económica, mostrando que
las mayores tasas corresponden a la región de África, las que indican que en promedio nacen 42 por cada
15
1.000 habitantes y mueren en promedio 15 por cada 1.000 habitantes. La menor tasa de natalidad en
promedio corresponde a la región del OECD
40 42
6
9 7
30 33
27 27
20 11 Death rate per 1000
10
people
10 13 13
Mean
Esta información está muy de acuerdo con la variable fertilidad, la que indica el promedio de hijos por
familia.
El diagrama de caja muestra por región económica que las mayores tasas de fertilidad se concentran en la
Región de África mostrando que la mediana representada por la línea horizontal en las cajas se aproxima al
valor 6 hijos por familia en promedio. El 50% de los datos de fertilidad de los países se encuentra en la
caja la que va desde el primer cuartil al tercer cuartil. La tabla de descriptivos para fertilidad por región
confirma la información entregada por el diagrama de caja.
Diagrama de caja
Fertilidad por región económica
10
0
N= 21 13 16 19 17 21
16
Descriptives
Como complemento de la información vemos que la tabla siguiente muestra las medidas de tendencia central
y de dispersión para todas las variables consideradas en este apartado.
Descriptives
Si consideramos sólo los países de las regiones OECD y África, observamos cómo cambian las medidas de
tendencia central y dispersión ya que en todas las variables, los países de la región de África están con
índice muy por debajo de los de la región OECD. Si queremos reconocer qué países en esas regiones tienen
los cinco valores máximos y mínimos los podemos apreciar de la tabla de valores extremos.
17
Descriptives
Descriptives
Si queremos comparar Chile en esperanza de vida femenina y masculina, tasa de natalidad, tasa de
mortalidad, fertilidad, tasa sida y alfabetización respecto al resto de países de la base de datos
consideramos las puntuaciones z de cada una de ellas, las que nos muestran que:
esperanza de vida femenina en Chile está sobre la media en 0,74 desviaciones estándares.
esperanza de vida masculina en Chile está sobre la media en 0,65 desviaciones estándares.
tasa de natalidad en Chile está bajo la media en 0,23 desviaciones estándares.
tasa de mortalidad en Chile está bajo la media en 0,83 desviaciones estándares.
fertilidad (promedio de hijos por familia) en Chile está bajo la media en 0,55 desviaciones
estándares.
tasa sida en Chile está bajo la media en 0,37 desviaciones estándares
alfabetización (% de personas que saben leer) en Chile está sobre la media en 0,64 desviaciones
estándares.
18
EJERCICIOS:
1) Seleccione la Región de América Latina y realice un gráfico que muestre la población de los países
de esa región.
2) Segmente por región económica y calcule los cuartiles de esperanza de vida femenina y masculina
19
III. Estudio de Caso: Seguridad Minera3
El año 1980, el Servicio Nacional de Geología y Minería SERNAGEOMIN fue creado a partir de la unión del
Instituto de Investigaciones Geológicas y el Servicio de Minas del Estado, con el objetivo de ser el asesor técnico
especializado del Ministerio de Minería en materias geológicas y mineras. Su misión es producir y proveer
información y productos geológicos, ejercer la función pública de fiscalización de las condiciones de seguridad
minera y medioambiente en la minería y entregar asistencia técnica en materias de constitución de la propiedad
minera, con el fin de satisfacer las demandas de las instituciones del Estado, de las empresas públicas y
privadas, y de las personas que participan en el sector minero y en el quehacer geológico, contribuyendo al
desarrollo del país en un entorno social, económico y ambientalmente sustentable.
Una de las principales actividades del SERNAGEOMIN es la fiscalización, en materias de control de riesgos de
accidentes, a las empresas y los trabajadores que desarrollan actividades en el sector minero. Esta actividad
tiene su base legal en la Ley Orgánica del Servicio D.L. Nº 3.525 y se encuentra enmarcada dentro del
Reglamento de Seguridad Minera (D.S. Nº 72 del Ministerio de Minería, año 1985
Suponga que usted debe analizar la información entregada por SERNAGEOMIN relativa a accidentes en minería.
Considere el archivo de datos “Estadísticas seguridad minera (Archivo tarea 2).xls”
1- Desde SPSS importar el archivo “Estadísticas seguridad minera (Archivo tarea 2).xls” desde Excel. Calcular
una variable que represente el total de accidentes (considerando accidentes fatales más los accidentes C.T.P.).
Además considerando las regiones genere la variable zona; Norte, Centro y Sur. Muestre la sintaxis completa del
cálculo de ambas variables.
Luego considerando la totalidad de datos en el archivo de datos, genere una tabla donde muestre por zona la suma total
de accidentes; fatales, CTP y total de accidentes. Muestre la sintaxis.
¿Qué zona presenta la menor cantidad de accidentes C.T.P? ¿Qué zona presenta la mayor cantidad total de accidentes?
¿Qué zona presenta mayor cantidad de accidentes fatales y qué porcentaje representan respecto al total de accidentes
fatales?
2.- Crear un nuevo archivo que considere por año y tipo de empresa ( Mandantes y Contratistas): la media de
accidentes fatales, la suma de accidentes fatales, la media del total de accidentes, la suma del total de
accidentes, la media del total de accidentes, la suma de días perdidos, la suma de horas hombre. Pegar la
sintaxis.
3.- Considere el archivo creado en el punto anterior y calcule la tasa de frecuencia, la tasa de gravedad y la tasa
de fatalidad de acuerdo a las siguientes definiciones. (Fuente: Art.12° del D.S N° 40 de la Ley 16.744)
Tasa de Frecuencia: Número de lesionados por millón de horas trabajadas por todo el personal en el período
considerado.
3
TP Caso desarrollado por Sara Arancibia
20
Tasa de Gravedad: Número de días de ausencia al trabajo de los lesionados por millón de horas trabajadas por
todo el personal en el período considerado.
Tasa de Fatalidad: Numero de fatales por millón de horas trabajadas por todo el personal en el período
considerado
Pegar la sintaxis de los cálculos y mostrar un gráfico que permita visualizar en qué años la tasa de fatalidad toma
un valor extremo o atípico por tipo de empresa (Mandantes, Contratistas). ¿En qué tipo de empresa la mediana
es mayor? ¿En qué tipo de empresa se presentan las tasas de fatalidad más altas y dónde se observa más
variabilidad? Argumente su respuesta.
4.- Crear un nuevo archivo que considere por región y empresas; la media de accidentes fatales, la suma de
accidentes fatales, la suma del total de accidentes, el mínimo del total de accidentes, el máximo del total de
accidentes. Pegar la sintaxis. Muestre una tabla identificando la región donde se presentan los cinco valores
mayores para las variables; suma total de accidentes y suma de accidentes fatales, por tipo de empresa
(Mandantes y contratistas). Comente la tabla.
SOLUCION
Pregunta 1.
SINTAXIS
DATASET ACTIVATE Conjunto_de_datos3.
COMPUTE totalacc=AccidentesFatales + AccidentesC.T.P.
VARIABLE LABELS totalacc 'total de accidentes'.
EXECUTE.
Antofagasta 1 Antofagasta
Arica-Parinacota 2 Arica-Parinacota
Atacama 3 Atacama
Coquimbo 4 Coquimbo
De Aysén 5 De Aysén
De Los lagos 6 De Los lagos
Del Bío Bio 7 Del Bío Bio
21
Del Libertador Bernardo 8 Del Libertador Bernardo
O´Higgins 8 O´Higgins
Del Maule 9 Del Maule
Magallanes 10 Magallanes
Metropolitana 11 Metropolitana
Tarapacá 12 Tarapacá
Valparaíso 13 Valparaíso
RECODE regionrec (12=1) (11=2) (13=2) (10=3) (1 thru 4=1) (8 thru 9=2) (5 thru 7=3) INTO zona.
EXECUTE.
En definición de la variable
1 Norte
2 Centro
3 Sur
¿Qué zona presenta la mayor cantidad total de accidentes? La zona Norte con 21702
22
¿Qué zona presenta mayor cantidad de accidentes fatales y qué porcentaje representan respecto al total de accidentes
fatales?
La zona Norte con 390 accidentes fatales y representan el 70,7% del total de accidentes fatales
Pregunta 2:
SINTAXIS
AGGREGATE
/OUTFILE='G:\CURSOS 2011\MBA MINERIA\TAREA 2- MBA Minería 2011\AGRaccidentes1.sav'
/BREAK=Años Empresas
/AccidentesFatales_mean=MEAN(AccidentesFatales)
/AccidentesFatales_sum=SUM(AccidentesFatales)
/AccidentesC.T.P_mean=MEAN(AccidentesC.T.P)
/AccidentesC.T.P_sum_1=SUM(AccidentesC.T.P)
/totalacc_sum=SUM(totalacc)
/HorasHombre_sum=SUM(HorasHombre)
/DíasPerdidos_sum=SUM(DíasPerdidos)
/N_BREAK=N.
Pregunta 3
SINTAXIS:
23
Pregunta 4
SINTAXIS
24
25
IV Caso: Producción minera 2009-2010
Suponga que usted es un asesor de una empresa minera y debe entregar algunas estadísticas de producción
agregada. Considere el archivo en Excel llamado Producción minera 2009-2010.
El objetivo de este caso es importar un archivo desde Excel a SPSS, utilizar algunas funciones para
calcular variables y generar nuevos archivos con agregar.
1) Desde SPSS importar el archivo considerando la hoja prod minera 2009-2010 mensual.
2) Calcule una variable que muestre solo el año y otra que muestre solo el mes
3) Genere un archivo con estadísticas agregadas de producción para el año 2009 y 2010 considerando
la producción de cobre y oro. Para esto considere para cada año la producción total, la media de producción
mensual, la variabilidad, la mínima y máxima producción.
4) Transponer el archivo creado y guarde como Producc agregada 2009-2010 y realice una tabla con
los datos del archivo.
5) Genere un gráfico que muestre para cada año la producción promedio mensual de cobre
6) Genere un gráfico que muestre para cada año la producción media mensual de cobre, la mínima y
máxima producción mensual y la variabilidad de producción de cobre
7) Considerando los años 2009 y 2010 genere un archivo con estadísticas agregadas por mes para la
producción de oro. Para esto considere la media de producción mensual , la mínima y máxima producción, la
desviación estándar y el coeficiente de variabilidad de la producción de oro.
26
SOLUCION
1) Desde SPSS importar el archivo considerando la hoja prod minera 2009-2010 mensual.
Solución: Archivo /abrir/datos
Ajuste en vista de variables los decimales a 2 y guardar con el nombre producción minera 2009-2010
mensual
2) Calcule una variable que muestre solo el año y otra que muestre solo el mes.
27
Para calcular el mes
Transformar /calcular variable/ variable de destino: mes, tipo; cadena, anchura 10/expresión de cadena:
CHAR.SUBSTR(AñoyMes,6). Pegar/ ejecutar/Aceptar.
3) Genere un archivo con estadísticas agregadas de producción para el año 2009 y 2010 considerando
la producción de cobre y oro. Para esto considere para cada año la producción total, la media de producción
mensual , la variabilidad, la mínimo y máxima producción
28
4) Transponer el archivo creado y guarde como Producc agregada 2009-2010 y realice una tabla con
los datos del archivo.
Datos/ transponer
DATASET ACTIVATE Conjunto_de_datos10.
FLIP VARIABLES=Cobretdefino_sum Cobretdefino_min Cobretdefino_max Cobretdefino_sd
Orokgdefino_sum
Orokgdefino_mean_1 Cobretdefino_mean Orokgdefino_min Orokgdefino_max Orokgdefino_sd
/NEWNAME=año.
Se genera un nuevo archivo sin título. Guardar como: Producc agregada 2009-2010, luego ir a Analizar/
informes Resúmenes de casos./limitar a los primeros 11 casos.
29
5) Genere un gráfico que muestre para cada año la producción mensual de cobre
Considere el archivo AGRPROD.sav /ir a gráficos /cuadros de diálogo antiguos/ barras/ simple/ valores
individuales de casos/ las barras representan: Cobretdefino_mean, varaible:año
Otra forma Considere el archivo prod minera 2009-2010. Ir a gráficos /cuadros de diálogo antiguos/
barras/ simple/ resúmenes para grupos de casos/ las barras representan: MEAN(Cobretdefino), eje de
categorías : año
30
6) Genere un gráfico que muestre para cada año la producción media mensual de cobre, la mínima y
máxima producción mensual y la variabilidad de producción de cobre
Ir a gráficos /cuadros de diálogo antiguos/ barras/ agrupados/ resúmenes para distintas variables/ las
barras representan: MEAN(Cobretdefino), MIN(Cobretdefino), MAX(Cobretdefino), STD(Cobretdefino),
eje de categorías : año. Aceptar
31
7) Considerando los años 2009 y 2010 genere un archivo con estadísticas agregadas por mes para la
producción de oro. Para esto considere la media de producción mensual, la mínima y máxima producción, la
desviación estándar y el coeficiente de variabilidad de la producción de oro.
Ir a Datos Agregar/ Considere las variables como en la imagen y escriba un nuevo archivo de datos con el
nombre AGRPRODMES.sav
Luego abrir el archivo creado y generar la variables CV (Coeficiente de variabilidad). Para esto ir a
Transformar/calcular/ (Orokgdefino_sd / Orokgdefino_mean_1)*100
32
33
V. Estudio de Caso: Exportaciones de cobre por continente y países de destino 4
Suponga que usted es asesor de una empresa minera y debe hacer un informe en relación a las estadísticas
de producción chilena de cobre por continente y por países de destino considerando las exportaciones
desde el año 2006 al 2011 (Miles de toneladas de cobre fino).
Fuente: SONAMI.
Considerando el archivo “Exportaciones de cobre.sav” realice un informe que contemple las siguientes
preguntas:
1) Calcule la variación porcentual anual de las exportaciones por país de destino, considerando las
variaciones porcentuales del 2007 al 2011.
2) Calcule la tasa de crecimiento promedio de exportación por país de destino, utilizando la media
aritmética y la media geométrica y muestre por continente una tabla que permita comparar los
resultados entre la media aritmética y la media geométrica y las tasas de crecimiento promedio.
3) Compare cuál de las dos medias representa una mejor tasa de crecimiento para las exportaciones
por países. ( Considere Colombia, Canadá y Brasil)
4) Realice el ejercicio con la media armónica. Compare los resultados.
Solución
1) Lo primero es calcular una variable para la diferencia de las exportaciones entre un año y el
anterior pero segmentado por país de destino ( para que sólo considere las exportaciones de cada
país) desde el 2006 al 2011
Luego en el menú Transformar, Crear serie temporal, considerar la variable exportaciones, función
diferencia,1
4
TP Caso elaborado por Sara Arancibia
34
CREATE
/Export_1=DIFF(Exportación 1).
2) Para Calcular la tasa de crecimiento promedio de exportación por país de destino, utilizando la
media aritmética y la media geométrica, se procede a calcular el cuociente, proporción de las
exportaciones de un año respecto al año anterior
USE ALL.
COMPUTE filter_$=(Año >= 2007 & Año <= 2011).
VARIABLE LABEL filter_$ 'Año >= 2007 & Año <= 2011 (FILTER)'.
VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.
FORMAT filter_$ (f1.0).
35
FILTER BY filter_$.
EXECUTE.
Continente: América
Tasa de
crecimiento
promedio Tasa de crecimiento
Pais de Media GeometMedia (media promedio ( media
destino N Aritmética Geométrica aritmética) geométrica)
Argentina 5 ,9677 ,9564 -,03231 -,04365
Brasil 5 1,0024 ,9929 ,00243 -,00708
Canadá 5 ,6676 ,6137 -,33242 -,38633
Colombia 5 1,2849 1,0238 ,28486 ,02384
Estados 5 ,9361 ,9137 -,06388 -,08628
Unidos
México 5 ,9123 ,8806 -,08768 -,11938
Otros 4 2,4208 ,9306 1,42083 -,06940
Panamá 3 ,9255 ,9118 -,07449 -,08815
Perú 5 ,9385 ,9286 -,06150 -,07140
Venezuela 5 5,1019 1,8114 4,10187 ,81137
Total 47
36
3) Comparemos para los países Colombia, Canadá y Brasil
Colombia
Exportación MA MG
2006 4
2007 4,6 5,1 4,10
2008 2,3 6,6 4,19
2009 1,4 8,48 4,29
2010 4,4 10,89 4,40
2011 4,5 13,99 4,50
Canadá
Exportación MA MG
2006 114,9
2007 92,3 76,8 70,55
2008 96,1 51,3 43,32
2009 69,9 34,2 26,60
2010 31 22,9 16,33
2011 10 15,3 10,03
Brasil
Exportación MA MG
2006 275
2007 300,7 275,7 273,05
2008 346,3 276,3 271,11
2009 294,2 277,0 269,18
2010 320,5 277,6 267,27
2011 265,4 278,3 265,38
37
4)
Continente: América
Tasa de
Tasa de
crecimiento crecimiento
promedio Tasa de crecimiento promedio
Pais de Media GeometMedia Media (media promedio ( media (media
destino N Aritmética Geométrica Armónica aritmética) geométrica) armónica)
Argentina 5 ,9677 ,9564 ,9448 -,03231 -,04365 -0,0552
Brasil 5 1,0024 ,9929 ,9832 ,00243 -,00708 -0,0168
Canadá 5 ,6676 ,6137 ,5596 -,33242 -,38633 -0,4404
Colombia 5 1,2849 1,0238 ,8608 ,28486 ,02384 -0,1392
Estados 5 ,9361 ,9137 ,8955 -,06388 -,08628
Unidos -0,1045
México 5 ,9123 ,8806 ,8547 -,08768 -,11938 -0,1453
Otros 4 2,4208 ,9306 ,3274 1,42083 -,06940 -0,6726
Panamá 3 ,9255 ,9118 ,8977 -,07449 -,08815 -0,1023
Perú 5 ,9385 ,9286 ,9188 -,06150 -,07140 -0,0812
Venezuela 5 5,1019 1,8114 1,1707 4,10187 ,81137 0,1707
Total 47
Colombia
M
Exportación MA MG Armónica
2006 4
2007 4,6 5,1 4,10 3,44
2008 2,3 5,9 4,19 2,97
2009 1,4 3,0 4,29 2,55
2010 4,4 1,8 4,40 2,20
2011 4,5 5,7 4,50 1,89
38
Tasa M Armónica -0,139 ,8610
NOTA:
La Media Geométrica
El logaritmo de la media geométrica es igual a la media aritmética de los logaritmos de los valores
de la variable.
La media geométrica de un conjunto de números positivos es siempre menor o igual que la media
artimética:
La media geométrica proporciona una medida precisa de un cambio porcentual promedio en una serie de
números.
- Se utiliza con más frecuencia para calcular la tasa de crecimiento porcentual promedio de series de
datos, a través del tiempo.
- Es una medida de tendencia central por lo general menor que la media aritmética salvo en el extraño caso
en que todos los incrementos porcentuales sean iguales, entonces las dos medias serán iguales.
- Se le define como la raíz enésima del producto de "n" valores. Cuando los datos son bastantes o
cantidades grandes, para facilitar el cálculo se lo debe simplificar pero sin alterar su naturaleza, para lo
cual se puede utilizar los logaritmos de base 10.
Para el cálculo;
39
Ejemplo
Supóngase que las utilidades obtenidas por una compañía constructora en cuatro proyectos fueron de 3, 2,
4 y 6%, respectivamente. ¿Cuál es la media geométrica de las ganancias?.
En este ejemplo la media geométrica es determinada por
La Media Armónica
La media armónica, denominada H, de una cantidad finita de números es igual al recíproco, o inverso, de
la media aritmética de los recíprocos de dichos valores y es recomendada para promediar velocidades.
La media armónica resulta poco influida por la existencia de determinados valores mucho más grandes que
el conjunto de los otros, siendo en cambio sensible a valores mucho más pequeños que el conjunto.
40
La media armónica no está definida en el caso de que exista algún valor nulo.
1. La inversa de la media armónica es la media aritmética de los inversos de los valores de la variable.
2. Siempre se puede pasar de una media armónica a una media aritmética transformando
adecuadamente los datos.
3. La media armónica siempre es menor o igual que la media aritmética, ya que para cualesquiera
números reales positivos :
Considera todos los valores de la distribución y en ciertos casos, es más representativa que la
media aritmética.
La influencia de los valores pequeños y el hecho que no se puede determinar en las distribuciones
con algunos valores iguales a cero; por eso no es aconsejable su empleo en distribuciones donde existan
valores muy pequeños.
Se suele utilizar para promediar velocidades, tiempos, rendimientos, etc.
Ejemplo:
Supóngase que una familia realiza un viaje en automóvil a un ciudad y cubre los primeros 100 km a 60 km/h,
los siguientes 100 km a 70 km/h y los últimos 100 km a 80 km/h. Calcular, en esas condiciones, la velocidad
media realizada.
41
VI. Estimación por Intervalos de Parámetros Poblacionales5.
(Muestras, intervalos de confianza).
a) Usando algún gráfico, identifique cuál es la distribución de las personas respecto a sus ingresos en
esta población conformada por 1.000 trabajadores.
Histograma
3
100 2
Normal esperado
1
80
0
-1
Frecuencia
60
-2
40 -3
Valor observado
20
Media =500,4162
Desviación típica =24,
05464
0 N =1.000
420,00 450,00 480,00 510,00 540,00 570,00
ingreso
EXAMINE
VARIABLES=ingreso
/PLOT BOXPLOT STEMLEAF HISTOGRAM NPPLOT
/COMPARE GROUP
/STATISTICS DESCRIPTIVES
/CINTERVAL 95
/MISSING LISTWISE
/NOTOTAL.
Pruebas de normalidad
a
Kolmogorov-Smirnov Shapiro-Wilk
Estadístico gl Sig. Estadístico gl Sig.
ingreso ,014 1000 ,200* ,999 1000 ,743
*. Este es un límite inferior de la significación verdadera.
a. Corrección de la significación de Lilliefors
5
Caso elaborado por Jaime Pérez-Kallens
42
Dado que la significancia de la prueba K_S es mayor a 0,05 no hay evidencia para rechazar la hipótesis
nula de normalidad de la variable y por tanto la variable distribuye normal
Descriptivos
USE ALL.
COMPUTE filter_$=(uniform(1)<=.20).
VARIABLE LABEL filter_$ 'Aproximadamente 20 % de los casos (MUESTRA)'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE .
genero
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos Femenino 78 37,1 37,1 37,1
Masculino 132 62,9 62,9 100,0
Total 210 100,0 100,0
43
Genera una muestra aleatoria con el porcentaje aproximado de casos indicado.
Selecciona una muestra aleatoria con el número de casos especificado a partir del número total de casos
especificado. Si el número total de casos especificado excede el número total de casos presentes en el
archivo de datos, la muestra contendrá un número menor de casos proporcional al número solicitado.
USE ALL.
do if $casenum = 1.
compute #s_$_1=200.
compute #s_$_2=1000.
end if.
do if #s_$_2 > 0.
compute filter_$ = uniform(1)* #s_$_2 < #s_$_1.
compute #s_$_1 = #s_$_1 - filter_$.
compute #s_$_2 = #s_$_2 - 1.
else.
compute filter_$ = 0.
end if.
VARIABLE LABEL filter_$ '200 de los primeros 1000 casos (MUESTRA)'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE .
44
genero
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos Femenino 78 39,0 39,0 39,0
Masculino 122 61,0 61,0 100,0
Total 200 100,0 100,0
d) Con la muestra antes seleccionada estime el ingreso medio por trabajador con un nivel de confianza
del 90%. Interprete el intervalo resultante. Además, verifique si la media poblacional está contenida en el
intervalo construido. Por último, identifique los principales estadísticos para la construcción del intervalo
de confianza.
Descriptivos
A partir de la muestra (200 registros) obtenemos el intervalo de confianza del 90% para la media
(497,3828 ; 503,0922)
De 100 intervalos similarmente construidos, 90 contendrán el parámetro poblacional
(media poblacional)
Se verifica que la media poblacional 500,4162 pertenece al intervalo de confianza antes indicado
Intervalo de confianza:
Limite inferior X z = 500,2375-1,645*1,72747=-497,3958
n
Limite superior X z =500,2375+1,645*1,72747=503,07918
n
24,43005
1,727465
n 200
45
e) Seleccione una nueva muestra aleatoria, del 20%, y construya otro intervalo de confianza para
estimar el ingreso promedio por persona, con un nivel de confianza del 90%; verifique si la media
poblacional está contenida dentro del intervalo. Además, compare este intervalo con el anterior y comente.
USE ALL.
do if $casenum = 1.
compute #s_$_1=200.
compute #s_$_2=1000.
end if.
do if #s_$_2 > 0.
compute filter_$ = uniform(1)* #s_$_2 < #s_$_1.
compute #s_$_1 = #s_$_1 - filter_$.
compute #s_$_2 = #s_$_2 - 1.
else.
compute filter_$ = 0.
end if.
VARIABLE LABEL filter_$ '200 de los primeros 1000 casos (MUESTRA)'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE .
Descriptivos
USE ALL.
do if $casenum = 1.
compute #s_$_1=10.
compute #s_$_2=1000.
end if.
do if #s_$_2 > 0.
compute filter_$ = uniform(1)* #s_$_2 < #s_$_1.
46
compute #s_$_1 = #s_$_1 - filter_$.
compute #s_$_2 = #s_$_2 - 1.
else.
compute filter_$ = 0.
end if.
VARIABLE LABEL filter_$ '10 de los primeros 1000 casos (MUESTRA)'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE .
EXAMINE
VARIABLES=ingreso
/PLOT BOXPLOT STEMLEAF HISTOGRAM NPPLOT
/COMPARE GROUP
/STATISTICS DESCRIPTIVES
/CINTERVAL 95
/MISSING LISTWISE
/NOTOTAL.
Descriptivos
genero
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos Femenino 400 40,0 40,0 40,0
Masculino 600 60,0 60,0 100,0
Total 1000 100,0 100,0
47
h) Seleccione una muestra aleatoria, del 20% y estime la proporción de hombres que hay en la
población, con un nivel de confianza del 95%. Verifique si la proporción poblacional de hombre, está
contenida en el intervalo de confianza que construyó.
Casos
Válidos Perdidos Total
N Porcentaje N Porcentaje N Porcentaje
genero 200 100,0% 0 ,0% 200 100,0%
USE ALL.
do if $casenum = 1.
compute #s_$_1=200.
compute #s_$_2=1000.
end if.
do if #s_$_2 > 0.
compute filter_$ = uniform(1)* #s_$_2 < #s_$_1.
compute #s_$_1 = #s_$_1 - filter_$.
compute #s_$_2 = #s_$_2 - 1.
else.
compute filter_$ = 0.
end if.
VARIABLE LABEL filter_$ '200 de los primeros 1000 casos (MUESTRA)'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE .
Descriptivos
48
VII. Estudio de Caso: Pruebas T- Clima organizacional y lealtad6
Una importante empresa minera ha elaborado estudios sobre el clima organizacional para así evitar futuros
conflictos laborales con sus empleados. Para ello ha realizado una encuesta a una muestra representativa
de los operarios, sobre varios factores que influyen en el clima organizacional, el compromiso y lealtad de
los operarios. El gerente de recursos humanos lo ha contactado a UD, como Magíster en Gestión y
Dirección de Empresas de la Universidad de Chile versión Industria Minera, para que realice el análisis de
los resultados de la encuesta:
Considere el archivo de datos “Operarios.sav” y responda las siguientes preguntas:
1. a) Determine si la media del índice de clima organizacional percibido por los operarios, difiere
significativamente de 5,5 puntos (con un 95% de confianza). Si difiere determine si la media es
mayor o menor a 5,5. Debe verificar los supuestos y formular las hipótesis correspondientes.
Argumente.
b) Determine un intervalo de confianza para la media, con un nivel de significancia del 0,05.
Interprete.
SOLUCION:
1.
a) Determine si la media del índice de clima organizacional percibido por los operarios, difiere
significativamente de 5,5 puntos (con un 95% de confianza). Si difiere determine si la
media es mayor o menor a 5,5. Debe verificar los supuestos y formular las hipótesis
correspondientes. Argumente.
Respuesta
Se trata de una prueba T para una muestra.
En una prueba T para una muestra se requiere de una variable escala (Índice de clima organizacional) y un
valor de contraste (5,5).
EXAMINE VARIABLES=Clima
/PLOT BOXPLOT STEMLEAF NPPLOT
/COMPARE GROUP
/STATISTICS DESCRIPTIVES
/CINTERVAL 95
/MISSING LISTWISE
/NOTOTAL.
6
Caso elaborado por Sara Arancibia y Gonzalo Moya
49
La variable Índice de Clima Organizacional presenta más de 50 datos (255 datos), por lo tanto se utiliza
Kolmogorov-Smirnov. De esta manera obtenemos que existe evidencia estadística para rechazar la
hipótesis nula, pues el nivel de significancia es menor a 0,05 (0,003). La variable “Índice de Clima
Organizacional” no sigue una distribución normal.
A pesar que la variable no distribuya normal, al observar la asimetría vemos que ésta se encuentra dentro
del rango -1 y 1 (0,540), por lo tanto procedemos a realizar la prueba T para una muestra:
T-TEST
/TESTVAL=5.5
/MISSING=ANALYSIS
/VARIABLES=Clima
/CRITERIA=CI(.95).
Hipótesis Prueba T:
Ho: La media de la variable Índice de Clima Organizacional no difiere de 5,5.
H1: La media de la variable Índice de Clima Organizacional difiere de 5,5.
Al analizar la tabla se aprecia que el nivel de significancia es menor que 0,05 (Nivel de significancia que
pide el enunciado), por lo tanto, existe evidencia estadística para rechazar la hipótesis nula. Esto quiere
decir que la media de los puntajes del índice de clima organizacional difiere de 5,5.
La media del Índice de clima Organizacional fluctúa entre los siguientes valores:
50
Luego <0 de donde.
Luego < 5,5
b) Determine un intervalo de confianza para la media, con un nivel de significancia del 0,05. Interprete.
EXAMINE VARIABLES=Clima
/PLOT BOXPLOT STEMLEAF NPPLOT
/COMPARE GROUP
/STATISTICS DESCRIPTIVES
/CINTERVAL 95
/MISSING LISTWISE
/NOTOTAL.
Como se muestra en la tabla anterior, se puede ver que el intervalo de confianza para la media de la
variable Índice de Clima Organizacional a un nivel de significancia de 0,05 es [3,9125 ; 4,0934]. Esto quiere
decir que, de 100 intervalos similarmente construidos, aproximadamente en 95 contendrán la media
poblacional.
3) a) Determine con un 95% de confianza, si la media del índice de lealtad con la empresa difiere
significativamente entre los operarios más jóvenes y los más adultos. Considere los más jóvenes entre 18 y
30 años y los más adultos con edad superior a 50 años.
Debe verificar los supuestos y formular las hipótesis correspondientes. Argumente.
b) Si hay diferencias determine en qué grupo es mayor la lealtad, con un 95% de confianza. Argumente.
En primer lugar se verificará si la variable lealtad distribuye normal en cada uno de los grupos de edad
que interesan (Jóvenes y adultos)
51
/CINTERVAL 95
/MISSING LISTWISE
/NOTOTAL.
Del test de normalidad Kolmogorov-Smirnov se observa que no hay evidencia para rechazar la hipótesis
nula y por tanto la variable lealtad distribuye normal en el grupo de jóvenes (pues la significancia es
superior a 0,05).
Del test de normalidad Shapiro -Wilk se observa que no hay evidencia para rechazar la hipótesis nula y
por tanto la variable lealtad distribuye normal en el grupo de adultos superior a 50 años (dado que la
significancia es superior a 0,05).
Observar que si hubiéramos observado el grupo entre 31 y 50 años , no se verifica la normalidad de la
variable leatad sin embargo su coef de asimetría está acotado entre -1 y 1 luego la distribución se
considera adecuada para aplicar la prueba t para muestras independientes.
52
Ahora aplicamos el test T para muestras independientes donde las hipótesis correspondientes son
Ho: No existen diferencias significativas en las medias de la variable “lealtad” entre los grupos de jóvenes
y adultos superiores a 50 años. (Ho: µ1= µ2)
H1: Existen diferencias significativas en las medias de la variable “lealtad” entre los grupos de jóvenes y
adultos superiores a 50 años. (Ho: µ1≠ µ2)
En primer lugar se ve el test de Levene de homogeneidad de varianzas donde las hipótesis son:
Ho: No existen diferencias significativas en las varianzas de variable “lealtad” entre los grupos de jóvenes
y adultos superiores a 50 años. (Ho: )
H1: Existen diferencias significativas en las varianzas de variable “lealtad” entre los grupos de jóvenes y
adultos superiores a 50 años. (H1: )
T-TEST GROUPS=Edad(1 3)
/MISSING=ANALYSIS
/VARIABLES=Lealtad
/CRITERIA=CI(.95).
Del test de Levene se tiene que no hay evidencia para rechazar la hipótesis nula y por lo tanto se asume
varianzas iguales.
En consecuencia se analiza la primera fila en el test de igualdad de medias
Del test se observa que hay evidencia para rechazar la hipótesis nula de igualdad de medias y por tanto
existen diferencias significativas en la media de lealtad entre los grupos de jóvenes y adultos superiores a
50 años.
Del intervalo de confianza para la diferencia de medias al 95% de confianza, se observa que la diferencia
µ1- µ2 está entre dos valores negativos y por tanto µ1< µ2, es decir la media de lealtad los grupos de
jóvenes es menor a la de los adultos superiores a 50 años.
53
VIII. Estudio de Caso: Estudio Morfología7
Coeficiente de Correlación
Considere el archivo “Estudio Morfología.sav”.
Correlaciones
Cociente
intelectual ESTATURA PESO
Cociente intelectual Correlación de Pearson 1 ,081 ,001
Sig. (bilateral) . ,325 ,988
N 149 149 148
ESTATURA Correlación de Pearson ,081 1 ,600**
Sig. (bilateral) ,325 . ,000
N 149 150 149
PESO Correlación de Pearson ,001 ,600** 1
Sig. (bilateral) ,988 ,000 .
N 148 149 149
**. La correlación es significativa al nivel 0,01 (bilateral).
b) Diagrama de Dispersión
La forma de una relación se puede estudiar visualmente a partir de la nube de puntos generada en el
Gráfico de Dispersión:
Edite la gráfica y ajuste la nube por una recta de regresión, muestre el R 2 e interprete.
7
Caso elaborado por Sara Arancibia y Nelson Rodriguez
54
Gráfico de dispersión simple
110
27
100
93
90 31
80
70
SEXO
60 Mujer
Hombre
50
PESO
Total Population
40 R² = 0,3606
120 140 160 180 200 220 240 260 280
ESTATURA
Descubra qué puntos están alejados de la nube y fíltrelos para volver a hacer el gráfico de dispersión,
compare ahora el R2 e interprete.
USE ALL.
COMPUTE filter_$=(iden ~= 27 & iden ~= 93 & iden ~= 31).
VARIABLE LABEL filter_$ 'iden ~= 27 & iden ~= 93 & iden ~= 31 (FILTER)'.
VALUE LABELS filter_$ 0 'No seleccionado' 1 'Seleccionado'.
FILTER BY filter_$.
EXECUTE .
100
90
80
70 SEXO
Mujer
60
Hombre
PESO
50
Total Population
40 R² = 0,7182
140 150 160 170 180 190 200
ESTATURA
Se han filtrado los casos 27, 31 y 93
55
Con el tipo Superpuesto se pueden representar varias relaciones en una sola nubes de puntos.
Seleccione el par estatura - peso y el par ci - peso
200
31
100
ESTATURA
0 PESO
40 50 60 70 80 90 100 110
Como hay tres variables habrá tres parejas de relaciones (con cuatro variables habrá seis parejas).
56
Utilizando el archivo “Estudio Morfología.sav”. responda las siguientes preguntas:
iii. Determine el modelo que relaciona la estatura (X) y el peso (Y) e interprete R, R2 y
Error típico de estimación
Resumen del modelo
El coeficiente R mide la fuerza de asociación lineal entre estatura y peso, la cual es considerable.
El R2 =0,718 indica que la variación en el peso se explica en un 71,8% por la variable estatura.
Una forma de estimar el error estándar del estimador es basándose en los residuos;
S Y ,X
e 2
n2
El error estándar de la estimación es una medida de cuán inexacto podría ser la predicción y mide la
dispersión con respecto a una recta promedio, denominada recta de regresión.
ANOVAb
Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 15309,683 1 15309,683 366,941 ,000 a
Residual 6008,032 144 41,722
Total 21317,715 145
a. Variables predictoras: (Constante), ESTATURA
b. Variable dependiente: PESO
Cuando se trata de una regresión simple la prueba ANOVA se reduce a la prueba individual Test T donde
H 0: 1 = 0
Coeficientes
Coeficientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) -92,138 8,816 -10,451 ,000
ESTATURA ,999 ,052 ,847 19,156 ,000
a. Variable dependiente: PESO
Y = -92,13 + 0,999•X
donde Y = Peso
X = Estatura
v. Pruebe la hipótesis nula H0: 1 = 0 para la estatura y el peso. ¿Existe una relación
significativa entre el ingreso y el consumo?
En el SPSS ver la tabla “coeficientes“ que resultó en el ejercicio b) y observar el valor del estadígrafo t
(asociado a la pendiente de la regresión) y su nivel de significancia.
57
Dado que la sig < 0,01 se rechaza la hipótesis nula H0: 1 = 0. Concluimos entonces que existe una relación
significativa entre ingreso y consumo.
A fin de poder utilizar una ecuación de regresión para efectos de estimación o predicción, primero
debemos determinar si en la población parece existir una relación entre las dos variables o si la
relación observada en la muestra pudo ocurrir por azar. En ausencia de toda relación en la población,
por definición la pendiente de la línea de regresión de la población sería de cero 1=0. En
consecuencia, la hipótesis nula que se prueba usualmente es H 0: 1=0. La hipótesis nula también puede
formularse como una prueba de una cola, en cuyo caso la hipótesis alternativa no es simplemente que
existe relación entre las dos variables, sino además que esta relación es de un tipo específico (directa
o inversa).
Un valor hipotético de la pendiente se prueba calculando una estadística t y usando n-2 grados de
libertad. Es el proceso de inferencia se pierden dos grados de libertad porque en la ecuación de
regresión se incluyen dos estimaciones paramétricas, b0 y b1. La fórmula estándar es:
b1 (1 )o
t
sb1
donde s SY , X
b1
X
2
2
nX
Sin embargo, cuando, como ocurre por lo general, la hipótesis nula es que la pendiente es cero, la
fórmula se simplifica y enuncia como
b
t 1
sb1
El intervalo de confianza para la pendiente de la población 1, en el que los grados de libertad
asociados con t son n-2, se elabora de la siguiente manera:
b1 tsb1
Definición de grados de libertad: Los grados de libertad indican el número de valores “libres de
variar” en la muestra que sirve de base al intervalo de confianza.
vii. Determine el intervalo de confianza del 95% para 1. Para esto seleccione Regresión lineal/
Estadísticos/Intervalos de confianza.
En la tabla de resultados “coeficientes” del SPSS observe los límites inferior y superior del intervalo de
confianza para b1 al 95%.
58
Coeficientesa
Coeficientes
Coeficientes no estandarizad Intervalo de confianza para
estandarizados os B al 95%
Límite
Modelo B Error típ. Beta t Sig. Límite inferior superior
1 (Constante) -92,138 8,816 -10,451 ,000 -109,564 -74,712
ESTATURA ,999 ,052 ,847 19,156 ,000 ,896 1,102
a. Variable dependiente: PESO
f i c
e s
ae
c n n
o
a
l
d r
9o
m
S
o
pB
e M
i
t
rei
gt
9
4
72
4
2 1
( C
1
9
4
60
2
0 I N
a
V
viii. Determine los valores pronosticados y los residuos usando la ecuación de regresión desarrollada.
Compare los residuos obtenidos del SPSS. Para esto seleccione “Guardar” en el cuadro de diálogo
“Regresión lineal” y en el cuadro de diálogo siguiente considere valores pronosticados no tipificados (es
decir el valor que predice el modelo para la variable dependiente) y valores tipificados (transformación de
cada valor pronosticado a su forma tipificada). Además considere residuos no tipificados (es decir, la
diferencia entre un valor observado y el valor pronosticado del modelo) y los residuos tipificados.
59
Observación:
Si en la regresión lineal queremos llevar a cabo inferencias y partimos de los estadísticos obtenidos
en la muestra, deberemos tener en cuenta una serie de requisitos:
Normalidad e igualdad de las varianzas en la variable dependiente (Y) del modelo para
valores fijos de la independiente o independientes del mismo X.
Independencia de las observaciones
Linealidad en la relación entre las variables.
ix. Considere “Gráficos” del cuadro de diálogo ”Regresión lineal” para realizar los
siguientes gráficos:
1. Los residuos tipificados ZRESID frente a los valores pronosticados tipificados ZPRED para
contrastar la igualdad de las varianzas.
Nota: Si no hay ningún patrón sistemático claramente definido en los datos y los residuales fluctúan
aleatoriamente alrededor de la recta que corresponde a la media de los mismos y de valor cero, podemos
concluir que se cumple el requisito de linealidad en la relación entre las variables. Este gráfico puede
igualmente servirnos para contrastar hasta qué punto el principio de igualdad de varianzas puede o no ser
violado por los datos. Si la variabilidad de los residuales a lo largo de los valores predichos es más o menos
constante, podemos concluir que se cumple la igualdad de varianzas. No en caso contrario.
60
Nota: El gráfico de residuos tipificados de prob. normal se usa para comprobar la normalidad. Si la variable
se distribuye normalmente los puntos representados forman una línea recta diagonal
,8 2
Regresión Residuo tipificado
,5
Prob acum esperada
-1
,3
-2
0,0 -3
0,0 ,3 ,5 ,8 1,0 -3 -2 -1 0 1 2 3
Pruebas de normalidad
a
Kolmogorov-Smirnov Shapiro-Wilk
Estadístico gl Sig. Estadístico gl Sig.
Standardized Residual ,044 146 ,200* ,992 146 ,601
*. Este es un límite inferior de la significación verdadera.
a. Corrección de la significación de Lilliefors
61
IX Estudio de Caso: Consumo producto8
El área de Marketing de una empresa necesita conocer un modelo que le permita pronosticar la cantidad
promedio consumida de un producto por una familia dependiendo de sus características. Para esto ha
recopilado una muestra aleatoria de 70 familias con la cantidad consumida de un producto en Kg, su ingreso
en miles de pesos y el tamaño de la familia (número de personas que componen la familia). Considere el
archivo “consumo producto.sav”
a) Determinar la matriz de correlaciones para todas las posibles variables involucradas en el modelo e
interprete.
b) Mostrar en un gráfico de dispersión simple para la variable que mas se correlaciona con el consumo
(mostrando la recta de ajuste y el R2). ¿Qué puede observar? Si existen atípicos fíltrelos. Mostrar la
sintaxis.
c) Determinar la ecuación del ajuste del modelo de regresión lineal simple que permita pronosticar la
cantidad consumida del producto. Interprete el coeficiente de determinación. Muestre las tablas de donde
se desprenden sus respuestas.
SOLUCION
a) Determinar la matriz de correlaciones para todas las posibles variables involucradas en el modelo e
interprete.
Correlaciones
tamaño de
cantidad ingreso la familia
cantidad Correlación de Pearson 1 ,693** ,401**
Sig. (bilateral) ,000 ,001
N 70 70 70
ingreso Correlación de Pearson ,693** 1 ,265*
Sig. (bilateral) ,000 ,027
N 70 70 70
tamaño de la familia Correlación de Pearson ,401** ,265* 1
Sig. (bilateral) ,001 ,027
N 70 70 70
**. La correlación es significativa al nivel 0,01 (bilateral).
*. La correlación es significante al nivel 0,05 (bilateral).
8
Caso elaborado por Sara Arancibia
62
La matriz de correlaciones nos muestra que todas las variables se correlacionan. La correlación más alta se
da entre cantidad consumida e ingreso (0,693) siendo significativa la correlación al nivel del 0,01. Lo mismo
ocurre para cantidad y tamaño de la familia pero la correlación es más baja alcanzando una fuerza de
asociación de 0,401.
b) Mostrar en un gráfico de dispersión simple para la variable que más se correlaciona con el consumo
(mostrando la recta de ajuste y el R2). ¿Qué puede observar? Si existen atípicos fíltrelos. Mostrar la
sintaxis.
140
70
120
100
cantidad
69
2
80
60
R Sq Linear = 0,48
40
ingreso
Se observa una fuerte asociación lineal positiva entre las variables cantidad consumida e ingreso.
Sin embargo se observa claramente tres valores atípicos.
USE ALL.
COMPUTE filter_$=(id ~= 2 & id ~= 69 & id ~= 70).
VARIABLE LABEL filter_$ 'id ~= 2 & id ~= 60 & id ~= 66 (FILTER)'.
VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE .
63
c) Determinar la ecuación del ajuste del modelo de regresión lineal simple que permita pronosticar la
cantidad consumida del producto. Interprete el coeficiente de determinación. Muestre las tablas de donde
se desprenden sus respuestas.
Coeficientesa
Coeficientes
Coeficientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) 16,897 3,218 5,250 ,000
ingreso ,064 ,003 ,921 19,092 ,000
a. Variable dependiente: cantidad
De la tabla anterior se desprende que ambos coeficientes son estadísticamente significativos pues su
significancia es menor a 0,05.
Ante el aumento de una unidad (mil pesos) en el ingreso, la cantidad consumida aumenta en promedio 0,064
Kg.
64
Gráfico P-P normal de regresión Residuo tipificado
0,8
Prob acum esperada
0,6
0,4
0,2
0,0
0,0 0,2 0,4 0,6 0,8 1,0
Pruebas de normalidad
a
Kolmogorov-Smirnov Shapiro-Wilk
Estadístico gl Sig. Estadístico gl Sig.
Standardized Residual ,058 67 ,200* ,980 67 ,366
*. Este es un límite inferior de la significación verdadera.
a. Corrección de la significación de Lilliefors
Observando al prueba de K-S se observa que no se rechaza la hipótesis de normalidad de los residuos.
65
Gráfico de dispersión
2
Regresión Residuo tipificado
-1
-2
-3
-2 -1 0 1 2 3
66
X Estudio de caso: Desempleados
Los despidos y el desempleo han afectado a muchos trabajadores en los últimos años. En un estudio
publicado en la Revista de Relaciones Laborales se muestran datos de variables que pueden tener relación
con la cantidad de semanas que un empleado está desempleado. La variable dependiente en el estudio es
“Semanas” y se define como la cantidad de semanas que ha estado desempleado un trabajador a causa de
su despido.
Variable Etiqueta
edad Edad del trabajador
antig Antigüedad en el último empleo (en
años)
profesional 1 = Sí
0 = No
a) Realice un diagrama de dispersión para cada variable independiente con la variable dependiente.
¿Qué puede observar del gráfico?
Diagrama de Dispersión entre Semanas Desempleado Diagrama de Dispersión entre Semanas Desempleado
y Edad de la persona y Antiguedad en último Empleo
90 90
80 80
70 70
60
60
50
50
40
40
SEMANAS
30
SEMANAS
30
20
20
10 Rsq = 0,7216
10 Rsq = 0,2164
10 20 30 40 50 60
0 10 20 30 40
edad
ANTIG
En los diagramas de dispersión se puede observar que existe una correlación lineal positiva entre las
variables. En el caso de la edad vs. semanas, la correlación es lineal positiva alta mientras que en el caso de
la antigüedad vs. semanas, no se observa tan claro la linealidad.
67
Correlations
En la matriz de correlaciones se puede observar que tanto la correlación entre la edad y las semanas de
desempleo, como la correlación entre la antigüedad y las semanas de desempleo son significativas con un
nivel de significancia del 0.01 ( Se trata de correlaciones lineales positivas fuerte y moderada
respectivamente)
c) Ejecute la regresión lineal múltiple para obtener las tablas con las estimaciones del modelo e
interprete la tabla ANOVA. ¿Son estadísticamente significativas las variables independientes? Argumente.
ANOVAb
Sum of
Model Squares df Mean Square F Sig.
1 Regression 10999,684 2 5499,842 61,892 ,000 a
Residual 4176,496 47 88,862
Total 15176,180 49
a. Predictors: (Constant), ANTIG, edad
b. Dependent Variable: SEMANAS
Standardi
zed
Unstandardized Coefficien
Coefficients ts
Model B Std. Error Beta t Sig.
1 (Constant) -17,428 5,983 -2,913 ,005
edad 1,794 ,192 ,818 9,318 ,000
ANTIG ,195 ,264 ,065 ,739 ,464
a. Dependent Variable: SEMANAS
El estadístico F contrasta la hipótesis nula de que el valor poblacional de R es cero y, por tanto, permite
decidir si existe relación lineal significativa entre la variable dependiente y el conjunto de variables
independientes tomadas juntas. El valor del nivel crítico (Sig. = 0,000), es menor que 0,05, por tanto
existe relación lineal significativa.
Puede afirmarse, por tanto, que el hiperplano definido por la ecuación de regresión ofrece un buen ajuste a
la nube de puntos.
Por otra parte, para la variable edad se obtiene una significancia menor a 0,05 lo que significa que el
coeficiente es estadísticamente significativo al nivel 0,05. Sin embargo, la significancia de la variable
antigüedad es mayor a 0,05 por lo que no se rechaza la hipótesis nula de que su valor es igual a cero.
68
d) Determine la ecuación de un modelo donde todas las variables sean significativas. Interprete el
coeficiente R y el R cuadrado.
Model Summary
ANOVAb
Sum of
Model Squares df Mean Square F Sig.
1 Regression 10951,194 1 10951,194 124,416 ,000 a
Residual 4224,986 48 88,021
Total 15176,180 49
a. Predictors: (Constant), edad
b. Dependent Variable: SEMANAS
Standardi
zed
Unstandardized Coefficien
Coefficients ts
Model B Std. Error Beta t Sig.
1 (Constant) -18,179 5,868 -3,098 ,003
edad 1,863 ,167 ,849 11,154 ,000
a. Dependent Variable: SEMANAS
En la tabla de Resumen del Modelo se puede observar el valor R = 0,849. Esto significa que para los
desempleados existe una alta correlación lineal entre las variables SEMANAS y EDAD. Por otra parte, el
valor R2 = 0,722 indica que la variabilidad en las semanas de desempleo puede ser explicada en un 72,2%
por la variable EDAD.
e) ¿Qué ocurre si al último modelo le agrega la variable dami profesional? Interprete los coeficientes
de las variables independientes del último modelo.
Model Summary
ANOVAb
Sum of
Model Squares df Mean Square F Sig.
1 Regression 12048,898 2 6024,449 90,542 ,000 a
Residual 3127,282 47 66,538
Total 15176,180 49
a. Predictors: (Constant), Es profesional ( 1=SI, 0=NO), edad
b. Dependent Variable: SEMANAS
69
Coe fficie ntsa
Standardi
zed
Unstandardized Coefficien
Coefficients ts
Model B Std. Error Beta t Sig.
1 (Constant) -19,465 5,112 -3,808 ,000
edad 1,975 ,148 ,900 13,361 ,000
Es profesional
-11,512 2,834 -,274 -4,062 ,000
( 1=SI, 0=NO)
a. Dependent Variable: SEMANAS
Para este nuevo modelo se cumple que existe una relación lineal significativa entre la variable dependiente
y el conjunto de variables independientes tomadas juntas, lo que se observa en el valor del nivel crítico del
estadístico F, puesto que es menor que 0,05. Además, todas las variables independientes son significativas
pues la sig de las pruebas t son menores que 0,05 .
Ante el aumento de un año en la edad en promedio las semanas que un empleado permanece desempleado
aumentan en casi 1,98 semanas, manteniéndose el resto de variables constante. Por otra parte, el
coeficiente asociado a la variable dummy PROFESIONAL indica que para una misma edad, una persona
profesional, en promedio estará desempleada 11,512 semanas menos de lo que estaría si no fuera
profesional.
f) Para el último modelo seleccionado, determine si se satisfacen las hipótesis de normalidad de los
residuos y homocedasticidad.
Tests of Normality
a
Kolmogorov-Smirnov Shapiro-Wilk
Statistic df Sig. Statistic df Sig.
Standardized Residual ,088 50 ,200* ,970 50 ,407
*. This is a lower bound of the true significance.
a. Lilliefors Significance Correction
La prueba de normalidad de Shapiro-Wilk indica que se cumple la hipótesis de normalidad. (La prueba de
Shapiro-Wilk es usada cuando hay hasta 50 casos. Dado que son 50 los casos analizados, se usa el
estadístico Shapairo Wilk).
70
Scatterplot
Dependent Variable: SEMANAS
2
Regression Standardized Residual
-1
-2
-3
-2 -1 0 1 2 3
Este gráfico muestra que se cumple la hipótesis de homocedasticidad pues los puntos se encuentran
distribuidos en forma aleatoria sin seguir ningún patrón.
71
XI. Estudio de Caso: Estudio Lealtad9 Regresión lineal
Una importante empresa minera ha elaborado estudios sobre el clima organizacional para así evitar futuros
conflictos laborales con sus empleados. Para ello ha realizado una encuesta a una muestra representativa de
los operarios, sobre varios factores que influyen en clima organizacional y la lealtad de los operarios.
La empresa necesita aplicar políticas de retención en los operarios debido al alto costo que genera la
rotación en ellos. Se le ha pedido que asesore al gerente de recursos humanos realizando un modelo de
regresión lineal
Considere el archivo de datos “Operarios empresa minera.sav” y responda las siguientes preguntas:
a) Determine una matriz de correlaciones bivariadas con todas las variables que usted considere convenientes
para realizar un modelo de regresión lineal simple para explicar el Índice de Lealtad. Comente los resultados.
Para verificar la correlación entre variables se deben contrastar las siguientes hipótesis:
CORRELATIONS
/VARIABLES=Lealtad Clima Compromiso Imagen Motivación Reconocimiento Beneficios
/PRINT=TWOTAIL NOSIG
/MISSING=PAIRWISE.
9
Caso elaborado por Sara Arancibia y Gonzalo Moya
72
De la tabla se bserva que con un nivel de significancia de 0,05 se rechazan las hipótesis nulas para las i variables
(i =6 variables), por lo tanto existe correlación estadísticamente significativa entre el índice de Lealtad y los
índices de Clima organizacional, Compromiso, Imagen, Motivación, Reconocimiento y Beneficios, siendo
relación directa (correlación con pendiente positiva) y de intensidades que fluctúan entre 0,436 y 0,641.
La mayor correlación, se observa entre índice de lealtad e índice de beneficios con una intensidad de 0,641
considerada media-alta.
b) Realice un gráfico de dispersión simple con la variable Índice de Lealtad como variable dependiente y la
variable que Ud estime conveniente según el punto a) como variable independiente para determinar un
modelo de regresión lineal simple, con línea de tendencia y mostrando el R². ¿Qué puede observar? Muestre la
sintaxis.
GRAPH
/SCATTERPLOT(BIVAR)=Beneficios WITH Lealtad
/MISSING=LISTWISE
/TITLE='Gráfico de dispersión'.
Se observa claramente una tendencia lineal positiva y una bondad de ajuste R² de 0,411, es decir la variable
Índice de Lealtad está siendo explicada en un 41,1% por la variable Índice de Beneficios.
c) Ajuste el modelo de regresión lineal simple (escriba la ecuación). Interprete la pendiente de la ecuación, el
coeficiente R y el coeficiente de determinación. ¿Los coeficientes son estadísticamente significativos?
Argumente sus respuestas.
73
Al considerar la mayor correlación lineal de la matriz de correlaciones, es decir el índice de lealtad con el índice
de beneficios se obtiene:
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT Lealtad
/METHOD=ENTER Beneficios
/SCATTERPLOT=(*ZRESID ,*ZPRED)
/RESIDUALS HIST(ZRESID) NORM(ZRESID)
/SAVE PRED ZPRED RESID ZRESID.
R=0,641 indica que la fuerza de asociación lineal entre el índice de lealtad y beneficios es media-fuerte.
El coeficiente de determinación R² indica que la variabilidad en el índice de lealtad está siendo explicada en un
41,1% por la variable índice de beneficios. El porcentaje restante lo explican otras variables.
Y= 2,581+0,626X
74
Donde:
Y = Índice de Lealtad
X = Índice de Beneficios
La pendiente de la ecuación indica que ante el aumento de una unidad en el puntaje del índice de beneficios el
índice de lealtad aumenta, en promedio, en 0,626 puntos.
d) Verificar las hipótesis de homocedasticidad y normalidad de los residuos para el modelo de regresión lineal
simple.
Homocedasticidad
En el gráfico se observa que los residuos se distribuyen aleatoriamente entre -3 y 3 sin formar patrones
sistemáticos. Por tanto se cumple la hipótesis de homocedasticidad
75
H0: Los residuos distribuyen normal.
H1: Los residuos no distribuyen normal.
Al ser una muestra mayor a 50 datos se observa la prueba Kolmogorov-Smirnov, esta presenta una significancia
mayor a 0,05 (0,200), por ende no existe evidencia estadística para rechazar la hipótesis nula de normalidad de
los residuos. Esto quiere decir que los residuos presentan una distribución normal.
NOTA También se puede mostrar el gráfico P-P en lugar del test K-S
76
77