You are on page 1of 77

UNIVERSIDAD DE CHILE

MAGISTER EN GESTION Y DIRECCION DE EMPRESAS


VERSION INDUSTRIA MINERA

Métodos Cuantitativos para el


Análisis de los Mercados de Commodities
ESTUDIOS DE CASOS

APLICACIONES DE

Profesora: Sara Arancibia C.

MBA Minería 2017

1
FORMULAS PARA TRIUNFAR

LA FORMULA BÁSICA. Los investigadores se han dedicado a averiguar cuál ha sido la idea, el secreto que ha
llevado al triunfo a los grandes personajes de la historia. Y han encontrado una fórmula que todos los
triunfadores practicaron, y sin la cual no habrían llegado a ser grandes ni famosos. Esta fórmula consiste
en los siguientes cinco puntos:

a) Dirigir el pensamiento hacia una meta fija que se desea conseguir. Saber bien cuál es esa
meta que se desea alcanzar y no desviar la atención de ella.

b) Elaborar un plan para lograr conseguir esa meta, un plan cuidadoso y detallado que se va
siguiendo día por día, y que hace que nuestra actividad sea organizada y llena de entusiasmo.

c) Desarrollar un sincero deseo de realizar aquello que se desea conseguir. El deseo ardiente
es el más importante motivador de las acciones. El deseo de lograr éxitos consigue la costumbre de
conseguir éxitos.

d) Adquirir una confianza grande en sí mismo; confianza en las propias capacidades y


habilidades para lograr el éxito, concediéndole muchísima mayor importancia a las cualidades positivas que
se tiene que a las debilidades o a las posibilidades de derrota.

e) Dedicarse a una acción tenaz e incansable para lograr obtener la meta que se busca
conseguir, sin desanimarse por los obstáculos, las críticas, las circunstancias adversas, o lo negativo que los
demás piensen, hagan o digan. Esa energía concentrada hacia la consecución de una meta, trae
enormemente las oportunidades, las cuales no se dejan atrapar por los que están sin hacer nada, pero se
acercan generosamente a quienes se atreven a atacar, a trabajar fuertemente por conseguir el éxito.

Esta fórmula básica Meyer la llamó “El plan del éxito personal a base de automotivación”, para desarrollar
al máximo el potencial de cada uno.
Meyer resume la fórmula básica en la siguiente frase:

“Todo lo bueno que: vivamente imaginamos, ardientemente deseamos, sinceramente creamos, y


entusiastamente emprendamos, de una manera impresionantemente favorable se transformará en algo
placentero y beneficioso para nosotros”
(Eliécer Salesman. “100 Fórmulas para llegar al éxito”)

Si una de tus metas es APRENDER aplica esta fórmula y “comienza con la mente abierta”. La cualidad más
importante que afectará tu éxito en el curso es tu ACTITUD. Ésta determinará lo que estés dispuesto a
hacer en el curso, y la calidad de ese esfuerzo contribuirá de la manera más significativa a tu éxito.

2
Contenido

I Documento introducción

Análisis Inicial de los datos

II Estudio de Caso.

Caracterización del Mundo: Mundo 95 (Tablas, gráficos y estadísticos descriptivos)

III Estudio de Caso.

Seguridad Minera. (Creación de variables y uso de funciones)

IV Estudio de caso

Producción minera (Importación de datos en Excel y Agregación)

V Estudio de caso

Exportaciones de cobre por continente y países de destino ( Media geométrica- Tasa de crecimiento
promedio)

VI Estudio de caso

Estimación de parámetros poblacionales (Muestreo e intervalos de confianza, distribución de


probabilidad)

VII Estudio de caso

Clima organizacional y lealtad (pruebas de hipótesis T y normalidad)

VIII Estudio de caso

Estudio Morfología (Análisis de correlación y regresión simple)

IX Estudio de caso

Consumo producto (Análisis de regresión lineal y modelos log-log)

X Estudio de caso

Desempleados (Regresión lineal con variables damis)

XI Estudio de caso

Lealtad (Análisis de correlación y regresión lineal)

3
I. Documento introducción :Análisis Inicial de los datos1

Cuando nos enfrentamos por primera vez a la realización de un análisis estadístico la máxima preocupación
es profundizar en la técnica estadística seleccionada, sin .embargo, existe una etapa previa incluso más
compleja y esencial que consiste en realizar un examen exhaustivo de los datos recabados.
La depuración de los datos o detección de problemas ocultos en los datos supondrá un gran avance en la
consecución de resultados lógicos consistentes. Dichos problemas se pueden subsanar comenzando por una
inspección visual de las representaciones gráficas de los datos, completándose con un análisis de datos
ausentes o perdidos y de los casos atípicos (conocidos bajo la denominación de outliers).

Representaciones gráficas para el análisis de datos

La difusión experimentada en los últimos años por los programas estadísticos ha facilitando la
incorporación de módulos específicamente diseñados para la inspección gráfica de los datos.

El estudio de cada variable es fundamental para conocer sus características y comprobar si es oportuna y
relevante su inclusión en el análisis. Para ello se aconseja observar la forma de su distribución. Esto se
consigue mediante el histograma, que representa gráficamente los datos mostrando en barras la frecuencia
de los casos en cada variable. Si a su vez se pretende evaluar la normalidad de la variable, se efectuará
superponiendo la curva normal sobre la distribución o realizando gráficos P-P o Q-Q.

Mediante el gráfico de dispersión se podrá examinar la relación entre dos o más variables. Se trata de un
gráfico de puntos de datos basados en dos variables, representadas una en el eje horizontal y la otra en el
vertical. El posicionamiento de los puntos a lo largo de una línea recta se debe a la existencia de correlación
lineal. Si los puntos siguen distintas formas la relación no podrá calificarse de lineal. La inexistencia de
relación se podrá constatar si la nube de puntos es aleatoria y dispersa. ( Mediante correlaciones
bivariadas Pearson se podrá determinar mediante una prueba de hipótesis si la correlación entre dos
variables de escala es significativa).

Mediante el gráfico de cajas o boxplot se puede llevar a cabo un análisis de las diferencias entre grupos, si
lo que se pretende es apreciar la existencia de dos o más grupos en una variable métrica, como ocurre en el
análisis discriminante o en el análisis de la varianza. Este gráfico distribuye los datos de tal forma que los
límites superior e inferior de la caja marcan los cuartiles superior e inferior. La longitud de la caja es la
distancia entre el primer y tercer cuartil; así, la caja contiene el 50 por ciento de los datos centrales de la
distribución. La mediana se representa mediante una línea dentro de la caja. Existirá asimetría si la
mediana se aproxima al final de la caja. El tamaño de la caja dependerá de la distancia entre las
observaciones. También se representa la distancia entre la mayor y la menor de las observaciones mediante
unas líneas que salen de la caja denominadas bigotes. En este tipo de gráfico los casos atípicos se pueden
detectar por estar situados entre 1,0 Y 1,5 cuartiles fuera de la caja.

Diagrama de caja simple: Contiene un único diagrama de caja para cada categoría o variable del eje de
categorías. Los diagramas de caja muestran la mediana, los cuartiles y los valores extremos para la
categoría o variable.
Diagrama de caja agrupado: Tipo de gráfico en el que un grupo de diagramas de caja representa cada
categoría o variable del eje de categorías. Los diagramas de caja dentro de cada agrupación vienen
definidos por una variable de definición distinta.

1
TP PT Análisis Estadístico Multivariable de Manuel Vivanco

4
Años de escolarización por raza

899 634
20

718

Número de años de escolarización


15

10

691
1.366 702
244 693
5
620 688
596 765 1.476

735
0

Blanca Negra Otra

Raza del encuestado

Años de escolarización por raza agrupados por sexo

634 Sexo del encuestado


20
960 Hombre
961 718 Mujer
Número de años de escolarización

15

10

1.404

804
244 621 1.448 693
5
620 695 688
596 821 765

735
0

Blanca Negra Otra

Raza del encuestado

5
Detección de variables con categorías mal codificadas

En muchos archivos de datos se detectan problemas en variables nominales con categorías en formato
cadena sin un código asociado. Para detectar este problema es aconsejable realizar tablas de frecuencia de
las variables y observar si las categorías presentan errores de digitación, como por ejemplo la variable
sexo podría presentar problemas si las categorías están mal digitadas; Hombre, HOMBRE, hombre
representan a la misma categoría, sin embargo en una tabla de frecuencia aparecerán como categorías
diferentes. Para solucionar este problema se recomienda recodificar automáticamente asignándole a las
categorías de la variable un código numérico y luego con recodificar en distinta variable asignar
correctamente los códigos.

Análisis de datos ausentes


En este proceso de depuración de datos (anterior a la utilización de los métodos multivariables) el analista
debe ser consciente de que se enfrenta a una información que puede no existir en determinadas
observaciones y variables. Esto es lo que conocemos por datos ausentes o missing values. El porqué de la
existencia de datos ausentes puede deberse a distintas razones como errores al codificar los datos e
introducirlos en el computador, fallas del encuestador al completar el cuestionario, negación del
encuestado a responder ciertas preguntas calificadas de controvertidas… Razones comunes y muy
habituales en todo proceso investigador.

El problema de estos errores es el gran perjuicio que la inexistencia de datos ocasiona en los resultados y
sus efectos en el tamaño de la muestra disponible para el análisis, dado que esta ausencia puede convertir
lo que era una muestra adecuada en inadecuada. Por ello es necesario depurar esos casos y buscar
soluciones. Si se puede suponer que los fundamentos teóricos de la investigación no se alteran
sustancialmente, una opción sería suprimir aquellas variables y/o casos que peor se comportan respecto a
los datos ausentes. En este caso el investigador deberá sopesar lo que gana con la exclusión de esta
información y lo que pierde al no contar posteriormente en el análisis multivariante con la misma. Mediante
este proceder se asegura de que su matriz de datos está completa y posee observaciones válidas.

Otra posibilidad sería la estimación de valores ausentes empleando relaciones conocidas entre valores
válidos de otras variables y/o casos de la muestra. Por tanto, se trataría de imputar o sustituir los datos
ausentes por valores estimados (bien sea la media o un valor constante) en base a otra información
existente en la muestra.
Un porcentaje bajo de valores missing no es un problema que influya decisivamente en los resultados. Por
el contrario, la falta reiterada de respuesta puede alterar seriamente el análisis. No existe una estimación
respecto al porcentaje de missing que produce dificultades en una muestra determinada.
Según Tabachnik y Fidell (1983) más importante que el número de valores missing es la existencia de un
patrón de comportamiento en éstos. En efecto, la presencia de missing que se distribuyen aleatoriamente
no produce sesgos, sin embargo, la falta de respuesta sistemática asociada a ciertas variables puede
generar distorsión en los resultados.

La existencia de datos ausentes nunca debe impedir la aplicación del análisis multivariable o limitar la
posibilidad de generalizar los resultados de una investigación. La principal tarea del analista consistirá en
identificar su presencia, y desempeñar las acciones necesarias para minimizar sus efectos.
En datos correspondientes a encuestas es habitual encontrar códigos como los siguientes.
7= No procede, 8= No sabe , 9= No contesta
97= No procede, 98= No sabe, 99= No contesta
997= No procede, 998= No sabe, 999= No contesta

6
Se utilizan estos códigos cuando no son parte de los posibles datos de la variable.
El SPSS tiene un menú especial para tratar los valores perdidos.
El SPSS hace diferencia para los valores perdidos por el usuario y valores perdidos por el sistema.

Detección de outliers
Al examinar los datos recabados después de un proceso muestral el investigador puede detectar la
existencia de ciertas observaciones que no siguen el mismo comportamiento del resto, enfrentándose de
este modo a ciertos casos que, por ser claramente diferentes de otras observaciones de la muestra, son
calificados como outliers o atípicos.

El objetivo ante esta situación es identificar esa diferencia sustancial entre el valor real de la variable
criterio y su valor previsto, puesto que da lugar a observaciones que no son representaciones apropiadas de
la población de la cual se extrae la muestra.
Los casos atípicos se deben a errores en el procedimiento, o lo que es lo mismo, a falta al introducir los
datos o al codificar. Pero también pueden ser consecuencia de un evento extraordinario que hace destacar
esa observación. Este acontecimiento anormal puede tener o no una explicación. En cualquiera de estas
situaciones, una vez que: los outliers el analista debe juzgar qué es lo más apropiado: si evaluar toda la
incluyendo estas perturbaciones o eliminadas del análisis.

Estas decisiones han de justificarse, dado que determinados casos atípicos: aunque diferentes a la mayor
parte de la muestra, pueden contener información representativa de un segmento dominante. No obstante,
habrá situaciones donde lo más acertado sea su supresión porque pueden distorsionar seriamente los tests
estadísticos dados los problemas que presentan.

La detección de los casos atípicos desde una perspectiva univariable pasa por la observación de aquellos
casos que caigan fuera de los rangos de la distribución. Si lo que se pretende es evaluar conjuntamente
pares de variables se utilizará el gráfico de dispersión. Este método bivariable permite identificar los
casos atípicos al venir representado como puntos aislados. Por su parte, la detección multivariable supone
evaluar cada observación a lo largo de un conjunto de variables. Esto se consigue mediante el uso de la
Mahalanobis, puesto que es una medida de la distancia de cada observación en un espacio multidimensional
respecto del centro medio de las observaciones.

7
II. Estudio de Caso: Caracterización del Mundo2

Considere el archivo Mundo 95, que contiene las siguientes variables de los países del Mundo en el
año 1995:
Variable Etiqueta Etiqueta de Valor
país País
poblac Población x 1000
densidad Habitantes x Km2
urbana Habitantes en ciudades (%)
relig Religión mayoritaria
espvidaf Esperanza de vida Femenina
espvidam Esperanza de vida Masculina
alfabet Alfabetización (%)
inc_pob Aumento de población (% anual)
mortinf Mortalidad infantil (Muertes por 1000 nacimientos
vivos)
pib_cap Producto interno bruto per cápita
región Región Económica 1 = OCDE
2 = Europa Oriental
3 = Asia / Pacífico
4 = Africa
5 = Oriente Medio
6 = América Latina
calorías Ingesta diaria de calorías
sida Casos de SIDA
tasa_nat Tasa de natalidad (por 1.000 habitantes)
tasa_mor Tasa de mortalidad (por 1.000 habitantes)
tasasida Casos de SIDA por 100.000 habitantes
log_pib Log(10) de PIB_CAP
logtsida Log(10) de TASASIDA
nac_def Tasa nacimentos/defunciones
fertilid Número promedio de hijos
log_pob Log(10) de POBLAC
cregrano --
alfabmas Hombres alfabetizados (%)
alfabfem Mujeres alfabetizadas (%)
clima Clima predominante 1 = Desierto
2 = Arido / Desierto
3 = Arido
5 = Tropical
6 = Mediterráneo
7 = Marítimo
8 = Templado

2
TP Caso desarrollado por Sara Arancibia

8
9 = Artico /
Templado
10 = Artico

Usted debe realizar un informe donde compare los países en al menos los siguientes aspectos: Población,
densidad, % de habitantes en ciudades, esperanza de vida, alfabetización (%), tasas de natalidad y
mortalidad, número promedio de hijos por familia, tasa sida, considerando las variables nominales Región,
Religión mayoritaria y clima predominante.

Para su informe debe considerar al menos los siguientes puntos:


(i) Tres gráficos distintos con su interpretación.
(ii) Tablas de frecuencia
(iii) Tablas de contingencia
(iv) Outliers (Valores extremos)
(v) Medidas de tendencia central
(vi) Medidas de dispersión
(vii) Cubos OLAP
(viii) Puntuaciones z

Solución:

Comenzaremos el estudio determinando la frecuencia de las variables nominales; Región Económica, Religión
Predominante y Clima Predominante de los países

Region or economic group

Frequency Percent Valid Percent


Valid OECD 21 19,3 19,3
East Europe 14 12,8 12,8
Pacific/Asia 17 15,6 15,6
Africa 19 17,4 17,4
Middle East 17 15,6 15,6
Latn America 21 19,3 19,3
Total 109 100,0 100,0

La tabla de frecuencia muestra el número de países por Región económica. Se observan dos regiones con la
mayor frecuencia, (21 países) las que corresponden a la Región OECD (Organización para la Cooperación y el
Desarrollo Económico) y a la Región de Latino América, correspondiendo al 19,3% del total de países. La
menor frecuencia se observa en Europa del Este con 14 países de un total de 109 países.

El gráfico siguiente muestra la frecuencia y porcentaje de países por Religión predominante.

9
Frecuencia y porcentaje de países
por Religión Predominante

Other Buddhist

10,00 / 9,2% 7,00 / 6,4%

Protstnt
16,00 / 14,7%

Catholic
Orthodox
41,00 / 37,6%
8,00 / 7,3%

Muslim
27,00 / 24,8%

Se observa que 41 países que representan el 37,6% del total de países considerados tienen como religión
predominante a la religión Católica y 27 países a la religión Musulmana representando el 24,8% del total de
países considerados.

Para generar el gráfico: Graficar/Sectores/Resumen para grupos de casos/Nº de casos/Religión


Predominante. En el editor de gráficos se pide texto, valor y porcentaje y se colapsa los sectores a
mayores del 5%.
La tabla de frecuencia para religión predominante muestra complementariamente al gráfico anterior que
las religiones con menor frecuencia son las religiones Hindú, Judía, Taoísta y Tribal

Predominant religion

Frequency Percent Valid Percent


Valid Animist 4 3,7 3,7
Buddhist 7 6,4 6,5
Catholic 41 37,6 38,0
Hindu 1 ,9 ,9
Jewish 1 ,9 ,9
Muslim 27 24,8 25,0
Orthodox 8 7,3 7,4
Protstnt 16 14,7 14,8
Taoist 2 1,8 1,9
Tribal 1 ,9 ,9
Total 108 99,1 100,0
Missing 1 ,9
Total 109 100,0

Al cruzar las variables región y religión podemos observar en la tabla de contingencia que la Religión
Predominante Animista pertenece a países de África. La religión predominante Católica se encuentra en
todas las regiones excepto en la Región de Oriente donde la religión predominante es la Musulmana con 15
países de un total de 17 países de la región

10
Predominant religion * Region or economic group Crosstabulation

Count
Region or economic group
East Pacific/ Middle Latn
OECD Europe Asia Africa East America Total
Predominant Animist 4 4
religion Buddhist 7 7
Catholic 10 5 1 5 20 41
Hindu 1 1
Jewish 1 1
Muslim 1 5 6 15 27
Orthodox 1 6 1 8
Protstnt 10 2 1 2 1 16
Taoist 2 2
Tribal 1 1
Total 21 14 17 18 17 21 108

En relación al Clima Predominante se observa que las mayores frecuencias corresponden a los climas
Temperado y Tropical los que representan un 31,8% y 29,9% respectivamente, respecto al total de datos
válidos.

Predominant climate

Frequency Percent Valid Percent


Valid desert 7 6,4 6,5
arid / desert 5 4,6 4,7
arid 6 5,5 5,6
otro 5 4,6 4,7
tropical 32 29,4 29,9
mediterranean 10 9,2 9,3
maritim e 4 3,7 3,7
temperate 34 31,2 31,8
arctic / tem p 4 3,7 3,7
Total 107 98,2 100,0
Missing System 2 1,8
Total 109 100,0

Ahora consideremos la población, densidad y habitantes que viven en ciudades. Podemos observar del
gráfico correspondiente a la mediana de población por región económica que el 50% de los países del
Asia/Pacífico tienen una población mayor o igual a 59.400.000 habitantes, valor notablemente alto en
relación a las medianas del resto de las regiones las que oscilan entre 10.400.000 y 5.500.000 habitantes.

11
Mediana de Población por Región Económica
70000

60000
59400

50000

40000

30000

20000

10000
10400 9600 9100 7900
0 5500
OECD Pac ific/Asia Middle East
East Europe Africa Latn America

Region or economic group

Coherente con lo anterior se observa que la mayor densidad por región económica corresponde a la región
Asia/Pacífico con un valor promedio de 802 habitantes por kmP 2P, la que es considerablemente superior a la
densidad promedio del resto de regiones, las que oscilan entre 127 y 62 habitantes por kmP2P
correspondiendo esta última a la región de África

Media de densidad por Región Económica


1000

800
802

600

400

200

108 127
77 62 88
0
OECD Pac ific/Asia Middle East
East Europe Africa Latn America

Region or economic group

Para generar el gráfico: Graficar/Barras/Simples/Resumen para grupos de casos/N de casos/ Región


Económica.

12
Media de porcentaje de población
que vive en ciudades

OECD 75

East Europe 62
Region or economic group

Pac ific/Asia 45

Africa 29

Middle East 66

Latn America 61

20 30 40 50 60 70 80

Mean People living in cities (%)

En relación al porcentaje de personas que viven en ciudades, se observa del gráfico que el mayor
porcentaje promedio corresponde a la Región OECD, con un 75% en promedio. Es considerable la diferencia
con la región de África donde el promedio de población urbana es del 29%, seguido de Asia/Pacífico con un
promedio del 45%.

Podemos complementar la información anterior con Cubos OLAP, los que muestran por grupos, los
estadísticos que se necesiten conocer. Específicamente los Cubos siguientes muestran para las regiones
OECD y África, el número de países el que corresponde a 21 y 18 países respectivamente. Se observa la
media para cada una de las variables consideradas y la desviación estándar que muestra cuánto se desvían
los datos, en promedio respecto a la media.

Al considerar el cubo correspondiente a la región OECD se observan los valores mínimo y máximo, es
sorprendente observar que existen países con una densidad de 2,3 habitantes por kmP 2P y de 366 personas
por kmP2P. Al considerar la población, dentro de los países del OECD se puede apreciar un valor mínimo de
263.000 habitantes en oposición al valor máximo de 260.800.000 habitantes. El mayor porcentaje de
población urbana corresponde al 96% y el menor corresponde al 34%.

OLAP Cubes

Region or economic group: OECD


Predominant clim ate: Total
Predominant religion: Total
Number of people
Population in thousands / sq. kilometer People living in cities (%)
N 21 21 21
Mean 33085,10 107,981 74,71
Std. Deviation 57148,25 107,936 14,89
Minim um 263 2,3 34
Maximum 260800 366,0 96
Median 10400,00 80,000 77,00

13
OLAP Cubes

Region or economic group: Africa


Predominant clim ate: Total
Predominant religion: Total
Number of people
Population in thousands / sq. kilometer People living in cities (%)
N 18 18 18
Mean 18415,83 63,700 28,17
Std. Deviation 24331,33 79,823 14,70
Minim um 959 2,4 5
Maximum 98100 311,0 47
Median 8900,00 39,500 24,50

Al considerar el cubo correspondiente a la región de África se observa una media de población


considerablemente más baja que la media de la Región OECD y que la variabilidad en la variable población
del 132% es más baja que si se compara con la región del OECD cuyo coeficiente de variabilidad es del
172,7%. Por otra parte se observa para la población urbana un mínimo de 5% siendo el porcentaje máximo
del 47%, valores muy bajos si se compara con la región del OECD. Al igual que la región OECD se observa un
valor mínimo de densidad de 2,4 habitantes por km 2, en oposición al máximo cuya densidad es de 311
habitantes por km2.

Para identificar a qué países corresponden estos valores máximos y mínimos se puede solicitar los valores
extremos (outliers) que muestra los cinco valores mayores y menores.

Extreme Values Extreme Values

Region or economic group: OECD Region or economic group: Africa


Number of people / sq. kilometer Number of people / sq. kilom eter
Case Num ber COUNTRY Value Case
Highest 1 Netherlan Number COUNTRY Value
70 366,0
ds Highest 1 85 Rwanda 311,0
2 11 Belgium 329,0 2 18 Burundi 216,0
3 101 UK 237,0 3 73 Nigeria 102,0
4 42 Germany 227,0 4 40 Gambia 86,0
5 56 Italy 188,0 5 103 Uganda 76,0
Lowest 1 4 Australia 2,3 Lowest 1 14 Botswana 2,4
2 49 Iceland 2,5 2 39 Gabon 4,2
3 21 Canada 2,8 3 Cent.
22 5,0
4 74 Norway 11,0 Afri.R
5 New 4 90 Somalia 10,0
71 13,0
Zealand 5 109 Zambia 11,0

Para generar las tablas: Analizar/Estadísticos Descriptivos/Explorar. En Factor colocar Región económica
y etiquetar por país. En Estadísticos seleccionar Valores Atípicos.

Ahora consideraremos las variables; Esperanza de vida femenina, esperanza de vida masculina, tasa de
natalidad, tasa de mortalidad, tasa sida, fertilidad y alfabetización

El gráfico siguiente muestra la media de esperanza de vida femenina y masculina por Región Económica. Se
observa que en todas las regiones es mayor la media de esperanza de vida femenina que masculina siendo la
región del OECD, la de mayor esperanza de vida, con un promedio de 80 y 74 años para mujeres y hombres
respectivamente. Es notable la diferencia con África donde se observa que el promedio de esperanza de
vida es muy baja siendo la media de 54 y 51 años para mujeres y hombres respectivamente.

14
Media de las variables Esperanza de Vida

Femenina y Masculina por Región Económica


90

80
80
76
74
70 72 72
68 67 67 66
60 63

Media esper de Vida


54
50
51
Media

Femenina

40 Masculina
OECD Pac ific/Asia Middle East
East Europe Africa Latn America

Región Económica

Para generar el gráfico: Graficar/Barras/Agrupados. Resumen para variables individuales/Media de las


variables Esperanza de vida fem y masculina/eje de categorías Región Económica.

La tabla siguiente identifica los países con mayor y menor esperanza de vida

Valores Extremos ( Outliers considerando todos los países)

Case Num ber COUNTRY Value


Average fem ale Highest 1 94 Switzerland 82
life expectancy 2 57 Japan 82
3 38 France 82
4 21 Canada 81
5 56 Italy ,a
Lowest 1 103 Uganda 43
2 1 Afghanistan 44
3 22 Cent. Afri.R 44
4 109 Zambia 45
5 97 Tanzania 45
Average male Highest 1 55 Israel 76
life expectancy 2 57 Japan 76
3 26 Costa Rica 76
4 49 Iceland 76
5 47 Hong Kong ,b
Lowest 1 103 Uganda 41
2 97 Tanzania 41
3 22 Cent. Afri.R 41
4 85 Rwanda 43
5 45 Haiti 43
a. Only a partial list of cases with the value 81 are shown in the table of upper
extremes.
b. Only a partial list of cases with the value 75 are shown in the table of upper
extremes.

El siguiente gráfico apilado compara la tasa de natalidad y mortalidad por región económica, mostrando que
las mayores tasas corresponden a la región de África, las que indican que en promedio nacen 42 por cada

15
1.000 habitantes y mueren en promedio 15 por cada 1.000 habitantes. La menor tasa de natalidad en
promedio corresponde a la región del OECD

Tasa de natalidad y mortalidad


por región económica
60
15
50

40 42
6
9 7
30 33
27 27
20 11 Death rate per 1000
10
people
10 13 13
Mean

Birth rate per 1000


0 people
OECD Pac ific/Asia Middle East
East Europe Africa Latn America

Region or economic group

Esta información está muy de acuerdo con la variable fertilidad, la que indica el promedio de hijos por
familia.

El diagrama de caja muestra por región económica que las mayores tasas de fertilidad se concentran en la
Región de África mostrando que la mediana representada por la línea horizontal en las cajas se aproxima al
valor 6 hijos por familia en promedio. El 50% de los datos de fertilidad de los países se encuentra en la
caja la que va desde el primer cuartil al tercer cuartil. La tabla de descriptivos para fertilidad por región
confirma la información entregada por el diagrama de caja.

Diagrama de caja
Fertilidad por región económica
10

0
N= 21 13 16 19 17 21

OECD Pac ific/Asia Middle East


East Europe Africa Latn America

Region or economic group

16
Descriptives

Fertility: average number of kids


Region or economic group
OECD East Pacific/As Africa Middle Latn
Europe ia East America
Statistic Statistic Statistic Statistic Statistic Statistic
Mean 1,746 1,889 3,383 6,081 4,724 3,336
5% Trimmed Mean 1,751 1,886 3,298 6,088 4,721 3,280
Median 1,800 1,840 3,065 6,290 4,000 3,080
Variance 6,150E-02 1,772E-02 3,226 1,285 2,356 1,115
Std. Deviation ,248 ,133 1,796 1,134 1,535 1,056
Minim um 1,3 1,7 1,4 3,8 2,8 1,8
Maximum 2,1 2,2 6,9 8,2 6,7 5,9
Range ,8 ,5 5,5 4,4 3,9 4,2
Interquartile Range ,495 ,190 2,795 1,380 3,165 1,655
Skewness -,081 ,530 ,791 -,586 ,231 ,827
Kurtosis -1,192 ,932 -,563 ,119 -1,812 ,332

Como complemento de la información vemos que la tabla siguiente muestra las medidas de tendencia central
y de dispersión para todas las variables consideradas en este apartado.

Descriptives

Average Average Birth Death Numbe Fertility: People


female male rate per rate per r of aids average who
life life 1000 1000 cases / number read
expecta
Statistic expecta
Statistic people
Statistic people
Statistic 100000
Statistic of kids
Statistic (%)
Statistic
Mean ncy
69,89 ncy
64,71 26,154 9,64 people
24,8271 3,558 77,95
5% Trimmed Mean 70,67 65,37 25,754 9,31 16,8072 3,475 79,74
Median 74,00 67,00 25,500 9,00 5,5512 3,065 87,50
Variance 115,241 88,926 154,112 18,400 2482,6 3,605 532,862
Std. Deviation 10,74 9,43 12,414 4,29 49,8252 1,899 23,08
Minim um 43 41 10,0 2 ,00 1,3 18
Maximum 82 76 53,0 24 326,75 8,2 100
Range 39 35 43,0 22 326,75 6,9 82
Interquartile Range 12,75 12,75 21,000 4,00 23,2434 3,170 36,75
Skewness -1,048 -1,020 ,416 1,283 3,498 ,665 -,955
Kurtosis ,054 ,171 -1,163 1,754 15,008 -,933 -,250

Si consideramos sólo los países de las regiones OECD y África, observamos cómo cambian las medidas de
tendencia central y dispersión ya que en todas las variables, los países de la región de África están con
índice muy por debajo de los de la región OECD. Si queremos reconocer qué países en esas regiones tienen
los cinco valores máximos y mínimos los podemos apreciar de la tabla de valores extremos.

17
Descriptives

Region or economic group: OECD


Average Average Birth rate Death Number Fertility: People
female male life per 1000 rate per of aids average who read
life
Statistic expectanc
Statistic people
Statistic 1000
Statistic cases /
Statistic number
Statistic (%)
Statistic
Mean expectanc
80,10 y
73,71 12,952 people
9,63 100000
29,1052 of kids
1,746 97,67
y people
5% Trimmed Mean 80,11 73,74 12,944 9,65 23,6322 1,751 98,22
Median 80,00 74,00 13,000 10,00 15,8713 1,800 99,00
Variance 1,390 1,314 2,748 1,633 1131,049 6,150E-02 11,333
Std. Deviation 1,18 1,15 1,658 1,28 33,6311 ,248 3,37
Minim um 78 71 10,0 7 3,10 1,3 85
Maximum 82 76 16,0 12 157,94 2,1 100
Range 4 5 6,0 5 154,84 ,8 15
Interquartile Range 2,00 1,50 2,000 2,00 24,2397 ,495 2,00
Skewness -,201 -,256 ,302 -,169 3,090 -,081 -3,027
Kurtosis -,827 ,519 -,512 -,492 11,201 -1,192 10,370

Descriptives

Region or economic group: Africa


Average Average Birth rate Death Number Fertility: People
female male life per 1000 rate per of aids average who read
life
Statistic expectanc
Statistic people
Statistic 1000
Statistic cases /
Statistic number
Statistic (%)
Statistic
Mean expectanc
54,26 y
50,79 42,000 people
14,74 100000
75,7491 of kids
6,081 47,26
y people
5% Trimmed Mean 54,01 50,49 42,389 14,71 66,0056 6,088 47,29
Median 55,00 51,00 44,000 14,00 36,3077 6,290 50,00
Variance 63,649 52,731 41,111 25,538 7641,570 1,285 319,094
Std. Deviation 7,98 7,26 6,412 5,05 87,4161 1,134 17,86
Minim um 43 41 28,0 6 ,13 3,8 18
Maximum 70 66 49,0 24 326,75 8,2 76
Range 27 25 21,0 18 326,61 4,4 58
Interquartile Range 12,00 11,00 5,000 7,00 112,6254 1,380 34,00
Skewness ,425 ,352 -1,256 ,126 1,562 -,586 ,012
Kurtosis -,434 -,458 ,452 -,847 2,587 ,119 -,964

Para generar la tabla: Analizar/Estadísticos Descriptivos/Explorar: esperanza de vida femenina y


masculina, tasa de natalidad y mortalidad, promedio de hijos por familia etc. Factor: Región. Etiquetar por:
país. Estadísticos: Valores Atípicos. Al editar la gráfica se borra lo que no se quiere mostrar.

Si queremos comparar Chile en esperanza de vida femenina y masculina, tasa de natalidad, tasa de
mortalidad, fertilidad, tasa sida y alfabetización respecto al resto de países de la base de datos
consideramos las puntuaciones z de cada una de ellas, las que nos muestran que:
 esperanza de vida femenina en Chile está sobre la media en 0,74 desviaciones estándares.
 esperanza de vida masculina en Chile está sobre la media en 0,65 desviaciones estándares.
 tasa de natalidad en Chile está bajo la media en 0,23 desviaciones estándares.
 tasa de mortalidad en Chile está bajo la media en 0,83 desviaciones estándares.
 fertilidad (promedio de hijos por familia) en Chile está bajo la media en 0,55 desviaciones
estándares.
 tasa sida en Chile está bajo la media en 0,37 desviaciones estándares
 alfabetización (% de personas que saben leer) en Chile está sobre la media en 0,64 desviaciones
estándares.

18
EJERCICIOS:

1) Seleccione la Región de América Latina y realice un gráfico que muestre la población de los países
de esa región.

2) Segmente por región económica y calcule los cuartiles de esperanza de vida femenina y masculina

3) Crear rangos de “fertilidad” menor o igual a 2, superior a 2 y menor o igual a 4 y superior a 4


(variable: Número promedio de hijos por familia)

19
III. Estudio de Caso: Seguridad Minera3

Caso: Seguridad Minera

El año 1980, el Servicio Nacional de Geología y Minería SERNAGEOMIN fue creado a partir de la unión del
Instituto de Investigaciones Geológicas y el Servicio de Minas del Estado, con el objetivo de ser el asesor técnico
especializado del Ministerio de Minería en materias geológicas y mineras. Su misión es producir y proveer
información y productos geológicos, ejercer la función pública de fiscalización de las condiciones de seguridad
minera y medioambiente en la minería y entregar asistencia técnica en materias de constitución de la propiedad
minera, con el fin de satisfacer las demandas de las instituciones del Estado, de las empresas públicas y
privadas, y de las personas que participan en el sector minero y en el quehacer geológico, contribuyendo al
desarrollo del país en un entorno social, económico y ambientalmente sustentable.

Una de las principales actividades del SERNAGEOMIN es la fiscalización, en materias de control de riesgos de
accidentes, a las empresas y los trabajadores que desarrollan actividades en el sector minero. Esta actividad
tiene su base legal en la Ley Orgánica del Servicio D.L. Nº 3.525 y se encuentra enmarcada dentro del
Reglamento de Seguridad Minera (D.S. Nº 72 del Ministerio de Minería, año 1985

Suponga que usted debe analizar la información entregada por SERNAGEOMIN relativa a accidentes en minería.
Considere el archivo de datos “Estadísticas seguridad minera (Archivo tarea 2).xls”

1- Desde SPSS importar el archivo “Estadísticas seguridad minera (Archivo tarea 2).xls” desde Excel. Calcular
una variable que represente el total de accidentes (considerando accidentes fatales más los accidentes C.T.P.).
Además considerando las regiones genere la variable zona; Norte, Centro y Sur. Muestre la sintaxis completa del
cálculo de ambas variables.
Luego considerando la totalidad de datos en el archivo de datos, genere una tabla donde muestre por zona la suma total
de accidentes; fatales, CTP y total de accidentes. Muestre la sintaxis.
¿Qué zona presenta la menor cantidad de accidentes C.T.P? ¿Qué zona presenta la mayor cantidad total de accidentes?
¿Qué zona presenta mayor cantidad de accidentes fatales y qué porcentaje representan respecto al total de accidentes
fatales?

2.- Crear un nuevo archivo que considere por año y tipo de empresa ( Mandantes y Contratistas): la media de
accidentes fatales, la suma de accidentes fatales, la media del total de accidentes, la suma del total de
accidentes, la media del total de accidentes, la suma de días perdidos, la suma de horas hombre. Pegar la
sintaxis.

3.- Considere el archivo creado en el punto anterior y calcule la tasa de frecuencia, la tasa de gravedad y la tasa
de fatalidad de acuerdo a las siguientes definiciones. (Fuente: Art.12° del D.S N° 40 de la Ley 16.744)

Tasa de Frecuencia: Número de lesionados por millón de horas trabajadas por todo el personal en el período
considerado.

Tasa de frecuencia= (Total de accidentes *1000000)/ Total horas Hombre

3
TP Caso desarrollado por Sara Arancibia

20
Tasa de Gravedad: Número de días de ausencia al trabajo de los lesionados por millón de horas trabajadas por
todo el personal en el período considerado.

Tasa de gravedad= (Total de días perdidos *1000000)/ Total horas Hombre

Tasa de Fatalidad: Numero de fatales por millón de horas trabajadas por todo el personal en el período
considerado

Tasa de gravedad= (Total accidentes fatales *1000000)/ Total horas Hombre

Pegar la sintaxis de los cálculos y mostrar un gráfico que permita visualizar en qué años la tasa de fatalidad toma
un valor extremo o atípico por tipo de empresa (Mandantes, Contratistas). ¿En qué tipo de empresa la mediana
es mayor? ¿En qué tipo de empresa se presentan las tasas de fatalidad más altas y dónde se observa más
variabilidad? Argumente su respuesta.

4.- Crear un nuevo archivo que considere por región y empresas; la media de accidentes fatales, la suma de
accidentes fatales, la suma del total de accidentes, el mínimo del total de accidentes, el máximo del total de
accidentes. Pegar la sintaxis. Muestre una tabla identificando la región donde se presentan los cinco valores
mayores para las variables; suma total de accidentes y suma de accidentes fatales, por tipo de empresa
(Mandantes y contratistas). Comente la tabla.

SOLUCION

Pregunta 1.
SINTAXIS
DATASET ACTIVATE Conjunto_de_datos3.
COMPUTE totalacc=AccidentesFatales + AccidentesC.T.P.
VARIABLE LABELS totalacc 'total de accidentes'.
EXECUTE.

SE recodifica automáticamente la variable región


AUTORECODE VARIABLES=Región
/INTO regionrec
/PRINT.

Región into regionrec


Old Value New Value Value Label

Antofagasta 1 Antofagasta
Arica-Parinacota 2 Arica-Parinacota
Atacama 3 Atacama
Coquimbo 4 Coquimbo
De Aysén 5 De Aysén
De Los lagos 6 De Los lagos
Del Bío Bio 7 Del Bío Bio

21
Del Libertador Bernardo 8 Del Libertador Bernardo
O´Higgins 8 O´Higgins
Del Maule 9 Del Maule
Magallanes 10 Magallanes
Metropolitana 11 Metropolitana
Tarapacá 12 Tarapacá
Valparaíso 13 Valparaíso

Para crear zona se recodifica en distinta variable

RECODE regionrec (12=1) (11=2) (13=2) (10=3) (1 thru 4=1) (8 thru 9=2) (5 thru 7=3) INTO zona.
EXECUTE.

En definición de la variable
1 Norte
2 Centro
3 Sur

OLAP CUBES AccidentesFatales Accidentes C.T.P totalacc BY zona


/CELLS=COUNT SUM SPCT
/TITLE='Cubos OLAP'.

¿Qué zona presenta la menor cantidad de accidentes C.T.P?


La zona Sur con 2646 accidentes.

¿Qué zona presenta la mayor cantidad total de accidentes? La zona Norte con 21702

22
¿Qué zona presenta mayor cantidad de accidentes fatales y qué porcentaje representan respecto al total de accidentes
fatales?
La zona Norte con 390 accidentes fatales y representan el 70,7% del total de accidentes fatales

Pregunta 2:
SINTAXIS

AGGREGATE
/OUTFILE='G:\CURSOS 2011\MBA MINERIA\TAREA 2- MBA Minería 2011\AGRaccidentes1.sav'
/BREAK=Años Empresas
/AccidentesFatales_mean=MEAN(AccidentesFatales)
/AccidentesFatales_sum=SUM(AccidentesFatales)
/AccidentesC.T.P_mean=MEAN(AccidentesC.T.P)
/AccidentesC.T.P_sum_1=SUM(AccidentesC.T.P)
/totalacc_sum=SUM(totalacc)
/HorasHombre_sum=SUM(HorasHombre)
/DíasPerdidos_sum=SUM(DíasPerdidos)
/N_BREAK=N.

Pregunta 3

SINTAXIS:

DATASET ACTIVATE Conjunto_de_datos7.


COMPUTE tfrecuencia=(totalacc_sum * 1000000) / HorasHombre_sum.
VARIABLE LABELS tfrecuencia 'tasa de frecuencia'.
EXECUTE.

COMPUTE gravedad=(DíasPerdidos_sum *1000000) / HorasHombre_sum.


VARIABLE LABELS gravedad 'tasa de gravedad'.
EXECUTE.

COMPUTE tfatalidad=(AccidentesFatales_sum * 1000000) / HorasHombre_sum.


VARIABLE LABELS tfatalidad 'tasa de fatalidad'.
EXECUTE.

23
Pregunta 4

SINTAXIS

DATASET ACTIVATE Conjunto_de_datos5.


AGGREGATE
/OUTFILE='G:\CURSOS 2011\MBA MINERIA\TAREA 2- MBA Minería 2011\AGRaccidentes2.sav'
/BREAK=Región Empresas
/AccidentesFatales_mean=MEAN(AccidentesFatales)
/AccidentesFatales_sum=SUM(AccidentesFatales)
/totalacc_sum=SUM(totalacc)
/totalacc_min=MIN(totalacc)
/totalacc_max=MAX(totalacc)
/N_BREAK=N.

24
25
IV Caso: Producción minera 2009-2010

Suponga que usted es un asesor de una empresa minera y debe entregar algunas estadísticas de producción
agregada. Considere el archivo en Excel llamado Producción minera 2009-2010.
El objetivo de este caso es importar un archivo desde Excel a SPSS, utilizar algunas funciones para
calcular variables y generar nuevos archivos con agregar.

1) Desde SPSS importar el archivo considerando la hoja prod minera 2009-2010 mensual.

2) Calcule una variable que muestre solo el año y otra que muestre solo el mes

3) Genere un archivo con estadísticas agregadas de producción para el año 2009 y 2010 considerando
la producción de cobre y oro. Para esto considere para cada año la producción total, la media de producción
mensual, la variabilidad, la mínima y máxima producción.

4) Transponer el archivo creado y guarde como Producc agregada 2009-2010 y realice una tabla con
los datos del archivo.

5) Genere un gráfico que muestre para cada año la producción promedio mensual de cobre

6) Genere un gráfico que muestre para cada año la producción media mensual de cobre, la mínima y
máxima producción mensual y la variabilidad de producción de cobre

7) Considerando los años 2009 y 2010 genere un archivo con estadísticas agregadas por mes para la
producción de oro. Para esto considere la media de producción mensual , la mínima y máxima producción, la
desviación estándar y el coeficiente de variabilidad de la producción de oro.

26
SOLUCION
1) Desde SPSS importar el archivo considerando la hoja prod minera 2009-2010 mensual.
Solución: Archivo /abrir/datos

Ajuste en vista de variables los decimales a 2 y guardar con el nombre producción minera 2009-2010
mensual

2) Calcule una variable que muestre solo el año y otra que muestre solo el mes.

27
Para calcular el mes
Transformar /calcular variable/ variable de destino: mes, tipo; cadena, anchura 10/expresión de cadena:
CHAR.SUBSTR(AñoyMes,6). Pegar/ ejecutar/Aceptar.

DATASET ACTIVATE Conjunto_de_datos1.


STRING mes (A10).
COMPUTE mes=CHAR.SUBSTR(AñoyMes,6).
VARIABLE LABELS mes 'mes'.
EXECUTE.
Para calcular el año
Transformar /calcular variable/ variable de destino: año, tipo; cadena, anchura 4/expresión de cadena:
CHAR.SUBSTR(AñoyMes,1,4). Pegar/ ejecutar/Aceptar
STRING año (A4).
COMPUTE año=CHAR.SUBSTR(AñoyMes,1,4).
VARIABLE LABELS año 'año'.
EXECUTE.
Para pasar a formato numérico ir a vista de variables y cambiar formato de cadena a numérico, cambiar
además en medida de nominal a escala

3) Genere un archivo con estadísticas agregadas de producción para el año 2009 y 2010 considerando
la producción de cobre y oro. Para esto considere para cada año la producción total, la media de producción
mensual , la variabilidad, la mínimo y máxima producción

Datos/ Agregar/variable de segmentación : año/Resúmenes de variables


/Cobretdefino_sum 'prod total de cobre'=SUM(Cobretdefino)
/Cobretdefino_mean 'prod media de cobre'=MEAN(Cobretdefino)
/Cobretdefino_min 'Mínima prod de cobre'=MIN(Cobretdefino)
/Cobretdefino_max 'Máxima prod de cobre'=MAX(Cobretdefino)
/Cobretdefino_sd 'variabilidad en la prod de cobre'=SD(Cobretdefino)
/Orokgdefino_sum 'prod total de oro'=SUM(Orokgdefino)
/Orokgdefino_mean_1 'prod media de oro'=MEAN(Orokgdefino)
/Orokgdefino_min 'minima prod de oro'=MIN(Orokgdefino)
/Orokgdefino_max 'maxima prod de oro'=MAX(Orokgdefino)
/Orokgdefino_sd 'variabilidad en la prod de oro'=SD(Orokgdefino)
Activar número de casos: casos
Crear un nuevo conjunto de datos : Nombre del conjunto de datos: AGRPROD

28
4) Transponer el archivo creado y guarde como Producc agregada 2009-2010 y realice una tabla con
los datos del archivo.

Datos/ transponer
DATASET ACTIVATE Conjunto_de_datos10.
FLIP VARIABLES=Cobretdefino_sum Cobretdefino_min Cobretdefino_max Cobretdefino_sd
Orokgdefino_sum
Orokgdefino_mean_1 Cobretdefino_mean Orokgdefino_min Orokgdefino_max Orokgdefino_sd
/NEWNAME=año.

Se genera un nuevo archivo sin título. Guardar como: Producc agregada 2009-2010, luego ir a Analizar/
informes Resúmenes de casos./limitar a los primeros 11 casos.

29
5) Genere un gráfico que muestre para cada año la producción mensual de cobre

Considere el archivo AGRPROD.sav /ir a gráficos /cuadros de diálogo antiguos/ barras/ simple/ valores
individuales de casos/ las barras representan: Cobretdefino_mean, varaible:año

Otra forma Considere el archivo prod minera 2009-2010. Ir a gráficos /cuadros de diálogo antiguos/
barras/ simple/ resúmenes para grupos de casos/ las barras representan: MEAN(Cobretdefino), eje de
categorías : año

30
6) Genere un gráfico que muestre para cada año la producción media mensual de cobre, la mínima y
máxima producción mensual y la variabilidad de producción de cobre
Ir a gráficos /cuadros de diálogo antiguos/ barras/ agrupados/ resúmenes para distintas variables/ las
barras representan: MEAN(Cobretdefino), MIN(Cobretdefino), MAX(Cobretdefino), STD(Cobretdefino),
eje de categorías : año. Aceptar

31
7) Considerando los años 2009 y 2010 genere un archivo con estadísticas agregadas por mes para la
producción de oro. Para esto considere la media de producción mensual, la mínima y máxima producción, la
desviación estándar y el coeficiente de variabilidad de la producción de oro.

Ir a Datos Agregar/ Considere las variables como en la imagen y escriba un nuevo archivo de datos con el
nombre AGRPRODMES.sav
Luego abrir el archivo creado y generar la variables CV (Coeficiente de variabilidad). Para esto ir a
Transformar/calcular/ (Orokgdefino_sd / Orokgdefino_mean_1)*100

El resultado se puede ver en el archivo agregado

32
33
V. Estudio de Caso: Exportaciones de cobre por continente y países de destino 4

Aplicación con media geométrica

Suponga que usted es asesor de una empresa minera y debe hacer un informe en relación a las estadísticas
de producción chilena de cobre por continente y por países de destino considerando las exportaciones
desde el año 2006 al 2011 (Miles de toneladas de cobre fino).
Fuente: SONAMI.
Considerando el archivo “Exportaciones de cobre.sav” realice un informe que contemple las siguientes
preguntas:

1) Calcule la variación porcentual anual de las exportaciones por país de destino, considerando las
variaciones porcentuales del 2007 al 2011.
2) Calcule la tasa de crecimiento promedio de exportación por país de destino, utilizando la media
aritmética y la media geométrica y muestre por continente una tabla que permita comparar los
resultados entre la media aritmética y la media geométrica y las tasas de crecimiento promedio.
3) Compare cuál de las dos medias representa una mejor tasa de crecimiento para las exportaciones
por países. ( Considere Colombia, Canadá y Brasil)
4) Realice el ejercicio con la media armónica. Compare los resultados.

Solución
1) Lo primero es calcular una variable para la diferencia de las exportaciones entre un año y el
anterior pero segmentado por país de destino ( para que sólo considere las exportaciones de cada
país) desde el 2006 al 2011

Segmentamos por país de destino


SORT CASES BY Paisdedestino.
SPLIT FILE LAYERED BY Paisdedestino.

Luego en el menú Transformar, Crear serie temporal, considerar la variable exportaciones, función
diferencia,1

4
TP Caso elaborado por Sara Arancibia

34
CREATE
/Export_1=DIFF(Exportación 1).

Para calcular la variación porcentual se requiere usar la función LAG(variable,n)


COMPUTE variacporc=(Export_1 / LAG(Exportación,1))*100.
VARIABLE LABELS variacporc 'variacion porcentual anual'.
EXECUTE.
OBS: LAG( variable, n)
Esta función considera el valor de la variable del caso anterior o n casos antes.

2) Para Calcular la tasa de crecimiento promedio de exportación por país de destino, utilizando la
media aritmética y la media geométrica, se procede a calcular el cuociente, proporción de las
exportaciones de un año respecto al año anterior

COMPUTE proporcion=Exportación /LAG(Exportación,1).


EXECUTE.

Ahora se saca la segmentación y se selecciona el año desde el 2007 al 2011


Donde año sebe ser variable con nivel de medida escala.

USE ALL.
COMPUTE filter_$=(Año >= 2007 & Año <= 2011).
VARIABLE LABEL filter_$ 'Año >= 2007 & Año <= 2011 (FILTER)'.
VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.
FORMAT filter_$ (f1.0).

35
FILTER BY filter_$.
EXECUTE.

OLAP CUBES proporcion BY Paisdedestino BY Continente


/CELLS=COUNT MEAN GEOMETRIC STDDEV NPCT
/TITLE='Cubos OLAP'.

Continente: América
Tasa de
crecimiento
promedio Tasa de crecimiento
Pais de Media GeometMedia (media promedio ( media
destino N Aritmética Geométrica aritmética) geométrica)
Argentina 5 ,9677 ,9564 -,03231 -,04365
Brasil 5 1,0024 ,9929 ,00243 -,00708
Canadá 5 ,6676 ,6137 -,33242 -,38633
Colombia 5 1,2849 1,0238 ,28486 ,02384
Estados 5 ,9361 ,9137 -,06388 -,08628
Unidos
México 5 ,9123 ,8806 -,08768 -,11938
Otros 4 2,4208 ,9306 1,42083 -,06940
Panamá 3 ,9255 ,9118 -,07449 -,08815
Perú 5 ,9385 ,9286 -,06150 -,07140
Venezuela 5 5,1019 1,8114 4,10187 ,81137
Total 47

36
3) Comparemos para los países Colombia, Canadá y Brasil
Colombia
Exportación MA MG
2006 4
2007 4,6 5,1 4,10
2008 2,3 6,6 4,19
2009 1,4 8,48 4,29
2010 4,4 10,89 4,40
2011 4,5 13,99 4,50

Tasa MA 0,285 1,285


Tasa MG 0,024 1,024

Canadá
Exportación MA MG
2006 114,9
2007 92,3 76,8 70,55
2008 96,1 51,3 43,32
2009 69,9 34,2 26,60
2010 31 22,9 16,33
2011 10 15,3 10,03

Tasa MA -0,332 0,67


Tasa MG -0,386 0,614

Brasil
Exportación MA MG
2006 275
2007 300,7 275,7 273,05
2008 346,3 276,3 271,11
2009 294,2 277,0 269,18
2010 320,5 277,6 267,27
2011 265,4 278,3 265,38

Tasa MA 0,0024 1,002


Tasa MG -0,0071 0,993

37
4)

Continente: América
Tasa de
Tasa de
crecimiento crecimiento
promedio Tasa de crecimiento promedio
Pais de Media GeometMedia Media (media promedio ( media (media
destino N Aritmética Geométrica Armónica aritmética) geométrica) armónica)
Argentina 5 ,9677 ,9564 ,9448 -,03231 -,04365 -0,0552
Brasil 5 1,0024 ,9929 ,9832 ,00243 -,00708 -0,0168
Canadá 5 ,6676 ,6137 ,5596 -,33242 -,38633 -0,4404
Colombia 5 1,2849 1,0238 ,8608 ,28486 ,02384 -0,1392
Estados 5 ,9361 ,9137 ,8955 -,06388 -,08628
Unidos -0,1045
México 5 ,9123 ,8806 ,8547 -,08768 -,11938 -0,1453
Otros 4 2,4208 ,9306 ,3274 1,42083 -,06940 -0,6726
Panamá 3 ,9255 ,9118 ,8977 -,07449 -,08815 -0,1023
Perú 5 ,9385 ,9286 ,9188 -,06150 -,07140 -0,0812
Venezuela 5 5,1019 1,8114 1,1707 4,10187 ,81137 0,1707
Total 47

Colombia
M
Exportación MA MG Armónica
2006 4
2007 4,6 5,1 4,10 3,44
2008 2,3 5,9 4,19 2,97
2009 1,4 3,0 4,29 2,55
2010 4,4 1,8 4,40 2,20
2011 4,5 5,7 4,50 1,89

Tasa MA 0,285 1,285


Tasa MG 0,024 1,024

38
Tasa M Armónica -0,139 ,8610

NOTA:
La Media Geométrica

En matemáticas y estadística, la media geométrica de una cantidad arbitraria de números (por


decir n números) es la raíz n-ésima del producto de todos los números, es recomendada para datos de
progresión geométrica, para promediar razones, interés compuesto y números índices.

 El logaritmo de la media geométrica es igual a la media aritmética de los logaritmos de los valores
de la variable.
 La media geométrica de un conjunto de números positivos es siempre menor o igual que la media
artimética:

La igualdad sólo se alcanza si .

 Todos los valores de la distribución y


 Es menos sensible que la media aritmética a los valores extremos.

 Es de significado estadístico menos intuitivo que la media aritmética,


 Su cálculo es más difícil y
 En ocasiones no queda determinada; por ejemplo, si un valor entonces la media geométrica
se anula.
Solo es relevante la media geométrica si todos los números son positivos. Como hemos visto, si uno de ellos
es 0, entonces el resultado es 0.

La media geométrica proporciona una medida precisa de un cambio porcentual promedio en una serie de
números.
- Se utiliza con más frecuencia para calcular la tasa de crecimiento porcentual promedio de series de
datos, a través del tiempo.
- Es una medida de tendencia central por lo general menor que la media aritmética salvo en el extraño caso
en que todos los incrementos porcentuales sean iguales, entonces las dos medias serán iguales.
- Se le define como la raíz enésima del producto de "n" valores. Cuando los datos son bastantes o
cantidades grandes, para facilitar el cálculo se lo debe simplificar pero sin alterar su naturaleza, para lo
cual se puede utilizar los logaritmos de base 10.
Para el cálculo;

39
Ejemplo
Supóngase que las utilidades obtenidas por una compañía constructora en cuatro proyectos fueron de 3, 2,
4 y 6%, respectivamente. ¿Cuál es la media geométrica de las ganancias?.
En este ejemplo la media geométrica es determinada por

y así la media geométrica de las utilidades es el 3.46%.


La media aritmética de los valores anteriores es 3.75%. Aunque el valor 6% no es muy grande, hace que la
media aritmética se incline hacia valores elevados. La media geométrica no se ve tan afectada por valores
extremos.
La media geométrica proporciona una medida precisa de un cambio porcentual promedio en una serie de
números.
- Se utiliza con más frecuencia para calcular la tasa de crecimiento porcentual promedio de series de
datos, a través del tiempo.
- Es una medida de tendencia central por lo general menor que la media aritmética salvo en el extraño caso
en que todos los incrementos porcentuales sean iguales, entonces las dos medias serán iguales.
- Se le define como la raíz enésima del producto de "n" valores. Cuando los datos son bastantes o
cantidades grandes, para facilitar el cálculo se lo debe simplificar pero sin alterar su naturaleza, para lo
cual se puede utilizar los logaritmos de base 10.

La Media Armónica

La media armónica, denominada H, de una cantidad finita de números es igual al recíproco, o inverso, de
la media aritmética de los recíprocos de dichos valores y es recomendada para promediar velocidades.

Así, dados n númerosx1, x2, ... , xn la media armónica será igual a:

La media armónica resulta poco influida por la existencia de determinados valores mucho más grandes que
el conjunto de los otros, siendo en cambio sensible a valores mucho más pequeños que el conjunto.

40
La media armónica no está definida en el caso de que exista algún valor nulo.

1. La inversa de la media armónica es la media aritmética de los inversos de los valores de la variable.
2. Siempre se puede pasar de una media armónica a una media aritmética transformando
adecuadamente los datos.
3. La media armónica siempre es menor o igual que la media aritmética, ya que para cualesquiera
números reales positivos :

 Considera todos los valores de la distribución y en ciertos casos, es más representativa que la
media aritmética.

 La influencia de los valores pequeños y el hecho que no se puede determinar en las distribuciones
con algunos valores iguales a cero; por eso no es aconsejable su empleo en distribuciones donde existan
valores muy pequeños.
Se suele utilizar para promediar velocidades, tiempos, rendimientos, etc.

Ejemplo:

Supóngase que una familia realiza un viaje en automóvil a un ciudad y cubre los primeros 100 km a 60 km/h,
los siguientes 100 km a 70 km/h y los últimos 100 km a 80 km/h. Calcular, en esas condiciones, la velocidad
media realizada.

Bibliografía: 'Introducción a la Estadística Económica y Empresarial. Teoría y Práctica.' de Fco. Javier


Martín-Pliego López, Editorial Thomson, 2007 (Madrid).

41
VI. Estimación por Intervalos de Parámetros Poblacionales5.
(Muestras, intervalos de confianza).

A continuación realizaremos algunos procesos relativos con la identificación de distribuciones de


probabilidad y con la estimación de parámetros poblacionales.

Abra el archivo Poblaciónestimacióndeparámetros.sav.

a) Usando algún gráfico, identifique cuál es la distribución de las personas respecto a sus ingresos en
esta población conformada por 1.000 trabajadores.

Gráfico Q-Q normal de ingreso

Histograma
3

100 2

Normal esperado
1

80
0

-1
Frecuencia

60

-2

40 -3

420 450 480 510 540 570

Valor observado

20

Media =500,4162
Desviación típica =24,
05464
0 N =1.000
420,00 450,00 480,00 510,00 540,00 570,00

ingreso

EXAMINE
VARIABLES=ingreso
/PLOT BOXPLOT STEMLEAF HISTOGRAM NPPLOT
/COMPARE GROUP
/STATISTICS DESCRIPTIVES
/CINTERVAL 95
/MISSING LISTWISE
/NOTOTAL.

Pruebas de normalidad
a
Kolmogorov-Smirnov Shapiro-Wilk
Estadístico gl Sig. Estadístico gl Sig.
ingreso ,014 1000 ,200* ,999 1000 ,743
*. Este es un límite inferior de la significación verdadera.
a. Corrección de la significación de Lilliefors

5
Caso elaborado por Jaime Pérez-Kallens

42
Dado que la significancia de la prueba K_S es mayor a 0,05 no hay evidencia para rechazar la hipótesis
nula de normalidad de la variable y por tanto la variable distribuye normal

b) Determine el ingreso promedio por trabajador y la dispersión de los ingresos en la población.

Descriptivos

Estadístico Error típ.


ingreso Media 500,4162 ,76067
Intervalo de confianza Límite inferior 498,9235
para la media al 95% Límite superior
501,9089

Media recortada al 5% 500,3376


Mediana 500,5701
Varianza 578,626
Desv. típ. 24,05464
Mínim o 423,42
Máximo 569,35
Rango 145,93
Amplitud intercuartil 33,01
Asimetría ,028 ,077
Curtosis -,035 ,155

c) Seleccione una muestra aleatoria correspondiente al 20% de la población, muestre la sintaxis.


Muestre una tabla de frecuencias para género

USE ALL.
COMPUTE filter_$=(uniform(1)<=.20).
VARIABLE LABEL filter_$ 'Aproximadamente 20 % de los casos (MUESTRA)'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE .

genero

Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos Femenino 78 37,1 37,1 37,1
Masculino 132 62,9 62,9 100,0
Total 210 100,0 100,0

43
Genera una muestra aleatoria con el porcentaje aproximado de casos indicado.

Selecciona una muestra aleatoria con el número de casos especificado a partir del número total de casos
especificado. Si el número total de casos especificado excede el número total de casos presentes en el
archivo de datos, la muestra contendrá un número menor de casos proporcional al número solicitado.

USE ALL.
do if $casenum = 1.
compute #s_$_1=200.
compute #s_$_2=1000.
end if.
do if #s_$_2 > 0.
compute filter_$ = uniform(1)* #s_$_2 < #s_$_1.
compute #s_$_1 = #s_$_1 - filter_$.
compute #s_$_2 = #s_$_2 - 1.
else.
compute filter_$ = 0.
end if.
VARIABLE LABEL filter_$ '200 de los primeros 1000 casos (MUESTRA)'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE .

44
genero

Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos Femenino 78 39,0 39,0 39,0
Masculino 122 61,0 61,0 100,0
Total 200 100,0 100,0

d) Con la muestra antes seleccionada estime el ingreso medio por trabajador con un nivel de confianza
del 90%. Interprete el intervalo resultante. Además, verifique si la media poblacional está contenida en el
intervalo construido. Por último, identifique los principales estadísticos para la construcción del intervalo
de confianza.

Descriptivos

Estadístico Error típ.


ingreso Media 500,2375 1,72747
Intervalo de confianza Límite inferior 497,3828
para la media al 90% Límite superior
503,0922

Media recortada al 5% 500,7133


Mediana 501,7956
Varianza 596,828
Desv. típ. 24,43005
Mínim o 424,63
Máximo 569,35
Rango 144,72
Amplitud intercuartil 35,96
Asimetría -,227 ,172
Curtosis -,020 ,342

A partir de la muestra (200 registros) obtenemos el intervalo de confianza del 90% para la media
(497,3828 ; 503,0922)
De 100 intervalos similarmente construidos, 90 contendrán el parámetro poblacional
(media poblacional)

Se verifica que la media poblacional 500,4162 pertenece al intervalo de confianza antes indicado

Intervalo de confianza:

Limite inferior X z = 500,2375-1,645*1,72747=-497,3958
n

Limite superior X z =500,2375+1,645*1,72747=503,07918
n
 24,43005
  1,727465
n 200

45
e) Seleccione una nueva muestra aleatoria, del 20%, y construya otro intervalo de confianza para
estimar el ingreso promedio por persona, con un nivel de confianza del 90%; verifique si la media
poblacional está contenida dentro del intervalo. Además, compare este intervalo con el anterior y comente.
USE ALL.
do if $casenum = 1.
compute #s_$_1=200.
compute #s_$_2=1000.
end if.
do if #s_$_2 > 0.
compute filter_$ = uniform(1)* #s_$_2 < #s_$_1.
compute #s_$_1 = #s_$_1 - filter_$.
compute #s_$_2 = #s_$_2 - 1.
else.
compute filter_$ = 0.
end if.
VARIABLE LABEL filter_$ '200 de los primeros 1000 casos (MUESTRA)'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE .

Descriptivos

Estadístico Error típ.


ingreso Media 502,4214 1,67967
Intervalo de confianza Límite inferior 499,6457
para la media al 90% Límite superior
505,1972

Media recortada al 5% 502,3368


Mediana 502,6920
Varianza 564,258
Desv. típ. 23,75411
Mínim o 440,09
Máximo 564,09
Rango 124,00
Amplitud intercuartil 32,80
Asimetría ,010 ,172
Curtosis -,280 ,342

f) Seleccione una nueva muestra aleatoria, del 1% de la población y construya un intervalo de


confianza para estimar el ingreso promedio por trabajador con un nivel de confianza del 95%. Compare
este resultado con el del punto e) y comente respecto al estadístico que está usando y supuesto con
relación a la distribución de la población.

USE ALL.
do if $casenum = 1.
compute #s_$_1=10.
compute #s_$_2=1000.
end if.
do if #s_$_2 > 0.
compute filter_$ = uniform(1)* #s_$_2 < #s_$_1.

46
compute #s_$_1 = #s_$_1 - filter_$.
compute #s_$_2 = #s_$_2 - 1.
else.
compute filter_$ = 0.
end if.
VARIABLE LABEL filter_$ '10 de los primeros 1000 casos (MUESTRA)'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE .

EXAMINE
VARIABLES=ingreso
/PLOT BOXPLOT STEMLEAF HISTOGRAM NPPLOT
/COMPARE GROUP
/STATISTICS DESCRIPTIVES
/CINTERVAL 95
/MISSING LISTWISE
/NOTOTAL.

Descriptivos

Estadístico Error típ.


ingreso Media 503,4258 6,42251
Intervalo de confianza Límite inferior 488,8971
para la media al 95% Límite superior
517,9545

Media recortada al 5% 504,7263


Mediana 514,7942
Varianza 412,486
Desv. típ. 20,30975
Mínim o 463,21
Máximo 520,23
Rango 57,02
Amplitud intercuartil 33,61
Asimetría -1,226 ,687
Curtosis -,038 1,334

g) Calcule la proporción de hombres en la población.

genero

Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos Femenino 400 40,0 40,0 40,0
Masculino 600 60,0 60,0 100,0
Total 1000 100,0 100,0

La proporción de hombres en la población es del 0,6

47
h) Seleccione una muestra aleatoria, del 20% y estime la proporción de hombres que hay en la
población, con un nivel de confianza del 95%. Verifique si la proporción poblacional de hombre, está
contenida en el intervalo de confianza que construyó.

Resumen del procesamiento de los casos

Casos
Válidos Perdidos Total
N Porcentaje N Porcentaje N Porcentaje
genero 200 100,0% 0 ,0% 200 100,0%

USE ALL.
do if $casenum = 1.
compute #s_$_1=200.
compute #s_$_2=1000.
end if.
do if #s_$_2 > 0.
compute filter_$ = uniform(1)* #s_$_2 < #s_$_1.
compute #s_$_1 = #s_$_1 - filter_$.
compute #s_$_2 = #s_$_2 - 1.
else.
compute filter_$ = 0.
end if.
VARIABLE LABEL filter_$ '200 de los primeros 1000 casos (MUESTRA)'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE .

Descriptivos

Estadístico Error típ.


genero Media ,63 ,034
Intervalo de confianza Límite inferior ,56
para la media al 95% Límite superior
,69

Media recortada al 5% ,64


Mediana 1,00
Varianza ,236
Desv. típ. ,485
Mínim o 0
Máximo 1
Rango 1
Amplitud intercuartil 1
Asimetría -,520 ,172
Curtosis -1,747 ,342

El parámetro poblacional está contenido en el intervalo de confianza

48
VII. Estudio de Caso: Pruebas T- Clima organizacional y lealtad6

Una importante empresa minera ha elaborado estudios sobre el clima organizacional para así evitar futuros
conflictos laborales con sus empleados. Para ello ha realizado una encuesta a una muestra representativa
de los operarios, sobre varios factores que influyen en el clima organizacional, el compromiso y lealtad de
los operarios. El gerente de recursos humanos lo ha contactado a UD, como Magíster en Gestión y
Dirección de Empresas de la Universidad de Chile versión Industria Minera, para que realice el análisis de
los resultados de la encuesta:
Considere el archivo de datos “Operarios.sav” y responda las siguientes preguntas:

1. a) Determine si la media del índice de clima organizacional percibido por los operarios, difiere
significativamente de 5,5 puntos (con un 95% de confianza). Si difiere determine si la media es
mayor o menor a 5,5. Debe verificar los supuestos y formular las hipótesis correspondientes.
Argumente.
b) Determine un intervalo de confianza para la media, con un nivel de significancia del 0,05.
Interprete.

SOLUCION:
1.
a) Determine si la media del índice de clima organizacional percibido por los operarios, difiere
significativamente de 5,5 puntos (con un 95% de confianza). Si difiere determine si la
media es mayor o menor a 5,5. Debe verificar los supuestos y formular las hipótesis
correspondientes. Argumente.

Respuesta
Se trata de una prueba T para una muestra.

En una prueba T para una muestra se requiere de una variable escala (Índice de clima organizacional) y un
valor de contraste (5,5).

Hipótesis de Test de Normalidad:

Ho: La variable Índice de Clima Organizacional sigue una distribución normal.


H1: La variable Índice de Clima Organizacional NO sigue una distribución normal.

EXAMINE VARIABLES=Clima
/PLOT BOXPLOT STEMLEAF NPPLOT
/COMPARE GROUP
/STATISTICS DESCRIPTIVES
/CINTERVAL 95
/MISSING LISTWISE
/NOTOTAL.

6
Caso elaborado por Sara Arancibia y Gonzalo Moya

49
La variable Índice de Clima Organizacional presenta más de 50 datos (255 datos), por lo tanto se utiliza
Kolmogorov-Smirnov. De esta manera obtenemos que existe evidencia estadística para rechazar la
hipótesis nula, pues el nivel de significancia es menor a 0,05 (0,003). La variable “Índice de Clima
Organizacional” no sigue una distribución normal.

Como no se cumple la normalidad de la variable, se debe observar el coeficiente de asimetría:

A pesar que la variable no distribuya normal, al observar la asimetría vemos que ésta se encuentra dentro
del rango -1 y 1 (0,540), por lo tanto procedemos a realizar la prueba T para una muestra:

T-TEST
/TESTVAL=5.5
/MISSING=ANALYSIS
/VARIABLES=Clima
/CRITERIA=CI(.95).

Hipótesis Prueba T:
Ho: La media de la variable Índice de Clima Organizacional no difiere de 5,5.
H1: La media de la variable Índice de Clima Organizacional difiere de 5,5.

Al analizar la tabla se aprecia que el nivel de significancia es menor que 0,05 (Nivel de significancia que
pide el enunciado), por lo tanto, existe evidencia estadística para rechazar la hipótesis nula. Esto quiere
decir que la media de los puntajes del índice de clima organizacional difiere de 5,5.

La media del Índice de clima Organizacional fluctúa entre los siguientes valores:

50
Luego <0 de donde.
Luego < 5,5

b) Determine un intervalo de confianza para la media, con un nivel de significancia del 0,05. Interprete.

EXAMINE VARIABLES=Clima
/PLOT BOXPLOT STEMLEAF NPPLOT
/COMPARE GROUP
/STATISTICS DESCRIPTIVES
/CINTERVAL 95
/MISSING LISTWISE
/NOTOTAL.

Como se muestra en la tabla anterior, se puede ver que el intervalo de confianza para la media de la
variable Índice de Clima Organizacional a un nivel de significancia de 0,05 es [3,9125 ; 4,0934]. Esto quiere
decir que, de 100 intervalos similarmente construidos, aproximadamente en 95 contendrán la media
poblacional.

3) a) Determine con un 95% de confianza, si la media del índice de lealtad con la empresa difiere
significativamente entre los operarios más jóvenes y los más adultos. Considere los más jóvenes entre 18 y
30 años y los más adultos con edad superior a 50 años.
Debe verificar los supuestos y formular las hipótesis correspondientes. Argumente.
b) Si hay diferencias determine en qué grupo es mayor la lealtad, con un 95% de confianza. Argumente.

En primer lugar se verificará si la variable lealtad distribuye normal en cada uno de los grupos de edad
que interesan (Jóvenes y adultos)

Ho: La variable lealtad distribuye normal en el grupo i ( donde i; jóvenes , adultos)

EXAMINE VARIABLES=Lealtad BY Edad


/ID=Id
/PLOT BOXPLOT HISTOGRAM NPPLOT
/COMPARE GROUPS
/STATISTICS DESCRIPTIVES

51
/CINTERVAL 95
/MISSING LISTWISE
/NOTOTAL.

Del test de normalidad Kolmogorov-Smirnov se observa que no hay evidencia para rechazar la hipótesis
nula y por tanto la variable lealtad distribuye normal en el grupo de jóvenes (pues la significancia es
superior a 0,05).
Del test de normalidad Shapiro -Wilk se observa que no hay evidencia para rechazar la hipótesis nula y
por tanto la variable lealtad distribuye normal en el grupo de adultos superior a 50 años (dado que la
significancia es superior a 0,05).
Observar que si hubiéramos observado el grupo entre 31 y 50 años , no se verifica la normalidad de la
variable leatad sin embargo su coef de asimetría está acotado entre -1 y 1 luego la distribución se
considera adecuada para aplicar la prueba t para muestras independientes.

52
Ahora aplicamos el test T para muestras independientes donde las hipótesis correspondientes son
Ho: No existen diferencias significativas en las medias de la variable “lealtad” entre los grupos de jóvenes
y adultos superiores a 50 años. (Ho: µ1= µ2)
H1: Existen diferencias significativas en las medias de la variable “lealtad” entre los grupos de jóvenes y
adultos superiores a 50 años. (Ho: µ1≠ µ2)

En primer lugar se ve el test de Levene de homogeneidad de varianzas donde las hipótesis son:
Ho: No existen diferencias significativas en las varianzas de variable “lealtad” entre los grupos de jóvenes
y adultos superiores a 50 años. (Ho: )
H1: Existen diferencias significativas en las varianzas de variable “lealtad” entre los grupos de jóvenes y
adultos superiores a 50 años. (H1: )

T-TEST GROUPS=Edad(1 3)
/MISSING=ANALYSIS
/VARIABLES=Lealtad
/CRITERIA=CI(.95).

Del test de Levene se tiene que no hay evidencia para rechazar la hipótesis nula y por lo tanto se asume
varianzas iguales.
En consecuencia se analiza la primera fila en el test de igualdad de medias

Del test se observa que hay evidencia para rechazar la hipótesis nula de igualdad de medias y por tanto
existen diferencias significativas en la media de lealtad entre los grupos de jóvenes y adultos superiores a
50 años.

Del intervalo de confianza para la diferencia de medias al 95% de confianza, se observa que la diferencia
µ1- µ2 está entre dos valores negativos y por tanto µ1< µ2, es decir la media de lealtad los grupos de
jóvenes es menor a la de los adultos superiores a 50 años.

53
VIII. Estudio de Caso: Estudio Morfología7

Coeficiente de Correlación
Considere el archivo “Estudio Morfología.sav”.

i. Determine si las variables estatura, peso y coeficiente intelectual están


correlacionadas significativamente.
Para esto seleccione Analizar/Correlaciones/Bivariadas
Variables: ci, estatura y peso
Seleccionar [Correlación de Pearson], [Prueba de significación bilateral], [Marcar las correlaciones
significativas].

Correlaciones

Cociente
intelectual ESTATURA PESO
Cociente intelectual Correlación de Pearson 1 ,081 ,001
Sig. (bilateral) . ,325 ,988
N 149 149 148
ESTATURA Correlación de Pearson ,081 1 ,600**
Sig. (bilateral) ,325 . ,000
N 149 150 149
PESO Correlación de Pearson ,001 ,600** 1
Sig. (bilateral) ,988 ,000 .
N 148 149 149
**. La correlación es significativa al nivel 0,01 (bilateral).

ii. Interprete el coeficiente de correlación

b) Diagrama de Dispersión

La forma de una relación se puede estudiar visualmente a partir de la nube de puntos generada en el
Gráfico de Dispersión:

Seleccione Gráficos/Dispersión/Dispersión Simple


Eje Y: peso
Eje X: estatura
Establecer marcas por: sexo
Etiquetar mediante: iden

Edite la gráfica y ajuste la nube por una recta de regresión, muestre el R 2 e interprete.

7
Caso elaborado por Sara Arancibia y Nelson Rodriguez

54
Gráfico de dispersión simple
110

27
100
93

90 31

80

70
SEXO

60 Mujer

Hombre
50
PESO

Total Population
40 R² = 0,3606
120 140 160 180 200 220 240 260 280

ESTATURA

Descubra qué puntos están alejados de la nube y fíltrelos para volver a hacer el gráfico de dispersión,
compare ahora el R2 e interprete.

USE ALL.
COMPUTE filter_$=(iden ~= 27 & iden ~= 93 & iden ~= 31).
VARIABLE LABEL filter_$ 'iden ~= 27 & iden ~= 93 & iden ~= 31 (FILTER)'.
VALUE LABELS filter_$ 0 'No seleccionado' 1 'Seleccionado'.
FILTER BY filter_$.
EXECUTE .

Gráfico de dispersión simple


110

100

90

80

70 SEXO

Mujer
60
Hombre
PESO

50
Total Population
40 R² = 0,7182
140 150 160 170 180 190 200

ESTATURA
Se han filtrado los casos 27, 31 y 93

i. Realice un gráfico de dispersión superpuesto.

55
Con el tipo Superpuesto se pueden representar varias relaciones en una sola nubes de puntos.
Seleccione el par estatura - peso y el par ci - peso

gráfico de dispersión superpuesto


300
31

200

31

100

Coc iente intelectual


PESO

ESTATURA
0 PESO
40 50 60 70 80 90 100 110

ii. Realice un gráfico de dispersión matricial.


El tipo matricial halla nubes de puntos separadas para todas las parejas de variables que se pueden obtener
con las variables que se especifiquen.
Elegir el tipo matricial como tipo de gráfica de dispersión y seleccionar y transferir las variables a
relacionar a variables en la matriz. Por ejemplo seleccionar y transferir ci, estatura y peso. Pulsar aceptar.

Como hay tres variables habrá tres parejas de relaciones (con cuatro variables habrá seis parejas).

56
Utilizando el archivo “Estudio Morfología.sav”. responda las siguientes preguntas:

iii. Determine el modelo que relaciona la estatura (X) y el peso (Y) e interprete R, R2 y
Error típico de estimación
Resumen del modelo

R cuadrado Error típ. de la


Modelo R R cuadrado corregida estimación
1 ,847(a) ,718 ,716 6,4593
a Variables predictoras: (Constante), ESTATURA

El coeficiente R mide la fuerza de asociación lineal entre estatura y peso, la cual es considerable.
El R2 =0,718 indica que la variación en el peso se explica en un 71,8% por la variable estatura.
Una forma de estimar el error estándar del estimador es basándose en los residuos;

S Y ,X 
e 2

n2
El error estándar de la estimación es una medida de cuán inexacto podría ser la predicción y mide la
dispersión con respecto a una recta promedio, denominada recta de regresión.
ANOVAb

Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 15309,683 1 15309,683 366,941 ,000 a
Residual 6008,032 144 41,722
Total 21317,715 145
a. Variables predictoras: (Constante), ESTATURA
b. Variable dependiente: PESO

Cuando se trata de una regresión simple la prueba ANOVA se reduce a la prueba individual Test T donde
H 0:  1 = 0

iv. Estime la ecuación de regresión


Coeficientesa

Coeficientes
Coeficientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) -92,138 8,816 -10,451 ,000
ESTATURA ,999 ,052 ,847 19,156 ,000
a. Variable dependiente: PESO

Y = -92,13 + 0,999•X
donde Y = Peso
X = Estatura

v. Pruebe la hipótesis nula H0:  1 = 0 para la estatura y el peso. ¿Existe una relación
significativa entre el ingreso y el consumo?
En el SPSS ver la tabla “coeficientes“ que resultó en el ejercicio b) y observar el valor del estadígrafo t
(asociado a la pendiente de la regresión) y su nivel de significancia.

57
Dado que la sig < 0,01 se rechaza la hipótesis nula H0: 1 = 0. Concluimos entonces que existe una relación
significativa entre ingreso y consumo.

vi. Interprete la pendiente de la ecuación de regresión.


La pendiente de la recta b1 es el cambio que se produce en la variable dependiente (en promedio) por cada
unidad de cambio en la variable independiente, es decir, por cada unidad de aumento en la estatura, en
promedio el peso aumenta en 0,999 unidades.

Nota: Inferencias sobre la Pendiente.

A fin de poder utilizar una ecuación de regresión para efectos de estimación o predicción, primero
debemos determinar si en la población parece existir una relación entre las dos variables o si la
relación observada en la muestra pudo ocurrir por azar. En ausencia de toda relación en la población,
por definición la pendiente de la línea de regresión de la población sería de cero 1=0. En
consecuencia, la hipótesis nula que se prueba usualmente es H 0: 1=0. La hipótesis nula también puede
formularse como una prueba de una cola, en cuyo caso la hipótesis alternativa no es simplemente que
existe relación entre las dos variables, sino además que esta relación es de un tipo específico (directa
o inversa).
Un valor hipotético de la pendiente se prueba calculando una estadística t y usando n-2 grados de
libertad. Es el proceso de inferencia se pierden dos grados de libertad porque en la ecuación de
regresión se incluyen dos estimaciones paramétricas, b0 y b1. La fórmula estándar es:

b1  (1 )o
t
sb1
donde s  SY , X
b1

X
2
2
 nX

Sin embargo, cuando, como ocurre por lo general, la hipótesis nula es que la pendiente es cero, la
fórmula se simplifica y enuncia como

b
t 1
sb1

El intervalo de confianza para la pendiente de la población 1, en el que los grados de libertad
asociados con t son n-2, se elabora de la siguiente manera:
b1  tsb1

Definición de grados de libertad: Los grados de libertad indican el número de valores “libres de
variar” en la muestra que sirve de base al intervalo de confianza.

vii. Determine el intervalo de confianza del 95% para 1. Para esto seleccione Regresión lineal/
Estadísticos/Intervalos de confianza.
En la tabla de resultados “coeficientes” del SPSS observe los límites inferior y superior del intervalo de
confianza para b1 al 95%.

58
Coeficientesa

Coeficientes
Coeficientes no estandarizad Intervalo de confianza para
estandarizados os B al 95%
Límite
Modelo B Error típ. Beta t Sig. Límite inferior superior
1 (Constante) -92,138 8,816 -10,451 ,000 -109,564 -74,712
ESTATURA ,999 ,052 ,847 19,156 ,000 ,896 1,102
a. Variable dependiente: PESO

Se tiene que el intervalo de confianza de 95% para 1 es 0,896 a 1,102


Así con cada unidad adicional de estatura, la cantidad de aumento promedio en el peso es de entre 0,896 y
1,102 con una confianza de 95%.
ca
i

f i c
e s
ae
c n n
o
a
l
d r
9o
m
S
o
pB
e M
i
t
rei
gt
9
4
72
4
2 1
( C
1
9
4
60
2
0 I N
a
V

viii. Determine los valores pronosticados y los residuos usando la ecuación de regresión desarrollada.
Compare los residuos obtenidos del SPSS. Para esto seleccione “Guardar” en el cuadro de diálogo
“Regresión lineal” y en el cuadro de diálogo siguiente considere valores pronosticados no tipificados (es
decir el valor que predice el modelo para la variable dependiente) y valores tipificados (transformación de
cada valor pronosticado a su forma tipificada). Además considere residuos no tipificados (es decir, la
diferencia entre un valor observado y el valor pronosticado del modelo) y los residuos tipificados.

59
Observación:
Si en la regresión lineal queremos llevar a cabo inferencias y partimos de los estadísticos obtenidos
en la muestra, deberemos tener en cuenta una serie de requisitos:
 Normalidad e igualdad de las varianzas en la variable dependiente (Y) del modelo para
valores fijos de la independiente o independientes del mismo X.
 Independencia de las observaciones
 Linealidad en la relación entre las variables.

ix. Considere “Gráficos” del cuadro de diálogo ”Regresión lineal” para realizar los
siguientes gráficos:
1. Los residuos tipificados ZRESID frente a los valores pronosticados tipificados ZPRED para
contrastar la igualdad de las varianzas.

Nota: Si no hay ningún patrón sistemático claramente definido en los datos y los residuales fluctúan
aleatoriamente alrededor de la recta que corresponde a la media de los mismos y de valor cero, podemos
concluir que se cumple el requisito de linealidad en la relación entre las variables. Este gráfico puede
igualmente servirnos para contrastar hasta qué punto el principio de igualdad de varianzas puede o no ser
violado por los datos. Si la variabilidad de los residuales a lo largo de los valores predichos es más o menos
constante, podemos concluir que se cumple la igualdad de varianzas. No en caso contrario.

2. Los residuos tipificados-gráfico de prob. normal.

60
Nota: El gráfico de residuos tipificados de prob. normal se usa para comprobar la normalidad. Si la variable
se distribuye normalmente los puntos representados forman una línea recta diagonal

Gráfico P-P normal de regresión Residuo tipificado


Gráfico de dispersión
Variable dependiente: PESO
1,0 Variable dependiente: PESO
3

,8 2
Regresión Residuo tipificado

,5
Prob acum esperada

-1
,3

-2

0,0 -3
0,0 ,3 ,5 ,8 1,0 -3 -2 -1 0 1 2 3

Prob acum observada Regresión Valor pronosticado tipificado

Pruebas de normalidad
a
Kolmogorov-Smirnov Shapiro-Wilk
Estadístico gl Sig. Estadístico gl Sig.
Standardized Residual ,044 146 ,200* ,992 146 ,601
*. Este es un límite inferior de la significación verdadera.
a. Corrección de la significación de Lilliefors

61
IX Estudio de Caso: Consumo producto8

El área de Marketing de una empresa necesita conocer un modelo que le permita pronosticar la cantidad
promedio consumida de un producto por una familia dependiendo de sus características. Para esto ha
recopilado una muestra aleatoria de 70 familias con la cantidad consumida de un producto en Kg, su ingreso
en miles de pesos y el tamaño de la familia (número de personas que componen la familia). Considere el
archivo “consumo producto.sav”

a) Determinar la matriz de correlaciones para todas las posibles variables involucradas en el modelo e
interprete.

b) Mostrar en un gráfico de dispersión simple para la variable que mas se correlaciona con el consumo
(mostrando la recta de ajuste y el R2). ¿Qué puede observar? Si existen atípicos fíltrelos. Mostrar la
sintaxis.

c) Determinar la ecuación del ajuste del modelo de regresión lineal simple que permita pronosticar la
cantidad consumida del producto. Interprete el coeficiente de determinación. Muestre las tablas de donde
se desprenden sus respuestas.

d) ¿Los coeficientes de la ecuación son estadísticamente significativas? Argumente e interprete la


pendiente.

e) Determinar, si se satisfacen las hipótesis de normalidad de los residuos y homocedasticidad.

f) Determine la elasticidad ingreso. Argumente su respuesta e interprete

SOLUCION
a) Determinar la matriz de correlaciones para todas las posibles variables involucradas en el modelo e
interprete.
Correlaciones

tamaño de
cantidad ingreso la familia
cantidad Correlación de Pearson 1 ,693** ,401**
Sig. (bilateral) ,000 ,001
N 70 70 70
ingreso Correlación de Pearson ,693** 1 ,265*
Sig. (bilateral) ,000 ,027
N 70 70 70
tamaño de la familia Correlación de Pearson ,401** ,265* 1
Sig. (bilateral) ,001 ,027
N 70 70 70
**. La correlación es significativa al nivel 0,01 (bilateral).
*. La correlación es significante al nivel 0,05 (bilateral).

8
Caso elaborado por Sara Arancibia

62
La matriz de correlaciones nos muestra que todas las variables se correlacionan. La correlación más alta se
da entre cantidad consumida e ingreso (0,693) siendo significativa la correlación al nivel del 0,01. Lo mismo
ocurre para cantidad y tamaño de la familia pero la correlación es más baja alcanzando una fuerza de
asociación de 0,401.

b) Mostrar en un gráfico de dispersión simple para la variable que más se correlaciona con el consumo
(mostrando la recta de ajuste y el R2). ¿Qué puede observar? Si existen atípicos fíltrelos. Mostrar la
sintaxis.

Gráfico de dipersión entre cantidad consumida e ingreso

140

70

120

100
cantidad

69
2

80

60

R Sq Linear = 0,48

40

0,0 500,0 1000,0 1500,0 2000,0

ingreso

Se observa una fuerte asociación lineal positiva entre las variables cantidad consumida e ingreso.
Sin embargo se observa claramente tres valores atípicos.

USE ALL.
COMPUTE filter_$=(id ~= 2 & id ~= 69 & id ~= 70).
VARIABLE LABEL filter_$ 'id ~= 2 & id ~= 60 & id ~= 66 (FILTER)'.
VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE .

63
c) Determinar la ecuación del ajuste del modelo de regresión lineal simple que permita pronosticar la
cantidad consumida del producto. Interprete el coeficiente de determinación. Muestre las tablas de donde
se desprenden sus respuestas.

El coeficiente de determinación es R2 =0,849, es decir la variabilidad en la variable cantidad consumida es


explicada en un 84,9% por la variable ingreso.

Resumen del modelob

R cuadrado Error típ. de la


Modelo R R cuadrado corregida estimación
1 ,921 a ,849 ,846 7,841
a. Variables predictoras: (Constante), ingreso
b. Variable dependiente: cantidad

Coeficientesa

Coeficientes
Coeficientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) 16,897 3,218 5,250 ,000
ingreso ,064 ,003 ,921 19,092 ,000
a. Variable dependiente: cantidad

La ecuación de ajuste del modelo es


Y= 16,897+0,064X
donde Y=cantidad consumida y X= ingreso

d) ¿Los coeficientes de la ecuación son estadísticamente significativas? Argumente e interprete la


pendiente. .

De la tabla anterior se desprende que ambos coeficientes son estadísticamente significativos pues su
significancia es menor a 0,05.
Ante el aumento de una unidad (mil pesos) en el ingreso, la cantidad consumida aumenta en promedio 0,064
Kg.

e) Determinar, si se satisfacen las hipótesis de normalidad de los residuos y homocedasticidad. .

64
Gráfico P-P normal de regresión Residuo tipificado

Variable dependiente: cantidad


1,0

0,8
Prob acum esperada

0,6

0,4

0,2

0,0
0,0 0,2 0,4 0,6 0,8 1,0

Prob acum observada

Del Grafico se observa que se cumple la hipótesis de normalidad de los residuos.

O puede ser por la prueba de K-S

Pruebas de normalidad
a
Kolmogorov-Smirnov Shapiro-Wilk
Estadístico gl Sig. Estadístico gl Sig.
Standardized Residual ,058 67 ,200* ,980 67 ,366
*. Este es un límite inferior de la significación verdadera.
a. Corrección de la significación de Lilliefors

Observando al prueba de K-S se observa que no se rechaza la hipótesis de normalidad de los residuos.

65
Gráfico de dispersión

Variable dependiente: cantidad

2
Regresión Residuo tipificado

-1

-2

-3

-2 -1 0 1 2 3

Regresión Valor pronosticado tipificado

Del gráfico de dispersión se observa que se cumple la hipótesis de homocedasticidad

a) Determine la elasticidad ingreso. Argumente su respuesta e interprete


Se crean dos nuevas variables con los logaritmos naturales de la cantidad y el ingreso . Luego se corre una
regresión lineal entre ln(cantidad) y ln( ingreso) La pendiente de la ecuación es la elasticidad buscada

66
X Estudio de caso: Desempleados

Los despidos y el desempleo han afectado a muchos trabajadores en los últimos años. En un estudio
publicado en la Revista de Relaciones Laborales se muestran datos de variables que pueden tener relación
con la cantidad de semanas que un empleado está desempleado. La variable dependiente en el estudio es
“Semanas” y se define como la cantidad de semanas que ha estado desempleado un trabajador a causa de
su despido.

En el estudio se emplearon las siguientes variables independientes:

Variable Etiqueta
edad Edad del trabajador
antig Antigüedad en el último empleo (en
años)
profesional 1 = Sí
0 = No

El archivo “Desempleados2.sav” contiene los datos de 50 trabajadores despedidos.

Desde la pregunta a) hasta la d) no considere la variable dami profesional

a) Realice un diagrama de dispersión para cada variable independiente con la variable dependiente.
¿Qué puede observar del gráfico?

Diagrama de Dispersión entre Semanas Desempleado Diagrama de Dispersión entre Semanas Desempleado
y Edad de la persona y Antiguedad en último Empleo
90 90

80 80

70 70

60
60

50
50

40
40
SEMANAS

30
SEMANAS

30
20
20
10 Rsq = 0,7216
10 Rsq = 0,2164
10 20 30 40 50 60
0 10 20 30 40
edad
ANTIG

En los diagramas de dispersión se puede observar que existe una correlación lineal positiva entre las
variables. En el caso de la edad vs. semanas, la correlación es lineal positiva alta mientras que en el caso de
la antigüedad vs. semanas, no se observa tan claro la linealidad.

b) Determine la matriz de correlaciones. ¿Qué puede observar?

67
Correlations

SEMANAS edad ANTIG


SEMANAS Pearson Correlation 1,000 ,849** ,465**
Sig. (2-tailed) , ,000 ,001
N 50 50 50
edad Pearson Correlation ,849** 1,000 ,490**
Sig. (2-tailed) ,000 , ,000
N 50 50 50
ANTIG Pearson Correlation ,465** ,490** 1,000
Sig. (2-tailed) ,001 ,000 ,
N 50 50 50
**. Correlation is significant at the 0.01 level (2-tailed).

En la matriz de correlaciones se puede observar que tanto la correlación entre la edad y las semanas de
desempleo, como la correlación entre la antigüedad y las semanas de desempleo son significativas con un
nivel de significancia del 0.01 ( Se trata de correlaciones lineales positivas fuerte y moderada
respectivamente)

c) Ejecute la regresión lineal múltiple para obtener las tablas con las estimaciones del modelo e
interprete la tabla ANOVA. ¿Son estadísticamente significativas las variables independientes? Argumente.
ANOVAb

Sum of
Model Squares df Mean Square F Sig.
1 Regression 10999,684 2 5499,842 61,892 ,000 a
Residual 4176,496 47 88,862
Total 15176,180 49
a. Predictors: (Constant), ANTIG, edad
b. Dependent Variable: SEMANAS

Coe fficie ntsa

Standardi
zed
Unstandardized Coefficien
Coefficients ts
Model B Std. Error Beta t Sig.
1 (Constant) -17,428 5,983 -2,913 ,005
edad 1,794 ,192 ,818 9,318 ,000
ANTIG ,195 ,264 ,065 ,739 ,464
a. Dependent Variable: SEMANAS

El estadístico F contrasta la hipótesis nula de que el valor poblacional de R es cero y, por tanto, permite
decidir si existe relación lineal significativa entre la variable dependiente y el conjunto de variables
independientes tomadas juntas. El valor del nivel crítico (Sig. = 0,000), es menor que 0,05, por tanto
existe relación lineal significativa.

Puede afirmarse, por tanto, que el hiperplano definido por la ecuación de regresión ofrece un buen ajuste a
la nube de puntos.

Por otra parte, para la variable edad se obtiene una significancia menor a 0,05 lo que significa que el
coeficiente es estadísticamente significativo al nivel 0,05. Sin embargo, la significancia de la variable
antigüedad es mayor a 0,05 por lo que no se rechaza la hipótesis nula de que su valor es igual a cero.

68
d) Determine la ecuación de un modelo donde todas las variables sean significativas. Interprete el
coeficiente R y el R cuadrado.
Model Summary

Adjusted Std. Error of


Model R R Square R Square the Estimate
1 ,849 a ,722 ,716 9,38
a. Predictors: (Constant), edad

ANOVAb

Sum of
Model Squares df Mean Square F Sig.
1 Regression 10951,194 1 10951,194 124,416 ,000 a
Residual 4224,986 48 88,021
Total 15176,180 49
a. Predictors: (Constant), edad
b. Dependent Variable: SEMANAS

Coe fficie ntsa

Standardi
zed
Unstandardized Coefficien
Coefficients ts
Model B Std. Error Beta t Sig.
1 (Constant) -18,179 5,868 -3,098 ,003
edad 1,863 ,167 ,849 11,154 ,000
a. Dependent Variable: SEMANAS

En la tabla de Resumen del Modelo se puede observar el valor R = 0,849. Esto significa que para los
desempleados existe una alta correlación lineal entre las variables SEMANAS y EDAD. Por otra parte, el
valor R2 = 0,722 indica que la variabilidad en las semanas de desempleo puede ser explicada en un 72,2%
por la variable EDAD.

e) ¿Qué ocurre si al último modelo le agrega la variable dami profesional? Interprete los coeficientes
de las variables independientes del último modelo.

Model Summary

Adjusted Std. Error of


Model R R Square R Square the Estimate
1 ,891 a ,794 ,785 8,16
a. Predictors: (Constant), Es profesional ( 1=SI, 0=NO),
edad

ANOVAb

Sum of
Model Squares df Mean Square F Sig.
1 Regression 12048,898 2 6024,449 90,542 ,000 a
Residual 3127,282 47 66,538
Total 15176,180 49
a. Predictors: (Constant), Es profesional ( 1=SI, 0=NO), edad
b. Dependent Variable: SEMANAS

69
Coe fficie ntsa

Standardi
zed
Unstandardized Coefficien
Coefficients ts
Model B Std. Error Beta t Sig.
1 (Constant) -19,465 5,112 -3,808 ,000
edad 1,975 ,148 ,900 13,361 ,000
Es profesional
-11,512 2,834 -,274 -4,062 ,000
( 1=SI, 0=NO)
a. Dependent Variable: SEMANAS

Para este nuevo modelo se cumple que existe una relación lineal significativa entre la variable dependiente
y el conjunto de variables independientes tomadas juntas, lo que se observa en el valor del nivel crítico del
estadístico F, puesto que es menor que 0,05. Además, todas las variables independientes son significativas
pues la sig de las pruebas t son menores que 0,05 .

Ante el aumento de un año en la edad en promedio las semanas que un empleado permanece desempleado
aumentan en casi 1,98 semanas, manteniéndose el resto de variables constante. Por otra parte, el
coeficiente asociado a la variable dummy PROFESIONAL indica que para una misma edad, una persona
profesional, en promedio estará desempleada 11,512 semanas menos de lo que estaría si no fuera
profesional.

Las ecuaciones son:


 para los profesionales: SEMANAS = (-19,465-11,512) + 1,975 x EDAD
 para no profesionales: SEMANAS = -19,465 + 1,975 x EDAD

f) Para el último modelo seleccionado, determine si se satisfacen las hipótesis de normalidad de los
residuos y homocedasticidad.
Tests of Normality
a
Kolmogorov-Smirnov Shapiro-Wilk
Statistic df Sig. Statistic df Sig.
Standardized Residual ,088 50 ,200* ,970 50 ,407
*. This is a lower bound of the true significance.
a. Lilliefors Significance Correction

La prueba de normalidad de Shapiro-Wilk indica que se cumple la hipótesis de normalidad. (La prueba de
Shapiro-Wilk es usada cuando hay hasta 50 casos. Dado que son 50 los casos analizados, se usa el
estadístico Shapairo Wilk).

70
Scatterplot
Dependent Variable: SEMANAS
2
Regression Standardized Residual

-1

-2

-3
-2 -1 0 1 2 3

Regression Standardized Predicted Value

Este gráfico muestra que se cumple la hipótesis de homocedasticidad pues los puntos se encuentran
distribuidos en forma aleatoria sin seguir ningún patrón.

71
XI. Estudio de Caso: Estudio Lealtad9 Regresión lineal

Una importante empresa minera ha elaborado estudios sobre el clima organizacional para así evitar futuros
conflictos laborales con sus empleados. Para ello ha realizado una encuesta a una muestra representativa de
los operarios, sobre varios factores que influyen en clima organizacional y la lealtad de los operarios.
La empresa necesita aplicar políticas de retención en los operarios debido al alto costo que genera la
rotación en ellos. Se le ha pedido que asesore al gerente de recursos humanos realizando un modelo de
regresión lineal
Considere el archivo de datos “Operarios empresa minera.sav” y responda las siguientes preguntas:

a) Determine una matriz de correlaciones bivariadas con todas las variables que usted considere convenientes
para realizar un modelo de regresión lineal simple para explicar el Índice de Lealtad. Comente los resultados.

Para verificar la correlación entre variables se deben contrastar las siguientes hipótesis:

H0: No hay correlación entre la variable i e Índice de Lealtad.


H1: Hay correlación entre la variable i e Índice de Lealtad.

CORRELATIONS
/VARIABLES=Lealtad Clima Compromiso Imagen Motivación Reconocimiento Beneficios
/PRINT=TWOTAIL NOSIG
/MISSING=PAIRWISE.

9
Caso elaborado por Sara Arancibia y Gonzalo Moya

72
De la tabla se bserva que con un nivel de significancia de 0,05 se rechazan las hipótesis nulas para las i variables
(i =6 variables), por lo tanto existe correlación estadísticamente significativa entre el índice de Lealtad y los
índices de Clima organizacional, Compromiso, Imagen, Motivación, Reconocimiento y Beneficios, siendo
relación directa (correlación con pendiente positiva) y de intensidades que fluctúan entre 0,436 y 0,641.

La mayor correlación, se observa entre índice de lealtad e índice de beneficios con una intensidad de 0,641
considerada media-alta.

b) Realice un gráfico de dispersión simple con la variable Índice de Lealtad como variable dependiente y la
variable que Ud estime conveniente según el punto a) como variable independiente para determinar un
modelo de regresión lineal simple, con línea de tendencia y mostrando el R². ¿Qué puede observar? Muestre la
sintaxis.

GRAPH
/SCATTERPLOT(BIVAR)=Beneficios WITH Lealtad
/MISSING=LISTWISE
/TITLE='Gráfico de dispersión'.

Se observa claramente una tendencia lineal positiva y una bondad de ajuste R² de 0,411, es decir la variable
Índice de Lealtad está siendo explicada en un 41,1% por la variable Índice de Beneficios.

c) Ajuste el modelo de regresión lineal simple (escriba la ecuación). Interprete la pendiente de la ecuación, el
coeficiente R y el coeficiente de determinación. ¿Los coeficientes son estadísticamente significativos?
Argumente sus respuestas.

73
Al considerar la mayor correlación lineal de la matriz de correlaciones, es decir el índice de lealtad con el índice
de beneficios se obtiene:

REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT Lealtad
/METHOD=ENTER Beneficios
/SCATTERPLOT=(*ZRESID ,*ZPRED)
/RESIDUALS HIST(ZRESID) NORM(ZRESID)
/SAVE PRED ZPRED RESID ZRESID.

R=0,641 indica que la fuerza de asociación lineal entre el índice de lealtad y beneficios es media-fuerte.

El coeficiente de determinación R² indica que la variabilidad en el índice de lealtad está siendo explicada en un
41,1% por la variable índice de beneficios. El porcentaje restante lo explican otras variables.

Significancia de los coeficientes:


H0: βi = 0
H1: βi ≠ 0
Ambos coeficientes son estadísticamente significativos pues la sig<0,05.

De la tabla de coeficientes se obtiene la ecuación simple:

Y= 2,581+0,626X

74
Donde:
Y = Índice de Lealtad
X = Índice de Beneficios

La pendiente de la ecuación indica que ante el aumento de una unidad en el puntaje del índice de beneficios el
índice de lealtad aumenta, en promedio, en 0,626 puntos.

d) Verificar las hipótesis de homocedasticidad y normalidad de los residuos para el modelo de regresión lineal
simple.

Homocedasticidad
En el gráfico se observa que los residuos se distribuyen aleatoriamente entre -3 y 3 sin formar patrones
sistemáticos. Por tanto se cumple la hipótesis de homocedasticidad

Normalidad de los residuos

75
H0: Los residuos distribuyen normal.
H1: Los residuos no distribuyen normal.

Al ser una muestra mayor a 50 datos se observa la prueba Kolmogorov-Smirnov, esta presenta una significancia
mayor a 0,05 (0,200), por ende no existe evidencia estadística para rechazar la hipótesis nula de normalidad de
los residuos. Esto quiere decir que los residuos presentan una distribución normal.

NOTA También se puede mostrar el gráfico P-P en lugar del test K-S

76
77

You might also like