You are on page 1of 46

CURSO DE CAPACITACIÓN:

ANÁLISIS ESTADÍSTICO CON SPSS PARA WINDOWS


(PAQUETE ESTADÍSTICO PARA LAS CIENCIAS
SOCIALES)

SPSS PARA WINDOWS


(VERSIÓN 13.0)

TOMO II: Análisis Estadístico

Lic. Andrea Blazsek


Ing. Augusto Norte

MENDOZA, NOVIEMBRE DE 2006


Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

INDICE

INDICE.................................................................................................................................... 3
INTRODUCCIÓN .................................................................................................................... 4
1. ESTADÍSTICA DESCRIPTIVA........................................................................................ 5
1.1. ANÁLISIS UNIVARIADO .................................................................................................. 5
1.1.1. Distribución de frecuencias ................................................................................... 5
1.1.2. Medidas de tendencia central: media, moda, mediana. ........................................ 9
1.1.3. Medidas de dispersión ........................................................................................ 11
ANÁLISIS BIVARIADO ............................................................................................................. 12
1.1.4. Asociación entre dos variables ........................................................................... 12
1.1.5. Coeficientes de asociación ................................................................................. 16
2. ESTADÍSTICA INFERENCIAL...................................................................................... 18
2.1. PRUEBAS NO PARAMÉTRICAS .................................................................................... 18
2.1.1. Chi cuadrado de Pearson ................................................................................... 18
2.2. PRUEBAS PARAMÉTRICAS .......................................................................................... 26
2.2.1. Medias ................................................................................................................ 26
2.2.2. Contraste sobre una media................................................................................. 30
2.2.3. Contraste sobre dos medias independientes ...................................................... 32
2.2.4. Análisis de varianza de un factor ........................................................................ 37
2.2.5. Correlaciones Bivariadas .................................................................................... 41
BIBLIOGRAFÍA .................................................................................................................... 47

3
Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

Introducción

El presente manual ilustra los procedimientos para análisis de datos más utilizados en
ciencias sociales que ofrece el paquete estadístico SPSS. El mismo no pretende ser un libro
de estadística ni de metodología y por lo tanto no contiene explicaciones ni conceptos de
tales materias.

Para la mejor comprensión de los procedimientos y la correcta interpretación de sus


resultados, se sugiere revisar los siguientes conceptos metodológicos y estadísticos:
Población, Muestra, Distribución de la muestra, Distribución muestral, Teorema central del
límite, Parámetro de la población y estadístico de la muestra, Prueba de hipótesis, Hipótesis
nula e hipótesis alternativa, Distribución Normal, Distribución t de Student, Distribución Chi
cuadrado, Nivel de significancia e intervalo de confianza.

Nota: Se recuerda a los usuarios que al trabajar con la versión de prueba de SPSS que se
brinda junto con este manual, se puede pedir que los resultados sean generados en otros idiomas ya
que la misma se encuentra en inglés. Para los ejemplos utilizados en este manual se ha configurado
la salida de resultados en español. Para cambiar el idioma en el que se generarán los resultados se
debe ingresar en el menú Edición / Opciones… ( Edit / Options…) y en la pestaña General dentro
del recuadro Resultados (Output) seleccionar Español (Spanish) en donde dice Idioma
(Language).

4
Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

1. Estadística Descriptiva
1.1. Análisis univariado

1.1.1. Distribución de frecuencias

El procedimiento Frecuencias (Frequencies) proporciona estadísticos y representaciones


gráficas que resultan útiles para describir muchos tipos de variables. Es un buen procedimiento para
una inspección inicial de los datos.

Particularmente, la distribución de frecuencias muestra el número de veces que ocurre cada


valor (o categoría) de una variable. Se representa mediante conjuntos de pares (xi, fi) en donde xi
representan los valores de la variable (categorías, en el caso en que la variable es cualitativa) y fi el
número de veces que ocurre la categoría o el valor xi.

Para los informes de frecuencias y los gráficos de barras, puede organizar los diferentes
valores en orden ascendente o descendente u ordenar las categorías por sus frecuencias. Es posible
suprimir el informe de frecuencias cuando una variable posee muchos valores diferentes. Puede
etiquetar los gráficos con las frecuencias (la opción por defecto) o con los porcentajes.

Para obtener una distribución de frecuencias en SPSS, se procede de la siguiente manera: se


elige en el menú Analizar (Analyze) la opción Estadísticos descriptivos (Descriptive Statistics), y
luego la opción Frecuencias (Frequencies).

Datos: Utilice códigos numéricos o cadenas cortas para codificar las variables categóricas (medidas de nivel
nominal u ordinal).

Supuestos: Las tabulaciones y los porcentajes proporcionan una descripción útil para los datos de cualquier
distribución, especialmente para las variables con categorías ordenadas o desordenadas. Muchos de los
estadísticos de resumen optativos, tales como la media y la desviación típica, se basan en la teoría normal y
son apropiados para las variables cuantitativas con distribuciones simétricas. Los estadísticos robustos, tales
como la mediana, los cuartiles y los percentiles son apropiados para las variables cuantitativas que pueden o
no cumplir el supuesto de normalidad.

Para utilizar el procedimiento Frecuencias (Frequencies) accedemos a través del menú


Analizar / estadísticos descriptivos / Frecuencias... (Analyze / Descriptive Statistics /
Frequencies) y nos encontramos con el cuadro de diálogo:

5
Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

 A la izquierda del cuadro se ubica el listado de variables: las variables contenidas en la matriz
de datos. Las variables aparecen según el orden que tienen en la matriz de datos (se puede
optar por el orden alfabético en el menú Edit: Options....). De este listado se deben
seleccionar las variables para el análisis univariado, en este caso, la distribución de
frecuencias. Para seleccionar las variables, se utilizan los procedimientos habituales de
selección empleados en las aplicaciones Windows. Para seleccionar una sola variable, se
apunta con el mouse a la misma y se aprieta el botón izquierdo del mouse. La variable
quedará seleccionada. Para seleccionar varias variables contiguas, se apunta con el mouse a
la primera, se aprieta el botón izquierdo y se arrastra la flecha del mouse hasta seleccionar
todas las variables. También se pueden utilizar las teclas Shift y  . Para seleccionar
variables que se ubican en lugares discontinuos, se mantiene apretada la tecla Ctrl y se las
selecciona con el mouse (apretando el botón izquierdo).

 En el centro del cuadro de diálogo se ubica un cuadro de texto que lleva el nombre Variables.
En este cuadro se ubicarán las variables que se han seleccionado para el análisis. Para
pasarlas del listado de variables a este cuadro, se acciona la flecha negra que separa el
listado del cuadro de texto. Para volver a pasar las variables al listado de variables, se las
selecciona y se las pasa al listado accionando la pequeña flecha negra.

 El botón Estadísticos (Statistics...) Al activarlo, se generará un cuadro que contiene las


instrucciones de cálculo de medidas de tendencia central, de posición, de dispersión y de
distribución.

 El botón Gráficos (Charts...) Permite la obtención de gráficos de barra, de sectores e


histogramas.

 El botón Formato (Format...). Permite cambiar el formato del cuadro de distribución de


frecuencias (por ejemplo, ordenar los resultados de manera descendente o ascendente
según los códigos o las frecuencias).

 Los botones OK, Pegar (Paste), Reset, Cancel y Help.

A continuación realizaremos un ejemplo simple para ilustrar este procedimiento.

- Accedemos a través del menú Analizar / estadísticos descriptivos / Frecuencias...


(Analyze / Descriptive Statistics / Frequencies)

- Trasladamos las variables “Línea de pobreza” [LIN_POB] y “línea de indigencia”


[LIN_IND] a la lista Variable(s).

6
Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

- Luego hacemos clic en Aceptar (Ok) y observamos los cuadros generados en el visor de
resultados (Output).

Interpretación:

El primer cuadro nos muestra por defecto algunos estadísticos descriptivos relacionados con
esta prueba. En él se puede ver un resumen en donde se indica la cantidad de casos que fueron
procesados y los que fueron excluidos del análisis.

Estadísticos

LINEA DE LINEA DE
POBREZA INDIGENCIA
N Válidos 3625 3625
Perdidos 196 196

Los siguientes dos cuadros son las tablas de distribución de frecuencias propiamente dichas
de cada una de las variables seleccionadas.
LINEA DE POBREZA

Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos Pobre 2145 56,1 59,2 59,2
No pobre 1480 38,7 40,8 100,0
Total 3625 94,9 100,0
Perdidos Ns/Nc 196 5,1
Total 3821 100,0

7
Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

LINEA DE INDIGENCIA

Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos Pobre 1047 27,4 28,9 28,9
No pobre 2578 67,5 71,1 100,0
Total 3625 94,9 100,0
Perdidos Ns/Nc 196 5,1
Total 3821 100,0

Los cuadros de distribución de frecuencias generados en SPSS contienen los siguientes elementos:

 La descripción (etiqueta) de la variable como título del cuadro

 El sistema de categorías de la variable (las etiquetas de valores)

 La frecuencia absoluta, es decir, el número de ocurrencia de cada categoría. En la misma


columna aparece también el total de casos de la población o muestra (3821 en el
ejemplo).

 El porcentaje que se obtiene dividiendo la frecuencia absoluta de cada categoría al total


de casos, y multiplicando el resultado por 100.

 El porcentaje válido es el porcentaje que se obtiene al designar alguna categoría o valor


de la variable como valor perdido por el usuario.

 El porcentaje acumulado es la suma de los porcentajes válidos. La sumatoria empieza


con el porcentaje del primer valor, al cual se suma el porcentaje del segundo valor, etc.

La diferencia entre el “porcentaje” y el “porcentaje válido”


LINEA DE POBREZA

Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos Pobre 2145 56,1 59,2 59,2
No pobre 1480 38,7 40,8 100,0
Total 3625 94,9 100,0
Perdidos Ns/Nc 196 5,1
Total 3821 100,0

En el caso en que determinados valores de la variable se definen como valores perdidos (en
el ejemplo, la categoría “Ns/Nc” de la variable “Línea de pobreza” se definió como “valor perdido”, en
realidad esta categoría indica que no se dispone de los datos de ingresos del hogar), el cálculo del
porcentaje válido se realiza tomando como base el total del cual se resta la cantidad de casos
perdidos. Es decir, la base de cálculo del porcentaje válido será 3821 – 196 = 3625.

Al realizar este cálculo, se acepta implícitamente el hecho de que los valores perdidos se
distribuyen en la población con la misma proporción que los restantes valores de la variable.

8
Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

Cuando se definen ciertos códigos o valores como “valores perdidos” siempre hay que
evaluar el porcentaje de dichos casos en la distribución de frecuencias de la variable. Si el porcentaje
excede el 5%, la distribución de estos casos según la frecuencia válida puede sesgar los resultados,
sobre todo por el hecho de que a veces los casos de no respuesta tienen alguna característica que
los diferencia del resto de la muestra y por ende, no se reparten en la misma proporción que los
casos válidos.

La distribución de frecuencias se puede utilizar para todos los niveles de medición: nominal,
ordinal, intervalar y de razón. Para los niveles de medición intervalar y de razón se aconseja
presentar los datos bajo forma agrupada, es decir, obteniendo variables con intervalos. El
procedimiento de recodificación de las variables (véase el capítulo 6) permite agrupar una variable
cuantitativa en una variable con intervalos de clase.

1.1.2. Medidas de tendencia central: media, moda, mediana.

Para calcular la media de una variable cuyo nivel de medición es intervalar o de razón
(recuérdese que el cálculo de la media no tiene sentido para variables nominales y ordinales), se
procede de la siguiente manera: se elige la opción Estadísticos Descriptivos (Descriptive
Statistics) del menú Analizar (Analyze). En la opción Estadísticos Descriptivos se elige
Descriptivos... (Descriptives…)

Al seleccionar esta opción, se genera un cuadro de diálogo que contiene en la parte izquierda
el listado de variables de la matriz. Al activar el botón Opciones (Options) se puede visualizar el
cuadro que contiene algunos estadísticos relacionados con las medidas de tendencia central y de
dispersión. Para el cálculo de la media se hace clic con el mouse en la opción Media (Mean) (al
elegir la opción, aparece una tilde en la casilla correspondiente). Para desactivar las otras opciones
seleccionadas, se hace un clic con el mouse en las casillas correspondientes. Después se hace clic
en el botón Continue, volviéndose al cuadro inicial. El procedimiento de selección de variables para
las cuales se quiere calcular la media es el mismo que en el caso de las distribuciones de
frecuencias.

Para calcular la moda y la mediana se debe utilizar la opción Frecuencias... En esta opción
también se puede calcular la media.

Recuérdese que la moda se puede calcular para todos los niveles de medición, e indica el
valor o categoría que tiene la frecuencia máxima en la distribución. La mediana se puede calcular a
partir del nivel ordinal, e indica el valor que divide a la serie de datos (ordenada de manera
ascendente o descendente) en dos partes numéricamente iguales.

9
Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

- Accedemos a través del menú Analizar / estadísticos descriptivos / Frecuencias...


(Analyze / Descriptive Statistics / Frequencies)

En el cuadro de diálogo correspondiente a las distribuciones de frecuencias, se eligen las


variables para las cuales se quieren obtener las medidas de tendencia central. Luego en el cuadro
que se activa desde el botón Estadísticos (Statistics) se eligen las opciones contenidas en Tendencia
Central (Central Tendency): Media (Mean), Mediana (Median) y Moda (Mode). Se pulsa el botón
Continue, volviéndose al cuadro inicial. En el caso en que no se quiere obtener una distribución de
frecuencias de las variables (solamente se quieren calcular las medidas de tendencia central) se
desactiva la opción Mostrar tablas de frecuencia (Display frequency tables) en el cuadro inicial,
haciendo un solo clic con el botón izquierdo del mouse en la casilla tildada.

10
Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

Ejemplo: (con la tabla de frecuencias desactivada)


Cálculo de la media, mediana y moda del ingreso total familiar, en base a la EPH, onda
octubre de 2002.
Estadísticos

MONTO DEL INGRESO TOTAL FAMILIAR


N Válidos 983
Perdidos 72
Media 739,7294
Mediana 502,0000
Moda 300,00

El cálculo se ha realizado sobre el total de hogares relevados en la EPH

En el mismo cuadro de diálogo correspondiente a la opción Estadísticos del cuadro


Frecuencias se pueden calcular los valores correspondientes a diferentes medidas de posición:
cuartiles, quintiles, deciles, percentiles. Los cuartiles (dividen a la serie ordenada en cuatro partes
iguales) se obtienen al elegir la opción Cuartiles (Quartiles). Los quintiles (dividen a la serie ordenada
en 5 partes iguales), los deciles (dividen a la serie en 10 partes iguales), etc., se pueden obtener al
teclear en la casilla correspondiente a Puntos de corte para ... grupos iguales (Cut points for …..
equal groups) la cantidad de divisiones iguales que se quiere aplicar a la serie de datos.

1.1.3. Medidas de dispersión

Las medidas de dispersión se pueden calcular recurriendo a la opción Frequencies (pulsando


el botón Statistics en el cuadro de diálogo correspondiente a Frequencies) o la opción Descriptives
(eligiendo Options... en el cuadro de diálogo).

Se pueden calcular las siguientes medidas de dispersión:

 La amplitud o rango (Range) es la diferencia entre el valor máximo y el mínimo de un


conjunto de datos.

 La varianza (Variance) es la media de las desviaciones que tienen los casos con respecto a
la media de la serie de datos, elevadas al cuadrado.

 La desviación típica (Std. Deviation) es la raíz cuadrada de la varianza.

Para calcular las medidas descritas, se hace clic con el mouse en las siguientes opciones:
Desviación típica, Varianza, Amplitud.

Ejemplo: Cálculo del rango, desviación típica y varianza del ingreso total familiar, en base a
la EPH, onda octubre de 2002.

Estadísticos descriptivos

N Rango Mínimo Máximo Desv. típ. Varianza


MONTO DEL INGRESO
983 6730,00 20,00 6750,00 730,0916 533033,7
TOTAL FAMILIAR
N válido (según lista) 983

11
Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

Análisis bivariado

1.1.4. Asociación entre dos variables

Para poder analizar la asociación entre dos variables, en primer lugar se deben comparar
porcentajes. Dichos porcentajes se obtienen mediante una tabulación cruzada (un “cruce”) de las dos
variables que se quieren analizar. La tabulación cruzada es una tabla de dos entradas, que permite
examinar conjuntamente el comportamiento de dos variables.

Ejemplo de tabla de asociación 2x2 (con dos variables dicotómicas):

Variable X
Variable Y x1 x2 Total Fila
Y1 f11 f12 f11 + f12
Y2 f21 f22 f21 + f22
Total columna f11 + f21 f12 + f22 N

En el ejemplo se han cruzado dos variables dicotómicas X e Y, con sus correspondientes


categorías: x1 x2; y1 y2. Las frecuencias f11, f12, f21 y f22 corresponden a la cantidad de casos
observada en cada una de las cuatro combinaciones de las categorías de las dos variables: x1y1,
x2y1, x1y2, x2y2, respectivamente.

Las frecuencias correspondientes al total marginal de las columnas (total columna) y al total
marginal de las filas (total fila) se llaman frecuencias marginales, y en realidad, representan la
distribución de frecuencias para cada variable en parte. Así, la frecuencia marginal de la columna
representa la distribución de frecuencias de la variable X, sin tener en cuenta la influencia de la
variable Y. N representa el total de la población o de la muestra.

En una tabla de asociación se pueden calcular tres tipos de porcentajes.

Los porcentajes por fila se obtienen dividiendo el valor absoluto de cada celda al total
marginal de la fila correspondiente y multiplicando por 100, es decir f11/(f11+ f12) *100; f12(/f11 + f12)*
100 para la primera fila del cuadro y f21(/f21 + f22)*100; (f22/f21 + f22)*100 para la segunda fila. Los
porcentajes así obtenidos deben sumar 100 horizontalmente.

Los porcentajes por columna se obtienen dividiendo el valor absoluto de cada celda al total
marginal de la columna correspondiente y multiplicando el resultado por 100, es decir f11/(f11 +
f21)*100; f21/(f11 + f21)*100 para la primera columna del cuadro y f12/(f12 + f22)*100; (f22/f12 + f22)*100 para
la segunda columna. Los porcentajes así obtenidos deben sumar 100 verticalmente.

Los porcentajes totales se obtienen dividiendo el valor de cada celda a n y multiplicando el


resultado por 100: f11/n*100, f 12/n*100, f21/n*100 y f22/n*100. La suma de dichos porcentajes debe dar
100.

Para efectuar de una manera correcta la comparación de los porcentajes por columna y por
fila, en el caso en que se quiere estudiar el efecto que produce una variable sobre la otra, se debe
seguir la regla de Zeisel. Según esta regla, la comparación de los porcentajes siempre se debe hacer
en el sentido opuesto al que han sido sacados. Así, en el caso en que el porcentaje se obtuvo por
columna (utilizando como base de cálculo los totales marginales de columna), la comparación se
hace horizontalmente, y a la inversa, si los porcentajes se han sacado en el sentido de la fila, la
comparación se debe hacer verticalmente.

12
Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

A continuación se ilustra la lógica subyacente a esta forma de comparación.

Variable X
Variable Y x1 x2 Total Fila
y1 a b a+c
y2 c d c+d
Total columna a+c b+d a+b+c+d

Si se calculan los porcentajes por columna se obtienen los siguientes resultados: a/(a+c)*100
y c/(a+c)*10 para la primera columna y b/(b+d)*100 y d/(b+d)*100 para la segunda columna. Si la
diferencia porcentual se calcula en el mismo sentido en que han sido sacados los porcentajes, se
obtiene:

(1) a/(a+c)*100 - c/(a+c)*100 = (a-c) / (a+c) *100

o para la segunda columna

(2) b/(b+d)*100 - b/(b+d)*100 = (b-d) / (b+d) *100

Cabe destacar que el resultado (1) es independiente de b y d, es decir si la comparación se


hace en el mismo sentido en que se han calculado los porcentajes, no se toma en cuenta toda la
información contenida en la tabla. Lo mismo sucede con el resultado (2), en tanto que es
independiente de a y c.

Si los porcentajes se comparan en el sentido opuesto al que han sido sacados, los resultados
son:

(1) a/(a+c)*100 - b/(b+d)*100 = (ad-bc)/(a+c)(b+d)*100

(2) c/(a+c)*100 - d/(b+d)*100 = (bc-ad)/(a+c)(b+d)*100

En este caso el resultado obtenido refleja los valores contenidos en toda la tabla.

La diferencia porcentual calculada de este modo representa un coeficiente de asociación,


llamado Epsilon. Si bien no es del todo riguroso y es muy simple, tiene ventajas prácticas, ya que es
muy fácil de calcular. Esta diferencia porcentual se calcula en sentido contrario al que han sido
sacados los porcentajes. Por ejemplo, si los porcentajes han sido sacados verticalmente, el
coeficiente Epsilon se obtiene, restando horizontalmente, dos a dos, los porcentajes de las
columnas. Si la tabla es 2x2, es suficiente calcular un solo coeficiente Epsilon. En el caso de tablas
que tienen dimensiones más grandes, se deben calcular varios coeficientes.

Para obtener una tabla de asociación entre dos variables en el SPSS, accedemos a través
del menú Analizar / Estadísticos Descriptivos / Tablas de contingencia... (Analyze / Descriptive
Statistics / Crosstabs…) y de esta manera nos encontramos con el siguiente cuadro de diálogo:

13
Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

En el cuadro de diálogo que se genera se eligen del listado de variables las dos variables que
se quieren asociar. Una de ellas se ubicará horizontalmente (por fila) y la otra, verticalmente (por
columna) en la tabla de dos entradas. La variable que se ubicará por fila se debe pasar al cuadro
correspondiente a Filas (Rows) y la variable que se situará por columna, se debe pasar al cuadro
llamado Columnas (Columns).

Para poder calcular los porcentajes en el interior de cada celda, se elige en el cuadro de
diálogo correspondiente a las tablas de asociación la opción Casillas (Cells....)

En el cuadro que se genera al activar esta opción, se hace clic con el mouse en las casillas
correspondientes a Porcentajes (Percentages) indicando el tipo de porcentajes que se quiere
obtener: Fila (Row) (calculado sobre el total de la fila), Columna (Column) (calculado sobre el total de
la columna), Total (calculado sobre el total de la población). Una vez activadas las opciones, se hace
clic en el botón Continue y se vuelve al cuadro inicial.

En el caso en que una de las variables (o ambas) contienen valores perdidos (del sistema o
definidos por el usuario), estos valores se omitirán de la tabla de asociación.

Dado que se pueden sacar tres tipos de porcentajes, es importante establecer cuál de los tres
presenta mayor interés para el análisis. También es muy importante, antes de efectuar la asociación,
formular la hipótesis asociativa que vincula las dos variables que se estudian.

Generalmente el porcentaje sobre el total no se utiliza para la interpretación de la relación de


asociación, excepto cuando se analizan tipologías obtenidas con las categorías de las dos variables.
Un ejemplo podría ser la tipología de pobreza obtenida a partir del cruce de la variable “Línea de
pobreza” (Hogares encima de la línea de pobreza y hogares debajo de la línea de pobreza) con la
variable “Necesidades básicas insatisfechas”. Esta asociación permite obtener los siguientes tipos de
pobreza: pobreza crónica (Hogares que se ubican debajo de la línea de pobreza y tienen por lo
menos una necesidad básica insatisfecha), nueva pobreza (hogares que son pobres por línea de
pobreza pero no tienen carencias críticas), pobreza inercial (hogares pobres por NBI, pero cuyos

14
Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

ingresos los ubican encima de la línea de pobreza) y hogares no pobres (no presentan carencias
críticas y se ubican encima de la línea de pobreza). Para analizar la proporción de cada uno de estos
tipos en los hogares estudiados, se realiza el cruce correspondiente y se calculan los porcentajes
sobre el total.

Ejemplo: Cruce de la variable NBI con la variable Pobreza por ingresos para establecer tipos
de pobreza. Datos de la EPH – onda octubre de 1996 (total hogares)

NBI
Pobre No pobre Total
LINEA DE POBREZA Pobre Recuento 93 210 303
% del total 9,5% 21,5% 31,0%
No pobre Recuento 40 635 675
% del total 4,1% 64,9% 69,0%
Total Recuento 133 845 978
% del total 13,6% 86,4% 100,0%

En el cuadro del ejemplo se puede observar que el 9,5% de los hogares se encuentra en
pobreza crónica, el 21,5% debajo de la línea de pobreza (“nuevos pobres”), el 4,1% son pobres
inerciales y un 64,9% del total de los hogares no son pobres.

Cuando se desea comparar porcentajes por fila o columna, en primer lugar se debe
establecer cuál de las dos variables es la independiente (la causa) y cuál es la dependiente (el
efecto). Obviamente no en todas las situaciones es posible establecer la causa de un fenómeno,
sobre todo en ciencias sociales, donde la mayoría de los fenómenos tienen causas múltiples, y
generalmente las relaciones no son asimétricas (de causa a efecto), sino recíprocas (una de las
variables influye en la otra, y viceversa). Pese a estas dificultades, en ciertas situaciones se puede
establecer con precisión cuál es la variable independiente.

 Generalmente las variables de base y de personalidad son independientes en relación con


las variables de opinión y comportamiento, ya que las suelen determinar. Ejemplos de
variables de base son: edad, sexo, ocupación, nivel educativo, raza, religión, etc. Las
variables de personalidad son de tipo psicológico, a saber, coeficiente de inteligencia,
motivación, rasgos de personalidad, etc.

 La relativa permanencia de una variable con respecto a la otra (los cambios en la primera no
ocurren con frecuencia, mientras que la segunda varía a menudo) hace que se pueda asumir
que la primera es la independiente y la segunda la dependiente.

 La anterioridad temporal de una variable con respecto a la otra. La variable anterior puede
considerarse como variable independiente.

 A veces, los objetivos de la investigación permiten plantear cuál es la variable independiente,


y cuál la dependiente.

En todas estas situaciones, cuando se conoce cuál es la variable independiente, según la


regla de Zeisel, los porcentajes se deben obtener en el sentido de la variable independiente,
efectuándose la comparación de porcentajes en el sentido opuesto. Para facilitar la lectura de los
porcentajes, generalmente la variable independiente se suele ubicar en la columna. Esta ubicación
es solamente una convención y no influye en los datos. En el caso de haber ubicado la variable

15
Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

independiente por columna, la comparación se hace horizontalmente, dado que los porcentajes se
han calculado en el sentido vertical. En el siguiente ejemplo se muestra el procedimiento.

Resumen del procesamiento de los casos

Casos
Válidos Perdidos Total
N Porcentaje N Porcentaje N Porcentaje
LINEA DE POBREZA
994 94,2% 61 5,8% 1055 100,0%
* NIVELREC

Jefes de hogar por nivel educativo según línea de pobreza

NIVELREC
Primario Secundario Superior Universitario Total
LINEA DE POBREZAPobre Recuento 254 195 14 29 492
% de NIVELREC 63,2% 53,1% 27,5% 16,7% 49,5%
No pobre Recuento 148 172 37 145 502
% de NIVELREC 36,8% 46,9% 72,5% 83,3% 50,5%
Total Recuento 402 367 51 174 994
% de NIVELREC 100,0% 100,0% 100,0% 100,0% 100,0%

Los porcentajes han sido sacados verticalmente, pero la comparación se debe hacer por fila.
Leyendo dichos porcentajes, se puede observar que a menor nivel educativo, aumenta el porcentaje
de los jefes de hogar que están en situación de pobreza (se comparan los porcentajes en sentido
horizontal: 63,2%, 53,1%, 27,5% y 16,7%). A la inversa, a mayor nivel educativo, desciende el
porcentaje de jefes de hogar pobres.

1.1.5. Coeficientes de asociación

Los coeficientes de asociación se utilizan para evaluar la intensidad de la asociación. Estos


coeficientes varían entre 0 y 1 para variables nominales, y –1 y 1 para variables ordinales. En el caso
de las variables nominales, 0 indica la ausencia de asociación y 1 la presencia de una asociación
perfecta. En el caso de las variables ordinales es posible establecer la dirección de la asociación, -1
indicando una asociación perfecta negativa, y +1, una asociación perfecta positiva.

Se utilizan distintos coeficientes en función del nivel de medición de las variables.

En el caso en que las variables son nominales y dicotómicas, el coeficiente más utilizado es el
Phi. Si la tabla tiene dimensiones más grandes, se recomienda el uso del coeficiente V de Cramer.

En el caso de dos variables ordinales, se pueden utilizar los coeficientes Tau-b y Tau-c de
Kendall. Para las tablas simétricas (igual cantidad de filas y columnas) se debe utilizar el Tau-b. Para
las tablas asimétricas (la cantidad de filas no coincide con la cantidad de columnas) se debe utilizar
el Tau-c.

Si se asocia una variable ordinal con una nominal, se debe utilizar un coeficiente
correspondiente al nivel nominal.

16
Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

Para calcular estos coeficientes, se debe activar la opción Statistics de la instrucción Tablas
de contingencia (Crosstabs) y se hace clic en los nombres de los coeficientes que se desea calcular
(Phi y V de Cramer; Tau-b de Kendall; Tau-c de Kendall).

17
Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

2. Estadística Inferencial
2.1. Pruebas No Paramétricas

2.1.1. Chi cuadrado de Pearson


Para evaluar si hay alguna relación entre las variables, comúnmente se recurre a la diferencia
de porcentajes. También se pueden obtener coeficientes de asociación, que indican la intensidad de
la asociación. Sin embargo, antes de interpretar las diferencias porcentuales y los eventuales
coeficientes, se debe evaluar la significación estadística de la relación e inferir su validez respecto a
la población. La prueba estadística que permite realizar esto es el Chi-cuadrado.
El método “tradicional” de la prueba de hipótesis consiste en los siguientes pasos:
 Se formula la hipótesis de investigación que afirma una relación entre dos variables.
 Se formula la hipótesis nula según la cual no hay relación entre las dos variables, es decir, las
variables son independientes.
 Se elige la prueba: Chi-cuadrado.
 Se elige un nivel de significación ().  indica el riesgo de equivocarse y rechazar la hipótesis
nula, cuando en realidad ésta es verdadera. En lenguaje estadístico se llama error tipo I.
Generalmente el nivel de significación con el cual se trabaja en las ciencias sociales es 0,05.
Esto significa que de 100 muestras que se podrían seleccionar a partir de la población
considerada, en 5 se rechaza erróneamente la hipótesis nula. En el caso de la asociación,
esto significa que en 5 muestras de 100, si bien se ha obtenido una relación, ésta se debe al
azar y no refleja la existencia una relación en la población.
 Se determinan los grados de libertad de la tabla de asociación. La distribución Chi-cuadrado
es una familia de distribuciones que depende de los grados de libertad, los cuales se
obtienen mediante un cálculo. Los grados de libertad indican la cantidad de datos que se
pueden emplear en el cálculo estadístico sin restricciones. En el caso de las distribuciones
univariadas, los grados de libertad son n-1. En el caso de las tablas de asociación, los grados
de libertad se calculan utilizando la fórmula (c-1)(r-1), en donde c – representa la cantidad de
columnas del cuadro, y r – la cantidad de filas. Por ejemplo, si la tabla tiene 2 columnas y 3
filas, los grados de libertad son 2.
 Conociendo  y los grados de libertad, se puede obtener el valor crítico del estadístico 2 ,
recurriendo a las tablas de la distribución de Chi-cuadrado. El valor crítico correspondiente al
nivel de significación seleccionado y a los grados de libertad de la tabla de asociación se
encuentra en la intersección de la fila (grados de libertad) con la columna (nivel de
significación).
 Determinación de la zona de rechazo de la hipótesis nula. El valor crítico delimita la zona de
aceptación de la zona de rechazo. Todos los valores observados del estadístico 2, que son
mayores al valor crítico se ubicarán en la zona de rechazo de la hipótesis nula.
 Se calcula el valor observado del 2 y se compara con el valor crítico.
 Toma de decisión: si el valor observado es mayor que el valor crítico, se puede rechazar la
hipótesis nula, es decir la hipótesis de independencia entre las variables consideradas. Esto
significa que la relación entre las variables es estadísticamente significativa, a un nivel de
significación del 5%.
El cálculo del estadístico Chi-cuadrado se hace comparando las frecuencias observadas con
las frecuencias esperadas, que se obtienen en el caso en que las dos variables fueran
independientes. Las frecuencias esperadas se calculan multiplicando las frecuencias marginales de
18
Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

las columnas y filas, correspondientes a cada una de las celdas de la tabla de asociación y
dividiendo el producto a la cantidad de casos.
Para la tabla de asociación general que se presenta a continuación, la frecuencia esperada
para la primera celda de la tabla con la frecuencia observada f11 es (f11 + f12)(f11 + f21) / n. Cuanto
mayor es la diferencia entre las frecuencias observadas y esperadas, mayor será la probabilidad de
que la muestra provenga de una población en la que las variables estén relacionadas.

Variable X
Variable Y X1 x2 Total Fila
Y1 f11 f12 f11 + f12
Y2 f21 f22 f21 + f22
Total columna f11 + f21 f12 + f22 N

Para efectuar la Prueba de Chi cuadrado accedemos a través del menú Analizar /
Estadísticos Descriptivos / Tablas de contingencia... (Analyze / Descriptive Statistics /
Crosstabs…) y de esta manera nos encontramos con el siguiente cuadro de diálogo:

La lista de variables contiene un listado con todas las variables del archivo de datos. Para
llevar a cabo un contraste con las especificaciones que el procedimiento tiene establecidas por
defecto:

 Trasladar al menos una variable al cuadro de Filas (Row(s)) y una variable al cuadro de
Columnas (Column(s)).

19
Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

 Luego hacer click en el botón Estadísticos (Statistics) y tildar la opción Chi cuadrado (Chi-
square).

 También se pueden obtener las frecuencias esperadas. Para esto se debe hacer click en el
botón Casillas (Cells) y tildar la opción Esperadas (Expected). Se puede observar que la
opción Observadas (Observed) está predeterminada. Esta opción permite obtener las
frecuencias absolutas observadas en cada celda de la tabla de asociación.

Advertencia: El estadístico Chi-cuadrado puede estar sesgado y no se recomienda su


utilización en el caso en que haya celdas con valores esperados menos de 1, y haya más del 20% de
las celdas con valores esperados menos de 5. Esta situación se produce en los casos en que la

20
Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

muestra es pequeña, o las variables cruzadas contienen muchas categorías. En el último caso
conviene agrupar las categorías, reduciendo la cantidad de las mismas.

A continuación realizaremos dos ejemplos para este procedimiento.


Se plantea la siguiente hipótesis de investigación: “las mujeres tienen mayor probabilidad
de estar desocupadas que los hombres”. Se quiere contrastar la hipótesis utilizando los datos de
la base EPH2002.sav. La población en estudio es la población económicamente activa (PEA).
Se formula la hipótesis nula: “no hay relación entre el sexo y la desocupación”.
Para realizar esta prueba de hipótesis, previamente se debe acondicionar la base de datos.
En este caso, se debe realizar un filtro para seleccionar solamente la PEA. La expresión que se
introducirá en la opción del filtro es la siguiente: estado = 1 | estado = 2.
Una vez aplicado el filtro,
- Trasladamos al recuadro Fila(s) (Row(s)) la variable “Condición de actividad” [estado]

- Trasladamos al recuadro Columna(s) (Column(s)) la variable “Sexo”

- Luego damos click en el botón Casillas (Cells), tildamos las opciones “Esperadas”
(Expected) y “Columna” (Column) y damos click en Continuar (Continue).

21
Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

- Luego damos click en el botón Estadísticos (Statistics), tildamos la opción “Chi cuadrado”
(Chi-square) y damos click en Continuar (Continue).

- Luego damos click en Aceptar (Ok) y observamos los cuadros generados en el visor de
resultados (Output).

22
Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

Tabla de contingencia CONDICION DE ACTIVIDAD * SEXO

SEXO
Varón Mujer Total
CONDICION DE Ocupado Recuento 787 527 1314
ACTIVIDAD Frecuencia esperada 782,2 531,8 1314,0
% de SEXO 89,0% 87,7% 88,5%
Desocupado Recuento 97 74 171
Frecuencia esperada 101,8 69,2 171,0
% de SEXO 11,0% 12,3% 11,5%
Total Recuento 884 601 1485
Frecuencia esperada 884,0 601,0 1485,0
% de SEXO 100,0% 100,0% 100,0%

Pruebas de chi-cuadrado

Sig. asintótica Sig. exacta Sig. exacta


Valor gl (bilateral) (bilateral) (unilateral)
Chi-cuadrado de Pearson ,630b 1 ,427
Corrección apor
,506 1 ,477
continuidad
Razón de verosimilitud ,627 1 ,429
Estadístico exacto de
,456 ,238
Fisher
Asociación lineal por
,630 1 ,427
lineal
N de casos válidos 1485
a. Calculado sólo para una tabla de 2x2.
b. 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada
es 69,21.

Interpretación:
Si se analiza la tabla de asociación obtenida, se distinguen los siguientes valores:
 las frecuencias absolutas observadas en cada celda. Por ejemplo, hay 787 varones
ocupados y 74 mujeres desocupadas.
 los totales de cada fila y columna, es decir, las frecuencias marginales que representan la
distribución de frecuencia simple de cada una de las variables cruzadas.
 el segundo valor de la celda indica la frecuencia esperada (por ejemplo, 782,2 en el caso
de los varones ocupados). Si se analizan dichas frecuencias, se puede notar que la
diferencia entre los valores observados y esperados es muy reducida.
 los porcentajes por columna. Se puede observar que la diferencia porcentual entre
varones y mujeres según las dos categorías de la condición de actividad (ocupado y
desocupado) es muy reducida.
El Chi-cuadrado utilizado en la evaluación de la significación estadística de la relación es el
Chi-cuadrado (Chi-Square) de Pearson. El SPSS efectúa otros dos contrastes también: Likelihood
Ratio (Razón de Máxima Verosimilitud) y Linear-by-Linear Association. La razón de máxima
verosimilitud se utiliza en el contexto de modelos lineales logarítmicos (que representa un sistema
23
Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

general de análisis de tablas de asociación), y para muestras grandes tiene valores semejantes al
Chi-cuadrado de Pearson.
También se indica la frecuencia mínima esperada (Minimum Expected Frequency), que en
ninguna celda debe ser menor de 1. Si en el 20% de las celdas se obtienen valores esperados entre
1 y 5, la salida de resultados indicará esta situación. En nuestro ejemplo se consigna que no hay
ninguna celda que tenga una frecuencia esperada inferior a 5.
Si las variables que se han cruzado son dicotómicas, en vez de leer el valor del Chi-Cuadrado
(Chi-Square), se debe leer el valor del Continuity Correction que es la corrección de Yates
(corrección por continuidad) aplicada al cálculo del Chi-Cuadrado de las tablas dicotómicas.
En el ejemplo presentado, el Chi-cuadrado de Pearson es 0,630 y la corrección por
continuidad introduce una leve modificación al valor del Chi-cuadrado: 0,506.
Cabe notar que en la salida del SPSS se registran los valores de las pruebas de contraste en
la columna correspondiente a Valor (se lee la fila correspondiente al Chi-cuadrado de Pearson /
corrección por continuidad), los grados de libertad en la columna llamada gl (grados de libertad) y los
valores-P en la columna Sig. Asintótica (significación asintótica – bilateral)
El valor-P mide la probabilidad de obtener al azar un determinado estadístico. En el ejemplo
presentado, el valor-P representa la probabilidad de obtener el valor 0,506 del estadístico de Chi-
cuadrado al azar. Observamos que el valor-P de este estadístico es 0,477, casi 0,5. Esto significa
que la probabilidad de rechazar la hipótesis nula equivocadamente a partir de los resultados del
ejemplo es 0,5; probabilidad significativamente mayor que  = 0,05.
En consecuencia, la evaluación de los resultados de la salida de SPSS para el Chi-cuadrado
se puede hacer de dos formas:
 Se compara el valor crítico del estadístico 2 (obtenido de las tablas, en función del nivel
de significación  y los grados de libertad) con el valor observado obtenido en la salida de
resultados. Si el valor observado es mayor que el valor crítico, se puede rechazar la
hipótesis nula de independencia. A la inversa, si el valor observado es menor que el valor
crítico, hay que aceptar la hipótesis nula.
 Se compara el valor del  (generalmente 0,05) con el valor-P (Significación) obtenido en
la salida de resultados. Si el valor-P es mayor que =0,05, hay que aceptar la hipótesis
nula de independencia (es decir, no hay relación entre las variables estudiadas). Si el
valor-P es menor que =0,05, se rechaza la hipótesis nula, confirmándose de este modo
la existencia de una relación entre las dos variables.
En este ejemplo, el valor-P es significativamente mayor que =0,05, por lo tanto se acepta la
hipótesis nula, es decir, se puede inferir, que a nivel de la población en cuestión, no hay relación
entre las dos variables estudiadas: sexo y condición de actividad.

Veamos otro ejemplo, en donde trabajamos con una variable dicotómica y otra, policotómica
(que tiene más de dos categorías). Planteamos la siguiente hipótesis de investigación: existe relación
entre sexo y categoría ocupacional. La hipótesis nula correspondiente es: no hay relación entre sexo
y categoría ocupacional.
Nuevamente se debe acondicionar la base, seleccionando, esta vez, al conjunto de
ocupados.
Se obtiene la siguiente tabla de asociación:

24
Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

Tabla de contingencia CATEGORIA OCUPACIONAL * SEXO

SEXO
Varón Mujer Total
CATEGORIA Patrón Recuento 36 11 47
OCUPACIONAL Frecuencia esperada 28,2 18,8 47,0
% de SEXO 4,6% 2,1% 3,6%
Cta. propia Recuento 225 102 327
Frecuencia esperada 195,9 131,1 327,0
% de SEXO 28,6% 19,4% 24,9%
Asalariado Recuento 510 407 917
Frecuencia esperada 549,4 367,6 917,0
% de SEXO 64,9% 77,4% 69,9%
Trabaj. sin salario Recuento 15 6 21
Frecuencia esperada 12,6 8,4 21,0
% de SEXO 1,9% 1,1% 1,6%
Total Recuento 786 526 1312
Frecuencia esperada 786,0 526,0 1312,0
% de SEXO 100,0% 100,0% 100,0%

Si se realiza un mero examen de los porcentajes, se pueden notar diferencias porcentuales


por categoría ocupacional: entre los patrones y los trabajadores por cuenta propia se observa una
cierta predominancia de los varones, y entre los asalariados, sobresalen las mujeres.
Pruebas de chi-cuadrado

Sig. asintótica
Valor gl (bilateral)
Chi-cuadrado de Pearson 24,425a 3 ,000
Razón de verosimilitud 25,144 3 ,000
Asociación lineal por
18,035 1 ,000
lineal
N de casos válidos 1312
a. 0 casillas (,0%) tienen una frecuencia esperada inferior a 5.
La frecuencia mínima esperada es 8,42.

En cuanto a la prueba Chi-cuadrado, se observa que el valor del estadístico es 24,4 y la


significación o valor-P correspondiente a este valor del Chi-cuadrado es 0,000, es decir, bastante
menor que =0,05. Esto significa, que esta vez, la hipótesis nula se rechaza y se acepta la existencia
de una relación entre sexo y categoría ocupacional

25
Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

2.2. Pruebas Paramétricas

Presuposiciones de la estadística paramétrica:

- La distribución poblacional de la variable dependiente es normal: el universo tiene una


distribución normal.
- El nivel de medición de la variable es por intervalos o de razón.
- Cuando dos o más poblaciones son estudiadas, éstas tienen una varianza homogénea:
las poblaciones en cuestión tienen una dispersión similar en sus distribuciones. (Test de
Levene)

Comparación de medias

La opción Comparar medias (Compare Means) del menú Analizar (Analyze) contiene varios
de los procedimientos estadísticos diseñados para efectuar contrastes de hipótesis sobre medias, en
concreto, la prueba T y el análisis de varianza de un factor.

En las pruebas para comparación de medias la Hipótesis nula que se formula es del tipo “las
medias de las poblaciones comparadas son iguales”. Evaluando la probabilidad de que esta H0 se
cumpla podemos responder a preguntas tales como “¿Son distintas las medias de las poblaciones
en estudio?” , “¿Qué tan distintas podrían ser en el universo?” , “¿Con qué porcentaje de
confiabilidad puedo asegurarlo?”

2.2.1. Medias

El procedimiento Medias calcula medias de subgrupo y estadísticos univariados relacionados


para variables dependientes dentro de las categorías de una o más variables independientes. Si lo
desea, puede obtener el análisis de varianza de un factor, la eta y pruebas de linealidad.

Este procedimiento en particular es utilizado mayormente para un análisis exploratorio-


descriptivo de primera instancia ya que, si no se seleccionan el análisis de varianza de un factor, la
eta o las pruebas de linealidad que se ofrecen accesoriamente a este procedimiento, se calculan las
medias de los subgrupos sin hacer ninguna prueba de hipótesis.

Datos: Las variables dependientes son cuantitativas y las independientes son categóricas. Los valores de las
variables categóricas pueden ser numéricos o de cadena corta.

Supuestos: Algunos de los estadísticos opcionales de subgrupo, como la media y la desviación típica, se basan
en la teoría normal y son adecuados para variables cuantitativas con distribuciones simétricas. Los estadísticos
robustos, tales como la mediana y el rango, son adecuados para las variables cuantitativas que pueden o no
cumplir el supuesto de normalidad. El análisis de varianza es robusto a las desviaciones de la normalidad,
aunque los datos de cada casilla deberían ser simétricos. El análisis de varianza también supone que los
grupos proceden de poblaciones con la misma varianza. Para comprobar este supuesto, utilice la prueba de
homogeneidad de las varianzas de Levene, disponible en el procedimiento ANOVA de un factor.

Si ud todavía no abre ningún archivo de datos, abra el archivo EPH 2002.sav.

Para utilizar el procedimiento Medias accedemos a través del menú Analizar / Comparar
medias / Medias... (Analyze / Compare Means / Means…) y de esta manera nos encontramos con el
siguiente cuadro de diálogo:

26
Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

Para obtener los estadísticos que el procedimiento ofrece debe:

 Trasladar a la lista Dependientes (Dependent list) la/s variable/s que interesa describir o
aquellas en las que se van a comparar los grupos.
 Trasladar a la lista Independientes (Independent list) la/s variable/s que definen los grupos
que interesa describir o comparar.

El botón Opciones… (Options) permite seleccionar los estadísticos descriptivos concretos que
interese obtener y algunos contrastes sobre medias o linealidad.

También es posible combinar más de una variable independiente para, dentro de los grupos
definidos por una primera variable, formar subgrupos definidos por una segunda variable (o una
tercera, o una cuarta, etc.). Es decir, cada estadístico solicitado puede calcularse en cada uno de los

27
Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

subgrupos resultantes de combinar dos o más variables independientes. Esto se consigue definiendo
capas (layers).

Para definir capas (layers) utilice los botones Siguiente y Anterior (Next , Previous) del
apartado Capa “x” de “n” (Layer “x” of “n”) donde “x” se refiere al número de capa en el que nos
encontramos y ”n” al número total de capas definidas.

A continuación realizaremos un ejemplo simple para ilustrar este procedimiento.

- Accedemos a través del menú Analizar / Comparar medias / Medias... (Analyze /


Compare Means / Means…)

- Trasladamos la variable “Años cumplidos” a la lista de variables dependientes y la variable


“Sexo” a la lista de variables independientes.

28
Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

- En el botón Opciones… (Options…) seleccionamos los siguientes estadísticos:

- Una vez seleccionados los estadísticos hacemos click en Continuar (Continue) y luego en
Aceptar (Ok) y observamos los cuadros generados en el visor de resultados (Output).

Interpretación:

El primer cuadro nos muestra por defecto algunos estadísticos descriptivos relacionados con
esta prueba. En él se puede ver un resumen en donde se indica la cantidad de casos que fueron
procesados y los que fueron excluidos del análisis (que para nuestro ejemplo no se excluye ninguno)

Resumen del procesamiento de los casos

Casos
Incluidos Excluidos Total
N Porcentaje N Porcentaje N Porcentaje
AÑOS CUMPLIDOS
3821 100,0% 0 ,0% 3821 100,0%
* SEXO

En el segundo cuadro se puede observar el valor de los 4 estadísticos seleccionados para la


variable edad calculados por separado para el grupo de varones y para el grupo de mujeres (ya que
se utilizó la variable sexo como variable de agrupación)

29
Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

Informe

AÑOS CUMPLIDOS
% del
SEXO Media Desv. típ. N total de N
Varón 30,03 21,179 1742 45,6%
Mujer 33,30 22,518 2079 54,4%
Total 31,81 21,975 3821 100,0%

2.2.2. Contraste sobre una media

El procedimiento Prueba T para una muestra contrasta si la media de una sola variable
difiere de una constante especificada.

Datos: Para contrastar los valores de una variable cuantitativa con un valor de contraste hipotetizado, elija una
variable cuantitativa e introduzca un valor de contraste hipotetizado.

Supuestos: Esta prueba asume que los datos están normalmente distribuidos; sin embargo, esta prueba es
bastante robusta frente a las desviaciones de la normalidad.

Atención: Antes de realizar el próximo ejemplo aplicamos un filtro “estado = 1” para trabajar
con los ocupados

Para utilizar el procedimiento Prueba T para una muestra accedemos a través del menú
Analizar / Comparar medias / Prueba T para una muestra... (Analyze / Compare Means / One-
Sample T test…) y de esta manera nos encontramos con el siguiente cuadro de diálogo:

La lista de variables contiene un listado con todas las variables del archivo de datos excepto
las que tienen formato cadena. Para llevar a cabo un contraste con las especificaciones que el
procedimiento tiene establecidas por defecto:

 Trasladar a la lista Contrastar variables (Test variable(s)) la/s variable/s cuya media
poblacional se desea contrastar.

 Indicar el Valor de prueba (Test value) el valor poblacional concreto que se desea contratar.
Este valor se utiliza para todas las variables seleccionadas en la lista Contrastar variables.

En el botón Opciones…(Options…) se permite controlar algunos aspectos de este análisis:

30
Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

 Intervalo de confianza (Confidence Interval): k %. Esta opción permite establecer en escala


porcentual, el nivel de confianza (1-) con el que deseamos obtener el intervalo de confianza
para la diferencia entre la media muestral y el Valor de prueba. El valor de k es, por defecto,
95, pero es posible seleccionar cualquier otro valor comprendido entre 0,01 y 99,99.

 Valores perdidos (Missing values): Podemos optar entre dos formas diferentes de tratar los
casos con valores perdidos:
o Excluir casos según análisis (Exclude cases analysis by analysis). Esta opción
excluye de cada análisis (de cada prueba T) los casos con valor perdido en la variable
concreta que se está contrastando.
o Excluir casos según lista (Exclude cases listwise). Esta opción excluye de todos los
análisis los casos con algún valor perdido en cualquiera de las variables
seleccionadas en la lista Contrastar variables.

A continuación realizaremos un ejemplo para este procedimiento.

- Trasladamos la variable “Ingreso total individual” [p47t] a la lista Contrastar variables


(Test variables) y asignamos un Valor de prueba (Test value) igual a 330.

- Luego damos click en Aceptar (Ok) y observamos los cuadros generados en el visor de
resultados (Output).

Interpretación:

La Hipótesis nula (H0) que se plantea en esta prueba nos dice que “las medias de las
poblaciones comparadas son iguales”. En este caso bien la podemos enunciar como : “la diferencia
entre la media de la población y el valor de prueba es nula” o bien como “la media de la población
es igual al valor de prueba”

31
Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

El primer cuadro nos muestra por defecto algunos estadísticos descriptivos relacionados con
esta prueba.
Estadísticos para una muestra

Desviación Error típ. de


N Media típ. la media
INGRESO TOTAL
1314 451,51 502,200 13,854
INDIVIDUAL

En el segundo cuadro nos encontramos con los resultados de la prueba para una muestra
propiamente dicha.

Prueba para una muestra

Valor de prueba = 330


Intervalo de confianza
para la diferencia
Diferencia (95%)
t gl Sig. (bilateral) de medias Inferior Superior
INGRESO TOTAL
8,771 1313 ,000 121,51 94,33 148,69
INDIVIDUAL

Se encuentra el valor calculado para el estadístico t que en nuestro ejemplo es 8,771.

Los grados de libertad (gl = N-1) que junto con el nivel de significación alfa (en el SPSS se
define como intervalo de confianza en %) se utilizan para entrar en la tabla de la distribución t y de esta
manera comparar con el valor obtenido para t en nuestra prueba y así determinar la aceptación o el
rechazo de la Hipótesis nula. En nuestro ejemplo para gl = 1313 y alfa = 0,05

La Significación bilateral nos indica directamente (sin necesidad de recurrir a la tabla) la


probabilidad de que la hipótesis nula sea cierta. Para nuestro ejemplo, es la probabilidad de obtener
una media en la población igual al valor de prueba. Siendo este valor en nuestro ejemplo igual a
0,000 determinamos el rechazo de la hipótesis nula.

La Diferencia de medias es la diferencia entre la media de la muestra y el valor de prueba.

El Intervalo de confianza para la diferencia nos indica los valores entre los cuales puede
oscilar la diferencia de medias con una confiabilidad igual al porcentaje que hayamos indicado en el
botón opciones en intervalo de confianza. Nos dice: “Podemos asegurar con una confiabilidad del
95% (o del % que se haya indicado) que la media poblacional se encuentra comprendida entre:

(Valor de prueba + Lím. Inferior) y (Valor de prueba + Lím. Superior)


( 330 + 94,33 ) y ( 330 + 148,69 ) , o sea, entre: 424,33 y 478,69.

2.2.3. Contraste sobre dos medias independientes

El procedimiento Prueba T para muestras independientes permite contrastar hipótesis


referidas a la diferencia de las medias de dos grupos de casos. Para esta prueba, idealmente los
sujetos deben asignarse aleatoriamente a dos grupos.

32
Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

Datos: Los valores de la variable cuantitativa de interés se hallan en una única columna del archivo de datos.
El procedimiento utiliza una variable de agrupación con dos valores para separar los casos en dos grupos. La
variable de agrupación puede ser numérica (valores como 1 y 2, o 6,25 y 12,5) o de cadena corta (como SÍ y
NO). También puede usar una variable cuantitativa, como la EDAD, para dividir los casos en dos grupos
especificando un punto de corte (el punto de corte 21 divide la EDAD en un grupo de menos de 21 años y otro
de más de 21).

Supuestos: Para la prueba t de igualdad de varianzas, las observaciones deben ser muestras aleatorias
independientes de distribuciones normales con la misma varianza de población. Para la prueba t de varianzas
desiguales, las observaciones deben ser muestras aleatorias independientes de distribuciones normales. La
prueba t para dos muestras es bastante robusta a las desviaciones de la normalidad.

Para utilizar el procedimiento Prueba T para muestras independientes accedemos a través


del menú Analizar / Comparar medias / Prueba T para muestras independientes (Analyze /
Compare Means / Independent-Samples T test…) y nos encontramos con el cuadro de diálogo:

La lista de variables contiene un listado con todas las variables numéricas y de cadena corta
del archivo de trabajo. Para llevar a cabo un contraste con las especificaciones que el procedimiento
tiene establecidas por defecto:

 Trasladar a la lista Contrastar variables (Test variable(s)) la/s variable/s en la que desea
comparar los grupos. Todas estas variables deben ser de tipo numérico. Cada variable
seleccionada genera una prueba T acompañada de su nivel crítico y del intervalo de
confianza para la diferencia entre las medias.

 Trasladar al cuadro Variable de agrupación (Grouping variable) la variable que define los
grupos que se desean comparar. Esta variable puede ser de tipo numérico o de cadena corta.

Definir grupos (Define Groups). Tras seleccionar una variable de agrupación, es necesario
iniciar cuáles son los códigos que definen los dos grupos que se desea comparar. Para ello:

 Pulsar el botón Definir Grupos… (Define Groups…) para acceder al subcuadro de diálogo
Definir grupos (Define Groups) que se muestra a continuación:

33
Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

o Usar valores especificados (Use specified values). Si la variable de agrupación


posee códigos que definen los dos grupos que deseamos comparar, esos códigos
deben introducirse en los cuadros de texto Grupo 1 y Grupo 2 (Group 1, Group 2).
Los casos que posean otros códigos serán excluidos del análisis.
o Punto de corte (Cut point). Si se desea utilizar como variable de agrupación una
variable cuantitativa continua, esta opción permite introducir un valor como punto de
corte: los casos con puntuación igual o mayor que el punto de corte forman un grupo;
el resto de los casos forman el otro grupo. Esta opción no está disponible si, como
variable de agrupación, se elige una variable de tipo cadena corta.

En el botón Opciones…(Options…) se permite controlar algunos aspectos de este análisis:

 Intervalo de confianza (Confidence Interval): k %. Esta opción permite establecer, en escala


porcentual, el nivel de confianza (1-) con el que deseamos obtener el intervalo de confianza
para la diferencia entre la media muestral y el Valor de prueba. El valor de k es, por defecto,
95, pero es posible seleccionar cualquier otro valor comprendido entre 0,01 y 99,99.

 Valores perdidos (Missing values): Podemos optar entre dos formas diferentes de tratar los
casos con valores perdidos:
o Excluir casos según análisis (Exclude cases analysis by analysis). Esta opción
excluye de cada análisis (de cada prueba T) los casos con valor perdido en la variable
concreta que se está contrastando.
o Excluir casos según lista (Exclude cases listwise). Esta opción excluye de todos los
análisis los casos con algún valor perdido en cualquiera de las variables
seleccionadas en la lista Contrastar variables.

A continuación realizaremos un ejemplo para este procedimiento.

Para este ejemplo mantendremos aplicado el filtro “estado = 1”

- Accedemos a través del menú Analizar / Comparar medias / Prueba T para muestras
independientes… ( Analyze / Compare Means / Independent-Samples T test…)

34
Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

- Trasladamos la variable “Ingreso total individual” [p47t] a la lista Contrastar variables


(Test variable(s))

- Trasladamos la variable [sexo] al cuadro Variable de agrupación (Grouping variables).

- Pulsamos el botón Definir Grupos… (Define Groups…)


o Usar valores especificados (Use specified values). Introducimos el valor 1 para el
Grupo 1 y el valor 2 para el Grupo 2

- Hacemos click en Continuar (Continue) y Luego en Aceptar (Ok) y observamos los


cuadros generados en el visor de resultados (Output).

Interpretación:

La Hipótesis nula (H0) que se plantea en esta prueba nos dice que “las medias de las
poblaciones comparadas son iguales”.

El primer cuadro nos muestra por defecto algunos estadísticos descriptivos relacionados con
esta prueba.

35
Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

Estadísticos de grupo

Desviación Error típ. de


SEXO N Media típ. la media
INGRESO TOTAL Varón 787 488,65 504,990 18,001
INDIVIDUAL Mujer 527 396,05 493,296 21,488

En el segundo cuadro nos encontramos con los resultados de la prueba de muestras


independientes propiamente dicha.

Prueba de muestras independientes

Prueba de
Levene para
la igualdad de
varianzas Prueba T para la igualdad de medias

Error
típ. de 95% Intervalo de
Diferen la confianza para la
Sig. cia de diferen diferencia
F Sig. t gl (bilateral) medias cia Inferior Superior
INGRESO Se han asumido
7,445 ,006 3,288 1312 ,001 92,592 28,162 37,345 147,840
TOTAL varianzas iguales
INDIVIDUAL No se han
asumido varianzas 3,303 1145,7 ,001 92,592 28,032 37,593 147,592
iguales

La t y los gl se calculan de distinta manera para varianzas iguales que para varianzas
desiguales. Es por eso que en primer lugar nos encontramos con la Prueba de Levene para la
igualdad de las varianzas . Dicho test da un valor F que relaciona ambas varianzas muestrales
indicándonos la homogeneidad de las mismas. Si el valor de F se aproxima a 1 entonces las
varianzas serán similares, a mayor valor de F mayor diferencia entre las varianzas.

La HF postula que “las varianzas de las subpoblaciones son iguales”.

El nivel de significancia (Sig.) nos indica la probabilidad de que se cumpla la HF. Un valor
mayor a 0,05 nos indica que se debe aceptar esta hipótesis.

A partir de aquí estudiamos el cuadro siguiendo la fila que indica que se han asumido
varianzas iguales o desiguales según corresponda. En nuestro ejemplo el nivel de significancia es
igual a 0,006 o sea mucho menor que 0,05 con lo cual rechazamos la HF y asumimos varianzas
desiguales (o sea que leemos los valores de la segunda fila).

El análisis que se hace de los demás valores de la tabla es el mismo que se hizo para
Contraste sobre una media.

Nota: Las diferencias de ingresos medios pueden estar sometidas a la influencia de factores como los estudios
y no solamente el sexo. En estas situaciones, debe asegurarse de que las diferencias en otros factores no
enmascaren o resalten una diferencia significativa entre las medias.

36
Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

2.2.4. Análisis de varianza de un factor

El procedimiento ANOVA de un factor genera un análisis de varianza de un factor para una


variable dependiente cuantitativa respecto a una única variable de factor (la variable independiente).
El análisis de varianza se utiliza para contrastar la hipótesis de que varias medias son iguales. Esta
técnica es una extensión de la prueba t para dos muestras.

Datos: Los valores de la variable de factor deben ser enteros y la variable dependiente debe ser cuantitativa.

Supuestos: Cada grupo es una muestra aleatoria independiente procedente de una población normal. El
análisis de varianza es robusto a las desviaciones de la normalidad, aunque los datos deberán ser simétricos.
Los grupos deben proceder de poblaciones con varianzas iguales. Para contrastar este supuesto, se utiliza la
prueba de Levene de homogeneidad de varianzas.

Para utilizar el procedimiento ANOVA de un factor accedemos a través del menú Analizar /
Comparar medias / ANOVA de un factor... (Analyze / Compare Means / One-Way ANOVA…) y nos
encontramos con el cuadro de diálogo:

La lista de variables contiene un listado con todas las variables numéricas del archivo de trabajo
(No figuran las variables de cadena). Para llevar a cabo un ANOVA de un factor con las
especificaciones que el procedimiento tiene establecidas por defecto:

 Trasladar a la lista Dependientes (Dependent List) la/s variable/s en la que desea comparar
los grupos. Se generará un ANOVA de un factor para cada una de las variables
seleccionadas.

 Trasladar al cuadro Factor (Factor) la variable que define los grupos que se desean
comparar. Esta variable debe ser categórica (nominal u ordinal).

En el botón Opciones…(Options…) se permite controlar algunos aspectos de este análisis:

37
Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

Estadísticos (Statistics). Este recuadro incluye algunos estadísticos descriptivos y la prueba de


Levene para contrastar la hipótesis de homogeneidad de varianzas:

 Descriptivos (Descriptive): Ofrece estadísticos descriptivos referidos tanto a cada grupo


como al total muestral: número de observaciones, media, desviación típica, error típico de la
media, intervalo de confianza para la media al 95% y valores mínimo y máximo.

 Efectos fijos y aleatorios (Fixed and random effects): Muestra la desviación típica, el error
típico de la media, intervalo de confianza para la media al 95% para los modelos de efectos
fijos, y el error típico de la media, intervalo de confianza para la media al 95% y la varianza
entre componentes para los modelos de efectos aleatorios.

 Homogeneidad de varianzas (Homogeneity of variance test): El estadístico F del ANOVA de


un factor se basa en el cumplimiento de dos supuestos fundamentales: normalidad y
homocedasticidad.

Normalidad significa que la variable dependiente se distribuye normalmente en todas las


poblaciones muestreadas (tantas como grupos definidos por la variable independiente o
factor). No obstante, si los tamaños de los grupos son grandes, el estadístico F se comporta
razonablemente bien incluso con distribuciones poblaciones sensiblemente alejadas de la
normalidad.

Homocedasticidad o igualdad de varianzas significa que todas las poblaciones


muestreadas (tantas como grupos definidos por la variable independiente o factor) poseen la
misma varianza. Con grupos de distinto tamaño, el incumplimiento de este supuesto debe ser
cuidadosamente vigilado. La opción Homogeneidad de varianzas (Homogeneity of variance
test) permite contrastar este supuesto mediante la prueba de Levene.

 Los test para igualdad de medias de grupo de Brown-Forsythe y de Welch son preferibles
al estadístico de F cuando no se pueden asumir varianzas iguales.

 Gráfico de las medias (Means Plot). Esta opción permite obtener un gráfico de líneas con la
variable factor en el eje de abscisas y la variable dependiente en el de ordenadas

Valores perdidos (Missing values): Podemos optar entre dos formas diferentes de tratar los casos
con valores perdidos:
38
Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

o Excluir casos según análisis (Exclude cases analysis by analysis). Esta opción excluye de
cada ANOVA los casos que tienen algún valor perdido en la variable factor o en la variable
dependiente que está siendo analizada.
o Excluir casos según lista (Exclude cases listwise). Esta opción excluye de todos los ANOVA
solicitados los casos con algún valor perdido en la variable factor o en cualquiera de las
variables seleccionadas en la lista Dependientes.

A continuación realizaremos un ejemplo para este procedimiento.

Para este ejemplo mantendremos aplicado el filtro “estado = 1”

- Accedemos a través del menú Analizar / Comparar medias / ANOVA de un factor...


(Analyze / Compare Means / One-Way ANOVA…)

- Trasladamos la variable “Ingreso total individual” [p47t] a la lista Dependientes


(Dependent List)

- Trasladamos la variable “Máximo nivel que cursa o cursó” [nivel] al cuadro Factor (Factor)

- Luego presionamos el botón Opciones (Options) y seleccionamos Descriptivos


(Descriptives).

39
Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

- Hacemos click en Continuar (Continue) y Luego en Aceptar (Ok) y observamos los


cuadros generados en el visor de resultados (Output).

Interpretación:

La Hipótesis nula (H0) que se plantea en esta prueba nos dice que “las medias de los
grupos comparados son iguales”. Es decir que toda la varianza de los ingresos es atribuible a
otros factores, independientes del nivel educativo, lo cual implica que los promedios poblacionales de
ingresos son iguales en todos los niveles educativos, y que la varianza entre los grupos es igual a
cero.

El primer cuadro nos muestra por defecto algunos estadísticos descriptivos relacionados con
esta prueba.
Descriptivos

INGRESO TOTAL INDIVIDUAL


Intervalo de confianza para
la media al 95%
Desviación Límite
N Media típica Error típico Límite inferior superior Mínimo Máximo
preescolar 10 167,50 96,875 30,634 98,20 236,80 10 300
primario 360 267,75 217,963 11,488 245,16 290,34 0 1800
nacional 128 294,34 275,218 24,326 246,20 342,47 0 1500
comercial 215 397,03 346,911 23,659 350,39 443,66 0 2000
normal 34 353,26 343,509 58,911 233,41 473,12 0 1500
técnica 135 451,21 422,449 36,359 379,30 523,12 0 3000
otra enseñanza media 26 308,96 262,121 51,406 203,09 414,83 0 1000
superior 96 568,48 473,454 48,322 472,55 664,41 0 2950
universitaria 307 769,22 761,574 43,465 683,69 854,75 0 5900
9 3 166,67 288,675 166,667 -550,44 883,78 0 500
Total 1314 451,51 502,200 13,854 424,33 478,69 0 5900

En el segundo cuadro nos encontramos con los resultados del Análisis de Varianza
propiamente dicho.

40
Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

ANOVA

INGRESO TOTAL INDIVIDUAL


Suma de Media
cuadrados gl cuadrática F Sig.
Inter-grupos 50165019,152 9 5573891,017 25,868 ,000
Intra-grupos 280979675,219 1304 215475,211
Total 331144694,371 1313

Se presenta la Suma de cuadrados (es decir la suma de las diferencias respecto a la media,
elevadas al cuadrado) entre los grupos (Inter-grupos, varianza explicada) y dentro de los grupos (o
varianza residual).

Los grados de libertad Inter-grupos (gl = cant. grupos – 1) e Intra-grupos (gl = N-1).

La Media cuadrática es el promedio de la suma de cuadrados obtenida como la suma de


cuadrados / grados de libertad.

El valor que obtenemos de F que nos permite verificar la aceptación o rechazo de la Hipótesis
nula (H0) se calcula como el cociente: media cuadrática Inter-grupos / media cuadrática Intra-grupos)

La Significación es la probabilidad asociada a ese valor de F. Siendo este valor igual a 0,000
determinamos el rechazo de la hipótesis nula, y se concluye que a nivel del universo de referencia el
nivel educativo es un factor significativo para explicar las diferencias de ingreso.

Nota: Para calcular qué porcentaje de la variable dependiente es explicada por la variable
independiente puede realizarse un cuadro como el siguiente:

Suma de cuadrados Porcentaje de la varianza


Inter-grupos(Varianza explicada) 50165019,152 15,1%
Intra-grupos(Varianza residual) 280979675,219 84,9%
Total 331144694,371 100%

En este cuadro se calcula qué porcentaje corresponde a la Varianza explicada y qué


porcentaje corresponde a la Varianza residual sobre el Total de la Varianza. De esta manera se
puede decir que un 15,1% de la variabilidad de ingresos es atribuible al nivel educativo. Resta
explicar el 84,9% con otras variables independientes.

2.2.5. Correlaciones Bivariadas

El procedimiento Correlaciones Bivariadas estudia la relación entre variables cuantitativas y


permite calcular el coeficiente de correlación de Pearson, la rho de Spearman y la tau-b de
Kendall con sus niveles de significación.

Las correlaciones miden cómo están relacionadas las variables o los órdenes de los rangos.
Antes de calcular un coeficiente de correlación, inspeccione los datos para detectar valores atípicos
(que pueden producir resultados equívocos ) y evidencias de una relación lineal.

Datos: Utilice variables cuantitativas simétricas para el coeficiente de correlación de Pearson y variables
cuantitativas o variables con categorías ordenadas para la rho de Spearman y la tau-b de Kendall.

41
Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

Supuestos: El coeficiente de correlación de Pearson asume que cada pareja de variables es normal bivariada.

Para utilizar el procedimiento Correlaciones Bivariadas accedemos a través del menú


Analizar / Correlaciones / Bivariadas... (Analyze / Correlate / Bivariate…) y nos encontramos con el
siguiente cuadro de diálogo:

La lista de variables contiene un listado con todas las variables numéricas del archivo de trabajo
(No figuran las variables de cadena). De este cuadro de diálogo es posible obtener varios
coeficientes de correlación y algunos estadísticos descriptivos básicos. Para ello:

 Trasladar a la lista Variables (Variables) la/s variable/s cuyo grado de relación se desea
estudiar. Es necesario trasladar el menos dos variables.

Coeficientes de correlación (Correlation coefficients).

 Los valores de los coeficientes de correlación varían entre -1 y 1.


 El signo del coeficiente indica la dirección de la relación.
 Su valor absoluto indica la intensidad. Los valores absolutos mayores indican que la
relación es más estrecha.

 Pearson. Medida de asociación lineal entre dos variables medidas en un nivel por intervalos
o de razón: Dos variables pueden estar perfectamente relacionadas, pero si la relación no es
lineal, el coeficiente de correlación de Pearson no será un estadístico adecuado para medir
su asociación.

 Tau b de Kendall. Medida no paramétrica de asociación para variables ordinales o de rangos


que tiene en consideración los empates. Un valor de -1 o +1 sólo se puede obtener a partir de
tablas cuadradas.

 Spearman. Versión no paramétrica del coeficiente de correlación de Pearson, que se basa


en los rangos de los datos en lugar de hacerlo en los valores reales. Resulta apropiada para
datos ordinales, o los de intervalo que no satisfagan el supuesto de normalidad.

Prueba de significación (Test of Significance).


42
Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

Junto con cada coeficiente de correlación se presenta la información necesaria para


contrastar la hipótesis nula de que el valor poblacional del coeficiente es cero.

o Bilateral (Two-tailed) Opción apropiada para cuando no existen expectativas sobre la


dirección de la relación. Indica la probabilidad de obtener coeficientes tan extremos
como el obtenido, y en cualquier dirección, cuando la hipótesis nula es cierta. Un nivel
de significación bilateral (de dos colas) contrasta una hipótesis nula en la que la
dirección del efecto no se especifica de antemano.

o Unilateral. (One-tailed). Opción apropiada para cuando existen expectativas sobre la


dirección de la relación. Indica la probabilidad de obtener coeficientes tan extremos
como el observado, y en la misma dirección, cuando la hipótesis nula es cierta.
Contrasta la hipótesis nula en la que se especifica con antelación la dirección del
efecto.

 Marcar las correlaciones significativas. Marca con un asterisco los coeficientes de correlación
significativos al nivel 0,05 y, con dos asteriscos, los significativos al nivel 0,01.

En el botón Opciones…(Options…) se permite controlar algunos aspectos de este análisis:

Estadísticos (Statistics). Si se ha elegido el coeficiente de correlación de Pearson, este


recuadro permite seleccionar una o más de las siguientes opciones:

 Medias y desviaciones típicas (Means and Standard deviations). Muestra, para cada
variable, la media aritmética, la desviación típica insesgada y el número de casos válidos

 Productos cruzados y covarianzas. (Cross-products deviations and covariances). Muestra,


para cada par de variables, el numerador del coeficiente de correlación de Pearson (es decir,
los productos cruzados de las desviaciones de cada puntuación respecto a su media) y ese
mismo numerador dividido por n-1 (es decir, la covarianza).

Valores perdidos (Missing values): Podemos optar entre dos formas diferentes de tratar los
casos con valores perdidos:
o Excluir casos según pareja (Exclude cases pairwise). Se excluyen del cálculo de cada
coeficiente de correlación los casos con valor perdido en alguna de las dos variables que se
están correlacionando.

43
Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

o Excluir casos según lista (Exclude cases listwise). Se excluyen del cálculo de todos los
coeficientes de correlación los casos con valor perdido en cualquiera de las variables
seleccionadas.

A continuación realizaremos un ejemplo para este procedimiento.

Atención: Para este ejemplo desactivamos todos los filtros que puedan estar activos.

- Accedemos a través del menú Analizar / Correlaciones / Bivariadas... (Analyze /


Correlate / Bivariate…)

- Trasladamos al cuadro Variables las siguientes variables del archivo de trabajo:

 AÑOS CUMPLIDOS [edad]


 INGRESO TOTAL INDIVIDUAL [p47t]
 MONTO DEL INGRESO TOTAL FAMILIAR [itf]
 MONTO DEL INGRESO PER CAPITA FAMILIAR [ipcf]
 CANTIDAD DE PERSONAS EN EL HOGAR [pob_tot]

- Hacemos click en Aceptar (Ok) y observamos los cuadros generados en el visor de


resultados (Output).

Interpretación:

La Hipótesis nula (H0) que se plantea en esta prueba es de independencia lineal y se puede
enunciar como “el coeficiente de correlación vale cero en la población”.

La Hipótesis alternativa a probar es correlacional del tipo “A mayor X, mayor Y” , “A mayor


X, menor Y”.

44
Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

La prueba en sí no considera a una variable como independiente y a otra como


dependiente, ya que no se trata de una prueba que evalúa la causalidad.

El siguiente cuadro ofrece la información referida al coeficiente de correlación de Pearson:


Correlaciones

CANTIDAD
MONTO DEL MONTO DEL DE
INGRESO INGRESO INGRESO PERSONAS
AÑOS TOTAL TOTAL PER CAPITA EN EL
CUMPLIDOS INDIVIDUAL FAMILIAR FAMILIAR HOGAR
AÑOS CUMPLIDOS Correlación de Pearson 1 ,346** ,037* ,185** -,369**
Sig. (bilateral) ,000 ,025 ,000 ,000
N 3821 3821 3585 3821 3821
INGRESO TOTAL Correlación de Pearson ,346** 1 ,469** ,583** -,186**
INDIVIDUAL Sig. (bilateral) ,000 ,000 ,000 ,000
N 3821 3821 3585 3821 3821
MONTO DEL INGRESO
Correlación de Pearson ,037* ,469** 1 ,804** ,037*
TOTAL FAMILIAR Sig. (bilateral) ,025 ,000 ,000 ,027
N
3585 3585 3585 3585 3585

MONTO DEL INGRESO Correlación de Pearson ,185** ,583** ,804** 1 -,304**


PER CAPITA FAMILIAR
Sig. (bilateral) ,000 ,000 ,000 ,000
N 3821 3821 3585 3821 3821
CANTIDAD DE Correlación de Pearson -,369** -,186** ,037* -,304** 1
PERSONAS EN EL Sig. (bilateral) ,000 ,000 ,027 ,000
HOGAR
N 3821 3821 3585 3821 3821
**. La correlación es significativa al nivel 0,01 (bilateral).
*. La correlación es significante al nivel 0,05 (bilateral).

Cada celda contiene tres valores referidos al cruce entre cada dos variables:

 Correlación de Pearson: El valor del coeficiente de correlación de Pearson.


 Sig. (Bilateral): El nivel crítico bilateral que corresponde a ese coeficiente.
 N: El número de casos válidos sobre el que se han efectuado los cálculos.

Rechazaremos la hipótesis nula de independencia (y concluiremos que existe relación lineal


significativa) cuando el nivel crítico (Sig.) sea menor que el nivel de significación establecido (si se
establece 0,05 entonces se tiene un 95% de confianza en que la correlación sea verdadera y 5% de
probabilidad de error. Si fuera menor que 0,01 tendríamos un 99% de confianza y un 1% de
probabilidad de error)

En nuestro ejemplo hemos resaltado con colores tres situaciones particulares:

 En verde una correlación significativa entre la variable “años cumplidos” y la variable


“Ingreso total individual”. Esta correlación tiene una intensidad de 0,346 en el rango de 0 a
1, es una relación directa, es decir, del tipo “A mayor edad, mayor ingreso” ya que su
signo es positivo, y es significativa al 99% ya que presenta un nivel crítico (Sig) igual a
0,000.

45
Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

 En rojo una correlación significativa entre la variable “años cumplidos” y la variable


“Cantidad de personas en el hogar”. Esta correlación tiene una intensidad de 0,369 en el
rango de 0 a 1, el signo negativo indica que es una relación inversa, es decir, del tipo “A
mayor edad del sujeto, menor cantidad de personas en su hogar”, y es significativa al 99%
ya que presenta un nivel crítico (Sig) igual a 0,000.

 En amarillo una correlación poco significativa entre la variable “Ingreso total familiar” y la
variable “Cantidad de personas en el hogar”. Esta correlación tiene una intensidad muy
baja de solo 0,037 en el rango de 0 a 1, el signo positivo indica que es una relación
directa, es decir, del tipo “A mayor cantidad de personas en el hogar, mayor Ingreso Total
familiar”, y es significativa al 95% ya que presenta un nivel crítico (Sig) igual a 0,027.
Concluimos que existe una correlación entre ambas variables pero de una intensidad tan
baja que la torna insignificante.

En el mismo cuadro se encuentran correlaciones con coeficientes más altos que los
resaltados, sin embargo, esto se debe a que una de estas variables ha sido calculada a partir de la
otra con la cual existe una correlación tan alta.

A continuación se presenta una clasificación del grado de correlación:

Correspondencia entre el grado de correlación y el valor de r


r menor que 0,200 Correlación leve, casi insignificante.
r de 0,200 a 0,400 Baja correlación, definida, pero baja.
r de 0,400 a 0,700 Correlación moderada, sustancial.
r de 0,700 a 0,900 Correlación marcada, alta.
r de 0,900 a 1,000 Correlación altísima, muy significativa.

Consideración Importante: elevando el coeficiente de Pearson al cuadrado (r2) se obtiene la


varianza de factores comunes, es decir, el porcentaje de la variación de una variable debido a la
variación de la otra.

46
Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

Bibliografía

 Briones, G. “Métodos y Técnicas de Investigación para las Ciencias Sociales”. México,


Limusa, 1982.

 Carrión Sánchez, Juan Javier “Manual de análisis de datos”. Madrid, Alianza Editorial, 1995.

 Hernández Sampieri R., Fernández Collado C., Baptista Lucio P. “Metodología de la


Investigación”. Colombia, McGrawHill, 1994.

 Galtung J “Teoría y Métodos de Investigación Social”, tomo I y II. Buenos Aires, Eudeba,
1973.

47

You might also like