You are on page 1of 33

ANÁLISIS UNIVARIANTE

Y BIVARIANTE
INDICE
1. INTRODUCCION................................................................2

2. DISTRIBUCIÓN DE FRECUENCIAS.......................................2

3. MEDIDAS DE TENDENCIA CENTRAL....................................3


3.1. LA MODA...........................................................................................4
3.2. LA MEDIANA......................................................................................4
3.3. LA MEDIA...........................................................................................4
4. MEDIDAS DE DISPERSIÓN.................................................5
4.1. EL RANGO..........................................................................................5
4.2. EL RECORRIDO INTERCUARTILICO.....................................................5
4.3. LA DESVIACIÓN TIPICA......................................................................6
4.4. EL COEFICIENTE DE VARIACIÓN.........................................................6

5. ANÁLISIS GRAFICO UNIVARIANTE...................................7

6. ANÁLISIS BIVARIANTE......................................................9
6.1. TABLAS DE CONTINGENCIA...............................................................9
6.2. TABULACION DE VALORES MEDIOS Y ANÁLISIS DE LA
VARIANZA......................................................................................13
6.3. COEFICIENTES DE CORRELACION....................................................15
7. ANÁLISIS GRAFICO BIVARIANTE.......................................16
8. EL ANÁLISIS UNIVARIANTE Y BIVARIANTE EN SPSS
........................................................................................ 18
8.1. ANALISIS UNIVARIANTE EN SPSS.....................................................18
8.2. EL ANALISIS BIVARIANTE EN SPSS...................................................23
8.3. ANALISIS DE CORRELACION EN SPSS..............................................26
8.4. ANALISIS GRAFICO EN SPSS............................................................26
® ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

1. INTRODUCCION
Antes de abordar la aplicación de cualquier técnica multivariante es
necesario que se realice una exploración previa de los datos mediante
análisis univariante y bivariante. De hecho, en una gran mayoría de los
informes que entregan los Institutos de investigación a sus clientes sólo
se utiliza este tipo de técnicas, siendo más utilizadas las técnicas
multivariantes en la investigación académica que en la práctica
empresarial.

En este tema vamos a realizar un breve recorrido por las técnicas


univariantes y bivariantes más utilizadas. Empezaremos con la
distribución de frecuencias, que es la primera medida que se observa
cuando se tienen datos secundarios o procedentes de una encuesta. El
siguiente apartado se dedicará a las medidas de tendencia central,
haciendo especial énfasis en la media aritmética que no sólo es una
medida descriptiva, sino también objeto de inferencia estadística. El
cuarto apartado se dedica a las medidas de dispersión. Posteriormente,
veremos el análisis gráfico univariante que suele ser una herramienta
muy útil cuando complementa al análisis univariante. El quinto y sexto
apartados se centran en la explicación de las técnicas y análisis
gráficos bivariantes más usados en investigación comercial.
Terminaremos el capítulo ilustrando cómo obtener estas medidas en
SPSS con varios ejemplos.

2. DISTRIBUCIÓN DE FRECUENCIAS
En la mayoría de los libros de estadística, la distribución de frecuencias
es uno de los primeros temas que se abordan puesto que proporciona
un método de organización de datos que se analizarán posteriormente
con otras técnicas. La distribución de frecuencias es una relación de
categorías o intervalos de medida y el número de medidas observado
en cada intervalo (frecuencia).

La frecuencia absoluta es el número de veces que se encuentran


mediciones para el intervalo, es decir, el número de veces que se repite
cada valor de la variable. La frecuencia relativa se calcula como el
cociente entre la frecuencia y el número total de datos. La utilidad de
la frecuencia relativa se debe a que permite comparaciones
homogéneas entre diferentes mediciones, al expresarlas en tanto por
ciento o tanto por uno. La frecuencia absoluta acumulada expresa el
número de datos que hay igual al intervalo o número considerado y los
inferiores a él. La frecuencia relativa acumulada es el resultado de
dividir cada frecuencia acumulada por el número total de datos. En los
programas de ordenador suele aparecer además el porcentaje de casos
válidos que es aquel en el que se han eliminado los datos perdidos.
® ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

En la tabla 2.1. se observa la distribución de frecuencias de una


muestra de 77 personas.
® ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

Tabla 2.1. Ejemplo de distribución de frecuencias

Edad Frecuencia Frecuencia Frecuencia


relativa Relativa
acumulada
17,0 3 3,9 3,9
18,0 2 2,6 6,5
19,0 2 2,6 9,1
20,0 5 6,5 15,6
21,0 2 2,6 18,2
22,0 4 5,2 23,4
23,0 6 7,8 31,2
24,0 4 5,2 36,4
25,0 7 9,1 45,5
26,0 6 7,8 53,2
27,0 8 10,4 63,6
28,0 8 10,4 74,0
29,0 9 11,7 85,7
30,0 1 1,3 87,0
31,0 1 1,3 88,3
32,0 1 1,3 89,6
34,0 1 1,3 90,9
35,0 1 1,3 92,2
37,0 1 1,3 93,5
39,0 2 2,6 96,1
43,0 1 1,3 97,4
47,0 1 1,3 98,7
51,0 1 1,3 100,0
Total 77 100,0

3. MEDIDAS DE TENDENCIA CENTRAL


Las tablas de frecuencias nos ofrecen toda la información disponible,
pero en muchas ocasiones el analista encuentra dificultades en
interpretar toda esa extensa información, por lo que intenta resumirla
en una serie de expresiones, denominadas medias de posición. En
concreto, estas medidas son de tendencia central, de dispersión, de
asimetría y de curtosis.

Las medidas de posición son valores sintéticos que fijan el


comportamiento global de una variable a partir de los datos
individuales recogidos y que presentan las siguientes características:

- Intervienen en su determinación todos y cada uno de los valores


de la distribución

- Siempre se pueden calcular

- Son únicos para cada distribución de frecuencias.

Con las medidas de tendencia central tratamos de saber cuál es el


® ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

centro de los datos. Normalmente, estas medidas describen el total de


los datos. Los valores de tendencia central que más se utilizan son la
moda, la mediana y la media. A su vez, esta última es uno de los
objetivos de la inferencia estadística.

El cálculo de medidas de tendencia central con datos agrupados ha


sido un área importante en la estadística descriptiva, debido a la
necesidad de simplificar los cálculos que se iban a realizar. No
obstante, con el uso extensivo de los programas estadísticos, su
importancia en la actualidad es casi nula, ya que no es necesario
agrupar los datos, introduciendo siempre las observaciones de cada
individuo u objeto para cada variable y no las tablas de frecuencias que
luego son calculadas por el programa. Por ello, en la explicación de las
medidas de posición vamos a centrarnos en los datos individuales.

3.1. LA MODA

La moda es el valor que se repite más veces, es decir, el valor con


mayor frecuencia en un conjunto de datos. Cuando sólo hay una moda,
nos encontramos con una distribución unimodal. Si hay dos valores con
máxima frecuencia, la distribución es bimodal.

En la distribución que hemos expuesto en la tabla 2.1, el valor con


mayor frecuencia (11.7) es 29, por tanto, esa es la moda de esa
distribución.

3.2. LA MEDIANA

Es el valor de la distribución que ocupa el lugar medio de todos los


valores ordenados de menor a mayor o al contrario. Por tanto, aquel
valor cuya frecuencia acumulada es el número total de datos entre dos.
La mediana divide los datos previamente ordenados en dos partes con
el mismo número de casos a cada lado. Una parte tendrá los datos con
menor valor que la mediana y la otra los datos que son mayores.

En el caso anterior (tabla 2.1), el valor que divide a los datos en dos es
28, puesto que tenemos 23 datos y este valor es el que ocupa el lugar
12, dejando 11 valores a cada lado.

Cuando tenemos un número par de dato, no es posible que un valor


divida la distribución en dos partes iguales. Por tanto, para el cálculo
de la mediana se tomará la media aritmética (medida que veremos en
el siguiente apartado) de los dos valores centrales.

3.3. LA MEDIA

La media aritmética se utiliza para variables cuya escala es, al menos,


de intervalos. Se expresa de la siguiente forma:
® ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

n
x   xi  ni / N
i 1

Siendo Xi el valor de la variable observada y n i el número de


observaciones tienen ese valor. En el ejemplo expuesto en la tabla 2.1.,
el cálculo de la media será el siguiente:

_
X =
(17*3+18*2+19*2+20*5+21*2+22*4+23*6+24*4+25*7+26*6+27*8+
28*8+29*9+30*1
+31*1+32*1+34*1+35*1+37*1+39*2+43*1+47*1+51*1)/77 = 26,48

Estas son las medidas de tendencia central más utilizadas, aunque


existen otras medidas como la media geométrica, que se utiliza para
calcular el valor central de variables acumulativas, porcentajes, tasas y
números índices y la media armónica, que se usa para promediar
velocidades y tiempos.

4. MEDIDAS DE DISPERSIÓN
Las medidas de dispersión nos ayudan a comprender si las medidas de
tendencia central son verdaderamente representativas de los datos que
hemos obtenido y analizado. Puede ser que tengamos dos
distribuciones cuya media, mediana y moda sea la misma, pero cuyos
datos sean muy diferentes. La simple utilización de las medidas de
tendencia central nos podría hacer creer que estamos ante la misma
distribución y, sin embargo, no es así.

Por ejemplo, tenemos estas dos distribuciones:

X1 = 4, 5, 6, 8, 8, 10, 11, 12

X2 = 1, 2, 5, 8, 8, 11, 14, 15

Para ambas, la media, la mediana y la moda es 8. No obstante, la


primera distribución está mucho más concentrada que la segunda. Por
ello, acompañaremos a la medida de tendencia central con una medida
de la dispersión de los datos.

Las medidas de dispersión más utilizadas son el rango, el recorrido


intercuartílico, la desviación típica y el coeficiente de variación.

4.1. EL RANGO

El rango es la medida de dispersión más fácil de calcular. Es la resta


entre el valor máximo y el valor mínimo de la distribución. Por ejemplo,
® ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

en el caso anterior, el rango para cada una de las distribuciones es:

R1 = 12-4 = 8

R2 = 15-1 = 14

Habiendo una mayor dispersión en la segunda variable.

En el ejemplo de la tabla 2.1. el rango es 34, diferencia entre 17 y 51.

Sin embargo, el rango es una medida bastante inestable porque sólo se


necesitan los valores extremos. Para superar esta inestabilidad, se
puede utilizar el rango modificado. Esta medida se utiliza eliminando
un determinado porcentaje de valores extremos. Los rangos
modificados más utilizados son el del 90% (se elimina un 5% de los
valores más bajos y un 5% de los más altos), el del 80% (se elimina un
10% de los valores más bajos y un 10% de los más altos) y el del 50%
(se elimina un 25% de los más altos y un 25% de los más bajos).

4.2. EL RECORRIDO INTERCUARTILICO

Los cuartiles son aquellos valores que dividen a la distribución en


cuatro partes con igual número de casos en cada una de ellas. El
primer cuartil toma el 25% de los casos por debajo de su lugar, el
segundo es la mediana y toma el 50% de los casos por debajo, el
tercero deja el 75% de los casos por debajo. Se puede aproximar su
lugar con las fórmulas 0,25*n+0,5 para el primer cuartil, 0,5*n+0,5
para el segundo y 0,75*n+0,5 para el tercero.

El recorrido intercuartílico se define como la diferencia entre el primer


y el tercer cuartil. A diferencia del rango, es una medida de dispersión
que se ve poco afectada por los valores extremos de la distribución.

4.3. LA DESVIACIÓN TIPICA

A diferencia del rango, considera todos los valores de la variable. Se


calcula como la raíz cuadrada del sumatorio de las diferencias al
cuadrado de cada valor de la variable y la media. En concreto es:

n
  (( x  x)²  n ) / N
i i

i 1

siendo:

xi = valor de la variable para el sujeto i

x = media aritmética

ni = frecuencia absoluta para el valor i


® ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

N = número total de datos

En el caso de la tabla 2.1. la desviación típica es 6,26.

También es frecuente, utilizar la varianza en vez de la desviación típica


que es simplemente su cuadrado.

4.4. EL COEFICIENTE DE VARIACIÓN

Las medidas de dispersión que hemos expuesto hasta ahora tienen un


problema: están íntimamente relacionadas con las unidades de medida.
Así si una variable se encuentra medida en unidades, las medidas de
dispersión serán diferentes que si se encuentran medidas en miles. Lo
mismo ocurre cuando tenemos un conjunto de variables que recogen
aspectos diferentes (renta, edad, metros). En estos casos, no podremos
decir qué variable tiene más dispersión.

El coeficiente de variación soluciona este problema, pues es una


medida relativa de dispersión que consiste en dividir la desviación
típica entre la media. Es adimensional y por tanto, cuanto mayor sea
más número de veces la desviación contendrá a la media y por tanto,
menor representatividad tendrá esta última medida.

En el caso de la tabla 2.1. el coeficiente de variación es de 0,23.

5. ANÁLISIS GRAFICO UNIVARIANTE


Aunque la distribución de frecuencias representa toda la información
disponible, siempre es útil traducirla a gráficos de modo que la
referencia visual sirva para explicar mejor el fenómeno o sea un punto
de partida para el análisis estadístico con técnicas que emplean dos o
más variables. Esta etapa puede parecer insignificante a primera vista,
pero es crucial en el análisis de datos, por si misma y como
introducción a cualquier análisis bivariante o multivariante. Representa
una primera aproximación al fenómeno que se va a analizar y facilita la
interpretación de resultados. Muchos investigadores tienden a obviar
esta etapa que, sin embargo, sirve para hacer una estimación óptima
de los resultados cuando posteriormente se aplica métodos más
sofisticados.

Con la inspección gráfica de los datos univariantes observamos la


forma de la distribución. Los tipos de gráficos son muy variados. Para
fenómenos cuantitativos se suelen utilizar las gráficas de barras, los
histogramas y los polígonos de frecuencias. Para fenómenos más
cualitativos, existen los diagramas sectoriales, cartogramas y
pictogramas, aunque estos últimos se utilizan muy poco, ya que la
mayoría de los programas de ordenador facilitan esta tarea,
representando sobre todo histogramas y gráficas de barras para ver la
® ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

forma de la distribución.

Los histogramas se utilizan para representar generalmente frecuencias


agrupadas. Tienen dos ejes perpendiculares. Normalmente, en el eje de
ordenadas (Y) se sitúan los valores de las frecuencias y en el de
abscisas (X), los límites del intervalo o marcas de clase. El histograma
está formado por una serie de rectángulos de igual base. Por el
contrario, la altura de los mismos es diferente, dependiendo del valor
de la frecuencia correspondiente. Como resultado de ello, mayores
valores de frecuencia significarán mayores áreas del rectángulo
asociado y menores valores de frecuencias se traducirán en áreas
menores.

Por ejemplo, para la distribución de frecuencias de la tabla 1 el


histograma es el siguiente (figura 2.1.):
FIGURA 2.1. HISTOGRAMA DE FRECUENCIAS

40

30

20

10

Desv. típ. = 6,26


Media = 26,5

0 N = 77,00
15,0 20,0 25,0 30,0 35,0 40,0 45,0 50,0

edad

En este gráfico se han agrupado las frecuencias de edad y además se


ha obtenido una curva para ver si la distribución se ajusta a una
normal.

Como se puede observar en el gráfico, la curva no se ajusta a una


normal. La normalidad es un requisito esencial en la aplicación de
muchas de las técnicas multivariantes. En general, no sólo se observa
mediante estos gráficos. Existen medidas univariantes, como la
asimetría y la curtosis y test de normalidad, disponibles en la mayoría
de programas estadísticos, que nos ayudarán a decidir si los valores de
la variable se distribuyen como una normal. Pero la inspección gráfica
del histograma nos da una idea previa sobre este supuesto.
® ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

La gráfica de barras es similar al histograma, aunque en este caso no


se pueden agrupar los datos. En la figura 2.2. se puede observar una
gráfica obtenida de la misma encuesta en la que se muestra la
preocupación por la apariencia que tienen los individuos a los que se
ha preguntado.

FIGURA 2.2. GRAFICA DE BARRAS

26

24

22

20
Frecuencia

18

16
poco regular bastante mucho

preocupación apariencia

El polígono de frecuencias o gráfico de líneas es otra de las formas


habituales de representar la distribución de frecuencias. El eje de
ordenadas representa las frecuencias relativas y el de abscisas
representa las marcas de clases. Cada punto del polígono de
frecuencias coincide con el punto medio del lado superior del
rectángulo correspondiente en el histograma. En la figura 2.3 tenemos
un polígono de frecuencias.
® ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

FIGURA 2.3. POLÍGONO DE FRECUENCIAS

26

24

22

20
Frecuencia

18

16
poco regular bastante mucho

preocupacin apariencia

Los pictogramas o diagramas pictóricos utilizan dibujos más o menos


artísticos para representar valores de las categorías relacionándolas
con el tamaño.

6. ANÁLISIS BIVARIANTE
Las técnicas de análisis bivariante expresan el grado de relación entre
dos variables. Pueden considerarse, en algunos supuestos, como casos
especiales o simplicados de algunas técnicas de análisis multivariante.
Entre las más utilizadas en investigación comercial, cabe destacar:

- Tablas de contingencia (o tabulación cruzada) y X²

- Tabulación de valores medios y análisis de varianza

- Correlación entre rangos de Spearman y de correlación lineal

6.1. TABLAS DE CONTINGENCIA

En cualquier investigación de mercados basada en la encuesta como


técnica de obtención de información y con variables cualitativas,
después de realizar un análisis univariante se procede a llevar a cabo
una serie de cruces entre variables con el fin de observar la relación
entre dichas variables. Normalmente, se suelen cruzar variables de
clasificación (sexo, edad, clase social, estado civil...) con variables
relacionadas con el tema general de la encuesta (consumo del
® ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

producto, lugares de compra, hábitos de compra). También se pueden


hacer cruces entre dos preguntas relacionadas con el tema de la
encuesta (consumo del producto y lugar de compra). La única
condición para realizar el cruce es que las variables sean no métricas
(categóricas) o cualitativas (con escalas nominal u ordinal).

Los cruces son tablas de doble entrada conocidas como tablas de


contingencia y suelen acompañarse de dos subíndices (rxc) que indican
el número de niveles de las variables analizadas (r filas y c columnas).
El caso más simple es el de las tablas 2x2, que es con el que
empezaremos explicando esta técnica.

En las distribuciones bidimensionales se consideran simultáneamente


dos caracteres de una misma muestra (por ejemplo, consumo de un
producto y sexo). Los pares que contienen los valores de las variables
junto con sus correspondientes frecuentas constituyen una tabla de
doble entrada (2x2). Nuestro interés consiste en que se realiza un
análisis simultáneo de ambos atributos o características y mediante su
distribución conjunta, tratamos de establecer si existe relación entre
ambas.

El esquema de una tabla de contingencia 2x2 es el siguiente:

TABLA 2.2. ESQUEMA DE UNA TABLA DE CONTINGENCIA

VARIABLE B

NIVEL 1 NIVEL 2 TOTAL


MARGINA
L

VARIABLE NIVEL 1 n11 n12 n1.


A
NIVEL 2 n21 n22 n2.

TOTAL n.1 n.2 TOTAL


MARGINA N
L

Siendo:

n11 = número de veces que se repite el nivel 1 de la variable A junto


con el nivel 1 de la variable B

n12 = número de veces que se repite el nivel 1 de la variable A junto


con el nivel 2 de la variable B

n21 = número de veces que se repite el nivel 2 de la variable A junto


con el nivel 1 de la variable B
® ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

n22 = número de veces que se repite el nivel 2 de la variable A junto


con el nivel 2 de la variable B

n1.= número de veces que se repite el nivel 1 de la variable A sin


importar el nivel de la variable B

n2.= número de veces que se repite el nivel 2 de la variable A sin


importar el nivel de la variable B

n.1= número de veces que se repite el nivel 1 de la variable B sin


importar el nivel de la variable A

n.2= número de veces que se repite el nivel 2 de la variable B sin


importar el nivel de la variable A

N= número total de observaciones

Generalmente es conveniente que la variable expresada como filas sea


considerada como la independiente y en columnas esté la que
consideremos dependiente.

La hipótesis nula asociada a las tablas de contingencia es de


independencia. Se dice que hay independencia entre dos variables
cuando los valores que toma una de ellas no se ven influidos por los
que adopte la otra. El contraste más utilizado para probar la
independencia entre dos variables cualitativas es el de la X², cuya
hipótesis nula es la independencia poblacional entre las variables. El
estadístico calculado se basa en la suma de los cuadrados de la
diferencia entre las frecuencias observadas y las esperadas (si las
variables fueran completamente independientes), dividida entre las
frecuencias esperadas:

n
 ²   (nij  Eij )² / Eij
i 1

siendo:

nij = frecuencia observada de la fila i y la columna j

Eij = frecuencia esperada de la fila i y la columna j

Las estimaciones de las frecuencias esperadas utilizan la estimación


máximo verosímil en la que la probabilidad se define como:

Pi. = ni./N

Por tanto, la independencia entre dos sucesos implica:

P(i,j) = P (i) * P (j) = (ni./N) * (n.j/N)

Como E(i,j) = N * P(i,j)


® ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

Entonces

E(i,j) = (ni.*n.j)/N

Respecto a la X² cuanto mayor sea la diferencia entre las frecuencias


observadas y las esperadas mayor será la frecuencia.

Si el valor del estadístico calculado supera al valor crítico (C) ,


obtenido de la búsqueda en unas tablas para unos grados de libertad
(r-1)*(c-1) y para un nivel de significación, se rechaza la hipótesis nula
y se dice que las variables no actúan de forma independiente. Si ocurre
lo contrario, no se rechaza la hipótesis nula y se dice que las variables
actúan de forma independiente.

Como ya explicamos en el tema anterior, gracias a los programas de


ordenador, obtenemos un valor de la probabilidad de rechazar la
hipótesis nula siendo cierta (p-valor). Si esta probabilidad es inferior al
nivel de significación fijado (1% o 5%) entonces se rechaza la hipótesis
nula.

Para poder calcular el estadístico, se debe cumplir una condición: no


debe existir ninguna frecuencia teórica inferior a 5 individuos. Si se da
ese caso, el resultado obtenido no se puede interpretar, es decir,
aunque obtuviéramos un estadístico calculado superior al valor crítico,
no estaríamos en condiciones de rechazar la hipótesis nula y no
podríamos llegar a ninguna conclusión.

Si no se cumple este requisito de que todas las frecuencias esperadas


sean superiores a cinco, en las tablas 2x2 se puede utilizar el test
exacto de Fischer, que utiliza la distribución de probabilidad exacta de
la configuración de las frecuencias observadas. En el caso de las tablas
con más filas y columnas, algunos investigadores permiten que si hay
menos de un 20% de celdas con frecuencia esperada menor que cinco,
se pueda interpretar la X².

Existen una serie de medias de asociación basadas en el estadístico X²


como el coeficiente de Pearson, el de contingencia y la V de Cramer.
Estas tres medidas y algunas otras, nos permiten ver el grado de
asociación entre las dos variables estudiadas1.

Vamos a exponer el cálculo de la X² con un ejemplo. Supongamos que


un investigador quiere saber si hay relación entre el consumo de un
producto light y el sexo. Para ello, entrevista a 200 personas y después
de recoger datos los resultados expuestos en una tabla 2x2 son los
siguientes:

TABLA 2.3. EJEMPLO DE UNA TABLA DE CONTINGENCIA

SEXO

1
REFERENCIA BIBLIOGRAFICA
® ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

HOMBRE MUJER TOTAL


MARGINA
CONSUM L
O DE
PRODUCT SI n11 = 20 n12 = 80 n1. = 100
O LIGHT
NO n21 = 80 n22 = 20 n2. = 100

TOTAL n.1 = 100 n.2 = 100 N = 200


MARGINA
L

Si el sexo no influyera en el consumo del producto, las proporciones de


consumidores y no consumidores serían del 50% independientemente
del sexo. Se quiere contrastar, con un nivel de significación del 5% la
hipótesis nula de independencia poblacional en el efecto del consumo
de un producto light sobre el sexo, siendo los resultados de la
frecuencia esperada (teórica) los siguientes:

TABLA 2.4. FRECUENCIAS TEORICAS

HOMBRE MUJER

SI E11 = 50 E12 = 50

NO E21 = 50 E22 = 50

Estas frecuencias se obtienen de multiplicar las frecuencias marginales


de cada fila y columna en la celda correspondiente y dividirlas por el
número total de datos. En concreto:

E11 = 100*100/200

Y lo mismo para todas las demás.

Para calcular el estadístico X² habrá que restar cada frecuencia


conjunta observada de la tabla 2.3. de la frecuencia esperada de la
tabla 2.4. en cada celda, elevarla al cuadrado y dividirla otra vez por la
frecuencia teórica. La suma de todas las celdas será el valor del
estadístico calculado. Para el ejemplo:

X²= (20-50)²/50+(80-50)²/50+(80-50)²/50+(20-50)²/50 = 72

El valor crítico de una distribución X² con un grado de libertada al 5%


es 3,84. Por tanto, al ser mayor el estadístico calculado que el de las
tablas, rechazamos la hipótesis nula y decimos que el sexo influye en el
consumo del producto light.
® ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

6.2. TABULACION DE VALORES MEDIOS Y ANÁLISIS DE LA


VARIANZA

El análisis de la varianza trata de estudiar la relación entre una


variable métrica y una variable no métrica. La prueba de hipótesis se
hace mediante la F de Snedecor. La hipótesis nula es que hay igualdad
de medias. Las variables que se suelen cruzar son las que provienen de
una encuesta en la que se valoran determinados atributos o
características del producto mediante escalas métricas y las de
clasificación u otras relacionadas con el tema general de la encuesta.

Antes de explicar cómo se realiza el cálculo del estadístico, vamos a


observar de forma gráfica cómo sería el análisis de varianza. En la
figura 2.4., representamos la media de la valoración del aroma de una
colonia respecto de las personas que eligen su propia marca de colonia
y las que no la eligen. Como se puede observar, las medias son bastante
diferentes. En el caso de la valoración del envase, sin embargo, no hay
grandes diferencias entre los dos grupos. Los círculos representan la
dispersión entre los grupos.

En el primer caso (figura 2.4.), las medias son diferentes para los que
eligen y para los que no eligen. En el segundo (figura 2.5.), no. Además,
en el primer caso, no hay demasiada dispersión entre las respuestas de
los individuos y en el segundo sí. El análisis de la varianza, nos
permitirá ver si esas medias son estadísticamente diferentes o no.
® ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

FIGURA 2.4. VALORACIÓN DEL AROMA FIGURA 2.5.


VALORACIÓN DEL ENVASE

Media = 8.44

Media = 6.63
Media = 3.29
Media = 3.24

Si No Elección marca Si No Elección marca

El análisis de la varianza se basa en que la dispersión total se


descompone en dispersión intra grupos y dispersión entre grupos o lo
que es lo mismo, diferencias de respuesta de los individuos con
respecto a su grupo y diferencias de respuesta entre los distintos
grupos. Las dispersiones se miden como suma de cuadrados de la
siguiente forma:

SC TOTAL = SC INTRA + SC ENTRE

n m n m m

  ( xij  x..)²   ( xij  x. j )²  k   (x.. x. j )²


i 1 j 1 i 1 j 1 j 1

siendo:
xij = valor de la observación i para el grupo j
x.. = media total
x. j = media del grupo j
k = número de grupos

La F de Snedecor se calculará como el cociente entre la SC entre y la


SC intra, divididas ambas por sus grados de libertad (el número de
niveles menos uno y el número de observaciones menos el número de
niveles, respectivamente). Cuanto mayor sea la F, mayor será la
diferencia entre grupos y la menor la diferencia intra grupos.

Si el valor del estadístico calculado supera al valor crítico (C) ,


obtenido de la búsqueda en unas tablas para unos grados de libertad
(k-1) y (n-1) y para un nivel de significación, se rechaza la hipótesis
nula y se dice que las variables tienen medias diferentes para cada
grupo. Si ocurre lo contrario, no se rechaza la hipótesis nula y se dice
que las variables tienen medias iguales en los dos grupos.
® ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

Como en el apartado anterior, con el programa de ordenador,


obtenemos un valor de la probabilidad de rechazar la hipótesis nula
siendo cierta (p-valor). Si esta probabilidad es inferior al nivel de
significación fijado (1% o 5%) entonces se rechaza la hipótesis nula.

El cálculo del estadístico se puede ver con un ejemplo. Vamos a


suponer que tenemos ocho datos de personas a las que preguntamos
cuánto valoran el aroma de una colonia (en una escala del 0 al 10) y si
eligen ellos su propia marca. De estas ocho personas, cuatro eligen
marca y cuatro no. Los resultados son:

TABLA 2.5. VALORACIÓN AROMA Y ELECCIÓN DE MARCA

ELECCIO VALORACIÓ
N N AROMA
1 SI 8
2 SI 9
3 SI 7
4 SI 8
5 NO 5
6 NO 4
7 NO 6
8 NO 4

La media total es de 6,375. Para los que eligen marca, la media es 8 y


para los que no la eligen 4,75. ¿son estadísticamente diferentes estas
medias?. Para probar la hipótesis de igualdad de medias, calculamos la
F que será:

SC entre = ((8-6,375)²+(4,75-6,375)²)*2 = 10,56

SC intra = (8-8)²+(9-8)²+(7-8)²+(8-8)²+(5-4,75)²+(4-4,75)²+(6-
4,75)²+(4-4,75)² = 4,75

F = (10,56/1)/(4,75/7) = 15,56

El estadístico de tablas para 1 y 7 grados de libertad y un nivel de


significación del 5% es de....BUSCAR ESTADÍSTICO. Como el
estadístico calculado es mayor que el teórico, rechazamos la hipótesis
nula de igualdad de medias.

6.3. COEFICIENTES DE CORRELACION

La correlación es la técnica estadística bivariante que se usa con mayor


frecuencia para resumir la fuerza de la asociación entre dos variables
métricas. En investigación comercial se suele utiliza para medir la
intensidad de la relación entre dos variables como, por ejemplo, ventas
® ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

y gasto publicitario, cuota de mercado y número de puntos de


distribución, percepciones de calidad y de precio, etc.

La correlación producto-momento es el estadístico que se suele


emplear en mayor medida cuando se trata de medir la fuerza de la
asociación entre dos variables métricas. Si denominamos X e Y a dichas
variables, la correlación lineal entre ambas indica el grado en el que la
variación de la variable X se relaciona con la variación de la variable Y.
Se conoce también con el nombre de coeficiente de correlación de
Pearson. Y se expresa como:

n n n
r   ( xi - x)( yi  y ) /  (x i - x) ²  ( yi  y )²
i 1 i 1 i 1

Cuando queremos calcular la fuerza de la relación entre dos variables


no métricas existen otras posibles medidas como la rho de Spearman ()
y la tau de Kendall (). Ambas medidas utilizan clasificaciones en vez de
valores absolutos de las variables. También varían entre -1 y 1. Como
regla general la  de Kendall se prefiere cuando hay un número
relativamente pequeño de categorías y existen muchos casos. Por el
contrario, el uso de la de Spearman rd más aconsejable cuando
tenemos un número relativamente alto de categorías (Malhotra, 1997).

7. ANÁLISIS GRAFICO BIVARIANTE


El análisis gráfico bivariante trata de ver las relaciones entre las
variables y las diferencias entre grupos de variables. Para ello
contamos con los gráficos de cajas y bigotes (representar las
diferencias entre dos o más grupos de variables) y con los gráficos XY
(comprobar la relación entre las variables). Son un complemento del
análisis de varianza y del análisis de correlación.

En cuanto a las diferencias entre dos o más variables métricas para


grupos distintos de individuos, necesitamos entender cómo se
distribuyen los valores para cada uno de ellos y si existen suficientes
diferencias como para tener significación estadística. Otro aspecto
importante es identificar los atípicos que pueden resultar sólo
aparentes cuando los valores se separan en grupos. El método que se
utiliza para analizar estas diferencias es el gráfico de cajas (box plot).
Los límites superior e inferior de la caja marcan los cuartiles superior e
inferior de los datos. Por tanto, la longitud de la caja es la distancia
entre el primer y el tercer cuartil, de forma que la caja contiene los
datos centrales de la distribución. La línea dentro de la caja señala la
posición de la mediana. Si esta cae cerca del final de la caja, se indica
la presencia de asimetría. Las líneas que se extienden desde cada caja
(llamadas bigotes) representan la distancia entre la mayor y la menor
de las observaciones que están a menos de un cuartil de la caja. Los
casos atípicos (marcados con asterisco) son observaciones que se
® ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

sitúan a más de 1 cuartil fuera de los límites de la caja.

En la figura 2.6 se muestra el gráfico de cajas para dos grupos de


individuos: los que eligen marca y los que no. Los dos grupos tienen un
conjunto de valores muy diferente, lo que indica que existen diferencias
entre los grupos de la valoración del aroma. Además existen en el
segundo grupo dos casos atípicos. El investigador debe examinar estas
observaciones y ver qué solución aplica.

FIGURA 2.6. DIAGRAMA DE CAJAS Y BIGOTES

12

10

72
21
a ro m a

63

0
N = 50 27

si no

eleccin marca

Para ver la relación entre dos variables, podemos utilizar los gráficos
de dispersión, de forma que el patrón de puntos representa la relación:
cuando los puntos se organizan a lo largo de una recta, tenemos una
relación lineal de correlación, mientras que un conjunto de puntos
curvados puede indicar relación no lineal o incluso puede haber
ausencia de relación cuando el conjunto de puntos es aleatorio.

Por ejemplo, el gráfico de dispersión de las variables (figura 2.7) indica


que los puntos están alineados alrededor de una línea recta, ya que
tienen una correlación elevada de 0,839.

FIGURA 2.7. GRAFICO DE DISPERSION ENTRE AROMA Y


CALIDAD
® ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

11

10

aroma 5

3
0 2 4 6 8 10 12

calidad

Sin embargo, la valoración del envase y del precio presentan una


ausencia casi total de correlación como evidencia de la amplia
dispersión de los puntos (correlación de 0,114), como se muestra en la
figura 2.8.

FIGURA 2.8.: GRAFICO DE DISPERSION ENTRE ENVASE Y


PRECIO

10

2
envase

0
0 2 4 6 8 10 12

precio
® ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

8. EL ANÁLISIS UNIVARIANTE Y BIVARIANTE EN


SPSS

8.1. ANALISIS UNIVARIANTE EN SPSS

El módulo de SPSS que permite analizar la información se encuentra


en el menú de análisis. Son varios los sub-menús que nos permitirán
aplicar las técnicas univariantes y bivariantes que hemos explicado
hasta ahora. La distribución de frecuencias se encuentra en el menú
Estadísticos Descriptivos, Frecuencias (Figura 2.9).

FIGURA 2.9. MODULO ESTADISTICOS DESCRIPTIVOS

Cuando se acepta el submenú de frecuencias, al menos se debe


introducir una variable para que sea analizada. Por defecto, la salida
nos dará las frecuencias absolutas, relativas, válidas y acumuladas. Si
queremos pedir otras medidas descriptivas, como las de posición
central, de dispersión o de deformación, tendremos que marcar
aquellas que queramos que aparezcan en la salida en la opción de
Estadísticos. También podemos pedir gráficos (histogramas, sectores o
gráficas de barras) en la opción Gráficos. Por último, podemos cambiar
la organización de la información (que aparezca de forma ascendente,
descendente; por valores o por frecuencias) en la opción Formato. En la
® ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

figura 2.10. se muestra cómo es el submenú frecuencias.

FIGURA 2.10. SUBMENU DE FRECUENCIAS

Para analizar las salidas del SPSS, vamos a utilizar una base de datos
que proviene de una de las encuestas realizadas en los años 90 por el
CIS. En esta base de datos, tiene 2491 individuos y 140 variables. Las
variables provienen de un amplio cuestionario que contiene preguntas
sobre posesión de bienes, actitudes y valores, así como variables socio-
demográficas que permiten clasificar a los sujetos entrevistados.

Vamos a analizar las salidas referentes a tres preguntas con diferentes


tipos de escala.

1. Para la escala nominal, estudiaremos las respuestas a la pregunta


¿tiene ordenador personal?, cuyas respuestas son Si o No.

2. Para la escala ordinal, estudiaremos las respuestas a la pregunta


® ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

“Cómo utiliza el ordenador personal”, cuyas respuestas van


desde 1 “Sin ninguna dificultad” hasta 5 “No sabe utilizarlo”.

3. Para la escala de intervalos, estudiaremos las respuestas a la


pregunta “Los ordenadores son difíciles de manejar”, cuyas
respuestas se determinan en una escala del 1 al 9 siendo 1
“totalmente de acuerdo” y 9 “totalmente en desacuerdo”.

En la tabla 2.6. se muestra la salida a la primera pregunta. Como de las


2491 personas encuestadas, 8 no contestan a esta pregunta, el
porcentaje válido es distinto a la frecuencia relativa que aparece en la
tercera columna. Del total de casos válidos, el 26,3% (654 personas
sobre 2483 casos válidos) posee ordenador.

TABLA 2.6. FRECUENCIAS DE LA PREGUNTA


“¿TIENE ORDENADOR PERSONAL?”
Ordenador personal

Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos S¡ 654 26,2 26,3 26,3
No 1829 73,4 73,7 100,0
Total 2483 99,7 100,0
Perdidos Sistema 8 ,3
Total 2491 100,0

En esta pregunta no nos interesa obtener una medida descriptiva. Si


puede ser interesante pedir un gráfico (de sectores o de barras). Los
gráficos de SPSS no son visualmente atractivos. Por ello, si lo que nos
interesa es hacer una inspección rápida se pueden solicitar estos
gráficos, pero si vamos a presentar un informe o un trabajo académico
es mucho mejor preparar gráficos en una hoja de cálculo o con un
programa de presentaciones. No obstante, en la figura 2.11.
presentamos el gráfico de sectores que se obtendría cuando se marcara
esta opción en SPSS.

FIGURA 2.11. GRAFICO DE SECTORES DE LA PREGUNTA


¿TIENE ORDENADOR PERSONAL?
® ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

Ordenador personal

Perdido

No

Casos ponderados por PESO

La siguiente pregunta, con escala ordinal, permite un análisis de


frecuencias y obtener ciertas medidas descriptivas, como la mediana y
la moda. Sin embargo, estas medidas no añaden gran información a la
inspección visual de las frecuencias. Estas se pueden observar en la
tabla 2.7. En este caso, los valores ausentes son 123 por lo que el
porcentaje válido cambia en mayor medida que en el ejemplo anterior.
El dato que más se puede destacar es que casi un 60% de la muestra
(el 58,9%) no sabe utilizar el ordenador, mientras que un 23,6% afirma
manejarlo sin dificultad.

TABLA 2.7. FRECUENCIAS DE LA PREGUNTA


“¿COMO UTILIZA EL ORDENADOR PERSONAL?”

Ordenador personal

Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos Sin dificultad 558 22,4 23,6 23,6
Con alguna dificultad 214 8,6 9,1 32,6
Con bastante dificultad 113 4,6 4,8 37,4
Con mucha dificultad 86 3,5 3,6 41,1
No sabe utilizarlo 1395 56,0 58,9 100,0
Total 2368 95,1 100,0
Perdidos Sistema 123 4,9
Total 2491 100,0
® ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

La última pregunta que vamos a exponer se basa en una escala de


intervalos de nueve posiciones. Con las variables métricas (escalas de
intervalos o de razón) no es necesario analizar las frecuencias, sobre
todo si tienen un rango muy amplio. Mucho más ilustrativo será el
análisis de medidas de tendencia central y de dispersión.

Para obtener estas medidas descriptivas, podemos pedir que no


aparezcan las frecuencias en el submenú que hemos ilustrado y marcar
la opción de descriptivos o podemos acudir a otro submenú dentro del
módulo de Estadísticos Descriptivos, concretamente Descriptivos
(figura 2.12). En este submenú, debemos introducir las variables con
escala de intervalo o de razón que queremos analizar. Por defecto, se
obtendrá la misma información que en el menú de frecuencias, es decir,
media, desviación típica, máximo y mínimo. Si queremos alguna otra
medida hay que marcarla en Opciones. También este submenú nos
permite crear variables estandarizadas (nuevas variables que se
denominan como las antiguas con una Z delante) que pueden ser objeto
de análisis posteriores.
® ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

FIGURA 2.12. SUBMENU DESCRIPTIVOS

La salida de SPSS muestra por defecto los resultados que aparecen en


la tabla 2.8. Según la escala utilizada (1-9), la media de las respuestas
se concentra en torno al acuerdo con esta afirmación, aunque hay una
elevada dispersión, ya que la desviación típica arroja un valor de 2,44.

TABLA 2.8. MEDIDAS DESCRIPTIVAS DE LA PREGUNTA


“LOS ORDENADORES SON DIFICILES DE MANEJAR”
Estadísticos descriptivos

N Mínimo Máximo Media Desv. típ.


Los ordenadores son
2489 1 9 2,58 2,448
dificiles de manejar
N válido (según lista) 2489
® ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

8.2. EL ANALISIS BIVARIANTE EN SPSS

La tabulación cruzada se analiza en SPSS en el submenú de tablas de


contingencia, que se encuentra también en el módulo de Estadísticos
Descriptivos. Habrá que introducir las variables que consideremos fila
(o que dependen de otra) y las variables que consideremos columna
(las que condicionan a las variables fila). En el ejemplo que
desarrollamos en el apartado 5, pondríamos el consumo del producto
light por filas y el sexo por columnas. También habrá que marcar en la
opción de Estadísticos la Chi-cuadrado y en la opción de Casillas el
porcentaje por columna. En la figura 2.13. se muestra la pantalla que
reproduce una tabulación para la base de datos de la encuesta del CIS
en que se trata de ver la relación de dependencia entre la posesión de
antena parabólica y el tipo de residencia en la que vive en el
encuestado.

FIGURA 2.13. TABULACION CRUZADA EN SPSS

La salida que proporciona el programa muestra en primer lugar las


tablas de contingencia (Tabla 2.9.). El porcentaje por columna nos
indica que parece haber un mayor porcentaje de usuarios de antenas
en los chalets y en los pisos. Para probar que realmente hay una
relación de dependencia acudimos al estadístico Chi-cuadrado (Tabla
2.10.). El valor de esta prueba es de 46,98. Si nos fijamos en su p-valor
y lo comparamos con un nivel de significación del 1%, podemos
® ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

rechazar la hipótesis nula de independencia y concluir que hay una


relación entre la posesión de antena y el tipo de residencia. Es
importante observar que no hay ninguna celda con frecuencia esperada
menor que 5. Si hubiera más de un 20% de celdas con frecuencias
esperadas menores que 5, no podríamos interpretar los resultados que
nos arrojara esta prueba.

TABLA 2.9. TABULACION CRUZADA TIPO DE RESIDENCIA Y


ANTENA PARABOLICA

Tabla de contingencia Antena parabolica de TV (personal o colectiva) * PISO

PISO
Casa
unifamiliar
(zona
Chalet o residencial
casa (nivel deprimida o
Piso medio y alto) rural) No consta Total
Antena parabolica de TV S¡ Recuento 210 29 27 3 269
(personal o colectiva) % de PISO 13,7% 12,9% 4,0% 6,1% 10,9%
No Recuento 1322 195 641 46 2204
% de PISO 86,3% 87,1% 96,0% 93,9% 89,1%
Total Recuento 1532 224 668 49 2473
% de PISO 100,0% 100,0% 100,0% 100,0% 100,0%

TABLA 2.10. ESTADISTICO CHI-CUADRADO

Pruebas de chi-cuadrado

Sig. asintótica
Valor gl (bilateral)
Chi-cuadrado de Pearson 46,986a 3 ,000
Razón de verosimilitud 55,357 3 ,000
Asociación lineal por
25,470 1 ,000
lineal
N de casos válidos 2473
a. 0 casillas (,0%) tienen una frecuencia esperada inferior a 5.
La frecuencia mínima esperada es 5,33.

En cuanto al análisis de la varianza, hay varias opciones en SPSS para


realizarlo, pero nosotros aconsejamos el módulo de Comparar medias,
Anova de un factor. Entre las opciones, habrá que marcar descriptivos
para que aparezcan las medias y desviaciones típicas. Para desarrollar
un ejemplo vamos a utilizar otra base de datos. En este caso la que
proviene de una encuesta a trabajadores sobre marketing interno.
Cruzaremos la categoría profesional con la opinión que tiene el
encuestado sobre el ambiente laboral. Los módulos y opciones se
pueden ver en las figuras 2.14. y 2.15.
® ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

FIGURA 2.14. MODULO DE ANOVA

FIGURA 2.15. ANOVA DE UN FACTOR. OPCIONES

Los resultados se muestran en las tablas 2.11. y 2.12. En la primera, se


observa que las medias parecen diferentes en función de la categoría
profesional, ya que las categorías más elevadas puntúan mejor el
ambiente laboral. La prueba de que las medias son estadísticamente
diferentes se basa en la F-Snedecor. El valor de este estadístico es de
® ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

8,47 y tiene un p-valor de 0.000, lo que nos indica que para un nivel de
significación del 1% podemos rechazar la hipótesis nula de igualdad de
medias.

TABLA 2.11. DESCRIPTIVOS DE AMBIENTE LABORAL


POR CATEGORIA PROFESIONAL
Descriptivos

AMBIENTE LABORAL
Intervalo de confianza para
la media al 95%
Desviación Límite
N Media típica Error típico Límite inferior superior Mínimo Máximo
1 501 3,80 ,963 ,043 3,72 3,89 1 5
2 106 3,68 1,091 ,106 3,47 3,89 1 5
3 259 4,06 ,887 ,055 3,95 4,17 1 5
4 51 4,25 ,683 ,095 4,06 4,44 2 5
Total 916 3,89 ,956 ,032 3,82 3,95 1 5

TABLA 2.12. ANALISIS DE VARIANZA (AMBIENTE LABORAL


POR CATEGORIA PROFESIONAL)
ANOVA

AMBIENTE LABORAL
Suma de Media
cuadrados gl cuadrática F Sig.
Inter-grupos 22,699 3 7,566 8,479 ,000
Intra-grupos 813,798 912 ,892
Total 836,496 915

8.3. ANALISIS DE CORRELACION EN SPSS

La correlación bivariada se analiza en SPSS en el submenú de Correlaciones (figura 2.16).


Concretamente, se debe elegir la opción Divariadas puesto que las otras opciones se refieren a las
correlaciones parciales o a las distancias. Por defecto se calcula la correlación de Pearson, aunque
también se pueden marcar los otros estadísticos que indican correlación para variables no métricas,
como la tau de Kendall o la rho de Spearman. Además, el programa permite obtener aquellos
coeficientes que tienen una correlación estadísticamente significativa.

En el caso de la base de datos que estamos analizando vamos a obtener las correlaciones
divariadas entre las preguntas que hemos estado analizando anteriormente referidas a los
ordenadores. Como se puede ver en la tabla 2.13., la salida es una matriz cuya diagonal principal es
la unidad. Las correlaciones entre las variables aparecen en los demás elementos de la matriz. En
el ejemplo, todas las variables tienen una correlación estadísticamente significativa al 99%.
® ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

FIGURA 2.15. MODULO DE CORRELACIONES BIVARIADAS

TABLA 2.13. SALIDA DE CORRELACIONES BIVARIADAS


® ESTOS APUNTES HAN SIDO ELABORADOS POR MONICA GOMEZ SUAREZ, PROF. TITULAR DE INVESTIGACION DE MERCADOS DE
LA UAM. QUEDA PROHIBIDA LA REPRODUCCION TOTAL O PARCIAL SIN PERMISO EXPRESO DE LA AUTORA

Correlaciones

Con los
ordenadores Los
se resuelven ordenadores
mas hacen que las
facilmente personas se
Los algunos comuniquen
ordenadores problemas de cada vez
son dificiles la vida menos entre
de manejar cotidiana si
Los ordenadores son Correlación de Pearson 1 ,412** ,409**
dificiles de manejar Sig. (bilateral) . ,000 ,000
N 2489 2486 2487
Con los ordenadores se Correlación de Pearson ,412** 1 ,579**
resuelven mas facilmente Sig. (bilateral)
algunos problemas de la ,000 . ,000
vida cotidiana N
2486 2486 2485
Los ordenadores hacen Correlación de Pearson ,409** ,579** 1
que las personas se Sig. (bilateral) ,000 ,000 .
comuniquen cada vez N
menos entre si
2487 2485 2487

**. La correlación es significativa al nivel 0,01 (bilateral).

8.4. ANALISIS GRAFICO EN SPSS

Los gráficos explicados en el apartado 7 (histogramas, gráficas de


barras, polígono de frecuencias, dispersión y cajas) se pueden
encontrar en la mayoría de los programas existentes. La opción del
menú que permite llevar a cabo todos estos análisis es la de Gráficos.
Dentro de ella, se debe elegir el tipo de plot que queremos para
representar los datos. En histogramas, hay que indicar la variable y si
se quiere representar la curva normal, marcar dicha opción. En
dispersión se deben escoger, al menos, las dos variables que serán
representadas. Y en cajas se debe indicar la variable de referencia
(categórica) para dividir entre grupos y la variable métrica que se
representará en la caja.

You might also like