Professional Documents
Culture Documents
MULTIDIMENSIONALES.
Copyright Fco.J.Herrero y M.Cuesta (1998)
Dpto. de Psicologa
Universidad de Oviedo (Report:DPAM#98.1)
*RESUMEN*
El anlisis de correspondencias (AC) es una tcnica exploratoria, semejante a los
componentes principales, que determina la representacin multidimensional de la
asociacin entre las caractersticas expresadas en una tabla de contingencias.
Esta tcnica convierte las categoras de la tabla de frecuencias (filas y columnas) en
un menor nmero de dimensiones, indicando que porcentaje del valor 2 de la
asociacin puede ser explicado por las nuevas dimensiones.
En esta exposicin nos introduciremos en el uso de una de las tcnicas bsicas de
anlisis descriptivo sobre matrices bidimensionales as como su mecanizacin en SPSS.
Dedicndonos inicialmente a una introduccin breve de la utilizacin del Anlisis de
Correspondencias (AC) en su formulacin simple, para describir a continuacin de
forma paradigmtica algunos de los mecanismos bsicos de programacin del paquete
SPSS as como la interpretacin de los resultados obtenidos al manipular esta clase de
datos.
Claves: Proceso de Datos, multivariado, reduccin de datos, anlisis de
correspondencias, SPSS.
1.- Introduccin.
2.- Anlisis de Correspondencias: Las matrices multidimensionales.
3.- Un ejemplo detallado del anlisis de correspondencias.
3.1.- Un ejemplo en Psicometra.
3.2.- Un ejemplo en Psicologa Social.
4. Conclusin.
5. Referencias.
1.- Introduccin
El uso y reconocimiento de las metodologas cualitativas dentro la comunidad cientfica
abren una nueva etapa, teniendo en cuenta que las respuestas que podamos obtener
guardan una estrecha relacin con la aplicacin de los ordenadores al anlisis de datos
cualitativos (Batista y Martnez, 1989; Lebart, 1981; Richards y Richards, 1987) sobre
todo en anlisis complejos (Morineau, 1984), al facilitar el uso de procedimientos ms
intuitivos (Corroyer y Bert, 1990), adems de constituir una nueva metodologa dentro
del campo de las Ciencias del Comportamiento (Cornejo, 1988).
La estadstica aplicada, como herramienta bsica de investigacin, hace uso de tanto de
los conocimientos matemticos como de los conocimientos informticos (Foucart,
1984). Estos dos aspectos sern contemplados dentro de este tipo de anlisis de datos,
centrandonos en principio en los aspectos que convierten al AC en una tcnica
estadstica til dentro de la Psicologa a la hora de tratar la informacin de naturaleza
abierta, o cuando los objetivos son meramente exploratorios.
El AC es til en los trabajos exploratorios previos donde no existen hiptesis previas del
comportamiento de la poblacin, tanto en las vertientes correlacionales como
experimentales (Cornejo, 1988). Permite extraer relaciones de dependencia a partir de
variables categricas expresadas en tablas de contingencia. Estando de esta forma
relacionada con otros procedimientos estadsticos clsicos como son las formulaciones
del 2, o el coeficiente de concordancia de Kendall. Por otra parte, permite analizar la
estructura de esta asociacin (Snchez y Prez, 1990), en forma de proximidades que
nos ayudan a identificar las "causas" de la asociacin medida, acentuando la
representacin grfica como mtodo ptimo de obtencin de conclusiones (Lebart el al.,
1982). Es decir, como una herramienta bsica de informacin de tipo cualitativo.
Los orgenes del anlisis de correspondencias se remontan a la dcada de los 60
(Benzcri, 1982). Se desarrolla como tcnica estadstica aplicada de naturaleza
euclidiana (Foucart, 1984 y 1985) a la hora de analizar las tablas de contingencia, cuyo
objeto es obtener una representacin geomtrica de los datos que ayude a visualizar y
localizar las relaciones establecidas en grandes matrices de datos. Este nuevo enfoque
del anlisis de las tablas de contingencias, fuera del marco de la estadstica clsica
(Batista, 1984), ha derivado posteriormente a formulaciones nuevas. De este modo es
plausible utilizarlo en tablas lgicas completas o datos ordinales, y en general a
cualquier estructura (sujetos x variables) que contenga valores enteros positivos
(Cornejo, 1988; Foucart, 1985) y tambin a formas multivariantes, de forma tal que es
tomado en la actualidad como un caso particular del anlisis factorial. Concretamente,
pude ser tomado como una tcnica particular del anlisis de componentes principales,
iniciado en los trabajos de principios de siglo de Pearson y Hottelling, y desarrollado
sobre todo a partir de la dcada de los 60 gracias al uso de la informtica (Batista y
Martnez, 1989). Mientras la escuela anglosajona enfoca las aplicaciones sobre las
variables (estructuras) con el desarrollo del anlisis factorial, la escuela francesa se
desva hacia aplicaciones centradas en los individuos (anlisis de correspondencias).
2.- Anlisis de Correspondencias: Las matrices multidimensionales.
La estructura ms comn de las matrices multidimensionales, Tablas de individuos x
variables cuantitativas, pude representarse de la siguiente forma:
VARIABLES
Observa
ciones
X1 X2 X3 .. Xp
.
1 x11 x12 x13 .. x1p
.
2 x21 x22 x23
3 x31 x32 x33
x2p
..
.
..
.
.
.. .. ..
. . . .
.
x3p
..
.
..
xn1 xn2 xn3 . xnp
n
..
.
Tabla 1: Tabla de individuos por variables.
Compuestas por p variables y n individuos cada elemento o celda de la matriz suele
denotarse por medio de la expresin xij, que representa la medida obtenida por el sujeto i
en la variable j. Ejemplos de este tipo de matrices son las obtenidas cuando evaluamos
el rendimiento de una muestra sobre un conjunto de pruebas psicomtricas tradicionales
(ej: Tests de Raven, Wisc, Bohen, etc.).
Tablas de contingencia.
Matriz representativa de 2 caracteres o propiedades generales de tipo cualitativo,
expresado en forma de modalidades exhaustivas y exclusivas entre s. Por ejemplo,
veamos la siguiente tabla:
CARCTER 2
CARC
X1 X2 X3 ... Xp
TER 1 1 k
k12 k13 ... k1p
11
2 k21 k22 k23 ... k2p
3 k31 k32 k33 ... k3p
.
.
.
...
...
knp
...
3 ...
...
...
...
...
.
.
i ki1 ki2 ki3 ... Kij ... Kip ki.
.
...
...
...
.
n
...
...
.
kn1 kn2 kn3
...
...
...
Knj
...
Knp kn.
...
Fila/Column 1 2 Margina
a
l
20 11
31
21 8
29
60 3
3
93
Marginal
10 5
1 2
153
Sa
Sb
...
C+
.32
.28
...
C.03
.07
...
pero el peso excesivo de las columnas con f.j cuando contiene valores elevados sigue
distorsionando los resultados. La forma de controlar esta fuente de error es ponderando
la expresin anterior, formulacin conocida como distancia 2:
Los elementos que ayudan a determinar los planos factoriales se denominan activos,
debiendo cumplir el principio de conjunto homogneo (similar al anlisis factorial). Los
elementos que forman parte del anlisis "a posteriori", una vez determinados los ejes, se
denominan elementos ilustrativos y no es necesario el cumplimiento de homogeneidad.
Esta distincin es similar a la mantenida en los modelos lineales entre variables
exgenas y endgenas, siendo equiparables desde un punto de vista geomtrico, en la
medida que las variables activas (exgenas) crean un subespacio acotado donde
proyectar las variables ilustrativas (endgenas).
De todo lo dicho anteriormente, es posible aplicar dos mtodos complementarios de
anlisis:
- mtodos factoriales, basados en el lgebra lineal, donde las proximidades entre los
puntos indican asociacin estadstica (ej: Anlisis de correspondencias).
- mtodos de clasificacin, basados en la agrupacin de clases de puntos.
*NOTA:
1. Las caractersticas de este tipo de mtrica pueden ser contempladas de forma ms
detallada en Foucart (1984, pgina 42).
3.- Un ejemplo detallado del anlisis de correspondencias.
Veamos el siguiente ejemplo proveniente del campo de la Etologa:
Deseamos verificar si la "conducta de evitacin" se relaciona directamente con el nivel
de predacin a que son sometidos los alevines de la trucha comn en situacin
experimental. Para ello asignamos aleatoriamente los animales en cuatro grupos
experimentales (4 acuarios), de acuerdo a las siguientes condiciones:
- Nivel de predacin 0, sin predador.
- Nivel de predacin 1, el investigador introduce un predador (tortuga de agua
dulce) cada 9 das en el acuario durante 2 horas.
-Nivel 2, el investigador introduce una vez cada 5 das el predador 2 horas.
-Y nivel 3, el predador se introduce cada dos das 2 horas.
Transcurridas cuatro semanas, se determina la conducta de evitacin (ocultacin de los
individuos en la vegetacin del acuario) ante la presencia del investigador en los cuatro
acuarios durante media hora. Categorizando los resultados observados en cuatro niveles:
-No, no se observa la conducta de evitacin en los animales.
-Baja, menos del 25% del tiempo de observacin los animales presentan la
conducta.
-Media, entre el 25% y el 50% del tiempo los animales manifiestan la conducta.
-Alta, ms del 50% del tiempo presentan la conducta de evitacin.
Los resultados obtenidos aparecen reflejados en la siguiente tabla de contingencia:
1
2
3
4
3 3 1
3 3 2
3 40 3
3 4 4
4 1
4 2
4 2
4 20
esto, el siguiente paso ser definir las instrucciones en SPSS para el anlisis de
correspondencias:
Anacor
table=fila(1 4) by col(1 4)
/dimension=2
/normalization canonical
/print scores contributions
profiles
/plot joint ndim(all,max).
2
0
3
1
2
3 Margin
1 No
,909
,045
,034
011 1,000
2 Baja
,135
,797
,041
027 1,000
3 Media
,098
,078
,784
039 1,000
4 Alta
,156
,094
,125
625 1,000
-------- -------- --------------Margin
,408
,286
,204
102
The Columnprofiles:
1
2
3
4
0
1
2
3 Margin
1 No
,800
,057
,060
040 ,359
2 Baja
,100
,843
,060
080 ,302
3 Media
,050
,057
,800
080 ,208
4 Alta
,050
,043
,080
800 ,131
-------- -------- --------------Margin
1,000
1,000
1,000
1,000
Tabla 13:
,
,
,
,
,
,
,
,
En la tabla anterior se puede verificar como los patrones de los perfiles filas son
completamente distintos entre s y como ocurre lo mismo con los patrones de los
perfiles columna. Lo cual es un indicador claro que las modalidades estudiadas tanto en
el sentido de las filas y como de las columnas estn bastante bien diferenciadas. Ntese
como las celdas de la diagonal principal mantienen la carga mayor en las dos
dimensiones analizadas, lo cual como veremos ms adelante, es un indicador fuerte que
las respectivas modalidades ij estn fuertemente relacionadas entre s.
Dimension Singular Inertia
Proportion
Cumulative
Value
Explained
Proportion
1
,76994
,59280
,374
,374
2
,74714
,55822
,352
,727
3
,65823
,43327
,273
1,000
--------- ------------------Total
1,58429
1,000
1,000
Tabla 14:
En la solucin anterior aparece expresado cada una de las dimensiones de las soluciones
alcanzadas (no triviales), con la cantidad de la nube de inercia total explicada. De esta
forma si ponemos en relacin la inercia de cada dimensin con la inercia total
obtendremos la proporcin explicada de la informacin original (en forma bruta y
acumulada).
De este modo, podemos decir que la informacin de la tabla de contingencia se
explicara por la primera dimensin el 37,4%, mientras en la segunda la explicacin
sera del 35,2%, y en la tercera del 27,3%. Como con las dos dimensiones primeras
tendramos explicada el 72,7% de la informacin inicial, se hace plausible reducir la
dimensionalidad a dos nicos componentes.
Tambin es posible aplicar el estadstico conocido como la descomposicin aditiva de
. El mtodo consiste en obtener cada para cada una de las dimensiones, mediante la
aplicacin de la formula 16 y donde los grados de libertad se obtienen mediante la
expresin general: (n+p-2.i-1)
donde ...
n : nmero de filas
p: nmero de columnas
i : nmero de la dimensin
De esta forma, aplicado a la tabla anterior los para las distintas dimensiones son:
245 . 0,59280 = 145,236 (gl:4+4-2-.1-1=5).
245 . 0,55822 = 136,764 (gl:4+4-2.2-1=3).
245 . 0,43327 = 106,151 (gl:4+4-2.3-1=1).
que son inicialmente todos significativos, es decir, aplicando esta solucin nos
quedariamos con los tres componentes.
donde ...
i (valor propio) referencia la cantidad de inercia explicada por la dimensin.
As, podemos comprobar como el autovalor de la primera dimensin (0,76994)
es el resultado de operar:
Por otra parte, los autovalores (singular value), se pueden interpretar como la relacin
existente entre las puntuaciones fila y columna. De esta forma, el valor 0,76994
(dimensin 1), es la correlacin entre las puntuaciones fila y columna para la primera
dimensin, 0,74714 la correlacin de las puntuaciones anteriores para la segunda
dimensin, y 0,65823 la correlacin en la tercera dimensin.
Vamos a ver esto de una forma ms detallada. Las puntuaciones fila y columna de
nuestro ejemplo en las dos dimensiones alcanzadas son las siguientes:
Row Scores:
FILA
1
2
3
4
No
Baja
Media
Alta
Marginal
Profile
,359
,302
,208
,131
Column Scores:
COL
Marginal
Profile
1 0
,408
2 1
,286
3 2
,204
4 3
,102
Dim
1
1,007
-,014
-1,288
-,682
2
-,579
1,302
-,703
-,299
Dim
1
,916
-,075
-1,332
-,792
2
-,513
1,354
-,726
-,287
Vamos a verificarlo con el segundo autovalor (0,747). Para ello basta con efectuar el
siguiente procedimiento de recodificacin en SPSS:
recode fila (1=-0,579) (2=1,302) (3=-0,703)
(4=-0,299) into rfila/
col (1=-0,513) (2=1,354) (3=-0,726) (4=0,287) into rcol.
correlation rfila rcol.
Tabla 16: Recodificacin en SPSS.
Una vez ejecutado obtendremos la siguiente matriz de resultados:
1
2
3
4
0
1
2
3
Profile
,408
,286
,204
,102
1
,764
,003
,636
,122
2
,232
,985
,184
,016
,996
,988
,820
,138
ITEM
SUJETO IDF IDM IDA
S1
S2
100 100
90
S3
100
90
50
S4
90
70
40
S5
80
40
10
S6
70
30
que puede asumirse como una solucin con dos dimensiones de importancia desigual. Si
bien es posible quedarnos el primeros de los ejes (explican el 97,2% de la inercia), es
necesario el segundo para diferenciar claramente todos los tipos de tems estudiados.
De esta forma, la representacin grfica de la solucin alcanzada ser:
... pudiendo observarse como la primera dimensin diferencia entre los items faciles
(asociados a los sujetos 5 y 6) de los difciles (asociados a los sujetos 1 y 2). Mientras la
segunda dimensin discrimina entre los items de dificultad media (asociados a los
sujetos 3 y 4) frente al otro tipo de items.
3.2.- Un ejemplo en Psicologa Social.
Los datos siguientes representan la reparticin de los diputados franceses (Legislativas
1981) de acuerdo al partido poltico y su profesin:
... donde
Ind:
Com:
Agr:
Med:
Abo:
Opl:
Psu:
Pme:
Cas:
Ing:
Per:
Pba:
Tec:
Cad:
Emp:
Obr:
Otr:
Spr:
que puede asumirse como una solucin con tres dimensiones de importancia desigual.
Si bien es posible quedarnos con los dos primeros ejes (explican el 90,8% de la inercia),
es necesario el tercero para diferenciar claramente todos los partidos polticos
estudiados.
Si representasemos la solucin anterior en forma de grfica tridimensional,
obtendriamos como resultado:
Como se puede ver, la primera dimensin diferencia el partido comunista (PC) del resto
de los partidos. La segunda dimensin discrimina entre el partido socialista (PS) y los
partidos de la derecha. Por ltimo, la tercera dimensin diferencia a los partidos UDF y
RPR del resto de los partidos de la derecha.
4. Conclusin.
El anlisis de correspondencias, bsicamente es un doble anlisis de componentes
principales, uno realizado sobre las filas y el segundo sobre las columnas de la matriz de
partida. Es una herramienta orientada como ayuda en la generacin de teoras,
facilitando la eleccin previa de las caractersticas o modalidades ms significativas,
frente a otros criterios de tipo terico. Basandose la tcnica ms en las caractersticas de
anlisis generales e intuitivos frente a otro tipo de anlisis ms detallados.
Si bien los anlisis deben ser guiados por un marco terico previo (explcito), de hecho
las metodologas cualitativas, debido a su flexibilidad, pueden hacer que los elementos
subjetivos produzcan resultados sesgados. Precisamente el uso de ordenadores reduce
este problema en la medida que los distintos aspectos son obtenidos mediante una
operativizacin previa de los criterios utilizados, evitando un sobrevaloracin humana
de algunos elementos por parte del investigador y no apoyada en los datos.
El paquete SPSS se muestra as til en la fase de reduccin de datos, aun cuando
presenta problemas que debern ser solucionados en fases de desarrollo posterior del
software o bien utilizando tcnicas complementarias de programacin "ad hoc", como