Professional Documents
Culture Documents
4. El anlisis de correspondencias
4.1. Introduccin
4.2. Tabla de correspondencias
4.3. Dependencia e independencia en tablas de
contingencia: Anlisis clsico
4.4. Perfiles marginales y perfiles condicionales
4.5. El anlisis de correspondencias simple (ACS)
4.6. Anlisis de correspondencias mltiple (ACM)
4.7. Reglas para interpretar los resultados de un AC.
4.1. Introduccin
El anlisis de correspondencias (AC), como el AFE, es una tcnica descriptiva cuyo objetivo es la representacin
de tablas de contingencia en espacios de baja dimensin. En la clasificacin inicial que realizamos de las
tcnicas multivariantes se enmarcara dentro de las tcnicas de interdependencia. Matemticamente, es
equivalente al anlisis de componentes principales para variables cualitativas. A diferencia del AFE, identifica las
dimensiones bsicas mediante el anlisis de tablas de contingencia o correspondencias obtenidas del cruce de
las categoras de las variables cualitativas (escala nominal y ordinal) observadas en una muestra. Se distinguen,
habitualmente, dos tipos de AC: Anlisis de Correspondencias Simple (ACS) y Anlisis de Correspondencias
Mltiple (ACM). El ACS nos permite identificar las dimensiones bsicas subyacentes a la combinacin de
modalidades o niveles de dos variables cualitativas. El nmero mximo de dimensiones que se pueden
identificar en un ACS depende del nmero de categoras de cada variable. Concretamente, si una variable tiene I
categoras y la otra tiene J categoras, el nmero de dimensiones (o factores) es
min {I-1, J-1})
La generalizacin de est tcnica a cualquier nmero de variables es lo que se conoce como Anlisis
de Correspondencias Mltiple. En ACM el nmero mximo de dimensiones es:
Min {m, N-1}
donde m es el nmero de categoras de las variables sin datos perdidos menos el nmero de dichas variables y
N es el tamao de la muestra.
4.1. Introduccin
Existe alguna relacin entre la opinin de los padres acerca de ser hijo nico y el nivel
cultural
Existe alguna relacin entre tener o no estrs laboral y el sector al que se pertenece en la
universidad.
Est relacionada la opinin de los padres acerca del consumo de drogas blandas con el
hecho de tener hijos adolescentes y con el gnero.
Existe relacin entre ser fumador con el gnero, con la hipertensin y con la presencia de
enfermedades cardiovasculares.
4.1. Introduccin
En los tres primeros ejemplos se pregunta sobre la relacin entre dos variables cualitativas y el
AC se denomina Anlisis de Correspondencias Simple o Binario.
Los tres ltimos casos relacionan ms de dos variables cualitativas y el AC se denomina Anlisis
de Correspondencias Mltiple.
Para los objetivos didcticos que pretendemos con esta presentacin describiremos el Anlisis de
Correspondencias Simple (ACS) sabiendo que el ACM es una generalizacin del mismo.
En resumen: el AC hay que entenderlo como una tcnica descriptiva que nos va a permitir
elaborar un mapa perceptual de las categoras de las variables analizadas en un espacio de
pocas dimensiones (habitualmente 2). La mayor o menor distancia entre los puntos
representados reflejan relaciones de dependencia y semejanza ms o menos fuertes entre las
categoras representadas (Pea, 2002, Figueras, 2003).
4.1. Introduccin
Para los objetivos didcticos que se pretenden con esta presentacin vamos a describir los
elementos bsicos de un AC partiendo de un ejemplo sencillo: la relacin entre ideas de los
padres acerca de si ser hijo nico es bueno o malo y el nivel educativo.
La variable nivel cultural es una variable ordinal con tres niveles bajo, medio y alto.
158
31
Marginal
nivel
199
4
Medio
136
61
200
alto
111
81
201
Marginal opinin
Malo
Depende No sabe
405
173
13
600
Adems de las frecuencias para cada combinacin de las categoras de las variables en
la tabla aparecen varios totales:
Marginal de fila: ni.: son los totales de cada fila
Marginal de columna: n.j: son los totales de cada columna
Total: N es la suma de las frecuencias absolutas de todas las casillas
Marginal
fila
n11
n12
n13
n14
n1.
n21
n22
n23
n24
n2.
n31
n32
n33
n34
n3.
Marginal columna
n.1
n.2
n.3
n.4
Marginal
fila
f11
f12
f13
f14
f1.
f21
f22
f23
f24
f2.
f31
f32
f33
f34
f3.
Marginal columna
f.1
f.2
f.3
f.4
Dnde
f ij =
n ij
N
0
0
...
= 1
1
0
0
0
1
0
...
0
0
1
0
0
0
1
..
0
0
0
1
0
0
0
X c = ..
0
1
0
0
1
0
0
..
0
0
1
0
0
0
1
0
..
0
0
0
0
0
0
1
..
1
0
0
Xf es de orden 600x3. Las columnas corresponden a las tres categoras de la variable Nivel cultural
(colocada en las filas de la tabla). La matriz Xc es de orden 600x4. Las columnas de corresponden a
cuatro variables binarias (dicotmicas) definidas de las cuatro categoras de la variable opinin
(colocada en las columnas). Multiplicando XaXb (o bien XbXa) sumamos a todos los padres y madres
que tienen cada par de caractersticas y obtenemos la tabla de contingencia.
2 =
(n
nes )ij
2
ob
(n )
es ij
Donde nob son las frecuencias absolutas y nesp las esperadas bajo la Ho.
nesp =
ni . n. j
N
bueno
nivel
bajo
medio
alto
Total
Recuento
Frecuencia esperada
Residuos corregidos
Recuento
Frecuencia esperada
Residuos corregidos
Recuento
Frecuencia esperada
Residuos corregidos
Recuento
Frecuencia esperada
6
3,0
2,2
0
3,0
-2,1
3
3,0
,0
9
9,0
ideas
malo
depende
158
31
134,3
57,4
4,4
-5,0
136
61
135,0
57,7
,2
,6
111
81
135,7
58,0
-4,6
4,4
405
173
405,0
173,0
no sabe
4
4,3
-,2
3
4,3
-,8
6
4,4
1,0
13
13,0
Total
199
199,0
200
200,0
201
201,0
600
600,0
Pruebas de chi-cuadrado
Chi-cuadrado de Pearson
Razn de verosimilitud
Asociacin lineal por
lineal
N de casos vlidos
Valor
37,250a
41,047
27,371
6
6
Sig. asinttica
(bilateral)
,000
,000
,000
gl
600
P< en consecuencia
se rechaza la H0
1
El conjunto de marginales fila (f1., f2., f3.) corresponde a la columna promedio se le
denomina centro de gravedad o centroide de las columnas.
n.1/N=f.1
Perfil
Marginal
Columna
(9/600=0,02)
n.2/N=f.2
n.3/N=f.3
n.4/N=f.4
(405/600=0,67)
(173/600=0,29)
(13/600=0,02)
El conjunto de marginales columna (f.1, f.2, f.3 , f.4) corresponde a la fila promedio se le
denomina centro de gravedad o centroide de las filas.
Bueno
Malo
Depende
No sabe
Marginal
nivel
Bajo
6/199=0,03
158/199=0,79
31/199=0,16
4/199=0,02
Medio
136 /200=0,68
61/200=0,30
3/200=0,01
alto
3/201=0,01
111/201=0,55
81/201=0,40
6/201=0,30
Perfil
Marginal
Columna
0,01
0,67
0,29
0,02
fij
f i.
nij
ni.
Bueno
Malo
Depende
No sabe
Perfil
Marginal
deFila
Bajo
6/9=0,67
158/405=0,39
31/173=0,18
4/13=0,31
0,33
Medio
136/405=0,34
61/173=0,35
3/13=0,23
0,33
alto
3/9=0,33
111/405=0,27
81/173=0,47
6/13=0,46
0,33
fij
f. j
nij
n. j
Perfiles-fila
perfiles-columna
0,90
0,80
0,70
0,60
0,50
0,40
0,30
0,20
0,10
0,00
0,70
0,60
bajo
medio
alto
0,50
bueno
0,40
malo
0,30
depende
0,20
no sabe
0,10
0,00
bueno
malo
depende
no sabe
bajo
medio
alto
(2f , f ) =
1
j =1
(f
f2 j )
1j
f. j
D f = 0,16
0
0,08
0,32 0,08
0
De la misma manera podemos calcular la matriz de distancias P2 entre los perfiles columna. La
distancia entre las columna 1 y 2 de C viene dada por:
2
( c1 ,c2 )
=
i =1
(ci1 ci 2 )
f i.
0
,
58
0
0
,
25
0
,
16
Dc =
1,14 0,25
0
0,09
xij =
f ij f i . f j .
(f
i.
f j.
por la transpuesta de X. La matriz de inercia a partir de las filas viene dada por
SF=X X
I=
i, j
(f
ij
f i. f . j
f i. f . j
I=
i, j
(f
ij
f i. f . j
f i. f . j
B=XX
El nmero de dimensiones mximo que se pueden extraer en ACM es Min {m, N-1}
donde m es el nmero de categoras de las variables sin datos perdidos menos el
nmero de dichas variables y N es el tamao de la muestra.
Los cosenos al cuadrado permiten saber si un punto est bien representado sobre el
eje factorial. La calidad de la representacin de un punto sobre el eje ser tanto
mayor cuando ms prximo a 1 sea el coseno al cuadrado.