You are on page 1of 48

ANEXOS N04

Actividad cuyo propósito es proponer a los participantes un trabajo grupal en


torno a un tópico específico, crea un entorno muy propicio para compartir sus
conocimientos con los demás compañeros de taller y fomentar el aprendizaje.

Taller Práctico sobre Estudio de


Tablas Cualitativas y de
Contingencia con el Análisis de
Correspondencias Relaciones No
Lineales
ANEXO 2 N04

Discretización
Análisis de
Correspondencias

INDICE
ABEXO 2 AFCS

a. Análisis Factorial de Correspondencias Simples con Xlstat 2


Proyección de elementos suplementarios 10
Prueba de Chi-cuadrado y prueba exacta de Fisher 11
b. Análisis Factorial de Correspondencias Simples (Binaria) con SPAD 16
c. Análisis Factorial de Correspondencias Simples con SPSS 31
d. Análisis Factorial de Correspondencias Simples con FactoMineR 42
e. Análisis Factorial de Correspondencias Simples con FactoClass 43

Césari 2018 Página 1


ANEXO 2 N04

Discretización
Análisis de
Correspondencias

ANEXO 2 AFCS
a. Análisis Factorial de Correspondencias Simples con Xlstat
El análisis de correspondencias simples se utiliza cuando queremos analizar dos variables
categóricas, que definen una tabla de contingencia. El interés recae en analizar las
asociaciones entre las categorías de ambas variables, y su proyección en un biplot. Utilice el
análisis factorial de correspondencias con el fin de estudiar la conexión entre dos conjuntos
de modalidades que constituyen las filas y columnas de una tabla de contingencia.
Una tabla de contingencia (TC) se obtiene al clasificar dos variables cualitativas. El
conjunto de las filas representan a las categorías de una variable y el conjunto de las
columnas, a las categorías de la otra variable. El valor de una celda representa al numero de
unidades estadísticas = individuos, que poseen simultáneamente las categorías de la fila y
de la columna que se cruzan. Al dividir la tabla sobre su total se obtiene la tabla de
frecuencias relativas asociada a la TC, esta representa la distribución conjunta de
probabilidad bivariada de la población en estudio, según las dos variables cualitativas que
dan origen a la tabla. La suma de las filas (marginal fila), representa la distribución de
probabilidad según la variable fila y la suma de las columnas (marginal columna), la
distribución de probabilidad asociada a la variable columna. La división de cada una de las
filas (respectivamente, columnas) por su marginal origina las distribuciones condicionales
o perfiles fila (columna). El análisis de correspondencias simples (ACS) permite la
descripción de una TC, cumpliendo con tres objetivos: 1) obtener y comparar una tipología
de los perfiles fila; 2) obtener y comparar una topología de los perfiles columnas y 3)
estudiar las asociaciones entre las dos variables.
En aplicaciones más complejas las filas y las columnas pueden estar estructuradas
mediante sendas particiones, definidas por otras variables cualitativas. En este documento
se utiliza como ejemplo una tabla sobre marcas de ropa, en donde se valora a cada marca
según su asociación con diferentes características como precio, calidad, prestigio,
exclusividad, elegancia, vanguardia y complementos.
Usaremos los datos (Tabla Contigencia - consumo Proteinas kg.xls), que representan las
estimaciones del consumo promedio en kg, de 9 fuentes diferentes de proteínas, por los
habitantes de 25 países, Greenacre (1984).

Césari 2018 Página 2


ANEXO 2 N04

Discretización
Análisis de
Correspondencias

Una vez que XLSTAT está abierto,


seleccionamos del menú:
XLSTAT/Análisis de los datos/Análisis
factorial de correspondencias, o haga clic
en el botón correspondiente de la barra
de herramientas "Análisis de los datos".

Aparece un cuadro de diálogo donde podemos ingresar la tabla de contingencia o crearla a


partir de una tabla de datos cualitativos, con el cruce de dos variables.
Indicamos como formato de los datos “Tabla cruzada” (por defecto) y con el mouse
seleccionamos de la hoja de MS Excel la tabla completa con etiquetas filas y columna
(primer fila y primer columna) sin incluir los totales marginales. Asegurarse que esté
activada la opción “Etiquetas incluidas”.

Césari 2018 Página 3


ANEXO 2 N04

Discretización
Análisis de
Correspondencias

Césari 2018 Página 4


ANEXO 2 N04

Discretización
Análisis de
Correspondencias

Los resultados son visualizados después de especificar algunas opciones relativas a los
gráficos. Están disponibles numerosos detalles, incluido la prueba del chi-cuadrado de
independencia de filas y columnas.
Las frecuencias observadas siempre serán distintas de las frecuencias esperadas. Sin embargo,
en estadística queremos saber si estas diferencias son suficientemente grandes como para
contradecir la hipótesis de que las filas son homogéneas. Es decir, queremos saber si es poco
probable que las discrepancias entre las frecuencias observadas y las frecuencias esperadas se
deban sólo al azar. Para responder a esta pregunta calcularemos una medida de discrepancia
entre las frecuencias observadas y las frecuencias esperadas. Concretamente, calcularemos
las diferencias entre cada par de frecuencias observadas y esperadas, las elevaremos al
cuadrado, las dividiremos por las frecuencias esperadas e iremos acumulando los resultados
hasta llegar a un valor final.

La calidad de la representación gráfica puede ser evaluada gracias al histograma o a la tabla


de los valores propios. Si la suma de los dos primeros (o de los n primeros) valores propios
representan una gran parte de la totalidad de la varianza, la calidad de los gráficos es
buena.

En nuestro caso esta calidad es buena en la medida en que los dos primeros valores propios
totalizan el 74,28 % de la varianza total.
Inercias. Dado que la suma de las masas es 1, podemos decir que la inercia es la media
ponderada de los cuadrados de las distancias χ2 entre los perfiles fila y su perfil media. Por
tanto, la inercia será alta cuando los perfiles fila presenten grandes desviaciones con
relación a su media, y será baja cuando éstos se hallen cerca de la media. Cuanto mayor sea
la inercia, más cerca se hallarán los perfiles fila de los vértices columna. Es decir, mayor
será la asociación entre las filas y las columnas.
Podríamos comprobar que el resultado del cálculo de la inercia, sería idéntico si lo
calculáramos a partir de los perfiles columna. Es decir, la inercia total de la tabla, sería igual
a la media ponderada de los cuadrados de las distancias χ2 entre los perfiles columna y su
perfil media, ponderadas ahora con las masas de las columnas.
La descomposición de la inercia en sumas de componentes positivos nos permite llevar a
cabo un «análisis de inercia» útil para la interpretación de los resultados del AC.
Césari 2018 Página 5
ANEXO 2 N04

Discretización
Análisis de
Correspondencias

Para facilitar la interpretación expresamos los componentes de la inercia con relación a la


inercia total; se pueden expresar como porcentajes o, mejor, en tantos por mil (‰).
En la tabla mostramos las inercias de las filas y de las columnas de los datos, Primero como
«valores absolutos» y luego en forma relativa. Podemos ver que Yogoslavia, Bulgaria y
Albania, en ese orden son los países que más contribuyen a la inercia, mientras que
Cereales, Pescado, Leche y cerdo son los alimentos que más contribuyen a la inercia.

Césari 2018 Página 6


ANEXO 2 N04

Discretización
Análisis de
Correspondencias

Mostramos las contribuciones de las filas y de las columnas a la primera inercia principal,
calculadas a partir de las coordenadas principales de las filas y columnas.
También podemos expresar las contribuciones a la inercia en términos relativos con
relación a la inercia de las filas, como proporciones, en porcentajes o en tantos por mil.
Estos resultados nos informarán sobre la inercia de las filas explicada por cada eje. Se trata
de una miniversión de lo que hacíamos al determinar el porcentaje de inercia total que
explicaba cada eje.

Podemos interpretar los cosenos de los ángulos entre vectores como coeficientes de
correlación. Por tanto, las contribuciones relativas son correlaciones al cuadrado

Césari 2018 Página 7


ANEXO 2 N04

Discretización
Análisis de
Correspondencias

Gracias al teorema de Pitágoras, podemos sumar los cuadrados de los cosenos de los
ángulos formados por un perfil y cada uno de los ejes, para obtener una suma de cosenos al
cuadrado que relaciona el perfil con el subespacio definido por estos ejes. Así por ejemplo,
podemos calcular el ángulo entre un perfil fila y el plano principal a partir de la suma de las
contribuciones relativas de los dos ejes principales.
Interpretamos estas sumas como una
medida de la calidad de la representación
de los perfiles en los mapas
bidimensionales, de la misma manera que
la suma de los dos primeros porcentajes
de inercia nos da una medida de la
calidad global (o media) de la
representación. Además, podemos ver
qué perfiles están bien representados y
cuáles no.
Algunos perfiles no estarán bien
representados por hallarse más en el
tercer y cuarto ejes que en los dos
primeros.

Césari 2018 Página 8


ANEXO 2 N04

Discretización
Análisis de
Correspondencias

Cuando la calidad del análisis es buena el plano permite interpretar fácilmente los datos.
Los criterios de interpretación del Análisis de Correspondencias se basan en los principios
siguientes:
 La proximidad de perfiles fila de la variable X revela un comportamiento similar de
esas categorías respecto a la otra variable Y (y a la inversa).
 La presencia de perfiles fila de la variable X, radicalmente opuestos a perfiles de Y,
puede ser también interpretada como relación inversa entre ellos.
 Los perfiles situados en las proximidades del centroide de la representación son los
que no expresan relación alguna.
 La proximidad de un perfil a un cierto eje expresa su mayor contribución en su
definición. Esta contribución aumenta cuanto más alejado se encuentre del centroide
de la representación.
Es decir, las asociaciones no serán más que la cuantificación numérica de la relación
existente entre categorías fila y columna:
 Mayor alejamiento del centroide y menor ángulo → MAYOR ASOCIACIÓN
 Acercamiento al centroide y aumento del ángulo → MENOR ASOCIACIÓN
 Puntos opuestos (π/2 < ángulo < 3π/2) → ASOCIACIÓN NEGATIVA
 La variabilidad explicada por cada eje es proporcional al valor singular que lo define.
En un ACS las modalidades aparecen repartidas a ambos lados de los ejes, lo que conlleva a
la lectura de las contraposiciones más importantes entre modalidades.
En una tabla de contingencia de gran tamaño se puede buscar las modalidades más
importantes sobre cada eje recurriendo a las denominadas contribuciones absolutas.
Las proyecciones sobre los ejes y sobre los planos factoriales serán muy ‘buenas’ para
algunos puntos pero también pueden ser de ‘mala’ calidad para otros puntos. Se requiere
entonces de un índice que ponga en evidencia este hecho, que se denomina coseno
cuadrado o contribución relativa.

Césari 2018 Página 9


ANEXO 2 N04

Discretización
Análisis de
Correspondencias

Relación entre 2 fila o entre 2 columna Las filas B y C


son
diametralmente
opuestas; es
decir, hay una
fuerte
correlación
negativa. La fila
C está
enfrentada a
Trace una línea desde cada punto fila o columna al origen (centro) del mapa, y mida las filas A y B,
el ángulo que queda entre ambas. Un ángulo de 0º representa una correlación las cuales están
positiva del 100%, uno de 180º muestra una correlación negativa del 100%, y uno posicionadas en
de 90º (o 270º) significa que no hay correlación entre ellas la misma parte
del mapa.

Relación entre fila y columna La relación que


existe entre la
fila A y las
columnas X, Y
y Z está
determinada
por el punto,
de la línea la
fila, en el que
interseccionan
las líneas de las
columnas.
Arriba la fila A
Trace una línea desde la fila a través del origen, y después trace líneas están asociado
perpendiculares desde cada columna a la línea de la fila (en ángulo de 90º). con la columna
Hablaremos de correlaciones positivas cuando la línea de la columna intersecciona Z y opuesto a
en el mismo lado del mapa que la fila (parte que queda entre el origen y la fila) y alejado,
las negativas cuando están en el lado contrario de la línea (parte que queda entre el diferente con
origen y el lado opuesto a la fila). las columnas X
eY

Proyección de elementos suplementarios


Con frecuencia ocurre que tenemos filas y/o columnas de datos que no hemos considerado
inicialmente, pero que, sin embargo, nos pueden ser útiles para interpretar características
que hayamos descubierto en los datos originales. Siempre que tenga sentido comparar los
perfiles de estas nuevas filas (o columnas) con los de las filas (o columnas) de la matriz de
datos originales que configuraron el mapa, tendremos la posibilidad de añadirlos en el
mapa. Llamamos puntos adicionales o suplementarios a las filas o columnas que añadimos
en un mapa preexistente.
Se hace mediante las relaciones cuasi-bibaricéntricas y por lo tanto se interpreta de la
misma forma, pero debe hacerse por cada modalidad ilustrativa con respecto a las
modalidades activas. No es apropiado interpretar modalidades ilustrativas entre sí pues no
han participado en la construcción de los ejes.
Para introducir filas o columnas suplementarias o ilustrativas con el Xlstat, en la pestaña de
Opciones debemos activar el Análisis avanzado “Datos suplementarios” e ingresar el
número de filas columnas a considerar de la tabla seleccionada como suplementario.

Césari 2018 Página 10


ANEXO 2 N04

Discretización
Análisis de
Correspondencias

Prueba de Chi-cuadrado y prueba exacta de Fisher


Se utiliza una tabla de contingencia anterior. Pero sin modificar su estructura e información
vamos a transformarla a una tabla equivalente pero con valores de 0 a 100 respecto al
mayor valor de la tabla. Esto mejora los niveles de significación y equiparara los resultados
de la prueba que se utilice para validar las asociaciones filas/columnas.

Conceptualmente, la prueba de Chi-cuadrado y la prueba exacta de Fisher desafían la


misma hipótesis nula y, por lo tanto, pueden responder a la misma pregunta.
H0 (hipótesis nula): Las dos variables cualitativas son independientes.
En nuestro ejemplo, esto significaría que la presencia / ausencia de los gusanos es
independiente de la variedad de plátano. En otras palabras, la relación de los plátanos
habitados es la misma en las tres variedades.
A continuación se muestra una proposición de una hipótesis alternativa (dos colas):
Ha (hipótesis alternativa): Las dos variables cualitativas dependen una de la otra.
En nuestro ejemplo, esto significaría que la presencia / ausencia de larvas depende de la
variedad de plátano. En otras palabras, al menos una de las tres variedades de plátano
tiene una ratio de presencia de gusanos que es diferente de la ratio de las otras
variedades.
La diferencia entre las dos pruebas radica en la forma en que se calcula el valor de p.
La prueba de Chi-cuadrado se basa en el cálculo de un estadístico chi-cuadrado que refleja
la distancia entre los datos reales y los datos teóricos si la hipótesis nula fuera verdad (es
decir, las frecuencias teóricas con las mismas ratios de plátanos habitados dentro de cada
variedad).

Césari 2018 Página 11


ANEXO 2 N04

Discretización
Análisis de
Correspondencias

Este estadístico se utiliza en una distribución teórica Chi-cuadrado para generar un valor
de p. Cuanto mayor sea el estadístico chi-cuadrado, menor será el valor de p. Observe que
XLSTAT permite el cálculo de las frecuencias teóricas (véanse las secciones siguientes).
La prueba exacta de Fisher calcula la probabilidad de tener los datos observados
(utilizando la distribución hipergeométrica), así como las probabilidades de conseguir todos
los conjuntos de datos más extremos posibles bajo la hipótesis nula.
Estas probabilidades se utilizan para calcular el valor p de la prueba exacta de Fisher.
Cuando las frecuencias teóricas incluyen frecuencias que son inferiores a 5, o cuando las
sumas marginales del conjunto de datos (sumas por fila o por columna) son muy
desiguales, es mejor confiar en la prueba exacta de Fisher.

Una vez abierto XLSTAT-Pro,


vaya a XLSTAT / Pruebas de
correlación/asociación / Pruebas
para tablas de contingencia.

En la pestaña General, asegúrese de que está seleccionado el formato de datos Tabla de


contingencia, a continuación, seleccione los datos en el campo Tabla de contingencia.

En el caso en que sus datos estén dispuestos en forma vertical (individuos en filas y
variables en columnas), active la opción de formato de datos Variables cualitativas.

Césari 2018 Página 12


ANEXO 2 N04

Discretización
Análisis de
Correspondencias

En la pestaña Opciones,
active las
opciones Prueba de Chi-
cuadrado y Prueba exacta
de Fisher.

En la pestaña Resultados,
active todas las opciones,
sobre todo Frecuencias
teóricas, así
como significación por
celda.

Haga clic en el botón OK para iniciar los cálculos. Los resultados aparecen en una nueva
hoja.

En primer lugar, XLSTAT muestra los resultados asociados a la prueba de Chi-cuadrado. El


valor de p (<0.0001) es menor que el nivel de significación de 0.05. Por lo tanto, se rechaza
la hipótesis nula de que los países y las carnes son independientes, con un riesgo del 0.01%
de equivocarse.

Césari 2018 Página 13


ANEXO 2 N04

Discretización
Análisis de
Correspondencias

A continuación, la tabla de frecuencias teóricas muestra las frecuencias que se habrían


obtenido si la hipótesis nula fuera verdad.
Si una de las frecuencias es inferior a 5, no confiar en el resultado de la prueba de Chi-
cuadrado, y reportar exclusivamente la prueba exacta de Fisher.

La tabla de significación por celda muestra de manera simbólica los resultados por celda de
la prueba exacta de Fisher.

Césari 2018 Página 14


ANEXO 2 N04

Discretización
Análisis de
Correspondencias

Test exacto de Fisher en R


Ejemplo: Se quiere estudiar si la reacción alérgica a un compuesto y una determinada mutación
en un gen están relacionados. Para ello se realiza un test alérgico sobre un grupo de
individuos seleccionados al azar y se genotipo el estado del gen de interés ¿Existe un
diferencia significativa en la incidencia de la mutación entre los alérgicos y no alérgicos?
datos <- data.frame(sujeto = c("No alérgico", "No alérgico", "No alérgico",
"No alérgico", "alérgico", "No alérgico", "No alérgico", "alérgico" ,
"alérgico", "No alérgico", "alérgico", "alérgico" , "alérgico", "alérgico",
"alérgico", "No alérgico", "No alérgico", "No alérgico", "No alérgico",
"alérgico", "alérgico" , "alérgico" , "alérgico", "No alérgico", "alérgico",
"No alérgico", "No alérgico", "alérgico", "alérgico", "alérgico" ),
mutacion = c(FALSE, FALSE, FALSE, FALSE, TRUE, FALSE, FALSE, FALSE, TRUE,
TRUE, TRUE, TRUE, TRUE, TRUE, FALSE, FALSE, TRUE, FALSE, TRUE, FALSE,
TRUE, FALSE, FALSE, FALSE, TRUE, FALSE, FALSE, TRUE, FALSE, TRUE))
head(datos)
## sujeto mutacion
## 1 No alérgico FALSE
## 2 No alérgico FALSE
## 3 No alérgico FALSE
## 4 No alérgico FALSE
## 5 alérgico TRUE
## 6 No alérgico FALSE
El test de Fisher trabaja con frecuencia de eventos, por lo tanto con tablas de contingencia en las
que se sumariza el número de eventos de cada tipo.
tabla <- table(datos$sujeto, datos$mutacion, dnn = c("Sujeto", "Estado gen"))
tabla
## Estado gen
## Sujeto FALSE TRUE
## alérgico 6 10
## No alérgico 11 3
Test de Fisher
fisher.test(x = tabla, alternative = "two.sided" )
##
## Fisher's Exact Test for Count Data
##
## data: tabla
## p-value = 0.03293
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
## 0.02195148 1.03427479
## sample estimates:
## odds ratio
## 0.1749975
Fuerza de asociación
library(vcd)
## Loading required package: grid
assocstats(x = tabla)
## X^2 df P(> X^2)
## Likelihood Ratio 5.3356 1 0.020894
## Pearson 5.1293 1 0.023525
## Phi-Coefficient : 0.413
## Contingency Coeff.: 0.382
## Cramer's V : 0.413
En este ejemplo no se satisface la condición de frecuencias marginales fijas y por lo tanto el test de
Fisher no es exacto. Aun así, hay evidencias para rechazar la 𝐻 y considerar que las dos variables sí
están relacionadas. El tamaño de la fuerza de asociación (tamaño de efecto) cuantificado por phi o
Cramer's V es mediano.

Césari 2018 Página 15


ANEXO 2 N04

Discretización
Análisis de
Correspondencias

b. Análisis Factorial de Correspondencias Simples (Binaria) con SPAD


Correspondencias simples ACS
Para realizar un ACS recurriremos al asistente de programas predefinidos de SPAD en el
menú Template. Elegiremos en el grupo de cadenas predefinidas la opción Factorial
Analysis que da lugar a las diferentes alternativas de procedimientos factoriales. En el caso
del ACS disponemos de dos alternativas:
a) Simple Correspondence Analysis (método CORBI) que aplica la técnica de análisis a partir
de una tabla de correspondencias ya construida y almacenada con ese formato de filas y
columnas en una base de datos del sistema con la extensión sba.
b) Cross-tabs and Correspondence Analysis (método TABLE+CORBI) donde se realiza el ACS
a partir de una matriz de datos de individuos por variables que requiere previamente
que se construya la tabla de contingencia entre dos variables las matriz.

El cuadro de diálogo que permite esta elección se presenta a continuación. Tanto en una
como en otra opción la cadena o programa de instrucciones que se genera prevé un método
adicional, de nombre DEFAC, para la descripción de los ejes factoriales.

Ejemplo: programa de instrucciones con “Predefined chains”1

Si optamos por realizar un cruce previo al ACS la ventana de SPAD con los procedimientos
ejecutados es la siguiente:

1 Publicación accesible en http://ddd.uab.cat/pub/papers/


Césari 2018 Página 16
ANEXO 2 N04

Discretización
Análisis de
Correspondencias

Trabajaremos con la matriz de datos CIS3041-Ingresos x Ocupación.sba proveniente de


los datos del CIS donde se han conservado únicamente las dos variables del ejemplo.

Si parametrizamos el procedimiento TABLE+CORBI, al hacer doble clic sobre el icono nos


aparece el siguiente cuadro de diálogo donde se solicita definir la tabla cruzada desde la
pestaña Command:

Césari 2018 Página 17


ANEXO 2 N04

Discretización
Análisis de
Correspondencias

El cuadro de diálogo para precisar el cruce es el siguiente:

Elegiremos la variable que va en las filas, la V4 que corresponde a los ingresos. Las filas se
consideran como “casos”.

Césari 2018 Página 18


ANEXO 2 N04

Discretización
Análisis de
Correspondencias

En el desplegable elegiremos a continuación la opción de la variable en columnas y


pasaremos la variable V3, la ocupación dominante del hogar. Las columnas se consideran
como “frecuencias”.
Seguidamente tenemos la opción de seleccionar casos si fuera necesario o de ponderar los
datos. En nuestro caso iremos directamente a definir los parámetros del análisis:

El análisis se puede realizar directamente con las opciones por defecto, solamente es
necesario precisar las variables de fila y columna. En los parámetros del análisis la
especificación más relevante es el número de factores retenidos. Siendo el máximo número
el mínimo de filas y columnas menos 1, el número lo podemos fijar después de ver los
resultados. Por defecto considera 10. En el ejemplo el número máximo es de 2 y es el valor
que hemos introducido.
Adicionalmente existe la opción, si fuera el caso, de estimar valores perdidos según un
algoritmo creado por Benzécri. También el método de cálculo de los vectores y valores
propios por defecto, In central memory, se puede cambiar por un método iterativo
recomendado para las tablas que incluyen un gran número de categorías (varios cientos)
donde el usuario controla los cálculos a partir del número de iteraciones, de casillas y la
dimensión del subespacio. Como en otros procedimientos disponemos igualmente de
opciones de control de los resultados que mantendremos sin cambios.

Césari 2018 Página 19


ANEXO 2 N04

Discretización
Análisis de
Correspondencias

Finalmente el botón Created database abre un cuadro de diálogo que permite guardar la
tabla de contingencia construida en el formato de un archivo de datos del sistema SPAD. A
partir de esta base de datos, a continuación, se pueden aplicar otros métodos de SPAD.
Por su parte el procedimiento DEFAC complementa los resultados del análisis de
correspondencias con la descripción de los factores para ayudar a la interpretación a partir
de los elementos más significativos. Estos elementos pueden ser los casos, las variables
categóricas o las variables o frecuencias continuas, y se pueden utilizar como elementos
activos o ilustrativos. Los elementos característicos se clasifican en función de sus
coordenadas. En el caso de las variables categóricas se pueden clasificar de acuerdo con el
criterio estadístico de un valor-test.
En el cuadro de diálogo inicial, Command Description, se precisan los factores que serán
descritos. Por defecto aparece la opción 1 a 3, pero si en el análisis sólo se generan 2 o se
quieren más de 3 hay que cambiarlo al valor correspondiente.

La pestaña de parámetros permite especificar dos aspectos. Por un lado el porcentaje o el


número de elementos más significativos. Con el 50%, opción por defecto, la salida se
produce para todas las descripciones con el 25% más significativo en cada uno de los
extremos de los ejes.

Césari 2018 Página 20


ANEXO 2 N04

Discretización
Análisis de
Correspondencias

Por otro, el criterio de selección de las categorías se basa en una prueba estadística de
utilidad para tablas de datos de gran tamaño y para la lectura de los análisis
multidimensionales complejos. Con la disposición de los elementos (variables o categorías)
de forma descendente se ponen de manifiesto los rasgos más sobresalientes de
caracterización de los factores. Para evaluar la magnitud de las diferencias más
significativas entre las proporciones (si son categorías de variables cualitativas) o entre las
medias (si son variables cuantitativas), la prueba estadística que se aplica da lugar a un
valor del estadístico z de la normal. Si el valor, el número de desviaciones estándar, es
mayor que 2, en valor absoluto, una desviación es significativa en el umbral habitual del
5%2.
De la ejecución de estos procedimientos comentaremos los aspectos más relevantes de las
salidas de tablas y gráficos, y remitimos al lector/a a la interpretación realizada
anteriormente. En las dos imágenes que siguen se recogen resultados parciales de la salida
del procedimiento del ACS con SPAD. En la primera se puede ver la tabla de Burt y en la
siguiente la información de los valores propios y las tablas con las coordenadas, las
contribuciones absolutas y las contribuciones relativas en relación a los dos factores
considerados.

2 Cuando se trata de la comparación de dos proporciones se utiliza la ley hipergeométrica para evaluar las
diferencias. Para comparar dos medias se utiliza la t de Student. Una presentación de estos conceptos se
encuentra en Morineau (1984) y Lebart, Morineau y Piron (1997).
Césari 2018 Página 21
ANEXO 2 N04

Discretización
Análisis de
Correspondencias

Los resultados de la descripción de los factores se pueden ver en la imagen siguiente.


Este es un tipo de resultado que gana en interés cuando el número de elementos
descriptivos es importante. A partir de la zona central (Middle area) ubica las categorías de
filas (casos) y columnas (frecuencias activas) en función de su significación en cuanto al
alejamiento hacia la polaridad positiva o negativa de cada eje.
Césari 2018 Página 22
ANEXO 2 N04

Discretización
Análisis de
Correspondencias

Algunos de los resultados que acabamos de comentar se pueden exportar a Excel con una
plantilla de presentación de las tablas que genera el propio software. Haciendo doble clic
sobre el icono se generan automáticamente.

Nos queda finalmente comentar el editor gráfico para reproducir el gráfico factorial del
análisis. Una vez abierto el editor haciendo doble clic sobre el icono nos aparece esta
ventana inicial donde podemos abrir o crear un nuevo gráfico:

Clicaremos sobre New graph y accederemos a un cuadro de diálogo donde nos facilita la
elección de qué elementos aparecerán en el gráfico:

Césari 2018 Página 23


ANEXO 2 N04

Discretización
Análisis de
Correspondencias

De la relación de elementos, los que aparecen en blanco son los elegibles mientras que los
que aparecen marcado en gris no están disponibles. En este caso marcaremos tanto la
opción actives cases (categorías en fila de la tabla de correspondencias) como actives
frequencies (categorías en columna) para ver la representación simultánea y analizar sus
correspondencias. Cuando se activa la selección los botones cases draft y variables
selection ofrecen la posibilidad de seleccionar individuos y seleccionar categorías. Al
apretar sobre OK nos aparece una ventana como esta:

Césari 2018 Página 24


ANEXO 2 N04

Discretización
Análisis de
Correspondencias

Aparecen los puntos-fila y puntos-columna con marcas diferentes, puntos azules y


triángulos granates, respectivamente. Para etiquetarlos es necesario seleccionarlos a través
del menú de selección:

O directamente con <CRTL><A>. Al seleccionarlos cambian el color a fucsia. Sobre esta


selección es posible realizar diversos cambios, por ejemplo, de formato, o etiquetarlos
como haremos a continuación clicando sobre el botón:

A continuación para deseleccionar podemos clicar sobre:

El gráfico aparece por defecto con un tamaño que maximiza su presentación en la pantalla
del ordenador. Este tamaño se puede ajustar a través del menú Display y la opción Scales
and axis:

Podemos clicar sobre identical en la opción SCALES con lo que obtendremos una imagen
proporcional entre el eje horizontal y vertical del gráfico. Adicionalmente podemos clicar
sobre with inertia % para visualizar sobre el gráfico el porcentaje de inercia explicada por
cada factor.
Césari 2018 Página 25
ANEXO 2 N04

Discretización
Análisis de
Correspondencias

Las etiquetas de los puntos se pueden mover para ubicarlas en un espacio distinto. Esto
será especialmente últil cunado el número de categorías sea numeroso. Para cambiar el
formato de los puntos y las etiquetas se pueden seleccionar y a través del menú Format /
Colours, symbols,… cambiarlos de tamaño, color, tipo de letra, etc.:

A través del botón de segments drawing podemos también trazar líneas que unan los
diferentes puntos para así obtener una imagen del recorrido de las categorías como ayuda
visual para dar también identidad a los ejes factoriales.

Con todos estos cambios el gráfico aparece como esta imagen:

Césari 2018 Página 26


ANEXO 2 N04

Discretización
Análisis de
Correspondencias

Al operar estos distintos cambios es habitual que se desdibujen los diferentes elementos
del gráfico, por ello es necesario refrescar la pantalla a través del botón

Para guardar un gráfico podemos optar por diversas alternativas:

Si se guarda un documento interno el gráfico depende del programa de instrucciones por lo


que si se cambian o se borran afectará igualmente al gráfico. La utilidad de esta opción es
que todas las funciones de las anotaciones y las propiedades de los planos factoriales
permanecen disponibles.
Si se guarda como registro en un archivo el gráfico es independiente del programa de
instrucciones. Los archivos se guardan con la extensión GFA. En este caso algún formato no
está disponible, pero en ambas opciones se pueden volver a cargar los gráficos para
trabajar de nuevo la edición.
Alternativamente el editor de planos factoriales permite guardar los gráficos en formato de
imagen BMP, PCX, PNG o EMF. El formato EMF Metafile ofrece la mejor calidad de imagen.
Otras opciones disponibles para la edición del gráfico factorial se presentan en la imagen
siguiente:

Por último, en relación al ACS, comentaremos los cuadros de diálogo específicos del
procedimiento CORBI cuando se realiza un análisis de correspondencias simples con una
matriz de datos que corresponde a una tabla de correspondencias ya construida.

Césari 2018 Página 27


ANEXO 2 N04

Discretización
Análisis de
Correspondencias

La novedad son las dos pestañas referidas a las columnas y a las filas, mientras que la de
parámetros coincide con la comentada anteriormente. La pestaña de columnas permite
seleccionar las categorías en columna de la tabla, denominadas frecuencias, y seleccionar
las que se considerarán como frecuencias activas (opción obligatoria) o frecuencias
suplementarias. La pestaña de filas permite la selección de las categorías de las filas
consideradas como casos. Se dispone de diversas alternativas de selección en un cuadro de
diálogo similar en diversos procedimientos. Esta modalidad es la que hemos aplicado en el
caso del análisis de la relación entre las provincias y el nivel educativo.

Con los datos de los archivos: España-Provincias x Educación.sba y EspañaProvincias x


Educación-Sexo.sba, así como la matriz de datos Distancias España.sba se pueden
reproducir los análisis de correspondencias simples.

Césari 2018 Página 28


ANEXO 2 N04

Discretización
Análisis de
Correspondencias

Césari 2018 Página 29


ANEXO 2 N04

Discretización
Análisis de
Correspondencias

Césari 2018 Página 30


ANEXO 2 N04

Discretización
Análisis de
Correspondencias

c. Análisis Factorial de Correspondencias Simples con SPSS [3]


En SPSS, inicialmente el ACS se identificó como “análisis de correspondencias” y se realizaba
con el procedimiento ANACOR. Con la versión 13 de SPSS el análisis de correspondencias
simples pasa a ser el comando CORRESPONDENCE.
Para ilustrar el uso del software SPSS con el objetivo de realizar un análisis de
correspondencias presentaremos un ejemplo de correspondencias simples donde
analizaremos los datos (CIS3041-IngresosxOcupación.sav) de la tabla de
correspondencias entre la ocupación dominante del hogar y el nivel de ingresos.
Desde esta perspectiva, que difiere en algunos aspectos de la que presentaremos con SPAD
o R, el análisis de correspondencias es una técnica destinada a cuantificar los datos
nominales (categóricos) mediante la asignación de valores numéricos a los casos (objetos)
y a las categorías de las variables, de manera que los objetos de la misma categoría estén
cerca unos de otros y los objetos de categorías diferentes estén alejados unos de otros.
Cada objeto se encuentra lo más cerca posible de los puntos de categoría para las
categorías que se aplican a dicho objeto. De este modo, las categorías dividen los objetos en
subgrupos homogéneos. Las variables se consideran homogéneas cuando clasifican objetos
de las mismas categorías en los mismos subgrupos.
El optimal scaling o análisis de escalamiento óptimo incluye un conjunto de técnicas comunes
desarrolladas para SPSS por el grupo Data Theory Scaling System Group (DTSS), formado por
miembros de los departamentos de educación y de psicología de la Faculty of Social ANF Behavioral
Sciences de la University of Leiden de Holanda (http://www.datatheory.nl/index.html).
El escalamiento óptimo asigna cuantificaciones numéricas a las categorías de cada variable
mediante un criterio de optimización, lo que permite utilizar las variables así cuantificadas en
procedimientos donde se requiere una métrica. La cuantificación óptima de cada variable escalada
obtiene mediante un método iterativo denominado mínimos cuadrados alternantes donde se
utilizan sucesivamente las cuantificaciones actuales para encontrar una solución final.
Las técnicas de escalamiento óptimo son:
 El análisis de correspondencias simples (CORRESPONDENCE, antiguo ANACOR) para el
análisis de una tabla de contingencia de dos dimensiones o, más en general, una tabla de doble
entrada de números positivos.
 El análisis de correspondencias múltiples (MULTIPLE CORRESPONDENCE, antiguo HOMALS)
para el análisis de la relación de múltiples variables cualitativas.
 El análisis de componentes principales categórico o no lineal (CATPCA, Categorical Principal
Componentes Analysis, antes llamado PRINCALS, PRincipal Componentes analysis vía Alternating
Least Squares), analiza y reduce la dimensionalidad de un conjunto de variables en las que se
combinan niveles de medida cualitativos y cuantitativos.
 El análisis de correlación canónica no lineal (OVERALS, Over Alternating Least Squares),
también permite la utilización tanto de variables cualitativas como cuantitativas pero aquí el
objetivo es analizar las relaciones existentes entre dos o más conjuntos de variables para
establecer sus similitudes a través de variables canónicas de cada conjunto con las
puntuaciones asignadas a los objetos.
 El análisis de regresión categórica (CATREG, CATegorical regresión with optimal scaling using
Alternating Least Squares) destinado a predecir los valores de una variable dependiente
cualitativa a partir de una combinación de variables independientes cualitativas.

3 Fuente: López-Roldán, P.; Fachelli, S. (2016). Análisis factorial. En P. López-Roldán y S. Fachelli, Metodología de
la Investigación Social Cuantitativa. Bellaterra (Cerdanyola del Vallès): Dipòsit Digital de Documents, Universitat
Autònoma de Barcelona. Capítulo III.11. 1ª edición. Versión 3 (octubre de 2016). Edición digital:
http://ddd.uab.cat/record/142928
Césari 2018 Página 31
ANEXO 2 N04

Discretización
Análisis de
Correspondencias

Con excepción del análisis de regresión categórica, se caracterizan por ser técnicas de
análisis factorial destinadas a la reducción de dimensiones a partir de un conjunto inicial de
variables para describir estructuras y modelos de relación entre el conjunto de ellas.
Todas ellas, como técnicas de escalamiento óptimo, permiten detectar relaciones no
lineales y buscan obtener la máxima correlación entre las variables. Siguen los principios
del análisis de componentes principales y del análisis de correlación canónica, adaptados a
la utilización de variables categóricas o mixtas.
Como técnicas factoriales los resultados incluyen puntuaciones óptimas o cuantificaciones
óptimas tanto para las categorías de cada variable (cuantificación de categorías) como de
los individuos u objetos (cuantificación de objetos), por tanto, se derivan variables
continuas; es por eso que se llaman técnicas de cuantificación de datos cualitativos (como
también lo es la técnica del Escalamiento Multidimensional No Métrico). Una cuantificación
es óptima en el sentido de que las categorías están separadas entre ellas a la dimensión o
dimensiones consideradas tanto como sea posible y, a la vez, dentro de cada categoría los
individuos están lo más próximos posible, es decir, con puntuaciones lo más homogéneas
entre sí.
Finalmente todas ellas permiten la representación gráfica para visualizar los resultados
como ayuda a la interpretación de las estructuras subyacentes.

Seguidamente daremos cuenta del procedimiento de análisis de correspondencias, simples.


Estos procedimientos se localizan en el menú de Analizar/Reducción de dimensiones:

A través del menú: Analizar/Reducción de Dimensiones/Análisis de correspondencias...


llegamos al cuadro de diálogo inicial de este procedimiento:

Césari 2018 Página 32


ANEXO 2 N04

Discretización
Análisis de
Correspondencias

En primer lugar se trata de especificar las dos variables del análisis, la que se considera
como variable-fila, en nuestro caso IngresosH y la que se considera como variable-
columna, OCUPAFAM. Una vez determinadas las variables que intervienen en el análisis
hay que detallar su rango.
Si hacemos clic sobre el botón Definir rango se abre un cuadro de diálogo como el
siguiente:

Césari 2018 Página 33


ANEXO 2 N04

Discretización
Análisis de
Correspondencias

Se trata de especificar los valores mínimo y máximo que corresponden a los valores o
categorías de la variable considerada. En este caso se han escrito los valores 1 como valor
mínimo y 3 como valor máximo, ya que define el rango de valores de la variable IngresosH.
A continuación se debe hacer clic sobre el botón de Actualizar y estos valores pasarán al
recuadro inferior de Restricciones para las categorías. Las restricciones se concretan en
tres posibilidades excluyentes entre sí, si bien en nuestro caso no se fijará ninguna
restricción, consideraremos todas las categorías como activas.
La opción que especifica que las categorías deben ser iguales es una restricción de igualdad
que se aplica si el orden obtenido por las categorías no es el deseado o si no se corresponde
con el intuitivo.
La opción que especifica que la categoría es suplementaria permite considerar algunas de
las categorías como pasivas, para que no influyan en el análisis pero sí se representen en el
espacio definido por las categorías activas, así las categorías suplementarias no juegan
ningún papel en la definición de las dimensiones.
Una vez hecha la especificación del rango de las filas hay que hacer clic en el botón
Continuar y se repite la operación para la variable-columna, OCUPAFAM, con los valores 1 a
9.
En el cuadro de diálogo de Modelo podemos especificar cuatro tipos de opciones:

Son las siguientes:


 En el número de dimensiones consideraremos por defecto dos dimensiones con
representaciones gráficas de estas dos. Si no se utilizan criterios de igualdad y todas las
categorías son activas, la dimensionalidad máxima es igual al número de categorías de la
variable con menos categorías menos uno.
 La medida de distancia de chi-cuadrado (una distancia ponderada donde el peso es la
masa de las filas o columnas) es la especificación predeterminada para hacer un análisis
de correspondencias típico y es la que utilizaremos. La medida de distancia puede ser
alternativamente euclidiana (la raíz cuadrada de la suma de los cuadrados diferencias
entre los valores de las dos filas o columnas).
Césari 2018 Página 34
ANEXO 2 N04

Discretización
Análisis de
Correspondencias

 El método de estandarización viene determinado por la elección de la distancia, si es


de chi-cuadrado implica necesariamente una media de filas y columnas. Si es euclidiana
se puede optar por cualquiera de las cinco opciones que se centran sólo en las filas o las
columnas, con la posibilidad de igualar previamente los marginales de fila o de columna.
 Finalmente el método de normalización determina la forma en que se normalizan las
filas y columnas. Consideraremos la normalización simétrica ya queremos comparar las
correspondencias entre filas y columnas, entre las categorías de cada variable. En este
caso, para cada dimensión, las puntuaciones de fila son la media ponderada de las
puntuaciones de columna dividido por el valor propio coincidente y las puntuaciones de
columna son la media ponderada de las puntuaciones de filas dividido por el valor
propio coincidente. La normalización principal busca comparar las diferencias o
similitudes entre las categorías de cada una de las variables y no entre las variables. La
normalización por fila o por columna examina específicamente las categorías de la
variable de las filas o de la variable de las columnas. La normalización personalizada se
puede especificar un valor entre -1 y 1: el valor -1 corresponde a principal por columna,
el valor 1 corresponde a principal por fila, el valor 0 corresponde a simétrico, y todos los
demás valores dispersan la inercia entre las puntuaciones de columna y de fila en
diferentes grados.
En el cuadro de diálogo de Estadísticos se pueden especificar los estadísticos que aparecen
en un cuadro de diálogo como el siguiente:

− La Tabla de correspondencias es la tabla de contingencia con los datos absolutos


entre las dos variables.
− La opción Inspección de los puntos fila o columna nos proporciona en el listado de
resultados una tabla en la que para cada modalidad o categoría de la variable fila (o
columna) muestra la masa, las puntuaciones, la inercia, la contribución del punto a la
inercia de la dimensión y la contribución de la dimensión a la inercia del punto, y que
nos sirven para describir los resultados del análisis, resultados que tienen la misma
lectura en términos de la representación gráfica.
− Con las Permutaciones de la tabla de correspondencias obtenemos una permuta de
la tabla original de acuerdo con el orden ascendente de las puntuaciones de las filas y
columnas a partir del número máximo de dimensiones que se quiera, por defecto es
considera la orden que determina la primera dimensión.

Césari 2018 Página 35


ANEXO 2 N04

Discretización
Análisis de
Correspondencias

− Las opciones Perfiles de fila y Perfiles de col. proporcionan las tablas de


distribuciones de porcentajes por fila o por columna.
− Los Estadísticos de confianza para dan las desviaciones típicas y las correlaciones de
los puntos fila y los puntos columna activos.

En el cuadro de diálogo de Gráficos obtenemos un elemento informativo básico de la


interpretación de los resultados de un ACS en forma gráfica.

− A través del Diagrama de dispersión biespacial se nos presenta por defecto la


representación en dos dimensiones de las categorías de las dos variables analizadas en
relación a las dimensiones o factores retenidos. Cuando el número de dimensiones es
superior a 2 representa varios diagramas biespaciales. También podemos optar por
pedir exclusivamente los puntos fila o columna.
− Por su parte, los Gráficos de línea representan las categorías de las variables, de fila o
de columna, con las puntuaciones de estas categorías.
− Por último, con Dimensiones del gráfico podemos restringir el número de
dimensiones de las representaciones.
Adicionalmente se pueden especificar otras opciones con el lenguaje de comandos que no
parecen a través del menú. En particular se puede:
− Especificar datos tabulares como entrada en lugar de utilizar datos por caso (mediante
el subcomando TABLE=ALL).
− Especificar el número de caracteres de etiqueta de valor que se utilizan para
etiquetar los puntos para cada tipo de diagrama de dispersión matricial o diagrama de
dispersión biespacial matricial (mediante el subcomandament PLOT).
− Especificar el número de caracteres de etiqueta de valor que se utilizan para
etiquetar los puntos para cada tipo de gráfico de líneas (mediante el subcomando
PLOT).
Césari 2018 Página 36
ANEXO 2 N04

Discretización
Análisis de
Correspondencias

− Escribir una matriz de puntuaciones de fila y de columna en un archivo de datos


matriciales (mediante el subcomando OUTFILE).
− Escribir una matriz de estadísticos de confianza (varianzas y covarianzas) para los
valores propios y las puntuaciones en un archivo de datos matriciales (mediante el
subcomando OUTFILE).
− Especificar varios conjuntos de categorías para igualar (mediante el subcomando
EQUAL).
El conjunto de especificaciones que hemos detallado se corresponden con la siguiente
sintaxis de SPSS

Como resultado de la ejecución de estas instrucciones, ya sea a través del menú o del editor
de sintaxis, se obtienen los resultados que siguen.

En primer lugar, aparece la tabla de correspondencias (de contingencia) con las frecuencias
de la distribución conjunta:

Junto con las proporciones calculadas por fila y por columna:

Considerando dos dimensiones o factores se acumula el 100% de la varianza explicada,


pues dos es el número máximo de dimensiones, cuyo cálculo se determina del mínimo de
categorías de fila o de columnas menos uno, es decir, mín{I,J}−1= mín{3,9}−1=2.

Césari 2018 Página 37


ANEXO 2 N04

Discretización
Análisis de
Correspondencias

En la tabla que sigue se presenta la información del valor singular (la raíz cuadrada del
valor propio que aparece en la columna con el nombre de inercia), la inercia (de hecho es el
valor propio) así como la proporción de varianza que suponen. Se incluye asimismo una
prueba estadística que da cuenta de la significación del modelo testando la hipótesis nula
de independencia entre las dos variables (el valor del chi-cuadrado dividido por el número
de casos es la inercia total que se descompone en cada dimensión), que en este caso
permite ser rechazada.

Finalmente la información del valor singular de confianza muestra las desviaciones


estándar y la correlación entre las dimensiones que nos ayudan a evaluar la precisión de
las dimensiones a partir de datos muestrales. Valores bajos de las desviaciones y de la
correlación, próximos a cero, nos indican un nivel de confianza aceptable para extrapolar
nuestros resultados al conjunto de la población.
Como se puede observar, la primera dimensión permite sintetizar la mayor parte de la
varianza o inercia explicada con un 87,4%, se trata de un patrón de asociación entre las dos
variables que se puede expresar en términos de un solo factor. Como veremos
seguidamente, es la asociación entre ocupación e ingresos, a medida que aumenta la
categoría ocupacional los ingresos son mayores.
Los resultados anteriores se acompañan de la información de los puntos de fila y columna
de confianza.

Así pues, los factores obtenidos expresan las correspondencias (proximidades) que se dan
entre la filas, las columnas, y también entre filas y columnas por la propiedad de la
equivalencia distribucional.

Césari 2018 Página 38


ANEXO 2 N04

Discretización
Análisis de
Correspondencias

En las tablas siguientes se presentan para cada categoría de las variables, de fila y de
columna, las puntuaciones en la dimensión (las coordenadas del gráfico factorial), la masa
(frecuencia o importancia de cada categoría), la inercia (la varianza explicada por cada
categoría), la contribución a la inercia de la dimensión (las contribuciones absolutas) y la
contribución de la dimensión a la inercia del punto (las contribuciones relativas).
Al conservar el 100% de la inercia las contribuciones relativas suman el total 1 para cada
categoría (suma por fila), mostrando la distribución de la aportación de cada categoría a
cada una de las dos dimensiones. La contribución absoluta, por su parte, nos muestra qué
categorías definen cada factor o dimensión (suman 1 por columna).

Las categorías con mayor valor en una dimensión se corresponderán con las más alejadas
del centro en la representación gráfica del gráfico factorial, es decir, tendrán una mayor
coordenada.

Esta información, por tanto, se puede expresar gráficamente. Se pueden analizar


separadamente para las categorías de cada variable en cada dimensión:

Césari 2018 Página 39


ANEXO 2 N04

Discretización
Análisis de
Correspondencias

O bien directamente analizando las correspondencias entre las categorías de filas y


columnas en el espacio bidimensional que consideramos en este análisis a través del
gráfico factorial. El gráfico conjunto de los puntos de fila y columna que se genera es el
siguiente:

Césari 2018 Página 40


ANEXO 2 N04

Discretización
Análisis de
Correspondencias

El cual se puede editar para que adopte la forma siguiente donde hemos incluido la unión
de los puntos a través de una línea de interpolación para destacar el recorrido de las
categorías de cada variable:

Por último, se muestra una tabla interesante relativa a la permutación de la tabla de


correspondencias inicial como resultado de analizar las categorías de las variables en la
primera dimensión. Se procede, si es el caso, a reordenar las categorías de ambas variables
a partir de las puntuaciones factoriales obtenidas. Podemos observar en este caso,
comparando ambas tablas, el cambio entre Profesional y Director-Gerente así como la
mejor posición alcanzada por Operador-Montador en relación a Cualificado primario y
Cualificado Industria, esto es, en relación a la variable de ingresos, que conserva su orden
inicial, las categorías citadas se asocian a un mayor nivel de ingresos lo que supone
reordenarlas y cambiar el orden de codificación inicial de la variable.
Estos cambios se pueden observar igualmente en el gráfico factorial anterior. En el caso de
Profesional apenas hay diferencias con Director-Gerente, en el caso de Operador-Montador
son más destacadas.

Césari 2018 Página 41


ANEXO 2 N04

Discretización
Análisis de
Correspondencias

Si la variable fuera nominal, por tanto, sin un orden conceptualmente preestablecido en la


variable, esta tabla de permutación y, en general, el resultado de un análisis de
correspondencias cuando cuantifica las distintas categorías, proporciona una ordenación (y
de cuantificación) de dichas categorías cualitativas nominales de la que carecía
inicialmente, siempre como resultado de relacionarse con la otra variable.

d. Análisis Factorial de Correspondencias Simples con FactoMineR


El análisis de correspondencia en R se puede realizar a través de diversos paquetes: el
paquete ca de Nenadic y Greenacre (2007), el paquete FactoMineR (Husson, Lê, y Pagès,
2011), el paquete ade4, el paquete MASS, el paquete homals, el paquetes anacor (de
Leeuw y Mair, 2009) y el paquete de visualización factoextra.

CA Correspondence Analysis
Description. Realiza el análisis de correspondencias (CA), incluyendo fila y/o columna
suplementarias
Sintaxis del commando en R:
CA(X,ncp = 5, row.sup = NULL, col.sup = NULL,
graph = TRUE, axes = c(1,2), row.w = NULL)
Argumentos
X un dataframe con n filas y p columnas, que equivale a una tabla de contingencia
ncp número de dimensiones que se mantienen en los resultados (por defecto 5)
row.sup un vector que indica los índices de las filas suplementarias
filas col.sup un vector que indica los índices de las columnas suplementarias.
graph boolean, si es TRUE se visualiza un gráfico.
axes una longitud de 2 vectores que especifica los componentes para graficar
row.w peso fila - opcional (por defecto, los pesos fila son uniforme)
Valores de Salida
Devuelve una lista que incluye:
eig una matriz que contiene todos los valores propios, el porcentaje de
variación y el porcentaje acumulativo de la varianza
col una lista de matrices con todos los resultados de la variable en columnas
respecto a los factores (las coordenadas, del coseno cuadrado, las
contribuciones, la inercia)
row una lista de matrices con todos los resultados de la variable en filas
respecto a los factores (las coordenadas, del coseno cuadrado, las
contribuciones, la inercia)

Césari 2018 Página 42


ANEXO 2 N04

Discretización
Análisis de
Correspondencias

col.sup una lista de matrices con todos los resultados de la variable en columnas
suplementarias (las coordenadas, del coseno cuadrado)
row.sup una lista de matrices con todos los resultados de la variable en filas
suplementarias (las coordenadas, del coseno cuadrado)
call una lista con algunas estadísticas

Devuelve la fila y columna de puntos de mapa de factores.


Autores(s) Jeremy Mazet, Francois Husson <Francois.Husson@agrocampus-ouest.fr>
Referencias
Benzecri, J.-P. (1992) Correspondence Analysis Handbook, New-York : Dekker
Benzecri, J.-P. (1980) L’analyse des données tome 2 : l’analyse des correspondances, Paris :
Bordas
Greenacre, M.J. (1993) Correspondence Analysis in Practice, London : Academic Press
Ver también print.CA, plot.CA, dimdesc
plot.CA Draw the Correspondance Analysis (CA) graphs
Sintaxis del commando en R:
## S3 method for class 'CA'
plot(x, axes = c(1, 2),xlim = NULL, ylim = NULL, invisible = NULL, col.row
="blue", col.col = "red", col.row.sup = "darkblue", col.col.sup =
"darkred", label = "all", cex = 1, title = NULL, palette = NULL, ...)
Argumentos

Valores de Salida
Returns the individuals factor map y the variables factor map.
Autores(s) Jeremy Mazet, Francois Husson <Francois.Husson@agrocampus-ouest.fr>
Ver tambien CA
Ejemplos
data(children)
res.ca <- CA (children, col.sup = 6:8, row.sup = 15:18)

Césari 2018 Página 43


ANEXO 2 N04

Discretización
Análisis de
Correspondencias

print.CA
Print the Correspondance Analysis (CA) results
Sintaxis del commando en R:
## S3 method for class 'CA'
print(x, file = NULL, sep = ";", ...)
Argumentos

Autores(s) Jeremy Mazet, Francois Husson <Francois.Husson@agrocampus-ouest.fr>


Ver también CA, write.infile

Presentamos análisis de correspondencias realizado con FactoMineR en los datos de Grang'ey


Lebart (1993). Los datos utilizados hay una tabla de contingencia que resume las respuestas
dadas por las diferentes categorías de personas a la siguiente pregunta: "de acuerdo con usted,
¿cuáles son las razones que pueden hacer dudar a una mujer o una pareja para tener hijos?".
Son 18 filas y 8 columnas, las filas representan las diferentes razones mencionadas, las
columnas representan las distintas categorías (educación, edad) personas pertenecen.
R> datos ("niños")
R> res.ca <- CA (niños, col.sup = 6:8, row.sup = 15:18)
Las columnas de 6 a 8 son complementarias (se refieren a los grupos de edad de la población), y
las filas 15 a 18 son complementarias. De manera predeterminada, la función de CA ofrece una
representación gráfica (Figura 5). Si sólo queremos visualizar los elementos activos (Figura 6),
nosotros utilizar el siguiente código:
R> plot (res.ca, invisible = C ("row.sup", "col.sup"))

El análisis de correspondencias: las filas activas son de color azul, las columnas de activos son de color rojo, las líneas
adicionales son de color azul oscuro, las columnas adicionales son de color rojo oscuro

Césari 2018 Página 44


ANEXO 2 N04

Discretización
Análisis de
Correspondencias

El análisis de correspondencias con sólo los elementos activos

e. Análisis Factorial de Correspondencias Simples con FactoClass


FactoClass: es la función principal del paquete, enlaza las funciones de ade4 y de stats para
realizar el análisis factorial y el método de clasificación mixta. La función FactoClass, realiza
un análisis factorial solicitando el número de ejes a retener para analizar, posteriormente
solicita el número de ejes a retener para el método de clasificación y finalmente el número de
clases según lo observado en el diagrama de índices de nivel y el dendrograma. Si
scanFC=FALSE la función realiza todo el análisis usando los parámetros dados.

Sintaxis del commando en R:


FactoClass( dfact, metodo, dfilu = NULL , nf = 2, nfcl = 10, k.clust =
3,
scanFC = TRUE , n.max = 5000 , n.clus = 1000 ,sign = 2.0,
conso=TRUE , n.indi = 25 )
print.FactoClass(x, ...)
analisis.clus(X,W)

En el paquete de R FactoClass (Campo, 2007), se implementa la estrategia descrita en Lebart et


al. (1995), que combina métodos factoriales con análisis de conglomerados, en la exploración
multivariada de tablas de datos. FactoClass es una función que conecta a las funciones de ade4
(Chessel et al. 2004) para realizar el análisis factorial de los datos y de stats para el análisis de
conglomerados. Funciones complementarias que, incluyendo para producir salidas en formato L
ATEX1, utilizando el paquete xtable (Dahl 2006).
FactoClass utiliza el paquete estadístico ade4 (Chessel et al. 2004) para realizar el análisis
factorial de los datos. Estas funciones retornan un objeto de tipo dudi con los valores y vectores
propios y las coordenadas factoriales de las filas y columnas. Las demás ayudas a la
interpretación se obtienen con la función inertia.dudi.

Césari 2018 Página 45


ANEXO 2 N04

Discretización
Análisis de
Correspondencias

Las funciones dudi de ade4 reciben los datos en un objeto data.frame y utlizan todas las
columnas como activas. El paquete ade4 tiene varias funciones para obtener los planos
factoriales; si embargo en FactoClass se incluye la función planfac que recibe un objeto dudi y
produce un plano factorial similar a los del paquete ade4.
La función ward.cluster transforma la distancia euclidiana en distancia de Ward y llama la
función hclust del paquete básico stats. En ward.cluster se incluye una gráfica de los índices de
nivel para facilitar la decisión de cuántas clases seleccionar para la partición.
La función kmeans de stats no maneja pesos distintos para las filas. Estos pesos influyen en los
centros de gravedad y en las inercias intra de las clases. Se modificó (Campo, 2007) esta función
para incluir los pesos de las filas y obtener las inercias intra clases; se nombra kmeansW. En su
opción por defecto la función kmeans utiliza el algoritmo de Hartigan & Wong (1979).
Para la caracterización de las clases, se incluye la función cluster.carac, donde se calculan los
valores test y se retorna un objeto list con información similar a la que se obtiene en los
programas SPAD (Lebart et al. 1999) y DTM (Lebart 2007).
La función analisis.clus calcula las características geométricas de cada clase: el tamaño, la
inercia, el peso y el cuadrado de la distancia de origen.
Para impresión en formato de látex ver FactoClass.tex ()
Para dibujar planos factorial ver con el grupo plotFactoClass (), recibe un objeto de tipo
FactoClass y produce el plano factorial solicitado.

Objeto de la clase FactoClass:


dudi objeto de la clase dudi de ade4 con las especificaciones del análisis factorial
nfcl número de ejes seleccionados para la clasificación
k número de clases
indices tabla de los índices obtenidos mediante el método de WARD
cor.clus coordenadas de los grupos
clus.summ resumen de los grupos
cluster vector que indica el grupo de cada uno de los elementos
carac.cate caracterización del grupo por variables cualitativas
carac.cont caracterización del grupo por las variables cuantitativas
carac.frec caracterización del grupo por las variables frecuencia activa

Césari 2018 Página 46


ANEXO 2 N04

Discretización
Análisis de
Correspondencias

Ejemplo: descripción de los colores según adjetivos que connotan

Importar los datos a R desde Excel.


> library(xlsReadWrite)
> AdjColor <- read.xls( "adjetivo-color.xls" ,colNames = TRUE, sheet = 1,
type = "data.frame", from = 1, rowNames = TRUE, colClasses = NA,
checkNames = TRUE,dateTimeAs = "numeric",stringsAsFactors =
default.stringsAsFactors() )
Con el parámetro rowNames en TRUE, indicamos que la primer columna corresponde a las etiquetas que identifican
a los individuos. Si la tabla no tiene identificado las filas, se coloca rowNames = “NA”.
> AdjColor #Muestro la hoja de datos

Realizar el análisis factorial con FactoClass.


> library(ade4)
> library(xtable)
> library(FactoClass)

> FC.col <-FactoClass(AdjColor, dudi.coa) #Análisis Correspondencias de tabla de


contingencia
5 5 6
> FC.col <-FactoClass(AdjColor, dudi.coa, nf=5, nfcl=5, k.clust=6,
scanFC=FALSE,
n.max=5000 , n.clus=1000 ,sign=2.0,conso=TRUE , n.indi=25)

Mostrar en pantalla los resultados


> FC.col
> FC.col$dudi

> FC.col$dudi$co #Coordenadas puntos columnas


> FC.col$dudi$li #Coordenadas puntos fila
> FC.col$co #Coordenadas centros de clase
> FC.col$carac.frec #Caracterización de las clases por frecuencias activas
> plotFactoClass(FC.col,titre="Plano factorial ACS",ucal=50,
col.row= "dark red", col.col= "orchid4", axislabel = T)

Resultados en fichero de texto


> sink("resultadosAFCS.txt") #La salida es un archivo de texto
> FC.col
> FC.col$dudi$co #Coordenadas puntos columnas
> FC.col$dudi$li #Coordenadas puntos fila
> FC.col$cor.clus #Coordenadas centros de clase
> FC.col$carac.frec #Caracterización de las clases por frecuencias activas
> FC.col$cluster #Individuos de la clase
> sink() #La salida vulva a ser la pantalla

Resultados en formato Latex


> FactoClass.tex(FC.col,job="AdjColor", append=TRUE , p.clust = TRUE)

Césari 2018 Página 47

You might also like