You are on page 1of 304

NUEVOS MTODOS

DE
ANLISIS MULTIVARIANTE
Carles M. Cuadras
21 de septiembre de 2014
2
Es propiedad del autor.
c _C. M. Cuadras
CMC Editions
Manacor 30
08023 Barcelona, Spain
ndice general
1. DATOS MULTIVARIANTES 13
1.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.2. Matrices de datos . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.3. Matriz de centrado . . . . . . . . . . . . . . . . . . . . . . . . 15
1.4. Medias, covarianzas y correlaciones . . . . . . . . . . . . . . . 15
1.5. Variables compuestas . . . . . . . . . . . . . . . . . . . . . . . 16
1.6. Transformaciones lineales . . . . . . . . . . . . . . . . . . . . . 16
1.7. Teorema de la dimensin . . . . . . . . . . . . . . . . . . . . . 17
1.8. Medidas globales de variabilidad y dependencia . . . . . . . . 18
1.9. Distancias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.10. Algunos aspectos del clculo matricial . . . . . . . . . . . . . . 21
1.10.1. Descomposicin singular . . . . . . . . . . . . . . . . . 21
1.10.2. Inversa generalizada . . . . . . . . . . . . . . . . . . . 21
1.10.3. Aproximacin matricial de rango inferior . . . . . . . . 22
1.10.4. Transformacin procrustes . . . . . . . . . . . . . . . . 23
1.11. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.12. Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2. NORMALIDAD MULTIVARIANTE 29
2.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.2. Distribucin normal multivariante . . . . . . . . . . . . . . . . 30
2.2.1. Denicin . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.2.2. Propiedades . . . . . . . . . . . . . . . . . . . . . . . . 31
2.2.3. Caso bivariante . . . . . . . . . . . . . . . . . . . . . . 32
2.3. Distribucin de Wishart . . . . . . . . . . . . . . . . . . . . . 33
2.4. Distribucin de Hotelling . . . . . . . . . . . . . . . . . . . . . 34
2.5. Distribucin de Wilks . . . . . . . . . . . . . . . . . . . . . . . 35
2.6. Relaciones entre Wilks, Hotelling y F . . . . . . . . . . . . . . 37
3
4 NDICE GENERAL
2.7. Distribucin multinomial . . . . . . . . . . . . . . . . . . . . . 38
2.8. Distribuciones con marginales dadas . . . . . . . . . . . . . . . 39
2.9. Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3. INFERENCIA MULTIVARIANTE 43
3.1. Conceptos bsicos . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.2. Estimacin de medias y covarianzas . . . . . . . . . . . . . . . 44
3.3. Contraste de hiptesis multivariantes . . . . . . . . . . . . . . 45
3.3.1. Test sobre la media: una poblacin . . . . . . . . . . . 45
3.3.2. Test sobre la media: dos poblaciones . . . . . . . . . . 46
3.3.3. Comparacin de varias medias . . . . . . . . . . . . . . 46
3.4. Teorema de Cochran . . . . . . . . . . . . . . . . . . . . . . . 47
3.5. Construccin de contrastes de hiptesis . . . . . . . . . . . . . 51
3.5.1. Razn de verosimilitud . . . . . . . . . . . . . . . . . . 51
3.5.2. Principio de unin-interseccin . . . . . . . . . . . . . . 53
3.6. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.7. Anlisis de perles . . . . . . . . . . . . . . . . . . . . . . . . 59
3.8. Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4. ANLISIS DE CORRELACIN CANNICA 63
4.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.2. Correlacin mltiple . . . . . . . . . . . . . . . . . . . . . . . 63
4.3. Correlacin cannica . . . . . . . . . . . . . . . . . . . . . . . 65
4.4. Correlacin cannica y descomposicin singular . . . . . . . . 68
4.5. Signicacin de las correlaciones cannicas . . . . . . . . . . . 69
4.6. Contraste de hiptesis de independencia . . . . . . . . . . . . 69
4.6.1. Razn de verosimilitud . . . . . . . . . . . . . . . . . . 70
4.6.2. Principio de unininterseccin . . . . . . . . . . . . . 70
4.7. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
4.8. Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5. ANLISIS DE COMPONENTES PRINCIPALES 77
5.1. Obtencin de las componentes principales . . . . . . . . . . . 77
5.2. Variabilidad explicada por las componentes . . . . . . . . . . . 79
5.3. Representacin de una matriz de datos . . . . . . . . . . . . . 80
5.4. Inferencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
5.4.1. Estimacin y distribucin asinttica . . . . . . . . . . . 83
5.4.2. Contraste de hiptesis . . . . . . . . . . . . . . . . . . 84
NDICE GENERAL 5
5.5. Nmero de componentes principales . . . . . . . . . . . . . . . 86
5.5.1. Criterio del porcentaje . . . . . . . . . . . . . . . . . . 86
5.5.2. Criterio de Kaiser . . . . . . . . . . . . . . . . . . . . . 86
5.5.3. Test de esfericidad . . . . . . . . . . . . . . . . . . . . 87
5.5.4. Criterio del bastn roto . . . . . . . . . . . . . . . . . . 87
5.6. Biplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
5.7. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
5.8. Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
6. ANLISIS FACTORIAL 97
6.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
6.2. El modelo unifactorial . . . . . . . . . . . . . . . . . . . . . . 98
6.3. El modelo multifactorial . . . . . . . . . . . . . . . . . . . . . 100
6.3.1. El modelo . . . . . . . . . . . . . . . . . . . . . . . . . 100
6.3.2. La matriz factorial . . . . . . . . . . . . . . . . . . . . 101
6.3.3. Las comunalidades . . . . . . . . . . . . . . . . . . . . 101
6.3.4. Nmero mximo de factores comunes . . . . . . . . . . 102
6.3.5. El caso de Heywood . . . . . . . . . . . . . . . . . . . 103
6.3.6. Un ejemplo . . . . . . . . . . . . . . . . . . . . . . . . 103
6.4. Teoremas fundamentales . . . . . . . . . . . . . . . . . . . . . 105
6.5. Mtodo del factor principal . . . . . . . . . . . . . . . . . . . 107
6.6. Mtodo de la mxima verosimilitud . . . . . . . . . . . . . . . 109
6.6.1. Estimacin de la matriz factorial . . . . . . . . . . . . 109
6.6.2. Hiptesis sobre el nmero de factores . . . . . . . . . . 110
6.7. Rotaciones de factores . . . . . . . . . . . . . . . . . . . . . . 110
6.7.1. Rotaciones ortogonales . . . . . . . . . . . . . . . . . . 111
6.7.2. Factores oblicuos . . . . . . . . . . . . . . . . . . . . . 111
6.7.3. Rotacin oblicua . . . . . . . . . . . . . . . . . . . . . 112
6.7.4. Factores de segundo orden . . . . . . . . . . . . . . . . 114
6.8. Medicin de factores . . . . . . . . . . . . . . . . . . . . . . . 115
6.9. Anlisis factorial conrmatorio . . . . . . . . . . . . . . . . . . 116
6.10. Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
7. ANLISIS CANNICO DE POBLACIONES 123
7.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
7.2. Variables cannicas . . . . . . . . . . . . . . . . . . . . . . . . 124
7.3. Distancia de Mahalanobis y transformacin cannica . . . . . 126
7.4. Representacin cannica . . . . . . . . . . . . . . . . . . . . . 127
6 NDICE GENERAL
7.5. Aspectos inferenciales . . . . . . . . . . . . . . . . . . . . . . . 129
7.5.1. Comparacin de medias . . . . . . . . . . . . . . . . . 129
7.5.2. Comparacin de covarianzas . . . . . . . . . . . . . . . 129
7.5.3. Test de dimensionalidad . . . . . . . . . . . . . . . . . 130
7.5.4. Regiones condenciales . . . . . . . . . . . . . . . . . . 131
7.6. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
7.7. Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
8. ESCALADO MULTIDIMENSIONAL (MDS) 137
8.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
8.2. Cundo una distancia es eucldea? . . . . . . . . . . . . . . . 138
8.3. El anlisis de coordenadas principales . . . . . . . . . . . . . . 140
8.4. Similaridades . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
8.5. Nociones de MDS no mtrico . . . . . . . . . . . . . . . . . . 145
8.6. Distancias estadsticas . . . . . . . . . . . . . . . . . . . . . . 148
8.6.1. Variables cuantitativas . . . . . . . . . . . . . . . . . . 148
8.6.2. Variables binarias . . . . . . . . . . . . . . . . . . . . . 149
8.6.3. Variables categricas . . . . . . . . . . . . . . . . . . . 150
8.6.4. Variables mixtas . . . . . . . . . . . . . . . . . . . . . 151
8.6.5. Otras distancias . . . . . . . . . . . . . . . . . . . . . . 151
8.7. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
8.8. Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
9. ANLISIS DE CORRESPONDENCIAS 161
9.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
9.2. Cuanticacin de las variables categricas . . . . . . . . . . . 163
9.3. Representacin de las y columnas . . . . . . . . . . . . . . . 164
9.4. Representacin conjunta . . . . . . . . . . . . . . . . . . . . . 166
9.5. Soluciones simtrica y asimtrica . . . . . . . . . . . . . . . . 169
9.6. Variabilidad geomtrica (inercia) . . . . . . . . . . . . . . . . 170
9.7. Anlisis de Correspondencias Mltiples . . . . . . . . . . . . . 173
9.8. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
9.9. MDS ponderado . . . . . . . . . . . . . . . . . . . . . . . . . . 178
9.10. Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
10. CLASIFICACIN 187
10.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
10.2. Jerarqua indexada . . . . . . . . . . . . . . . . . . . . . . . . 188
NDICE GENERAL 7
10.3. Geometra ultramtrica . . . . . . . . . . . . . . . . . . . . . . 190
10.4. Algoritmo fundamental de clasicacin . . . . . . . . . . . . . 194
10.5. Equivalencia entre jerarqua indexada y ultramtrica . . . . . 195
10.6. Algoritmos de clasicacin jerrquica . . . . . . . . . . . . . . 196
10.6.1. Mtodo del mnimo . . . . . . . . . . . . . . . . . . . . 197
10.6.2. Mtodo del mximo . . . . . . . . . . . . . . . . . . . . 199
10.7. Ms propiedades del mtodo del mnimo . . . . . . . . . . . . 200
10.8. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202
10.9. Clasicacin no jerrquica . . . . . . . . . . . . . . . . . . . . 206
10.10.Nmero de clusters . . . . . . . . . . . . . . . . . . . . . . . . 207
10.11.Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . 208
11. ANLISIS DISCRIMINANTE 211
11.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
11.2. Clasicacin en dos poblaciones . . . . . . . . . . . . . . . . . 212
11.2.1. Discriminador lineal . . . . . . . . . . . . . . . . . . . 212
11.2.2. Regla de la mxima verosimilitud . . . . . . . . . . . . 212
11.2.3. Regla de Bayes . . . . . . . . . . . . . . . . . . . . . . 213
11.3. Clasicacin en poblaciones normales . . . . . . . . . . . . . . 214
11.3.1. Discriminador lineal . . . . . . . . . . . . . . . . . . . 214
11.3.2. Regla de Bayes . . . . . . . . . . . . . . . . . . . . . . 214
11.3.3. Probabilidad de clasicacin errnea . . . . . . . . . . 215
11.3.4. Discriminador cuadrtico . . . . . . . . . . . . . . . . . 215
11.3.5. Clasicacin cuando los parmetros son estimados . . . 215
11.4. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216
11.5. Discriminacin en el caso de / poblaciones . . . . . . . . . . . 218
11.5.1. Discriminadores lineales . . . . . . . . . . . . . . . . . 219
11.5.2. Regla de la mxima verosimilitud . . . . . . . . . . . . 219
11.5.3. Regla de Bayes . . . . . . . . . . . . . . . . . . . . . . 220
11.6. Un ejemplo clsico . . . . . . . . . . . . . . . . . . . . . . . . 220
11.7. Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . 222
12. DISCRIMINACIN LOGSTICA Y OTRAS 223
12.1. Anlisis discriminante logstico . . . . . . . . . . . . . . . . . . 223
12.1.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . 223
12.1.2. Modelo de regresin logstica . . . . . . . . . . . . . . . 224
12.1.3. Estimacin de los parmetros . . . . . . . . . . . . . . 225
12.1.4. Distribucin asinttica y test de Wald . . . . . . . . . 226
8 NDICE GENERAL
12.1.5. Ajuste del modelo . . . . . . . . . . . . . . . . . . . . . 227
12.1.6. Curva ROC . . . . . . . . . . . . . . . . . . . . . . . . 228
12.1.7. Comparacin entre discriminador lineal y logstico . . . 232
12.2. Anlisis discriminante basado en distancias . . . . . . . . . . . 233
12.2.1. La funcin de proximidad . . . . . . . . . . . . . . . . 234
12.2.2. La regla discriminante DB . . . . . . . . . . . . . . . . 235
12.2.3. La regla DB comparada con otras . . . . . . . . . . . . 236
12.2.4. La regla DB en el caso de muestras . . . . . . . . . . . 236
12.3. Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . 239
13. EL MODELO LINEAL 241
13.1. El modelo lineal . . . . . . . . . . . . . . . . . . . . . . . . . . 241
13.2. Suposiciones bsicas del modelo . . . . . . . . . . . . . . . . . 242
13.3. Estimacin de parmetros . . . . . . . . . . . . . . . . . . . . 243
13.3.1. Parmetros de regresin . . . . . . . . . . . . . . . . . 243
13.3.2. Varianza . . . . . . . . . . . . . . . . . . . . . . . . . . 244
13.4. Algunos modelos lineales . . . . . . . . . . . . . . . . . . . . . 245
13.4.1. Regresin mltiple . . . . . . . . . . . . . . . . . . . . 245
13.4.2. Diseo de un factor . . . . . . . . . . . . . . . . . . . . 246
13.4.3. Diseo de dos factores . . . . . . . . . . . . . . . . . . 246
13.5. Hiptesis lineales . . . . . . . . . . . . . . . . . . . . . . . . . 247
13.6. Inferencia en regresin mltiple . . . . . . . . . . . . . . . . . 250
13.7. Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . 251
14. ANLISIS DE LA VARIANZA (ANOVA) 253
14.1. Diseo de un factor . . . . . . . . . . . . . . . . . . . . . . . . 253
14.2. Diseo de dos factores . . . . . . . . . . . . . . . . . . . . . . 255
14.3. Diseo de dos factores con interaccin . . . . . . . . . . . . . . 257
14.4. Diseos multifactoriales . . . . . . . . . . . . . . . . . . . . . . 259
14.5. Modelos log-lineales . . . . . . . . . . . . . . . . . . . . . . . . 260
14.6. Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . 264
15. ANLISIS DE LA VARIANZA (MANOVA) 265
15.1. Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265
15.2. Estimacin de parmetros . . . . . . . . . . . . . . . . . . . . 266
15.3. Contraste de hiptesis lineales . . . . . . . . . . . . . . . . . . 269
15.4. Manova de un factor . . . . . . . . . . . . . . . . . . . . . . . 271
15.5. Manova de dos factores . . . . . . . . . . . . . . . . . . . . . . 272
NDICE GENERAL 9
15.6. Manova de dos factores con interaccin . . . . . . . . . . . . . 273
15.7. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274
15.8. Otros criterios . . . . . . . . . . . . . . . . . . . . . . . . . . . 276
15.9. Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . 278
16. FUNCIONES ESTIMABLES MULTIVARIANTES 279
16.1. Funciones estimables . . . . . . . . . . . . . . . . . . . . . . . 279
16.2. Teorema de Gauss-Markov . . . . . . . . . . . . . . . . . . . . 280
16.3. Funciones estimables multivariantes . . . . . . . . . . . . . . . 281
16.4. Anlisis cannico de funciones estimables . . . . . . . . . . . . 282
16.4.1. Distancia de Mahalanobis . . . . . . . . . . . . . . . . 282
16.4.2. Coordenadas cannicas . . . . . . . . . . . . . . . . . . 283
16.4.3. Regiones condenciales . . . . . . . . . . . . . . . . . . 284
16.5. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 284
16.6. Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . 288
10 NDICE GENERAL
Prlogo
El Anlisis Multivariante es un conjunto de mtodos estadsticos y matemti-
cos, destinados a describir e interpretar los datos que provienen de la obser-
vacin de varias variables estadsticas, estudiadas conjuntamente.
Este libro es una presentacin convencional de los principales modelos y
mtodos del Anlisis Multivariante, con referencias a algunas contribuciones
recientes.
La exposicin mantiene un cierto rigor matemtico, compensado con una
clara orientacin aplicada. Todos los mtodos se ilustran con ejemplos, que
justican su aplicabilidad. Para examinar algunos datos y ver ms ejemplos
consltese otras publicaciones relacionadas en la pgina web
www.ub.edu,stat,cuadras,cuad.html
Esta obra tiene como precedentes la monografa Mtodos de Anlisis
Factorial (Pub. no. 7, Laboratorio de Clculo, Universidad de Barcelona,
1974), y el libro Mtodos de Anlisis Multivariante (EUNIBAR, 1981; PPU,
1991; EUB, 1996, Barcelona).
El autor se reserva el derecho de ampliar el texto e introducir mejoras.
La primera versin apareci en 2007. La segunda versin (2010) contiene
correcciones, ampliaciones y un ndice alfabtico. La tercera versin (2011)
contiene algunas correcciones y nuevas referencias bibliogrcas. Despus de
una profunda revisin, la cuarta (2012) y quinta versin (2014), incorporan
ms secciones y ejemplos.
Mi agradecimiento a todos aquellos que me han hecho comentarios, en
especial a Jorge Ollero por su detallada revisin de las dos ltimas versiones.
11
12 NDICE GENERAL
Cmo citar este libro:
C. M. Cuadras
Nuevos Mtodos de Anlisis Multivariante
CMC Editions
Barcelona, 2014
Captulo 1
DATOS MULTIVARIANTES
1.1. Introduccin
El anlisis multivariante (AM) es la parte de la estadstica y del anlisis
de datos que estudia, analiza, representa e interpreta los datos que resultan
de observar ms de una variable estadstica sobre una muestra de individuos.
Las variables observables son homogneas y correlacionadas, sin que alguna
predomine sobre las dems. La informacin estadstica en AM es de carc-
ter multidimensional, por lo tanto la geometra, el clculo matricial y las
distribuciones multivariantes juegan un papel fundamental.
La informacin multivariante es una matriz de datos, pero a menudo, en
AM la informacin de entrada consiste en matrices de distancias o similari-
dades, que miden el grado de discrepancia entre los individuos. Comenzare-
mos con las tcnicas que se basan en matrices de datos : j. siendo : el
nmero de individuos y j el de variables.
1.2. Matrices de datos
Supongamos que sobre los individuos .
1
. . . . . .
a
se han observado las
variables A
1
. . . . . A
j
. Sea r
i)
= A
)
(.
i
) la observacin de la variable A
)
sobre
13
14 CAPTULO 1. DATOS MULTIVARIANTES
el individuo .
i
. La matriz de datos multivariantes es
X =
_
_
_
_
_
_
_
r
11
r
1)
r
1j
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
r
i1
r
i)
r
ij
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
r
a1
r
a)
r
aj
_
_
_
_
_
_
_
.
Las las de X se identican con los individuos y las columnas de X con las
variables. Indicaremos:
1. x
i
la la i-sima de X. que operaremos como un vector columna.
2. A
)
la columna ,-sima de X.
3. x = (r
1
. . . . . r
)
. . . . . r
j
)
t
el vector columna de las medias de las va-
riables, siendo
r
)
=
1
:
a

i=1
r
i)
.
4. La matriz simtrica j j de covarianzas muestrales
S =
_
_
_
_
_
:
11
:
12
:
1j
:
21
:
22
:
2j
.
.
.
.
.
.
.
.
.
.
.
.
:
j1
:
j2
:
jj
_
_
_
_
_
.
siendo
:
))
0 =
1
:
a

i=1
(r
i)
r
)
)(r
i)
0 r
)
0 )
la covarianza entre las variables ,. ,
t
. Naturalmente, x y S son medidas
multivariantes de tendencia central y dispersin, respectivamente.
5. La matriz simtrica j j de correlaciones muestrales
H =
_
_
_
_
_
1 :
12
:
1j
:
21
1 :
2j
.
.
.
.
.
.
.
.
.
.
.
.
:
j1
:
j2
1
_
_
_
_
_
.
1.3. MATRIZ DE CENTRADO 15
siendo :
))
0 = cor(A
)
. A
)
0 ) el coeciente de correlacin (muestral) entre
las variables A
)
. A
)
0 . Este coeciente viene dado por
:
))
0 =
:
))
0
:
)
:
)
0
.
donde :
)
. :
)
0 son las desviaciones tpicas.
1.3. Matriz de centrado
Si 1 =(1. . . . . 1)
t
es el vector columna de unos de orden : 1, y J = 11
t
es la matriz : : de unos, ciertas caractersticas multivariantes se expresan
mejor a partir de la matriz de centrado H. denida como
H = I
1
a
J.
Propiedades:
1. Simtrica: H
t
= H.
2. Idempotente: H
2
= H.
3. Los valores propios de H son cero o uno: Hv = `v implica ` = 0 1.
4. 1 es vector propio de valor propio cero: H1 = 0. 1
t
H = 0
t
.
5. El rango de H es : 1. es decir, rango(H) =: 1.
1.4. Medias, covarianzas y correlaciones
Sea X = (r
i)
) la matriz de datos. La matriz de datos centrados se ob-
tiene restando a cada variable su media: X = (r
i)
r
)
). Esta matriz, as
como el vector de medias, las matrices de covarianzas y correlaciones, tienen
expresiones matriciales simples.
1. x
t
=
1
a
1
t
X.
2. Matriz de datos centrados:
X= X1x
t
= HX.
16 CAPTULO 1. DATOS MULTIVARIANTES
3. Matriz de covarianzas:
S =
1
a
X
t
X =
1
a
X
t
HX.
4. Matriz de correlaciones:
H = O
1
SO
1
. S = OHO. (1.1)
siendo O la matriz diagonal con las desviaciones tpicas de las variables.
1.5. Variables compuestas
Algunos mtodos de AM consisten en obtener e interpretar combina-
ciones lineales adecuadas de las variables observables. Una variable compues-
ta 1 es una combinacin lineal de las variables observables con coecientes
a = (c
1
. . . . . c
j
)
t
1 = c
1
A
1
+ +c
j
A
j
.
Si X =[A
1
. . . . . A
j
] es la matriz de datos, tambin podemos escribir
1 = Xa.
Si 2 = /
1
A
1
+ +/
j
A
j
= XI es otra variable compuesta, se verica:
1. 1 = x
t
a. 2=x
t
I.
2. var(1 ) = a
t
Sa, var(2) = I
t
SI.
3. cov(1. 2) = a
t
SI.
Ciertas variables compuestas reciben diferentes nombres segn la tc-
nica multivariante: componentes principales, variables cannicas, funciones
discriminantes, etc. Uno de los objetivos del Anlisis Multivariante es encon-
trar variables compuestas adecuadas que expliquen aspectos relevantes de los
datos.
1.6. Transformaciones lineales
Sea T una matriz j . Una transformacin lineal de la matriz de datos
es
= XT.
Las columnas 1
1
. . . . . 1
q
de son las variables transformadas.
1.7. TEOREMA DE LA DIMENSIN 17
Propiedades:
1. y
t
=x
t
T. donde y es el vector (columna) de medias de .
2. S
Y
= T
t
ST. donde S
Y
es la matriz de covarianzas de .
Demost.:
y
t
=
1
a
1
t
=
1
a
1
t
XT = x
t
T. S
Y
=
1
a

t
H =
1
a
T
t
X
t
HXT = T
t
ST.
1.7. Teorema de la dimensin
La matriz de covarianzas S es (semi)denida positiva, puesto que:
a
t
Sa =
1
a
a
t
X
t
HXa =
1
a
a
t
X
t
HHXa = I
t
I _0.
siendo I =:
12
HXa.
El rango : = rango(S) determina la dimensin del espacio vectorial gene-
rado por las variables observables, es decir, el nmero de variables linealmente
independientes es igual al rango de S.
Teorema 1.7.1 Si : = rango(S) _ j hay : variables linealmente indepen-
dientes y las otras j : son combinacin lineal de estas : variables.
Demost.: Podemos ordenar las j variables de manera que la matriz de cova-
rianzas S
v
de A
1
. . . . . A
v
sea no singular
S
v
=
_
_
_
:
11
:
1v
.
.
.
.
.
.
.
.
.
:
v1
:
vv
_
_
_
.
Sea A
)
. , :. La la (:
)1,
. . . . :
)v
) ser combinacin lineal de las las de S
v
.
Luego las covarianzas :
)1
. . . . . :
)v
entre A
)
y A
1
. . . . . A
v
verican:
:
))
=
v

i=1
c
i
:
)i
. :
)i
=
v

i
0
=1
c
i
0 :
ii
0 .
Entonces
var(A
)

v
i=1
c
i
A
i
) = :
))
+

v
i,i
0
=1
c
i
c
i
0 :
ii
0 2

v
i=1
c
i
:
)i
=

v
i=1
c
i
:
)i
+

v
i=1
c
i
(

v
i
0
=1
c
i
0 :
ii
0 ) 2

v
i=1
c
i
:
)i
=

v
i=1
c
i
:
)i
+

v
i=1
c
i
:
)i
2

v
i=1
c
i
:
)i
= 0.
18 CAPTULO 1. DATOS MULTIVARIANTES
Por lo tanto
A
)

i=1
c
i
A
i
= c ==A
)
= c +
v

i=1
c
i
A
i
donde c es una constante.
Corolario 1.7.2 Si todas las variables tienen varianza positiva (es decir,
ninguna se reduce a una constante) y : = rango(H) _ j. hay : variables
linealmente independientes y las otras j : son combinacin lineal de estas
: variables.
Demost.: De (1.1) deducimos que : = rango(H) = rango(S).
1.8. Medidas globales de variabilidad y de-
pendencia
Una medida de la variabilidad global de las j variables debe ser funcin
de la matriz de covarianzas S. Sean `
1
. . . . . `
j
los valores propios de S. Las
siguientes medidas tienen especial inters en AM.
a) Varianza generalizada:
[S[ =`
1
`
j
.
b) Variacin total:
tr(S) =`
1
+ +`
j
Una medida de dependencia global debe ser funcin de la matriz de co-
rrelaciones H. Un coeciente de dependencia es
j
2
= 1 [H[.
que verica:
1. 0 _ j
2
_ 1.
2. j
2
= 0 si y slo si las j variables estn incorrelacionadas.
3. j
2
= 1 si y slo si hay relaciones lineales entre las variables.
Demost.:
1.9. DISTANCIAS 19
1. Sean `
1
. . . . . `
j
los valores propios de H. Si q y c son las medias ge-
omtrica y aritmtica de j nmeros positivos, se verica q _ c. En-
tonces, de tr(H) =j.
[H[
1j
= (`
1
`
j
)
1j
_ (`
1
+ +`
j
),j = 1.
y por lo tanto 0 _ [H[ _ 1.
2. H = I (matriz identidad) si y slo si las j variables estn incorrela-
cionadas, luego 1 [I[ =0.
3. Si j
2
= 1. es decir, [H[ =0. entonces rango(H) < j y por lo tanto
existen relaciones lineales entre las variables (Teorema 1.7.1).
1.9. Distancias
Algunos mtodos de AM estn basados en criterios geomtricos y en la
nocin de distancia entre individuos y entre poblaciones. Si
X =
_
_
_
x
t
1
.
.
.
x
t
a
_
_
_
es una matriz de datos, con matriz de covarianzas S. las tres deniciones ms
importantes de distancia entre las las x
t
i
= (r
i1
. . . . . r
ij
). x
t
)
= (r
)1
. . . . . r
)j
)
de X son:
1. Distancia eucldea:
d
1
(i. ,) =

_
j

I=1
(r
iI
r
)I
)
2
. (1.2)
2. Distancia de K. Pearson
d
1
(i. ,) =

_
j

I=1
(r
iI
r
)I
)
2
,:
II
. (1.3)
donde :
II
es la covarianza de la variable A
I
.
3. Distancia de Mahalanobis:
d
A
(i. ,) =
_
(x
i
x
)
)
t
S
1
(x
i
x
)
). (1.4)
20 CAPTULO 1. DATOS MULTIVARIANTES
Observaciones
Un cambio de escala de una variable A
)
es una transformacin 1
)
= cA
)
.
donde c es una constante. Comparando las tres distancias, se concluye que
d
A
es muy adecuada en AM debido a que verica:
a) d
1
supone implcitamente que las variables estn incorrelacionadas y
no es invariante por cambios de escala.
b) d
1
tambin supone que las variables estn incorrelacionadas pero es
invariante por cambios de escala.
c) d
A
tiene en cuenta las correlaciones entre las variables y es invariante
por transformaciones lineales no singulares de las variables, en parti-
cular cambios de escala.
Las distancias d
1
y d
1
son casos particulares de d
A
cuando la matriz de
covarianzas es la identidad I
j
y diag(S), respectivamente. En efecto:
d
1
(i. ,)
2
= (x
i
x
)
)
t
(x
i
x
)
).
d
1
(i. ,)
2
= (x
i
x
)
)
t
[diag(S)]
1
(x
i
x
)
).
La distancia de Mahalanobis (al cuadrado) puede tener otras versiones:
1. Distancia de una observacin x
i
al vector de medias x de X :
(x
i
x)
t
S
1
(x
i
x).
2. Distancia entre dos poblaciones representadas por dos matrices de datos
X
a
1
j
.
a
2
j
:
(x y)
t
S
1
(x y).
donde x. y son los vectores de medias y
S = (:
1
S
1
+:
2
S
2
),(:
1
+:
2
)
es la media ponderada de las correspondientes matrices de covarianzas.
1.10. ALGUNOS ASPECTOS DEL CLCULO MATRICIAL 21
1.10. Algunos aspectos del clculo matricial
1.10.1. Descomposicin singular
Sea A un matriz de orden :: con : _ :. Se llama descomposicin en
valores singulares de A a
A = lO
c
Y
t
donde l es matriz :: cuyas columnas son vectores ortonormales, O
c
es
una matriz diagonal : : con los valores singulares
:
1
_ _ :
v
_ :
v+1
= = :
a
= 0.
y Y es una matriz : : ortogonal. Se verica:
1. El rango de A es el nmero : de valores singulares positivos.
2. l contiene los vectores propios (unitarios) de AA
t
. siendo l
t
l = I
a
.
3. Y contiene los vectores propios (unitarios) de A
t
A. siendo Y
t
Y =
YY
t
= I
a
.
4. Si : = : y A es simtrica, entonces l = Y y A = lO
c
l
t
es la
descomposicin espectral de A. Los valores singulares son los valores
propios de A.
1.10.2. Inversa generalizada
Si Aes una matriz cuadrada de orden :: no singular, es decir, rango(A) =
:. existe la matriz inversa A
1
tal que
AA
1
= A
1
A = I
a
.
Si el rango es rango(A) = : < :. o A no es matriz cuadrada, la inversa
no existe, pero existe la inversa generalizada o g-inversa A

.
Sea Aun matriz de orden :: con : _ :. Se llama inversa generalizada
de A o g-inversa, a una matriz A

que verica:
AA

A = A.
La g-inversa no es nica, pero si A

verica adems:
A

AA

= A

. (AA

)
t
= AA

(A

A)
t
= A

A.
22 CAPTULO 1. DATOS MULTIVARIANTES
entonces la g-inversa A

es nica.
Sea rango(A) = : y A = lO
c
Y
t
la descomposicin singular de A. con
O
c
= diag(:
1
. . . . . :
v
. 0. . . . . 0).
Entonces
O

c
= diag(:
1
1
. . . . . :
1
v
. 0. . . . . 0).
y la matriz ::
A

= YO

c
l
t
es una g-inversa de A. En efecto,
AA

A = lO
c
Y
t
YO

c
l
t
lO
c
Y
t
= A.
1.10.3. Aproximacin matricial de rango inferior
Sea A = (c
i)
) un matriz de orden :: con : _ : y rango :. Supongamos
que deseamos aproximar Apor otra matriz A
+
= (c
+
i)
). del mismo orden ::
pero de rango / < :. de modo que
tr[(AA
+
)
t
(AA
+
)] =
n

i=1
a

)=1
(c
i)
c
+
i)
)
2
= mnimo.
Si A = lO
c
Y
t
es la descomposicin en valores singulares de A. entonces la
solucin viene dada por
A
+
= lO
+
c
Y
t
. (1.5)
donde O
+
c
es diagonal con los / primeros valores singulares de A. siendo nulos
los restantes valores, es decir:
O
+
c
= diag(:
1
. . . . . :
I
. 0. . . . . 0).
El mnimo es la suma de los cuadrados de los valores singulares eliminados,
es decir, tr[(O
c
O
+
c
)
2
]. Esta es la llamada aproximacin de Eckart -Young.
Por ejemplo, si
A =
_
_
_
_
1 3 2
2 0 1
4 5 6
3 2 1
_
_
_
_
1.10. ALGUNOS ASPECTOS DEL CLCULO MATRICIAL 23
entonces
A =
_
_
_
_
0.35 0.42 0.52
0.16 0.61 0.41
0.86 0.19 0.38
0.33 0.63 0.63
_
_
_
_
_
_
10.14 0 0
0 2.295 0
0 0 1.388
_
_
_
_
0.50 0.59 0.62
0.86 0.40 0.31
0.06 0.70 0.71
_
_
.
y la aproximacin de rango 2 es
A
+
=
_
_
_
_
0.945 2.480 2.534
2.015 0.397 0.587
3.984 5.320 5.628
2.936 1.386 1.652
_
_
_
_
.
siendo (redondeando a dos decimales)
A
+
=
_
_
_
_
0.35 0.42 0.52
0.16 0.61 0.41
0.86 0.19 0.38
0.33 0.63 0.63
_
_
_
_
_
_
10.14 0 0
0 2.29 0
0 0 0
_
_
_
_
0.50 0.59 0.62
0.86 0.40 0.31
0.06 0.70 0.71
_
_
.
El valor mnimo es 1.388
2
= 1.926, el cuadrado del valor singular eliminado.
En particular, si H es matriz simtrica semidenida positiva de rango : y
H = TO
A
T
t
es la descomposicin espectral (con los valores propios ordenados
de mayor a menor), entonces la mejor aproximacin de rango / < : es la
matriz
H
+
= TO
+
A
T
t
. (1.6)
donde O
+
A
contiene los / primeros valores propios de H.
1.10.4. Transformacin procrustes
Sea A un matriz de orden :: con : _ :. Sea H otra matriz del mismo
orden y escala (misma media y varianza para las columnas). Supongamos que
queremos transformar A en AT.siendo T matriz : : ortogonal, de modo
que AT sea lo ms prxima posible a H, es decir tr[(ATH)
t
(ATH)] =
mnimo. Si obtenemos la descomposicin en valores singulares
A
t
H = lO
c
Y
t
.
entonces la solucin es
T = lY
t
. (1.7)
24 CAPTULO 1. DATOS MULTIVARIANTES
Se conoce AT como la transformacin procrustes.
En el caso general, sean X. dos matrices : j. con : _ j. y vectores
(las) de medias x. y. Deseamos aproximar X a mediante contraccin,
traslacin y rotacin. Consideremos la transformacin

+
= /XT+1c.
donde / es una constante escalar, T es matriz j j ortogonal, 1 es el vector
:1 de unos y c es un vector (la) 1j de constantes. Se trata de encontrar
/. T. c, de modo que
+
sea lo ms prximo posible a en el sentido de
que tr[(
+
)
t
(
+
)] =mnimo. Es decir, para cada par de columnas
x
)
. y
)
se desea hallar el vector
y
+
)
= /T
t
x
)
+c
)
1
lo ms prximo posible a y
)
.
Si X. son las matrices centradas, obtenemos primero la descomposicin
singular
X
t
= lO
c
Y
t
.
Indicando ^
12
= FA
12
F
t
. siendo ^ = FAF
t
la descomposicin espectral
de la matriz simtrica ^ = X
t

t
X. la solucin es
/ = tr(X
t

t
X)
12
,tr(X
t
X). T = lY
t
. c = y /xT.
Una medida del grado de relacin lineal entre X e , llamada coeciente
procrustes, y que toma valores entre 0 y 1, es
1
2
AY
= [tr(X
t

t
X)
12
]
2
,[tr(X
t
X)tr(
t
)]. (1.8)
Este coeciente se puede expresar tambin en trminos de matrices de co-
varianzas, pero no es invariante por transformaciones lineales aplicadas por
separado a X y a .
Si j = 1 el anlisis procrustes equivale a la regresin lineal
+
= /r +
/r. siendo / = :
aj
,:
2
a
y 1
AY
= :
aj
,(:
a
:
j
) los coecientes de regresin y
correlacin ordinarios.
1.11. EJEMPLOS 25
N E S W N E S W
72 66 76 77 91 79 100 75
60 53 66 63 56 68 47 50
56 57 64 58 79 65 70 61
41 29 36 38 81 80 68 58
32 32 35 36 78 55 67 60
30 35 34 26 46 38 37 38
39 39 31 27 39 35 34 37
42 43 31 25 32 30 30 32
37 40 31 25 60 50 67 54
33 29 27 36 35 37 48 39
32 30 34 28 39 36 39 31
63 45 74 63 50 34 37 40
54 46 60 52 43 37 39 50
47 51 52 43 48 54 57 43
Tabla 1.1: Depsitos de corcho (centigramos) de 28 alcornoques en las cuatro
direcciones cardinales.
1.11. Ejemplos
Ejemplo 1.11.1 rboles.
La Tabla 1.1 contiene los datos de : = 28 alcornoques y j = 4 variables,
que miden los depsitos de corcho (en centigramos) en cada uno de los cuatro
puntos cardinales: N, E, S, W.
Medias, covarianzas y correlaciones
Vector de medias: x
t
=(50.536; 46.179; 49.679; 45.179).
Matriz de covarianzas y de correlaciones:
S =
_
_
_
_
280 216 278 218
212 221 165
337 250
218
_
_
_
_
. H =
_
_
_
_
1 0.885 0.905 0.883
1 0.826 0.769
1 0.923
1
_
_
_
_
.
26 CAPTULO 1. DATOS MULTIVARIANTES
Figura 1.1: Distribucin de las variables N, E, S, W y relaciones entre cada
par de variables de la Tabla 1.1.
Variables compuestas
Las siguientes variables compuestas explican diferentes aspectos de la
variabilidad de los datos:
Media Varianza
Contraste eje N-S con eje E-W: 1
1
= ` +o 1 \ 8.857 124.1
Contraste N-S: 1
2
= ` o 0.857 61.27
Contraste E-W: 1
3
= 1 \ 1.000 99.5
Diremos que una variable compuesta est normalizada si la suma de
cuadrados de sus coecientes es 1. La normalizacin evita que la varianza
tome un valor arbitrario. La normalizacin de 1
1
. 1
2
. 1
3
da:
Media Varianza
2
1
= (` +o 1 \),2 4.428 31.03
2
2
= (` o),
_
2 0.606 30.63
2
3
= (1 \),
_
2 0.707 49.75
La normalizacin de las variables consigue que stas tengan varianzas ms
homogneas. La media de 2
1
sugiere que la principal direccin de variabilidad
se pone de maniesto al comparar el eje N-S con el eje E-W.
1.11. EJEMPLOS 27
Visualizacin de datos
En los captulos siguientes veremos mtodos y tcnicas de visualizacin de
datos multivariantes. Como norma general es conveniente, antes de realizar
el anlisis, examinar y revisar los datos. La Figura 1.1 contiene un grco
que permite visualizar la distribucin de las 4 variables de la Tabla 1.1 y las
relaciones lineales, o regresin lineal, entre cada par de variables.
Ejemplo 1.11.2 Familias.
Se consideran : = 25 familias y se miden las variables (vase la Tabla
1.2):
A
1
= long. cabeza primer hijo, A
2
= anchura cabeza primer hijo,
1
1
= long. cabeza segundo hijo, 1
2
= anchura cabeza segundo hijo.
Efectuando un anlisis procrustes para estudiar el grado de coincidencia
de la matriz A (dos primeras columnas) con la matriz 1 (tercera y cuarta
columna), se obtienen los vectores de medias
x = (187.4. 151.12). y=(183.32. 149.36).
los valores / = 0.7166. c = (57.65. 31.17) y la matriz de rotacin
T =
_
0.9971 0.0761
0.0761 0.9971
_
.
Los primeros 4 valores de las matrices y la transformacin procrustes

+
= /XT+1c. son:
1
1
1
2
1
+
1
1
+
2
179 145
201 152
185 149
188 149
185.6 152.3
188.8 148.2
178.9 146.8
180.0 150.4
El coeciente procrustes es 1
2
AY
= 0.5508.
28 CAPTULO 1. DATOS MULTIVARIANTES
A
1
A
2
1
1
1
2
A
1
A
2
1
1
1
2
191 155 179 145
195 149 201 152
181 148 185 149
183 153 188 149
176 144 171 142
208 157 192 152
189 150 190 149
197 159 189 152
188 152 197 159
192 150 187 151
186 161 179 158
179 147 183 147
195 153 174 150
202 160 190 159
194 154 188 151
163 137 161 130
195 155 183 158
186 153 173 148
181 145 182 146
175 140 165 137
192 154 185 152
174 143 178 147
176 139 176 143
197 167 200 158
190 153 187 150
Tabla 1.2: Longitud y anchura del primer y segundo hijo en 25 familias.
1.12. Complementos
La descomposicin en valores singulares de una matriz es una idea senci-
lla pero muy til en Anlisis Multivariante. Generaliza los vectores y valores
propios de una matriz, permite calcular inversas generalizadas y es fundamen-
tal en Anlisis de Correlacin Cannica y en Anlisis de Correspondencias.
Vase Golub y Reinsch (1970).
La aproximacin de una matriz por otra de rango inferior se debe a Eckart
y Young (1936), y es la versin matricial de la reduccin de la dimensin,
uno de los objetivos tpicos del Anlisis Multivariante.
La transformacin procrustes fue estudiada independientemente por N.
Cli y P. H. Schonemann en 1966. Permite transformar una matriz en otra
y estudiar el grado de coincidencia entre dos matrices de datos, mediante
una generalizacin multivariante de la ecuacin de regresin. Vase Gower
(1971b), Mardia et al. (1979) y Seber (1984).
Captulo 2
NORMALIDAD
MULTIVARIANTE
2.1. Introduccin
Los datos en AM suelen provenir de una poblacin caracterizada por
una distribucin multivariante. Sea X =(A
1
. . . . . A
j
) un vector aleatorio con
distribucin absolutamente continua y funcin de densidad ,(r
1
. . . . . r
j
). Es
decir, , verica:
1) ,(r
1
. . . . . r
j
) _ 0. para todo (r
1
. . . . . r
j
) 1
j
.
2)
_
1
p
,(r
1
. . . . . r
j
)dr
1
dr
j
= 1.
Conocida ,(r
1
. . . . . r
j
) podemos encontrar la funcin de densidad de cada
variable marginal A
)
mediante la integral
,
)
(r
)
) =
_
,(r
1
. . . . . r
)
. . . . . r
j
)dr
1
dr
)1
dr
)+1
dr
j
.
Como en el caso de una matriz de datos, es importante el vector de medias
= (1(A
1
). . . . . 1(A
j
))
t
.
donde 1(A
)
) es la esperanza de la variable marginal A
)
. y la matriz de
covarianzas X = (o
i)
). siendo o
i)
=cov(A
i
. A
)
). o
ii
=var(A
i
). Teniendo en
cuenta que los elementos de la matriz (X)(X)
t
. de orden j j. son
29
30 CAPTULO 2. NORMALIDAD MULTIVARIANTE
(A
i
j
i
)(A
)
j
)
) y que cov(A
i
. A
)
) = 1(A
i
j
i
)(A
)
j
)
). la matriz de
covarianzas X = (o
i)
) es
X = 1[(X)(X)
t
].
En este captulo introducimos y estudiamos la distribucin normal mul-
tivariante y tres distribuciones relacionadas con las muestras multivariantes:
Wishart, Hotelling y Wilks.
2.2. Distribucin normal multivariante
2.2.1. Denicin
Sea A una variable aleatoria con distribucin `(j. o
2
). es decir, con media
j y varianza o
2
. La funcin de densidad de A es:
,(r; j. o
2
) =
1
o
_
2:
c

1
2
(aj)
2
o
2
=
(o
2
)
12
_
2:
c

1
2
(aj)
1

2
(aj)
. (2.1)
Evidentemente se verica:
A = j +o1 siendo 1 ~ `(0. 1). (2.2)
donde el smbolo ~ signica distribuido como.
Vamos a introducir la distribucin normal multivariante `
j
(. X) como
una generalizacin de la normal univariante. Por una parte, (2.1) sugiere
denir la densidad de X = (A
1
. . . . . A
j
)
t
~ `
j
(. X) segn:
,(x; . X) =
[X[
12
(
_
2:)
j
c

1
2
(x)
0

1
(x)
. (2.3)
siendo x = (r
1
. . . . . r
j
)
t
. = (j
1
. . . . . j
j
)
t
y X = (o
i)
) una matriz denida
positiva, que como veremos, es la matriz de covarianzas. Por otra parte,
(2.2) sugiere denir la distribucin X = (A
1
. . . . . A
j
)
t
~ `
j
(. X) como una
combinacin lineal de j variables 1
1
. . . . . 1
j
independientes con distribucin
`(0. 1)
A
1
= j
1
+c
11
1
1
+ +c
1j
1
j
.
.
.
.
.
.
.
A
j
= j
j
+c
j1
1
1
+ +c
jj
1
j
.
(2.4)
2.2. DISTRIBUCIN NORMAL MULTIVARIANTE 31
que podemos escribir como
X = +A (2.5)
siendo =(1
1
. . . . . 1
j
)
t
y A = (c
i)
) una matriz j j que verica AA
t
= X.
Proposicin 2.2.1 Las dos deniciones (2.3) y (2.4) son equivalentes.
Demost.: Segn la frmula del cambio de variable
,
A
(r
1
. . . . . r
j
) = ,
Y
(
1
(r). . . . .
j
(r))

Jy
Jx

.
siendo
i
=
i
(r
1
. . . . . r
j
), i = 1. . . . . j, el cambio y J =

0j
0a

el jacobiano del
cambio. De (2.5) tenemos
y = A
1
(x ) =

Jy
Jx

= [A
1
[
y como las j variables 1
i
son `(0. 1) independientes:
,
A
(r
1
. . . . . r
j
) = (1,
_
2:)
j
c

1
2
P
p
i=1
j
2
i
[A
1
[. (2.6)
Pero X
1
= (A
1
)
t
(A
1
) y por lo tanto
y
t
y = (x )
t
(A
1
)
t
(A
1
)(x ) = (x )
t
X
1
(x ). (2.7)
Substituyendo (2.7) en (2.6) y de [A[
1
= [X[
12
obtenemos (2.3).
2.2.2. Propiedades
1. De (2.5) es inmediato que 1(X) = y que la matriz de covarianzas es
1[(X)(X)
t
]=1(A
t
A
t
) = AI
j
A
t
= X.
2. La distribucin de cada variable marginal A
i
es normal univariante:
A
i
~ `(j
i
. o
ii
). i = 1. . . . . j.
Es consecuencia de la denicin (2.4).
32 CAPTULO 2. NORMALIDAD MULTIVARIANTE
3. Toda combinacin lineal de las variables A
1
. . . . . A
j
2 = /
0
+/
1
A
1
+ +/
j
A
j
es tambin normal univariante. En efecto, de (2.4) resulta que 2 es
combinacin lineal de `(0. 1) independientes.
4. Si X =diag(o
11
. . . . . o
jj
) es matriz diagonal, es decir, o
i)
= 0. i ,= ,. en-
tonces las variables (A
1
. . . . . A
j
) son estocsticamente independientes.
En efecto, la funcin de densidad conjunta resulta igual al producto de
las funciones de densidad marginales:
,(r
1
. . . . . r
j
; . X) = ,(r
1
; j
1
. o
11
) ,(r
j
; j
j
. o
jj
)
5. La distribucin de la forma cuadrtica
l = (x )
t
X
1
(x )
es ji-cuadrado con j grados de libertad. En efecto, de (2.5) l =
t
=

j
i=1
1
2
i
es suma de los cuadrados de j variables `(0. 1) indepen-
dientes.
2.2.3. Caso bivariante
Cuando j = 2. la funcin de densidad de la normal bivariante se puede
expresar en funcin de las medias y varianzas j
1
. o
2
1
. j
2
. o
2
2
y del coeciente
de correlacin j =cor(A
1
. A
2
) :
,(r
1
. r
2
) =
1
2o
1
o
2
_
1j
2
exp [
1
2
1
1j
2

(a
1
j
1
)
2
o
2
1
2j
(a
1
j
1
)
o
1
(a
2
j
2
)
o
2
+
(a
2
j
2
)
2
o
2
2
].
siendo 1 < j < +1 (Figura 2.1). Se verica:
1. Hay independencia estocstica si y slo si j = 0.
2. La distribucin de la variable marginal A
i
es `(j
i
. o
2
i
). i = 1. 2.
3. La funcin de densidad de A
2
condicionada a A
1
= r
1
es
,(r
2
[r
1
) =
1
o
2
_
2:(1 j
2
)
exp
_

[(r
2
j
2
j(o
2
,o
1
)(r
1
j
1
)]
2
2o
2
2
(1 j
2
)
_
.
densidad de la distribucin normal `(j
2
+j(o
2
,o
1
)(r
1
j
1
). o
2
2
(1j
2
)).
2.3. DISTRIBUCIN DE WISHART 33
Figura 2.1: Funcin de densidad de una distribucin normal bivariante de
medias 1 y 1, desviaciones tpicas 2 y 2, coeciente de correlacin 0.8.
4. La regresin es de tipo lineal, es decir, las curvas de regresin de la
media
r
2
= 1(A
2
[A
1
= r
1
). r
1
= 1(A
1
[A
2
= r
2
).
son las rectas de regresin.
2.3. Distribucin de Wishart
La distribucin de Wishart es la que sigue una matriz aleatoria simtrica
denida positiva, generaliza la distribucin ji-cuadrado y juega un papel im-
portante en inferencia multivariante. Un ejemplo destacado lo constituye la
distribucin de la matriz de covarianzas S. calculada a partir de una matriz
de datos donde las las son observaciones normales multivariantes.
Denicin
Si las las de la matriz Z
aj
son independientes `
j
(0. X) entonces diremos
que la matriz Q = Z
t
Z es Wishart \
j
(X. :). con parmetros X y : grados
de libertad.
Cuando X es denida positiva y : _ j. la densidad de Q es
,(Q) =c[Q[
(aj1)
exp(
1
2
tr(X
1
Q)).
siendo
c
1
= 2
aj2
:
j(j1)4
[X[
a2
j

i=1
[
1
2
(: + 1 i)].
34 CAPTULO 2. NORMALIDAD MULTIVARIANTE
Propiedades:
1. Si Q
1
. Q
2
son independientes Wishart \
j
(X. :). \
j
(X. :). entonces la
suma Q
1
+Q
2
es tambin Wishart \
j
(X. :+:).
2. Si Q es \
j
(X. :). y separamos las j variables en dos conjuntos de j
1
y
j
2
variables, y consideramos las particiones correspondientes de X y Q
X =
_
X
11
X
12
X
21
X
22
_
. Q =
_
Q
11
Q
12
Q
21
Q
22
_
.
entonces Q
11
es \
j
1
(X
11
. :) y Q
22
es \
j
2
(X
22
. :).
3. Si Q es \
j
(X. :) y T es una matriz j de constantes, entonces T
t
QT
es \
q
(T
t
XT. :). En particular, si t es un vector, entonces
t
t
Qt
t
t
Xt
~
2
a
.
(Recordemos que ~ signica distribuido como).
2.4. Distribucin de Hotelling
Indiquemos por 1
n
a
la distribucin F de Fisher-Snedecor, con : y :
grados de libertad en el numerador y denominador, respectivamente.
La distribucin de Hotelling es una generalizacin multivariante de la
distribucin t de Student.
Denicin
Si y es `
j
(0. I). independiente de Q que es Wishart \
j
(I. :), entonces
1
2
= :y
t
Q
1
y
sigue la distribucin 1
2
de Hotelling, que se indica por 1
2
(j. :).
Propiedades:
1. Si x es `
j
(. X) independiente de ^ que es \
j
(X. :), entonces
1
2
= :(x )
t
^
1
(x ) ~ 1
2
(j. :).
2.5. DISTRIBUCIN DE WILKS 35
2. 1
2
est directamente relacionada con la distribucin F de Fisher-Snedecor
1
2
(j. :) =
:j
:j + 1
1
j
nj+1
.
3. Si x. S son el vector de medias y la matriz de covarianzas de la matriz
X
aj
con las independientes `
j
(. X). entonces
(: 1)(x)
t
S
1
(x) ~ 1
2
(j. : 1).
y por lo tanto
: j
j
(x)
t
S
1
(x) ~ 1
j
aj
.
4. Si x. S
1
.y. S
2
son el vector de medias y la matriz de covarianzas de
las matrices X
a
1
j
.
a
2
j
. respectivamente, con las independientes
`
j
(. X). y consideramos la estimacin conjunta centrada (o insesgada)
de X

S= (:
1
S
1
+:
2
S
2
),(:
1
+:
2
2).
entonces
1
2
=
:
1
:
2
:
1
+:
2
(xy)
t

S
1
(x y) ~ 1
2
(j. :
1
+:
2
2)
y por lo tanto
:
1
+:
2
1 j
(:
1
+:
2
2)j
1
2
~ 1
j
a
1
+a
2
1j
.
2.5. Distribucin de Wilks
La distribucin F con : y : grados de libertad surge considerando el
cociente
1 =
,:
1,:
.
donde . 1 son ji-cuadrados estocsticamente independientes con : y : gra-
dos de libertad. Si consideramos la distribucin
=

+1
.
la relacin entre y 1
n
a
. as como la inversa 1
a
n
, es
1
n
a
=
:
:

1
. 1
a
n
=
:
:
1

.
La distribucin de Wilks generaliza esta relacin.
36 CAPTULO 2. NORMALIDAD MULTIVARIANTE
Denicin
Si las matrices A. H de orden jj son independientes Wishart \
j
(X. :).
\
j
(X. :), respectivamente, con : _ j. la distribucin del cociente de deter-
minantes
=
[A[
[A+H[
es, por denicin, la distribucin lambda de Wilks, que indicaremos por
(j. :. :).
Propiedades:
1. 0 _ _ 1 y adems no depende de X. Por lo tanto, podemos
estudiarla suponiendo X = I.
2. Su distribucin es equivalente a la del producto de : variables beta
independientes:
(j. :. :) ~
a

i=1
l
i
.
donde l
i
es beta 1(
1
2
(:+i j).
1
2
j). (Obsrvese que debe ser : _ j).
3. Los parmetros se pueden permutar manteniendo la misma distribu-
cin. Concretamente: (j. :. :) ~ (:. :+: j. j).
4. Para valores 1 y 2 de j y :. la distribucin de equivale a la distribucin
F, segn las frmulas:
1

n
a
~ 1
a
n
(j = 1)
1

nj+1
j
~ 1
j
nj+1
(: = 1)
1
_

n1
a
~ 1
2a
2(n1)
(j = 2)
1
_

nj+1
j
~ 1
2j
2(nj+1)
(: = 2)
(2.8)
5. En general, una transformacin de equivale, exacta o asintticamente,
a la distribucin F. Si (j. :. ) es Wilks con : relativamente grande,
consideremos
1 =
:: 2`
j
1
1c

1c
(2.9)
con : = :(j++1),2, ` = (j2),4. : =
_
(j
2

2
4),(j
2
+
2
5).
Entonces 1 sigue asintticamente la distribucin F con j y (::2`)
grados de libertad (g. l.), (Rao, 1973, p.556).
2.6. RELACIONES ENTRE WILKS, HOTELLING Y F 37
0.0 0.2 0.4 0.6 0.8 1.0
0.00
0.05
0.10
0.15
0.20
x
y
Figura 2.2: Un ejemplo de funcin de densidad lambda de Wilks.
2.6. Relaciones entre Wilks, Hotelling y F
A. Probemos la relacin entre y 1 cuando j = 1. Sean ~
2
n
. 1 ~
2
a
independientes. Entonces = ,( + 1) ~ (1. :. :) y 1 = (:,:),1 =
(:,:)1 ~ 1
n
a
. Tenemos que = (,1),(,1 + 1) = 1,(1 + 1). luego
1 = ,(1) =(:,:),(1) ~ 1
n
a
. Mas si 1 ~ 1
n
a
entonces 1,1 ~ 1
a
n
.
Hemos demostrado que:
1 (1. :. :)
(1. :. :)
:
:
~ 1
a
n
. (2.10)
B. Recordemos que y es un vector columna y por lo tanto yy
t
es una matriz
j j. Probemos la relacin entre las distribuciones 1
2
y 1. Tenemos 1
2
=
:y
t
Q
1
y. donde Q es \
j
(I.:). y yy
t
es \
j
(I.1). Se cumple
[Q+yy
t
[ = [Q[[1+y
t
Q
1
y[.
que implica
1+y
t
Q
1
y = [Q+yy
t
[,[Q[ = 1,.
donde = [Q[,[Q+yy
t
[ ~ (j. :. 1) ~ (1. :+1j. j). Adems y
t
Q
1
y =
1,1 = (1),. De (2.10) tenemos que y
t
Q
1
y(:+1j),j ~ 1
j
n+1j
y por lo tanto
1
2
= :y
t
Q
1
y ~
:j
:+ 1 j
1
j
n+1j
.
38 CAPTULO 2. NORMALIDAD MULTIVARIANTE
2.7. Distribucin multinomial
Supongamos que la poblacin es la reunin disjunta de / sucesos ex-
cluyentes
1
. . . . .
I
.
=
1
+ +
I
.
con probabilidades positivas 1(
1
) = j
1
. . . . . 1(
I
) = j
I
. vericando
j
1
+ +j
I
= 1.
Consideremos : observaciones independientes y sea (,
1
. . . . . ,
I
) el vector con
las frecuencias observadas de
1
. . . . .
I
. siendo
,
1
+ +,
I
= :. (2.11)
La distribucin multinomial es la distribucin de f = (,
1
. . . . . ,
I
) con funcin
de densidad discreta
,(,
1
. . . . . ,
I
) =
:!
,
1
! ,
I
!
j
)
1
1
j
)
k
I
.
En el caso / = 2 tenemos la distribucin binomial.
Indiquemos = (j
1
. . . . . j
I
)
t
.
1. El vector de medias de f es j = :.
2. La matriz de covarianzas de f es C = :[diag()
t
]. Es decir:
c
ii
= :j
i
(1 j
i
).
c
i)
= :j
i
j
)
si i ,= ,.
Puesto que C1 = 0. la matriz C es singular. La singularidad se debe a
que se verica (2.11). Una g-inversa de C es (vase Seccin 1.10):
C

=
1
:
diag(j
1
1
. . . . . j
1
I
). (2.12)
Puesto que C(I 11
t
) = C, es fcil ver que otra g-inversa es
C

=
1
:
diag(j
1
1
. . . . . j
1
I
)(I 11
t
).
2.8. DISTRIBUCIONES CON MARGINALES DADAS 39
2.8. Distribuciones con marginales dadas
Sea H(r. ) la funcin de distribucin bivariante de dos variables aleato-
rias (A. 1 ). La funcin H es
H(r. ) = 1(A _ r. 1 _ ).
Consideremos las distribuciones marginales, es decir, las distribuciones uni-
variantes de A. 1 :
1(r) = 1(A _ r) = H(r. ).
G() = 1(1 _ ) = H(. ).
Un procedimiento para la obtencin de modelos de distribuciones bivariantes
consiste en encontrar H a partir de 1. G y posiblemente algn parmetro.
Si suponemos A. 1 independientes, una primera distribucin es
H
0
(r. ) = 1(r)G().
M. Frchet introdujo las distribuciones bivariantes
H

(r. ) = max1(r) +G() 1. 0.


H
+
(r. ) = mn1(r). G().
y demostr la desigualdad
H

(r. ) _ H(r. ) _ H
+
(r. ).
Cuando la distribucin es H

. entonces se cumple la relacin funcional entre


A. 1
1(A) +G(1 ) = 1.
y la correlacin entre A. 1 (si existe) j

es mnima. Cuando la distribucin


es H
+
, entonces se cumple la relacin funcional entre A. 1
1(A) = G(1 ).
y la correlacin entre A. 1 (si existe) j
+
es mxima. Previamente W. Ho-
eding haba probado la siguiente frmula para la covarianza
cov(A. 1 ) =
_
1
2
[H(r. ) 1(r)G()]drd.
40 CAPTULO 2. NORMALIDAD MULTIVARIANTE
y demostrado la desigualdad
j

_ j _ j
+
.
donde j

. j y j
+
son las correlaciones entre A. 1 cuando la distribucin
bivariante es H

. H y H
+
. respectivamente.
Posteriormente, diversos autores han propuesto distribuciones bivariantes
paramtricas a partir de las marginales 1. G, que en algunos casos contienen a
H

. H
0
y H
+
. Escribiendo 1. G. H para indicar 1(r). G(). H(r. ). algunas
familias son:
1. Farlie-Gumbel-Morgenstern:
H
0
= 1G[1 +o(1 1)(1 G)]. 1 _ o _ 1.
2. Clayton-Oakes:
H
c
= [1
c
+G
c
1]
1c
. 1 _ c < .
3. Ali-Mikhail-Haq:
H
0
= 1G,[1 o(1 1)(1 G)] 1 _ o _ 1.
4. Cuadras-Aug:
H
0
= (mn1. G)
0
(1G)
10
. 0 _ o _ 1.
5. Familia de correlacin:
H
0
(r. ) = o1(mnr. ) + (1 o)1(r)J(). 1 _ o _ 1.
siendo J() = [G() o1()],(1 o) una funcin de distribucin uni-
variante.
2.9. Complementos
La distribucin normal multivariante es, con diferencia, la ms utilizada
en anlisis multivariante. Textos como Anderson (1956), Rao (1973), Rencher
(1995, 1998), se basan, casi exclusivamente, en la suposicin de normalidad.
2.9. COMPLEMENTOS 41
Ms recientemente se han estudiado generalizaciones, como las distribuciones
elpticas, cuya densidad es de la forma
,(x) = [X[
12
q((x )
t
X
1
(x )).
donde q es una funcin positiva creciente. Otras distribuciones importantes
son la multinomial y la Dirichlet.
Cuando se estudiaron muestras normales multivariantes, pronto se plante
la necesidad de encontrar la distribucin de la matriz de covarianzas, y de
algunos estadsticos apropiados para realizar contrastes de hiptesis multi-
variantes. As fue como J. Wishart, H. Hotelling y S. S. Wilks propusieron
las distribuciones que llevan sus nombres, en los aos 1928, 1931 y 1932,
respectivamente.
El estudio de las distribuciones con marginales dadas proporciona un
mtodo de construccin de distribuciones bivariantes y multivariantes.
Algunas referencias son: Hutchinson y Lai (1990), Joe (1997), Nelsen
(2006), Cuadras y Aug (1981), Cuadras (1992a, 2006, 2009). La frmula
de Hoeding admite la siguiente generalizacin (Cuadras, 2002, 2010, 2014):
cov(c(A). ,(1 )) =
_
1
2
[H(r. ) 1(r)G()]dc(r)d,().
Vase tambin Quesada-Molina (1992).
42 CAPTULO 2. NORMALIDAD MULTIVARIANTE
Captulo 3
INFERENCIA
MULTIVARIANTE
3.1. Conceptos bsicos
Sea ,(x. 0) un modelo estadstico. La funcin score se dene como
.(x. 0) =
J
J0
log ,(x. 0).
Una muestra multivariante est formada por las : las x
t
1
. . . . . x
t
a
indepen-
dientes de una matriz de datos X
aj
. La funcin de verosimilitud es
1(X. 0) =
a

i=1
,(x
i
. 0).
La funcin score de la muestra es
.(X. 0) =
a

i=1
J
J0
log ,(x
i
. 0).
La matriz de informacin de Fisher 1(0) es la matriz de covarianzas de
.(X. 0). Cuando un modelo estadstico es regular se verica:
a) 1(.(X. 0)) = 0. b) 1(0) =1[.(X. 0).(X. 0)
t
].
Un estimador t(X) de 0 es insesgado si 1[t(X)] = 0. La desigualdad de
Cramr-Rao dice que si cov(t(X)) es la matriz de covarianzas de t(X), en-
tonces
cov(t(X)) _1(0)
1
.
43
44 CAPTULO 3. INFERENCIA MULTIVARIANTE
en el sentido de que la diferencia cov(t(X))1(0)
1
es una matriz semi-
denida positiva.
Un estimador

0 del parmetro desconocido 0 es mximo verosmil si ma-


ximiza la funcin 1(X. 0). En condiciones de regularidad, podemos obtener

0 resolviendo la ecuacin
a

i=1
J
J0
log ,(x
i
. 0) = 0.
Entonces el estimador mximo verosmil

0
a
obtenido a partir de una muestra
de tamao : satisface:
a) Es asintticamente normal con vector de medias 0 y matriz de cova-
rianzas (:1
1
(0))
1
. donde 1
1
(0) es la matriz de informacin de Fisher
para una sola observacin.
b) Si t(X) es estimador insesgado de 0 tal que cov(t(X)) = (:1
1
(0))
1
.
entonces

0
a
= t(X).
c)

0
a
converge en probabilidad a 0.
3.2. Estimacin de medias y covarianzas
Si las : las x
t
1
. . . . . x
t
a
de X
aj
son independientes `
j
(j. X) la funcin
de verosimilitud es
1(X. . X) = det(2:X)
a2
exp
_

1
2
a

i=1
(x
i
)
t
X
1
(x
i
)
_
Sea d
i
= x
i
x. Se verica

a
i=1
(x
i
)
t
X
1
(x
i
) =

a
i=1
d
i
t
X
1
d
i
+:(x )
t
X
1
(x )
= tr [X
1

a
i=1
d
i
d
i
t
] +:(x )
t
X
1
(x ).
Por lo tanto el logaritmo de 1 se puede expresar como
log 1(X. . X) =
a
2
log det(2:X)
a
2
tr(X
1
S)
a
2
(x )
t
X
1
(x ).
Derivando matricialmente respecto de y de X
1
tenemos
0
0
log 1 = :X
1
(x ) = 0.
0
0
1
log 1 =
a
2
[XS (x )(x )
t
] = 0.
3.3. CONTRASTE DE HIPTESIS MULTIVARIANTES 45
Las estimaciones mximo-verosmiles de . X son pues
= x.

X = S.
Sin embargo S no es estimador insesgado de X. La estimacin centrada es

S = X
t
HX,(: 1).
Si slo es desconocido, la matriz de informacin de Fisher es
1() = 1(:X
1
(x ):X
1
(x )
t
) = :X
1
y como cov(x) = X,:. tenemos que x alcanza la cota de Cramr-Rao.
Probaremos ms adelante que:
1. x es `
j
(. X,:).
2. x y S son estocsticamente independientes.
3. :S sigue la distribucin de Wishart.
3.3. Contraste de hiptesis multivariantes
Un primer mtodo para construir contrastes sobre los parmetros de una
poblacin normal, se basa en las propiedades anteriores, que dan lugar a
estadsticos con distribucin conocida (ji-cuadrado, F).
3.3.1. Test sobre la media: una poblacin
Supongamos que las las de X
aj
son independientes `
j
(. X). Sea
0
un vector de medias conocido. Queremos realizar un test sobre la hiptesis
H
0
: =
0
1. Si X es conocida, como x es `
j
(. X,:). el estadstico de contraste es
:(x
0
)
t
X
1
(x
0
) ~
2
j
.
2. Si X es desconocida, como (: 1)(x)
t
S
1
(x) ~ 1
2
(j. : 1). el
estadstico de contraste es
: j
j
(x
0
)
t
S
1
(x
0
) ~ 1
j
aj
. (3.1)
En ambos casos se rechaza H
0
para valores grandes signicativos del es-
tadstico.
46 CAPTULO 3. INFERENCIA MULTIVARIANTE
3.3.2. Test sobre la media: dos poblaciones
Supongamos ahora que tenemos dos matrices de datos independientes
X
a
1
j
.
a
2
j
que provienen de distribuciones `
j
(
1
. X). `
j
(
2
. X). Quere-
mos construir un test sobre la hiptesis
H
0
:
1
=
2
.
1. Si X es conocida, como (xy) es `
j
(
1

2
. (1,:
1
+ 1,:
2
)X) el es-
tadstico de contraste es
:
1
:
2
:
1
+:
2
(xy)
t
X
1
(x y) ~
2
j
.
2. Si X es desconocida, el estadstico de contraste es
:
1
+:
2
1 j
(:
1
+:
2
2)j
:
1
:
2
:
1
+:
2
(xy)
t

S
1
(x y) ~ 1
j
a
1
+a
2
1j
.
siendo

S = (:
1
S
1
+:
2
S
2
),(:
1
+:
2
2) la estimacin centrada (es decir,
insesgada) de X.
3.3.3. Comparacin de varias medias
Supongamos que las las de q matrices de datos son independientes, y
que provienen de la observacin de q poblaciones normales multivariantes:
matriz orden media covarianza distribucion
X
1
:
1
j x
1
S
1
`
j
(
1
. X)
X
2
:
2
j x
2
S
2
`
j
(
2
. X)
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
X
j
:
j
j x
j
S
j
`
j
(
j
. X)
(3.2)
El vector de medias generales y la estimacin centrada (o insesgada) de
la matriz de covarianzas comn X son
x =
1
:
j

i=1
:
i
x
i
.

S =
1
: q
j

i=1
:
i
S
i
.
siendo S
i
= :
1
i
X
t
i
HX
i
y : =

j
i=1
:
i
.
3.4. TEOREMA DE COCHRAN 47
Deseamos construir un test para decidir si podemos aceptar la hiptesis
de igualdad de medias
H
0
:
1
=
2
= =
j
.
Introducimos las siguientes matrices:
H =

j
i=1
:
i
(x
i
x)(x
i
x)
t
(dispersion entre grupos)
V =

j
i=1

a
i
c=1
(x
ic
x
i
)(x
ic
x
i
)
t
(dispersion dentro grupos)
T =

j
i=1

a
i
c=1
(x
ic
x)(x
ic
x)
t
(dispersion total)
Se verica que V = (: q)

S y la relacin:
T = H+V.
Si la hiptesis nula es cierta, se verica adems
H ~\
j
(X. q 1). V~\
j
(X. : q). T ~\
j
(X. : 1).
H. V son estocasticamente independientes.
Por lo tanto, si H
0
es cierta
=
[V[
[V+H[
~ (j. : q. q 1).
Rechazaremos H
0
si es un valor pequeo y signicativo, o si la transfor-
macin a una 1 es grande y signicativa.
3.4. Teorema de Cochran
Algunos resultados de la seccin anterior son una consecuencia del Teo-
rema 3.4.2, conocido como teorema de Cochran.
Lema 3.4.1 Sea X(:j) una matriz de datos `
j
(. X) y u. v dos vectores
: 1 tales que u
t
u = v
t
v =1. u
t
v =0.
1. Si = 0 entonces y
t
= u
t
X es `
j
(0. X).
2. y
t
= u
t
X es independiente de z
t
= v
t
X.
48 CAPTULO 3. INFERENCIA MULTIVARIANTE
Demost.: Sean x
t
1
. . . . . x
t
a
las las (independientes) de X. Si u = (n
1
. . . . . n
a
)
t
entonces y
t
= u
t
X =

a
i=1
n
i
x
i
es normal multivariante con = 0 y matriz
de covarianzas
1(yy
t
) = 1(
a

i=1
n
i
x
i
)(
a

i=1
n
i
x
i
)
t
= 1(
a

i,)=1
n
i
n
)
x
i
x
t
)
)
=
a

i,)=1
n
i
n
)
1(x
i
x
t
)
) =
a

i=1
n
2
i
1(x
i
x
t
i
)
=
a

i=1
n
2
i
X = X.
Anlogamente, si v = (
1
. . . . .
a
)
t
. z
t
= v
t
X es tambin normal.
Las esperanzas de y. z son: 1(y) = (

a
i=1
n
i
). 1(z) = (

a
i=1

i
). Las
covarianzas entre y y z son:
1[(y1(y))(z1(z))
t
] =
a

i=1
n
i

)
1[(x
i
)(x
)
)
t
]
=
a

i=1
n
i

i
1[(x
i
)(x
)
)
t
] = u
t
vX = 0.
lo que prueba la independencia estocstica entre y y z.
Teorema 3.4.2 Sea X(:j) una matriz de datos `
j
(0. X) y sea C(::)
una matriz simtrica.
1. X
t
CX tiene la misma distribucin que una suma ponderada de matrices
\
j
(X. 1). donde los pesos son valores propios de C.
2. X
t
CX es Wishart \
j
(X. :) si y slo si C es idempotente y rango(C) =
:.
Demost.: Sea
C =
a

i=1
`
i
u
i
u
t
i
la descomposicin espectral de C, es decir, Cu
i
= `
i
u
i
. Entonces
X
t
CX =

`
i
y
t
i
y
i
3.4. TEOREMA DE COCHRAN 49
Por el Lema 3.4.1 anterior, las las y
t
i
de la matriz
=
_
_
_
y
t
1
.
.
.
y
t
a
_
_
_
=
_
_
_
u
t
1
X
.
.
.
u
t
a
X
_
_
_
.
son tambin independientes `
j
(0. X) y cada y
i
y
t
i
es \
j
(X. 1).
Si C
2
= C entonces Cu
i
= `
i
u
i
siendo `
i
= 0 1. Por lo tanto : =tr(C)
y
X
t
CX =
v

i=1
y
i
y
t
i
~ \
j
(X. :).
El siguiente resultado se conoce como teorema de Craig, y junto con el
teorema de Cochran, permite construir contrastes sobre vectores de medias.
Teorema 3.4.3 Sea X(:j) una matriz de datos `
j
(. X) y sean C
1
(::).
C
2
(::) matrices simtricas. Entonces X
t
C
1
X es independiente de X
t
C
2
X
si C
1
C
2
= 0.
Demost.:
C
1
=
a

i=1
`
i
(1)u
i
u
t
i
. X
t
C
1
X =

`
i
(1)y
i
y
t
i
.
C
2
=
a

)=1
`
)
(2)v
)
v
t
)
. X
t
C
2
X =

`
)
(2)z
)
z
t
)
.
siendo y
t
i
= u
t
i
X. z
t
)
= v
t
)
X. Por otra parte
C
1
C
2
=
a

i=1
a

i=1
`
i
(1)`
)
(2)u
i
u
t
i
v
)
v
t
)
= 0 = `
i
(1)`
)
(2)u
t
i
v
)
= 0. \i. ,.
Si `
i
(1)`
)
(2) ,= 0. entonces por el Lema 3.4.1, y
t
i
(1 j) = u
t
i
X es indepen-
diente de z
t
)
(1 j) = v
t
)
X. As X
t
C
1
X es independiente de X
t
C
2
X.
Una primera consecuencia del teorema anterior es la independencia entre
vectores de medias y matrices de covarianzas muestrales. En el caso univa-
riante j = 1 es el llamado teorema de Fisher.
Teorema 3.4.4 Sea X(: j) una matriz de datos `
j
(. X). Entonces:
1. La media x es `
j
(. X,:).
50 CAPTULO 3. INFERENCIA MULTIVARIANTE
2. La matriz de covarianzas S = X
t
HX,: verica :S ~ \
j
(X. : 1).
3. x y S son estocsticamente independientes.
Demost.: Consideremos C
1
= :
1
11
t
. Tenemos rango(C
1
) = 1. X
t
C
1
X =
xx
t
. Consideremos tambin C
2
= H. Como C
1
C
2
= 0 deducimos que x es
independiente de S.
Por otra parte, H1 = 0 y H tiene el valor propio 1 con multiplicidad
: 1. As u
i
. vector propio de valor propio 1. es ortogonal a 1. resultando
que y
t
i
= u
t
i
X verica 1(y
t
i
) = (

a
c=1
n
ic
) = (u
t
i
1) =0 = 0. Si u
)
es otro vector propio, y
i
. y
)
son independientes (Lema 3.4.1). Tenemos que
:S =

a1
i=1
y
i
y
t
i
. donde los y
i
y
t
i
son \
j
(X. 1) independientes.
Teorema 3.4.5 Sean X
i
. matrices de datos independientes de orden :
i
j
con distribucin `
j
(
i
. X). i = 1. . . . q. : =

j
i=1
:
i
. Si la hiptesis nula
H
0
:
1
=
2
= =
j
es cierta, entonces H. V son independientes con distribuciones Wishart:
H ~\
j
(X. q 1). V~\
j
(X. : q).
Demost.: Escribimos las matrices de datos como una nica matriz
X =
_

_
X
1
.
.
.
X
j
_

_
.
Sean
1
1
= (1. . . . . 1. 0. . . . . 0). . . . . 1
j
= (0. . . . 0. 1. . . . 1).
1 =

j
i=1
1
i
= (1. . . . . 1. . . . . 1. . . . . 1).
donde 1
1
tiene :
1
unos y el resto ceros, etc. Sean tambin
I
i
= diag(1
i
). I =

j
i=1
I
i
.
H
i
= I
i
:
1
i
1
i
1
t
i
C
1
=

j
i=1
H
i
. C
2
=

j
i=1
:
1
i
1
i
1
t
i
:
1
11
t
.
Entonces
C
2
1
= C
1
. C
2
2
= C
2
. C
1
C
2
= 0.
rango(C
1
) = : q. rango(C
2
) = q 1.
V = X
t
C
1
X. H = X
t
C
2
X.
El resultado es consecuencia de los Teoremas 3.4.2 y 3.4.3.
3.5. CONSTRUCCIN DE CONTRASTES DE HIPTESIS 51
3.5. Construccin de contrastes de hiptesis
3.5.1. Razn de verosimilitud
Supongamos que la funcin de densidad de (A
1
. . . . . A
j
) es ,(x. 0). donde
x 1
j
y 0 O. siendo O una regin paramtrica de dimensin geomtrica
:. Sea O
0
O una subregin paramtrica de dimensin :, y planteamos el
test de hiptesis
H
0
: 0 O
0
vs H
1
: 0 OO
0
.
Sea x
1
. . . . . x
a
una muestra de valores independientes de X, consideremos la
funcin de verosimilitud
1(x
1
. . . . . x
a
; o) =
a

i=1
,(x
i
. 0)
y sea

0 el estimador mximo verosmil de 0 O. Consideremos anloga-
mente

0
0
, el estimador de mxima verosimilitud de 0 O
0
. Tenemos que

0
maximiza 1 sin restricciones y

0
0
maximiza 1 cuando se impone la condicin
de que pertenezca a O
0
. La razn de verosimilitud es el estadstico
`
1
=
1(x
1
. . . . . x
a
;

0
0
)
1(x
1
. . . . . x
a
;

0)
.
que satisface 0 _ `
1
_ 1. Aceptamos la hiptesis H
0
si `
1
es prxima a 1 y
aceptamos la alternativa H
1
si `
1
es signicativamente prximo a 0.
El test basado en `
1
tiene muchas aplicaciones en AM, pero en la mayora
de los casos su distribucin es desconocida. Existe un importante resultado
(atribuido a Wilks), que dice que la distribucin de -2 veces el logaritmo de
`
1
es ji-cuadrado con : : g.l. cuando el tamao de la muestra : es grande.
Teorema 3.5.1 Bajo ciertas condiciones de regularidad, se verica:
2 log `
1
es asintticamente
2
vc
.
donde : = dim(O
0
) < : = dim(O).
Entonces rechazamos la hiptesis H
0
cuando 2 log `
1
sea grande y sig-
nicativo. Veamos dos ejemplos.
52 CAPTULO 3. INFERENCIA MULTIVARIANTE
Test de independencia
Si (A
1
. . . . . A
j
) es `
j
(. X). y queremos hacer un test sobre la indepen-
dencia estocstica de las variables, entonces
O
0
= (. X
0
). : = 2j.
O = (. X). : = j +j(j + 1),2.
donde X
0
es diagonal. O
0
contiene las j medias de las variables y las j
varianzas. X es cualquier matriz denida positiva. Se demuestra (Seccin
5.4.2) que
2 log `
1
= :log [H[.
donde H es la matriz de correlaciones. El estadstico :log [H[ es asintti-
camente ji-cuadrado con
= j +j(j + 1),2 2j = j(j 1),2 g. l.
Si las variables son independientes, tendremos que H - I. :log [H[ -0. y
es probable que
2
q
= :log [H[ no sea signicativo.
Test de comparacin de medias
Consideremos el test de comparacin de medias planteado en la Seccin
3.3.3. Ahora
O
0
= (. X). : = j +j(j + 1),2.
O = (
1
. . . . .
j
). X). : = qj +j(j + 1),2.
donde X es matriz denida positiva y (vector) es la media comn cuando
H
0
es cierta. Hay qj +j(j +1),2 parmetros bajo H
1
. y j +j(j +1),2 bajo
H
0
. Se demuestra la relacin
`
1
=
a2
.
donde = [V[,[T[ es la lambda de Wilks y : = :
1
+ +:
j
. Por lo tanto
:log es asintticamente ji-cuadrado con : : = (q 1)j g.l. cuando la
hiptesis H
0
es cierta.
3.5. CONSTRUCCIN DE CONTRASTES DE HIPTESIS 53
3.5.2. Principio de unin-interseccin
Es un principio general que permite construir contrastes multivariantes
a partir de contrastes univariantes y se aplica a diversas situaciones. Co-
mo ejemplo, planteemos la hiptesis nula multivariante H
0
: =
0
co-
mo un test univariante. Sea A
o
= Xa una variable compuesta con media
j(c) =
t
a. El test univariante H
0
(c) : j(c) =j
0
(c) contra la alternativa
H
1
(c) : j(c) ,=j
0
(c) se resuelve mediante la t de Student
t(c) =
_
: 1
r(c) j
0
(c)
:(c)
~ t
a1
.
donde r(c) = x
t
a es la media muestral de A
o
y :
2
(c) = a
t
Sa es la varian-
za. Aceptaremos H
0
: =
0
si aceptamos todas las hiptesis univariantes
H
0
(c), y nos decidiremos por la alternativa H
1
: ,=
0
si aceptamos una
sola de las alternativas H
1
(c), es decir, formalmente (principio de unin-
interseccin):
H
0
=
o
H
0
(c). H
1
= '
o
H
1
(c).
As rechazaremos H
0
si la mxima t(c) resulta signicativa. Pues bien, la 1
2
de Hotelling (Seccin 3.3.1) es precisamente el cuadrado de esta mxima t
de Student, que al ser tomada sobre todas las combinaciones lineales, ya no
sigue la distribucin t de Student si j 1.
Teorema 3.5.2 En el test sobre el vector de medias, la 1
2
de Hotelling y la
t de Student estn relacionadas por
1
2
= max
o
t
2
(c).
Demost.: (x
0
) es un vector columna y podemos escribir t
2
(c) como
t
2
(c) = (: 1)
a
t
(x
0
)(x
0
)
t
a
a
t
Sa
Sea A = (x
0
)(x
0
)
t
matriz de orden j j y rango 1. Si v
1
satisface
Av
1
= `
1
Sv
1
entonces `
1
= max(v
t
Av,v
t
Sv). De (x
0
)(x
0
)
t
v
1
=
`
1
Sv
1
resulta que S
1
(x
0
)(x
0
)
t
v
1
= `
1
v
1
y de la identidad
S
1
(x
0
)(x
0
)
t
(S
1
(x
0
)) = (x
0
)
t
S
1
(x
0
)(S
1
(x
0
))
vemos que `
1
= (x
0
)
t
S
1
(x
0
). v
1
= S
1
(x
0
). Por lo tanto
1
2
= max
o
t
2
(c) = (: 1)(x
0
)
t
S
1
(x
0
).
54 CAPTULO 3. INFERENCIA MULTIVARIANTE
Amerohelea fascinata A. pseudofascinata
:
1
= 9 :
2
= 6
A
1
A
2
1.38 1.64
1.40 1.70
1.24 1.72
1.36 1.74
1.38 1.82
1.48 1.82
1.54 1.82
1.38 1.90
1.56 2.08
A
1
A
2
1.14 1.78
1.20 1.86
1.18 1.96
1.30 1.96
1.26 2.00
1.28 2.00
Tabla 3.1: A
1
= long. antena, A
2
= long. ala (en mm), para dos muestras de
tamao :
1
= 9 y :
2
= 6.
3.6. Ejemplos
Ejemplo 3.6.1 Moscas.
Se desean comparar dos especies de moscas de agua: Amerohelea fasci-
nata, Amerohelea pseudofascinata. En relacin a las variables A
1
= long.
antena, A
2
= long. ala (en mm), para dos muestras de tamaos :
1
= 9 y
:
2
= 6. se han obtenido las matrices de datos de la Tabla 3.1.
Vectores de medias (valores multiplicados por 100):
x = (141.33. 180.44)
t
. y = (122.67. 192.67)
t
.
Matrices (no centradas) de covarianzas:
S
1
=
_
87.11 71.85
71.85 150.03
_
S
2
=
_
32.88 36.22
36.22 64.89
_
.
Estimacin centrada de la matriz de covarianzas comn:

S =
1
13
(9S
1
+ 6S
2
) =
_
75.49 66.46
66.46 133.81
_
.
Distancia de Mahalanobis entre las dos muestras:
1
2
= (x y)
t

S
1
(x y) = 15.52.
3.6. EJEMPLOS 55
Estadstico 1
2
:
1
2
=
6 9
6 + 9
1
2
= 55.87
Estadstico 1 :
9 + 6 1 2
2(9 + 6 2)
1
2
= 25.78 ~ 1
2
12
Decisin: rechazamos la hiptesis de que las dos especies son iguales (nivel
de signicacin = 0.001).
Ejemplo 3.6.2 Flores.
Comparacin de las especies virginica, versicolor, setosa de ores del
gnero Iris (datos de R. A. Fisher, Tabla 3.2), respecto a las variables que
miden longitud y anchura de spalos y ptalos:
A
1
= longitud de spalo, A
2
= anchura de spalo,
A
3
= longitud de ptalo, A
4
= anchura de ptalo.
Vectores de medias y tamaos muestrales:
I. setosa (5.006. 3.428. 1.462. 0.246) :
1
= 50
I. versicolor (5.936. 2.770. 4.260. 1.326) :
2
= 50
I. virginica (6.588. 2.974. 5.550. 2.026) :
3
= 50
Matriz dispersin entre grupos:
H =
_
_
_
_
63.212 19.953 165.17 71.278
11.345 57.23 22.932
436.73 186.69
80.413
_
_
_
_
Matriz dispersin dentro grupos:
V =
_
_
_
_
38.956 13.630 24.703 5.645
16.962 8.148 4.808
27.322 6.284
6.156
_
_
_
_
56 CAPTULO 3. INFERENCIA MULTIVARIANTE
A
1
A
2
A
3
A
4
A
1
A
2
A
3
A
4
A
1
A
2
A
3
A
4
5.1 3.5 1.4 0.2 7.0 3.2 4.7 1.4 6.3 3.3 6.0 2.5
4.9 3.0 1.4 0.2 6.4 3.2 4.5 1.5 5.8 2.7 5.1 1.9
4.7 3.2 1.3 0.2 6.9 3.1 4.9 1.5 7.1 3.0 5.9 2.1
4.6 3.1 1.5 0.2 5.5 2.3 4.0 1.3 6.3 2.9 5.6 1.8
5.0 3.6 1.4 0.2 6.5 2.8 4.6 1.5 6.5 3.0 5.8 2.2
5.4 3.9 1.7 0.4 5.7 2.8 4.5 1.3 7.6 3.0 6.6 2.1
4.6 3.4 1.4 0.3 6.3 3.3 4.7 1.6 4.9 2.5 4.5 1.7
5.0 3.4 1.5 0.2 4.9 2.4 3.3 1.0 7.3 2.9 6.3 1.8
4.4 2.9 1.4 0.2 6.6 2.9 4.6 1.3 6.7 2.5 5.8 1.8
4.9 3.1 1.5 0.1 5.2 2.7 3.9 1.4 7.2 3.6 6.1 2.5
5.4 3.7 1.5 0.2 5.0 2.0 3.5 1.0 6.5 3.2 5.1 2.0
4.8 3.4 1.6 0.2 5.9 3.0 4.2 1.5 6.4 2.7 5.3 1.9
4.8 3.0 1.4 0.1 6.0 2.2 4.0 1.0 6.8 3.0 5.5 2.1
4.3 3.0 1.1 0.1 6.1 2.9 4.7 1.4 5.7 2.5 5.0 2.0
5.8 4.0 1.2 0.2 5.6 2.9 3.6 1.3 5.8 2.8 5.1 2.4
5.7 4.4 1.5 0.4 6.7 3.1 4.4 1.4 6.4 3.2 5.3 2.3
5.4 3.9 1.3 0.4 5.6 3.0 4.5 1.5 6.5 3.0 5.5 1.8
5.1 3.5 1.4 0.3 5.8 2.7 4.1 1.0 7.7 3.8 6.7 2.2
5.7 3.8 1.7 0.3 6.2 2.2 4.5 1.5 7.7 2.6 6.9 2.3
5.1 3.8 1.5 0.3 5.6 2.5 3.9 1.1 6.0 2.2 5.0 1.5
5.4 3.4 1.7 0.2 5.9 3.2 4.8 1.8 6.9 3.2 5.7 2.3
5.1 3.7 1.5 0.4 6.1 2.8 4.0 1.3 5.6 2.8 4.9 2.0
4.6 3.6 1.0 0.2 6.3 2.5 4.9 1.5 7.7 2.8 6.7 2.0
5.1 3.3 1.7 0.5 6.1 2.8 4.7 1.2 6.3 2.7 4.9 1.8
4.8 3.4 1.9 0.2 6.4 2.9 4.3 1.3 6.7 3.3 5.7 2.1
5.0 3.0 1.6 0.2 6.6 3.0 4.4 1.4 7.2 3.2 6.0 1.8
5.0 3.4 1.6 0.4 6.8 2.8 4.8 1.4 6.2 2.8 4.8 1.8
5.2 3.5 1.5 0.2 6.7 3.0 5.0 1.7 6.1 3.0 4.9 1.8
5.2 3.4 1.4 0.2 6.0 2.9 4.5 1.5 6.4 2.8 5.6 2.1
4.7 3.2 1.6 0.2 5.7 2.6 3.5 1.0 7.2 3.0 5.8 1.6
4.8 3.1 1.6 0.2 5.5 2.4 3.8 1.1 7.4 2.8 6.1 1.9
5.4 3.4 1.5 0.4 5.5 2.4 3.7 1.0 7.9 3.8 6.4 2.0
5.2 4.1 1.5 0.1 5.8 2.7 3.9 1.2 6.4 2.8 5.6 2.2
5.5 4.2 1.4 0.2 6.0 2.7 5.1 1.6 6.3 2.8 5.1 1.5
4.9 3.1 1.5 0.2 5.4 3.0 4.5 1.5 6.1 2.6 5.6 1.4
5.0 3.2 1.2 0.2 6.0 3.4 4.5 1.6 7.7 3.0 6.1 2.3
5.5 3.5 1.3 0.2 6.7 3.1 4.7 1.5 6.3 3.4 5.6 2.4
4.9 3.6 1.4 0.1 6.3 2.3 4.4 1.3 6.4 3.1 5.5 1.8
4.4 3.0 1.3 0.2 5.6 3.0 4.1 1.3 6.0 3.0 4.8 1.8
5.1 3.4 1.5 0.2 5.5 2.5 4.0 1.3 6.9 3.1 5.4 2.1
5.0 3.5 1.3 0.3 5.5 2.6 4.4 1.2 6.7 3.1 5.6 2.4
4.5 2.3 1.3 0.3 6.1 3.0 4.6 1.4 6.9 3.1 5.1 2.3
4.4 3.2 1.3 0.2 5.8 2.6 4.0 1.2 5.8 2.7 5.1 1.9
5.0 3.5 1.6 0.6 5.0 2.3 3.3 1.0 6.8 3.2 5.9 2.3
5.1 3.8 1.9 0.4 5.6 2.7 4.2 1.3 6.7 3.3 5.7 2.5
4.8 3.0 1.4 0.3 5.7 3.0 4.2 1.2 6.7 3.0 5.2 2.3
5.1 3.8 1.6 0.2 5.7 2.9 4.2 1.3 6.3 2.5 5.0 1.9
4.6 3.2 1.4 0.2 6.2 2.9 4.3 1.3 6.5 3.0 5.2 2.0
5.3 3.7 1.5 0.2 5.1 2.5 3.0 1.1 6.2 3.4 5.4 2.3
5.0 3.3 1.4 0.2 5.7 2.8 4.1 1.3 5.9 3.0 5.1 1.8
Tabla 3.2: Longitud y anchura de spalos y ptalos de 3 especies del gnero
Iris: Setosa, Versicolor, Virginica.
3.6. EJEMPLOS 57
Lambda de Wilks:
=
[V[
[V+H[
= 0.02344~(4. 147. 2)
Transformacin a una 1 aplicando (2.9):
1 = 198.95 ~ 1
8
288
Decisin: las diferencias entre las tres especies son muy signicativas.
Ejemplo 3.6.3 Paradoja de Rao.
Consideremos los siguientes datos (tamaos muestrales, medias, desvia-
ciones tpicas, matrices de covarianzas) de j = 2 variables A (longitud del
fmur), 1 (longitud del hmero), obtenidas sobre dos poblaciones (Anglo-
indios, Indios) .
Medias A 1
:
1
= 27 460.4 335.1
:
2
= 20 444.3 323.2
Diferencia 16.1 11.9
Desv. tpicas 23.7 18.2
Matriz covarianzas

S =
_
561.7 374.2
374.2 331.24
_
Correlacin: : = 0.867
Suponiendo normalidad, los contrastes t de comparacin de medias para
cada variable por separado son:
Variable A t = 2.302 (45 g.l.) (j = 0.0259).
Variable 1 t = 2.215 (45 g.l.) (j = 0.0318).
A un nivel de signicacin del 0.05 se concluye que hay diferencias signica-
tivas para cada variable por separado.
Utilicemos ahora las dos variables conjuntamente. La distancia de Maha-
lanobis entre las dos poblaciones es d
t

S
1
d =0.4777. siendo d =(16.1 ,11.9).
La 1
2
de Hotelling es
1
2
=
27 20
27 + 20
0.4777 = 5.488
que convertida en una F da:
1 =
27 + 20 1 2
(27 + 20 2)2
5.488 = 2.685 (2 y 44 g.l.) (j = 0.079).
58 CAPTULO 3. INFERENCIA MULTIVARIANTE
Esta F no es signicativa al nivel 0.05. Por lo tanto ambos contrastes uni-
variantes resultan signicativos, pero el test bivariante no, contradiciendo
la creencia de que un test multivariante debera proporcionar mayor signi-
cacin que un test univariante.
Interpretemos geomtricamente esta paradoja (conocida como paradoja
de Rao). Con nivel de signicacin 0.05, y aplicando el test 1
2
de Hotelling,
aceptaremos la hiptesis nula bivariante si el vector diferencia d = (r )
t
pertenece a la elipse
:
1
:
2
:
1
+:
2
d
t
_
561. 7 374. 2
374. 2 331. 24
_
1
d _ 3.2.
donde 3.2 es el punto crtico para una F con 2 y 44 g. l. As pues no hay
signicacin si r. verican la inecuacin
0. 04 036 9r
2
0. 0912 1r + 0. 06845 6
2
_ 3.2.
Anlogamente, en el test univariante y para la primera variable r, la
diferncia d = r
1
r
2
debe vericar

_
:
1
:
2
:
1
+:
2
(
d
:
1
)

_ 2.
siendo 2 el valor crtico para una t con 45 g. l. Procederamos de forma similar
para la segunda variable . Obtenemos as las cuatro rectas
Variable r : 0. 143r = 2. Variable : 0. 1862 = 2.
En la Figura 3.1 podemos visualizar la paradoja. Los valores de la dife-
rencia que estn a la derecha de la recta vertical r
a
son signicativos para
la variable r. Anlogamente los que estn por encima de la recta horizontal
r
j
lo son para la . Por otra parte, todos los valores que estn fuera de la
elipse (regin F) son signicativos para las dos variables. Hay casos en que
r. por separado no son signicativos, pero conjuntamente s. No obstante,
existe una pequea regin por encima de r
j
y a la derecha de r
a
que cae
dentro de la elipse. Para los datos del ejemplo, se obtiene el punto sealado
con el signo +, para el cual r e son signicativas pero no (r. ). As r e
son signicativas si el punto se encuentra en el cuadrante A. (Una simetra
con respecto al origen nos permitira considerar otras dos rectas y la regin
B).
3.7. ANLISIS DE PERFILES 59
Figura 3.1: Un test de comparacin de poblaciones bivariante puede resultar
menos signicativo que dos test univariantes con las variables marginales.
Pues bien, el test con r y el test con por separado, son contrastes t
distintos del test 1
2
empleado con (r. ). equivalente a una F. Tales con-
trastes no tienen por qu dar resultados compatibles. Las probabilidades de
las regiones de rechazo son distintas. Adems, la potencia del test con (r. )
es superior, puesto que la probabilidad de la regin F es mayor que las pro-
babilidades sumadas de las regiones A y B.
Para ms ejemplos de comparacin de medias, consltese Baillo y Gran
(2008).
3.7. Anlisis de perles
Supongamos que las las de una matriz de datos X(: j) provienen de
una distribucin `
j
(. X). Estamos interesados en establecer una hiptesis
lineal sobre = (j
1
. . . . . j
j
)
t
. Por ejemplo, la hiptesis de que las medias
univariantes son iguales:
H
0
: j
1
= = j
j
.
Esta hiptesis slo tiene sentido si las variables observables son comparables.
60 CAPTULO 3. INFERENCIA MULTIVARIANTE
Consideremos la matriz de orden (j 1) j
C =
_
_
_
_
_
1 1 0 0
0 1 1 0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
0 0 0 1
_
_
_
_
_
.
La hiptesis es equivalente a
H
0
: C = 0.
Aceptar H
0
es lo mismo que decir que las medias de las j 1 variables
A
1
A
2
. A
2
A
3
. . . . . A
j1
A
j
son iguales a cero. Por lo tanto aplicaremos
el test de la 1
2
de Hotelling a la matriz de datos = XC. Bajo la hiptesis
nula
1
2
= (:1)(Cx)
t
(CSC
t
)
1
(Cx) = :(Cx)
t
(C

SC
t
)
1
(Cx) ~ 1
2
(j1. :1).
siendo

S la matriz de covarianzas con correccin de sesgo. Aplicando (3.1)
con j 1 variables
: j + 1
j 1
(Cx)
t
(C

SC
t
)
1
(Cx) ~ 1
j1
aj+1
(3.3)
Rechazaremos la hiptesis nula si el valor F resulta signicativo.
Ejemplo 3.7.1 rboles.
Consideremos los datos del ejemplo 1.11.1. Queremos estudiar si las me-
dias poblacionales de N, E, S, W son iguales. En este caso
C =
_
_
1 1 0 0
0 1 1 0
0 0 1 1
_
_
y la 1
2
de Hotelling es:
1
2
= :(Cx)
t
(C

SC
t
)
1
Cx = 20.74
Bajo la hiptesis nula, sigue una 1
2
(3. 23). Convertida en una F se obtiene
1(3. 25) = [25,(27 3)]1
2
= 6.40. El valor crtico al nivel 0.05 es 2.99. Hay
diferencias signicativas a lo largo de las cuatro direcciones cardinales.
3.8. COMPLEMENTOS 61
3.8. Complementos
C. Stein prob que la estimacin = x de de la distribucin `
j
(. X)
puede ser inadmisible si j _ 3. en el sentido de que no minimiza
j

i=1
( j
i
j
i
)
2
.
y propuso una mejora de aquel estimador. B. Efron y C. Morris explicaron
esta peculiaridad desde una perspectiva bayesiana. S. M. Stigler di una
interesante explicacin en trminos de regresin, justicando por qu j _ 3
(consultar Cuadras, 1991).
El principio de unin-interseccin es debido a S. N. Roy, pero no siempre
es aplicable. El test de mxima-verosimilitud es atribuido a S. Wilks y es
ms general. Es interesante notar que 2 log se puede interpretar como una
distancia de Mahalanobis. Otros contrastes semejantes fueron propuestos por
C. R. Rao y A. Wald. Vase Cuadras y Fortiana (1993b), Rao (1973).
En general, es necesario corregir los estadsticos de contraste multiplican-
do por una constante a n de conseguir contrastes insesgados (la potencia
del test ser siempre ms grande que el nivel de signicacin). Por ejemplo,
es necesario hacer la modicacin de G. E. P. Box sobre el test de Bartlett
para comparar matrices de covarianzas (Seccin 7.5.2).
Para datos de tipo mixto o no normales, se puede plantear la comparacin
de dos poblaciones utilizando distancias entre las observaciones, calculando
coordenadas principales mediante MDS, y a continuacin aplicando el modelo
de regresin multivariante. Vase Cuadras y Fortiana (2004), Cuadras (2008).
62 CAPTULO 3. INFERENCIA MULTIVARIANTE
Captulo 4
ANLISIS DE
CORRELACIN CANNICA
4.1. Introduccin
En este captulo estudiamos la relacin multivariante entre vectores aleato-
rios. Introducimos y estudiamos las correlaciones cannicas, que son gene-
ralizaciones de las correlaciones simple y mltiple.
Tenemos tres posibilidades para relacionar dos variables:
La correlacin simple si A. 1 son dos v.a.
La correlacin mltiple si 1 es una v.a. y X = (A
1
. . . . . A
j
) es un vector
aleatorio.
La correlacin cannica si X = (A
1
. . . . . A
j
) e = (1
1
. . . . . 1
q
) son dos
vectores aleatorios.
4.2. Correlacin mltiple
Queremos relacionar una variable respuesta 1 con j variables cuantitati-
vas explicativas A
1
. . . . . A
j
. que suponemos centradas. El modelo de regresin
mltiple consiste en encontrar la combinacin lineal

1 = ,
1
A
1
+ +,
j
A
j
63
64 CAPTULO 4. ANLISIS DE CORRELACIN CANNICA
que mejor se ajuste a la variable 1. Sea X la matriz de covarianzas de X
y = (o
1
. . . . . o
j
)
t
el vector columna con las covarianzas o
)
=cov(1. A
)
).
, = 1. . . . . j. El criterio de ajuste es el de los mnimos cuadrados.
Teorema 4.2.1 Los coecientes

d = (

,
1
. . . . .

,
j
) que minimizan la cantidad
1(1

1 )
2
verican la ecuacin

d = X
1
. (4.1)
Demost.:
c(d) = 1(1

1 )
2
= 1(1 )
2
+1(

1 )
2
21(1

1 )
= var(1 ) +d
t
Xd 2d
t

Derivando vectorialmente respecto de d e igualando a 0


J
J,
c(d) = 2Xd 2 = 0.
La variable prediccin es

1 = X

d =

,
1
A
1
+ +

,
j
A
j
. Si ponemos
1 =

1 +

1 .
entonces

1 es la variable residual.
La correlacin mltiple entre 1 y A
1
. . . . . A
j
es, por denicin, la corre-
lacin simple entre 1 y la mejor prediccin

1 = X

d.
Se indica por 1 =cor(1.

1 ). Se verica:
1. 0 _ 1 _ 1.
2. 1 = 1 si 1 es combinacin lineal de A
1
. . . . . A
j
.
3. 1 = 0 si 1 est incorrelacionada con cada una de las variables A
i
.
Teorema 4.2.2 La variable prediccin

1 . residual

1 y la correlacin mlti-
ple 1 cumplen:
1.

1 e

1 son variables incorrelacionadas.
2. var(1 ) =var(

1 )+var(

1 ).
4.3. CORRELACIN CANNICA 65
3. 1
2
=var(

1 ),var(1 ).
Demost.:
1. Es consecuencia de X

d = . En efecto,
cov(

1 .

1 ) = 1(

1

1 ) = 1(

d
t
X
t
(1

d
t
X)) =

d
t

d
t
X

d = 0.
2. Es consecuencia inmediata de 1).
3. De
cov(1.

1 ) = cov
_
1.
j

i=1

,
i
A
i
_
=
j

i=1

,
i
o
i
=

d
t
=

d
t
X

d = var(

1 ).
obtenemos
1
2
=
cov
2
(1.

1 )
var(1 )var(

1 )
=
var(

1 )
var(1 )
. (4.2)
4.3. Correlacin cannica
Mediante el Anlisis de Correlacin Cannica (ACC) se relacionan dos
conjuntos de variables. ACC tiene aplicaciones en Ecologa (relacionar es-
pecies con condiciones ambientales), en Psicometra (tests mentales con ca-
ractersticas fsicas) y en Economa (importaciones con exportaciones).
Sean X = (A
1
. . . . . A
j
). = (1
1
. . . . . 1
q
) dos vectores aleatorios de di-
mensiones j y . Planteemos el problema de encontrar dos variables com-
puestas
l = Xa = c
1
A
1
+ +c
j
A
j
. \ = I = /
1
1
1
+ +/
q
1
q
.
siendo a = (c
1
. . . . . c
j
)
t
. I = (/
1
. . . . . /
q
)
t
tales que la correlacin cor(l. \ )
entre ambas sea mxima.
Indiquemos por S
11
. S
22
las matrices de covarianzas (muestrales) del primer
y segundo conjunto, es decir. de las variables X. . respectivamente, y sea
S
12
la matriz j con las covarianzas de las variables X con las variables
. Es decir:
X
X S
11
S
12
S
21
S
22
66 CAPTULO 4. ANLISIS DE CORRELACIN CANNICA
donde S
21
= S
t
12
.
Podemos suponer
var(l) = a
t
S
11
a =1. var(\ ) = I
t
S
22
I =1.
As el problema se reduce a:
maximizar a
t
S
12
I restringido a a
t
S
11
a = 1. I
t
S
22
I =1.
Los vectores de coecientes a. I que cumplen esta condicin son los primeros
vectores cannicos. La mxima correlacin entre l. \ es la primera correlacin
cannica :
1
.
Teorema 4.3.1 Los primeros vectores cannicos satisfacen las ecuaciones
S
12
S
1
22
S
21
a = `S
11
a.
S
21
S
1
11
S
12
I = `S
22
I.
(4.3)
Demost.: Consideremos la funcin
c(a. I) = a
t
S
12
I
A
2
(a
t
S
11
a1)
j
2
(I
t
S
22
I1).
donde `. j son multiplicadores de Lagrange. Entonces de Jc,Ja =Jc,JI = 0
obtenemos las dos ecuaciones
S
12
I`S
11
a = 0. S
21
ajS
22
I = 0. (4.4)
Multiplicando la primera por a
t
y la segunda por I
t
. tenemos
a
t
S
12
I =`a
t
S
11
a. I
t
S
21
a =jI
t
S
22
I.
que implican ` = j. As pues, de la segunda ecuacin en (4.4), I =`
1
S
1
22
S
21
a.
y substituyendo en la primera ecuacin obtenemos `
1
S
12
S
1
22
S
21
a`S
11
a = 0.
Prescindiendo de `
1
. pues es un factor multiplicativo arbitrario, y operando
anlogamente con la otra ecuacin, obtenemos (4.3).
Teorema 4.3.2 Los vectores cannicos normalizados por a
t
S
11
a = 1 y por
I
t
S
22
I = 1. estn relacionados por
a = `
12
S
1
11
S
12
I.
I = `
12
S
1
22
S
21
a.
Adems la primera correlacin cannica es :
1
=
_
`
1
. donde `
1
es el primer
valor propio de S
1
11
S
12
S
1
22
S
21
.
4.3. CORRELACIN CANNICA 67
Demost.: Tenemos de (4.4) que a =cS
1
11
S
12
I. donde c es una constante a
determinar. Partimos de que a
t
S
11
a =1 y para c = `
12
resulta que:
a
t
S
11
a = `
12
a
t
S
11
S
1
11
S
12
I
= `
12
a
t
S
12
I
= `
12
`
12
a
t
S
12
S
1
22
S
21
a
= `
1
`a
t
S
11
a
= 1.
La correlacin es :
1
= a
t
S
12
I y como 1 = `
12
a
t
S
12
I deducimos que :
2
1
= `
1
.
es decir, :
1
=
_
`
1
.
De hecho, las ecuaciones en valores y vectores propios tienen otras solu-
ciones. Concretamente hay : = mnj. parejas de vectores cannicos
a
1
. I
1
. . . . . a
n
. I
n
. que proporcionan las variables y correlaciones cannicas
l
1
= Xa
1
. \
1
= I
1
. :
1
= cor(l
1
. \
1
).
l
2
= Xa
2
. \
2
= I
2
. :
2
= cor(l
2
. \
2
).
.
.
.
.
.
.
.
.
.
l
n
= Xa
n
. \
n
= I
n
. :
n
= cor(l
n
. \
n
).
Teorema 4.3.3 Supongamos :
1
:
2
:
n
. Entonces:
1. Tanto las variables cannicas l
1
. . . . . l
n
como las variables cannicas
\
1
. . . . . \
n
estn incorrelacionadas.
2. La primera correlacin cannica :
1
= co:(l
1
. \
1
) es la mxima co-
rrelacin entre una combinacin lineal de X y una combinacin lineal
de .
3. La segunda correlacin cannica :
2
= co:(l
2
. \
2
) es la mxima co-
rrelacin entre las combinaciones lineales de X incorrelacionadas con
l
1
y las combinaciones lineales de incorrelacionadas con \
1
.
4. co:(l
i
. \
)
) = 0 si i ,= ,.
Demost.: Sea i ,= ,. Expresando (4.3) para a
I
. `
I
. / = i. ,. y multiplicando
por a
t
)
y por a
t
i
tenemos que
a
t
)
S
12
S
1
22
S
21
a
i
= `
i
a
t
)
S
11
a
i
.
a
t
i
S
12
S
1
22
S
21
a
)
= `
)
a
t
i
S
11
a
)
.
68 CAPTULO 4. ANLISIS DE CORRELACIN CANNICA
Restando: (`
i
`
)
)a
t
i
S
11
a
)
= 0 =a
t
i
S
11
a
)
= 0 =cor(l
i
. l
)
) = 0.
Por otra parte, expresando (4.3) como
S
1
11
S
12
S
1
22
S
21
a
i
= `
i
a
i
. S
1
22
S
21
S
1
11
S
12
I
)
= `
)
I
)
.
y multiplicando por I
t
)
S
21
y por a
t
i
S
12
llegamos a
I
t
)
S
21
S
1
11
S
12
S
1
22
S
21
a
i
= `
i
I
t
)
S
21
a
i
.
a
t
i
S
12
S
1
22
S
21
S
1
11
S
12
I
)
= `
)
a
t
i
S
12
I
)
.
Restando: (`
i
`
)
)a
t
i
S
12
I
)
= 0 =a
t
i
S
12
I
)
= 0 =cor(l
i
. \
)
) = 0.
4.4. Correlacin cannica y descomposicin
singular
Podemos formular una expresin conjunta para los vectores cannicos
utilizando la descomposicin singular de una matriz. Supongamos j _ .
consideremos la matriz j
Q = S
12
11
S
12
S
12
22
y hallemos Q = lAY
t
. la descomposicin singular de Q, donde l es una
matriz j con columnas ortonormales, Y es una matriz ortogo-
nal, y A es una matriz diagonal con los valores singulares de Q. Es decir,
l
t
l = I
q
. Y
t
Y = Y
t
Y = I
q
. A =diag(`
1
. . . . . `
q
).
Teorema 4.4.1 Los vectores cannicos y correlaciones cannicas son
a
i
= S
12
11
u
i
. I
i
= S
12
22
v
i
. :
i
= `
i
.
Demost.:
QQ
t
= S
12
11
S
12
S
12
22
S
12
22
S
21
S
12
11
= lA
2
l
t
y por lo tanto
S
12
11
S
12
S
1
22
S
21
S
12
11
u
i
= `
2
i
u
i
Multiplicando por S
12
11
S
1
11
S
12
S
1
22
S
21
(S
12
11
u
i
) = `
2
i
(S
12
11
u
i
)
y comparando con resultados anteriores, queda probado el teorema.
Se puede probar que las correlaciones cannicas son invariantes por trans-
formaciones lineales. En consecuencia pueden calcularse a partir de las ma-
trices de correlaciones.
4.5. SIGNIFICACIN DE LAS CORRELACIONES CANNICAS 69
4.5. Signicacin de las correlaciones canni-
cas
Hemos encontrado las variables y correlaciones cannicas a partir de las
matrices de covarianzas y correlaciones muestrales, es decir, a partir de mues-
tras de tamao :. Naturalmente, todo lo que hemos dicho vale si sustituimos
S
11
. S
12
. S
22
por las versiones poblacionales X
11
. X
12
. X
22
. Sean
j
1
_ j
2
_ _ j
n
las : = mnj. correlaciones cannicas obtenidas a partir de X
11
. X
12
. X
22
,
soluciones de:

X
12
X
1
22
X
21
j
2
X
11

= 0.
Si queremos decidir cules son signicativas, supongamos normalidad multi-
variante, indiquemos j
0
= 1 y planteemos el test
H
I
0
: j
I
j
I+1
= = j
n
= 0. (/ = 0. 1. . . . . :).
que equivale a rango(X
1
22
X
21
) = /. El test de Bartlett-Lawley demuestra que
si H
I
0
es cierta, entonces
1
I
=
_
: 1 /
1
2
(j + + 1) +
I

i=1
:
2
i
_
log
_
n

i=I+1
(1 :
2
i
)
_
es asintticamente ji-cuadrado con (: /)(j /) g.l. Este test se aplica
secuencialmente: si 1
i
es signicativo para i = 0. 1. . . . . / 1. pero 1
I
no es
signicativo, entonces se acepta H
I
0
.
4.6. Contraste de hiptesis de independencia
Suponiendo normalidad, armar que X es independiente de consiste
en plantear
H
0
: X
12
= 0. H
1
: X
12
,= 0.
Podemos resolver este test de hiptesis de dos maneras.
70 CAPTULO 4. ANLISIS DE CORRELACIN CANNICA
4.6.1. Razn de verosimilitud
Si la hiptesis es cierta, entonces el test de razn de verosimilitud (Seccin
3.5.1) se reduce al estadstico
=
[S[
[S
11
[[S
22
[
=
[H[
[H
11
[[H
22
[
.
que sigue la distribucin lambda de Wilks (j. : 1 . ). equivalente a
(. : 1 j. ). Rechazaremos H
0
si es pequea y signicativa (Mardia
et al. 1979, Rencher, 1998).
Es fcil probar que es funcin de las correlaciones cannicas
= [I S
1
22
S
21
S
1
11
S
12
[ =
n

i=1
(1 :
2
i
).
4.6.2. Principio de unininterseccin
Consideremos las variables l = c
1
A
1
+ +c
j
A
j
.\ = /
1
1
1
+ +/
j
1
q
.
La correlacin entre l. \ es
j(l. \ ) =
a
t
X
12
I
_
aX
11
a
_
I
t
X
22
I
.
H
0
equivale a j(l. \ ) = 0 para todo l. \. La correlacin muestral es
:(l. \ ) =
a
t
S
12
I
_
a
t
S
11
a
_
I
t
S
22
I
.
Aplicando el principio de unin interseccin (Seccin 3.5.2), aceptaremos H
0
si :(l. \ ) no es signicativa para todo l. \. y aceptaremos H
1
si :(l. \ ) es
signicativa para algn par l. \. Este criterio nos lleva a estudiar la signi-
cacin de
:
1
= max
l,\
:(l. \ ).
esto es, de la primera correlacin cannica. Por tanto, el test es:
H
0
: j
1
= 0. H
1
: j
1
0.
Existen tablas especiales para decidir si :
1
es signicativa (Morrison, 1976),
pero tambin se puede aplicar el estadstico 1
0
de Bartlett-Lawley.
4.7. EJEMPLOS 71
4.7. Ejemplos
Ejemplo 4.7.1 Familias.
Se consideran los datos de : = 25 familias para las variables (vase la
Tabla 1.2):
A
1
= long. cabeza primer hijo, A
2
= anchura cabeza primer hijo,
1
1
= long. cabeza segundo hijo, 1
2
= anchura cabeza segundo hijo,
La matriz de covarianzas es:
S =
_
_
_
_
98.720 57.232 67.512 50.576
57.232 49.785 42.481 38.596
67.512 42.481 94.057 49.644
50.576 38.596 49.644 44.390
_
_
_
_
.
Entonces:
S
11
=
_
98.720 57.232
57.232 49.785
_
. S
12
=
_
67.512 50.576
42.481 38.596
_
.
S
21
=
_
67.512 42.481
50.576 38.596
_
. S
22
=
_
94.057 49.644
49.644 44.390
_
.
Las races de la ecuacin cuadrtica:
[S
12
S
1
22
S
21
`S
11
[ = 0
son: `
1
= 0.7032, `
2
= 0.1060. y por tanto las correlaciones cannicas son:
:
1
= 0.838 6. :
2
= 0.3256.
Los vectores cannicos normalizados segn a
t
S
11
a =1 y I
t
S
22
I =1. son:
a
1
= (0.0376. 0.0923)
t
. a
2
= (0.1666. 0.2220)
t
.
I
1
= (0.0108. 0.1347)
t
. I
2
= (0.1575. 0.1861)
t
.
Las variables cannicas con varianza 1 son:
l
1
= 0.0376A
1
+ 0.0923A
2
. \
1
= 0.01081
1
+ 0.13471
2
. (:
1
= 0.8386).
l
2
= 0.1666A
1
0.2220A
2
. \
2
= 0.15751
1
0.18611
2
. (:
2
= 0.3256).
72 CAPTULO 4. ANLISIS DE CORRELACIN CANNICA
La dependencia entre (A
1
. A
2
) y (1
1
. 1
2
) viene dada principalmente por la
relacin entre (l
1
. \
1
) con correlacin 0.838 6. ms alta que cualquier cor-
relacin entre una variable A
i
y una variable 1
)
. Podemos interpretar las
primeras variables cannicas como un factor de tamao de la cabeza y las
segundas como un factor de forma. Habra entonces una notable relacin
en el tamao y una escasa relacin en la forma de la cabeza.
El test de independencia entre (A
1
. A
2
) y (1
1
. 1
2
) da
=
[S[
[S
11
[[S
22
[
= 0.2653 ~ (2. 22. 2)
Mediante (2.8), transformamos a una F, obteniendo 9.88 con 4 y 42 g.l.
Rechazamos la hiptesis de independencia.
La prueba de signicacin de las correlaciones cannicas da:
H
0
0
: j
0
= 1 j
1
= j
2
= 0. 1
0
= 28.52 (4 g.l.),
H
1
0
: j
1
j
2
= 0. 1
1
= 2.41 (2 g.l.).
Podemos rechazar H
0
0
y aceptar H
1
0
. Solamente la primera correlacin canni-
ca es signicativa.
Ejemplo 4.7.2 Elecciones.
La Tabla 4.1 contiene los datos de un estudio sobre comportamiento elec-
toral en Catalunya. Se consideran los resultados de unas elecciones celebradas
en las 41 comarcas catalanas, y para cada comarca se tabulan los valores de
las siguientes variables:
A
1
= log(porcentaje de votos a CU), A
2
= log(porcentaje de votos a PSC),
A
3
= log(porcentaje de votos a PP), A
4
= log(porcentaje de votos a ERC),
1
1
= log(cociente Juan/Joan), 1
2
= log(cociente Juana/Joana),
siendo CU (Convergncia i Uni), PP (Partido Popular), PSC (Partido So-
cialista de Catalua), ERC (Esquerra Republicana). El cociente Juan/Joan
signica el resultado de dividir el nmero de hombres que se llaman Juan por
el nmero de hombres que se llaman Joan. Valores positivos de las variables
1
1
. 1
2
en una comarca indican predominio de los nombres en castellano sobre
los nombres en cataln.
4.7. EJEMPLOS 73
Comarca. CU PSC PP ERC Juan Joan Juana Joanna
1.A. Camp. 44.6 29.6 6.2 16.1 684 605 143 38
2.A. Empo. 47.3 30.7 7.9 10.8 1628 1264 358 101
3.A. Pene. 47.4 31.8 5.6 10.7 1502 1370 281 90
4.A. Urgell 49.5 24.7 6.4 17.3 370 346 56 39
5.A. Ribag. 42.1 41.1 5.9 8.9 29 30 9 4
6.Anoia 44.8 33.9 6.6 8.7 1759 975 433 115
7.Bages 47.9 30 4.9 12.2 2766 1970 559 145
8.B. Camp 40.8 33.3 10 12 2025 1081 600 138
9.B. Ebre 44.2 31.3 12.1 9.5 1634 484 329 138
10.B. Emp. 48.2 32.4 5.1 11 1562 1423 334 153
11.B. Llob. 48.1 27.6 9.4 5.6 10 398 2687 3103 325
12. B. Pene. 39.7 40.5 9.1 7.9 957 577 236 33
13.Barc. 32 41.2 12.2 7.1 27 841 10 198 9287 1598
14.Bergu. 51.2 25.8 4.4 14.7 830 590 108 33
15.Cerda. 51.1 25.9 5.5 13.9 190 228 50 12
16.Conca B. 49.9 20.9 5.9 17.9 247 492 49 45
17.Garraf 37.9 39 8.5 7.8 1474 477 618 154
18.Garrig. 50 24.1 6.4 17.5 191 269 21 33
19.Garrot. 56.1 23.4 4.3 13.3 950 1168 100 91
20.Giron. 42.8 31.7 6.6 14.7 1978 1861 430 191
21.Mares. 43 32.9 8.9 9.2 5234 3053 1507 280
22.Monts. 49.4 31.5 8.1 8 907 314 229 82
23.Nogue. 53.7 24.3 7 12.2 557 487 92 37
24.Osona 56.7 18.5 3.9 16 1794 2548 222 100
25.P. Juss 50 30.5 4.9 12.4 154 115 27 14
26.P. Sobir 51.1 30.8 4.8 10.9 61 121 9 15
27.P. Urg. 52.4 25.8 6.6 12.6 393 299 58 20
28.Pla Est. 57.1 15.7 4.5 20 159 869 32 52
29.Prior. 45.9 27.7 6.2 16.9 173 149 37 16
30.R. Ebre 48.9 31.3 6.8 10.4 407 185 98 29
31.Ripoll. 55.4 25.8 3.3 12.8 603 457 75 17
32.Segar. 53.67 21.16 6.87 15.58 222 320 27 15
33.Segri 42.77 35.33 9.66 8.91 2049 951 625 202
34.Selva 49.2 29 6.2 11.4 1750 1680 340 152
35.Solso. 57.8 17.5 5.8 15.9 95 401 20 12
36.Tarra. 34.53 38.76 13.89 8.81 2546 940 852 117
37.Ter. A. 49 25.1 14.2 9.3 164 125 55 20
38.Urgell .54.18 22.5 6.9 13.86 144 656 45 56
39.Val. A. 44.49 38.3 12.59 2.67 97 19 37 2
40.Vall. Oc. 33.68 42.62 8.42 7.1 11 801 4482 3110 416
41.Vall Or. 40.72 37.96 7.51 7.63 4956 2636 1227 233
Tabla 4.1: Porcentaje de votos a 4 partidos polticos y frecuencia de dos
nombres en cataln y castellano, registrados en 41 comarcas catalanas.
74 CAPTULO 4. ANLISIS DE CORRELACIN CANNICA
La matriz de correlaciones es:
A
1
A
2
A
3
A
4
A
1
1 0.8520 0.6536 0.5478
A
2
1 0.5127 0.7101
A
3
1 .6265
A
4
1
1
1
1
2
0.6404 0.5907
0.7555 0.6393
0.5912 0.5146
0.7528 0.7448
1
1
1
2
1 0.8027
1
Slo hay 2 correlaciones cannicas:
:
1
= 0.8377. :
2
= 0.4125.
Las variables cannicas son:
l
1
= 0.083A
1
0.372A
2
0.1130A
3
+ 0.555A
4
. (:
1
= 0.8377).
\
1
= 0.7061
1
+ 0.3391
2
.
l
2
= 1.928A
1
+ 2.4031A
2
+ 1.127A
3
+ 1.546A
4
. (:
2
= 0.4125).
\
2
= 1.5211
1
1.6421
2
.
Las primeras variables cannicas l
1
. \
1
. que podemos escribir conven-
cionalmente como
l
1
= 0.083CU0.372PSC0.1130PP + 0.555ERC,
\
1
= 0.706(Juan/Joan) + 0.339(Juana/Joana),
nos indican que las regiones ms catalanas, en el sentido de que los nombres
castellanos Juan y Juana no predominan tanto sobre los catalanes Joan y
Joana, tienden a votar ms a CU y ERC, que son partidos nacionalistas. Las
regiones con predominio de voto al PSC o al PP, que son partidos centra-
listas, estn en general, ms castellanizadas. Las segundas variables cannicas
tienen una interpretacin ms difcil.
4.8. Complementos
El anlisis de correlacin cannica (ACC) fue introducido por Hotelling
(1936), que buscaba la relacin entre test mentales y medidas biomtricas,
a n de estudiar el nmero y la naturaleza de las relaciones entre mente y
4.8. COMPLEMENTOS 75
cuerpo, que con un anlisis de todas las correlaciones sera difcil de interpre-
tar. Es un mtodo de aplicacin limitada, pero de gran inters terico puesto
que diversos mtodos de AM se derivan del ACC.
Aplicaciones a la psicologa se pueden encontrar en Cooley y Lohnes
(1971), Cuadras y Snchez (1975). En ecologa se ha aplicado como un mode-
lo para estudiar la relacin entre presencia de especies y variables ambientales
(Gittings, 1985).
La distribucin de las correlaciones cannicas es bastante complicada.
Solamente se conocen resultados asintticos (Muirhead, 1982).
En ciertas aplicaciones tiene inters considerar medidas globales de aso-
ciacin entre dos matrices de datos X. . de rdenes : j y : respecti-
vamente, observadas sobre el mismo conjunto de : individuos. Una medida
interesante resulta de considerar la razn de verosimilitud de Wilks. Viene
dada por

W
= 1 [I S
1
22
S
21
S
1
11
S
12
[ = 1
c

i=1
(1 :
2
i
).
siendo : = mn(j. ) el nmero de correlaciones cannicas. Otra medida,
propuesta por Escouer (1973), es la correlacin vectorial
1\ = tr(S
12
S
21
),
_
tr(S
2
11
)tr(S
2
22
).
Utilizando determinantes, otra medida similar, propuesta por Hotelling (1936),
es

1
= det(S
12
S
21
),[det(S
11
) det(S
22
)] =
c

i=1
:
2
i
.
Sin embargo
1
suele dar valores bajos. Tambin es una medida de aso-
ciacin global
1
2
AY
=
_
c

i=1
:
i
_
2
,:
2
. (4.5)
que coincide con el coeciente procrustes (1.8) cuando las variables A estn
incorrelacionadas y tienen varianza 1 (y anlogamente las 1 ). Vase Cramer
y Nicewander (1979) y Cuadras (2011). En Cuadras et al. (2012) se propone
una generalizacin a la comparacin (mediante distancias) de dos conjun-
tos de datos en general, con una aplicacin a la comparacin de imgenes
hiperespectrales.
76 CAPTULO 4. ANLISIS DE CORRELACIN CANNICA
Si ,(r. ) es la densidad de dos v.a. A. 1 , tiene inters en estadstica el
concepto de mxima correlacin (propuesto por H. Gabelein) que se dene
como
j
1
= sup
c,o
cor(c(A). ,(1 )).
donde c(A). ,(1 ) son funciones con varianza nita. Entonces j
1
= 0 si A. 1
son variables independientes. Podemos ver a j
1
como la primera correlacin
cannica, c
1
(A). ,
1
(1 ) como las primeras variables cannicas y denir las
sucesivas correlaciones cannicas. Sin embargo el clculo de j
1
puede ser
complicado (Cuadras, 2002a). Lancaster (1969) estudia estas correlaciones y
demuestra que ,(r. ) se puede desarrollar en serie a partir de las correla-
ciones y funciones cannicas. Diversos autores han estudiado la estimacin
de las primeras funciones cannicas, como una forma de predecir una variable
en funcin de la otra (Hastie y Tibshirani, 1990). Finalmente cabe destacar
que las correlaciones cannicas pueden constituir un conjunto continuo no
numerable (Cuadras, 2005a, 2014).
Captulo 5
ANLISIS DE
COMPONENTES
PRINCIPALES
5.1. Obtencin de las componentes principales
Sea X =[A
1
. . . . . A
j
] una matriz de datos multivariantes. Lo que sigue
tambin vale si X es un vector formado por j variables observables.
Las componentes principales son unas variables compuestas incorrela-
cionadas tales que unas pocas explican la mayor parte de la variabilidad
de X.
Denicin 5.1.1 Las componentes principales son las variables compuestas
1
1
= Xt
1
. 1
2
= Xt
2
. . . . . 1
j
= Xt
j
tales que:
1. var(1
1
) es mxima condicionado a t
t
1
t
1
= 1.
2. Entre todas las variables compuestas 1 tales que cov(1
1
. 1 ) = 0. la
variable 1
2
es tal que var(1
2
) es mxima condicionado a t
t
2
t
2
= 1.
3. Si j _ 3. la componente 1
3
es una variable incorrelacionada con 1
1
. 1
2
con varianza mxima.
4. Anlogamente se denen las dems componentes principales si j 3.
77
78 CAPTULO 5. ANLISIS DE COMPONENTES PRINCIPALES
Si T = [t
1
. t
2
. . . . . t
j
] es la matriz j j cuyas columnas son los vectores
que denen las componentes principales, entonces la transformacin lineal
X
= XT (5.1)
se llama transformacin por componentes principales.
Teorema 5.1.1 Sean t
1
. t
2
. . . . . t
j
los j vectores propios normalizados de la
matriz de covarianzas S,
St
i
= `
i
t
i
. t
t
i
t
i
= 1. i = 1. . . . . j.
Entonces:
1. Las variables compuestas 1
i
= Xt
i
. i = 1. . . . . j. son las componentes
principales.
2. Las varianzas son los valores propios de S
var(1
i
) = `
i
. i = 1. . . . . j.
3. Las componentes principales son variables incorrelacionadas:
cov(1
i
. 1
)
) = 0. i ,= , = 1. . . . . j.
Demost.: Supongamos `
1
`
j
0. Probemos que las variables 1
i
=
Xt
i
. i = 1. . . . . j. estn incorrelacionadas:
cov(1
i
. 1
)
) = t
t
i
St
)
= t
t
i
`
)
t
)
= `
)
t
t
i
t
)
.
cov(1
)
. 1
i
) = t
t
)
St
i
= t
t
)
`
)
t
i
= `
i
t
t
)
t
i
.
=(`
)
`
i
)t
t
i
t
)
= 0. =t
t
i
t
)
= 0. =cov(1
i
. 1
)
) = `
)
t
t
i
t
)
= 0. si i ,= ,.
Adems:
var(1
i
) = `
i
t
t
i
t
)
= `
i
.
Sea ahora 1 =

j
i=1
c
i
A
i
=

j
i=1
c
i
1
i
una variable compuesta tal que

j
i=1
c
2
i
= 1. Entonces
var(1 ) = var(
j

i=1
c
i
1
i
) =
j

i=1
c
2
i
var(1
i
) =
j

i=1
c
2
i
`
i
_ (
j

i=1
c
2
i
)`
1
= var(1
1
).
5.2. VARIABILIDAD EXPLICADA POR LAS COMPONENTES 79
que prueba que 1
1
tiene varianza mxima.
Consideremos ahora las variables 1 incorrelacionadas con 1
1
. Las podemos
expresar como:
1 =
j

i=1
/
i
A
i
=
j

i=2
,
i
1
i
condicionado a
j

i=2
,
2
i
= 1.
Entonces:
var(1 ) = var(
j

i=2
,
i
1
i
) =
j

i=2
,
2
i
var(1
i
) =
j

i=2
,
2
i
`
i
_ (
j

i=2
,
2
i
)`
2
= var(1
2
).
y por lo tanto 1
2
est incorrelacionada con 1
1
y tiene varianza mxima.
Si j _ 3. la demostracin de que 1
3
. . . . . 1
j
son tambin componentes
principales es anloga.
5.2. Variabilidad explicada por las componentes
La varianza de la componente principal 1
i
es var(1
i
) = `
i
y la variacin
total es tr(S) =

j
i=1
`
i
. Por lo tanto:
1. 1
i
contribuye con la cantidad `
i
a la variacin total tr(S).
2. Si : < j. 1
1
. . . . . 1
n
contribuyen con la cantidad

n
i=1
`
i
a la variacin
total tr(S).
3. El porcentaje de variabilidad explicada por las :primeras componentes
principales es
1
n
= 100
`
1
+ +`
n
`
1
+ +`
j
. (5.2)
En las aplicaciones cabe esperar que las primeras componentes expliquen
un elevado porcentaje de la variabilidad total. Por ejemplo, si : = 2 < j. y
1
2
= 90 %. las dos primeras componentes explican una gran parte de la va-
riabilidad de las variables. Entonces podremos sustituir A
1
. A
2
. . . . . A
j
por
las componentes principales 1
1
. 1
2
. En muchas aplicaciones, tales compo-
nentes tienen interpretacin experimental.
80 CAPTULO 5. ANLISIS DE COMPONENTES PRINCIPALES
5.3. Representacin de una matriz de datos
Sea X =[A
1
. . . . . A
j
] una matriz :j de datos multivariantes. Queremos
representar, en un espacio de dimensin reducida : (por ejemplo, : = 2), las
las x
t
1
. x
t
2
. . . . . x
t
a
de X. Necesitamos introducir una distancia (ver Seccin
1.9).
Denicin 5.3.1 La distancia eucldea (al cuadrado) entre dos las de X
x
t
i
= (r
i1
. . . . . r
ij
). x
t
)
= (r
)1
. . . . . r
)j
).
es
o
2
i)
= (x
i
x
)
)
t
(x
i
x
)
) =
j

I=1
(r
iI
r
)I
)
2
.
La matriz = (o
i)
) es la matriz : : de distancias entre las las.
Podemos representar las : las de X como : puntos en el espacio 1
j
distanciados de acuerdo con la mtrica o
i)
. Pero si j es grande, esta repre-
sentacin no se puede visualizar. Necesitamos reducir la dimensin.
Denicin 5.3.2 La variabilidad geomtrica de la matriz de distancias
es el promedio de sus elementos al cuadrado
\
c
(X) =
1
2:
2
a

i,)=1
o
2
i)
.
Si = XT es una transformacin lineal de X, donde T es una matriz j:
de constantes,
o
2
i)
(:) = (y
i
y
)
)
t
(y
i
y
)
) =
n

I=1
(
iI

)I
)
2
es la distancia eucldea entre dos las de . La variabilidad geomtrica en
dimensin : _ j es
\
c
()
n
=
1
2:
2
a

i,)=1
o
2
i)
(:).
5.3. REPRESENTACIN DE UNA MATRIZ DE DATOS 81
Teorema 5.3.1 La variabilidad geomtrica de la distancia eucldea es la
traza de la matriz de covarianzas
\
c
(X) = tr(S) =
j

I=1
`
I
.
Demost.: Si r
1
. . . . . r
a
es una muestra univariante con varianza :
2
, entonces
1
2:
2
a

i,)=1
(r
i
r
)
)
2
= :
2
. (5.3)
En efecto, si r es la media
1
a
2
a

i,)=1
(r
i
r
)
)
2
=
1
a
2
a

i,)=1
(r
i
r (r
)
r))
2
=
1
a
2
a

i,)=1
(r
i
r)
2
+
1
a
2
a

i,)=1
(r
)
r)
2
+
2
a
2
a

i,)=1
(r
i
r)(r
)
r))
2
=
1
a
::
2
+
1
a
::
2
+ 0 = 2:
2
.
Aplicando (5.3) a cada columna de X y sumando obtenemos
\
c
(X) =
j

)=1
:
))
= tr(S).
Una buena representacin en dimensin reducida : (por ejemplo, : =
2) ser aquella que tenga mxima variabilidad geomtrica, a n de que los
puntos estn lo ms separados posible.
Teorema 5.3.2 La transformacin lineal T que maximiza la variabilidad
geomtrica en dimensin : es la transformacin por componentes principales
= XT. es decir, T = [t
1
. . . . . t
n
] contiene los : primeros vectores propios
normalizados de S.
82 CAPTULO 5. ANLISIS DE COMPONENTES PRINCIPALES
Demost.: Utilizando (5.3), la variabilidad geomtrica de Z = XY. donde
Y = [v
1
. . . . . v
n
] es j : cualquiera, es
\
c
(Z)
n
=
n

)=1
:
2
(2
)
) =
n

)=1
v
t
)
Sv
)
.
siendo :
2
(2
)
) = v
t
)
Sv
)
la varianza de la variable compuesta 2
)
. Alcanzamos
la mxima varianza cuando 2
)
es una componente principal: :
2
(2
)
) _ `
)
.
As:
max \
c
()
n
=
n

)=1
`
)
.
El porcentaje de variabilidad geomtrica explicada por es
1
n
= 100
\
c
()
n
\
c
(X)
j
= 100
`
1
+ +`
n
`
1
+ +`
j
.
Supongamos ahora : = 2. Si aplicamos la transformacin (5.1), la matriz
de datos X se reduce a
=
_
_
_
_
_
_
_

11

12
.
.
.
.
.
.

i1

i2
.
.
.
.
.
.

a1

a2
_
_
_
_
_
_
_
.
Entonces, representando los puntos de coordenadas (
i1
.
i2
). i = 1. . . . . :.
obtenemos una representacin ptima en dimensin 2 de las las de X.
5.4. Inferencia
Hemos planteado el ACP sobre la matriz S. pero lo podemos tambin
plantear sobre la matriz de covarianzas poblacionales X. Las componentes
principales obtenidas sobre S son, en realidad, estimaciones de las compo-
nentes principales sobre X.
Sea X matriz de datos : j donde las las son independientes con dis-
tribucin `
j
(. X). Recordemos que:
1. x es `
j
(. X,:).
5.4. INFERENCIA 83
2. l =:S es Wishart \
j
(X. : 1).
3. x y S son estocsticamente independientes.
Sea X = IAI
t
la diagonalizacin de X. Indiquemos
I = [_
1
. . . . . _
j
]. X = [`
1
. . . . . `
j
]. A = diag(`
1
. . . . . `
j
).
los vectores propios y valores propios de X. Por otra parte, sea S = GLG
t
la diagonalizacin de S. Indiquemos:
G = [g
1
. . . . . g
j
]. / = [|
1
. . . . . |
j
]. L = diag(|
1
. . . . . |
j
)
los vectores propios y valores propios de S. A partir de ahora supondremos
`
1
_ _ `
j
.
5.4.1. Estimacin y distribucin asinttica
Teorema 5.4.1 Se verica:
1. Si los valores propios son diferentes, los valores y vectores propios
obtenidos a partir de S son estimadores mximo-verosmiles de los
obtenidos a partir de X

`
i
= |
i
. _
i
= g
i
. i = 1. . . . . j.
2. Cuando / 1 valores propios son iguales a `
`
1
`
jI
= `
jI+1
= = `
j
= `.
el estimador mximo verosmil de ` es la media de los correspondientes
valores propios de S

` = (|
jI+1
+ +|
j
),/.
Demost.: Los valores y vectores propios estn biunvocamente relacionados
con X y por lo tanto 1) es consecuencia de la propiedad de invariancia de la
estimacin mximo verosmil. La demostracin de 2) se encuentra en Ander-
son (1958).
84 CAPTULO 5. ANLISIS DE COMPONENTES PRINCIPALES
Teorema 5.4.2 Los vectores propios G =[g
1
. . . . . g
j
] y valores propios / =
[|
1
. . . . . |
j
] verican asintticamente:
1. / es `
j
(X. 2
2
,:). En particular:
|
i
es `(`
i
. 2`
2
i
,:). cov(|
i
. |
)
) = 0. i ,= ,.
es decir, |
i
. |
)
son normales e independientes.
2. g
i
es `
j
(_
i
. Y
i
,:) donde
Y
i
= `
i

),=i
`
i
(`
i
`
)
)
2
_
i
_
t
i
3. / es independiente de G.
Demost.: Anderson (1958), Mardia, Kent y Bibby (1979).
Como consecuencia de que |
i
es `(`
i
. 2`
2
i
,:). obtenemos el intervalo de
conanza asinttico con coeciente de conanza 1 c
|
i
(1 +c.
c2
)
12
< `
i
<
|
i
(1 c.
c2
)
12
siendo c
2
= 2,(: 1) y 1([2[ .
c2
) = c,2. donde 2 es `(0. 1).
Se obtiene otro intervalo de conanza como consecuencia de que log |
i
es
`(log `
i
. 2,(: 1))
|
i
c
o:
=2
< `
i
< |
i
c
+o:
=2
.
5.4.2. Contraste de hiptesis
Determinados contrastes de hiptesis relativos a las componentes prin-
cipales son casos particulares de un test sobre la estructura de la matriz
X.
A. Supongamos que queremos decidir si la matriz X es igual a una matriz
determinada X
0
. Sea X un matriz : j con las independientes `
j
(. X).
El test es:
H
0
: X = X
0
( desconocida)
Si 1 es la verosimilitud de la muestra, el mximo de log 1 bajo H
0
es
log 1
0
=
a
2
log [2:X
0
[
a
2
tr(X
1
0
S).
5.4. INFERENCIA 85
El mximo no restringido es
log 1 =
a
2
log [2:S[
a
2
j.
El estadstico basado en la razn de verosimilitud `
1
es
2 log `
1
= 2(log 1 log 1
0
)
= :tr(X
1
0
S):log [X
1
0
S[ :j.
(5.4)
Si 1
1
. . . . . 1
j
son los valores propios de X
1
0
S y c. q son las medias aritmtica
y geomtrica
c = (1
1
+ +1
j
),j. q = (1
1
1
j
)
1j
. (5.5)
entonces, asintticamente
2 log `
1
= :j(c log q 1) ~
2
q
. (5.6)
siendo = j(j + 1),2par(X
0
) el nmero de parmetros libres de X menos
el nmero de parmetros libres de X
0
.
B. Test de independencia completa.
Si la hiptesis nula arma que las j variables son estocsticamente inde-
pendientes, el test se formula como
H
0
: X = X
o
= diag(o
11
. . . . . o
jj
) ( desconocida).
Bajo H
0
la estimacin de X
o
es S
o
=diag(:
11
. . . . . :
jj
) y S
1
o
S = H es la ma-
triz de correlaciones. De (5.4) y de log [2:S
o
[ log [2:S[ =log [H[. tr(H) =j.
obtenemos
2 log `
1
= :log [H[ ~
2
q
.
siendo = j(j+1),2j = j(j1),2. Si el estadstico :log [H[ no es signi-
cativo, entonces podemos aceptar que las variables estn incorrelacionadas
y por lo tanto, como hay normalidad multivariante, independientes. Entonces
las propias variables seran componentes principales. Vase la Seccin 3.5.1.
C. Test de igualdad de valores propios.
Es ste un test importante en ACP. La hiptesis nula es
H
0
: `
1
`
jI
= `
jI+1
= = `
j
= `.
Indicamos los valores propios de S y de S
0
(estimacin de X si H
0
es cierta)
S ~ (|
1
. . . . . |
I
. |
I+1
. . . . . |
j
). S
0
~ (|
1
. . . . . |
I
. c
0
. . . . . c
0
).
86 CAPTULO 5. ANLISIS DE COMPONENTES PRINCIPALES
donde c
0
= (|
I+1
+ +|
j
),(j /) (Teorema 5.4.1). Entonces
S
1
0
S ~ (1. . . . . 1. |
I+1
,c
0
. . . . . |
j
,c
0
).
las medias (5.5) son c = 1 y q = (|
I+1
|
j
)
1j
c
(Ij)j
0
y aplicando (5.6)
2 log `
1
= :(j /) log(|
I+1
+ +|
j
),(j /) :(
j

i=I+1
log |
i
) ~
2
q
. (5.7)
donde = (j /)(j / + 1),2 1. Para una versin ms general de este
test, vase Mardia et al. (1979).
5.5. Nmero de componentes principales
En esta seccin presentamos algunos criterios para determinar el nmero
: < j de componentes principales.
5.5.1. Criterio del porcentaje
El nmero : de componentes principales se toma de modo que 1
n
sea
prximo a un valor especicado por el usuario, por ejemplo el 80 %. Por otra
parte, si la representacin de 1
1
. 1
2
. . . . . 1
I
. . . . con respecto de / prctica-
mente se estabiliza a partir de un cierto :, entonces aumentar la dimensin
apenas aporta ms variabilidad explicada.
5.5.2. Criterio de Kaiser
Obtener las componentes principales a partir de la matriz de correlaciones
H equivale a suponer que las variables observables tengan varianza 1. Por
lo tanto una componente principal con varianza inferior a 1 explica menos
variabilidad que una variable observable. El criterio, llamado de Kaiser, es
entonces:
Retenemos las : primeras componentes tales que `
n
_ 1. donde `
1
_
_ `
j
son los valores propios de H. que tambin son las varianzas de las
componentes. Estudios de Montecarlo prueban que es ms correcto el punto
de corte `
+
= 0.7. que es ms pequeo que 1.
Este criterio se puede extender a la matriz de covarianzas. Por ejemplo,
: podra ser tal que `
n
_ . donde =tr(S),j es la media de las varianzas.
Tambin es aconsejable considerar el punto de corte 0.7 .
5.5. NMERO DE COMPONENTES PRINCIPALES 87
0 1 2 3 4 5 6
0
10
20
30
40
50
60
k
lam
Figura 5.1: Ejemplo de representacin de los valores propios, que indicara
tomar las 3 primeras componentes principales.
5.5.3. Test de esfericidad
Supongamos que la matriz de datos proviene de una poblacin normal
multivariante `
j
(. X). Si la hiptesis
H
(n)
0
: `
1
`
n
`
n+1
= = `
j
es cierta, no tiene sentido considerar ms de : componentes principales. En
efecto, no hay direcciones de mxima variabilidad a partir de :. es decir,
la distribucin de los datos es esfrica. El test para decidir sobre H
(n)
0
est
basado en el estadstico ji-cuadrado (5.7) y se aplica secuencialmente: Si
aceptamos H
(0)
0
es decir, : = 0. todos los valores propios son iguales y no hay
direcciones principales. Si rechazamos H
(0)
0
. entonces repetimos el test con
H
(1)
0
. Si aceptamos H
(1)
0
entonces : = 1. pero si rechazamos H
(1)
0
repetimos
el test con H
(2)
0
. y as sucesivamente. Por ejemplo, si j = 4. tendramos que
: = 2 si rechazamos H
(0)
0
. H
(1)
0
y aceptamos H
(2)
0
: `
1
`
2
`
3
= `
4
.
5.5.4. Criterio del bastn roto
La suma de los valores propios es \
t
=tr(S). que es la variabilidad total.
Imaginemos un bastn de longitud \
t
. que rompemos en j trozos al azar
(asignando j 1 puntos uniformemente sobre el intervalo (0. \
t
)) y que los
88 CAPTULO 5. ANLISIS DE COMPONENTES PRINCIPALES
trozos ordenados son los valores propios |
1
|
2
|
j
. Si normalizamos
a \
t
= 100. entonces el valor esperado de |
)
es
1(1
)
) = 100
1
j
j)

i=1
1
, +i
.
Las : primeras componentes son signicativas si el porcentaje de varianza
explicada supera claramente el valor de 1(1
1
) + + 1(1
n
). Por ejemplo,
si j = 4. los valores son:
Porcentaje 1(1
1
) 1(1
2
) 1(1
3
) 1(1
4
)
Esperado 52.08 27.08 14.58 6.25
Acumulado 52.08 79.16 93.74 100
Si \
2
= 93.92 pero \
3
= 97.15. entonces tomaremos slo dos componentes.
5.6. Biplot
Un biplot es una representacin, en un mismo grco, de las las (indi-
viduos) y las columnas (variables) de una matriz de datos X(: j).
Suponiendo X matriz centrada, el biplot clsico (debido a K. R. Gabriel),
se lleva a cabo mediante la descomposicin singular
X = lAY
t
.
donde l es una matriz : j con columnas ortonormales, Y es una ma-
triz j j ortogonal, y A es una matriz diagonal con los valores singulares
de X ordenados de mayor a menor. Es decir, l
t
l = I
a
. Y
t
Y = YY
t
= I
j
.
A =diag(`
1
. . . . . `
j
). Como X
t
X = l
t
A
2
lvemos que XY = lA es la trans-
formacin en componentes principales (5.1), luego las coordenadas para re-
presentar las : las estn contenidas en lA. Las coordenadas de las j colum-
nas son las las de la matriz Y. Filas y columnas se pueden representar
(tomando las dos primeras coordenadas) sobre el mismo grco, como en la
Figura 5.2.
En general. la solucin biplot consiste en representar simultneamente las
matrices A = lA
c
y H = YA
1c
. para un c tal que 0 _ c _ 1. Entonces
AH
t
= X y el grco reproduce las las y columnas de X. La calidad en
la representacin depende del valor asignado al parmetro c. Si c = 1 se
5.7. EJEMPLOS 89
representan las las con mxima resolucin, si c = 0 la mejor resolucin
corresponde a las columnas. Se puede tomar el valor intermedio c = 1,2.
Podemos plantear el biplot de una manera alternativa (propuesta por J.
C. Gower). La transformacin por componentes principales = XT per-
mite representar las las. Para representar tambin las columnas, podemos
entender una variable A
)
como el conjunto de puntos de coordenadas
x
)
(c
)
) = (0. . . . . c
)
. . . . . 0) :
)
_ c
)
_ `
)
.
donde c
)
es un parmetro que vara entre el mnimo valor :
)
y el mximo
valor `
)
de A
).
Entonces la representacin de A
)
es simplemente el eje
x
)
(c)T.
Siguiendo este procedimiento, es fcil ver que mediante la transforma-
cin = XT. la representacin de las variables se identica con el haz de
segmentos
(c
1
t
1
. . . . . c
j
t
j
).
donde t
1
. . . . . t
j
son las las de T. Vase Greenacre (2010) para una moderna
versin prctica de esta interesante tcnica.
5.7. Ejemplos
Ejemplo 5.7.1 Estudiantes.
Sobre una muestra de : = 100 mujeres estudiantes de Bioestadstica, se
midieron las variables
A
1
= peso, A
2
=talla, A
3
=ancho hombros, A
4
= ancho caderas,
(peso en kg. y medidas en cm.), con los siguientes resultados:
1. Medias: r
1
= 54.25. r
2
= 161.73. r
3
= 36.53. r
4
= 30.1.
2. Matriz de covarianzas:
S =
_
_
_
_
44.7 17.79 5.99 9.19
17.79 26.15 4.52 4.44
5.99 4.52 3.33 1.34
9.19 4.44 1.34 4.56
_
_
_
_
90 CAPTULO 5. ANLISIS DE COMPONENTES PRINCIPALES
3. Vectores y valores propios (columnas):
t
1
t
2
t
3
t
4
0. 8328 0. 5095 0. 1882 0. 1063
0. 5029 0. 8552 0. 0202 0. 1232
0. 1362 0. 05 88 0. 1114 0. 9826
0. 1867 0. 0738 0. 9755 0. 0892
Val. prop. ` 58.49 15.47 2.54 2.24
Porc. acum. 74.27 93.92 97.15 100
4. Nmero de componentes:
a. Criterio de Kaiser: la media de las varianzas es =tr(S),j = 19.68.
Los dos primeros valores propios son 58.49 y 15.47, que son ma-
yores que 0.7 . Aceptamos : = 2.
b. Test de esfericidad.
:
2
g.l.
0 333.9 9
1 123.8 5
2 0.39 2
Rechazamos : = 0. : = 1 y aceptamos : = 2.
c. Test del bastn roto: Puesto que 1
2
= 93.92 supera claramente el
valor esperado 79.16 y que no ocurre lo mismo con 1
3
, aceptamos
: = 2.
5. Componentes principales:
1
1
= 0. 8328A
1
+ 0. 5029A
2
+ 0. 1362A
3
+ 0. 1867A
4
.
1
2
= 0. 5095A
1
0. 8552A
2
0. 05 88A
3
+ 0. 0738A
4
.
6. Interpretacin: la primera componente es la variable con mxima va-
rianza y tiene todos sus coecientes positivos. La interpretamos como
una componente de tamao. La segunda componente tiene coecientes
positivos en la primera y cuarta variable y negativos en las otras dos.
La interpretamos como una componente de forma. La primera com-
ponente ordena las estudiantes segn su tamao, de la ms pequea
a la ms grande, y la segunda segn la forma, el tipo pcnico en con-
traste con el tipo atltico. Las dimensiones de tamao y forma estn
incorrelacionadas.
5.7. EJEMPLOS 91
corredor km 4 km 8 km 12 km16
1 10 10 13 12
2 12 12 14 15
3 11 10 14 13
4 9 9 11 11
5 8 8 9 8
6 8 9 10 9
7 10 10 8 9
8 11 12 10 9
9 14 13 11 11
10 12 12 12 10
11 13 13 11 11
12 14 15 14 13
Tabla 5.1: Tiempos parciales (en minutos) de 12 corredores.
Ejemplo 5.7.2 Corredores.
Mediante ACP podemos representar una matriz de datos en dimensin
reducida (Teorema 5.3.2). La Tabla 5.1 contiene los tiempos parciales en
minutos que 12 corredores tardan en recorrer 16 kilmetros. El corredor ms
rpido es el 5, el ms lento es el 12.
1. Matrices de covarianzas y correlaciones:
S =
_
_
_
_
4.364 4.091 2.091 2.273
4.265 1.871 1.917
4.083 3.765
4.265
_
_
_
_
H =
_
_
_
_
1 0. 9483 0. 4953 0. 5268
1 0. 4484 0. 4494
1 0. 9022
1
_
_
_
_
2. Vectores y valores propios de S :
t
1
t
2
t
3
t
4
0.5275 0.4538 0.2018 0.6893
0.5000 0.5176 0.2093 0.6621
0.4769 0.5147 0.6905 0.1760
0.4943 0.5112 0.6624 0.2357
Val. prop. ` 12.26 4.098 0.4273 0.1910
% 72.22 24.13 2.52 1.15
Porc. acum. 72.22 96.35 98.85 100
92 CAPTULO 5. ANLISIS DE COMPONENTES PRINCIPALES
3. Componentes principales primera y segunda:
1
1
= 0.527A
1
+ 0.500A
2
+ 0.477A
3
+ 0.494A
4
var(1
1
) = 12.26
1
2
= 0.453A
1
+ 0.517A
2
0.514A
3
0.511A
4
var(1
2
) = 4.098
4. La transformacin por componentes principales es = XT. siendo X
la matriz de datos, T la matriz con los vectores propios de S. La ma-
triz contiene los valores de las componentes principales sobre los 12
individuos (coordenadas principales), Figura 5.2.
5. Interpretacin:
a. La primera componente principal es casi proporcional a la suma de
los tiempos parciales. Por tanto, podemos interpretar 1
1
como el
tiempo que tardan en hacer el recorrido. O incluso mejor, 1
1
como la rapidez en efectuar la carrera.
b. La segunda componente principal tiene coecientes positivos en
A
1
. A
2
y coecientes negativos en A
3
. A
4
. Un corredor con valores
altos en 1
2
signica que ha sido lento al principio y ms rpido
al nal de la carrera. Un corredor con valores bajos en 1
2
signi-
ca que ha sido rpido al principio y ms lento al nal. Podemos
interpretar esta componente como la forma de correr.
c. La rapidez y la forma de correr, son independientes, en el sentido
de que la correlacin es cero.
Para ms ejemplos con datos reales, consltese Aluja y Morineau (1999),
Baillo y Gran (2008), Greenacre (2010).
5.8. Complementos
El Anlisis de Componentes Principales (ACP) fu iniciado por K. Pear-
son en 1901 y desarrollado por H. Hotelling en 1933. Es un mtodo referente
a una poblacin, pero W. Krzanowski y B. Flury han investigado las compo-
nentes principales comunes a varias poblaciones.
El ACP tiene muchas aplicaciones. Una aplicacin clsica es el estudio
de P. Jolicoeur y J. E. Mosimann sobre tamao y forma de animales (como
los caparazones de tortugas machos y hembras), en trminos de la primera,
5.8. COMPLEMENTOS 93
Figura 5.2: Representacin por anlisis de componentes principales y me-
diante biplot de los tiempos parciales de 12 corredores.
segunda y siguientes componentes principales. La primera componente per-
mite ordenar los animales de ms pequeos a ms grandes, y la segunda
permite estudiar su variabilidad en cuanto a la forma. Ntese que tamao
y forma son conceptos independientes en sentido lineal.
EL llamado ACP Comn (Common Principal Component Analysis) es
el estudio de las componentes principales comunes en varios conjuntos de
datos. Supongamos que unas mismas variables observables tienen matrices de
covarianzas X
1
. . . . . X
I
en / poblaciones distintas y que las descomposiciones
espectrales son X
i
= TA
i
T
t
. i = 1. . . . . /. es decir, los vectores propios
(columnas de T) son los mismos. Entonces las componentes principales son
las mismas, aunque las varianzas sean distintas. Por ejemplo, los caparazones
de tortugas machos y hembras, aunque de distinta magnitud, pueden tener
la misma estructura de tamao y forma. Vase Krzanowski (1988) y Flury
(1997).
El AFM (Anlisis Factorial Mltiple) permite visualizar varios conjuntos
de datos observados con distintas variables, a n de encontrar una estructura
comn. El AFM se realiza en dos pasos. Primero se aplica un ACP a cada
matriz (centrada) de datos, que se normaliza dividiendo por la raz cuadrada
del primer valor propio. Las matrices transformadas se juntan en una sola, a
la que se aplica un ACP global. Vase Escoer y Pags (1990).
94 CAPTULO 5. ANLISIS DE COMPONENTES PRINCIPALES
El biplot, tcnica introducida por Gabriel (1971), permite la representacin
en un mismo grco de las las y columnas de una matriz de datos X (Figura
5.2) mediante la descomposicin singular X = lAY
t
y tomando las matrices
A = lA
c
y H = YA
1c
. Vase Gower y Hand (1996), Crdenas y Galindo-
Villardn (2009), Greenacre (2010) y Gower et al. (2011). Una variante pro-
puesta por Galindo-Villardn (1986), es el HJ-biplot, que toma A = lA y
H = YA. para la representacin simultnea de las y columnas.
El ACP puede servir para estudiar la capacidad de un crneo o de un
caparazn. Supongamos que el caparazn de una tortuga tiene longitud 1,
anchura . y altura H. La capacidad sera C = 1
c

o
H

. donde c. ,. son
parmetros. Aplicando logaritmos, obtenemos
log C = log(1
c

o
H

) = clog 1 +, log + log H.


que podemos interpretar como la primera componente principal 1
1
de las
variables log 1. log . log H, y por tanto c. ,. seran los coecientes de 1
1
.
Por medio del ACP es posible efectuar una regresin mltiple de 1 sobre
A
1
. . . . . A
j
, considerando las primeras componentes principales 1
1
. 1
2
. . . . co-
mo variables explicativas, y realizar regresin de 1 sobre 1
1
. 1
2
. . . . . evitando
as efectos de colinealidad. Sin embargo las ltimas componentes principales
tambin pueden inuir en 1. Tal anomala se presenta cuando se cumple la
desigualdad (llamada realce en regresin mltiple),
1
2
:
2
1
+ +:
2
j
. (5.8)
donde 1 es la correlacin mltiple de 1 sobre A
1
. . . . . A
j
. y :
i
la correlacin
simple de 1 con A
i
. .i = 1. . . . . j. Cuadras (1993) prueba que (5.8) equivale
a
j

i=1
:
2
Y
i
(1 `
i
) 0.
siendo `
i
. i = 1. . . . . j. los valores propios de la matriz de correlaciones H
de las variables A
i
y :
Y
i
las correlaciones simples entre 1 y las componentes
1
i
. Vemos pues que se verica (5.8) si 1 est muy correlacionada con una
componente 1
i
tal que `
i
< 1 (por ejemplo, la ltima componente principal).
Cuadras (1995) y Waller (2011) analizan las condiciones bajo las cuales la
desigualdad (5.8) es ms acusada.
La regresin ortogonal es una variante interesante. Supongamos que se
quieren relacionar las variables A
1
. . . . . A
j
(todas con media 0). en el sentido
5.8. COMPLEMENTOS 95
de encontrar los coecientes ,
1
. . . . . ,
j
tales que ,
1
A
1
+ + ,
j
A
j
~
= 0. Se
puede plantear el problema como var(,
1
A
1
+ + ,
j
A
j
) =mnima, condi-
cionado a ,
2
1
+ +,
2
j
= 1. Es fcil ver que la solucin es la ltima componente
principal 1
j
.
Se pueden tambin denir las componentes principales de un proceso
estocstico y de una variable aleatoria. Cuadras y Fortiana (1995), Cuadras
y Lahlou (2000), y Cuadras et al. (2006), han estudiado los desarrollos orto-
gonales del tipo
A =
o

a=1
/
a
A
a
.
donde A
a
son componentes principales. Se han encontrado las componentes
y los desarrollos ortogonales para las variables con distribucin uniforme,
exponencial, logstica y Pareto. Por ejemplo, en el caso de A uniforme en el
intervalo (0. 1) se tiene
A =
o

a=1
4
:
2
(2: 1)
2
[1 cos(2: 1):A].
Estos desarrollos guardan relacin con algunos test de bondad de ajuste,
como los de Anderson-Darling y de Cramr-von Mises, que admiten expan-
siones en componentes principales. Vase Cuadras y Cuadras (2002), Cuadras
(2005b, 2014).
96 CAPTULO 5. ANLISIS DE COMPONENTES PRINCIPALES
Captulo 6
ANLISIS FACTORIAL
6.1. Introduccin
El Anlisis Factorial (AF) es un mtodo multivariante que pretende ex-
presar j variables observables como una combinacin lineal de : variables
hipotticas o latentes, denominadas factores. Tiene una formulacin pare-
cida al Anlisis de Componentes Principales, pero el modelo que relaciona
variables y factores es diferente en AF. Si la matriz de correlaciones existe,
las componentes principales tambin existen, mientras que el modelo factorial
podra ser aceptado o no mediante un test estadstico.
Ejemplos en los que la variabilidad de las variables observables se puede
resumir mediante unas variables latentes, que el AF identica como fac-
tores, son:
1. La teora clsica de la inteligencia supona que los test de inteligen-
cia estaban relacionados por un factor general, llamado factor g de
Spearman.
2. La estructura de la personalidad, tambin medida a partir de test y
escalas, est dominada por dos dimensiones: el factor neuroticismo-
estabilidad y el factor introversin-extroversin.
3. Las diferentes caractersticas polticas de ciertos pases estn inuidas
por dos dimensiones: izquierda-derecha y centralismo-nacionalismo.
El AF obtiene e interpreta los factores comunes a partir de la matriz de
97
98 CAPTULO 6. ANLISIS FACTORIAL
correlaciones entre las variables:
H =
_
_
_
_
_
1 :
12
:
1j
:
21
1 :
2j
.
.
.
.
.
.
.
.
.
.
.
.
:
j1
:
j2
1
_
_
_
_
_
.
6.2. El modelo unifactorial
Consideremos A
1
. . . . . A
j
variables observables sobre una misma poblacin.
El modelo ms simple de AF slo contempla un factor comn 1. que recoge
la covariabilidad de todas las variables, y j factores nicos l
1
. . . . . l
j
. uno
para cada variable. El modelo factorial es
A
i
= c
i
1 +d
i
l
i
. i = 1. . . . . j. (6.1)
De acuerdo con este modelo, cada variable A
i
depende del factor comn
1 y de un factor nico l
i
. El modelo factorial supone que:
a) Variables y factores estn estandarizados (media 0 y varianza 1).
b) Los j + 1 factores estn incorrelacionados.
De este modo 1 contiene la parte de la variabilidad comn a todas las
variables, y cada A
i
est adems inuida por un factor nico l
i
. que apor-
ta la parte de la variabilidad que no podemos explicar a partir del factor
comn. El coeciente c
i
es la saturacin de la variable A
i
en el factor 1. La
estandarizacin es una condicin terica que se supone al modelo para su
estudio, pero que no debe imponerse al conjunto de datos observados.
De (6.1) deducimos inmediatamente que
c
2
i
+d
2
i
= 1.
cor(A
i
. 1) = c
i
.
cor(A
i
. A
)
) = c
i
c
)
. i ,= ,.
Por lo tanto la saturacin c
i
es el coeciente de correlacin entre A
i
y el factor
comn. Por otra parte c
2
i
. cantidad que recibe el nombre de comunalidad,
indicada por /
2
i
. es la proporcin de variabilidad que se explica por 1 y la
correlacin entre A
i
. A
)
slo depende de las saturaciones c
i
. c
)
.
Una caracterizacin del modelo unifactorial es
:
i)
:
i
0
)
=
:
i)
0
:
i
0
)
0
=
c
i
c
i
0
. (6.2)
6.2. EL MODELO UNIFACTORIAL 99
es decir, los cocientes entre elementos de la misma columna no diagonal de
dos las de la matriz de correlaciones H es constante. Esto es equivalente a
decir que el determinante de todo menor de orden dos de H. que no contenga
elementos de la diagonal, es nulo:

:
i)
:
i)
0
:
i
0
)
:
i
0
)
0

= :
i)
:
i
0
)
0 :
i)
0 :
i
0
)
0 = c
i
c
)
c
i
0 c
)
0 c
i
c
)
0 c
i
0 c
)
0 = 0. (6.3)
Estas son las llamadas relaciones tetrdicas, que necesariamente se deben
cumplir para que sea vlido el modelo unifactorial.
La matriz de correlaciones reducida H
+
es la que resulta de substituir los
unos de la diagonal de Hpor las comunalidades /
2
i
(vase (6.7)). Es inmediato
probar que H
+
tiene rango 1, que todos los menores de orden dos se anulan y
que las comunalidades se obtienen a partir de las correlaciones. Por ejemplo,
la primera comunalidad es
/
2
1
=
:
12
:
13
:
23
=
:
12
:
14
:
24
= =
:
1j1
:
1j
:
jj1
. (6.4)
En las aplicaciones reales, tanto estas relaciones como las tetrdicas, slo
se verican aproximadamente. As, la estimacin de la primera comunalidad
podra consistir en tomar la media de los cocientes (6.4).
Por ejemplo, la siguiente matriz de correlaciones
C 1 1 ` 1 `n
C 1.00 0.83 0.78 0.70 0.66 0.63
1 0.83 1.00 0.67 0.67 0.65 0.57
1 0.78 0.67 1.00 0.64 0.54 0.51
` 0.70 0.67 0.64 1.00 0.45 0.51
1 0.66 0.65 0.54 0.45 1.00 0.40
`n 0.63 0.57 0.51 0.51 0.40 1.00
relaciona las calicaciones en C(clsicas), F (francs), I (ingls), M(matemti-
cas), D (discriminacin de tonos) y Mu (msica) obtenidas por los alumnos
de una escuela. Esta matriz verica, aproximadamente, las relaciones (6.2).
Si consideramos la primera y la tercera la, tenemos que:
0.83
0.67
~
=
0.70
0.64
~
=
0.66
0.54
~
=
0.63
0.51
~
= 1.2 .
De acuerdo con el modelo unifactorial, estas calicaciones dependen esencial-
mente de un factor comn.
100 CAPTULO 6. ANLISIS FACTORIAL
6.3. El modelo multifactorial
6.3.1. El modelo
El modelo del anlisis factorial de : factores comunes considera que
las j variables observables A
1
. . . . . A
j
dependen de : variables latentes
1
1
. . . . . 1
n
, llamadas factores comunes, y j factores nicos l
1
. . . . . l
j
, de
acuerdo con el modelo lineal:
A
1
= c
11
1
1
+ + c
1n
1
n
+d
1
l
1
A
2
= c
21
1
1
+ + c
2n
1
n
+d
2
l
2

A
j
= c
j1
1
1
+ + c
jn
1
n
+d
j
l
j
.
(6.5)
Las hiptesis del modelo son:
1. Los factores comunes y los factores nicos estn incorrelacionados dos
a dos
cor(1
i
. 1
)
) = 0. i ,= , = 1. . . . . :.
cor(l
i
. l
)
) = 0. i ,= , = 1. . . . . j.
2. Los factores comunes estn incorrelacionados con los factores nicos
cor(1
i
. l
)
) = 0. i = 1. . . . . :. , = 1. . . . . j.
3. Tanto los factores comunes como los factores nicos son variables re-
ducidas (media 0 y varianza 1).
En el modelo factorial (6.5) se admite que las variables, en conjunto,
dependen de los factores comunes, salvo una parte de su variabilidad, slo
explicada por el correspondiente factor especco. Los factores comunes re-
presentan dimensiones independientes en el sentido lineal, y dado que tanto
los factores comunes como los nicos son variables convencionales, podemos
suponer que tienen media 0 y varianza 1. Es slo una suposicin terica, en
general los datos observados no estn reducidos.
6.3. EL MODELO MULTIFACTORIAL 101
6.3.2. La matriz factorial
Los coecientes c
i)
son las saturaciones entre cada variable A
i
y el factor
1
)
. La matriz j : que contiene estos coecientes es la matriz factorial
A =
_
_
_
_
_
c
11
c
1n
c
21
c
2n
.
.
.
.
.
.
.
.
.
c
j1
c
jn
_
_
_
_
_
.
Si indicamos por X = (A
1
. . . . . A
j
)
t
el vector columna de las variables,
y anlogamente F = (1
1
. . . . . 1
n
)
t
. l =(l
1
. . . . . l
j
)
t
. el modelo factorial en
expresin matricial es
X = AF +Ol. (6.6)
donde O =diag(d
1
. . . . . d
j
) es la matriz diagonal con las saturaciones entre
variables y factores nicos. El AF tiene como principal objetivo encontrar e
interpretar la matriz factorial A.
6.3.3. Las comunalidades
De las condiciones del modelo del AF se verica
var(A
i
) = c
2
i1
+ +c
2
in
+d
2
i
.
y por lo tanto c
2
i)
es la parte de la variabilidad de la variable A
i
que es debida
al factor comn 1
)
. mientras que d
2
i
es la parte de la variabilidad explicada
exclusivamente por el factor nico l
i
.
La cantidad
/
2
i
= c
2
i1
+ +c
2
in
(6.7)
se llama comunalidad de la variable A
i
. La cantidad d
2
i
es la unicidad. Luego,
para cada variable tenemos que:
variabilidad = comunalidad + unicidad.
La comunalidad es la parte de la variabilidad de las variables slo explicada
por los factores comunes.
Si suponemos que las variables observables son tambin reducidas, en-
tonces tenemos que
1 = /
2
i
+d
2
i
. (6.8)
102 CAPTULO 6. ANLISIS FACTORIAL
La matriz de correlaciones reducida se obtiene a partir de Hsubstituyendo
los unos de la diagonal por las comunalidades
H
+
=
_
_
_
_
_
/
2
1
:
12
:
1j
:
21
/
2
2
:
2j
.
.
.
.
.
.
.
.
.
.
.
.
:
j1
:
j2
/
2
j
_
_
_
_
_
.
Evidentemente se verica
H = H
+
+O
2
. (6.9)
6.3.4. Nmero mximo de factores comunes
El nmero : de factores comunes est limitado por un valor mximo :
o
,
que podemos determinar teniendo en cuenta que hay j(j1),2 correlaciones
diferentes y j:saturaciones. Pero si Aes una matriz factorial con factores F.
tambin lo es AT. con factores

F = T
t
F. donde T es matriz ortogonal. Como
TT
t
= I. introduciremos :(:1),2 restricciones y el nmero de parmetros
libres de A ser j : :(: 1),2. El nmero de correlaciones menos el
nmero de parmetros libres es
d = j(j 1),2 [j ::(:1),2] =
1
2
[(j :)
2
j :]. (6.10)
Si igualamos d a 0 obtenemos una ecuacin de segundo grado que un vez
resuelta nos prueba que
: _ :
o
=
1
2
(2j + 1
_
8j + 1).
Un modelo factorial es sobredeterminado si : :
o
. pues hay ms satu-
raciones libres que correlaciones. Si : = :
o
el modelo es determinado y
podemos encontrar A algebraicamente a partir de H.
Desde un punto de vista estadstico, el caso ms interesante es : < :
o
.
ya que entonces podemos plantear la estimacin estadstica de A. donde
d 0 juega el papel de nmero de grados de libertad del modelo. El nmero
mximo :
+
de factores comunes en funcin de j es:
j 2 3 4 5 6 7 8 9 10 20 30 40
:
+
0 1 1 2 3 3 4 5 6 14 22 31
Asignamos a :
+
el valor entero por defecto cuando :
o
tiene parte fracciona-
ria.
6.3. EL MODELO MULTIFACTORIAL 103
6.3.5. El caso de Heywood
Una limitacin del modelo factorial es que alguna comunalidad puede al-
canzar (algebraicamente) un valor superior a 1, contradiciendo (6.8). Cuan-
do esto ocurre, la solucin se ha de interpretar con precaucin. En algunos
mtodos, como el de la mxima verosimilitud, se resuelve este inconveniente
(primeramente observado por H.B. Heywood) imponiendo la condicin /
2
i
_
1 en la estimacin de las comunalidades.
6.3.6. Un ejemplo
Ejemplo 6.3.1 Asignaturas.
Las asignaturas clsicas de la enseanza media, se dividen, en lneas ge-
nerales, en asignaturas de Ciencias y de Letras, las primeras con contenido
ms racional y emprico, las segundas con contenido ms humanstico y arts-
tico. Consideremos las siguientes 5 asignaturas:
Ciencias Naturales (CNa), Matemticas (Mat),
Francs (Fra), Latn (Lat), Literatura (Lit).
Supongamos que estn inuidas por dos factores comunes o variables
latentes: Ciencias (C) y Letras (L). En otras palabras, suponemos que C y
L son dos variables no observables, que de manera latente inuyen sobre las
cinco asignaturas. Las calicaciones de : = 20 alumnos en las asignaturas
y en los factores se encuentran en la Tabla 6.1. Tngase en cuenta que las
variables no estn estandarizadas, condicin de ndole terica para desarrollar
el modelo factorial.
Vamos a suponer que la matriz factorial es
C L
CNa .8 .2
Mat .9 .1
Fra .1 .9
Lat .3 .8
Lit .2 .8
(6.11)
104 CAPTULO 6. ANLISIS FACTORIAL
Asignaturas Factores
Alumno CNa Mat Fra Lat Lit
1 7 7 5 5 6
2 5 5 6 6 5
3 5 6 5 7 5
4 6 8 5 6 6
5 7 6 6 7 6
6 4 4 6 7 6
7 5 5 5 5 6
8 5 6 5 5 5
9 6 5 7 6 6
10 6 5 6 6 6
11 6 7 5 6 5
12 5 5 4 5 4
13 6 6 6 6 5
14 8 7 8 8 8
15 6 7 5 6 6
16 4 3 4 4 4
17 6 4 7 8 7
18 6 6 7 7 7
19 6 5 4 4 4
20 7 7 6 7 6
Ciencias Letras
7 5
5 6
6 5
7 5
6 6
4 6
5 6
6 5
5 6
5 6
7 5
6 4
6 6
7 8
6 5
3 4
5 7
6 7
5 4
7 6
Tabla 6.1: Calicaciones en 5 asignaturas y puntuaciones en 2 factores
comunes de 20 alumnos.
CNa Mat Fra Lat Lit
CNa 1 0.656 0.497 0.420 0.584
Mat 1 0.099 0.230 0.317
Fra 1 0.813 0.841
Lat 1 0.766
Lit 1
Tabla 6.2: Matriz de correlaciones para las calicaciones en 5 asignaturas.
6.4. TEOREMAS FUNDAMENTALES 105
Las dos primeras asignaturas estn ms inuidas por el factor C, y las
tres ltimas por el factor L. Por ejemplo, Matemticas tiene una correlacin
de 0.9 con Ciencias y slo 0.1 con Letras.
La calicacin del primer alumno en CNa es 7, debida a 7 puntos en
Ciencias y 5 puntos en Letras. Segn el modelo factorial:
7 = 0.8 7 + 0.2 5 + 0.4 = 5.6 + 1 + 0.4.
De los 7 puntos, 5.6 se explican por el factor comn C, 1 punto por el factor
comn L y 0.4 puntos por el factor nico. Este factor nico representa la
variabilidad propia de las CNa, independente de los conceptos C y L.
Las comunalidades son:
/
2
1
= 0.68. /
2
2
= 0.82. /
2
3
= 0.82. /
2
4
= 0.73. /
2
5
= 0.68.
Los porcentajes de la variabilidad explicada por los factores comunes y las
comunalidades son:
Factor C Factor L Comunalidades
C. Naturales 64 4 68
Matemticas 81 1 82
Francs 1 81 82
Latn 9 64 73
Literatura 4 64 68
6.4. Teoremas fundamentales
El primer teorema, conocido como teorema de Thurstone, permite rela-
cionar la matriz factorial con la matriz de correlaciones, o ms exactamente,
con la matriz de correlaciones reducida. El segundo teorema permite de-
terminar, tericamente, el nmero de factores comunes y los valores de las
comunalidades.
Teorema 6.4.1 Bajo las hiptesis del modelo factorial lineal se verica:
:
i)
=

n
I=1
c
iI
c
)I
. i ,= , = 1. . . . . j.
1 =

n
I=1
c
2
iI
+d
2
i
. i = 1. . . . . j.
En notacin matricial
H = AA
t
+O
2
. (6.12)
106 CAPTULO 6. ANLISIS FACTORIAL
Demost.: Al ser las variables reducidas, H =1(XX
t
) y de (6.6)
H = 1((AF +Ol)(AF +Ol)
t
)
= A1(FF
t
)A
t
+O1(ll
t
)O
t
+ 2A1(Fl
t
)O.
Por las condiciones de incorrelacin entre factores tenemos que 1(FF
t
) = I
n
.
1(ll
t
) = I
j
. 1(Fl
t
) = 0. lo que prueba (6.12).
De (6.9) vemos inmediatamente que
H
+
= AA
t
. (6.13)
Una solucin factorial viene dada por cualquier matriz A que cumpla la
relacin (6.13). As pues, si : 1. existen innitas soluciones, pues si A es
solucin, tambin lo es AT, siendo T una matriz :: ortogonal. Por otro
lado, (6.12) o (6.13) tampoco resuelven completamente el problema, ya que
desconocemos las comunalidades. La obtencin de las comunalidades est
muy ligada al nmero de factores comunes.
Teorema 6.4.2 Se verica:
1. El modelo factorial existe si H es la suma de una matriz semidenida
positiva y una matriz diagonal con elementos no negativos.
2. El nmero : de factores comunes es el rango de la matriz H
+
. Por
lo tanto : es el orden del ms grande menor de H que no contiene
elementos de la diagonal.
3. Les comunalidades son aquellos valores 0 _ /
2
i
_ 1 tales que H
+
es
matriz semi-denida positiva (tiene : valores propios positivos).
Demost.: Es una consecuencia de la relacin (6.13) entre H
+
y A. El mayor
menor de Hquiere decir la submatriz cuadrada con determinante no negativo,
que no contenga elementos de la diagonal.
Hemos visto que a partir de H podemos encontrar :, pero la solucin no
es nica. El principio de parsimonia en AF dice que entre varias soluciones
admisibles, escogeremos la que sea ms simple. El modelo factorial ser pues
aquel que implique un nmero mnimo : de factores comunes. Fijado :, las
comunalidades se pueden encontrar, algebraicamente, a partir de la matriz
de correlaciones H. En la prctica, las comunalidades se hallan aplicando
mtodos estadsticos.
6.5. MTODO DEL FACTOR PRINCIPAL 107
Finalmente, podemos probar de manera anloga, que si el anlisis fac-
torial lo planteamos a partir de la matriz de covarianzas X. sin suponer las
variables reducidas, aunque s los factores, entonces obtenemos la estructura
X = AA
t
+O
2
. (6.14)
6.5. Mtodo del factor principal
Es un mtodo de obtencin de la matriz factorial con la propiedad de que
los factores expliquen mxima varianza y sean incorrelacionados.
La variabilidad total de las variables, que suponemos reducidas, es igual
a j. La variabilidad de la variable A
i
explicada por el factor 1
)
es c
2
i)
. La
suma de variabilidades explicadas por 1
)
es
\
)
= c
2
1)
+ +c
2
j)
.
El primer factor principal 1
1
es tal que \
1
es mximo. Consideremos pues
el problema de maximizar \
1
con la restriccin H
+
= AA
t
. Utilizando el
mtodo de los multiplicadores de Lagrange debemos considerar la funcin
\
1
+
j

),)
0
=1

))
0 (:
))
0
n

I=1
c
)I
c
)
0
I
).
donde
))
0 =
)
0
)
son los multiplicadores. Igualando las derivadas a cero se
obtiene que las saturaciones a
1
= (c
11
. . . . . c
j1
)
t
del primer factor principal
verican
H
+
a
1
= `
1
a
1
.
es decir, a
1
es el primer vector propio de H
+
y `
1
es el primer valor propio.
El valor mximo de \
1
es precisamente `
1
.
Si ahora restamos del modelo factorial el primer factor
A
t
i
= A
i
c
i1
1
1
= c
i2
1
2
+ +c
in
1
n
+d
i
l
i
.
el modelo resultante contiene :1 factores. Aplicando de nuevo el criterio
del factor principal al modelo vemos que las saturaciones a
2
= (c
12
. . . . . c
j2
)
t
tales que la variabilidad explicada por el segundo factor
\
2
= c
2
12
+ +c
2
j2
.
108 CAPTULO 6. ANLISIS FACTORIAL
sea mxima, corresponde al segundo vector propio de H
+
con valor propio
`
2
. que es precisamente el valor mximo de \
2
.
En general, si H
+
= lAl
t
es la descomposicin espectral de H
+
. entonces
la solucin del factor principal es
A = lA
12
.
Fijado un valor compatible de :, un algoritmo iterativo de obtencin de
la matriz factorial y de las comunalidades es:
Paso 0 H = lAl
t
(j vectores propios de H)
Paso 1
_
_
_
A
1
= l
(1)
n
(A
n
)
12
(: primeros vectores propios)
H
1
=diag(A
1
A
t
1
) +HI (matriz correlaciones reducida)
H
1
= l
(1)
A
(1)
l
(1)t
(j vectores propios de H
1
)
Paso i
_
_
_
A
i
= l
(i)
n
(A
(i)
n
)
12
H
i
=diag(A
i
A
t
i
) +HI (repetir iterativamente)
H
i
=l
(i)
A
(i)
l
(i)t
La matriz A
i
converge a la matriz factorial A. Como criterio de conver-
gencia podemos considerar la estabilidad de las comunalidades. Pararemos si
pasando de i a i +1 los valores de las comunalidades, es decir, los valores en
diag(A
i
A
t
i
). prcticamente no varan. Esta refactorizacin podra fallar si se
presenta el caso de Heywood H no satisface el modelo factorial (6.12).
Ejemplo 6.5.1 Asignaturas.
Volviendo al ejemplo de las asignaturas y suponiendo la matriz factorial
(6.11), las correlaciones y la solucin por el mtodo del factor principal (que
detecta dos factores comunes explicando el 74.6 % de la varianza), son:
CNa Mat Fra Lat Lit F
1
F
2
CNa 1 0.74 0.26 0.40 0.32 CNa 0.621 0.543
Mat 1 0.18 0.35 0.26 Mat 0.596 0.682
Fra 1 0.75 0.74 Fra 0.796 0.432
Lat 1 0.70 Lat 0.828 0.210
Lit 1 Lit 0.771 0.292
Valor propio 2.654 1.076
Porcentaje 53.08 21.52
6.6. MTODO DE LA MXIMA VEROSIMILITUD 109
6.6. Mtodo de la mxima verosimilitud
6.6.1. Estimacin de la matriz factorial
Podemos plantear la obtencin de la matriz factorial como un problema
de estimacin de la matriz de covarianzas X. con la restriccin que X se
descompone en la forma
X = AA
t
+Y.
donde Y = O
2
es una matriz diagonal (vase (6.14)). Si suponemos que las
: observaciones de las j variables provienen de una distribucin normal con
= 0. el logaritmo de la funcin de verosimilitud es
log 1(X. . X) =
a
2
log [2:X[ tr(X
1
S).
Cambiando de signo y modicando algunas constantes, se trata de estimar
A y Y de manera que
1
j
(A. Y) =log [X[ + tr(X
1
S)log [S[j (6.15)
sea mnimo, siendo S la matriz de covarianzas muestrales. Las derivadas
respecto de A y Y son
J1
j
JA
= 2
1
(XS)X
1
A.
J1
j
JY
= diag(X
1
(XS)X
1
).
Por tanto, las ecuaciones a resolver para obtener estimaciones de A y Y son
X
1
(XS)X
1
A = 0. diag(X
1
(XS)X
1
) = 0.
X = AA
t
+Y. A
t
Y
1
A es diagonal.
(6.16)
La ltima condicin es slo una restriccin para concretar una solucin,
puesto que si A es solucin, tambin lo es AT, siendo T matriz ortogonal.
Debe tenerse en cuenta que se trata de encontrar el espacio de los factores
comunes. La solucin nal ser, en la prctica, una rotacin de la solucin que
verique ciertos criterios de simplicidad. Las ecuaciones (6.16) no proporcio-
nan una solucin explcita, pero es posible encontrar una solucin utilizando
un mtodo numrico iterativo.
110 CAPTULO 6. ANLISIS FACTORIAL
6.6.2. Hiptesis sobre el nmero de factores
Una ventaja del mtodo de la mxima verosimilitud es que permite for-
mular un test de hiptesis sobre la estructura factorial de X y el nmero :
de factores comunes.
Planteemos el test
H
0
: X = AA
t
+Y vs H
1
: X es denida positiva,
donde A es de rango :.
Si

X =

A

A
t
+

Y. siendo

A y

Y las estimaciones, los mximos del logar-
itmo de la razn de verosimilitud son (Seccin 5.4.2)
H
0
:
a
2
(log [

X[ + tr(

X
1
S)).
H
1
:
a
2
(log [S[ +j).
Aplicando el Teorema 3.5.1 tenemos que el estadstico
C
I
= :(log [

X[ log [S[ + tr(

X
1
S)j) = :1
j
(

A.

Y)
sigue asintticamente la distribucin ji-cuadrado con
/ = j(j 1),2 (j ::(:1),2) =
1
2
((j :)
2
j :)
grados de libertad. Podemos observar que C
I
es : veces el valor mnimo de
la funcin (6.15) y que / coincide con (6.10).
6.7. Rotaciones de factores
La obtencin de la matriz factorial, por aplicacin de los dos mtodos
que hemos expuesto, no es ms que el primer paso del AF. Normalmente
la matriz obtenida no dene unos factores interpretables. En el ejemplo de
las asignaturas, la solucin por el mtodo del factor principal es en principio
vlida, pero dene dos factores comunes 1
1
. 1
2
que no son fcilmente identi-
cables. Se hace necesario rotar estos dos factores hacia unos factores ms
fciles de interpretar.
Se han propuesto diferentes versiones sobre cmo transformar la matriz
factorial a n de obtener una estructura simple de los factores. Esencialmente
se trata de conseguir que unas saturaciones sean altas a costa de otras, que
sern bajas, para as destacar la inuencia de los factores comunes sobre las
variables observables.
6.7. ROTACIONES DE FACTORES 111
6.7.1. Rotaciones ortogonales
Dada una matriz factorial A. queremos encontrar una matriz ortogonal
T tal que la nueva matriz factorial H = AT dena unos factores que tengan
una estructura ms simple. Un criterio analtico considera la funcin
G =
n

I=1
n

I,=)=1
[
j

i=1
c
2
i)
c
2
iI


j
j

i=1
c
2
i)
j

i=1
c
2
iI
]. (6.17)
donde es un parmetro tal que 0 _ _ 1. Hay dos criterios especialmente
interesantes.
Quartimax: Si = 0 minimizar G equivale a maximizar la varianza de
los cuadrados de los j : coecientes de saturacin. Si cada saturacin c
2
i)
se
divide por la comunalidad, es decir, se considera c
2
i)
,/
2
i
. la rotacin se llama
quartimax normalizada.
Varimax: Si = 1 minimizar G equivale a maximizar la suma de las
varianzas de los cuadrados de los coecientes de saturacin de cada columna
de A. Anlogamente si consideramos c
2
i)
,/
2
i
. la rotacin se llama varimax
normalizada.
6.7.2. Factores oblicuos
Los factores comunes pueden estar tambin correlacionados, y entonces
se habla del modelo factorial oblicuo. Este modelo postula que las variables
observables dependen de unos factores correlacionados 1
t
1
. . . . . 1
t
n
y de j
factores nicos. As para cada variable A
i
A
i
= j
i1
1
t
1
+ +j
in
1
t
n
+d
i
l
i
. i = 1. . . . . j. (6.18)
La solucin factorial oblicua consistir en hallar las siguientes matrices:
1. Matriz del modelo factorial oblicuo
I =(j
i)
)
siendo j
i)
la saturacin de la variable A
i
en el factor 1
t
)
.
2. Matriz de correlaciones entre factores oblicuos
d = (,
i)
) siendo ,
i)
= cor(1
t
i
. 1
t
)
).
112 CAPTULO 6. ANLISIS FACTORIAL
3. Estructura factorial oblicua (estructura de referencia)
Q =(
i)
) siendo
i)
= cor(A
i
. 1
t
)
).
Si indicamos F
0
= (1
t
1
. . . . . 1
t
n
)
t
y escribimos el modelo (6.18) en forma
matricial
X = IF
0
+Ol.
fcilmente probamos la relacin entre las tres matrices I. d y Q
Q = Id.
y la versin del teorema de Thurstone para factores correlacionados
H = IdI
t
+O
2
.
Si los factores son ortogonales, el modelo factorial coincide con la estructura
factorial y tenemos que
I = Q. d = I
n
.
6.7.3. Rotacin oblicua
Ya se ha dicho que hallar una matriz factorial A constituye el primer paso
de la factorizacin. Queremos encontrar una matriz L tal que la nueva matriz
factorial I = AL dena unos factores oblicuos que tengan una estructura
ms simple. Un criterio analtico sobre la matriz de estructura factorial Q
considera la funcin
H =
n

I=1

I,=)=1
_
j

i=1

2
i)

2
iI


j
j

i=1

2
i)
j

i=1

2
iI
_
.
donde es un parmetro tal que 0 _ _ 1. Hay tres criterios especial-
mente interesantes, que tienen una interpretacin parecida al caso ortogonal
y que tambin se pueden formular, ms adecuadamente, dividiendo por las
comunalidades.
Quartimin: Si = 0 hay mxima oblicuidad entre los factores comunes.
Bi-quartimin: Si = 1,2 el criterio es intermedio entre quartimin y co-
varimin.
Covarimin: Si = 1 hay mnima oblicuidad entre los factores comunes.
6.7. ROTACIONES DE FACTORES 113
Conviene tener en cuenta que las rotaciones ortogonales y oblicuas in-
tentan simplicar la estructura factorial A y la estructura de referencia Q.
respectivamente.
Un criterio directo de rotacin oblicua es el promax. Sea A la matriz fac-
torial obtenida por el mtodo varimax. Queremos destacar unas saturaciones
sobre otras, por tanto denimos I
+
= (j
+
i)
) tal que
j
+
i)
= [c
I+1
i)
[,c
i)
. / 1.
siendo / un nmero entero.
Cada elemento de Aqueda elevado a una potencia / conservando el signo.
Seguidamente ajustamos I
+
a AL en el sentido de los mnimos cuadrados
(vase (13.4)):
L = (A
t
A)
1
A
t
I
+
.
Es necesario normalizar la matriz L de manera que los vectores columna de
T = (L
t
)
1
tengan mdulo unidad. Obtenemos entonces
I = AL. d = T
t
T. Q = AT.
El grado de oblicuidad de los factores comunes aumenta con /. Se suele tomar
/ = 4.
Ejemplo 6.7.1 Asignaturas.
Siguiendo con el ejemplo de las 5 asignaturas, Tabla 6.1, la estimacin
mximo verosmil y la matriz factorial rotada son:
Mxim veros. Varimax Comun.
CNa
Mat
Fra
Lat
Lit
F
1
F
2
.659 .432
.999 .005
.104 .974
.234 .809
.327 .831
C L
.636 .464
.999 .046
.055 .978
.193 .820
.280 .847
.62
.99
.96
.71
.79
El test de hiptesis de que hay : = 2 factores comunes da
2
1
= 1.22.
no signicativo. Podemos aceptar : = 2. La rotacin varimax pone de ma-
niesto la existencia de dos factores C. 1, que podemos interpretar como
dimensiones latentes de Ciencias y Letras.
114 CAPTULO 6. ANLISIS FACTORIAL
Figura 6.1: Proyeccin de las variables sobre los factores comunes ortogonales,
y factores rotados (rotacin promax), interpretados como factores de Ciencias
y Letras.
La rotacin oblicua promax con / = 4 da las matrices I. Q. d siguientes:
Modelo factorial Estruct. factorial Correlaciones factores
CNa
Mat
Fra
Lat
Lit
C 1
.570 .375
1.04 .135
.150 1.024
.028 .831
.114 .844
C 1
.706 .581
.992 .242
.221 .970
.330 .842
.420 .885
_
1 .362
.362 1
_
La Figura 6.1 representa los factores ortogonales iniciales F
1
y F
2
, dibu-
jados como vectores unitarios, y los factores oblicuos C y L. Las variables
tienen una longitud proporcional a la raz cuadrada de sus comunalidades.
6.7.4. Factores de segundo orden
Un vez hemos obtenido los factores oblicuos con matriz de correlaciones
d. podemos suponer que estos : factores primarios dependen de :
t
factores
6.8. MEDICIN DE FACTORES 115
secundarios de acuerdo con una matriz factorial H que verica
d = HH
t
+E
2
.
siendo E la matriz :: diagonal.
Si los factores secundarios son tambin oblicuos, el proceso de facto-
rizacin puede continuar hasta llegar a un nico factor comn de orden su-
perior.
Un ejemplo de aplicacin nos lo proporciona la teora clsica de la estruc-
tura factorial de la inteligencia. Los test de aptitud dependen de un conjunto
elevado de factores primarios, que dependen de un conjunto de 7 factores
secundarios (verbal, numrico, espacial, razonamiento, memoria, percepcin,
psicomotores), que a su vez dependen de un factor general g (el factor g
de Spearman), que sintetiza el hecho de que todas las aptitudes mentales
estn correlacionadas.
6.8. Medicin de factores
Sea x = (r
1
. . . . . r
j
)
t
los valores de las j variables observables obtenidos
sobre un individuo .. Nos planteamos ahora medir los factores, es decir,
encontrar los valores f = (,
1
. . . . . ,
n
)
t
de los factores comunes sobre .. Se
verica
x = Af +Ou. (6.19)
siendo u = (n
1
. . . . n
j
)
t
los valores de las unicidades.
Si interpretamos (6.19) como un modelo lineal, donde x es el vector de
observaciones, Aes la matriz de diseo, f es el vector de parmetros y o = Ou
es el trmino de error, el criterio de los mnimos cuadrados (vase (13.4)) nos
da
f = (A
t
A)
1
A
t
x.
Un mtodo ms elaborado (propuesto por M. S. Bartlett) considera que
f es funcin lineal de x y que los valores de los factores nicos
u = O
1
(x Af )
son trminos de error. Si queremos minimizar
u
t
u = n
2
1
+ +n
2
j
.
116 CAPTULO 6. ANLISIS FACTORIAL
expresando (6.19) como O
1
x = O
1
Af +u. es fcil ver que
f = (A
t
O
2
A)
1
A
t
O
2
x.
Una modicacin de este mtodo (propuesta por T. W. Anderson y H.
Rubin) consiste en aadir la condicin de que los factores comunes estimados
estn incorrelacionados. La solucin que resulta es
f = H
1
A
t
O
2
x.
siendo H
2
= A
t
O
2
HO
2
A.
Ejemplo 6.8.1 Asignaturas.
Continuando con el ejemplo de las 5 asignaturas, Tabla 6.1, las calica-
ciones en las asignaturas de los 4 primeros alumnos (Tabla 6.1) y las pun-
tuaciones (Anderson-Rubin) en los factores C y 1. obtenidos con la rotacin
varimax, son:
Alumno CNa Mat Fra Lat Lit C L
1 7 7 5 5 6 1.06 .559
2 5 5 6 6 5 .568 .242
3 5 6 5 7 5 .259 .505
4 6 8 5 6 6 1.85 .614
Teniendo en cuenta que los factores comunes son variables estandarizadas,
el primer alumno tiene una nota relativamente alta en Ciencias y una nota
algo por debajo de la media en Letras.
6.9. Anlisis factorial conrmatorio
Los mtodos del factor principal y de la mxima verosimilitud son mto-
dos exploratorios, en el sentido de que exploran las dimensiones latentes de las
variables. El AF tambin se puede plantear en sentido conrmatorio, es decir,
estableciendo una estructura factorial de acuerdo con el problema objeto de
estudio, y seguidamente aceptando o rechazando esta estructura mediante
un test de hiptesis. Por ejemplo, podemos considerar que la matriz factorial
6.9. ANLISIS FACTORIAL CONFIRMATORIO 117
en el ejemplo de las 5 asignaturas es
C L
CNa 1 0
Mat 1 0
Fra 0 1
Lat 0 1
Lit 0 1
interpretando que las dos primeras slo dependen del factor Ciencias y las
otras tres del factor Letras. Entonces podemos realizar una transformacin
de la matriz factorial inicial para ajustarnos a la matriz anterior.
Si la solucin inicial es A. postulamos una estructura H y deseamos en-
contrar T ortogonal tal que AT se aproxime a H en el sentido de los mnimos
cuadrados
tr[(HAT)
t
(HAT)] = mnimo,
entonces la solucin es T = lY
t
. siendo A
t
H = lO
c
Y
t
la descomposicin
singular de A
t
H. Es decir AT es la transformacin procrustes de A. Vase
(1.7).
Si T no es ortogonal y por lo tanto se admite una estructura oblicua,
entonces T se obtiene siguiendo un procedimiento parecido a la rotacin
promax
T = (A
t
A)
1
A
t
H.
pero normalizando a mdulo 1 los vectores columna de T.
Ms generalmente, en AF conrmatorio se especica el nmero de factores
comunes, el tipo ortogonal u oblicuo de la solucin, y los valores libres o jos
de las saturaciones.
Ejemplo 6.9.1 Test de capacidad.
Un AF conrmatorio sobre 9 test (estudiado por K. Joreskog) obtiene
siete soluciones conrmatorias. De los 9 test considerados, los test 1,2,3 miden
relaciones espaciales, los test 4,5,6 inteligencia verbal y los test 7,8,9 velocidad
118 CAPTULO 6. ANLISIS FACTORIAL
de percepcin. La matriz de correlaciones es:
1 2 3 4 5 6 7 8 9
1 1 .318 .468 .335 .304 .326 .116 .314 .489
2 1 .230 .234 .157 .195 .057 .145 .139
3 1 .327 .335 .325 .099 .160 .327
4 1 .722 .714 .203 .095 .309
5 1 .685 .246 .181 .345
6 1 .170 .113 .280
7 1 .585 .408
8 1 .512
9 1
Slo comentaremos tres soluciones. La primera solucin es oblicua no
restringida, y se puede aceptar, puesto que la ji-cuadrado del ajuste no es
signicativa.
I d Comun.
.71 .00 .00 .50
.54 .03 .08 .26
.67 .04 .09 .46
.00 .87 .00 1 .76
.03 .81 .13 .54 1 .70
.01 .82 .01 .24 .28 1 .68
.00 .00 .78 .61
.42 .30 .73 .68
.56 .06 .41 .54

2
12
= 9.77
j = 0.64
La segunda solucin es oblicua restringida. Se impone la condicin de que
los tres primeros test correlacionen slo con el primer factor, los tres siguientes
slo con el segundo y los tres ltimos slo con el tercero. No obstante, el valor
ji-cuadrado es signicativo y esta solucin no debera aceptarse.
6.10. COMPLEMENTOS 119
I d Comun.
.68 .00 .00 .46
.52 .00 .00 .27
.69 .00 .00 .48
.00 .87 .00 1 .77
.00 .83 .00 .54 1 .69
.00 .83 .00 .52 .34 1 .69
.00 .00 .66 .43
.00 .00 .80 .63
.00 .00 .70 .49

2
24
= 51.19
j = 0.001
La tercera solucin es ortogonal no restringida, con un factor general y
tres factores especcos, en el sentido que el primero no correlaciona con la
variable 4, el segundo no correlaciona con las variables 1 y 7 y el tercero no
correlaciona con 1, 2 y 4. El valor ji-cuadrado indica que esta solucin es
aceptable.
I d Comun.
.38 .58 .00 .00 .48
.24 .41 .35 .00 .37
.38 .53 .30 .03 1 .52
.87 .00 .03 .00 .00 1 .75
.83 .01 .13 .06 .00 .00 1 .72
.83 .01 .04 .02 .00 .00 .00 1 .68
.24 .02 .00 .95 .95
.15 .43 .13 .57 .56
.36 .59 .22 .34 .64

2
6
= 2.75
j = 0.84
6.10. Complementos
Constituyen dos precedentes del Anlisis Factorial el concepto de fac-
tor latente de F. Galton y de eje principal de K. Pearson. El primer trabajo,
publicado en 1904, por Ch. Spearman (Spearman, 1904) desarrolla una teora
de la inteligencia alrededor de un factor comn, el factor g. Esta teora,
120 CAPTULO 6. ANLISIS FACTORIAL
que ordenaba la inteligencia de los individuos a lo largo de una sola dimen-
sin, fue defendida por C. Burt, con consecuencias sociolgicas importantes,
pues proporcion una base cientca para nanciar las escuelas privadas en
detrimento de otras.
El Anlisis Factorial moderno se inicia con la obra Multiple Factor
Analysis de L.L. Thurstone, que postulaba ms de un factor comn, intro-
duca la estructura simple y las rotaciones de factores. A partir de Thurstone
la medida de la inteligencia era ms democrtica, ya que posea varias
dimensiones latentes, quedando sin sentido una ordenacin clasista de los
individuos, pues si en una dimensin sera posible ordenarlos, en varias di-
mensiones es imposible. Hubo una polmica similar sobre la personalidad. La
teora psicoanaltica defenda una continuidad entre la personalidad neurtica
y la psictica, mientras que el AF revela que neurosis y psicosis son dimen-
siones independientes.
Los modelos y mtodos de Spearman, Burt, Thurstone y otros (Holzinger,
Harman y Horst), son ya historia. Los mtodos actuales para obtener la
matriz factorial son: factor principal, anlisis factorial cannico (C.R. Rao),
mtodo Alfa (H.F. Kaiser, J. Carey) y el mtodo de la mxima verosimilitud
(D. N. Lawley, K. G. Joreskog). Vase Joreskog (1967).
El mtodo varimax de rotacin ortogonal de Kaiser es uno de los ms
recomendados. J.B. Carroll introdujo la rotacin oblicua quartimin y A. E.
Hendrickson y P. O. White la promax. Anderson y Rubin (1956) publicaron
un excelente trabajo sobre AF, tratando todo los aspectos algebraicos y es-
tadsticos del tema. Vase Harman (1976), Torrens-Ibern (1972).
El estudio de las dimensiones latentes es un tema presente en la ciencia
y siempre ha despertado inters. C. R. Rao demostr que si conocemos la
distribucin de / combinaciones lineales de j variables independientes, siendo
/(/ 1),2 < j _ /(/ + 1),2. entonces la distribucin de cada una de las
j variables queda determinada (salvo la media o parmetro de localizacin).
Por ejemplo, si tenemos j = 210 variables independientes bastara conocer
la distribucin de / = 20 combinaciones lineales adecuadas para determinar
la distribucin de las 210 variables. Este resultado proporciona una cierta
justicacin terica acerca del hecho que la informacin multivariante posee
una dimensionalidad latente mucho ms pequea.
La etapa inicial del AF (hasta 1966), era exploratoria, como una her-
ramienta para explorar la dimensionalidad latente de las variables. Ms tarde,
el anlisis factorial se ha entendido en sentido conrmatorio (Joreskog, Law-
ley, Maxwell, Mulaik), estableciendo una estructura factorial de acuerdo con
6.10. COMPLEMENTOS 121
el problema, y seguidamente aceptando o rechazando esta estructura me-
diante un test de hiptesis (Joreskog, 1969, 1970). Consltese Cuadras (1981).
Se han llevado a cabo muchas aplicaciones del AF. Citaremos tres, las
dos primeras sobre AF exploratorio y la tercera sobre AF conrmatorio.
Rummel (1963) estudia 22 medidas de los conictos de 77 naciones y en-
cuentra tres dimensiones latentes, que identica como: agitacin, revolucin
y subversin, y ordena las naciones segn las puntuaciones en los factores
comunes.
Snchez-Turet y Cuadras (1972) adaptan el cuestionario E.P.I. de perso-
nalidad (Eysenck Personality Inventory) y sobre un test de 69 tems (algunos
tems detectan mentiras) encuentran tres factores: Introversin-Extroversin,
Estabilidad-Inestabilidad, Escala de mentiras.
Joreskog (1969) explica un ejemplo de AF conrmatorio sobre 9 test,
previamente estudiado por Anderson y Rubin. Vase la Seccin 6.9.
Finalmente, el Anlisis de Estructuras Covariantes es una generalizacin
del AF, que unica este mtodo con otras tcnicas multivariantes (MANOVA,
anlisis de componentes de la varianza, anlisis de caminos, modelos simplex
y circumplexos, etc.). Se supone que la estructura general para la matriz de
covarianzas es
X = H(IdI
t
+O
2
)H
t
+O
2
.
Otra generalizacin es el llamado modelo LISREL (Linear Structural Re-
lationship), que permite relacionar un grupo de variables dependientes
con un grupo de variables independientes X. que dependen de unas variables
latentes a travs de un modelo de medida. Las variables latentes estn rela-
cionadas por un modelo de ecuaciones estructurales. LISREL (Joreskog y
Sorbom, 1999) es muy exible y tiene muchas aplicaciones (sociologa, psi-
cologa, economa). Vase Satorra (1989), Batista y Coenders (2000).
122 CAPTULO 6. ANLISIS FACTORIAL
Captulo 7
ANLISIS CANNICO DE
POBLACIONES
7.1. Introduccin
Con el Anlisis de Componentes Principales podemos representar los indi-
viduos de una poblacin, es decir, representar una nica matriz de datos. Pero
si tenemos varias matrices de datos, como resultado de observar las variables
sobre varias poblaciones, y lo que queremos es representar las poblaciones,
entonces la tcnica adecuada es el Anlisis Cannico de Poblaciones (CANP).
Supongamos que de la observacin de j variables cuantitativas A
1
. . . . . A
j
sobre q poblaciones obtenemos q matrices de datos
X =
_
_
_
_
_
X
1
X
2
.
.
.
X
j
_
_
_
_
_
:
1
j
:
2
j
.
.
.
:
j
j
donde X
i
es la matriz :
i
j de la poblacin i. Sean x
t
1
.x
t
2
. . . . .x
t
j
los vectores
(la) de las medias de cada poblacin. X es de orden : j, siendo ahora
: =

j
i=1
:
i
. Indiquemos
X=
_
_
_
_
_
x
t
1
x
t
x
t
2
x
t
.
.
.
x
t
j
x
t
_
_
_
_
_
123
124 CAPTULO 7. ANLISIS CANNICO DE POBLACIONES
la matriz q j con las medias de las q poblaciones. Tenemos dos maneras de
cuanticar matricialmente la dispersin entre las poblaciones:
La matriz de dispersin no ponderada entre grupos
A =X
t
X =
j

i=1
(x
i
x)(x
i
x)
t
.
La matriz de dispersin ponderada entre grupos
H =
j

i=1
:
i
(x
i
x)(x
i
x)
t
.
La matriz A es proporcional a una matriz de covarianzas tomando como
datos slo las medias de las poblaciones. La matriz H participa, juntamente
con V (matriz de dispersin dentro de grupos) en el test de comparacin
de medias de q poblaciones. Aqu trabajaremos con la matriz A, si bien los
resultados seran parecidos si utilizramos la matriz H. Tambin haremos uso
de la matriz de covarianzas (vase (3.2)):
S =
1
: q
j

i=1
:
i
S
i
.
Entonces A =X
t
X juega el papel de matriz de covarianzas entre las pobla-
ciones, S juega el papel de matriz de covarianzas dentro de las poblaciones.
7.2. Variables cannicas
Denicin 7.2.1 Sean Y = [v
1
. . . . . v
j
] los vectores propios de A =X
t
X
respecto de S con valores propios `
1
`
j
, es decir,
Av
i
= `
i
S
i
v
i
.
normalizados segn
v
t
i
S
i
v
i
= 1.
Los vectores v
1
. . . . . v
j
son los vectores cannicos y las variables cannicas
son las variables compuestas
1
i
= Xv
i
.
7.2. VARIABLES CANNICAS 125
Si v
i
= (
1i
. . . . .
ji
)
t
y X = [A
1
. . . . . A
j
]. la variable cannica 1
i
es la
variable compuesta
1
i
= Xv
i
=
1i
A
1
+ +
ji
A
j
que tiene o-varianza 1 y varianza `
i
. es decir:
var

(1
i
) = v
t
i
Av
i
= `
i
. var
S
(1
i
) = v
t
i
S
i
v
i
= 1.
Trabajaremos con j variables cannicas, pero de hecho el nmero efectivo es
/ = mnj. q 1. ver Seccin 7.5.3.
Teorema 7.2.1 Las variables cannicas verican:
1. Son incorrelacionadas dos a dos respecto a A y tambin respecto a S
cov

(1
i
. 1
)
) = cov
S
(1
i
. 1
)
) = 0 :i i ,= ,.
2. Las -varianzas son respectivamente mximas:
var

(1
1
) = `
1
var

(1
j
) = `
j
.
en el sentido de que 1
1
es la variable con mxima varianza entre grupos,
condicionada a varianza 1 dentro grupos, 1
2
es la variable con mxima
varianza entre grupos, condicionada a estar incorrelacionada con 1
1
y
tener varianza 1 dentro grupos, etc.
Demost.: Supongamos `
1
`
j
0. Probemos que las variables com-
puestas 1
i
= Xt
i
. i = 1. . . . . j. estn incorrelacionadas:
cov

(1
i
. 1
)
) = t
t
i
At
)
= t
t
i
S`
)
t
)
= `
)
t
t
i
St
)
.
cov

(1
)
. 1
i
) = t
t
)
At
i
= t
t
)
S`
)
t
i
= `
i
t
t
)
St
i
.
Restando (`
)
`
i
)t
t
i
St
)
= 0 = t
t
i
St
)
= 0 = cov

(1
i
. 1
)
) = `
)
t
t
i
St
)
=
cov

(1
i
. 1
)
) = 0. si i ,= ,. Adems, de t
t
i
St
)
= 1:
var

(1
i
) = `
i
t
t
i
St
)
= `
i
.
Sea ahora 1 =

j
i=1
c
i
A
i
=

j
i=1
c
i
1
i
una variable compuesta tal que
var
S
(1 ) =

j
i=1
c
2
i
var
S
(1
i
) =

j
i=1
c
2
i
= 1. Entonces var

(1 ) es:
var

(
j

i=1
c
i
1
i
) =
j

i=1
c
2
i
var

(1
i
) =
j

i=1
c
2
i
`
i
_ (
j

i=1
c
2
i
)`
1
= var

(1
1
).
126 CAPTULO 7. ANLISIS CANNICO DE POBLACIONES
que prueba que 1
1
tiene mxima varianza entre grupos.
Consideremos a continuacin las variables 1 incorrelacionadas con 1
1
.
que podemos expresar como:
1 =
j

i=2
,
i
1
i
condicionado a
j

i=2
,
2
i
= 1.
Entonces var

(1 ) es:
var

_
j

i=2
,
i
1
i
_
=
j

i=2
,
2
i
var

(1
i
) =
j

i=2
,
2
i
`
i
_
_
j

i=2
,
2
i
_
`
2
= var

(1
2
).
y por lo tanto 1
2
est incorrelacionada con 1
1
y tiene varianza mxima. La
demostracin para 1
3
. . . . . 1
j
es anloga.
7.3. Distancia de Mahalanobis y transforma-
cin cannica
La distancia de Mahalanobis entre dos poblaciones es una medida natural
de la diferencia entre las medias de las poblaciones, pero teniendo en cuenta
las covarianzas. En la Seccin 1.9 hemos introducido la distancia entre los
individuos de una misma poblacin. Ahora denimos la distancia entre dos
poblaciones cuando hay ms de dos poblaciones.
Denicin 7.3.1 Consideremos muestras multivariantes de q poblaciones
con vectores de medias x
1
.x
2
. . . . .x
j
y matriz de covarianzas (comn) S. La
distancia (al cuadrado) de Mahalanobis entre las poblaciones i. , es
`
2
(i. ,) = (x
i
x
)
)
t
S
1
(x
i
x
)
).
Si X es la matriz centrada con los vectores de medias y Y = [v
1
. . . . . v
j
]
es la matriz con los vectores cannicos (vectores propios de A =X
t
Xrespecto
de S). la transformacin cannica es
=XY.
La matriz de orden q j contiene las coordenadas cannicas de las q
poblaciones.
7.4. REPRESENTACIN CANNICA 127
Teorema 7.3.1 La distancia de Mahalanobis entre cada par de poblaciones
i. , coincide con la distancia eucldea entre las las i. , de la matriz de
coordenadas cannicas . Si y
i
= x
i
Y entonces
d
2
1
(i. ,) = (y
i
y
)
)
t
(y
i
y
)
) = (x
i
x
)
)
t
S
1
(x
i
x
)
). (7.1)
Demost.: Basta probar que los productos escalares coinciden
y
i
y
t
)
= x
i
S
1
x
t
)
==XS
1
X
t
=
t
. (7.2)
Sea A =diag(`
1
. . . . . `
j
) la matriz diagonal con los valores propios de A =X
t
X
respecto de S. Entonces
AY = SYA con Y
t
SY = I
j
.
y la transformacin cannica es =XY.
AY = SYA es X
t
XY = SYA, luego S
1
X
t
XY = YA y premultiplican-
do por X tenemos XS
1
X
t
XY = XYA. es decir,
XS
1
X
t
= A.
Con lo cual contiene los vectores propios de XS
1
X
t
. luego cumple la
descomposicin espectral
XS
1
X
t
= A
t
suponiendo ortogonal. Tomando A
12
que indicamos tambin por .
obtenemos nalmente XS
1
X
t
=
t
.
7.4. Representacin cannica
La representacin de las q poblaciones mediante las las de X con la
mtrica de Mahalanobis es bastante complicada: la dimensin puede ser
grande y los ejes son oblicuos. En cambio, la representacin mediante las
coordenadas cannicas con la mtrica eucldea se realiza a lo largo de
ejes ortogonales. Si adems, tomamos las : primeras coordenadas cannicas
(usualmente : = 2), la representacin es totalmente factible y es ptima en
dimensin reducida, en el sentido de que maximiza la variabilidad geomtrica.
128 CAPTULO 7. ANLISIS CANNICO DE POBLACIONES
Teorema 7.4.1 La variabilidad geomtrica de las distancias de Mahalanobis
entre las poblaciones es proporcional a la suma de los valores propios:
\
A
(X) =
1
2q
2
j

i,)=1
`(i. ,)
2
=
1
q
j

i=1
`
i
. (7.3)
Si =XY. donde Y, de orden j : es la matriz de la transformacin
cannica en dimensin : y
o
2
i)
(:) = (y
i
y
)
)(y
i
y
)
)
t
=
n

I=1
(
iI

)I
)
2
es la distancia eucldea (al cuadrado) entre dos las de . la variabilidad
geomtrica en dimensin : _ j es
\
c
()
n
=
1
2q
2
j

i,)=1
o
2
i)
(:) =
1
q
n

i=1
`
i
.
y esta cantidad es mxima entre todas las transformaciones lineales posibles
en dimensin :.
Demost.: De (5.3) y (7.1)
\
A
(X) =
1
2q
2
j

i,)=1
`(i. ,)
2
=
1
2q
2
j

i,)=1
j

I=1
(
iI

)I
)
2
= :
2
1
+ +:
2
j
donde :
2
)
= (

j
i=1

2
i)
),q representa la varianza ordinaria de la columna 1
)
de . Esta suma de varianzas es
tr(
1
j

t
) =
1
j
tr(Y
t
X
t
XY) =
1
j
tr(Y
t
AY) =
1
j
tr(A)
lo que prueba (7.3).
Sea ahora

=XT otra transformacin de Xtal que T
t
ST = I. Indicando
T = [t
1
. . . . . t
j
]. la -varianza de la primera columna

1
1
de

es t
t
1
At
1
_
v
t
1
Av
1
= `
1
. Es decir, la varianza ordinaria :
2
(

1
1
) = q
1

1
t
1

1
1
= q
1
t
t
1
X
t
Xt
1
es mxima para 1
1
= Xv
1
. primera columna de . Anlogamente se demues-
tra para las dems columnas (segunda, tercera, etc., coordenadas cannicas).
Tenemos pues:
\
c
(

)
n
=
n

I=1
:
2
(

1
I
) =
1
q
n

I=1
var

1
I
) _ \
c
()
n
=
1
q
n

I=1
`
I
.
7.5. ASPECTOS INFERENCIALES 129
El porcentaje de variabilidad geomtrica explicada por las : primeras
coordenadas cannicas es
1
n
= 100
\ ()
n
\
A
(X)
= 100
`
1
+ +`
n
`
1
+ +`
j
.
7.5. Aspectos inferenciales
Supongamos ahora que las matrices de datos X
1
. . . . . X
j
provienen de
q poblaciones normales `
j
(
1
. X
1
). . . . . `
j
(
j
. X
j
). Para poder aplicar cor-
rectamente un anlisis cannico de poblaciones conviene que los vectores de
medias sean diferentes y que las matrices de covarianzas sean iguales.
7.5.1. Comparacin de medias
El test
H
0
:
1
=
2
= =
j
(7.4)
ha sido estudiado en la Seccin 3.3.3 y se decide calculando el estadstico
= [V[,[H+V[ con distribucin lambda de Wilks. Si aceptamos H
0
las
medias de las poblaciones son tericamente iguales y el anlisis cannico,
tcnica destinada a representar las medias de las poblaciones a lo largo de
ejes cannicos, no tiene razn de ser. Por lo tanto, conviene rechazar H
0
.
7.5.2. Comparacin de covarianzas
El test
H
t
0
: X
1
= X
2
= = X
j
se resuelve mediante el test de razn de verosimilitud
`
1
=
[S
1
[
a
1
2
[S
j
[
ag2
[S[
a2
.
donde S
i
es la matriz de covarianzas de las datos de la poblacin i. estimacin
mximo verosmil de X
i
y
S = (:
1
S
1
+ +:
j
S
j
),: = V,:
130 CAPTULO 7. ANLISIS CANNICO DE POBLACIONES
es la estimacin mximo verosmil de X. matriz de covarianzas comn bajo
H
t
0
. Rechazaremos H
t
0
si el estadstico
2 log `
1
= :log [S[ (:
1
log [S
1
[ + +:
j
log [S
j
[) ~
2
q
es signicativo, donde = qj(j+1),2j(j+1),2 = (q1)j(j+1),2 son los
grados de libertad de la ji-cuadrado. Si rechazamos H
t
0
, entonces resulta que
no disponemos de unos ejes comunes para representar todas las poblaciones
(la orientacin de los ejes viene determinada por la matriz de covarianzas),
y el anlisis cannico es tericamente incorrecto. Conviene pues aceptar H
t
0
.
Este es el llamado test de Bartlett.
Debido a que el test anterior puede ser sesgado, conviene aplicar la cor-
reccin de Box,
c (: q) log [S[ ((:
1
1) log [

S
1
[ + + (:
j
1) log [

S
j
[)
donde

S
i
= (:
i
,(:
i
1))S
i
. y la constante c es
c =
_
1
_
2j
2
+ 3j 1
6(j + 1)(q 1)
_
_
j

I=1
1
:
j
1

1
: q
__
.
7.5.3. Test de dimensionalidad
Como el rango de A = X
t
X no puede superar ni la dimensin j ni q 1.
es obvio que el nmero efectivo de valores propios es
/ = mnj. q 1.
Si los vectores de medias poblacionales estn en un espacio 1
n
de dimen-
sin : < /. entonces el espacio cannico tiene dimensin : y por lo tanto
debemos aceptar la hiptesis
H
(n)
0
: `
1
`
n
`
n+1
= = `
I
.
donde `
1
`
n
son los valores propios de ^^
t
(la versin poblacional
de A) respecto de X. Si
|
1
|
I
son los valores propios de H respecto de V (ver Seccin 3.3.3), es decir,
soluciones de
[H|V[ = 0.
7.5. ASPECTOS INFERENCIALES 131
entonces un test para decidir H
(n)
0
est basado en el estadstico
/
n
= [: 1
1
2
(j +q)]
I

i=n+1
log(1 +|
i
) ~
2
q
.
donde = (j:)(q :1). Este test asinttico, propuesto por Bartlett, se
aplica secuencialmente: si /
0
es signicativo, estudiaremos /
1
; si /
1
es tambin
signicativo, estudiaremos /
2
, etc. Si /
0
. . . . . /
n1
son signicativos pero /
n
no, aceptaremos que la dimensin es :. Obsrvese que aceptar H
(0)
0
equivale a
la hiptesis nula de igualdad de vectores de medias (que entonces coincidiran
en un punto), es decir, equivale a aceptar (7.4).
Otros autores utilizan este test independientemente para cada dimensin.
As, el test H
0
: `
)
= 0 est basado en el estadstico
c
)
= [: 1
1
2
(j +q)] log(1 +|
)
) ~
2
v
.
donde : = j + q 2, son los grados de libertad. Rechazaremos H
0
si c
)
es
signicativo.
7.5.4. Regiones condenciales
Sean y
t
i
= x
t
i
Y.i = 1. . . . . q las proyecciones cannicas de los vectores de
medias muestrales de las poblaciones. Podemos entender y
i
como una esti-
macin de
+
i
=
i
Y. la proyeccin cannica del vector de medias poblacional

i
. Queremos encontrar regiones condenciales para
+
i
. i = 1. . . . . q.
Teorema 7.5.1 Sea 1 c el coeciente de conanza, 1
c
el valor tal que
1(1 1
c
) = c. donde 1 sigue la distribucin F con j y (: q j +1) q.|.
y consideremos:
1
2
c
= 1
c
(: q)j
(: q j + 1)
.
Entonces las proyecciones cannicas
+
i
de los vectores de medias pobla-
cionales pertenecen a regiones condenciales que son hiperesferas (esferas
en dimensin 3, crculos en dimensin 2) de centros y radios
(y
i
. 1
c
,
_
:
i
).
donde :
i
es el tamao muestral de la poblacin i.
132 CAPTULO 7. ANLISIS CANNICO DE POBLACIONES
Demost.: x
i

i
es `
j
(0. X,:
i
) independiente de Vque sigue la distribucin
\
j
(X. : q). Por lo tanto
(: q):
i
(x
i

i
)
t
V
1
(x
i

i
) = :
i
(x
i

i
)S
1
(x
i

i
)
t
~ 1
2
(j. : q).
y como la distribucin de Hotelling equivale a una 1, tenemos que
(x
i

i
)
t
S
1
(x
i

i
) ~
(: q)j
:
i
(: q j + 1)
1
j
ajj+1
.
As pues
1
_
(x
i

i
)
t
S
1
(x
i

i
) _
1
2
c
:
i
_
= 1 c.
que dene una regin condencial hiperelptica para
i
con coeciente de
conanza 1 c. Pero la transformacin cannica y
t
i
= x
t
i
Y convierte a
(x
i

i
)
t
S
1
(x
i

i
) en (y
i

+
i
)
t
(y
i

+
i
) y por lo tanto
1
_
(y
i

+
i
)
t
(y
i

+
i
) _
1
2
c
:
i
_
= 1 c.
Esta transformacin convierte adems hiperelipses en hiperesferas (elipses
en crculos si la dimensin es 2), ya que las variables cannicas estn incor-
relacionadas, lo que tambin es vlido si reducimos la dimensin (tomamos
las : primeras coordenadas cannicas).
Por ejemplo, si elegimos 1 c = 0.95 y una representacin en dimensin
reducida 2, cada poblacin vendr representada por un crculo de centro y
i
y radio 1
0.05
,
_
:
i
. de manera que el vector de medias proyectado pertenece
al crculo con coeciente de conanza 0.95. La separacin entre los centros
indicar diferencias, mientras que si dos crculos se solapan, ser un indicio
de que las dos poblaciones son posiblemente iguales.
7.6. Ejemplos
Ejemplo 7.6.1 Colepteros.
Se tienen medidas de 5 variables biomtricas sobre 6 especies de colepteros
del gnero Timarcha encontradas en 8 localidades distintas. Los datos estn
disponibles en http://www.ub.edu/stat/personal/cuadras/escarab.txt
7.6. EJEMPLOS 133
Figura 7.1: Proyeccin cannica de cuatro poblaciones.
1. T. sinustocollis (Campellas, Pirineos) :
1
= 40.
2. T. sinustocollis (Planollas, Pirineos) :
2
= 40.
3. T. indet (vall de Llauset, Pirineos, Osca) :
3
= 20.
4. T. monserratensis (Collformic, Barcelona) :
4
= 40.
5. T. monserratensis (Collfsuspina, Barcelona) :
5
= 40.
6. T. catalaunensis (La Garriga, Barcelona) :
6
= 40.
7. T. balearica (Mahn, Baleares) :
7
= 15
8. T. pimeliodes (Palermo, Sicilia) :
8
= 40
Las medidas (en mm.) son:
A
1
= long. prognoto, A
2
=diam. mximo prognoto, A
3
= base prognoto,
A
4
= long. litros, A
5
= diam. mximo litros.
Se quiere estudiar si existen diferencias entre las 8 poblaciones (locali-
dades) y representarlas mediante la distancia de Mahalanobis. Los resultados
del anlisis cannico son:
Matriz de covarianzas comn:
S =
_
_
_
_
_
_
3.277 3.249 2.867 5.551 4.281
7.174 6.282 9.210 7.380
6.210 8.282 6.685
20.30 13.34
13.27
_
_
_
_
_
_
134 CAPTULO 7. ANLISIS CANNICO DE POBLACIONES
Test de Bartlett para homogeneidad de la matriz de covarianzas. Ji-
cuadrado = 229.284, con 105 g.l. Signicativo al 5 %.
Matriz de dispersin entre grupos:
H =
_
_
_
_
_
_
6268 11386 8039 22924 17419
21249 15370 42795 32502
11528 31009 23475
86629 65626
49890
_
_
_
_
_
_
~ \
4
(X. 7)
Matriz de dispersin dentro de grupos:
V =
_
_
_
_
_
_
874.8 867.5 765.4 1482 1142
1915 1677 2458.99 1970
1658 2211 1784
5419 3562
3541
_
_
_
_
_
_
~ \
5
(X. 267)
Matriz de dispersin total:
T =
_
_
_
_
_
_
7143 12253 8804 24407 18562
23164 17047 45254 34472
13186 33220 25260
92049 69189
53432
_
_
_
_
_
_
Test de comparacin de medias:
= [V[ , [H+V[ = 0.0102 ~ (5. 267. 7) 1 = 62.5 (35 y 1108 g.l.)
Existen diferencias muy signicativas.
Transformacin cannica, valores propios y porcentaje acumulado:
v
1
v
2
.0292 .2896
.5553 .7040
.6428 .9326
.1259 .1326
.1125 .0059
` 158.64 24.53
% 85.03 98.18
7.7. COMPLEMENTOS 135
Figura 7.2: Representacin cannica de 8 poblaciones conteniendo datos bio-
mtricos de 6 especies de colepteros, encontrados en 8 localidades distintas.
De acuerdo con la Figura 7.2, las poblaciones 1 y 2 pertenecen claramente
a la misma especie, as como la 4 y 5. Las poblaciones 3 y 6 son especies
prximas, mientras que las 7 y 8 se diferencian mucho de las otras especies.
7.7. Complementos
El Anlisis Cannico de Poblaciones (CANP) fue planteado por M. S.
Bartlett en trminos de correlacin cannica entre las poblaciones y las va-
riables observables. C. R. Rao lo relacion con la distancia de Mahalanobis
y lo estudi como una tcnica para representar poblaciones. Su difusin es
debida a Seal (1964).
Existen diferentes criterios para obtener la regin condencial para las
medias de las poblaciones. Aqu hemos seguido un criterio propuesto por
Cuadras (1974). Una formulacin que no supone normalidad es debida a
Krzanowski y Radley (1989). A menudo los datos no cumplen la condicin
de igualdad de las matrices de covarianzas, aunque el CANP es vlido si las
matrices muestrales son relativamente semejantes.
En el CANP, y ms adelante en el Anlisis Discriminante, interviene la
descomposicin T = H+V. es decir:
Si los datos provienen de q poblaciones con densidades ,
i
(x), medias y
matrices de covarianzas (
i
. X
i
) y probabilidades j
i
. i = 1. . . . . q. es decir,
136 CAPTULO 7. ANLISIS CANNICO DE POBLACIONES
con densidad
,(x) =j
1
,
1
(x) + +j
j
,
j
(x).
entonces el vector de medias correspondiente a , es
=j
1

1
+ +j
j

j
.
y la matriz de covarianzas es
X =
j

i=1
j
i
(
i
)(
i
)
t
+
j

i=1
j
i
X
i
.
Esta descomposicin de X es la versin poblacional de T = H+V. y la
versin multivariante de
var(1 ) = 1[var[1 [A]] + var[1[1 [A]].
donde 1 [A representa la distribucin de una variable 1 dada A. Vase Flury
(1997). Para una versin ms general de particin de la variabilidad en
presencia de mixturas, vase Cuadras y Cuadras (2011).
Se llama falacia ecolgica a las conclusiones equivocadas (sobre todo al
correlacionar dos variables) que resultan de agregar indebidamente varias
poblaciones. Los resultados para las poblaciones agregadas (por ejemplo,
varios pases), son distintos de los resultados para cada poblacin por se-
parado (individuos de un mismo pas). Dadas dos poblaciones `
j
(
1
. X)
y `
j
(
2
. X). Cuadras y Fortiana (2001) prueban que se produce la falacia
ecolgica si la direccin principal de los datos es distinta de la direccin del
segmento que une
1
y
2
. Se verica entonces:
(
1

2
)
t
X
1
(
1

2
) (
1

2
)
t
[diag(X)]
1
(
1

2
).
es decir, si la distancia de Mahalanobis es mayor que la distancia de Pearson.
La desigualdad anterior reeja la inuencia de las componentes principales
de menor varianza y es parecida a la desigualdad (5.8).
Captulo 8
ESCALADO
MULTIDIMENSIONAL
(MDS)
8.1. Introduccin
Representar un conjunto nito cuando disponemos de una distancia entre
los elementos del conjunto, consiste en encontrar unos puntos en un espacio de
dimensin reducida, cuyas distancias eucldeas se aproximen lo mejor posible
a las distancias originales.
Sea = .
1
. .
2
. . . . . .
a
un conjunto nito con : elementos diferentes,
que abreviadamente indicaremos
= 1. 2. .... :.
Sea o
i)
= o(i. ,) una distancia o disimilaridad entre los elementos i. , de
.
Se habla de distancia (mtrica) cuando se cumplen las tres condiciones:
1. o(i. i) = 0 para todo i.
2. o(i. ,) = o(,. i) _ 0 para todo i. ,.
3. o(i. ,) _ o(i. /) +o(,. /) para todo i. ,. / (desigualdad triangular).
Si slo se cumplen las dos primeras condiciones, diremos que o(i. ,) es
una disimilaridad.
137
138 CAPTULO 8. ESCALADO MULTIDIMENSIONAL (MDS)
Consideremos entonces la matriz de distancias (o disimilaridades)
=
_
_
_
_
_
o
11
o
12
o
1a
o
21
o
22
o
2a
.
.
.
.
.
.
.
.
.
.
.
.
o
a1
o
a2
o
aa
_
_
_
_
_
o
i)
= o
)i
= o(i. ,) _ o
ii
= 0.
Denicin 8.1.1 Diremos que = (o
i)
) es una matriz de distancias eu-
cldeas si existen : puntos x
1
. . . . . x
a
1
j
. siendo
x
t
i
= (r
i1
. . . . . r
ij
). i = 1. . . . . :.
tales que
o
2
i)
=
j

c=1
(r
ic
r
)c
)
2
= (x
i
x
)
)
t
(x
i
x
)
) (8.1)
Indicaremos las coordenadas de los puntos x
1
. . . . . x
a
. que representan los
elementos 1. . . . . : de . en forma de matriz
X =
_
_
_
_
_
r
11
r
12
r
1j
r
21
r
22
r
2a
.
.
.
.
.
.
.
.
.
.
.
.
r
a1
r
a2
r
aj
_
_
_
_
_
.
El objetivo del escalado multidimensional es encontrar la X ms adecuada a
partir de la matriz de distancias .
8.2. Cundo una distancia es eucldea?
Sea
(2)
= (o
2
i)
) la matriz de cuadrados de las distancias. Si la distancia
es eucldea entonces de (8.1)
o
2
i)
= x
t
i
x
i
+x
t
)
x
)
2x
t
i
x
)
.
La matriz de productos internos asociada a es
G = XX
t
.
8.2. CUNDO UNA DISTANCIA ES EUCLDEA? 139
Los elementos de G = (q
i)
) son q
i)
= x
t
i
x
)
. Relacionando
(2)
= (o
2
i)
) con G
vemos que

(2)
= 1g
t
+g1
t
2G. (8.2)
donde g =(q
11
. . . . . q
aa
)
t
contiene los elementos de la diagonal de G. Sea Hla
matriz de centrado (Captulo 1) y consideremos las matrices A =
1
2

(2)
=

1
2
(o
2
i)
) y H = HAH.
Teorema 8.2.1 La matriz de distancias = (o
i)
) es eucldea si y slo si
H _0. es decir, los valores propios de H son no negativos.
Demost.: La relacin entre H = (/
i)
) y A = (c
i)
) es
/
i)
= c
i)
c
i
c
.)
+c

.
donde c
i.
es la media de la columna i de A, c
.)
es la media de la la , y c
..
es la media de los :
2
elementos de A. Entonces
/
ii
= c
i
c
i
+c

. /
))
= c
)
c
)
+c

.
y por lo tanto
o
2
i)
= /
ii
+/
))
2/
i)
= c
ii
+c
))
2c
i)
. (8.3)
Supongamos que es eucldea. Entonces G = XX
t
. De (8.2) resulta que
A = (1g
t
+g1
t
),2 +G.
Multiplicando ambos lados de A por H, dado que H1 = 0 y 1
t
H = 0
t
. te-
nemos que
H = HAH = HGH = HXX
t
H = XX
t
_ 0.
lo que prueba que H es semidenida positiva.
Supongamos ahora que H _0. Entonces H =
t
para alguna matriz
de orden :j. es decir, /
i)
= y
t
i
y
)
, donde y
t
i
es la la i- sima de . Aplicando
(8.3) tenemos
o
2
i)
= y
t
i
y
i
+y
t
)
y
)
2y
t
i
y
)
= (y
i
y
)
)
t
(y
i
y
)
).
que demuestra que es matriz de distancias eucldeas.
140 CAPTULO 8. ESCALADO MULTIDIMENSIONAL (MDS)
8.3. El anlisis de coordenadas principales
Hemos visto que si H _0, cualquier matriz tal que H =
t
propor-
ciona unas coordenadas cartesianas compatibles con la matriz de distancias
. Sea
H = lAl
t
la descomposicin espectral de H, donde l es una matriz : j de vectores
propios ortonormales de H y es matriz diagonal que contiene los valores
propios ordenados
`
1
_ _ `
j
`
j+1
= 0 (8.4)
Obsrvese que H1 = 0. y por lo tanto `
j+1
= 0 es tambin valor propio de
H de vector propio el vector 1 de unos. Entonces es evidente que la matriz
: j
X = lA
12
(8.5)
tambin verica H = XX
t
.
Denicin 8.3.1 La solucin por coordenadas principales es la matriz de co-
ordenadas (8.5), tal que sus columnas A
1
. . . . . A
j
. que interpretaremos como
variables, son vectores propios de H de valores propios (8.4). Las coordenadas
del elemento i son
x
t
i
= (r
i1
. . . . . r
ij
).
donde x
i
es la la i-sima de X. Reciben el nombre de coordenadas principales
y cumplen (8.1).
La solucin por coordenadas principales goza de importantes propiedades.
En las aplicaciones prcticas, se toman las : < j primeras coordenadas
principales a n de representar . Por ejemplo, si : = 2, las dos primeras
coordenadas de X proporcionan una representacin a lo largo de los ejes A
1
y A
2
:
A
1
A
2
1 r
11
r
12
2 r
21
r
22
.
.
.
.
.
.
.
.
.
: r
a1
r
a2
8.3. EL ANLISIS DE COORDENADAS PRINCIPALES 141
Propiedades:
1. Las variables A
I
(columnas de X) tienen media 0.
A
1
= = A
j
= 0
Demost.: 1 es vector propio de H ortogonal a cada A
I
. por lo tanto
A
I
=
1
a
(1
t
A
I
) = 0.
2. Las varianzas son proporcionales a los valores propios
:
2
I
=
1
a
`
I
. / = 1. . . . . j
Demost.: La varianza es
1
a
A
t
I
A
I
=
1
a
`
I
.
3. Las variables estn incorrelacionadas
cor(A
I
. A
I
0 ) = 0. / ,= /
t
= 1. . . . . j.
Demost.: Como las medias son nulas, la covarianza es
cov(A
I
. A
I
0 ) =
1
a
A
t
I
A
I
0 = 0.
pues los vectores propios de H son ortogonales.
4. Las variables A
I
son componentes principales de cualquier matriz de
datos Z tal que las distancias eucldeas entre sus las concuerden con
.
Demost.: Supongamos Z matriz de datos centrada. Tenemos que
H = XX
t
= ZZ
t
.
La matriz de covarianzas de Z es
S =
1
:
Z
t
Z = TOT
t
.
donde O es diagonal y T es la matriz ortogonal de la transformacin
en componentes principales. Entonces:
Z
t
Z = :TOT
t
.
ZZ
t
Z = :ZTOT.
t
HZT = ZT:O.
142 CAPTULO 8. ESCALADO MULTIDIMENSIONAL (MDS)
y por lo tanto ZTes matriz de vectores propios de Hcon valores propios
los elementos diagonales de :O. lo que implica X = ZT. En consecuen-
cia la matriz de coordenadas principales X coincide con la transforma-
cin por componentes principales de la matriz Z. vase (5.1)..
5. La variabilidad geomtrica de es
\
c
(X) =
1
2:
2
a

i,)=1
o
2
i)
=
1
:
j

I=1
`
I
. (8.6)
6. La variabilidad geomtrica en dimensin : es mxima cuando tomamos
las : primeras coordenadas principales. Es decir,
\
c
(X)
n
=
1
2:
2
a

i,)=1
o
2
i)
(:) =
1
2:
2
a

i,)=1
n

I=1
(r
iI
r
)I
)
2
=
1
:
n

I=1
`
I
es mximo.
Demost.: Sea r
1
. .... r
a
una muestra con media r = 0 y varianza :
2
. Se
verica
1
2a
2

a
i,)=1
(r
i
r
)
)
2
=
1
2a
2
(

a
i,)=1
r
2
i
+

a
i,)=1
r
2
)
2

a
i,)=1
r
i
r
)
)
=
1
2a
2
(:

a
i=1
r
2
i
+:

a
)=1
r
2
)
2

a
i=1
r
i

a
i)=1
r
)
)
= :
2
.
por lo tanto
\
c
(X) =
j

I=1
:
2
I
.
Hemos demostrado que para cualquier matriz X tal que H = XX
t
, la
suma de las varianzas de las columnas de X es igual a la variabilidad
geomtrica. Si en particular tenemos las coordenadas principales, esta
suma de varianzas es la suma de los valores propios dividida por :,
y puesto que las columnas son componentes principales, sus varianzas
son respectivamente mximas.
El porcentaje de variabilidad explicada por los : primeros ejes principales
es la proporcin de variabilidad geomtrica
1
n
= 100
\
c
(X)
n
\
c
(X)
= 100

n
I=1
`
I

j
I=1
`
I
.
8.4. SIMILARIDADES 143
La representacin es ptima, pues al ser H = XX
t
. si tomamos las :
primeras coordenadas principales X
n
, entonces estamos aproximando H por
H
+
= X
n
X
t
n
. en el sentido que tr(HH
+
) =mnimo. Vase (1.6).
Ejemplo. Consideremos = 1. 2. 3. 4. 5 y la matriz de distancias (al
cuadrado):
1 2 3 4 5
1 0 226 104 34 101
2 0 26 104 29
3 0 26 9
4 0 41
5 0
Los valores propios de H son `
1
= 130. `
2
= 10. `
3
= `
4
= `
5
= 0. Por
lo tanto es matriz de distancias eucldeas y se puede representar en un
espacio de dimensin 2. Las coordenadas principales son las columnas A
1
. A
2
de:
A
1
A
2
1
1 8 1 1
2 7 0 1
3 2 1 1
4 3 2 1
5 2 2 1
` 130 10 0
r 0 0 1
:
2
26 2 0
8.4. Similaridades
En ciertas aplicaciones, especialmente en Biologa y Psicologa, en lugar
de una distancia, lo que se mide es el grado de similaridad entre cada par de
individuos.
Una similaridad : sobre un conjunto nito es una aplicacin de
en 1 tal que:
:(i. i) _ :(i. ,) = :(,. i) _ 0.
144 CAPTULO 8. ESCALADO MULTIDIMENSIONAL (MDS)
La matriz de similaridades entre los elementos de es
S =
_
_
_
_
_
:
11
:
12
... :
1a
:
21
:
22
... :
2a
.
.
.
.
.
.
.
.
.
.
.
.
:
a1
:
a2
... :
aa
_
_
_
_
_
donde :
i)
= :(i. ,).
Supongamos que tenemos j variables binarias A
1
. A
2
. ...A
j
. donde cada
A
i
toma los valores 0 1. Para cada par de individuos (i. ,) consideremos la
tabla
,
1 0
i 1 c /
0 c d
donde c. /. c. d las frecuencias de (1,1), (1,0), (0,1) y (0,0), respectivamente,
con j = c + / + c + d. Un coeciente de similaridad debera ser funcin de
c. /. c. d. Son conocidos los coecientes de similaridad:
:
i)
=
c +d
j
(Sokal-Michener)
:
i)
=
c
c +/ +c
(Jaccard)
(8.7)
que verican: :
ii
= 1 _ :
i)
= :
)i
_ 0.
Podemos transformar una similaridad en distancia aplicando la frmula
d
2
i)
= :
ii
+:
))
2:
i)
. (8.8)
Entonces la matriz A = (d
2
i)
),2 es
A =
1
2
(S
)
+S
t
)
2S).
donde S
)
tiene todas sus las iguales, y como HS
)
= S
t
)
H = 0. resulta que
H = HAH = HSH.
Por lo tanto:
1. Si S es matriz (semi)denida positiva, la distancia d
i)
es eucldea.
2. rango(HSH) = rango(S) 1.
3. Las coordenadas principales se obtienen diagonalizando HSH.
8.5. NOCIONES DE MDS NO MTRICO 145
8.5. Nociones de MDS no mtrico
Supongamos que la matriz de distancias es no eucldea. Entonces la
matriz H (Teorema 8.2.1) tiene valores propios negativos:
`
1
_ _ `
j
0 `
j+1
_ _ `
j
0 .
El fundamento del MDS no mtrico es transformar las distancias o
i)
para
convertirlas en eucldeas, pero conservando las relaciones de proximidad entre
los elementos del conjunto .
Denicin 8.5.1 La preordenacin asociada a la matriz de distancias es
la ordenacin de las : = :(: 1),2 distancias:
o
i
1
)
1
_ o
i
2
)
2
_ _ o
im)m
. (8.9)
La preordenacin es, de hecho, una propiedad asociada a . es decir,
podemos escribir
(i
1
. ,
1
) _ (i
2
. ,
2
) _ _ (i
n
. ,
n
). (i
I
. ,
I
) .
donde
(i. ,) _ (i
t
. ,
t
) si o
i)
_ o
i
0
)
0 .
Se trata de representar en un espacio que conserve la preordenacin. Por
ejemplo, si consideramos las tres matrices de distancias sobre {A,B,C,D}:
A B C D A B C D A B C D
A 0 1 2 3 0 1 1 1 0 1 1 1
B 0 1 2 0 1 1 0 1 1
C 0 1 0 0 0 1
D 0 0 0
las preordenaciones se pueden representar en 1, 2 3 dimensiones (Figura
8.1), respectivamente.
Si transformamos la distancia o
i)
en

o
i)
= ,(o
i)
), donde , es una funcin
positiva creciente, es evidente que

o
i)
tiene la misma preordenacin (8.9), y
por lo tanto, individuos prximos (alejados) segn o
i)
estarn tambin pr-
ximos (alejados) con respecto a

o
i)
. Si adems

o
i)
es eucldea, tendremos la
146 CAPTULO 8. ESCALADO MULTIDIMENSIONAL (MDS)
Figura 8.1: Representacin de 4 objetos conservando las preordenaciones rela-
cionadas a tres matrices de distancias.
posibilidad de representar . aplicando, por ejemplo, un anlisis de coorde-
nadas principales sobre la distancia transformada, pero conservando (apro-
ximadamente) la preordenacin. En general, la funcin , no es lineal, y se
obtiene por regresin montona. Hay dos casos especialmente simples.
Denicin 8.5.2 La transformacin q-aditiva de o
i)
se dene como

o
2
i)
=
_
o
2
i)
2c si i ,= ,
0 si i = ,
donde c < 0 es una constante. La transformacin aditiva se dene como

o
i)
=
_
o
i)
+c si i ,= ,
0 si i = ,
donde c 0 es una constante.
Es evidente que las dos transformaciones aditiva y q-aditiva conservan
la preordenacin de la distancia. Probemos ahora que la primera puede dar
lugar a una distancia eucldea.
Teorema 8.5.1 Sea una matriz de distancias no eucldeas y sea `
j
0 < 0 el
menor valor propio de H. Entonces la transformacin q-aditiva proporciona
una distancia eucldea para todo c tal que c _ `
j
0 .
Demost.: Sea

= (

o
i)
) la matriz de distancias transformadas. Las matrices
A. H y

A.

H (ver Teorema 8.2.1) verican

A= Ac(I J).

H = HcH.
8.5. NOCIONES DE MDS NO MTRICO 147
Sea v vector propio de H de valor propio ` ,= 0. Entonces Hv = v y por lo
tanto

Hv = (HcH)v = (` c)v.
As

H tiene los mismos vectores propios que H, pero los valores propios son
`
1
c _ _ `
j
c 0 `
j+1
c _ _ `
j
0 c.
que son no negativos si c _ `
j
0 . en cuyo caso

H es semidenida positiva.
La mejor transformacin q-aditiva es la que menos distorsiona la distancia
original. De acuerdo con este criterio, el mejor valor para la constante es
c = `
j
0 .
Las transformaciones aditiva y no lineal son ms complicadas y no las
incluimos en este texto. De hecho, los programas de MDS operan con trans-
formaciones no lineales, siguiendo criterios de minimizacin de una funcin
que mide la discrepancia entre la distancia original y la transformada. Por
ejemplo, el mtodo de Kruskal consiste en:
1. Fijar una dimensin eucldea j.
2. Transformar la distancia o
i)
en la disparidad

o
i)
= ,(o
i)
). donde
, es una funcin montona creciente. Las disparidades conservan la
preordenacin de las distancias.
3. Ajustar una distancia eucldea d
i)
a las disparidades

o
i)
de manera que
minimice

i<)
(d
i)

o
i)
)
2
.
4. Asociar a las distancias d
i)
una conguracin eucldea j-dimensional, y
representar los : objetos a partir de las coordenadas de la conguracin.
Para saber si la representacin obtenida reeja bien las distancias entre
los objetos, se calcula la cantidad
o =

i<)
(d
i)

o
i)
)
2

i<)
d
2
i)
. (8.10)
denominada stress, que verica 0 _ o _ 1. pero se expresa en forma de
porcentaje. La representacin es considerada buena si o no supera el 5 %.
148 CAPTULO 8. ESCALADO MULTIDIMENSIONAL (MDS)
Tambin es conveniente obtener el diagrama de Sheppard, que consiste en
representar los :(: 1),2 puntos (o
i)
. d
i)
). Si los puntos dibujan una curva
creciente, la representacin es buena, porque entonces se puede decir que
conserva bien la preordenacin (Figura 8.4).
8.6. Distancias estadsticas
En esta seccin discutiremos algunos modelos de distancias estadsticas.
8.6.1. Variables cuantitativas
Siendo x = (r
1
. r
2
. . . . . r
j
). y = (
1
.
2
. . . . .
j
) dos puntos de 1
j
. La dis-
tancia de Minkowsky se dene como
d
q
(x. y) =
_
j

i=1
[r
i

i
[
q
_
1q
.
Casos particulares de la distancia d
q
son:
1. Distancia ciudad:
d
1
(x. y) =
j

i=1
[r
i

i
[
2. Distancia eucldea:
d
2
(x. y) =

_
j

i=1
(r
i

i
)
2
3. Distancia dominante:
d
o
(x. y) = max
1ij
[r
i

i
[
Tienen tambin inters en las aplicaciones, la distancia normalizada por
el rango 1
i
de la variable i
d
G
(x. y) =
1
j
j

i=1
[r
i

i
[
1
i
.
8.6. DISTANCIAS ESTADSTICAS 149
y, cuando los valores de las variables son positivos, la mtrica de Canberra
d
C
(x. y) =
1
j
j

i=1
[r
i

i
[
r
i
+
i
.
d
G
y d
C
son invariantes por cambios de escala.
Supongamos ahora dos poblaciones
1
.
2
con vectores de medias
1
.
2
y matrices de covarianzas X
1
. X
2
. Cuando X
1
= X
2
= X. la distancia de
Mahalanobis entre poblaciones es
`
2
(
1
.
2
) = (
1

2
)
t
X
1
(
1

2
)
Esta distancia, ya introducida previamente, es invariante por cambios de
escala y tiene en cuenta la correlacin entre las variables. Adems, si `
j
. `
q
y `
j+q
indican las distancias basada en j. . j+ variables, respectivamente,
se verica:
a) `
j
_ `
j+q
.
b) `
2
j+q
= `
2
j
+`
2
q
si los dos grupos de j y variables son independientes.
No resulta fcil dar una denicin de distancia cuando X
1
,= X
2
. Una
denicin de compromiso es
(
1

2
)
t
[
1
2
(X
1
+X
2
)]
1
(
1

2
).
8.6.2. Variables binarias
Cuando todas las variables son binarias (toman solamente los valores 0
y 1), entonces conviene denir un coeciente de similaridad (Seccin 8.4) y
aplicar (8.8) para obtener una distancia. Existen muchas maneras de denir
una similaridad :
i)
en funcin del peso que se quiera dar a los c. /. c. d.
Por ejemplo:
:
i)
=
c
c + 2(/ +c)
(Sokal-Sneath)
:
i)
=
2c
(c +/)(c +c)
(Dice)
(8.11)
Las similaridades denidas en (8.7) y (8.11) proporcionan distancias eu-
cldeas.
150 CAPTULO 8. ESCALADO MULTIDIMENSIONAL (MDS)
8.6.3. Variables categricas
Supongamos que las observaciones pueden ser clasicadas en / cate-
goras excluyentes
1
. . . . .
I
, con probabilidades = (j
1
. . . . . j
I
). donde

I
I=1
j
I
= 1. Podemos denir distancias entre individuos y entre pobla-
ciones.
1. Entre individuos. Si dos individuos i. , tienen las categoras
I
.
I
0 .
respectivamente, una distancia (al cuadrado) entre i. , es:
d(i. ,)
2
=
_
0 si / = /
t
.
j
1
I
+j
1
I
0
si / ,= /
t
.
Teniendo en cuenta la g-inversa C

j
=diag(j
1
1
. . . . . j
1
I
) de la matriz de
covarianzas, es fcil ver que d(i. ,)
2
es una distancia tipo Mahalanobis.
Si hay varios conjuntos de variables categricas, con un total de 1
categoras o estados, una similaridad es c,1 (matching coecient),
donde c es el nmero de coincidencias.
2. Entre poblaciones. Si tenemos dos poblaciones representadas por
= (j
1
. . . . . j
I
). q = (
1
. . . . .
I
).
dos distancias entre poblaciones son:
d
o
(. q) = 2

I
i=1
(j
i

i
)
2
,(j
i
+
i
).
d
b
(. q) = arc cos(

I
i=1
_
j
i

i
).
La primera es la distancia de Bhattachariyya, y se justica considerando
y q como los vectores de medias entre dos poblaciones multinomiales con : =
1 (Seccin 2.7). Las g-inversas (Seccin 1.10) de las matrices de covarianzas
son
C

j
= diag(j
1
1
. . . . . j
1
I
). C

q
= diag(
1
1
. . . . .
1
I
).
Aplicando la distancia de Mahalanobis tomando el promedio de ambas ma-
trices g-inversas se obtiene d
o
(. q).
La distancia d
b
(. q) se justica situando los puntos (
_
j
1
. . . . .
_
j
)
) y
(
_

1
. . . . .
_

I
) sobre una hiperesfera de radio unidad y hallando la distancia
geodsica. Vase la distancia de Rao.
8.6. DISTANCIAS ESTADSTICAS 151
8.6.4. Variables mixtas
En las aplicaciones a menudo los datos provienen de las observaciones
de j
1
variables cuantitativas, j
2
variables dicotmicas (dos estados: presente,
ausente) y j
3
variables categricas o cualitativas (ms de dos estados). Un
coeciente de similaridad (propuesto por Gower, 1971) es
:
i)
=

j
1
I=1
(1 [r
iI
r
)I
[,1
I
) +c +c
j
1
+ (j
2
d) +j
3
. (8.12)
donde 1
I
es el rango de la variable cuantitativa A
I
. c y d son el nmero
de dobles presencias y dobles ausencias de las variables dicotmicas, y c es
el nmero de coincidencias entre las variables categricas. Si solamente hay
variables dicotmicas o variables categricas, :
i)
reduce la similaridad nor-
malizada por el rango, al coeciente de Jaccard o al matching coecient,
respectivamente:
1
1
j
1

j
1
I=1
[r
I

I
[,1
I
si j
2
= j
3
= 0.
c,(c +/ +c) si j
1
= j
3
= 0.
c,j
3
si j
1
= j
2
= 0.
Este coeciente verica 0 _ :
i)
_ 1. y aplicando (8.8) se obtiene una distancia
eucldea que adems admite la posibilidad de datos faltantes.
8.6.5. Otras distancias
Existen muchos procedimientos para denir distancias, en funcin de los
datos y el problema experimental. Veamos dos.
Modelo de Thurstone
Supongamos que queremos ordenar : estmulos .
1
. . . . . .
a
(por ejemplo,
: productos comerciales)
.
i
1
_ _ .
in
segn una escala de preferencias o
i
1
_ _ o
in
. donde los o
i
son parmetros.
Sea j
i)
la proporcin de individuos de la poblacin que preeren .
)
sobre .
i
.
Un modelo es
j
i)
=
1
_
2:
_
0
j
0
i
o
c
t
2
2
dt.
152 CAPTULO 8. ESCALADO MULTIDIMENSIONAL (MDS)
Si ms de la mitad de los individuos preeren .
)
sobre .
i
. entonces o
i
< o
)
.
As:
a) j
i)
< 0.5 implica o
i
o
)
.
b) j
i)
= 0.5 implica o
i
= o
)
.
c) j
i)
0.5 implica o
i
< o
)
.
La estimacin de los parmetros a partir de las proporciones j
i)
es com-
plicada. Alternativamente, teniendo en cuenta que j
i)
+ j
)i
= 1 podemos
denir la distancia entre estmulos
d(.
i
. .
)
) = [j
i)
0.5[
y aplicar un MDS sobre la matriz (d(.
i
. .
)
)). La representacin de los est-
mulos a lo largo de la primera dimensin nos proporciona una solucin a la
ordenacin de los estmulos.
Distancia de Rao
Sea o
0
= ,(r. 0). 0 O un modelo estadstico y .(0) =
0
0
log ,(r. 0)
un vector columna. La matriz de informacin de Fisher 1(0) es la matriz
de covarianzas de los .
t
s. Sean 0
o
. 0
b
dos valores de los parmetros. Una
distancia tipo Mahalanobis sera el valor esperado de
(.(0
o
) .(0
b
))
t
1(0)
1
(.(0
o
) .(0
b
)).
Pero . depende de r y 0 vara entre 0
o
. 0
b
. Consideremos entonces a 1(o)
como un tensor mtrico sobre la variedad diferenciable o
0
. La distancia de
Rao entre 0
o
. 0
b
es la distancia geodsica entre los puntos correspondientes de
o
0
. La distancia de Rao es invariante por transformaciones de las variables y
de los parmetros, generaliza la distancia de Mahalanobis y tiene aplicaciones
en estadstica matemtica. Veamos tres ejemplos.
1. Distribucin de Poisson: ,(r. `) = c
a
`
a
,r!. r = 0. 1. 2. . . . . La dis-
tancia entre dos valores `
o
. `
b
es:
(`
o
. `
b
) = 2

_
`
o

_
`
b

.
8.7. EJEMPLOS 153
2. Distribucin multinomial. La distancia entre = (j
1
. . . . . j
I
) y q =
(
1
. . . . .
I
) es:
(. q) =arc cos(
I

i=1
_
j
i

i
).
3. Distribucin normal. Si X es ja, la distancia (al cuadrado) entre dos
vectores de medias es:

2
(
1
.
2
) = (
1

2
)
t
X
1
(
1

2
).
Finalmente, para un valor jo de 0. podemos denir la distancia entre
dos observaciones r
1
. r
2
que dan .
i
(0) =
0
00
log ,(r
i
. 0). i = 1. 2. como
(.
1
(0) .
2
(0))
t
1(0)
1
(.
1
(0) .
2
(0)).
8.7. Ejemplos
Ejemplo 8.7.1 Herramientas prehistricas.
Un arquelogo encontr 5 herramientas cortantes A,B,C,D,E y una vez
examinadas, comprob que estaban hechas de piedra, bronce y hierro, con-
forme a la siguiente matriz de incidencias:
Piedra Bronce Hierro
A 0 1 0
B 1 1 0
C 0 1 1
D 0 0 1
E 1 0 0
Utilizando la similaridad de Jaccard (8.7), obtenemos la matriz de similari-
dades:
A B C D E
A 1 1/2 1/2 0 0
B 1 1/3 0 1/2
C 1 1/2 0
D 1 0
E 1
154 CAPTULO 8. ESCALADO MULTIDIMENSIONAL (MDS)
Figura 8.2: Representacin mediante anlisis de coordenadas principales de
5 herramientas prehistricas. Se aprecia una ordenacin temporal.
Los resultados del anlisis de coordenadas principales son:
A 0.0000 0.6841 0.3446
B 0.4822 0.1787 0.2968
C 0.4822 0.1787 0.2968
D 0.6691 0.5207 0.1245
E 0.6691 0.5207 0.1245
valor propio 1.360 1.074 0.3258
porc. acum. 44.36 79.39 90.01
La representacin (Figura 8.2) explica el 80 % de la variabilidad geomtri-
ca. Las herramientas quedan ordenadas segn su antigedad: E es la ms
antigua (slo contiene piedra) y D la ms moderna (slo contiene hierro).
Ejemplo 8.7.2 Drosophila.
Una distancia gentica es una medida que cuantica las proximidades
entre dos poblaciones a partir de las proporciones gnicas. Por ejemplo, si
existen / ordenaciones cromosmicas que se presentan en las proporciones
(j
1
. . . . . j
I
). (
1
. . . . .
I
). Si hay : cromosomas, una distancia adecuada es
1
2:
I

i=1
[j
i

i
[.
8.7. EJEMPLOS 155
Dro Dal Gro Fon Vie Zur HueBar For For Etn Fru TheSil Tra ChaOra AgaLas
droba 0
dalke .307 0
groni .152.276 0
fonta .271.225.150 0
viena .260.370.187.195 0
zuric .235.300.112.120.128 0
huelva .782.657.695.580.540.623 0
barce .615.465.529.412.469.445.259 0
forni .780.657.693.607.606.609.373.309 0
fores .879.790.801.764.760.761.396.490.452 0
etna .941.846.873.813.818.817.414.524.451.177 0
fruskF .560.505.470.442.342.391.577.460.501.681.696 0
thess .668.545.592.514.434.500.502.392.363.590.630.315 0
silif .763.643.680.584.581.610.414.357.413.646.667.544.340 0
trabz .751.619.675.582.519.587.418.342.399.587.648.439.269.286 0
chalu .709.489.636.548.531.549.595.489.514.635.649.444.408.574.438 0
orange .947.867.864.782.837.795.573.574.568.519.535.782.733.696.698.760 0
agadi .927.834.844.803.789.792.428.498.485.329.303.666.661.642.631.710.321 0
lasme .931.699.846.749.802.792.404.485.429.380.253.659.566.604.551.460.615.430 0
Tabla 8.1: Distancias genticas respecto a las ordenaciones cromosmicas
entre 19 poblaciones de D. Suboscura.
Esta distancia gentica fue propuesta por A. Prevosti. La Tabla 8.1 con-
tiene la s distancias entre : = 19 poblaciones de Drosophila Suboscura que
provienen de:
Droback, Dalkeith, Groningen, Fontaineblau, Viena, Zurich, Huelva,
Barcelona, Fornia, Foresta, Etna, Fruska-Gora, Thessaloniki, Silifke,
Trabzon, Chalus, Orangerie, Agadir y Las Mercedes.
Aplicando un MDS no mtrico, se obtiene la representacin de las 19
poblaciones (Fig. 8.3), con un stress de 2.84, que indica que la repre-
sentacin es buena. La Fig. 8.4 representa las distancias versus las dispari-
dades, indicando una buena preordenacin.
156 CAPTULO 8. ESCALADO MULTIDIMENSIONAL (MDS)
Figura 8.3: Representacin MDS de 19 poblaciones de D. Subobscura respecto
a las distancias genticas entre ordenaciones cromosmicas.
Figura 8.4: Representacin de las distancias genticas vs las disparidades.
8.7. EJEMPLOS 157
Ba j Cor Dim Men Peq Eno Inm Vou Alt Deg Ele Fin Lar Anc Ang Est Gra Gru Pro Hue Den Pes Lig
Ba jo 0 2.30 2.32 2.32 1.52 3.50 3.43 3.38 3.71 3.33 3.57 3.31 3.31 3.17 2.87 3.14 3.38 2.88 3.07 3.41 3.43 3.35 3.27
Corto 60 0 1.94 2.06 1.46 3.54 3.64 3.46 3.53 2.98 3.51 2.87 3.51 3.24 2.85 2.62 3.46 3.23 3.37 3.24 3.14 3.25 2.93
Diminuto 74 70 0 1.10 0.93 3.67 3.72 3.54 3.60 2.38 3.48 1.86 3.44 3.41 2.44 2.13 3.56 3.53 3.50 3.34 3.23 3.56 2.34
Menudo 29 76 42 0 1.01 3.73 3.56 3.58 3.37 1.83 3.42 1.71 3.24 3.40 2.80 2.26 3.50 3.34 3.47 3.36 3.30 3.24 1.85
Pequeccxxxxo 70 62 16 39 0 3.74 3.72 3.56 3.61 2.71 3.37 2.23 3.44 3.26 2.20 2.08 3.72 3.34 3.41 3.36 3.20 3.40 2.25
Enorme 90 90 87 89 87 0 0.37 0.97 1.91 3.43 1.96 3.47 1.92 2.47 3.43 3.41 0.90 2.72 2.64 3.43 2.94 2.31 3.43
Inmenso 90 90 88 90 88 22 0 1.60 2.02 3.43 2.10 3.40 2.28 2.18 3.56 3.46 1.14 2.70 2.41 3.25 3.05 2.65 3.48
Voluminoso 89 89 89 87 89 66 63 0 2.72 3.61 2.45 3.60 2.94 2.35 3.48 3.52 1.30 1.82 3.02 3.42 2.55 2.27 3.47
Alto 80 84 88 89 87 85 83 87 0 3.04 0.82 3.15 2.63 3.23 3.36 3.21 1.83 3.18 2.96 3.48 3.22 2.98 3.41
Delgado 83 80 80 64 80 90 90 89 83 0 2.97 1.15 2.76 3.48 1.62 1.38 3.32 3.63 3.32 3.38 3.36 3.51 2.47
Elevado 84 87 88 89 88 84 84 86 17 85 0 3.12 2.60 3.20 3.36 3.25 2.00 3.27 3.13 3.46 3.34 3.24 3.27
Fino 84 81 74 53 75 90 90 89 83 21 86 0 2.83 3.40 1.96 2.01 3.35 3.62 3.41 3.38 3.26 3.45 2.02
Largo 84 80 89 89 88 87 85 85 74 79 75 87 0 3.24 3.04 3.08 2.46 3.37 2.80 3.42 3.28 3.32 3.41
Ancho 85 83 89 89 88 86 84 76 82 83 84 87 73 0 3.48 3.53 1.03 2.76 2.82 3.27 2.97 3.18 3.32
Angosto 82 74 77 78 79 90 89 88 85 53 86 58 82 84 0 0.68 3.33 3.55 3.37 3.34 3.21 3.38 2.91
Estrecho 81 74 82 81 84 89 90 89 85 54 85 63 81 83 23 0 1.95 1.94 3.26 3.44 2.80 2.35 3.31
Grande 87 88 84 86 82 37 49 62 77 87 78 88 83 80 89 89 0 2.85 2.81 3.46 3.11 3.10 3.40
Grueso 87 86 89 86 87 81 86 64 85 82 86 86 84 63 87 86 72 0 3.23 3.36 2.44 2.35 3.47
Profundo 82 86 89 88 89 86 86 83 87 88 86 89 87 85 85 86 87 85 0 2.57 2.77 3.23 3.43
Hueco 82 83 88 89 88 90 90 88 87 85 84 87 85 86 84 84 88 87 66 0 3.33 3.41 2.84
Denso 89 89 89 87 89 87 86 77 88 87 89 88 87 82 89 88 85 72 79 87 0 3.35 3.48
Pesado 90 90 90 89 90 88 88 75 87 89 89 89 88 84 90 90 85 58 89 90 56 0 3.51
Ligero 86 87 83 69 83 90 90 90 89 72 89 71 90 90 83 80 90 89 90 87 84 81 0
Tabla 8.2: Distancias entre 23 adjetivos del idioma castellano.
Ejemplo 8.7.3 Adjetivos.
La Tabla 8.2 proporciona las distancias entre 23 adjetivos del castellano:
Bajo, Corto, Diminuto, Menudo, Pequeo, Enorme, Inmenso,
Voluminoso, Alto, Delgado, Elevado, Fino, Largo, Ancho, Angosto,
Estrecho, Grande, Grueso, Profundo, Hueco, Denso, Pesado, Ligero.
Las distancias se obtienen de dos maneras:
a) Cada distancia d
i)
es la media sobre 90 individuos que puntuaron la
disimilaridad entre cada par de adjetivos i. ,. desde 0 (muy parecido)
hasta 4 (totalmente diferente). Se indica en la mitad superior derecha
de la tabla.
b) Los 90 individuos agrupaban los adjetivos en grupos. Cada similaridad
:
i)
es el nmero de veces que los adjetivos i. , estaban en el mismo
grupo y la distancia es 90 :
i)
. Se indica en la mitad inferior izquierda
de la tabla.
Aplicamos MDS no mtrico sobre la matriz de distancias (mitad superior)
con el n de encontrar las dimensiones semnticas que ordenen los adjetivos.
Los pasos del mtodo son:
158 CAPTULO 8. ESCALADO MULTIDIMENSIONAL (MDS)
Figura 8.5: Representacin MDS de 23 adjetivos teniendo en cuenta sus dife-
rencias semnticas.
1. La distancia original o
i)
se ajusta a una disparidad

d
i)
por regresin
montona.
2. Fijada una dimensin, se aproxima

d
i)
a una distancia eucldea d
i)
.
3. Se calcula la medida de stress (8.10).
4. Se representan las :(: 1),2 distancias d
i)
vs las

d
i)
. para visualizar
las relaciones de monotona.
La conguracin en 2 dimensiones (Figura 8.5) es la mejor aproximacin
en dimensin 2 a las distancias originales (con transformacin montona), en
el sentido de que minimiza el stress. En este caso el stress es del 19 %.
Se aprecian diversos gradientes de valoracin de los adjetivos:
1. DiminutoEnorme.
2. Bajo-CortoAlto-Largo.
3. DelgadoGrueso.
4. LigeroPesado.
5. Hueco (constituye un adjetivo diferenciado).
8.8. COMPLEMENTOS 159
Figura 8.6: Relacin entre las distancias originales y las disparidades, indi-
cando que se conserva bien la preordenacin de las distancias.
La representacin en el estudio original (Manzano y Costermans, 1976)
considera 6 dimensiones, que se representan separadamente, con un stress del
5 %, pero la interpretacin no es diferente. Para esta representacin se obtiene
el grco de la Figura 8.5. Como indica la Figura 8.6, la preordenacin de
las distancias queda bastante bien preservada.
Para otros ejemplos, consltese Baillo y Gran (2008).
8.8. Complementos
En un plano terico, el MDS comienza con el teorema de I. J. Schoenberg
acerca de la posibilidad de construir las coordenadas de un conjunto de puntos
dadas sus distancias. A nivel aplicado, es de destacar a W. S. Torgerson, que
en 1957 aplica el MDS a la psicologa, y Gower (1966), que prueba su relacin
con el Anlisis de Componentes Principales y el Cannico de Poblaciones,
abriendo un fructfero campo de aplicacin en la biologa.
El MDS no mtrico es debido a R. N. Shepard, que en 1962 introdujo el
concepto de preordenacin, y J. B. Kruskal, que en 1964 propuso algoritmos
efectivos que permitan encontrar soluciones. La transformacin q-aditiva fue
estudiada por J. C. Lingoes y K. V. Mardia. Diversos autores estudiaron la
transformacin aditiva, hasta que Cailliez (1983) encontr la solucin de-
160 CAPTULO 8. ESCALADO MULTIDIMENSIONAL (MDS)
nitiva. Vase Cox y Cox (1994).
Existen diferentes modelos para tratar el problema de la representacin
cuando actan diferentes matrices de distancias. Un modelo, propuesto por
J. D. Carroll, es el INDSCAL. Un modelo reciente, propuesto por Cuadras y
Fortiana (1998) y Cuadras (1998), es el related metric scaling.
De la misma manera que se hace regresin sobre componentes principales,
se puede hacer tambin regresin de una variable dependiente 1 sobre las
dimensiones principales obtenidas aplicando MDS sobre una matriz de dis-
tancias entre las observaciones. Este modelo de regresin basado en distan-
cias permite plantear la regresin con variables mixtas. Consultar Cuadras y
Arenas (1990), Cuadras et al. (1996).
Una versin del MDS, denominada continuous scaling, permite encon-
trar las coordenadas principales de una variable aleatoria. Consultar Cuadras
y Fortiana (1993a,1995), Cuadras y Lahlou (2000), Cuadras (2014).
P. C. Mahalanobis y C. R. Rao propusieron sus distancias en 1936 y 1945,
respectivamente. Posteriormente Amari, Atkinson, Burbea, Dawid, Mitchell,
Oller y otros estudiaron la distancia de Rao. Consultar Oller (1987), Oller y
Cuadras (1985), Cuadras (1988).
Captulo 9
ANLISIS DE
CORRESPONDENCIAS
9.1. Introduccin
El Anlisis de Correspondencias (AC) es una tcnica multivariante que
permite representar las categoras de las las y columnas de una tabla de
contingencia.
Supongamos que tenemos dos variables categricas A y B con 1 y J cate-
goras respectivamente, y que han sido observadas cruzando las 1 categoras
A con las J categoras B, obteniendo : =

i)
,
i)
observaciones, donde ,
i)
es
el nmero de veces en que aparece la interseccin A
i
B
)
. dando lugar a la
tabla de contingencia 1 J :
B
1
B
2
B
J
A
1
,
11
,
12
,
1J
,
1
A
2
,
21
,
22
,
2J
,
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
A
1
,
11
,
12
,
1J
,
1
,
1
,
2
,
J
:
(9.1)
donde ,
i
=

)
,
i)
es la frecuencia marginal de A
i
. ,
)
=

i
,
i)
es la fre-
cuencia marginal de B
)
. Debemos tener en cuenta que, en realidad, la tabla
161
162 CAPTULO 9. ANLISIS DE CORRESPONDENCIAS
(9.1) resume la matriz de datos inicial, que tpicamente es de la forma:
A
1
A
2
A
1
B
1
B
2
B
J
1 1 0 0 1 0 0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
i 0 0 1 0 1 0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
: 0 0 1 0 0 1
en la que damos el valor 1 cuando se presenta una caracterstica y 0 cuando
no se presenta. As, el individuo \1" presentara las caractersticas A
1
y B
1
.
el individuo \i" presentara las caractersticas A
1
y B
2
. y el individuo \:" las
caractersticas A
1
y B
J
. La matriz de datos : (1 +J) es pues
Z = [X. ].
A partir de ahora utilizaremos el nombre de variables las y variables
columnas a las variables A y B, respectivamente.
Indiquemos por N = (,
i)
) la matriz 1 J con las frecuencias de la tabla
de contingencia y por 1
I
el vector de unos de dimensin /. La matriz
I =
1
a
N.
es la matriz de correspondencias. Indiquemos por r el vector 1 1 con los
totales marginales de las las de I, y por c el vector J 1 con los totales
marginales de las columnas de I :
r = I1
J
. c = I
t
1
1
.
Tenemos entonces que
r =
1
a
X
t
1
a
. c =
1
a

t
1
a
.
son los vectores de medias de las matrices de datos X. . Indiquemos adems
O
v
= diag(r). O
c
= diag(c).
las matrices diagonales que contienen los valores marginales de las y colum-
nas de I. Se verica
X
t
X = :O
v
.
t
= :O
c
. X
t
= :I = N.
9.2. CUANTIFICACIN DE LAS VARIABLES CATEGRICAS 163
Por lo tanto, las matrices de covarianzas entre las, entre columnas y entre
las y columnas, son
S
11
= O
v
rr
t
. S
22
= O
c
cc
t
. S
12
= Irc
t
.
Puesto que la suma de las variables es igual a 1, las matrices S
11
y S
22
son
singulares.
9.2. Cuanticacin de las variables categri-
cas
El problema de las variables categricas, para que puedan ser manejadas
en trminos de AM clsico, es que no son cuantitativas. La cuanticacin 0
1 anterior es convencional. Asignemos pues a las categoras A
1
. . . . .A
1
de
la variable la, los valores numricos c
1
. . . . . c
1
. y a las categoras B
1
. . . . .B
J
de la variable columna, los valores numricos /
1
. . . . . /
J
. es decir, indiquemos
los vectores
a = (c
1
. . . . . c
1
)
t
. I = (/
1
. . . . . /
J
)
t
.
y consideremos las variables compuestas
l = Xa. \ = I.
Si en un individuo / se observan las categoras A
i
.B
)
. entonces los valores de
l. \ sobre / son
l
I
= c
i
. \
I
= /
)
.
Deseamos encontrar a. I tales que las correlaciones entre l y \ sean
mximas. Claramente, estamos ante un problema de correlacin cannica,
salvo que ahora las matrices S
11
y S
22
son singulares. Una g-inversa (Seccin
1.10) de S
11
es la matriz S

11
= O
1
v
que verica
S
11
S

11
S
11
= S
11
.
En efecto,
(O
v
rr
t
)O
1
v
(O
v
rr
t
) = (O
v
rr
t
)(I 1r
t
)
= O
v
O
v
1r
t
rr
t
+rr
t
1r
t
= O
v
rr
t
rr
t
+rr
t
= O
v
rr
t
.
164 CAPTULO 9. ANLISIS DE CORRESPONDENCIAS
Anlogamente S

22
= O
1
c
. Aplicando la teora de la correlacin cannica
(Seccin 4.3), podemos considerar la descomposicin singular
O
12
v
(Irc
t
)O
12
c
= lO
A
Y
t
. (9.2)
donde O
A
es la matriz diagonal con los valores singulares en orden decre-
ciente. Si u
1
. v
1
son los primeros vectores cannicos, tendremos entonces
a = S
12
11
u
1
. I = S
12
22
v
1
. : = `
1
.
es decir, el primer valor singular es la mxima correlacin entre las variables
l y \. Pero pueden haber ms vectores y correlaciones cannicas, y por lo
tanto la solucin general es
a
i
= O
12
v
u
i
. I
i
= O
12
c
v
i
. :
i
= `
i
. i = 1. . . . . mn1. J.
En notacin matricial, los vectores que cuantican las categoras de las las
y de las columnas de N, son las columnas de las matrices
A
0
= O
12
v
l. H
0
= O
12
c
Y.
Tambin obtenemos correlaciones mximas considerando las matrices
A = O
12
v
lO
A
. H = O
12
c
YO
A
. (9.3)
pues el producto por una constante (en este caso un valor singular), no altera
las correlaciones.
9.3. Representacin de las y columnas
Los perles de las las son
_
j
i1
:
i
.
j
i2
:
i
. .
j
iJ
:
i
_
.
es decir, las probabilidades condicionadas 1(B
1
,A
i
). . . . . 1(B
J
,A
i
). La ma-
triz de perles de las las es
Q = O
1
v
I.
9.3. REPRESENTACIN DE FILAS Y COLUMNAS 165
Denicin 9.3.1 La distancia ji-cuadrado entre las las i. i
t
de N es
o
2
ii
0 =
J

)=1
(j
i)
,:
i
j
i
0
)
,:
i
0 )
2
c
)
.
La matriz de productos escalares asociada a esta distancia es
G = QO
1
c
Q
t
.
y la relacin entre
(2)
= (o
2
ii
0 ) y G es

(2)
= g1
t
+1g
t
2G.
siendo g el vector columna con los 1 elementos diagonales de G y 1 el vector
columna con 1 unos.
La solucin MDS ponderada de las las de N (Seccin 9.9) se obtiene
calculando la diagonalizacin
O
12
v
(I 1r
t
)G(I r1
t
)O
12
v
= lO
2
A
l
t
.
y seguidamente obteniendo las coordenadas principales
A = O
12
v
lO
A
. (9.4)
Las distancias eucldeas entre las las de A coinciden con las distancias ji-
cuadrado.
Relacionemos ahora estas coordenadas con las cuanticaciones anteriores.
De (9.2) tenemos
O
12
v
(Irc
t
)O
1
c
(I
t
cr
t
)O
12
v
= lO
2
A
l
t
.
y de
O
12
v
(O
1
v
I1c
t
)O
1
c
(I
t
O
1
v
c1
t
)O
12
v
= O
12
v
(Q1r
t
Q)O
1
c
(Q
t
Q
t
r1
t
)O
12
v
.
deducimos que
O
12
v
(I 1r
t
)QO
1
c
Q
t
(I r1
t
)O
12
v
= lO
2
A
l
t
.
Esta ltima expresin demuestra que las matrices A obtenidas en (9.3) y
(9.4) son la misma.
166 CAPTULO 9. ANLISIS DE CORRESPONDENCIAS
Ntese que la distancia ji-cuadrado o
2
ii
0 es una distancia tipo Mahalanobis,
pues si interpretamos las 1 las de Q = O
1
v
I (perles de las las), como
vectores de observaciones de dimensin J que provienen de una multinomial
con vector de probabilidades c. la matriz de covarianzas es O
c
cc
t
y una
g-inversa es O
1
c
.vase (2.12). Centrando los perles tenemos Q=(I 1r
t
)Q,
siendo entonces QO
1
c
Q
t
la matriz de productos internos en el espacio de
Mahalanobis, que convertimos en un espacio eucldeo mediante QO
1
c
Q
t
=
AA
t
. Comprese con (7.2).
Anlogamente podemos denir la distancia ji-cuadrado entre columnas
o
2
))
0 =
1

i=1
(j
i)
,c
)
j
i)
0 ,c
)
0 )
2
:
i
.
y probar que las distancias eucldeas entre las las de la matriz H obtenidas
en (9.3), coinciden con esta distancia ji-cuadrado. Es decir, si centramos los
perles de las columnas C= (I 1c
t
)O
1
c
I
t
. entonces CO
1
v
C
t
= HH
t
.
As pues, considerando las dos primeras coordenadas principales:
Filas Columnas
A
1
(c
11
. c
12
) B
1
(/
11
. /
12
)
A
2
(c
21
. c
22
) B
2
(/
21
. /
22
)
.
.
.
.
.
.
.
.
.
.
.
.
A
1
(c
11
. c
12
) B
J
(/
J1
. /
J2
)
obtenemos una representacin de las las y columnas de la matriz de fre-
cuencias N. Esta representacin es ptima en el sentido de que aproximamos
una matriz por otra de rango inferior, vase (1.5).
9.4. Representacin conjunta
Las coordenadas A y las coordenadas H, que representan las las y las
columnas, estn relacionadas. Premultiplicando (9.2) por O
12
v
y postmul-
tiplicando por Y obtenemos
O
1
v
(Irc
t
)O
12
c
Y = O
12
v
lO

.
luego
O
1
v
(Irc
t
)HO
1
A
= A.
9.4. REPRESENTACIN CONJUNTA 167
Anlogamente se prueba que
O
1
c
(I
t
cr
t
)AO
1
A
= H.
Si ahora tenemos en cuenta que r
t
O
1
v
= 1
t
. premultiplicando por r
t
1
t
(Irc
t
)HO
1
A
= r
t
A.
Como adems 1
t
I = c
t
. 1
t
r = 1. vemos fcilmente que
(c
t
c
t
)HO
1
A
= r
t
A = 0.
Anlogamente, c
t
H = 0. es decir, las medias ponderadas de las coordenadas
principales son cero. En consecuencia
A = O
1
v
IHO
1
A
. H = O
1
c
I
t
AO
1
A
. (9.5)
Conviene notar que O
1
v
I son los perles de las las, y O
1
c
I
t
son los perles
de las columnas. As pues tenemos que, salvo el factor dilatador O
1
A
. (pues
los elementos diagonales de O
A
son menores que 1), se verica:
1. Las coordenadas de las las son las medias, ponderadas por los perles
de las las, de las coordenadas de las columnas.
2. Las coordenadas de las columnas son las medias, ponderadas por los
perles de las columnas, de las coordenadas de las las.
Por ejemplo, la primera coordenada principal de las las verica:
c
i1
=
1
`
1
_
/
11
j
i1
:
i
+/
21
j
i2
:
i
+ +/
J1
j
iJ
:
i
_
. i = 1. . . . . 1.
y la primera coordenada principal de las columnas verica
/
)1
=
1
`
1
_
c
11
j
1)
c
)
+c
21
j
2)
c
)
+ +c
11
j
1)
c
)
_
. , = 1. . . . . J.
168 CAPTULO 9. ANLISIS DE CORRESPONDENCIAS
Edad
Producto Joven Mediana Mayor Total
A 70 0 0 70
B 45 45 0 90
C 30 30 30 90
D 0 80 20 100
E 35 5 10 50
Total 180 160 60 400
Tabla 9.1: Clasicacin de 400 clientes segn edades y productos adquiridos
en un supermercado.
La Tabla 9.1 contiene unos datos articiales, que clasican 400 clientes
segn la edad (joven, mediana, mayor) y los productos que compran en un
supermercado. Los clculos son:
I =
_
_
_
_
_
_
0.175 0.000 0.000
0.1125 0.1125 0.000
0.075 0.075 0.075
0.000 0.200 0.050
0.0875 0.0125 0.025
_
_
_
_
_
_
. r =
_
_
_
_
_
_
0.175
0.225
0.225
0.250
0.125
_
_
_
_
_
_
. c =
_
_
0.45
0.40
0.15
_
_
.
La matriz de perles de las las y las coordenadas principales son:
Q =
_
_
_
_
_
_
1.00 0.00 0.00
0.50 0.50 0.00
0.33 0.33 0.33
0.00 0.80 0.20
0.70 0.10 0.20
_
_
_
_
_
_
. A =
_

_
1.10 0.12
0.05 0.42
0.18 0.48
0.92 0.12
0.54 0.30
_

_
. H =
_
_
0.75 0.04
0.68 0.24
0.45 0.76
_
_
.
Los valores singulares son: `
1
= 0.6847. `
2
= 0.3311. La primera coor-
denada principal de las las A
1
. . . . .A
5
verica:
1.10 = 0. 6847
1
(0. 75 1 + 0 + 0)
0.05 = 0. 6847
1
(0. 75 0. 5 0. 68 0. 5 + 0)
0.18 = 0. 6847
1
(0. 75 0. 33 0. 68 0. 33 0. 45 0. 33)
0.92 = 0. 6847
1
(0 0. 68 0. 8 0. 452 0. 2)
0.54 = 0. 6847
1
(0. 752 0. 7 0. 68 0. 1 0. 45 0. 2)
Las coordenadas de las marcas A, B, C, D, E son medias de las coordenadas
de las tres edades, ponderadas por la incidencia del producto en la edad.
9.5. SOLUCIONES SIMTRICA Y ASIMTRICA 169
Figura 9.1: Representacin asimtrica (izquierda) y simtrica (derecha) de
las las (productos) y columnas (edades) de la Tabla 9.1.
9.5. Soluciones simtrica y asimtrica
La representacin de las y columnas utilizando las coordenadas princi-
pales A. H es la solucin simtrica. La representacin conjunta es posible
gracias a las frmulas (9.5). La representacin utilizando las matrices
A = O
12
v
lO
A
. H
0
= O
12
c
Y.
es decir, coordenadas principales para las las y coordenadas estndar para
las columnas, es la llamada solucin asimtrica. Esta solucin verica
Irc
t
= O
v
AH
t
0
O
c
.
y por lo tanto A. H
0
reproducen mejor la dependencia entre las y columnas.
Ejemplo 9.5.1 Colores cabello y ojos.
La Tabla 9.2 relaciona los colores de los cabellos y de los ojos de 5,383
individuos.
170 CAPTULO 9. ANLISIS DE CORRESPONDENCIAS
Color cabellos
Color ojos Rubio Rojo Castao Oscuro Negro Total
claro 688 116 584 188 4 1,580
azul 326 38 241 110 3 718
castao 343 84 909 412 26 1,774
oscuro 98 48 403 681 81 1,311
Total 1,455 286 2,137 1,391 114 5,383
Tabla 9.2: Clasicacin de 5383 individuos segn el color de los ojos y del
cabello.
Las coordenadas principales son:
Filas Columnas
A =
_

_
0.4400 0.0872
0.3996 0.1647
0.0361 0.2437
0.7002 0.1345
_

_
H =
_

_
0.5437 0.1722
0.2324 0.0477
0.0402 0.2079
0.5891 0.1070
1.0784 0.2743
_

_
Los valores singulares son: `
1
= 0.449. `
2
= 0.1727. `
3
= 0.0292. De
acuerdo con (9.6), la variabilidad explicada por las dos primeras dimensiones
principales es 1
2
= 86.8 %. La Figura 9.2 proporciona las representaciones
simtrica y asimtrica.
9.6. Variabilidad geomtrica (inercia)
Vamos a probar que

2
= :
1

I=1
`
2
I
.
siendo 1 = mn1. J y

2
= :
1

i=1
J

)=1
(,
i)
,
i
,
)
,:)
2
,
i
,
)
el estadstico ji-cuadrado con (1 1)(J 1) g.l. que permite decidir si hay
independencia entre las y columnas de N. Es decir, la ji-cuadrado es : veces
la suma de los valores propios del AC.
9.6. VARIABILIDAD GEOMTRICA (INERCIA) 171
Figura 9.2: Representacin asimtrica (izquierda) y simtrica (derecha) de
los datos de los colores de ojos y cabellos.
El coeciente c
2
de Pearson se dene como
c
2
=
1

i=1
J

)=1
(j
i)
:
i
c
)
)
2
:
i
c
)
=

2
:
.
Es fcil probar que tambin podemos expresar
c
2
=
1

i=1
J

)=1
j
2
i)
:
i
c
)
1.
La variabilidad geomtrica ponderada de la distancia ji-cuadrado entre
las es
\
c
=
1
2
1

i=1
1

i
0
=1
:
i
o
2
ii
0 :
i
0 .
Proposicin 9.6.1 \
c
= c
2
.
Demost.:
o
2
ii
0 =
J

)=1
(j
i)
,:
i
j
i
0
)
,:
i
0 )
2
c
)
=
J

)=1
(
j
i)
:
i
c
)

j
i
0
)
:
i
0 c
)
)
2
c
)
172 CAPTULO 9. ANLISIS DE CORRESPONDENCIAS
Por lo tanto
\
c
=
1
2
1

i=1
1

i
0
=1
J

)=1
:
i
(
j
i)
:
i
c
)

j
i
0
)
:
i
0 c
)
)
2
c
)
:
i
0
Si desarrollamos por un lado

1
i=1

1
i
0
=1

J
)=1
:
i
j
2
ij
v
2
i
c
2
j
c
)
:
i
0 =

1
i=1

1
i
0
=1

J
)=1
j
2
ij
v
i
c
j
:
i
0
=

1
i=1

J
)=1
j
2
ij
v
i
c
j
.
y por otro lado, dado que

1
i=1
j
i)
= c
)
.

1
i=1

1
i
0
=1

J
)=1
:
i
j
ij
j
i
0
j
v
i
c
2
j
v
i
0
c
)
:
i
0 =

1
i=1

1
i
0
=1

J
)=1
j
ij
j
i
0
j
c
j
=

1
i=1

J
)=1
j
ij
c
j
c
j
= 1.
es decir, vemos que \
c
= (c +c 2),2. siendo c =

i,)
j
2
ij
v
i
c
j
.
Proposicin 9.6.2 c
2
=

1
I=1
`
2
I
.
Demost.: Sea
V = O
12
v
(Irc
t
)O
12
c
= lO
A
Y
t
.
Entonces
c
2
= tr(VV
t
) = tr(lO
2
A
l
t
) = tr(O
2
A
).
Proposicin 9.6.3 La variabilidad geomtrica utilizando slo las primeras
: coordenadas principales es
\
c
(:) =
n

I=1
`
2
I
.
Demost.: Supongamos : = 1. Podemos escribir la matriz de distancias entre
las como

(2)
= a1
t
+1a
t
2AA
t
.
siendo a el vector columna que contiene los elementos de la diagonal de AA
t
.
Entonces
\
c
=
1
2
r
t

(2)
r = r
t
a1
t
r +r
t
1a
t
r 2r
t
AA
t
r = r
t
a.
9.7. ANLISIS DE CORRESPONDENCIAS MLTIPLES 173
Pero
r
t
a = tr(O
12
v
AA
t
O
12
v
) = tr(lO
2
A
l
t
) = tr(O
2
A
).
Lo hemos probado para : = 1. pero fcilmente vemos que la frmula tam-
bin vale para : < 1.
As pues, en la representacin por AC de las las y columnas de N en
dimensin :. el porcentaje de variabilidad geomtrica o inercia viene dado
por
1
n
= 100

n
I=1
`
2
I

1
I=1
`
2
I
. (9.6)
9.7. Anlisis de Correspondencias Mltiples
El AC combina y representa dos variables categricas. Pero se puede adap-
tar para estudiar ms de dos variables. Presentemos primero el procedimiento
para dos variables, que despus generalizaremos.
Escribimos la matriz : (1 + J) de datos binarios como una matriz
: (J
1
+J
2
)
Z = [Z
1
. Z
2
].
Entonces tenemos que
H
&
= Z
t
Z =
_
Z
t
1
Z
1
Z
t
1
Z
2
Z
t
2
Z
1
Z
t
2
Z
2
_
=:
_
O
v
I
I
t
O
c
_
.
La matriz de frecuencias, donde F y C contienen las marginales de las y
columnas,
H
&
=
_
F N
N
t
C
_
es la llamada matriz de Burt. A continuacin podemos realizar tres anlisis
de correspondencias diferentes sobre las siguientes matrices:
a) N. b) [Z
1
. Z
2
]. c) H
&
.
El anlisis a) lo hemos visto en las secciones anteriores. El resultado es
una representacin de las y columnas de N.
El anlisis b) es sobre [Z
1
. Z
2
]. considerada una matriz binaria con :
las y J
1
+ J
2
columnas. AC nos dara una representacin de las J
1
+ J
2
174 CAPTULO 9. ANLISIS DE CORRESPONDENCIAS
columnas, que es la interesante, y tambin de los : individuos, pero esta
segunda representacin es innecesaria.
El anlisis c) es sobre H
&
que es la matriz simtrica de orden (J
1
+J
2
)
(J
1
+J
2
). Tendremos una representacin idntica por columnas y por las.
En los tres casos vemos que podemos representar las las y columnas de
N. Es posible demostrar que los tres anlisis son equivalentes en el sentido de
que proporcionan la misma representacin, variando slo los valores propios.
Todo esto se describe en el cuadro que sigue.
Tabla Dimensin Coordenadas Valor propio
N = Z
t
1
Z
2
J
1
J
2
A (las)
H (columnas)
`
Z = [Z
1
. Z
2
] : (J
1
+J
2
)
_
A
H
_
1+
_
A
2
H
&
= Z
t
Z (J
1
+J
2
) (J
1
+J
2
)
_
A
H
_
(
1+
_
A
2
)
2
Consideremos a continuacin Q variables categricas con J
1
. . . . . J
Q
esta-
dos, respectivamente, sobre : individuos. Sea J = J
1
+ +J
Q
. La tabla de
datos, de orden : J es la super-matriz de indicadores
Z = [Z
1
. . . . . Z
)
. . . . . Z
q
].
donde Z
)
es : J
)
y contiene los datos binarios de la variable ,. La tabla de
contingencia que tabula la combinacin de las variables i. , es N
i)
= Z
t
i
Z
)
.
La matriz de Burt, de orden J J es
H
&
= Z
t
Z =
_

_
Z
t
1
Z
1
Z
t
1
Z
2
Z
t
1
Z
Q
Z
t
2
Z
1
Z
t
2
Z
2
Z
t
2
Z
Q
.
.
.
.
.
.
.
.
.
.
.
.
Z
t
Q
Z
1
Z
t
Q
Z
2
Z
t
Q
Z
Q
_

_
.
donde las matrices Z
t
)
Z
)
son diagonales.
El Anlisis de Correspondencias Mltiples intenta representar los J =
J
1
+ +J
Q
estados de las Q variables categricas. Como en el caso Q = 2. lo
podemos llevar a cabo aplicando un AC simple sobre las matrices siguientes:
a) Z. b) H
&
.
9.8. EJEMPLOS 175
En el caso a) representamos las J columnas e ignoramos las : las (in-
dividuos). En el caso b) tenemos una tabla de frecuencias J J simtrica
y podemos representar las las (=columnas) aplicando AC simple. Los dos
procedimientos son equivalentes, salvo que se cumple la relacin
`
1
I
= (`
Z
I
)
2
entre los valores propios `
1
I
obtenidos a partir de la matriz de Burt y los `
Z
I
que surgen del anlisis sobre Z. Las inercias correspondientes son:
c
2
(H
&
) =

I
`
1
I
=
1
Q
2
[

i,=)
c
2
(`
i)
) + (J Q)].
c
2
(Z) =

I
`
Z
I
=
J
Q
1.
siendo c
2
(`
i)
) la inercia para la tabla `
i)
. vase Seccin 9.6. As pues podemos
constatar que AC puede servir tambin para representar ms de dos variables
categricas.
9.8. Ejemplos
Ejemplo 9.8.1 Votaciones.
La Tabla 9.3 contiene las frecuencias con la clasicacin cruzada de 1257
individuos segn Edad (E), Sexo (S), intencin de Voto (V) y Clase social
(C). Tenemos Q = 4. J = 12. J
1
= 4. J
2
= 2. J
3
= 3. J
4
= 2. Los datos
iniciales (matriz Z. solo mostramos 5 individuos) son de la forma:
Edad Votacin Clase Sexo
73 51-73 41-50 26-40 <26 Izq Der Alt Med Obr H M
0 1 0 0 0 1 0 0 1 0 1 0
0 1 0 0 0 0 1 1 0 0 0 1
0 0 0 0 1 1 0 0 0 1 1 0
1 0 0 0 0 0 1 1 0 0 0 1
0 1 0 0 0 1 0 0 1 0 1 0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
176 CAPTULO 9. ANLISIS DE CORRESPONDENCIAS
Edad Hombres Mujeres
Derecha Izquierda Derecha Izquierda
Clase alta
73 4 0 10 0
51-73 27 8 26 9
41-50 27 4 25 9
26-40 17 12 28 9
<26 7 6 7 3
Clase media
73 8 4 9 2
51-73 21 13 33 8
41-50 27 12 29 4
26-40 14 15 17 13
<26 9 9 13 7
Clase obrera
73 8 15 17 4
51-73 35 62 52 53
41-50 29 75 32 70
26-40 32 66 36 67
<26 14 34 18 33
_

_
81 0 0 0 0 56 25 14 23 44 39 42
0 347 0 0 0 194 153 70 75 202 166 181
0 0 343 0 0 169 174 65 72 206 174 169
0 0 0 326 0 144 182 66 59 201 156 170
0 0 0 0 160 68 92 23 38 99 79 81
56 194 169 144 68 631 0 178 180 273 279 352
25 153 174 182 92 0 626 60 87 479 335 291
14 70 65 66 23 178 60 238 0 0 112 126
23 75 72 59 38 180 87 0 267 0 132 135
44 202 206 201 99 273 479 0 0 752 370 382
39 166 174 156 79 279 335 112 132 370 614 0
42 181 169 170 81 352 291 126 135 382 0 643
_

_
Tabla 9.3: Tabla de frecuencias combinando 1257 individuos segn edad, sexo,
clase social y voto (arriba) y correspondiente tabla de Burt (abajo).
9.8. EJEMPLOS 177
Figura 9.3: Representacin por anlisis de correspondencias mltiples de los
datos de la Tabla 9.3.
La Tabla 9.3 tambin contiene la tabla de Burt. Obsrvese que es simtri-
ca. El AC simple sobre esta tabla nos permite representar las 4 variables
categricas sobre el mismo grco, vase la Figura 9.3.
Ejemplo 9.8.2 Titanic.
La Tabla 14.1 (Captulo 14), contiene las frecuencias de supervivencia
(S, NO), clasicadas por gnero (G), supervivencia (S), edad (E) y clase (C,
primera 1, segunda 2, tercera 3 y tripulacin T), del hundimiento del vapor
Titanic. Ahora Q = 4. J = 10. J
1
= 2. J
2
= 2. J
3
= 2. J
4
= 4. La Figura 9.4
representa esta combinacin de datos categricos. Los hombres adultos, la
tripulacin y la tercera clase estn ms cerca de NO, mientras que mujeres,
nios y primera clase estn ms cerca de S. Vase tambin el Ejemplo 14.5.1.
178 CAPTULO 9. ANLISIS DE CORRESPONDENCIAS
Figura 9.4: Representacin por anlisis de correspondencias mltiples de los
datos de supervivencia del "Titanic".
9.9. MDS ponderado
En esta seccin introducimos una variante del Anlisis de Coordenadas
Principales.
Denicin 9.9.1 Sea
j
= (o
i)
) una matriz de distancias q q. v =
(n
1
. . . . . n
j
)
t
un vector de pesos tal que
v
t
1 =
j

i=1
n
i
= 1. n
i
_ 0.
y consideremos la matriz diagonal O
&
=diag(v). La solucin MDS ponderada
de
j
es la matriz
X = O
12
&
lA.
9.9. MDS PONDERADO 179
siendo
O
12
&
(I
j
1v
t
)(
1
2
D
(2)
j
)(I
j
v1
t
)O
12
&
= lA
2
l
t
. (9.7)
una descomposicin espectral, donde A
2
= dicq(`
2
1
. . . . . `
2
j
) contiene los va-
lores propios y
(2)
j
= (o
2
i)
).
Denicin 9.9.2 La variabilidad geomtrica ponderada de
j
es
\
c
=
1
2
j

i,)=1
n
i
o
2
i)
n
)
=
1
2
v
t

(2)
j
v.
Las coordenadas principales son las las de X. Escribiendo
X = [A
1
. A
2
. . . . . A
j
].
podemos interpretar las columnas de X como variables. Observemos que se
verica
(I
j
1v
t
)(
1
2

(2)
j
)(I
j
v1
t
) = XX
t
. (9.8)
Propiedades:
1. Las variables A
I
(columnas de X) tienen medias ponderadas iguales a
cero:
A
I
= v
t
A
I
= 0.
Demost.:
v
t
(I
j
1v
t
) = v
t
v
t
= 0 =v
t
XX
t
v = 0 =v
t
X = 0.
2. Las varianzas ponderadas de las variables A
I
son iguales a los valores
propios:
:
2
I
= `
2
I
. / = 1. . . . . j.
Demost.: Si la media de r
1
. . . . . r
j
es 0. la varianza ponderada es

n
i
r
2
i
. es decir,
:
2
I
= O
12
&
A
t
I
A
I
O
12
&
= (l
t
I
`
I
)(`
I
l
I
) = `
2
I
.
donde `
2
I
es el valor propio de vector propio unitario l
I
.
180 CAPTULO 9. ANLISIS DE CORRESPONDENCIAS
3. Las variables (columnas de X) estn incorrelacionadas
cor(A
I
. A
I
0 ) = 0. / ,= /
t
= 1. . . . . j.
Demost.: Puesto que las medias son nulas la covarianza ponderada es
cov(A
I
. A
I
0 ) = O
12
&
A
t
I
A
I
0 O
12
&
= `
2
I
l
t
I
l
I
0 = 0.
ya que los vectores propios son ortogonales.
4. La variabilidad geomtrica ponderada de
j
es
\
c
=
j

I=1
`
2
I
.
Demost.: Expresemos la matriz de distancias al cuadrado como

(2)
j
= 1d
t
+d1
t
2XX
t
.
siendo d un vector q 1 con los elementos diagonales de XX
t
. Por una
parte
1
2
v
t

(2)
j
v = v
t
1d
t
vv
t
XX
t
v = d
t
v.
Por otra parte
d
t
v =tr(O
12
&
XX
t
O
12
&
) =tr(lA
2
l
t
) =tr(A
2
).
5. Si tomamos las primeras coordenadas principales de X. la variabilidad
geomtrica ponderada es:
\
c
()=
q

I=1
`
2
I
.
Estudiemos ahora la relacin entre el Anlisis de Coordenadas Principales
ordinario (Captulo 8) y el ponderado. Supongamos que podemos expresar
el vector de pesos como
v =
1
:
(:
1
. :
2
. . . . . :
j
). : =
j

i=1
:
i
.
9.9. MDS PONDERADO 181
donde :
i
son enteros positivos y el peso n
i
es igual (o muy prximo
1
) a :
i
,:.
Indiquemos por ^ la matriz : q que contiene :
i
las (0. . . . . 1. . . . . 0). Por
ejemplo, si q = 3 y :
1
= 2. :
2
= 3. :
3
= 1. entonces
^ =
_
_
_
_
_
_
_
_
1 0 0
1 0 0
0 1 0
0 1 0
0 1 0
0 0 1
_
_
_
_
_
_
_
_
.
Si ahora suponemos que en vez de q objetos tenemos : objetos, pero
el primer objeto est repetido :
1
veces, el segundo objeto :
2
veces, etc.,
entonces la matriz de distancias es

a
= ^
j
^
t
. (9.9)
y el anlisis no ponderado sobre la matriz
a
es
(I
a

1
:
11
t
)(
1
2

(2)
a
)(I
a

1
:
11
t
) =

lO
2
A

l
t
=
t
. (9.10)
siendo

l la matriz : j de los vectores propios. La solucin no ponderada
es
=

lO
A
.
Teorema 9.9.1 La solucin no ponderada sobre
a
coincide con la solu-
cin ponderada X sobre
j
. en el sentido de que obtenemos repitiendo
:
1
. . . . . :
j
veces las las de X.
Demost.: De (9.9) podemos expresar la solucin no ponderada (9.10) como
(I
a

1
a
11
t
)^(
1
2

(2)
j
)^
t
(I
a

1
a
11
t
) =
t
.
Se verica
(I
a

1
a
11
t
)^ = ^(I
j
1
j
v
t
).
Por lo tanto, de (9.8) tenemos
^(I
j
1v
t
)(
1
2

(2)
j
)(I
j
v1
t
)^
t
= ^XX
t
^
t
.
1
Tomando n sucientemente grande, podemos aproximarlo tanto como queramos.
182 CAPTULO 9. ANLISIS DE CORRESPONDENCIAS
que demuestra que = ^X.
En otras palabras, las coordenadas principales no ponderadas son el
resultado de repetir :
1
. . . . . :
j
veces las coordenadas X. La relacin entre los
valores singulares es

`
I
= q`
I
. / = 1. . . . . j.
Por ejemplo, si q = 3 y :
1
= 2. :
2
= 3. :
3
= 1. obtenemos
X =
_
_
r
11
r
12
r
21
r
22
r
31
r
32
_
_
. =
_
_
_
_
_
_
_
_
r
11
r
12
r
11
r
12
r
21
r
22
r
21
r
22
r
21
r
22
r
31
r
32
_
_
_
_
_
_
_
_
.
9.10. Complementos
El Anlisis de Correspondencias (AC) tiene una larga historia que se inicia
en 1935 (H.O. Hirschfeld, R.A. Fisher, L. Guttman). Ha sido extensamente
estudiado por Benzcri (1973) y Greenacre (1984).
Utilizando coordenadas estndar A
0
= (c
0
iI
). H
0
= (/
0
)I
). podemos expre-
sar la matriz de correspondencias I = (j
i)
) como
I = rc
t
+O
v
A
0
O
A
H
t
0
O
c
.
Indicando r = (j
1
. . . . . j
1
)
t
. c = (j
1
. . . . . j
J
)
t
los vectores marginales de las
y columnas de I, la expresin escalar es
j
i)
= j
i
j
)
_
1 +
1

I=1
`
I
c
0
iI
/
0
)I
_
.
Si el trmino entre parntesis c =

1
I=1
`
I
c
0
iI
/
0
)I
. es sucientemente pequeo
para que log(1 +c) - c. entonces
log j
i)
= log j
i
+ log j
)
+
1

I=1
`
I
c
0
iI
/
0
)I
.
que se adapta a un modelo log-lineal (Seccin 14.5), donde c cuanticara
el trmino de interaccin. El AC sera pues una manera de visualizar los
trminos de interaccin (van der Heijden y de Leeuw, 1985).
9.10. COMPLEMENTOS 183
CA verica el principio de equivalencia distribucional: si dos perles de
columnas son idnticos, es decir,
j
i)
c
)
=
j
i)
0
c
)
0
. i = 1. . . . . 1.
entonces las columnas ,. ,
t
de N pueden juntarse y ser reemplazadas por su
suma. En efecto, cuando se cumple este principio
j
i)
c
)
=
j
i)
0
c
)
0
=
j
i)
+j
i)
0
c
)
+c
)
0
.
Luego
[(
j
i)
:
i
c
)
)(
j
i
0
)
:
i
0 c
)
)]
2
c
)
+[(
j
i)
0
:
i
c
)
0
)(
j
i
0
)
0
:
i
0 c
)
0
)]
2
c
)
0 = [(
j
i)
+j
i)
0
:
i
(c
)
+c
)
0 )
)(
j
i
0
)
+j
i
0
)
0
:
i
0 (c
)
+c
)
0 )
)]
2
(c
)
+c
)
0 ).
y la distancia ji-cuadrado queda inalterada si juntamos las columnas , y ,
t
.
Una variante del AC propuesta por Rao (1995), se basa en la distancia
de Hellinger

o
2
ii
0 =
J

)=1
_
_
j
i)
,:
i

_
j
i
0
)
,:
i
0
_
2
.
entre dos las de N. que tiene la ventaja de no depender de los perles de
las columnas. Sin embargo los resultados pueden ser muy similares (Cuadras
et al, 2004), y el mtodo basado en esta distancia resulta ms apropiado
cuando las las se ajustan a poblaciones multinomiales distintas. Vase una
aplicacin en Cuadras et al. (2012).
Una forma alternativa de presentar el AC es el reciprocal averaging
(RA). Supongamos que queremos encontrar las coordenadas (c
1
. . . . . c
1
) de
las las como medias ponderadas de las coordenadas de las columnas y rec-
procamente, las coordenadas (/
1
. . . . . /
J
) de las columnas como medias pon-
deradas de las coordenadas de las las:
c
i
=
J

)=1
/
)
j
i)
:
i
. /
)
=
1

i=1
c
i
j
i)
c
)
.
Pero estas relaciones no se pueden vericar simultneamente (por razones
geomtricas obvias), as que hemos de introducir un factor multiplicativo
, 1 y escribir
c
i
= ,
J

)=1
/
)
j
i)
:
i
. /
)
= ,
1

i=1
c
i
j
i)
c
)
. (9.11)
184 CAPTULO 9. ANLISIS DE CORRESPONDENCIAS
El objetivo del RA es encontrar las coordenadas vericando (9.11) tal que ,
sea mnimo. Entonces es posible probar que ` = (1,,)
2
es un valor propio.
Esto mismo lo podemos plantear para la segunda y siguientes coordenadas
y probar la equivalencia entre RA y AC. Los clculos del RA se efectan
iterativamente, y es til (especialmente en ecologa), cuando la matriz de
frecuencias N tiene dimensin grande y contiene muchos ceros (Hill, 1973).
Por otra parte se conoce a (9.11) como la mejor representacin ,baricntrica
sobre un eje (Lebart et al., 1977).
Una extensin interesante del AC es el Canonical Correspondence Analy-
sis (Ter Braak, 1986), que tiene en cuenta, para la representacin, que
los ejes sean combinacin lineal de variables externas. Tiene aplicaciones
en ecologa, dado que permite relacionar las comunidades biolgicas con las
variables ambientales. Vase Graelman (2001).
El anlisis de correspondencias mltiples (ACM) presupone slo inter-
acciones de segundo orden, por lo que podra ser un modelo inadecuado
para expresar las de orden superior. Se pueden tambin representar tablas
de contingencia mltiples mediante mosaicos, que permiten visualizar in-
teracciones de orden superior. La Figura 9.5 contiene la representacin en
mosaico de los datos del Titanic, Tabla 14.1. Vase el anlisis log-lineal
del ejemplo 14.5.1. Consltese Friendly (1994, 1999).
El ACM de tablas concatenadas es una aplicacin del ACM, similar al
AFM (vase Seccin 5.8), que permite visualizar la estructura comn de di-
versas tablas de datos. Supongamos 1 tablas con J = J
1
+ +J
Q
estados
de las Q variables categricas, para cada una de las tablas. Obtenemos los
totales marginales de los J estados para cada tabla y formamos la matriz de
frecuencias 1 J. El AC simple sobre esta matriz permite visualizar los J
estados conjuntamente con las 1 tablas. Vase Greenacre (2008).
Una extensin continua del AC considera una densidad bivariante /(r. )
con densidades marginales ,(r). q(). y la descomposicin singular
,(r)
12
/(r. )q()
12
=
o

I=1
j
I
n
I
(r)
I
(). (9.12)
donde j
I
. / _ 1 son correlaciones cannicas y n
I
. / _ 1.
I
. / _ 1 son
sistemas de funciones ortonormales (Lancaster, 1969). Hay una interesante
semejanza entre (9.12) y el AC, pues muchas propiedades se conservan. Vase
una comparacin sistemtica en Cuadras et al. (2000) y Cuadras (2002b,
2014). El ACha sido tambin comparado con otros mtodos de representacin
9.10. COMPLEMENTOS 185
Figura 9.5: Representacin en mosaico de los datos de supervivencia del
Titanic, Tabla 14.1. El mosaico puede revelar interacciones de orden
superior.
de tablas de contingencia (Cuadras et al., 2006), propiciando una versin
paramtrica que los engloba a todos (Cuadras y Cuadras, 2006, 2011). Para
una amplia visin del Anlisis de Correspondencias y sus variantes, vase
Greenacre (2008).
186 CAPTULO 9. ANLISIS DE CORRESPONDENCIAS
Captulo 10
CLASIFICACIN
10.1. Introduccin
Clasicar los elementos de un conjunto nito consiste en realizar una par-
ticin del conjunto en subconjuntos homogneos, siguiendo un determinado
criterio de clasicacin. Cada elemento pertenece a un nico subconjunto,
que a menudo tiene un nombre que lo caracteriza. As clasicamos:
Las personas en hombres y mujeres.
Los trabajadores en actividades profesionales: servicios, industria, agri-
cultura.
Los animales en especies, gneros, familias y rdenes.
Los libros de una biblioteca en arte, literatura, ciencia, informtica y
viajes.
Sea = .
1
. .
2
. . . . . .
a
un conjunto nito con : elementos diferentes,
que abreviadamente indicaremos
= 1. 2. .... :.
Clasicar es tambin denir una relacin de equivalencia sobre . Esta
relacin dene una particin sobre en : clases de equivalencia:
= c
1
+c
2
+ +c
n
.
donde + signica reunin disjunta. A la particin la llamaremos clustering y
a las clases de equivalencia clusters (conglomerados).
187
188 CAPTULO 10. CLASIFICACIN
10.2. Jerarqua indexada
Las clasicaciones pueden ser jerrquicas o no jerrquicas. Una clasi-
cacin jerrquica es una sucesin de clusterings tal que cada clustering se ob-
tiene agrupando clusters. Por ejemplo, si : = 5, una clasicacin jerrquica
es:
= 1 +2 +3 +4 +5
= 1. 2 +3. 4 +5
= 1. 2 +3. 4. 5
=
Denicin 10.2.1 Una jerarqua indexada (C. c) sobre est formada por
una coleccin de clusters C () y un ndice c tal que:
Axioma de la interseccin: Si c. c
t
C entonces c c
t
c. c
t
. O.
Axioma de la reunin: Si c C entonces c = 'c
t
[ c
t
C. c
t
c.
La reunin de todos los clusters es el conjunto total: = 'c [ c C.
El ndice c es una aplicacin de C sobre el conjunto de nmeros reales posi-
tivos tal que:
c(i) = 0. \i . c(c) _ c(c
t
) si c c
t
.
Diremos que una jerarqua es total si:
\i . i C.
C.
Comentarios:
1. El primer axioma signica que si tenemos dos clusters, uno est incluido
en el otro o ambos son disjuntos, es decir, c c
t
. c
t
c. c c
t
= O.
Se trata de evitar que un elemento de pertenezca a dos clusters
excluyentes a la vez, ya que entonces estara mal clasicado.
2. El segundo axioma signica que cada cluster es reunin de los clusters
que contiene. Es decir, reuniendo clusters obtenemos clusters ms am-
plios. Por ejemplo, en el reino animal, un gnero es reunin de especies,
una familia es reunin de gneros, etc.
10.2. JERARQUA INDEXADA 189
3. El ndice c mide el grado de heterogeneidad de cada cluster. Cuanto
ms grande es el cluster ms heterogneo es.
Teorema 10.2.1 Para todo r _ 0 la relacin binaria
a
sobre los elementos
de
i
a
, :i i. , c. :ic:do c(c) _ r. (10.1)
es de equivalencia.
Demost.: La relacin
a
es:
Reexiva: i
a
i ya que i i, siendo c(i) = 0 _ r.
Simtrica: Evidente.
Transitiva: Sea c
i)
el mnimo cluster que contiene i. ,, y anlogamente c
)I
.
Entonces :
i
a
, =i. , c
i),
c(c
i)
) _ r. ,
a
/ =,. / c
)I,
c(c
)I
) _ r.
=c
i)
c
)I
,= O =
_
c) c
i)
c
)I
=i. / c
)I,
/) c
)I
c
i)
=i. / c
i),
=i
a
/.
La relacin (10.1) dene, para cada r _ 0, una particin de en clases
de equivalencia. La particin se llama clustering al nivel r.
Ejemplo 10.2.1 Partidos.
Consideremos : = 5 partidos polticos con representacin en el Parla-
mento de Catalua: CU (Convergncia i Uni), PP (Partido Popular), PSC
(Partido Socialista de Catalua), IC (Iniciativa por Catalua) y ER (Es-
querra Republicana). Un ejemplo (hipottico) de jerarqua indexada sobre
= CU, PP, PSC, IC, ER . es:
C ={CU
0
, PP
0
, PSC
0
, IC
0
, ERC
0
, {CU, PP}
1
,
{PSC, IC}
1.5
,{PSC, IC, ERC}
2
,
3
},
donde el ndice c est indicado como un subndice: c(CU)=0, c(CU,PP)=1,
etc. Tenemos entonces las siguientes particiones o clusterings:
c Nombre del clustering
= CU +PP +PSC +IC +ER 0 (partidos)
= CU. PP +PSC. IC +ER} 1.5 (derecha, izquierda, centro)
= CU. PP +PSC. IC. ER} 2 (coaliciones)
= 3 (parlamento)
190 CAPTULO 10. CLASIFICACIN
La representacin de esta clasicacin se encuentra en la Figura 10.1, que
justicamos en la seccin siguiente.
10.3. Geometra ultramtrica
Para presentar una clasicacin utilizamos llaves. Por ejemplo, la clasi-
cacin divisiva de Nacin, Comunidades Autnomas y Provincias (slo vamos
a considerar 8) es:
Nacin Autonomas Provincias
Espa~ na
_

_
Aragon
_
_
_
Huesca
Teruel
Zaragoza
Catalu~ na
_

_
Barcelona
Gerona
Lerida
Tarragona
Madrid Madrid
Una generalizacin de las llaves es el rbol ultramtrico. Como veremos
ms adelante, una jerarqua indexada puede ser visualizada mediante un
grco sencillo e intuitivo, llamado dendograma.
Denicin 10.3.1 Un espacio ultramtrico (. n) es una estructura forma-
da por un conjunto nito y una funcin distancia n sobre vericando,
para todo i. ,. / de :
No negatividad: n(i. ,) _ n(i. i) = 0.
Simetra: n(i. ,) = n(,. i).
Propiedad ultramtrica:
n(i. ,) _ supn(i. /). n(,. /).
10.3. GEOMETRA ULTRAMTRICA 191
La matriz l = (n(i. ,)) de orden : :
l =
_
_
_
_
_
n
11
n
12
n
1a
n
21
n
22
n
2a
.
.
.
.
.
.
.
.
.
.
.
.
n
a1
n
a2
n
aa
_
_
_
_
_
n
i)
= n
)i
= n(i. ,). n
ii
= 0.
es la matriz de distancias ultramtricas.
Proposicin 10.3.1 Una distancia ultramtrica verica la desigualdad tri-
angular y por lo tanto es mtrica.
Demost.:
n(i. ,) _ supn(i. /). n(,. /) _ n(i. /) +n(,. /).
Denicin 10.3.2 Un tringulo i. ,. / formado por tres elementos de
es ultramtrico si es issceles y su base es el lado ms pequeo. Es decir, si
n(i. ,) es la base, entonces
n(i. ,) _ n(i. /) = n(,. /).
Teorema 10.3.2 En un espacio ultramtrico todo tringulo es ultramtrico.
Demost.: Sea i. ,. / un tringulo. Sea n(i. ,) es el lado ms pequeo, en-
tonces:
n(i. /) _ supn(i. ,). n(,. /) = n(,. /)
n(,. /) _ supn(i. ,). n(i. /) = n(i. /)
==n(i. /) = n(,. /).
Denicin 10.3.3 Un rbol ultramtrico (tambin llamado dendograma) es
un grafo conexo, sin ciclos con un punto llamado raz y : puntos extremos
equidistantes de la raz.
Una propiedad importante es que todo espacio ultramtrico (. n) se
puede dibujar mediante un dendograma, como muestra la Figura 10.2.
Teorema 10.3.3 Sea (. n) un espacio ultramtrico. Entonces podemos re-
presentarlo mediante un rbol ultramtrico con extremos los elementos de
.
192 CAPTULO 10. CLASIFICACIN
Figura 10.1: Representacin en rbol ultramtrico (dendograma) de cinco
partidos polticos.
Demost.: Supongamos el rbol en posicin vertical. Sea n(i. ,) la distancia
entre los extremos i. , medida como la mitad de la mnima longitud de las
aristas verticales que unen i con ,, es decir, la distancia vertical hasta el
nudo que liga i con ,. Consideremos un tringulo i. ,. / y supongamos
que i. , es el lado ms pequeo. Entonces / se relaciona con i. , en un
nudo
t
por encima de . As n(/. i) = n(/. ,) = n(i. ,) + ,. donde , _ 0
es la distancia vertical entre y
t
. Esto demuestra que i. ,. / es un rbol
ultramtrico.
Hay una versin del Teorema 10.2.1 para distancias ultramtricas.
Teorema 10.3.4 Sea (. n) un espacio mtrico. Si n es distancia ultramtri-
ca, entonces la relacin binaria
a
sobre los elementos de
i
a
, :i n(i. ,) _ r. (10.2)
es de equivalencia para todo r _ 0. Recprocamente, si la relacin (10.2) es
de equivalencia para todo r _ 0, entonces n es distancia ultramtrica.
Demost.: Supongamos que n es ultramtrica. Entonces la relacin
a
es:
Reexiva: n(i. i) = 0 _ r.
Simtrica: n(i. ,) = n(,. i) _ r.
Transitiva: Sea i. ,. / un tringulo ultramtrico con base i. ,. entonces
tenemos
n(i. ,) _ n(,. /) = n(i. /) _ r.
10.3. GEOMETRA ULTRAMTRICA 193
que nos demuestra la transitividad.
Supongamos ahora que
a
es de equivalencia y que el tringulo i. ,. /
verica:
n(i. ,) _ n(,. /) _ n(i. /).
Sea r = n(,. /). Entonces n(i. ,) _ r. n(,. /) _ r =n(i. /) _ r = n(,. /)
por la transitividad de
a
. Esto demuestra que n(,. /) = n(i. /) y por lo
tanto el tringulo i. ,. / es ultramtrico.
La Figura 10.1 contiene el dendograma correspondiente a la jerarqua
indexada del ejemplo 10.2.1.
Otra propiedad importante es que juntando elementos prximos de
seguimos manteniendo la propiedad ultramtrica, y esto vale para cualquier
clustering.
Teorema 10.3.5 Supongamos que sobre los : clusters del clustering
= c
1
+c
2
+ +c
n
hay denida una distancia ultramtrica n. Sean c
i
. c
)
los dos clusters ms
prximos: n(c
i
. c
)
) = mnimo. Entonces uniendo c
i
con c
)
, se puede denir
una distancia ultramtrica n
t
sobre los :1 clusters del clustering
= c
1
+ +c
i
' c
)
+ +c
n
.
Demost.: Si / ,= i. ,. por la propiedad ultramtrica tenemos que n(c
I
. c
i
) =
n(c
I
. c
)
). Denimos:
n
t
(c
I
. c
i
' c
)
) = n(c
I
. c
i
) = n(c
I
. c
)
). / ,= i. ,.
n
t
(c
o
. c
b
) = n(c
o
. c
b
). c. / ,= i. ,.
(10.3)
Consideremos el tringulo c
o
. c
b
. c
i
' c
)
. Entonces:
n
t
(c
o
. c
b
) = n(c
o
. c
b
)
_ supn(c
o
. c
i
). n(c
b
. c
i
) = supn
t
(c
o
. c
i
' c
)
). n
t
(c
b
. c
i
' c
)
).
n
t
(c
o
. c
i
' c
)
) = n(c
o
. c
i
)
_ supn(c
o
. c
b
). n(c
b
. c
i
) = supn
t
(c
o
. c
b
). n
t
(c
b
. c
i
' c
)
).
Finalmente, la propiedad ultramtrica es invariante por transformaciones
montonas.
194 CAPTULO 10. CLASIFICACIN
Proposicin 10.3.6 Si n es distancia ultramtrica y n
t
= ,(n) es una trans-
formacin de n donde , es una funcin positiva montona (creciente o de-
creciente), entonces n
t
es tambin distancia ultramtrica.
Demost.: Si i. ,. / es un tringulo ultramtrico con base i. , y , es mon-
tona, tendremos que
n(i. ,) _ n(i. /) = n(,. /) =n
t
(i. ,) _ n
t
(i. /) = n
t
(,. /).
10.4. Algoritmo fundamental de clasicacin
A partir de un espacio ultramtrico podemos construir una jerarqua in-
dexada. Nos lo permite el siguiente procedimiento.
Algoritmo fundamental de clasicacin
Sea (. n) un espacio ultramtrico. El fundamento de este algoritmo con-
siste en el hecho de que, en virtud del Teorema 10.3.5, juntando elementos o
clusters ms prximos, conservamos la propiedad ultramtrica.
1. Comencemos con la particin:
= 1 + +:.
2. Sean i. , los dos elementos ms prximos: n(i. ,) = mnimo. Los unimos
i ' , = i. ,
y denimos la nueva distancia ultramtrica n
t
n
t
(/. i. ,) = n(i. /) = n(,. /). / ,= i. ,.
(ver Teorema 10.3.5).
3. Consideremos la nueva particin:
= 1 + +i. , + +:
y repitamos el paso 2 hasta llegar a . En este proceso, cada vez que
unimos c
i
con c
)
tal que n(c
i
. c
)
) = mnimo, denimos el ndice
c(c
i
' c
)
) = n(c
i
. c
)
). (10.4)
El resultado de este proceso es una jerarqua indexada (C. c).
10.5. EQUIVALENCIAENTREJERARQUAINDEXADAYULTRAMTRICA195
10.5. Equivalencia entre jerarqua indexada y
ultramtrica
Una jerarqua indexada es una estructura conjuntista. Un espacio ultra-
mtrico es una estructura geomtrica. Ambas estructuras son equivalentes.
Teorema 10.5.1 Sea (C. c) una jerarqua indexada total sobre un conjunto
. Entonces podemos denir una distancia ultramtrica n sobre . Recproca-
mente, todo espacio ultramtrico (. n) dene una jerarqua indexada (C. c).
Demost.: A partir de (C. c) denimos la siguiente distancia
n(i. ,) = c(c
i)
).
donde c
i)
es el mnimo cluster (respecto a la relacin de inclusin) que con-
tiene i. ,. Sea i. ,. / un tringulo y sean tambin c
iI
. c
)I
los mnimos clusters
que contienen i. /. ,. / respectivamente. Tenemos que
c
iI
c
)I
,= O
y por tanto (axioma de la interseccin) hay dos posibilidades:
a) c
iI
c
)I
= i. ,. / c
)I
= c
i)
c
)I
= n(i. ,) = c(c
i)
) _ n(,. /) =
c(c
)I
)
b) c
)I
c
iI
= i. ,. / c
iI
= c
i)
c
iI
= n(i. ,) = c(c
i)
) _ n(i. /) =
c(c
iI
) As pues: n(i. ,) _ supn(i. /). n(,. /).
La posibilidad de construir una jerarqua indexada a partir de una dis-
tancia ultramtrica es una consecuencia del algoritmo fundamental de clasi-
cacin. El ndice de la jerarqua viene dado por (10.4).
Comentarios:
1. Obsrvese la analoga entre el Teorema 10.3.5 y el algoritmo funda-
mental de clasicacin.
2. Obsrvese adems que (10.3) permite denir de manera inequvoca una
distancia entre un cluster y la unin de los dos clusters ms prximos.
Esta propiedad es la que otorga importancia a la distancia ultramtrica.
196 CAPTULO 10. CLASIFICACIN
10.6. Algoritmos de clasicacin jerrquica
Supongamos que, en relacin a unas variables observables, hemos obtenido
una matriz de distancias = (o(i. ,)) de orden : : entre los elementos de
un conjunto :
=
_
_
_
_
_
o
11
o
12
o
1a
o
21
o
22
o
2a
.
.
.
.
.
.
.
.
.
.
.
.
o
a1
o
a2
o
aa
_
_
_
_
_
o
i)
= o
)i
= o(i. ,). o
ii
= 0.
Si la distancia o es ultramtrica, entonces no hay ningn problema para
llevar a cabo una clasicacin construyendo una jerarqua indexada. Basta
con aplicar el algoritmo fundamental de clasicacin (Seccin 10.4). Pero
en general o no cumple la propiedad ultramtrica y por lo tanto hemos de
modicar adecuadamente este algoritmo.
Algoritmo de clasicacin
Sea (. o) un espacio mtrico. El algoritmo de clasicacin se basa en el
Teorema 10.3.5, en el sentido de que juntaremos los elementos o clusters ms
prximos, y procuraremos obtener tringulos ultramtricos.
1. Comencemos con la particin:
= 1 + +:.
2. Sean i. , los dos elementos ms prximos: o(i. ,) = mnimo. Los unimos
i ' , = i. ,
y denimos la distancia de un elemento / al cluster i. ,
o
t
(/. i. ,) = ,(o(i. /). o(,. /)). / ,= i. ,. (10.5)
donde , es una funcin adecuada.
3. Consideremos la nueva particin:
= 1 + +i. , + +:.
10.6. ALGORITMOS DE CLASIFICACIN JERRQUICA 197
y repitamos el paso 2 hasta llegar a . En este proceso, cada vez que
unimos c
i
con c
)
tal que o(c
i
. c
)
) = mnimo, denimos el ndice
c(c
i
' c
)
) = o
t
(c
i
. c
)
). (10.6)
La funcin , en (10.5) se dene adecuadamente a n de que se cumpla la
propiedad ultramtrica. El resultado de este proceso es una jerarqua inde-
xada (C. c).
10.6.1. Mtodo del mnimo
Los diferentes mtodos de clasicacin jerrquica dependen de la eleccin
de , en (10.5). Una primera eleccin conveniente de , consiste simplemente
en tomar el valor ms pequeo de los dos lados i. /. ,. / del tringulo
i. ,. / con base i. ,, es decir:
o
t
(/. i. ,) = mno(i. /). o(,. /). / ,= i. ,. (10.7)
En otras palabras, hacemos que el tringulo
o(i. , _ o(i. /) = c _ o(,. /).
se transforme en ultramtrico
o
t
(i. , _ o
t
(i. /) = o
t
(,. /) = c.
Ejemplo. Sea una matriz de distancias sobre = 1. 2. 3. 4. 5. El
mtodo del mnimo proporciona una jerarqua indexada (C. c) asociada a
198 CAPTULO 10. CLASIFICACIN
una matriz ultramtrica l:
=
1 2 3 4 5
1 0 1 3 4 7
2 0 4 4 8
3 0 2 8
4 0 7
5 0

(1. 2) 3 4 5
(1. 2) 0 3 4 7
3 0 2 8
4 0 7
5 0

(1. 2) (3. 4) 5
(1. 2) 0 3 7
(3. 4) 0 7
5 0

(1. 2. 3. 4) 5
(1. 2. 3. 4) 0 7
5 0
C = 1
0
. . . . . 5
0
. 1. 2
1
. 3. 4
2
. 1. 2. 3. 4
3
.
7

(C. c) l =
1 2 3 4 5
1 0 1 3 3 7
2 0 3 3 7
3 0 2 7
4 0 7
5 0
El mtodo del mnimo produce una distancia ultramtrica n que goza de
la siguiente propiedad.
Teorema 10.6.1 Sea
l = n [ n es ultrametrica. n(i. ,) _ o(i. ,)
el conjunto de distancias ultramtricas ms pequeas que o. Entonces la dis-
tancia ultramtrica n resultante de aplicar el mtodo del mnimo es el ele-
mento mximo de l
n(i. ,) _ n(i. ,). n l. \i. , .
Demost.: Sean i. , los elementos ms prximos. Entonces n(i. ,) = o(i. ,).
La columna / (,= i. ,) tendr trminos repetidos iguales a una distancia o
t
construida tomando un mnimo. Si n _ o es otra distancia ultramtrica,
entonces: a) si es estrictamente ms pequea es evidente que n n. b) si
n(/
t
. /
tt
) es ms grande que n(/
t
. /
tt
) pero es igual a alguna o, entonces la
columna / tendr elementos repetidos, y al menos uno ser superior a o
t
.
Contradiccin. El razonamiento es parecido si consideramos un cluster c y
un elemento / , c.
10.6. ALGORITMOS DE CLASIFICACIN JERRQUICA 199
Comprese con l en el ejemplo anterior. Vase tambin el Teorema
10.7.3.
A la vista de este resultado, podemos decir que n es la mejor aproximacin
a o por defecto.
10.6.2. Mtodo del mximo
Una segunda eleccin razonable de , consiste en tomar el valor ms grande
de los dos lados i. /. ,. / del tringulo i. ,. / con base i. ,, es decir:
o
t
(/. i. ,) = maxo(i. /). o(,. /). / ,= i. ,. (10.8)
En otras palabras, hacemos que el tringulo
o(i. , _ o(i. /) _ o(,. /) = /.
se convierta en ultramtrico
o
t
(i. , _ o
t
(i. /) = o
t
(,. /) = /.
El mtodo del mximo produce una distancia ultramtrica n que goza de
la siguiente propiedad.
Teorema 10.6.2 Sea
l = n [ n es ultrametrica. n(i. ,) _ o(i. ,)
el conjunto de distancias ultramtricas ms grandes que o. Entonces la distan-
cia ultramtrica n resultante de aplicar el mtodo del mximo es un elemento
minimal de l
n(i. ,) _ n(i. ,). n l. \i. , .
As n es la mejor aproximacin a o por exceso.
Comentarios:
1. Las distancias n. n. y o verican:
n(i. ,) _ o(i. ,) _ n(i. ,).
Hay igualdad n = o = n si y slo si o es ultramtrica.
200 CAPTULO 10. CLASIFICACIN
2. n es elemento mximo y es nico. El mtodo del mnimo slo tiene una
solucin.
3. n es elemento minimal y no es nico. El mtodo del mximo puede
tener varias soluciones.
4. Si todos los elementos fuera de la diagonal de la matriz de distancias
son diferentes, entonces la solucin obtenida aplicando el mtodo del
mximo es nica y por tanto n es elemento mnimo.
Finalmente, una notable propiedad de los mtodos del mnimo (tambin
conocido como single linkage) y del mximo (complete linkage) es que con-
servan la ordenacin de la distancia o. en el sentido de la Proposicin 10.3.6.
Teorema 10.6.3 Los mtodos del mnimo y del mximo son invariantes por
transformaciones montonas de la distancia o :
o
t
= ,(o) =n
t
= ,(n)
donde n. n
t
son las ultramtricas asociadas a o. o
t
y , es una funcin mon-
tona positiva.
Demost.: En el proceso de encontrar la ultramtrica slo intervienen los ran-
gos de los valores de o. que son los mismos que los rangos de los valores de
la transformacin o
t
.
10.7. Ms propiedades del mtodo del mni-
mo
Una propiedad de la distancia ultramtrica dice que todo elemento de
una bola es tambin centro de la propia bola.
Proposicin 10.7.1 Sea 1(i
0
. :) una bola cerrada de centro i
0
y radio ::
1(i
0
. :) = i [ n(i
0
. i) _ :.
Entonces
\i 1(i
0
. :) c:i,icc 1(i. :) = 1(i
0
. :).
10.7. MS PROPIEDADES DEL MTODO DEL MNIMO 201
La demostracin es inmediata. Tambin se verica:
Proposicin 10.7.2 Sea i
1
. . . . . i
n
. Se cumple la desigualdad
n(i
1
. i
n
) _ supn(i
c
. i
c+1
)[c = 1. . . . . :1.
Demost.: Por recurrencia sobre :. Para : = 2 es la desigualdad ultramtrica.
Supongamos cierto para :1. Tenemos:
n(i
1
. i
n
) _ supn(i
1
. i
n1
). n(i
n1
. i
n
)
_ supsupn(i
c
. i
c+1
)[c = 1. . . . . :2. n(i
n1
. i
n
)
_ supn(i
c
. i
c+1
)[c = 1. . . . . :1.
Sea ahora = 1. 2. . . . . : y o una distancia sobre .
Denicin 10.7.1 Una cadena [i. ,]
n
es el conjunto i = i
1
. i
2
. . . . . , = i
n
.
Denicin 10.7.2 Indiquemos
sup[i. ,]
n
= sup
1cn
o(i
c
. i
c+1
)
el mximo salto de la cadena [i. ,]
n
. Denimos la distancia sobre
n(i. ,) =nf
n
sup[i. ,]
n
Teorema 10.7.3 Se verica:
1. n es una ultramtrica tal que n _ o.
2. Si n es otra ultramtrica tal que n _ o entonces n _ n.
3. n es la ultramtrica que se obtiene por el mtodo del mnimo.
Demost.: [i. ,]
2
= i. , es una cadena que une i. , y por lo tanto
n(i. ,) _ sup[i. ,]
2
Sea [i. ,. /] una cadena que une i. , pero que contiene /. El conjunto de
las cadenas [i. ,. /] est contenido en el conjunto de las cadenas [i. ,]. Por lo
tanto:
nf
n
sup[i. ,]
n
_nf
n
0
sup[i. /. ,]
n
0 (10.9)
202 CAPTULO 10. CLASIFICACIN
Por otra parte, dadas las cadenas [i. ,]. [,. /] podemos construir
[i. /. ,] = [i. ,] ' [,. /]
de modo que
sup[i. /. ,] = supsup[i. ,]. sup[,. /]
Teniendo en cuenta (10.9) deducimos que
n(i. ,) _ supn(i. /). n(,. /)
Sea ahora n _ o. Aplicando la Proposicin 10.7.2
n(i. ,) _ sup
1cn
n(i
c
. i
c+1
) _ sup[i. ,]
n
Por lo tanto
n(i. ,) _nf
n
sup[i. ,]
n
= n(i. ,).
Conviene comparar este resultado con el Teorema 10.6.1
10.8. Ejemplos
Ejemplo 10.8.1 Profesores.
Un grupo de : = 11 profesores de probabilidades y estadstica de la Uni-
versidad de Barcelona han publicado, entre 1994 y 2000, unos 150 artculos
internacionales, algunos en colaboracin. Con la nalidad de agrupar los pro-
fesores segn los artculos que publicaron juntos, consideramos el coeciente
de similaridad
:(i. ,) = nmero de artculos que i. , han publicado juntos.
Denimos entonces la disimilaridad
d(i. ,) = 1 :(i. ,), mn:(i. i). :(,. ,).
Calculando d(i. ,) para cada par de profesores, obtenemos la siguiente
matriz de distancias:
10.8. EJEMPLOS 203
Figura 10.2: Representacin mediante un dendograma que agrupa 11 profe-
sores segn los artculos publicados conjuntamente.
Are Cor Cua For Mar Nua Oli Oll Rov San Sar
Arenas 0
Corcuera 1 0
Cuadras 0.50 1 0
Fortiana 0.83 1 0.06 0
Marquez 1 1 1 1 0
Nualart 1 1 1 1 1 0
Oliva 1 1 0.33 0.33 1 1 0
Oller 1 0.75 1 1 1 1 1 0
Rovira 1 1 1 1 1 1 1 1 0
Sanz 1 1 1 1 0.33 0.93 1 1 0.11 0
Sarra 1 1 1 1 0.75 1 1 1 1 0.25 0
Aplicando un anlisis cluster, mtodo del mnimo (single linkage), a esta
matriz de disimilaridades, obtenemos el dendograma de la Figura 10.2. Este
grco pone de maniesto que hay tres grupos principales con 4, 2 y 5 pro-
fesores, que trabajan en anlisis multivariante (AM), estadstica matemtica
(EM) y anlisis estocstico (AE), respectivamente.
204 CAPTULO 10. CLASIFICACIN
Figura 10.3: Representacin mediante un dendograma (mtodo del mnimo)
de 14 idiomas europeos. Las disimilaridades iniciales se obtiene a partir de
las diferencias al escribir los nmeros del 1 al 10.
Ejemplo 10.8.2 Idiomas.
Los idiomas tienen semejanzas y diferencias entre sus palabras. Midien-
do objetivamente sus diferencias en relacin a las letras que describen los
nmeros 1 a 10, se pretende agrupar jerrquicamente 14 idiomas europeos:
Alemn, Ingls, Vasco, Cataln, Castellano, Dans, Fins,
Francs,Gallego, Holands, Hngaro, Italiano, Noruego y Polaco.
La disimilaridad entre cada par de idiomas se calcula sumando el nmero
de letras que cambian (por supresin, duplicacin, aadido, etc.) al escribir
cada uno de los nmeros 1, 2, . . . , 10.
Por ejemplo, entre Ingls y Noruego hay 27 diferencias (sumando las que
hay para cada uno de los nmeros del 1 al 10), y entre Espaol (Castellano)
e Italiano slo hay 17.
Vase Oliva et al. (1993) para ms detalles.
10.8. EJEMPLOS 205
La matriz de disimilaridades es:
Ale Ing Vas Cat Cas Dan Fin Fra Gal Hol Hun Ita Nor Pol
Alemn 0
Ingls 29 0
Vasco 45 44 0
Cataln 34 28 45 0
Castellano 32 29 46 17 0
Dans 30 26 43 27 31 0
Fins 58 55 59 57 55 59 0
Francs 33 32 46 13 24 33 59 0
Gallego 32 27 44 13 7 26 55 23 0
Holands 19 25 43 43 32 29 56 33 33 0
Hngaro 42 38 45 40 42 36 56 38 40 37 0
Italiano 37 35 46 22 17 32 60 24 15 36 45 0
Noruego 29 27 43 29 32 3 58 33 27 28 36 33 0
Polaco 45 44 53 44 36 44 56 45 38 42 52 42 44 0
Sobre esta matriz de disimilaridades se lleva a cabo un anlisis cluster
jerrquico, mtodo del mnimo (single linkage). El resultado es el dendograma
de la Figura 10.3. Claramente se aprecia que los idiomas de origen latino se
agrupan, manteniendo una cierta similaridad con las lenguas anglosajonas,
que tambin se agrupan. El Polaco y el Hngaro, aunque son dos idiomas
bastante distintos, forman un cluster. El Vasco y el Fins se mantienen se-
parados de las otras lenguas.
Ejemplo 10.8.3 Adjetivos.
Continuando con el ejemplo 8.7.3, aplicamos ahora un anlisis cluster
sobre la matriz de distancias de la Tabla 8.2 (mitad inferior izquierda) por
el mtodo del mximo (complete linkage), vase Figura 10.4. Los resultados
con el mtodo del mnimo son bastante parecidos, indicando que hay una
buena estructura jerrquica. Se percibe una divisin principal, que agrupa los
adjetivos de peso y extensin espacial, siguiendo la dicotoma gran cantidad
vs pequea cantidad.
206 CAPTULO 10. CLASIFICACIN
Figura 10.4: Representacin mediante un dendograma de 23 adjetivos por el
mtodo del mximo.
10.9. Clasicacin no jerrquica
Una clasicacin no jerrquica de : objetos en relacin a una matriz de
datos cuantitativos X, consiste en obtener q grupos homogneos y excluyentes
(clusters). Si tenemos q clusters, estamos en la misma situacin contemplada
en el Cap. 7, y podemos considerar la descomposicin de la variabilidad total
T = H+V
Una particin en q clusters que hace mxima H o mnima V. en relacin
a algn criterio, dar una solucin al problema, puesto que tendremos una
mxima dispersin entre clusters. Algunos criterios, justicados por el anlisis
multivariante de la varianza, son:
a) Minimizar tr(V).
b) Minimizar [V[.
c) Minimizar = [V[,[T[.
d) Maximizar tr(V
1
H)
10.10. NMERO DE CLUSTERS 207
Pero la cantidad de maneras diferentes de agrupar : objetos en q clusters
es del orden de q
a
,q!. nmero muy grande incluso para valores moderados
de : y q. Por ejemplo, necesitaramos formar ms de 10
23
clusters si : = 50
y q = 3. Por tanto, es necesario seguir algn algoritmo de agrupacin.
El mtodo de las medias mviles consiste en:
1. Comenzar con q puntos del espacio 1
j
y asignar los objetos a q clus-
ters de acuerdo con la proximidad (distancia eucldea) a los q puntos
iniciales.
2. Calcular los centroides de los q clusters obtenidos y reasignar los objetos
segn su proximidad al centroide de cada cluster.
3. Repetir el paso anterior, calculando cada vez la cantidad [V[ (o el
criterio de optimizacin escogido). Parar cuando [V[ ya no disminuye.
Es posible probar que la suma de cuadrados de las distancias eucldeas
de los puntos de cada cluster al centroide
j

I=1
a

i=1
d
2
(x
Ii
. x
I
)
disminuye a cada paso.
10.10. Nmero de clusters
Diversos autores (Calinski, Harabasz, Hartigan, Krzanowski, Lai) han
propuesto mtodos para estimar el nmero de clusters (conglomerados) de
una clasicacin. Es ste un tema abordado desde muchas perspectivas (vase
Gordon, 1999).
Normalmente el usuario determina el nmero / de clusters. Un primer
criterio consiste en tomar el valor / tal que maximice la cantidad
cl
1
(/) =
tr(H(/))
q 1
,
tr(V(/))
: q
.
donde H(/). V(/) indican las matrices entre-grupos y dentro-grupos para /
grupos. Otro criterio considera
di,(/) = (/ 1)
2j
V(/ 1) /
2j
V(/)
208 CAPTULO 10. CLASIFICACIN
y elige / tal que maximiza
c|
2
(/) = di,(/),di,(/ + 1).
Pero c|
1
i c|
2
no estn denidos para / = 1. Un tercer criterio propone el
estadstico
H(/) =
_
V(/)
V(/ + 1)
1
_
,(: / 1).
empieza con / = 1 y aumenta / si H(/) crece signicativamente de acuerdo
con una aproximacin a la distribucin F.
Tibshirani et al. (2001) proponen un mtodo que contempla tambin el
caso / = 1. Partiendo del resultado de cualquier clasicacin, jerrquica o
no, comparan el cambio de log [V(/)[ respecto al cambio esperado para una
distribucin apropiada de referencia, es decir,
1[log [V(/)[] log [V(/)[.
10.11. Complementos
La historia de la clasicacin comienza con la sistemtica de Carl von Lin-
n, que permita clasicar animales y plantas segn gnero y especie. La clasi-
cacin moderna (denominada taxonoma numrica) se inicia en 1957 con
la necesidad de proponer criterios objetivos de clasicacin (Sokal, Sneath,
Michener). Posteriormente, diversos autores relacionaron las clasicaciones
jerrquicas con los espacios ultramtricos (Benzecri, Jardine, Sibson, John-
son), dado que la propiedad ultramtrica ya era conocida en otros campos
de la matemtica. Hartigan (1967) y Johnson (1967) son dos referencias im-
portantes para representar matrices de similaridades (o disimilaridades) me-
diante dendogramas y relacionarlos con las clasicaciones jerrquicas. Vase
Gordon (1999).
Una crtica que se ha hecho al anlisis cluster es el excesivo repertorio
de distancias y mtodos de clasicacin. Incluso se han realizado clasica-
ciones de las propias maneras de clasicar, y clasicaciones jerrquicas de las
distancias. Tambin se ha argumentado (Flury, 1997) que el planteamiento
correcto del anlisis cluster consiste en encontrar mixturas
,(x) =j
1
,
1
(x) + +j
j
,
j
(x).
10.11. COMPLEMENTOS 209
donde cada densidad ,
i
representara un cluster y , la densidad de los datos
que hemos observado. Pero si una distancia mide razonablemente las dife-
rencias entre los objetos, entonces se pueden obtener clasicaciones objetivas
aplicando anlisis cluster jerrquico. Por ejemplo, en el ao 1999 se realiz la
clasicacin jerrquica del reino vegetal a partir de distancias entre secuen-
cias de DNA, obteniendo una concordancia de un 60 % con la clasicacin
tradicional basada en la similitud morfolgica de las plantas.
J. C. Gower conjetur en 1971 que toda distancia ultramtrica era eu-
cldea con dimensin : 1. un resultado que sera probado por Holman
(1972). Interes entonces estudiar la relacin entre representaciones en r-
bol y en coordenadas (Bock, Crithcley, Heiser, Kruskal). Critchley y Heiser
(1988) probaron que, a pesar del resultado de Holman, es posible representar
un espacio ultramtrico con una sola dimensin utilizando una mtrica ade-
cuada. Un estudio de los vectores propios y las dimensiones principales de
una matriz de distancias ultramtricas es debido a Cuadras y Oller (1987).
Vase tambin Cuadras y Carmona (1983) y Cuadras et al. (1996).
N. Jardine y R. Simpson propusieron el mtodo de clasicacin denomi-
nado exible, que consiste en denir la distancia de un cluster a la unin de
dos clusters en funcin de unos parmetros, por ejemplo, inicialmente
o
t
(/. i. ,) = c
i
o(i. /) +c
)
o(,. /) +,o(i. ,) +[o(i. /) o(,. /)[.
y anlogamente en los siguientes pasos. Dando valores a los parmetros se
obtienen los mtodos siguientes (se incluye denominacin estndar):
Criterio de agrupacin c
i
c
)
,
Mnimo (single linkage) 1,2 1,2 0 1,2
Mximo (complete linkage) 1,2 1,2 0 +1,2
Media (weighted average link) 1,2 1,2 0 0
upgma (group average link) :
i
,(:
i
+:
)
) :
)
,(:
i
+:
)
) 0 0
upgma (Unweighted pair group method using arithmetic averages) es un
mtodo recomendable porque proporciona una clasicacin que se ajusta
bien a la distancia inicial en el sentido de los mnimos cuadrados.
G.H. Ball, D.J. Hall, E. Diday y otros propusieron algoritmos ecientes
de agrupacin no jerrquica. Consltese Everitt (1993).
210 CAPTULO 10. CLASIFICACIN
Captulo 11
ANLISIS DISCRIMINANTE
11.1. Introduccin
Sean
1
.
2
dos poblaciones, A
1
. ....A
j
variables observables. Indiquemos
x =(r
1
. .... r
j
) las observaciones de las variables sobre un individuo .. Se
trata de asignar . a una de las dos poblaciones. Este problema aparece en
muchas situaciones: decidir si se puede conceder un crdito; determinar si
un tumor es benigno o maligno; identicar la especie a que pertenece una
planta, etc.
Una regla discriminante es un criterio que permite asignar . conocido
(r
1
. .... r
j
), y que a menudo es planteado mediante una funcin discriminante
1(r
1
. .... r
j
). Entonces la regla de clasicacin es
Si 1(r
1
. .... r
j
) _ 0 asignamos . a
1
.
en caso contrario asignamos . a
2
.
Esta regla divide 1
j
en dos regiones
1
1
= x[1(x) 0. 1
2
= x[1(x) < 0.
En la decisin de identicar ., nos equivocaremos si asignamos . a una
poblacin a la que no pertenece. La probabilidad de clasicacin errnea
(pce) es
jcc = 1(1
2
,
1
)1(
1
) +1(1
1
,
2
)1(
2
). (11.1)
211
212 CAPTULO 11. ANLISIS DISCRIMINANTE
11.2. Clasicacin en dos poblaciones
11.2.1. Discriminador lineal
Sean
1
.
2
los vectores de medias de las variables en
1
.
2
. respectiva-
mente, y supongamos que la matriz de covarianzas Xes comn. Las distancias
de Mahalanobis de las observaciones x =(r
1
. . . . . r
j
)
t
de un individuo . a las
poblaciones son
`
2
(x.
i
) = (x
i
)
t
X
1
(x
i
). i = 1. 2.
Un primer criterio de clasicacin consiste en asignar . a la poblacin ms
prxima:
Si `
2
(x.
1
) < `
2
(x.
2
) asignamos . a
1
.
en caso contrario asignamos . a
2
.
(11.2)
Expresando esta regla como una funcin discriminante, tenemos:
`
2
(x.
2
) `
2
(x.
1
) = x
t
X
1
x +
2
X
1

2
2x
t
X
1

2
x
t
X
1
x
1
X
1

1
+ 2x
t
X
1

1
= (
2

1
)
t
X
1
(
2
+
1
) + 2x
t
X
1
(
1

2
).
Denimos la funcin discriminante
1(x) =
_
x
1
2
(
1
+
2
)

t
X
1
(
1

2
) . (11.3)
Entonces `
2
(x.
2
) `
2
(x.
1
) = 21(x)1((
1
+
2
) ,2) y la regla (11.2)
es
Si 1(x) 0 asignamos . a
1
.
en caso contrario asignamos . a
2
.
La funcin lineal (11.3) es el discriminador lineal de Fisher.
11.2.2. Regla de la mxima verosimilitud
Supongamos que ,
1
(x) . ,
2
(x) son las densidades de x en
1
.
2
. Una regla
de clasicacin consiste en asignar . a la poblacin donde la verosimilitud
de las observaciones x es ms grande:
Si ,
1
(x) ,
2
(x) asignamos . a
1
.
en caso contrario asignamos . a
2
.
La funcin discriminante es
\ (x) = log ,
1
(x) log ,
2
(x) .
11.2. CLASIFICACIN EN DOS POBLACIONES 213
11.2.3. Regla de Bayes
En ciertas situaciones, se conocen las probabilidades a priori de que .
pertenezca a cada una de las poblaciones

1
= 1 (
1
) .
2
= 1 (
2
) .
1
+
2
= 1.
Una vez que se dispone de las observaciones x =(r
1
. . . . . r
j
). las probabili-
dades a posteriori de que . pertenezca a las poblaciones (teorema de Bayes)
son
1(
i
,x) =

i
,
i
(x)

1
,
1
(x) +
2
,
2
(x)
. i = 1. 2.
La regla de clasicacin de Bayes es
Si 1(
1
,x) 1(
2
,x) asignamos . a
1
.
en caso contrario asignamos . a
2
.
El discriminador de Bayes es
1(x) = log ,
1
(x) log ,
2
(x) + log (
1
,
2
) .
Cuando
1
=
2
= 1,2. entonces 1(x) = \ (x) . Este discriminador es ptimo
.
Teorema 11.2.1 La regla de Bayes minimiza la probabilidad de clasicacin
errnea.
Demost.: Supongamos que se dispone de otra regla que clasica a
1
si x 1
+
1
.
y a
2
si x 1
+
2
. donde 1
+
1
. 1
+
2
son regiones complementarias del espacio
muestral. Indicando dx =dr
1
dr
j
. la probabilidad de clasicacin errnea
es
jcc
+
=
1
_
1

2
,
1
(x)dx+
2
_
1

1
,
2
(x)dx
=
_
1

2
(
1
,
1
(x)
2
,
2
(x))dx+
2
(
_
1
2
,
2
(x)dx+
_
1

1
,
2
(x)dx)
=
_
1

2
(
1
,
1
(x)
2
,
2
(x))dx+
2
.
Indiquemos . =
1
,
1
(x)
2
,
2
(x). Esta ltima integral es mnima si 1
+
2
in-
cluye todas las x tales que .<0 y excluye todas las x tal que .0. Por tanto
jcc
+
es mnima si 1
+
2
= 1
2
. siendo 1
2
= x[1(x) <0.
214 CAPTULO 11. ANLISIS DISCRIMINANTE
11.3. Clasicacin en poblaciones normales
Supongamos ahora que la distribucin de A
1
. ....A
j
en
1
es `
j
(
1
. X
1
)
y en
2
es `
j
(
2
. X
2
), es decir,
,
i
(x) = (2:)
j2

X
1
i

12
exp
1
2
(x
i
)
t
X
1
i
(x
i
).
11.3.1. Discriminador lineal
Si suponemos
1
,=
2
. X
1
= X
2
= X. entonces
\ (x) =
1
2
(x
1
)
t
X
1
(x
1
) +
1
2
(x
2
)
t
X
1
(x
2
)
= 1(x).
y por tanto los discriminadores mximo verosmil y lineal, el segundo basado
en el criterio de la mnima distancia, coinciden.
Sea c la distancia de Mahalanobis entre las dos poblaciones
c = (
1

2
)
t
X
1
(
1

2
).
Si suponemos que x proviene de `
j
(
2
. X). de x
1
= x
2
+
2

1
.
y de 1(x
2
)(x
2
)
t
= X. (x
2
)
t
X
1
(x
2
) ~
2
j
, tenemos que la
esperanza de l = (x
1
)
t
X
1
(x
1
) es
1(l) =1[(x
2
)
t
X
1
(x
2
) +c + 2(x
2
)
t
X
1
(
2

1
)] = j +c.
y la varianza de \ = (x
2
)
t
X
1
(x
2
) es la misma que la de 1(x) y es
var(\ ) = 1((
2

1
)
t
X
1
(x
2
)(x
2
)
t
X
1
(
2

1
)) = c.
Entonces encontramos fcilmente la distribucin de la funcin discriminante
1(x) :
1(x) es `(+
1
2
c. c) si x proviene de `
j
(
1
. X).
1(x) es `(
1
2
c. c) si x proviene de `
j
(
2
. X).
(11.4)
11.3.2. Regla de Bayes
Si suponemos
1
,=
2
. X
1
= X
2
= X. y conocemos las probabilidades a
priori
1
= 1 (
1
) .
2
= 1 (
2
) . entonces es fcil ver que
1(x) =1(x)+log(
1
,
2
).
y la funcin discriminante de Bayes es el discriminador lineal ms la constante
log(
1
,
2
).
11.3. CLASIFICACIN EN POBLACIONES NORMALES 215
11.3.3. Probabilidad de clasicacin errnea
La probabilidad de asignar x a
2
cuando proviene de `
j
(
1
. X) es
1(1(x) <0[
1
) = 1((1(x)
1
2
c),
_
c) = (
1
2
_
c).
donde (.) es la funcin de distribucin `(0. 1). La probabilidad de clasi-
cacin errnea es
jcc =
1
1(1(x) <0[
1
) +
2
1(1(x) 0[
2
) = (
1
2
_
c).
Por tanto jcc es una funcin decreciente de la distancia de Mahalanobis c
entre las dos poblaciones.
11.3.4. Discriminador cuadrtico
Supongamos
1
,=
2
. X
1
,= X
2
. Entonces el criterio de la mxima
verosimilitud proporciona el discriminador
Q(x) =
1
2
x
t
_
X
1
2
X
1
1
_
x +x
t
_
X
1
1

1
X
1
2

2
_
+
1
2

t
2
X
1
2

1
2

t
1
X
1
1

1
+
1
2
log [X
2
[
1
2
log [X
1
[ .
Q(x) es el discriminador cuadrtico. Anlogamente podemos obtener el dis-
criminador cuadrtico de Bayes
1(x) =Q(x) + log(
1
,
2
).
11.3.5. Clasicacin cuando los parmetros son esti-
mados
En las aplicaciones prcticas,
1
.
2
. X
1
. X
2
son desconocidos y se de-
bern estimar a partir de muestras de tamaos :
1
. :
2
de las dos poblaciones
sustituyendo
1
.
2
por los vectores de medias x
1
. x
2
. y X
1
. X
2
por las ma-
trices de covarianzas S
1
. S
2
. Si utilizamos el estimador lineal, entonces la
estimacin de X ser
S =(:
1
S
1
+:
2
S
2
),(:
1
+:
2
)
y la versin muestral del discriminador lineal es

1(x) = [x
1
2
(x
1
+x
2
)]
t
S
1
(x
1
x
2
) .
216 CAPTULO 11. ANLISIS DISCRIMINANTE
La distribucin muestral de

1(x) es bastante complicada, pero la distribucin


asinttica es normal:

1(x) es `(+
1
2
c. c) si x proviene de `
j
(
1
. X).

1(x) es `(
1
2
c.
1
2
c) si x proviene de `
j
(
2
. X).
donde c = (x
1
x
2
)
t
S
1
(x
1
x
2
) .
11.4. Ejemplo
Ejemplo 11.4.1 Coppodos.
Mytilicola intestinalis es un coppodo parsito del mejilln, que en estado
larval presenta diferentes estadios de crecimiento. El primer estadio (Nauplis)
y el segundo estadio (Metanauplius) son difciles de distinguir.
Sobre una muestra de :
1
= 76 y :
2
= 91 coppodos que se pudieron iden-
ticar al microscopio como del primero y segundo estadio respectivamente,
se midieron las variables
| = longitud, c = anchura,
y se obtuvieron las siguientes medias y matrices de covarianzas:
Estadio-1
x
1
= ( 219.5 138.1 )
S
1
=
_
409.9 1.316
1.316 306.2
_
Estadio-2
x
2
= ( 241.6 147.8 )
S
2
=
_
210.9 57.97
57.97 152.8
_
Discriminador lineal
La estimacin de la matriz de covarianzas comn es:
S = (:
1
S
1
+:
2
S
2
),(:
1
+:
2
) =
_
301.4 31.02
31.02 222.6
_
El discriminador lineal es:
1(long. anch) = [(long. anch)
1
2
(461.1. 285.9)]
_
301.4 31.02
31.02 222.6
_
1
_
22.1
9.7
_
= 0.069long 0.034anch + 20. 94
11.4. EJEMPLO 217
Figura 11.1: Discriminadores lineal y cuadrtico en la clasicacin de coppo-
dos en Estadios 1 y 2. La lnea recta es el conjunto de puntos tales que 1 = 0.
La parbola es el conjunto de puntos tales que Q = 0.
La tabla de clasicaciones es:
Estadio asignado
1 2
Estadio 1 61 15
original 2 21 70
Discriminador de Bayes
Una larva, desde que eclosiona est 4 horas en el estadio 1 y 8 horas
en el estadio 2. Al cabo de 12 horas, la larva pasa a un estadio fcilmente
identicable. Por tanto, una larva tiene, a priori, una probabilidad 4,12 = 1,3
de pertenecer al estadio 1 y una probabilidad 8,12 = 2,3 de pertenecer al
estadio 2. As
1
= 1,3.
2
= 2,3. y el discriminador de Bayes es
1(long. anch) = \ (long. anch) +log(1,2) = 0.069 long0.034 anch+20.24
218 CAPTULO 11. ANLISIS DISCRIMINANTE
Probabilidad de clasicacin errnea
Una estimacin de la distancia de Mahalanobis es
_
22.1 9.7
_
_
301.4 31.02
31.02 222.6
_
1
_
22.1
9.7
_
= 1.872.
La probabilidad de asignar una larva al estadio 1 cuando corresponde al
estadio 2 o al estadio 2 cuando corresponde al estadio 1 es
jcc = (
1
2
_
1.872) = (0.684) = 0.247.
Discriminador cuadrtico
El test de homogeneidad de covarianzas nos da:

2
= [1
13
18
(
1
75
+
1
90

1
165
)](1835.4 882.5 926. 32) = 26.22
con 3 g.l. Las diferencias entre las matrices de covarianzas son signicati-
vas. Por tanto, el discriminador cuadrtico puede resultar ms apropiado.
Efectuando clculos se obtiene:
Q(long. anch) = 0.0014 long
2
+ 0.002 anch
2
0.002 long anch
0.445 long 0.141 anch + 72.36
Con el clasicador cuadrtico se han clasicado bien 2 individuos ms (Fig.
11.1):
Estadio asignado
1 2
Estadio 1 59 17
original 2 17 74
11.5. Discriminacin en el caso de / pobla-
ciones
Supongamos ahora que el individuo . puede provenir de / poblaciones

1
.
2
. . . . .
I
. donde / _ 3. Es necesario establecer una regla que permita
asignar . a una de las / poblaciones sobre la base de las observaciones x =
(r
1
. r
2
. . . . . r
j
)
t
de j variables.
11.5. DISCRIMINACIN EN EL CASO DE 1 POBLACIONES 219
11.5.1. Discriminadores lineales
Supongamos que la media de las variables en
i
es
i
. y que la matriz de
covarianzas X es comn. Si consideramos las distancias de Mahalanobis de
. a las poblaciones
`
2
(x.
i
) = (x
i
)
t
X
1
(x
i
). i = 1. . . . . /.
un criterio de clasicacin consiste en asignar . a la poblacin ms prxima:
Si `
2
(x.
i
) = mn`
2
(x.
1
). . . . . `
2
(x.
I
). asignamos . a
i
.
(11.5)
Introduciendo las funciones discriminantes lineales
1
i)
(x) =
_

)
_
t
X
1
x
1
2
_

)
_
t
X
1
_

i
+
)
_
es fcil probar que (11.5) equivale a
Si 1
i)
(x) 0 para todo , ,= i. asignamos . a
i
.
Adems las funciones 1
i)
(x) verican:
1. 1
i)
(x) =
1
2
[`
2
(x.
)
) `
2
(x.
i
)].
2. 1
i)
(x) = 1
)i
(x) .
3. 1
vc
(x) = 1
ic
(x) 1
iv
(x) .
Es decir, slo necesitamos conocer / 1 funciones discriminantes.
11.5.2. Regla de la mxima verosimilitud
Sea ,
i
(x) la funcin de densidad de x en la poblacin
i
. Podemos obtener
una regla de clasicacin asignando . a la poblacin donde la verosimilitud
es ms grande:
Si ,
i
(x) = max,
1
(x). . . . . ,
I
(x). asignamos . a
i
.
Este criterio es ms general que el geomtrico y est asociado a las funciones
discriminantes
\
i)
(x) = log ,
i
(x) log ,
)
(x).
220 CAPTULO 11. ANLISIS DISCRIMINANTE
En el caso de normalidad multivariante y matriz de covarianzas comn, se
verica \
i)
(x) = 1
i)
(x). y los discriminadores mximo verosmiles coinciden
con los lineales. Pero si las matrices de covarianzas son diferentes X
1
. . . . . X
I
.
entonces este criterio dar lugar a los discriminadores cuadrticos
Q
i)
(x) =
1
2
x
t
_
X
1
)
X
1
i
_
x +x
t
_
X
1
i

1
X
1
)

2
_
+
1
2

t
)
X
1
)

1
2

t
i
X
1
i

i
+
1
2
log [X
)
[
1
2
log [X
i
[ .
11.5.3. Regla de Bayes
Si adems de las funciones de densidad ,
i
(x). se conocen las probabili-
dades a priori

1
= 1 (
1
) . . . . .
I
= 1 (
I
) .
la regla de Bayes que asigna . a la poblacin tal que la probabilidad a
posteriori es mxima
Si
i
,
i
(x) = max
1
,
1
(x). . . . .
I
,
I
(x). asignamos . a
i
.
est asociada a las funciones discriminantes
1
i)
(x) = log ,
i
(x) log ,
)
(x) + log(
i
,
)
).
Finalmente, si 1(,,i) es la probabilidad de asignar . a
)
cuando en realidad
es de
i
. la probabilidad de clasicacin errnea es
jcc =
I

i=1

i
_
I

),=i
1(,,i)
_
.
y se demuestra que la regla de Bayes minimiza esta pce.
11.6. Un ejemplo clsico
Continuando con el ejemplo 3.6.2, queremos clasicar a una de las 3 es-
pecies una or cuyas medidas son:
r
1
=6.8 r
2
=2.8 r
3
=4.8 r
4
=1.4
11.6. UN EJEMPLO CLSICO 221
La matriz de covarianzas comn es
o =
_
_
_
_
0.2650 0.0927 0.1675 0.0384
0.1154 0.05524 0.0327
0.18519 0.0426
0.0418
_
_
_
_
Las distancies de Mahalanobis (al cuadrado) entre las 3 poblaciones son:
Setosa Versicolor Virginica
Setosa 0 89.864 179.38
Versicolor 0 17.201
Virginica 0
Los discriminadores lineales son:
1
12
(r) =
1
2
[`
2
(r. r
2
) `
2
(r. r
1
)] .
1
13
(r) =
1
2
[`
2
(r. r
3
) `
2
(r. r
1
)] .
1
23
(r) = 1
13
(r) 1
12
(r). 1
21
(r) = 1
12
(r).
1
31
(r) = 1
13
(r). 1
32
(r) = 1
23
(r).
La regla de decisin consiste en asignar el individuo r a la poblacin i si
1
i)
(r) 0 \, ,= i.
Se obtiene:
Individuo 1
12
1
13
1
21
1
23
1
31
1
32
Poblacin
r 51.107 44.759 51.107 6.3484 44.759 6.3484 2
Por lo tanto clasicamos la or a la especie I. Versicolor.
Para estimar la probabilidad de clasicacin errnea pce podemos omitir
una vez cada individuo, clasicarlo a partir de los dems y observar si sale
bien clasicado (mtodo leaving-one-out). El resultado de este proceso da:
Poblacin asignada
1 2 3
Poblacin 1 50 0 0
original 2 0 48 2
3 0 1 49
Slo hay 3 individuos mal clasicados y la pce estimada es 3,150 = 0.02.
222 CAPTULO 11. ANLISIS DISCRIMINANTE
11.7. Complementos
El Anlisis Discriminante se inicia en 1936 con el trabajo de R.A. Fisher
sobre clasicacin de ores del gnero Iris. A. Wald y T.W. Anderson estu-
diaron las propiedades del discriminador lineal. L. Cavalli y C. A. B. Smith
introdujeron el discriminador cuadrtico.
J. A. Anderson, en diversos trabajos, estudi el modelo de discriminacin
logstico. Si denimos
(.. x) = 1(
1
,x) =
1
,
1
(x),(
1
,
1
(x) +
2
,
2
(x)).
la regla de clasicacin es
. es de
1
si (.. x) 1,2. de
2
en caso contrario.
Entonces el modelo logstico (modelo logit) supone
(.. x) =
1
1 +c
c+
0
x
= 1(c ,
t
x),
donde 1(.) = 1,(1+c
:
) es la llamada funcin de distribucin logstica. Este
modelo se estudia en el prximo captulo. Se pueden obtener otros modelos
cambiando 1. Por ejemplo, si escogemos la funcin de distribucin normal
estndar, entonces obtenemos el llamado modelo probit.
Captulo 12
DISCRIMINACIN
LOGSTICA Y OTRAS
12.1. Anlisis discriminante logstico
12.1.1. Introduccin
El modelo de regresin logstica permite estimar la probabilidad de un
suceso que depende de los valores de ciertas covariables.
Supongamos que un suceso (o evento) de inters puede presentarse o
no en cada uno de los individuos de una cierta poblacin. Consideremos una
variable binaria que toma los valores:
= 1 si se presenta, = 0 si no se presenta.
Si la probabilidad de no depende de otras variables, indicando 1() = j.
la verosimilitud de una nica observacin es
1 = j
j
(1 j)
1j
.
pues 1 = j si = 1. 1 = 1 j si = 0.
Si realizamos : pruebas independientes y observamos
1
. . . . .
a
, la verosimi-
litud es
1 =
a

i=1
j
j
i
(1 j)
1j
i
= j
I
(1 j)
aI
223
224 CAPTULO 12. DISCRIMINACIN LOGSTICA Y OTRAS
siendo / =

i
la frecuencia absoluta de en las : pruebas. Para estimar
j resolvemos la ecuacin de verosimilitud
J
Jj
ln 1 = 0
cuya solucin es j = /,:. la frecuencia relativa del suceso . La distribucin
asinttica de j es normal `(j. j(1 j),:).
Muy distinta es la estimacin cuando esta probabilidad depende de otras
variables. La probabilidad de debe entonces modelarse adecuadamente.
12.1.2. Modelo de regresin logstica
Supongamos ahora que la probabilidad j depende de los valores de ciertas
variables A
1
. . . . . A
j
. Es decir, si x = (r
1
. . . . . r
j
)
t
son las observaciones de
un cierto individuo . sobre las variables, entonces la probabilidad de acon-
tecer dado x es j( = 1[x). Indicaremos esta probabilidad por j(x). La
probabilidad contraria de que no suceda dado x ser j( = 0[x) = 1j(x).
Es fcil darse cuenta que pretender que j(x) sea una funcin lineal de x no
puede funcionar correctamente, pues j(x) est comprendido entre 0 y 1.
Por diversas razones, es muy conveniente suponer un modelo lineal para
la llamada transformacin logstica de la probabilidad
ln
_
j(x)
1 j(x)
_
= ,
0
+,
1
r
1
+ +,
j
r
j
= ,
0
+,
t
x. (12.1)
siendo , = (,
1
. . . . . ,
j
)
t
parmetros de regresin. El modelo (12.1) equivale a
suponer las siguientes probabilidades para y su contrario, ambas en funcin
de x
j(x) =
c
o
0
+o
0
x
1 +c
o
0
+o
0
x
. 1 j(x) =
1
1 +c
o
0
+o
0
x
.
Hagamos ahora una breve comparacin con el modelo lineal. El modelo
de regresin lineal (vase Captulo 13) es
= ,
0
+,
1
r
1
+ +,
j
r
j
+c.
donde se supone que es una variable respuesta cuantitativa y que c es un
error con media 0 y varianza o
2
. Usando la misma terminologa, podemos
entender el modelo logstico en el sentido de que
= j(x) +c.
12.1. ANLISIS DISCRIMINANTE LOGSTICO 225
donde ahora slo toma los valores 0 1. Si = 1 entonces c = 1j(x) con
probabilidad j(x). Si = 0 entonces c = j(x) con probabilidad 1 j(x).
De este modo, dado x. el error c tiene media 0 y varianza j(x)(1 j(x)).
Dado un individuo .. la regla de discriminacin logstica (suponiendo
los parmetros conocidos o estimados) simplemente decide que . posee la
caracterstica si j(x) 0.5. y no la posee si j(x) _ 0.5 Introduciendo la
funcin discriminante
1
j
(x) = ln
_
j(x)
1 j(x)
_
.
la regla de decisin logstica es
Si 1
j
(x) 0 entonces = 1. si 1
j
(x) _ 0 entonces = 0.
12.1.3. Estimacin de los parmetros
La verosimilitud de una observacin es 1 = j(x)
j
(1 j(x))
1j
. La
obtencin de : observaciones independientes
(
i
. x
i
) = (
i
. r
i1
. . . . . r
ij
)
se puede tabular matricialmente como
y =
_
_
_
_
_

2
.
.
.

a
_
_
_
_
_
. X =
_
_
_
_
_
1 r
11
r
12
r
1j
1 r
21
r
22
r
2j
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1 r
a1
r
a2
r
aj
_
_
_
_
_
.
Ntese que, para poder tener en cuenta el trmino constante ,
0
en el modelo,
la primera columna de X contiene unos.
La verosimilitud de : observaciones independientes es
1 =
a

i=1
j(x
i
)
j
i
(1 j(x
i
))
1j
i
Tomando logaritmos
ln 1 =
a

i=1

i
ln j(x
i
)(1 j(x))
1j
i
226 CAPTULO 12. DISCRIMINACIN LOGSTICA Y OTRAS
A n de hallar los estimadores mximo verosmiles de los parmetros , de-
beremos resolver las ecuaciones
J
J,
)
ln 1 = 0. , = 0. 1. . . . . j.
Se tiene ln j(x
i
) = ,
0
+,
1
x
i
ln(1 +c
o
0
+o
1
x
i
), luego
0
0o
0
ln j(x
i
) = 1
c

0
+
0
x
i
1+c

0
+
0
x
i
= 1 j(x
i
)
0
0o
j
ln j(x
i
) = r
i)
r
i)
c

0
+
0
x
1+c

0
+
0
x
i
= r
i)
(1 j(x
i
))
Anlogamente derivaramos ln(1 j(x
i
)) = ln(1 + c
o
0
+o
1
x
i
). Se obtienen
entonces las ecuaciones de verosimilitud para estimar los parmetros ,.

a
i=1
(
i
j(x
i
)) = 0.

a
i=1
r
i)
(
i
j(x
i
)) = 0. , = 1. . . . . j.
(12.2)
Utilizando el vector y. la matriz X y el vector de probabilidades :(X) =
(j(x
1
) . . . . j(x
a
))
t
. estas ecuaciones se pueden escribir como
X
t
:(X) = X
t
y.
siendo comparables con las ecuaciones normales (Captulo 13) X
t
X, = X
t
.
para estimar los parmetros , del modelo lineal y = X,+o. salvo que ahora
el modelo X, es :(X). que depende de ,. Sin embargo las ecuaciones (12.2)
no se pueden resolver explcitamente, debindose recurrir a procedimientos
numricos iterativos. Vase Pea (2002).
12.1.4. Distribucin asinttica y test de Wald
Indiquemos por

d = (

,
0
.

,
1
. . . . .

,
j
)
t
la estimacin de los parmetros.
Aplicando la teora asinttica de los estimadores mximo verosmiles, la ma-
triz de informacin de Fisher es I
o
= X
t
YX. siendo
Y =
_

_
j(x
1
)(1 j(x
1
)) 0
.
.
.
.
.
.
.
.
.
0 j(x
a
)(1 j(x
a
))
_

_
.
La distribucin asinttica de

d es normal multivariante `
j+1
(d . I
1
o
). En par-
ticular, la distribucin asinttica del parmetro

,
i
es normal `(,
i
.var(

,
i
)).
12.1. ANLISIS DISCRIMINANTE LOGSTICO 227
donde var(

,
i
) es el correspondiente elemento diagonal de la matriz inversa
I
1
o
.
El llamado test de Wald para la signicacin de ,
i
utiliza el estadstico
. =

,
i
,
_
var(

,
i
).
con distribucin asinttica `(0. 1). o bien .
2
con distribucin ji-cuadrado
con 1 g. l.
Si se desea estudiar la signicacin de todos los parmetros de regresin,
el test de Wald calcula
n =

d
t
I
o

d.
con distribucin asinttica ji-cuadrado con j + 1 g. l. bajo la hiptesis nula
d = 0.
12.1.5. Ajuste del modelo
En regresin logstica se obtiene el ajuste del modelo calculando la verosimi-
litud 1 del modelo (estimando los parmetros por mxima verosimilitud) y
utilizando el llamado estadstico de desviacin:
1 = 2 ln 1(modelo de regresin).
Se puede interpretar 1 como menos dos veces la razn de verosimilitudes del
modelo ajustado y el modelo saturado
1 = 2 ln
1(modelo de regresin)
1(modelo saturado)
.
El modelo saturado es el que posee tantos parmetros como observaciones.
En nuestro caso
1(modelo saturado) =
a

i=1

i
j
i
(1
i
)
1j
i
)
= 1.
Supongamos ahora que deseamos estudiar la signicacin de una o varias
covariables. En particular, la signicacin de un coeciente de regresin: H
0
:
,
i
= 0. Utilizando la desviacin 1 calcularemos
G = 1 (modelo sin las variables) 1(modelo con las variables)
= 2 ln
1(modelo sin las variables)
1(modelo con las variables)
.
228 CAPTULO 12. DISCRIMINACIN LOGSTICA Y OTRAS
Figura 12.1: Curva ROC que representa las curvas 1-Especicidad y Sensi-
bilidad. La curva 2 indicara que los datos poseen mejor capacidad de dis-
criminacin que la curva 1.
Si queremos estudiar la signicacin de / variables, entonces la distribucin
asinttica de G es ji-cuadrado con / g. l. En particular / = 1 si slo estudi-
amos la signicacin de una variable.
12.1.6. Curva ROC
Supongamos que la poblacin consiste en individuos que poseen un tumor,
el cual puede ser maligno (suceso ), o benigno (contrario de ). La regla
de discriminacin logstica
Si j(x) 0.5 decidimos que = 1
puede resultar insuciente en este caso, pues bastantes individuos podran
ser clasicados como tumor benigno siendo maligno.
Se llama sensibilidad a la curva
oc(t) = 1(j(x) t[ = 1). 0 _ t _ 1.
Variando t. la curva oc va dando la proporcin de individuos a los que se
detecta tumor maligno. Para t = 0 todos los individuos resultaran malignos,
y para t = 1 todos resultaran benignos.
12.1. ANLISIS DISCRIMINANTE LOGSTICO 229
Se llama especicidad a la curva
1:(t) = 1(j(x) < t[ = 0). 0 _ t _ 1.
Variando t. la curva 1: va dando la proporcin de individuos a los que se
detecta tumor benigno. Para t = 0 todos los individuos resultaran benignos,
y para t = 1 todos resultaran malignos. Es un problema importante en
diagnosis mdica determinar el valor de corte t tal que detecte el mayor
nmero de tumores malignos, sin cometer demasiados errores (decidir que es
maligno cuando en realidad es benigno).
La curva ROC (Receiving Operating Characteristic) resume las dos curvas
de sensibilidad y especicidad. Es la curva que resulta de representar los
puntos
(1 1:(t). oc(t)) 0 _ t _ 1.
es decir, 1-Especicidad en el eje OX, y la Sensibilidad en el eje OY. La curva
ROC est por encima de la diagonal, y cuanto ms se aparta de la diagonal,
mejor es la discriminacin (Figura 12.1).
En el caso de que la curva coincida con la diagonal, se tiene que
oc(t) = 1(j(x) t[ = 1) = 1 1:(t) = 1(j(x) t[ = 0).
Entonces no es posible distinguir entre las dos poblaciones. Es decir, ten-
dramos que la funcin discriminante logstica 1
j
(x) = ln[j(x),(1 j(x))]
tiene exactamente la misma distribucin tanto si = 1 como si = 0.
El rea bajo la curva ROC es siempre mayor o igual que 0.5. Un valor
a partir de 0.8 se considera como que la discriminacin es buena. Un valor
a partir de 0.9 se considerara como muy bueno. La discriminacin sera
perfecta si el rea vale 1. Vase Hosmer y Lemeshow (2000).
Ejemplo 12.1.1 Bebs.
En un estudio epidemiolgico sobre : = 189 mujeres que han tenido un
beb, se intent estudiar las causas (edad, peso antes embarazo, fumar, etc.)
que provocan el nacimiento de un beb prematuro. Se considera que un beb
es prematuro si su peso est por debajo de los 2500 gramos. Visitando la
pgina web
http://www.umass.edu/statdata/statdata/
230 CAPTULO 12. DISCRIMINACIN LOGSTICA Y OTRAS
(Data sets, Regression-Logistic) se puede bajar el archivo Low Birth-
weight. Consideramos LOW como variable dependiente (0 si peso mayor
2500gr, 1 si menor que 2500gr) y las variables predictoras Edad, Peso (peso
de la madre), Raza (1=blanco, 2=negro, 3=otros), Fumadora (0=no fuma,
1=fuma), Visitas (nmero de visitas al mdico durante el primer trimestre).
En el archivo original las variables se denominan: age, weight, race, smoke,
visits.
Las estimaciones de los parmetros ,
0
. ,
1
. . . ., sus desviaciones tpicas
y el estadstico de Wald se dan en el siguiente cuadro. La variable Raza
(categrica con 3 estados), se desglosa en 2 variables binarias.
Variable , ST(,). Wald g. l. j
Edad 0.022 0.035 0.41 1 0.622
Peso 0. 012 0.006 3.76 1 0.052
Raza 7.79 2 0.020
Raza_1 0.94 0.41 5.07 1 0.024
Raza_2 0.29 0.52 0.30 1 0.583
Fumadora 1.05 0.38 7.64 1 0.006
Visitas 0.008 0. 16 0.002 1 0.963
Constante 0.79 0.15 25.3 1 0.000
1 = 2log(verosim) 214.57
Con el modelo considerando el trmino constante y 5 variables (Edad,
Peso, Raza, Fumadora, Visitas), obtenemos 1 = 2 ln(modelo) = 214.575.
Considerando el trmino constante y 3 variables (Peso, Raza, Fumadora),
obtenemos 1 = 2 ln(modelo) = 215.05. La diferencia entre las dos desvia-
ciones 215.05 214.575 = 0.475 es ji-cuadrado con 3 g. l., no signicativo.
Luego no hay ventaja en incluir las variables Edad y Nmero de visitas.
La regla estndar de decisin en regresin logstica es:
Si j(r) 0. 5 el beb tiene el peso bajo, en caso contrario es normal.
El valor de corte 0. 5 se puede alterar para mejorar la Sensibilidad (detectar
un beb con peso bajo) o la Especicidad (detectar un beb con peso normal).
En la siguiente tabla vemos que si disminuye el punto de corte, detectamos
12.1. ANLISIS DISCRIMINANTE LOGSTICO 231
ms bebs de bajo peso, pero menos de peso normal.
Corte % Normales pred. % Peso bajo pred.
0,1 9,2 100
0,3 50,0 76,3
0,5 93,8 15,3
0,7 100 1,7
0,9 100 0
La curva ROC es el grco conjunto de 1-Especicidad (eje horizontal) y
la Sensibilidad (eje vertical), variando la probabilidad de corte. La diagonal
indicara empate (no se distingue entre beb de bajo peso y beb normal).
El rea bajo la curva ROC es 0. 5 en el peor de los casos (que la curva ROC
coincida con la diagonal). En este ejemplo (Figura 12.2) el rea vale 0. 684.
indicando que el modelo posee una capacidad de prediccin moderada.
Figura 12.2: Curva ROC que representa la Sensibilidad frente a
1Especicidad, para los datos de bebs con bajo peso.
232 CAPTULO 12. DISCRIMINACIN LOGSTICA Y OTRAS
12.1.7. Comparacin entre discriminador lineal y logs-
tico
En el modelo logstico conocemos la probabilidad j(x) de = 1 dados los
valores x
j(x) =
c
o
0
+o
0
x
1 +c
o
0
+o
0
x
Bajo normalidad `
j
(
1
. X). `
j
(
0
. X) con probabilidades a priori
1
=

0
= 1,2. y utilizando el discriminador lineal, la probabilidad de = 1 (es
decir, de la poblacin `
j
(
1
. X)) dado x es
1( = 1[x) =
,
1
(x)
,
1
(x) +,
0
(x)
=
c

1
2
(x
1
)
0

1
(x
1
)
c

1
2
(x
1
)
0

1
(x
1
)
+c

1
2
(x
0
)
0

1
(x
0
)
.
Multiplicando numerador y denominador por c
1
2
(x
0
)
0

1
(x
0
)
y tenien-
do en cuenta que
1
2
(x
1
)
t
X
1
(x
1
) +
1
2
(x
0
)
t
X
1
(x
0
) = 1(x).
donde
1(x) =
_
x
1
2
(
0
+
1
)
_
t
X
1
(
0

1
)
es el discriminador lineal, vemos que
1( = 1[x) =
c
1(x)
1 +c
1(x)
.
Puesto que 1(r) = ,
0
+d
t
x siendo
,
0
=
1
2
(
1
+
0
)
t
X
1
(
1

0
) . d = X
1
(
1

0
) .
conseguimos obtener el modelo logstico a partir del discriminador lineal. Sin
embargo, el modelo normal es ms eciente. En realidad el modelo logstico
sirve para la clase de distribuciones pertenecientes a la familia exponencial,
que incluye la normal. Al ser el logstico un modelo ms amplio y robusto,
pierde en eciencia.
Efron (1975) calcul analticamente la eciencia relativa (cociente entre
las probabilidades de clasicacin errnea) del modelo logstico respecto al
lineal normal. La eciencia relativa asinttica es una funcin de
_
c siendo
c la distancia de Mahalanobis entre las dos poblaciones:
c = (
1

0
)
t
X
1
(
1

0
).
12.2. ANLISIS DISCRIMINANTE BASADO EN DISTANCIAS 233
Para
1
=
0
= 1,2 (el caso ms favorable para el discriminante logstico),
la eciencia es la misma (vale 1), para valores muy pequeos de c. y decrece
hasta 0.343 para c = 16 (la probabilidad de error en el caso logstico es tres
veces mayor que en el normal si c es grande). Los valores son:
_
c 0 0.5 1 1.5 2 2.5 3 3.5 4
Eciencia 1.000 1.000 .995 .968 .899 .786 .641 .486 .343
Continuando con el ejemplo 11.4.1, el discriminador lineal (suponiendo
normalidad e igualdad de matrices de covarianzas) es:
1(long,anch) = 0.069 long 0.034 anch + 20.94
En este ejemplo
_
c =
_
1.872 = 1.368. La eciencia del discriminador logs-
tico con respecto al lineal normal es del orden de 0.98.
Aplicando el modelo logstico, se obtiene
Variable , ST(,) Wald g. l. j valor
Amplitud 0. 069 0. 012 31. 21 1 0. 000
Anchura 0. 031 0. 013 5. 859 1 0. 015
Constante 20. 23 3. 277 38. 15 1 0. 000
1 = 2log(verosim) 167. 12
Las probabilidades de que un coppodo con longitud | y anchura c pertenezca
al estadio 1 y al estadio 2 son, respectivamente:
1
1 +c
20.23+0.069|+0.031o
.
c
20.23+0.069|+0.031o
1 +c
20.23+0.069|+0.031o
Por ejemplo, si | = 248. c = 160. entonces las probabilidades son 0.136 y
0.863. y el coppodo sera asignado al estadio 2. Los resultados prcticamente
coinciden con el discriminador lineal (Figura 12.3).
12.2. Anlisis discriminante basado en dis-
tancias
Los mtodos que hemos descrito funcionan bien con variables cuantitati-
vas o cuando se conoce la densidad. Pero a menudo las variables son binarias,
categricas o mixtas. Aceptando y aplicando el principio de que siempre es
posible denir una distancia entre observaciones, es posible dar una versin
del anlisis discriminante utilizando solamente distancias.
234 CAPTULO 12. DISCRIMINACIN LOGSTICA Y OTRAS
Figura 12.3: Curvas ROC para el discriminador lineal y el logstico (izquier-
da). Ambas curvas son indistinguibles (derecha), indicando la misma ecien-
cia para discriminar entre los dos estadios. El rea bajo la curva ROC es
0,838.
12.2.1. La funcin de proximidad
Sea una poblacin, X un vector aleatorio con valores en 1 1
j
y
densidad , (r
1
. .... r
j
) . Sea o una funcin de distancia entre las observaciones
de X. Denimos la variabilidad geomtrica como la cantidad
\
c
(X) =
1
2
_
1
o
2
(x. y) ,(x),(y)dxdy
\
c
(X) es el valor esperado de las distancias (al cuadrado) entre observaciones
independientes de X.
Sea . un individuo de , y x =(r
1
. .... r
j
)
t
las observaciones de X sobre
.. Denimos la funcin de proximidad de . a en relacin con X como la
funcin
c
2
c
(x) = 1
_
o
2
(x. X)

\
c
(X) =
_
1
o
2
(x. t),(t)dt\
c
(X) . (12.3)
c
2
c
(x) es la media de las distancias de x. que es ja, a t. que vara aleato-
riamente, menos la variabilidad geomtrica.
12.2. ANLISIS DISCRIMINANTE BASADO EN DISTANCIAS 235
Teorema 12.2.1 Supongamos que existe una representacin de (1. o) en un
espacio 1 (Eucldeo o de Hilbert)
(1. o) 1
con un producto escalar < .. . y una norma |z|
2
=< z. z , tal que
o
2
(x. y) = | (x) (y)|
2
.
donde (x) . (y) 1 son las imgenes de x. y. Se verica:
\
c
(X) = 1(| (X)|
2
) |1( (X))|
2
.
c
2
c
(x) = | (x) 1( (X))|
2
.
En consecuencia, podemos armar que la variabilidad geomtrica es una
varianza generalizada, y que la funcin de proximidad mide la distancia de
un individuo a la poblacin.
12.2.2. La regla discriminante DB
Sean
1
.
2
dos poblaciones, o una funcin distancia. o es formalmente la
misma en cada poblacin, pero puede tener diferentes versiones o
1
. o
2
, cuan-
do estemos en
1
.
2
, respectivamente. Por ejemplo, si las poblaciones son
normales `
j
(
i
. X
i
) . i = 1. 2. y consideramos las distancias de Mahalanobis
o
2
i
(x. y) = (x y)
t
X
1
i
(x y) . i = 1. 2.
lo nico que cambia es la matriz . Debe quedar claro que o depende del
vector aleatorio X, que en general tendr diferente distribucin en
1
y
2
.
Seguidamente, mediante (12.3), encontraremos las funciones de proxi-
midad c
2
1
. c
2
2
, correspondientes a
1
.
2
. Sea . un individuo que queremos
clasicar, con valores x = X(.).
La regla de clasicacin basada en distancias (DB, distance-based) es:
Si c
2
1
(x) _ c
2
2
(x) asignamos . a
1
.
en caso contrario asignamos . a
2
.
Teniendo en cuenta el Teorema 12.2.1, se cumple
c
2
i
(x) = | (x) 1

i
( (X))|
2
. i = 1. 2.
y por tanto la regla DB asigna . a la poblacin ms prxima. La regla DB
solamente depende de las distancias entre individuos.
236 CAPTULO 12. DISCRIMINACIN LOGSTICA Y OTRAS
12.2.3. La regla DB comparada con otras
Los discriminadores lineal y cuadrtico son casos particulares de la regla
DB.
1. Si las poblaciones son `
j
(
1
. X
1
) . `
j
(
2
. X
2
) y o
2
es la distancia de
Mahalanobis entre observaciones o
2
(x. y) = (x y)
t
X
1
(x y) . en-
tonces las funciones de proximidad son
c
2
i
(x) = (x
i
)
t
X
1
(x
i
)
y el discriminador lineal es
1(x) =
1
2
_
c
2
2
(x) c
2
1
(x)

.
2. Si las poblaciones son `
j
(
1
. X
1
) . `
j
(
2
. X
2
) y o
2
i
es la distancia de
Mahalanobis ms una constante
o
2
i
(x. y) = (x y)
t
X
1
i
(x y) + log [X
i
[ ,2 x ,= y.
= 0 x = y.
entonces el discriminador cuadrtico es
Q(x) =
1
2
_
c
2
2
(x) c
2
1
(x)

.
3. Si o es la distancia eucldea ordinaria entre observaciones, la regla DB
equivale a utilizar el discriminador
1 (x) = [x
1
2
(
1
+
2
)]
t
(
1

2
) . (12.4)
conocido como discriminador Eucldeo. 1 (x) es til en determinadas
circunstancias, por ejemplo, cuando la cantidad de variables es grande
en relacin al nmero de individuos, pues tiene la ventaja sobre 1(x)
de que no necesita calcular la inversa de X.
12.2.4. La regla DB en el caso de muestras
En las aplicaciones prcticas, no se dispone de las densidades ,
1
(x). ,
2
(x).
sino de dos muestras de tamaos :
1
. :
2
de las variables X =(A
1
. .... A
j
) en
las poblaciones
1
.
2
. Sea
1
= (o
i)
(1)) la matriz :
1
:
1
de distancias
12.2. ANLISIS DISCRIMINANTE BASADO EN DISTANCIAS 237
entre las muestras de la primera poblacin, y
2
= (o
i)
(2)) la matriz :
2
:
2
de distancias entre las muestras de la segunda poblacin. Indicamos (las
representaciones eucldeas de las muestras) por
x
1
. x
2
. .... x
a
1
muestra de
1
.
y
1
. y
2
. .... y
a
2
muestra de
2
.
(12.5)
es decir, o
i)
(1) = o
1
(x
i
. x
)
). o
i)
(2) = o
1
(y
i
. y
)
).
Las estimaciones de las variabilidades geomtricas son:

\
1
=
1
2:
2
1
a
1

i,)=1
o
2
i)
(1) .

\
2
=
1
2:
2
2
a
2

i,)=1
o
2
i)
(2).
Sea . un individuo, o
i
(1). i = 1. . . . . :
1
. las distancias a los :
1
individuos
de
1
y o
i
(2). i = 1. . . . . :
2
. las distancias a los :
2
individuos de
2
. Si x son
las coordenadas (convencionales) de . cuando suponemos que es de
1
. y
anlogamente y. las estimaciones de las funciones de proximidad son

c
2
1
(x) =
1
:
1
a
1

i=1
o
2
i
(1)

\
1
.

c
2
2
(y) =
1
:
2
a
2

i=1
o
2
i
(2)

\
2
.
La regla DB en el caso de muestras es
Si

c
2
1
(x) _

c
2
2
(y) asignamos . a
1
.
en caso contrario asignamos . a
2
.
Esta regla solamente depende de distancias entre observaciones y es preciso
insistir en que el conocimiento de x. y, no es necesario. La regla DB clasica
. a la poblacin ms prxima:
Teorema 12.2.2 Supongamos que podemos representar . y las dos muestras
en dos espacios eucldeos (posiblemente diferentes)
x. x
1
. x
2
. .... x
a
1
1
j
. y. y
1
. y
2
. .... y
a
2
1
q
.
respectivamente. Entonces se cumple

c
2
1
(x) = d
2
1
(x.x) .

c
2
2
(y) = d
2
1
(y.y) .
donde x. y son los centroides de las representaciones eucldeas de las mues-
tras.
238 CAPTULO 12. DISCRIMINACIN LOGSTICA Y OTRAS
Demost.: Consideremos x. x
1
. x
2
. .... x
a
. x= (

a
i=1
x
i
),:. Por un lado
1
a
a

i=1
d
2
(x
i
. x) =
1
a
a

i=1
(x
i
x)
t
(x
i
x)
=
1
a
a

i=1
x
t
i
x
i
+x
t
x2x
t
x.
Por otro lado
1
2a
2
a

i,)=1
d
2
(x
i
. x
)
) =
1
2a
2
a

i,)=1
(x
i
x
)
)
t
(x
i
x
)
)
=
1
a
a

i=1
x
t
i
x
i
x
t
x.
Restando

c
2
(x) = x
t
x+x
t
x2x
t
x =d
2
1
(x.x) .
Ejemplo 12.2.1 Diagnosis.
Krzanowski (1975) ilustra el llamado location model para llevar a cabo
anlisis discriminante con variables mixtas (cuantitativas, binarias, categri-
cas). Los datos describen un grupo de 137 mujeres, 76 con tumor benigno
y 59 con tumor maligno, con respecto a 7 variables cuantitativas, 2 binarias
y 2 categricas (con tres estados cada una). Vase Krzanowski (1980) para
una descripcin de los datos.
Tomando los 137 casos, se calcula el nmero de individuos mal clasica-
dos utilizando el discriminador lineal LDF (11.2), el discriminador eucldeo
(12.4), el location model LM (que consiste en ajustar un discriminador
lineal para cada combinacin de las variables categricas) y el discriminador
basado en distancias DB, utilizando el coeciente de similaridad de Gower
(8.12) para variables mixtas y transformndolo en distancia mediante (8.8).
Los resultados estn contenidos en la siguiente tabla. Con el mtodo DB se
clasican equivocadamente slo 39 mujeres.
Tumor Benigno Maligno Total
Casos 78 59 137
LDF 31 27 58
EDF 29 37 56
LM 21 24 45
DB 18 21 39
12.3. COMPLEMENTOS 239
Para otros ejemplos con datos categricos o mixtos, vase Cuadras (1992b).
12.3. Complementos
Albert y Anderson (1984) probaron que en el modelo logstico, los esti-
madores mximo verosmiles de los parmetros no existen si hay completa
separacin de las muestras de las dos poblaciones. Adems, si las muestras es-
tn muy diferenciadas, las estimaciones de los parmetros no funcionan. Por
ejemplo, en el caso de los datos de ores del gnero Iris, (vase Tabla 3.2),
las estimaciones resultan demasiado grandes y no son correctas. Longford
(1994) estudi la funcin de verosimilitud en el modelo de regresin logstica
con coecientes de regresin aleatorios.
Existen otros mtodos de anlisis discriminante, algunos no-paramtricos,
otros para variables mixtas, como el mtodo del ncleo, del vecino ms pr-
ximo, el basado en el location model de Krzanowski (1975), etc. Consltese
McLachlan (1992).
Los mtodos de anlisis discriminante basados en distancias pueden abor-
dar todo tipo de datos y han sido estudiados por Cuadras (1989, 1992b, 2008)
y Cuadras et al. (1997). Permiten mejorar la ordenacin y formacin de clus-
ters, vase Anderson y Willis (2003) y De Cceres et al. (2006).
Dadas dos poblaciones `
j
(
1
. X) y `
j
(
2
. X). el problema de la tipi-
calidad consiste en decidir si una observacin x proviene de la mixtura
`
j
(c
1
+ (1 c)
2
. X). 0 _ c _ 1. o de una tercera poblacin `
j
(
3
. X).
Por ejemplo, en una prospeccin arqueolgica puede interesar averiguar si
un crneo pertenece a un mismo grupo humano (en el que hay hombres y
mujeres), o bien a otro grupo distinto. Este problema ha sido estudiado por
Rao (1973) y Bar-Hen y Daudin (1997) para datos normales. Para datos en
general se puede abordar tambin mediante distancias, vase Cuadras y For-
tiana (2000). El caso de varias poblaciones ha sido estudiado por Bar-Hen
(2001) e Irigoien y Arenas (2008). En Jauregui et al. (2011) se lleva a cabo
una interesante aplicacin a la robtica.
240 CAPTULO 12. DISCRIMINACIN LOGSTICA Y OTRAS
Captulo 13
EL MODELO LINEAL
13.1. El modelo lineal
Supongamos que una variable observable 1 depende de varias variables
explicativas (caso de la regresin mltiple), o que ha sido observada en dife-
rentes situaciones experimentales (caso del anlisis de la varianza). Entonces
tendremos : observaciones de 1 , que en muchas situaciones aplicadas, se
ajustan a un modelo lineal

i
= r
i1
,
1
+r
i2
,
2
+ +r
in
,
n
+c
i
. i = 1. . . . . :. (13.1)
que en notacin matricial es
_
_
_
_
_

2
.
.
.

a
_
_
_
_
_
=
_
_
_
_
_
r
11
r
12
r
1n
r
21
r
22
r
2n
.
.
.
.
.
.
.
.
.
.
.
.
r
a1
r
a2
r
an
_
_
_
_
_
_
_
_
_
_
,
1
,
2
.
.
.
,
n
_
_
_
_
_
+
_
_
_
_
_
c
1
c
2
.
.
.
c
a
_
_
_
_
_
.
Los elementos que intervienen en el modelo lineal son:
1. El vector de observaciones:
y = (
1
.
2
. . . . .
a
)
t
.
2. El vector de parmetros:
d = (,
1
. ,
2
. . . . . ,
n
)
t
.
241
242 CAPTULO 13. EL MODELO LINEAL
3. La matriz de diseo:
X =
_
_
_
_
_
r
11
r
12
r
1n
r
21
r
22
r
2n
.
.
.
r
a1
r
a2
r
an
_
_
_
_
_
.
4. El vector de desviaciones aleatorias:
o = (c
1
. c
2
. . . . . c
a
)
t
La notacin matricial compacta del modelo es:
y = Xd +o.
Solamente y y X son conocidas. En los modelos de regresin, X contiene
las observaciones de : variables explicativas. En los modelos de anlisis de
la varianza, X contiene los valores 0. 1 1. segn el tipo de diseo experi-
mental que siguen los datos.
13.2. Suposiciones bsicas del modelo
Supongamos que las desviaciones aleatorias o errores c
i
del modelo lineal
se asimilan a : variables aleatorias con media 0, incorrelacionadas y con
varianza comn o
2
. es decir, satisfacen:
1. 1(c
i
) = 0. i = 1. . . . . :.
2. 1(c
i
c
)
) = 0. i ,= , = 1. . . . . :.
3. var(c
i
) = o
2
. i = 1. . . . . :.
Estas condiciones equivalen a decir que el vector de medias y la matriz
de covarianzas del vector o = (c
1
. c
2
. . . . . c
a
)
t
son:
1(o) = 0. X
c
= o
2
I
a
.
Si podemos suponer que los errores son normales y estocsticamente in-
dependientes, entonces estamos ante un modelo lineal normal
y ~`
a
(Xd.o
2
I
a
).
El valor : = rango(X) es el rango del diseo. Se verica : _ : y cuando
: = : se dice que es un modelo de rango mximo.
13.3. ESTIMACIN DE PARMETROS 243
13.3. Estimacin de parmetros
13.3.1. Parmetros de regresin
La estimacin de los parmetros d = (,
1
. . . . . ,
n
)
t
en funcin de las
observaciones y = (
1
. . . . .
a
)
t
. se plantea mediante el criterio de los mnimos
cuadrados (LS, least squares). Se desea encontrar

d = (

,
1
. . . . .

,
n
)
t
tal que
o
t
o = (y Xd)
t
(y Xd) =
a

i=1
(
i
r
i1
,
1
. . . r
in
,
n
)
2
(13.2)
sea mnimo.
Teorema 13.3.1 Toda estimacin LS de d es solucin de las ecuaciones
X
t
Xd = X
t
y (13.3)
denominadas ecuaciones normales del modelo.
Demost.:
o
t
o =(y Xd)
t
(y Xd) = y
t
y2d
t
X
t
y+2dX
t
Xd.
Derivando vectorialmente respecto de d e igualando a cero
J
Jd
o
t
o = 2X
t
y+2X
t
Xd = 0
obtenemos (13.3).
Distinguiremos dos casos segn el rango del diseo.
a) : = :. Entonces la estimacin de d es nica:

d = (X
t
X)
1
X
t
y. (13.4)
b) : < :. Cuando el diseo no es de rango mximo una solucin es

d = (X
t
X)

X
t
y.
donde (X
t
X)

es una inversa generalizada de X


t
X.
La suma de cuadrados residual de la estimacin de d es
1
2
0
= (y X

d)
t
(y X

d) =
a

i=1
(
i

i
)
2
.
siendo

i
= r
i1

,
1
+ +r
in

,
n
.
244 CAPTULO 13. EL MODELO LINEAL
13.3.2. Varianza
La varianza comn de los trminos de error, o
2
=var(c
i
). es el otro
parmetro que debemos estimar en funcin de las observaciones y = (
1
. . . . .
a
)
t
y de X. En esta estimacin interviene de manera destacada la suma de
cuadrados residual.
Lema 13.3.2 Sea C
v
(X) el subespacio de 1
a
de dimensin : generado por
las columnas de X. Entonces 1(y) = Xd C
v
(X) y o= y X

d es ortogonal
a C
v
(X).
Demost.: Por las ecuaciones normales
X
t
o = X
t
(y X

d) = X
t
y X
t
X

d = 0.
Teorema 13.3.3 Sea y = Xd +o el modelo lineal donde o satisface las su-
posiciones bsicas del modelo (Seccin 13.2). Entonces el estadstico
o
2
= 1
2
0
,(: :).
siendo 1
2
0
la suma de cuadrados residual y : = rango(X) el rango del modelo,
es un estimador insesgado de o
2
.
Demost.: Sea T = [t
1
. . . . . t
v
. t
v+1
. . . . . t
a
] una matriz ortogonal tal que sus
columnas formen una base ortonormal de 1
a
. de manera que las : primeras
generen el subespacio C
v
(X) y por tanto las otras : : sean ortogonales a
C
v
(X). Denimos z = T
t
y. Entonces z =(.
1
. . . . . .
a
)
t
verica
1(.
i
) = t
t
i
Xd = j
i
si i _ :.
= 0 si i :.
pues t
i
es ortogonal a C
v
(X) si i :. Consideremos o= y X

d. Entonces
T
t
o= z T
t
X

d. donde las : primeras componentes de T


t
o son cero (por el
lema anterior) y las :: componentes de T
t
X

d son tambin cero. Por tanto


T
t
o es
T
t
o = (0. . . . . 0. .
v+1
. . . . . .
a
)
t
y en consecuencia
1
2
0
= o
t
o = o
t
TT
t
o =
a

i=v+1
.
2
i
.
13.4. ALGUNOS MODELOS LINEALES 245
La matriz de covarianzas de y es o
2
I
a
. y por ser T ortogonal, la de z es
tambin o
2
I
a
. As
1(.
i
) = 0. 1(.
2
i
) = var(.
i
) = o
2
. i :.
y por tanto
1(1
2
c
) =
a

i=v+1
1(.
2
i
) = (: :)o
2
.
Bajo el modelo lineal normal, la estimacin de d es estocsticamente
independiente de la estimacin de o
2
, que sigue la distribucin ji-cuadrado.
Teorema 13.3.4 Sea y ~`
a
(Xd.o
2
I
a
) el modelo lineal normal de rango
mximo : = rango(X). Se verica:
1. La estimacin LS de d es tambin la estimacin mximo verosmil de
d. Esta estimacin es adems insesgada y de varianza mnima.
2.

d ~ `
n
(d. o
2
(X
t
X)
1
).
3. l = (

d d)
t
X
t
X(

d d),o
2
~
2
n
.
4.

d es estocsticamente independiente de 1
2
0
.
5. 1
2
0
,o
2
~
2
an
.
En general, si : =rango(X) _ :. se cumple que 1
2
0
,o
2
sigue la distribu-
cin
2
av
. Vase el Teorema 13.5.1.
13.4. Algunos modelos lineales
13.4.1. Regresin mltiple
El modelo de regresin mltiple de una variable respuesta 1 sobre :
variables explicativas A
1
. . . . . A
n
es

i
= ,
0
+r
i1
,
1
+ +r
in
,
n
+c
i
. i = 1. . . . . :. (13.5)
246 CAPTULO 13. EL MODELO LINEAL
donde
i
es la i-sima observacin de 1. y r
i1
. . . . . r
in
son las i-simas obser-
vaciones de las variables explicativas. La matriz de diseo es
X =
_
_
_
_
_
1 r
11
r
1n
1 r
21
r
2n
.
.
.
.
.
.
.
.
.
.
.
.
1 r
a1
r
an
_
_
_
_
_
.
13.4.2. Diseo de un factor
Supongamos que una variable observable 1 ha sido observada en / condi-
ciones experimentales diferentes, y que disponemos de :
i
rplicas (observa-
ciones independientes de 1 )
i1
. . . . .
ia
i
bajo la condicin experimental i. El
modelo es

iI
= j +c
i
+c
iI
. i = 1. . . . ./; / = 1. . . . .:
i
. (13.6)
donde j es la media general y c
i
es el efecto aditivo de la condicin i. Las
desviaciones aleatorias c
iI
se suponen normales independientes. En el modelo
(13.6), se supone la restriccin lineal
c
1
+ +c
I
= 0.
y por tanto cabe considerar solamente los parmetros j. c
1
. . . . .c
I1
. Por
ejemplo, si / = 3. :
1
= :
2
= 2. :
3
= 3. las matrices de diseo inicial X (de
rango : = 3 < : = 4) y restringida

X (de rango mximo), son:
j c
1
c
2
c
3
X =
_
_
_
_
_
_
_
_
_
_
1 1 0 0
1 1 0 0
1 0 1 0
1 0 1 0
1 0 0 1
1 0 0 1
1 0 0 1
_
_
_
_
_
_
_
_
_
_
.
j c
1
c
2

X =
_
_
_
_
_
_
_
_
_
_
1 1 0
1 1 0
1 0 1
1 0 1
1 1 1
1 1 1
1 1 1
_
_
_
_
_
_
_
_
_
_
.
13.4.3. Diseo de dos factores
Supongamos que las : = c / observaciones de una variable observable
1 se obtienen combinando dos factores con c y / niveles, respectivamente,
13.5. HIPTESIS LINEALES 247
denominados factor la y columna (por ejemplo, produccin de trigo obtenida
en 9 = 3 3 parcelas, 3 ncas y 3 fertilizantes en cada nca). El modelo es

i)
= j +c
i
+,
)
+c
i)
. (13.7)
donde j es la media general, c
i
es el efecto aditivo del nivel i del factor la, ,
)
es el efecto aditivo del nivel , del factor columna. Las desviaciones aleatorias
c
i)
se suponen normales independientes. En el modelo (13.6) se suponen las
restricciones lineales
o

i=1
c
i
=
b

)=1
,
)
= 0. (13.8)
Por ejemplo, si c = / = 3 las matrices de diseo de (13.7) y teniendo en
cuenta (13.8), son:
j c
1
c
2
c
3
,
1
,
2
,
3
X =
_
_
_
_
_
_
_
_
_
_
_
_
_
_
1 1 0 0 1 0 0
1 0 1 0 1 0 0
1 0 0 1 1 0 0
1 1 0 0 0 1 0
1 0 1 0 0 1 0
1 0 0 1 0 1 0
1 1 0 0 0 0 1
1 0 1 0 0 0 1
1 0 0 1 0 0 1
_
_
_
_
_
_
_
_
_
_
_
_
_
_
.
j c
1
c
2
,
1
,
2

X =
_
_
_
_
_
_
_
_
_
_
_
_
_
_
1 1 0 1 0
1 0 1 1 0
1 1 1 1 0
1 1 0 0 1
1 0 1 0 1
1 1 1 0 1
1 1 0 1 1
1 0 1 1 1
1 1 1 1 1
_
_
_
_
_
_
_
_
_
_
_
_
_
_
.
13.5. Hiptesis lineales
Consideremos el modelo lineal normal y = Xd +o. Una hiptesis lineal
es una restriccin lineal sobre los parmetros d del modelo.
Denicin 13.5.1 Una hiptesis lineal de rango t sobre los parmetros d es
una restriccin lineal
/
i1
,
1
+ +/
in
,
n
= 0. i = 1. . . . . t.
Indicando la matriz t :. con t < : las linealmente independientes,
H =
_
_
_
/
11
/
1n
.
.
.
.
.
.
.
.
.
/
t1
/
tn
_
_
_
248 CAPTULO 13. EL MODELO LINEAL
la notacin matricial de una hiptesis lineal es
H
0
: Hd = 0. (13.9)
Denicin 13.5.2 Una hiptesis lineal es demostrable si las las de H son
combinacin lineal de las las de X. Dicho de otra manera, si existe una
matriz A de orden t : tal que
H = AX.
Observaciones:
a) Suponemos que la matriz H es de rango t.
b) Solamente podremos construir un test (el test F) para decidir si podemos
aceptar o no una hiptesis lineal si esta hiptesis es demostrable.
c) Es evidente que si el modelo es de rango mximo, : = rango(X) = :.
cualquier hiptesis lineal es demostrable.
Cuando una hiptesis (13.9) es cierta, los parmetros d se convierten en
0 y la matriz de diseo X en

X. As el modelo lineal, bajo H
0
. es
y =

X0 +o. (13.10)
Para obtener (13.10), consideramos los subespacios 1(H).1(X) generados
por las las de H y X. Entonces 1(H) 1(X) 1
n
. Sea C una matriz :
(: t) tal que 1(C
t
) 1(X) y HC = 0. En otras palabras, las columnas de
C pertenecen a 1(X) y son ortogonales a 1(H). Si denimos los parmetros
0 = (o
1
. . . . . o
vt
)
t
tales que
d = C0.
entonces Hd = HC0 = 0 y el modelo y = Xd +o. bajo la restriccin Hd = 0.
se transforma en (13.10), siendo

X = XC.
La estimacin LS de 0 es

0= (

X
t

X)
1

Xy
y la suma de cuadrados residual es
1
2
1
= (y

0)
t
(y

0).
13.5. HIPTESIS LINEALES 249
Tambin se puede probar que la estimacin LS de los parmetros d. bajo
la restriccin (13.9), es

d
1
=

d(X
t
X)

H
t
(H(X
t
X)

H
t
)
1
H

d
y la suma de cuadrados del modelo lineal es
1
2
1
= (y X

d
1
)
t
(y X

d
1
)
El siguiente teorema es conocido como Teorema Fundamental del Anlisis
de la Varianza.
Teorema 13.5.1 Sea y ~`
a
(Xd.o
2
I
a
) el modelo lineal normal y planteemos
la hiptesis lineal demostrable H
0
: Hd = 0 de rango t. Consideremos los es-
tadsticos
1
2
0
= (y X

d)
t
(y X

d). 1
2
1
= (y X

d
1
)
t
(y X

d
1
).
Se verica:
1. 1
2
0
,o
2
~
2
av
.
2. Si H
0
es cierta
1
2
1
o
2
~
2
av
0 .
1
2
1
1
2
0
o
2
~
2
t
.
siendo :
t
= : t.
3. Si H
0
es cierta, los estadsticos (1
2
1
1
2
0
) y 1
2
0
son estocsticamente
independientes.
Demost.: Observemos primero que bajo el modelo lineal normal,
1
. . . . .
a
son normales independientes, y .
1
. . . . . .
a
(vase Teorema 13.3.3) son tambin
normales independientes.
1. Cada .
i
es `(0. o
2
) para i :. Luego 1
2
0
,o
2
es suma de (::) cuadra-
dos de variables `(0. 1) independientes.
2. Si la hiptesis lineal es cierta, la matriz de diseo X se transforma en

X= XC. es decir, las columnas de XC son combinacin lineal de las


columnas de X. Podemos encontrar una matriz ortogonal
T = [t
1
. . . . . t
v
0 . t
v
0
+1
. . . . . t
v
. t
v+1
. . . . . t
a
]
250 CAPTULO 13. EL MODELO LINEAL
tal que
C
v
0 (XC) = [t
1
. . . . . t
v
0 ] C
v
(X) = [t
1
. . . . . t
v
].
Siguiendo los mismos argumentos del Teorema 13.3.3, tenemos que
1
2
1
=
a

i=v
0
+1
.
2
i
y 1
2
1
,o
2
sigue la distribucin
2
av
0 . Por otro lado
1
2
1
1
2
0
=
v

i=v
0
+1
.
2
i
y (1
2
1
1
2
0
),o
2
sigue la distribucin
2
t
. donde t = : :
t
.
3. Las sumas de cuadrados que intervienen en 1
2
0
y en 1
2
1
1
2
0
no tienen
trminos en comn, por tanto son independientes.
Consecuencia inmediata y muy importante de este resultado es que, si H
0
es cierta, entonces el estadstico
1 =
(1
2
1
1
2
0
),to
2
1
2
0
,(: :)o
2
=
(1
2
1
1
2
0
)
1
2
0
: :
t
~ 1
t
av
. (13.11)
Es decir, el cociente 1 sigue la distribucin F con t y :: grados de libertad
y no depende de la varianza (desconocida) del modelo.
13.6. Inferencia en regresin mltiple
Consideremos el modelo de regresin mltiple (13.5). El rango del modelo
es rango(X) = :+ 1. La hiptesis ms interesante en las aplicaciones es
H
0
: ,
1
= = ,
n
= 0.
que equivale a decir que la variable respuesta 1 no depende de las variables
explicativas A
1
. . . . . A
n
. La matriz de la hiptesis lineal es
H =
_
_
_
_
_
0 1 0 0
0 0 1 0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
0 0 0 1
_
_
_
_
_
. rango(H) = :.
13.7. COMPLEMENTOS 251
Si H
0
es cierta, solamente interviene el parmetro ,
0
. evidentemente

,
01
=
(media muestral) y las sumas de cuadrados residuales son
1
2
0
=
a

i=1
(
i

i
)
2
. 1
2
1
=
a

i=1
(
i
)
2
.
donde

,
0
.

,
1
. . . . .

,
n
son los estimadores LS bajo el modelo no restringido y

i
=

,
0
+r
i1

,
1
+ +r
in

,
n
. Aplicando (13.11), bajo H
0
tenemos que
1 =
(1
2
1
1
2
0
)
1
2
0
: :1
:
~ 1
n
an1
.
El test F se suele expresar en trminos de la correlacin mltiple. Se demues-
tra que
1
2
0
=
a

i=1
(
i

i
)
2
= (1 1
2
)
a

i=1
(
i
)
2
.
donde 1 es el coeciente de correlacin mltiple muestral entre las variables
1 y A
1
. . . . . A
n
(Teorema 4.2.2). Por tanto, si H
0
es cierta, es decir, si la
correlacin mltiple poblacional es cero, entonces
1 =
1
2
1 1
2
: :1
:
~ 1
n
an1
.
Rechazaremos H
0
si 1 es signicativa.
13.7. Complementos
Hemos visto los aspectos fundamentales del modelo lineal. Un estudio
ms completo incluira:
a) anlisis grco de los residuos, b) efectos de la colinealidad, c) m-
nimos cuadrados ponderados, d) errores correlacionados, e) seleccin de las
variables, etc. Vase Sche (1959), Pea (1989), Chatterjee y Price (1991),
Carmona (2005).
Para tratar variables explicativas mixtas, podemos construir un modelo
lineal considerando las dimensiones principales obtenidas aplicando anlisis
de coordenadas principales sobre una matriz de distancias entre las observa-
ciones. Consultar Cuadras y Arenas (1990), Cuadras et al. (1996).
252 CAPTULO 13. EL MODELO LINEAL
Captulo 14
ANLISIS DE LA VARIANZA
(ANOVA)
El anlisis de la varianza comprende un conjunto de tcnicas estadsticas
que permiten analizar cmo operan diversos factores, estudiados simultnea-
mente en un diseo factorial, sobre una variable respuesta.
14.1. Diseo de un factor
Supongamos que las observaciones de una variable 1 solamente dependen
de un factor con / niveles:
Nivel 1
11

12

1a
1
Nivel 2
21

22

2a
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Nivel k
I1

I2

Ia
k
Si escribimos j
i
= j +c
i
. en el modelo (13.6) tenemos

iI
= j
i
+c
iI
. i = 1. . . . ./; / = 1. . . . .:
i
.
donde j
i
es la media de la variable en el nivel i. Indiquemos:
Media nivel i :
i
= (1,:
i
)

iI
Media general: = (1,:)

iI
No. total de observaciones: : = :
1
+ +:
I
253
254 CAPTULO 14. ANLISIS DE LA VARIANZA (ANOVA)
Indiquemos tambin:
Suma de cuadrados entre grupos: Q
1
=

i
:
i
(
i
)
2
Suma de cuadrados dentro de grupos: Q
1
=

I
(
iI

i
)
2
Suma de cuadrados total: Q
T
=

I
(
iI
)
2
Se verica la relacin fundamental:
Q
T
= Q
1
+Q
1
.
Las estimaciones LS de las medias j
i
son
j
i
=
i
. i = 1. . . . . /.
y la suma de cuadrados residual es 1
2
0
= Q
1
.
La hiptesis nula de mayor inters es la que establece que no existen
diferencias entre los niveles de los factores:
H
0
: j
1
= = j
I
.
Se trata de una hiptesis demostrable de rango / 1. Bajo H
0
solamente
existe una media j y su estimacin es j = . Entonces la suma de cuadrados
residual es 1
2
1
= Q
T
y adems se verica
1
2
1
1
2
0
= Q
1
.
Por tanto, como una consecuencia del Teorema 13.5.1, tenemos que:
1. Q
1
,(: /) es un estimador centrado de o
2
y Q
1
,o
2
~
2
aI
.
2. Si H
0
es cierta, Q
1
,(/ 1) es tambin estimador centrado de o
2
y
Q
T
o
2
~
2
a1
.
Q
1
o
2
~
2
I1
.
3. Si H
0
es cierta, los estadsticos Q
1
y Q
1
son estocsticamente inde-
pendientes.
Consecuencia inmediata es que, si H
0
es cierta, entonces el estadstico
1 =
Q
1
,(/ 1)
Q
1
,(: /)
~ 1
I1
aI
. (14.1)
14.2. DISEO DE DOS FACTORES 255
14.2. Diseo de dos factores
Supongamos que las observaciones de una variable 1 dependen de dos fac-
tores A, B, denominados factores la y columna, con c y / niveles A
1
. . . . .A
o
y B
1
. . . . .B
b
. y que disponemos de una observacin para cada combinacin
de los niveles de los factores:
B
1
B
2
B
b
A
1

11

12

1b

1
A
2

21

22

2b

2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
A
o

o1

o2

ob

o

1

2

b

siendo

i
=
1
/
b

)=1

i)
.
)
=
1
c
o

i=1

i)
.

= =
1
c/
o

i=1
b

)=1

i)
.
las medias por las, por columnas y general. Supongamos que los datos se
ajustan al modelo (13.7) con las restricciones (13.8), donde j es la media
general, c
i
es el efecto del nivel A
i
del factor la, ,
)
es el efecto del nivel B
)
del factor columna. El rango del diseo y los g.l. del residuo son
: = 1 +(c1) +(/ 1) = c+/ 1. :: = c/ (c+/ 1) = (c1)(/ 1).
Las estimaciones de los parmetros son
j = . c
i
=
i
.

,
)
=
)
.
y la expresin de la desviacin aleatoria es
c
i)
=
i)
j c
i

,
)
= (
i)

)
+).
La suma de cuadrados residual del modelo es
1
2
0
=
o

i=1
b

)=1
(
i)

)
+)
2
.
256 CAPTULO 14. ANLISIS DE LA VARIANZA (ANOVA)
Tambin consideramos las siguientes cantidades, donde SC signica suma
de cuadrados:
SC entre las: Q

= /

i
(
i
)
2
SC entre columnas: Q
1
= c

)
(
)
)
2
SC residual: Q
1
=

i,)
(
i)

)
+)
2
SC total: Q
T
=

i,)
(
i)
)
2
Se verica la siguiente identidad:
Q
T
= Q

+Q
1
+Q
1
.
En el modelo de dos factores, las hiptesis de inters son:
H

0
: c
1
= = c
o
= 0 (no hay efecto la)
H
1
0
: ,
1
= = ,
b
= 0 (no hay efecto columna)
Ambas hiptesis son demostrables. Supongamos H
1
0
cierta. Entonces el mo-
delo se transforma en
i)
= j +c
i
+c
i)
. es decir, acta solamente un factor,
y por tanto
1
2
1
=
o

i=1
b

)=1
(
i)

i
)
2
.
Ahora bien, desarrollando (
i)

i
)
2
= ((
)
)+(
i)

)
+))
2
resulta
que
1
2
1
= Q
1
+Q
1
.
Anlogamente, si H

0
es cierta, obtendramos 1
2
1
= Q

+Q
1
. Por el Teorema
13.5.1 se verica:
1. Q
1
,(c1)(/1) es un estimador centrado de o
2
y Q
1
,o
2
~
2
(o1)(b1)
.
2. Si H

0
es cierta, Q

,(c 1) es tambin estimador centrado de o


2
,
Q

,o
2
~
2
(o1)
y los estadsticos Q

y Q
1
son estocsticamente inde-
pendientes.
3. Si H
1
0
es cierta, Q
1
,(/ 1) es tambin estimador centrado de o
2
.
Q
1
,o
2
~
2
(b1)
y los estadsticos Q
1
y Q
1
son estocsticamente inde-
pendientes.
14.3. DISEO DE DOS FACTORES CON INTERACCIN 257
Por lo tanto tenemos que para decidir H

0
utilizaremos el estadstico
1

=
Q

Q
1
(c 1)(/ 1)
(c 1)
~ 1
o1
(o1)(b1)
.
y para decidir H
1
0
utilizaremos
1
1
=
Q
1
Q
1
(c 1)(/ 1)
(/ 1)
~ 1
b1
(o1)(b1)
.
14.3. Diseo de dos factores con interaccin
Supongamos que las observaciones de una variable 1 dependen de dos fac-
tores A, B, denominados factores la y columna, con c y / niveles A
1
. . . . .A
o
y B
1
. . . . .B
b
. y que disponemos de c observaciones (rplicas) para cada com-
binacin de los niveles de los factores:
B
1
B
2
B
b
A
1

111
. . . . .
11c

121
. . . . .
12c

1b1
. . . . .
1bc

1
A
2

211
. . . . .
21c

221
. . . . .
22c

2b1
. . . . .
2bc

2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
A
o

o11
. . . . .
o1c

o22
. . . . .
o2c

ob1
. . . . .
obc

o

1

2

b

siendo

i
=
1
/c
b,c

),I=1

i)I
.
)
=
1
cc
o,c

i,I=1

i)I
.

i)
=
1
c
c

I=1

i)I
. =

=
1
c/c
o,b,c

i,),I=1

i)
.
El modelo lineal del diseo de dos factores con interaccin es

i)I
= j +c
i
+,
)
+
i)
+c
i)I
.
i = 1. . . . . c; , = 1. . . . . /; / = 1. . . . . c.
siendo j la media general, c
i
el efecto del nivel A
i
del factor la, ,
)
el efecto
del nivel B
)
del factor columna,
i)
la interaccin entre los niveles A
i
.B
)
. El
258 CAPTULO 14. ANLISIS DE LA VARIANZA (ANOVA)
parmetro
i)
mide la desviacin del modelo aditivo 1(
i)I
) = j +c
i
+,
)
y
solamente es posible estimar si hay c 1 rplicas. Se suponen las restricciones
o

i=1
c
i
=
b

)=1
,
)
=
o

i=1

i)
=
b

)=1

i)
= 0.
As el nmero de parmetros independientes del modelo es
1 + (c 1) + (/ 1) + (c 1)(/ 1) = c/
y los g. l. del residuo son c/c c/ = c/(c 1).
Las estimaciones de los parmetros son
j = . c
i
=
i
.

,
)
=
)
.
i)
=
i)

)
+.
y la expresin de la desviacin aleatoria es
c
i)I
=
i)I
j c
i

,
)

i)
= (
i)
).
La suma de cuadrados residual del modelo es
1
2
0
=
o,b,c

i,),I=1
(
i)I

i
)
2
.
Tambin debemos considerar las siguientes cantidades, donde SC signica
suma de cuadrados:
SC entre las: Q

= /c

i
(
i
)
2
SC entre columnas: Q
1
= cc

)
(
)
)
2
SC de la interaccin: Q
1
= c

i,)
(
i)

)
+)
2
SC residual: Q
1
=

i,)I
(
i)I

i
)
2
SC total: Q
T
=

i,)
(
i)I
)
2
Se verica la siguiente identidad
Q
T
= Q

+Q
1
+Q
1
+Q
1
.
Las hiptesis de inters son:
H

0
: c
1
= = c
o
= 0 (no hay efecto la)
H
1
0
: ,
1
= = ,
b
= 0 (no hay efecto columna)
H
1
0
:
11
= =
ob
= 0 (no hay interaccin)
14.4. DISEOS MULTIFACTORIALES 259
Como en los casos anteriores, podemos ver que la aceptacin o el rechazo de
cada hiptesis se decide mediante el test F:
1

=
Q

Q
1
c/(c 1)
c 1
~ 1
o1
ob(c1)
1
1
=
Q
1
Q
1
c/(c 1)
/ 1
~ 1
b1
ob(c1)
1
1
=
Q
1
Q
1
c/(c 1)
(c 1)(/ 1)
~ 1
(o1)(b1)
ob(c1)
14.4. Diseos multifactoriales
Los diseos de dos factores se generalizan a un nmero mayor de factores.
Cada factor representa una causa de variabilidad que acta sobre la variable
observable. Si por ejemplo, hay 3 factores A, B, C, las observaciones son
i)II
.
donde i indica el nivel i-simo de A, , indica el nivel ,-simo de B, / indica
el nivel /-simo de C, y / indica la rplica / para la combinacin i,/ de los
tres factores, que pueden interactuar. Un modelo tpico es

i)II
= j +c

i
+c
1
)
+c
C
I
+c
1
i)
+c
C
iI
+c
1C
)I
+c
1C
i)I
+c
i)II
.
siendo:
j = media general,
c

i
. c
1
)
. c
C
I
= efectos principales de A,B,C,
c
1
i)
. c
C
iI
. c
1C
)I
= interacciones entre A y B, A y C, B y C,
c
1C
i)I
= interaccin entre A,B y C,
c
i)II
= desviacin aleatoria `(0. o
2
).
Son hiptesis de inters: H

0
: c

i
= 0 (el efecto principal de A no es signi-
cativo), H
1
0
: c
1
i
= 0 (la interaccin entre A y B no es signicativa), etc.
Los contrastes para aceptar o no estas hiptesis se obtienen descomponiendo
la variabilidad total en sumas de cuadrados

i,),I,I
(
iI)I
)
2
= +1 +C +1 +C +1C +1C +1.
donde 1 es el residuo. Si los factores tienen c. /. c niveles, respectivamente, y
hay d rplicas para cada combinacin de los niveles, entonces tiene (c 1)
260 CAPTULO 14. ANLISIS DE LA VARIANZA (ANOVA)
g. l., 1 tiene (c1)(/ 1) g. l. Si interpretamos las rplicas como un factor
1. el residuo es
1 = 1 +1 +11 +C1 +11 +C1 +1C1 +1C1
con
= (d 1) + (c 1)(d 1) + + (c 1)(/ 1)(c 1)(d 1) = c/c(d 1)
g.l. Entonces calcularemos los cocientes F
1 =
,(c 1)
1,
. 1 =
1,(c 1)(/ 1)
1,
.
que sirven para aceptar o rechazar H

0
y H
1
0
, respectivamente.
En determinadas situaciones experimentales puede suceder que algunos
factores no interacten. Entonces las sumas de cuadrados correspondientes
se suman al residuo. Por ejemplo, si C no interacta con A,B, el modelo es

i)II
= j +c

i
+c
1
)
+c
C
I
+c
1
i)
+c
i)II
y la descomposicin de la suma de cuadrados es

i,),I,I
(
iI)I
)
2
= +1 +C +1 +1
t
.
donde 1
t
= C +1C +1C +1 es el nuevo residuo con g.l.

t
= (c 1)(c 1) + (/ 1)(c 1) + (c 1)(/ 1)(c 1) +.
Los cocientes F para las hiptesis anteriores son ahora
1 =
,(c 1)
1
t
,
t
. 1 =
1,(c 1)(/ 1)
1
t
,
t
.
14.5. Modelos log-lineales
Supongamos que tenemos dos variables categricas A, B con c. / ca-
tegoras respectivamente, y hemos observado las c/ categoras : =

i)
,
i)
14.5. MODELOS LOG-LINEALES 261
veces, donde ,
i)
es el nmero de veces que se observ la interseccin A
i
B
)
.
es decir, tenemos la tabla de contingencia c / :
B
1
B
2
B
b
A
1
,
11
,
12
,
1b
,
1
A
2
,
21
,
22
,
2b
,
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
A
o
,
o1
,
o2
,
ob
,
o
,
1
,
2
,
b
:
donde ,
i
=

)
,
i)
. ,
)
=

i
,
i)
son las frecuencias marginales de A
i
.B
)
respectivamente. Indiquemos las probabilidades
j
i)
= 1(A
i
B
)
). j
i
= 1(A
i
). j
)
= 1(B
)
).
Existe independencia estocstica entre A
i
y B
)
si j
i)
= j
i
j
)
. es decir, si
ln j
i)
= ln j
i
+ ln j
)
.
Si introducimos las frecuencias tericas
1
i)
= :j
i)
. 1
i
= :j
i
. 1
)
= :j
)
.
la condicin de independencia es
ln 1
i)
= ln 1
i
+ ln 1
)
ln :.
que podemos escribir como
ln 1
i)
= ` +`

i
+`
1
)
. (14.2)
siendo
` = (

o
i=1

b
)=1
ln 1
i)
),c/.
`

i
= (

b
)=1
ln 1
i)
),/ `.
`
1
)
= (

o
i=1
ln 1
i)
),c `.
El modelo (14.2) es un ejemplo de modelo log-lineal.
En general no se puede aceptar la independencia estocstica. Por tanto,
hemos de aadir un trmino `
1
i)
a (14.2) y escribir
ln 1
i)
= ` +`

i
+`
1
)
+`
1
i)
.
262 CAPTULO 14. ANLISIS DE LA VARIANZA (ANOVA)
donde `
1
i)
= ln 1
i)
` `

i
`
1
)
es la desviacin del modelo lineal. La
similitud con el modelo ANOVA de dos factores es bastante clara.
En las aplicaciones no conocemos las frecuencias esperadas 1
i)
. sino las
frecuencias observadas ,
i)
. Entonces la estimacin de los parmetros es muy
semejante al modelo ANOVA, pero los contrastes de hiptesis se resuelven
mediante ji-cuadrados.
La hiptesis de inters es la independencia entre A y B
H
0
: `
1
i)
= 0.
que equivale a decir que los datos se ajustan al modelo (14.2). Sean

1
i)
= :,
i
,
)
las estimaciones mximo-verosmiles de las frecuencias esperadas. El test ji-
cuadrado clsico consiste en calcular

i,)
(,
i)


1
i)
)
2
,

1
i)
y el test de la razn de verosimilitud se basa en
2

i,)
,
i)
log(,
i)
,

1
i)
).
que tambin sigue la distribucin ji-cuadrado con (c 1)(/ 1) g. l.
El tratamiento de 3 variables categricas A, B, C es semejante. Partiendo
de una tabla de contingencia c / c. puede interesarnos saber si:
a) A, B, C son mutuamente independientes, en cuyo caso el modelo es
ln 1
i)I
= ` +`

i
+`
1
)
+`
C
I
.
b) Hay dependencia entre A y B, entre A y C, entre B y C
ln 1
i)I
= ` +`

i
+`
1
)
+`
C
I
+`
1
i)
+`
C
iI
+`
1C
)I
.
c) Hay adems dependencia entre A, B, C
ln 1
i)I
= ` +`

i
+`
1
)
+`
C
I
+`
1
i)
+`
C
iI
+`
1C
)I
+`
1C
i)I
.
d) A es independiente de B, C, que son dependientes, siendo el modelo
ln 1
i)I
= ` +`

i
+`
1
)
+`
C
I
+`
1C
)I
.
En cada caso, el test ji-cuadrado o el de razn de verosimilitud nos permiten
decidir si los datos se ajustan al modelo. Conviene observar que obtendramos

2
= 0 en el modelo c), ya que los datos se ajustan perfectamente al modelo.
14.5. MODELOS LOG-LINEALES 263
Clase
Gnero Edad Supervivencia 1 2 3 T
Hombre Adulto NO 118 154 387 670
Mujer 4 13 89 3
Hombre Nio 0 0 35 0
Mujer 0 0 17 0
Hombre Adulto S 57 14 75 192
Mujer 140 80 76 20
Hombre Nio 5 11 13 0
Mujer 1 13 14 0
Tabla 14.1: Tabla de frecuencias combinando gnero, edad, supervivencia y
clase, de los datos del "Titanic".
Ejemplo 14.5.1
Analicemos los datos de supervivencia del "Titanic"(vase el Ejemplo
9.8.2), Tabla 14.1.
Indicamos por c la parte del modelo que contiene los efectos principales
y las interacciones de orden inferior a la mxima propuesta. Por ejemplo, en
el caso del modelo [GESC], tendramos
c = ` +`
G
i
+`
1
)
+`
S
I
+`
C
|
+`
G1
i)
+`
GS
iI
+`
GC
i|
+`
1S
)I
+`
1C
)|
+`
SC
I|
Entonces los modelos analizados son:
Modelo para ln 1
i)I|
Smbolo
2
g.l. j
` +`
G
i
+`
1
)
+`
S
I
+`
C
|
[G][E][S][C] 1216.4 25 0.000
c +`
G1
i)
+ +`
SC
I|
[GE][GS][GC][ES][EC][SC] 112.33 13 0.000
c +`
G1S
i)I
+ +`
1SC
)I|
[GES][GEC][GSC][ESC] 5.3 3 0.151
c +`
G1C
i)|
+`
S
I
[GEC][S] 659.3 15 0.000
c +`
G1C
i)|
+`
GSC
iI|
+`
G1S
i)I
[GEC][GSC][GES] 32.3 6 0.000
c +`
G1SC
i)I|
[GESC] 0 - -
c +`
G1C
i)|
+`
GSC
i)I
+`
1SC
)I|
[GEC][GSC][ESC] 9.2 4 0.056
El modelo [G][E][S][C] debe rechazarse, pues
2
es muy signicativo. El
modelo [GE][GS][GC][ES][EC][SC] con slo las interacciones de segundo or-
den se ajusta mejor pero tambin debe rechazarse. El modelo con todas las
264 CAPTULO 14. ANLISIS DE LA VARIANZA (ANOVA)
interacciones de tercer orden [GES][GEC][GSC][ESC] puede aceptarse, indi-
cando que todas las variables interaccionan. El modelo [GEC][S], signicara
suponer (caso de aceptarse) que el combinado de gnero, edad y clase es in-
dependiente de la supervivencia, pero tambin debe rechazarse. El modelo
[GESC] es el modelo de dependencia completa, que incluye todas las interac-
ciones, se ajusta perfectamente a las frecuencias observadas, pero carece de
inters (hay tantos parmetros como datos).
Un modelo razonable que podra aceptarse es el [GEC][GSC][ESC],
2
=
9.2 con 4 g. l. Se concluye que debemos aceptar que la supervivencia dependa
del gnero, edad y clase. El salvamento de los pasajeros se produjo en los
trminos siguientes: mujeres y nios primero (segn la clase) y despus
hombres de primera clase.
14.6. Complementos
El Anlisis de la Varianza fue introducido por R. A. Fisher en 1938, para
resolver problemas de diseo experimental en agricultura. Hemos visto que
es una aplicacin del modelo lineal. Existen muchos diseos diferentes, cuyo
estudio dejamos para otro momento.
Los primeros estudios y aplicaciones consideraban factores de efectos -
jos. En 1947, C. Eisenhart consider que algunos efectos podan ser aleato-
rios. Ciertamente, los efectos que actan sobre los modelos pueden ser jos,
aleatorios o mixtos, y cuando hay interacciones el clculo de los cocientes F
es diferente. Vase Cuadras (2000), Huitson (1966), Pea (1989).
En ANOVA de un factor hemos supuesto datos independientes e igualdad
de varianzas, es decir, X = o
2
I. Pero S. Wilks prob que el test F, vase
(14.1), sigue siendo vlido si las variables son equicorrelacionadas, es decir,
si
X = o
2
_
_
_
_
_
1 j j
j 1 j
.
.
.
.
.
.
.
.
.
.
.
.
j j 1
_
_
_
_
_
.
En el caso general de una X cualquiera, debe aplicarse Anlisis de Perles,
dando lugar tambin a un test F, vase (3.3).
Captulo 15
ANLISIS DE LA VARIANZA
(MANOVA)
15.1. Modelo
El anlisis multivariante de la varianza (MANOVA) es una generalizacin
a j 1 variables del anlisis de la varianza (ANOVA).
Supongamos que tenemos : observaciones independientes de j variables
observables 1
1
. . . . . 1
j
. obtenidas en diversas condiciones experimentales, co-
mo en el caso univariante. La matriz de datos es
=
_
_
_
_
_

11

12

1j

21

22

2j
.
.
.
.
.
.
.
.
.
.
.
.

a1

a2

aj
_
_
_
_
_
= [ y
1
. y
2
. . . . . y
j
].
donde y
)
= (
1)
.
2)
. . . . .
a)
)
t
son las : observaciones (independientes) de
la variable 1
)
. que suponemos siguen un modelo lineal univariante y
)
=
Xd
)
+o
)
.
El modelo lineal multivariante es
= XH+E (15.1)
265
266 CAPTULO 15. ANLISIS DE LA VARIANZA (MANOVA)
siendo X la matriz de diseo
X =
_
_
_
_
_
r
11
r
12
r
1n
r
21
r
22
r
2n
.
.
.
.
.
.
.
.
.
.
.
.
r
a1
r
a2
r
an
_
_
_
_
_
.
H la matriz de parmetros de regresin
H =
_
_
_
_
_
,
11
,
12
,
1j
,
21
,
22
,
2j
.
.
.
.
.
.
.
.
.
.
.
.
,
n1
,
n2
,
nj
_
_
_
_
_
.
y E la matriz de desviaciones aleatorias
E =
_
_
_
_
_
c
11
c
12
c
1j
c
21
c
22
c
2j
.
.
.
.
.
.
.
.
.
.
.
.
c
a1
c
a2
c
aj
_
_
_
_
_
.
Las matrices y X son conocidas. Suponemos que las las de E son inde-
pendientes `
j
(0.).
15.2. Estimacin de parmetros
En el modelo MANOVA debemos estimar los :j parmetros de regre-
sin contenidos en H. as como la matriz de covarianzas X.
En el modelo univariante y = Xd +o. la estimacin LS

d = (X
t
X)

X
t
y
minimiza o
t
o= (y X

d)
t
(y X

d). En el caso multivariante, el estimador


LS de H es

H tal que minimiza la traza
tr(

E
t

E) = tr[(X

H)
t
(X

H)].
siendo

E = X

H.
La matriz de residuos es la matriz H
0
= (1
0
(i. ,)) de orden j j
H
0
=

E
t

E = (X

H)
t
(X

H).
donde 1
0
(,. ,) es la suma de cuadrados residual del modelo univariante y
)
=
Xd
)
+o
)
.
15.2. ESTIMACIN DE PARMETROS 267
Teorema 15.2.1 Consideremos el modelo de regresin multivariante =
XH+E. siendo
=
_

_
y
t
1
.
.
.
y
t
a
_

_
. E =
_

_
o
t
1
.
.
.
o
t
a
_

_
.
con las condiciones:
1. 1() = XH, es decir, 1(E) = 0.
2. cov(y
i
) = cov(o
i
) = . donde y
t
i
son las de . y o
t
i
son las de E.
3. cov(y
i
. y
)
) = cov(o
i
. o
)
) = 0 para i ,= ,.
Entonces las estimaciones LS de los parmetros de regresin H verican
las ecuaciones normales
X
t
X

H = X
t
. (15.2)
y vienen dados por

H = (X
t
X)
1
X
t
.
cuando el diseo es de rango mximo : = rango(X) =:. y por

H = (X
t
X)

X
t

cuando : < :. El estimador



H minimiza la traza tr(

E
t

E) as como el deter-
minante det(

E
t

E). Adems

H es un estimador insesgado de H.
Demost.: Sea H
0
otro estimador de H. Entonces:
(XH
0
)
t
(XH
0
) = (X

H+X

HXH
0
)
t
(X

H+X

HXH
0
)
= H
0
+ (X

HXH
0
)
t
(X

HXH
0
)
+(X

H)
t
(X

HXH
0
)+(X

HXH
0
)
t
(X

H)
= H
0
+ (X

HXH
0
)
t
(X

HXH
0
).
pues (X

H)
t
(X

HXH
0
) =(X

H)
t
X(

HH
0
) = 0 por vericar

H
las ecuaciones normales (15.2). Luego (XH
0
)
t
(XH
0
) = H
0
+ ^.
siendo ^ una matriz j j denida positiva. Entonces la traza y el determi-
nante de (XH
0
)
t
(XH
0
) alcanzan el valor mnimo cuando ^ = 0,
es decir, para H
0
=

H. Por otra parte
1(

H) = (X
t
X)
1
X
t
1() =(X
t
X)
1
(X
t
X)H = H.
268 CAPTULO 15. ANLISIS DE LA VARIANZA (MANOVA)
Teorema 15.2.2 Bajo las mismas condiciones del teorema anterior, con : =
rango(X). podemos expresar la matriz de residuos como
H
0
=
t
[I X(X
t
X)

X
t
].
Una estimacin centrada de la matriz de covarianzas es

X = H
0
,(: :).
Demost.:
(X

H)
t
(X

H) =
t

t
X

H

H
t
X
t
+

H
t
X
t
X

H
=
t

t
X

H (por

H
t
X
t
=

H
t
X
t
X

H)
=
t

t
X(X
t
X)

X
t

=
t
[I X(X
t
X)

X
t
].
Sea ahora T = [t
1
. . . . . t
v
. t
v+1
. . . . . t
a
] una matriz ortogonal tal que sus
columnas formen una base ortonormal de 1
a
. de manera que las : primeras
generen el mismo subespacio C
v
(X) generado por las columnas de X. Por lo
tanto las otras : : columnas sern ortogonales a C
v
(X). Es decir,
t
t
i
X = + si i _ :.
t
t
i
X = 0 si i :.
donde + indica un valor posiblemente no nulo.
Sea Z = T
t
.Entonces
1(Z) = T
t
XH =
_

0
_
: primeras las
: : ltimas las
Consideremos el residuo

E= X

H. De X
t
(X

H) = 0. ver ecuaciones
normales (15.2), deducimos que

E es ortogonal a X en el sentido que
T
t

E =
_
0
Z
av
_
: primeras las
: : ltimas las
donde Z
av
es matriz (: :) j. Pero
T
t

E = T
t
T
t
X

H = Z
_
+
0
_
=
_
0
Z
av
_
.
15.3. CONTRASTE DE HIPTESIS LINEALES 269
es decir, las ltimas : : las de Z y de T
t

E coinciden. Entonces, como


TT
t
= I.
H
0
=

E
t

E =

E
t
TT
t

E =
_
0 Z
t
av

_
0
Z
av
_
= Z
t
av
Z
av
.
Indiquemos Z
t
av
= [z
1
. . . . . z
av
] donde z
t
1
. . . . . z
t
av
son las las (inde-
pendientes) de Z
av
. Entonces cada z
i
es un vector de media cero y matriz
de covarianzas X. Luego 1(z
i
z
t
i
) = X y Z
t
av
Z
av
= z
1
z
t
1
+ + z
av
z
t
av
.
Por lo tanto
1(H
0
) = 1(z
1
z
t
1
+ +z
av
z
t
av
) = (: :)X.
Teorema 15.2.3 Sea = XH+E el modelo lineal normal multivariante
donde las las de E son `
j
(0. X) independientes. Sea H
0
la matriz de resi-
duos. Se verica entonces que la distribucin de H
0
es Wishart \
j
(X. ::).
Demost.: Hemos visto en el teorema anterior que 1(Z
av
) = 0. As las :
: las de Z
av
son todas `
j
(0. X) independientes. Luego H
0
= Z
t
av
Z
av
cumple las condiciones de una matriz j j que sigue la distribucin de
Wishart.
15.3. Contraste de hiptesis lineales
Una hiptesis lineal demostrable de rango t y matriz H es
H
0
: HH = 0
donde cada la de H es combinacin lineal de las las de X.
Como en el caso univariante (Seccin 13.5), si H
0
es cierta, el modelo se
transforma en
=

XO+E.
la estimacin de los parmetros H restringidos a H
0
viene dada por

H
1
=

H(X
t
X)

H
t
(H(X
t
X)

H
t
)
1
H

H
y la matriz residual es
H
1
= (X

H
1
)
t
(X

H
1
).
270 CAPTULO 15. ANLISIS DE LA VARIANZA (MANOVA)
Teorema 15.3.1 Sea = XH+E el modelo lineal multivariante, donde
las las de E son `
j
(0. X) independientes, H
0
la matriz de residuos, H
0
:
HH = 0 una hiptesis lineal demostrable y H
1
la matriz de residuos bajo H
0
.
Se verica:
1. H
0
~ \
j
(X. : :).
2. Si H
0
es cierta, las matrices H
1
y H
1
H
0
siguen la distribucin de
Wishart
H
1
~ \
j
(X. : :
t
). H
1
H
0
~ \
j
(X. t).
siendo t = :c:qo(H). :
t
= : t.
3. Si H
0
es cierta, las matrices H
0
y H
1
H
0
son estocsticamente inde-
pendientes.
Demost.: Si la hiptesis H
0
es cierta, el subespacio generado por las las de
H est contenido en el generado por las las de X. Podemos construir una
base ortogonal de 1
n
[u
1
. . . . . u
t
. u
t+1
. . . . . u
v
. u
v+1
. . . . . u
n
]
tal que [u
1
. . . . . u
t
] generen H. y [u
1
. . . . . u
t
. u
t+1
. . . . . u
v
] generen X.
Consideremos la matriz Cde orden :(:t) generada por [u
t+1
. . . . . u
v
].
Entonces HC = 0 y el modelo = XH+E se convierte en =

XO+E.
siendo

X = XC. y CO = H. pues HH = HCO = 0. As la matriz de diseo
X se transforma en

X = XC. donde las columnas de XC son combinacin
lineal de las columnas de X.
Podemos construir una matriz ortogonal
T = [t
1
. . . . . t
v
0 . t
v
0
+1
. . . . . t
v
. t
v+1
. . . . . t
a
]
tal que las :
t
= :t primeras columnas generen XC y las : primeras generen
X
C
v
0 (XC) = [t
1
. . . . . t
v
0 ] C
v
(X) = [t
1
. . . . . t
v
].
Siguiendo los mismos argumentos del teorema 15.2.2, tenemos que
T
t

E =
_
0
Z
av
0
_
.
15.4. MANOVA DE UN FACTOR 271
donde las : :
t
las de Z
av
0 son `
j
(0. X) independientes. Por tanto
H
1
= (

O)
t
(

O) = Z
t
av
0 Z
av
0
es Wishart \
j
(X. : :
t
). Por otro lado podemos escribir
T
t
(

O) =
_
0
Z
av
0
_
=
_
_
0
Z
t
Z
av
_
_
.
donde las t = : :
t
las de Z
t
son independientes de las : : las de Z
av
.
Entonces H
1
= Z
t
t
Z
t
+Z
t
av
Z
av
. es decir,
H
1
H
0
= Z
t
t
Z
t
.
donde H
1
H
0
es Wishart \
j
(X. : :
t
) e independiente de H
0
.
La consecuencia ms importante de este teorema es que, si H
0
es cierta,
entonces H
0
y H
1
H
0
son Wishart independientes y
=
[H
0
[
[(H
1
H
0
) +H
0
[
=
[H
0
[
[H
1
[
~ (j. : :. t).
As 0 _ _ 1 sigue la distribucin de Wilks. Aceptaremos H
0
si no es
signicativo y rechazaremos H
0
si es pequeo y signicativo.
Tabla general MANOVA
g. l. matriz Wishart lambda de Wilks
Desviacin hiptesis t H
1
H
0
= [H
0
[,[H
1
[
Residuo : : H
0
Criterio decisin: Si <
c
se rechaza H
0
. donde 1((j. : :. t) <
c
) = c.
15.4. Manova de un factor
El modelo del diseo de un nico factor o causa de variabilidad es
y
iI
= +o
i
+o
iI
. i = 1. . . . ./; / = 1. . . . .:
i
.
donde es un vector de medias general, o
i
es el efecto del nivel i del fac-
tor, y
iI
es la observacin multivariante / en la situacin (o poblacin) i.
correspondiendo a la misma situacin experimental del anlisis cannico de
272 CAPTULO 15. ANLISIS DE LA VARIANZA (MANOVA)
poblaciones (Captulo 7), con : = :
1
+ + :
I
. La hiptesis nula consiste
en armar que las o
i
son iguales a cero. Tenemos pues que
V = H
0
. H = H
1
H
0
. T = H
1
= H+V.
son las matrices de dispersin dentro grupos, entre grupos y total,
respectivamente (Seccin 3.3.3).
MANOVA de un factor
g. l. matriz Wishart lambda de Wilks
Entre grupos / 1 H = [V[,[T[
Dentro grupos : / V ~ (j. : /. / 1)
Total : 1 T
15.5. Manova de dos factores
Si suponemos que las : = c / observaciones multivariantes dependen
de dos factores la y columna, con c y / niveles respectivamente, el modelo
es
y
i)
= +o
i
+d
)
+o
i)
. i = 1. . . . . c; , = 1. . . . . /.
donde es la media general, o
i
es el efecto aditivo del nivel i del factor la, d
)
es el efecto aditivo del nivel , del factor columna. Como generalizacin del ca-
so univariante, intervienen las matrices A = (c
&
). H =(/
&
). T = (t
&
). H
0
=
(:
&
) con elementos
c
&
= /

i
(
i&

&
)(
i

)
/
&
= c

)
(
)&

&
)(
)

)
:
&
=

i)
(
i)&

i&

)&
+
&
)(
i)

)
+

)
t
&
=

i)
(
i)&

&
)(
i)

). n. = 1. . . . . j.
siendo, para cada variable 1
&
.
&
la media general,
)&
la media jando el
nivel , del factor columna, etc. Se verica
T = A+H+H
0
.
Si las c las , son nulas, entonces H
1
= H
0
+A H
1
= H
0
+H. respectiva-
mente. As pues, indicando = (c1)(/ 1). para contrastar la hiptesis de
que no inuye el factor la o el factor columna, en ninguna de las variables,
obtenemos la tabla:
15.6. MANOVA DE DOS FACTORES CON INTERACCIN 273
MANOVA de dos factores
matriz lambda
g. l. Wishart de Wilks
Filas c 1 A [H
0
[,[H
0
+A[ ~ (j. . c 1)
Columnas / 1 H [H
0
[,[H
0
+H[ ~ (j. . / 1)
Residuo H
0
Total c/ 1 T
15.6. Manova de dos factores con interaccin
En el diseo de dos factores con interaccin suponemos que las : = c/c
observaciones multivariantes dependen de dos factores la y columna, con c
y / niveles respectivamente, y que hay c observaciones (rplicas) para cada
una de las c / combinaciones de los niveles. El modelo lineal es
y
i)I
= +o
i
+d
)
+_
i)
+o
i)I
. i = 1. . . . . c; , = 1. . . . . /; / = 1. . . . . c.
donde es la media general, o
i
es el efecto aditivo del nivel i del factor la,
d
)
es el efecto aditivo del nivel , del factor columna, _
i)
es la interaccin,
parmetro que mide la desviacin de la aditividad del efecto de los factores,
e y
i)I
= (
i)I1
. . . . .
i)Ij
)
t
es la rplica multivariante / de las variables ob-
servables. Tambin, como en el caso univariante, intervienen las matrices
A = (c
&
). H = (/
&
). AH = (c
&
). H
0
= (:
&
). T = (t
&
). donde
c
&
= /c

i
(
i&

&
)(
i

)
/
&
= cc

)
(
)&

&
)(
)

)
c
&
= c

i,)
(
i)&

i&

)
+
&
)(
i)

)
+

)
:
&
=

i,)I
(
i)I&

i&
)(
i)I

i
)
t
&
=

i,)
(
i)&

&
)(
i)&

&
). n. = 1. . . . . j.
que verican
T = A+H+AH+H
0
.
(AH no es un producto matricial). Indicando = (c1)(/1). : = c/(c1).
para contrastar las hiptesis de que los factores la, columna o las interac-
ciones no inuyen, en ninguna de las variables, obtenemos la tabla:
274 CAPTULO 15. ANLISIS DE LA VARIANZA (MANOVA)
MANOVA de dos factores con interaccin
matriz lambda
g. l. Wishart de Wilks
Filas c 1 A [H
0
[,[H
0
+A[ ~ (j. :. c 1)
Columnas / 1 H [H
0
[,[H
0
+H[ ~ (j. :. / 1)
Interaccin AH [H
0
[,[H
0
+AH[ ~ (j. :. )
Residuo : H
0
Total c/c 1 T
15.7. Ejemplos
Ejemplo 15.7.1 Ratas experimentales.
En un experimento para inhibir un tumor, se quiere investigar el efecto
del sexo (S) y de la temperatura ambiental (T). Se consideran las variables:
1
1
=peso inicial, 1
2
=peso nal, 1
3
=peso del tumor.
Machos Hembras
Temp 1
1
1
2
1
3
1
1
1
2
1
3
4 18.15 16.51 0.24 19.15 19.49 0.16
18.68 19.50 0.32 18.35 19.81 0.17
19.54 19.84 0.20 20.58 19.44 0.22
20 21.27 23.30 0.33 18.87 22.00 0.25
19.57 22.30 0.45 20.66 21.08 0.20
20.15 18.95 0.35 21.56 20.34 0.20
34 20.74 16.69 0.31 20.22 19.00 0.18
20.02 19.26 0.41 18.38 17.92 0.30
17.20 15.90 0.28 20.85 19.90 0.17
Los resultados MANOVA son:
15.7. EJEMPLOS 275
Figura 15.1: Representacin cannica de los datos de las ratas hembras
(izquierda) y machos (derecha).
g. l. matriz dispersin lambda F g. l.
T 2
_
_
4.932 9.705 0.2888
32.58 0.3769
0.0196
_
_
0.2588 3.219 6 y 20
S 1
_
_
0.6050 1.233 0.1906
2.516 0.3888
0.0600
_
_
0.3360 6.586 3 y 10
TS 2
_
_
0.2540 0.8052 0.0359
3.205 0.0881
0.0060
_
_
0.7731 0.458 6 y 20
Residuo 12
_
_
19.07 7.023 0.1943
26.69 0.2084
0.0392
_
_
Total 17
_
_
24.86 18.76 0.0620
65.00 0.2847
0.1250
_
_
Son signicativos los efectos S y T, pero la interaccin no es signicativa.
Una representacin cannica de los 3 2 = 6 grupos (Figura 15.1) ayuda
a visualizar las diferencias. Podemos ver que la pequea diferencia entre las
representaciones de las tres temperaturas de los machos y de las hembras,
indican una cierta interaccin, aunque no signicativa.
276 CAPTULO 15. ANLISIS DE LA VARIANZA (MANOVA)
Ejemplo 15.7.2 Colepteros.
Continuando con el ejemplo 7.6.1, vamos a estudiar 8 poblaciones (6 es-
pecies en 8 localidades, factor L) de colepteros del gnero Timarcha, pero
ahora teniendo en cuenta el sexo, machos y hembras (factor S), en relacin a 5
variables biomtricas (datos en http://www.ub.edu/stat/personal/cuadras/
escarab.txt)
Las matrices de dispersin entre especies (6 especies en 8 localidades),
entre sexos, debidas a la interaccin, residual y los estadsticos y 1 son:
L=
_
_
_
_
_
_
14303 24628 17137 48484 36308
43734 31396 85980 64521
23610 61519 46405
169920 126980
95395
_
_
_
_
_
_
= 0.0068
1
35
2353
= 152.8
S=
_
_
_
_
_
_
675.94 1613.0 1644.5 4520.0 3270.6
3849.3 3924.4 10786. 7804.9
4001.0 10997. 7957.2
30225. 21871.
15825.
_
_
_
_
_
_
= 0.1944
1
5
559
= 463.2
LS=
_
_
_
_
_
_
96.470 81.532 63.559 92.035 20.554
97.205 85.554 157.28 102.31
86.405 127.66 108.25
428.97 236.53
282.30
_
_
_
_
_
_
= 0.7692
1
35
2353
= 4.329
R
0
=
_
_
_
_
_
_
1546.7 1487.8 1346.4 2452.6 1924.0
3498.5 3078.4 4206.6 3415.6
3082.9 3888.2 3159.4
9178.6 6038.0
5950.3
_
_
_
_
_
_
15.8. Otros criterios
Sean `
1
_ _ `
j
los valores propios de H
0
respecto de H
1
. es decir,
las races de la ecuacin det(H
0
`H
1
) = 0. Podemos expresar el criterio de
Wilks como
=
[H
0
[
[H
1
[
= `
1
`
j
.
Este criterio es especialmente interesante, teniendo en cuenta que si ` es la
razn de verosimilitud en el test de hiptesis, entonces ` =
a2
.
15.8. OTROS CRITERIOS 277
Es fcil ver que 0 _ `
i
_ 1. Se llaman correlaciones cannicas genera-
lizadas (al cuadrado) a :
2
i
= 1`
i
. i = 1. . . . . j. Entonces el criterio de Wilks
en trminos de correlaciones es
=
j

i=1
(1 :
2
i
).
Se demuestra que cualquier estadstico que sea invariante por cambios de
origen y de escala de los datos, debe ser necesariamente funcin de los valores
propios `
1
_ _ `
j
(Anderson, 1958). As, otros estadsticos propuestos
son:
1. Traza de Hotelling:
tr[H
1
0
(H
1
H
0
)] =
j

i=1
1 `
i
`
i
=
j

i=1
:
2
i
1 :
2
i
.
2. Traza de Pillai:
tr[H
1
1
(H
1
H
0
)] =
j

i=1
(1 `
i
) =
j

i=1
:
2
i
.
3. Raz mayor de Roy:
o = 1 `
j
= :
2
1
.
Este ltimo estadstico est basado en el principio de unin interseccin
(vase Seccin 3.5.2) y se obtiene maximizando la 1 de Fisher-Snedecor para
todas las combinaciones lineales de las variables:
max
o
1(c) = max
o
a
t
(H
1
H
0
)a
a
t
H
0
a
: :
t
= `
t
1
: :
t
.
siendo `
t
1
el primer valor propio de (H
1
H
0
) respecto de H
0
. Se cumple la
relacin `
t
1
= (1 `
j
),`
j
y se toma como estadstico de contraste
o =
`
t
1
1 +`
t
1
= 1 `
j
= :
2
1
.
En el ejemplo 15.7.2, para contrastar las diferencias entre las 6 especies
(encontradas en 8 localidades), obtenemos los siguientes valores de los es-
tadsticos de Wilks, Hotelling, Pillai y Roy, y sus transformaciones a una
F:
F g. l.
Wilks 0.0068 152.8 35 y 2354
Hotelling 28.02 446.2 35 y 2787
Pillai 2.090 57.78 35 y 2815
Roy 24.90 2002 7 y 563
278 CAPTULO 15. ANLISIS DE LA VARIANZA (MANOVA)
Figura 15.2: Representacin HE plot (combinada con la representacin
cannica) de los datos de las ores Iris, con los elipsoides de concentracin
de las matrices H = H
1
H
0
(lnea gruesa) y E = H
0
(lnea discontinua).
15.9. Complementos
El Anlisis Multivariante de la Varianza es muy similar al Anlisis de
la Varianza, salvo que interviene ms de una variable cuantitativa obser-
vable. Esta extensin multivariante se inicia en 1930 con los trabajos de H.
Hotelling, J. Wishart y S. S. Wilks. Posteriormente S. N. Roy propuso un
planteamiento basado en el principio de unin-interseccin.
Los cuatro criterios que hemos visto son equivalentes para j = 1. y dife-
rentes para j 1. No est claro cul es el mejor criterio, depende de la
hiptesis alternativa. Por ejemplo, en el diseo de un factor, si los vectores
de medias estn prcticamente alineados, entonces el criterio de Roy es el
ms potente. Vase Rencher (1998).
Tales criterios miden el tamao de H = H
1
H
0
respecto de E = H
0
. ma-
trices que se pueden visualizar mediante elipsoides de concentracin. Friendly
(2007) propone representar ambos elipsoides en el llamado HE plot (Figura
15.2).
Se puede plantear un anlisis tipo ANOVA para datos categricos, dando
lugar al mtodo llamado CATANOVA (Light y Margolin, 1971). Para datos
mixtos o no normales, se puede plantear MANOVA utilizando distancias
entre las observaciones, calculando coordenadas principales mediante MDS, y
a continuacin aplicando el modelo de regresin multivariante. Vase Cuadras
(2008), Cuadras y Cuadras (2011).
Captulo 16
FUNCIONES ESTIMABLES
MULTIVARIANTES
16.1. Funciones estimables
En el modelo lineal univariante y = Xd +o, adems de la estimacin de
los parmetros de regresin d. tiene tambin inters la estimacin de ciertas
combinaciones lineales de los parmetros d.
Denicin 16.1.1 Una funcin paramtrica es una combinacin lineal de
los parmetros d = (,
1
. . . . . ,
n
)
t
= j
1
,
1
+ +j
n
,
n
=
t
d.
donde = (j
1
. . . . . j
n
)
t
. Una funcin paramtrica es estimable si existe
una combinacin lineal

de y = (
1
. . . . .
a
)
t

= c
1

1
+ +c
a

a
= a
t
y.
donde a = (c
1
. . . . . c
a
)
t
, tal que
1(

) = .
La caracterizacin de que una funcin paramtrica es estimable se da
a continuacin.
Proposicin 16.1.1 Una funcin paramtrica =
t
d es estimable si y
slo si el vector la
t
es combinacin lineal de las las de la matriz de
diseo X.
279
280 CAPTULO 16. FUNCIONES ESTIMABLES MULTIVARIANTES
Demost.: 1(

) = 1(a
t
y) = a
t
1(y) = a
t
Xd =
t
d, que se cumple para toda
d. Por lo tanto a
t
X =
t
. es decir,
t
es combinacin lineal de las las de X.

16.2. Teorema de Gauss-Markov


La estimacin ptima de una funcin paramtrica estimable =
t
d
se obtiene sustituyendo d por

d, la estimacin LS de d. Este resultado se
conoce como teorema de Gauss-Markov.
Teorema 16.2.1 Sea =
t
d una funcin paramtrica estimable. Se ve-
rica:
1. Si

d es estimador LS de d, entonces

=
t

d es nico.
2.

=
t

d es estimador lineal insesgado de y, dentro de los estimadores


lineales insesgados de , tiene varianza mnima.
Demost.: Existe un estimador insesgado

= a
t
y de =
t
d. Sea C
v
(X) el
subespacio generado por las columnas de X. Entonces a =a+I. donde a
C
v
(X) y I es ortogonal a C
v
(X). Consideremos al estimador a
t
y. Tenemos
1(

) = 1(a
t
y) =1(a
t
y +I
t
y) =1(a
t
y) +I
t
Xd =1(a
t
y) =.
puesto que I
t
X = 0. Luego a
t
y es estimador centrado. Si a
t
1
y es otro esti-
mador centrado con a
1
C
v
(X). entonces 1(a
t
y)1(a
t
y) = (a
t
a
t
)Xd = 0
=a = a
1
. es decir, a
t
y es nico.
Por otro lado, o= y X

d es ortogonal a C
v
(X) y a
t
o = a
t
y a
t
X

d = 0
=a
t
y = a
t
X

d =
t

d. As

= a
t
y =
t

d es nico y centrado.
Finalmente, indicando
|a|
2
= c
2
1
+ +c
2
a
.
tenemos que
var(a
t
y) =|a|
2
o
2
= (|a|
2
+|I|
2
)o
2
_ |a|
2
o
2
= var(a
t
y).
que prueba que

=
t

d tiene varianza mnima.


Un criterio para saber si
t
d es funcin paramtrica estimable es

t
(X
t
X)

X
t
X =
t
.
16.3. FUNCIONES ESTIMABLES MULTIVARIANTES 281
16.3. Funciones estimables multivariantes
En el modelo lineal multivariante (15.1), tambin tiene inters la esti-
macin de ciertas combinaciones lineales de los parmetros H. Indiquemos
por y
1
. . . . . y
a
los vectores la de . y d
1
. . . . . d
n
los vectores la de H. es
decir:
=
_

_
y
1
.
.
.
y
a
_

_
. H =
_

_
d
1
.
.
.
d
n
_

_
.
Denicin 16.3.1 Una funcin paramtrica multivariante ) es una combi-
nacin lineal de las las de H,
)
t
= j
1
d
1
+ +j
n
d
n
=
t
H.
donde = (j
1
. . . . . j
n
)
t
. Una funcin paramtrica multivariante ) es es-
timable (fpem) si existe una combinacin lineal

)
t
de las las de

)
t
= c
1
y
1
+ +c
a
y
a
= a
t
.
donde a = (c
1
. . . . . c
a
)
t
, tal que
1(

)) = ).
La caracterizacin de que una funcin paramtrica es estimables es la
siguiente:
Proposicin 16.3.1 Una funcin paramtrica )
t
=
t
H es estimable si y
slo si el vector la
t
es combinacin lineal de las las de la matriz de diseo
X.
La demostracin es similar al caso univariante. La estimacin ptima de
una fpem )
t
=
t
H viene dada por

)
t
=
t

H.
Slo hay que sustituir H por sus estimaciones LS

H.
Teorema 16.3.2 Sea )
t
= (
1
. . . . .
j
) =
t
H una funcin paramtrica
estimable. Se verica:
282 CAPTULO 16. FUNCIONES ESTIMABLES MULTIVARIANTES
1. Si

H es estimador LS de H, entonces

)
t
= (

1
. . . . .

j
) =
t

H es nico.
2. Cada

)
es estimador lineal insesgado de
)
y de varianza mnima
entre los estimadores lineales insesgados de
)
.
Observemos que este teorema vale sin necesidad de una hiptesis de nor-
malidad. El estimador LS de ) es

)
t
=
t

H =
t
(X
t
X)

X
t
=q
1
y
1
+ +q
a
y
a
donde y
1
. . . . . y
a
son las las de la matriz de datos . El vector g = (q
1
. . . . . q
a
)
t
es nico, y podemos denir la dispersin de

). que es mnima, como la can-
tidad
o
2

= q
2
1
+ +q
2
a
. (16.1)
La versin del Teorema 15.3.1 para fpem es:
Teorema 16.3.3 En el modelo MANOVA normal, si

) =
t

H es la esti-
macin LS de ). entonces:
1. La distribucin de

) es la de una combinacin lineal de variables nor-
males independientes.
2. La distribucin de H
0
es \
j
(X. : :).
3.

) y H
0
son estocsticamente independientes.
16.4. Anlisis cannico de funciones estimables
Supongamos que )
t
1
=
t
1
H. . . . . )
t
c
=
t
c
H es un sistema de : funciones
paramtricas estimables. Podemos plantear la representacin cannica del
sistema como una generalizacin del anlisis cannico de poblaciones.
16.4.1. Distancia de Mahalanobis
Sean

)
1
. . . . .

)
c
las estimaciones LS de los fpem,

X = H
0
,(: :) la
estimacin de la matriz de covarianzas. Podemos denir la distancia de Ma-
halanobis (estimada) entre las funciones )
i
. )
)
como
`(i. ,)
2
= (

)
i


)
)
)
t

X
1
(

)
i


)
)
).
16.4. ANLISIS CANNICO DE FUNCIONES ESTIMABLES 283
Sea o
i)
= |g
i
g
)
| . Si

)
t
i
= g
t
i
es independiente de

)
t
)
= g
t
)
y se verica
la hiptesis H
0
: )
i
= )
)
. entonces o
1
i)
(

)
i


)
)
) es `
j
(0. X) y (: :)

X es
\
j
(X. : :). por lo tanto o
1
i)
`(i. ,) es Hotelling 1
2
(j. : :) y
: : j + 1
(: :)j
o
1
i)
`(i. ,)
2
~ 1
j
avj+1
.
Anlogamente vemos que la distribucin de
: : j + 1
(: :)j
1
o
2

)
i
)
i
)
t

X
1
(

)
i
)
i
)
es tambin 1
j
avj+1
. donde o
2

es la dispersin mnima (16.1).


16.4.2. Coordenadas cannicas
Si

)
i
= (

i1
. . . . .

ij
)
t
. i = 1. . . . . :. consideremos las medias

)
=
1
:
c

i=1

i)
. , = 1. . . . . :.
y la matriz
l =
_
_
_

11

1j

j
.
.
.
.
.
.
.
.
.

c1

cj

j
_
_
_
.
Sea Y = [v
1
. . . . . v
j
] la matriz de vectores propios de l
t
l respecto de

X.
con la normalizacin v
t
)

Xv
)
= 1. es decir,
l
t
lY =

XYO
A
. Y
t

XY = I.
donde O
A
=diag(`
1
. . . . . `
j
) es la matriz diagonal con los valores propios. Las
coordenadas cannicas de

)
1
. . . . .

)
c
son las las v
t
1
. . . . . v
t
c
de la matriz
V = lY.
La distancia eucldea entre las las coincide con la distancia de Mahalanobis
entre las fpem
(v
i
v
)
)
t
(v
i
v
)
) = (

)
i


)
)
)
t

X
1
(

)
i


)
)
).
284 CAPTULO 16. FUNCIONES ESTIMABLES MULTIVARIANTES
De manera anloga podemos denir la variabilidad geomtrica de las fun-
ciones estimables, probando que es
\

=
1
2:
2
c

i,)=1
`(i. ,)
2
=
1
:
j

i=1
`
i
.
y que es mxima en dimensin reducida :. El porcentaje de variabilidad
explicada por las : primeras coordenadas cannicas es
1
n
= 100
\ ()
n
\

= 100
`
1
+ +`
n
`
1
+ +`
j
.
16.4.3. Regiones condenciales
Sean v
t
i
=

)
t
i
Y. i = 1. . . . . :. las proyecciones cannicas de las estima-
ciones de las fpem. Podemos entender v
t
i
como una estimacin de )
+t
i
= )
t
i
Y.
la proyeccin cannica de )
i
. Podemos tambin encontrar regiones conden-
ciales para las )
+
i
. i = 1. . . . . q.
Sea 1 c el coeciente de conanza, 1
c
tal que 1(1 1
c
) = c. donde
1 sigue la distribucin F con j y (: q j + 1) g.l., y consideremos:
1
2
c
= 1
c
(: :)j
(: : j + 1)
.
Luego las proyecciones cannicas )
+
i
de las fpem pertenecen a regiones con-
denciales que son hiperesferas (esferas en dimensin 3, crculos en dimensin
2) de centros y radios
(v
i
. o
i
1
c
)
donde o
i
es la dispersin mnima (16.1) de la estimacin LS de )
i
.
16.5. Ejemplos
Ejemplo 16.5.1 Frmacos.
Se quiere hacer una comparacin de dos frmacos ansiolticos (Diazepan y
Clobazan) con un placebo, que indicaremos D, C, P. Las variables observables
son efectos secundarios en la conduccin de automviles: 1
1
=tiempo de
reaccin (segundos) a la puesta en rojo de un semforo, 1
2
=distancia mnima
(cm.) entre dos puntos que el conductor necesitaba para poder pasar por el
medio. Los datos sobre 8 individuos (media de varias pruebas) eran:
16.5. EJEMPLOS 285
Placebo Clobazan Diazepan
Individuo
1
2
3
4
5
6
7
8
1
1
1
2
.548 177.8
.619 184.4
.641 247.2
.628 163.4
.846 173.6
.517 167.2
.876 174.0
.602 158.6
1
1
1
2
.519 203.0
.776 164.8
.678 215.8
.595 153.6
.858 171.6
.493 166.0
.741 170.2
.719 157.2
1
1
1
2
.637 194.8
.818 175.2
.701 205.8
.687 152.2
.855 189.2
.618 181.0
.849 189.0
.731 184.6
Los datos se ajustan a un diseo de dos factores sin interaccin:
y
i)
= +o
i
+d
)
+o
i)
.
Interesa estudiar si hay diferencias signicativas entre los frmacos, y si las
hay, representarlos y compararlos. Es decir, queremos hacer un test sobre la
hiptesis H
0
: o
1
= o
2
= o
3
y representar las funciones estimables
)
1
= +o
1
. )
2
= +o
2
. )
3
= +o
3
.
La tabla MANOVA es:
g. l. matriz dispersin lambda F g. l.
Frmacos 2
_
.0275 1.97
309
_
.482 2.86 4 y 26
Individuos 7
_
.258 1.23
8474
_
.025 9.84 14 y 26
Residuo 14
_
.037 1.96
2221
_
Las diferencias entre frmacos y entre individuos son signicativas
Las estimaciones LS son:

)
1
= (.659. 180.8)
t
.

)
2
= (.672. 175.3)
t
.

)
3
= (.737. 184.0)
t
.
con dispersin (16.1): o
1
= o
2
= o
3
=
_
1,8 = 0.354. Los dos valores propios
de l
t
l respecto de

X son 1.684 y 0.108 y explican el 100 % de la variabilidad
geomtrica en dimensin 2. Las coordenadas y los radios de la representacin
286 CAPTULO 16. FUNCIONES ESTIMABLES MULTIVARIANTES
Figura 16.1: Representacin cannica de tres frmacos en un diseo de dos
factores.
cannica (izquierda) y las correlaciones entre variables observables 1
1
. 1
2
. 1
3
y cannicas \
1
. \
2
(derecha) son:
Frmaco 1
1
1
2
radio \
1
\
2
Placebo 19.73 8.91 0.86 1
1
.869 -.494
Clobazan 19.75 8.44 0.86 1
2
.296 .955
Diazepan 21.32 8.68 0.86
La representacin cannica indica que no hay diferencias entre P y C. En
cambio D se diferencia signicativamente de P. Puesto que las variables miden
efectos secundarios, resulta que C no los tiene, pero D s (Figura 16.1).
Ejemplo 16.5.2 Ratas experimentales.
Continuando con el ejemplo 15.7.1, vamos a realizar la representacin
cannica de los tres niveles de la temperatura. Los valores propios de l
t
l
respecto de

X son 2.529, 1.375, que explican el 100 % de la variabilidad
geomtrica (Figura 16.2). Las coordenadas y los radios de la representacin
cannica (izquierda) y las correlaciones entre variables observables 1
1
. 1
2
. 1
3
y cannicas \
1
. \
2
(derecha) son:
temp \
1
\
2
radio \
1
\
2
4 .539 .871 1.29 1
1
.395 .278
20 1.29 .091 1.29 1
2
.961 .276
34 .753 .779 1.29 1
3
.405 .653
16.5. EJEMPLOS 287
Figura 16.2: Representacin cannica de los efectos principales de las tem-
peraturas.
Ejemplo 16.5.3 Colepteros.
Continuando con el ejemplo 15.7.2, podemos hacer la representacin can-
nica de las 6 especies en 8 localidades, eliminando el efecto del sexo y de la
interaccin (datos en www.ub.edu/stat/personal/cuadras/escarab.txt). Los
dos primeros valores propios de l
t
l respecto de

X son 201.67 y 28.054,
que explican el 98.2 % de la variabilidad geomtrica (inercia), vase la Figura
16.3. Las coordenadas y los radios de la representacin cannica (izquierda)
y las correlaciones entre variables observables y cannicas (derecha) son:
Especie \
1
\
2
radio \
1
\
2
1 4.567 1.164 .342 1
1
.600 .115
2 3.760 .5129 .342 1
2
.661 .450
3 1.944 1.031 .418 1
3
.453 .698
4 2.613 1.536 .342 1
4
.804 .522
5 2.299 1.731 .342 1
5
.748 .522
6 1.705 .6381 .342
7 6.828 3.671 .503
8 10.06 2.475 .342
288 CAPTULO 16. FUNCIONES ESTIMABLES MULTIVARIANTES
Figura 16.3: Representacin canonica de 8 poblaciones (6 especies de
colepteros encontradas en 8 localidades distintas), eliminando el efecto del
dimorsmo sexual y de la interaccin.
Esta representacin permite visualizar las diferencias entre las especies, sin la
inuencia del dimorsmo sexual y de la interaccin especiesexo (Fig. 16.3).
16.6. Complementos
El teorema de Gauss-Markov se puede generalizar de diversas maneras al
caso multivariante. Ver Mardia et al. (1979), Rencher (1998).
La representacin cannica de funciones paramtricas estimables multi-
variantes fue propuesta por Cuadras (1974). Ver Cuadras et al. (1996) y otras
generalizaciones en Lejeune y Calinski (2000), Arenas y Cuadras (2004).
Bibliografa
[1] Albert, A. and J. A. Anderson (1984) On the existence of maximum
likelihood estimates in logistic regression models. Biometrika, 71, 1-19.
[2] Aluja, T., Morineau, A. (1999) Aprender de los datos: el anlisis de
componentes principales, una aproximacin desde el data mining. EUB,
Barcelona.
[3] Anderson, M. J. and T.J. Willis (2003) Canonical analysis of princi-
pal coordinates: a useful method of constrained ordination for ecology.
Ecology, 84, 511-525.
[4] Anderson, T. W. (1958) An Introduction to Multivariate Analysis. Wi-
ley, N. York.
[5] Anderson, T. W. and H. Rubin (1956) Statistical inference in factor
analysis. Proc. of the Third Berkeley Symposium on Math. Stat. and
Prob., 5, 111-150.
[6] Arenas, C. and C. M. Cuadras (2004) Comparing two methods for
joint representation of multivariate data. Comm. Stat. Comp. Simul.,
33, 415-430.
[7] Baillo, A. and A. Gran (2008) 100 Problemas Resueltos de Estadstica
Multivariante. Delta, Madrid.
[8] Bar-Hen, A. and J.-J. Daudin (1997) A test of a special case of typi-
cality in linear discriminant analysis. Biometrics, 53, 39-48.
[9] Bar-Hen, A. (2001) Preliminary tests in linear discriminant analysis.
Statistica, 4, 585593.
289
290 BIBLIOGRAFA
[10] Batista, J.M. and G. Coenders (2000) Modelos de Ecuaciones Estruc-
turales. La Muralla, Madrid.
[11] Benzecri, J. P. (1976) LAnalyse des Donnes. I. La Taxinomie. II.
LAnalyse des Correspondances. Dunod, Paris.
[12] Cailliez, F. (1983) The analytical solution of the additive constant prob-
lem. Psychometrika, 48, 305-308.
[13] Crdenas C. and M. P. Galindo Villardn. (2001) Biplot con informa-
cin externa basado en modelos bilineales generalizados. Universidad
Central de Venezuela, Caracas.
[14] Carmona, F. (2005) Modelos Lineales. Pub. Univ. de Barcelona,
Barcelona.
[15] Cooley, W. W. and P. R. Lohnes (1971) Multivariate Data Analysis.
Wiley, N. York.
[16] Cox, T. F. and M. A. A. Cox (1994) Multidimensional Scaling. Chap-
man and Hall, London.
[17] Cramer, E. M. and W. A. Nicewander (1979) Some symmetric, invari-
ant measures of multivariate association. Psychometrika, 44, 43-54.
[18] Critchley, F. and W. Heiser (1988) Hierarchical trees can be scaled
perfectly in one dimension. J. of Classication, 5, 5-20.
[19] Cuadras, C. M. (1974) Anlisis discriminante de funciones paramtricas
estimables. Trab. Esta. Inv. Oper., 25, 3-31.
[20] Cuadras, C. M. (1981) Mtodos de Anlisis Multivariante. Eunibar,
Barcelona. 3a Ed. EUB, Barcelona, 1996.
[21] Cuadras, C. M. (1988) Distancias estadsticas (con discusin) . Estads-
tica Espaola, 30, 295-378.
[22] Cuadras, C. M. (1989) Distance analysis in discrimination and classi-
cation using both continuous and categorical variables. In: Y. Dodge
(Ed.), Statistical Data Analysis and Inference, pp. 459473. Elsevier
Science Publishers B. V. (NorthHolland), Amsterdam.
BIBLIOGRAFA 291
[23] Cuadras, C. M. (1991) Ejemplos y aplicaciones inslitas en regresin y
correlacin. Qestii, 15, 367-382.
[24] Cuadras, C. M. (1992a) Probability distributions with given multivari-
ate marginals and given dependence structure. J. Multivariate Analy-
sis, 42, 51-66.
[25] Cuadras, C. M (1992b) Some examples of distance based discrimina-
tion. Biometrical Letters, 29, 3-20.
[26] Cuadras, C. M. (1993) Interpreting an inequality in multiple regression.
The American Statistician, 47, 256-258.
[27] Cuadras, C. M. (1995) Increasing the correlations with the response
variable may not increase the coecient of determination: a PCA in-
terpretation. In: E. Tiit, T. Kollo and H. Niemi (Eds), New Trends in
Probability and Statistics. Vol 3. Multivariate Statistics and Matrices
in Statistics, pp.75-83, VSP/TEV, The Netherlands.
[28] Cuadras, C. M. (1998) Multidimensional dependencies in ordination
and classication. In: K. Fernndez and E. Morinneau (Eds.), Analy-
ses Multidimensionnelles des Donnes, pp.15-26, CISIA-Ceresta, Saint
Mand (France).
[29] Cuadras, C. M. (2000) Problemas de Probabilidades y Estadstica. Vol.
2. EUB, Barcelona.
[30] Cuadras, C. M. (2002a) On the covariance between functions. J. of
Multivariate Analysis, 81, 19-27.
[31] Cuadras, C. M. (2002b) Correspondence analysis and diagonal expan-
sions in terms of distribution functions. J. of Statistical Planning and
Inference, 103, 137-150.
[32] Cuadras, C. M. (2005a) Continuous canonical correlation analysis. Re-
search Letters in Information and Mathematical Sciences, 8, 97-103.
[33] Cuadras, C. M. (2005b) First principal component characterization of
a continuous random variable. In: N. Balakrishnan, I. Bairamov and O.
Gebizlioglu,( Eds.). Advances on Models, Characterizations and Appli-
cations, pp. 189-199. Chapman & Hall/CRC-Press, New York.
292 BIBLIOGRAFA
[34] Cuadras, C. M. (2006) The importance of being the upper bound in
the bivariate family. SORT, 30, 55-84.
[35] Cuadras, C. M. (2008) Distance-based multisample tests for multivari-
ate data. In: Arnold, B. C., Balakrishnan, N., Sarabia, J. M., Mnguez,
R. (Eds.), Advances in Mathematical and Statistical Modeling, pp. 61-
71. Birkhauser, Boston.
[36] Cuadras, C. M. (2009) Constructing copula functions with weighted
geometric means. J. of Statistical Planning and Inference, 139, 3766-
3772.
[37] Cuadras, C. M. (2010) On the covariance between functions (correc-
tion). J. of Multivariate Analysis, 101, 1317-1318.
[38] Cuadras, C. M. (2011) Distance-based approach in multivariate associ-
ation. In: S. Ingrassia, R. Rocci, M. Vichi, (Eds.), New Perspectives in
Statistical Modeling and Data Analysis, pp. 535-542., Springer, Berlin.
[39] Cuadras, C. M. (2014) Nonlinear principal and canonical directions
from continuous extensions of multidimensional scaling. Open Journal
of Statistics, 4, 132-149.
[40] Cuadras, C. M. and C. Arenas (1990) A distance based regression
model for prediction with mixed data. Comm. Stat.-Theor. Meth., 19,
2261-2279.
[41] Cuadras, C. M., Atkinson, R. A. and J. Fortiana (1997) Probabili-
ty densities from distances and discriminant analysis. Statistics and
Probability Letters, 33, 405-411.
[42] Cuadras, C. M. and J. Aug (1981) A continuous general multivariate
distribution and its properties. Commun. Stat.-Theor. Meth, A10, 339-
353.
[43] Cuadras, C. M., Arenas, C. and J. Fortiana (1996) Some computational
aspects of a distance-based model for prediction. Comm. Stat.-Simul.
Comp., 25, 593-609.
[44] Cuadras, C. M. and F. Carmona (1983) Euclidean dimensionality of
ultrametric distances. Qestiio, 7, 353-358.
BIBLIOGRAFA 293
[45] Cuadras, C. M. and Cuadras, D. (2002) Orthogonal expansions and
distinction between logistic and normal. In: C. Huber-Carol, N. Bal-
akrishnan, M. S. Nikulin, M. Mesbah, (Eds.), Goodness-of-t Tests and
Validity Models, pp.325-338, Birkhauser, Boston.
[46] Cuadras. C. M. and D. Cuadras (2006) A parametric approach to cor-
respondence analysis. Linear Algebra and its Applications, 417, 64-74.
[47] Cuadras, C. M. and D. Cuadras (2011) Partitioning the geometric vari-
ability in multivariate analysis and contingency tables. In: B. Fichet,
D. Piccolo, R. Verde, M. Vichi, (Eds.), Classication and Multivariate
Analysis for Complex Data Structures, pp. 237-244. Springer, Berlin.
[48] Cuadras, C. M, Cuadras, D. and Y. Lahlou (2006) Principal directions
of the general Pareto distribution with applications. J. of Statistical
Planning and Inference, 136, 2572-2583.
[49] Cuadras, C. M. and J. Fortiana (1993a) Continuous metric scaling and
prediction. In: C.M. Cuadras and C.R. Rao (Eds.), Multivariate Analy-
sis, Future Directions 2, pp. 4766. Elsevier Science Publishers B. V.
(NorthHolland), Amsterdam.
[50] Cuadras, C. M. and J. Fortiana (1993b) Aplicacin de las distancias
en estadstica. Qestii, 17, 39-74.
[51] Cuadras, C. M. and J. Fortiana (1994) Ascertaining the underlying
distribution of a data set. In: R. Gutierrez and M.J. Valderrama (Eds.),
Selected Topics on Stochastic Modelling, pp. 223-230. World-Scientic,
Singapore.
[52] Cuadras, C. M. and J. Fortiana (1995) A continuous metric scaling
solution for a random variable. J. of Multivariate Analysis, 52, 114.
[53] Cuadras, C. M. and J. Fortiana (1996) Weighted continuous metric
scaling. In: Gupta, A. K. and V. L. Girko (Eds.), Multidimensional
Statistical Analysis and Theory of Random Matrices, pp. 2740. VSP,
Zeist, The Netherlands.
[54] Cuadras, C. M. and J. Fortiana (1998) Visualizing categorical data with
related metric scaling. In: J. Blasius and M. Greenacre, (Eds.), Visu-
alization of Categorical Data, pp. 365-376. Academic Press, N. York.
294 BIBLIOGRAFA
[55] Cuadras, C. M. and J. Fortiana (2000) The Importance of Geome-
try in Multivariate Analysis and some Applications. In: C.R. Rao and
G. Szekely, (Eds.), Statistics for the 21st Century, pp. 93-108. Marcel
Dekker, N. York.
[56] Cuadras, C. M. and J. Fortiana (2004) Distance-based multivariate
two sample tests. In: M. S. Nikulin, N. Balakrishnan, M. Mesbah, N.
Limnios (Eds.), Parametric and Semiparametric Models with Applica-
tions to Reliability, Survival Analysis, and Quality of Life, pp. 273-290.
Birkhauser, Boston.
[57] Cuadras, C. M., Fortiana, J. and M. Greenacre (2000) Continuous ex-
tensions of matrix formulations in correspondence analysis, with ap-
plications to the FGM family of distributions. In: R. D. H. Heijmans,
D. S. G. Pollock and A. Satorra, (Eds.), Innovations in Multivariate
Statistical Analysis, pp. 101-116. Kluwer Ac. Publ., Dordrecht.
[58] Cuadras, C. M., Cuadras, D. and M. Greenacre (2006) Comparison
of dierent methods for representing categorical data. Comm. Stat.-
Simul. and Comp., 35 (2), 447-459.
[59] Cuadras, C. M., Fortiana, J. and F. Oliva (1996) Representation of sta-
tistical structures, classication and prediction using multidimensional
scaling. In: W. Gaul, D. Pfeifer (Eds.), From Data to Knowledge, pp.
20-31. Springer, Berlin.
[60] Cuadras, C. M., Fortiana, J. and F. Oliva (1997) The proximity of an
individual to a population with applications in discriminant analysis.
J. of Classication, 14, 117-136.
[61] Cuadras, C. M. and Y. Lahlou (2000) Some orthogonal expansions for
the logistic distribution. Comm. Stat.-Theor. Meth., 29, 2643-2663.
[62] Cuadras, C. M. and J. M. Oller (1987) Eigenanalysis and metric mul-
tidimensional scaling on hierarchical structures. Qestii, 11, 37-57.
[63] Cuadras, C. M. and M. Snchez-Turet (1975) Aplicaciones del anlisis
multivariante cannico en la investigacin psicolgica. Rev. Psicol. Gen.
Aplic., 30, 371-382.
BIBLIOGRAFA 295
[64] Cuadras, C. M., Valero, S., Cuadras, D., Salembier, P. and J. Chanus-
sot (2012) Distance-based measures of association with applications in
relating hyperspectral images. Comm. Stat., Theor.- Meth., 41, 2342
2355.
[65] Chatterjee, S. and B. Price (1991) Regression Analysis by Example.
Wiley, N. York.
[66] De Cceres, M., Oliva, F. and X. Font (2006) On relational possibilistic
clustering. Pattern Recognition, 39, 2010-2024.
[67] Eckart, C. and G. Young (1936) The approximation of one matrix for
another of lower rank. Psychometrika, 1, 211-218.
[68] Efron, B. (1975) The ecency of logistic regression compared to normal
discriminant analysis. J. of the American Statistical Association, 70,
892-898.
[69] Escoer, B. and J. Pags (1990) Analyses Factorielles Simples et Mul-
tiples. Dunod, Paris.
[70] Escouer, Y. (1973) Le traitement des variables vectorielles. Biomet-
rics, 29, 751-760.
[71] Everitt, B.S. (1993) Cluster Analysis. Edward Arnold, London.
[72] Flury, B. (1997) A First Course in Multivariate Statistics. Springer, N.
York.
[73] Fortiana, J. and C. M. Cuadras (1997) A family of matrices, the dis-
cretized Brownian Bridge and distance-based regression. Linear Algebra
and its Applications, 264, 173-188.
[74] Friendly, M. (1994) Mosaic displays for multi-way contingency tables.
J. of the American Statistical Association, 89, 190200.
[75] Friendly, M. (1999) Extending mosaic displays: Marginal, conditional,
and partial views of categorical data. J. of Computational and Graph-
ical Statistics, 8, 373395.
[76] Friendly, M. (2007) HE plots for multivariate linear models. J. of Com-
putational and Graphical Statistics, 16, 421-444.
296 BIBLIOGRAFA
[77] Gabriel, K. R. (1971) The biplot graphic display of matrices with ap-
plication to principal component analysis. Biometrika, 58, 453-467.
[78] Galindo Villardn, M. P. (1986) Una alternativa de representacin si-
multnea: HJ-Biplot. Qestii, 10, 13-23.
[79] Gittings, R. (1985) Canonical Analysis. A Review with Applications in
Ecology. Springer-Verlag, Berlin.
[80] Golub, G. H. and C. Reinsch (1970) Singular value decomposition and
least squares solutions. Numerische Mathematik, 14 (5), 403420.
[81] Gordon, A. D. (1999) Classication. Chapman and Hall, London.
[82] Gower, J. C. (1966) Some distance properties of latent roots and vector
methods in multivariate analysis. Biometrika, 53, 315-328.
[83] Gower, J. C. (1971a) A general coecient of similarity and some of
its properties. Biometrics, 27, 857-871.
[84] Gower, J. C. (1971b) Statistical methods of comparing dierent mul-
tivariate analyses of the same data. In: F.R. Hodson, D.G. Kendall,
P. Tautu (Eds.), Mathematics in the Archaeological and Historical Sci-
ences, pp. 138-149. Edinburgh University Press, Edinburgh.
[85] Gower, J. C. and D. J. Hand (1996) Biplots. Chapman and Hall, Lon-
don.
[86] Gower, J. C., Lubbe, S. and le Roux, N. (2011) Understanding Biplots.
Wiley, N. York.
[87] Graelman, J. (2001) Quality statistics in canonical correspondence
analysis. Environmetrics, 12, 485-97.
[88] Greenacre, M. J. (1984) Theory and Applications of Correspondence
Analysis. Academic Press, London.
[89] Greenacre, M. J. (2008) La Prctica del Anlisis de Correspondencias.
Fundacin BBVA - Rubes Ed., Barcelona.
[90] Greenacre, M. J. (2010) Biplots in Practice. Fundacin BBVA - Rubes
Ed., Barcelona.
BIBLIOGRAFA 297
[91] Harman, H. H. (1976) Modern Factor Analysis. The Univ. Chicago
Press, Chicago, 3a ed.
[92] Hartigan, J. A. (1967) Representation of similarity matrices by trees.
J. of the American Statistical Association, 62, 1140-1158.
[93] Hastie, T. and R. J. Tibshirani (1990) Generalized Additive Models.
Chapman and Hall, London.
[94] Hill, M. O. (1973) Reciprocal averaging: an eigenvector method of or-
dination. J. of Ecology, 61, 237-249.
[95] Holman, E. W. (1972) The relation between Hierarchical and Euclidean
models for psychological distances. Psychometrika, 37, 417-423.
[96] Hosmer, D. W. and S. Lemeshow (2000) Applied Logistic Regression,
2nd Edition. Wiley, N. York.
[97] Hotelling, H. (1936) Relations between two sets of variates. Biometrika,
28, 321-377.
[98] Huitson, A. (1966) The Analysis of Variance. Charles Grin, London.
[99] Hutchinson, T. P. and C. D. Lai (1991) The Engineering Statisticians
Guide to Continuous Bivariate Distributions. Rumsby Scientic Pub.,
Adelaide.
[100] Irigoien, I. and C. Arenas (2008) INCA: New statistic for estimating the
number of clusters and identifying atypical units. Statistics in Medicine,
27, 2948-2973.
[101] Jauregui, E., Irigoien, I., Sierra, B., Lazkano, E. and C. Arenas (2011)
Loop-closing: A typicality approach. Robotics and Autonomous Sys-
tems 59, 218-227.
[102] Joe, H. (1997) Multivariate Models and Dependence Concepts. Chap-
man and Hall, London.
[103] Johnson, S. C. (1967) Hierarchical clustering schemes. Psychometrika,
32, 241-254.
298 BIBLIOGRAFA
[104] Joreskog, K. (1967) Some contributions to maximum likelihood factor
analysis. Psychometrika, 32, 443-482.
[105] Joreskog, K. (1969) A general approach to conrmatory maximum like-
lihood factor analysis. Psychometrika, 34, 183-202.
[106] Joreskog, K. (1970) A general method for analysis of covariance struc-
tures. Biometrika, 57, 239-251.
[107] Joreskog, K, Sorbom, D. (1999) LISREL 8: A Guide to the Program
and Applications. Scientic Software International, Inc., Chicago.
[108] Krzanowski, W. J. (1975) Discrimination and classication using both
binary and continuous variables. J. of the American Statistical Associ-
ation, 70, 782-790.
[109] Krzanowski, W. J. (1980) Mixtures of continuous and categorical vari-
ables in discriminant analysis. Biometrics, 36, 493-499.
[110] Krzanowski, W. J. (1988) Principles of Multivariate Analysis: A users
perspective. Oxford Clarendon Press, Oxford.
[111] Krzanowski, W. J. and D. Radley (1989) Nonparametric condence and
tolerance regions in canonical variate analysis. Biometrics, 45, 1163-
1173.
[112] Lancaster, H. O. (1969) The Chi-Squared Distribution. J. Wiley, N.
York.
[113] Lawley, D. N. and A. E. Maxwell. (1971) Factor Analysis as a Statistical
Method. Butterworth, London.
[114] Lebart, L., Morineau, A. and N. Tabard (1977) Techniques de la De-
scription Statistique. Dunod, Paris.
[115] Leujene, M. and T. Calinski (2000) Canonical analysis applied to mul-
tivariate analysis of variance. J. of Multivariate Analysis, 72, 100-119.
[116] Light, R. J. and B. H. Margolin (1971) An analysis of variance for
categorical data. J. of the American Statistical Association, 66, 534-
544.
BIBLIOGRAFA 299
[117] Longford, N. T. (1994) Logistic regression with random coecients.
Computational Statistics and Data Analysis, 17, 1-15.
[118] Manzano, M. and J. Costermans (1976) Dos mtodos para el estudio
psicolgico del lxico: su aplicacin a algunos adjetivos de la lengua
espaola. Revista Latinoamericana de Psicologa, 8, 171-191.
[119] Mardia, K. V., Kent, J. T. and J. M. Bibby (1979) Multivariate Analy-
sis. Academic Press, London
[120] McLachlan, G. J. (1992) Discriminant Analysis and Statistical Pattern
Recognition. Wiley, N. York.
[121] Muirhead, R. J. (1982) Aspects of Multivariate Statistical Theory. Wi-
ley, N. York.
[122] Nelsen, R. B. (2006) An Introduction to Copulas. Springer, N. York,
Second Edition.
[123] Oliva, F., Bolance, C. and L. Diaz (1993) Aplicaci de lanlisi multi-
variante a un estudi sobre les llenges europees. Qestii, 17, 139-161.
[124] Oller, J. M. (1987) Information metric for extreme values and logistic
distributions. Sankhya, 49 A, 17-23.
[125] Oller, J. M. and C. M. Cuadras (1985) Raos distance for negative
multinomial distributions. Sankhya, 47 A, 75-83.
[126] Pea, D. (1989) Estadstica Modelos y Mtodos 2. Modelos Lineales y
Series Temporales. Alianza Universidad Textos, 2a Ed., Madrid.
[127] Pea, D. (2002) Anlisis de Datos Multivariantes. McGraw Hill Inter-
americana, Madrid.
[128] Quesada-Molina, J. J. (1992) A generalization of an identity of Hoed-
ing and some applications. J of the Italian Stat. Society, 3, 405-411.
[129] Rao, C. R. (1952) Advanced Statistical Methods in Biometric Research.
Wiley, N. York.
[130] Rao, C. R. (1973) Linear Statistical Inference and their Applications.
Wiley, N. York.
300 BIBLIOGRAFA
[131] Rao, C. R. (1995) A review of canonical coordinates and an alternative
to correspondence analysis using Hellinger distance. Qestii, 19, 23-
63.
[132] Rencher, A. C. (1995) Methods of Multivariate Analysis. Wiley, N.
York.
[133] Rencher, A. C. (1998) Multivariate Statistical Inference and Applica-
tions. Wiley, N. York.
[134] Rummel, R. J. (1963) The dimensions of conict behavior within and
between nations. General Systems Yearbook, 8, 1-50.
[135] Snchez-Turet, M. and C. M. Cuadras (1972) Adaptacin espaola del
cuestionario E.P.I. de Eysenck. Anuario de Psicologa, 6, 31-59.
[136] Satorra, A. (1989) Alternative test criteria in covariance structure
analysis: A unied approach. Psychometrika, 54, 131-151.
[137] Sche, H. (1959) The Analysis of Variance. Wiley, N. York.
[138] Seal, H. L. (1964) Multivariate Statistical Analysis for Biologists.
Methuen and Co. Ltd., London.
[139] Seber, G. A. F. (1977) Linear Regression Analysis. Wiley, N. York.
[140] Seber, G. A. F. (1984) Multivariate Observations. Wiley, N. York.
[141] Spearman, Ch. (1904) General intelligence objetively determined and
measured. American J. of Psychology, 15, 201-293.
[142] Tibshirani, R., Walther, G. and T. Hastie (2001) Estimating the num-
ber of clusters in a data set via the gap statistic. J. R. Stat. Soc. B,
63, 411-423.
[143] Torrens-Ibern, J. (1972) Modles et Mthodes de lAnalyse Factorielle.
Dunod, Paris.
[144] van der Heijden, P. G. M. and J. de Leuw (1985) Correspondence analy-
sis used complementary to loglinear analysis. Psychometrika, 50, 429-
447.
[145] Waller, N. G. (2011) The geometry of enhancement in multiple regres-
sion. Psychometrika, 76, 634-649.
ndice alfabtico
Anlisis factorial
mltiple, 93
simple, 97
aproximacin
a la distribucin F, 36
de Eckart-Young, 22
biplot, 88, 94
coeciente
de Pearson, 171
procrustes, 24, 75
componentes principales
comunes, 93
denicin, 77
distribucin, 83
comunalidad, 98, 101
coordenadas
cannicas, 127, 283
principales, 140, 165
correccin de Box, 130
correlacin
cannica, 67
cannica generalizada, 277
mltiple, 64
simple, 15
vectorial, 75
correspondencias
mltiples, 173
simples, 166
curva
especicidad, 229
ROC, 229
sensibilidad, 228
dendograma, 191
descomposicin
espectral, 21
singular, 21
desigualdad
de Cramr-Rao, 43
triangular, 137, 191
ultramtrica, 190
discriminador
Bayes, 214
cuadrtico, 215
lineal, 212
distancia, 19
ciudad, 148
de Bhattachariyya, 150
de Mahalanobis, 19, 126, 136, 166,
215, 282
de Pearson, 19, 136
de Prevosti, 155
de Rao, 152
dominante, 148
Eucldea, 19, 80, 148
ji-cuadrado, 165
distribucin
F de Fisher-Snedecor, 34, 35
de Hotelling, 34, 53
301
302 NDICE ALFABTICO
de Wilks, 35, 271
de Wishart, 33
elptica, 41
multinomial, 38
normal bivariante, 32
normal multivariante, 30
ecuaciones
de verosimilitud, 109
normales, 243, 266
ejemplos
adjetivos, 157, 205
rboles, 25, 60
asignaturas, 103, 108, 113, 116
bebs, 229
colepteros, 132, 276, 287
colores cabello y ojos, 169
coppodos, 216
corredores, 91
diagnosis, 238
distancia gentica en Drosophila,
154
elecciones, 72
estudiantes, 89
familias, 27, 71
frmacos, 284
ores, 55, 220
herramientas prehistricas, 153
idiomas, 204
intencin de voto, 175
moscas, 54
partidos, 189
profesores, 202
ratas experimentales, 274, 286
test de capacidad, 117
Titanic, 177, 263
espacio ultramtrico, 190
factor
nico, 98, 100
comn, 98, 100
en diseos factoriales, 253, 255,
257
falacia ecolgica, 136
funcin
de verosimilitud, 43, 44, 51, 109
estimable multivariante, 281
estimable univariante, 279
score, 43
HE plot, 278
Heywood, caso de, 103, 108
hiptesis lineal, 247, 269
interaccin, 257
inversa generalizada, 21, 38, 150, 163
jerarqua indexada, 188
matriz
centrada, 15
de Burt, 173, 175
de correlaciones, 16, 98
de covarianzas, 16
de dispersin dentro grupos, 47,
272
de dispersin entre grupos, 47, 272
de distancias Eucldeas, 138
de informacin de Fisher, 44
medicin de factores
de Anderson-Rubin, 116
de Bartlett, 115
por mnimos cuadrados, 115
medidas de variabilidad
variacin total, 18, 79
varianza generalizada, 18
NDICE ALFABTICO 303
mtodo
de las medias mviles, 207
del factor principal, 107
del mximo, 199
del mnimo, 197
exible, 209
modelo
de regresin logstica, 224
de regresin mltiple, 245
lineal, 241
log-lineal, 261
logstico, 224
multifactorial, 100
Thurstone, 151
unifactorial, 98
mosaicos, 184
nmero
de clusters (conglomerados), 207
de componentes principales, 86
de correlaciones cannicas, 69
de factores comunes, 110
de variables cannicas, 130
paradoja
de Rao, 57
de Stein, 61
preordenacin, 145
principio
de equivalencia distribucional, 183
de parsimonia, 106
de unin-interseccin, 53, 61, 70,
278
probabilidad de clasicacin errnea,
211, 213, 215
razn de verosimilitud, 51
realce en regresin mltiple, 94
regla
basada en distancias, 235
de Bayes, 213, 220
discriminacin logstica, 225
discriminante, 211
mxima verosimilitud, 212, 219
relaciones tetrdicas, 99
rotacin
biquartimin, 112
covarimin, 112
oblicua, 112
ortogonal, 111
promax, 113
quartimax, 111
quartimin, 112
varimax, 111
similaridad, coeciente de
denicin, 143
Dice, 149
Gower, 151, 238
Jaccard, 144
Sokal y Michener, 144
Sokal-Sneath, 149
tablas concatenadas, 184
teorema
de Cochran, 47
de Craig, 49
de Fisher, 49
de Gauss-Markov, 280
de la dimensin, 17
de Thurstone, 105
de Wilks, 51
test
comparacin de dos medias, 46
comparacin de medias, 52
de Bartlett, 61, 130
de Bartlett-Lawley, 69
304 NDICE ALFABTICO
de esfericidad, 87
de razn de verosimilitud, 51
de Wald, 227
independencia, 52, 69, 85
sobre la covarianza, 84
sobre la media, 45
tipicalidad, 239
transformacin
cannica, 126
componentes principales, 78, 81
lineal, 16
procrustes, 24, 117
unicidad, 101
valores singulares, 21, 68, 88, 164
variabilidad geomtrica (inercia), 80,
81, 127, 142, 171
variable
cannica, 67
compuesta, 16, 78

You might also like