You are on page 1of 15

CAPTULO 1: Anlisis de un Estudio

55

1.4 ANALISIS CANNICO DE POBLACIONES Y

CAPTULO 1: Anlisis de un Estudio

56

Estudiar de la dimensionalidad de la hiptesis alternativa en el


MANOVA.

MTODOS RELACIONADOS.
Si se pretende usar el ACPO desde el punto de vista descriptivo no se

1.4.1 Introduccin.

necesitan suposiciones sobre la distribucin de los datos, aunque conviene que


no se desven de ciertas normas. Si el propsito es inferencial, la distribucin

El Anlisis Cannico de Poblaciones (ACPO), forma parte de una serie de

conjunta de las variables debe ser normal multivariante y las matrices de

tcnicas destinadas a clasificar o a explicar clasificaciones de individuos,

dispersin dentro de los grupos han de ser homogneas.

caracterizados por cierto nmero de variables numricas o nominales. Puede


considerarse como un mtodo que es a la vez descriptivo y predictivo.

El Anlisis Cannico de Poblaciones est relacionado con diferentes tcnicas


multivariantes, entre las que se pueden enumerar las siguientes:

El origen del mtodo se remonta a FISHER (1936), o en forma ms directa a

- El Anlisis Multivariante de la Varianza (MANOVA), el cual contrasta

MAHALANOBIS (1936). Es uno de los mtodos ms usados, y ha recibido

la hiptesis de igualdad entre los vectores de medias de los distintos

por los autores diferentes nombres, tales como: Anlisis de Variables

grupos de individuos.

Cannicas (GITTINS, 1985; KRZANOWSKI, 1988; GOWER, 1989) o

- El Anlisis Discriminante Lineal, el cual busca construir una funcin,

Anlisis Factorial Discriminante (LEBART et al, 1995) y Anlisis Cannico

generalmente combinacin lineal de las variables de partida. A travs

de Poblaciones (CUADRAS, 1996) entre otros muchos.

de dicha funcin se debe poder asignar un nuevo individuo a uno de los


grupos definidos a priori.

Puede decirse que el ACPO es una tcnica que permite estudiar la estructura

- El Anlisis de Componentes Principales. El Anlisis Cannico de

de varios grupos de individuos con respecto a un conjunto de variables

Poblaciones puede considerarse como un Anlisis de Componentes

observadas, proyectando el espacio Eucldeo generalizado en un espacio

Principales de una matriz cuyas filas corresponden a los centros de

Eucldeo. La condicin que se impone es que la separacin entre los distintos

gravedad de los grupos en el espacio de las variables. La matriz de

grupos sea mxima, con respecto a la variabilidad dentro de los grupos.

mtricas para los individuos, es la inversa de la matriz de varianzas-

Basado en lo anterior puede decirse que este anlisis pretende:

covarianzas dentro de los grupos y la de las variables es la matriz

- Hallar una ordenacin de los grupos de individuos cada uno


representado por el vector de las medias en todas las variables.
- Hallar combinaciones lineales de las variables de partida con mximo
poder discriminante entre los grupos.

diagonal, cuyos trminos de la diagonal son los tamaos maestrales de


cada uno de los grupos (LEBART et al, 1995).

CAPTULO 1: Anlisis de un Estudio

57

CAPTULO 1: Anlisis de un Estudio

58

La matriz X , de orden (G ! J ) , tiene en cada fila el vector de medias de las

1.4.2 Anlisis Cannico de Poblaciones.

variables de cada grupo. La matriz de varianzas-covarianzas dentro de los


Supongamos que se tienen observaciones en las variables X 1,X 2 ,...,X J para

grupos se define como:

una muestra de individuos que estn en G grupos, donde el c-simo grupo es


de

tamao

ng

con

g = 1,2,..., G ,

el

total

de

la

muestra

es

S=

I = n1 + n2 + ... + nG .
Sean x = ( X 1 , X 2 ,..., X J ) el vector que representa el conjunto de variables,

X ( I ! J ) la matriz que representa el conjunto de observaciones, y Z una matriz


de tamao ( I ! G ) de indicadores de las G grupos (variables ficticias) dada

G
T
1
1
XT X " X D X =
! (ng " 1)S g
(I " G)
( I " G ) g =1

(1.4.4)

en donde S g es la matriz de covarianzas dentro de cada grupo g , con

[ ]

g = 1,2,..., G ; es decir, S g = s jj ' para j , j ! = 1,2,..., J , donde s jj ! est dada


por:

por

s jj ' =
&1
$0
ZT = $
$"
$
%0

!
!
!
!

1
0
"
0

0
1
"
0

!
!
!
!

0
1
"
0

!
!
!
!

0
0
"
1

!
!
!
!

0#
0!
!
"!
!
1"

(1.4.1)

1
= ! ( xij # x gj )( xij # x gj )
(nc # 1) i"n g

y x gj es la media de la variable j en el grupo g y n g es un contador de los


individuos del grupo respectivo.

Sin prdida de generalidad, es posible suponer que las columnas de X estn

La matriz de covarianzas entre los grupos se define como:

centradas; es decir, tienen media cero. Definimos:


T

D = Z Z = diag (n1 , n2 ,..., nG )

(1.4.2)

H=

T
1
X DX
(G ! 1)

La matriz de medias de los grupos,

Si se tienen dos variables v y v

j'

(1.4.5)

en el espacio de las variables de partida

X 1 , X 2 ,..., X J y una matriz S de covarianzas, definida positiva. A la matriz


!1

X = (D) Z X

(1.4.3)

cov S ( v j , v j ' ) = v j Sv j ' la llamamos covarianza entre v j y v j ' relativa a S .


A la matriz varS ( v j ) = v j Sv j ' la llamamos la varianza de v j relativa a S

CAPTULO 1: Anlisis de un Estudio

59

CAPTULO 1: Anlisis de un Estudio

60

(H ! " S )v = 0

Se pretende, basados en las medidas de las variables X 1 , X 2 ,..., X J

(1.4.7)

consideradas simultneamente, separar los grupos tanto como sea posible.


Para lograr este propsito, se plantea una transformacin del vector de

(usamos !2 en lugar de ! para facilitar la relacin con los valores singulares

variables de partida x , en una nueva variable, la cual haga mxima la

en captulos posteriores). Premultiplicando a ambos lados de la ecuacin

variabilidad entre los grupos relativa a la variabilidad dentro de ellos. Si la

anterior por v T se obtiene:

transformacin la denotamos por y = v' x ; lo que se busca es hallar el


mximo de la funcin:

v T Hv = !2 v T Sv
g ( v) =

vT H v
vT S v

(1.4.6)

lo que es lo mismo,

v T Hv = !2

La funcin g (v ) que se quiere maximizar es una relacin de la varianza entre


los grupos, sobre la varianza dentro de los grupos. Esta es una funcin
homognea de grado cero en v y adems invariante a cambios de escala. Para
hacer que la solucin sea nica imponemos la restriccin v T Sv = 1 , es decir
se restringe la solucin a vectores con longitudes unitarias respecto a la matriz

lo cual significa que el mximo buscado es !2 .


Siempre que S sea no singular, la ecuacin (1.4.7) se puede escribir como:

de covarianzas S (esto significa adems que, la variabilidad dentro de los

(S

grupos en la contribucin lineal es igual a 1).


El vector v que maximiza la funcin g (v ) , con la restriccin v T Sv = 1 , es
una solucin de la ecuacin1:

!1

H ! "2 I v = 0

Esto es, el vector v que maximiza g (v ) es el vector propio de la matriz

(S !1H ) asociado al mayor valor propio !2 . A la transformacin asociada al


vector v correspondiente al mximo vector propio se le denomina primera
variable cannica.

Aplicando los multiplicadores de Lagrange, se trata de maximizar la funcin

L = v T Hv ! "2 ( v T Sv ! 1) , la cual al derivarla con relacin a v e igualando a cero

conduce a la ecuacin 2Hv ! 2"2 Sv = 0 y finalmente a H ! "2S v = 0 .

La segunda variable cannica puede obtenerse del vector propio asociado al


segundo valor propio ms grande de (S !1H ) y as se construyen las dems

CAPTULO 1: Anlisis de un Estudio

61

variables cannicas sucesivamente. El nmero posible de variables cannicas

CAPTULO 1: Anlisis de un Estudio

62

con q = S1/2 v y qT q = 1 .

!1

es igual r = rango (S H ) .
La expresin anterior significa que q es un vector propio de la matriz
!1

Como la matriz (S H ) es no simtrica, su descomposicin espectral puede

S !1/2 H S !1/2 correspondiente al valor propio !2 , y

hallarse utilizando la diagonalizacin de la matriz S !1/2 HS !1/2 (CUADRAS,

v = S !1/2q .

1996 y GITTINS, 1985).


Si partimos de la ecuacin ( H ! " S) v = 0 esta puede escribirse como:
2

S !1/2 (H ! "2S) v = 0

Donde adems, v Sv = q S
T

!1/2

S S !1/2 q = q T q = 1

A v se le denominan ponderaciones cannicas y, si se construye la matriz

V = [v1 , v 2 ,..., v r ] con todos los vectores propios correspondientes a los

tambin,

(S

!1/2

H ! " S )v = 0
2 1/2

valores propios no nulos, se tienen las ponderaciones para todas las variables
cannicas, (donde r = rango(H ) ), y se cumple que

que tambin es equivalente a:

V T SV = I r

(S !1/2 HS !1/2S1/2 ! "2S1/2 ) v = 0


La condicin anterior si r = J se puede escribir como VV T = S !1
y puede expresarse como:
Todas las combinaciones lineales de una muestra con valores x estn dadas

(S

!1/2

HS

!1/2

! " I )S v = 0
2

1/2

(1.4.8)

por:

y = xV
Pero esta igualdad se puede escribir como,
sta da una transformacin del espacio de variables originales en un conjunto

[S

!1/2

HS

!1/2

!" I q =0

de variables conocidas con el nombre de variables cannicas. Al espacio


generado por estas variables se le denomina espacio cannico. La proyeccin
de las medias de cada grupo sobre el espacio cannico se calcula como

CAPTULO 1: Anlisis de un Estudio

63

CAPTULO 1: Anlisis de un Estudio

64

Sustituyendo, H de la ecuacin (1.4.5) se obtiene:

Y = XV

(HS !1 ! "2 I ) v = 0

La proyeccin de todo el conjunto de individuos sobre el espacio cannico se


calcula como X V.
que se puede expresar como:
Como:
T

Y Y = XVV T X = X S !1 X

S !1/2 (HS !1/2S !1/2 ! "2S1/2S !1/2 ) v = 0


y tambin,

Las distancias eucldeas entre las medias en el espacio de las variables


cannicas coincide con la distancia de Mahalanobis en el espacio de las

(S !1/2 HS !1/2 ! "2 I )S !1/2 v = 0

(1.4.9)

variables originales. As que el espacio de las variables cannicas se puede


pensar como un espacio Eucldeo.

de donde se puede deducir que q = S


!1/2

HS

!1/2

!1/2

v es un vector propio de

correspondiente al valor propio ! y v = S q . Esta expresin


2

Adems, dado que H es la matriz de covarianzas entre los grupos, lo que se

obtiene es la transformacin ortogonal que hace mxima la separacin entre

coincide con el resultado obtenido en la ecuacin (1.4.8).

1/2

los grupos, pero relativa la variabilidad dentro de estos.


Una caracterstica importante del Anlisis Cannico de Poblaciones, es la
El Anlisis Cannico de Poblaciones puede adems considerarse como un

posibilidad de representar la muestra en un espacio con pocas dimensiones. Si

Anlisis de Componentes Principales particular. Si en la ecuacin (1.2.2)

se decide retener s variables cannicas, con s ! r la proyeccin de un punto

reemplazamos

!1

M f por S ,

X por X

DG = diag (n1 /(G ! 1),..., nG /(G ! 1) , se obtiene:


!1

!1

!1

D por DG

con

x i en este sub-espacio est dada por Vx i (i = 1,2,..., I ) , donde V est dada

por V = v1 v 2 | ... | v s y la proyeccin del centroide del g-simo grupo

x g = x g1 , x g 2 ,..., x g J ( g = 1,2,..., G ) , se obtienen de la expresin: VxTg .

S X DG X S v ! " S v = 0
2

Cuando s = 2 o s = 3 , la representacin de las variables cannicas


La cual se puede expresar como:

proporciona un resumen visual de las relaciones entre los grupos; estas


representaciones

"1

( X DG X)S v = ! v

requieren

algunas

suposiciones

mnimas

para

su

construccin, una de ellas es la eleccin adecuada de la distancia a usar en la

CAPTULO 1: Anlisis de un Estudio

65

CAPTULO 1: Anlisis de un Estudio

66

especificacin de las relaciones entre los grupos. El grfico puede revelar la

Sea X la matriz de tamao (G ! J ) , definida en la ecuacin (1.4.3) y cuyas

forma y dispersin de cada grupo, y adems permite descubrir si los grupos

filas son las medias de los G grupos en las J variables y donde los datos

estn o no solapados.

previamente han sido centrados por columnas.

Cuando para cada grupo de individuos, la distribucin de las variables es

Suponemos que las G poblaciones de las que se han obtenido las muestras

aproximadamente normal J-variante, se pueden construir los elipsoides de

que constituyen cada uno de los grupos tienen matrices de covarianzas comn,

confianza para cada grupo. Una representacin grfica de las variables


cannicas puede verse en la Figura 1.3.

que se estima como la matriz de covarianzas dentro de los grupos, que hemos
denotado por S y definido en la ecuacin (1.4.4). La distribucin de este
estimador tiene ( I ! G ) grados de libertad

v2

El objetivo inicial es contrastar la hiptesis de igualdad de los vectores de

X3

medias de los grupos. En forma general se puede plantear como contrastes

X2

entre las filas o combinaciones lineales de las columnas de la matriz de


X1

v1

medias, respectivamente.
En un MANOVA las medias de la muestra adems de centradas estn

Figura 1.3: Representacin grfica del Anlisis de variables Cannicas.

1.4.3 Comparacin del ACPO con el MANOVA.

ponderadas por los tamaos muestrales de cada grupo y por la inversa de la


raz cuadrada de la matriz de covarianzas dentro de los grupos S (GABRIEL,
1995). El MANOVA busca la combinacin lineal que hace mxima la F de
Snedecor univariante. Dicha combinacin lineal es la misma que se obtiene en

El Anlisis Multivariante de la Varianza (MANOVA), es un mtodo usado


para contrastar la igualdad entre G vectores de medias. Si los datos
corresponden a distribuciones con J dimensiones estos han de ser normales
con matriz de covarianzas dentro de los grupos comn. El inters al incluir

el Anlisis Cannico de Poblaciones.


El MANOVA se obtiene calculando la descomposicin en valores singulares
de la matriz:

este anlisis en este apartado es debido a su estrecha relacin con el Anlisis


Cannico de Poblaciones.

Y = D1 / 2 XS !1/2 = P QT

(1.4.10)

CAPTULO 1: Anlisis de un Estudio

67

CAPTULO 1: Anlisis de un Estudio

68

La relacin de esta descomposicin y el MANOVA est en que los test para

se demostr en el apartado anterior, se puede mirar como un Anlisis de

contrastar la igualdad de los vectores de medias de los grupos son funciones

Componentes Principales de la matriz de Medias X con mtricas para los

de los valores singulares !r con r = 1,..., ! y ! = rango(Y ) en la siguiente

grupos la matriz S , la inversa de la matriz de covarianzas dentro de los

forma:

grupos, y para las variables la matriz diagonal con los tamaos de los grupos

! es la mayor raiz caracterstica de Roy.

To2 = ! #2r es la traza de Lawley- Hotelling.

2
1

!1

(salvo el factor 1 /(G ! 1) ). Por otra parte la solucin obtenida se puede

"

obtener con la descomposicin en valores propios que a su vez est

r =1

relacionada con la descomposicin en valores singulares de la matriz de


medias con las mtricas dadas. Esta descomposicin no es otra que la de la

Estos test son vlidos para muestras de poblaciones normales o para muestras

matriz Y con respecto a las mtricas dadas por la matriz identidad es decir, la

suficientemente grandes, adems de la condicin de homogeneidad de

descomposicin en valores singulares ordinaria (GREENACRE, 1984;

matrices de covarianzas dentro de los grupos.

TAKANE y HUNTER; 2001).

La distribucin de T02 depende de F , mH = G y mE = n ! r . Los valores

Por tanto el MANOVA permite realizar test de igualdad de los vectores de

crticos pueden hallarse en SEBER (1984). Tambin McKEON (1974) ha


demostrado que T02 se puede aproximar por una distribucin F con a y b
grados de libertad,

medias y el Anlisis Cannico de poblaciones construye los ejes de mayor


separacin de los grupos representados por esos vectores de medias, pero
ambos mtodos utilizan la misma matriz de datos transformada para realizar el
anlisis. En el primero tenemos suposiciones respecto a la distribucin
multinormal y a la homogeneidad de las matrices de covarianzas de los datos

1 2
To ~ Fa , b
c
a = smH ,

b = 4 + (a + 2) /( B ! 1) ,

y en el segundo se puede realizar sin tener en cuenta dichas suposiciones.

c = a (b ! 2) /((mE ! F ! 1)) ,

Por otra parte de la descomposicin de la matriz Y , la matriz de las medias de


los grupos se puede expresar como:

B = (mE + mH ! F ! 1)(mE ! 1) /((mE ! F ! 3)(mE ! F )) . La distribucin

F es exacta si s = 1.
Como puede verse en este planteamiento del MANOVA, los test estadsticos
estn relacionados con los valores singulares de la matriz Y dada en la
ecuacin (1.4.10). Por otra parte el Anlisis Cannico de Poblaciones, como

X = D !1/2 P" Q'S1/2


La cual se puede factorizar como:

CAPTULO 1: Anlisis de un Estudio

69

CAPTULO 1: Anlisis de un Estudio

Y = ABT

70
2

a*g " a*g ' /(ng"1 " ng"1' ) > KF!

donde,
donde

A = D !1/2 P

K = J (ng ! ng ' ! 2)(ng ! ng ' ) /(ng ! ng ' ! J ! 1) y F!

es el

percentil superior de una distribucin F con J y ( ng ! ng ' ! J ! 1) grados

B = S1/2Q

de libertad.
De las ecuaciones anteriores se sigue que:

1.4.4 Comparacin del ACPO y Anlisis Discriminante


Lineal.

A = XS !1 / 2Q
= XS !1B

El problema a considerar en este apartado es el siguiente: dado que se conoce


que un individuo proviene de una poblacin dividida en G grupos diferentes

y por tanto,

pero se desconoce el grupo al que pertenece, deseamos asignar el individuo a

A( A)T = X S !1 X
Tomando

diferencias

entre

dos

filas

uno de los grupos, teniendo como base una serie de medidas, las cuales se

cualesquiera

expresan como un vector de variables x = ( X 1 , X 2 ,..., X J ) . Interesa obtener

g y g' ,

para

g , g ' = 1,..., G , se tiene:

una regla de asignacin de los individuos, que minimice el costo de cualquier


error de mala clasificacin.
En la literatura se tienen mltiples trabajos de estos mtodos muchos de los

a*g

2
! a*g '

!1

= (x g ! x g ' ) S (x g ! x g ' )
T

El lado derecho de la expresin anterior es la distancia de Mahalanobis al


cuadrado entre las medias de los grupos g y g ' .

El test T

de Hotelling sobre la igualdad de los vectores de medias

poblacionales se obtiene con la estandarizacin de la expresin anterior. La


regin de rechazo para la igualdad de las medias de los grupos g y g ' es:

cuales han sido citados por LACHENBRUCH, (1975).


El caso mas simple es cuando se tienen dos grupos, en este caso se construye
la siguiente medida de discriminacin:

1
Med = (x1 ! x 2 )T S !1x ! (x1 ! x 2 )T S !1 (x1 + x 2 )
2

CAPTULO 1: Anlisis de un Estudio

71

La regla de asignacin en esta situacin es: asignamos el individuo al grupo 1

CAPTULO 1: Anlisis de un Estudio

72

1.5 BIPLOT CANNICO MANOVA BIPLOT

si Med > 0 y en caso contrario se asigna el individuo a la poblacin 2.


Cuando el nmero de grupos G es mayor a 2 (se tienen varias posibles reglas
de asignacin por parejas), se construye la expresin:

Med gg '

1
= (x g ! x g ' )T S !1x ! (x g ! x g ' )T S !1 (x g + x g ' )
2

para g , g ' = 1,..., G y teniendo en cuenta que una de las expresiones


anteriores es redundante.
Por ejemplo para tres grupos tenemos tres reglas posibles pero slo dos son
necesarias. Una forma de realizarlo es clasificar x en:

1.5.2 Descripcin del Biplot Cannico.


El Mtodo Biplot Cannico fue planteado por GABRIEL en 1995, quien lo
denomina MANOVA Biplot; GOWER y HAND en 1996, estudian el biplot
en el contexto de Anlisis Cannico de Poblaciones y lo denominaron Biplot
Cannico y VICENTE-VILLARDN en 1992 lo plantea en el contexto de los
Biplot Generalizados.
Sean X ( I ! J ) la matriz que representa el conjunto de observaciones y Z una
matriz de tamao ( I ! G ) de indicadores de las G clases (variables ficticias)
como se estableci en el apartado 1.4.2. Sin prdida de generalidad, es posible
suponer que las columnas de

El grupo 1, si Med12 > 0 y Med13 > 0

estn centradas con relacin a la media de

cada variable, es decir, tienen media cero.

El grupo 2, si Med12 < 0 y Med13 > Med12

Tratamos de obtener una representacin simultnea de las filas, que en este

El grupo 3, si no est en ninguno de los anteriores.

caso son centroides, y de las columnas, las cuales son las variables de la

Si comparamos, en el Anlisis Cannico de Poblaciones, se construyen las


direcciones que maximizan la variabilidad entre los grupos corregida por la
variabilidad dentro de estos; en cambio en el Anlisis Discriminante Lineal lo
que se encuentran son reglas para asignar individuos a un nmero de grupos
dados a priori y calcula las coordenadas discriminantes que son las obtenidas
en el Anlisis Cannico de poblaciones.

matriz

X . La matriz X

representa las medias muestrales de cada uno de los

grupos para cada una de las variables observadas.


Para tener en cuenta el efecto de la dispersin de los individuos y de las
escalas de medida de las variables, introducimos una ponderacin con
respecto a la matriz de covarianzas dentro de los grupos y otra con relacin a
los tamaos muestrales, esto debido a que la precisin de las medias depende
del tamao con el que se han calculado.

CAPTULO 1: Anlisis de un Estudio

73

Definimos:

CAPTULO 1: Anlisis de un Estudio

74

Inicialmente se realiza la descomposicin en valores singulares generalizada


de la matriz de medias y se utiliza la inversa de la matriz de covarianzas

Y = D XS
1/2

-1/2

(1.5.1)

dentro de los grupos, como mtrica de filas.

La transformacin anterior tambin puede pensarse en funcin del Anlisis

Despejando

Cannico de Poblaciones, puesto que como se estableci en el apartado 1.4.2

tenemos:

en la ecuacin (1.5.1) y sustituyendo Y de la ecuacin (1.5.2)

este anlisis puede pensarse como un Anlisis de Componentes Principales de


la matriz de medias de los grupos, utilizando como mtricas para los grupos y

X = (D !1/2 P ")( QT S1/2 )

!1

las variables las correspondientes a las matrices S y D respectivamente. Si


se piensa en un biplot de la matriz de medias X con estas mtricas, esto sera

Se puede entonces obtener el RMP Biplot construyendo los marcadores como:

equivalente a realizar el biplot para la matriz Y definida en la ecuacin

A = D !1/2 P"

(1.5.1) tal como se estableci en la ecuacin (1.3.10).

B = S1/2Q

La representacin biplot de la matriz Y puede obtenerse a partir de su


descomposicin en valores singulares, es decir:

Donde B S B = Q S S S Q = I .
T

Y = P ! QT

(1.5.2)

1/2

1/2

Los marcadores A son los de las medias de los G grupos y los marcadores

B son los de las J variables.


T

donde las columnas de P estn formadas por los vectores propios de Y Y ,


T

las columnas de Q por los vectores propios de Y Y y es una matriz


T

diagonal, cuyos elementos son tambin los valores propios tanto de Y Y ,


ordenados

en

forma

descendente.

Adems

P T P = QT Q = I !

con

! = rango(Y).
Buscamos construir un RMP-Biplot, por ser ste el que tiene las propiedades
que nos interesan en el contexto del Anlisis Cannico de Poblaciones.

Si se toman solo s columnas de A y de B y lo denotamos por A (s ) y B (s ) se


puede obtener una aproximacin a bajo rango de la matriz X , esto es:

X = A ( s ) (B ( s ) )T

CAPTULO 1: Anlisis de un Estudio

75

1.5.2 Propiedades de los Marcadores A y B.

CAPTULO 1: Anlisis de un Estudio

76

que est generado por las columnas de la matriz V , y como se seal


anteriormente, la distancia eucldea entre dos vectores de medias, en el

Los marcadores A del biplot cannico cumplen las propiedades

espacio de las variables cannicas, es aproximadamente la distancia de

siguientes:

Mahalanobis en el espacio de partida.

1.

Si se retoma la descomposicin en valores singulares de la matriz Y

2. Los marcadores A son las coordenadas sobre las combinaciones lineales


que proporcionan la F univariante ms grande en el sentido MANOVA

dada en la ecuacin (1.5.2)

(GABRIEL, 1995).
3. Se pueden construir crculos de confianza alrededor de las medias,

P = YQ! "1

construyendo un intervalo de confianza univariante sobre la proyeccin de

Q = Y P! "1

cada una de las medias en cada una de las variables. El estimador de la


media est dado por:

Por tanto, los marcadores A se pueden expresar realizando sustitucin


de la expresin de P y de Y como:

x ij = aTi b j

A = D !1/2 P"
=

YQ" "

!1 / 2

D1 / 2 X S !1 / 2Q

= D

El intervalo de confianza para las medias se puede expresar como:

!1/2

!1

x ij t j ,!

sj
nk

proy (a i.b j ) s j t j ,!

sj
nk

Por tanto,

A = X S !1 / 2Q

Por lo tanto, el intervalo se puede calcular directamente de la proyeccin,


dado que la longitud es la misma para todos los grupos, es decir,

y sustituyendo a V de la ecuacin (1.4.8) en la expresin anterior se tiene:

proy (a i.b j )
A = XV
La igualdad anterior permite interpretar los marcadores A como la
proyeccin de X sobre el espacio de mxima separacin de los grupos,

t j ,!
nk

Este intervalo se puede utilizar para la proyeccin en cualquier direccin,


por lo tanto en el espacio multidimensional se puede construirse una

CAPTULO 1: Anlisis de un Estudio

77

hiperesfera de radio (t j ,! / nk ) , de forma que al proyectarla sobre cada

CAPTULO 1: Anlisis de un Estudio

78

1.5.3 Ejemplo de aplicacin.

variable se obtiene un intervalo de confianza univariante.


4.

La calidad de representacin ( bondad de ajuste de las filas), se puede


estimar como:

Los datos que utilizamos nos fueron proporcionados por la Dra. Margarita
Fernndez Alez y el Doctor Eloy Bcares, miembros del proyecto: Shallow
wetland lake function and restoration in a changing European environment

!i =1 "i2
r
!i =1 "i2
s

(SWALE). El objetivo de los experimentos era conocer qu efecto tenan


variaciones en la densidad de peces y el exceso de nutrientes sobre las redes
trficas de los lagos. La descripcin completa del experimento se puede

Los marcadores

del biplot cannico cumplen las siguientes

encontrar en la seccin 5.1.

propiedades:
1.

Los marcadores B aproximan la matriz de covarianzas dentro de los

El experimento se llev a cabo a lo largo de diez semanas (9 semanas con

grupos, as:

aplicacin de tratamiento y una semana control), en el verano de 1998 en el


lago Sentiz (Len). Las variables medidas se describen en la Tabla 5.1. Los

BB = S QQ S
T

1/2

1/2

=S

tratamientos correspondientes a diferentes niveles de nutrientes y de


concentracin de peces estn descritos en la Tabla 5.2. Para ilustrar el Biplot

De la igualdad anterior, se puede deducir que los marcadores B

Cannico, hemos elegido los datos correspondientes a la semana 2. Los

representan la estructura de covariacin de las variables y los ejes

resultados se obtuvieron utilizando un programa en MATLAB realizado por

cannicos, ponderados por las inversas de los valores propios de Y Y .


2.

La longitud de los marcadores columna, es proporcional a la variabilidad


dentro de los grupos.

3.

Se puede superponer una escala de prediccin de las variables originales


(GOWER, 1996).

Vicente-Villardn (2003).
Al realizar para cada una de las variables un ANOVA de dos vas se
encontraron diferencias significativas entre los grupos en todas las variables
excepto para CO2, TSS (slidos suspendidos totales) y CLO (clorofila), (Ver
Tabla 1.1).

CAPTULO 1: Anlisis de un Estudio

79

CAPTULO 1: Anlisis de un Estudio

Variable

F(11, 24)

Nivel de sign.

Todas las variables tienen una alta calidad de representacin en el primer

PH
ALK
CO2
NH4
NO3
SRP
TP
TSS
CON
CLO

2.78
15.65
1.15
3.95
28.34
12.46
10.86
0.97
17.35
1.55

0.02
0.00
0.36
0.01
0.00
0.00
0.00
0.49
0.00
0.17

plano de las variables cannicas, excepto CO2, TSS y CLO, que coinciden

Tabla 1.1: Resultados del ANOVA para cada variable.

Al realizar en MANOVA para las 10 variables se encuentran diferencias


significativas entre los 12 grupos. El contraste global basado en la Lambda de
Wilks tiene un valor: ! = 2.6747 , el cual se distribuye como una F de
Snedecor con 110 y 126 g. l. y el p-valor es menor que 0.0001.

con las variables no significativas en los ANOVAS univariantes.


En la tabla 1.3 tenemos las correlaciones y las correlaciones al cuadrado entre
las variables originales y los ejes.

Variable
PH
ALK
CO2
NH4
NO3
SRP
TP
TSS
CON
ClO

En la Tabla 1.2 tenemos la inercia explicada por los 4 primeros ejes.

Eje
1
2
3
4

80

Inercia del
Eje 1
56.27
29.76
8.06
2.69

Iner. acum.
Ejes 1 y 2
56.27
86.03
94.10
96.80

Tabla 1.2: Inercia de los cuatro primeros ejes

Corr. con el
Eje1
.0.31
0.48
-0.15
0.58
0.80
0.88
0.74
0.05
0.68
0.01

Corr. con el
eje 2
-0.48
-0.78
0.18
-0.52
-0.57
-0.32
-0.55
-0.01
-0.68
-0.38

Corr. al cuadr.
con el Eje1
0.09
0.23
0.02
0.33
0.64
0.78
0.55
0.01
0.47
0.00

Corr. al cuadr.
con el eje 2
0.23
0.61
0.03
0.27
0.34
0.09
0.30
0.00
0.46
0.15

Tabla 1.3: Correlaciones entre las variables originales y los ejes.

De la tabla anterior se desprende que todas las variables excepto CO2 tienen
correlacin positiva con el primer eje, con el segundo ocurre exactamente lo
contrario. Las correlaciones al cuadrado son altas con el eje 1 para las
variables NO3, SRP, TP y CON; con el eje 2 para ALK Y CON.
En la Tabla 1.4 tenemos la bondad de ajuste acumulada de las variables en los
dos primeros ejes. sta la podemos usar para explorar las medias de los

Como se puede ver en la tabla anterior, la inercia acumulada por los dos
primeros ejes es de 86.03%. Consideramos este porcentaje de la inercia
explicada aceptablemente alto.

grupos.

CAPTULO 1: Anlisis de un Estudio

Variable
PH
ALK
CO2
NH4
NO3
SRP
TP
TSS
CON
CLO

Bondad de ajuste
con el Eje 1
17.01
25.70
6.18
50.56
66.50
87.59
63.38
0.64
50.66
0.04

81

Bondad de ajuste
acum. Ejes 1 y 2
54.57
89.66
15.19
89.92
99.03
98.42
97.35
0.68
98.21
33.30

Tabla 1.4: Bondad de ajuste acumulada de las variables


para los dos primeros ejes.

Vemos en la Tabla anterior que las variables para las que se obtiene un buen

CAPTULO 1: Anlisis de un Estudio

En la tabla anterior se pueden observar que todas las medias de los grupos
estn bien representadas en el primer plano principal. Los grupos
correspondientes al nutriente 3 (denotados con terminacin N3) estn bien
representados en el primer eje y los dems grupos tienen una representacin
en el plano.
Con el Biplot Cannico se puede representar conjuntamente los grupos de
individuos, las variables y los crculos de confianza alrededor de la media de
cada grupo, que permite comparar grficamente todos los grupos. En la Figura
1.2 tenemos dicha representacin.

F0N0
1

ajuste en el primer plano principal son: ALK, NH4, NO3, SRP, TP y CON.
En la Tabla 1.5 tenemos la calidad de representacin de las medias de los

F2N1

F0N1
F0N1
F1N0

0.5

grupos.

F0N1
F1N0

Grupo
F0N0
F0N1
F0N2
F0N3
F1N0
F1N1
F1N2
F1N3
F2N0
F2N1
F2N2
F2N3

Calidad de repr.
En los Ejes 1 y 2
731
590
646
837
833
721
963
997
385
903
956
918

Tabla 1.5: Calidad de la representacin (x 100) de las medias.

F1N1
F1N1 F1N1
F2N1
F0N0
F1N1
F2N1

F0N1
F2N0 F0N0
F2N0 F0N0
F2N1
F2N0

F1N0

Calidad de repr.
en el Eje 1
81
362
36
837
765
23
318
997
197
129
368
751

82

F0N3
CO2

F2N0
F1N3

F1N0

F0N3

TSS

F1N3

F0N3

F1N3

F1N3

F2N3
F0N3
F0N2
-0.5

F0N2

SRP
CLOR

F2N2
F2N2

-1

F0N2
pH

F1N2

-1

F2N3
F2N3

F0N2

F2N3
NH4

F2N2
F1N2

TP

F2N2 F1N2
F1N2

-0.5

NO3

CON

ALK

0.5

1.5

Figura 1.4: Biplot Cannico de los datos correspondientes a la semana 2.

CAPTULO 1: Anlisis de un Estudio

83

Las caractersticas de este biplot, dado en la Figura 1.2, nos llevan a sacar las
siguientes conclusiones:
- No existen diferencias entre las medias de los grupos correspondientes
a los nutrientes 1 y 0 (los denotamos con terminaciones N0 y N1). Estos
se comportan como un slo grupo, todos los crculos de confianza se
cortan.
- Entre los grupos del nutriente 2 (N2) no existen diferencias
significativas para los de F2N2 Y F1N2 pero si para F0N2.
- Entre los grupos correspondiente al nutriente 3 (N3), el grupo asociado
a la concentracin de peces 1 (F1) se diferencia de los dems grupos,
pero entre los otros dos grupos no existen diferencias significativas.
- Los tres grandes grupos relacionados con los nutrientes aparecen
grficamente bastante diferenciados.
- Las variables bien representadas, responsables de esta separacin de los
grupos son: ALK, NH4, NO3, TP, SRP y CON (Ver Tabla 1.4 y Figura
1.4).
- Todos los grupos tienen una calidad de representacin alta en el primer
plano principal (Ver Tabla 1.5).

You might also like