Professional Documents
Culture Documents
on estadstica
T
ecnicas de an
alisis multivariante
Andres M. Alonso
Departamento de Estadstica
Universidad Carlos III de Madrid
Andres M. Alonso
Andres M. Alonso
Introducci
on
Variables
Observaciones.
Matriz de datos.
Ejemplos.
Andres M. Alonso
0
x11 x12 x1p
x1
x21 x22 x2p x02
X= .
..
..
.. = .. = x(1)x(2) x(p) ,
.
xn1 xn2 xnp
x0n
donde:
Andres M. Alonso
Ejemplo 0. Rectangulos.
Ejemplo 5.9 del libro An
alisis de Datos Multivariantes de Daniel Pe
na.
Se tienen 6 observaciones bivariantes, cada observaci
on corresponde con un
rectangulo y las variables univariantes son la longitud de la base y la altura del
rectangulo. La matriz de datos es:
X=
Rectngulo medio
2,0
1,5
0,7
0,5
0,5
0,7
Rectngulo medio
2,0
0,5
0,5
1,5
0,7
0,7
desviacin estndar
Andres M. Alonso
C
odigo
cl
cw
sw
sl
dcl
ow
oiw
ol
lcr
wcr
wn
Descripcion
Longitud del craneo
Ancho del craneo
Ancho del hocico
Longitud del hocico
Longitud dorsal del craneo
Ancho maximo orbital
Ancho mnimo interorbital
Longitud maxima orbital
Longitud del paladar postorbital
Ancho posterior del paladar craneal
Ancho maximo entre orificios nasales
Andres M. Alonso
C
odigo
consumo
motor
cv
peso
acel
a
no
origen
cilindr
Descripci
on
Consumo (l/100Km)
Cilindrada en cc
Potencia (CV)
Peso total (kg)
Aceleraci
on 0 a 100 km/h (segundos)
A
no del modelo
Pas de origen
N
umero de cilindros
Andres M. Alonso
X2
98
107
103
88
91
90
84
72
82
64
X3
7
4
4
5
4
5
7
6
5
5
X4
2
3
3
2
2
2
4
4
1
2
X5
12
9
5
8
8
12
12
21
11
13
X6
8
5
6
15
10
12
15
14
11
9
X7
2
3
3
4
3
4
5
4
3
4
Andres M. Alonso
10
Andres M. Alonso
11
Ejemplo 5. Esclerosis m
ultiple.
En un estudio sobre esclerosis m
ultiple se registran las respuestas del ojo
izquierdo (I) y del ojo derecho (D) a dos estmulos visuales diferentes. Se
consideran dos grupos, 29 individuos que padecen esclerosis m
ultiple y un
grupo control de 69 individuos que no la padecen. Se registran las siguientes
variables: X1: Edad, X2 = R1L+R1D, X3 = |R1LR1D|, X4 = R2L+R2D,
X5 = |R2L R2D|.
X1
23
25
25
28
29
18
19
20
20
20
X2
148.0
195.2
158.0
134.4
190.2
152.0
138.0
144.0
143.6
148.8
X3
0.8
3.2
8.0
0.0
14.2
1.6
0.4
0.0
3.2
0.0
X4
205.4
262.8
209.8
198.4
243.8
198.4
180.8
186.4
194.8
217.6
X5
0.6
0.4
12.2
3.2
10.6
0.0
1.6
0.8
0.0
0.0
Paciente/Control
1
1
1
1
1
0
0
0
0
0
Andres M. Alonso
12
T
ecnicas descriptivas num
ericas
Andres M. Alonso
13
1X
xij .
x
j =
n i=1
Varianza muestral de la variable xj :
n
s2j = sjj
1X
(xij x
j )2.
=
n i=1
sjk
Tecnicas de analisis multivariante - I
1X
=
(xij x
j )(xik x
k ).
n i=1
Andres M. Alonso
14
s2j
,
x
2j
sjk
sjk
=
=
.
sjj skk sj sk
Andres M. Alonso
15
Estadsticos multivariantes - I
x
1
x
1
2
=
x
xi = .
.
.
n i=1
x
p
n
X
es un vector de dimensi
x
on p 1. Tambien podemos obtener el vector de
medias de la siguiente expresi
on:
1
= X01,
x
n
donde 1 es un vector de unos de dimensi
on n 1.
Andres M. Alonso
16
Estadsticos multivariantes - II
Matriz de varianzas y covarianzas de la variable vectorial x:
s11 s12
s21 s22
S=
..
...
..
sp1 sp2 . . .
s1p
s2p
..
.
spp
1X
1
1 0
)(xi x
)0 = (X 1
S=
(xi x
x0)0(X 1
x0) = X
X,
n i=1
n
n
= X 1
donde la matriz X
x0 = X n1 110X recibe el nombre de
matriz de datos centrados.
Tecnicas de analisis multivariante - I
Andres M. Alonso
17
6
6
6
Vector de medias:
=
x
Media
,9833
Desv. tp.
,62102
Varianza
,386
,9833
,62102
,386
0,9833
0,9833
.
Andres M. Alonso
18
Ejemplo 0.
Correlaciones
BASE
ALTURA
BASE
1
ALTURA
,461
,386
6
,178
6
Correlacin de Pearson
,461
Covarianza
N
,178
6
,386
6
Correlacin de Pearson
Covarianza
N
0,386 0,178
Matriz de covarianzas: S =
.
0,178 0,386
1,000 0,461
Matriz de correlaciones: R =
.
0,461 1,000
Tecnicas de analisis multivariante - I
Andres M. Alonso
19
Mnimo
398
406
400
406
5
66
46
244
Mximo
26
7456
230
1713
Media
11,23
3179,73
104,83
989,51
Desv. tp.
3,946
1724,013
38,522
283,277
406
25
15,50
2,821
406
70
82
75,92
3,749
405
405
391
1
3
3
8
1,57
5,47
,798
1,710
0
Andres M. Alonso
20
Consumo (l/100Km)
Cilindrada en cc
Potencia (CV)
Aceleracin 0 a 100
km/h (segundos)
Ao del modelo
Nmero de cilindros
Correlacin de Pearson
Sig. (bilateral)
N
Correlacin de Pearson
Sig. (bilateral)
Consumo
(l/100Km)
1
Cilindrada en
Peso total
cc
(kg)
Potencia (CV)
,837**
,836**
,837**
Aceleracin 0
a 100 km/h
(segundos)
-,490**
Ao del
Nmero de
modelo
cilindros
-,554**
,842**
.
398
,837**
,000
,000
398
1
.
,000
392
,897**
,000
,000
398
,933**
,000
,000
398
-,545**
,000
,000
398
-,370**
,000
,000
397
,952**
,000
N
Correlacin de Pearson
Sig. (bilateral)
N
398
,836**
,000
392
406
,897**
,000
400
400
1
.
400
406
,859**
,000
400
406
-,701**
,000
400
406
-,417**
,000
400
405
,844**
,000
399
Correlacin de Pearson
Sig. (bilateral)
N
Correlacin de Pearson
,837**
,000
398
-,490**
,933**
,000
406
-,545**
,859**
,000
400
-,701**
1
.
406
-,415**
-,415**
,000
406
1
-,296**
,000
406
,314**
,895**
,000
405
-,528**
Sig. (bilateral)
N
Correlacin de Pearson
Sig. (bilateral)
,000
398
-,554**
,000
,000
406
-,370**
,000
,000
400
-,417**
,000
,000
406
-,296**
,000
.
406
,314**
,000
,000
406
1
.
,000
405
-,357**
,000
N
Correlacin de Pearson
Sig. (bilateral)
N
398
,842**
,000
397
406
,952**
,000
405
400
,844**
,000
399
406
,895**
,000
405
406
-,528**
,000
405
406
-,357**
,000
405
405
1
.
405
Andres M. Alonso
21
RADIACIO
-,101
,523
42
1
CO
-,194
,219
42
,183
,523
42
-,194
,219
.
42
,183
,247
,247
42
1
.
N
Correlacin de Pearson
Sig. (bilateral)
N
42
-,270
,084
42
42
-,074
,643
42
Correlacin de Pearson
Sig. (bilateral)
N
Correlacin de Pearson
-,110
,489
42
-,254
Sig. (bilateral)
N
Correlacin de Pearson
Sig. (bilateral)
VIENTO
Correlacin de Pearson
Sig. (bilateral)
N
RADIACIO
Correlacin de Pearson
Sig. (bilateral)
N
Correlacin de Pearson
Sig. (bilateral)
CO
NO
NO2
O3
HC
NO
-,270
,084
42
-,074
,643
42
,502**
,001
NO2
-,110
,489
42
,116
,465
42
,557**
,000
O3
-,254
,105
42
,319*
HC
,156
,324
42
,052
,039
42
,411**
,007
,744
42
,166
,293
42
,502**
,001
42
42
1
.
42
42
,297
,056
42
42
-,134
,398
42
,116
,465
42
,319*
,557**
,000
42
,411**
,297
,056
42
-,134
1
.
42
,167
,167
,292
42
1
,448**
,003
42
,154
,105
42
,156
,324
,039
42
,052
,744
,007
42
,166
,293
,398
42
,235
,135
,292
42
,448**
,003
.
42
,154
,329
,329
42
1
.
42
42
42
42
42
42
42
42
,235
,135
42
Andres M. Alonso
22
Andres M. Alonso
23
Ejemplo de rect
angulos
Ejemplo 0. En el ejemplo de los rectangulos, una variable de interes es el
permetro del rectangulo, 2(base + altura), que podemos obtener mediante:
y = Xa =
2,0
1,5
0,7
0,5
0,5
0,7
2,0
0,5
0,5
1,5
0,7
0,7
2,0
2,0
1.5
8,00
4,00
2,40
4,00
2,40
2,80
6
3
0.5
0
0
0.5
1.5
Andres M. Alonso
24
Estandarizaci
on univariante
Estandarizaci
on univariante:
),
y = D1/2(x x
donde D1/2 es una matriz diagonal de
expresi
on:
1
s1
0
0 s1
1/2
2
D
=
.
..
.
0
0
dimensi
on p p con la siguiente
...
0
0
..
s1
p
Propiedades:
= 0.
La media de y es cero, i.e., y
La matriz de covarianzas de y es la matriz de correlaciones de x, i.e.,
Sy = Rx.
Tecnicas de analisis multivariante - I
Andres M. Alonso
25
Estandarizaci
on multivariante
Estandarizaci
on multivariante: Si Sx es la matriz de covarianzas de x podemos
1/2
definir su raz cuadrada, Sx , por la siguiente condici
on:
1/2 0
Sx = S1/2
x (Sx ) .
Andres M. Alonso
26
T
ecnicas descriptivas gr
aficas
Objetivos.
Ejemplos de representaci
on grafica de los datos:
Andres M. Alonso
27
Representaci
on gr
afica de datos
Andres M. Alonso
28
Grfico
CL
CW
SW
SL
DCL
Grfico
OW
OIW
OL
LCR
WCR
WN
Andres M. Alonso
29
cp8
cn9
SL
cp8
cn9
am11
am11
cp8
DCL
am11
cn9
am11
cp8
am11
cp8
am11
cn9
cp8
cn9
am11
cp8
am11
cp8
cn9
am11
cn9
am11
cp8
cn9
cp8
cn9
cp8
am11
cn9
am11
cn9
cn9
OW
cn9
cn9
cp8
cn9
cp8
cn9
cp8
cp8
OIW
am11
am11
am11
cp8
cp8
cn9
am11
cn9
am11
am11
cp8
cp8
cn9
am11
cn9
am11
OL
Andres M. Alonso
30
cp8
60
am11
50
cn9
40
30
am4
OW
20
10
0
20
40
60
80
100
OIW
Andres M. Alonso
31
Diagramas de estrellas - I
cl
1
wn
cw
0,9
0,8
0,7
0,6
0,5
sw
0,4
0,3
0,2
0,1
sl
ol
dcl
oiw
ow
Andres M. Alonso
32
Diagramas de estrellas - II
Ejemplo 1. 44 observaciones.
cn1
cn7
cp4
ot2
ot8
ot24
am4
am10
cn2
cn8
cp5
ot3
ot9
ot25
am5
am11
cn3
cn9
cp6
ot4
ot10
ot26
am6
cn4
cp1
cp7
ot5
ot11
am1
am7
cn5
cp2
cp8
ot6
ot22
am2
am8
cn6
cp3
ot1
ot7
ot23
am3
am9
Andres M. Alonso
33
Crocodylus niloticus
Osteolaemus tetraspis
Crocodylus porosus
Alligator mississippiensis
Andres M. Alonso
34
Diagramas de caras
Crocodylus niloticus
Osteolaemus tetraspis
Crocodylus porosus
Alligator mississippiensis
Andres M. Alonso
35
Diagramas de Andrews - I
Los diagramas de Andrews representan
al vector de observaciones x0i =
[xi1 xi2 xip] mediante el grafico de la
siguiente funci
on:
1000
400
350
800
fi(t) =
300
xi1
250
600
200
con t .
Es claro que la funci
on anterior cambia
si cambiamos el orden de las variables,
por lo que se recomienda explorar distintos
ordenes para decidir cual representa mejor
los datos.
400
150
100
200
50
0
-4
-2
1000
500
0
-4
300
Andres M. Alonso
200
36
Diagramas de Andrews - II
Ejemplo 1.
1000
400
350
800
300
250
600
200
400
150
100
200
50
0
-4
-2
1000
0
-4
-2
-2
300
200
500
100
0
0
-500
-100
-1000
-4
-2
-200
-4
Andres M. Alonso
37
An
alisis de componentes principales
Interpretaci
on geometrica.
Obtenci
on y propiedades de las componentes principales.
Criterios para elegir el n
umero de componentes.
Interpretaci
on de las componentes.
Andres M. Alonso
38
An
alisis de componentes principales
Reducci
on de la dimensi
on
Tecnicas de analisis multivariante - I
Andres M. Alonso
39
Andres M. Alonso
40
Interpretaci
on geom
etrica
Andres M. Alonso
41
Obtenci
on de las componentes principales
= 0.
Supuesto inicial: El vector de medias cumple que x
Obtenci
on de la primera componente principal: z1 = Xa1.
Varianza de z1: z21 = a01Sa1, donde S = n1 X0X es la matriz de covarianzas de
x.
Que problema debemos resolver para obtener z1?
Maximizar {a01Sa1}
s.a. ||a1|| = 1.
Andres M. Alonso
42
Soluci
on:
Mediante los multiplicadores de Lagrange:
L = a01Sa1 (a01a1 1).
Derivamos respecto de a1 e igualamos la derivada a 0:
L
= 2Sa1 2a1 = 0.
a1
La soluci
on cumple que: Sa1 = a1.
El vector, a1, que define la primera componente principal es un vector
propio de la matriz de covarianzas, S.
Pero, z21 = a01Sa1 = a01a1 = , Entonces:
El vector, a1, que define la primera componente principal es el vector
propio asociado al mayor valor propio de la matriz de covarianzas, S.
Tecnicas de analisis multivariante - I
Andres M. Alonso
43
Obtenci
on de la segunda componente principal: z2 = Xa2.
Problema a resolver:
Maximizar {a02Sa2}
s.a.
||a2|| = 1.
a01a2 = 0.
Que equivale a:
L = a02Sa2 1(a02a2 1) 2a01a2.
Derivamos respecto de a2 e igualamos la derivada a 0:
L
= 2Sa2 21a2 2a1 = 0.
a2
Andres M. Alonso
44
Obtenci
on de la segunda componente principal:
Premultiplicando la expresi
on anterior por a01 obtenemos:
2a01Sa2 21a01a2 2a01a1 = 0 + 0 + 2 = 0,
es decir 2 = 0. Por lo tanto:
2Sa2 = 21a2.
El vector, a2, que define la segunda componente principal es el vector propio asociado al segundo mayor valor propio de la matriz de
covarianzas, S.
Andres M. Alonso
45
0,7071
0,7071
, y
2 = 0,2080, a2 =
0,7071
0,7071
.
Andres M. Alonso
46
Comp. bruta:
Bruta
Reescalada
BASE
Componente
1
2
,531
-,322
Componente
1
2
,855
-,519
ALTURA
,531
,855
,322
,519
0,7071
0,5307
b
=
a
=
0,5633
=
1 1
0,7071
0,5307
1
b2 = 2a2 = 0,2080
0,7071
0,7071
=
0,3224
0,3224
.
Andres M. Alonso
47
Reescalada
BASE
Componente
1
2
,531
-,322
Componente
1
2
,855
-,519
ALTURA
,531
,855
Comp. re-escalada:
,322
,519
b11/1
0,5307/0,621
0,8551
c
=
=
=
b12/2
0,5307/0,621
0,8551
1
b21/1
0,3224/0,621
0,5191
=
=
.
c2 =
b22/2
0,3224/0,621
0,5191
Andres M. Alonso
3,404
1714,500
,736
-15,221
-,523
,271
-1,137
,002
,095
,001
1,205
,000
34,415
264,193
2,310
98,475
-16,596
,422
,175
-,008
,146
-,016
-,027
-,010
-1,507
,676
1,445
-,183
1,659
-,095
,419
,785
3,274
,029
,054
-,010
Matriz de componentesa
Mtodo de extraccin: Anlisis de componentes principales.
,118
-,036
,415
,068
Cilindrada en cc
Potencia (CV)
Peso total (kg)
Aceleracin 0 a 100
km/h (segundos)
Ao del modelo
Nmero de cilindros
48
Consumo (l/100Km)
Cilindrada en cc
Potencia (CV)
Peso total (kg)
Aceleracin 0 a 100
km/h (segundos)
Ao del modelo
Nmero de cilindros
-1,347
1,620
Bruta
Componente
3
4
-,523
-1,137
,271
,002
1
3,404
1714,500
,736
-15,221
34,415
264,193
2,310
98,475
-16,596
,422
-1,507
,676
-1,347
1,620
,419
,029
5
,095
,001
6
1,205
,000
,175
-,008
,146
-,016
-,027
-,010
1,445
-,183
1,659
-,095
,785
,054
3,274
-,010
,118
-,036
,415
,068
1
Consumo (l/100Km)
Cilindrada en cc
Potencia (CV)
Peso total (kg)
Aceleracin 0 a 100
km/h (segundos)
Ao del modelo
Nmero de cilindros
Reescalada
Componente
3
4
-,134
-,292
,000
,000
,874
1,000
,189
-,009
,899
,937
,060
,349
-,434
,001
-,546
,245
-,366
,951
,114
,017
6
,024
,000
,310
,000
,005
,000
,004
,000
-,001
,000
,524
-,066
,601
-,034
,214
,031
,891
-,006
,032
-,021
,113
,040
2
,874
,189
Reescalada
Componente
3
4
-,134
-,292
Andres M. Alonso
6
,024
,310
49
j=1
j=1
2. La proporci
on de variabilidad explicada por una componente es igual al valor
propio asociado dividido por la suma de los valores propios de S:
var(z2h )
= Pp
j=1 j
Andres M. Alonso
50
4. La correlaci
on entre la componente principal zh y la variable univariante xk
es:
hakh
h
Corr(zh, xk ) = p
= akh
.
2
s
hsk
k
5. La estandarizacion de las componentes principales, Z, permite obtener la
estandarizaci
on multivariante de la matriz de datos, X:
Zu = ZD1/2 = XAD1/2,
y recordamos que Ym = XAD1/2A0. Por lo tanto, Zu y Ym son iguales
salvo rotaciones.
Andres M. Alonso
51
An
alisis normado de componentes principales
100 0 0
C
omo es la primera componente de S = 0 2 1 ?
0 1 2
Respuesta: a01 = 1 0 0 .
Problema: Una variable con mayor varianza que el resto de las variables
tendra asociada la primera componente principal.
W Ejemplo 2
Soluci
on: Obtener las componentes
principales de
la matriz de correlaciones.
1
0
0
1 0,5
R= 0
0 0,5
1
Cuyos valores y vectores propios son:
0
1 = 1,5, a1 = 0 1/ 2 1/ 2 ,
2 = 1,0, a02 = 1 0 0 ,
0
3 = 0,5, a3 = 0 1/ 2 1/ 2 .
Tecnicas de analisis multivariante - I
Andres M. Alonso
52
2
var(zR ) = Pp h R = h ,
p
h
j=1 j
donde R
esimo valor propio de la matriz R.
h es el h-
7. Las covarianzas entre la componente principal normada zhR y la variable
vectorial yu (estandarizaci
on univariante de x) es:
R
Cov(zhR, yu) = R
a
h h,
donde R
esimo valor propio de R y aR
h es el h-
h su vector propio asociado.
8. La correlaci
on entre la componente principal zhR y la variable univariante yk
(estandarizaci
on univariante de xk ) es:
q
R.
Corr(zhR, yk ) = aR
kh
h
Tecnicas de analisis multivariante - I
Andres M. Alonso
53
= 1,4610,
aR
1
=
0,7071
0,7071
, y
R
2
= 0,5390,
Entonces, las componentes principales son:
aR
2
=
0,7071
0,7071
.
Andres M. Alonso
54
BASE
ALTURA
Componentes:
a =
a2 =
1 b1
1
1 b2
2
1
1,4610
1
0,539
2
,519
-,519
0,855
0,855
0,519
0,519
0,7073
0,7073
0,7069
0,7069
Andres M. Alonso
55
1
Consumo (l/100Km)
Cilindrada en cc
,936
,964
,951
2
-,088
,161
,041
Componente
3
4
,195
,186
,075
-,115
-,150
,148
5
-,198
,052
,187
6
,064
-,027
,114
Potencia (CV)
Peso total (kg)
Aceleracin 0 a 100
km/h (segundos)
,928
,233
,205
,091
,032
-,173
-,648
,120
,747
,018
,072
,053
Ao del modelo
Nmero de cilindros
-,499
,934
,845
,184
-,172
,103
,063
-,262
-,047
-,054
,031
,073
Andres M. Alonso
56
Criterios de reducci
on de la dimensi
on
Grafico de sedimentaci
on o de codo: Obtener el grafico de los valores
propios, i, frente a i. Buscar un codo en el grafico, i.e., un punto a partir
del cual los valores propios son aproximadamente iguales.
Criterio de la varianza explicada: Seleccionar el n
umero de componentes
necesario para explicar una proporci
on predeterminada de la varianza, por
ejemplo, el 80 % o el 90 %.
Criterio del valor propio: Seleccionar los componentes principales asociados
a valores propios superiores a un valor prefijado, por ejemplo, la varianza
media:
Pp
en componentes principales,
j=1 j /p
Pp
j=1 j /p = 1
Andres M. Alonso
57
Reducci
on de la dimensi
on - Ejemplo - I
Ejemplo 1. Analisis de componentes principales normadas.
Autovalores iniciales
% de la
Total
varianza
% acumulado
10,326
93,871
93,871
,383
3,480
97,352
Componente
1
2
3
4
,114
6,490E-02
1,038
,590
98,390
98,980
5
6
7
8
4,130E-02
3,910E-02
1,965E-02
7,515E-03
,375
,355
,179
6,832E-02
99,355
99,711
99,889
99,958
9
10
11
3,306E-03
3,005E-02
99,988
1,051E-03
3,090E-04
9,556E-03
2,809E-03
99,997
100,000
Andres M. Alonso
58
Reducci
on de la dimensi
on - Ejemplo - II
Ejemplo 1.
12
10
Autovalor
0
1
10
11
Nmero de componente
Andres M. Alonso
59
Reducci
on de la dimensi
on - Ejemplo - III
Ejemplo 2. Analisis de componentes principales.
Varianza total explicada
Componente
1
2
3
4
5
6
7
Autovalores iniciales
% de la
varianza
Total
% acumulado
3010511,5
99,661
99,661
9935,469
,329
99,990
278,648
,009
99,999
12,078
,000
100,000
2,798
1,639
,268
9,263E-05
5,426E-05
8,878E-06
100,000
100,000
100,000
Andres M. Alonso
60
Reducci
on de la dimensi
on - Ejemplo - IV
Ejemplo 2. Analisis de componentes principales normadas.
Varianza total explicada
Componente
1
2
3
4
5
6
7
Autovalores iniciales
% de la
varianza
Total
% acumulado
5,112
73,024
73,024
,852
12,168
85,192
,706
10,085
95,276
,151
2,158
97,434
,088
,057
,034
1,264
,813
,489
98,698
99,511
100,000
Andres M. Alonso
61
Reducci
on de la dimensi
on - Ejemplo - V
Ejemplo 2. Analisis de componentes principales normadas.
Grfico de sedimentacin
6
Autovalor
0
1
Nmero de componente
Andres M. Alonso
62
Interpretaci
on de las componentes - Ejemplo - I
Ejemplo 0. Las componentes principales:
Andres M. Alonso
63
Interpretaci
on de las componentes - Ejemplo- II
Ejemplo 0. Las componentes principales:
Andres M. Alonso
64
Interpretaci
on de las componentes - Casos Particulares - I
12
0
..
0
, ,
1 y a1 = . , 2 y a2 =
.
.
.
0
0
0
22
.. . . .
0
0
0
..
.
p2
0
0
2
p y ap =
.. .
1
Andres M. Alonso
65
Interpretaci
on de las componentes - Casos Particulares - II
1
1
Componentes principales de una matriz equicorrelada: R =
.. .. . . .
..
1 , 1 , 1 , 1 , . . . , 1 ,
pi
h p p p p
1 , 1 , 0, 0, . . . , 0 ,
h 12 12
i
1 , 1 , 2 , 0, . . . , 0 ,
23
23
23
2 = 1
a02 =
3 = 1
..
a03 =
..
a0p =
p = 1
1
,
(p1)p
1
,
(p1)p
1
,
(p1)p
(p1)
1
,...,
(p1)p
(p1)p
Andres M. Alonso
66
Interpretaci
on de las componentes - Casos Particulares - III
Componentes principales de una matriz equicorrelada:
Si > 0, entonces el mayor valor propio es 1 = 1 + (p 1) y su vector
propio asociado a1 define unaP
componente principal que asigna igual peso
p
a todas las variables: z1 = 1p j=1 xj .
Si > 0, entonces la primera componente principal explica una proporci
on
1+(p1)
1
=
+
p
p . Por ejemplo, si = 0,9 y p = 10, entonces la primera
componente explica el 90.01 % de la variabilidad total.
Si es cercano a 1, entonces las restantes p 1 componentes, explican una
peque
na proporci
on de la variabilidad total.
Andres M. Alonso
67
Interpretaci
on de las componentes - Ejemplo - I
Ejemplo 1. La matriz de correlaciones de este ejemplo es aproximadamente
equicorrelada:
CL
CW
SW
SL
DCL
OW
OIW
OL
LCR
WCR
WN
CL
1,000
,991
CW
,991
1,000
SW
,976
,987
SL
,997
,986
DCL
,999
,989
OW
,821
,840
OIW
,963
,965
OL
,929
,934
LCR
,962
,968
WCR
,984
,993
WN
,900
,914
,976
,997
,987
,986
1,000
,969
,969
1,000
,974
,998
,859
,796
,952
,958
,950
,917
,956
,958
,985
,978
,941
,890
,999
,821
,963
,989
,840
,965
,974
,859
,952
,998
,796
,958
1,000
,824
,961
,824
1,000
,766
,961
,766
1,000
,930
,906
,895
,964
,858
,932
,983
,861
,958
,900
,893
,833
,929
,934
,950
,917
,930
,906
,895
1,000
,922
,945
,954
,962
,968
,956
,958
,964
,858
,932
,922
1,000
,974
,886
,984
,900
,993
,914
,985
,941
,978
,890
,983
,900
,861
,893
,958
,833
,945
,954
,974
,886
1,000
,908
,908
1,000
Andres M. Alonso
68
Interpretaci
on de las componentes - Ejemplo - II
Ejemplo 1.
Matriz de componentes
aproximadamente iguales a
11
0,969.
Componente
1
CL
CW
SW
,991
SL
DCL
,982
OW
,882
,957
OIW
OL
LCR
WCR
WN
,989
,992
,988
,964
,975
,993
,940
Andres M. Alonso
69
Interpretaci
on de las componentes - Ejemplo - III
Ejemplo 1. Diagrama de caja de la primera componente.
3
0
ot25
ot26
-1
am1
-2
N =
Alligator_mississipp
Crocodylus_niloticus
12
Crocodylus_porosus
Osteolaemus_tetraspi
Andres M. Alonso
70
Interpretaci
on de las componentes - Ejemplo - IV
Ejemplo 1. Matriz de diagramas de dispersi
on de las tres primeras CP.
3
3
2
2
1
CP1
1
1
1
1
44
1 4
4
4
4
4
4 4
4
4 4
2
2
1
1
1
44
CP2
2
3
3
2
2
3
4
4
3
1
3
4
44
4
1
4
4
4
4
4
44
4
4
1
4
2
4
4
44
44 4
3
3
4
4
4
444
4
4
2
4
34
4
3
4
2
2
2
2
2
4
4 4
4
4
1
3
3
1
4
4
3
424
CP3
1
Andres M. Alonso
71
Interpretaci
on de las componentes - Ejemplo - V
Ejemplo 2. Analisis de componentes principales normadas.
Matriz de componentesa
Consumo (l/100Km)
Cilindrada en cc
Potencia (CV)
Peso total (kg)
Aceleracin 0 a 100
km/h (segundos)
Ao del modelo
Nmero de cilindros
Componente
1
2
,936
-,088
,964
,161
,951
,041
3
,195
,075
-,150
,928
,233
,205
-,648
,120
,747
-,499
,934
,845
,184
-,172
,103
Andres M. Alonso
72
Interpretaci
on de las componentes - Ejemplo - VI
Ejemplo 2. Analisis de componentes principales normadas.
CP 1
CP 2
Pas de origen
CP 3
Japn
Europa
EE.UU.
Andres M. Alonso
73
Interpretaci
on de las componentes - Ejemplo - VII
Ejemplo 5. Esclerosis m
ultiple.
Componente
1
2
3
4
Autovalores iniciales
% de la
Total
varianza
% acumulado
2,917
58,342
58,342
1,227
24,534
82,876
,703
14,056
96,932
9,095E-02
1,819
98,751
6,245E-02
1,249
100,000
Matriz de componentes
Componente
EDAD
R1SUMA
R1DIF
1
,299
,878
,862
2
,734
,316
-,433
R2SUMA
R2DIF
,852
,766
,336
-,535
Andres M. Alonso
74
Interpretaci
on de las componentes - Ejemplo - VIIII
Ejemplo 5. Esclerosis m
ultiple.
6
1
3
1
1
1
1
1
2
1
1
1
1
1
1
1
1
1
1
1
1
1
-1
-2
-6
-4
-2
2 for analysis
Andres M. Alonso
75
Ejemplo con gr
aficos de control - I
Ejemplo 4. Seis tipos de escenarios.
Varianza total explicada
Autovalores iniciales
% de la
varianza
Total
% acumulado
31,479
52,465
52,465
5,930
9,884
62,348
4,184
6,973
69,322
1,989
3,314
72,636
Componente
1
2
3
4
5
6
7
8
1,846
1,254
1,011
,957
3,077
2,090
1,685
1,595
75,712
77,803
79,488
81,082
9
10
:
60
,736
,715
1,226
1,192
82,309
83,501
:
,045
3,077
2,090
1,685
75,712
77,803
79,488
:
,076
99,792
Andres M. Alonso
76
Ejemplo con gr
aficos de control - II
Ejemplo 4. (AF) Componentes principales normadas.
CP 1
CP 2
Tend.Decreciente
Tend. Creciente
Normal
CP 3
Esc.Positivo
Esc. Negativo
Ciclico
Andres M. Alonso
77
Ejemplo con gr
aficos de control - III
Ejemplo 4. (AF) Componentes principales normadas rotadas.
CP 1 (r)
CP 2 (r)
Tend. Decreciente
Tend. Creciente
Normal
CP 3 (r)
Esc. Positivo
Esc. Negativo
Ciclico
Andres M. Alonso
78
Ejemplo con gr
aficos de control - IV
Ejemplo 4. Interpretaci
on de las CP - factores.
1,5
1,0
,5
0,0
-,5
Coef. CP 1 (r)
Coef. CP 2 (r)
-1,0
Coef. CP 3 (r)
1
7
4
13
10
19
16
25
22
31
28
37
34
43
40
49
46
55
52
58
Variable
Andres M. Alonso
79
Lecturas recomendadas
Analisis descriptivo: Captulo 2 de Baillo y Grane (2007); Captulo 1 de Cuadras (2004);
Captulo 1 de Johnson y Wichern (2002); Captulos 3 y 4 de Pe
na (2002);
Analisis de componentes principales: Captulo 4 de Baillo y Grane (2007); Captulo 5 de
Cuadras (2004); Captulo 8 de Johnson y Wichern (2002); Captulo 2 de McGarigal et al
(2000); Captulo 5 de Pe
na (2002); Captulo 7 de Selvin (1995).
Baillo, A. y Gran
e, A. (2007) 100 problemas resueltos de estadstica multivariante (Implementados en Matlab), Delta Publicaciones.
Cuadras, C. (2004) Analisis multivariante, Universidad de Barcelona.
Johnson, R.A. y Wichern, W.A. (2002) Applied multivariate statistical analysis, Prentice
Hall.
McGarigal, K., Cushman, S. y Stafford, S. (2000) Multivariate analysis for wildlife and
ecology research, Springer.
Pe
na, D. (2002) Analisis de datos multivariantes, McGrawHill.
Selvin, S. (1995) Practical biostatistical methods, Duxbury Press.
Andres M. Alonso
Andres M. Alonso