Brayan Apl

Anlisis de Componentes Principales
ANLISIS DE COMPONENTES PRINCIPALES

Introduccin
El objetivo del Anlisis de Componentes Principales lo podemos plantear como:
dadas las observaciones de n objetos para p variables, se pretende representar
adecuadamente esta informacin con un nmero q p de variables,
construidas como combinaciones lineales incorrelacionadas de las variables
originales, que estn ordenadas en orden decreciente de importancia de acuerdo a la
varianza. En el objetivo planteado se pueden destacar dos aspectos:
- Representar los datos en espacio de dimensin menor al generado por los datos y
al que estos se ajusten lo mejor posibles. Puede entenderse entonces como la
bsqueda del subespacio de mejor ajuste de la nube de puntos, en el sentido de los
mnimos cuadrado, y por otro lado como la identificacin de variables latentes o no
observadas que se generan en los datos.
-
Transformar las variables originales, en general correlacionadas, en nuevas

variables, incorrelacionadas, y ordenadas en orden de importancia de acuerdo a la
variabilidad y que llamaremos las Componentes Principales.
El origen del Anlisis de Componentes Principales (ACP) se debe a K. Pearson quien

en 1901 propuso la bsqueda de un subespacio que mejor se ajusta a los datos, para
esto utiliz el mtodo de los de mnimos cuadrados, esto es minimizando la
suma de los cuadrados de las distancias de cada punto al subespacio. Hotelling en
1933 propuso hallar las componentes principales como las combinaciones lineales de las
variables que maximizan la variabilidad.
Otra
propuesta es la formulada por Gower (1966), minimizando la discrepancia entre los
puntos calculados en el espacio original y en el espacio de baja dimensin.
El ACP se aplica fundamentalmente a datos con un nivel de medicin de intervalo
y por tanto de razn, sin embargo algunos autores han planteado la posibilidad de
aplicarlo a otro tipo de datos tales como: datos con nivel de medicin ordinales o
de rangos como lo describe Lebart et al (1985), o incluso datos nominales conocido
como Anlisis de componentes principales categrico (CATPCA); este procedimiento se
encuentra descrito en Young (1981), Kuhfeld, Sarle, y Young, (1985), Saporta, (1983),
Young, Takane, y de Leeuw, J. (1978, 1985). En este captulo se presentar el ACP para
datos cuyo nivel de medicin es como mnimo de intervalo.
Definicin de las componentes principales poblacionales

Sea X = (X1, . . . , Xp)t un vector aleatorio p-dimensional y sean y su esperanza y covarianza
E[X] = = 0
Cov[X] = = (ij )
Sea = (1, . . . , p) Rp tal que = 1. Se consideran combinaciones lineale

s
x1
.
.
p
iXi
x p
1
X = (1,. . ., p)
= 1X1 + + pXp =
cuya varianza vendr dada por

2
Var [X] = E (X) = E XX =

De entre todas las combinaciones lineales se selecciona la que verifique el problema
MaximizarL
Sujeto
Var LX LL
LL 1
El problema de optimizacin planteado se resuelve mediante la tcnica de Multiplicadores de

Lagrange. Se considera la Funcin de Lagrange
2
li ijl j li 1
1 (L; ) = LL (LL 1) = ij
El vector de derivadas parciales de la funcin de Lagrange es
1 (L; )
L
= 2L 2L
Que, igualando a cero, da lugar a

( I) = 0 (1)
ecuacin que tiene solucin si
| I |= 0(2)
La funcin | I | es un polinomio en de orden p y la ecuacin (2) tiene p races

1 p
las races caractersticas se , de vectores caractersticos asociados
1 = (11, . . . ,
. . . , p = (p1, . . . ,
pp)
1p),
Multiplicando (1) a la izquierda por se tiene

= =
Por tanto, se concluye que si con = 1 verifica (1),
Var [X] = =
Siendo la raz caracterstica de correspondiente a .
Para
maximizar
[X] se elige Si
1 = , mayor raz caracterstica de , y 1 = , el vector
caracterstico
de Var
correspondiente.
el rango de 1I es p 1, la solucin es nica.
La combinacion lineal normalizada
p
U = X = 1iXi
i=1
con 1 vector caracterstico normalizado de correspondiente a la mayor raz caracterstica, 1 , se

denomina primera componente principal de X.
Para obtener una nueva componente principal, se busca una combinacin lineal normalizada
x1
.
.
p
iXi
x p
1
X = (1,. . ., p)
= 1X1 + + pXp =
Con varianza mxima entre todas las combinaciones lineales LX normalizadas (unicidad)
X / Var [ X] = max Var [LX]
LRp
LL = 1
e incorreladas con U1
Cov [L X, U1] = 0 = E [L XU1] = E [L X ] = E [L XX1]

1
= L 1 = L11 = 1L1
Se sigue que los vectores L y 1 son ortogonales. Se
plantea el problema de optimizacin
Var LX
LL 1
L1 0
MaximizarL
Sujeto
La funcin de Lagrange es ahora:

2(L; ; v) = L L (L L 1) 2v(L 1)
El vector de derivadas parciales es
2 ( L ; ; v )
= 2L 2L 2v1 (4)
L
Si denota la solucin de este problema, multiplicando (4) a la izquierda por , deber
1 satisfacer
1
1 v 1 1 = 0
Puesto que de (3) se sigue que
1=0
11 = 1
se llega a
v1 = 0
y, al ser 1
0, ha de ser v = 0. Como consecuencia, de (4) se concluye
( I) = 0
| I |= 0
Los coeficientes de la segunda componente principal de X se obtienen a partir del vector
caracterstico normalizado 2 de correspondiente a su segunda raz caracterstica 2.
La combinacion lineal normalizada
p
U2 =
X = 2iXi
i=1
con 2 vector caracterstico normalizado de correspondiente a la segunda raz caracterstica, 2 ,

se denomina segunda componente principal de X.
El proceso continua hasta llegar al paso r + 1. Se busca ahora una combinacin lineal
x1
.
.
p
iXi
x p
= 1X1 + + pXp = i 1
X = (1,. . ., p)
con varianza mxima entre todas las combinaciones lineales normalizadas que sean incorreladas con
U 1 , . . . , Ur
X / Var [ X] = max Var [L X]
LRp
L L = 1,
Cov [L X, Ui] = 0, i = 1, . . . , r
En este caso,
Cov [L X, Ui ] = E [L XUi ] = E [L XX i ] = L E[XX]i
= L i = L ii = i L i = 0,
i = 1, . . . , r
El problema que se plantea ahora es
max
L
S.a
Var LX
LL 1
L1 0
i = 1, . . . , r
La funcin de Lagrange asociada a este problema es
r+1 (L; ; v1 , . . . , vr ) = L L (L L 1) 2
r
vi Li
i 1
El vector de derivadas parciales asociado

r
r 1 L;; v,...v r )
2L 2L 2 vii
L
i 1
Igualando a cero, se obtiene que el vector que sea solucin de este problema ha de verificar
r
2 2 2 vi i 0
i 1
Puesto que de esto y de que

i i = i se sigue
r
i i vii 0
i 1
se obtiene
Si i 0
Si i = 0
vi i 0
i ii 0
vi 0
Li 0
Por tanto,
( I) = 0,
| I |= 0
Llegados a este punto si r+1 = 0

= r+1 autovalor de ,
r+1
autovector normalizado de
La combinacin lineal normalizada

Ur+1 =
r+1
con r+1 vector caracterstico normalizado de correspondiente a la raz caracterstica r+1

se denomina r+1-esima componente principal de X.
Si ocurre
r+1 = 0,
i = 0, i = r + 1
i r 1 0
i r 1 0
r+1
combinacin lineal de
r+1
r+1
y i / i = 0
ortogonal a i , i = 1, . . . , r
Este procedimiento contina hasta el paso m tal que

Paso m + 1 :
incorrelado
U1 . . . Um
Puesto que es de dimensin p p y 1, . . . , m deben ser linealmente independientes

m=p
m<p
Se comprueba (Giri, 1977) que la unica solucion posible es

m=p
Sea
1 0
0 2
.
.
. .
. .
0
0
...
.
...

... p 1 2 p , i /
i I = 0
matriz de races caractersticas ordenadas de y sea

= (1 p),
i/ ( iI)i = 0, i =
i 1 matriz
de los correspondientes vectores caractersticos normalizados.
Puesto que
=I
se concluye
t =
Si
r+1 = r+2 = = r+m =

entonces
|| = | |
Se tiene as el siguiente resultado.
Adems, el vector
Rango [ I ] = p m.
Existe una transformacin ortogonal

U = (U1, . . . , Up)t = tX
t
tal
que Cov[U]
= E[UU
, columna
una matriz
con elementos
1 =0.2
componentes
p races
ordenadas
de |
I |= ]0.= La
i diagonal
de satisface
( I)
Las
de U estn incorreladas y tienen varianza mxima entre todas las combinaciones lineales
incorreladas con U1, . . . , Ui1.
El vector U es el vector de componentes principales de X.
En caso de races mltiples se tiene el segundo resultado.

Teorema 2.2
Del Teorema 2.1 se sigue
Lo mismo es cierto para la suma de componentes de X y U

Traza[ ]
Traza[ ]
Suma de varianzas de
Suma de varianzas de
las componentes de X
las componentes de U
Ejemplo 2.1
Sea X = (X1, X2, X3)t un vector aleatorio con matriz de covarianzas
1 2
2 5
0
0
2
Obtener las componentes principales asociadas a este vector aleatorio
(1 )(5 )(2 ) 4(2 ) = 0
(2 ) [(1 )(5 ) 4] = 0
(2 ) = 0
(1 )(5 ) 4 = 0
2

3
= 5.83
=2
= 0.17
( 1I)1 = 0
X

Y
Z

0

0
0

4.83x 2y = 0
3.83z
9
= 0
*
1 2.42 , 1*
0
1*1* 2.61
0.38
1* 0.92
0
( 2I)2 = 0
X

Y
Z

0

0
0

x 2y = 0
2x + 3y = 0
0

*2 0 , *2 1
1

0

2 0
1

( 3I)3 = 0
X

Y
Z

0

0
0

0.83x 2y = 0
1.83z = 0
10
Var
UE[
= Var1 [X31]) =+ 20.38(X
= 2 2 2) ]2
Var [ U3 ] = Var [ 0.92X1 + 0.38X
2 ][ =
2 ] 0.92(X
= E [ (0.92)2(X1 1)2 ] + E [ (0.38)2(X2 2)2 ] +
+2E [ (0.92)(0.38)(X1 1)(X2 2) ]
= (0.92)2Var [ X1 ] + (0.38)2Var [ X2 ] + 2(0.92)(0.38)Cov [ X1X2 ]
U3 = 3X = 0.92X1 + 0.38X2
= 0.17 = 3
Var [ U1 ] = Var [ 0.38X1 0.92X2 ] = E[0.38(X1 1) 0.92(X2 2) ]2
= E [ (0.38)2(X1 1)2 ] + E [ (0.92)2(X2 2)2 ]
2E [ (0.38)(0.92)(X1 1)(X2 2) ]
*
3 0.42 , *3 1.08
0
0.92
3 0.38
0
U1 = 1 X = 0.38X1 0.92X2
.
.
Cov [ U1, U2 ] = E (U1 E[U1])(U2 E[U2])
U12=
X =2 X3 2)}{X3 3} ]
= E[ {0.38(X
1)
20.92(X
= E[ 0.38(X1 1)(X3 3) ] E[ 0.92(X2 2)(X3 3) ]
= 0.38Cov [ X1, X3 ] 0.92Cov [ X2, X3 ] = 0
11
.
.
Cov [ U1, U3 ] = E (U1 E[U1])(U3 E[U3])
= E [ {0.38(X1 1) 0.92(X2 2)}
{0.92(X1 1) + 0.38(X2 2)} ]

= (0.38)(0.92)Var [ X1 ] + (0.38)2Cov [ X1, X2 ]
(0.92)2Cov [ X1, X2 ] (0.92)(0.38)Var [ X2 ] 0
.
.
Cov [ U2, U3 ] = E (U2 E[U2])(U3 E[U3])
= E[ (X3 3){0.92(X1 1) + 0.38(X2 2)} ]
= 0.92Cov [ X3, X1 ] + 0.38Cov [ X3, X2 ] 0
Traza [ ] = 1 + 5 + 2 = 8
Traza [ t ] = 1 + 2 + 3 = 5.83 + 2 + 0.17 = 8
Estimacion del analisis de componentes principales

En la prctica la covarianza de X,
es desconocida. Por ello no podrn usarse las componentes
principales poblacionales y la seleccin del nmero de componentes principales a considerar en el
estudio debe hacerse en base a observaciones mustrales de X.
Sea X = (X1, X2,, XP) un vector aleatorio p dimensional y sean
esperanza y covarianza. Para tratar el problema de
tiene una distribucin
su
desconocida se asume que X
. 1 2
5
0
Sea
muestra aleatoria de tamao N de X(N > p).
una
Sean:
El estimador verosmil de
y el estimador mximo verosmil de
respectivamente.
TEOREMA 3
Los estimadores mximo verosmiles de las races caractersticas de
son las races ordenadas de
Y los estimadores mximo verosmiles de los vectores caractersticos de
, 1, 2,, p son
los vectores solucin de
Con el anlisis de componentes principales se pretende, partiendo de una muestra

aleatoria de tamao N del vector X de variables que inicialmente pueden estar correladas,
obtener un numero k < p de variables incorreladas, que sean combinacin lineal de las
variables iniciales y que expliquen la mayor parte de su variabilidad.
La i-esima componente principal muestral se expresa como combinacin lineal de las
variables originales
Para las N observaciones muestrales se tiene la ecuacin matricial
El vector caracterstico de
asociado al i-esimo valor caracterstico,
denominar tambin i-esimo eje principal.
La estimacin de la varianza total el sistema, Traza
se suele
, vienes dada por
y se denomina Varianza muestral total

Se verifica que la suma de las varianzas de las variables (inercia total de la nube de puntos)
es igual a la suma de las varianzas de las componentes principales
La contribucin a la varianza muestral total i-esima componente principal es
que expresada en porcentaje, se conoce como porcentaje de la contribucin a la varianza

muestral de la i-esima componente principal o porcentaje de la inercia explicada por la iesima componente principal
La contribucin a la varianza muestral total de las k primeras componentes principales es
que, expresada en porcentaje, se conoce como porcentaje de la contribucin a la varianza

muestral de las k primeras componentes principales o porcentaje de inercia explicada por la
k primeras componentes principales.
Si los estimadores de las componentes principales se obtienen a partir de la matriz de
correlacin muestral.
1. DETERMINACIN DEL NMERO DE COMPONENTES PRINCIPALES
Al utilizar la tcnica de componentes principales para fines de reduccin o simplificacin

de los datos, surge la necesidad de decidir sobre el nmero de componentes principales
que se deben retener.
En el caso de usar S, hay dos mtodos:
1.- retener solamente aquellos componentes
significativamente diferentes de cero.
cuyas
races
caractersticas
son
2.- emplear como criterio el porcentaje acumulado de variancia total explicado por los
varios componentes principales sucesivos. Es decir, retener m < p componentes si:
Alcanza un valor grande, determinado arbitrariamente, digamos entre 0.80 y 0.90.
Cuando se factoriza la matriz R, la significancia estadstica de las races caractersticas no

es posible evaluarla debido a problemas tericos en el desarrollo de las pruebas
estadsticas correspondientes. Dos reglas prcticas que se utilizan son:
Retener solamente aquellos componentes cuyas races caractersticas i son mayores que
1. La justificacin que se da es que cualquier componente merezca ser retenido, debe
explicar ms variancia que cualquiera de las variables estandarizadas (que tienen iguales
a 1).
Emplear la prueba grafica que consiste en contruir un grafico cuyas ordenadas son las
raices caracteristicas de los componentes y las abcisas el rden sucesivo de edxtyraccion
de los componentes. Se trata luego de ubicar un punto o codo , donde la curva
descendente se convierta en una recta descendente. Se retienen entonces un numero de
componentes al igual que a la abcisa donde comienza el codo.
Este mtodo tiene la desventaja de que no siempre existe un codo y, a veces, puede
hablar ms de uno
caracterstico correspondiente, x = ( r+1 r+2 r+m ),

salvo multiplicaciones a derecha por matriz ortogonal.
est unvocamente determinado
.Anlisis de Componentes Principales

ANLISIS DE COMPONENTES PRINCIPALES SOBRE LA MATRIZ DE
CORRELACIONES
Para determinar el componente principal asociado al vector de direccin principal
a, se debe maximizar la funcin:
M = atSa
Sujeta a la condicin = 1. La funcin M puede escribirse como:
2
Supongamos que, a modo de ejemplo, la varianza
1 s es mucho mayor que las
dems varianzas, una manera de maximizar M es sencillamente es hacer tan grande
como se pueda la coordenada a1 asociada a esta variable x1. Si una variable
original tiene una varianza mucho mayor que las dems, el primer componente
coincidir muy aproximadamente con esta variable, en efecto recuerde que el
primer componente satisface para cada observacin i:
z1i = xi1 a1 + + xip ap

De modo que si una variable tiene una varianza mucho mayor que las dems, el
primer componente principal coincidir con esta variable.
De tal modo que esta propiedad depender del tamao de escala que est utilizando
una determinada variable, de tal manera que la maximizacin de (1) depender
decisivamente de la escala a usar en cada variables. Es decir las escalas con
valores ms grandes tendrn mayor peso en el anlisis. Una manera de evitar este
riesgo consiste en estandarizar las variables antes de calculas los componentes
principales. Una vez estandarizadas las variables, se tiene que la funcin que se
debe maximizar es:
Siendo
el coeficiente de correlacin lineal entre las variables i y j. En
consecuencia, la solucin depende de las correlaciones y no de las varianzas.
Los componentes principales normados se obtienen calculando los vectores y valores
propios de la matriz R, de coeficientes de correlacin. Llamando
a las races
caractersticas de esa matriz, que suponemos no singular, se verifica que:
(3)
Las propiedades de los componentes extrados de R son:
1. La proporcin de variacin explicada por
ser:
(4)
2. Las correlaciones entre cada componente

vienen dados directamente por
y las variables X originales

siendo
Cuando las variables originales de X estn en distintas unidades conviene

aplicar el anlisis de los componentes principales emanados de la matriz R
de correlacin. Cuando las variables originales tienen las mismas unidades
ambas alternativas son posibles. Si las diferencias entre las variables son
informativas y queremos considerar este hecho en el anlisis no conviene
estandarizar las variables. Por el contrario, si las diferencias entre las
varianzas no son relevantes, simplemente se elimina del anlisis
considerando la matriz de correlaciones.
1.
MATRIZ DE CORRELACIONES DE LA MUESTRA

Brayan Apl

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Brayan Apl

Uploaded by

Copyright:

Available Formats

Anlisis de Componentes Principales

ANLISIS DE COMPONENTES PRINCIPALES

Transformar las variables originales, en general correlacionadas, en nuevas

El origen del Anlisis de Componentes Principales (ACP) se debe a K. Pearson quien

Definicin de las componentes principales poblacionales

Sea = (1, . . . , p) Rp tal que = 1. Se consideran combinaciones lineale

cuya varianza vendr dada por

Var [X] = E (X) = E XX =

El problema de optimizacin planteado se resuelve mediante la tcnica de Multiplicadores de

El vector de derivadas parciales de la funcin de Lagrange es

Que, igualando a cero, da lugar a

La funcin | I | es un polinomio en de orden p y la ecuacin (2) tiene p races

Multiplicando (1) a la izquierda por se tiene

con 1 vector caracterstico normalizado de correspondiente a la mayor raz caracterstica, 1 , se

Cov [L X, U1] = 0 = E [L XU1] = E [L X ] = E [L XX1]

La funcin de Lagrange es ahora:

Puesto que de (3) se sigue que

0, ha de ser v = 0. Como consecuencia, de (4) se concluye

con 2 vector caracterstico normalizado de correspondiente a la segunda raz caracterstica, 2 ,

El problema que se plantea ahora es

La funcin de Lagrange asociada a este problema es

El vector de derivadas parciales asociado

Puesto que de esto y de que

Llegados a este punto si r+1 = 0

La combinacin lineal normalizada

con r+1 vector caracterstico normalizado de correspondiente a la raz caracterstica r+1

Este procedimiento contina hasta el paso m tal que

Puesto que es de dimensin p p y 1, . . . , m deben ser linealmente independientes

Se comprueba (Giri, 1977) que la unica solucion posible es

matriz de races caractersticas ordenadas de y sea

de los correspondientes vectores caractersticos normalizados.

r+1 = r+2 = = r+m =

Existe una transformacin ortogonal

En caso de races mltiples se tiene el segundo resultado.

Del Teorema 2.1 se sigue

Lo mismo es cierto para la suma de componentes de X y U

Obtener las componentes principales asociadas a este vector aleatorio

(1 )(5 )(2 ) 4(2 ) = 0

{0.92(X1 1) + 0.38(X2 2)} ]

(0.92)2Cov [ X1, X2 ] (0.92)(0.38)Var [ X2 ] 0

Estimacion del analisis de componentes principales

desconocida se asume que X

y el estimador mximo verosmil de

Y los estimadores mximo verosmiles de los vectores caractersticos de

los vectores solucin de

Con el anlisis de componentes principales se pretende, partiendo de una muestra

Para las N observaciones muestrales se tiene la ecuacin matricial

, vienes dada por

y se denomina Varianza muestral total

La contribucin a la varianza muestral total i-esima componente principal es

que expresada en porcentaje, se conoce como porcentaje de la contribucin a la varianza

que, expresada en porcentaje, se conoce como porcentaje de la contribucin a la varianza

1. DETERMINACIN DEL NMERO DE COMPONENTES PRINCIPALES

Al utilizar la tcnica de componentes principales para fines de reduccin o simplificacin

Alcanza un valor grande, determinado arbitrariamente, digamos entre 0.80 y 0.90.

Cuando se factoriza la matriz R, la significancia estadstica de las races caractersticas no

caracterstico correspondiente, x = ( r+1 r+2 r+m ),

est unvocamente determinado

.Anlisis de Componentes Principales

z1i = xi1 a1 + + xip ap

2. Las correlaciones entre cada componente

y las variables X originales

Cuando las variables originales de X estn en distintas unidades conviene

MATRIZ DE CORRELACIONES DE LA MUESTRA