You are on page 1of 30

Anlise de componentes

principais (PCA)

Reduo de dados

Sumarizar os dados que contm muitas


variveis (p) por um conjunto menor de
(k) variveis compostas derivadas a
partir do conjunto original.
p

Data Reduction
Variao residual so informaes
contidas em A que no esto presentes
em X.
Compromisso entre:
reduo do tamanho, representao mais
compacta
supersimplificao: perda de informao
relevante.

Anlise de componentes principais


(PCA)

Provavelmente o mtodo multivariado


mais usado e conhecido de reduo de
dados
Inventado por Pearson (1901) e
Hotelling (1933)

Principal Component Analysis


(PCA)

usa uma conjunto de dados representado


por uma matriz de n registros por p
atributos, que podem estar
correlacionados, e sumariza esse
conjunto por eixos no correlacionados
(componentes principais) que so uma
combinao linear das p variveis
originais
as primeiras k componentes contm a
maior quantidade de variao dos dados

Raciocnio geomtrico da PCA

Objetos so representados por uma nuvem de


n pontos em um espao multidimensional, com
um eixo para cada uma dos p atributos
o centroide dos pontos definido pela mdia
de cada atributo
a varincia de cada atributo mdia dos
quadrados da diferena dos n pontos com
relao a mdia de cada atributo
n

2
1
Vi =
X im X i )
(

n 1 m =1

Raciocnio geomtrico da PCA


Grau com que cada varivel
linearmente correlacionado
representado pela sua covarincia.

Covariance of
variables i and j
Sum over all
n objects

Value of
Mean of
variable i variable i
in object m

Value of
variable j
in object m

Mean of
variable j

Interpretao geomtrica da PCA


O objetivo da PCA rotacionar
rigidamente os eixos desse espao pdimensional para nova posies (eixos
principais) que tem a seguinte
propriedade:
Ordenado de tal maneira que o eixo
principal 1 tem a maior varincia, o eixo 2
tem a prxima maior varincia, .... , e o
ltimo eixo tem a menor varincia
Covarincia entre cada par de eixos zero
(os eixos principais no so
correlacionados).

2D Example of PCA

variveis X1 and X2 tem covarincia positiva e cada


uma delas tm varincia similar.

Os dados so centralizados

Cada varivel ajustada para ter mdia


zero (subtraindo a mdia para cada valor).

Componentes principais so calculadas

PC 1 tem a maior varincia possvel (9.88)


PC 2 tem varincia de 3.03
PC 1 e PC 2 tem covarincia zero.

A medida dedissimilaridade usada na


PCA a distncia euclidiana
PCA usa a distncia euclidiana calculada a
partir dos p atributos como uma medida
de dissimilaridade entre os n objetos
PCA calcula as k melhores possveis
dimenses (k < p) representandos a
distncia euclidiana entre os objetos

Generalizao para p-dimenses


Na prtica, PCA no usada com
somente 2 variables
A algebra para encontrar os eixos pode
ser facilmente extendida para p
variveis
PC 1 a direo de maior variao na
nuvem p-dimensional de pontos
PC 2 est na direo da prxima maior
varincia, condiciodicionada a zero
covarinciancia com PC 1.

Generalizao para p-dimenses


PC 3 est na direo da prxima maior
covarincia, condidionada com zero
covarincia entre PC 1 e PC 2
e assim por diante... at PC p

cada eixo principal uma combinao linear das


variveis originais
PCj = ai1Y1 + ai2Y2 + ainYn
aijs so os coeficiente para o fator i, multiplicado pela
dimenso da varivel j
PC 1

PC 2

os PC eixos so rotaes rgidas das variveis originais


PC 1 simultaneamente a direo de maior varicia e
simultaneamente melhor reta ajustada que minimiza
a distncia mdia entre os pontos e PC1
PC 1

PC 2

Generalizao para p-dimenses


se tomarmos as primeiras k components, eles
definem um hiperplano k-dimensional que
melhor se ajusta nuvem de pontos
Da varincia total dos p atributos:
PCs 1 at k representam a proporo mximo possivel
de varincia que pode ser mostrada em k dimenses

Covariancia vs Correlao
usar covarincia entre variveis somente
faz sentido se elas esto representadas
na mesma unidade
Mesmo assim, variveis com alta varincia
vo dominar as componentes principais
Esses problemas so geralmente
contornados normalizando os atributos
Mdia de i
Desvio padro de i

Covariance vs Correlation
covariancias entre variveis normalizadas
so correlaes correlaes
Depois da normalizao, cada varivel tem
varincia 1
Correlaes tambm podem ser calculadas
a paritr de varincias e covarincias:
Correlation between
variables i and j

Variance
of variable i

Covariance of
variables i and j
Variance
of variable j

Algebra do PCA

O primeiro passo calcular a matriz de


produto vetorial de varincias e
covarincias (ou correlaes) entre cada
par dos p atributos
Matriz quadrada e assimtrica
Diagonais so covarincias, fora,
covarincias.
X1

X2

X1

6.6707

3.4170

X2

3.4170

6.2384

Variance-covariance Matrix

X1

X2

X1

1.0000

0.5297

X2

0.5297

1.0000

Correlation Matrix

Algebra da PCA

Em notao matricial:

onde X a matriz n x p de dados, com


cada varivel centralizada
X1

X2

X1

6.6707

3.4170

X2

3.4170

6.2384

Variance-covariance Matrix

X1

X2

X1

1.0000

0.5297

X2

0.5297

1.0000

Correlation Matrix

Manipulao de Matrizes
Transposio: inverte linhas e colunas

X =

10 0 4
7 1 2

Multiplica as matrizes

X =

10 7
0 1
4 2

Algebra do PCA
Soma dos elementos diagonais da matriz
de varincia-covarincia chamado trao
Ele representaa varincia total dos dados
a distncia mdia quadrada entre cada
ponto e o centro no espao p-dimensional.
X1

X2

X1

6.6707

3.4170

X2

3.4170

6.2384

Trace = 12.9091

X1

X2

X1

1.0000

0.5297

X2

0.5297

1.0000

Trace = 2.0000

Algebra do PCA

Encontrar os eixos principais envolve


encontrar os auto-vetores da matriz de
produto vetorial (S)
The auto-valores de S so solues () da
equao caracterstica

Algebra do PCA

os auto-valores, 1, 2, ... p
correspondem varincia representada em
cada componete principal
A soma de todos os p auto-valores igual
ao trao de S.
X1

X2

X1

6.6707

3.4170

X2

3.4170

6.2384

Trace = 12.9091

1 = 9.8783
2 = 3.0308
Note: 1+2 =12.9091

Algebra do PCA

Cada auto-vetor consiste nos p valores


que representam a contribuio de cada
atributo para a componente principal
Autovetores so no correlacionaods (ortogonal)
Seus produtos-internos so zero.

Auto-vetores
u1

u2

X1

0.7291

-0.6844

X2

0.6844

0.7291

0.7291*(-0.6844) + 0.6844*0.7291 = 0

Algebra do PCA

As coordenadas de cada objeto i na kesimo


eixo principal, chamada de escores na PC
k, so computadas como

one Z a matriz n x k de PC escores, X


a n x p matriz centralizada de daos e U
a p x k matriz de autovetores.

Algebra da PCA

variancia dos scores em cada PC


proporcional ao auto-valor correspondente
para aquele eixo
O autovalor representa a varincia
mostrada (explicada or extraida) pelo
eixo k
A soma dos primeiros k autovalores
proporcional ao total de varincia
explicada pelas primeiras k-dimenses da
transformao

1 = 9.8783

2 = 3.0308

Trace = 12.9091

PC 1 mostra (explica)
9.8783/12.9091 = 76.5% of the total variance

Algebra da PCA
A matriz do produto vetorial calculada
usando as p componentes principais tem
uma forma simples:
Todos os elementos for a da diagonal tem
valores zero
A diagonal contm os auto-valores.
PC1

PC2

PC1

9.8783

0.0000

PC2

0.0000

3.0308

Variance-covariance Matrix
of the PC axes

You might also like