Professional Documents
Culture Documents
principais (PCA)
Reduo de dados
Data Reduction
Variao residual so informaes
contidas em A que no esto presentes
em X.
Compromisso entre:
reduo do tamanho, representao mais
compacta
supersimplificao: perda de informao
relevante.
2
1
Vi =
X im X i )
(
n 1 m =1
Covariance of
variables i and j
Sum over all
n objects
Value of
Mean of
variable i variable i
in object m
Value of
variable j
in object m
Mean of
variable j
2D Example of PCA
Os dados so centralizados
PC 2
PC 2
Covariancia vs Correlao
usar covarincia entre variveis somente
faz sentido se elas esto representadas
na mesma unidade
Mesmo assim, variveis com alta varincia
vo dominar as componentes principais
Esses problemas so geralmente
contornados normalizando os atributos
Mdia de i
Desvio padro de i
Covariance vs Correlation
covariancias entre variveis normalizadas
so correlaes correlaes
Depois da normalizao, cada varivel tem
varincia 1
Correlaes tambm podem ser calculadas
a paritr de varincias e covarincias:
Correlation between
variables i and j
Variance
of variable i
Covariance of
variables i and j
Variance
of variable j
Algebra do PCA
X2
X1
6.6707
3.4170
X2
3.4170
6.2384
Variance-covariance Matrix
X1
X2
X1
1.0000
0.5297
X2
0.5297
1.0000
Correlation Matrix
Algebra da PCA
Em notao matricial:
X2
X1
6.6707
3.4170
X2
3.4170
6.2384
Variance-covariance Matrix
X1
X2
X1
1.0000
0.5297
X2
0.5297
1.0000
Correlation Matrix
Manipulao de Matrizes
Transposio: inverte linhas e colunas
X =
10 0 4
7 1 2
Multiplica as matrizes
X =
10 7
0 1
4 2
Algebra do PCA
Soma dos elementos diagonais da matriz
de varincia-covarincia chamado trao
Ele representaa varincia total dos dados
a distncia mdia quadrada entre cada
ponto e o centro no espao p-dimensional.
X1
X2
X1
6.6707
3.4170
X2
3.4170
6.2384
Trace = 12.9091
X1
X2
X1
1.0000
0.5297
X2
0.5297
1.0000
Trace = 2.0000
Algebra do PCA
Algebra do PCA
os auto-valores, 1, 2, ... p
correspondem varincia representada em
cada componete principal
A soma de todos os p auto-valores igual
ao trao de S.
X1
X2
X1
6.6707
3.4170
X2
3.4170
6.2384
Trace = 12.9091
1 = 9.8783
2 = 3.0308
Note: 1+2 =12.9091
Algebra do PCA
Auto-vetores
u1
u2
X1
0.7291
-0.6844
X2
0.6844
0.7291
0.7291*(-0.6844) + 0.6844*0.7291 = 0
Algebra do PCA
Algebra da PCA
1 = 9.8783
2 = 3.0308
Trace = 12.9091
PC 1 mostra (explica)
9.8783/12.9091 = 76.5% of the total variance
Algebra da PCA
A matriz do produto vetorial calculada
usando as p componentes principais tem
uma forma simples:
Todos os elementos for a da diagonal tem
valores zero
A diagonal contm os auto-valores.
PC1
PC2
PC1
9.8783
0.0000
PC2
0.0000
3.0308
Variance-covariance Matrix
of the PC axes