An Discriminantes 01

Análise de Discriminantes
Parte I
Juliano van Melis

CONTEÚDO
Aula 1
•Introduzir o conceito de Análise Discriminante
•Objetivos para utilização da Análise
discriminante
•Pressupostos requeridos
•Análise realizada no STATISTICA
• Tipos de estimação
• Elementos da Análise Discriminante
• Interpretação
CONTEÚDO
•Elementos da Análise Discriminante:
• Modelo discriminante
• Escores discriminantes
• Função de Fischer
• Função Canônica não-padronizada
• Coeficientes Canônicos padronizados
• Escore de corte
• Centróides
• Coeficientes estruturais
• Cargas discriminantes
• Matriz de Classificação
CONTEÚDO
Aula 2
•Processamento da Análise Fatorial
•Avaliação do ajuste e Interpretação dos resultados
do modelo discriminante (Lista de exercícios)
•Análise Fatorial
•Uso do R
•Dúvidas Finais
Conceitos Objetivos Pressupostos INTRODUÇÃO
-Análise multivariada: discriminar e classificar objetos
-Separação em 2 ou mais classes
-Grupos previamente definidos
LDA (Linear Discriminant Analysis)
Simples, matematicamente robusta e normalmente

produz modelos cuja acurácia é tão boa quanto em
métodos mais complexos
Separação de Grupos previamente definidos
Pr(X)
X

Sexo ~ Altura
140 170 200

Altura (cm)

Sexo ~ Altura
P (Homem | H = 180cm)  P (H = 180cm| Homem)
Teorema de Bayes
- 2 Grupos (Regressão Logística)

- É mais utilizado quando há mais do que 2 grupos
140 170 200

Altura (cm)
-Análise multivariada: discriminar e classificar objetos

Grupo (kp, kpq) ~ Normal1 (μA, s²A) + Normal2 (μB, s²B)
Y’ ~ X’
Categorica
Quantitativa
Diferença entre Regressão Logística (RLog) e LDA?
- LDA:
- Usa regressão linear mas interpreta-se de maneira
diferente (“eixos simplificados”);
- Também para mais do que dois grupos
- RLog:
- É uma regressão onde violações são “consertadas”
> glm(y~x1+x2,data,family = "logit")

Discriminante Linear
(escore de corte)
Variável estatística (Z)



1. Maximizar a distância entre médias

2. Minimizar a variância (LDA é “scatter”
e é representada por s2) dentro de
cada categoria
Otimizando somente a distância

das médias
Otimizando as distâncias das

médias E variâncias
IDEAL
3 categorias
- Muda como medir as distâncias entre as médias
Maximizar as distâncias entre cada

categoria e o ponto central e minimizar
a variância para cada categoria
3 categorias
- Utiliza dois eixos ao invés de um
Se existir n Grupos, haverá (n-1) eixos

Independentemente do número de
variáveis explicativas
1. Encontre o eixo que faça a maior separação entre 2 grupos

2. Fixe esse eixo
3. Rode em torno do eixo fixo para maximizar a diferença entre
os 2 primeiros grupos e o 3º grupo
4. Repita os passos 2 e 3 até incluir todos os grupos
Diferença entre Análise de Componentes Principais

(PCA) e LDA?
- PCA:
- Útil para plotar dados com muitas dimensões;
- Reduz as dimensões ao focar em variáveis com as maiores
variâncias
- LDA:
- Quando temos o interesse em em Y (formado por grupos),
não em X (variáveis explicativas);
- LDA é como uma PCA simples, mas focada em maximizar
a separação de grupos conhecidos
Ambas: - Qual variável é mais importante para cada eixo

- Ranqueamento dos eixos (LD1>LD2) (PC1>PC2)
“Quão bem posso separar grupos conhecidos,

dado que possuo as medidas de muitas variáveis
observadas individualmente?”
“O que distingue os meus grupos?”
Exemplos:
•Prever o sucesso/fracasso
•Decidir Aprovação/Reprovação
• Observar se existem diferenças de grupos em perfil

multivariado
• Escolher variáveis independentes que ajudem a

explicar o máximo de diferenças no escores dos
grupos
• Estabelecer procedimentos para classificar objetos

basendo-se em um conjunto de variáveis
independentes
1. Qual Variável seria uma potencial discriminante? Justifique.
Dados: Hair et al. 2005. Análise Multivariada de Dados.
5ª Ed. Bookman
2. Construa gráficos para cada variável independente (X1, X2, X3)
em relação às variáveis dependentes (Grupos 0 e 1). Estabeleça
as variáveis a serem utilizadas.
3. Estabeleça o Escore de Corte e depois classifique segundo a
sua Função Discriminante
=SE(Zi>EC,"compraria","não compraria")
TRUE FALSE
Escore de corte
Modelo discriminante Elementos LDA
Escores discriminantes
Variável Estatística
(Escore Z discriminante)
Definição: Critério (escore) contra o qual cada escore Z discriminante

individual é comparado para determinar a pertinência prevista em um grupo.
 Quando são dois grupos = 1 único escore
Para três ou mais grupos = funções discriminantes múltiplas, com

diferentes escores de corte para cada
Escore de corte
ZA + ZB Centroides do grupo A e B
Zce =
2
Valor do escore de corte crítico para grupos de mesmo tamanho
Escore de corte
NBZA + NAZB Centroides do grupo (A ou B)
Zcu =
NA + NB Número no grupo (A ou B)
Valor do escore de corte crítico para grupos de tamanhos diferentes

Escore de corte
(Escore Z discriminante)
Função Discriminante ( Zjk )
Zjk = β0+ β1X1k+ β2X2k+ ...+ βkXnk
j: discriminante(s)  j = (no Grupos – 1)

k: objeto
β0 : intercepto
βi : Peso discriminante para variável independente i
Xi: Variável independente i para o objeto k
Escore de corte
Z1 Z2 Z3 Z4 Z5 Z6 Z7 Z8 Z9 Z10 Z11 (Escore Z discriminante)
- O desvio padrão é σ Incluídos, mesmo que a

violação possivelmente
ocorra
- Z ~ Normal (0,1)
O escore discriminante previsto pode ser interpretado

como a probabilidade de estar no grupo.
Escore de corte
Matriz de Classificação
Elementos LDA
Previsto Grupo 1 Grupo 2

Real
Grupo 1 5 1
Grupo 2 0 6
Escore de Corte
Elementos LDA
Previsto Grupo 1 Grupo 2

Real
Grupo 1 5 1
Grupo 2 0 6
Escore de Corte
Elementos LDA
Definição: Matriz que avalia a habilidade preditiva da(s) função(ões)

discriminante(s).
Outros nomes: Matriz confusão, designação ou de previsão.
Diagonal com
classificações
corretas
Y1 = X1 + X2 + X3 + ... + Xn
Y: Categórica (pode ser usado para intervalar também)
X: Métricas
Ex02
- Com três grupos
1. Quais variáveis
são importantes para
separar entre os
grupos? Faça análise
par-a-par
Dados: Hair et al. 2005. Análise Multivariada de Dados.

5ª Ed. Bookman
Ex02
2. Construa duas funções discriminantes simples,

usando pesos 0 ou 1. Estabeleça os escores de corte.
Ex02
Grupo 1: Trocaria
Grupo 2: Indeciso
Grupo 3: Não trocaria

Função Discriminante 2
3. Construa um gráfico bidimensional (entre Z1 e Z2)

Centroides Elementos LDA
Definição: Valor médio para os escores Z discriminantes

de todos os objetos, em uma dada categoria ou grupo.
Definição: Valor médio para os escores Z discriminantes

de todos os objetos, em uma dada categoria ou grupo.
Ex02
Grupo 1: Trocaria
Grupo 2: Indeciso
Grupo 3: Não trocaria

4. Interprete os resultados.
Cargas discriminantes
(ou correlações estruturais)
Elementos LDA
Relacionado com a variável

Z1 = 1*X1+0*X2 “competitividade de preço”
Relacionado com a variável

Z2 = 0*X1+1*X2 “nível de serviço”
Definição: Medida da correlação linear simples entre cada

variável independente e o escore Z discriminante.
Pode ser incluída (ou não) uma variável independente no
cálculo das cargas discriminantes na função discriminante
Y1 = X1 + X2 + X3 + ... + Xn
Y: Categórica (categorias BEM estabelecidas)
X: Métricas
Abordagem de Extremos Polares

 Quando quer observar somente os extremos
 Melhorar os resultados da regressão
!!! Cuidados devem ser tomados nas interpretações !!!

Y1 = X1 + X2 + X3 + ... + Xn
Y: Categórica
X: Métricas
- Quando usar?
- Independentes com distribuição normal
- Quando não usar?

- Independentes sem distribuição normal
(mas cuidados podem ser feitos)
É o inverso da MANOVA (análise multivariada de variância)
MANOVA: Variáveis Dependentes métricas e Variável(is)

Independente(s) Categórica(s)
LDA: Para cada conjunto de variáveis independentes há uma

potencial distribuição das variáveis dependentes
 Linearidade das relações

Variável 2
(escolha menos variáveis)
 Cuidados com a Colinearidade

(matriz de covariância)
Considere o tamanho da amostra

Variável 1
Σ: Matriz de variâncias-covariâncias de
q variáveis independentes
σij : covariância entre variáveis independentes Xi e Xj

- Grandes valores de Covariância implicam em um grande grau de
dependência linear entre as variáveis
> cov(x1+x2+x3+…+xq)
Lembrando:
> cor(x1+x2+x3+…+xq)
Matrizes de variâncias-covariâncias devem ser iguais.
Amostras pequenas e matrizes de covariância desiguais afetam

adversamente a significância do processo de estimação.
MATRIZES COV
IGUAIS?
> require(biotools)
> boxM(data, factorGrouping) p.valor>0.01  Matrizes iguais

AMOSTRA
Discriminantes Quadráticos
PEQUENA
MATRIZES COV
IGUAIS?

AMOSTRA
Discriminantes Quadráticos
PEQUENA
MATRIZES COV
IGUAIS?
AMOSTRA
LDA com VALIDAÇÃO CRUZADA
GRANDE
Validação Cruzada
É desenvolvido uma função discriminante para uma
amostra análise e depois é testada com uma amostra teste.
Amostra teste
Amostra análise
Amostra total
Tamanho amostral
Sugestão:
 20 observações para cada variável preditora
Mínimo:
 5 observações por variável independente.
 Menor grupo deve ter mais elementos do que o número

de variáveis preditoras
Se tamanho dos grupos variar muito, recomenda-se

diminuir o maior grupo, fazendo sorteios de elementos.
1 2 3
1. Selecione Discriminant Analysis (Statistics :: Mult/Exploratory)
2. Selecione Advanced Options
3. Selecione as variáveis independentes e a coluna com os
grupos
4. Vá na aba de Descriptives
5. Clique em Review descriptive statistics
6. Explorar as opções e os dados.
within
6. Explorar as opções e os dados.
All cases
7. Graphs :: Categorized :: Scatterplot
Estimativa simultânea
Estimando Modelo
Estimativa stepwise
Estimativa simultânea: Quando não há interesse

do pesquisador em resultados intermediários.
Estimativa stepwise: Seleciona-se variáveis

independentes com mais poder de discriminante,
uma por vez.
Estimando Modelo
Estimativa stepwise
Estimativa stepwise
Quando existem muitas variáveis preditoras.
Geralmente o conjunto reduzido é tão bom –

ou melhor – que a totalidade das variáveis.
É menos estável e generalizável a medida que

a proporção entre amostra e variável
independente é menor que 20.
8. Volte para Review Descriptive Statistics :: Model Definition
9. Na aba Advanced selecione Forward stepwise
Dessa maneira o STATISTICA vai selecionar a variável com a
contribuição mais significativa no modelo de função discriminante
O programa irá parar até que ocorra ¼ desses eventos:
1. Todas variáveis foram inseridas
(forward) ou removidas (backward)
2. Número máximo de passos

estabelecidos foram alcançados
3. Nenhuma variável a ser

inserida/removida altera o F-valor
já encontrado
4. Variável a ser inserida/removida

tem valor de tolerância menor que
o estabelecido
Estimativa stepwise
Estimando Modelo
F para entrar ou remover
Forward: Variável a ser incluída é
aquela que faça a mais significante
contribuição para discriminar os grupos.
Ou seja, com o maior F valor (maior que o
estabelecido como mínimo pelo usuário)
Backward: Variável a ser excluída é

aquela menos significativa para discriminar
os grupos.
Ou seja, a variável com o menor F valor (menor que o
estabelecido para remover variável)
Em Forward, selecione para o menor valor possível

 F to enter deve ser MAIOR que F to remove
Estimando Modelo
Estimativa stepwise
Tolerância
Tolerância = (1 – R²) : é uma
medida de redundância da
variável (computada a cada
passo)
 Sugere-se que deixe no

default ( = 0.01).
Interpretação dos
Resultados
1º Passo (Step 0)
Estimando Modelo
Estimativa stepwise
Wilk’s Lambda
Testa a significancia estatistica do poder
discriminatório da(s) função(ões) discriminante(s).
Outros critérios: traço de Hotelling, critério de Pillai, raiz

característica de Roy (somente LD1)
D2 de Mahalanobis e V de Rao
Wilks' lambda : varia de 1.0 (sem poder discriminatorio) ate 0.0

(poder discriminatorio perfeito).
Interpretação dos
Resultados
2º Passo (Step 1)
Interpretação dos
Resultados
3º Passo (Step 2) – 5º Passo (Step 4)
Interpretação dos
Resultados
Quanto menor o Partial Wilks' Lambda, maior é a sua

contribuição para o poder discriminante geral
Para entender a natureza da sua discriminante, é mellhor fazer

uma análise canonica
Interpretação dos
Resultados
Interpretação dos
Resultados
 STATISTICA registra diferentes funções discriminantes independentes

(ortogonais)
 Cada Função Discriminante contribui cada vez menos para o poder
discriminante.
Interpretação dos
Resultados
Nesta tabela as funções discriminantes (Roots no STATISTICA)

são analisadas.
1ª Linha: Todas as Funções Discriminantes (FDs) são testadas
2ª Linha: A significância de todas as FDs, excetuando a primeira FD.
3ª Linha: A significância de todas as FDs, excetuando a primeira e segunda
FDs...
Quantas FDs podem ser interpretadas? Observe p-level (<0.05)

Interpretação dos
Resultados
Discriminant function coefficients.
- Clique em Coefficients for canonical variables.
-Duas planilhas: Raw Coefficients e outra Standardized Coefficients.
Função Discriminante Linear Estimando Modelo
de Fisher
Definição: ( = Função de Classificação)

( ≠ Função Discriminante)
Método de classificação no qual uma função linear é

definida para cada grupo.
A classificação é realizada calculando um escore

para cada observação na função de classificação de
cada grupo com o maior escore.
Interpretação dos
Resultados
Raw = Crua
Coeficientes podem ser utilizados para computar os escores da Função
Discriminante.
Interpretação dos
Resultados
Standardized = Padronizada
São os coeficientes normalmente usados para interpretação (escala
comparável)
Interpretação dos
Resultados
• Eigenvalues (Auto-valores) para cada Função Discriminante, e

• Cumulative Proportion (Proporção Acumulada) da variância
explicada para cada FD.
Qual das FDs é a mais importante e quanto?

Interpretação dos
Resultados
Factor structure coefficients.
(botão Factor structure na aba Canonical Analysis - Advanced)
Representa as correlações entre variáveis e as funções discriminantes
Utilizados para interpretar o “significado” das funções discriminantes
Semelhança com Factor Analysis

Interpretação dos
Resultados
Means of Canonical Variables.
(Médias das Variáveis Canônicas) (botão na aba Advanced)
 Saber como os grupos são discriminados pelas funções discriminantes.

Interpretação dos
Resultados
FD1 0
Interpretação dos
Resultados
0
FD2
Interpretação dos
Resultados
Scatterplot of canonical scores.
Clique em Canonical Analysis - Canonical Scores tab
Depois no botão Scatterplot of canonical scores, escolhendo Root 1 vs. Root 2 para
escores não-parametrizados (unstandardized scores)
Interpretação dos
Resultados
RESUMO
(Summary)
1. Qual tipo de Iris mostra discriminação clara e significante
para a primeira função?
2. Quais variáveis independentes mostraram coeficientes

positivos ou negativos com essa primeira função
discriminante?
3. Qual é a sua conclusão, baseando-se nas duas respostas

anteriores?
Interpretação dos
Resultados
RESUMO
(Summary)
1. Qual tipo de Iris mostra discriminação clara e significante
para a primeira função?
2. Quais variáveis independentes mostraram coeficientes

positivos ou negativos com essa primeira função
discriminante?
3. Qual é a sua conclusão, baseando-se nas duas respostas

anteriores?
R: setosa apresenta maiores e mais amplas pétalas, mas
menores e estreitas sépalas
Interpretação dos
Resultados
Classification.
Volte para a aba Discriminant Function Analysis Results
(clique em Cancel em Canonical Analysis)
Classification Functions. ( ≠ Função Discriminante)

É computada para cada grupo e pode ser usada diretamente
para classificar casos.
A classificação de um caso em um grupo é dada pelo escore

mais alto de classificação.
Interpretação dos
Resultados
Classification.
Volte para a aba Discriminant Function Analysis Results
(clique em Cancel em Canonical Analysis)
Classification Functions. ( ≠ Função Discriminante)

É computada para cada grupo e pode ser usada diretamente
para classificar casos.
A classificação de um caso em um grupo é dada pelo escore

mais alto de classificação.
Clique Discriminant Function Analysis Results -

Classification tab  Classification functions (ver tais funções)
Interpretação dos
Resultados
 Permite que se utilize essas funções para definir as

transformações para três novas variáveis
Se você inserir novos casos, STATISTICA vai computar automaticamente

os escores de classificação para cada grupo.
Interpretação dos
Resultados
a priori Probabilities.
Pelo STATISTICA pode ser especificado diferentes probabilidades a priori.
Classification :: A priori classification probabilities :: User defined
 As proporções podem ser conhecidas a priori.

 Pode afetar a acurácia da classificação.
 Pode ser novos selecionado casos (Selection)
 Útil para validar uma análise de Discriminante com dados
novos adicionais
Default: Proportional to group sizes option button.
Escores de Corte Interpretação
dos Resultados
ZA + ZB NBZA + NAZB
Zce =
2
Zcu = NA + NB
ZA ZB
dos Resultados
ZA + ZB NBZA + NAZB
Zce =
2
Zcu = NA + NB
Zce
ZA ZB
dos Resultados
ZA + ZB NBZA + NAZB
Zce =
2
Zcu = NA + NB
Zcu
ZA ZB
Interpretação dos
Resultados
Classification Matrix.
botão Classification matrix.
Probabilidade
a priori
Interpretação dos
Resultados
% corretos
Interpretação dos
Resultados
N absoluto
= N corretos
Interpretação dos
Resultados
Erros de
discriminação
Interpretação dos
Resultados
Total = (100 + 96 + 98)/3

Interpretação dos
Resultados
a priori versus post hoc
Perceba que foram calculados Funções que servem como
ferramentas de classificação post hoc,
e não predições a priori.

Interpretação dos
Resultados
a priori versus post hoc
Perceba que foram calculados Funções que servem como
ferramentas de classificação post hoc,
e não predições a priori.
 Medição de Predição Preditiva ao Acaso (ou relativa a chance)
Muito possivelmente ≠ 98%

Determinação de Precisão Preditiva Interpretação
dos Resultados
E se fosse 60%?
Determinação de Classificação por chance
1
C= (número de grupos)
(abundâncias iguais)
Critério = 50% (2 grupos) Observado = 60%

dos Resultados
E se fosse 60%?
Critério da Chance Máxima
Grupo A : 65 %
Grupo B: 35 %
Critério = 65% Observado = 60%

dos Resultados
(critério de chances proporcionais)

Cpro = p²+ (1-p)²
p: Proporção de ind no grupo 1
(1-p): Proporção de ind no grupo 2
Grupo A : 65 %
Grupo B: 35 %
Cpro = 0.65² +0.35² = 54,5%
60% (observado)
dos Resultados
Argumento Custo:
(em geral)
A precisão de classificação deve ser ao menos 25% superior
Logo, no caso anterior:
54,5 x 1,25 = 68,13% 60% (observado)

Matrizes de Classificação Interpretação
~R² dos Resultados
Se dois grupos forem significantemente distintos entre si,
mas com amostras grandes os centroides podem se
sobrepor e mesmo assim ser significativo!
 Razão de sucesso (% corretamente classificado)
 Ao invés de F (em R²), aplica-se χ² ou D² para analisar

a significância de uma análise discriminante
Interpretação dos
Resultados
Mahalanobis distances
Vá para Results. Clique em Squared Mahalanobis distances
Cada caso é classificado ao grupo mais próximo.
Medida de distância euclidiana de cada caso até o centroide de cada grupo

(espaço multivariado).
 Quanto menor a
distância, mais confiância
existe de que aquele caso
pertence àquele grupo.
Interpretação dos
Resultados
Probabilidade posterior
Clique no botão Posterior probabilities.
Também dá para selecionar casos a serem classificados e especificar
probabilidade a priori diferentes
Interpretação dos
Resultados
Classificações são ordenadas em primeira, segunda e terceira escolha.
(*) erro na classificação
Normalemente as acurácias em outros estudos sao muito

menores…
Sugere-se SEMPRE fazer dois estudos: um para construir as
funções e outro para validá-las
Interpretação dos
Resultados
Classificações são ordenadas em primeira, segunda e terceira escolha.
(*) erro na classificação
Normalemente as acurácias em outros estudos sao muito

menores…
Sugere-se SEMPRE fazer dois estudos: um para construir as
funções e outro para validá-las  Jackknife
Fluxograma
Carregar os dados
Selecione Discriminant Analysis

 variáveis independentes e
grupos
Selecione Advance options
Review descriptive statistics
Explore dentro dos grupos e

entre grupos
Scatterplot dos dados

Fluxograma
Estabeleça
Escolha entre Estimativa Tolerância
Stepwise ou Simultânea
Verifique os passos
Wilk’s Lambda: verificar
significância da Função
Discriminante
Análise Canônica das Variáveis
Veja a Distribuição no Espaço

Multivariado dos Centroides
Análise Matriz de Classificações

Resumo Fluxograma
Problema de Pesquisa
-Avaliação de diferenças de grupos em um perfil multivariado
-Classificar observações em grupos
-Identificar dimensões de discriminação entre grupos
Questões de Planejamento de Pesquisa

-Seleção de variáveis independentes
-Considerações sobre o tamanho da amostra
-Criação de amostras de análise e de teste
Suposições
-Normalidade das variáveis independentes
-Linearidade de relações
-Falta de multicolineardidade entre variáveis independentes
-Matrizes de dispersão iguais
Fonte: Hair et al. 2005. Análise Multivariada de Dados.

5ª Ed. Bookman
Resumo Fluxograma
Estimação das Funções Discriminantes
-Estimação simultânea ou stepwise
-Significância das funções discriminantes
Avaliação precisão preditiva

-Determinar escore de corte ótimo
-Especificar critério para avaliar razão de sucesso (Uso de
matrizes de Classificação)
-Significância estatística de precisão preditiva
Interpretação das Funções Discriminantes

-Quantas funções serão interpretadas
Avaliação de Função Avaliação de Funções Avaliação de Funções

-Pesos discriminantes separadas combinadas
-Cargas discriminantes -Pesos discriminantes -Índice de Potência
(correlações de estrutura) -Cargas discriminantes -Representação Gráfica dos
-Valores F parciais (correlações de estrutura) centroides
-Valores F parciais
Resumo Fluxograma
Validação dos resultados Discriminantes
-Subamostras ou validação cruzada
-Diferença de perfis de grupos (analise das médias das variáveis
para os grupos)
Próxima Aula
- Interpretação dos resultados (Lista de exercícios)

-Análise Fatorial
- Uso do R
119
Grato!

An Discriminantes 01

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

An Discriminantes 01

Uploaded by

Copyright:

Available Formats

Análise de Discriminantes

Juliano van Melis

-Análise multivariada: discriminar e classificar objetos

-Separação em 2 ou mais classes

-Grupos previamente definidos

LDA (Linear Discriminant Analysis)

Simples, matematicamente robusta e normalmente

Separação de Grupos previamente definidos

Separação de Grupos previamente definidos

140 170 200

Separação de Grupos previamente definidos

P (Homem | H = 180cm)  P (H = 180cm| Homem)

- 2 Grupos (Regressão Logística)

140 170 200

-Análise multivariada: discriminar e classificar objetos

Diferença entre Regressão Logística (RLog) e LDA?

> glm(y~x1+x2,data,family = "logit")

Variável estatística (Z)

Variável estatística (Z)

Variável estatística (Z)

Variável estatística (Z)

1. Maximizar a distância entre médias

Otimizando somente a distância

Otimizando as distâncias das

Maximizar as distâncias entre cada

Se existir n Grupos, haverá (n-1) eixos

1. Encontre o eixo que faça a maior separação entre 2 grupos

Diferença entre Análise de Componentes Principais

Ambas: - Qual variável é mais importante para cada eixo

“Quão bem posso separar grupos conhecidos,

“O que distingue os meus grupos?”

• Observar se existem diferenças de grupos em perfil

• Escolher variáveis independentes que ajudem a

• Estabelecer procedimentos para classificar objetos

Definição: Critério (escore) contra o qual cada escore Z discriminante

 Quando são dois grupos = 1 único escore

Para três ou mais grupos = funções discriminantes múltiplas, com

NBZA + NAZB Centroides do grupo (A ou B)

Valor do escore de corte crítico para grupos de tamanhos diferentes

Função Discriminante ( Zjk )

Zjk = β0+ β1X1k+ β2X2k+ ...+ βkXnk

j: discriminante(s)  j = (no Grupos – 1)

- O desvio padrão é σ Incluídos, mesmo que a

O escore discriminante previsto pode ser interpretado

Previsto Grupo 1 Grupo 2

Previsto Grupo 1 Grupo 2

Definição: Matriz que avalia a habilidade preditiva da(s) função(ões)

Outros nomes: Matriz confusão, designação ou de previsão.

- Com três grupos

Dados: Hair et al. 2005. Análise Multivariada de Dados.

2. Construa duas funções discriminantes simples,

Grupo 3: Não trocaria

3. Construa um gráfico bidimensional (entre Z1 e Z2)

Definição: Valor médio para os escores Z discriminantes

Definição: Valor médio para os escores Z discriminantes

Grupo 3: Não trocaria

Relacionado com a variável

Relacionado com a variável

Definição: Medida da correlação linear simples entre cada

Abordagem de Extremos Polares

!!! Cuidados devem ser tomados nas interpretações !!!

- Quando não usar?

É o inverso da MANOVA (análise multivariada de variância)

MANOVA: Variáveis Dependentes métricas e Variável(is)