Professional Documents
Culture Documents
Parte I
Pr(X)
X
Conceitos Objetivos Pressupostos INTRODUÇÃO
Teorema de Bayes
Y’ ~ X’
Categorica
Quantitativa
Conceitos Objetivos Pressupostos INTRODUÇÃO
- LDA:
- Usa regressão linear mas interpreta-se de maneira
diferente (“eixos simplificados”);
- Também para mais do que dois grupos
- RLog:
- É uma regressão onde violações são “consertadas”
Discriminante Linear
(escore de corte)
Conceitos Objetivos Pressupostos INTRODUÇÃO
IDEAL
Conceitos Objetivos Pressupostos INTRODUÇÃO
3 categorias
- Muda como medir as distâncias entre as médias
- LDA:
- Quando temos o interesse em em Y (formado por grupos),
não em X (variáveis explicativas);
- LDA é como uma PCA simples, mas focada em maximizar
a separação de grupos conhecidos
Exemplos:
•Prever o sucesso/fracasso
•Decidir Aprovação/Reprovação
Conceitos Objetivos Pressupostos INTRODUÇÃO
=SE(Zi>EC,"compraria","não compraria")
TRUE FALSE
Escore de corte
Modelo discriminante Elementos LDA
Escores discriminantes
Variável Estatística
(Escore Z discriminante)
ZA + ZB Centroides do grupo A e B
Zce =
2
Valor do escore de corte crítico para grupos de mesmo tamanho
Escore de corte
Modelo discriminante Elementos LDA
Escores discriminantes
Zcu =
NA + NB Número no grupo (A ou B)
Variável Estatística
(Escore Z discriminante)
Variável Estatística
Z1 Z2 Z3 Z4 Z5 Z6 Z7 Z8 Z9 Z10 Z11 (Escore Z discriminante)
Escore de Corte
Matriz de Classificação
Elementos LDA
Escore de Corte
Matriz de Classificação
Elementos LDA
Diagonal com
classificações
corretas
Conceitos Objetivos Pressupostos INTRODUÇÃO
Y1 = X1 + X2 + X3 + ... + Xn
Y: Categórica (pode ser usado para intervalar também)
X: Métricas
Ex02
1. Quais variáveis
são importantes para
separar entre os
grupos? Faça análise
par-a-par
Grupo 1: Trocaria
Grupo 2: Indeciso
Função Discriminante 1
Função Discriminante 2
Função Discriminante 1
Centroides Elementos LDA
Função Discriminante 2
Função Discriminante 1
Função Discriminante 2
Função Discriminante 1
Grupo 1: Trocaria
Grupo 2: Indeciso
Função Discriminante 1
4. Interprete os resultados.
Cargas discriminantes
(ou correlações estruturais)
Elementos LDA
Y1 = X1 + X2 + X3 + ... + Xn
Y: Categórica (categorias BEM estabelecidas)
X: Métricas
Y1 = X1 + X2 + X3 + ... + Xn
Y: Categórica
X: Métricas
- Quando usar?
- Independentes com distribuição normal
Σ: Matriz de variâncias-covariâncias de
q variáveis independentes
Conceitos Objetivos Pressupostos INTRODUÇÃO
Σ: Matriz de variâncias-covariâncias de
q variáveis independentes
Σ: Matriz de variâncias-covariâncias de
q variáveis independentes
> cov(x1+x2+x3+…+xq)
Lembrando:
> cor(x1+x2+x3+…+xq)
Conceitos Objetivos Pressupostos INTRODUÇÃO
MATRIZES COV
IGUAIS?
> require(biotools)
> boxM(data, factorGrouping) p.valor>0.01 Matrizes iguais
Conceitos Objetivos Pressupostos INTRODUÇÃO
AMOSTRA
Discriminantes Quadráticos
PEQUENA
MATRIZES COV
IGUAIS?
Conceitos Objetivos Pressupostos INTRODUÇÃO
AMOSTRA
Discriminantes Quadráticos
PEQUENA
MATRIZES COV
IGUAIS?
AMOSTRA
LDA com VALIDAÇÃO CRUZADA
GRANDE
Conceitos Objetivos Pressupostos INTRODUÇÃO
Validação Cruzada
É desenvolvido uma função discriminante para uma
amostra análise e depois é testada com uma amostra teste.
Amostra teste
Amostra análise
Amostra total
Conceitos Objetivos Pressupostos INTRODUÇÃO
Tamanho amostral
Sugestão:
20 observações para cada variável preditora
Mínimo:
5 observações por variável independente.
within
6. Explorar as opções e os dados.
All cases
7. Graphs :: Categorized :: Scatterplot
Estimativa simultânea
Estimando Modelo
Estimativa stepwise
Estimativa stepwise
Quando existem muitas variáveis preditoras.
Tolerância
Tolerância = (1 – R²) : é uma
medida de redundância da
variável (computada a cada
passo)
Wilk’s Lambda
Testa a significancia estatistica do poder
discriminatório da(s) função(ões) discriminante(s).
FD1 0
Interpretação dos
Resultados
Means of Canonical Variables.
(Médias das Variáveis Canônicas) (botão na aba Advanced)
0
FD2
Interpretação dos
Resultados
Scatterplot of canonical scores.
Clique em Canonical Analysis - Canonical Scores tab
Depois no botão Scatterplot of canonical scores, escolhendo Root 1 vs. Root 2 para
escores não-parametrizados (unstandardized scores)
Interpretação dos
Resultados
RESUMO
(Summary)
1. Qual tipo de Iris mostra discriminação clara e significante
para a primeira função?
Classification.
Volte para a aba Discriminant Function Analysis Results
(clique em Cancel em Canonical Analysis)
Classification.
Volte para a aba Discriminant Function Analysis Results
(clique em Cancel em Canonical Analysis)
ZA ZB
Escores de Corte Interpretação
dos Resultados
ZA + ZB NBZA + NAZB
Zce =
2
Zcu = NA + NB
Zce
ZA ZB
Escores de Corte Interpretação
dos Resultados
ZA + ZB NBZA + NAZB
Zce =
2
Zcu = NA + NB
Zcu
ZA ZB
Interpretação dos
Resultados
Classification Matrix.
botão Classification matrix.
Probabilidade
a priori
Interpretação dos
Resultados
Classification Matrix.
botão Classification matrix.
% corretos
Interpretação dos
Resultados
Classification Matrix.
botão Classification matrix.
N absoluto
= N corretos
Interpretação dos
Resultados
Classification Matrix.
botão Classification matrix.
Erros de
discriminação
Interpretação dos
Resultados
Classification Matrix.
botão Classification matrix.
E se fosse 60%?
Determinação de Classificação por chance
1
C= (número de grupos)
(abundâncias iguais)
E se fosse 60%?
Critério da Chance Máxima
Grupo A : 65 %
Grupo B: 35 %
Grupo A : 65 %
Grupo B: 35 %
60% (observado)
Determinação de Precisão Preditiva Interpretação
dos Resultados
Argumento Custo:
(em geral)
A precisão de classificação deve ser ao menos 25% superior
Quanto menor a
distância, mais confiância
existe de que aquele caso
pertence àquele grupo.
Interpretação dos
Resultados
Probabilidade posterior
Clique no botão Posterior probabilities.
Também dá para selecionar casos a serem classificados e especificar
probabilidade a priori diferentes
Interpretação dos
Resultados
Classificações são ordenadas em primeira, segunda e terceira escolha.
(*) erro na classificação
Suposições
-Normalidade das variáveis independentes
-Linearidade de relações
-Falta de multicolineardidade entre variáveis independentes
-Matrizes de dispersão iguais
119
Grato!