Analyse Discriminante Descriptive

Caractériser de manière multidimensionnelle (à l’aide de plusieurs variables,
simultanément) l’appartenance des individus à des groupes prédéfinis
Ricco RAKOTOMALALA
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 1
PLAN
1. Position du problème
2. Détermination des variables discriminantes (axes factoriels)
3. Analyse des résultats
4. Etude de cas
5. Classement (prédiction) avec l’analyse discriminante
6. Les logiciels (Tanagra, R avec lda, SAS avec PROC CANDISC)
7. Conclusion
8. Bibliographie
Ricco Rakotomalala
Ricco Rakotomalala
Analyse discriminante descriptive - Objectif
Une population est subdivisée en K groupes (classes), elle est décrite par
une série de J caractères (variables) quantitatives.
Annee Temperature Soleil Chaleur Pluie Qualite
1924 3064 1201 10 361 medium
Ex. Les vins de Bordeaux 1925 3000 1053 11 338 bad
1926 3155 1133 19 393 medium
(Tenenhaus, 2006; page 353)
1927 3085 970 4 467 bad
Les lignes correspondent aux 1928 3245 1258 36 294 good
années (1924 à 1957) 1929 3267 1386 35 225 good
Groupe
Description
d’appartenance
Objectif(s) :
(1) Descriptif (Schéma d’explication) : Mettre en évidence les caractéristiques qui permettent
de distinguer au mieux les groupes Objectif principal
(2) Prédictif (Schéma de prédiction) : Classer automatiquement un nouvel individu (l’affecter

à un groupe) à partir de ses caractéristiques Objectif secondaire dans notre contexte
(!) (on se reproche de l’AD Prédictive dans ce cas, cf. support associé – Analyse
discriminante linéaire)
Ricco Rakotomalala
Analyse discriminante descriptive - Démarche
Principe : Trouver une succession de combinaisons linéaires des variables initiales (on parle de
variables latentes ou variables discriminantes, elles sont deux à deux orthogonales) qui permet de
distinguer au mieux (au sens des barycentres) les groupes analyse factorielle discriminante
1er axe AFD sur les var. Temp et Soleil

On souhaite que les barycentres 1750 zi = a1 ( xi1 − x1 ) + a2 ( xi 2 − x2 )
1650
conditionnels, projetés sur l’axe factoriel, 1550
soient le plus écartés possibles. 1450
1350
Soleil
∑ (z
i
i − z ) = ∑ nk (z k − z ) + ∑∑ ( zik − z k )
2
k
2
k i
2
1250
1150
bad
good
1050
medium
SCT = SCE + SCR 950
SC totaux = SC expliqués (groupes) + SC résiduels 850

2800 3000 3200 3400 3600 3800
Temperature
Ricco Rakotomalala
Analyse discriminante descriptive – Démarche (suite)
Un indicateur de qualité de la séparation des Trouver les coefficients (a1,a2) qui définissent
la variable discriminante Z (ou axe factoriel)
groupes à maximiser : le rapport de corrélation
maximisant le rapport de corrélation
SCE 0 ≤ η z2, y ≤ 1
η z2, y = avec Le nombre d’axes factoriels est égal à M =
SCT
MIN(J, K-1)
1 discrimination parfaite, les points associés aux groupes sont
agglutinés sur leurs barycentres (SCR = 0)
0 discrimination impossible, barycentres confondus (SCE = 0) Les axes sont deux à deux orthogonaux
Les axes suivants maximisent l’écart entre les

1er axe AFD sur les var. Temp et Soleil
1750 barycentres en contrôlant l’effet des axes
η 2
= 0.051
η z2 , y = 0.726
z1650
2 ,y précédents c.-à-d. ils essaient d’expliquer les
1550 1
1450 écarts entre les barycentres non pris en
1350
Soleil
compte encore par les axes précédents

1250
bad
1150
1050 good
950 medium Le pouvoir discriminatoire est quantifié par le

850
2800 3000 3200 3400 3600 3800
rapport de corrélation
Temperature
Ricco Rakotomalala
Ricco Rakotomalala
Analyse discriminante descriptive  a1  « a » est le vecteur des coefficients
 
Formulation mathématique a = M  permettant de définir le premier
a 
 J axe factoriel Z c.-à-d. z = a1 ( x1 − x1 ) + L + a J ( x J − x J )
Matrice de variance covariance totale
SCT = a'Va
∑ (xil − xl )(xic − xc )
1 [à un facteur (1/n) près]
V → vlc =
n i
Matrice de variance covariance intraclasses
W → wlc =
1
∑ ∑ (xil ,k − xl ,k )(xic ,k − xc,k ) SCR = a'Wa
n k i: yi = k
Matrice de variance covariance interclasses
B → blc = ∑
nk
(xl ,k − xl )(xc,k − xc ) SCE = a ' Ba
k n
Théorème d’Huyghens V=B+W
L’ADD consiste à chercher le vecteur de coefficients « a » qui permet de définir

une axe (variable latente Z) qui maximise le rapport de corrélation avec Y
a ' Ba
max ⇔ max η z2, y
a a 'Va a
Ricco Rakotomalala
Analyse discriminante descriptive
Solution mathématique
a ' Ba max a ' Ba

max est équivalent à a
a a 'Va
Sous la contrainte a 'Va = 1 Le vecteur « a » est normé
Solution : former le lagrangien, et annuler la dérivée c.-à-d.
L( a ) = a ' Ba − λ (a 'Va − 1)
∂L ( a )
= 0 ⇒ Ba = λVa λ est la première valeur propre de V-1B
∂a
« a » est le vecteur propre associé
⇒ V −1 Ba = λa
De manière générale, les axes factoriels de l’ADD sont définis par les valeurs
et vecteurs propres de la matrice V-1B.
Au plus, nous avons M = min(K-1, J) valeurs propres non nulles, et donc autant d’axes
factoriels.
λ =η2 La valeur propre est égal au rapport de corrélation associé à l’axe (0 ≤ λ ≤ 1)
η= λ Est la « corrélation canonique »

Ricco Rakotomalala
Analyse discriminante descriptive Nombre d’axes
Vins de Bordeaux (X1 : Température et X2 : Soleil) M = min (J = 2; K-1 = 2) = 2
Z i 2 = − 0 .0092 ( xi1 − x1 ) + 0 .0105 ( xi 2 − x 2 ) L’écartement entre les barycentres est
η 2 = 0 .051 = 0.225 moindre sur cet axe.
2.0
1.5
1.0
medium
0.5
Z i1 = 0 .0075 ( xi1 − x1 ) + 0 .0075 ( xi 2 − x 2 )

bad 0.0 good
-4.0 -3.0 -2.0 -1.0 0.0 1.0 2.0 3.0 4.0 5.0 η1 = 0 .726 = 0 .852
-0.5
L’écartement entre les barycentres est
élevé sur cet axe.
-1.0
-1.5 (2.91; -2.22) : les coordonnées

bad factorielles d’un individu sont appelées
-2.0
good « score » dans les logiciels anglo-
medium
-2.5 saxons (SAS, SPSS, R…)
Ricco Rakotomalala
Analyse discriminante descriptive
Solution mathématique (bis) – Logiciels anglo-saxons
Puisque V = B + W, on peut reformuler le problème à résoudre de la manière suivante :
a ' Ba Qui est max a ' Ba

a
max
a a 'Wa équivalent à Sous la contrainte a 'Wa = 1 (Le vecteur « a » est normé)
Les axes factoriels de l’AFD sont définis par les valeurs et vecteurs propres de la matrice W-1B.
Les vecteurs propres « a » de W-1B sont identiques à ceux de V-1B les axes factoriels sont
définis de la même manière.
Les valeurs propres sont reliées par la relation suivante : λm

ρm =
ρ = SCE / SCR pour l’axe associé 1 − λm
Ex. Fichier « Vins de Bordeaux »

0.8518 2 0.7255
Avec les variables « Température » et « Soleil » uniquement 2.6432 = =
1 − 0.8518 2
1 − 0.7255
Root Eigenvalue Proportion Canonical R Ex. le 1er axe explique 98% de l’écartement entre les barycentres
dans l’espace initial : 98% = 2.6432 / (2.6432 + 0.0534).
1 2.6432 0.9802 0.8518
Les 2 premiers axes expliquent 100% de cet écartement.
2 0.0534 1 0.2251
Clairement, le 1er axe suffit largement ici !!!
On peut aussi exprimer les axes en termes

Ricco Rakotomalala
de « pouvoir discriminatoire relatif »
Ricco Rakotomalala
Analyse discriminante descriptive – Choisir le nombre d’axes adéquat
N.B. Tester individuellement un axe intermédiaire n’a

On veut tester
pas de sens (ex. essayer de retirer le 1er axe tout en
conservant le 2nd). Parce qu’ils ont un pouvoir
H0 : les « q » derniers rapports de corrélation sont tous nuls
discriminatoire décroissant ; et parce que l’explication
⇔ H0 : η K − q = η K − q −1 = L = η K −1 = 0
2 2 2
fournie par un axe dépend du pouvoir discriminatoire
⇔ H0 : on peut négliger les « q » derniers axes des précédents.
∏ (1 − η )
K −1
Plus la statistique prend une valeur faible, plus
Statistique de test Λq = 2
m intéressants sont les axes factoriels.
m= K −q
Dans le cadre de populations gaussiennes [c.-à-d. X = (X1,…,XJ) suit une loi multi normale dans chaque sous-
groupe], on peut utiliser les transformations de Bartlett (loi du KHI-2) et de Rao (loi de Fisher)
Wilks
Root Eigenvalue Proportion Canonical R CHI-2 d.f. p-value
Lambda
1 2.6432 0.9802 0.8518 0.260568 41.0191 4 0
2 0.0534 1 0.2251 0.949308 1.5867 1 0.207802
On neRicco
peutRakotomalala
pas retirer les deux premiers axes à 5% ; le second seul en revanche n’est pas significatif.
Analyse discriminante descriptive – Tester tous les axes
Un test particulier
Test MANOVA c.-à-d. test d’égalité des
H0 : les rapports de corrélation sont tous nuls
moyennes multidimensionnelles
⇔ H0 : η1 = L = η K −1 = 0
2 2
 µ1,1   µ1, K 
⇔ H0 : il est impossible de discerner les groupes    
H0 :  M  = L =  M  Simultanément
dans l’espace de représentation µ  µ 
 J ,1   J ,K 
( )
K −1 Plus le LAMBDA est petit, plus les (moyennes des)
Statistique de test :
Λ = ∏ 1 −η 2
m groupes sont écartés dans l’espace de représentation
Le LAMBDA de Wilks m =1 (0 ≤ Λ ≤ 1).
Moyennes conditionnelles
Temperature vs. Soleil
1550
1450
LAMBDA de Wilks = 0.26
1350
Transformation de Bartlett Conclusion : Une des
Soleil
1250
bad
KHI-2 = 41.02 ; p-value < 0.0001 moyennes (barycentres)
1150 good
conditionnelles au moins
medium
1050 s’écarte des autres
Transformation de Rao
950
2800 3000 3200 3400 3600 F = 14.39 ; p-value < 0.0001
Temperature
Ricco Rakotomalala
Analyse discriminante descriptive – Interprétation des axes
Coefficients canoniques bruts et normalisés (intra-classes)
Coefficients bruts
Z = a1 ( x1 − x1 ) + L + a J ( x J − x J )
Pour un axe, les vecteurs propres permettent de
définir les coefficients de projection c.-à-d. ils = a0 + a1 x1 + L + a J x J
permettent de calculer le score (coordonnée) Coefficients non interprétables (comparables) parce variables
des individus sur l’axe. non définies dans les mêmes unités.
Coefficients normalisés (standardisés)

On réalise l’AFD sur les variables centrées et réduites
∑ ∑ (x − x j ,k )
nk
1
avec l’écart type intra-classes. σ = 2 2
β j = a j ×σ j n−K
j
k i: y i = k
ij , k
On peut avoir directement le résultat en multipliant le

Est la variance intra-classes de la
coefficient par l’écart-type intra-classes de la variable.
variable Xj
Les valeurs sont comparables d’une variable à l’autre
Indique la contribution des variables pour la discrimination sur l’axe

Attention, il s’agit de contributions partielles, tenant compte des autres variables
Deux variables peuvent se « gêner » si elles sont corrélées, partageant leurs contributions. Au point de
prendre parfois des signes opposés (cf. W.R. Klecka, « Discriminant Analysis », 1980 ; page 33).
On préfèrera les structures canoniques (corrélation des variables avec les axes) pour interpréter les axes
Canonical Discriminant Function
Coefficients Unstandardized Standardized
Attribute Root n°1 Root n°2 Root n°1 Root n°2
Qualité = AFD (Température, Soleil) >> Temperature 0.007465 -0.009214 -0.653736 -0.806832
Sun 0.007479 0.010459 -0.604002 0.844707
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/
constant 32.903185 16.049255 -
15
Structure canonique totale
Corrélation brute entre les variables et les axes factoriels, sans tenir compte de la structuration en
classes. On peut même produire un « cercle des corrélations » comme en ACP
2.0
Correlation scatterplot (CDA_1_Axis_1 vs. CDA_1_Axis_2)
Descriptors Total 1
0.9
1.5
Temperature 0.9334
0.8
0.7
Sun 0.9168
0.6 1.0
0.5
0.4
Soleil
0.5
0.3
0.2
CDA_1_Axis_2
0.1 0.0
0 -4.0 -3.0 -2.0 -1.0 0.0 1.0 2.0 3.0 4.0 5.0
-0.1
-0.2
-0.5
-0.3
Temperature
-0.4 -1.0
-0.5
-0.6
-0.7 -1.5
-0.8
-0.9 bad
-2.0
-1 good
-1 -0.9 -0.8-0.7 -0.6 -0.5 -0.4 -0.3-0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
CDA_1_Axis_1 medium
-2.5
Le 1er axe correspond à la conjonction des journées chaudes Les années où il a fait chaud avec beaucoup de
(température) et des durées d’ensoleillement élevées soleil, le millésime a été bon.
Permet d’interpréter simplement les axes, caractériser l’importance des variables. A privilégier.
A comparer avec les coefficients standardisés, si signes différents colinéarité entre les variables
Ricco Rakotomalala
Structure canonique intra-classes
Corrélation après centrage des variables et des axes sur les sous-populations. Permet de
caractériser le lien après avoir annihilé la structuration en classes.
Bof.
3 600 200
3 500
150
3 400
100
Température
3 300
Température
50
3 200 bad
3 100 0 good
bad
medium
3 000 good -50
2 900 medium
-100
2 800
-4.00 -2.00 0.00 2.00 4.00 6.00 -150
Axe 1 Axe 1
r = 0.9334 rw = 0.8134
Root Root n°1

Descriptors Total Within Between Souvent plus faible que la corrélation brute (pas toujours).
Temperature 0.9334 0.8134 0.9949
Sun 0.9168 0.777 0.9934
Permet de comprendre l’orientation des sous-nuages.
Ricco Rakotomalala
Structure canonique inter-classes
Corrélation après réduction des variables et des axes aux moyennes conditionnelles. Permet d’exalter
la structuration en classes.
Séduisant en théorie. Difficile à lire en pratique (ex. « 1 » ou « -1 » systématiquement pour K = 2).
3 600 3 350
3 500
3 300
3 400
3 250
Température
3 300
Température
3 200
3 200 bad
3 100 3 150 good

bad
medium
3 000 good 3 100
2 900 medium
3 050
2 800
-4.00 -2.00 0.00 2.00 4.00 6.00 3 000
Axe 1 Axe 1
r = 0.9334 rB = 0.9949
Root Root n°1

Descriptors Total Within Between
Temperature 0.9334 0.8134 0.9949
Sun 0.9168 0.777 0.9934
Ricco Rakotomalala
Moyenne conditionnelles sur les axes
Calculer les moyennes conditionnelles sur les axes.
Permet de comprendre les groupes bien discriminés sur un axe.
(X1) CDA_1_Axis_1 vs. (X2) CDA_1_Axis_2 by (Y) Qualite

(X1) CDA_1_Axis_1 vs. (X2) CDA_1_Axis_2 by (Y) TYPE
3
1
2
1
0
-1
-1
-2
-2
-3 -2 -1 0 1 2 3 4
-4 -3 -2 -1 0 1 2
medium bad good KIRSCH POIRE MIRAB
Qualite Root n°1 Root n°2 TYPE Root n°1 Root n°2
bad -1.804187 0.153917 KIRSCH 3.440412 0.031891
good 1.978348 0.151489 POIRE -1.115293 0.633275
medium -0.01015 -0.3194 M IRAB -0.981677 -0.674906
Sq Canonical corr. 0.725517 0.050692 Sq Canonical corr. 0.789898 0.2544
Les 3 groupes bien discriminés sur le 1er axe KIRSCH vs. les deux autres sur le 1er axe
Rien d’intéressant sur le 2nd axe (rapport de corrélation très faible) POIRE vs. MIRAB sur le 2nd (rapport de corrélation reste élevé)
Ricco Rakotomalala
Ricco Rakotomalala
Vins de Bordeaux - Description rapide des données
1000 1200 1400 300 500

Certaines variables sont assez fortement
3500
corrélées (cf. matrice des corrélations)
3300
Temperature
3100
(Rouge : Bad ; bleu : Medium ; vert :
2900
Good). On distingue les groupes, surtout
1400
sur certaines variables.

Sun
1200
1000
L’influence sur la qualité n’est pas la
40
même selon (température, soleil, chaleur)
30
Heat et (pluie).
20
10
Il y a un point manifestement atypique,
via la variable « Rain » (pluie)
500
Rain
300
2900 3100 3300 3500 10 20 30 40
Matrice des corrélations
Ricco Rakotomalala
Vins de Bordeaux – Discrimination selon les variables
Prises individuellement
Temperature Sun
3500
1400
3300
1200
Température, Soleil et Chaleur
3100
permet déjà de distinguer les
1000
2900
« bons » vins des « mauvais ».

bad good medium bad good medium
η x2, y = 0.64 η x2, y = 0.62 Pour toutes les variables, l’ANOVA

Heat Rain indique un écart significatif entre
les moyennes à 5%.
40
600
30
500
20
400
300
10
bad good medium bad good medium
η 2
x, y = 0.50 η 2
x, y= 0.35
Ricco Rakotomalala
Vins de Bordeaux – Résultats de l’AFD
Le 2nd axe ne permet pas discerner
Roots and Wilks' Lambda les groupes, on peut la négliger.
Wilks
Root Eigenvalue Proportion Canonical R CHI-2 d.f. p-value
Lambda 96% du pouvoir discriminatoire de
1 3.27886 0.95945 0.875382 0.205263 46.7122 8 0
2 0.13857 1 0.348867 0.878292 3.8284 3 0.280599 l’AFD est porté par le 1er axe. Nous
allons y concentrer notre analyse.
(X1) CDA_1_Axis_1 vs. (X2) CDA_1_Axis_2 by (Y) Qualite
0
Sur le 1er axe, nous distinguons les 3 groupes. Les
moyennes conditionnelles nous indique (de gauche
-1
à droite) : les « bons » vins, les « moyens » et les
-2
« mauvais ».
-4 -3 -2 -1 0 1 2 3
medium bad good

Le rapport de corrélation sur l’axe est de 0.76; plus
élevé que n’importe quelle variable prise
Group centroids on the canonical variables
individuellement (la meilleure était « température »
Qualite Root n°1 Root n°2
avec 0.64).
medium -0.146463 0.513651
bad 2.081465 -0.22142
good -2.124227 -0.272102
Sq Canonical corr. 0.766293 0.121708
Ricco Rakotomalala
Vins de Bordeaux – Caractérisation des groupes
Via la caractérisation des axes L’axe oppose la température et l’ensoleillement
Canonical Discriminant Function (plus ils sont élevés, meilleur sera le vin) et la pluie
Coefficients Unstandardized Standardized (plus il pleut, mauvais sera le vin ; l’impact est
Attribute Root n°1 Root n°2 Root n°1 Root n°2
Temperature -0.008575 0.000046 -0.750926 0.004054
moindre que pour les autres variables).
Soleil -0.006781 0.005335 -0.547648 0.430858
Chaleur 0.027083 -0.127772 0.198448 -0.936227
Attention, le rôle de « chaleur » est ambigu. En
Pluie 0.005872 -0.006181 0.445572 -0.469036
constant 32.911354 -2.167589 - réalité, il est fortement corrélé avec
« température » (cf. la matrice des corrélations).
Factor Structure Matrix - Correlations
Root Root n°1 Root n°2 « Chaleur » influe positivement sur la qualité mais,
Descriptors Total Within Between Total Within Between
Temperature -0.9006 -0.7242 -0.9865 -0.3748 -0.5843 -0.1636
par rapport à « température », son apport
Soleil -0.8967 -0.7013 -0.9987 0.1162 0.1761 0.0516 d’information additionnel dans l’explication de la
Chaleur -0.7705 -0.5254 -0.9565 -0.59 -0.7799 -0.2919
qualité est négligeable. Le rapport de corrélation
Pluie 0.6628 0.3982 0.9772 -0.3613 -0.4208 -0.2123
conditionnel (cf. Tenenhaus, page 376) est η 2
x3 , y / x1 = 0.0348

1 (X1) CDA_1_Axis_1 vs. (X2) CDA_1_Axis_2 by (Y) Qualite
0.9
0.8
0.7
1
0.6
0.5
0.4
0.3 0
0.2
CDA_1_Axis_2
Soleil
0.1
0
-1
-0.1
-0.2
-0.3 Pluie
Temperature
-0.4 -2
-0.5
Chaleur -4 -3 -2 -1 0 1 2 3
-0.6
-0.7 medium bad good
-0.8
-0.9
-1
-1 -0.9-0.8-0.7-0.6-0.5-0.4-0.3-0.2-0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
CDA_1_Axis_1
Coordonnées des individus + Groupe
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ d’appartenance. Cercle des corrélations. 24
Ricco Rakotomalala
Classement de nouveaux individus – Règle d’affectation
Préambule
L’analyse discriminante linéaire (prédictive) propose un cadre théorique plus séduisant pour la
prédiction. Notamment en explicitant les hypothèses probabilistes.
Néanmoins, on peut s’appuyer sur les résultats de l’AFD pour classer les individus, en s’appuyant
sur des règles géométriques.
2.5 AFD sur Température et Soleil

Barycentres conditionnels
2.0
Etapes :
1.5
bad 1. A partir des valeurs de X, et des coefficients
good canoniques bruts : calculer la position de
1.0
Quelle est sa classe ? medium l’individu dans le repère factoriel.
0.5
2. Calculer les distances aux barycentres dans ce
0.0 repère (distance euclidienne simple)
-2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 3. On attribuera à l’individu la classe dont le
-0.5
barycentre est le plus proche
-1.0
-1.5
-2.0
-2.5
Ricco Rakotomalala
Classement de nouveaux individus – AFD sur Température (X1) et Soleil (X2)
X1 = 3000 – X2 = 1100 – Millésime 1958 (Basé sur les prévisions météo)
1. Calcul des coordonnées factorielles

z1 = 0.007457 × x1 + 0.007471 × x2 − 32.868122
= 0.007457 × 3000 + 0.007471 × 1100 − 32.868122
= −2.2780
2.5 AFD sur Température et Soleil
z 2 = −0.009204 × x1 + 0.010448 × x2 + 16.032152 Barycentres conditionnels
= −0.009204 × 3000 + 0.010448 × 1100 + 16.032152 2.0
= −0.0862
1.5
bad
2. Calcul des distances par rapport aux good
1.0
barycentres medium
d (bad ) = (−2.2780 − ( −1.8023)) + ( −0.0832 − (−0.1538))
2 2 2
0.5
= 0.2309 5.3075
d 2 ( good ) = 18.1031 0.0
d 2 ( medium) = 5.3075 -2.50.2309

-2.0 -1.5 -1.0 -0.5 0.0 0.5
18.1031 1.0 1.5 2.0 2.5
-0.5
3. Conclusion -1.0
Le millésime 1958 a de fortes chances

-1.5
d’être « bad ». Il a très peu de chances
d’être « good ». -2.0
-2.5
Ricco Rakotomalala
Classement de nouveaux individus
Distance euclidienne dans l’espace factoriel = distance de Mahalanobis dans l’espace initial
On peut calculer la même distance que précédemment dans l’espace initial en utilisant la métrique
W-1 : on parle de distance de MAHALANOBIS.
d 2 (bad ) = ( x − µbad )'W −1 (x − µbad )

Pour le même individu que −1
 7668.46 1880.15   3000 − 3037.3 
précédemment, on calcule = (3000 − 3037.3;1100 − 1126.4 )   
 1880 . 15 6522 .33   1100 − 1126 . 4 
sa distance par rapport au
 0.000140 − 0.000040  − 37.33 
barycentre de « bad » = (− 37.33 − 26.42 )  
avec….  − 0 .000040 0 .000165  − 26 .42 
= 0.2309
 7668.46 1880.15  Est la matrice de variance covariance intra-classes [multiplié par

W =  
 1880.15 6522.33  les degrés de libertés (n-K)]
Pourquoi s’enquiquiner à passer par une AFD alors ?

1. On dispose d’une explication du classement, le vin est mauvais parce que faible température et
pas de soleil
2. On peut ne utiliser que les axes significatifs pour le classement (uniquement le 1er axe pour notre
exemple) : on introduit une forme de régularisation (« reduced rank LDA ») (Hastie et al., 2001)
Ricco Rakotomalala
Produire une fonction de classement explicite Minimisation par rapport à « k », donc on peut supprimer
tout ce qui n’en dépend pas… et on multiplie par -0.5 on
Pour un individu « i » à classer, on calcule sa distance passe à une maximisation
euclidienne par rapport au barycentre de la classe « k »
dans l’espace défini par les Q axes factoriels (Q = M si on k * = arg min d i2 ( k ) ⇔ k * = arg max f i (k )
k k
prend tous les axes)
d ( k ) = ∑ (zim − z m , k )
Q Q
 1 
f i ( k ) = ∑  z m , k × zim − z m2 ,k 
2 2
i
m =1 m =1  2 
Q Q Q
1 Fonction canonique
= ∑ zim
2
+ z m2 ,k − 2 zim z m , k = ∑ z m ,k × zim − ∑ z m2 ,k
m =1 m =1 2 m =1 pour le facteur « m »
z m = a0 m + a1m x1 + a2 m x2 + L + a Jm x J
La fonction de classement est linéaire !!!
f (bad ) = −1.8023 × (0.007457 x1 + 0.007471x2 − 32.868122 ) − (− 1.8023)2

1
2
Ex. Vins de Bordeaux avec Température (x1) et = −0.0134 x1 − 0.0135 x2 + 57.6129
Soleil (x2) – Un seul axe factoriel (Q = 1) f ( good ) = 0.0147 x1 + 0.0148 x2 − 66.9081
f (medium ) = −0.0001x1 − 0.0001x2 + 0.3331
f (bad ) = 2.4815
Conclusion : le millésime 1958
Pour l’individu (x1 = 3000; x2 = 1100) f ( good ) = −6.5447
sera un « bad »
f (medium ) = 0.0230
Ricco Rakotomalala
Quel rapport avec l’analyse discriminante linéaire [ADL] (prédictive) ?
L’analyse discriminante linéaire prédictive fait l’hypothèse de multi-normalité des

distributions conditionnelles des X et d’homoscédasticité
http://fr.wikipedia.org/wiki/Analyse_discriminante_lin%C3%A9aire
d (Yk , X ) = ln[P (Y = yk )] + µ k Σ −1 X '− µ k Σ −1µ k '

1
Fonction de classement de l’ADL
2
Règle de classement issu de l’AFD où l’on

prend tous les M axes factoriels
Bref, la règle d’affectation de l’AFD équivaut à celle de l’ADL

P(Y = y1 ) = L = P (Y = y K ) =
1
avec l’hypothèse que les classes sont équiprobables c.-à-d. K
Equivalence
Certains logiciels font par défaut cette hypothèse, même pour l’ADL (ex. PROC
DISCRIM de SAS)
Introduire la correction avec les probabilités estimées sur les données permet de
réduire le taux d’erreur (cf. Hastie et al., 2001 ; page 95)
Ricco Rakotomalala
Ricco Rakotomalala
AFD avec TANAGRA
Composant « CANONICAL DISCRIMINANT

ANALYSIS »
Les résultats importants pour l’interprétation

sont disponibles.
Il est possible de produire les cartes

factorielles et le cercle de corrélation.
Réf. Françaises. Utilise (1/n) pour

l’estimation des covariances.
Ricco Rakotomalala
AFD avec TANAGRA (X1) CDA_1_Axis_1 vs. (X2) CDA_1_Axis_2 by (Y) Quality
Représentations graphiques
1
0
Projection dans le 1er plan factoriel
-1
-2
-4 -3 -2 -1 0 1 2 3
medium bad good

1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
Sun
CDA_1_Axis_2
0.1
0
-0.1
Cercle des corrélations -0.2
-0.3 Rain
Temperature
-0.4
-0.5
Heat
-0.6
-0.7
-0.8
-0.9
-1
-1 -0.9 -0.8 -0.7 -0.6 -0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Ricco Rakotomalala CDA_1_Axis_1

AFD avec R
La fonction « lda » du package MASS
3
bad
2
good
Résultats initiaux un peu succincts. good
medium bad
good
bad
1
medium bad
good
Mais en programmant un peu, on peut
LD2
medium mediumgood bad badbad
0
good good bad
obtenir tout ce que l’on veut !!! good

good good
bad
bad
medium medium
medium
good
C’est l’avantage de R.
-1
bad
medium
medium
medium bad
medium
-2
Anglo-saxon. Utilise [1/(n-1)] pour -3
l’estimation des covariances.

-4 -2 0 2
LD1
Ricco Rakotomalala
Carte factorielle
3
2
AFD avec R
1
Un peu plus loin avec R
Axe.2
good bad
0
medium
Un peu de programmation et le
-1
résultat en vaut la peine…
-2
-3
-4 -2 0 2 4
Axe.1
Ricco Rakotomalala
AFD avec SAS
La procédure CANDISC
Résultats très complets.
Avec l’option « ALL » on peut

obtenir tous les résultats
intermédiaires (matrices V, W, B
; etc.).
Anglo-saxon. Utilise [1/(n-1)]

pour l’estimation des
covariances (comme R).
Ricco Rakotomalala
Ricco Rakotomalala
Conclusion
AFD : méthode de description de groupes
Outils pour l’évaluation et l’interprétation des résultats (significativité des axes, coefficients
canoniques standardisés, structures canoniques…)
Outils de visualisation (projections dans lesplans factoriels, cercle des corrélations)
Connexions avec d’autres techniques factorielles (ACP, Analyse Canonique)

(cf. SAPORTA, 2006 ; pages 444 et 445)
Connexions avec les méthodes prédictives, en particulier l’Analyse discriminante linéaire

prédictive
Permet de fournir une explication aux prédictions
Ricco Rakotomalala
Bibliographie
L. Lebart, A. Morineau, M. Piron, « Statistique exploratoire multidimensionnelle », Dunod, 2000.

Chapitre 3, Section 3.3, pages 251 à 283.
Ouvrage de référence pour les calculs de TANAGRA (réf. formules dans le code source)
M. Tenenhaus, « Statistique – Méthodes pour décrire, expliquer et prévoir », Dunod, 2007.

Chapitre 10, pages 351 à 386.
Pratique, lecture des résultats. Sorties de SAS. Base de ce support de cours.
G. Saporta, « Probabilités, Analyse de données et Statistique », Technip, 2006.

Chapitre 18, pages 439 à 485.
Théorique et pratique, inclut l’AD pour prédicteurs qualitatifs.
Wikipédia, « Analyse discriminante »

http://fr.wikipedia.org/wiki/Analyse_discriminante
Avec le fameux exemple des IRIS.
Ricco Rakotomalala

Analyse Discriminante Descriptive

Uploaded by

Document Information

Copyright

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Analyse Discriminante Descriptive

Uploaded by

Copyright:

Caractériser de manière multidimensionnelle (à l’aide de plusieurs variables,

simultanément) l’appartenance des individus à des groupes prédéfinis

(2) Prédictif (Schéma de prédiction) : Classer automatiquement un nouvel individu (l’affecter

1er axe AFD sur les var. Temp et Soleil

SC totaux = SC expliqués (groupes) + SC résiduels 850

Les axes suivants maximisent l’écart entre les

compte encore par les axes précédents

950 medium Le pouvoir discriminatoire est quantifié par le

Matrice de variance covariance totale

L’ADD consiste à chercher le vecteur de coefficients « a » qui permet de définir

a ' Ba max a ' Ba

Solution : former le lagrangien, et annuler la dérivée c.-à-d.

λ =η2 La valeur propre est égal au rapport de corrélation associé à l’axe (0 ≤ λ ≤ 1)

η= λ Est la « corrélation canonique »

Z i 2 = − 0 .0092 ( xi1 − x1 ) + 0 .0105 ( xi 2 − x 2 ) L’écartement entre les barycentres est

η 2 = 0 .051 = 0.225 moindre sur cet axe.

Z i1 = 0 .0075 ( xi1 − x1 ) + 0 .0075 ( xi 2 − x 2 )

-1.5 (2.91; -2.22) : les coordonnées

Puisque V = B + W, on peut reformuler le problème à résoudre de la manière suivante :

a ' Ba Qui est max a ' Ba

Les valeurs propres sont reliées par la relation suivante : λm

Ex. Fichier « Vins de Bordeaux »

On peut aussi exprimer les axes en termes

N.B. Tester individuellement un axe intermédiaire n’a

Coefficients normalisés (standardisés)

On peut avoir directement le résultat en multipliant le

Indique la contribution des variables pour la discrimination sur l’axe

Root Root n°1

3 100 3 150 good

Root Root n°1

(X1) CDA_1_Axis_1 vs. (X2) CDA_1_Axis_2 by (Y) Qualite

medium bad good KIRSCH POIRE MIRAB

1000 1200 1400 300 500

sur certaines variables.

L’influence sur la qualité n’est pas la

2900 3100 3300 3500 10 20 30 40

Matrice des corrélations

permet déjà de distinguer les

« bons » vins des « mauvais ».

η x2, y = 0.64 η x2, y = 0.62 Pour toutes les variables, l’ANOVA

bad good medium bad good medium

medium bad good

Correlation scatterplot (CDA_1_Axis_1 vs. CDA_1_Axis_2)

2.5 AFD sur Température et Soleil

1. Calcul des coordonnées factorielles

d 2 ( medium) = 5.3075 -2.50.2309

Le millésime 1958 a de fortes chances

d 2 (bad ) = ( x − µbad )'W −1 (x − µbad )

 7668.46 1880.15  Est la matrice de variance covariance intra-classes [multiplié par

Pourquoi s’enquiquiner à passer par une AFD alors ?

La fonction de classement est linéaire !!!

f (bad ) = −1.8023 × (0.007457 x1 + 0.007471x2 − 32.868122 ) − (− 1.8023)2

L’analyse discriminante linéaire prédictive fait l’hypothèse de multi-normalité des

d (Yk , X ) = ln[P (Y = yk )] + µ k Σ −1 X '− µ k Σ −1µ k '

Règle de classement issu de l’AFD où l’on

Bref, la règle d’affectation de l’AFD équivaut à celle de l’ADL

Composant « CANONICAL DISCRIMINANT

Les résultats importants pour l’interprétation

Il est possible de produire les cartes

Réf. Françaises. Utilise (1/n) pour

medium bad good

Correlation scatterplot (CDA_1_Axis_1 vs. CDA_1_Axis_2)

Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 33

obtenir tout ce que l’on veut !!! good

l’estimation des covariances.

Résultats très complets.

Avec l’option « ALL » on peut