Analyse Discriminante Presentation

Introduction
L’analyse discriminante (ou analyse factorielle discriminante) est une

technique statistique qui vise à décrire, expliquer et prédire l’appartenance à des
groupes prédéfinis (classes, modalités de la variable à prédire…) d’un ensemble
d’observations (individus, exemples…) à partir d’une série de variables prédictives
(descripteurs, variables exogènes…).
Exemples…
L’analyse discriminante est utilisée dans de nombreux domaines.
En médecine, par exemple pour détecter les groupes à hauts risques cardiaques à partir
de caractéristiques telles que l’alimentation, le fait de fumer ou pas, les antécédents
familiaux, etc.
Dans le domaine bancaire, lorsque l’on veut évaluer la fiabilité d’un demandeur de crédit
à partir de ses revenus, du nombre de personnes à charge, des encours de crédits qu’il
détient, etc.
En biologie, lorsque l’on veut affecter un objet à sa famille d’appartenance à partir de ses
caractéristiques physiques. Les iris de Sir Ronald Fisher — qui est à l'origine de cette
méthode — en est un exemple, il s’agit de reconnaître le type d’iris (setosa, virginica, et
versicolor) à partir de la longueur/largeur de ses pétales et sépales.
En informatique, pour la reconnaissance optique de caractères. L'analyse discriminante

est utilisée pour reconnaître un caractère imprimé à partir d'informations simples, comme
la présence ou non de symétrie, le nombre d'extrémités…
Exemples … 2
L’analyse discriminante est une technique connue et reconnue, elle est décrite à peu près
de manière identique par les différentes communautés du traitement de données :
 en statistique exploratoire (exploratory data analysis),

 en analyse des données,
 en reconnaissance de formes (pattern recognition),
 en apprentissage automatique (machine learning),
 en fouille de données (data mining)…
Les données…
N° X1 X2 Y
1 1 3 A
2 6 5 B
3 8 3 B
4 4 4 A
Approches différentes
On distingue généralement deux grandes approches :
L’analyse discriminante peut être une technique descriptive.
On parle dans ce cas d’analyse factorielle discriminante (ou analyse discriminante descriptive).
L’objectif est de proposer un nouveau système de représentation, des variables cachées formées à
partir de combinaisons linéaires des variables prédictives, qui permettent de discerner le plus
possible les groupes d’individus. En ce sens, elle se rapproche de l’analyse factorielle car elle permet
de proposer une représentation graphique dans un espace réduit, plus particulièrement de l’analyse
en composantes principales calculée sur les centres de gravité conditionnels des nuages de points
avec une métrique particulière.
L’analyse discriminante peut être prédictive.
Il s’agit dans ce cas de construire une fonction de classement (règle d’affectation, …) qui permet de
prédire le groupe d’appartenance d’un individu à partir des valeurs prises par les variables
prédictives. En ce sens, cette technique se rapproche des techniques supervisées en apprentissage
automatique telles que les arbres de décision, les réseaux de neurones, …
Analyse discriminante
Analyse discriminante descriptive
L’analyse discriminante descriptive (analyse factorielle discriminante, canonical
discriminant analysis en anglais) est une technique de statistique exploratoire qui travaille
sur un ensemble de n observations décrites par p variables, répartis en k groupes.
Elle vise à produire un nouveau système de représentation, constitué de combinaisons

linéaires des variables initiales, qui permet de séparer au mieux les k catégories.
•L’analyse discriminante descriptive est une technique descriptive car elle propose une
représentation graphique qui permet de visualiser les proximités entre les observations,
appartenant au même groupe ou non.
•C’est aussi une technique explicative car nous avons la possibilité d’interpréter les axes
factoriels, combinaisons linéaires des variables initiales, et ainsi comprendre les
caractéristiques qui distinguent les différents groupes.
Contrairement à l’analyse discriminante prédictive, elle ne repose sur aucune hypothèse

probabiliste. Il s’agit essentiellement d’une méthode géométrique.
Visualisation…
Données et notations
Nous disposons d’un échantillon de ? observations réparties dans ? groupes d’effectifs ?.
Notons ? la variable définissant les groupes, elle prend ses valeurs dans ? .
Nous disposons de ? variables ? .
Nous notons les centres de gravité des nuages de points conditionnels, leurs matrice
de variance-covariance.
Exemple
Exemple
Exemple
Exemple
Exemple
Exemple
Exemple
Démarche
L’objectif de l’analyse discriminante descriptive est de produire un nouvel espace de
représentation qui permet de distinguer le mieux les K groupes. La démarche consiste à
produire une suite de variables discriminantes Zh, non-corrélés deux à deux, tels que
des individus du même groupe projetés sur ces axes soient le plus proches possibles les
uns des autres, et que des individus de groupes différents soient le plus éloignés
possibles.
La dispersion à l’intérieur d’un groupe est décrite par la matrice de variance co-variance
Wk. Nous pouvons en déduire (à un facteur près) la dispersion intra-groupe
L’éloignement entre les groupes, entre les centres de gravité des groupes, est traduit
par la matrice de variance co-variance inter-groupes (à un facteur près)
où  est le centre de gravité du nuage de points global.

Solution AD descriptive
La dispersion totale du nuage est obtenue par la matrice de variance co-variance totale V.
En vertu du théorème d’Huyghens (qui est la généralisation mutlidimensionnelle de la

formule de décomposition de la variance) :
Le premier axe factoriel sera donc défini par le vecteur directeur tel que l'on
maximise la quantité
La variance inter-classes sur ce premier axe factoriel sera maximum.

Analyse Discriminante
La solution de ce problème d’optimisation linéaire passe par la résolution de l’équation :
La réponse nous est directement fournie par le calcul des valeurs propres et vecteurs
propres de la matrice :
Résultat d’une ACP
Inertie d’un nuage de points
Mesures de ressemblance
Une distance est une dissimilarité qui vérifie en plus l'inégalité triangulaire
Inertie Intra et Inter classes
Soit une partition en k classes de
poids pi.
g1, g2, …, gk les centres de gravités.
I1, I2, …, Ik inertie associées.
IW =  piIi inertie intra
IB =  pi (gi-g)2 inertie inter

Exemple
Méthode des Centres Mobiles
Exemple
Soit T={Mi=(xi, yi), i=1,…,14} un nuage de points du plan (figure exo3), chacun étant
pondéré d’un poids pi.
En supposant que les deux premiers

points M1 et M2 sont les centres
initiaux et que l’ordre d’arrivé des
individus est ordonné croissant (3, 4, 5,
6, 7, 8, etc…) ;
Décrire par une succession de dessins, le

principe de l’algorithme des centres
mobiles en représentant à chaque fois
les nouveaux centres.
Quelle est la classe de l’individu 14

Calcul du 1er centre
Arrivé du M3
(1,3) (1-8)2+(3-3)2= 49 Gx(1,3) =4,5 et Gy(1,3) =3
(2,3) (6-8)2+(5-3)2= 8 Gx(2,3) =7 et Gy(1,3) =4
Arrivé du M3
(1,3) (1-8)2+(3-3)2= 49 Gx(1,3) =4,5 et Gy(1,3) =3
(2,3) (6-8)2+(5-3)2= 8 Gx(2,3) =7 et Gy(1,3) =4
Arrivé du M3
(1,3) (1-8)2+(3-3)2= 49 Gx(1,3) =4,5 et Gy(1,3) =3
(2,3) (6-8)2+(5-3)2= 8 Gx(2,3) =7 et Gy(1,3) =4
Arrivé du M3
(1,3) (1-8)2+(3-3)2= 49 Gx(1,3) =4,5 et Gy(1,3) =3
(2,3) (6-8)2+(5-3)2= 8 Gx(2,3) =7 et Gy(1,3) =4
Calcul du 2ème centre
Arrivé du M4
(1,4) (1-4)2+(3-4)2= 10 Gx(1,4) =2,5 et Gy(1,4) =3,5
(G2,3, 4) (7-4)2+(4-4)2= 9 Gx(B,4) =5,5 et Gy(1,3) =4
Calcul du 2ème centre
Arrivé du M4
(1,4) (1-4)2+(3-4)2= 10 Gx(1,4) =2,5 et Gy(1,4) =3,5
(G2,3, 4) (7-4)2+(4-4)2= 9 Gx(B,4) =5,5 et Gy(1,3) =4

Analyse Discriminante Presentation

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Analyse Discriminante Presentation

Uploaded by

Copyright:

Available Formats

Introduction

L’analyse discriminante (ou analyse factorielle discriminante) est une

En informatique, pour la reconnaissance optique de caractères. L'analyse discriminante

 en statistique exploratoire (exploratory data analysis),

L’analyse discriminante peut être prédictive.

Elle vise à produire un nouveau système de représentation, constitué de combinaisons

Contrairement à l’analyse discriminante prédictive, elle ne repose sur aucune hypothèse

où  est le centre de gravité du nuage de points global.

En vertu du théorème d’Huyghens (qui est la généralisation mutlidimensionnelle de la

La variance inter-classes sur ce premier axe factoriel sera maximum.

g1, g2, …, gk les centres de gravités.

I1, I2, …, Ik inertie associées.

IW =  piIi inertie intra

IB =  pi (gi-g)2 inertie inter

En supposant que les deux premiers

Décrire par une succession de dessins, le

Quelle est la classe de l’individu 14

You might also like