Rappels Analyse Exploratoire Multidimensionnelle STA201 Cle0a2813

27/09/2017
Rappels d’analyse exploratoire

multidimensionnelle
Analyse en composantes principales

Analyse des correspondances
Classification
Introduction
L’analyse exploratoire multidimensionnelle désigne un ensemble de
méthodes permettant l’exploration, la description, la fouille de
grands tableaux de données décrivant un grand ensemble d’individus,
observations ou unités statistiques à travers un grand nombre de
variables, caractères ou attributs.
Elle comprend deux grandes familles de méthodes:
• Les méthodes factorielles de • Les méthodes de

réduction du nombre de classification de réduction
variables qui sont du nombre d’individus par
synthétisées à travers des regroupement en classes
composantes factorielles homogènes
combinaisons linéaires des
variables initiales
1
27/09/2017
Introduction
• Différentes méthodes selon la nature des variables:
• Cas d’un seul tableau de données (individus x variables, données de proximité non traitées)
• Les méthodes factorielles :
• ACP pour un tableau de p variables quantitatives
• AFC pour deux variables qualitatives
• ACM pour un tableau de p variables qualitatives
• Les méthodes de classification :
• Partitionnement direct en K (fixé a priori) classes
• Classification hiérarchique par succession de partitions emboitées en
classes
• De moins en moins fines – algorithmes agglomératifs classification
ascendante hiérarchique CAH
• De plus en plus fine – algorithmes divisifs
• Extension à plusieurs tableaux : multi blocs, tableaux multiples
• Extension à des données mixtes
• Classification de variables
27/09/2017 3
Notions générales d’analyse factorielle

Etape 1 recueil
• Les données: n individus décrits par p variables

– Cas classique: p variables quantitatives
– Cas de p=2 variables qualitatives transformation en
tableau de contingence, tableaux de profils
• Lignes : « Individus » sont les modalités de la variable 1
• Colonnes : « Individus » sont les modalités de la variable 2
– Cas de p variables qualitatives transformation en
tableau disjonctif
• Les variables sont les indicatrices des modalités des
variables
– ou tableau de Burt :
• Les individus sont les modalités des variables
2
27/09/2017

Etape 2 traitement
• Les méthodes factorielles permettent d’explorer les
liaisons entre variables et les ressemblances entre
les individus
– Corrélation linéaire, chi2 de contingence, rapport de
corrélation
– Choix d’une mesure de distance- métrique
• Résultats: représentations graphiques planes:
– Plans factoriels :visualisation des individus
(notion de distances entre individus)
– Cercle de corrélations (ACP) : visualisation des
variables- visualisation des modalités (AFC, ACM)

Etape 3 interprétation
• Choix du nombre de dimensions à retenir

– Critères empiriques
• Mesure de la qualité des représentations obtenues
– Critère global
– Critère local - individuel
• Interprétation interne des axes :
– donner un sens en lien avec les variables initiales,
– expliquer la position des individus
• Interprétation externe des axes avec des variables
supplémentaires
3
27/09/2017
Principe général de l’analyse factorielle

• Les individus et variables sont considérés comme des
éléments de Rp et Rn respectivement
• Chaque variable est associée
à un axe de Rn
• Chaque individu est associé
à un point dans Rp
On a ainsi un nuage de points de Rp impossible à visualiser
si p>3.
• Le but de l’analyse factorielle est de trouver un sous espace
de dimension faible pour y voir au mieux les individus:
trouver de nouvelles variables combinaisons linéaires des variables
initiales conservant le maximum de l’information du nuage initial

L’analyse repose sur des distances entre les
points représentant les individus. Forte
influence de la méthode de calcul de distances
sur les résultats de l’analyse. Il est essentiel de
la déterminer avant toute étude
4
27/09/2017

Le calcul des distances
En physique : formule de Pythagore d 2 (ei ; e j ) = ( xil − x lj ) 2 + ( xik − x kj ) 2 + ...
Par contre en statistique: individus décrits par des variables exprimées dans des
unités particulières : euros, kg, km…
Pythagore est aussi arbitraire qu’une autre.
En théorie le choix de la distance dépend de l’utilisateur qui seul peut préciser celle qui est
adéquate.
distance euclidienne entre individus 1 et 2 =
(8-21) 2 + (300-2000) 2 = 132 + 17002 = 17002
néglige Q1
Diviser Q2 et Q3 par 100
(8-21) 2 + (3-20) 2 = 132 + 172 ré-équilibrage
Réduire toutes les variables

9

distance usuelle en ACP: métrique associée M= Diag(1/sj2)
Réduire les variables C’est la plus utilisée, c’est l’option par défaut de beaucoup
de logiciels d’ACP car en plus de permettre de s’affranchir des unités de
mesure, elle donne à chaque caractère la même importance quelle que soit sa
dispersion dans le calcul des distances.
Distance usuelle en AFC: métrique chi2 M= Diag(n/n.j) ou M= Diag(n/ni.)
Distance de Mahalanobis: M= V-1 ou W-1
10
5
27/09/2017

Notion essentielle: inertie du nuage de points
On appelle inertie totale du nuage de points la
moyenne pondérée des carrés des distances des
points au centre de gravité.
Elle mesure la dispersion du nuage autour de son
centre de gravité.
n n
I g = ∑ pi (ei − g )' M (ei − g ) = ∑ pi d 2 (ei , g )
i =1 i =1
11
Principe général de l’analyse factorielle G. Saporta
Ig = moyenne des carrés des distances à g
pi d 2 (i, g )
xk
x
x
x
∑
g x
x
x
x2
= ∑Var( x j )
x1
Inertie=variance généralisée 12
6
27/09/2017

égalité la plus utilisée : somme des variances des variables
p
si ACP non normée I g = ∑ s 2j
j =1
Si ACP normée I g = trace ( R ) = p
(p = nombre de variables ; l’inertie ne dépend alors pas des valeurs des variables mais
uniquement de leur nombre)
13

Rappels:
espaces initiaux de dimension trop grande
impossible d’y visualiser le nuage de points
recherche d’espaces de dimension réduite qui

ajustent au mieux le nuage de points, c’est à
dire qui respectent le plus possible la
configuration initiale
14
7
27/09/2017
La méthode = projeter le nuage de points en

minimisant les déformations des distances
inhérentes à la projection
critère de choix de l’espace de projection F

Max ∑∑ pk pl d 2 ( k , l )
F
k l
(le sous espace recherché est tel que la moyenne des carrés des
distances entre points projetés soit maximale (la projection
raccourcit les distances), c’est à dire qu’il faut que l’inertie du
nuage projetée soit maximale.)
15

(voir Saporta 2006 annexe E)
• Métrique quelconque M (matrice symétrique définie positive)

– Critère de l’ACP: maximiser l’inertie du nuage projeté
sur un sous espace Fk de dimension k
Max (Trace(VMP)) avec P projecteur M-orthogonal
– Solution : le sous espace F est engendré par les k
vecteurs propres a de VM associées aux k plus grandes
valeurs propres (obtenus séquentiellement par dérivation
vectorielle du rapport de deux formes quadratiques),
– Ces vecteurs propres M-normés à 1 sont les axes
principaux
8
27/09/2017

on montre que la recherche du sous espace F
peut s’effectuer de façon séquentielle
Méthode : chercher le sous-espace de

dimension 1 d’inertie maximale, puis le sous-
espace de dimension 1 orthogonal au
précédent d’inertie maximale et ainsi de
suite.
17

(voir Saporta 2006 annexe E)
• Métrique quelconque M (matrice symétrique définie positive)

– Inertie du nuage projeté sur un sous espace F1 de
dimension 1 = cas particulier droite d‘axe unitaire a
• maximiser Trace(VMP) avec P projecteur M-orthogonal
• P= a(a’Ma)-1a’M
• Trace(VMP)= Trace[(VMaa’M)]/a’Ma= Trace[a’M(VM)a]/a’Ma
– Critère ACP Max (a’MVMa)/a’Ma
• Solution dérivation vectorielle a est vecteur propre de VM
– Axe principal M-normé a’Ma=1
9
27/09/2017

Solution: vecteurs propres de matrices:
Axes principaux a, VMa = λa a’Ma=1 M orthonormés
Facteurs principaux u, MVu= λu u’M-1u=1 M-1 orthonormés
Composantes principales c , XMX’D= λc D-orthogonales
C=Xu u=Ma
ACP u vecteurs propres de V ou R puis C=Xu
AFC c vecteurs propres de PLxPC ou PCxPL (issus du tableau
de contingence) et formules de transition
ACM comme AFC mais avec tableau disjonctif ou Burt
(voir en détail pages suivantes pour l’ACP cas normé et cas général)

La projection ou coordonnée d’un individu sur ∆ est définie par
p
ci = ∑ xij u j
j =1
La liste des coordonnées ci des individus sur Δ forme une

nouvelle variable artificielle
 c1 
  p
.
c=   =
∑ x ju j = Xu
 .  j =1
 
 c n 
c’est une combinaison linéaire des variables initiales dont on

va chercher à maximiser la variance.
20
10
27/09/2017

L’inertie des points projetés sur le sous espace Δ (droite) s’écrit :
n
var(c ) = ∑ pi ci2 = c ' Dc = u ' X ' DXu = u 'Vu
i =1
Rappelons qu’on se limite au cas usuel de l’ACP normée ; la matrice des données
centrées réduites correspond donc à la matrice des corrélations
Le critère de maximisation s’écrit alors :
M ax u u 'V u = M ax u u ' R u avec uu =1
'
problème de max d’une forme quadratique

solution :u1 vecteur propre de R associé à la plus grande valeur propre λ
1
21

ensuiteu2 orthogonal à u1 tel que l’inertie des points
projetés soit maximale
Solution : u2 vecteur propre de R associé à la
deuxième plus grande valeur propre λ2
le sous-espace à q dimension recherché est
engendré par les q premiers vecteurs propres de
la matrice R associés aux plus grandes valeurs
propres
22
11
27/09/2017

Définitions :
facteurs principaux : u tq Ru = λu
Ils contiennent les coefficients des variables initiales dans la combinaison c = Xu

composantes principales : c j = Xu j
(ce sont les variables artificielles définies par les facteurs principaux, elle contiennent les
coordonnées des projections des individus sur les axes principaux)
En pratique, l’ACP va donc consister à diagonaliser la matrice

R pour obtenir les u et à calculer les composantes principales
23
• Aux axes principaux a sont associés les facteurs

principaux u = Ma vecteurs propres de MV, M-1 normés à
1 associés aux plus grandes valeurs propres
• Les composantes principales associées: c=Xu

– Elles sont vecteurs propres de XMX’D D-orthogonales
de variance maximale
• En pratique, on calcule u par diagonalisation de
MV puis on obtient c, les axes n’ont pas d’intérêt.
12
27/09/2017

interprétation
L’analyse factorielle fournit de nouvelles variables artificielles et des
représentations graphiques visualisant des relations entre variables
et d’éventuels groupes de variables et d’individus
(plans factoriels – cercle de corrélation seulement en ACP)
interne
phase d’interprétation des résultats:
externe
Phase délicate nécessitant une certaine méthode pour éviter de

tirer des conclusions erronées
25

interprétation
• Mesure de la qualité des représentations obtenues
L’analyse factorielle fournit une représentation
graphique des individus dans un espace de
dimension plus faible que p mais celle ci n’est
qu’une vision déformée de la réalité.
points délicats de l’interprétation
1) apprécier cette déformation , cette perte d’information
due à la réduction de dimension
2) déterminer le nombre d'axes, ie la dimension de l’espace
13
27/09/2017

interprétation
k k
critère usuel = % d’inertie totale expliquée
∑ λ i ∑ λ i
i=1
p
= i=1
I
mesure globale insuffisante : ∑
i=1
λi g
10% n’a pas le même intérêt sur un tableau de 20 variables et un

de 100 variables.
qualité de sa représentation des individus indépendamment du %
d’inertie global
(En effet il est possible d’avoir un premier plan principal F2 avec une inertie totale
importante et qu’en projection deux individus soient très proches, cette proximité
peut être illusoire si les deux individus sont éloignés dans F2⊥ )
Une mesure locale de qualité de représentation d’un individu est
le cosinus de l’angle entre le plan principal et le vecteur ei
(Si ce cosinus est grand, sera voisin du plan, on pourra alors examiner la position de
sa projection sur le plan par rapport à d’autres points ; si ce cosinus est faible, on se
gardera de toute conclusion) 27

interprétation
Intérêt de l’analyse = réduction de dimension
choix du nombre d’axes = point essentiel
critères théoriques: * tests statistiques

(multinormalité et * des intervalles de
matrice de covariance) confiance sur les
valeurs propres
14
27/09/2017

Interprétation
• Choix du nombre de dimensions à retenir
– Critères empiriques
• ACP: règle de Kaiser : en ACP normée retenir les valeurs propres plus
grandes que 1 ou % > 1/p (on ne s’intéresse qu’aux composantes
qui apportent plus que les variables initiales)
règle du coude sur le diagramme de décroissance des valeurs
propres
saporta &al (2003) valeurs propres dépassant leur moyenne de
plus de 2 écart-types (moyenne=1 et variance= (p-1)/(n-1))
Remarque: il n’existe aucun critère de type au moins x% d’inertie, il faut
tenir compte de la taille du nombre de variables et de la force de leurs
corrélations. Aucun critère n’est absolu.
• AFC : règle du coude
• ACM retenir les valeurs propres 1/p (indépendance) et règle du coude

• Interprétation des axes :
– donner un sens en lien avec les variables initiales,
– expliquer la position des individus
• On distingue interprétation interne et externe
variables et individus actifs sont utilisés dans les calculs de l’ACP par opposition aux
variables et individus supplémentaires ne participent pas directement à l’analyse
L’interprétation interne consiste à étudier les résultats en se basant sur les variables et
les individus actifs.
L’étude des éléments supplémentaires se fait à travers la phase d’interprétation externe.
15
27/09/2017

interprétation interne ACP- variables
Interpréter une ACP = donner une signification à ces composantes
Principales à travers le calcul des coefficients de corrélation
linéaire entre composantes principales et variables initiales
On synthétise usuellement les corrélations des variables pour un

couple de composantes sur un graphique appelé cercle de
corrélation sur lequel, chaque variable
2 j
Xj a une abscisse r (c1 , X j ) et une ordonnée r (c , X ) avec
r (c, X j ) = λ u j
On s’intéresse aux coefficients les plus forts en valeur absolue et
proches de 1. L’examen du cercle de corrélation permet de détecter
les éventuels groupes de variables qui se ressemblent ou au
contraire qui s’opposent donnant ainsi un sens aux axes principaux 31

interprétation interne ACP- variables
Remarque : Effet « Taille »
Lorsque toutes les variables initiales sont positivement corrélées
entre elles, la première composante principale définit « un facteur
de taille ».
(En effet, une matrice symétrique ayant tous ses termes positifs admet un premier
vecteur propre dont toutes les composantes sont de même signe. On peut les choisir
positifs et la première composante sera positivement corrélée avec toutes les variables )
Les individus sont rangés sur l’axe 1 par valeurs croissantes de
l’ensemble des variables (en moyenne).
La deuxième composante principale différencie alors des
individus de « taille » semblable : on l’appelle facteur de forme.
32
16
27/09/2017

interprétation interne ACP- individus
Etude des individus par examen des coordonnées et surtout

des représentations graphiques, les plans principaux.
Le but est de voir la répartition des individus, des groupes

ressemblants ou distincts.
Si les individus ne sont pas anonymes ils peuvent aider à

l’interprétation des composantes et vice versa
33

interprétation interne ACP- individus
p i c k2i
contributions des individus : C T R (i ) =
λk
n
(où cki représente la valeur pour l’individu i de la kième composante ck et λk = ∑ pc 2
i ki )
i=1
C T R ( i) > p i
Mais CTR (i) >> pi = facteur d’instabilité
effectuer l’analyse en l’éliminant puis le rajouter ensuite en élément
supplémentaire
( les poids sont tous égaux, les contributions n’apportent pas plus d’information que les coordonnées)
34
17
27/09/2017

interprétation externe ACP variables quantitatives
Interprétation externe avec des variables supplémentaires
Rappel: les éléments supplémentaires n’interviennent pas dans les calculs
Elles peuvent être très utiles a posteriori pour conforter et
enrichir l’interprétation des axes.
cas de variables numériques :
a) simple calcul du coefficient de corrélation entre chaque

variable supplémentaire et les composantes
principales
b) placement sur les cercles de corrélation
c) interprétation : détection des corrélations significatives

ie les plus fortes
35
Principegénéral
Principe général de l’analyse
l’analysefactorielle
factorielle
interprétation externe ACP- variables qualitatives
cas de variables qualitatives : représentation de
chaque modalité par son centre de gravité. Certains
logiciels fournissent des aides à l’interprétation :
les valeurs-test
mesures de l’éloignement du point représentatif d’une modalité par
rapport à l’origine dont le but est la mise en évidence d’une position
significativement excentrée d’un sous groupe d’individus.
Une modalité sera considérée comme significative
d’un axe si la valeur-test qui lui est associée est
supérieure en valeur absolue à 2.
18
27/09/2017
Principe
Principegénéral
général de l’analyse
factorielle
interprétation externe ACP- individus
Cas des individus supplémentaires :
Simple positionnement sur les axes principaux par

calcul des combinaisons linéaires de leurs valeurs
pour les variables initiales.
EXEMPLE

interprétation interne – ACM Modalités
Comme en AFC ou en ACP mais attention au % d’inertie
- contributions des variables actives
- valeurs test des variables supplémentaires
38
19
27/09/2017
Principe
Principegénéral
factorielle
interprétation externe ACP- individus
Cas des individus supplémentaires :
Simple positionnement sur les axes principaux par

calcul des combinaisons linéaires de leurs valeurs
pour les variables initiales.
EXEMPLE
Principe
Principegénéral
factorielle
interprétation interne AFC – ACM Modalités
• Pas de cercle de corrélation en analyse des correspondance
• Représentation sur les axes principaux des coordonnées
(barycentriques) des modalités des variables qualitatives.
• Les modalités dont les contributions aux inerties des axes
les plus importantes et supérieures à leur poids donnent
les significations des axes, les signes des coordonnées
permettent de voir si ces contributions sont opposées ou
dans le même sens (c’est une différence importante par rapport à l’ACP)
• On y ajoute les cosinus carrés mesure de qualité locale
20
27/09/2017
3Principe généraldes
Interprétation de l’analyse
résultatsfactorielle
d’une AFC
interprétation interne – AFC Modalités
• a et b coordonnées des profils ligne – profils colonnes
les contributions des catégories aux inerties des axes
1m 1
on a : a’(D1/n)a = λ = ∑ ni.ai2
n i=1
1m 2
b’(D2/n)b = λ = ∑ n. j bj2
n j =1
Profil ligne i profil colonne j

ni. 2 n. j 2
ai bj
CTR(i) = n et CTR(j) = n
λ λ
41

interprétation interne – AFC Modalités
• Comme en ACP : les contributions les plus fortes

sont considérées comme constitutives des axes,
elles donnent le sens aux axes
ni.
• Critère: retenir CTR(i) > (poids de i)
n
• Le signe des coordonnées permet de mettre en

évidence des contributions opposées
42
21
27/09/2017

3 Interprétation des résultats
interprétation interne d’une AFC
– AFC Modalités
• Proximités entre catégories

Comme en ACP : cosinus carrés d’angles entre
individus (profils lignes- profils colonnes) et axe
principal permettent de mesurer la qualité de la
représentation. On évite l’interprétation abusive
des proximités graphiques
43

Comme en AFC ou en ACP mais attention au % d’inertie
- contributions des variables actives
- valeurs test des variables supplémentaires
44
22
27/09/2017

Contributions à un axe factoriel
Effectif de la catégorie j
a- d’une modalité :
1 1 ∑m i
μ= a'Da = ∑ nj (aj )2
np np j=1 Coordonnée de la catégorie
j sur l’axe
nj
(aj )2
np Modalités intéressantes:
CTR( j) = CTR(j) > poids = nj/np
μ
45

Contributions à un axe factoriel
b- d’une variable :
cumul des contributions des modalités de la variable
mi
1 m nj
i
CTR(Xi) = ∑CTR( j) = ∑ (aj )2

j=1 μ j=1 np
c- d’un individu :
1 2 On utilise ces contributions
1 1n 2 zi ainsi que les cosinus carrés
μ= zz' = ∑zi CTR(i) = n pour juger de la qualité des
n n i=1 μ
projections
46
23
27/09/2017

Contributions à l’inertie totale
1 p
Inertie = ∑ mi − 1 = ∑ p j d 2 ( j , g )
p i =1 j
n
On montre que: d 2 (j,g) = -1
nj
Une modalité est d’autant plus loin de g
que nj est faible
nj 1 n
Inertie d’une catégorie = I(j) = d 2 (j,g) = (1- j )
np p n
Fonction décroissante de l’effectif

les modalités à faible effectif risquent 47
de perturber l’analyse

Inertie d’une variable
m
1 n
i
m -1
I(Xi ) = ∑ I(j) = ∑ (1- j ) = i
j=1 p n p
Contribution de la variable i:
L’inertie d’une variable est d’autant

I(Xi ) mi −1 plus grande que mi est grand
CTR(Xi ) = = On évite des différences trop
Itotale ∑(mi −1) importantes entre les nombres
modalités des variables
48
24
27/09/2017

interprétation externe – ACM Modalités
Les variables supplémentaires ne participent pas directement à l’analyse.
Variables quantitatives: pas de représentation sur plans factoriels on se

contente de calculer leur corrélation avec les composantes factorielles
Variables qualitatives: représentation sur les plans factoriels selon le

principe barycentrique et valeurs test pour juger de la significativité de
la liaison
Significative si
n -1
v-test = aj nj supérieure à 2
n - nj pour un seuil
5%
49

Remarques sur l’ACM
La mise sous forme disjonctive est une commodité
mathématique, permet de plus l’étude de variables mixtes
(après mise en classes des variables quantitatives) par une
ACM
En cas de liaison non linéaire entre variables quantitatives

(ACP inefficace) on pourra faire une ACM
ACM permet la transformation de variables qualitatives en

quantitatives (utile pour classification ou discriminante sur
données qualitatives)
50
25
27/09/2017
Méthodes de classification
Analyse descriptive des données
réduction du réduction du
nombre de variables nombre
d’individus
analyse factorielle Classification automatique

association des deux méthodes:
classification sur les points du nuage traité par l’analyse
factorielle , on utilise les composantes principales
51
2 types de méthodes
• Méthodes de • Méthodes
partitionnement : hiérarchiques :
une partition en un suite de partitions
nombre fixe de classes emboitées
a b c d e
52
26
27/09/2017
• notion de distance entre individus :

critère de classification
• notion de distance entre parties (distance

entre groupes d’individus) :
stratégie d’agrégation
53
• Réaliser une classification nécessite :
- Un ensemble d’individus à classer
- Définir une distance entre individus : d(x , y)
« choix d’un critère de classification »
- Définir une distance entre groupes : D(X ,Y)
« choix d’une stratégie d’agrégation »
• L’objectif des méthodes de classification automatique

est la construction d’une partition ou d’une suite de
partitions emboîtées d’un ensemble d’objets.
• Les classes formées doivent être le plus homogènes
possible d’où la nécessite de définir un critère à
optimiser.
54
27
27/09/2017
Méthodes de partitionnement direct

• Elles permettent le traitement rapide des ensembles d’effectifs assez
élevés en optimisant localement un critère de type inertie. (les individus
sont des points de Rp espace euclidien)
• But = construire une partition unique des objets en k classes, k fixé a

priori ou déterminé par la méthode.
• Idée centrale = choisir une partition initiale des objets et déplacer les
objets d’une classe à l’autre pour obtenir une partition meilleure.
• Plusieurs algorithmes selon le choix de la partition initiale, la définition

de « meilleure partition » et selon la méthode utilisée pour améliorer la
partition.
55
IW = ∑ Pi I i inertie intra classe G. Saporta
I B = ∑ Pd
i
2
( g i ; g ) inertie inter classe
Relation de Huyghens : I = IW + IB
x
x x
g1
x x
x
x x
x
x
g2 x
x
g
x
x x
gk
x
x
x
56
28
27/09/2017
• Critère usuel chercher la

de classification = partition qui = maximise IB
minimise IW
Rque : k fixé, connu, il peut exister plusieurs partitions qui

minimise IW. On cherche celle à k classes.
• IW ne permet pas de comparer 2 partitions avec des

nombres de classes différents.
57
Affectation des objets aux groupes
Méthode des centres mobiles (Forgy)
Etape 1
a) configuration initiale : C1(0) , C2(0) …. , Ck(0)
b) chaque individu i est affecté à une classe et une seule El(0) de centre Cl(0) telle que : soit
minimum en parcourant tous les centres C1(0) , C2(0) …. , Ck(0)
a la fin de cette étape on a k classes E1(0) , E2(0) …. , Ek(0)
Etape 2
a) On calcule les centres de gravité des classes précedentes : C1(1) , C2(1) …. , Ck(1)
b) chaque individu i est affecté à une classe et une seule El(1) de centre Cl(1) telle que : soit
minimum en parcourant tous les centres C1(1) , C2(1) …. , Ck(1)
a la fin de cette étape on a k classes E1(1) , E2(1) …. , Ek(1)
arrêt de la procédure :
– 2 étapes successives ne changent pas les classes
– le nombre d’itérations fixé est atteint
– la valeur du critère reste inchangée
58
29
27/09/2017
• Remarque : formes fortes
• Problème : la partition finale dépend du nombre de

classes et du choix des centres initiaux
• Solution : appliquer l’algorithme sur s tirages

différents, croiser les s partitions pour obtenir une
partition dite en formes fortes ou regroupements
stables
• (formes fortes = ensembles d’éléments ayant

toujours été regroupés dans la partition finale pour
les s passages de l’algorithme).
59
Méthodes hiérarchiques
• Elles consistent à fournir un ensemble de partitions de E en
classes de moins en moins fines par regroupements successifs de
parties.
• On obtient une hiérarchie représentée par un arbre de

classification ou dendrogramme.
• On associe au système de classes résultant une échelle de

niveau : à chaque partition on associe une valeur numérique
représentant le niveau auquel ont lieu les regroupements
• Différentes méthodes selon la stratégie de regroupement

60
30
27/09/2017
Stratégies d’agrégation
le saut minimum ou Single Linkage dmin(A,B) = inf ( d(i,i’) ; i €A , i’€ B)
le diamètre Complete Linkage dmax(A,B) = sup ( d(i,i’) ; i €A , i’€ B)
Moyenne des distances Average Linkage dmoy(A,B) = ( d(i,i’) ; i €A , i’€ B)/( cardAcardB)
Méthode de Ward ou stratégie du moment d’inertie (Cas de distances euclidiennes):

dward = perte d’inertie inter résultant du regroupement dward(A,B) = (pApB/(pA+pB))d2(gA ,gB)
61
Un exemple
a b c d e
a 0 3 7 3 4
b 3 0 4 4 1
c 7 4 0 2 6
d 3 4 2 0 1/2
e 4 1 6 ½ 0
G. Saporta 62
31
27/09/2017
3 4.75
2
3.3
1
2.5
1/2
1/2
d e b c a
d e b a c
inf
moyenne
0.5
d e b a c
G. Saporta sup 63
L’algorithme de l’ inf (Johnson) provoque
souvent un effet de chaîne
3
2
1
1/2
d e b c a
inf
G. Saporta
64
32
27/09/2017
Classification mixte (SPAD)
Les algorithmes classiques sont plus ou moins adaptés à la

gestion d’un nombre importants d’objets à classer :
• partitionnement : ensemble volumineux à faible coût mais la
partition dépend des centres initiaux et du nombre de classes.
• hiérarchique : non adaptée aux vastes ensembles
D’où les algorithmes mixtes

* centres mobiles
* classification hiérarchique des groupes obtenus
* réaffectation par centres mobiles (consolidation)
65
coupure de l’arbre : procédure parti
• les procédures produisent un arbre et un histogramme des niveaux
d’agrégation des classes.
• La coupure de l’arbre s’effectue au niveau d’un saut important de l’indice

(coude) on obtient ainsi une partition de bonne qualité
situation idéale situation plus délicate

****** ********
• ******** *********
• ****************** ***********
• ********************* *************
• Coude net pas de coude net
66
33
27/09/2017
Interprétation des classes
Description des classes procédure decla (SPAD) Voirexemple
cette procédure fournit une caractérisation statistique automatique des
classes d’une partition :
• les éléments les plus significatifs sont recherchés dans l’ensemble

des données et rangés selon le critères des valeurs test (voir définition plus
loin)
• Decla fournit également les statistiques MOD/CLA et CLA/MOD

caractérisant la classe respectivement par le contenu et le contenant (voir
définitions plus loin)
67
34

Rappels Analyse Exploratoire Multidimensionnelle STA201 Cle0a2813

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Rappels Analyse Exploratoire Multidimensionnelle STA201 Cle0a2813

Uploaded by

Copyright:

Available Formats

27/09/2017

Rappels d’analyse exploratoire

Analyse en composantes principales

Elle comprend deux grandes familles de méthodes:

• Les méthodes factorielles de • Les méthodes de

Notions générales d’analyse factorielle

• Les données: n individus décrits par p variables

Notions générales d’analyse factorielle

Notions générales d’analyse factorielle

• Choix du nombre de dimensions à retenir

Principe général de l’analyse factorielle

Principe général de l’analyse factorielle

Principe général de l’analyse factorielle

Pythagore est aussi arbitraire qu’une autre.

Réduire toutes les variables

Principe général de l’analyse factorielle

Distance usuelle en AFC: métrique chi2 M= Diag(n/n.j) ou M= Diag(n/ni.)

Distance de Mahalanobis: M= V-1 ou W-1

Principe général de l’analyse factorielle

Principe général de l’analyse factorielle G. Saporta

Ig = moyenne des carrés des distances à g

Principe général de l’analyse factorielle

Si ACP normée I g = trace ( R ) = p

Principe général de l’analyse factorielle

impossible d’y visualiser le nuage de points

recherche d’espaces de dimension réduite qui

Principe général de l’analyse factorielle

La méthode = projeter le nuage de points en

critère de choix de l’espace de projection F

Principe général de l’analyse factorielle

• Métrique quelconque M (matrice symétrique définie positive)

Principe général de l’analyse factorielle

Méthode : chercher le sous-espace de

Principe général de l’analyse factorielle

• Métrique quelconque M (matrice symétrique définie positive)

Principe général de l’analyse factorielle

Principe général de l’analyse factorielle

La liste des coordonnées ci des individus sur Δ forme une

c’est une combinaison linéaire des variables initiales dont on

Principe général de l’analyse factorielle

problème de max d’une forme quadratique

Principe général de l’analyse factorielle

Principe général de l’analyse factorielle

Ils contiennent les coefficients des variables initiales dans la combinaison c = Xu

En pratique, l’ACP va donc consister à diagonaliser la matrice

Principe général de l’analyse factorielle

• Aux axes principaux a sont associés les facteurs

• Les composantes principales associées: c=Xu

Principe général de l’analyse factorielle

(plans factoriels – cercle de corrélation seulement en ACP)

Phase délicate nécessitant une certaine méthode pour éviter de

Principe général de l’analyse factorielle

2) déterminer le nombre d'axes, ie la dimension de l’espace

Principe général de l’analyse factorielle

10% n’a pas le même intérêt sur un tableau de 20 variables et un

Principe général de l’analyse factorielle

choix du nombre d’axes = point essentiel

critères théoriques: * tests statistiques

Principe général de l’analyse factorielle

Principe général de l’analyse factorielle

variables et individus supplémentaires ne participent pas directement à l’analyse

L’étude des éléments supplémentaires se fait à travers la phase d’interprétation externe.

Principe général de l’analyse factorielle

On synthétise usuellement les corrélations des variables pour un