You are on page 1of 88

Analyse des donnes

Master Statistique et economtrie


Notes de cours
V. Monbet
Master 1 - 2013
Table des matires
1 Introduction 3
2 Rappels et complments dalgbre linaire 5
2.1 Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2 Matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2.1 Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2.2 Oprations sur les matrices . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2.3 Proprits des matrices carres . . . . . . . . . . . . . . . . . . . . . . . . 6
2.3 Espace euclidiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3.1 Sous-espaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.3.2 Rang dune matrice A
np
. . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.3.3 Matrice euclidienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.3.4 Projection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.4 Elments propres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.4.1 Dnitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.4.2 Proprits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.4.3 Dcomposition en valeurs singulires (DVS) . . . . . . . . . . . . . . . . . 11
2.5 Optimisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.5.1 Norme dun matrice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.5.2 Approximation dune matrice . . . . . . . . . . . . . . . . . . . . . . . . . 12
3 Analyse en Composantes Principales 13
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.2 ACP par projection : approche gomtrique . . . . . . . . . . . . . . . . . . . . . 14
3.3 Reprsentations graphiques et aide linterprtation . . . . . . . . . . . . . . . . 17
3.3.1 Les individus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.3.2 Les variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.4 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.5 Proprits asymptotiques des estimateurs de composantes principales . . . . . . . 19
3.6 ACP par minimisation de lerreur . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.7 Changement de mtrique dans lespace des individus et poids sur les individus . . 22
4 Analyse Canonique des Corrlations 24
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.2 Interprtation gomtrique de lanalyse canonique . . . . . . . . . . . . . . . . . . 25
4.2.1 Analyse canonique ordinaire . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2
4.2.2 Analyse canonique gnralise . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.3 Reprsentations graphiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.3.1 Reprsentation des variables . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.3.2 Reprsentation des individus . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.4 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.5 Interprtation probabiliste de lanalyse canonique . . . . . . . . . . . . . . . . . . 30
4.5.1 Rappel : analyse en composante principale . . . . . . . . . . . . . . . . . . 30
4.5.2 Modle probabiliste pour lanalyse canonique . . . . . . . . . . . . . . . . 30
5 Analyse des Correspondances 32
5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
5.2 Modle dindpendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
5.2.1 Test du chi 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
5.2.2 AFC et indpendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
5.3 Analyse factorielle des correspondances . . . . . . . . . . . . . . . . . . . . . . . . 36
5.3.1 Nuages de points . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
5.3.2 lAFC proprement dite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
5.4 Reprsentation graphique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.4.1 Biplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.4.2 Reprsentation barycentrique . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.4.3 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.5 Interprtation des rsultats de lAFC . . . . . . . . . . . . . . . . . . . . . . . . . 43
5.5.1 Valeurs propres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
5.5.2 Contribution des modalits . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.5.3 Interprtation en terme de reconstruction des eectifs . . . . . . . . . . . 44
5.6 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
6 Analyse des Correspondances Multiples 46
6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
6.2 Denitions et notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
6.2.1 Tableau disjonctif complet . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
6.2.2 Tableau de Burt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
6.2.3 Tableau des
2
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
6.3 Analyse Factorielle des Correspondances Multiples . . . . . . . . . . . . . . . . . 50
6.3.1 AFC du tableau disjonctif complet relatif 2 variables . . . . . . . . . . . 50
6.3.2 AFC du tableau disjonctif complet . . . . . . . . . . . . . . . . . . . . . . 52
6.3.3 AFC du tableau de Burt . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
6.3.4 Interprtation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
6.3.5 Reprsentation des individus . . . . . . . . . . . . . . . . . . . . . . . . . 55
6.3.6 Reprsentation des variables . . . . . . . . . . . . . . . . . . . . . . . . . . 55
6.3.7 Reprsentation simultane . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
6.4 Individus et variables suplmentaires . . . . . . . . . . . . . . . . . . . . . . . . . 61
6.5 Les variables continues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3
7 Analyse Discriminante 63
7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
7.2 Analyse discriminante dcisionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . 64
7.2.1 Rgle de dcision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
7.2.2 Risque de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
7.2.3 Cas de variables alatoires gaussiennes . . . . . . . . . . . . . . . . . . . . 66
7.2.4 Cas de variables dpendantes quelconques . . . . . . . . . . . . . . . . . . 70
7.3 Analyse factorielle discriminante . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
7.3.1 Variances interclasse et intraclasse . . . . . . . . . . . . . . . . . . . . . . 72
7.3.2 Axes et variables discriminantes . . . . . . . . . . . . . . . . . . . . . . . . 74
7.3.3 Une ACP particulire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
7.3.4 Slection de modle et MANOVA . . . . . . . . . . . . . . . . . . . . . . . 76
7.4 Validation de modle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
8 Classication, segmentation 77
8.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
8.2 Distances et similarits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
8.2.1 Similarit entre des objets structure binaire . . . . . . . . . . . . . . . . 78
8.2.2 Distance entre des objets variables nominales . . . . . . . . . . . . . . . 79
8.2.3 Distance entre des objets variables continues . . . . . . . . . . . . . . . 79
8.3 Classication hirarhique ascendante . . . . . . . . . . . . . . . . . . . . . . . . . 79
8.4 Mthode des centres mobiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
8.4.1 Gnralisations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
8.4.2 Modles de mlange . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
8.5 Exemple : composition du lait chez dirents mammifres . . . . . . . . . . . . . 83
8.6 Combinaison de direntes mthodes de classication . . . . . . . . . . . . . . . . 84
4
Chapitre 1
Introduction
Lanalyse statistique multivarie consiste analyser et comprendre des donnes de grande
dimension. Nous supposons que nous avons un ensemble x
i

i=1, ,n
de n observations dun
vecteur de variables X dans R
p
. Autrement dit, nous supposons que chaque observation x
i
admet p dimensions :
x
i
= (x
i1
, x
i2
, , x
ip
)
et que cest une valeur observe (ou ralisation) dun vecteur de variables X R
p
. Le vecteur X
est compos de p variables alatoires :
X = (X
1
, X
2
, ..., X
p
)
o X
j
, pour j = 1, , p, est une variable alatoire de dimension 1. Comment allons nous
analyser ce type de donnes ? Avant de considrer la question de ce quon peut infrer partir
de ces donnes, on doit penser comment regarder les donnes. Ceci implique des techniques
descriptives. Les questions auxquelles nous pouvons rpondre laide danalyses descriptives
sont :
Y a til certaines composantes de X qui sont plus disperses que dautres ?
Y a til des lments de X qui indiquent des sous-groupes dans les donnes ?
Y a til des valeurs extrmes et/ou aberrantes dans des donnes ?
La distribution des donnes est-elle "normale" ?
Y a til des combinaisons linaires de faible dimension de X qui montrent des comporte-
ments "non-normaux" ?
Une dicult des mthodes descriptives pour les donnes de grande dimension est le systmes
de perception humain. Les nuages de points en deux dimensions sont faciles comprendre et
interprter. Avec les techniques de visualisation interactives modernes on a la possibilit de voir
des rotations 3D en temps rel et ainsi percevoir aussi les donnes 3 dimensions. Une technique
de glissement
1
dcrite par Hrdle et Scott (1992) permet de matrialiser une 4me dimension en
reprsentant des contours 3D avec la 4me dimension en niveau de couleur.
Un saut qualitatif dans les dicults de reprsentation apparat pour des dimensions suprieurs
5, moins que la structure de grande dimension ne puisse tre projete dans un espace de dimen-
1. sliding technic
5
sion plus faible. Certaines caratristiques telles que des sous-groupes ou des valeurs aberrantes
peuvent tre dtectes par des techniques danalyses purement graphiques.
Dans le chapitre suivant, nous dcrivons rapidement des techniques descriptives de base ainsi
que des techniques graphiques permettant de faire une analyse exploratoire des donnes. Dans le
chapitre 3, nous introduisons lanalyse factorielle qui permet de projeter des donnes de grande
dimension dans un espace de dimension plus faible. Nous en dduirons une technique classique :
lanalyse en composantes principales. Dans le chapitre 4, nous tudierons un autre type dana-
lyse factorielle dont lobjectif est davantage un objectif de modlisation que de description :
lanalyse en facteurs communs et spciques. Dans le chapitre 5, nous considrons un problme
dans lequel on cherche des liens entre des variables (explicatives) continues et une variable (
expliquer) catgorielle et nous dcrirons lanalyse factorielle discriminante. Puis dans le chapitre
6, nous nous intresserons aux tableaux de donnes catgorielles et nous tudierons lanalyse des
correspondances et lanalyse des correspondances multiples. En enn dans le chapitre 7, nous
nous tournons vers le problmes de la classication supervise qui permet de mettre en vidence
des sous groupes dans les donnes. Pour conclure, dans le chapitre 8, nous mettrons en vidence
que tous les problmes voqus peuvent tre formaliss comme des problmes dinfrence sur une
ou plusieurs variables latentes.
Une partie des exemples de ce cours sont emprunts Hrdle et Simar (2007).
6
Chapitre 2
Rappels et complments dalgbre
linaire
Daprs le WikiStat de Philippe Besse.
2.1 Notations
Dans tout ce qui suit, E et F sont deux espaces vectoriels rels munis respectivement des
bases canoniques c = e
j
; j = 1, , p et T = f
i
; i = 1, , n. On note indiremment soit
un vecteur de E ou de F, un endomorphisme de E, ou une application linaire de E dans F, soit
leurs reprsentations matricielles dans les bases dnies ci-dessus.
2.2 Matrices
2.2.1 Notations
La matrice dordre (np) associe une application linaire de E dans F est dcrite par un
tableau :
A =
_

_
a
11
a
1j
a
1p
. . . . . . . . .
a
i1
a
ij
a
ip
. . . . . . . . .
a
n1
a
nj
a
np
_

_
On note dans la suite a
ij
= [A]
ij
le terme gnral de matrice, a
i.
un vecteur ligne mis en colonne
et a
.j
un vecteur colonne.
Types de matrices
Un matrice est dite :
vecteur ligne (ou colonne) si n = 1 (ou p = 1),
vecteur unit dordre p si elle vaut 1
p
= [1, , 1]

,
scalaire si n = 1 et p = 1,
7
carre si n = p.
Un matrice carre est dite :
identit (I
p
) si a
ij
=
ij
=
_
0 si i ,= j
1 si i = j
diagonale si a
ij
= 0 lorsque i ,= j,
symtrique si a
ij
= a
ji
pour tout i et j,
triangulaire surieure (infrieure) si a
ij
= 0 lorsque i > j (i < j).
Matrices partitionne en blocs
2.2.2 Oprations sur les matrices
Somme : [A+B]
ij
= a
ij
+b
ij
Multiplication par un scalaire : [A]
ij
= a
ij
pour R
Transposition :[A

ij
] = a
ji
, A

est dordre p n.
(A

= A ; (A+B)

= A

+B

; (AB)

= B

;
Produit scalaire lmentaire : a

b =

n
i=1
a
i
b
i
o a et b sont des vecteurs-colonnes.
Produit : [AB]
ij
= a

i.
b.j
2.2.3 Proprits des matrices carres
La trace et le dterminant sont des notions intrinsques, qui ne dpendent pas des bases de
reprsentation choisies, mais uniquement de lapplication linaire sous-jacente.
Trace
Par dnition, si A est une matrice (p p),
trA =
p

j=1
a
jj
et il est facile de montrer que
la trace est linaire
tr =
tr(A) = trA
tr(A+B) = trA+ trB,
dans la trace les matrices commutent
tr(AB) = tr(BA)
et ceci reste vrai si A est n p et B est p n.

tr(CC

) = tr(C

C) =
n

i=1
p

j=1
c
2
ij
8
Dterminant
On note det(A) ou [A[ le dterminant de la matrice carre A. Il vrie :
[A[ =
p

j=1
a
jj
si A est triangulaire ou diagonale,
[A[ =
p
[A[
[AB[ = [A[[B[

A B
0 C

= [A[[C[

A
11
A
12
A
21
A
22

= [A
11
[[A
22
A
21
A
1
11
A
12
[ = [A
22
[[A
11
A
12
A
1
22
A
21
[
sous rserve que A
11
et A
22
soient inversibles.
Inverse
linverse de A, lorsquelle existe, est la matrice unique note A
1
telle que :
AA
1
= A
1
A = I
Elle existe si et seulement si [A[ , = 0.
Quelques proprits :
(A
1
)

= (A

)
1
; (AB)
1
= B
1
A
1
; [A
1
[ =
1
[A[
.
Dnitions
Un matrice carre est dite
symtrique si A

= A,
singulire si [A[ = 0,
rgulire si [A[ , = 0,
idempotente si AA = A,
dnie positive si x R
p
, x

Ax 0, et si x

Ax = 0 = x = 0,
positive (ou semi-dnie positive) si x R
p
, x

Ax 0,
orthogonale si aa

= A

A = I.
2.3 Espace euclidiens
E est un espace vectoriel rel de dimension p isomorphe R
p
.
9
2.3.1 Sous-espaces
Un sous ensemble E
q
ede E est un sous espace vectoriel de E sil est non vide et stable
(x, y) E
2
q
, R, (x +y) E
q
.
Le q-upl x
1
, , x
q
de E constitue un systme linairement indpendant si et seulement si
q

i=1

i
x
i
= 0 =
1
= =
q
= 0.
Un systme linairement indpendant c
q
= e
1
, , e
q
qui engendre dans E un sous espace
vectoriel E
q
= vece
1
, , e
q
en constitue une base et dim(E
q
) = card(c
q
) = q.
2.3.2 Rang dune matrice A
np
Dans ce sous paragraphe, A est a matrice dune application linaire de E = R
p
dans F = R
n
,
Im(A) = vecta
.1
, , a
.p
est le sous espace vectoriel de F image de A;
Ker(A) = x E; Ax = 0 est le sous espace vectoriel de E noyau de A;
E = Im(A) Ker(A) si A est carre associe un endomorphisme de E et
p = dim(Im(A)) +dim(Ker(A)).
rang(A) = dim(Im(A)),
0 rang(A) min(n, p),
rang(A) = rang(A

),
rang(A+B) = rang(A) +rang(B),
rang(AB) = min(rang(A), rang(B)),
rang(BAC) = rang(A) si B et C sont rgulires,
rang(A) = rang(AA

) = ran(A

A).
Enn, si B (p q) est de rang q < p et A carre (p p) de rang p, alors la matrice B

AB est de
rang q.
2.3.3 Matrice euclidienne
Soit M une matrice carre (p p), symtrique, dnie positive ; M dnit sur lespace E :
un produit scalaire : (x, y)
M
= x

My,
une norme [[x[[
M
= (x, x)
1/2
M
,
une distance d
M
(x, y) = [[x y[[
M
,
des angles cos
M
(x, y) =
(x,y)
M
||x||
M
||y||
M
.
La matrice M tant donne, on dit que :
une matrice A est M-symtrique si (MA)

= MA,
deux vecteurs x et 3ont M-orthogonaux si (x, y)
M
= 0,
un vecteur x est M-norm si [[x[[
M
= 1,
un base c
q
= e
1
, , e
q
est M orthonorme si
(i, j), (e
i
, e
j
)
M
=
ij
.
10
2.3.4 Projection
Soit W un sous-espace de E et B = b
.1
, , b
.q
une base W : P (p p) est une matrice de
projection M orthogonale sur W si et seulement si :
y E, Py W et (Py, y Py)
M
= 0.
Toute matrice idempotente (P
2
= P) et M-symtrique (P

M = MP) est une matrice de pro-


jection M-orthogonale et rciproquement.
Proprits
Les valeurs propres de P sont 0 ou 1 :
u W, Pu = u, = 1, de multiplicit dim(W)
v W, (on note v W

) Pv = 0, = 0, de multiplicit dim(W

)
.
trP = dim(W).
P = B(B

MB)
1
B

M, o B = [b
.1
, , b
.q
].
Dans le cas particulier o les b
.j
sont M-orthonorms :
P = BB

M =
q

i=1
b
.j
b
.j
M.
Dans le cas particulier o les q = 1 alors :
P =
bb

Mb
M =
1
[[b[[
M
bb

M.
On retrouve les formules du modle linaire ?
Si P
1
, , P
q
sont des matrices de projection M-orthogonales alors la somme P
1
+ +P
q
est une matrice de projection M-orthogonale si et seulement si : P
k
P
j
=
kj
P
j
.
La matrice I P est la matrice de projection M-orthogonale sur W

.
2.4 Elments propres
Soit A une matrice carre (p p).
2.4.1 Dnitions
Par dnition, un vecteur v dnit une direction propre associe une valeur propre si lon
a
Av = v.
Si est une valeur propre de A le noyau ker(AI) est un sous espace vectoriel de E, appel
sous espace propre, dont la dimension est majore par lordre de multiplicit de . Comme cas
particulier, Ker(A) est le sous-espace propre associ, si elle existe, la valeur propre nulle.
Les valeurs propres dune matrice A sont les racines, avec leur multiplicit, du polynme
caractristique :
[AI[ = 0.
11
Thorme 1 Soir deux matrices A (np) et B (pn) ; les valeurs propres non nulles de AB et
BA sont identiques avec le mme degr de multiplicit Si u est un vecteur propre de BA associ
la valeur propre dirente de 0, alors v = Au est un vecteur propre de la matrice AB associ
la mme valeur propre.
Les applications statistiques envisages dans ce cours ne sintressent qu des types particu-
liers de matrices.
Thorme 2 Une matrice A relle symtrique admet p valeurs propres relles. Ses vecteurs
propres peuvent tre choisis pour constituer une base orthonorme de E ; A se dcompose en
A = V

V =
p

k=1

k
v
.k
v
.k

o V est une matrice orthogonale des vecteurs propres orthonorms associs aux valeurs propres

k
, ranges par ordre dcroissant dans la matrice diagonale .
Thorme 3 Une matrice A relle M-symtrique admet p valeurs propres relles. Ses vecteurs
propres peuvent tre choisis pour constituer une base M-orthonorme de E ; A se dcompose en
A = V

V M =
p

k=1

k
v
.k
v
.k
M
o V est une matrice M-orthogonale des vecteurs propres orthonorms associs aux valeurs
propres
k
, ranges par ordre dcroissant dans la matrice diagonale .
Les dcompositions ne sont pas uniques : pour une valeur propre simple (de multiplicit 1) le
vecteur propre norm est dni un signe prs, tandis que pour une valeur propre multiple, une
innit de bases M-orthonormes peuvent tre extraites du sous-espace propre unique associ.
Le rang de A est aussi le rang de la matrice associe et donc le nombre (rptes avec leurs
multiplicits) de valeurs propres non nulles.
Par dnition si A est positive, on note la racine carre de A :
A
1/2
=
p

k=1
_

k
v
.k
v
.k
M = V
1/2
V

M.
2.4.2 Proprits
Si
k
,=
j
, v
.k

M
v
.j
trA =

p
k=1

k
, [A[ =

p
k=1

k
Si A est rgulire, k,
k
,= 0
Si A est positive,
p
0 (valeurs propres ranges par ordre dcroissant)
Si A est dnie positive,
p
> 0
12
2.4.3 Dcomposition en valeurs singulires (DVS)
Il sagit, cette fois, de construire la dcomposition dune matrice X (n p) rectangulaire
relativement deux matrices symtriques et positives D (n n) et M (p p).
Thorme 4 Une matrice X (n p) de rang r peut scrire :
X = U
1/2
V

=
r

k=1
_

k
u
.k
v
.k

U (nr) contient les vecteurs propres D-orthonormes (U

DU = I
r
) de la matrice D-symtrique
positive XMX

D associs aux r valeurs propres no nulles


k
ranges par ordre dcroissant dans la
matrice diagonale (rr) ; V (pr) contient les vecteurs propres M-orthonorms (V

MV = I
r
)
de la matrice M-symtrique positive X

DXM associs aux mmes valeurs propres. De plus,


U = XMV
1/2
et V = X

DU
1/2
.
2.5 Optimisation
2.5.1 Norme dun matrice
Lespace vectoriel E de dimension p (resp. F de dimension n) est muni de sa base canonique
et dune mtrique de matrice M (resp. D). Soit X une matrice (n p). Lensemble /
n,p
est un
espace vectoriel de dimension np ; on le munit du produit scalaire :
(X, Y )
M,D
= tr(XMY

D).
Dans le cas particulier o M = I
p
et D = I
n
et en notant vec(M) = [x

.1
, , x

.p
]]

la matrice
"vectorise", ce produit salaire devient
(X, Y )
I
p
,I
n
= tr(XY

) =
n

i=1
p

j=1
x
ij
y
ij
= vec(X

)vec(Y ).
La norme associe ce produit scalaire est appele norme trace :
[[X[[
2
M,D
= tr(XMX

D)
[[X[[
2
I
p
,I
n
= tr(XX

) = SSQ(X) =
n

i=1
p

j=1
x
2
ij
.
SSq = sum of squares
La distance associe cette norme devient, dans le cas o D = diag(w
1
, , w
n
) est une
matrice diagonale, le critre usuel des moindres carres :
d
2
(X, Y ) = [[X Y [[
2
M,D
=
n

i=1
w
i
[[x
i
y
i
[[
2
M
.
13
2.5.2 Approximation dune matrice
Les matrices X, M, et D sont dnies comme ci-dessus ; X est suppose de rang r. On cherche
la matrice Z
q
, de rang q infrieur r, qui soit la plus proche possible de X.
Thorme 5 La solution du problme :
min
Z
_
[[X Z[[
2
M,D
; Z /
n,p
, rang(Z) = q < r
_
est donne par la somme des q premiers termes de la dcomposition en valeurs singulires de X :
Z
q
=
q

k=1
_

k
u
.k
v

.k
= U
q

1/2
q
V

q
.
Le minimum atteint est
[[X Z
q
[[
2
M,D
=
r

k=q+1

k
.
Les matrices U
q
,
q
et V
q
contiennent les q premiers vecteurs et valeurs propres donnes par
la SVD de X ; Z
q
est appele approximation de rang q de X.
Ce thorme peut se reformuler dune manire quivalente. On note

P
q
(resp.

Q
q
) la projection
M-orthogonale sur E
q
= Im(V
q
) (resp. D-orthogonale sur F
q
= Im(U
q
)) :

P
q
=
q

k=1
v
.k
v

.k
M = V
q
V

q
M

Q
q
=
q

k=1
u
.k
u

.k
D = U
q
U

q
D
Z
q
=

Q
q
X = X

P

q
;
Proposition 1 Avec les notations prcdentes

P
q
= arg max
P
q
_
[[XP

q
[[
2
M,D
; P
q
projection M orthogonale de rang q < r
_

Q
q
= arg max
Q
q
_
[[XQ

q
[[
2
M,D
; Q
q
projection D orthogonale de rang q < r
_
14
Chapitre 3
Analyse en Composantes Principales
3.1 Introduction
Lobjectif de ce chapitre est dtudier les mthodes classiquement utilises pour dcrire et visua-
liser des donnes multivaries issues de variables continues : lanalyse en composantes principales
et le positionnement multidimensionnel. Ces techniques danalyse descriptive seront utilises,
notamment, pour visualiser les donnes dans un sous espace reprsentatif, pour dtecter des
groupes dindividus et/ou de variables, des valeurs extrmes ou abberrantes ou pour aider au
choix de variables. Ces mthodes permettent aussi de rpondre des questions du type : quels
individus se ressemblent du point de vue de lensemble des variables ? ou rciproquement quelles
variables sont semblables du point de vue des lensemble des individus ?
Lanalyse en composantes principales est un outil de rduction de dimension qui permet de retirer
la redondance ou la duplicit dans un ensemble de variables corrles. Lensemble initial est alors
reprsent par un ensemble rduit de variables drives des variables observes. Ces facteurs, en
thorie, indpendants les uns des autres et on peut les classer par ordre dimportance.
Soit X
1
, , X
p
un ensemble de p variables observes sur n individus indpendants. On notera
x =
_
_
x
11
x
1p
. . . . . .
x
np
x
np
_
_
le tableau des n observations des p variables. Typiquement, n est grand devant p. Pour tout
j 1, , p, x
j
R
n
. Chaque ligne du tableau reprsente un individu et chaque colonne une
variable. Chaque individu est un point de lespace R
p
. Par exemple, dans le tableau ci-dessous
la premire colonne (Modle) est lidentiant et on observe deux variables, la puissance de la
voiture et son prix.
15
Modle Puissance Prix
Alfasud TI 79 30570
Audi 100 85 39990
Simca 1300 68 29600
Citroen GS Club 59 28250
Fiat 132 98 34900
Lancia Beta 82 35480
Peugeot 504 79 32300
Renault 16 TL 55 32000
Renault 30 128 47700
Toyota Corolla 55 26540
Alfetta-1.66 109 42395
Princess-1800 82 33990
Datsun-200L 115 43980
Taunus-2000 98 35010
Rancho 80 39450
Mazda-9295 83 27900
Opel-Rekord 100 32700
Lada-1300 68 22100
Quand on nobserve que deux variables, la reprsentation des individus est directe : on reprsente
les individus dans le plan de R
2
, chaque axe reprsentant une variable. Lobjectif de lanalyse
en composantes principales est de reprsenter les individus quand p > 2. Lide est la suivante.
Supposons dans un premier temps que les individus soient en fait concentrs dans un plan de R
p
.
La solution la plus simple consiste faire un changement de base o les deux premiers axes sont
dans le plan et les autres leurs sont orthogonaux (et les coordonnes des individus sur les axes
3 p axes seront nulles). Considrons maintenant un nuage de points qui est presque concentr
sur un plan. En pratique, on cherche un sous espace vectoriel dans lequel la dispersion entre les
observations est la mieux reprsente. On cherche aussi prserver au mieux les distances entre
les individus. On peut faire lanalogie avec une photographie. Si on photographie un objet en
3 dimensions (par exemple un poisson), on va chercher un plan tel quon reconnaisse aisement
que cest un poisson, cest dire un plan dans lequel les informations importantes sont restitues
au mieux. Dans la gure 3.1 limage reprsentant le poisson de prol (plus grande dispersion)
restitue davantage dinformation que celle du poisson de face (moins de dispersion).
On peut construire lACP de plusieurs faons. Lapproche la plus classique (en France) est lap-
proche gomtrique.
3.2 ACP par projection : approche gomtrique
Notons x
i
et x les individus centrs :
x
i
= x
i
x
i
, x =
_
_
x
1
x
1
. . .
x
n
x
n
_
_
16
Figure 3.1 Le poisson clown.
La moyenne empirique x est parfois appele centre de gravit. On dnit linertie des individus
par la quantit
I =
1
n
n

i=1
[[ x
i
[[
2
On remarque que linertie est dnie comme la somme des distances au carr des points leur
centre de gravit. Dans le cas o les variables dont quantitatives, cest aussi aussi la somme des
variances empiriques de chacune des variables, cest dire la trace de la matrice de variance-
covariance empirique

. En eet,

=
1
n
n

i=1
x
T
i
x
i
=
1
n
x
T
x,

jk
=
1
n
n

i=1
x
ij
x
ik
Linertie est une quantit relle qui mesure la dispersion des individus dans lespace p dimen-
sions.
Soit P un projecteur de R
p
. Par abus, on notera galement P la matrice associe P dans la
base canonique. La projection dun vecteur x
i
sera
P(x
i
) = x
i
P
T
, XP
T
=
_
_
x
1
P
T
. . .
x
n
P
T
_
_
Soit E un sous-espace de R
p
et P
E
le projecteur orthogonal sur E, on note I
E
linertie des
individus projets :
I
E
=
1
n
n

i=1
[[P
E
( x
i
)[[
2
=
1
n
n

i=1
[[ x
i
[[
2

1
n
n

i=1
[[ x
i
P
E
( x
i
)[[
2
par Pythagore. Linertie I
E
est donc galement une mesure de la dispersion des individus aprs
projection sur E. Il est facile de vrier que
I
E
= Tr(P
E

P
E
)
17
Soit u
1
, , u
q
une base orthogonale de E. Alors P
E
= UU
T
o U est la matrice rectangulaire
forme des vecteurs U
i
en colonne : U = [u
1
, , u
q
]. Donc
I
E
= Tr(P
E

P
E
) = Tr(RP
E
) = Tr(U
T

U) =
q

i=1
u
T
i

u
i
.
Raisonnons dans un premier temps avec un seul axe de projection u
1
. La projection dun individu
observ x
i
R
p
sur laxe u est dnie par
P
u
(x
i
) = x
T
i
u
[[u
1
[[
Et on cherche laxe u

qui conduit la projection qui conserve au mieux les distances entre


individus :
u

= min
uR
p
,||u||=1
n

i=1
[[ x
i
P
u
( x
i
)[[
2
(3.1)
avec x le nuage de points centr (et ventuellement rduit) et x
i
le ime individu correspondant.
Par le thorme de Pythagore, on sait que [[ x
i
P
u
( x
i
)[[
2
= [[ x
i
[[
2
[[P
u
( x
i
)[[
2
, ainsi le problme
de lquation (3.1) est quivalent
u

= max
uR
p
,||u||=1
n

i=1
[[P
u
( x
i
)[[
2
(3.2)
soit encore en utilisant la dnition de loprateur de projection :
u

= max
uR
p
,||u||=1
n

i=1
u
T
x
T
xu
On remarque que la variance empirique de P
u
( x) vaut
1
n
P
u
( x)
T
P
u
( x) = u
T

1
n
x
T
x
. .

u
o

est la matrice de covariance empirique de x. Ainsi, pour le premier vecteur propre, on
cherche un vecteur unitaire u

tel que
u

= arg max
{uR
n
,u
T
u=1}
u
T

u (3.3)
Nous cherchons donc le vecteur u

tel que la projection du nuage sur u

ait une inertie (ou


une variance) maximale. En introduisant les multiplicateurs de Lagrange pour saranchir de la
contrainte dans le problme de maximisation, (3.3) est quivalent
(u

,
1
) = arg max
{uR
n
,R}
u
T

u (u
T
u 1)
18
La solution est la racine de la drive de lexpression ci-dessous.

_
u
T

u (u
T
u 1)
_
u
= 2u u

_
u
T

u (u
T
u 1)
_

= u
T
u 1
Si on remarque maintenant que
max
{uR
n
,u
T
u=1}
u
T

u = max
{uR
n
,u
T
u=1}
u
T
u = max
{uR
n
,u
T
u=1}

on a que le premier axe factoriel u

est associ la plus grande valeur propre de



u.
Plus gnralement, la maximisation de linertie I
E
sur toutes les familles de q veteurs orthogonaux
est ralise en choisissant les q vecturs associs aux q plus grandes valeurs propres de

et on a
les thormes suivants.
Thorme 6 Lespace de dimension q dinertie maximale est engendr par les q vecteurs propres
associs aux q plus grandes valeurs propres (si des valeurs propres sont gales il ny a pas unicit).
Thorme 7 Les composantes principales sont donnes par la transformation linaire Y =
U
T
(X E(X)) o

= V ar(X) = UU
T
. De plus on a :
E(Y
j
) = 0, j = 1, , p
V ar(Y
j
) =
j
, j = 1, , p
Cov(Y
j
, Y
k
) = 0, j, k = 1, , p
3.3 Reprsentations graphiques et aide linterprtation
Lanalyse en composantes principales est principalement utilise pour donner une reprsentation
graphique des individus et des variables.
3.3.1 Les individus
En pratique, on projette orthogonalement les observations x sur les plans factoriels. Les coor-
donnes de x
i
x sur le sous espace de dimension q sont les q premiers lments de la matrice
C = U
1/2
. Voir lexemple ci-dessous. Les graphiques obtenus permettent de reprsenter au
mieux les distances euclidiennes inter-individus.
La qualit globale des reprsentations est mesure par la part de dispersion explique ou la la
portion dinertie explique :
r
Q
=

q
k=1

p
k=1

k
19
Tandis que la qualit de la reprsentation de chaque point est donne par
cs
2
i
=

q
k=1
d(O, y
i
)
2
k

p
j=1
d(O, y
i
)
2
k
o d(O, y
i
)
k
= c
iK
La contribution de chaque individu linertie du nuage permet de dtecter les observations les
plus inuentes et ventuellement aberrantes.

i
=

p
j=1
c
2
ij

p
j=1

j
Si la contribution dun individu un ou plusieurs axes est beaucoup plus importante que celle
des autres il faut vrier si cet individu nest pas abbrant.
On peut projeter des individus supplmentaires s sur un sous espace factoriel en calculant ses
coordonnes :
U
T
(s x)
Ici U joue le rle dune matrice de changement de base.
3.3.2 Les variables
La projection des variables sur les plans factoriels peuvent aider linterprtation des com-
posantes. Cette reprsentation des variables peut sinterprter comme le positionnement, pour
chaque variable, dun idividu type, pour lequel les autres variables auraient leur valeur moyenne
et la variable considre serait amplie. Les graphiques obtenus permettent de reprsenter au
mieux les corrlations entre les variables et, si celles ci ne sont pas rduites, leurs variances. On
obtient le cercle des corrlations par projection orthogonale sur le sous espace factoriel E
q
. La
coordonne de la variable x
j
sur u
k
est donne par

u
jk
La qualit de la reprsentation de chaque x
j
est mesure par

q
j=1

j
v
2
jk

p
j=1

j
v
2
jk
3.4 Exemple
A titre dexemple, on considre un jeu de donnes tablissant la composition du lait de 25
espces de mammifres. On mesure 5 variables : la teneur en protines, en lactose, en graisse, en
eau et en minraux. On obtient pour les matrices U et suivantes.
U =
_
_
_
_
_
_
0.76 0.16 0.57 0.25 0.01
0.16 0.85 0.27 0.39 0.14
0.62 0.44 0.55 0.34 0.01
0.09 0.18 0.54 0.82 0.04
0.01 0.13 0.06 0.02 0.99
_
_
_
_
_
_
, =
_
_
_
_
_
_
282.1 0 0 0 0
0 8.1 0 0 0
0 0 1.2 0 0
0 0 0 0.3 0
0 0 0 0 0.1
_
_
_
_
_
_
20
En premire approximation, on peut dire que les composantes principales correspondent dans
lordre
la proportion deau sur la proportion de graisse
la teneur en protines
la proportion de lactose sur celle deau et de graisse
la teneur en lactose
la teneur en sel minraux
Le fait que la premire valeur propre soit grande devant les autres signie que les individus se
dmarquent surtout par la proportion deau par rapport la graisse dans leur lait. La gure
3.2 montre, dans le premier plan factoriel, les graphes des variables et des individus pour lACP
non rduite. Ce plan explique 99.5% de la variance. On observe sur le graphe de projection
des variables que leau est le composant le plus important suivi par la matire grasse dans le
composant du lait. Associ au graphe des inidividus, on peut voir, par exemple, que le dauphin
et le phoque ont des laits plus gras que les autres mammifres. Le graphe permet de visaulis que
les variables qui contribuent fortement au premier axe factoriel sont la matire grasse et leau.
Le deuxime axe factoriel apporte peu dinformation supplmentaire ; ce sont essentiellement les
protines qui contribuent cet axe.
Le plus souvent, il est prfrable dinterprter une ACP rduite dans laquelle chaque variable
va avoir la mme contribution. Le rsultat est alors indpendant des units utilises. Dans le cas
de lexemple les dirents composants du lait sont mesures dans les mme units. On peut alors
prfrer ne pas normaliser car les grandeurs relatives des variables sont importantes.
Si on normalise les donnes, on obtient pour des matrices U et D analogues celes du cas
non normalis,
U =
_
_
_
_
_
_
0.47 0.35 0.37 0.11 0.71
0.47 0.32 0.15 0.79 0.19
0.45 0.48 0.31 0.18 0.67
0.48 0.06 0.78 0.38 0.11
0.35 0.74 0.38 0.43 0.00
_
_
_
_
_
_
, =
_
_
_
_
_
_
3.88 0 0 0 0
0 0.89 0 0 0
0 0 0.13 0 0
0 0 0 0.10 0
0 0 0 0 0.01
_
_
_
_
_
_
La gure 3.3 montre, dans le premier plan factoriel, les graphes des variables et des individus
pour lACP rduite. Le graphe des variables est aussi appel cercle des corrlations. Le premier
plan factoriel restitue 95.3% de la variance. Le cercle des corrlations permet de dire que les laits
forte teneur en matire grasse ou protines sont gnralement faible teneur en lactose et eau
car ces variables sont opposes sur le graphe. Ce sont ces variables qui contribuent au premier
axe factoriel. Le second axe oppose les laits riches en protines et minraux aux laits riches en
matires grasses. On remarque laide du graphe des individus que les animaux qui ont un lait
riche en eau sont surtout des animaux de rgions chaudes.
3.5 Proprits asymptotiques des estimateurs de composantes
principales
En pratique lACP est ralise partir de donnes. On manipule donc des estimateurs. Il est
utile de connaitre leurs proprits.
21
Figure 3.2 Composition du lait - Cercle des corrlations ( gauche) et graphe des individus
( droite) sur le premier plan principal de lACP non rduite
Figure 3.3 Composition du lait - Cercle des corrlations ( gauche) et graphe des individus
( droite) sur le premier plan principal de lACP non rduite
Thorme 8 Soit > 0 ayant des valeurs propres distinctes et soit

n
1
W
p
(, n) tels que
=
T
et

=

. Alors
(a)

n(

)
d
A
p
(0, 2
2
),
avec

= (

1
, ,

p
)
T
et = (
1
, ,
p
)
T
sont les diagonales de

et .
(b)

n(g
j

j
)
d
A
p
(0,
j
),
avec
j
=
j

k=j

k
(
k

j
)
2

T
k
.
(c) les lments de

sont asymptotiquement indpendants de ceux de .
22
Figure 3.4 Composition du lait - Ebouli des valeurs propres ( gauche) et reprsentation
simultanne sur le premier plan principal de lACP ( droite)
W
p
(, n) est la loi de Wishart de variance n degrs de libert. Cest une gnralisation de
la loi du khi pour les matrices alatoires.
Comme n

W p(, n 1) si X
1
, = , X
n
sont distribues suivant une loi de Gauss de
moyenne et de variance , on dduit du thorme que

n 1(

j
) A(0, 2
2
j
), j = 1, , p
En appliquant une transformation log, on obtient par la delta mthode,

n 1(log(

j
) log(
j
)) A(0, 2), j = 1, , p
et on peut alors cire un intervalle de conance pour log(
j
).
3.6 ACP par minimisation de lerreur
On peut voir lanalyse en composantes principales comme un outil de synthse dinformation.
Lide est alors de chercher des facteurs latents sur lesquels se concentre linformation. Les fac-
teurs latents jouent le mme rle que les composantes principales U. On peut alors crire pour
les variables centres

X =
q

j=k
c
q
U
q
+
Dans le cas de lACP, on suppose que est un vecteur alatoire gaussien centr dont les compo-
santes sont indpendantes et de mme variance : A(0, I). On a faire un modle linaire
23
on peut donc raliser linfrence des paramtres inconnus z et U par minimisation de la variance
des rsidus. Cest dire quon cherche les matrices c

et U

telles que
(c

, U

) = arg min
{(c,U)R
q
R
q
,UU
T
=Id}
V ar
_
X
q

k=1
c
k
U
k
_
= arg min
{(c,U)R
q
R
q
,UU
T
=Id}
[[x
q

j=1
c
j
U
j
[[
2
(3.4)
En pratique, on ne sait pas calculer cette variance. On lestime partir des observations. Et on
montre que la solution unique est donne par les composantes principales

U et les axes principaux
z, vecteurs propres de la matrice de variance-covariance.
3.7 Changement de mtrique dans lespace des individus et poids
sur les individus
Supposons maintenant que la mesure adquate entre les individus nest plus la distance eucli-
dienne mais doive tre base sur une norme [[x[[
2
M
= x
T
Mx o M est une matrice symtrique
dnie positive. La mtrique M renormalise correctement les individus et il faut la prendre en
compte dans le calcul dinertie. Ceci est automatique si on considre la matrice des individus
x

= xM
1/2
. Dans la reprsentation des individus sur les axes factoriels cest la nouvelle distance
qui est approche.
De manire analogue, si on veut donner des poids dirents aux individus dans le calcul de
linertie, on peut introduire une matrice de poids D qui est une matrice diagonale contenant les
poids : x

= D
1/2
xM
1/2
.
Dans ce cas, on formule le problme (3.4) ainsi :
(c

, U

) = arg min
{(c,U)R
q
R
q
,UU
T
=Id}
[[x
q

k=1
c
k
U
k
[[
2
(M,D)
Si lespace est euclidien, par dnition
[[x
q

j=1
c
j
U
j
[[
2
(M,D)
= D(x
q

j=1
c
j
U
j
)
T
M(x
q

k=1
c
k
U
k
)
La solution est donne par
q

k=1
c
k
U
k
=
q

k=1

1/2
j
u
k
v
T
k
avec U et V des matrices unitaires. Cest la dcomposition en valeurs singulires de la matrice des
donnes centres rduites. Les vecteurs u
k
sont les vecteurs propres de la matrice de covariance
24
xMx
T
D, les valeurs propres tant ranges par ordre dcroissant. Tandis que les vecteurs v
k
sont
les vecteurs propres de x
T
MxD correspondant aux mmes valeurs propres. Ils sont correspondant
aux axes principaux.
A partir de V
q
, matrice construite partir des q premiers vecteurs v
k
, on construit la matrice de
projection P
q
= V
q
V
T
q
M.
Le choix de la mtrique M et/ou de la matrice de pondration D a un impact sur les rsultats
et notamment sur les projections des individus sur les plans factoriels. Certaines mtriques per-
mettent par exemple de mettre en vidence les individus atypiques (voir TD). Le plus souvent,
on choisi D =
1
n
I et M = I avec I la matrice identit. Cest dire quon donn le mme point
chaque individu et quon ne priviligie aucune variable.
25
Chapitre 4
Analyse Canonique des Corrlations
Voir aussi la che wikistat de P. Besse (www.math.univ-toulouse.fr/~besse/Wikistat/pdf/st-m-explo-acc.pdf).
4.1 Introduction
Lanalyse canonique
1
permet les liaisons qui existent entre un groupe de variables expliquer et
un autre groupe de variables explicatives observes sur le mme ensemble dindividus, cest--dire
de dterminer les corrlations existant entre les deux groupes de variables.
Par exemple, dans une tude de satisfaction de la clientle de dirents magasins, les variables
expliquer sont les suivantes
Note de satisfaction obtenue sur laccueil en magasin
Note de satisfaction obtenue sur le conseil en magasin
Note de satisfaction obtenue sur les dlais de passage en caisse
Note de satisfaction obtenue sur la largeur de lassortiment
et les variables explicatives
La taille du point de vente
Le nombre de caisses ouvertes
Le chire daaires quotidien du point de vente
Le nombre de vendeuses ddies la surface de vente
Le nombre de rfrences dans la gamme A
Le nombre de rfrences dans la gamme B
La surface de lespace Loisirs
Toutes les variables sont mesures dans toues les magasins. Et on obtient ainsi deux tables de
donnes comportant le mme nombre de lignes (nombre de magasins) lune dcrivant le magasin
lautre la satisfaction des clients. Lanalyse canonique conclut sur le pouvoir explicatif de chacune
des variables explicatives et le degr dexplication des variables expliquer. Ainsi, dans cet
exemple, il sagit de comprendre le lien entre les critres de la surface de vente et la satisfaction
des clients.
Le principe gnral de la mthode consiste rechercher le couple de vecteurs, lun li aux magasin,
lautre la satisfaction client, les plus corrls possible. Ensuite, on recommence en cherchant
1. En anglais : Canonical Correlation Analysis
26
un second couple de vecteurs non corrls aux vecteurs du premier et le plus corrls entre eux,
et ainsi de suite. La dmarche est donc similaire celle utilise en A.C.P. La reprsentation
graphique des variables se fait soit par rapport aux vecteurs lis aux magasins, soit par rapport
ceux lis aux clients (en gnral, les deux sont quivalentes, au moins pour ce qui est de leur
interprtation). Ces vecteurs, obtenus dans chaque espace associ chacun des deux groupes
de variables, sont analogues aux facteurs de lA.C.P. et sont ici appels variables canoniques.
Comme en A.C.P., on peut tracer le cercle des corrlations sur le graphique des variables, ce
qui en facilite linterprtation (dont le principe est le mme que pour le graphique des variables
en A.C.P.). Des considrations techniques permettent de faire galement un graphique pour les
individus.
On note X
1
et X
2
les deux vecteurs de variables et x
1
et x
2
les tableaux des donnes observes.
Les variables sont quantitatives ou qualitatives. Si les variables sont qualitatives alors, les colonnes
du tableau de donnes sont constitues par les modalits des variables.
4.2 Interprtation gomtrique de lanalyse canonique
Lobjectif de lanalyse canonique est de trouver une reprsentation dans laquelle les proximits
entre les deux ensembles de donnes soient maximises. Autrement dit, on cherche des variables
canoniques, transformes linaires des variables dorigine, telles quen moyenne ces variables
soient les plus proches possible (cest dire de corrlation maximum).
4.2.1 Analyse canonique ordinaire
Supposons dans un premier temps quon cherche seulement les deux premires variables cano-
niques. Si E et F sont les espaces engendrs par les colonnes de X
1
et X
2
respectivement, on
cherche deux vecteurs unitaires u
E
et u
F
, un dans E et lautre dans F, qui soient les plus proches
possible. Soient P
E
et P
F
les projections orthogonales sur E et F.
P
E
= X
1
(X
T
1
X
1
)
1
X
T
1
et P
F
= X
2
(X
T
2
X
2
)
1
X
T
2
La minimisation de [[u
E
u
F
[[
2
sous les contraintes P
E
u
E
= u
E
, P
F
u
F
= u
F
et [[u
E
[[ = [[u
F
[[ = 1
conduit
P
E
P
F
u
E
=
2
u
E
P
F
P
E
u
F
=
2
U
F
pour un certain . Cest dire que u
E
est un vecteur propre droite de P
E
P
F
et u
F
un vecteur
propre droite de P
F
P
E
. On en dduit facilement que
P
E
u
F
= u
E
et P
F
u
E
= u
F
de plus = u
T
E
u
F
.
Il est facile de vrier que le vecteur z = u
E
+u
F
est solution de (P
E
+P
F
)z = ( + 1)z. Cest
le point qui minimize [[z P
E
z[[
2
+[[z P
F
z[[
2
, la somme des carrs des distances E et F. On
a galement P
E
z = ( + 1)u
E
et P
F
z = ( + 1)u
F
.
27
Cest lanalogue dune ACP avec p = 2, sauf que les variables ont t remplaces par des espaces.
Les facteurs propres a
E
et a
F
sont tels que
a
E
= X
1
u
E
et a
F
= X
1
u
F
Les facteurs non normaliss sont donns par
u = (X
T
1
X
1
)
1
X
T
1
u
E
= (1 +)
1
(X
T
1
X
1
)
1
X
T
1
z
v = (X
T
2
X
2
)
1
X
T
2
u
F
= (1 +)
1
(X
T
2
X
2
)
1
X
T
2
z
car en eet X
1
u = (1 + )
1
Pz = u
E
. On remarque que u est alors lestimateur aux moindres
carrs de la rgression linaire permettant de prdire u
E
partir des variables de X
1
.
On remarque que [[u
E
u
F
[[
2
peut scrire
[[u
E
u
F
[[
2
= E
_
(u
E
u
F
)
2
_
= E
_
u
2
E
_
+E
_
u
2
F
_
2E
_
u
T
E
u
F
_
Ainsi, si les donnes sont rduites, minimiser [[u
E
u
F
[[
2
est quivalent maximiser la covariance
entre u
E
et u
F
. Ainsi, en analyse canonique des corrlations, on cherche des vecteurs u et v tels
que les variables alatoires U
1
= X
1
u et v
1
= X
2
v maximisent la corrlation
= cor(X
1
u, X
2
v) = u
T

12
v
Proposition 2 Les vecteurs U
E,s
sont les vecteurs propres norms de la matrice P
E
P
F
respec-
tivement associs aux valeurs propres
s
ranges par ordre dcroissant (on peut vrier que ces
valeurs propres sont comprises entre 1 et 0). De mme, les vecteurs U
F,s
sont les vecteurs propres
norms de la matrice P
F
P
E
respectivement associs aux mmes valeurs propres
s
. De plus, les
coecients de corrlation canonique
s
=

s
sont les racines carres positives de ces valeurs
propres.
Les facteurs a
k
E
et a
k
F
ont les proprits suivantes
a
k
E
= X
1
u
E,k
et a
k
F
= X
2
u
F,k
Les facteurs a
E
sont solution de

1
11

12

1
22

21
a
E,k
= R
2
(u
E,k
, u
E,k
o
ij
=
1
n
(X
i
)
T
X
j
Les facteurs a
F
sont solution de

1
22

21

1
11

12
a
F,k
= R
2
(u
F,k
, u
F,k
o
ij
=
1
n
(X
i
)
T
X
j
Les relations qui existent entre a
E
et A
F
sont

1
11

12
a
F,k
= R(u
E,k
, u
F,k
)a
E,k
et

1
22

21
a
E,k
= R(u
E,k
, u
F,k
)a
F,k
o R est le coecient de dtermination entre u
E,k
et u
F,k
.
28
4.2.2 Analyse canonique gnralise
On a dsormais une matrice (X
1
, , X
p
), des espaces E
1
, , E
p
et on veut faire une opration
analogue. Il est dicile de chercher directement une famille u
1
, , u
p
. On cherche alors le vecteur
z qui minimise

p
j=1
[[z P
j
z[[
2
. La solution est un vecteur propre de

p
j=1
P
j
. Les composantes
principales sont les P
j
z (la normalisation a chang), et les facteurs sont calculs de la mme faon

j
P
j
z = z
c
j
= P
j
z
w
j
= (X
T
j
X
j
)
1
X
T
j
z, Xw
j
= c
j
Cest lanalogue dune ACP normalise sauf que les variables ont t remplaces par des espaces.
On obtient les autres axes factoriels en rsolvant de nouveau ces quations. On cherche des axes
orthogonaux z
1
, , z
q
associs des valeurs propres
1
, ,
q
dcroissantes.
4.3 Reprsentations graphiques
Le but de lanalyse canonique est de mettre en vidence des proximits entre deux ensembles de
donnes. Les reprsentations graphiques ont pour objectif de dcrire les proximits entre variables
et entre individus.
4.3.1 Reprsentation des variables
On note u les vecteurs propres lies X = X
1
et v les vecteurs propres lies Y = X
1
.
Sintresser aux kime facteur (ou variable canonique), est quivalent expliquer la corrlation
entre u
k
et v
k
soit expliquer la corrlation entre une combinaison linaire de variables de
X = X
1
et de variables de Y = X
2
est leve. Il est donc ncessaire de faire gurer sur un mme
graphique lensemble des variables dorigine. Cette reprsentation se fait comme en ACP par un
cercle des corrlations. Laxe correspondant au kime facteur est une compromis entre u
k
et v
k
soit
F
k
=
1
2
(u
k
+v
k
)
4.3.2 Reprsentation des individus
Lanalyse canonique dtermine des facteurs u et v tels quen moyenne les deux variables soient
le plus proches possibles pour les n individus, cest dire de telle sorte que
1
n
n

i=1
(u
i
v
i
)
2
pour tout j = 1, , q (4.1)
sous les mmes contraintes que dans lespace des variables.
Chacun des deux tableaux de donnes dcrit un nuage pour les mmes n individus. La reprsen-
tation des individus de lAC permet de cerner ce qui caractrise le mieux ces nuages dindividus
dans les directions pour lesquelles ces nuages sont les plus ressemblants possibles. De plus la
29
reprsentation des individus de lAC permet de reprer les individus ayant un comportement
particulier.
A chaque tape k, il sagit de comparer la description des individus donne par la variable cano-
nique u
E,k
celle donn par la variable canonique u
F,k
. La proximit plus ou moins importante
entre les deux descriptions des individus peut aussi tre mise en vidence en calculant lcart-type
rsiduel (4.1).
4.4 Exemple
Considrons lexemple suivant dans lequel on cherche les relations entre des variables physiolo-
giques et des exercices pratiqus dans des salles de sport pour 20 hommes dge moyen.
data Fit;
input Weight Waist Pulse Chins Situps Jumps;
datalines;
191 36 50 5 162 60
189 37 52 2 110 60
193 38 58 12 101 101
162 35 62 12 105 37
189 35 46 13 155 58
182 36 56 4 101 42
211 38 56 8 101 38
167 34 60 6 125 40
176 31 74 15 200 40
154 33 56 17 251 250
169 34 50 17 120 38
166 33 52 13 210 115
154 34 64 14 215 105
247 46 50 1 50 50
193 36 46 6 70 31
202 37 62 12 210 120
176 37 54 4 60 25
157 32 52 11 230 80
156 33 54 15 225 73
138 33 68 2 110 43
;
proc cancorr data=Fit all
vprefix=Physiological vname=Physiological Measurements
wprefix=Exercises wname=Exercises;
var Weight Waist Pulse;
with Chins Situps Jumps;
title Middle-Aged Men in a Health Fitness Club;
title2 Data Courtesy of Dr. A. C. Linnerud, NC State Univ;
run;
30
On obtient les rsultats suivants pour les coecients normaliss et on fait linterprtation sui-
vante. Le premier facteur des variables physiologiques est une dirence pondre du tour de
taille (1.58) et du poids (-0.78). Les corrlations entre la taille et le poids et la premire va-
riable canonique sont positives, 0.92 pour la taille et de 0.62 pour le poids. Le poids est donc
une variable suppressor, ce qui signie que son coecient et sa corrlation sont de signes opposs.
Physiological1 Physiological2 Physiological3
Poids -0.78 -1.88 -0.19
Tour de taille 1.58 1.18 0.51
Poul -0.06 -0.23 1.05
La premire variable canonique pour les variables exercice montre galement un mlange de
signes : Situps (-1.05), Chins (-0.35), Jumps (0.72). Toutes les corrlations sont ngatives, ce qui
indique que Jumps est galement une variable suppressor.
Exercises1 Exercises2 Exercises3
Chins -0.066 -0.071 -0.245
Situps -0.017 0.002 0.020
Jumps 0.014 0.021 -0.008
Il peut sembler contradictoire quune variable ait un coecient de signe oppos celui de sa
corrlation avec la variable canonique. An de comprendre comment cela peut arriver, considrons
une situation simplie : la prdiction de Situps partir du tour de taille et et du poids par
rgression multiple. En termes informels, il semble plausible que les gens gros fassent moins de
situps (abdos) que les personnes maigres. Supposons que les hommes de lchantillon aient tous
environ la mme taille, il y a donc une forte corrlation entre la le tour de taille et de poids
(0.87).
Nous nous intressons ensuite au coecient de corrlation mutiple entre les mesures physiolo-
giques et les M variables canoniques correspondant aux exercices et inversement. Les tableaux
ci-dessous donnes les carrs des coecients.
M 1 2 3
Poids 0.24 0.27 0.27
Tour de taille 0.54 0.55 0.55
Poul 0.07 0.07 0.07
M 1 2 3
Chins 0.33 0.34 0.34
Situps 0.42 0.44 0.44
Jumps 0.02 0.05 0.05
Les coecients sont presque identiques pour les 3 variables canoniques. On en conclut, quun
seule variable canonique sut caractriser chaque ensemble. Et que ce sont surtout le poids
et le tour de taille qui sont corrls aux exercices, principalement les exercices de tractions et
dabdominaux.
31
4.5 Interprtation probabiliste de lanalyse canonique
4.5.1 Rappel : analyse en composante principale
Comme nous lavons voqu dans la section prcdente, on peut voir lACP comme une solution
du maximum de vraisemblance dune analyse en facteurs avec une covariance isotrope (cest
dire identique dans toutes les directions soit pour toutes les variables). Plus prcisment,
P(X[F = f) A(Qf +,
2
I
p
), > 0
En pratique, Q et sont estims par

Q = U
q
(
q

2
I)
1/2
R,
2
=
1
p q
q

j=q+1

j
o U sont les vecteurs propres principaux de la matrice de covariance empirique

de x cor-
respondants aux valeurs propres
1

2

q
, q p et R est une matrice orthogonale
quelconque.
On a alors
E(F[X = x) = R
T
(
2
I)
1/2

1
U
T
(x ))
Comme nous lavions prcis dans le chapitre prcdent, ces quations conduisent au mme sous
espace linaire que lACP et les mmes projections des individus ( une rotation prs) si les
valeurs propres
q+1
, ,
p
sont gales 0.
4.5.2 Modle probabiliste pour lanalyse canonique
Dans lACP, on cherche une transformation linaire des variables dorigine X telle que les com-
posantes du vecteur transform soient non corrles. De la mme faon, en analyse canonique,
pour deux groupes de variables X
1
et X
2
de dimension p
1
et p
2
, on cherche une paire de transfor-
mations linaires telle que une composante de chaque vecteur transform ne soit corrle quavec
une seule composante de lautre vecteur.
Le modle probabiliste scrit donc
F A(0, I
q
), min(p
1
, p
2
) q 1
P(X
1
[F = f) = A(Q
1
f +
1
,
1
)
P(X
2
[F = f) = A(Q
2
f +
2
,
2
)
Notons

1
et

2
les matrices de corrlation empiriques des observations x
1
et x
2
de X
1
et X
2
.
Les paramtres Q
1
, Q
2
,
1
,
2
de ce modle sont estims par maximum de vraisemblance, et on
obtient

Q
1
=

1
U
1
M
1

Q
2
=

2
U
2
M
2

1
=


Q
1

Q
T
1

2
=


Q
2

Q
T
2
32
Les matrices M
1
, M
2
sont des matrices carr arbitraires telles que M
1
M
2
= P et telles que leur
norme spectrale
2
soit infrieure 1. Les matrices U
1
et U
2
sont telles que leurs colonnes sont
les directions canoniques ranges par ordre de valeur propre dcroissante. Et P est la matrice
diagonale des correlations canoniques.
Notons

la matrice de correlation empirique des observations

=
_

11

12

21

22
_
o

kl
est la matrice de corraltion empirique de du couple (X
k
, X
l
). On a alors
U
k
=
1/2
kk
V
k
, pour k = 1, 2
avec V
1
, V
2
tels que de

1/2
11

12

1/2
22
= V
1
PV
2
avec P la matrice diagonale des valeurs singulires. Ainsi P a sur sa diagonale les corrlations
canoniques
i
, i = 1, , q = min(p
1
, p
2
) et des 0 ailleurs. Si la matrice de covariance

est
inversible, on a
U
T
1

11
U
1
= I
U
T
2

22
U
2
= I
U
T
2

21
U
1
= P
La solution nest pas unique. Et on peut montrer que parmi toutes les solutions, celle qui minimize
log(det()) = log(det(
1
)) log(det(
2
)) (i.e. lentropie conditionnelle de X sachant F),
est telle que M
1
= M
2
= P
1/2
R avec R une matrice de rotation. La solution scrit alors

Q
1
=

1
U
1
P
1/2
R

Q
2
=

2
U
2
P
1/2
R
Comme dans le cas de lACP, on peut en dduire les proprits des facteurs sachant les observa-
tions x
1
et x
2
,
E(F[X
k
= x
k
) = M
T
k
U
T
k
(x
k

k
), k = 1, 2
V ar(F[X
k
= x
k
) = I M
k
M
T
k
E(F[X
1
= x
1
, X
2
= x
2
) =
_
M
1
M
2
_
T
_
(I P
2
)
1
(I P
2
)
1
P
(I P
2
)
1
P (I P
2
)
1
__
U
T
1
(x
1

1
)
U
T
1
(x
1

1
)
_
V ar(F[X
1
= x
1
, X
2
= x
2
) = I
_
M
1
M
2
_
T
_
(I P
2
)
1
(I P
2
)
1
P
(I P
2
)
1
P (I P
2
)
1
__
M
1
M
2
_
On remarque ici que M
1
et M
2
dnissent des sous espaces dans lesquels x
1
et x
2
sont projetts.
2. La norme spectrale est la norme matricielle induite par la norme euclidienne et est dnie pour ne matrice
A carre par ||A|| =

max
(AA
T
)
33
Chapitre 5
Analyse des Correspondances
5.1 Introduction
Lanalyse factorielle des correspondances est un cas particulier de lanalyse canonique. Elle a
t dveloppe essentiellement par J.-P. Benzecri durant la priode 1970-1990. Lanalyse des
correspondances est une technique danalyse fatorielle destine mettre en vidence et dcrire
des associations entre deux variables qualitatives. On considre dans cette section deux variables
qualitatives observes simultanment sur n individus de poids identiques 1/n. En pratique, on
va travailler avec une table de contingence qui est un tableau crois contenant les eectifs des
occurences simultannes de deux modalits.
Prenons des exemples,
1. Ponctuation dans loeuvre de Zola (exemple emprunt M. Tenenhaus) - Ltude de la ponc-
tuation ou de la prsence de certains mots dans des textes est utilise pour reconnaitre
lauteur dun document (article, roman, nouvelle, etc. ). Les donnes se prsentent selon le
tableau Tab. ??.
Et une analyse factorielle des correspondances permet de faire le graphique suivant sur
lequel on projette simultannment les modalits des deux variables (Titre du roman et
Ponctuation) comme reprsent dans la gure ??.
2. Origine sociale des tudiants de premire anne et choix dun secteur disciplinaire (exemple
emprunt F.-G. Carpentier)
Droit Science Mdecine IUT Total
Exp. agri. 80 99 65 58 302
Patron 168 137 208 62 575
Cadre sup. 470 400 876 79 1825
Employ 145 133 135 54 467
Ouvrier 166 193 127 129 615
Total 1029 962 1411 382 3784
Soient
1
deux variables nominales X et Y , comportant respectivement p et q modalits. On a
1. Certaines parties de ce chapitre et notamment ce paragraphe sont fortement inspires du cours de F.G.
Carpentier
34
Ponctuation dans les
romans de Zola
Premier plan factoriel
de lACM de la ponctuation dans la romans de Zola.
35
observ les valeurs de ces variables sur une population et on dispose dun tableau de contingence
p lignes et q colonnes donnant les eectifs conjoints cest--dire les eectifs observs pour chaque
combinaison dune modalit i de X et dune modalit j de Y. Les valeurs de ce tableau seront
notes n
ij
, leectif total sera not N.
LAFC vise analyser ce type de tableaux en apportant des rponses des questions telles que :
Y a-t-il des lignes du tableau (modalits de X) qui se "ressemblent", cest--dire telles que
les distributions des modalits de Y soient analogues ?
Y a-t-il des lignes du tableau (modalits de X) qui sopposent, cest--dire telles que les
distributions des modalits de Y soient trs direntes ?
Mmes questions pour les colonnes du tableau.
Y a-t-il des associations modalit de X - modalit de Y qui sattirent (eectif conjoint
particulirement lev) ou qui se repoussent (eectif conjoint particulirement faible) ?
La mthode se xe galement comme but de construire des reprsentations graphiques mettant
en vidence ces proprits des donnes.
Notations
Soit N = (n
ij
)
i=1, ,p,j=1, ,q
un tableau de contingence. On dnit les marges du tableau par
n
i
=
q

j=1
n
ij
, n
j
=
p

i=1
n
ij
, n = n

i,j
n
ij
Ceci correspond aux totaux en lignes et en colonne. Selon le mme principe, on peut dnir
les marges en frquence avec f
ij
= n
ij
/n
f
i
=
q

j=1
f
ij
, f
j
=
p

i=1
f
ij
, f

i,j
f
ij
= 1
5.2 Modle dindpendance
5.2.1 Test du chi 2
Comme en ACP, on sintresse alors aux directions de "plus grande dispersion" de chacun de
ces nuages de points, mais on utilise la distance du
2
entre ces deux variables ( la place de
la distance euclidienne). Cette distance permet de comparer leectif de chacune des cellules
du tableau de contingence la valeur quelle aurait si les deux variables taient indpendantes.
Notons E
ij
leectif attendu sous lhypothse dindpendance ; par dnition
E
ij
=
Total ligne i Total ligne j
Total gnral
=
n
i
n
j
n

ce qui correspondant bien au produit des probabilits marginales. Et la distance du


2
est dnie
par
d
2

2
(N, E) =
p

i=1
q

j=1
(n
ij
E
ij
)
2
E
ij
36
On appelle rsidus standardiss, les variables (centres et de variance 1) :
c
ij
=
n
ij
E
ij
_
E
ij
Plus la distance d
2

2
(N, E) est grande, plus le tableau observ est loign du tableau attendu
sous lhypothse dindpendance.
Pourquoi utiliser cette mtrique plutt que la mtrique euclidienne ? Deux raisons fortes peuvent
tre avances :
Avec la mtrique du
2
, la distance entre deux lignes ne dpend pas des poids respectifs
des colonnes. Ceci a pour consquence, dans lexemple, des tudiants de premire anne
que les catgories socio-professionnelles sur-reprsentes ne prennent pas plus de poids que
les autres dans le calcul de la distance.
La mtrique du
2
possde la proprit dquivalence distributionnelle : si on regroupe
deux modalits lignes, les distances entre les prols-colonne, ou entre les autres prols-
lignes restent inchanges.
Notons quen revanche, il nexiste pas doutil mesurant une "distance" entre une ligne et une
colonne.
Sous lhypothse dindpendance des deux variables, la statistique d
2

2
suit une loi du
2

(p 1)(q 1) degrs de libert. Cette loi sert, par exemple, dnir une rgle de dcision
du type : On conclut que les variables sont indpendantes avec un risque de se tromper si
d

2(N, E) < F
1
(p1)(q1)
(1alpha) vec F la fonction de rpartition de la loi du
2
(p1)(q1)
degrs de libert
Dans lexemple des tudiants de premire anne, la distance du
2
observe est
d
2

2
,obs
(N, E) = 320.2
et on la compare F
1
12
(.95) = 21.0. La valeur de la statistique observe d
2

2
,obs
(N, E) tant
suprieure au seuil, on conclut ici que le tableau observ est signicativement loign du tableau
attendu sous lhypothse dindpendance et donc que les deux variables sont lies.
5.2.2 AFC et indpendance
Lanalyse dun tableau de contingence doit donc se faire en rfrence la situation de dind-
pendance. Cest ce que fait lAFC en crivant le modle dindpendance sous la forme suivante :
i = 1, , p, j = 1, , q,
f
ij
f
i
= f
j
La quantit f
ij
/f
i
est la probabilit conditionnelle de possder la modalit j de la variable X
2
sachant que lon possde la modalit i de la variable X
1
. De faon symtrique, on peut crire
i = 1, , p, j = 1, , q,
f
ij
f
j
= f
i
37
Dnition 1 Lensemble de probabilits f
ij
/f
i
; j = 1, , q est appele prol ligne.
Lensemble de probabilits f
ij
/f
j
; i = 1, , p est appele prol colonne.
f
i
; j = 1, , q (resp. f
j
; i = 1, , p est le prol moyen correspondant au prol
ligne (resp. colonne).
Remarque - Si on a indpendance, le prol ligne dune part et colonne dautre part est gal au
prol moyen correspondant.
5.3 Analyse factorielle des correspondances
On va voir que lAFC est une double ACP : ACP des prols ligne et ACP des prols colonne.
5.3.1 Nuages de points
Intressons nous aux prols ligne, lanalyse des prols colonne tant symtrique. On peut dnir
la notion de nuage dindividus (ou de modalit) partir du tableau de contingence en frquence.
En pratique, on construit un nuage de points dans lespace R
q
en dnissant pour chaque ligne
i, un point dont la coordonnes dans la dimension j est f
ij
/f
i
. Ce nuage est complt par le
point moyen G
I
dont la jme coordonne vaut f
j
. Chaque point i est aect du poids f
i
.
On remarque que la distance entre les points i et i

(cest dire deux modalits de X


1
) est
d
2

2
(i, i

) =
q

j=1
1
f
j
_
f
ij
f
i

f
i

j
f
i

_
2
On utilise donc ici la mtrique du
2
dans laquelle les inverses des frquences marginales des
modalits de Y sont introduites comme pondrations des carts entre lments de deux prols
relatifs X. Cette mtrique attribue donc plus de poids aux carts correspondants des modalits
de faible eectif (rares) pour Y . Linertie du point i par rapport G
I
scrit
Inertie(i/G
I
) = f
i
d
2

2
(i, G
I
)
= f
i
q

j=1
1
f
j
_
f
ij
f
i
f
j
_
2
=
q

j=1
(f
ij
f
i
f
j
)
2
f
i
f
j
5.3.2 lAFC proprement dite
Pour tudier les lignes, on peut raliser une ACP de la matrice A (telle que a
ij
= n
ij
/n
i
)) puis
de reprsenter les modalits de la premire variable. En raison du changement de mtrique, on
introduit la matrice M = D
1
C
avec D
C
= diag(n
1
, , n
q
) et on considre la matrice de poids
D = D
1
L
avec D
C
L = diag(n
1
, , n
q
) (pour favoriser les gros eectifs, ce qui est discutable
mais permet de faire facilement les calculs). On remarque A = D
1
L
N. De faon symtrique, on
peut dnir B = ND
1
C
.
38
Proposition 3 Les lments de lACP de (A, D
1
C
, D
L
)
2
sont fournis pas lanalyse spectrale de
la matrice carre, D
1
L
-symtrique et semi-denie positive AB.
Preuve - Elle se construit en remarque successivement que
le barycentre du nuage des prols ?colonnes est le vecteur g
C
des frquences marginales de
X
2
,
la matrice A

D
L
Ag
C
D
L
g

C
joue le rle de la matrice des variances ?covariances,
la solution de lACP est fournie par la D.V.S. de (A1g

L
, D
1
C
, D
L
) qui conduit rechercher
les valeurs et vecteurs propres de la matrice (SM)
A

D
L
AD
1
C
G
C
D
L
G

C
= AB G
C
G

C
D
1
R
(car D
1
C
A

= BD
1
L
)
les matrices AB G
C
G

C
D
1
R
et AB ont les mmes vecteurs propres associes aux mmes
valeurs propres, lexception du vecteur g
L
associ la valeur propre
0
= 0 de AB
G
C
G

C
D
1
R
et la valeur propre
0
= 1 de AB.

On note U la matrice contenant les vecteurs propres D


1
C
-othonorms de AB. La reprsen-
tation des ?individus ? de lACP ralise fournit une reprsentation des modalits de la variable
X
1
. Elle se fait au moyen des lignes de la matrice des composantes principales (XMV) :
C
L
= AD
1
C
U.
Les composantes principales permettent de reprsenter les modalits des variables sur les axes
2 et 3 (le premier est constant gal 1). Une proximit de deux points i et i

indique que la
distribution de la seconde variable sachant que la premire vaut i est similaire celle sachant i

.
Pour les colonnes, on fait les mmes calculs en inversant les lignes et les colonnes. Il sagit donc
de lACP des individus modalits de X
2
ou prols colonne (la matrice des donnes est B),
pondrs par les frquences marginales des lignes de N (la matrice diagonale des poids est D
C
)
et utilisant la mtrique du
2
. Il sagit donc de lACP de (B, D
1
C
, D
L
).
Proposition 4 Les lments de lACP de (B, D
1
L
, D
C
) sont fournis par lanalyse spectrale de
la matrice carre, D
1
L
?symtrique et semi ?dnie positive BA.
En notant V la matrice des vecteurs propres de la matrice BA; les coordonnes permettant la
reprsentation des modalits de la variable X
2
sont fournies par la matrice :
C
C
= BD
1
L
V.
Sachant que V contient les vecteurs propres de BA et U ceux de AB, montre quil sut de
raliser une seule analyse, car les rsultats de lautre sen dduisent simplement :
U = A

V
1/2
,
V = B

U
1/2
;
est la matrice diagonale des valeurs propres (excepte
0
= 0) commune aux deux ACP.
C
C
= BD
1
L
V = BD
1
L
B

V
1/2
= D
1
C
A

U
1/2
= D
1
C
U
1/2
,
2. Matrice, Mtrique, Pondration
39
C
L
= AD
1
C
U = D
1
L
V
1/2
.
On en dduit les formules de transition
C
C
= BC
L

1/2
C
L
= AC
C

1/2
.
On est alors tent de mettre toutes les modalits sur un mme graphique (option par d-
faut dans SAS). La proximit de modalits de variables direntes reste nanmoins dicile
interprter.
5.4 Reprsentation graphique
5.4.1 Biplot
La dcomposition de la matrice
1
n
N se transforme encore en :
f
ij
f
i
f
j
f
i
f
j
=
min(p1,q1)

k=0
_

k
v
ik
f
i
u
jk
f
j
En se limitant au rang r, on obtient donc, pour chaque cellule (i, j) de la table N, une approxim-
tion de son cart relatif lindpendance comme produit scalaire des deux vecteurs
v
ik
f
i

1/4
et
u
jk
f
j

1/4
termes gnriques respectifs des matrices
D
1
L
V
1/4
et D
1
C
U
1/4
Leur reprsentation (par exemple avec r = 2) illustre alors la correspondance entre les deux
modalits x
1i
et x
2j
: lorsque deux modalits, loignes de lorigine, sont voisines (resp. opposes),
leur produit scalaire est de valeur absolue importante ; leur cellule conjointe contribue alors
fortement et de manire positive (resp. ngative) la dpendance entre les deux variables.
LAFC apparat ainsi comme la meilleure reconstitution des frquences f
ij
, ou encore la
meilleure reprsentation des carts relatifs lindpendance.
5.4.2 Reprsentation barycentrique
La reprsentation graphique usuelle dite reprsentation quasi-barycentrique, place les points
(c
L
(1, i), c
L
(2, i)) et (c
C
(1, i), c
C
(2, i)).
C
L
= D
1
L
V
1/2
et C
C
= D
1
C

1/2
Mme si la reprsentation simultane na plus alors de justication, elle reste couramment em-
ploye. En fait, les graphiques obtenus dirent trs peu de ceux du biplot ; ce dernier sert donc
de ?caution ? puisque les interprtations des graphiques sont identiques. On notera que cette re-
prsentation issue de la double ACP est celle ralise par la plupart des logiciels statistiques
(cest en particulier le cas de SAS).
40
Cest cette reprsentation stend plus facilement au cas de plusieurs variables.
La reprsentation barycentrique est une autre reprsentation propose par les logiciels. Elle utilise
les matrices
D
1
L
V
1/2
et D
1
C
U
ou
D
1
L
V et D
1
C
U
1/2
.
Si lon considre alors la formule de transition
C
L
= AC
C

1/2
C
L

1/2
= AC
C
D
1
L
V = AD
1
C
U
1/2
Dans cette reprsentation, chaque modalit j de la deuxime variable est reprsente comme
barycentre des modalits i de la premire variable avec un poids qui est la probabilite de i sachant
j.
La formule suivante
n
ij

n
i
n
j
n
_
1 +
1

1
C
L
(1, i)C
C
(1, j) +
1

2
C
L
(2, i)C
C
(2, j)
_
indique que deux modalits formant un angle aigu (resp. obtus) sattirent (resp. se repoussent)
et ceci est dautant plus marqu que les points sont loigns du centre de gravit.
5.4.3 Exemples
tudiants en premire anne
Dans lexemple des tudiants en premire anne, on obtient le graphique suivant. On ob-
serve que toutes les modalits sont concentres autour du premier axe. Ceci signie quon a
essentiellement une seule variable latente (ou facteur) structurante.
41
Sous groupes dans les donnes
Quand il existe des sous groupes dans les donnes, on obtient des rsultats typiques. Par
exemple, si on fait lAFC du tableau suivant (tableau 1.)
Var 1 Var 2 Var 3 Var 4
Ligne 1 20 45 2 0
Ligne 2 25 32 0 3
Ligne 3 1 0 78 112
Ligne 4 2 1 45 44
on obtient la projection ci-dessous sur le premier plan factoriel.
42
Eet Guttman
Un nuage de points de forme parabolique indique une redondance entre les deux variables
tudies : la connaissance de la ligne i donne pratiquement celle de la colonne j. Dans un tel cas,
pratiquement toute linformation est contenue dans le premier facteur. Cette conguration se
rencontre notamment lorsque les deux variables sont ordinales, et classent les sujets de la mme
faon. Dans ce cas, le premier axe oppose les valeurs extrmes et classe les valeurs, tandis que le
deuxime axe oppose les intermdiaires aux extrmes.
Var1 Var2 Var3 Var4 Var5
Ligne 1 10 30 7 0 0
Ligne 2 3 100 70 4 0
Ligne 3 2 32 200 35 1
Ligne 4 1 6 80 100 2
Ligne 5 0 3 5 25 5
On obtient la projection ci-dessous sur le premier plan factoriel.
43
Exercice : Expliquer le graphique suivant associ au tableau ci-dessous en regard des rsultats
du jeux de donnes prcdent.
Var1 Var2 Var3 Var4 Var5
Ligne 1 10 30 7 0 0
Ligne 2 3 100 70 4 0
Ligne 3 2 32 200 35 1
Ligne 4 1 6 80 100 2
Ligne 5 0 3 5 250 5
On obtient la projection ci-dessous sur le premier plan factoriel.
44
5.5 Interprtation des rsultats de lAFC
5.5.1 Valeurs propres
On note tout dabord que la la premire valeur propre est une valeur propre triviale gale 1.
En gnral les logiciels lignorent.
On rappelle quon note
c
ij
=
n
ij
E
ij
_
E
ij
.
On remarque alors que
d
2

2
(x, E) =
p

i=1
q

j=1
c
2
ij
= tr(CC
T
) =
min(p1,q1)

k=1

k
ce qui montre que la dcomposition en valeurs singulires de C dcompose le
2
total de mme
quen ACP on dcompose linertie totale. La somme des valeurs propres non triviales multiplie
par leectif total peut se comparer un quantile de la loi du
2
(p1)(q 1) degrs de libert.
La somme de toutes les valeurs propres est gale linertie totale, cest dire la distance
d
2
(x, E). Elle donne donc une information sur lcart lindpendance et on peut la comparer
aux quantiles de la loi du
2
.
Interprtation des valeurs propres -
Si une valeur propre est proche de un, a traduit le fait quil existe deux sous groupes
de modalits dans les donnes. Il est alors intressant de reconstruire la matrice N pour
mettre en vidence ces deux sous groupes et de raliser des AFC indpendamment sur les
deux sous groupes.
Par exemple lanalse factorielle des correspondances du tableau 1, renvoie les valeurs
propres suivantes : 0.90, 0.01, 7e-3.
De mme, lexistence de deux valeurs propres proches de 1 indique une partition des ob-
servations en 3 groupes. Si toutes les valeurs propres sont proches de 1, cela indique une
correspondance entre chaque modalit ligne et une modalit colonne "associe". Avec une
rorganisation convenable des modalits, les eectifs importants se trouvent alors le long
de la diagonale.
Choix de la dimension - Comme en ACP, les valeurs propres peuvent tre interprtes comme
la proportion dinertie explique par le facteur correspondant. On peut sen servir pour aider au
choix de la dimension r < min(1 p, 1 q) de lespace de projection. En pratique, on utilise le
fait que
K
r
=
p

i=1
q

j=1
(
n
ij


n
r
ij
)
2

n
r
ij

min(1p,1q)

k=r+1

k
suit approximatiement une loi du
2
(pr1)(qr1) degrs de libert. On peut donc retenir
pour valeur de r la plus petite dimension pour laquelle K
r
est infrieure la valeur limite de cette
loi. Le choix r = 0 correspond la situation o les variables sont proches de lindpendance en
45
probabilits ; les frquences conjointes sont alors bien approches par les produits des frquences
marginales.
Dans lexemple des tudiants en premire anne, on obtient le tableau de valeurs propres
suivant :
Valeurs propres 8.24e-02 1.70e-03 5.40e-04 1.52e-34
Proportions 0.973 0.02 0.00 0.00
Prop. cumules 0.973 0.994 1.00 1.00
On en dduit que le premier plan fatoriel explique presque toute linertie de la table de contin-
gence. Cest souvent le cas en AFC.
5.5.2 Contribution des modalits
Pour chaque modalit de X
1
(resp. de X
2
), la qualit de sa reprsentation en dimension r se
mesure par le cosinus carr de langle entre le vecteur reprsentant cette modalit dans R
p
(resp.
dans R
q
) et sa projection D
1
C
?orthogonale (resp. D
1
L
?orthogonale) dans le sous ?espace princi-
pal de dimension r. Ces cosinus carrs sobtiennent en faisant le rapport des sommes appropries
des carrs des coordonnes extraites des lignes de C
L
(resp. de C
C
).
AUtrement dit, la "qualit" de la reprsentation dune modalit contribution de la modalit
i de la variable X sur laxe k est donne par le cosinus carr de langle form avec laxe.
cos
2
k
(i) =
d
2
k
(i, G)
d
2
(i, G)
avec G le centre de gravit et d
2
(i, G) =

k
d
2
k
(i, G)
5.5.3 Interprtation en terme de reconstruction des eectifs
La dcomposition de la matrice N est (formule X = CU
T
M
1
))
N =
1
n
D
L
_
1 +
r

k=2
c
k
u
T
k
_
D
C
o 1 est la matrice de 1. La terme de premire approximation, n
1
D
L
1D
C
, correspond deux
variables indpendantes. Si on approche par les trois premiers axes :
n
ij

n
i
n
j
n
_
1 +
1

1
c
1
(i)d
1
(j) +
1

2
c
2
(i)d
2
(j)
_
(5.1)
5.6 Exemple
Dans lexemple des tudiants de premire anne, on obtient le graphique ci-dessous. Dautre
part, on obtient les contributions suivantes des modalits aux axes factoriels
46
En ligne En colonne
Dim 2 Dim 3
Exp. agri 16.29 3.22
Patron 0.07 6.30
Cadre sup. 40.40 6.89
Employ 3.02 68.63
Ouvrier 40.21 14.95
Dim 2 Dim 3
Droit 0.26 58.76
Science 7.94 0.11
Mdecine 41.58 19.26
IUT 50.21 21.87
Rcapitulatif
Dans R
p
Dans R
q
(Lignes) Colonnes)
S = N
T
D
1
L
ND
1
C
Matrice diagonaliser T = ND
1
C
N
T
D
1
L
Su
k
=
k
u
k
Axe facoriel Tv
k
=
k
v
k

k
= D
1
L
ND
1
C
u
k
Coordonnes
k
= D
1
C
N
T
D
1
L
v
k

ki
=

p
j=1
n
ij
n
i
n
j
u
ki

ki
=

q
i=1
n
ij
n
i
n
j
v
ki
47
Chapitre 6
Analyse des Correspondances Multiples
6.1 Introduction
Lanalyse factorielle des correspondances multiples (ACM ou AFCM) est la gnralisation delana-
lyse des correspondances multiples au cas de plusieurs variables. Elle consiste donc reprsenter
les modalits de variables qualitatives dans un espace euclidien dans lequel les distances du
2
entre deux modalits dune mme variable sont prserves au mieux. On considre donc dans
cette section p variables qualitatives observes simultanment sur n individus de poids identiques
1/n.
Exemple - Considrons le jeu donnes de la Table 6.1 dans lequel on caractrise direntes races
de chien en fonction de 7 variables portant sur des caractristiques de physique, sur des points
de caractre et une variable dutilit.
La plupart les tableaux et gures lies cet exemple sont empruntes M. Tenenhaus.
6.2 Denitions et notations
6.2.1 Tableau disjonctif complet
Il est dicile de travailler directement avec un tableau de donnes comme celui de lutilit des
races de chien. En eet, on ne peut pas considrer ces donnes comme des donnes quantitatives.
Par exemple, a na pas de sens de considrer quil y a une distance quivalente entre les classes -
et + de la variable Poids et de la variable Intelligence. En consquence, il est dusage de recoder
les donnes et de construire le tableau disjonctif complet.
Le tableau disjonctif complet est tel que chaque ligne correspond un individu et chaque colonne
une modalit. On note K le nombre total de modalits. Et les observations x
ij
sont codes 1
si lindividu i a la modalit j et 0 sinon. Notons X le tableau disjonctif complet.
Dans lexemple, on obtient alors le tableau de la Table 6.2.
48
Table 6.1 Caractristiques (physique, caractre, utilit) de direntes races de chien
49
Table 6.2 tableau disjonctif complet des caractristiques (physique, caractre, utilit) de dif-
frentes races de chien.
50
6.2.2 Tableau de Burt
On appelle tableau de Burt le tableau B = X
T
X. On peut crire B = (B
k,k
)
k,k

=1, ,p
o
p est nombre total de variables
si k ,= k

, B
k,k
est la table de contingence des variables X
k
et X
k
,
si k = k

, B
kk
est une matrice diagonale contenant les eectifs marginaux de X
k
dans la
diagonale, nots n
1
c
1
, , n
k
c
k
.
Proprits :
B est symtrique.
La somme des lignes (resp. des colonnes) de B est pn
k
l
, l = 1, , c
k
.
La somme des lments de B est p
2
n.
Remarque : si on considre les donnes du tableau disjonctif X comme des observations de va-
riables qualitatives, alors le tableau de Burt reprsente la variance de X un facteur multiplicatif
prs.
Dans lexemple des chiens, le tableau de Burt prend la forme suivante. On observe que la dia-
gonale reprsente les prols (ou distribution en eectif) des direntes variables tandis que les
termes extra diagonaux donnent les eectifs croiss entre deux modalits.
6.2.3 Tableau des
2
Avant daller plus loin et pour aider linterprtion des rsultats quon obtiendra par la suite,
il est utile de gnrer aussi le tableau des statistiques du
2
entre les direntes variables. Ce
51
tableau garde un sens, en eet la distance entre deux modalits j et j

d
2
(j, j

) =
n

i=1
n
_
x
ij
x
j

x
ij

x
j

_
2
Ainsi deux modalits choisies par les mme individus concide. Par ailleurs, les modalits de
faible eectif sont loignes des autres.
La distance entre deux individus i et i

sexprime
d
2
(i, i

) =
1
p
K

j=1
n
x
j
_
x
ij
x
i

j
_
2
Deux individus sont proches sils ont rpondu de la mme manire.
Dans le tableau, les chires entre parenthses reprsentent les degrs de signicativit (p-value)
du test du
2
. On remarque par exemple que la taille et le poids sont lis la vlocit tandis que
seule lagressivit est li la fonction.
6.3 Analyse Factorielle des Correspondances Multiples
LAnalyse Factorielle des Correspondances Multiples des variables x
1
, , x
p
est lanalyse facto-
rielle des correspondances du tableau disjonctif complet ou du tableau de Burt.
On rappelle les notations dnies plus haut.
n est le nombre dindividus.
On a p variables qualitatives.
La variable X
j
admet n
j
c
j
modalits.
K = n
1
c
1
+ +n
j
c
j
est le nombre total de modalits.
La modalit jl a une frquence absolue n
jl
= n
j
l
et une frquence relative
n
jl
np
dans le
tableau de Burt.
6.3.1 AFC du tableau disjonctif complet relatif 2 variables
On note toujours X
1
et X
2
les 2 variables qualitatives et on note r et c leur nombre respectif de
modalits. Les matrices intervenant dans lAFC usuelle sont reprises ici selon les mmes notations
52
que dans le chapitre prcdent mais surlignes. Ici, D
L
(reps. D
C
) est la matrice diagonale qui
contient les prols lignes (resp. colonnes) en frquence.

N = X = [X
1
[X
2
]

D
L
=
1
n
I
n

D
C
=
1
2
_
D
L
0
0 D
C
_
=
1
2

A =
1
2n

N
T

D
1
L
=
1
2
X
T
, avec N la table de contingence.

B =
1
2n

N

D
1
C
=
1
2
X
1
LAFC est considre comme une double ACP : celle des prols lignes de

A puis celle des prols
colonne de

B.
Proposition 5 - ACP des prols lignes
LACP des prols lignes issue de lAFC ralise sur le tableau disjonctif complet relatif 2
variables qualitatives conduit lanalyse spectrale de la matrice

D
1
C
-symtrique et positive :

A

B =
1
2
_
I
r
B
A I
c
_
.
Les r +c valeurs propres de

A

B scrivent

k
=
1

k
2
o les [
k
sont les valeurs propres de la matrice AB (celle de lAFC classique de X).
Les vecteurs propres

D
1
C
-orthonorms associs peuvent se mettre sous la forme

V =
_
U
V
_
o U et V sont les matrices de vecteurs propres obtenues en faisant lAFC de la table de contin-
gence associe X
1
et X
2
.
La matrice des composantes principales scrit

C
L
=
1
2
[X
1
C
L
+X
2
C
C
]
1/2
o C
L
et C
C
sont les matrices de lAFC classique.
Dans la pratique on ne considre que les d = inf(r 1, c 1) plus grandes valeurs propres
direntes de 1.
M = diag(
1
, ,
d
) =
1
2
[I
d
+
1/2
]
Les autres valeurs propres non nulles sont des artfacts lis la construction de la matrice
diagonaliser. Elles nont donc pas de sens statistique.
53
Proposition 6 - ACP des prols colonnes
LACP des prols colonnes issue de lAFC ralise sur le tableau disjonctif complet relatif 2
variables qualitatives conduit lanalyse spectrale de la matrice

D
1
L
-symtrique et positive :

B

A =
1
2n
_
X
1
D
1
L
X
T
1
+X
2
D
1
C
X
T
2

Les r + c valeurs propres non nulles de



B

A sont les
k
. Les vecteurs propres

D
1
L
-orthonorms
associs peuvent se mettre sous la forme

U =
1
n

C
L
M
1/2
.
La matrice des composantes principales scrit

C
C
=
_
C
L
C
C
_

1/2
M
1/2
.
LAFC du tableau disjonctif complet permet, grce aux coordonnes contenues dans

C
C
, la
reprsentation simultane des modalits des deux variables. Cette reprsentation est trs proche
de celle de lAFC classique. De plus cette approche permet une reprsentation des individus avec
les coordonnes de la matrice

C
L
. A un facteur prs, lindividu apparait comme le barycentre
des deux modalits quil a prsentes.
6.3.2 AFC du tableau disjonctif complet
Comme dans le cas o p = 2, on reprend les notations de lAFC classique en les surlignant

T = X = [X
1
[ [X
p
]

D
L
=
1
n
I
n

D
C
=
1
p

A =
1
p
X
T

B =
1
n
X
1
Proposition 7 - ACP des prols lignes
LACP des prols lignes issue de lAFC ralise sur le tableau disjonctif complet relatif p
variables qualitatives conduit lanalyse spectrale de la matrice

D
1
C
-symtrique et positive :

A

B =
1
np
B
1
Il y a m (m c p) valeurs propres notes
k
comprises entre 0 et 1 ranges dans la matrice
diagonale M. La matrice des vecteurs propres

D
1
C
-orthonorms associs se dcompose par blocs
de la faon suivante

V =
_
_
V
1
. . .
V
p
_
_
54
La matrice des composantes principales scrit

C
L
=
p

j=1
X
j
D
1
j
V
j
Comme dans le cas o p = 2, chaque individu est positionn au barycentre des modalits quil
a reprsente. De plus, il faut noter que les modalits dune mme variable sont centres : les
facteurs opposent les modalits dune mme variable.
Proposition 8 - ACP des prols colonnes
LACP des prols lignes issue de lAFC ralise sur le tableau disjonctif complet relatif p
variables qualitatives conduit lanalyse spectrale de la matrice

D
1
L
-symtrique et positive :

B

A =
1
np
p

j=1
X
j
D
1
j
X
T
j
La matrice des vecteurs propres

D
1
L
-orthonorms vrie

U =

B

V M
1/2
La matrice des composantes principales scrit

C
C
= p
1

V M
1/2
Chaque bloc C
j
de

C
C
fournit en lignes les coordonnes des modalits de la variable X
j
et permet
la repssentation graphique simultane.
6.3.3 AFC du tableau de Burt
Cas o p = 2
Prenons le cas o p = 2 et tudions ce que donne, dans ce cas, lAFC du tableau de Burt. On se
rappelle que lAFC est une double ACP sur les prols-ligne dune part et sur les prols-colonne
dautre part. Le tableau de Burt est symtrique, les prols ligne et colonne sont identiques : on
sintresse donc une seule des ACP.
On note

T = B =
_
nD
L
N
N
T
nD
C
_

D
L
=

D
c
=
1
2
_
D
L
0
0 D
C
_
=
1
2
=

D
c

A =

B =
1
2
_
I
L
B
A I
C
_
=

A

B
On fait lAFC comme lACP des prols lignes de

A.
55
Proposition 9 LACP des prols-lignes issue de lAFC ralise sur le tableau de Burt relatif
deux variables qualitatives conduit lanalyse spectrale de la matrice

D
C
-symtrique et positive :

A

B = (

A

B)
2
.
Elle admet pour matrice de vecteurs propres

D
1
C
-orthonorms

U =

V =

V
Les valeurs propres associes vrient :
k
=
2
k
. La matrice des composantes principales scrit

C
L
=

C
C
=
_
C
L
C
C
_

1/2
M.
La matrice

C
L
permet de reprsenter simultanment les modalits des deux variables.
Remarques
Les direntes AFC prsentes ci-dessus conduisent la mme reprsentation simultane
des modalits des 2 variables.
Dans lAFC du tableau disjonctif complet comme dans celle du tableau de Burt, on obtient
des valeurs propres non nulles qui nont pas de sens statistique. Ainsi les valeurs propres
ne peuvent plus tre interprtes comme une part dinertie.
LAFC du tableau de Burt ne considre que des croisements de variables deux deux, si
on veut tudier des interactions dordre plus lev, il faut recoder les variables.
Cas o p est quelconque
Le tableau de Burt est symtrique, on ne fera donc quune ACP. On note

T = B

D
L
=

D
C
=
1
p
=

D
C

A =

B =
1
np
B
1
=

A

B
Proposition 10 LACP des prols-lignes issue de lAFC ralise sur le tableau de Burt relatif
pvariables qualitatives conduit lanalyse spectrale de la matrice

D
C
-symtrique et positive :

A

B = (

A

B)
2
.
Elle admet pour matrice de vecteurs propres

D
1
C
-orthonorms

U =

V =

V
Les valeurs propres associes vrient :
k
=
2
k
. La matrice des composantes principales scrit

C
L
=

C
C
=

C
C
M
1/2
.
La matrice

C
L
permet de reprsenter simultanment les modalits de toutes les variables. En
revanche on ne peut pas faire la reprsentation des individus quand on fait lAFC du tableau de
Burt.
56
Table 6.3 Valeurs propres associes lAFCM des caractristiques de direntes races de
chiens.
6.3.4 Interprtation
Comme en ACM, on dnit le nuage de points associ aux prols-ligne. Linertie totale est K/p1
et la dimension maximum du nuage de points K p. La moyenne des valeurs propres sera gale

K/p 1
K p
= 1/p
et on retient les axes associes des valeurs propres suprieures 1/p ; on peut aussi utiliser la
rgle du coude. Attention, les valeurs propres ne peuvent pas tre interprtes comme des parts
dinertie.
Dans lexemple, linertie totale est gale 1.67 et il y a 3 valeurs propres suprieures 1/p = 1/6
(voir Table 6.3 ).
6.3.5 Reprsentation des individus
La variance de laxe h est
h
ce qui est classique en analyse factorielle et la contribution de
lindividu i laxe h est donne par
1
n
c
ih

h
o c
ih
est la coordonne de lindividu i sur laxe h (voir 6.4).
6.3.6 Reprsentation des variables
Linertie apporte par une modalit jl au nuage de points est
1
p
_
1
n
jl
n
_
57
Table 6.4 Coordonnes et contributions des individus (modalits) associes lAFCM des
caractristiques de direntes races de chiens.
58
Figure 6.1 Reprsentation des direntes races de chiens (individus).
Elle est donc dautant plus forte que leectif de la modalit est faible. De nombreuses modalits
faible eectif peuvent donc dsquilibrer une AFCM. Et il est prfrable de limiter le nombre
de modalits faible eectif, quitte rednir les modalits.
Par ailleurs, linertie apporte par une variable j est
c
j
1
p
Elle est donc dautant plus importante que le nombre de modalits de la variable est important.
Il est donc conseill de travailler avec des variables ayant des modalits en nombre comparable.
La contribution de la modalit k de la variable X
j
linertie de laxe h est donne par
n
jk
pn
c
2
jk

h
Voir Table 6.5.
En pratique,
On interprte les proximits et les oppositions entre les modalits des direntes variables
On privilgie les interprtations sur les modalits susamment loignes du centre du
graphique
Les rapports de valeurs propres ne sont pas interprtables mais on peut regarder la d-
croissance des valeurs propres pour choisir la dimension.
59
Table 6.5 Coordonnes et contributions des variables associes lAFCM des caractristiques
de direntes races de chiens.
60
Table 6.6 Coordonnes et valeurs tests des associes lAFCM des caractristiques de di-
rentes races de chiens.
Seules les contributions des modalits linertie selon les axes sont interprtables
Une modalit jl a une position sur laxe h qui est signicativement dirente du centre de gravit
0 si

C
h
(jl)

n
jl
(n 1)
n n
jl

> 2
o C
h
(jl) est la coordonne de la modalit l de la variable j sur laxe h. Dans lexemple des
chiens ont obtient le tableau ci-dessous. On observe par exemple que seule la modalit int- de
lintelligence est signicative et seulement sur laxe 2.
Le premier axe factoriel oppose les chiens de grande taille ( gauche) aux chiens de petite taille
( droite), il oppose aussi laection faible ( gauche) laectivit ( droite). Laxe deux oppose
les chiens lents et lgers en bas aux chiens assez rapides en haut et gros.
6.3.7 Reprsentation simultane
En AFCM, la reprsentation simultane est assez naturelle puisquon cherche reprsenter les
individus au centre des modalits quil ont choisies et les madalits au centre des individus qui
les ont choisies, aux facteurs de dilatation 1/

prs.
61
Figure 6.2 Reprsentation des caractristiques (variables).
62
Quand les individus sont nombreux et anonymes cette reprsentation nest pas trs utile.
Pour lexemple des races de chiens, nous obtenons la gure 6.3.
Figure 6.3 AFCM des donnes sur les races de chiens, la variable dutilit (en bleu) est
considre comme une variable illustrative (ou supplmentaire).
6.4 Individus et variables suplmentaires
La prise en compte dlments supplmentaires permet daider la comprhension et linter-
prtation des rsultats. Ceci est gnralement intressant quand les variables se dcomposent
en thmes. En pratique, les modalits des variables supplmentaires seront prises en compte en
projetant, dans les sous espaces factoriels, le centre des groupes dindividus ayant choisi ces mo-
dalits. On pourra aussi, dans une optique de prvision, projeter des individus ou des variables
supplmentaires pour les situer par rapport aux individus et variables actives.
6.5 Les variables continues
Pour tre actives dans une analyse factorielle des correspondances multiples, les variables conti-
nues doivent tre rendues nominales. On devra sattacher retenir un nombre de modalits
proche de celui des variables discrtes actives dans lanalyse et avoir une rpartition de lef-
fectif quilibr entre les direntes modalits (ie faire un dcoupage quirparti). Cependant, on
pourra ventuellement retenir une modalit faible eectif si celle ci est importante pour ltude,
ou respecter des seuils naturels sils existent.
63
Quand une variable continue est introduite comme variable supplmentaire, on peut avoir intrt
faire un dcoupage n.
On doit tre extrmement vigilant quand on discrtise une variable continue car ceci conduit
une perte dinformation brute. Nanmoins, ce type de transformation peut prsenter certains
avantages :
a permet de traiter conjointement des variables continues et discrtes en correspondances
multiples,
a permet dobserver une ventuelle contigute de classes voisines et de valider a posteriori
les donnes,
et surtout a permet de mettre en vidence dventuelles liaisons non linaires entre les
variables continues.
64
Chapitre 7
Analyse Discriminante
7.1 Introduction
Lanalyse discriminante est utilise pour identier, dans une population, des caractristiques per-
mettant de sparer deux groupes naturels. En pratique, il sagit de dnir une rgle de dcision
pour classer un individu dans un groupe connaissant ses caractristiques. Lanalyse discriminante
vise donc rsoudre des problmes de classement. On dit que cest une mthode de classication
supervise. Elle se direncie des mthodes de classication
1
, dans la mesure o les classes sont
dnies a priori, cest dire quon dispose dun jeu de donnes incluant une variable de classe
qui est observe. Dans certains cas, on peut voir lanalyse discriminante comme une extension
de lanalyse de la variance.
Donnons quelques exemples de problmes de classication supervise.
En biologie - Un des exemples les plus frquemment utiliss est celui des Iris de Fisher
(1936). Il sagit de discriminer 3 espces dIris partir de la mesure de la longueur et la
largeur des ptales et des spales des 50 eurs de chacune des espces. A partir de telles
mesures on propose de dnir une rgle permettant daecter une espce dtermine un
iris dont on ne connaitrait pas lespce. (voir Figure 7.1)
Un autre exemple concerne le problme de la dtermination de la sous espce de certains
poissons . Une des mthodes pour dterminer lespce consiste dissquer le poisson.
Debouche et al. 1979 proposent une rgle de dcision base sur des mesures faciles raliser
sur un poisson vivant.
En marketing - Identier un bon client/un mauvais client ou encore un client qui on
peut faire un prt.
En mdecine - Maladie du coeur (analyse de sang), prsence de tumeur (analyse dimage)
En multimdia - Reconnaissance de forme : retrouver un visage dans une banque de
donnes, etc.
Il existe de nombreuses mthodes ou modles permettant de construire des rgles de classement.
Citons les plus communes :
1. En anglais : clustering
65
Figure 7.1 Iris de Fisher
analyse discriminante dcisionnelle
2
analyse discriminante factorielle, appele aussi analyse des variables canoniques
3
modle linaire gnralis (rgression logistique)
arbres de dcision
rseaux de neurones articiels
machines vecteurs supports
Certains modles peuvent tre vus comme des cas particulier des autres. Par exemple, lana-
lyse discriminante factorielle est un cas particulier danalyse discriminante dcisionnelle et cest
aussi un modle linaire gnralis particulier. Ce cours portera essentiellement sur lanalyse
discriminante dcisionnelle et sur lanalyse discriminante factorielle.
7.2 Analyse discriminante dcisionnelle
7.2.1 Rgle de dcision
Commenons par poser le problme et introduire les notations. Soient X R
p
une matrice de
covariables et Y 1, , K une variable discrte prdire sachant X = x. K dnit le nombre
de classes. Soit de plus un chantillon (x
1
, y
1
), , (x
n
, y
n
) de n observations du couple (X, Y ).
Dnition 2 Une rgle de dcision est une application de R
p
valeur dans lensemble 1, . . . , K.
Le rsultat (x) = k signie que lindividu associ au vecteur x est aect au groupe numro k.
Une rgle de dcision engendre une partition de R
p
en K rgions R
1
, , R
K
avec pour tout
k = 1, . . . , K
R
k
= x R
p
[(x) = k
Il sagit de dnir une rgle de dcision (ou rgle de classement) telle que le risque de se tromper
quand on classera un nouvel individu soit minimal.
2. En anglais : discriminant analysis, predictive discriminant analysis, classication procedure
3. En anglais : factorial discriminant analysis, descriptive discriminant analysis, canonical variate analysis
66
7.2.2 Risque de Bayes
A une rgle de dcision , on associe le risque de Bayes qui reprsente le lesprance de la fonction
de cot et scrit
!() =
K

k=1
P((X) = k[Y ,= k) =
K

k=1

l=k
_
R
l
f
k
(x
1
, . . . , x
p
)dx
1
. . . dx
p
(7.1)
avec f
k
la densit de X dans la classe k et
k
la probabilit que Y soit gal k ;
1
+ +
k
= 1.
Les probabilits
k
, k = 1, , K sont appeles probabilits a priori.
Dans lquation (7.1), on a suppos que le cot pour le dcideur daecter un individu de la
classe k la classe l tait le mme pour pour tout les couples k ,= l. Lorsque les cots dun
mauvais classement sont dirents, on introduit les coecients C(k, l) et on pose par dnition
C(k, k) = 0 (cela ne cote rien de ne pas se tromper). Dans ce cas le cot moyen scrit
R() =
K

k=1

l=k
C(l, k)
_
R
l
f
k
(x
1
, . . . , x
p
)dx
1
. . . dx
p
Proposition 11 Lorsque C(k, l) = C pour tout k ,= l, la rgle de dcision qui minimise le risque
de Bayes est la suivante
(x) = arg max
k=1,...,K

k
f
k
(x)

K
l=1

l
f
l
(x)
= arg max
k=1,...,K

k
f
k
(x)
On aecte lindividu au groupe de probabilit a posteriori
k
f
k
maximum.
Cette rgle est parfois appele rgle de Bayes.
On remarque que
P(Y = k[X = x) =
P(Y = k, X = x)
P(X = x)
=
P(X = x[Y = k)P(Y = k)

K
l=1
P(X = x, Y = l)
=

k
f
k
(x)

K
l=1

l
f
l
(x)
(7.2)
Les probabilits P(Y = k[X = x) sont appeles probabilits a posteriori.
Ainsi la rgle de Bayes aecte linvidu associ x la classe qui a la plus forte probabilit a
posteriori.
Preuve - faire ?
Lorsque les probabilits a priori sont inconnues, on utilise un critre minimax. Il sagit de mi-
nimiser le risque maximum de mauvais classement. La rgle de dcision qui minimise le critre
minimax est la suivante
(x) = arg max
k=1,...,K
f
k
(x)
En gnral, les densits f
k
sont inconnues et il faut les estimer. Selon les problmes, on choisit
des estimateurs paramtriques ou non paramtriques.
67
7.2.3 Cas de variables alatoires gaussiennes
Nous considrons dans cette partie le cas o les variables dpendantes suivent une loi de Gauss.
La loi jointe (X, Y ) est donc caractrise par
Y est une variable nominale dnie sur 1, , K et on note
k
= P(Y = k),
pour tout k 1, , K, X[Y = k suit une loi de Gauss de moyenne
k
et de variance

k
R
p,p
et on a donc
f
k
(x) =
1
(2)
p/2
det(
k
)
exp
_

1
2
(x
k
)
T

1
k
(x
k
)
_
et
f(x) =
K

k=1

k
f
k
(x) (par Bayes)
Ainsi la rgle de Bayes devient ici
On attribue un individu x
i
la classe k si pour tout l ,= k

k
(2)
p/2
det(
k
)
exp
_

1
2
(x
i

k
)
T

1
k
(x
i

k
)
_

l
(2)
p/2
det(
l
)
exp
_

1
2
(x
i

l
)
T

1
l
(x
i

l
)
_
Pour simplier cette expression, on peut la transformer par passage au logrithme et la fonction
log tant croissante, on obtient
log(
k
)
p
2
log(2) log(det(
k
))
_
1
2
(x
i

k
)
T

1
k
(x
i

k
)
_

log(
l
)
p
2
log(2) log(det(
l
))
_
1
2
(x
i

l
)
T

1
l
(x
i

l
)
_
soit encore
2 log(
k
)) 2 log(det(
k
)) (x
i

k
)
T

1
k
(x
i

k
)
2 log(
l
) 2 log(det(
l
)) (x
i

l
)
T

1
l
(x
i

l
) (7.3)
Dnition 3 Les fonctions
g
k
(x) = log(
k
)
p
2
log(2) log(det(
k
))
_
1
2
(x
k
)
T

1
k
(x
k
)
_
sont appeles fonctions discriminantes.
Quand les variables dpendantes sont gaussiennes, les fonctions discriminantes sont quadra-
tiques :
g
k
(x) = x
T
W
k
x +w
T
k
x +
0
68
avec le vecteur de poids w
k
=
1

k
, la mtrique W
i
=
1
2

1
et le seuil (ou biais)

0
=
1
2

T
k

1

1
2
log det(
k
) + log
k
La frontire entre deux classes est une surface quadratique.
Lingalit (7.3) donne la rgle de Bayes dans le cas gnral de variables dpendantes gaussiennes.
On peut considrer plusieurs cas particuliers.
Cas 1 : Cas homoscdastique avec matrices de covariances sphriques. On suppose que pour tout
k 1, , K,
k
=
2
I
p
.

1
= 2/3,
1
= (1, 2)
T
,
2
= (1, 0)
T
,
2
= 1, n = 150
La fonction discriminante g
k
devient alors
g
k
(x) =
[[x
k
[[
2
2
2
+ log(
k
) +constante
En dveloppant g
k
et en substituant lexpression obtenue dans lingalit (7.3), on obtient

x
T
x + 2x
T

k
+
T
k

k
2
2
+ log(
k
) +constante

x
T
x + 2x
T

l
+
T
l

l
2
2
+ log(
l
) +constante
La constante est bien la mme dans les membres de gauche et de droite. Aprs simplication, on
a
2x
T

k
+
T
k

k
2
2
log(
k
) 2x
T

l
+
T
l

l
2
2
log(
l
)
69
Dans le cas homoscdastique, la rgle de dcision est linaire. La frontire de dcision qui cor-
respond au cas o on a galit entre les deux fonctions discriminantes se met alors sous la forme
(
k

l
)(x x
0
) = 0
avec
x
0
=
1
2
(
k
+
l
) +
_

2
|[
k

l
[[
2
log

k

l
_
(
l

k
)
Ainsi dans le cas homoscdastique avec matrice de covariance sphrique, la frontire est linaire.
Si, de plus, les probabilits a priori sont gales, log

k

l
= 0 et on obtient la rgle de dcision de
la plus proche moyenne selon la distance euclidienne :
On attribue un individu x
i
la classe k
si pour tout l ,= k
(
k

l
)
T
(x
1
2
(
k
+
l
)) 0
cest dire si
(x
k
)
2
(x
l
)
2
Variances gales 1 et
1
= 2/3
Cas 2 : Cas homoscdastique. On suppose que pour tout k 1, , K,
k
= .
70

1
= 2/3, =
_
1 .5
.5 2
_
, n = 150
Dans ce cas, la frontire de dcision se met sous la forme

1
(
k

l
)
T
(x x
0
) = 0
avec
x
0
=
1
2
(
k
+
l
) +
_
1
(
k

l
)
T

1
(
k

l
)
log

k

l
_
(
l

k
)
Ainsi dans le cas homoscdastique, la frontire est linaire.
Si les probabilits a priori sont gales, log

k

l
= 0 et on obtient la rgle de dcision de la plus
proche moyenne selon la distance de Mahalonobis.
Dnition 4 La distance de Mahalanobis est la distance euclidienne corrige par la variance :
d(x, ) =
_
(x )
T

1
(x )
On remarque, quau sens de la mtrique de Mahalanobis, lhyperplan qui spare deux classes est
la mdiatrice du segment qui joint les centres de gravit des deux classes. En eet si x appartient
la frontire entre les classes k et l, alors d(x,
k
) = d(x,
l
).
On attribue un individu x
i
la classe k,
si pour tout l ,= k
d(x
i
,
k
) d(x
i
,
l
)
71

1
= 1,
2
= 2,
1
= 2/3
7.2.4 Cas de variables dpendantes quelconques
Jusqu prsent nous avons suppos que les covariables X taient de distribution gaussienne
conditionnellement la variable rponse Y . Or cette hypothse est rarement vrie en pratique.
Cependant, rien nempche dajuster une rgle de dcision linaire ou quadratique qui sera alors
une approximation de la rgle de dcision baysienne optimale.
Lorsque les co-variables sont quantitatives et ont une distribution symtrique (ou faiblement
dissymtrique) alors il est usuel de supposer que lhypothse de normalit est approximative-
ment vrie. Dans ce cas en eet les mthodes bases sur des hypothses de normalit sont
gnralement robustes et les rsultats restent interprtables. Mais quand les co-variables sont
de distribution fortement dissymtrique ou si elles sont qualitatives, il faut envisager dautres
approches.
Une mthode consiste transformer les variables de faon les rendre marginalement gausiennes.
La transformation la plus courante est la transformation de Box-Cox :

0
(x) = ln(x)

(x) =
x

si > 0
Le paramtre est gnralement estim par validation croise (ou graphique). On peut faire les
remarques suivantes :
1. Si X prend des valeurs ngatives ou nulles, il est loisible de lui rajouter arbitrairement une
constante an dobtenir des observations positives avant deectuer une transformation de
Box-Cox.
2. Pour = 1, la transformation de Box-Cox ne modie pas lchantillon, en dehors dune
translation par 1 qui na aucune incidence sur ltude statistique.
72
3. Pour < 1, leet de la transformation de Box-Cox est de daaiblir un skewness positif.
Plus est proche de 0, plus cet eet est important.
4. Pour > 1, leet est oppos.
Cependant, quand na pas de connaissance a priori sur la loi des co-variables, la mthode la plus
naturelle consiste considrer des estimateurs non paramtriques des densits.
Estimateur des plus proches voisins
Si la densit de probabilit f dune variable ou dun vecteur alatoire X est continue au point
x, elle peut tre estime en x par lestimateur des plus proches voisins

f
n
(x) =
k
n
nV
n
(x)
o n est la taille de lchantillon observ et V
n
(x) le volume de la rgion contenant les k
n
plus
proches voisins de x.
On peut montrer que pour que

f
n
(x) converge en probabilit vers f(x) avec f continue en x, il
sut que k
n
et k
n
/n 0 lorsque n .
Rgle de dcision
Supposons quune rgion R de volume V centre en x contienne k individus parmi lesquels k
j
appartiennent la classe j. Alors la probabilit conjointe de X = x et de Y = j est estime par

f
n
(x, j) =
k
j
nV
et la densit a posteriori est
P(individu I j[X = x) =

j

f
n
(x, j)

M
l=1

l

f
n
(x, l)
En particulier, si les probabilits a priori sont gales, on a
P(individu I j[X = x) =
k
j
k
Ainsi on classe lindividu I dans la classe la plus reprsente (la plus nombreuse) dans le voisinage
de x. Si les probabilits a priori sont direntes, on obtient la rgle de dcision de Bayes naive
4
On attribue un individu x
i
la classe j,
si pour tout l ,= j

k
k
j

l
k
l
4. En anglais : naive Bayes decision rule
73
Estimateurs noyau
Quand la dimension p de lespace des variables dpendantes X nest pas trop grande (de lordre
de quelques units), on peut alternativement utiliser des estimateurs noyau

f(x) =
1
nh
n

i=1
K
_
x x
i
h
_
Pour que lestimateur

f de f dnisse une densit et ait de bonnes proprits de convergence,
on choisit en gnral un noyau K ayant les proprits suivantes :
1. K est une densit :
_
K(u)du = 1, lim
|u|0
K(u) = 0
2. K est une fonction paire
3. K est deux fois direntiable
4.
_
u
2
K(u)du ,= 0,
_
K(u)
2
du <
Les paramtres importants des algorithmes danalyse discriminante bass sur des estimateurs
non paramtriques de densits sont le nombre de voisins dans le cas de lestimateur des plus
proches voisins et la largeur de fentre dans le cas de lestimateur noyau. En eet ce sont
ces paramtres qui vont faire que lon obtient des frontires plus ou moins lisses. On les choisit
gnralement par validation croise : on fait la classication pour plusieurs valeurs du nombre de
voisins (resp. de la largeur de fentre), on compare le classement y
i
=

k obtenu aux observations
y
i
pour i I et on retient la valeur qui conduit la plus faible erreur de classement.
7.3 Analyse factorielle discriminante
Lanalyse factorielle discriminante (AFD) est une mthode gomtrique et essentiellement des-
criptive qui ne repose que sur des notions de distance et ne fait pas intervenir dhypothses
probabilistes. Comme dans lACP et les autres mthodes factorielles on cherche un espace dans
lequel on va projeter le nuage de point tout en mettant prservant au mieux des distances choi-
sies ; ici on veut mettre en vidence les groupes, autrelent dit prserver les distance lintrieur
des groupes et entre les centres de gravit des groupes.
7.3.1 Variances interclasse et intraclasse
Soient n individus x
i
de lchantillon constituant K groupes R
1
, , R
K
. On note x
k
le centre de
gravit du groupe E
k
pour tout i. Chaque individu x
i
est aect dun poids p
i
. Le plus souvent,
on a p
i
=
1
n
. On note de plus q
k
le poids du groupe k donn par
q
k
=
n
k

i=1
p
i
avec n
k
leectif du groupe E
k
.
74
Dnition 5 La variance interclasse
5
B est estime par la variance empirique des K centres
de gravit.
B =
K

k=1
q
k
( x
k
x)( x
k
x)

(7.4)
o q
k
reprsente le poids relatif de la classe k. On a q
1
+ +q
K
= 1.
Dnition 6 La variance intraclasse
6
W est estime par la moyenne des variances empi-
riques de chaque classe.
W =
K

k=1
q
k
V
k
avec V
k
=
1
q
k

i=1
n
k
p
i
(x
i
x
k
)(x
i
x
k
)

(7.5)
La variance W est en gnral inversible.
Proposition 12 La variance totale V se dcompose
V = B +W (7.6)
Preuve - la variance empirique scrit

2
=
1
n
n

i=1
(x
i
x)
T
(x
i
x)
=
1
n
K

k=1

iC
k
(x
i
x)
T
(x
i
x)
=
1
n
K

k=1
SS(k)
On note SS pour sum of squares et on a la dcomposition suivante :
SS(k) =

iC
k
(x
i
x)
T
(x
i
x)
=

iC
k
(x
i
x
k
+ x
k
x)
T
(x
i
x
k
+ x
k
x)
=

iC
k
([[x
i
x
k
[[
2
+[[ x
k
g[[
2
)
=
_
_

iC
k
[[x
i
x
k
[[
2
_
_
+n
k
[[ x
k
x[[
2
5. En anglais : variance between
6. En anglais : variance within
75
Et donc la variance totale se met sous la forme

2
=
1
n
_
_
_
K

k=1

iC
k
[[x
i
x
k
[[
2
+
K

k=1
n
k
[[ x
k
x[[
2
_
_
_
=
1
n
K

k=1
n
k
_
_
_
1
n
k

iC
k
[[x
i
x
k
[[
2
+[[ x
k
x[[
2
_
_
_
=
1
n
K

k=1
n
k
(W
k
+B
k
) = W +B

7.3.2 Axes et variables discriminantes


LAnalyse Factorielle Discriminante (AFD) consiste rechercher de nouvelles variables (les va-
riables discriminantes) correspondant des directions de R
p
qui sparent le mieux possible, en
projection, les K groupes dobservations. Une variable discriminante est intressante pour expli-
quer la classication induite par Y si cette variable :
regroupe bien les individus dun mme groupe,
spare bien les K groupes.
Notons b
1
le premier axe discriminant. En projection sur laxe b
1
, les K centres de gravits
doivent tre aussi spars que possible tandis que chaque groupe doit se projeter de manire
groupe autour de la projection de son centre de gravit. En dautres termes linertie B du nuage
des centres de gravit doit tre maximale. Et la variance intra classe W doit tre minimale.
La premire variable discriminante est donc telle que le rapport de la variance entre les groupes
(variance interclasse) la variance totale soit maximum. La seconde variable vise aussi maxi-
miser ce rapport sous la contrainte de non corrlation avec la premire variable. Et ainsi de suite.
Le nombre total de variables discriminantes ne peut dpasser ni p ni K 1.
Plus prcisement, le premier axe discriminant b
1
est solution de :
max
bR
p
/b

MV Mb=1
b

MBMb
b

MV Mb
= max
bR
p
/b

MV Mb=1
b

MBMb (7.7)
avec M une mtrique choisie. On peut par exemple choisir M gale lidentit.
Il est facile de vrier que chercher le maximum de
b

MBMb
b

MV Mb
=
b

MBMb
b

M(W+B)Mb
est quivalent
chercher le maximum de
b

MBMb
b

MWMb
. Par ailleurs, on peut montre, comme pour lACP, que la
solution est la plus grande valeur propre
1
de M
1
V
1
BM (soit V
1
B si la mtrique est
lidentit) ou de manire quivalente de M
1
W
1
BM .
w
=
v
/(1
v
)
On a toujours 0
1
1.

1
= 1 correspond au cas o en projection sur b les variances intra classe sont nulles. Les
K sous-nuages appartiennent donc des hyperplans orthogonaux b

1
= 0 au cas o les centres de gravits sont confondus (exemple : les nuages sont concen-
triques).
76
La valeur propre est une mesure pessimiste du pouvoir discriminant de laxe b.
Exemple : le cas de 2 groupes.
Dans le cas de deux groupes, il ny a quune seule variable discriminante car min(p, K 1) = 1.
Le facteur discriminant vaut alors
b = W
1
( x
1
x
2
)
et la variable discriminante vaut Xb.
Pour lindividu i de lchantillon initial, cette variable prend la valeur
(xb)
i
= x
T
i
W
1
( x
1
x
2
) = d
Mahalanobis
(x
i
, x
1
x
2
)
La variable discriminante sobtient donc en projetant les observations sur laxe reliant les
deux centres de gravit pour la mtrique de Mahalanobis.
Pour un individu z R
p
, on obtient la fonction de Fisher (qui est aussi, une constante
prs, la fonction discriminante dans le cas gaussien homoscdastique) :
z
T
W
1
( x
1
x
2
)
7.3.3 Une ACP particulire
L?analyse factorielle discriminante apparat comme une analyse en composantes principales du
nuage des K centres de gravit pour la mtrique W
1
qui est la mtrique de Mahalanobis.
La mtrique de Mahalonobis permet de prendre en compte la variance intra dans le calcul des
distances.
Comme en ACP, on peut projeter les individus sur les plans factoriels et interprter les variables
discriminantes au moyen dun cercle des corrlations.
Une reprsentation simultane des individus et des barycentres des classes par rapport aux axes
discriminants est obtenue dans lespace des individus au moyen des coordonnes :
C = XW
1
U pour les individus
C
G
= GW
1
U pour les barycentres
avec G la matrice centre des barycentres.
Chaque variable X
j
est reprsente par un vecteur dont les coordonnes dans le systme des axes
factoriels est une ligne de la matrice U(
v
/(1
v
))
1/2
.
77
7.3.4 Slection de modle et MANOVA
En pratique, on utilise direntes mthodes pour slection puis valider un modle. En premier
lieu on sassure que la variable classe a bien un eet sur les autres variables par une analyse de
la variance.
ANOVA - MANOVA
Lanalyse de la variance (ANOVA) permet de tester leet de chacun des facteurs sur la dirence
en moyenne entre les groupes. Elle permet ainsi de slectionner les variables qui ont un pouvoir
discriminant.
Lanalyse de la variance multivarie (MANOVA) permet de tester lhypothse selon laquelle le
vecteur des variables explicatives apporte de linformation sur le fait quau moins deux des centres
de gravit des groupes sont signicativement dirents. Lhypothse H
0
est que les centres de
gravit sont gaux. On peut considrer plusieurs statistiques de test. Lune des plus commune
est le lambda de Wilks =
det(W)
det(V )
. Le Lambda de Wilks est une mesure directe de la proportion
de linertie des groupes qui nest pas explique par la variable indpendante (qui identie les
groupes) dans un schma de dcomposition de la variance totale des observations. Cest donc
le rapport de linertie intraclasses, linertie totale. On remarque daprs cette dnition que
plus est petit plus la dirence entre les centres de gravit est marque. Si les variables sont
distribues dans chaque groupe suivant une loi de Gauss centre, le lambda de Wilks suit une loi
de Wishart, qui est la gnralisation de la loi du
2
au cadre multivari.
Dnition 7 Soit V une matrice alatoire dans R
pp
.AlorsV* est de loi de Wishart m degrs
de libert (notation V W
p
(m)) est quivalent V =

m
i=1
Z
i
Z
T
i
, o les Z
i
sont i.i.d. A
p
(0, I
p
).
Slection de variables
Forward stepwise analysis. In stepwise discriminant function analysis, a model of discri-
mination is built step-by-step. Specically, at each step all variables are reviewed and evaluated
to determine which one will contribute most to the discrimination between groups. That variable
will then be included in the model, and the process starts again.
Backward stepwise analysis. One can also step backwards ; in that case all variables are
included in the model and then, at each step, the variable that contributes least to the predic-
tion of group membership is eliminated. Thus, as the result of a successful discriminant function
analysis, one would only keep the "important" variables in the model, that is, those variables
that contribute the most to the discrimination between groups.
7.4 Validation de modle
Validation croise, calcul du risque de Bayes.
78
Chapitre 8
Classication, segmentation
8.1 Introduction
La classication
1
ou segmentation recouvre lensemble des mthodes permettant de regrouper
des individus selon leurs similarits en un nombre ni de classes. On constitue ainsi une partition
des individus. De faon un peu schmatique, on peut dire quil existe deux grandes familles de
mthodes de classication :
les mthodes de classication globale reposant, implicitement, sur la construction dun
modle probabiliste et loptimisation de critres globaux comme des rapports de variance
par exemple,
les mthodes itratives reposant sur des regroupements locaux dindividus voisins reposant
uniquement sur des notions de distances entre individus (ou groupes dindividus).
Dans la premire famille, la mthode la plus connue est la mthode des nues dynamiques ou
centres mobiles tandis que dans la seconde famille la mthode la plus rpandue est la mthode
de classication hirarchique ascendante.
8.2 Distances et similarits
Les donnes peuvent se prsenter sous direntes formes ; elles concernent n individus sup-
poss aects, pour simplier, du mme poids :
un tableau de distances (ou dissimilarits, ou mesures de dissemblance) entre les individus
pris deux deux ;
les observations de p variables quantitatives sur ces n individus ;
les observations, toujours sur ces n individus, de variables qualitatives ou dun mlange de
variables quantitatives et qualitatives.
Dune faon ou dune autre, il sagit, dans chaque cas, de se ramener au tableau des distances
deux deux entre les individus (cest--dire au premier cas).
Les mesures de distance ou de similarits sont utilises pour dterminer la proximit entre des ob-
jets (ou individus). Une distance mesure une dissimilarit. les notions de distance et de similarit
sont duales. Par exemple di d
ij
est la distance entre deux objetsi et j alors d

ij
= max
i,j
d
ij
d
ij
dcrit une similarit entre les deux objets.
1. en anglais : clustering
79
Dnition 8 Soit I = 1, , n un ensemble dindices.
Un indice de ressemblance ou similarit est une mesure s dnie de I I dans R
+
et
vriant
s(i, j) = s(j, i)
s(i, i) = S > 0
s(i, j) S, (i, j) I I
Un indice de dissemblance ou dissimilarit est une application d de I I dans R
+
vriant
d(i, j) = d(j, i)
d(i, i) = 0
Un indice de distance est un indice de dissemblance vrifaint en plus la proprit
d(i, j) = 0 implique i = j
Une distance est une indice de distance vriant en plus une ingalit triangulaire
d(i, j) d(i, k) +d(k, j), (i, j) I I I
La nature des observations joue un rle prpondrant dans le choix de la mesure de proximit.
Les donnes nominales vont en gnral conduite travailler avec une mesure de similarit alors
que les donnes quantitatives sont plus souvent traites via des distances.
8.2.1 Similarit entre des objets structure binaire
Pour mesurer la similarit entre des objets, on compare toujours des paires dobservations
(x
i
, x
j
) avec x
T
i
= (x
i1
, , x
ip
). Ici on suppose que x
ik
0, 1. Dnissons
a
1
=
p

k=1
I(x
ik
= x
jk
= 1)
a
2
=
p

k=1
I(x
ik
= 0, x
jk
= 1)
a
3
=
p

k=1
I(x
ik
= 1, x
jk
= 0)
a
4
=
p

k=1
I(x
ik
= x
jk
= 0)
Les mesures de proximit sont en gnral dnies sous la forme :
d
ij
=
a
1
+a
4
a
1
+a
4
+(a
2
+a
3
)
o et sont des pondrations qui permettent de donner plus ou moins dimportance aux res-
semblances (prsence dun caractres commun) ou aux dirence (absence de caractre commun).
Dans le cas o = 0 et = 1 on obtient lindice de Jaccard, utilis en gntique et en cologie.
80
8.2.2 Distance entre des objets variables nominales
Quand les objets sont dcrits par des variables nominales, on se ramne un tableau disjonctif
complet ou un tableau de contingence. Dans le premier cas, on compare des objets structure
binaire. Dans le second, on travaille gnralement avec la distance du
2
.
8.2.3 Distance entre des objets variables continues
Une grande varit de distance peut tre gnre partir des normes L
r
.
d
ij
=
_
p

k=1
[x
ik
x
jk
[
p
_
1/p
Dans cette dnition on sous entend que les variables sont toutes mesures selon la mme chelle,
ce qui est rarement vrai. Si on a des dirences dchelle en tre les variables, il est usuel dutiliser
une distance corrige par la variance de chaque variable.
d
ij
=
_
p

k=1
[x
ik
x
jk
[
2

2
k
_
1/2
8.3 Classication hirarhique ascendante
La classication hirarchique ascendante est une mthode itrative qui consiste, chaque tape,
regrouper les classes les plus proches. A la premire tape chaque individu constitue une classe.
Lalgorithme dmarre donc de la partition triviale des n singletons. Et lalgorithme sarrte avec
lobtention dune seule classe. Les regroupement successifs sont reprsents sous la forme dun
arbre ou dendogramme.
Algorithme de la classication hirarchique ascendante
Initialisation Les classes initiales sont les singletons. Calculer la matrice des distances 2 2.
Itrer les deux tapes suivantes jusqu laggrgation en une seule classe.
regrouper les deux classes les plus proches au sens de la distance entre groupe choisie,
mettre jour la matrice des distances 2 2.
Un des points dlicats est de dnir d(A, B) la distance entre deux lments dune partition de
I : - Cas dune dissemblance
Les stratgies ci-dessous saccomodent dun simple indice de dissemblance dni entre les indivi-
dus. Elles sappliquent galement des indices plus structurs (distance) mais nen utilisent pas
toutes les proprits.
d(A, B) = min
iA,jB
d
ij
saut minimum, single linkage
d(A, B) = sup
iA,jB
d
ij
saut maximum ou diamtre, complete linkage
d(A, B) =
1
card(A)card(B)

iA,jB
d
ij
saut moyen, group average linkage
81
- Cas dune distance euclidienne
Les stratgies suivantes ncssitent la connaissance de reprsentations euclidiennes des individus :
matrice n p des individus an, au minimum de pouvoir dnir les barycentres nots g
A
et g
B
des classes. On note w
A
et w
B
le poids de chacune des classes.
d(A, B) = d(g
A
, g
B
) distance des barycentres, centrod
d(A, B) =
w
A
w
B
w
A
+w
B
d(g
A
, g
B
) saut de Ward
Le saut de Ward joue un rle particulier et est la stratgie la plus courante ; cest mme loption
par dfaut dans (SAS) dans le cas dune distance euclidienne entre individus. En eet, ce critre
induit, chaque tape de regroupement, une minimisation de la dcroissance de la variance
interclasse.
On peut tracer un graphique reprsentant la dcroissance du rapport de la variance intra classe
sur la variance totale (R
2
partiel) en fonction du nombre de classes. La prsence dun rupture
importante dans cette dcroissance aide au choix du nombre de classes. Dautre part, on trace
gnralement aussi le dendogramme. Cest une reprsentation graphique des aggrgations succes-
sives sous la forme dun arbre binaire. La hauteur dune branche est proportionnalle lindice
de dissemblance ou distance entre les deux objets regroups. Dans le cas du saut de Ward, cest
la perte de variance interclasses.
Une CAH est souvent utilise pour initialiser une mthode des centres mobiles (nombre de classes,
centre des classes). Si le nombre dobservations est grand, il est dusage de raliser la CAH sur
un chantillon tir au hasard dans la base de donnes.
8.4 Mthode des centres mobiles
La mthode des centres mobiles ou k-moyennes
2
est un algorithme de rallocation dynamique
qui repose sur la maximisation dun critre global construit comme tant le rapport de linertie
intraclasse sur linertie interclasse. Ce critre sous entend que lon cherche une partition telle que
les individus dune mme classe soient le plus semblables possible (variance intra classe faible)
et que les classes dirent le plus possible entre elles (variance interclasse leve).
Soit x = x
ij

i=1, ,n,j=1 ,p
une matrice dobservations. On choisit a priori le nombre de classes
K. On note g
k
le centre de gravit de la classe k.
Algorithme des kmeans
Initialisation Choisir le nombre de classes K puis choisir K points (individus) au hasard
parmi les observations
Itrer jusqu ce que le critre de variance interclasse ne croisse plus de manire signicative.
Pour i = 1, ..., n,
Allouer lindividu i la classe k telle que dist(x
i
, g
k
) dist(x
i
, g
l
) pour tout l ,= k.
Calculer les centres de gravits g
k
des K classes.
2. en anglais : kmeans
82
Proprits Le critre (variance interclasses) est major par la variance totale. Il est simple de
vrier qul ne peut que croitre chaque tape de lalgortihme, ce qui en assure la convergence.
Concrtement, une dizaine ditration sut gnralement atteindre la convergence. Lz solution
obtenue est un optimum local. La partition obtenue par lalgorithme des k-moyennes dpend
des reprsentants initialement choisis (essayez de vous en convaincre sur un exemple simple). De
faon saranchir en partie de cette dpendance, on excute lalgorithme des k-moyennes (K
et dist tant xs) avec des initialisations direntes, et on retient la meilleure partition.
La qualit dune partition est mesure par la quantit
K

k=1

iC
k
dist(x
i
, g
k
)
qui mesure la cohsion des classes obtenues.
8.4.1 Gnralisations
On remarque que la distance dist peut-tre dnie en fonction du type de variables observes.
Cependant, dans la version la plus usuelle de lalgorithme des k-moyennes la distance consid-
re est la distance euclidienne. Dans le cas o les variables ne sont pas toutes quantitatives,
on travaille gnralement directement avec un tableau de distances. Dans ce cas, on ne calcu-
lera plus le centre de gravit de la classe mais il sera remplac par le mode de la distribution
conditionnellement la classe.
8.4.2 Modles de mlange
Modle
Un modle de mlange caractrise la distribution de la variable X dun couple (S, X) tel que
S est une variable alatoire discrte dnie sur 1, , M ; S nest pas observe (on dit
aussi que S est cache ou latente).
X est une variable alatoire valeurs sur R
d
, d 1 telle que la loi conditionnelle P(X[S =
m) admet une densit g
m
(.) pour tout m 1, , M.
Daprs le thorme de Bayes, pour tout ensemble A, la loi marginale de la variable X vrie
P(X A) =
M

m=1
P(X A[S = m)P(S = m)
On crit alors la densit de X comme une combinaison convexe des densits g
m
(.), m 1, , M
g(x) =
M

m=1

m
g
m
(x)
o
m
= P(S = m) avec

1
+ +
M
= 1
83
Exemple - Taux de naissances et de dcs pour 70 pays du monde.
Infrence : algorithme EM
Lalgorithme EM (Estimation-Maximisation) a t propos par Arthur Dempster, Nan Laird et
Donald Rubin en 1977. Cest une mthode qui permet dapprocher lestimateur du maximum de
vraisemblance quand les donnes sont incompltes (cas dune variable cache par exemple) ou
quand une partie des donnes est manquante (cas dune censure par exemple).
Algorithme EM pour un mlange de lois de Gauss
Initialisation Choisir le nombre de classes K puis initialiser le vecteur de paramtres
84
Itrer jusqu ce que la log-vraisemblance ne croisse plus de manire signicative.
Pour i = 1, ..., n,
E-step Estimer la probabilit a postriori quun individu i appartienne la classe k
T
k,i
= P(S = k[X = x
i
;
(t)
) =

(t)
k
(x
i
;
(t)
k
,
(t)
k

K
l=1

(t)
l
(x
i
;
(t)
l
,
(t)
l
M-step Estimer les paramtres pour k = 1, , K

(t+1)
k
=
1
n
n

i=1
T
k,i

(t+1)
k
=

n
i=1
T
k,i
x
i

n
i=1
T
k,i

(t+1)
k
=

n
i=1
T
k,i
(x
i

(t+1)
k
)(x
i

(t+1)
k
)
T

n
i=1
T
k,i
8.5 Exemple : composition du lait chez dirents mammifres
Nous considrons de nouveau le jeu de donnes dans lequel on a la composition du lait pour 25
mammifres.
Choisissons tout dabord le nombre de classes. La gure 8.3 reprsente la dcroissance du R
2
partiel en fonction du nombre de classes. On en dduit quil semble raisonnable de considrer 3
ou 4 classes.
Figure 8.1 Analyse en composante principale, biplot.
85
Figure 8.2 Dcroissance du R
2
partiel en fonction du nombre de classes ( gauche) et dendo-
gramme ( droite)
Figure 8.3 Projection des individus sur le premier plan factoriel de lACP avec matrialisation
de 3 classes ( gauche) et 4 classes ( droite) par un code couleur.
8.6 Combinaison de direntes mthodes de classication
Il est courant de combiner les mthodes de classication introduites prcdemment. En eet, la
mthode de classication hirarchique nest raisonnablement applicable que si le nombre dob-
servations est relativement faible. Son rsultat constitue nanmoins souvent une intialisation
intressante pour une mthode des k-moyennes. Il fournit en eet la fois des critres pour
slectionner le nombre de classes et une initialisation des centres de classe.
86
Pour les grand ensembles de donnes, comme on en rencontre frquemment en data mining, on
peut mettre en place la stratgie suivante :
1. Raliser une classication par nues dynamique sur un sous chantillon tir au hasard et
de taille environ 10% de n. On choisit un nombre de classes grand.
2. Excuter une classication hirarchique ascendante sur les barycentres des classes obtenus
puis dterminer un nombre de classe optimal K.
3. Raliser une classication par k-moyennes pour K classes et en choisissant comme valeurs
initiales des centres de classe les barycentres des classes de ltape prcdente. On pourra
pondrer ces centres par le nombre dindividu dans les classes.
Dans un second temps, on enchane gnralement dautres analyses telles que
Une analyse en composantes principales qui permet de reprsenter les classes dans un sous
espace factoriel et de se faire une ide de la pertinence de la classication obtenue.
Une analyse discriminante qui permet daider linterprtation des classes.
87
Rfrences
A. Baccini, P. Besse, Data Mining. 1. Exploration statistique, Polycopi de cours. 2002.
Bach, F.R., Jordan, M.I., (2006). A probabilistic interpretation of Canonical Correlation Analysis.
Tech. Rep. 688, Dept Stat, Univ. California, Berkeley.
Forgy, E. W. (1965) Cluster analysis of multivariate data : eciency vs interpretability of clas-
sications. Biometrics 21, 768-769.
Hrdle, W., Simar L., (2007) Applied Multivariate Statistical Analysis, 2nd edition, Springer.
D. Larose, (2003). Des donnes la connaissance. Une introduction au data mining, Vuibert.
L.Lebart, A. Morineau, M. Piron (1995). Statistique exploratoire multidimensionnelle, Dunod.
G. Saporta, (2005). Probabilits, analyses des donnes et statistiques , Editions Technip.
88

You might also like