ANACJ5

Table des matires
1 Analyse Factorielle des Correspondances Multiples - AFCM 1.1 Introduction et motivations . . . . . . . . . . . . . . . . . . . . . . 1.1.1 Cadre du problme . . . . . . . . . . . . . . . . . . . . . . . 1.1.2 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Liens entre 2 variables . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.1 2 variables quantitatives . . . . . . . . . . . . . . . . . . . . 1.2.2 2 variables qualitatives . . . . . . . . . . . . . . . . . . . . . 1.2.3 1 variable qualitative et 1 variable quantitative . . . . . . . 1.3 Notations prliminaires . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.1 Codage disjonctif complet . . . . . . . . . . . . . . . . . . . 1.3.2 Mtriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4 LAFCM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4.1 Dnition et proprits . . . . . . . . . . . . . . . . . . . . 1.4.2 Formules de transition . . . . . . . . . . . . . . . . . . . . . 1.4.3 Cadre de lACP . . . . . . . . . . . . . . . . . . . . . . . . . 1.4.4 Formules de transition en AFCM . . . . . . . . . . . . . . . 1.4.5 Reprsentation dune variable et modle linaire . . . . . . . 1.5 Analyse des reprsentations de lAFCM . . . . . . . . . . . . . . . 1.5.1 Qualit globale dun axe . . . . . . . . . . . . . . . . . . . . 1.5.2 Reprsentations simples . . . . . . . . . . . . . . . . . . . . 1.5.3 Reprsentations barycentriques . . . . . . . . . . . . . . . . 1.5.4 Reprsentations pseudo-barycentriques . . . . . . . . . . . . 1.5.5 Interprtation des axes . . . . . . . . . . . . . . . . . . . . . 1.5.6 Qualit de reprsentation . . . . . . . . . . . . . . . . . . . 1.5.7 Variables supplmentaires . . . . . . . . . . . . . . . . . . . 1.6 AFCM, optimalit et cas particuliers . . . . . . . . . . . . . . . . . 1.6.1 Gnralisation de lAnalyse Factorielle des Correspondances 1.6.2 AFCM et tableau de Burt . . . . . . . . . . . . . . . . . . . 1.6.3 AFCM et optimalit . . . . . . . . . . . . . . . . . . . . . . 1.7 Exemple des ours . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.8 AFCM et codage ou . . . . . . . . . . . . . . . . . . . . . . . . . . 1.9 Reconstitution des donnes . . . . . . . . . . . . . . . . . . . . . . 1.9.1 La thorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.9.2 Utilit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . i 1 1 1 1 2 2 3 4 4 4 6 7 7 12 12 13 14 14 14 16 17 18 18 21 21 23 23 24 26 27 32 34 34 35
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2 Analyse conjointe de tableaux ACT-STATIS 2.1 Objet de ltude . . . . . . . . . . . . . . . . . . 2.2 Mthode STATIS . . . . . . . . . . . . . . . . . . 2.2.1 Les objets . . . . . . . . . . . . . . . . . . 2.3 Proximit entre objets, tape de lintrastructure . 2.3.1 Construction dune proximit . . . . . . . 2.3.2 Etude de la proximit . . . . . . . . . . . 2.3.3 Problme de norme et coecient RV . . . 2.4 Calcul du compromis . . . . . . . . . . . . . . . . 2.5 Etude de linterstructure et interprtations . . . . 2.6 Etude du compromis . . . . . . . . . . . . . . . . 2.6.1 Image euclidienne du compromis . . . . . 2.6.2 Interprtation des individus compromis en 2.6.3 Intrastructure et trajectoire . . . . . . . . 2.7 Statis Duale et statis sur les X . . . . . . . . . . 2.7.1 Statis duale . . . . . . . . . . . . . . . . . 2.7.2 Statis sur les X . . . . . . . . . . . . . . . 3 Analyse Factorielle Multiple 3.1 Objet et cadre de ltude . . . . . . . . . . . . . 3.1.1 ACP globale . . . . . . . . . . . . . . . 3.1.2 AFM et choix de la mtrique Q . . . . . 3.2 Mise en uvre de lAFM . . . . . . . . . . . . . 3.2.1 Calcul de la sur-pondration . . . . . . . 3.2.2 Etape du compromis . . . . . . . . . . . 3.2.3 Etape de lintrastructure, les trajectoires 3.2.4 Etape de linterstructure . . . . . . . . . 3.3 Optimalit et AFM . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . fonction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . des . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
43 43 45 45 46 46 48 49 50 51 51 52 52 53 54 54 55 57 57 58 58 59 59 59 60 61 62 65 65 69 69 71 71 73 77 79 79 80 83 85 85 86 87
4 Analyse en composantes principales par rapport 4.1 Dnition et proprits . . . . . . . . . . . . . . . 4.2 Autres prsentations de lACPVI . . . . . . . . . 4.2.1 Inertie des carts . . . . . . . . . . . . . . 4.3 Reprsentations graphiques . . . . . . . . . . . . 4.3.1 Qualit de reprsentation et contributions 4.3.2 Reprsentations des individus . . . . . . . 4.3.3 Reprsentations des variables . . . . . . . 4.4 Modles et prvisions . . . . . . . . . . . . . . . . 4.4.1 prvision et ajustement . . . . . . . . . . 4.4.2 Modles et composantes . . . . . . . . . . A Rappels Algbre linaire
des variables instrumentales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
B Rappels sur lACP dun triplet (X, Q, D ) B.1 A savoir par cur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . B.2 Autres proprits, noter quelque part . . . . . . . . . . . . . . . . . . . . . . . . . B.3 Autres proprits, moins utiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ii
C Rappels AFC C.1 Dnition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . D Image euclidienne et approximation de matrices D.1 Approximation dune matrice . . . . . . . . . . . D.2 Image euclidienne issue dun produit scalaire W . D.2.1 Image euclidienne de dimension 1 . . . . . D.2.2 Image euclidienne de dimension k . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
89 89 91 91 93 93 93
iii
Chapitre 1
Analyse Factorielle des Correspondances Multiples - AFCM

1.1
1.1.1
Introduction et motivations
Cadre du problme
Nous cherchons connatre les liens entre K variables qualitatives notes Y (1) , . . . , Y (K ) . Chacune de ces 1 k K variables possde qk modalits et elles ont toutes t mesures sur les mmes n units statistiques (ou individus). Nous supposerons que ces individus ont le mme poids 1/n. Cette simplication permettra des notations plus lgres, mais la gnralisation des poids quelconques 1 In , la matrice diagonale dont les pi , 1 i n est tout fait possible. Nous noterons D = n lments diagonaux sont tous gaux 1/n.
1.1.2
Motivation
Nous possdons K variables qualitatives mesures sur les mmes n individus statistiques. Comme en Analyse en Composantes Principales (ACP), nous sommes intresss par envisager les liens entre variables et les ressemblances (ou dissemblances) entre individus. Puisque les variables sont qualitatives nous ne pouvons appliquer directement lACP qui sadresse des variables quantitatives continues. En examinant le tableau 1.1, nous pouvons constater plusieurs choses.
Individu 1 2 3 4 5 6 7 8 9 VarA A1 A1 A2 A2 A3 A3 A3 A3 A3 VarB B1 B1 B1 B1 B2 B2 B2 B2 B2 varC C1 C1 C2 C2 C3 C3 C3 C1 C3
Table 1.1 Trs petit jeu de donnes ctif
Chapitre 1. Analyse Factorielle des Correspondances Multiples - AFCM Au niveau des individus, nous pouvons remarquer Les individus 1 et 2 sont les mmes, ils prennent les mmes modalits pour toutes les variables ; Les individus 3 et 4 sont les mmes ; Les individus 5, 6, 7 et 9 sont les mmes ; Lindividu 8 est proche des individus 5, 6, 7 et 9, dans le sens o 1 seule modalit sur 3 dire. Si nous nous intressons aux variables, il semble assez naturel de se dire que 2 modalits (de 2 variables qualitatives) sont identiques, si elles sont toujours associes. Autrement dit 2 modalits sont identiques si, quand 1 individu slectionne lune des deux modalits, il prend aussi la seconde, et ce pour tous les individus. Avec cette notion de proximit, nous avons que La modalit A1 est identique la modalit C1 ; La modalit A2 est identique la modalit C2 ; La modalit A3 est identique la modalit B2. En tendant cette notion nous constatons que la modalit A3 est presque identique C3 : une exception prs (lindividu 8), quand un individu prend la modalit A3, il prend aussi la modalit C3. Enn notons que la modalit B1 est compos moiti de A1 et moiti de A2, ce qui semble ressembler une notion de milieu. Ces constations sont faciles faire car le jeu de donnes est petit (3 variables, 9 individus). Ds que le jeu de donnes est plus consquent, il devient dlicat de faire directement lanalyse du tableau. Nous souhaitons donc construire une analyse qui permette de connatre rapidement les informations contenues dans le tableau en terme de proximit entre individus et variables telles que nous les avons vues intuitivement. Pour analyser rapidement de gros volumes de donnes, le cadre de lanalyse factorielle semble trs adapt, car il permet de construire un repre ordonn par ordre dimportance dcroissante dans lequel il est possible de voir graphiquement les proximits. Enn comme nous sommes en prsence de K 2 variables qualitatives, le cas o K = 2 est un cas dj connu et trait dans le cadre de lanalyse factorielle sous le nom dAFC (Analyse Factorielle des Correspondances). LAFCM devra donc constituer une gnralisation de ce cadre dans le sens o nous souhaitons retrouver les rsultats de lAFC en AFCM quand K = 2. LAFCM va donc proposer une analyse graphique permettant de trouver rapidement les constatations nonces ci-dessus, constatations de proximit entre individus et entre variables. Les distances utilises en AFCM seront limage de notre heuristique de ressemblance entre individus et entre modalits (voir section 1.4.1 p. 11). LAFCM permettra de gnraliser lAFC dans le sens o les reprsentations seront similaires, au prix cependant dune perte dinterprtation dans les valeurs propres donc dans lanalyse linertie totale. Rduire lAFCM une seule analyse graphique est cependant rducteur et cette mthode est trs souvent utilise combine (en premire tape) dautres analyses : AFCM et classication ou AFCM et discrimination.
1.2
1.2.1
Liens entre 2 variables

2 variables quantitatives
La mesure standard du lien entre 2 variables quantitatives est la covariance ou, si les variables ne sont pas la mme chelle, la corrlation linaire. Dun point de vue descriptif la covariance (empirique) est dnie classiquement comme suit.
MASS - Rennes 2
Analyse de donnes
1.2. Liens entre 2 variables Dnition 1.2.1 Soient Y1 , . . . , Yn et X1 , . . . , Xn deux sries de mesures pour 2 variables quantitatives X et Y . = 1 n Yi et X = 1 n Xi . Notons leur moyenne empirique respective Y i=1 i=1 n n La covariance empirique est dnie de manire classique. C (X, Y ) = 1 n
n i=1
)(Yi Y ) = 1 (X X n ) (Y Y n ) = (X X n ) D (Y Y n ), (Xi X n
o X = (X1 , . . . , Xn ) est le vecteur colonne des observations de la variable X (de mme pour Y ) et X est la transpose de X . Notons que les poids des observations est identique et gal 1/n. Remarquons aussi que la covariance est simplement le D produit scalaire entre 2 vecteurs centrs n ). Lorsque les deux vecteurs sont centrs, leur moyenne (ou centre de n ) et (Y Y (X X gravit) est nulle et le centre de gravit total est 0n . Considrer la norme carr de vecteurs centrs revient regarder leur variance, savoir lcart quadratique la moyenne qui ici est nulle. La corrlation linaire (empirique) est dnie classiquement comme suit. Dnition 1.2.2 Soient Y1 , . . . , Yn et X1 , . . . , Xn deux sries de mesures pour 2 variables quantitatives X et Y . = 1 n Yi et X . Notons leur variance empirique Notons leur moyenne empirique respective Y i=1 n n n 1 1 2 2 ) et Var(X ) = Var(Y ) = n i=1 (Yi Y i=1 (Xi X ) . n La corrlation linaire empirique est dnie de manire classique. (X, Y ) = C (X, Y ) , Var(X ) Var(Y )
o C (X, Y ) est la corrlation linaire empirique (voir dnition 1.2.1). La corrlation est simplement le D produit scalaire entre 2 vecteurs centrs-rduits. Ces deux notions sont intimement lies la rgression linaire simple (explication dune variable quantitative par une autre) et lAnalyse en Composantes Principales (ACP).
1.2.2
2 variables qualitatives
Il existe de nombreux liens entre variables qualitatives, citons par exemple le de Goodman et Kruskal, la mesure dassociation de Theil, le de Goodman et Kruskal. Nous ne nous intresserons ici quau 2 . Soient 2 variables qualitatives X qX modalits et Y qY modalits. Nous possdons n observations concomitantes de ces 2 variables et nous notons N le tableau de contingence associ, dlment courant nij . Cet lment reprsente le nombre dobservations qui possdent la ie modalit de X et la j e de Y . La mesure du 2 dindpendance est simplement
qX qY
=
i=1 j =1
nij
ni. n.j 2 n , ni. n.j n
o ni. = i nij et n.j = j nij . Une mesure faible signie que ces variables sont presque indpendantes, quand lon observe une modalit de X on ne sait presque rien (ou tout est possible) pour la modalit de Y . Analyse de donnes MASS - Rennes 2
Chapitre 1. Analyse Factorielle des Correspondances Multiples - AFCM
1.2.3
1 variable qualitative et 1 variable quantitative
La mesure non symtrique de la liaison entre 1 variable qualitative X qX modalits et 1 variable quantitative Y est le rapport de corrlation
2 Y |X
Var(E(Y |X )) . V (Y )
Lorsque nous possdons n observations concomitantes de ces 2 variables nous pouvons estimer cette mesure thorique par le rapport de corrlation empirique. Nous possdons nj observations pour chaque modalit j de la variable qualitative X . La ie observation prend forcment une modalit que nous noterons dornavant j (i). Le rapport de corrlation empirique est
2 Y |X
1 n 1 n
n 2 i=1 (Yi Y ) n 2, i=1 (Yi Y )
est la moyenne empirique et Y i est lajustement de lobservation i par la moyenne empirique o Y n i = 1 des observations qui prennent la mme modalit, Y l=1 Yl {Yl =Yj (i) } . nj (i) Ce rapport snonce aussi comme le rapport de la variance inter (modalits) sur la variance totale. Lorsque lon considre un modle danalyse de variance o lon cherche expliquer Y par la variable qualitative X , ce rapport est la somme des carrs inter sur la somme des carrs totale, il sagit du R2 . A limage du R2 il est possible de gnraliser le rapport de corrlation en omettant la partie moyenne gnrale
2 Y |X
1 n 1 n
n 2 i=1 Yi . n 2 i=1 Yi
Une criture identique utilisant les projecteurs et les normes se trouve dans la remarque 2 en section 1.3.1, p. 6.
1.3
1.3.1
Notations prliminaires
Codage disjonctif complet
Puisque nous sommes en prsence de variables qualitatives, il nest pas possible faire de calcul sur les observations. Ainsi si une modalit est note MA et lautre MB, comment faire pour calculer la moyenne ? An de contourner cette dicult nous allons coder les variables, cest dire transformer les modalits en valeurs. Comme nous navons pas dordre entre les variables, nous ne pouvons pas savoir si, pour une variable, la premire modalit est avant la seconde etc.. Il nest donc pas possible de remplacer la premire modalit par 1, la seconde par 2 etc.. Mme sil existe un ordre sousjacent entre les modalits cette mthode nest pas recommande. Prenons lexemple dune variable qualitative ordonne, la variable age qui est mesure avec 3 modalits : enfant, adolescent et adulte. Si lon remplace la modalit enfant par 1, la modalit adolescent par 2 et la modalit adulte par 3, cela revient dire que lorsque lon change denfant vers adolescent lcart est de 1, et il est identique lcart lorsque lon change dadolescent vers adulte. Mais comment savoir si le passage de la modalit enfant la modalit adolescent vaut autant que le passage MASS - Rennes 2 Analyse de donnes
1.3. Notations prliminaires dadolescent adulte ? Mme dans ce cas remplacer les modalits par leur numro dordre nest donc pas recommand. Le codage le plus simple est le codage disjonctif complet. Il consiste remplacer une variable qualitative Y (k) par qk variables binaires (0/1), ie autant de variables binaires que de modalits. Le remplacement est simple : si lobservation i de la variable qualitative Y (k) prend la modalit j , 1 j qk , alors toutes les variables binaires valent 0, sauf la j e qui vaut 1. Cela permet donc de remplacer le vecteur de n observations dune variable qualitative Y (k) par une matrice n qk , note U (k) , remplie de 0 ou de 1. Nous noterons la matrice U la matrice regroupant toutes les matrices des codages disjonctifs complets de chacune des variables qualitatives k, 1 k K , U = U (1) |U (2) | |U (K ) . Exemple 1 Nous avons K = 3 variables qualitatives 3, 2 et 3 modalits respectivement. Nous regroupons les observations de ces 3 variables dans la matrice suivante A1 B2 C3 A2 B1 C1 Y = A2 B2 C2 A3 B2 C1 A3 B1 C2 Le codage disjonctif complet est la matrice U suivante, U (3) : 1 0 0 1 U = 0 1 0 0 0 0 somme des colonnes
compose des 3 sous-matrice U (1) , U (2) et 0 0 0 1 1 0 1 0 0 1

n1
(2)
1 0 1 1 0
n2
(2)
0 1 0 1 0
0 0 1 0 1
1 0 0 0 0
n1 n2 n3
(1) (1) (1)
n1 n2 n3
(3) (3) (3)
Nous sommes donc en prsence dune matrice U de dimension n q o q = K k =1 qk est le nombre total de modalits. (k ) Par construction la somme de tous les lments Uij dune ligne quelconque i de U (k) vaut toujours 1
qk j =1
Uij
(k )
= 1.
(1.1)
Cela signie que pour une variable qualitative donne k, un individu i na quun seul 1 (et des 0) sur sa ligne, cest dire quil ne prend quune modalit par variable (do le disjonctif). Par construction la somme de tous les lments Uij dune ligne quelconque i de U vaut toujours K :
q
Uij = K.
j =1
Sur lexemple ci-dessus la somme dune ligne vaut 3. Analyse de donnes MASS - Rennes 2
Chapitre 1. Analyse Factorielle des Correspondances Multiples - AFCM La somme par colonne est leectif des observations qui prennent la modalit caractrise par (k ) la colonne. Si nous considrons la ke variable et sa j e modalit, cette somme est note nj . Pour lexemple ci-dessus le nombre dobservations qui prennent la modalit A2 est n2 = 2 ; cela correspond bien la somme des lments de la deuxime colonne du bloc 1. La somme des eectifs de chaque modalit dune variable qualitative k donne vaut le nombre dobservation total, n
qk j =1 (1)
nj
(k )
= n.
(1.2)
Remarques 1. En analyse de variance ou en rgression logistique, dautres codages de variables qualitatives sont utiliss an de rendre le modle identiable, ie de sorte que tous les coecients soient estimables et de manire unique (voir aussi 1.9.2 p. 36). Le codage disjonctif complet nest applicable que dans le cas (rare) o il ny a quune seule variable qualitative et sans coecient moyenne gnrale (intercept). 2. Considrons le modle danalyse de variance un facteur, une variable expliquer Z par une variable qualitative Y (1) . En utilisant le codage disjonctif complet U (1) des observations de Y (1) , alors la prvision (ou ajustement) des n observations regroupes dans le vecteur Z par le modle danalyse de variance est PU (1) Z . Le rapport de corrlation (ou R2 ) mesure la qualit de lajustement par Z |Y (1) = PU (1) Z Z 2 D
2 D
(1.3)
1.3.2
Mtriques
La mtrique est une matrice dnie positive qui permet de construire un produit scalaire. Rappelons donc ces notions. Notons D une matrice n n. Cette matrice est dite dnie si x Rn , x Dx = 0 x = 0n . Cette matrice est dite positive si x Rn , x Dx 0. Cela permet au produit scalaire de dnir une longueur (ou norme) cohrente. Notons cette norme (carre) par x 2 D = x Dx. La premire proprit permet de dire que tout vecteur de D norme 0 est le vecteur nul 0n , ce qui est raisonnable lorsque lon se reprsente la norme comme la longueur mesure dun vecteur. La seconde proprit permet de dire que toute D norme dun vecteur est positive, ce qui naturel pour une longueur. Cela permet toutefois de dnir, outre la norme, un produit scalaire entre 2 vecteurs x et y de Rn par < x, y >D = x Dy . Ce produit scalaire va permettre de dnir des vecteurs orthogonaux dans le sens o x = 0n est D orthogonal y = 0n si et seulement si x Dy = 0, x = 0n , y = 0n . Thorme 1.3.1 Toute matrice diagonale comportant dans sa diagonale (principale) uniquement des lments strictement positifs est dnie positive. Preuve Il sut de se ramener au produit scalaire classique < x, y >= x y . MASS - Rennes 2 Analyse de donnes
1.4. LAFCM Soit D = diag(di ). Comme nous avons di 0, posons D 1/2 = diag( di ) et donc nous avons D 1/2 D 1/2 = D . Soit x Rn , nous avons x Dx = x D 1/2 D 1/2 x = (D 1/2 x) (D 1/2 x) = z z = z 2 0. La matrice D est donc positive. De plus si x Dx = z z = 0, x Rn alors z = 0. Si di > 0 i, alors D 1/2 est inversible, (D 1/2 )1 = ), matrice note D 1/2 . Nous avons donc x = D 1/2 z = 0. La matrice D est alors dnie. diag( 1 d
i
Puisque nous avons remplac les observations des variables par Unq , nous sommes en prsence de deux espaces vectoriels Rn et Rq correspondant aux colonnes et lignes de U . Il nous faut donc 2 mtriques. La premire est la mtrique sur lespace des modalits (ou variables en ACP). Cette 1 ). mtrique est la mtrique des poids des observations D = diag( n La seconde est la mtrique sur lespace des individus Rq . Cette mtrique est construite partir des frquences de chaque modalit. Rappelons que chaque individu est caractris par les observations (k ) quil possde sur les q modalits. La modalit j de la variable k est prise (ou observe) nj fois par les individus. La somme totale de tous les nj
(k )
vaut nK . La frquence de la modalit
(k ) j de la variable k vaut donc nj /nK . Pour construire matriciellement cette matrice diagonale (k ) (k ) (k ) (k ) des nj /nK , notons D (k) = diag(n1 , n2 , . . . , nqk ) la matrice diagonale des eectifs de chaque modalit de la ke variable. Si nous regroupons tous ces eectifs dans une mme matrice diagonale
nous avons = . D (K )
n1
(1)
(k ) D = diag(. . . D . . .) =
D (1) D (2) ..
..
.
nq1
(1)
.. .
n1
(K )
..
.
nqK
(K )
qui est la matrice diagonale des eectifs de chaque modalit pour toutes les variables. La mtrique 1 pour lespace des lignes Rq est alors choisie comme nK D . Exemple 1 (suite) Dans ce cas, la matrice D vaut diag(1, 2, 2, 2, 3, 2, 2, 1). Remarquons que D (k) = U (k) U (k) mais que D = U U ...
1.4
1.4.1
LAFCM
Dnition et proprits
Dnition 1.4.1 Lanalyse factorielle des correspondances multiples (AFCM ou ACM) est lACP du triplet (X, Q, D ) suivant : 1 1 1 D , In ). , (nU D nK n LACP est dnie classiquement comme la recherche de sous-espaces orthogonaux maximisant linertie, il semble donc intressant de sintresser ces notions dont nous pourrons tirer, dans le cas particulier de lAFCM, des enseignements pratiques. Analyse de donnes MASS - Rennes 2
Chapitre 1. Analyse Factorielle des Correspondances Multiples - AFCM Remarque Lanalyse factorielle des correspondances multiples (AFCM ou ACM) est quelquefois dnie comme lACP du triplet (X, Q, D ) suivant :
1 nq , (nU D
1 1 D , In ). nK n
Cette seconde dnition permet dliminer un vecteur propre trivial, le vecteur la valeur propre 1. Retour sur linertie et le centre de gravit
n (ou q ) associ
Dnition 1.4.2 (centre de gravit) Soit un nuage de points N pondrs, savoir n points de Rq nots {Xi. }n i=1 ayant pour poids q suivant respectif {pi }n . Le centre de gravit G de ce nuage est le point de R i=1
n
G =
i=1
pi Xi.
Dnition 1.4.3 (inertie dun nuage) Soit un nuage de points N pondrs avec les poids {pi}. Linertie de ce nuage par rapport un point A de Rq est simplement la somme pondre des carrs des distances entre les points et A,
n
I (N , A) =
pi d2 (Xi. , A).
i=1
Ici, comme en ACP, nous avons mieux quune distance quelconque, nous avons une distance issue dun produit scalaire, cela devient dans Rq de mtrique Q, et de poids pi = 1/n 1 I (N , A) = n
n i=1
Xi. A
2 Q.
Nous sommes souvent confront au choix de A le point repre. Un choix naturel dune origine est 0, mais que reprsente le point 0 ? Comme en gnral nous sommes intresss par comparer les vecteurs du nuage, il semble intressant de considrer une origine dans le nuage et donc par exemple le point moyen (ou centre de gravit). Dans ce cas, linertie est la distance au point moyen. En ACP classique le tableau de donnes X est D centr (et rduit) le centre de gravit des lignes est donc 0 et le problme du choix du point A na pas vraiment dintrt. Par contre en AFCM, le 1 nest pas centr et se pose la question du centre de gravit. tableau X = nU D Centre de gravit des lignes Que signie ici le centre de gravit pour les vecteurs de Rq constitus partir des n lignes de 1 ? Calculons ce centre de gravit selon la dnition classique pour une ACP et la matrice nU D remplaons les X , Q et D par leur valeur en AFCM :
n
g =
i=1
pi Xi. =
1 n
n 1 n U D i=1 i.
=
i=1
(. . . , Uij /nj , . . .) . Analyse de donnes
(k )
(k )
MASS - Rennes 2
1.4. LAFCM Comme le bloc U (k) a pour somme, pour chacune de ses qk colonnes, les eectifs par modalits (k ) (k ) (k ) (k ) n1 , . . . , nqk , nous avons donc n i=1 Uij = nj et donc G = (1, . . . , 1) . Le centre de gravit est donc le vecteur (1, . . . , 1) . Comme en ACP, nous nous intressons aux distances au centre de gravit. Le calcul prcdent nest donc quune tape intermdiaire. Exemple 1 (suite) Dans ce cas, la matrice D = diag(1, 2, 2, 2, 3, 2, 2, 1) et 1 0 0 0 1 0 0 1 0 1 0 1 0 1 0 0 . 0 1 0 1 0 0 1 0 U = 0 0 1 0 1 1 0 0 0 0 1 1 0 0 1 0 Nous avons donc = 1 0 0 0 1/3 0 0 0 1/2 0 1/2 0 1/2 0 0 1/2 0 0 1/3 0 1/2 0 0 1/2 0 1/3 1/2 0 0 1/2 0 0 1/2 1/2 0 G = (1, 1, 1, 1, 1, 1, 1, 1). Distance des lignes au centre de gravit Nous avons ici la distance au carr de lobservation i au centre de gravit G qui vaut dans le cadre 1 de lACP dun triplet (X, Q, D ), d2 (Xi. , G) = Xi. G 2 Q . En utilisant le fait quici Q = nK D est diagonale de valeur nj /nK et que le centre de gravit a pour coordonne 1, cela scrit
K qk (k )
1 U D
1 0 0 0 0
ce qui donne bien la valeur
d (Xi. , G) =
k =1 j =1
nj
(k )
nK
nUij nj
(k )
qk
(k ) (k )
1) =
(k )
k =1 j =1
2 n (Uij ) 2 K n(k) j
(k )
qk
k =1 j =1
1 (k) U + K ij
qk
nj
(k )
k =1 j =1
nK
Or Uij est gal 0 ou 1, donc Uij = (Uij )2 . De plus la somme dun ligne de U (k) vaut 1 (eq. (1.1), p. 5), nous avons
K qk
d (Xi. , G) =
k =1 j =1
2 n Uij ( k ) Kn K
j K qk
(k )
K k =1
1 1+ nK
qk
nj ,
k =1 j =1
(k )
et avec lquation (1.2) nous avons d (Xi. , G) =

k =1 j =1 2
n Uij 1. K n(k)
j (k )
(k )
En conclusion, lindividu i est dautant plus loign du centre de gravit que, lorsque ses Uij sont non nuls, cela correspond des eectifs {nj } faibles. Autrement dit, un individu i qui prsente des modalits dont les eectifs sont faibles sera, par construction, loign du centre de gravit. Il ressortira donc automatiquement de lanalyse. Analyse de donnes MASS - Rennes 2
(k )
10
Chapitre 1. Analyse Factorielle des Correspondances Multiples - AFCM Centre de gravit des colonnes LACP sintresse aussi lespace des colonnes. Calculons le centre de gravit Gc des q vecteurs colonnes de Rn et plus particulirement sa ie coordonne, 1 i n. Utilisons la notation classique dune ACP dun triplet (X, diag(Qj ), D ) et remplaons ensuite par les valeurs particulire de lAFCM, (k ) (k ) qk p K qk nj nUij 1 K (k ) Uij . Qj Xij = [Gc ]i = nK n(k) K
j =1 k =1 j j k =1 j =1
Grce (1.1), cela donne
[Gc ]i = cest dire que
1 K
1 = 1,
k =1
Gc = (1, . . . , 1) . Distance des colonnes au centre de gravit Calculons de mme la distance dune colonne au centre de gravit, cest dire la distance dune modalit au centre de gravit Gc . Prenons la modalit j de la ke variable qualitative (notons cet indice j (k)). Nous avons alors en notation ACP puis en retranscrivant en AFCM
n
d (X.j , Gc ) = =
X.j n
Gc 2 D
n
=
i=1 (k )
1 pi (Xij [Gc ]i ) = n
2
n i=1
nUij nj
(k )
(k )
(k ) (nj )2 i=1
Uij 2
(k ) nj i=1
Uij +
(k )
1 n
1.
i=1
Nous avons donc la distance au carr de la j e modalit de la variable qualitative k au centre de gravit de toutes les modalits qui est n nj
(k )
1.
(1.4)
En conclusion, une modalit est dautant plus loigne du centre de gravit des modalits que son eectif est faible. Pratiquement, en AFCM il ne faut pas de variable qualitative dont une ou des modalits possdent un faible eectif. Le faible eectif est souvent annonc vers 3-5% de leectif total. Si cest le cas il est alors ncessaire de regrouper les modalits. Regrouper les modalits qui se ressemblent an de constituer une nouvelle variable qualitative avec un plus petit nombre de modalits et dont les eectifs sont plus voisins. Si la variable possde des modalits ordonnes, il est ncessaire de fusionner les modalits dans lordre ; Raecter au hasard (ie ventiler) les individus de la (ou les) modalits faible eectif dans les modalits restantes. Cette ventilation sera faite selon les proportions respectives des modalits restantes (logiciel SPAD). MASS - Rennes 2 Analyse de donnes
1.4. LAFCM Inertie dune variable Comme nous sommes dans un cas particulier dACP, lensemble des modalits (ie colonnes) qui constituent une variable est particulirement important. Avant de calculer linertie totale, nous allons calculer linertie dune variable qualitative, par exemple la ke . Il sut de sommer pour toutes les modalits de cette variable le carr des distances au centre de gravit de chaque modalit, aect des poids respectifs des modalits n(k) /nK , cest dire
qk
11
I (Y
(k )
) =
j =1
1 n(k) n 1) = ( nK n(k) K
j
qk j =1
1 1 nK
qk j =1
nj ,
(k )
do linertie de la variable k est I (Y (k) ) = 1 (qk 1). K (1.5)
En conclusion linertie dune variable qualitative est dautant plus grande que son nombre de modalits est lev. Pratiquement, en AFCM il faut viter les trop grandes disparits entre nombre de modalits des variables qualitatives. Inertie totale Linertie totale peut tre vue comme la quantit dinformation totale contenue dans les donnes. En ACP centre-rduite cette inertie est gale au nombre de variables. Pour la calculer ici il nous sut de sommer les inerties de toutes les variables, cest dire
K
I (N , Gc ) =
k =1
q 1 (qk 1) = 1. K K
(1.6)
Linertie totale du nuage par rapport au centre de gravit ne dpend donc que du nombre total de modalits q vis vis du nombre de variables qualitatives K . Remarque Il est aussi possible de calculer linertie totale par rapport au centre de gravit en partant de lespace des lignes (ou individus) et en eectuant la somme pondre de linertie de chaque individu. Le rsultat est bien sr identique. En ACP linertie totale est la somme des valeurs propres et est gale trace(V Q) = trace(X DXQ) ou encore gale trace(W D ) = trace(XQX D ). Dans le cadre de lAFCM nous venons de calculer cette trace, mais dune autre manire. Distance entre individus et variables La distance entre 2 individus i et l scrit
K qk
d (i, l) =
k =1 j =1 (k )
2 n (Uij Ulj ) . (k ) K nj
(k )
(k )
Rappelons que Uij est binaire (0 ou 1). Cette distance est dautant plus leve que les individus i et l prsentent des modalits direntes (voir un exemple en section 1.1.2 p. 1). Analyse de donnes MASS - Rennes 2
12
Chapitre 1. Analyse Factorielle des Correspondances Multiples - AFCM La distance entre 2 modalits j (k) (j e modalit de la ke variable) et j (k ) scrit
n
d (j (k), j (k )) =
i=1 Uij nj
(k ) (k )
n(
Uij
(k )
(k ) nj
Uij
(k )
(k ) nj
)2 .
Cette distance est nulle quand
(k )
Uij nj
(k )
vaut 0. Un exemple trivial est donne par 2 modalits
qui sont toujours choisies en mme temps pour tous les individus (voir un exemple en section 1.1.2 p. 1). Nous retrouvons aussi limportance de leectif par modalit. Si une modalit possde un trs faible eectif comparativement aux autres, alors cette modalit sera loin des autres.
1.4.2 1.4.3
Formules de transition Cadre de lACP
Rappelons que dans le cadre de lACP dun triplet (X, Q, D ), lanalyse consiste trouver un repre optimal de reprsentation des variables (vecteurs de Rn ) et un repre optimal de reprsentation des individus (vecteurs de Rq 1 ). Ces 2 repres sont constitus de vecteurs orthonorms qui sont les vecteurs propres norms de W D = XQX D et de V Q = X DXQ respectivement. Cependant il est inutile de diagonaliser ces deux oprateurs, il sut den diagonaliser un seul (opration assez coteuse en temps de calcul) et de dduire les autres vecteurs propres grce aux formules de transition. min(n,q ) Rappelons que les axes principaux {a }=1 sont les vecteurs propres norms lunit de V Q min(n,q ) q et sont le repre (de R ) des individus, alors que les composantes principales {c }=1 sont les vecteurs propres norms lunit de W D et sont le repre (de Rn ) des variables. En ACP, les formules de transition sont c = a = 1 XQa , 1 X Dc , (1.7) (1.8)
o 1 min(n, p) et est une valeur propre de V Q (ou W D , ce sont les mmes) et o ces valeurs propres sont ordonnes de manire dcroissante : 1 > 2 > . . .. Ces formules sobtiennent directement de la dnition des vecteurs propres et valeurs propres et de la dnition de V Q et W D. Ces formules de transition sont utiles dun point de vue numrique, mais on les retrouve aussi dans le calcul des coordonnes des individus, ou des variables, dans leur nouveau repre orthonorm. Calculons la projection dun vecteur, par exemple Xi. , sur un axe de son nouveau repre, par exemple laxe , de vecteur directeur a . La projection est note Pa (Xi. ) et notons [ c ]i la coordonne de cette projection sur cet axe de vecteur directeur a . La projection vaut
Pa (Xi. ) = [ c ]i a =< Xi. , a >Q a = Xi. Qa a ,
1. dans de nombreuses prsentations de lACP, la matrice X est de dimension n p et lespace des individus est 1 Rp . Dans le cadre particulier de lAFCM, la matrice X = nU D est de dimension n q , do le changement de notation.
MASS - Rennes 2
Analyse de donnes
1.4. LAFCM a tant norm et la coordonne est simplement le Q produit scalaire entre les deux vecteurs de Rq ,
[ c ]i = Xi. Qa .
13
Xi.
a [ c ]i
Pa (Xi. )
Figure 1.1 Vecteur Xi. et sa projection Pa (Xi. ) sur laxe de vecteur directeur norm a . La coordonne sur cet axe de la projection est note [ c ]i Si lon reproduit cette quation ci dessus pour toutes les coordonnes i, 1 i n, nous obtenons un vecteur c contenant toutes les coordonnes des individus sur laxe . Ce vecteur possde n prs, dune des formules de transition. Nous coordonnes et scrit c = XQa . Il sagit, 1 avons donc que c = c et donc que le vecteur contenant les coordonnes des individus sur laxe est le vecteur propre de WD de norme carre gale la valeur propre 2 . Un raisonnement analogue sur les variables permet de trouver que le vecteur contenant les coordonnes des variables sur laxe not a est le vecteur propre de VQ de norme carr gale la valeur propre . Enn les formules de transition existent aussi pour les vecteurs coordonnes, il sut de multiplier droite et gauche des formules de transition par 1 XQa , 1 X Dc .
c = a =
(1.9) (1.10)
1.4.4
Formules de transition en AFCM
Ici les formules de transition possdent une interprtation en terme de coordonnes. En reprenant lquation (1.9) dans le cadre de lAFCM, nous obtenons c =
(1) (K )
1 1 1 1 U a = K K
K k) U (k) a ( , k =1
(1.11)
prs, les coordonnes des individus sont gales ). Ceci signie qu 1 o a = (a | |a la moyenne arithmtique des coordonnes des modalits auxquelles ils appartiennent.
2. par abus de langage on utilise souvent norm la valeur propre alors quil sagit de norme carre
Analyse de donnes
MASS - Rennes 2
14
Chapitre 1. Analyse Factorielle des Correspondances Multiples - AFCM Remarquons aussi par dnition des vecteurs norms lunit et la valeur propre, nous avons c = 1 K
K k) U (k) a( , k =1
(1.12)
ce qui permet de reprsenter sur un mme graphique les individus par leurs coordonnes c et les modalits par a , les individus se trouvant alors la moyenne arithmtique des modalits auxquels ils appartiennent. Ce type de reprsentation est appele reprsentation barycentrique. En reprenant lquation (1.10) dans le cadre de lAFCM, nous obtenons
k) a ( =
1 1 diag(. . . (k) . . .)U (k) c , n

j
ce qui signie qu
prs, la coordonne sur laxe de la j e modalit de la variable qualitative

(k )
k est la moyenne arithmtique des coordonnes des nj coordonnes des individus qui prennent cette modalit. Bien entendu nous pouvons encore obtenir une reprsentation barycentrique en traant sur les mme repre les modalits par leur coordonnes a et les individus par c . Dans cette reprsentation, une modalit est reprsente la moyenne arithmtique des coordonnes des individus qui la prennent.
1.4.5
Reprsentation dune variable et modle linaire
Intressons nous uniquement la variable qualitative Y (k) . Si nous conduisons une analyse de variance sans moyenne gnrale pour tenter dexpliquer c par Y (k) nous avons le modle suivant c = U (k) + . Lestimation par moindre carrs de nous donne = (U (k) U (k) )1 U (k) c = diag(. . . 1 . . .)U (k) c . (k ) nj Nous retrouvons une formule de transition, cest dire
k) = diag(. . . 1 . . .)U (k) c = a ( . (k ) nj
Les coordonnes de la ke variable qualitative Y (k) sont tout simplement lestimation par moindre carrs de lanalyse de variance de c par Y (k) . Cette proprit mathmatique permet la reprsentation des variables dites supplmentaires.
1.5
1.5.1
Analyse des reprsentations de lAFCM

Qualit globale dun axe
La qualit globale dun axe est mesure par linertie de cet axe, savoir la valeur propre . Cette mesure permet de choisir le nombre daxes retenir. La mthode la plus simple et la plus MASS - Rennes 2 Analyse de donnes
1.5. Analyse des reprsentations de lAFCM ecace consiste choisir le nombre daxes visuellement en traant un diagramme en barres 3 (ou tuyaux dorgues). En gnral plutt que de tracer en ordonn la valeur propre il est plus judicieux de tracer le pourcentage que reprsente cette valeur propre par rapport au total des valeurs propres. Il sut alors de slectionner le nombre daxes minimum tels que les axes retiennent susamment dinertie au total et tel quil y ait pour les axes non retenus une chute de la qualit globale de ceux ci. Ainsi sur la gure 1.2 le nombre daxes est 2, ils retiennent plus de 72% et les axes suivant sont nettement moins intressant en terme dinertie.
% dinertie
40
15
10
20
30
1 2 3 4 ... Figure 1.2 Diagramme en barre des pourcentages dinertie de chaque axe, exemple dune ACP.
En AFCM les pourcentages dinertie sont assez pessimistes et il nest plus possible de garder un nombre daxes tel que le pourcentage cumul des axes retenus soit susant, ce qui ncessite au moins 60-70%. De plus la dcroissance des pourcentages dinertie est en gnral rgulire (voir par exemple la gure 1.3) et la recherche dune valeur seuil devient complexe. An de rajuster les inerties captures par les axes, Benzcri et Greenacre ont propos chacun un taux
B = G =
K K 1 K K 1
1 K
1 K
qui est rajust en pourcentage sur toutes les valeurs propres (ou racine des valeurs propres) qui soient suprieure 1/K .
3. A ne JAMAIS confondre avec un histogramme qui est un estimateur de la densit dun variable quantitative continue
Analyse de donnes
MASS - Rennes 2
16
50
15
40
10
30
20
10
Figure 1.3 Diagramme en barre des pourcentages dinertie de chaque axe, exemple dune AFCM. Le premier reprsente le pourcentage dinertie standard, le second les taux de Benzcri et le troisime les taux de Greenacre. En gnral les taux de Benzcri sont assez optimistes et conduisent slectionner trs peu daxes, alors que les taux de Greenacre sont intermdiaires. Une autre rgle assez simple consiste slectionner autant daxe quils sont interprtables en terme de rapport de corrlation (empirique) 4 . Remarque Le vecteur n est toujours vecteur propre de loprateur W D associ la valeur propre 1. En eet en crivant loprateur W D = XQX D et en remplaant les matrices par leur valeur en AFCM nous avons W D n = 1 1 U n , U D K
or U n revient calculer la somme de toutes les colonnes de U et les mettre dans un vecteur de (1) (1) (K ) (K ) 1 Rq , cest dire U n = (n1 , . . . , nqK ) . Ce vecteur multipli par D = diag(1/n1 , . . . , 1/nqK ) vaut donc q . Ensuite U q revient calculer la somme de toutes les lignes de U , sommes qui valent toutes K , do W D n = 1 U q = n . K
Cet axe et cette valeur propre nont aucun intrt pour lanalyse et ne gure donc pas en gnral dans les rsultats fournis par les logiciels. Il est aussi possible de prendre une dnition voisine de lAFCM (1 p. 8).
1.5.2
Reprsentations simples
Une fois slectionn le nombre daxes total que lon notera q , il sut de prendre les axes dans lordre (1, 2), puis (3, 4) etc.. Pour chaque couple, par exemple le couple (1, 2), on reprsente 2 graphiques (ou plan factoriel), le premier pour les individus grce leurs coordonnes c 1 , c 2 et le second pour les modalits grce leurscoordonnes a 1 , a 2 .
4. cest la mthode que je favorise ( titre personnel), en tenant en compte aussi des cassures dans le diagramme en barres des valeurs propres
MASS - Rennes 2
10
15
20
Analyse de donnes
1.5. Analyse des reprsentations de lAFCM
17
Axe 2
[ c2 ]2 [ c1 ]1
11 00
[ c2 ]1
Individu 2
[ c1 ]3
Axe 1
Individu 1
11 00 00 11
[ c2 ]3
[ c1 ]2
11 00
Individu 3
Figure 1.4 Exemple de reprsentation des individus sur le plan factoriel 1-2.
Au vu du nombre quelquefois lev de modalits il peut tre intressant de tracer, pour 1 plan factoriel, autant de graphiques quil y a de variables qualitatives. Autrement dit, au lieu de reprsenter toutes les modalits sur 1 graphique, il est possible dutiliser K graphiques, 1 par variable qualitative.
1.5.3
Reprsentations barycentriques
Il sagit de la reprsentation classique en AFCM. Ce type de reprsentation tire partie de la remarque sur les formules de transition en AFCM et reprsente donc pour chaque plan factoriel, 2 plans. Le premier est la reprsentation des individus avec comme coordonnes pour laxe le vecteur c et, sur le mme graphique, les modalits qui sont reprsentes la moyenne arithmtique des coordonnes des individus qui prennent la modalit considre, avec comme . coordonnes a . De mme il Il est aussi possible de reprsenter les individus avec c et les variables avec a est recommand de scinder ce type de reprsentation par variable qualitative (voir gure 1.5).
Exemple 2 (Les ours alpins) Le tableau regroupe 38 individus qui sont les rgions dlimites par linventaire forestier national pour les Alpes franaises. Sur ces individus sont mesures 10 variables qualitatives. Ce jeu de donnes fait partie de la bibliothque de programme ade4 sous GNU-R (http://www.r-project. org). La partie 1.7 prsente les donnes de manire plus dtaille. La gure 1.3, qui est tire de cet exemple, permet de slectionner 3 axes. Si nous nous intressons la reprsentation des zones forestires (individus) pour la variable dpartement, nous obtenons la reprsentation des individus en gure 1.5. Analyse de donnes MASS - Rennes 2
18

depart
AHP AM
D HP I S HS
0 25 50 75 100
Figure 1.5 Reprsentation barycentrique des individus (rgions dlimites par linventaire forestier national dans larc alpin). Aux barycentres apparassent les modalits dune seule variable (sur les 10 possibles) an de garder la reprsentation lisible. La taille des symboles est proportionnelle au cos2 . Nous tirons de la gure 1.5 que, sur le plan 1-2 qui retient la majeure partie de linformation, les zones forestires des dpartements de Haute Savoie (HS), Savoie (S) et Isre (I) sont mlanges donc peu distinctes au sens de toutes les 10 variables tudies. Ce groupe se spare nettement du groupe des zones forestires des Alpes de Haute Provence (AHP), et des Alpes Maritimes (AM), avec en intermdiaire les zones forestires drmoise (D) et, un peu spares, les zones forestires des Hautes Alpes (HP). Sans laide dautres graphiques reprsentant les autres variables, lanalyse ne peut tre approfondie. Remarquons tout de mme que mme si 1 individu appartenant la modalit Hautes Alpes semble, au sens de toutes les variables qualitatives les plus importantes, proche des individus des alpes maritimes ou des alpes de haute provence, cet individu est mal projet et nous ne pouvons rien en dire. Dans lautre sens, un second type de graphique permet de reprsenter les modalits avec comme coordonnes pour laxe le vecteur a et, sur le mme graphique, les individus qui sont reprsents la moyenne arithmtique des coordonnes des modalits quils prennent.
1.5.4
Reprsentations pseudo-barycentriques
Ce type de reprsentation est proscrire 5 et consiste superposer sur le mme graphique les coordonnes des individus et des modalits, bien que ces modalits et individus soient dans des q n espaces dirents (R et R ). Le facteur est absent ni les individus, ni les modalits ne sont au barycentre des modalits ou des individus.
1.5.5
Interprtation des axes
An daider linterprtation, il est souvent utile dessayer de donner un sens aux axes, cest dire essayer de donner quelques adjectifs qui les qualient. Pour cela existent les contributions
5. Il sagit dun avis personnel : les graphiques sont dilats et nont aucune ralit, cest dicile interprter
MASS - Rennes 2
Analyse de donnes
1.5. Analyse des reprsentations de lAFCM absolues ou CTR. Contribution des individus En ACP comme en AFCM, la contribution dun individu i laxe est dnie par CTR (i) = ([ c]i )2 , n
19
o [ c]i est la ie coordonne de la composante principale dont la norme carre vaut la valeur propre, est la e valeur propre et 1/n est le poids de lindividu i. Pratiquement, si cette contribution est trop leve, lindividu est trop inuent et il serait prfrable de ne pas linclure dans lanalyse. Contribution des modalits et des variables qualitatives En ACP comme en AFCM, la contribution dune modalit (colonne du tableau), par exemple la j e de la ke variable qualitative, laxe est dnie par nj
(k )
CTR (j (k)) =
[ a ]
(k )
nK
o [ c]i est la ie coordonne de la composante principale dont la norme carre vaut la valeur propre, (k ) est la e valeur propre, n est le nombre total dindividu, nj est le nombre de ceux qui prennent la modalit j de la ke variable qualitative et K reprsente le nombre de variables qualitatives. Les modalits qui possdent une forte contribution sont les modalits qui contribuent dnir laxe et cest donc elles qui fournissent le sens de laxe, cest dire les adjectifs qui le dnissent. Cette vision nest pas trs pratique puisquelle dissocie les modalits dune mme variable. An de relier les variables qualitatives toute entires aux axes, il est prfrable de sintresser aux contributions dune variable et, mieux encore, au rapport de corrlation (empirique) dune variable k avec un axe . La contribution absolue dune variable qualitative k laxe est simplement la somme des contributions des modalits qui la composent,
qk
CTR(Y (k) ) =
j =1
CTR (j (k)) .
Cette contribution est gale au rapport de corrlation divis par K et par la valeur propre . Comme le rapport de corrlation est compris entre 0 et 1, il est simplement le pourcentage des CTR(k) par rapport leur total et il est facilement interprtable. Il scrit donc :
qk 2 c = K |k
CTR (j (k)) .
j =1
Analyse de donnes
MASS - Rennes 2
20
Chapitre 1. Analyse Factorielle des Correspondances Multiples - AFCM Preuve Nous devons montrer que vons CTR(Y
(k ) ) qk 2 /K o c j =1 CTR (j (k )) = |k 2 vectorielle, avec c D = , nous avons

sous forme
2 c = |k
P U (k ) c c 2 D
2 D
. Rcri-
CTR(Y
(k )
) =
(k) a (k) D (k) a (k) a (k) D (k) a = . nK nK c 2 D
En nous servant de la formule de transition (1.10), nous avons

1 (D (k ) )1 U (k ) c
CTR(Y
(k )
D (k)
) =
1 (D (k ) )1 U (k ) c 2 D
nK c
c U (k) (D (k) )1 U (k) c = . 2 nK c D
1 I , nous obtenons Avec U (k) U (k) = D (k) et D = n
CTR(Y (k) ) =
(k ) (U (k ) DU (k ) )1 U (k ) D c (k ) (U (k ) U (k ) )1 U (k ) c c c U U = . 2 2 nK c D nK c D
Le D projecteur sur (U (k) ) scrivant PU (k) = U (k) (U (k) DU (k) )1 U (k) D , nous avons CTR(Y (k) ) = CTR(Y (k) ) = Rappelons que nous avons c = c c PU (k) c DPU (k) c = 2 2 nK c D K c D c DPU (k) PU (k) c . K c 2 D
c , ce qui en remplaant et en simpliant nous donne PU (k) c K c

2 D 2 D
CTR(Y (k) ) =
2 c |j (k )
Ce sont les rapports de corrlation empiriques qui sont interprter en priorit pour donner un sens aux axes. Seules les variables qui prsentent de fortes valeurs (suprieur 60% par exemple 6 ) sont considrer. Si un axe ne prsente aucune forte valeur (par exemple plus plus leve que 50%) alors peut tre que laxe nest pas interprtable et que le nombre daxes est trop grand. Cela constitue une autre mthode de slection daxes en AFCM. En pratique, certaines donnes sont peu structures et cette mthode savre quelquefois impraticable (voir lexemple des ours p. 27 pour son utilisation). Autres contributions Pour mmoire, il est quelquefois donn la contribution dune modalit ou dune variable qualitative linertie totale. Il sagit simplement du rapport de linertie dune modalit (ou dune variable) sur linertie totale. Grce aux quations (1.4) et (1.6) nous avons donc pour une modalit I (j (k)) I (N , Gc ) = 1 n(j ) /n , K (q/K 1)
6. Ce pourcentage est voir en fonction des autres, il peut tre de 30 40% aussi...
MASS - Rennes 2
Analyse de donnes
1.5. Analyse des reprsentations de lAFCM et en utilisant lquation (1.5) nous avons Y (k) I (N , Gc ) = qk 1 . q1
21
Cette dernire quantit ne dpend que du nombre de modalits, ce qui est peu intressant comme critre en tant que tel, mais qui permet de retrouver laspect pratique suivant : en AFCM il faut prendre des variables qualitatives qui ont des nombres de modalits comparables et en gnral pas trop levs.
1.5.6
Qualit de reprsentation
Rappelons qu linstar de lACP nous souhaitons souvent interprter la proximit sur les plans factoriels. Ainsi 2 individus proches sur un plan factoriel sont-ils proches en ralit ? Ceci nest vrai que si les deux individus sont bien projets. De mme le fait que deux modalits soient proches signie t-il quelles sont souvent associes ? Cela est vrai pour 2 modalits bien projetes. Le critre de qualit de projection, le cos2 ou contribution relative, permet de rpondre la question de qualit de projection. Il est compris entre 0 et 1 par construction, 0 tant synonyme dorthogonalit avec laxe considr. Pour les individus il scrit cos2 (i) = et pour les variables cos2 (j (k )) = ([ a ]i )2
min(n,q K +1) ([ al ])2 l=1
([ c ]i )2
min(n,q K +1) ([ cl ])2 l=1
1.5.7
Variables supplmentaires
Rappelons quelques principes qui gouvernent gnralement le choix des variables actives ou variables supplmentaires. Tout dabord le praticien peut chercher diminuer la taille du tableau actif. Cette diminution peut tre due deux facteurs : la puissance de lordinateur nest pas sufsante, ce qui de nos jours est rare, ou bien la rduction du choix (des axes) uniquement aux variables pertinentes. Ensuite les variables supplmentaires ntant pas utilises pour le choix des axes, il sagit l dune optique de prvision o lon peut voir les relations entre ces variables supplmentaires et celles actives. Rappelons tout de mme que le choix des axes nest pas fait dans une optique de prvision des variables supplmentaires, mais dans une optique de description des variables actives. Il se peut que certaines variables actives trs explicatives mais minoritaires apparaissent mal dans les premiers plans factoriels et soient considres comme non relies aux variables supplmentaires. Cette optique semble assez dlicate employer et semble inadquate dans une optique de choix de variables explicatives. Enn cela permet de conforter linterprtation des axes (dtermins par les variables actives) par des variables nayant pas servi lanalyse. Lorsque nous avons une variable supplmentaire note Z , nous pouvons calculer les coordonnes de celles-ci en utilisant la remarque 1.4.5 (p. 14). Les coordonnes dune variable Y (k) sont simplement Analyse de donnes MASS - Rennes 2
22
Chapitre 1. Analyse Factorielle des Correspondances Multiples - AFCM la valeur des coecients dans une analyse de variance o lon explique le vecteur directeur de laxe , c , par la variable Y (k) (sans coecient constant). Nous allons donc calculer les coordonnes de Z en calculant la valeur des coecients dans une analyse de variance, o lon explique le vecteur directeur de laxe , c , par la variable Z (sans coecient constant). Ce modle revient tout simplement faire, pour chaque modalit de Z , la moyenne des valeurs des [c ]i pour tous les individus i qui prennent cette modalit : coordonne de la modalit j de Z = 1 nj [c ]i ,
iJ
(1.13)
o nj est le nombre dindividus qui prennent la modalit j et J est lensemble des indices des individus qui prennent cette modalit j . Remarques 1. Remarquons que certains auteurs tendent cette dnition la coordonne dune modalit supplmentaire. Que reprsente rellement une modalit supplmentaire ? Il semble que cela ne soit pas forcment trs clair en pratique, car si lon ne prend pas en compte une modalit alors certains individus nauront pas de valeur pour cette variable qualitative, ce qui peut sembler assez trange et qui de plus modie la proprit (1.1, p. 5) qui est pourtant ncessaire lAFCM. 2. Il est possible de projeter directement une variable continue Z en supplmentaire. En eet cette variable Z appartient Rn , il sut den faire la projection sur laxe . La coordonne sur laxe est simplement < c , Z >D . En gnral les variables supplmentaires continues sont centres rduites au pralable. 3. Si nous avons L variables supplmentaires qualitatives, Z (1) , . . . , Z (L) , nous pouvons utiliser la mthode ci-dessus L fois. Montrons que cette mthode revient la mme dmarche que lAFCM. Rappelons quen AFCM nous avons introduit le tableau disjonctif complet U , puis que nous avons calcul n, le nombre de ligne, puis calcul D la matrice diagonale qui contient la somme de chacune des colonne du tableau disjonctif complet. Avec cela nous 1 , tableau dont nous avons fait lACP avec des mtriques sommes pass de U X = nU D spciales. Nous allons donc faire de mme ici avec les variables supplmentaires qualitatives, {Z (1) , . . . , Z (L) }. Ici le nombre de ligne du tableau disjonctif complet UZ est n, car nous sommes en prsence de variables supplmentaire (ie des colonnes supplmentaires). Z (1) , . . . , Z (L) Xsup = nUZ (D (Z ))1 ,
UZ
o D (Z ) est la matrice diagonale qui contient la somme de chacune des colonnes de UZ . 1 , D , D ) nous pouvons utiliser la projection Avec le tableau Xsup et le triplet (X = nU D en supplmentaire pour lACP. Nous devons donc prendre chaque colonne de Xsup , que nous projetons dans le repre des composantes principales normes lunit. Utilisons la mme notation pour les indices des colonnes de Xsup : j (k) signie la colonne de Xsup qui correspond la j e modalit de la ke variable qualitative supplmentaire Z (k) . La coordonne de la j (k)e colonne du tableau Xsup pour laxe est donc < [Xsup ].j (k) , c >D . MASS - Rennes 2 Analyse de donnes
1.6. AFCM, optimalit et cas particuliers Pour toutes les modalits de toutes les variables, leurs coordonne sur laxe scrit
1 1 Xsup Dc = (nUZ (D (Z )) ) Dc = (D (Z )) Uz c .
23
Cette dernire criture revient exactement lquation (1.13), applique chaque variable qualitative supplmentaire.
1.6
1.6.1
AFCM, optimalit et cas particuliers

Gnralisation de lAnalyse Factorielle des Correspondances
LAFCM est presque une gnralisation de lAnalyse Factorielle des Correspondances (AFC). LAFC sintresse ltude de K = 2 variables qualitatives alors que lAFCM tudie le cas plus gnral o K 2. Si lAFCM est la gnralisation de lAFC (au sens strict) alors en posant K = 2, lAFCM devrait conduire la mme reprsentation des modalits et aux mmes valeurs propres. Evidemment lAFC conduit une somme des valeurs propres qui est le 2 dindpendance alors quen AFCM cette somme est toujours gale q/2 1. Les valeurs propres sont donc direntes. Cependant nous pouvons montrer que la reprsentation des modalits en AFCM est identique ( un facteur multiplicatif prs) celle de lAFC et de plus nous pouvons trouver une relation entre les valeurs propres de lAFCM et celle de lAFC. Thorme 1.6.1 Dans le cas de K = 2 variables qualitatives, lAFCM et lAFC sont quivalentes dans le sens o elles proposent les mmes coordonnes des modalits pour chaque axe ( un facteur multiplicatif prs). Par ailleurs, les valeurs propres de lAFCM et celle de lAFC sont lies par lquation suivante (AFC) = 2(AFCM) 1
2
Preuve Les coordonnes des modalits sur laxe sont donnes par a . Ce vecteur est le vecteur propre norm la valeur propre de V Q associ la e plus petite valeur propre. Comme nous nous intressons des coordonnes un facteur multiplicatif prs il nous sut de considrer a . Bien que a semble un point de dpart naturel, crivons plutt que c est vecteur propre de K 1 (k ) (D (k ) )1 U (k ) , nous avons WD = 1 k =1 U 2 U D U . Avec lgalit suivante W D = 1 U (1) (D (1) )1 U (1) + U (2) (D (2) )1 U (2) c = c . 2 En pr-multipliant gauche lquation ci-dessus par (D (1) )1 U (1) puis par (D (2) )1 U (2) , grce aux formules de transition, nous obtenons a + (D (1) )1 U (1) U (2) a = 2 a , (1) (2) (2) (D (2) )1 U (2) U (1) a + a = 2 a . En notant N = U (1) U (2) qui est le tableau de contingence des deux variables nous avons (D (1) )1 N a = (2 1)a (1) (2) (D (2) )1 N a = (2 1)a Analyse de donnes
(2) (1) (1) (2) (1)
MASS - Rennes 2
24
Chapitre 1. Analyse Factorielle des Correspondances Multiples - AFCM Nous pouvons pr-multiplier la premire quation par (D (2) )1 N et en se servant de la seconde nous obtenons (D (2) )1 N (D (1) )1 N a(2) = (2 1)2 a(2) . Nous pouvons faire de mme pour la seconde quation et obtenir (D (1) )1 N (D (2) )1 N a(1) = (2 1)2 a(1) .
(1) (1) Ceci montre que a et a , qui contiennent ( un facteur multiplicatif prs, ie ) les coordonnes des modalits issues de lAFCM, sont aussi les vecteurs propres contenant la reprsentation des modalits lignes et colonnes issus de lAFC, associs la valeur propre (2 1)2 . LAFCM constitue donc une gnralisation au sens large de lAFC. Elle perd toutefois la bonne proprit des valeurs propres de lAFC, mettant encore une fois en vidence le fait que le diagramme en barres des valeurs propres de lAFCM doit tre interprt avec circonspection. Cette quivalence permet de voir que les taux de Benzcri sont, tout simplement, le rajustement des valeurs propres de lAFCM an quelles concident avec celle de lAFC quand K = 2.
1.6.2
AFCM et tableau de Burt
La matrice U sur laquelle repose lAFCM est une matrice qui possde quelquefois un trs grand nombre de lignes. Par construction elle possde beaucoup dlments nuls, cest une matrice que lon appelle matrice creuse. Ce type de matrice fait lobjet de bibliothques de programmes dalgbre linaire spciques an doptimiser les temps de calcul et les prcisions. Cependant avant larrive de ce type de bibliothque et larrive dordinateurs puissants il tait crucial doptimiser les calculs sur le papier avant la programmation. Pour cela, le tableau de Burt permet un gain de place et de prcision quand n est trs/trop grand. Tableau de Burt Dnition 1.6.1 (Tableau de Burt) Le tableau de Burt est un gnralisation du tableau de contingence entre 2 variables qualitatives et scrit D (1) N (12) N (1K ) N (21) D (2) N (2K ) B = U U = , . .. . . . ( K 1) ( K ( K 1)) ( K ) N N D
o N (kl) est le tableau de contingence croisant la variable Y (k) et la Y (l) .
Avant de nous intresser lAFC dun tableau de Burt, nous devons calculer la somme par ligne, par colonne et totale dun tel tableau. Cest lobjet des paragraphes ci-dessous. Puisque B = U U nous avons que B est une matrice q q et que B = B . La somme par ligne ou la somme par colonne vont donc donner des rsultats identiques. Calculons la somme par ligne de B. (1) Pour la premire ligne de B , nous avons dans le premier bloc D (1) un seul lment non nul n1 et la (1) somme de la premire ligne de ce bloc vaut donc n1 . Pour le second bloc N (12) , il sagit du tableau MASS - Rennes 2 Analyse de donnes
1.6. AFCM, optimalit et cas particuliers de contingence crois entre Y (1) et Y (2) . Nous nous intressons uniquement la premire ligne. Le premier lment cette premire ligne dcompte les individus qui possdent la fois la premire modalit de Y (1) et la premire modalit de Y (2) . Le second lment cette premire ligne dcompte les individus qui possdent la fois la premire modalit de Y (1) et la seconde modalit de Y (2) etc.. Dans cette ligne on dcompte toutes les observations qui prennent la premire modalit de Y (1) et une modalit quelconque de Y (2) . Quand lon somme la premire ligne nous avons donc (1) tous les lments qui prennent la premire modalits de Y (1) , cest dire n1 . En rptant ce raisonnement pour tous les blocs, au total nous avons
q
25
B1j
j =1
= Kn1 .
(1)
Bien videmment cela peut stendre une ligne ou une colonne quelconque de B et nous avons donc
q
Bi(k) j
j =1
= Kni ,
(k )
o i(k) est la ligne correspondant la modalit i de la variable k. La somme totale de B est alors Bij = nK 2 .
i,j
AFC du tableau de Burt et AFCM Thorme 1.6.2 Raliser lAFCM des variables qualitatives est quivalent raliser lAFC du tableau de Burt dans le sens suivant : Les valeurs propres de lAFCM sont gales la racine carre des valeurs propres trouves par lAFC de B ; La reprsentation des variables est la mme ( un facteur multiplicatif prs) ; La reprsentation des individus de lAFCM est la mme que celle obtenue en mettant en individus supplmentaires la matrice U . Preuve Il sut en se reportant la dnition de lAFC C.1, p. 89, dexpliciter D1 , D2 puis Z . En utilisant les rsultats de 1.6.2, nous trouvons que les mtriques sont identiques et valent 1 1 B 1 1 1 . Le triplet de lAFC BD = nD D1 = D2 = nK 2 D . La matrice Z vaut alors D1 nK 2 D2 1 1 1 1 vaut donc (nD BD , nK 2 D , nK 2 D ) La reprsentation de ce triplet est alors donne par la diagonalisation des oprateurs W D et V Q associs ce triplet. Calculons ces oprateurs :
1 1 BD W D = nD
1 1 1 1 1 1 1 ) B = V Q. BD BD D (nD D = 2 D 2 2 nK nK K
Nous en dduisons que la reprsentation colonne ou ligne de cette AFC de B est la mme. De plus si nous calculons loprateur V Q, dont les vecteurs propres donnent les coordonnes (ou reprsentation) des variables, nous obtenons 1 1 D B. K Analyse de donnes MASS - Rennes 2
26
Chapitre 1. Analyse Factorielle des Correspondances Multiples - AFCM Les vecteurs propres {a } norms lunit (puisque nous travaillons un facteur multiplicatif prs), vrient par dnition 1 1 D Ba = a , K et donc 1 1 1 B = 2 D BD a . K2 Ces vecteurs propres sont donc les mmes que ceux de lAFC de B mais la valeur propre de lAFCM est leve au carr pour donner celle de lAFC de Burt. Concernant la projection en supplmentaire de U dans lAFC. Il faut dabord calculer la somme (k ) totale, i,j Uij = nK , les sommes marginales qui valent K pour chaque ligne et nj pour la colonne
1 j (k). Ensuite nous calculons les frquences des marges diag(K/nK ) = n I et diag(nj /nK ) = 1 1 U 1 nK D . Enn nous transformons U en Zsup = n nK nKD = nU D . Cette dernire matrice est alors projete dans le nouveau repre des axes principaux norms lunit. Cette projection sur un axe norm est un simple D2 produit scalaire et nous avons donc les coordonnes des individus supplmentaires 1 nU D (k )
1 1 D a = U a , nK K
ce qui est bien lquation des coordonnes sur laxe des individus (1.12, p. 14).
1.6.3
AFCM et optimalit
LACP est souvent prsente comme la recherche dune nouvelle variable synthtique, que lon appelle composante principale c. Cette variable est choisie comme une combinaison linaire des variables c = Xa, c Rn . An de rendre le problme identiable, on choisit de normer a lunit. Cette composante est cherche telle quelle soit de corrlation maximum avec les q variables centres-rduites de dpart. Comme il y a q variables et que nous ne devons optimiser quun seul critre, nous utilisons un critre compromis qui est la somme des corrlations au carr avec toutes les variables de dpart. Ce critre doit tre maximum, cest dire
q
c =
argmax
c=Xa, a
Q =1
cor(c, Xj )2 .
j =1
Ici nous ne pouvons pas faire de combinaison linaires de variables qualitatives. Par contre nous pouvons btir une combinaison linaire des colonnes du tableau disjonctif complet c = U a. (k ) Remarquons que ce type de combinaison linaire revient associer une valeur inconnue aj chaque niveau j dune variable Y (k) et ensuite faire la somme pour chaque variable c = U a = K (k ) a(k ) . Le fait de remplacer n observations dune variable qualitative Y (k ) par les coek =1 U cients inconnus a(k) correspond coder une variable . Le codage en analyse des donnes est le vecteur (k) = U (k) a(k) Rn . On peut ensuite introduire lAFCM comme la recherche de K codages des variables (k) tels quils soient de moyenne de corrlations au carr maximum avec une composante principale c MASS - Rennes 2 Analyse de donnes
1.7. Exemple des ours chercher et en maintenant leur norme xe. Cela snonce argmax
c=U a, c
2 =1 D
27
(k )
1 2 =1 K
D
cor(c, Xj )2 .
j =1
Nous ne dtaillerons pas la dmonstration. Une autre manire denvisager loptimalit de lAFCM est de repartir du point de vue suivant : lanalogue de la corrlation (empirique) linaire au carr pour un couple dune variable qualitative et dune variable quantitative est le rapport de corrlation empirique. LAFCM peut donc tre vue comme la recherche dune composante principale c = U a de norme xe qui soit telle que la moyenne des rapports de corrlation empirique avec toutes les variables de dpart doit tre maximum c = argmax
c=Xa, c
1 K D =1
K j =1 2 . c | Y (k )
1 Pour montrer cela nous savons que D = n In et donc
1 K
K j =1 2 c | Y (k )
1 K
K j =1
1 PU (k) 2 D = 2 nK c D
c PU (k) c .
j =1
Puisque PU (k) = U (k) (U (k) U (k) )1 U (k) = U (k) (D (k) )1 U (k) , nous avons K K K 1 1 1 1 2 (k ) = c c (D (k) )1 U (k) c = c U (k) (D (k) )1 U (k) c = c (k ) U W Dc . | Y K nK n K
j =1 j =1 j =1
La recherche de loptimum de c W Dc sous contrainte de norme est tout simplement la recherche des vecteurs propres de W D , oprateur qui est bien loprateur W D de lAFCM, do le rsultat.
1.7
Exemple des ours
Rappelons que cet exemple fait partie des donnes de la bibliothque de programme ade4 sous GNU-R. Donnons un descriptif rapide des donnes. Il sagit de la mesure de 10 variables qualitatives numres ci-dessous sur n = 38 zones dinventaire forestier : Laltitude (altit) vaut 1 quand moins de 50% de la surface est comprise entre 800 et 2000m, 2 quand entre 50 et 70% de la surface se trouve dans cette fourchette, 3 quand plus de 70% de la surface est dans cette fourchette (3 niveaux croissants) ; Le dnivel (deniv) qui est limportance de la variation moyenne daltitude mesure par carr de 50 km de cot (3 niveaux croissants) ; Le cloisonnement, cloiso, variables o lon mesure la taille dune partie isole du reste de la rgion par un obstacle naturel (grande valle, faille profonde). Il sagit de 3 niveaux dcroissants en taille ; Limportance de fort du domaine national domain ; Le taux de boisement boise (3 niveaux croissants) ; Limportance des forts plantes ou mixtes hetra (3 niveaux croissants) ; Analyse de donnes MASS - Rennes 2
28
Chapitre 1. Analyse Factorielle des Correspondances Multiples - AFCM Limportance des forts favorables favo (3 niveaux croissants) ; Le pourcentage de forts non exploites inexp (3 niveaux croissants) ; La prsence ancienne dours (citat), avant 1840, entre 1840 et 1900 (au maximum 3 citations), entre 1840 et 1900 (4 citations), 4 citations entre 1840 et 1900 et au moins 1 aprs 1900 ; Le dpartement (depart) Haute Savoie (HS), Savoie (S), Isre (I) Alpes de Haute Provence (AHP), Alpes Maritimes (AM), Drme (D), Hautes Alpes (HP). Un descriptif plus complet peut tre obtenu dans le logiciel grce library(ade4) # chargement de la bibliotheque de programme ade4 data(ours) # chargement des donnes des ours help(ours) Le calcul de lAFCM et le choix du nombre daxes est eectu par afcm <- dudi.acm(ours)
Rapport de corrlation et variables importantes

An de calculer les rapports de corrlation (empiriques) par axe, nous devons regrouper les CTR par variables. Pour cela il faut crer un facteur identiant la variable laquelle une modalit appartient. Ensuite il faut calculer les CTR et les cos2 . Enn on fait la somme par variable des CTR. variables <- rep(colnames(ours),unlist(lapply(ours,nlevels))) qualite <- inertia.dudi(afcm,row.inertia =TRUE,col.inertia =TRUE) CTRk <- aggregate(qualite$col.abs/100,by=list(factor(variables)),FUN=sum) CTRk Group.1 Comp1 Comp2 Comp3 Comp4 1 altit 6.63 7.32 5.73 10.12 2 boise 14.51 5.02 7.94 26.29 3 citat 15.57 17.54 15.01 15.35 4 cloiso 3.90 10.87 11.79 2.34 5 deniv 6.26 4.80 4.33 13.85 6 depart 10.61 18.45 21.82 11.32 7 domain 3.74 20.23 10.30 1.57 8 favor 14.98 3.17 0.36 8.78 9 hetra 15.39 3.39 18.48 4.63 10 inexp 8.42 9.19 4.21 5.74 Cette analyse est utile mais il est plus simple dinterprter les rapports de corrlations qui sont les CTR par variables ramens entre 0 et 1. > afcm$cr RS1 altit 0.2951241 deniv 0.2793041 cloiso 0.1739039 domain 0.1670369 boise 0.6467664 MASS - Rennes 2 RS2 0.2366445 0.1547975 0.3508532 0.6531095 0.1620917 RS3 0.14323619 0.10841000 0.29490686 0.25753359 0.19865370 RS4 0.20670227 0.28305889 0.04768057 0.03207238 0.53701341 Analyse de donnes
1.7. Exemple des ours hetra favor inexp citat depart 0.6858709 0.6674468 0.3755331 0.6945030 0.4726075 0.1095379 0.1026375 0.2967320 0.5662200 0.5955882 0.46211093 0.00897447 0.10538627 0.37530362 0.54572369 0.09470495 0.17947093 0.11733796 0.31385247 0.23131437
29
Nous constatons que pour laxe 1, les variables importantes sont le boisement, les forts plantes (hetra), le terrain favorable et la citation sont importantes. Dans une moindre mesure le dpartement semble aussi important. Sur laxe 2, nous avons la prsence de fort domaniale, le dpartement et la citation sont importante. Enn sur laxe 3 le dpartement et les forts plantes (hetra) semblent importants. Nous nous intressons uniquement aux axes 1-3 (voir gure 1.3) laxe 4 nest donc pas analys. Cette analyse utilise tous les individus et toutes les modalits. Ainsi sur laxe 3, bien quil ny ait que 2 variables qui semblent importantes, il est possible de mener une tude plus ne grce aux reprsentations qui suivent. Interprtation en termes de variables (axe 1-2) La reprsentation classique ade4 permet dobtenir le graphique des modalits avec un ordre simple. scatter(afcm,xax=1,yax=2,cell=0) # axes 1-2 Grce au graphique 1.6, chaque variable peut tre compare aux autres, comme laide dun tableau de contingence. Par exemple, pour la variable favor, les individus de chaque modalit sont bien spars (toiles qui ne se croisent pas) sauf pour quelques individus. Comme lon constate que les modalits sont ordonnes de droite gauche pour des modalits croissantes, nous avons donc que la modalit 3 de favor se retrouvera principalement avec des citat 3 ou 4, la modalit 2 sera avec des citat 1 ou 2, et la modalit 1 sera avec des citat 1 ou 2. Ceci peut se vrier dans la table de contingence 1.2. citat 2 3 4 0 1 0 2 4
favor 1 2 3
1 11 10 1
4 0 1 4
Table 1.2 tableau de contingence pour les variables favor et citat La gure 1.6 permet dobserver que dans le plan 1-2 les modalits de la citation sont parfaitement spares puisque les toiles de chacune des modalits ne se recoupent pas. Notons aussi que laxe 1 permet de sparer les modalits 3-4 (ours cits rcemment et en grande quantit) des autres modalits. Ces modalits 3-4 regroupent les points (individus) situs gauche. Elles sont donc lies avec les modalits 3 de hetra, 3 de favor et 3 de boise. Elles ne sont jamais lies avec la modalit 1 de altit, 2 de cloiso, 1 de deniv et les dpartements alpes de haute-provence, alpes maritimes et hautes alpes (voir aussi gure 1.5 p. 18). La variable domain semble plutt tre rpartie dans toute les modalits de citat. Ces constatations se traduisent par le fait que les derniers ours alpins franais se trouvaient dans des zones favorables, de haute altitude, fort taux Analyse de donnes MASS - Rennes 2
30
Chapitre 1. Analyse Factorielle des Correspondances Multiples - AFCM de boisement, possdant des forts mixtes, dnivel moyen ou fort, plutt inexploites dans les dpartements 38, 26, 73 ou 74.
altit
3 2 2 1 1 3 1
deniv
cloiso
0 25 50 75100
0 25 50 75100
0 25 50 75100
domain
3
boise
hetra
3 1
3 1 1 2
0 25 50 75100
0 25 50 75100
0 25 50 75100
favor
inexp
citat
2 1 3 3 2
1 4 3
0 25 50 75100
0 25 50 75100
0 25 50 75100
Figure 1.6 Reprsentation barycentrique des individus de lAFCM, la taille des symboles tant proportionnelle au cos2 Interprtation en terme dindividus La reprsentation sur les axes 1-2 (par dfaut) est donne par les ordres suivant. s.value(afcm$li,apply(abs(qualite$row.rel[,1:2]),1,sum),xax=1,yax=2) s.label(afcm$li,xax=1,yax=2,label=rownames(ours),add.plot=TRUE) En terme de tableaux croiss, la reprsentation des variables permet de slectionner les modalits qui se ressemblent et donc les tableaux croiss qui sont intressants. LAFCM est donc conseille en pralable une analyse bivarie an de slectionner les couples de variables envisager en priorit. Remarquons que la taille des symboles nous permet (gure 1.7 ou 1.6), par exemple, de constater que certains individus statistiques (ici certaines zones forestires) gauche sont trs proches et bien reprsents. Ces zones, au sens de toutes les variables contribuant de manire assez forte au plan 1-2, se ressemblent beaucoup. Il sagit des individus 4, 5, 13, 12 et 16. Comme les contributions globales (CTR) ne sont pas trs fortes, il est ncessaire dexaminer en dtail les modalits qui sont communes pour ces individus. Il sut pour cela de revenir la reprsentation barycentrique (gure 1.6). MASS - Rennes 2 Analyse de donnes
1.7. Exemple des ours Ces zones sont caractrises (cf gure 1.6) par des fortes altitudes (3 ou 2) des forts dnivels (3 ou 2) des faibles cloisonnements (3), beaucoup de boisement, un terrain favorable, des citations fortes (3 ou 4), peu de fort domaniales etc.. Il est toujours conseill, une fois les ressemblances entre individus dtectes grce lAFCM, de revenir aux donnes initiales an de faire la part des choses, ce qui ici nous donne ours[c(4,6,13,12,16),] altit deniv cloiso domain boise hetra favor inexp citat depart 4 3 3 3 1 3 3 3 2 3 HS 6 3 3 3 1 3 3 3 3 3 S 13 2 3 3 1 3 3 3 2 3 I 12 2 2 3 1 3 3 3 2 3 I 16 3 3 3 3 3 3 3 3 4 I De mme en haut (gure 1.7) les individus 31, 32, 33 et 37 sont proches. Enn les 22 et 23 se ressemblent ainsi que les 8 et 14.
31
31 34 18 17 19 16 4 6 13 1 9 3 12 5 10 15 7 28 38
3233 37 36 30 26 27 21 11 20 22 23 2 8 14 35 24
25 29
10%
30%
50%
Figure 1.7 Reprsentation des individus de lAFCM, la taille des symboles tant proportionnelle au cos2 Cette interprtation pour des non spcialistes des zones forestires nest pas trs passionnante. Aussi nous ne prsenterons pas laxe 3 qui permettrait de voir si dautres zones se ressemblent au sens des variables lies laxe 3. Interprtation en terme de variables (axe 3) Pour laxe 3, nous pouvons reprsenter les coordonnes des individus par variable sur un axe et en faire une bote moustache (au lieu dune toile). boxplot(afcm,3) Analyse de donnes MASS - Rennes 2
32
Chapitre 1. Analyse Factorielle des Correspondances Multiples - AFCM La gure 1.8 permet de voir quil existe une opposition du dpartement de la Drme (26) o la disparition des ours semble rcente, avec des zones daltitude moyenne forte, de forts cloisonnements, des forts domaniales prsentes moyennement ou fortement) avec de fortes plantations de forts mixtes. Toutes les autres variables ne semblent pas tre lies avec cette catgorie, on retrouve donc toutes leurs modalits reprsentes.
3 2 1 HP D 3 2 1 AM AHP S I HS
boise
depart
4 3
domain
3 2 1 2 1
citat
3 2 3 2 1
cloiso inexp
3 2 1 3 2 1
deniv favor
3 2 1
altit
d=1 d=1
hetra
Figure 1.8 Reprsentation des individus de lAFCM sur laxe 3
1.8
AFCM et codage ou
Lorsque lon est en prsence de questions choix multiples, il nest plus possible doprer un codage disjonctif complet. Par exemple sur des questionnaires de satisfaction dun produit, il est possible davoir une rponse dans un questionnaire de shampoing : Q500 : quel est laspect de vos cheveux aprs lavage ? gras secs lisses brillants Individu 17 gras secs lisses brillants
Individu 11
De mme sur des questionnaires danit en chelle de type Likert, il est possible davoir des questions et rponses du type Q8 : Notez votre anit envers les chocolats par un chire entre 0 et 6 Chocolat blanc 1 Chocolat au lait 3 Chocolat noir 6 MASS - Rennes 2 Analyse de donnes
1.8. AFCM et codage ou Q21 : Notez votre anit envers les gteaux secs par un chire entre 0 et 6 Th Langue de chat Petit beurre 4 6 1
33
Le codage disjonctif est simplement un notion dappartenance une modalit (1 si il y a appartenance 0 sinon). La somme par ligne de U (k) la matrice de codage disjonctif dune variable qualitative vaut 1, un individu ne peut prendre quune modalit la fois. Ici, un individu peut prendre plusieurs modalits la fois. Bien que les modalits ne soient pas exclusives (ie ou lune ou lautre) il est toujours possible dutiliser une notion dappartenance une modalit. Puisque lon peut appartenir 2 (ou plus) modalits en mme temps on va juste dnir un degr dappartenance entre 0 et 1. Plus ce degr est lev et proche de 1, plus lappartenance est exclusive. Dans le cas de la variable chocolat, un individu rpondant quil naime pas les chocolats blanc et au lait (note 0) et quil aime le chocolat noir (note par exemple de 5), sa notion dappartenance une modalit pourrait tre de 0/6 et 5/6. Cependant il est ncessaire dans lAFCM davoir comme proprit
k j =1
U (k)ij = 1i {1, . . . , n},
et pour cela nous allons utiliser un codage ou des observations de chaque variable qualitative. Si pour un individu quelconque i nous codons une variable par un codage ou, cela revient associer chaque modalit de cette variable une valeur comprise entre 0 et 1 telle que la somme pour toute les modalits vaut 1. Cette valeur rete un degr dappartenance. Un codage disjonctif complet est simplement un codage ou dont les valeurs valent 0 ou 1. Ainsi pour le questionnaire des shampoing nous avons pour la Q500 le codage ou des 2 individus 11 et 17 qui sont brillant 0.5 0 lisse 0.5 0 gras Individu 11 Individu 17 0 1 au lait
3 10 langues de chat 6 11
0 0
Les deux exemples danit sont alors pour le chocolat (Q8) blanc noir
6 10 1 11 petit beurre
1 10
et pour les gteaux secs (Q21)
4 11
Analyse de donnes
th
sec
MASS - Rennes 2
34
Chapitre 1. Analyse Factorielle des Correspondances Multiples - AFCM LAFCM sur codage ou est exactement la mme analyse que lAFCM, en considrant simplement la matrice U = (U (1) | |U (K ) ) regroupant tous les codages ous. La matrice D correspond (toujours) la matrice diagonale contenant la somme de chaque colonne de U , savoir pour un (k ) lment diagonal [D ]j (k) j (k) = n i=1 Uij .
1.9
1.9.1
Reconstitution des donnes

La thorie
En ACP nous pouvons reconstituer les donnes initiales (ie le tableau centr-rduit Xnq ) par
min(n,q ) min(n,q )
X =
=1
c a
=
=1
c a
2 o, comme toujours, c 2 2 D = 1, c D = et a Q = 1. Bien sr, si nous souhaitons approcher les donnes par un nombre rduit q daxes nous avons lapproximation suivante q q
X =
=1
c a
+ Erreur =
=1
c a + Erreur,
min(n,p) a =q +1 c
o le terme derreur est simplement ce qui na pas t pris en compte, savoir Ces formules peuvent scrire sous forme matricielle de la manire suivante + E, X = C A = CA
nq = ( avec = diag(1 , . . . , q ), Cnq = (c1 |c2 | |cq ), C c1 |c 2 | |c q ), A = (a1 |a2 | |aq ) et E = CE AE , avec CE et AE qui sont les matrices qui regroupent les derniers vecteurs non pris en compte, de q + 1 min(n, p). DC = . Nous avons bien sr que C DC = Iq , A QA = Iq et C Lgalit se produit quand E = 0, et une condition susante est alors q = min(n, p). 1 1 1 In ), nous avons , nK D , n Puisquen AFCM nous avons le triplet (X, Q, D ) qui scrit (nU D
1 . = CA nU D
En multipliant droite par D , nous obtenons U = 1 CA D , n
o ici la reconstitution est lordre maximal, cest dire q est au moins gal au numro dordre de la dernire valeur propre non nulle de lAFCM. Bien sr q min(n, q K + 1) est une condition susante. Nous pouvons aussi rcrire cette dernire quation en sparant la somme en 2 parties : une partie jusqu lordre q et une autre partie correspondant lerreur, ce qui donne U U MASS - Rennes 2 = = 1 |AE ) D = 1 (CA +C E A )D (C |CE )(A E n n 1 (CA + E )D . n Analyse de donnes
1.9. Reconstitution des donnes Cette dernire quation permet de sparer la structure des donnes, constitue par les vecteurs propres jusqu lordre q , et le bruit que lon peut ngliger, constitu par les autres vecteurs propres regroups dans la matrice E .
35
1.9.2
Utilit
Variables et repre canonique Si nous souhaitons utiliser une mthode statistique aprs lAFCM, il faut la mesure de variables sur des individus. Nous savons que lAFCM nous donne un rang q au del duquel on nglige les reprsentations. Elle nous procure aussi 2 repres, lun pour les individus, les axes principaux {a } et lautre pour les variables, les composantes principales {c }. Comme nous avons n individus, si nous souhaitons utiliser une mthode statistique sur ces n individus, il nous faudra donc des lments de Rn et lon pense donc aux {c } ou aux {c }. Une faon simple de procder, sera de se dire que les {c } sont de norme carre gale la valeur propre et donc ils conservent, dans leur norme, limportance des axes. Ce sont donc ces {c } qui seront les nouvelles variables qui seront utilises dans la mthode statistique qui suit lAFCM. Cette explication, qui a le mrite dtre simple retenir, nexplique pas rellement le choix des {c }. Pour bien comprendre prenons un exemple simple de 3 variables quantitatives : la taille, le poids et la longueur du majeur de la main droite. Prenons n = 50 individus mesurs. Ils ont pour mesure (180, 70, 10.5), (170, 65, 9.7), etc.. Comme nous avons q = 3 variables, nous pouvons reprsenter ces individus dans lespace. Le premier axe est de vecteur directeur i (le premier lment de la base canonique de R3 ), le second axe de vecteur directeur j (le second lment de la base canonique de R3 ), le troisime axe de vecteur directeur k (le troisime et dernier lment de la base canonique de R3 ). Si lon reprsente ces individus dans lespace, le premier a pour coordonne 180 sur le premier axe, 70 sur le second et 10.5 sur le dernier. Nous voyons que la variable taille est reprsente sur le premier axe, ou le premier vecteur de la base canonique, la variable poids est reprsente dans la direction du second vecteur canonique et la troisime variable (la longueur du majeur de la main droite) est reprsente dans la direction du troisime vecteur canonique. Lindividu est caractris par la mesure des 3 variables cest dire par ses 3 coordonnes dans le repre canonique. Quand nous sommes en prsence de variables qualitatives nous ne pouvons pas utiliser directement les variables. Une solution consiste utiliser le tableau disjonctif complet o chaque modalit est (k ) 1 o chaque modalit est code par 0 ou n/nj , code par 0 ou 1, ou dutiliser le tableau X = nU D linverse de sa frquence dapparition. Comme chaque modalit est traite indpendemment des (k ) autres, que lon code par 0; 1 ou par 0; n /nj cela ne change rien puisquen gnral chaque variable est aecte dun coecient. Remarquons que lon pourra aussi pondrer les modalits par D /n le cas chant. Ainsi pour les variables qualitatives, le premier vecteur canonique reprsente la direction de la premire modalit de la premire variable qualitative, le second vecteur canonique reprsente la direction de la seconde modalit de la premire variable qualitative etc.. Lorsque nous eectuons une AFCM nous avons un nouveau repre orthonorm de Rq qui est donn par les {a } qui remplace le repre canonique qui est aussi orthonorm. Les coordonnes dans ce nouveau repre qui caractrisent les individus sont les {c }. Comme bien videmment nous avons besoin des n observations pour utiliser une mthode statistique, ce sont les coordonnes qui caractrisent les individus que nous allons utiliser dans un enchanement AFCM + mthode Analyse de donnes MASS - Rennes 2
36 statistique.
Enchanement AFCM classication hirarchique Rappelons que la reconstitution lordre q scrit U = 1 (CA + E )D , n
est de dimension n q et A de dimension q q . Si nous choisissons un ordre q tel que o C E nest pas la matrice nulle, nous pouvons approximer les donnes initiales en ngligeant E . Cela suppose que lon ait retenu susamment daxes an de considrer que tout ce qui va tre nglig sera du bruit. Une analyse classique de panel de client consiste laborer une typologie des clients sur la base dun certain nombre de variables que lon suppose ici toutes qualitatives. Si ce nest pas le cas, il sura de dcouper les variables quantitatives en classes. Trouver une typologie des individus correspond eectuer une classication ascendante hirarchique, qui va regrouper les individus en classes homognes. Eectuer une classication directement sur les variables initiales, va prendre en compte la partie bruit qui est la matrice E . Cette classication, du fait de la prise en compte du bruit, alatoire par essence, sera donc instable dans le sens o il sera dicile de gnraliser la typologie obtenue puisque la partie structure est pollue par la partie bruit. Une solution classique, an de ne considrer que la partie structure, les faits essentiels, est deectuer une AFCM. Un nombre daxes susant sera choisi q . Il nexiste pas de rgle dnie pour ce choix, mais on peut penser quil est au moins gal au nombre daxes slectionns pour les plans factoriels interprts. Il sera possible den prendre plus que le nombre daxes interprts an de se prmunir contre la perte dune trop grande quantit dinformation. nq . Ensuite nous considrons les q nouvelles variables synthtiques, regroupes dans la matrice C A partir de ces variables qui sont quantitatives continues et sur une mme chelle, il est possible deectuer une classication hirarchique. Linertie tant le critre sous-jacent de lAFCM, il semble naturel dutiliser le critre de Ward pour cette classication. Les rsultats permettent, en dcoupant larbre un niveau raisonnable davoir une typologie des individus. Remarque , les composantes principales de norme carre gale la Rappelons que nous utilisons toujours C valeur propre comme nouvelles variables. En eet ces vecteurs conservent les importances relatives de chacun des axes via leur norme carre. Codage, contrastes et variables qualitatives Nous allons revenir dans le cadre de la rgression multiple. Nous sommes en possession dobservations sur les mmes n individus dune variable quantitative Y (regroupes dans Y ) et de q variables X regroupes dans Xnq . Le modle de rgression correspond Y = X + , o est un bruit. est alors Lestimation par moindres carrs de souvent not = (X X )1 X Y. MASS - Rennes 2 Analyse de donnes
1.9. Reconstitution des donnes Cette estimation est unique si (X X )1 existe cest dire que le rang de X est q . Ds que X est constitu de K variable qualitatives, nous ne pouvons travailler directement sur X . Lide la plus simple est de remplacer X par U , son codage disjonctif complet. Ds que K > 1, le rang de U est q < q et = ? (U U )1 U Y ? nexiste pas car (U U )1 nexiste pas. Il faut donc remplacer U par une matrice U de rang q . Bonne ide se dit-on, mais si on remplace U par U de rang q , qui nous dit que lon ne va pas perdre dinformation ? Pour y voir plus clair, posons le modle de rgression avec U , bien que lestimation par moindres carrs ne soit pas unique, Y = U + .
37
Que reprsente 1 ? Il sagit du coecient de la premire colonne de U cest dire celui la premire modalit. De mme, pour une colonne j (k), j (k) reprsente le coecient de la modalit j de la ke variable qualitative, ou le coecient de la j (k)e colonne de U . Si lon revient la notion de repre et de base, nous avons que chaque coecient j correspond la coordonne du vecteur U.j Rn . Lensemble des vecteurs U.j Rn , j {1, . . . , q }, engendre un sous-espace vectoriel de dimension q (par dnition du rang de U ) et cest le sous-espace appel image de U , not (U ). Comme la dimension de (U ) vaut q < q , la famille {U.j } est une famille gnratrice mais pas libre. Cela se traduit par : il y a plusieurs , , , . . . (une innit) qui donnent par combinaison linaire le mme vecteur de (U ) Y = U = U = U = . Lide est donc de remplacer la famille {U.j } gnratrice de (U ) par une base (bien choisie) de (U ). Comme on dcrit le mme espace vectoriel ((U )), on ne perd pas dinformation. Une base de (U ) contient bien sr q lments, lments qui forment une famille libre. Dans une rgression sur des variables qualitatives, ltape suivante est de former cette base de (U ), cest le travail de ce que lon appelle les contraintes identiantes (appeles contrastes sous GNU-R). En gnral quand les observations sont nombreuses le rang de U est simplement q K + 1, cest dire que chaque variable qualitative k contribue la dimension de (U ) (souvent appele ddl) hauteur de qk 1. Il y a cependant la ncessit dune constante n rajouter, do le +1. (k ) k Rappelons nous que U = ( |U (k) | ). Or nous avons vu que q j =1 U.j = n (1.1, p. 5). Donc chaque bloc k engendre linairement le mme vecteur n , donc au total (puisquil ne faut qu1 seul n ) la dimension est de q K + 1. Le passage d1 bloc tous les blocs sous entend que, mis part le vecteur n , ils sont linairement indpendants, ce qui est le cas raisonnable o il y a susamment dobservations n et o aucune modalit nest inutile (ie explique linairement par les autres ou remplie de 0). (k ) Puisque chaque bloc Unqk nous engendrons toujours n , il faut rduire dune colonne le bloc. Si
(k )
est de rang q K . En rajoutant en premire colonne le vecteurn nous avons U = (1n |U (1) | |U (K ) ) de rang q K + 1. (k ) Au niveau des coecients cela revient dire que 1 = 0 k. Cest ce que lon appelle un contraste traitement, car le premier niveau de la variable (souvent appel tmoin) vaut 0. Les autres coe(k ) k cients {j }q j =2 sont donc les carts au tmoin. Analyse de donnes MASS - Rennes 2
lon supprime par exemple la premire colonne, alors Un(qk 1) est de rang qk 1 et ( |U (k) | )
38
Chapitre 1. Analyse Factorielle des Correspondances Multiples - AFCM De mme on peut choisir dautres contrastes, cest dire des contraintes sur les coecients qui se traduisent directement en matrice U (k) .
Exemple 3 Soit les deux variables qualitatives A et B mesure sur 15 individus.

Individus Var. A Var. B 1 A1 B1 2 A1 B2 3 A1 B3 4 A1 B4 5 A2 B1 6 A2 B2 7 A2 B3 8 A2 B4 9 A3 B1 10 A3 B2 11 A3 B3 12 A3 B4 13 A2 B4 14 A2 B4 15 A2 B2
La matrice du codage disjonctif complet est donc
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
a1 a2 a3 b1 b2 b3 b4
1 1 1 1 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 1 1 1 1 0 0 0 0 1 1 1
0 0 0 0 0 0 0 0 1 1 1 1 0 0 0
1 0 0 0 1 0 0 0 1 0 0 0 0 0 0
0 1 0 0 0 1 0 0 0 1 0 0 0 0 1
0 0 1 0 0 0 1 0 0 0 1 0 0 0 0
0 0 0 1 0 0 0 1 0 0 0 1 1 1 0
Cette matrice est de rang 7 2 + 1 = 6. Une matrice communment utilise dans des modlisations statistiques consiste remplacer cette matrice U qui nest pas de plein rang par une matrice 12 6 qui prend en compte des contraintes sur les coecients et dans laquelle on fait apparatre la moyenne gnrale (ou intercept). Si lon utilise la contrainte de type comparaison un tmoin (ou niveau de base) nous avons que les coecients associs au niveau de base (ici les premiers niveaux de chaque facteur A et B) sont nuls, il ny a donc pas de colonne correspondante et nous avons la matrice du design suivante MASS - Rennes 2 Analyse de donnes
1.9. Reconstitution des donnes
39
Intercept a2 a3 b2 b3 b4
U =
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
0 0 0 0 1 1 1 1 0 0 0 0 1 1 1
0 0 0 0 0 0 0 0 1 1 1 1 0 0 0
0 1 0 0 0 1 0 0 0 1 0 0 0 0 1
0 0 1 0 0 0 1 0 0 0 1 0 0 0 0
0 0 0 1 0 0 0 1 0 0 0 1 1 1 0
Cette matrice est de rang plein. Si nous souhaitons utiliser le contraste de type somme,
(k ) (k ) qk j =1 j = 0, nous exprimons par exemple qk 1 (k ) j =1 j . Ainsi prenons lexemple de lin-
le dernier coecient en fonction des autres qk = dividu 9. Il prend la modalit a3 et la modalit b1 et le modle dune ANOVA serait
Y9 = + 3 + 1 + 9 .
(1)
(2)
Or nous avons par la contrainte que 1 + 2 + 3 = 0, do
(1)
(1)
(1)
Y9 = 1 2 + 1 + 9 .
(1)
(1)
(2)
Nous avons donc que pour la colonne associe le coecient vaut 1, pour la colonne associe (1) (1) 1 (ou la modalit a1) le coecient vaut -1, pour la colonne associe 2 (ou la modalit a2) le (2) coecient vaut -1, pour la colonne associe 1 (ou la modalit b1) le coecient vaut 1, pour la (2) (2) colonne associe 2 (ou la modalit b2) le coecient vaut 0 et pour la colonne associe 3 Analyse de donnes MASS - Rennes 2
40
Chapitre 1. Analyse Factorielle des Correspondances Multiples - AFCM (ou la modalit b3) le coecient vaut 0. En rptant cela pour tous les individus, nous avons alors
Intercept a1
U =
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
a2
b1
b2
b3
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
1 1 1 1 0 0 0 0 1 1 1 1 0 0 0
0 0 0 0 1 1 1 1 1 1 1 1 1 1 1
1 0 0 1 1 0 0 1 1 0 0 1 1 1 0
0 1 0 1 0 1 0 1 0 1 0 1 1 1 1
0 0 1 1 0 0 1 1 0 0 1 1 1 1 0
Une fois la contrainte choisie, les coecients sont uniques. Il est cependant utile de passer dun vecteur coecients associ avec un type de contrainte un autre type de contrainte. Pour passer dune base de (U ) une autre, cest dire dun vecteur de coecient avec un type de contrainte un autre type de contrainte, nous pouvons utiliser lunicit de la projection PU (Y ) Rn (par dnition de la projection). Elle peut scrire matriciellement comme = PU (Y ) = U (U U ) U Y, Y ou A est un inverse gnralis de A. Dans le cas o lon utilise une matrice de plein rang nous avons = PU (Y ) = U (U U )1 U Y = U Y et si nous utilisons une autre matrice de plein rang U nous avons alors . = PU (Y ) = U (U U )1 U Y = U Y En identiant nous avons alors = U . U et que nous souhaitons il sut de pr-multiplier gauche Si nous sommes en possession de par (U U )1 U et nous avons = (U U )1 U U . (1.14)
Exemple 3 (suite) = ( a2 , a3 , b2 , b3 , b4 ) vaille Reprenons les mme codages et supposons que lestimation , = (12, 1, 0, 1, 2, 2). (10, 1, 2, 1, 3, 2) . En utilisant la formule (1.14) nous avons alors que Bien sr chaque modle contient un coecient constant estim (Intercept) not . Ce coecient na pas la mme valeur selon les contraintes (ici 10 ou 12) car il possde une signication dirente, mme si nous lui donnons le mme nom. Il en va de mme pour les autres coecients... MASS - Rennes 2 Analyse de donnes
1.9. Reconstitution des donnes Transformation de variables qualitatives en variables continues Dans certaines analyses, comme lanalyse discriminante au sens de Fisher, il nest pas possible dutiliser directement des variables qualitatives. A limage de lenchanement AFCM-Classication, nq , o q est le numro il est cependant possible de remplacer les variables qualitatives par C dordre de la dernire valeur propre non nulle. La mthode vous fournit alors des coecients estims qui correspondent aux variables synthtiques. Dans loptique de la section prcdente, nous avons nq , avec bien sr (U ) = (C ) et avec C de plein rang, ses colonnes formant remplac U par C une base de (U ). An dobtenir des coecients qui soient relis aux modalits il faut revenir aux modalits, cest dire retrouver la matrice U . En utilisant les formules de transition, il sut dexprimer chaque en fonction de a , ce qui fait apparatre U . Nous avons que lquation (1.11, p. 13) colonne de C scrit sous forme matricielle comme = C 1 U A, K
41
o Aqq contient tous les axes principaux de lAFCM (norms lunit) jusqu lordre q . Il sut alors didentier pour avoir = 1 A K
cest dire que les coecients associs chaque modalit sont simplement trouvs comme le . produit A/K Rappelons qu limage de lanalyse de variance, ds que K > 1 et an de rendre le modle identiable, il nous faut des contraintes sur les coecients associs aux modalits. Ici ces contraintes napparaissent pas directement mais elles sont prsentes. Si lon prfre matriser les contraintes, une fois trouvs les coecients associs aux colonnes de U nots , il nous faut retrouver un qui correspond aux contraintes choisies. Comme indiqu la n de la section prcdente, nous avons donc dterminer U la matrice du codage correspondant la contrainte choisie. Ensuite, il sut dutiliser lquation (1.14), ce qui nous donne ici = (U U )1 U U 1 (U U )1 U U A. = K Par extension, au lieu dutiliser comme valeur pour q le rang de U il est possible de sarrter avant et de prendre q < rg(U ). Cependant tout le raisonnement reste valide et dans ce cas nutilisons ). Le coecient non pas tout (U ) mais un sous espace vectoriel de cette image, savoir (C ), ce sera le coecient qui vrie les contraintes, ce que nous souhaitions et tel que U (C que nous souhaitions aussi, puisque nous nous sommes limits q < rg(U ). Cette mthode est appele Disqual dans le logiciel SPAD.

Analyse de donnes
MASS - Rennes 2
Chapitre 2
Analyse conjointe de tableaux ACT-STATIS

2.1 Objet de ltude
K
Nous sommes en prsence de K tableaux nots X (k) k=1 , chacun aect dun poids k . En gnral ces poids sont tous identiques et gaux 1/K , ce qui signie que nous navons aucun a priori, aucune envie de favoriser un tableau plutt quun autre. Chaque tableau regroupe des mesures de variables qui sont des variables quantitatives. Nous souhaitons tudier les proximits ou les ressemblances entre les tableaux X (1) , X (2) , . . . , X (K ) . De manire plus prcise chaque tableau X (k) est dni par une des possibilits de la liste ci-dessous. 1. Chaque X (k) contient la mesure de qk variables sur les mmes n individus. Lespace des lignes (ou espace des individus) est donc Rqk et il a une dimension dirente chaque tableau. Cet espace est muni de la mtrique Q(k) . Lespace des colonnes (ou espace des variables) est Rn et il est muni de la mtrique D = diag(. . . , pi , . . . ). En pratique D = diag(. . . , 1/n, . . . ) et chaque Q(k) est lidentit dordre qk . Ici regarder la ressemblance entre tableaux peut tre vu comme regarder la ressemblance globale des tableaux, mais aussi regarder si les ressemblances entre ces n individus communs sont les mmes dun tableau lautre (existe t-il un consensus ?), voire regarder les volution autour de ce consensus selon les tableaux. Dun point de vue analyse des donnes nous sommes en prsence de K triplets {(X (k) , Q(k) , D )}K k =1 et dune mtrique diagonale de poids des tableaux = diag(. . . , k , . . . ). Ce cadre est appel mthode Statis ou ACT. 2. Chaque X (k) contient la mesure des mmes p variables sur nk individus dirents dun tableau lautre. Ici lespace des individus (ou lignes) est Rp et il est muni de la mme mtrique Q. Par contre lespace des variables (ou colonnes) est Rnk et il est muni de mtrique D (k) qui est une mtrique diagonale des poids des individus. En pratique les mtriques sont D (k) = diag(. . . , 1/nk , . . . ) et Q = Ip . Ici regarder la ressemblance entre tableaux peut tre vu comme regarder la ressemblance globale des tableaux, mais aussi regarder si les relations entre les variables sont conserves dun tableau lautre, dune partie de la population lautre. On sintressera un comportement commun ou compromis et savoir les volutions des tableaux autour de ce compromis. 43
44
Chapitre 2. Analyse conjointe de tableaux ACT-STATIS Dun point de vue analyse des donnes nous sommes en prsence de K triplets (X (k) , Q, D (k) ) et dune mtrique diagonale de poids des tableaux = diag(. . . , k , . . . ). Ce cadre est appel mthode Statis-duale ou ACT-duale. 3. Chaque X (k) contient la mesure des mmes p variables sur les mmes n individus. Nous avons donc les mmes mtriques Q pour lespace des individus et D pour lespace des variables. En pratique Q vaut souvent Ip et D = diag(. . . , 1/n, . . . ). Dun point de vue analyse des donnes nous sommes en prsence de K triplets (X (k) , Q, D ) et dune mtrique diagonale de poids des tableaux = diag(. . . , k , . . . ). Ce cadre est appel mthode pr-Statis ou Statis sur les X .
K k =1 K k =1
mtriq
K
ue
Tableaux
n D n mtrique
K X (K ) X (k)
1 individus
n 1 X (1) p
variables q
Q
q mtrique
Figure 2.1 Statis sur les X , schma rcapitulatif. Exemple 4 (Statis) Nous souhaitons comparer lvolution des pourcentages de votes aux lections prsidentielles dpartement par dpartement lors des lections de 1969, 1974, 1981 et 1988. Les K = 4 tableaux sont les 4 lections prsidentielles : 1969, 1974, 1981 et 1988. Les individus statistiques sont les dpartements franais. Les variables sont les pourcentages obtenus par 1 ou des candidats ; les candidats ayant un trs faible pourcentage sont regroups par anit politique. Bien videmment le nombre qk et les variables changent dune lection lautre, dun tableau lautre. Exemple 5 (Statis-duale) Nous souhaitons comparer les variables quantitatives poids, tailles, taux de cholestrol sur dirents dpartements (au nombre de 10). MASS - Rennes 2 Analyse de donnes
2.2. Mthode STATIS Les K = 10 tableaux sont les 10 dpartements choisis pour ltude Les individus statistiques sont les individus sur lesquels sont faites les mesures. Les variables sont les p = 3 variables suivantes : poids, tailles et taux de cholestrol. Bien sr les individus sont dirents dun dpartement lautre et ne sont pas forcment en nombre identique.
45
2.2
2.2.1
Mthode STATIS
Les objets
Nous possdons les mmes n individus observs sur K tableaux et dans chaque tableau k, qk variables sont mesures sur ces individus (voir gure 2.2). Ces variables peuvent ne pas tre identiques. An de comparer les tableaux, puis de savoir sil existe un trait commun de tableau tableau, il est donc ncessaire de trouver un objet reprsentant chaque tableau et qui soit de mme taille. Cest bien sr ces objets qui seront analyss.
ue mtriq
K
Tableaux n D n mtrique 1 individus n variables Q(k) q1 Q
(1)
K X (K ) X (k) X (1) Q(K ) qk qK
q1 mtriques
Figure 2.2 Schma rcapitulatif des matrices de statis. Rappelons que nous sommes en prsence de K triplets (X (k) , Q(k) , D }K k =1 . A partir de ces triplets il serait possible de procder K ACP direntes. Cependant ces K ACP direntes ne permettent de pas situer la proximit entre les tableaux. De plus les individus sont bien reprsents mais dans K repres dirents ce qui ne permet pas une comparaison directe. Analyse de donnes MASS - Rennes 2
46
Chapitre 2. Analyse conjointe de tableaux ACT-STATIS Par contre il est intressant de fusionner les tableaux au niveau des colonnes pour former un grand tableau X = (X (1) | |X (K ) ) n lignes et q = K k =1 qk colonnes. Une ACP de ce tableau fourni bien les reprsentations des individus caractriss par toutes les variables ainsi quune reprsentation de toutes les q variables. Cependant que reprsente ces n individus, en quoi sont ils des compromis ? De plus comment faire apparatre une notion de proximit globale entre tableaux ? Nous verrons que la mthode Statis possde 3 tapes (interstructure, compromis et intrastructure) et que ltape du compromis se ramne une ACP de ce tableau X mais muni de mtriques particulires. En partant de lide raliser un compromis ou une moyenne il serait ais de faire la moyenne des tableaux. Cette ide simple est irraliste puisque les tableaux nont pas tous la mme dimension. Nous allons donc trouver une autre ide de dpart en considrant le socle de lACP (comme souvent en analyse -factorielle- des donnes). Rappelons que lACP revient analyser 2 oprateurs, loprateur V Q = X DXQ et loprateur W D = XQX D . q1 V (1) Q(1) M(q1 , q1 ) n q2 V (2) Q(2) M(q2 , q2 ) n . . . V (K ) Q(K ) M(qK , qK ) n Les dirents oprateurs W (k) D sont tous de mme dimension n n et ils reprsentent les produits scalaires entre les individus pour chaque tableau (quelquefois appel tude) multipli par la mtrique des poids D . Si lon souhaite examiner si les ressemblances entre ces n individus communs K sont les mmes dun tableau lautre (existe t-il un consensus ?), ces objets W (k) k=1 muni de leur poids D semblent tout indiqus. Par contre, pour examiner la ressemblance globale de deux tableaux, de 2 objets W (k) et W (l) il va tre ncessaire de construire une mesure de ressemblance, savoir ici un produit scalaire entre ces oprateurs. Les objets de ltude O (k) seront donc les tableaux de produits scalaires W (k) . X 1) qK W (K ) D M(n, n) X 1) W (2) D M(n, n) X 1) W (1) D M(n, n)
2.3
2.3.1
Proximit entre objets, tape de lintrastructure

Construction dune proximit
Pour mesurer la proximit entre tableaux W (k) nous allons utiliser un produit scalaire entre objets. Ce produit scalaire (dit de Hilbert-Schmidt) est dni par < W (k) , W (l) >HS = trace(W (k) DW (l) D ). MASS - Rennes 2 Analyse de donnes
2.3. Proximit entre objets, tape de lintrastructure Ce produit scalaire peut se justier dans le contexte des statistiques en considrant la distance entre tableau issus de ce produit scalaire mais aussi par la notion dorthogonalit quil engendre. Interprtation de la distance entre objets La distance au carr entre deux objets W (k) et W (l) est par dnition (et grce lquation (A.2) p. 83) W (k) W (l)
2
HS
47
= trace (W (k) W (l) )D (W (k) W (l) )D =

i,j
W (k) W (l)
ij
Djj W (k) W (l)
ji
Dii .
Rappelons que Dii = pi de mme pour lindice j et que W (k) et W (l) sont symtriques et donc leur dirence aussi. En explicitant W (k) W (l) ij nous avons donc W (k) W (l)
2
HS
=
i,j
pi pj < Xi. , Xj. >Q(k) < Xi. , Xj. >Q(l)
(k )
(k )
(l)
(l)
La distance entre 2 objets est donc la somme pondre des carrs des dirences entre produits scalaires entre individus du tableau X (k) et produits scalaires entre individus du tableau X (l) . Cest une distance classique (comme la distance euclidienne entre 2 vecteurs) pondre entre 2 lments qui sont les produits scalaires. Interprtation de lorthogonalit entre objets Le produit scalaire entre 2 objets W (k) et W (l) est par dnition < W (k) , W (l) >HS = trace(W (k) DW (l) D ) = trace(X (k) Q(k) X (k) DX (l) Q(l) X (l) D ). Or Q(k) est dnie positive symtrique donc nous pouvons lcrire comme Q(k) = A(k) A(k) (et de mme pour Q(l) ), do le produit scalaire devient < W (k) , W (l) >HS = trace(X (k) A(k) A(k) X (k) DX (l) A(l) A(l) X (l) D ). en utilisant le fait que si le produit est conforme alors trace(N M ) = trace(M N ), nous avons < W (k) , W (l) >HS = trace(A(l) X (l) DX (k) A(k) A(k) X (k) DX (l) A(l) ). En notant B = A(l) X (l) DX (k) A(k) , nous avons < W (k) , W (l) >HS = trace(BB ) =
i,j
Bij [B ]ji =
i,j 2 ij
2 Bij
< W (k) , W (l) >HS =

i,j
(l)
(l)
DX (k) A(k)
0.
En conclusion partielle nous obtenons donc que les produits scalaires entre tableaux sont toujours positifs. Examinons maintenant le cas o le produit scalaire est nul, savoir les deux objets sont orthogonaux au sens dHilbert Schmidt. Analyse de donnes MASS - Rennes 2
48
Chapitre 2. Analyse conjointe de tableaux ACT-STATIS Si < W (k) , W (l) >HS = 0 cela est quivalent Bij = 0(i, j ). Rappelons que A(k) (et A(l) ) sont construites de telle sorte que Q(k) = A(k) A(k) , qui est une matrice dnie positive, donc de noyau (ker(Q)) rduit {0}. Nous avons donc < W (k) , W (l) >HS = 0 X (l) DX (k) = 0. Ceci revient dire que 2 objets k et l sont orthogonaux si et seulement si les variables du tableau initial X (k) et du tableau initial X (l) ne sont pas corrles, si ces tableaux sont centrs, ce qui est le cas (presque) gnral... Interprtation du produit scalaire dans un cas particulier Si nous avons Q(k) = Iqk , k {1, . . . , K }, ce qui est un cas trs frquent, alors < W (k) , W (l) >HS =
i,j
X (l) DX (k)
(l) (k )
2 ij
=
i,j
< X.j , X.j >2 D.
Si toutes les variables sont centres (et rduites) alors le produit scalaire entre 2 objets k et l est la somme du carr de toutes les covariances (corrlations) entre les variables de ltude k et de ltude l.
2.3.2
Etude de la proximit
Nous sommes donc en prsence de kl =< W (k) , W (l) >HS , (k, l) {1, . . . , K }2 qui sont des produits scalaires que nous regroupons dans une matrice K K . Nous souhaitons tudier ces produits scalaires simplement. Leur tude nous permettra dobtenir ce que nous souhaitons, savoir une analyse de la proximit entre tableaux et ce au sens global. Pour analyser ces produits scalaires, nous allons donc construire une image euclidienne de cest dire reprsenter graphiquement tous les individus (ie les objets). Le graphique nous renseignera sur la proximit, deux points proches sur le graphique et bien reprsents, seront proches au sens de leur produit salaire. Rappelons que chaque objet k est muni dun poids k qui permet de pondrer certaines tudes peu ables. Cepedant, en gnral, nous utilisons des poids uniformes k = 1/K . La technique de construction dune image euclidienne est la mme quen ACP, o lon calcule loprateur W D qui est la matrice des produits scalaires multiplie par sa mtrique. 1. Construction-calcul de 2. Diagonalisation de . Notons 1 le vecteur propre norm 1 ( 1 2 = 1) associ 1 la plus grande valeur propre de . De mme pour (2 , 2 ) (K , K ). 3. La reprsentation de chaque objet W (k) est donne par 1 point Ak de coordonnes sur laxe . Ces coordonnes sont [ ]k , o = et est le vecteur propre -norm lunit de . La reprsentation dans le plan 1-2 est appele reprsentation de linterstructure.
Thorme 2.3.1 (Frobenius) Toute matrice symtrique ayant tous ses termes positifs admet 1 premier vecteur propre dont toutes les coordonnes sont de mme signe. MASS - Rennes 2 Analyse de donnes
2.3. Proximit entre objets, tape de lintrastructure
49
Axe 2
A1 A2 [ 1 ]2 A3
Axe 1
A4
Figure 2.3 Reprsentation de linterstructure. Pas de problme de norme : les ches ont toutes approximativement la mme longueur.
Axe 2
A1
A2 A3 A4
Axe 1
Figure 2.4 Reprsentation de linterstructure. Problme de norme : les ches nont pas toutes la mme longueur. En appliquant ce thorme puisque kl 0 nous avons donc que 1 peut tre choisi comme constitu uniquement de valeurs positives. Il sensuit une reprsentation dans le plan 1-2 de linterstructure du type reprsent dans les gures 2.3 et 2.4 . Remarquons quen ACP (centre rduite), lorsque toutes les variables sont corrles positivement, alors tous les termes de V sont positifs et on peut choisir un axe principal a 1 de norme carre la valeur propre dont toutes les coordonnes sont positives. Ces coordonnes sont les coordonnes sur laxe 1 des p variables et nous obtenons alors leet taille dont les reprsentations sont similaires celles obtenues lors de linterstructure.
2.3.3
Problme de norme et coecient RV
De mme quen ACP on prfre normer les variables 1, pour statis on peut tre confront des tableaux de normes trs direntes (voir gure 2.4). Or kl = < W (k) , W (l) >HS = W (k) HS W (k) HS cos(OAk , OAl ), donc si les normes sont trs direntes ce nest pas langle qui intervient mais la norme, ce qui est d une qualit intrinsque de lobjet et non pas d une proximit entre 2 objets. Dans ce cas on construit la matrice dlment courant kl = < W (k) , W (l) >HS = coecient RV entre les tableaux W (k) D et W (l) D . W (k) HS W (k) HS = cos(OAk , OAl ) MASS - Rennes 2
Analyse de donnes
50
Chapitre 2. Analyse conjointe de tableaux ACT-STATIS o Ak et Al sont les points reprsentant les objets k et l dans limage euclidienne de linterstructure. En conclusion le coecient RV est un coecient de corrlation entre tableaux ou de distance W (k ) . entre nuages de points. Dans ce cas l on travaille dans statis avec les objets norms W (k )
HS
2.4
Calcul du compromis
Aprs avoir tudi la proximit globale entre tableaux via les objets, nous allons laborer un objet et appel compromis. Plusieurs possibilits sont oertes. moyen not W 1. La moyenne classique des objets W 2. La moyenne pondre des objets
K K
1 K
W (k) .
k =1
W 3. Le compromis habituel pour statis
=
k =1
k W (k) .
=
k =1
[1 ]k W (k) ,
o 1 est le premier vecteur propre de dont toutes les coordonnes sont positives. Nous nallons utiliser ici que le compromis habituel 3. Aucun logiciel nest pour le moment capable de proposer dautres compromis, ce choix ne sera donc pas trs restrictif en pratique. Remarque est semi dni positif et donc diagonalisable. 1. Le compromis W En eet toute combinaison linaire coecients positifs de matrice semi dnie positive (comme les W (k) ) donne une matrice semi dnie positive. Or grce au thorme de Frobenius, nous avons que 1 est constitu de coordonnes de mme signe que lon choisit positive, est semi dni positif. donc W est optimal dans le sens o cest la combinaison linaire des objets W (k) 2. Le compromis W dont les coecients sont de norme unit qui soit la plus covarie (au sens de Hilbert Schmidt) avec les objets initiaux W (k) :
K
= W
argmax
W =
K (k ) k=1 k W 2 =1
< W , W (k) >2 HS .

k =1
Remarque (Problmes de norme) Bien sr lorsque lon travaille avec les RV ltape de linterstructure, le compromis est calcul avec les objets norms W (k) / W (k) HS . Cest le cas de la bibliothque de programme ade4 sous GNU-R. Certains logiciels renorment le compromis an quil soit lui aussi de norme 1. Ils utilisent donc / W HS . Cest le cas du logiciel SPAD. W MASS - Rennes 2 Analyse de donnes
2.5. Etude de linterstructure et interprtations
51
2.5
Etude de linterstructure et interprtations
La gure 2.5 montre un cas dcole o un objet semble dirent des autres (sous gure a). Dans ce cas l, il serait bon de comprendre pourquoi ltude 1 est dirente et lliminer de ltude an dobtenir des tudes toutes regroupes autour du premier axe qui gure le compromis (gure 2.5.b).
Axe 2
A1 A2 A4 A3
Axe 2
Axe 1 Direction du compromis (b)
A1 A2 A4 A3
Axe 1 Direction du compromis
(a)
Figure 2.5 Interstructure avec un objet mal reprsent (sous gure a) et interstructure sans problme (sous gure b). La gure 2.6 montre 2 cas o le compromis na aucun sens. Le premier cas (a) montre des objets de mme norme mais qui nont pas de structure commune. Dans ce cas l, lanalyse sarrte. Le second cas (b) montre des objets nayant pas la mme norme, ce qui oblige travailler sur les objets norms (ou coecients RV ).
Axe 2
A4 A2
Axe 2
A1 A3
A1
A2 A3 A4
(a)
(b)
Figure 2.6 Interstructure sans structure commune (sous gure a) et interstructure sans problme (sous gure b).
2.6
Etude du compromis
Le compromis est semi dni positif (donc diagonalisable), on peut donc en extraire une image euclidienne. Cela nous donnera n points (ie les individus) reprsents au sens du compromis. Ce sera donc les individus compromis (ou moyens). Analyse de donnes MASS - Rennes 2
52
Chapitre 2. Analyse conjointe de tableaux ACT-STATIS
2.6.1
Image euclidienne du compromis
La reprsentation de cette image euclidienne du compromis se fait selon les tapes suivantes. D M(n, n). 1. Calcul de loprateur compromis W
D , ce qui donne les couples vecteur propre/valeur propre {(c , }n , o 2. Diagonaliser W =1 les valeurs propres sont ordonnes par ordre dcroissant 1 > 2 > et o chaque vecteur propre est norm lunit c 2 D = 1, . 3. Choisir un nombre daxe rduit (comme en ACP). 4. Reprsenter chaque point (les n individus compromis) par sa coordonne sur laxe . Les proximits ou non entre individus sinterprtent grce la qualit de projection (cos2 ) et permettent de montrer des ressemblances/dissemblances entre individus compromis.
Thorme 2.6.1 Si lon construit le tableau X regroupant les K tableaux initiaux suivant le schma ci dessous : X = X (1) |X (2) | |X (K ) .
LACP du triplet (X, diag(. . . , [1 ]k Q(k) , . . . ), D ) donne la mme reprsentation des individus que celle du compromis. Preuve Les coordonnes des individus sont donnes par les vecteurs propres de loprateur W D du triplet (X, diag(. . . , [1 ]k Q(k) , . . . ), D ). En crivant que W D = X diag(. . . , [1 ]k Q(k) , . . . )X D et en utilisant les proprits du calcul matriciel nous avons que
K
WD =
k =1
X (k) ([1 ]k Q(k) )X (k) D =

k =1
[1 ]k X (k) Q(k) X (k) D =

k =1
D. [1 ]k W (k) D = W
2.6.2
Interprtation des individus compromis en fonction des variables
Grce au thorme 2.6.1, nous pouvons nous dire quil est possible dutiliser la reprsentation des variables du triplet (X, diag(. . . , [1 ]k Q(k) , . . . ), D ) pour interprter les positions des individus et donc des individus compromis. Les variables sont tout simplement toutes les variables des K tudes. Le repre des variables est le mme pour toutes les tudes, contrairement K ACP direntes. Nous pouvons aussi construire exactement la mme remarque mais directement sans passer par lACP du triplet (X, diag(. . . , [1 ]k Q(k) , . . . ), D ). Rappelons quen ACP (centre rduite) si une variable (X.j Rn ) est trs corrle avec un axe alors nous avons < X.j , c >D grand en valeur absolue. Cela veut donc dire que lorsque X.j prend des valeurs loignes de la moyenne (ie 0) alors c aussi. Cette remarque vaut aussi pour c = c . Donc pour les valeurs (ou individus) i pour lesquels X.j prend des valeurs loignes de la moyenne, alors c prend aussi des valeurs loignes de la moyenne (ie 0), cest dire la coordonnes de lindividu est grande. Nous allons faire de mme ici. Nous allons donc calculer tous les produits scalaires < X.j , c >D , (k, j ) MASS - Rennes 2 Analyse de donnes
(k )
2.6. Etude du compromis et tracer, si toutes les variables de toutes les tudes sont centres rduites, des cercles de corrlations (k ) (k ) o les coordonnes des variables X.j sur laxe sont simplement < X.j , c >D . Ceci revient tracer les reprsentations variables de lACP (X, diag(. . . , [1 ]k Q(k) , . . . ), D ). Ensuiteune forte valeur [ c ]i pour lindividu i est synonyme de fortes valeurs pour les variables (k ) X.j corrles (ou covaries si les tudes sont seulement centres) avec cet axe .
53
2.6.3
Intrastructure et trajectoire
Notre objectif initial tait danalyser la ressemblance entre les tableaux, ce qui a t fait lors de ltape de linterstructure. Ensuite nous souhaitions savoir si les relations entre individus sont conserves dun tableau lautre, savoir lexistence dun compromis rsumant bien les K tableaux, ce qui est ltape dinterstructure et de calcul du compromis. Ensuite nous avons analys cet individu compromis et il nous reste connatre les volutions des tableaux autour du compromis. Nous souhaitons ici, pour chaque individu, tracer une trajectoire montrant les dirences du mme individu dun tableau lautre et ses ventuelles volutions. Pour cela nous allons utiliser le repre commun tous les individus, savoir le repre du compromis. Cette construction seectue sans rel fondement mais la pratique a montr une bonne utilit. Soit le vecteur propre c associ la valeur propre du compromis : Dc c = W 1 c = W Dc 1 Dc . c = W Nous avons donc que les coordonnes des individus compromis (contenues dans c ) sont gales Dc . Nous allons donc pour calculer les coordonnes de chaque individu de ltude k, W 1 par W (k) . On a donc les coordonnes de chaque individu de ltude k contenues dans remplacer W le vecteur c (k) qui est donn par c (k) = 1 W (k) Dc .
(k )
Ces coordonnes dnissent donc les points {Di } qui reprsentent lindividu i du tableau k pour tous les (i, k). Remarque Le point compromis de lindividu i, dont la coordonne sur laxe est donne par [ c ]i , est au centre de gravit des points Di
(k ) K k =1
aects des poids
[1 ]k .
Lorsque la trajectoire est de faible amplitude autour du point compromis (gure 2.7.a), nous pouvons dire que, pour chaque objet k, lvolution de lindividu i est conforme, voisine du point compromis. Par contre lorsque la trajectoire est de grande amplitude (gure 2.7.b), nous avons un individu qui change de structure selon les tudes k. Si lon peut dterminer grce aux variables des tudes un sens la direction de la trajectoire, cette trajectoire peut tre interprte. Analyse de donnes MASS - Rennes 2
54
(4)
Chapitre 2. Analyse conjointe de tableaux ACT-STATIS Di Di Di

(a)
(2) (1) (4) Di (2)
Di Di
(3)
Ai
Di
(3)
Ai
(b)
Di
(1)
Figure 2.7 Trajectoires de lindividu i autour du point compromis Ai .
2.7
2.7.1
Statis Duale et statis sur les X

Statis duale
Ici nous avons p variables identiques mesures sur des individus dirents. Lobjet nest plus W (k) mais V (k) = X (k) D (k) X (k) . Les produits scalaires sont toujours ceux de Hilbert Schmidt mais entre oprateurs V (k) Q et nous construisons ltape de linterstructure M(K, K ) dlment courant kl = trace(V (k) QV (l) Q). Rappelons brivement les tapes dune telle analyse. Interstructure 1. Calcul de 2. Diagonalisation de 3. Reprsentation des tudes Compromis 1. Calcul de V Q 2. Diagonalisation de V 3. Reprsentation des variables compromis 4. Reprsentation des individus de chaque tableau (si cela est utile) Intrastructure 1. Projection des variables dans le repre fourni par le compromis 2. Etude des trajectoires des variables autour de la variable compromis Ici lanalyse du compromis correspond lACP du tableau X donn par X (1) . . . X (K )
X = muni des mtriques Q et D = diag(. . . , MASS - Rennes 2
[ ]k D (k) , . . . ). Analyse de donnes
2.7. Statis Duale et statis sur les X
55
2.7.2
Statis sur les X
Ici nous avons p variables identiques mesures sur les mmes n individus. Lobjet nest plus W (k) mais X (k) lui mme. Les produits scalaires sont toujours issu dune trace, mais entre tableaux {X (k) }, ce qui donne < X (k) , X (l) >= trace(X (k) DX (l) Q). La transpose qui apparait pour le premier objet dans ce produit scalaire vient du fait que les prcdents objets de type W (k) ou V (k) pour statis et statis duale taient symtriques donc gaux leur transpos. Ici ce nest pas le cas et nous avons donc une criture un peu plus gnrale. Nous construisons ltape de linterstructure M(K, K ) dlment courant kl = trace(X (k) DX (l) Q)). Rappelons brivement les tapes dune telle analyse. Interstructure 1. Calcul de . 2. Diagonalisation de . 3. Reprsentation des tableaux. Compromis = K [1 ]k X (k) . 1. Calcul de X k =1 2. ACP de (X, Q, D ). 3. Reprsentation des variables compromis. 4. Reprsentation des individus compromis. Intrastructure 1. Projection en individus supplmentaires de toutes les nK lignes des {X (k) } dans le repre du compromis. Etude des trajectoires. 2. Projection en variables supplmentaires de toutes les pK colonnes des {X (k) }. Etude des trajectoires.
Analyse de donnes
MASS - Rennes 2
Chapitre 3
Analyse Factorielle Multiple

3.1 Objet et cadre de ltude
LAnalyse Factorielle Multiple (AFM) est due Brigitte Escoer et Jrme Pags en 1982. Cette analyse est conue pour tudier une population de n individus caractriss par un certains nombre K de groupes de variables qualitatives ou quantitatives. A chaque individu est associ un poids pi qui rete la conance dans cet individu ou la priori. Soit D la matrice diagonale de ces poids D = diag(p1 , . . . , pn ). En gnral nous navons pas da priori et les poids sont identiques et gaux 1/n, ce qui conduit D = diag(. . . , 1/n, . . . ). Chaque tableau X (k) possde un nombre de variables qui peut tre dirent. Nous le noterons qk an de le distinguer des poids des individus. Chaque espace Rqk est muni dune mtrique Q(k) qui est en gnral lidentit dordre qk . Cette mthode permet donc la comparaison de n individus mesurs sur K dirents groupes (ou tableaux) de variables selon un schma identique celui de Statis. 1. Etude de linterstructure, cest dire comparaison des tableaux globalement au sens de leurs individus communs. 2. Elaboration dun compromis, tableaumoyen ou compromis des tableaux. Ce tableau permet ltude de n individus compromis et de voir leur lien avec les variables de tous les K tableaux. 3. Etude des trajectoires individuelles (intrastructure ) autour des individus compromis an de voir lvolution des individus dun tableau lautre. La prsentation classique de lAFM ne suit pas lordre expos ci dessus. En eet il nest pas ais de suivre cet ordre, ltape de linterstructure est beaucoup moins naturelle que celle de Statis. An de comprendre la mthode nous dfrerons la prsentation de cette tape la n. Bien entendu lors de linterprtation dune AFM, lordre interstructure-compromis-intrastructure semble naturel et donc privilgier. Rsumons graphiquement les donnes et leur mtriques associes. 57
58
Chapitre 3. Analyse Factorielle Multiple
1 1 X (1) n Q(1)
q1
q2
1 X (3)
q3
1 X (K )
qK
X (2)
D=
p1 .. . pn
Q(2)
Q(3)
Q(K )
3.1.1
ACP globale
Rappelons que ltape du compromis de Statis est une ACP particulire du triplet suivant (cf thorme 2.6.1, p. 52) (X = (X (1) | |X (K ) ), Q = diag(. . . , [1 ]k Q(k) , . . . ), D ). Nous allons ici construire une autre mtrique Q qui va permettre de construire une analyse sense. Si nous procdons simplement avec Q = diag(. . . , [1 ]k Q(k) , . . . ), alors nous mlangeons tous les tableaux et nous perdons cette sparation entre tableaux. Quels en sont les eets ? Rappelons quen gnral le nombre de variables est dirent dun tableau lautre. Si lon ne pondre pas les groupes qui ont le plus de variables (qk trs grand), alors ce groupe va inuencer la recherche des axes puisquil a beaucoup de variables. Rappelons que linertie totale en ACP centre rduite est gale au nombre de variables. De plus, si dans un (ou des) groupe(s) il existe une structure commune trs forte (variables trs corrles) et que dans les autres groupes cela nest pas le cas, alors le (les) groupes qui a (ont) cette structure commune va (vont) inuencer lanalyse. En conclusion avec cette mtrique simple Q les groupes ne sont pas galit 1 .
3.1.2
AFM et choix de la mtrique Q
Lide gnrale est donc de confrer chaque groupe k le mme poids dans lanalyse. Cette ide peut tre mise en uvre de direntes manires selon que lon considre que le mme poids dans lanalyse signie le mme poids dans la dtermination du premier axe, axe le plus important en analyse factorielle, ou signie plutt le mme poids dans la dtermination de tous les axes au sens global, ce qui abouti des concessions pour chaque axe. Bien entendu, lide du mme poids pour chaque groupe dans lanalyse traduite en chaque groupe intervient galit pour dterminer laxe 1 puis laxe 2 etc. nest pas ralisable. LAFM au sens classique du terme consiste pondrer chaque groupe an quils interviennent galit dans la dtermination du premier axe. Cette ide est trs simple mettre en uvre. Il sut de sur-pondrer (donner un poids supplmentaire) Q(k) en remplaant cette mtrique par k Q(k) . Ltape du compromis de Statis revient choisir cette sur-pondration k gale [1 ]k la ke coordonne du premier vecteur propre 1 de , la matrice des produits scalaires entre objets. Ici chaque tableau X (k) peut faire lobjet dune ACP via le triplet (X (k) , Q(k) , D ). Le premier axe (k ) possde une inertie de 1 , la premire valeur propre de W (k) D . Ce groupe de variables k propose (k ) donc une direction (laxe) avec une inertie (un poids dans la proposition) de 1 . Il sut donc de
1. Par analogie, un groupe de personne nombreux et structur -qui vote dans le mme sens- possde un trs fort poids lors de choix de dcision en assemble
MASS - Rennes 2
Analyse de donnes
3.2. Mise en uvre de lAFM proposer une sur-pondration k = 1/1 et la proposition de chaque groupe pour le premier axe aura le mme poids de 1. Ltape du compromis de lAFM sera donc btie autour de lACP du triplet (X = (X (1) | |X (K ) ), Q = diag(. . . , Q(k) /1 , . . . ), D ), o 1
(k ) (k ) (k )
59
reprsente la plus grande valeur propre issue de lACP du triplet (X (k) , Q(k) , D ).
Remarque (k ) 1. Linertie de la premire composante principale de chaque groupe de variables est 1 . Cest donc la plus grande valeur propre issue de lACP du triplet (X (k) , Q(k) , D ). Ensuite les (k ) (k ) proposition pour les axes suivants ont moins de force puisque 1 > 2 > . Il sensuit (k ) (k ) (k ) que linertie cumule des variables de chaque groupe vaut 1 = 1 /1 = 1 /k sur le (k ) (k ) premier axe (par construction), puis dcrot 2 /1 < 1 etc.. Linertie de chaque groupe k de variables est donc infrieure (axe 2,3 etc.) ou gale 1 (axe 1). 2. La sur-pondration est telle que linuence de chaque groupe est quilibre dans le choix de la premire composante principale de lAFM. Pour choisir une sur-pondration qui accorde chaque groupe la mme inuence globale, il sut de choisir les sur-pondrations gales min(n,q ) linertie totale de chaque groupe de variables, ie k = =1 k (k) .
3.2
3.2.1
Mise en uvre de lAFM

Calcul de la sur-pondration
(k ) K k =1
An de pouvoir dterminer la mtrique globale Q le logiciel calcule 1 (X (k) , Q(k) , D ).
qui sont les premires
la mtrique Q globale est constitue, Q = diag(. . . , Q(k) /1 , . . . ).
valeurs propres des ACP des triplets Ensuite les tableaux X (k) sont concatns, il en rsulte le tableau X = (X (1) | |X (K ) ). Enn
(k )
3.2.2
Etape du compromis
Cette tape est bien sr lACP du triplet (X, Q, D ). La reprsentation des individus revient calculer le compromis suivant :
K
D = W
k =1
W (k) D/1 =
k =1
(k )
X (k) QX (k) D/1 .
(k )
D donne les produits scalaires (pondrs) entre individus compromis et il est Ce compromis W (k ) simplement la moyenne pondre par 1/1 des produits scalaires (pondrs) entre individus de chaque tude k, ie les W (k) D . Comme en ACP nous choisissons le nombre daxes q de notre repre en utilisant les valeurs propres de lACP de (X, Q, D ). Une autre mesure spcique de qualit des axes existe aussi (voir 10 p. 63). Ensuite on reprsente limage euclidienne de ce compromis (ou on reprsente les individus de lACP de (X, Q, D ) ce qui est la mme chose). Analyse de donnes MASS - Rennes 2
60
Chapitre 3. Analyse Factorielle Multiple Cette tape permet de tracer le graphique factoriel des individus compromis. Bien entendu on peut, puisque cela est une ACP, associer un sens la position de chaque individu grce la reprsentation de toutes les q = k qk variables. La reprsentation des variables permet, dans un repre commun, de les reprsenter. Au vu du nombre important de variables, il peut tre utile de scinder ces reprsentations par groupe de variables, en gardant bien sr la mme chelle, puisque le repre est commun.
3.2.3
Etape de lintrastructure, les trajectoires
Dans ltape prcdente nous avions les lignes de X qui appartiennent Rq . Ainsi la ligne i note Xi. Rq est simplement (en prenant tout vecteur comme vecteur colonne ou matrice unicolonne)
Xi. =
Xi.
(1)
Xi.
(2)
Xi.
(k 1)
Xi.
(k )
Xi.
(k +1)
Xi.
(K )
Cette ligne i prend en compte tous les tableaux et il sagit de la ligne associe lindividu compromis. Pour ltape de lintrastructure, nous souhaitons tracer lindividu i tel quil est reprsent par le tableau 1, puis le tableau 2 etc. et ce dans un repre commun. Le repre commun est simplement le repre du compromis, ce qui est pour les individus un repre de Rq . Si nous souhaitons maintenant (k ) utiliser la description de lindividu i uniquement par le tableau k, nous avons au dpart Xi. qui est un vecteur de Rqk et non pasRq . An de plonger ce vecteur dans Rq nous allons lui adjoindre (k) Rq suivant des blocs de 0 et constituer le vecteur X i. (k) = X i. 0q1 0q2 0qk1 Xi.
(k )
0qk+1
0qK
(3.1)
Ce vecteur de Rq peut ensuite tre projet dans le repre du compromis an dtre reprsent. Le (k) est souvent appel individu partiel i (pour le tableau k). Le point rsultant B (k) sera vecteur X i. i la reprsentation de lindividu i pour le tableau k. Nous pouvons donc reprsenter les trajectoires qui seront pour chaque individu i lensemble des points Remarquons que 1 K
K k =1
Bi
(k ) K
k =1
(k) = 1 Xi. . X i. K
Nous pouvons avoir une reprsentation barycentrique o la moyenne des points des trajectoires est la reprsentation de lindividu compromis Xi. 1/K prs. An davoir une vraie reprsentation 1 Xi. , cest dire barycentrique, il sut de reprsenter non pas lindividu compromis i mais K comprimer la reprsentation en multipliant les coordonnes de lindividu compromis par 1/K . MASS - Rennes 2 Analyse de donnes
3.2. Mise en uvre de lAFM Bi Ai Bi

(5) (1)
61
Bi
(2)
Bi
(3)
Bi
(4)
Figure 3.1 Trajectoires de lindividu i autour du point compromis Ai .
3.2.4
Etape de linterstructure
Jusquici aucune analyse de la proximit entre tableaux na t faite. Dans Statis, cette tape est faite en considrant les produits scalaires (au sens de HS) entre objets {W (k) }. En AFM, nous avons notre repre du compromis, a1 , a2 , . . . , aq Rn . Nous souhaitons avoir une mesure des liens entre les tableaux (via leur objet reprsentant W (k) M(n, n)) et 1 axe a Rn . Nous connaissons une mesure de proximit entre 2 matrices (semi-dnies positives symtriques) W (k) M(n, n) via le produit scalaire de Hilbert Schmidt. Il nous faut donc construire une matrice semi-dnie positive symtrique partir de a Rn . Il sut pour cela dutiliser le fait que a a est semi-dnie positive symtrique (de rang 1). Nous allons donc utiliser la mesure de liaison entre un objet k et un axe Lg (W (k) , a ) = 1
(k ) 1 (k ) < W (k) , a a Da a >HS = trace(W D ).
Nous pouvons donc construire une reprsentation des liens entre les tableaux et les axes (gure 3.2) permettant danalyser la ressemblance entre tableaux. Evidemment cette reprsentation nest pas aussi propre que celle de Statis. Par contraste, les trajectoires de Statis ne sont pas aussi propres que celles de lAFM.
Axe 2
Lg (W (1) , a2 ) Lg (W (2) , a2 )
Objet 1 Objet 2 Axe 1
Lg (W (1) , a1 )
Lg (W (2) , a1 )
Figure 3.2 Interstructure et AFM Remarque (k ) Dans le cas ou les mtriques Q(k) sont diagonales (diag(. . . , qk , . . . )), la mesure de liaison Lg possde une interprtation agrable. La mesure de liaison Lg (W (k) , a ) reprsente linertie des (k ) variables projetes sur laxe a 1 prs. Analyse de donnes MASS - Rennes 2
62
Chapitre 3. Analyse Factorielle Multiple En eet linertie des variables projetes (ou somme des variances empiriques si les tableaux sont centrs) est dnie par
qk j =1
qj
2 D
(k )
Pa (X.j )
(k )
qk 2 D
=
j =1 (k )
qj
(k )
1 1 < a (a Da ) a DX.j , a (a Da ) a DX.j >D .
(k )
(k )
Or a
qk j =1 (k ) qj
= a Da = 1 et X.j Da R, donc nous avons

qk
(k ) Pa (X.j ) 2 D
=
j =1 qk
(k ) qj
<
(k ) (k ) a a DX.j , a a DX.j (k ) (k )
qk
>D =
j =1 (k )
qj X.j Da a Da a DX.j
(k )
(k )
(k )
=
j =1 (k )
qj (X.j Da )(X.j Da ) = X.j Da
(k )
2 . Q (k )
Comme X.j Da
qk j =1
2 Q (k ) (k )
R il est gal sa trace et nous pouvons permuter les produits

2 D = trace(a DX.j QX.j Da ) = trace(X.j QX.j D a a D ) (k ) (k ) (k ) (k )
qj
(k )
Pa (X.j )
= 1 Lg (W (k) , a ).
(k )
3.3
Optimalit et AFM
Revenons sur la construction du compromis de lAFM. Selon le problme initial, nous souhaitons (k ) reprsenter les individus dun tableau lautre. Les individus originaux sont les vecteurs Xi. (k) (3.1). Rqk , et ce quelque soient i et k. Ces individus peuvent tre plongs dans Rq en utilisant X i. Le but dune reprsentation est davoir la reprsentation la plus explicative possible en terme (k) , aects de leur poids. dinertie. Il faudrait donc maximiser linertie de tous les points X i. Cependant, comme nous souhaitons analyser les trajectoires, il faudrait que les trajectoires soient interprtables, cest dire que le point i soit assez ressemblant dune trajectoire lautre. En eet, comme il sagit du mme individu sur direntes tudes, nous souhaitons quil soit reprsent de (k) entre individus (et non pas manire voisine dun tableau lautre et plutt distinguer les X i. K (k ) doivent tre proches de leur entre tableaux). Cela signie quen terme dinertie, les X
i. 1 centre de gravit qui est K Xi. , et ce pour tous les individus i, i {1, . . . , n}. En conclusion grce au thorme de la dcomposition de linertie autour du barycentre (Huyghens) on a k =1
Inertie totale = Inertie inter barycentre + Inertie intra trajectoire Comme nous souhaitons maximiser linertie totale et minimiser linertie intra trajectoire, il est naturel de maximiser linertie Inter barycentre, cest dire faire lACP du tableau constitu des 1 K Xi. en ligne i, ce qui est identique lACP de X . Bien sr le choix de la mtrique Q nest pas remis en cause et nous aboutissons au triplet (X, Q, D ). MASS - Rennes 2 Analyse de donnes
3.3. Optimalit et AFM Remarque (qualit dun axe) Nous avons un critre de mesure de qualit dun axe spcique lAFM. La qualit dun axe du compromis peut tre mesure par Inertie inter Inertie totale = 1
K
63
Inertie intra . Inertie totale
(k) sont susamment proches dun tableau Si ce rapport est proche de 1, les points X i. k =1 lautre pour que le point compromis signie quelque chose et donc les projections dans ce repre (les trajectoires) sont interprtables. Une tude ne des trajectoires a un sens. K (k) Si ce rapport est proche de 0, les points X (ie les dirences dun tableau lautre)
i.
sont si loigns que les projections sur cet axe risquent dtre ininterprtables. Une tude ne des trajectoires sur cet axe nest a priori pas utile.
k =1
Analyse de donnes
MASS - Rennes 2
Chapitre 4
Analyse en composantes principales par rapport des variables instrumentales

4.1 Dnition et proprits
Nous sommes en prsence de 2 tableaux de donnes, Xnp et Ynq . Ils contiennent les observations, sur les mmes n individus statistiques, de p et q variables quantitatives continues. Le tableau Y est le tableau des variables expliquer alors que le tableau X est le tableau des variables explicatives. Lespace des variables Rn est muni dune mtrique D = diag(. . . , pi , . . . ) des poids des individus. En pratique cette mtrique est gnralement D = diag(. . . , 1/n, . . . ). Par ailleurs lespace des individus dans le tableau des variables expliquer est Rq et il est muni dune mtrique Q qui est, en gnral, Iq . Enn lespace des individus dans le tableau des variables explicatives est Rp . Il est muni dune mtrique R qui est inconnue. Nous avons donc un premier triplet (Y, Q, D ) expliquer et un second triplet (X, R, D ) explicatif o R est une mtrique inconnue. Exemple 6 (Indices de dveloppement en 1984) Nous sommes en prsence de 48 individus qui sont 48 pays. Sur chaque individus sont mesurs le produit intrieur brut par habitant dont on en prend le logarithme nprien (variable note lpib), le taux de croissance de la population en 1 pour 1000 (variable note croipop), le taux de mortalit infantile (en 1/1000) dont on prend le log (variable note lmorta), le pourcentage danalphabtisme dont on en prend le log(% + 1) (variable note lanalp) et le pourcentage de scolarisation pour la catgorie 11-17ans dont on prend 100 % (variable note rscol). Toutes ces mesures sont indiques comme tant de 1984. Nous allons tenter dexpliquer les 3 dernires variables qui peuvent tre vues comme des indices de dveloppement alternatifs par les 2 premires qui peuvent tre vues comme des indices de dveloppement classiques (conomiques). Le tableau Y est donc de dimension 48 3, 48 pays lmorta, lanalp, rscol et le tableau X est de dimension 48 2, 48 pays lpib, croipop. Les variables ntant pas toutes sur la mme chelle, nous allons centrer et rduire toutes les variables. La premire analyse, la plus simple, consisterait eectuer 3 rgressions multiples. Les 3 rgressions linaires simples (sans ordonne lorigine) permettent de trouver > lm(lmorta~-1+lpib+croipop,data=Z) 65
66
Chapitre 4. Analyse en composantes principales par rapport des variables instrumentales Coefficients: lpib croipop -0.6796 0.3332 > lm(lanalp~-1+lpib+croipop,data=Z) Coefficients: lpib croipop -0.6171 0.3322 > lm(rscol~-1+lpib+croipop,data=Z) Coefficients: lpib croipop -0.6394 0.2483 Il semblerait que nous ayons 3 fois les mmes coecients (ou presque) : (0.6, 0.3). On pourrait donc se dire quau lieu 2 variables explicatives, une seule surait, une composante (nouvelle variable) dnie par c1 = 0.6X1 + 0.3X2 . Le modle serait alors Y1 1 c1 , Y2 2 c1 , Y3 3 c1 . Dun autre cot nous pouvons reprsenter les 48 pays selon leur proximit relatives (produit scalaires) donnes par les variables de Y ou de X . Ceci correspond aux reprsentations des individus pour lACP de X et de Y . Ici nous slectionnons 2 axes pour chacune des ACP.
0.0 0.5 1.0 1.5 2.0 Inde URSS Chili Iran Kenya Prou Yougoslavie Finlande Mexique Core.Sud Espagne Algrie Brsil Grce Cameroun Irlande Canada Vietnam Egypte Syrie Cuba Etats.Unis Turquie Maroc Japon Nigria Argentine Ethiopie Indonsie Venezuela Chine RFA Nicaragua Sngal Isral Suisse Haute.Volta Mozambique France Pologne Niger Italie Royaume.Uni Madagascar Sude Australie Afrique.Sud Hongrie Syrie Nicaragua 0.0 1.0
Kenya Hongrie Chine Haute.Volta Inde Ethiopie Indonsie Vietnam Mozambique
Cuba VenezuelaYougoslavie Madagascar Royaume.Uni Pologne Argentine Sngal RFA Italie Core.Sud Niger URSS Chili Espagne Sude Grce Egypte Cameroun France Maroc Turquie Irlande Finlande Brsil Japon Prou Suisse Canada Etats.Unis Mexique Nigria Australie Iran Isral Algrie Afrique.Sud
Figure 4.1 Proximits des individus sur le plan 1-2. Reprsentation selon les variables de X (gure de gauche) et de Y (gure de droite). Bien que cela soit les mmes individus, les proximits changent selon les variables (gure 4.1). Nous MASS - Rennes 2 Analyse de donnes
4.1. Dnition et proprits pouvons donc essayer de faire concider ces deux reprsentations en changeant le produit scalaire de lune des 2. Nous allons voir que ces 2 approches concident et se compltent dans ce que lon appelle lAnalyse en Composantes Principales par rapport des Variables Instrumentales (ACPVI). La premire dnition (ci-dessous) va correspondre lapproche o lon essaie de faire concider deux produits scalaires entre individus. La seconde dnition (ACPVI au sens de Rao 4.2.1 , p. 69) correspond la recherche de variables explicatives communes (notes c1 , c2 , . . .) qui sont construites comme combinaison linaire des variables de dpart (notes X.1 , X.2 , . . . , X.p ). Dnition 4.1.1 (ACPVI) Soit un triplet (Y, Q, D ) expliquer et un second triplet (X, R, D ) explicatif o R est une mtrique inconnue. LAnalyse en Composantes Principales par rapport des Variables Instrumentales (ACPVI) comporte 2 tapes. telle que la reprsentation des individus dans le triplet expliquer 1. Tout dabord chercher R soit le plus proche de la reprsentation des individus dans le triplet explicatif : = argmin trace (XRX D Y QY D )(XRX D Y QY D ) R
R
67
(4.1)
= argmin XRX D Y QY D R
R
2
HS
trouve, lACPVI consiste en lACP du triplet 2. Une fois cette transformation optimale R D ). (X, R, Grce au triplet (Y, Q, D ), nous avons la description des n individus statistiques grce leur ressemblance (ie par leur produit scalaire) entre eux. Puisque les individus sont les mmes nous souhaitons donc retrouver cette ressemblance dans le triplet (X, R, D ) explicatif et donc nous cherchons le produit scalaire adapt. Cette recherche est simplement conduite en minimisant la distance issue du produit scalaire de Hibert Schmidt entre les 2 oprateurs WX = XRX et WY = Y QY (voir aussi 2.3.1, p. 46). Enn nous reprsentons au mieux le triplet explicatif grce une ACP, ce qui permet de voir deux reprsentations, variables et individus. La reprsentation individus permet de voir les proximits entre individus telles que dcrites au mieux par les variables explicatives. La reprsentation variable permet de voir comment les variables explicatives interviennent dans lexplication de Y : variables utiles (bien projetes), variables inutiles, variables lies ou non etc.. Bien entendu puisque nous bncions dun repre de Rn (lespace des variables) nous pouvons y projeter les q variables de Y an de voir celles qui sont bien expliques. Thorme 4.1.1 (mtrique de lACPVI) La mtrique optimale solution de lquation (4.1) est la mtrique suivante = (X DX )1 X DY QY DX (X DX )1 . R qui ralise le minimum de Preuve Nous cherchons la mtrique R g(R) = trace (XRX D Y QY D )(XRX D Y QY D ) . Analyse de donnes (4.2) MASS - Rennes 2
68
Chapitre 4. Analyse en composantes principales par rapport des variables instrumentales Soit PX = X (X DX )1 X D le D projecteur orthogonal sur limage de X , (X ) et notons WX = XRX , WY = Y QY . Nous avons alors g(R) = trace (WY D WX D )2 = trace (WY D PX WY DPX + PX WY DPX WX D )2 = trace (WY D PX WY DPX )2 + trace (PX WY DPX WX D )2 + trace {(WY D PX WY DPX )(PX WY DPX WX D )} + trace {(PX WY DPX WY D )(WY D PX WY DPX )}
2
HS
WY D PX WY DPX
+2 trace {(WY D PX WY DPX )(PX WY DPX WX D )} .

(1)
+ PX WY DPX WX D
HS
Intressons nous au terme crois (1) ; en dveloppant nous obtenons = trace{(WY DWX D } + trace{PX WY DPX WX D }
(1) = trace{(WY DPX WY DPX } trace{(WY DWX D } trace{PX WY DPX PX WY DPX } + trace{PX WY DP En dveloppant le dernier terme nous avons trace{PX WY DPX WX D } = trace{WY DPX WX DPX } = trace{WY DPX XQX DPX } En conclusion g(R) = WY D PX WY DPX
2
HS
= trace{WY DXQX DX (X DX )1 X D } = trace{WY DWX D }. + PX WY DPX WX D

2
HS
et pour raliser le minimum il sut que WX D = PX WY DPX , cest dire que = (X DX )1 X DY QY DX (X DX )1 . R Remarque (ACPVI et coecient ) (4.1) vaut donc La fonction objectif minimiser de lACPVI g(.) (quation (4.2)) au point R ) = g(R WY D PX WY DPX
2
HS
En se ramenant la trace et en dveloppant le carr on trouve ) = g(R = trace(WY DPX WY DPX ) trace(WY DPX WY DPX ) = WY D WY D 2 HS (1 WY D 2 HS WY D
HS
HS (1
{trace(WY DPX WY DPX )}2 ). 2 WY D 2 HS PX WY DPX HS
Selon la dnition du coecient RV nous avons ici ) = g(R WY D

2
HS
(1 RV (WY D, PX WY DPX )2
La valeur de la fonction objectif est simplement le produit de la norme carr de WY D multipli par (1 RV (WY D, PX WY DPX )2 . Cette fonction objectif est dautant plus faible que la norme carr de WY D est faible (ie faibles norme carre de tous les individus), ce qui ne dpend pas des variables explicatives. Cette fonction est aussi faible lorsque RV (WY D, PX WY DPX )2 est proche de 1, cest dire que les oprateurs produits scalaire se ressemblent (voir aussi la section 2.3.1, p. 46). MASS - Rennes 2 Analyse de donnes
4.2. Autres prsentations de lACPVI
69
4.2
4.2.1
Autres prsentations de lACPVI

Inertie des carts
Dnition 4.2.1 (ACPVI au sens de Rao) LACPVI se droule en 2 tapes. des variables explicatives qui se rapproche 1. Nous allons chercher la transformation linaire H le plus possible des variables expliquer au sens suivant :
n
= H
argmin
H M(q,p) i=1
pi Yi. HXi.
2 Q,
cest dire rendant minimale linertie des carts entre les individus expliquer et les individus transforms par H . , Q, D ), o X H est le tableau X transform 2. LACPVI consiste alors en lACP du triplet (X H linairement par H . Thorme 4.2.1 (transformation linaire optimale de rang maximum) La transformation linaire optimale de rang maximum (gal min(n, q, p)) de lACPVI au sens de Rao est dnie par : = Y DX (X DX )1 . H Remarque LACPVI revient donc lACP de (X (X DX )1 X DY Q, D ), cest dire (PX Y, Q, D ). Preuve Linertie des carts est dnie par
n
f (H ) =
i=1
pi Yi. HXi.
2 Q.
On trouve par calcul matriciel que f (H ) = trace{(Y XH )Q(Y XH ) D } + XH XH )Q(Y X H + XH XH ) D } = trace{(Y X H En dveloppant la dernire ligne on trouve aprs quelques calculs que
n n
f (H ) =
i=1
i. pi Yi. HX
2 Q
+
i=1
HXi. pi H
2 Q.
Ceci prouve donc le thorme. Thorme 4.2.2 (transformation linaire optimale de rang q ) La transformation linaire optimale de rang k de lACPVI au sens de Rao est trouve par lACP Q, D ), cest dire lACP de (PX Y, Q, D ). de rang q de (X H, Analyse de donnes MASS - Rennes 2
70
Chapitre 4. Analyse en composantes principales par rapport des variables instrumentales la transformation optimale de rang maximum H = Y DX (X DX )1 . Nous Preuve Notons H = PX Y et donc la fonction minimiser f (H ) scrit avons que X H + XH XH )Q(Y X H + XH XH ) D } f (H ) = trace{(Y X H
(1) (2)
f (H ) = trace{(Y PX Y )Q(Y PX Y ) D } + trace{(PX Y XH )Q(PX Y XH ) D } +2 trace{(Y PX Y )Q(PX Y XH ) D } .

(3)
Le terme (1) ne dpend pas de H , nous navons donc pas nous en occuper. Montrons que le terme (3) est gal 0 : (3) = trace{(Y PX Y )Q(PX Y XH ) D } = trace{PX Y Q(PX Y XH ) D }
= trace{Y PX DPX Y Q} + trace{(H XDPX Y Q}
= trace{(PX Y ) DPX Y Q} + trace{(XH ) DPX Y Q} = trace{Y DPX PX Y Q} + 0 = 0.
Il nous sut donc de minimiser le terme (2) cest dire g(H ) = trace{(PX Y XH )Q(PX Y XH ) D }, Cette fonction minimiser est proche de celle-ci trace{(PX Y B )Q(PX Y B ) D }. avec B de rang q . Si nous trouvons la solution Bq de ce problme, est ce aussi la solution de la minimisation de g(.) et donc de f (.) ? Pour cela il faudrait pouvoir crire Bq sous la forme . Comme P Y est constitu de q vecteur de Rn qui sont lments de (X ), alors sa Bq = XHq X . meilleure approximation Bq le sera aussi. Nous pourrons donc toujours lcrire sous forme XHq Selon le thorme D.1.2, p. 92, nous savons que cette approximation Bq est donne par 1 D 2 u1 (Q 2 v1 ) + . . . + q D 2 uq (Q 2 vq ) . o u1 , v1 , . . . , uk , vk sont les colonnes de U et V associes aux r plus grandes valeurs sigulires 1 1 1 2 . . . k de la dcomposition en valeurs singulires de D 2 PX Y Q 2 . Il nous reste donc montrer que cette dcomposition revient lACP limite aux q premires valeurs propres. 1 Grce la remarque 3 (p. 92) nous savons que D 2 uk est le ke vecteur propre de W D norm lunit (not ck ). En utilisant le mme schma que cette remarque nous pouvons montrer que 1 Q 2 vk est le ke vecteur propre de V Q norm lunit (not ak ). De plus k est la racine carre de la ke valeur propre de lACP. Nous avons donc que
q min(n,q )
1 1 1 1
1 D
1 2
u1 (Q
1 2
v1 ) + . . .
+ q u q vq
=
=1
c a =
=1
c a ,
ce qui est la reconstitution lordre q de lACP, ie lACP. MASS - Rennes 2 Analyse de donnes
4.3. Reprsentations graphiques
71
4.3
Reprsentations graphiques
Comme toujours en analyse des donnes nous sommes en prsence daxes dont le nombre q est choisir. De manire analogue lACP, il sut de tracer le diagramme en btons des valeurs propres et de sarrter avant celles qui napporte que peu dinertie. En utilisant la prsentation de Rao (4.2.1 p. 69), le nombre q peut tre vue comme le rang au del duquel la transformation optimale de rang q H avec q > q ne permet quune faible diminution de linertie des carts. Autrement dit cest le rang au del duquel on ne gagne plus beaucoup en terme dinertie des carts, le modle est donc susamment explicatif au rang q . Exemple 7 (indices de dveloppement, suite) Ici lanalyse na pas beaucoup dintrt pour les reprsentations graphiques car le nombre de valeurs propres non nulles est min(n, q, p) ce qui ici est 2. Nous pouvons donc retenir 2 valeurs propres pour les reprsentations graphiques, ce qui est plus pratique quun seul axe. Cependant des ns de modlisation q = 1 sut (gure 4.2).
0 20 40 60 80
Figure 4.2 Valeurs propres de lACPVI.
4.3.1
Qualit de reprsentation et contributions
Comme en ACP, nous avons notre disposition le critre du cos2 (ou contribution relative) an de savoir si les individus (ou les variables si elles ne sont pas normes) sont bien projets. De mme, les contributions au axes (ou absolues) permettent de donner un sens aux axes. Notons D )), les contricependant que lorsque lon prend la premire dnition de lACPVI (triplet (X, R, . butions (des variables) donnent un sens aux axes en fonction des variables X et de la mtrique R Comme R nest en gnral pas diagonale, la contribution des variables est dicile dnir. Pour la seconde dnition le triplet est (PX Y, Q, D ) et les variables ne sont ni les variables de Y ni celle de X , ce qui pose un problme dinterprtation. Poids des variables explicatives dans laxe Pour donner une sens au axe, il est possible de calculer le poids de chaque variable dans la constitution de laxe. Au lieu de prendre le vecteur directeur de laxe norm lunit, nous allons prendre celui de norme carre gale la valeur propre, c . Ceci va permettre dintgrer la qualit globale de laxe linterprtation. Notons la matrice dlment courant Lj (j {1, . . . , p}, {1, . . . , q }, la matrice des poids de chaque variable X.j pour laxe . Cela veut dire que laxe c est une combinaison linaire des variables {X.j }, chacune ayant un poids Lj : c = XL. . Plus le poids est lev plus la variable contribue faire laxe de la reprsentation variable. Plus le poids est faible moins elle dimportance. Comme les c sont de norme carre gale la valeur Analyse de donnes MASS - Rennes 2
72
Chapitre 4. Analyse en composantes principales par rapport des variables instrumentales propre, ces valeurs intgrent directement la qualit globale de laxe. Si lon veut analyser cela axe par axe, il serait bon de diviser ces poids L. par . c = XL. . Comme les c donnent les coordonnes des individus sur laxe , nous savons aussi que les variables qui ont un fort poids et des valeurs loignes de leur moyenne (par rapport leur variance) donneront donc de fortes coordonnes des individus. En sens inverse, des individus loigns du centre du graphique seront srement dus de forte valeurs absolue des variables importantes. Pour calculer ces poids L revenons une formule de transition dun triplet par exemple le triplet (PX Y, Q, D ). Pour une ACP dun triplet (X, Q, D ) exprimer c en fonction de a est c = XQa . En revenant au triplet (PX Y, Q, D ), cela donne c = PX Y QaY ,
1 X alors quen utilisant lautre triplet nous aurions c = X Ra . En remplaant PX Y = X (X DX ) X DY nous avons donc
c = X (X DX )1 X DY QaY = XL. , do les poids L. sont L. = (X DX )1 X DY QaY . Avec lautre triplet nous obtenons les mmes poids par une autre formule X. L. = Ra Exemple 8 (indices de dveloppement, suite) Les poids dans cet exemple sont donns dans le tableau 4.1. Comme les variables de X (et de Y ) sont centres rduites, les poids sont comparables directement, il ny a pas de problme dchelle. Nous remarquons que le log du PIB dnit en gnral mieux les axes que le taux de croissance de la population. Cette variable est donc plus explicative des indices alternatifs. De plus de fortes valeurs positives de lpib entranera de fortes valeurs sur laxe 1 (situes droite sur laxe). Au contraire, de fortes croissances de population entranera de faibles valeurs sur laxe 1. Cest le contraire qui se passe pour laxe 2, mais au vu des coecients, lamplitude des coordonnes risque dtre faible, ce qui sera conrm par la gure 4.4. Notons aussi que cet axe 2 (cf gure 4.2) na pas une grande importance. Variables de X lpib croipop Axe 1 1.778 -0.775 Axe 2 -0.273 0.194
Table 4.1 Tableaux des poids des variables dans les composantes de lACPVI. Produits scalaires et corrlation des variables avec laxe Nous sommes en prsence des variables de X et de Y qui sont au nombre de p et q respectivement et qui appartiennent toutes Rn . An de donner un sens au axe il est possible de calculer un D produit scalaire entre ces variables et les axes c . MASS - Rennes 2 Analyse de donnes
4.3. Reprsentations graphiques Si X est centre rduite, alors c le sera aussi et le produit scalaire sera une corrlation.
< X.j , c >D = X.j Dc
73
D) Cette dernire quation nest autre quune formule de transition pour lACP du triplet (X, R, et donc nous reconnaissons laxe principal de cette ACP, de norme carre gale la valeur propre , que lon note a X . Ceci donne donc < X.j , c >D = [ aX ]j . Si Y est centre rduite et c centre rduite le produit scalaire sera une corrlation.
< Y.j , c >D = Y.j Dc
D )) ou de PX Y (triplet Comme c est une combinaison linaire des colonnes de X (triplet (X, R, (PX Y, Q, D )) c (X ). Donc nous avons que < Y.j , c >D =< PX Y.j , c >D . Cette dernire quation nest autre quune formule de transition pour lACP du triplet (PX Y, Q, D ) et donc nous reconnaissons laxe principal de cette ACP, de norme carre gale la valeur propre , que lon note a Y < X.j , c >D = [ aY ]j . Ces produits scalaires ou corrlation donne une ide du lien entre laxe et la variable. Ce lien est un lien symtrique au contraire de la corrlation. Exemple 9 (indices de dveloppement, suite) Comme les variables de X (et de Y ) sont centres rduites, nous avons ici des corrlations. Nous remarquons les trs forte corrlations de toutes les variables avec laxe 1. Les variables expliquer sont en revanche trs mal corrles avec laxe 2, renforant notre ide de limiter lordre 1 la modlisation (q = 1) et de ne sintresser qu laxe 1 pour les reprsentations graphiques. Variables lpib croipop lmorta lanalp rscol Axe 1 0.958 -0.796 -0.916 -0.855 -0.810 Axe 2 -0.287 0.606 0.007 0.024 -0.033
Table 4.2 Tableaux des corrlations des variables avec les composantes de lACPVI.
4.3.2
Reprsentations des individus
Comme toujours en ACP, les coordonnes des individus sur laxe du nouveau repre sont donnes par le vecteur propre de W D associ la e valeur propre et de D norme carr gale cette valeur propre, vecteur not c Rn . Analyse de donnes MASS - Rennes 2
74
Chapitre 4. Analyse en composantes principales par rapport des variables instrumentales Remarque D ) ou (PX Y, Q, D ). Selon la dnition de lACPVI choisie, le triplet dont on fait lACP est (X, R, p q Ainsi les n individus sont soit dans R soit dans R . Les vecteurs directeurs norms lunit sont X 2 = 1 ou aY , avec aY 2 = 1. Dans la seconde reprsentation il est tout fait donc aX Q , avec a R possible de projeter les lignes de Y dans ce nouveau repre, ce qui donne une ide de la distance entre les produits scalaires. Cette projection de lindividu i sur laxe a pour coordonnes < Yi. , aY c ]i =< PX Yi. , aY >Q = [ >Q . Ce nest pas la ie coordonne de la e composante principale de lACPVI de norme carre gale la valeur propre c . Cependant la reprsentation des individus reste la mme puisque les oprateurs W D sont identiques. Il sagit des individus tels quils sont dcrit par les variables explicatives et tels quils soient au mieux reprsentatifs des individus reprsents par les variables expliquer. Cela dcoule de la premire prsentation de lACPVI. Remarque (Pour aller plus loin sur la qualit des axes) n Si lon note < Yi. , aY >Q = [d ]i , nous avons un vecteur de R not d qui contient les coordonnes de la projection sur laxe des individus de Y . Ce vecteur peut tre considr comme une variable que lon peut expliquer linairement par les variables de X : d = X + . Lestimation de d par ce modle est la projection de d sur (X ), ce qui vaut PX (d ) = PX (Y QaY . ) = c Lajustement de d (ie les coordonnes des individus de Y ) par la rgression linaire sur X donne les coordonnes des individus de lACPVI. Plus lajustement par cette rgression linaire est bon, plus les individus de dpart sont proches de ceux de lACPVI et donc plus lanalyse est bonne. Le R2 de ces rgressions (1 par axe ) donne une ide de la qualit globale de laxe. Rappelons que laxe de lACP du triplet (Y, Q, D ) donne le meilleur axe dordre en terme dinertie des coordonnes des individus sur cet axe. Donc on peut comparer cette inertie linertie des mme individus Y projet sur un autre axe aY , celui de lACPVI. Le ratio permet de donner une autre mesure de la qualit de laxe base sur la dispersion des individus de Y capture par laxe de lACPVI par rapport laxe de lACP. Exemple 10 (indices de dveloppement, suite) Toutes ces mesures sont rsume dans le tableau ci dessous. > acpvi$param iner inercum inerC inercumC ratio R2 lambda 2.73 2.73 2.73 2.73 0.998 0.816 2.23 0.174 2.91 0.171 2.9 0.997 0.0101 0.00172 La premire colonne donne pour chaque ligne {1, 2} linertie de laxe de lACP du triplet (Y Q, D ). Ensuite vient la mme inertie mais cumule partir de laxe 1. En troisime colonne
MASS - Rennes 2
Analyse de donnes
4.3. Reprsentations graphiques vient linertie des individus de Y sur les axes de lACPVI, puis son cumul partir de laxe 1. La cinquime colonne gure le ratio des inerties puis le R2 des rgressions de d sur X . La dernire colonne gure simplement les valeurs propres , {1, 2}. Toutes ces mesures nous confortent sur le fait que lanalyse est de bonne qualit et le choix de q = 1 sut pour linterprtation. Cependant des ns de reprsentation graphique, nous conserverons les 2 premiers axes, ce qui donne des graphiques plus clairs.
75
Le ratio des valeurs propres proche de 1, donne penser que les axes aY de lACPVI sont proches des 2 premiers axes principaux de lACP centre rduite de (Y, I, D ). La projection de ces axes Y principaux de lACP de (Y, I, D ) dans le repre (aY 1 , a2 ) (gure 4.3) permet de le conrmer, les ches tant presque confondues avec les axes.
Axis2
Axis3 Axis1
Y Figure 4.3 Reprsentation axes principaux de lACP de (Y, I, D ) dans le repre (aY 1 , a2 ) de lACPVI.
Exemple 11 (indices de dveloppement, suite) Lanalyse de la reprsentation classique (gure 4.4) permet de remarquer que les pays fort dveloppement sont droite de laxe 1, alors que ceux faible dveloppement sont gauche de laxe 1.
Nous pouvons voir que les produits scalaires approchs par lACPVI sont plus recentrs sur laxe 1 et toutes les trajectoires (gure 4.5) se dirigent vers le premier axe. Analyse de donnes MASS - Rennes 2
76
Chapitre 4. Analyse en composantes principales par rapport des variables instrumentales
Nicaragua Syrie Afrique.Sud Algrie Nigria Iran Isral Australie Etats.Unis Egypte Prou Brsil Japon Turquie Canada Niger Sngal Suisse Maroc Cameroun Mexique Irlande Espagne Finlande Chili Argentine Grce France Core.Sud URSS Sude Pologne Mozambique Yougoslavie Ethiopie Madagascar RFA Vietnam Cuba Inde Haute.Volta HongrieVenezuela Italie Royaume.Uni Chine Indonsie Kenya
Figure 4.4 Reprsentation des individus.
De plus lorigine des ches est sur le point tel quil est caractris par les variables de Y . Nous voyons que les points les plus droite sont les pays fort indices de dveloppement alternatifs. De mme pour les pointes de ches qui indiquent les individus lorsque lon cherche prvoir les indices alternatifs par les indices conomiques. A gauche se situe bien sr les pays fort dveloppement.
Remarquons que certains pays possdent des trajectoires qui se dplacent vers la gauche. Ainsi dans la ralit, les indices alternatifs de ces pays sont mieux placs que lorsque lon prvoit ces indices par le simple dveloppement conomique. Cest ainsi le cas pour de nombreux pays communistes (en 1984) comme lURSS, le Vietnam, Cuba, Nicaragua, certains pays dEurope (Irlande), le Chili, le Mozambique etc.. Les ches dans lautre sens permettent de voir les pays dont les prvisions des indices alternatifs sont meilleures que dans la ralit et nous dcouvrons de nombreux pays dAfrique (Maroc, Afrique du Sud, Nigria, Niger etc..) ou dAmrique du Sud (Brsil, Vnzula etc..). MASS - Rennes 2 Analyse de donnes
4.3. Reprsentations graphiques
77
Algrie
Brsil Argentine
Australie Cameroun
Chili Canada Core.Sud Chine Ethiopie
Egypte
Espagne Cuba Etats.Unis
Afrique.Sud
Grce Haute.Volta
Finlande Inde France Iran Isral Maroc Irlande Madagascar Kenya Italie Japon
Indonsie Hongrie
Mexique Mozambique Niger Nigria Nicaragua Sngal
Prou Pologne
RFA Royaume.Uni
Vietnam
Syrie Yougoslavie URSS Turquie Venezuela
Suisse Sude
Figure 4.5 Trajectoires entre les individus de Y et ceux de lACPVI. Cela donne une ide de la et les donnes Y . distance entre le modle Y
4.3.3
Reprsentations des variables
Les variables appartiennent toutes Rn , que ce soient les variables expliquer ou explicatives. Le repre de reprsentation de ces variables est composs daxes orthogonaux de vecteurs directeurs D norm lunit qui sont au nombre de q . Pour laxe , le vecteur directeur est le vecteur propre de W D associ la e valeur propre et de D norme carr gale 1. Ce vecteur est not c . Pour reprsenter les variables expliquer il sut de projeter les variables de Y et de X dans ce nouveau repre an de connatre leur coordonnes sur chaque axe . Pour les variables explicatives X.j nous avons que la coordonne sur laxe (de vecteur directeur D norm c ), note [ aX ]j , est simplement le produit scalaire suivant
e [ aX ]j =< X.j , c >D = coordonne de la j variable de X sur laxe .
Ceci donne donc les coordonnes pour toutes les variables

a X = X Dc .
D) Cette dernire quation nest autre quune formule de transition pour lACP du triplet (X, R, X et donc a est laxe principal de cette ACP, de norme carre gale la valeur propre . Analyse de donnes MASS - Rennes 2
78
Chapitre 4. Analyse en composantes principales par rapport des variables instrumentales Pour reprsenter les variables explicatives il sut la encore de chercher les coordonnes sur chaque axe des variables Y.j . Nous procdons de mme et nous obtenons pour la j e variable expliquer sa coordonne sur laxe , note [ aY ]j ,
e [ aY ]j =< Y.j , c >D = coordonne de la j variable de Y sur laxe .
Pour toutes les q variables expliquer les coordonnes sont donc

a Y = Y Dc .
Si lon dcompose Y en la partie qui appartient (X ) qui est simplement PX Y (ou PX est le D projecteur orthogonal sur (X )) et en son D -orthogonal PX Y nous avons Y = PX Y + PX Y .
a Y = (PX Y + PX Y ) Dc .
Comme nous projetons sur laxe c qui est une combinaison linaire des colonnes X (ou de PX Y ), nous avons que c (X ) et donc
a Y = (PX Y ) Dc .
Cette dernire quation nest autre quune formule de transition pour lACP du triplet (PX Y, Q, D ) et donc a Y est laxe principal de cette ACP, de norme carre gale la valeur propre . En conclusion les deux prsentation de lACPVI apportent chacune des reprsentations complmentaires. La premire permet de voir le rle des variables explicatives X dans lexplication de Y . La seconde dnition permet de connatre la qualit dexplication des variables. Exemple 12 (indices de dveloppement, suite) Toutes les variables de X et Y tant centres rduites, nous avons un cercle de corrlation. La reprsentation des variables permet de voir que les 2 variables de X (centres et rduites) sont parfaitement reprsentes, leur che touchant le bord du cercle. Ceci est normal, puisque nous reprsentons 2 variables dans un repre (c1 , c2 ) qui est une combinaison linaire des variables D ). Les 3 variables de X (puisque (c1 , c2 ) sont les composantes principales du triplet (X, R, expliquer sont toutes trs corrles entre elles et sont corrles la croissance de la population et anti-corrles au PIB. En eet par construction ce sont des indices de dveloppement ngatif (plus lindice est fort, moins le dveloppement au sens occidental du terme est grand). Enn nous pouvons voir quelles sont trs bien corrles avec laxe 1, ce qui corrobore le choix de q = 1. Nous pouvons bien sr utiliser ces conclusion pour conclure que les individus (gure 4.5) bien projets gauche sont faiblement dvelopps et droite fortement dvelopps. MASS - Rennes 2 Analyse de donnes
4.4. Modles et prvisions
79
croipop
lpib lanalp
lmorta
rscol
Figure 4.6 Reprsentation des variables de X et de Y dans le repre de lACPVI.
4.4
4.4.1
Modles et prvisions
prvision et ajustement
La prsentation la plus simple en terme de modle ou de prvision est la prsentation propose Rp des variables explicatives je peux prvoir Y Rq par Rao. Si je possde une observation X q par Y R Y X = H M(q, p) est dnie par la dnition 4.2.1 (p. 69) est de rang q (pour le choix de q voir o H section 4.3 p. 71) Bien sr lajustement de Y par X selon lACPVI est donn par la mme formule en remplaant par chaque vecteur de Rp de X savoir Xi. , i {1, . . . , n}. Si lon souhaite avoir lajustement X pour la matrice entire cela donne Y . = XH
Cet ajustement est tel quil donne une inertie des carts minimum parmi les matrices H de rang q. Remarque Il est tout fait possible de dnir la prvision par le modle de lACPVI sans faire intervenir H directement. Partons de lajustement (ou reconstitution), par exemple pour le triplet (PX Y, Q, D )
q
=
=1
c aY . c = c = PX Y QaY , ce qui donne
Grce aux formules de transition, nous avons donc

q
Y Y Analyse de donnes
=
=1
Y X (X DX )1 X DY QaY a q
= X (X DX )
X DY Q
=1
Y aY a ,
MASS - Rennes 2
80
Chapitre 4. Analyse en composantes principales par rapport des variables instrumentales M(q, p) de rang q est dnie par do H
q
= (X DX )
X DY Q
=1
Y aY a ,
et lajustement par Y . = XH
Remarque 1 Y Y Nous avons aussi que q =1 a a = Q , puisque H M(q, p) de rang maximum est dnie par 1 H = (X DX ) X DY (voir 4.2.1 p. 69). La preuve peut tre faite titre dexercice et consiste utiliser le fait que {a } est une base Q orthonorme de Rq .
4.4.2
Modles et composantes
Puisque nous procdons une ACP du triplet (PX Y, Q, D ) nous avons que lajustement de Y est simplement la reconstitution de rang q construite partir de cette ACP. Si nous not Y q q notons aY =1 et {c } les axes et composantes principaux norms lunit de lACP du triplet (PX Y, Q, D ), la reconstitution scrit
q
=
=1
c aY .
Cette reconstitution signie que les q variables c servent prdire linairement de manire commune les q variables expliquer Y (voir lillustration graphique, gure 4.7). Cette quation nous donne aussi les coecients des q rgression linaires (il y a q variables expliquer) pour Y chaque composante . Ces coecients, pour la composante , sont simplement a = a Y , cest dire laxe principal , de norme carre gale la valeur propre, issu de lACP du triplet (PX Y, Q, D ).
Exemple 13 (indices de dveloppement, suite) Nous pouvons tracer en fonction de la premire composante, unique composante retenue pour la modlisation, les 3 variables expliquer qui sont les indices de dveloppement alternatifs. Nous voyons quici les trois variables sont correctement expliques linairement par la premire composante de lACPVI c1 . MASS - Rennes 2 Analyse de donnes
4.4. Modles et prvisions

1.5
81
1.0
1.0
lmorta 1.5 1.0 0.5 0.0 0.5
lanalp 1.5 1.0 0.5 0.0
0.5
1.51.00.5 0.0 0.5 1.0 1.5 composante ACPVI
1.51.00.5 0.0 0.5 1.0 1.5 composante ACPVI
1 1.51.00.5 0.0 0.5 1.0 1.5 composante ACPVI
Figure 4.7 Illustration du rle dune composante de lACPVI comme variable linairement explicatives des q = 3 variables expliquer.
Numriquement les coecients des rgression linaires valent a Y = (0.614, 0.573, 0.543) dans lordre des 3 variables.
Analyse de donnes
rscol 0
MASS - Rennes 2
Annexe A
Rappels Algbre linaire

Dnition A.0.1 La trace dune matrice carre est la somme de ses valeurs contenues dans sa diagonale principale. Pour A M(n, n)
n
trace(A) =
i=1
Aii .
Par utilisation du produit matriciel nous avons lgalit suivante, pour deux matrices A M(n, p) et B M(p, n)
n p
trace(AB ) =
i=1 j =1
Aij Bji .
(A.1)
Cette galit stend un produit de 3, 4 etc. matrices, par exemples pour 4 matrices trace(ABCD ) =
i,j,k,l
Aij Bjk Ckl Dli .
(A.2)
83
Annexe B
Rappels sur lACP dun triplet (X, Q, D)

B.1 A savoir par cur
2. Soit une variable j , elle est caractrise par un vecteur dobservation X.j Rn . Lespace des variables est donc Rn muni dune mtrique D qui est la diagonale des poids {pi }, D = diag(. . . , pi , . . . ). 3. Soit un individu i, il est caractris par la mesure de p variables sur lui mme, un individu i est donc un vecteur p coordonnes, Xi. Rp . Lespace des variables est donc Rp muni dune mtrique Q qui est souvent lidentit Ip . 4. Le tableau X est souvent centr pour xer le centre de gravit du nuage au point 0 : chaque .j n , o X .j = n pi Xij = DX.j . variable j on eectue X.j X.j X n i=1
1. X est une matrice n p, regroupant la mesure sur n individus de p variables quantitatives.
p 6. Les axes principaux {a } (norm lunit, ie a 2 Q = 1) sont des vecteurs de R . Ils sont vecteurs propres de V Q = X DXQ associs la valeur propre .
5. Le tableau X est souvent rduit pour liminer le fait que les variables sont sur des chelles (de variation) direntes (variables direntes, units de mesures etc.) : X.j X.j / X.j , o n 2 2 = D (X X ) . X = ( X X ) p ij .j .j .j n n i=1 i .j
n 7. Les composantes principales {c } (norme lunit, ie c 2 D = 1) sont des vecteurs de R . Ils sont vecteurs propres de W D = XQX D associs la valeur propre .
9. Loprateur W D est une matrice symtrique dordre n, elle est donc diagonalisable (il existe une base Rn constitue par les vecteurs propres de W D ). Cette base peut tre choisie orthonorme. Les valeurs propres de 1 min(n, p) de W D peuvent tre non nulles et sont identiques celles de V Q. Si n > p (ce qui est le cas en gnral, car lon a plus de mesures que de variables) alors p+1 = = n = 0. Les {c } (norms lunit, ie c 2 D = 1) sont les vecteurs propres qui forment cette base. Ils sont appels composantes principales. 10. Loprateur V Q est une matrice symtrique dordre p, elle est donc diagonalisable (il existe une base Rp constitue par les vecteurs propres de V Q). Cette base peut tre choisie orthonorme. Les valeurs propres de 1 min(n, p) de V Q peuvent tre non nulles et sont identiques celles de W D . Si n < p (ce qui est trs rare, car en gnral on a plus de mesures que de 85
8. Les valeurs propres de W D = XQX D et V Q = X DXQ sont classes par ordre dcroissant 1 > 2 > .
86
Annexe B. Rappels sur lACP dun triplet (X, Q, D ) variables) alors n+1 = = p = 0. Les {a } (norms lunit, ie a vecteurs propres qui forment cette base. Ils sont appels axes principaux. 11. Les formules de transitions sont a = c = 1 X Dc , 1 XQa .
2 Q
= 1) sont les
Selon la dernire formule de transition, les composantes principales sont des variables synthtiques qui sont des combinaisons linaires des variables de X . 12. La coordonne de la j e variable X.j Rn dans le nouveau repre des composantes principales est, pour laxe [ a ]j = [a ]j .
13. La coordonne du ie individu dans le nouveau repre des axes principaux est, pour laxe , [ c ]j = [c ]j .
14. La qualit de laxe est mesure par linertie qui est la valeur propre . Plus elle est grande, plus laxe porte dinformation, plus il permet de sparer les individus, plus il est proche (en terme de produit scalaire) de nombreuses variables. 15. Laxe principal de lACP est laxe orthogonal aux prcdents (si > 1) et qui est dinertie des individus sur cet axe maximum. Autrement dit cela donne : laxe pincipal de lACP est laxe orthogonal aux prcdents (si > 1) et dont les coordonnes des individus sur cet axe sont disperses au maximum. 16. La composante principale c de lACP est une combinaison linaire des variables de X (nouvelle variable synthtique) qui est orthogonale aux prcdentes (si > 1) et qui est de variance maximum sous la contrainte que les coecients de la combinaison linaire, une fois tous regroup dans un vecteur, forme un vecteur de norme 1. 17. Bien sr il est impratif de savoir interprter les graphiques sans hsitation, ainsi que les sorties type CTR et cos2 .
B.2
Autres proprits, noter quelque part
Critre de contribution absolue (CTR) et relative (cos2 ). La contribution absolue (ou CTR) dun individu i sur laxe CTR (i) = pi [ c ]i 2
La contribution absolue (ou CTR) dune variable j sur laxe , si Q = diag(. . . , qj , . . . ) CTR (j ) = MASS - Rennes 2 qj [ a ]j 2 Analyse de donnes
B.3. Autres proprits, moins utiles La contribution relative (cos2 ) dun individu i sur laxe cos2 (i) = [ c ]i 2
min(n,p) [ c ]i 2 =1
87
Pa (Xi. ) Xi.
2 Q
2 Q
La contribution relative (cos2 ) dune variable j sur laxe , si Q = diag(. . . , qj , . . . ) cos2 (j ) = [ a ]i 2

min(n,p) [ a ]i 2 =1
Pc (X.j ) X.j 2 D
2 D
Nous pouvons reconstituer les donnes X par :

min(n,q ) min(n,q )
X =
=1
c a
2 D
=
=1
c a
(B.1)
o, comme toujours, c
2 D
= 1, c
= et a
2 Q
= 1.
B.3
Autres proprits, moins utiles
La construction de lACP en terme dinertie, de variance de la composante ou de covariance de la composante avec les variables. Ces constructions doivent tre lues au moins 1 fois.
Analyse de donnes
MASS - Rennes 2
Annexe C
Rappels AFC
C.1 Dnition
Nous sommes en prsence de 2 variables qualitatives Y (1) et Y (2) respectivement q1 et q2 modalits. Nous possdons la mesure sur les mmes n units statistiques de ces deux variables. Soit le tableau de contingence not N de ces 2 variables. Llment courant Nij contient donc le nombre dobservations qui possdent la fois la modalit i pour la variable Y (1) et la modalit j pour la variable Y (2) . Cette matrice N dentiers est donc par construction de dimension q1 q2 . Rappelons que nous avons donc i,j Nij = n et dnissons les marges lignes et colonnes comme q1 2 Ni. = q j =1 Nij et N.j = i=1 Nij . Nous pouvons construire les matrices diagonales de frquence de lignes et de colonnes comme D1 = diag(Ni. /n) et D2 = diag(N.j /n). Nous pouvons aussi donner une notation spcique aux frquences, en parallle aux eectifs, Pij = Nij /n, les frquences lignes et colonnes scrivant Pi. et P.j Dnition C.1.1 1 N 1 LAnalyse Factorielle des Correspondances est lACP du triplet (Z, D2 , D1 ), o Z = D1 n D2 pij est la matrice dlment courant pi. p.j . Remarque LAnalyse Factorielle des Correspondances peut aussi tre dni comme lACP du triplet (Z pij pi. p.j q1 q2 , D2 , D1 ), la matrice ayant maintenant comme lment courant pi. p.j , les carts lindpendance.
89
Annexe D
Image euclidienne et approximation de matrices

D.1 Approximation dune matrice
Dnition D.1.1 (Dcomposition en valeurs singulires) Soit A M(n, p). Il existe 2 matrices orthogonales U M(n, n) et V M(p, p) telles que U AV = A = U V , o M(n, p) est une matrice constitue de 0 partout, sauf sur sa diagonale o se trouvent les 1 , . . . , d , avec d = min(n, p). Les 1 , . . . , d sont appels valeurs singulires. Remarques 1. Soit une matrice W symtrique carre dordre n. Soit la matrice U des vecteurs propres rangs en colonne, U = (u1 |u2 | |un ). Soit = diag(1 , . . . , n ) la matrice diagonale des valeurs propres. Par dnition des vecteurs propres nous avons que W U = U . Choisissons tous les vecteurs propres de norme 1. Comme les vecteurs propres dune matrice symtrique sont orthogonaux entre eux, nous avons que U U = In = U U . Dans ce cas nous avons que la dcomposition en valeurs singulires dune matrice symtrique W est tout simplement la diagonalisation de celle ci, car U W U = U U = . 2. Dans le contexte des statistiques nous avons la matrice des donnes X M(n, p), avec en gnral n > p. Si W = XX et si X = U V , nous avons alors, puisque U et V sont orthogonales (ie U U = In = U U et V V = Ip = V V ), W WU = U V V U = U U = U
2 . Nous avons que les vecteurs o = diag(1 , . . . , p , 0, . . . , 0) M(n, n) avec i = i propres de X sont dans les colonnes de U et que les valeurs propres de W sont les carrs des valeurs singulires de X .
91
92
Annexe D. Image euclidienne et approximation de matrices 3. Si nous avons une mtrique D , qui est une matrice symtrique inversible, et une mtrique Q qui est aussi symtrique inversible, on peut alors en utilisant la dnition D.1.1 (ou alors le fait que les matrices sont diagonalisables) D = D2D2
1 1 1 1
Q = Q2 Q2 ,
1
o D 2 = E 2 E o E est une matrice orthogonale (ou matrice de passage) et 2 = 1 1 1 1 diag(1 2 , . . . , n 2 ). Remarquons que nous pouvons aussi introduire D 2 = E 2 E et que nous avons D 2 D 2 D2D2
1 1 1 1
= D 2 D 2 = In = D
Nous pouvons faire de mme pour Q. Intressons nous la diagonalisation de W D = XQX D . La dcomposition en valeurs sin1 1 1 1 gulires de D 2 XQ 2 nous donne les vecteurs propres de D 2 W D 2 (regroups dans U ) et ses valeurs propres . Nous avons alors que par dnition des vecteurs propres et valeurs propres (voir aussi la remarque 2) U = D 2 W D 2 U. On en dduit donc U = D 2 W D 2 D 2 D 2 U U = D 2 W D D 2 U D 2 U = W D D 2 U. Cette dernire galit snonce comme :les vecteurs propres de W D sont dans les colonnes 1 de D 2 U et associs aux valeurs propres contenues dans la matrice diagonale . Thorme D.1.1 (Meilleure approximation de rang k, Ecart-Young 1936) La meilleure approximation de rang k min(n, p) dune matrice A M(n, p) est donne par
A k = 1 u1 v1 + . . . + k uk vk ,
1 1 1 1 1 1 1 1 1 1
o u1 , v1 , . . . , uk , vk sont les colonnes de U et V associes aux r plus grandes valeurs singulires 1 2 . . . k . La meilleure approximation de rang r est dnie par lune ou lautre des 2 possibilits suivantes 2 2 2 minA M(n,p),rg (A )=r A A 2 , o B 2 = supxRp x 2 =1 Bx , 2 , o B 2 min AA HS = trace(BB ).
AM(n,p),rg (A)=r HS
Thorme D.1.2 (Meilleure approximation de rang k, avec mtriques) Soit Rp muni dune mtrique Q et Rn muni dune mtrique D . Soit le produit scalaire de HilbertSchmidt (avec mtrique) dni par < A, B >HS = trace{AQB D }. MASS - Rennes 2 Analyse de donnes
D.2. Image euclidienne issue dun produit scalaire W La meilleure approximation de rang k min(n, p) dune matrice A M(n, p) au sens de la norme induite par le produit scalaire de Hilbert-Schmidt est
2 u1 (Q 2 v1 ) + . . . + k D 2 uk (Q 2 vk ) , A k = 1 D
1 1 1 1
93
o u1 , v1 , . . . , uk , vk sont les colonnes de U et V associes aux r plus grandes valeurs singulires 1 1 1 2 . . . k de la dcomposition en valeurs singulires de D 2 AQ 2 . Preuve Rappelons que Q et D sont des matrices dnies positives et donc nous pouvons les crire 1 1 1 1 1 1 Q = Q 2 Q 2 et D = D 2 D 2 o Q 2 et D 2 sont des matrices symtriques inversibles. Nous avons donc que la fonction minimiser est trace{AQB D } = trace{(D 2 AQ 2 )(D 2 BQ 2 ) }. Soit Bk la solution (si elle existe) de ce problme. La matrice (D 2 Bk Q 2 ) est de rang k car Bk est 1 1 de rang k min(n, p) et D 2 et Q 2 sont de plein rang (ie n et p respectivement). Selon le thorme 1 1 D.1.1, nous savons que la meilleure approximation de rang k de (D 2 AQ 2 ) est donne par sa 1 + . . . + u v . En identiant D 1 2 B Q 2 et 1 u1 v + dcomposition en valeur singulire 1 u1 v1 k k k k 1 1 1 , et en prmultipliant (postmultipliant) par D 1 2 (Q 2 , et rappelons que Q 2 est . . . + k u k vk symtrique), nous trouvons le rsultat annonc.
1 1 1 1 1 1
D.2
D.2.1
Image euclidienne issue dun produit scalaire W

Image euclidienne de dimension 1
Limage euclidienne de dimension 1, issue dune matrice de produit scalaire W M(n, n) de n points entre eux, est dnie comme suit. Cest la recherche de n points A1 , . . . , An sur un axe (sous espace de dimension 1) dorigine O dont les produits scalaires entre vecteurs OAi et OAj forment la meilleure approximation de rang 1 du produit scalaire initial Wij et ce quelque soit i, j . Construction : Par dnition nous avons que le produit scalaire est la meilleure approximation de rang 1 de W , , nous avons donc note W1 < OAi , OAj > = [W1 ]ij = 1 [u1 ]i u 1 = [ u1 ]i [ u1 ]j . Les coordonnes de Ai et Aj sont donc [ u1 ]i et [ u1 ]j o u 1 est le premier vecteur propre norm la valeur propre 1 la plus grande valeur propre de W .
j
1 [u1 ]i
1 [u1 ]j
D.2.2
Image euclidienne de dimension k
Limage euclidienne de dimension k est la recherche des coordonnes de n points A1 , . . . , An dans un espace dorigine O sur k axes orthogonaux et dont les produits scalaires entre vecteur OAi et OAj forment la meilleure approximation de rang k du produit scalaire initial Wij et ce quelque soit i, j . Analyse de donnes MASS - Rennes 2
94
Annexe D. Image euclidienne et approximation de matrices De mme quau paragraphe prcdent, nous avons que les coordonnes sur les axes orthogonaux des points Ai sont [ u1 ]i , . . . , [ uk ]i puisque le produit scalaire sur des axes orthogonaux se dcompose en k produits scalaires sur 1 axe , 1 k. Ai Aj [ u1 ]i [ u1 ]j
[ u1 ]i [ u2 ]j O
Figure D.1 image euclidienne de dimension 2
MASS - Rennes 2
Analyse de donnes

ANACJ5

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

ANACJ5

Uploaded by

Copyright:

Available Formats

Table des matires

Analyse Factorielle des Correspondances Multiples - AFCM

Table 1.1 Trs petit jeu de donnes ctif

Liens entre 2 variables

ni. n.j 2 n , ni. n.j n

Chapitre 1. Analyse Factorielle des Correspondances Multiples - AFCM

1 variable qualitative et 1 variable quantitative

n 2 i=1 (Yi Y ) n 2, i=1 (Yi Y )

compose des 3 sous-matrice U (1) , U (2) et 0 0 0 1 1 0 1 0 0 1

(1) (1) (1)

(3) (3) (3)

vaut nK . La frquence de la modalit

(. . . , Uij /nj , . . .) . Analyse de donnes

ce qui donne bien la valeur

et avec lquation (1.2) nous avons d (Xi. , G) =

Grce (1.1), cela donne

[Gc ]i = cest dire que

do linertie de la variable k est I (Y (k) ) = 1 (qk 1). K (1.5)

Cette distance est nulle quand

vaut 0. Un exemple trivial est donne par 2 modalits

Formules de transition Cadre de lACP

Formules de transition en AFCM

1 1 diag(. . . (k) . . .)U (k) c , n

prs, la coordonne sur laxe de la j e modalit de la variable qualitative

Reprsentation dune variable et modle linaire

Analyse des reprsentations de lAFCM

Chapitre 1. Analyse Factorielle des Correspondances Multiples - AFCM

1.5. Analyse des reprsentations de lAFCM

Chapitre 1. Analyse Factorielle des Correspondances Multiples - AFCM

Interprtation des axes

(k) a (k) D (k) a (k) a (k) D (k) a = . nK nK c 2 D

En nous servant de la formule de transition (1.10), nous avons

c U (k) (D (k) )1 U (k) c = . 2 nK c D

1 I , nous obtenons Avec U (k) U (k) = D (k) et D = n

c , ce qui en remplaant et en simpliant nous donne PU (k) c K c

AFCM, optimalit et cas particuliers

AFCM et tableau de Burt

o N (kl) est le tableau de contingence croisant la variable Y (k) et la Y (l) .

1 Pour montrer cela nous savons que D = n In et donc

Exemple des ours

Rapport de corrlation et variables importantes

Figure 1.8 Reprsentation des individus de lAFCM sur laxe 3

U (k)ij = 1i {1, . . . , n},

et pour les gteaux secs (Q21)

Reconstitution des donnes

En multipliant droite par D , nous obtenons U = 1 CA D , n

Chapitre 1. Analyse Factorielle des Correspondances Multiples - AFCM

Exemple 3 Soit les deux variables qualitatives A et B mesure sur 15 individus.

La matrice du codage disjonctif complet est donc

1.9. Reconstitution des donnes

Or nous avons par la contrainte que 1 + 2 + 3 = 0, do

Analyse conjointe de tableaux ACT-STATIS

K X (K ) X (k) X (1) Q(K ) qk qK

Proximit entre objets, tape de lintrastructure

= trace (W (k) W (l) )D (W (k) W (l) )D =

Djj W (k) W (l)

pi pj < Xi. , Xj. >Q(k) < Xi. , Xj. >Q(l)

< W (k) , W (l) >HS =

< X.j , X.j >2 D.

2.3. Proximit entre objets, tape de lintrastructure

Problme de norme et coecient RV

W 3. Le compromis habituel pour statis

< W , W (k) >2 HS .

2.5. Etude de linterstructure et interprtations