Professional Documents
Culture Documents
1. Introduction
L'Analyse en Composantes Principales est une mthode descriptive qui a pour but lanalyse des tableaux de donnes qui ne prsentent pas de structure particulire, cest dire, des observations ne comportant a priori aucune distinction, ni entre variables, ni entre individus. Lobjectif de lACP est de rsumer linformation contenue dans un tableau, constitu souvent dun nombre lev de lignes et de colonnes, en quelques reprsentations graphiques deux dimensions, plus un certain nombre de caractristiques numriques destines faciliter l'interprtation des rsultats. L'ACP consiste exprimer un ensemble de variables originelles en un ensemble de variables artificielles ou latentes, non corrles entre elles et combinaisons linaires des variables originelles. Elle permet didentifier la structure de dpendance entre les caractres afin dobtenir une description ou une reprsentation compacte de ces derniers. En d'autres termes, partir d'un ensemble n d'objets dans un espace de p descripteurs, elle permet de trouver une reprsentation dans un espace rduit de r dimensions (r << p) qui conserve "le meilleur rsum" ou qui limite au maximum la perte d'information au sens du maximum de la variance projete.
technique d'analyse multivarie; l'Analyse Factorielle des Correspondances (AFC) sert dcrire les grands tableaux de contingence (voir chapitre suivant). Caractres quantitatifs: Traitement univari: on peut calculer la moyenne et l'cart-type, ainsi que les quantiles (mdiane, quartiles). Lorsque l'observation porte sur un chantillon, on peut estimer ces paramtres par intervalle de confiance. Traitement bivari: lorsqu'on s'intresse la liaison entre deux variables quantitatives, on peut reprsenter le nuage des points (xi, yi) et examiner sa forme. La covariance et le coefficient de corrlation linaire sont des indicateurs de l'intensit de la liaison linaire ventuelle de ces deux variables. Traitements multivaris: lorsqu'on s'intresse la liaison entre plus de deux ou trois variables quantitatives, on ne peut plus reprsenter graphiquement le nuage des points. L'ACP nous permet de l'observer sous ses angles les plus intressants, en examinant les projections du nuage sur des plans qui en conserve le mieux la forme. Elle permet galement de reprer les groupes de variables fortement corrles entre elles, et ventuellement de dtecter des caractres complexes sous-jacents ces groupes.
4. Le problme
Pour observer sous un angle plus favorable les donnes contenues dans le tableau X, on remplace les anciens axes (donc les anciennes variables xk) par de nouveaux axes (donc par des variables nouvelles Ck). Ces nouvelles variables Ck sont appeles composantes principales; elles s'expriment comme combinaisons linaires des anciennes variables x1,,xp. Ck = ak1x1 +ak2x2 + ... + akpxp Les nouveaux axes, appels axes factoriels, sont choisis de la faon suivante: le 1er axe factoriel, ou axe principal d'inertie, est la direction de "plus grand allongement" du nuage (en statistiques on dit: "de plus grande dispersion" ou "de plus grande inertie" du nuage). Lorsqu'on projette les points Pi du nuage sur cet axe, leurs projections Hi sont plus disperses qu'elles ne le seraient sur n'importe quel autre axe. L'axe factoriel F1 est donc l'axe selon lequel est prserv, par projection, le maximum de la dispersion initiale des points du nuage.
Le fait que le nuage soit allong prcisment dans cette direction doit trouver une explication. La nouvelle variable C1 (la composante principale n1) est le caractre selon lequel les individus se diffrencient le plus. Pourquoi ? Quelle signification peut bien avoir cette variable qui combine avec des poids plus ou moins importants (les coefficients ai) les variables initiales mesures sur les individus? Une tape fondamentale de l'ACP est l'interprtation de cette composante principale, qui se fera par l'examen de sa combinaison avec les variables de dpart. On espre toujours pouvoir dtecter dans cette nouvelle variable un caractre complexe, qui n'est pas directement mesurable par une seule quantit, mais bien rel, comme par exemple la sant (pour des individus, pour des entreprises...), l'industrialisation (d'une rgion...), la comptence dans les matires quantitatives (pour un tudiant), etc. le 2me axe factoriel est la 2me direction d'allongement du nuage, c'est--dire celle qui explique, aprs le 1er axe, le maximum de l'inertie rsiduelle. De plus le 2me axe est
ACP 2
choisi orthogonal au 1er, ce qui traduit le fait que la 2me composante principale est non corrle la 1re (les vecteurs propres associs aux 2 premiers axes ont un produit scalaire nul c'est dire que les 2 premires composantes principales ont une covariance nulle). Comme prcdemment, on cherchera donner un sens cette 2me composante principale, en observant comment elle combine les variables de dpart. et ainsi de suite, jusqu' avoir remplac les p anciens axes par p nouveaux axes (les axes factoriels), portant des parts dcroissantes de la dispersion initiale et dont les 2, 3 ou 4 premiers suffisent souvent donner une image peine dforme du nuage initial. C'est cette image rduite donc beaucoup plus accessible notre observation que nous examinerons pour dcrire et analyser les donnes du tableau initial.
Mathmatiquement, la dtermination des axes factoriels se fait par diagonalisation de la matrice de variances-covariances ou gnralement de la matrice des corrlations entre variables initiales, do le vocabulaire utilis (valeurs propres, vecteurs propres).
En pratique, on pourra difficilement interprter plus de 3 axes, parfois 4. Donc concrtement l'analyse mrite d'tre poursuivie si avec 3 ou 4 axes, on conserve une part importante de l'inertie initiale.
a. Les points-variables
Les nouvelles variables, associes aux axes factoriels, sont appeles facteurs ou composantes principales. Elles s'expriment comme combinaisons linaires des anciennes variables. Les coefficients de ces combinaisons linaires sont fournis par le logiciel; c'est eux qui dfinissent les nouveaux axes: ils permettent de calculer les nouvelles coordonnes d'un point-individu partir des anciennes variables. ils permettent galement de voir le poids d'une ancienne variable dans la dfinition d'un facteur. Le reprage des variables d'origine correspondant aux coefficients les plus levs en valeur absolu permet de dgager une interprtation des facteurs. Cette interprtation est facilite par l'examen des corrlations "anciennes- nouvelles" variables (qui sont d'ailleurs proportionnelles aux coefficients) reprsentes dans le cercle des corrlations...
- L'angle entre 2 point-variables, mesur par son cosinus est gal au coefficient de corrlation linaire entre les 2 variables: cos = r(x1,x2) Ainsi: - si les points sont trs proches peu diffrent de 0 ): cos = r(x1,x2) = 1 donc x1 et x2 sont trs fortement corrls positivement - si est gal 90, cos = r(x1,x2) = 0 alors pas de corrlation linaire entre x1 et x2 - si les points sont opposs, vaut 180, cos = r(x1,x2) = -1: x1 et x2 sont trs fortement corrls ngativement. Le cercle des corrlations permet de voir, parmi les anciennes variables, les groupes de variables trs corrles entre elles. Pour interprter un axe, on examine les coefficients de la combinaison linaire qui le dfinissent ou bien , si on prfre, on examine sa corrlation avec les anciennes variables en observant le cercle des corrlations (ou le tableau donnant ces corrlations). Une variable qui a une coordonne faible, donc un coefficient faible, ne sert pas pour l'interprtation d'un facteur.
c. Les points-individus
La qualit de la reprsentation d'un point M par un axe U dpend de sa distance l'axe dans le nuage, mesure par l'angle (OM, U), ou plus exactement par son cosinus ou son cos2. (s'il est proche de 1 le point est bien reprsent). La qualit de la reprsentation d'un point M par un plan factoriel constitu de 2 axes est mesure par la somme des cos2 avec 2 axes (Pythagore!). La position d'un point-individu par rapport un axe factoriel, ainsi que les proximits entre les individus, peuvent tre interprts ds lors que ces points sont bien reprsents par le plan factoriel observ. Certains individus seront bien reprsents par le plan 1-2 (les "trs forts" ou "trs faibles " en facteur 1 et 2 surtout), d'autres par le plan 1-3 s'ils sont mieux dcrits par l'axe 3, etc.
6. Exemples
ACP 5