You are on page 1of 7

Nadiri Abdeljalil 01/10/2004

Matire : Analyse des donnes

Atelier N 6 : Analyse en composantes principales (ACP)

Contenu :
Prsentation des mthodes danalyses multivaries

Prsentation des mthodes danalyses multivaries


Classification des mthodes :
Les mthodes danalyse multivaries sont classes selon deux critres :
lobjectif de lanalyse : on distingue les mthodes descriptives ; qui fournissent une
information synthtise ou rsume ; des mthodes explicatives qui permettent qui
permettent de dceler des relations entre les diffrents variables.
Nature des variables : le type de mesure (nominale, ordinale ou chelle) conditionne le
choix dune mthode.
Objectif de lanalyse
Rduire Expliquer
Simplifier Identifier
Synthtiser
Mthodes Mthodes explicatives
descriptives
(les variables sont scindes en
(Toutes les variables sont deux groupes : variables
analyses ensemble.) expliquer et variables explicatives)

Nominale Analyse des Analyse discriminante


correspondances
Nature des Ordinale Analyse des similarits Analyse des mesures conjointes
variables Mtrique Analyse en composantes Analyse de rgression multiple
principales

Analyse en composante principale :

Objectifs :
LACP a pour objectif de simplifier un tableau de donnes initiales en passant dun grand nombre
de variables un petit nombre de nouvelles variables obtenues en regroupant les variables
initiales prsentant un coefficient de corrlation relativement important.

Page 1/7
Nadiri Abdeljalil 01/10/2004
Matire : Analyse des donnes

Etapes de lanalyse en composantes principales :


Exemple : Une entreprise multinationale souhaite implanter en France lune de ses units de
production. Elle ralise une tude pour valuer lattractivit conomique des 22 rgions
franaises.
Objectif de lanalyse : Est il possible de rsumer les 7 variables en 2 ou 3 variables maximum
avec un minimum de perte dinformation, de manire pouvoir interprter plus facilement cette
dernire ?

Etape 1 : Reprage des observations aberrantes :


Les individus prsentant des valeurs extrmes sur les variables risquent de fausser les analyses, de
mme pour les individus qui ont beaucoup dinformations manquantes.
Il est donc prfrable de ne pas tenir compte de ces deux catgories.
Pour la Corse quatre informations sur sept sont manquantes, donc cette rgion sera carte de
lanalyse.
Le croisement des variables POPUL et SUPERF montre que la rgion le de France est trs en
dehors du nuage de points, il en va de mme pour le croisement des autres variables.
Les statistiques univaries pour les 7 variables confirment la situation extrme de la rgion le de
France, elle sera donc galement carte de lanalyse.
1200000 le-de-France

Hte-Norm.

1000000 Fr.-Comt

Corse

800000 Champ.-Ard.

Centre
600000
Bretagne

Bourgogne
400000
Basse-Norm.

Auvergne
200000
POPUL

Aquitaine

0 Alsace
0 1000000 2000000 3000000 4000000 5000000

SUPERF

Remarque : Pour afficher dans SPSS les lgendes des points dans un diagramme de dispersion:
Menu Graphe ; Commande Diagramme de dispersion ; Choisir Simple et cliquez sur Dfinir ;
dans la fentre diagramme de dispersion simple faites les choix suivants :
Axe des Y : POPUL
Axe des X : SUPERF
Dfinir les marques par : rgion

Rgion POPUL TACT SUPERF NBENTR NBBREV CHOM TELEPH


Alsace 162400 3914 828000 3597600 24100 520 70000
Aquitain 279500 3662 4130800 8553100 25600 1020 130000
Auvergne 132000 3748 2601300 4049400 12900 930 60000
Basse-No 139000 3863 1758900 3588800 9100 900 60000
Bourgogn 160000 3826 3158200 4071400 22300 810 75000

Page 2/7
Nadiri Abdeljalil 01/10/2004
Matire : Analyse des donnes

Bretagne 279500 3662 2720800 7376300 29600 950 130000


Centre 237000 3878 3915100 5675300 22900 790 110000
Champ.-A 134000 3785 2560600 2406000 15500 930 55000
Corse 24000 , 868000 827300 , , ,
Fr.-Comt 109000 3727 1620200 2748100 15900 710 45000
Hte-Norm 173000 3780 1231700 3746100 18100 1080 75000
le-de-F 1066000 4604 1201200 27360400 672200 730 580000
Lang.-Ro 211000 3212 2737600 6220200 17900 1320 100000
Limousin 72000 3806 1694200 2172100 7300 790 35000
Lorraine 230000 3434 2354700 4835300 18500 860 95000
Midi-Pyr 243000 3714 4534800 7877100 23700 900 110000
Nord.PdC 396000 3205 1241400 7850400 27800 1260 160000
P. de Lo 306000 3793 3208200 7202700 33900 960 130000
Picardie 181000 3439 1939900 3628500 13900 980 75000
Poit.-Ch 159000 3682 2580900 4459800 13300 1010 75000
Pr .-Cte 426000 3496 3140000 13255200 61000 1100 230000
Rh.-Alpe 535000 3944 4869800 15963400 147400 740 250000

Lgende :
POPUL : Population de la rgion en milliers dindividus.
TACT : Taux dactivit (population active /population totale de la rgion) en %.
SUPERF : superficie de la rgion
NBENTR : nombre dentreprises
NBNREV : Nombre de brevets dposs au cours de lanne
CHOM : Taux de chmage, en %.
TELEPH : Nombre de lignes tlphoniques en place dans la rgion, en milliers.

Etape 2 : Calcul dune matrice de corrlation entre variables initiales


Les diffrentes corrlations entre les variables initiales doivent tre calcules et regroupes dans
une matrice afin de savoir si le calcul dune ACP a un sens ou non.
En effet lACP cre les nouvelles variables en groupant les variables initiales selon leur
corrlation, et chaque groupe de variables initiales corrles est remplac par une nouvelle
variable (qui est dfinie comme une combinaison linaire des variables corrles de ce groupe).
Donc si les initiales sont totalement indpendantes les unes des autres (non corrles), lACP ne
peut pas tre appliqu dans ce cas l.
Procdure de calcul de la matrice des corrlations :

Page 3/7
Nadiri Abdeljalil 01/10/2004
Matire : Analyse des donnes

Dans le menu Analyse Choisir la commande Corrlations/Indice.

Slectionner les sept variables et dplacer les dans la zone Variables.


Dans la zone Calcul des indices choisir Entre variables.
Dans la, zone Mesure slectionner Similarits.
Cliquer sur Mesures.

Dans la zone Mesure slectionner Intervalle et Corrlation de Pearson.


Dans la zone Transformer les valeurs Slectionner la standardisation Centrer-rduire :
Pour transformer les variables de sorte ce que leurs moyennes soient gales 0
(variables centres) et leurs variances gales 1 (variables rduites). En utilisant des
variables centres et rduites aucune variable naura un poids plus important que les autres
dans la construction des nouvelles variables.
Cliquer successivement sur Poursuivre et OK.

Page 4/7
Nadiri Abdeljalil 01/10/2004
Matire : Analyse des donnes

Dans la matrice des corrlations (appele Matrice de proximit) ci-dessus on peut distinguer trois
cas : des corrlations leves proches de 0,8-0,9 indiquant le premier groupe de variables corrles
(qui va constituer la premire nouvelle variable appele facteur ou dimension). Deux variables
faiblement corrles avec les autres (CHOM et TACT) mais assez corrles entre elles (r=0,76), qui
constituent la deuxime dimension. Enfin la variable SUPERF est corrle avec le premier groupe,
mais plus faiblement (r entre 0,5 et 06), elle pourrait constituer la troisime dimension.

Etape 3 : Calcul des facteurs (nouvelles variables)


LACP construit des combinaisons linaires des variables de dpart, en regroupant les variables
corrles.

Procdure de calcul de lACP avec SPSS :


Dans le menu Factorisation slectionner la commande Analyse factorielle ( LACP est
une mthode danalyse factorielle, on appelle ainsi les mthodes descriptives qui crent de
nouvelles variables appeles facteurs en calculant des combinaisons linaires des variables
de dpart).

Slectionner toutes les variables et dplacer les dans la zone Vvariables.


Cliquer sur le bouton Caractristiques et cocher la case Coefficients dans la zone Matrice
des corrlations ( Pour avoir la matrice des coefficients de corrlation dans la fentre des
rsultats de lACP, qui sera identique celle obtenue dans ltape prcdente)

Cliquer sur le bouton Extraction.

Page 5/7
Nadiri Abdeljalil 01/10/2004
Matire : Analyse des donnes

Slectionner la mthode Composantes principales


Dans la zone Extraire on fixe la manire dont SPSS doit slectionner les nouvelles variables
appeles composantes ou facteurs. Le premier choix valeurs propres suprieures nous
offre la possibilit de slectionner uniquement les composantes dont la variance est suprieure
une valeur, dans le second choix on fixe le nombre de nouvelles variables retenir.
Dans la zone Afficher slectionner Graphique des valeurs propres (pour afficher un
graphique reprsentant la variance des composantes).

Interprtation des rsultats de lACP :


La matrice de corrlation :

Cette matrice est identique celle obtenue dans ltape 2 (appele Matrice de proximit).

Variance des composantes principales ou facteurs

SPSS a calcul 7 composantes principales ou facteurs, la premire par exemple a une valeur propre (
variance) de 4,158 qui reprsente 59,39 % de la variance des variables initiales, les trois premires
composantes reprsentent donc 95% de la variance des variables initiales
Page 6/7
Nadiri Abdeljalil 01/10/2004
Matire : Analyse des donnes

Il faut choisir un nombre de composantes suffisant pour rsumer les variables avec une perte
dinformation minimale.
Pour le choix du nombre des composantes retenir il existe deux critres :
Valeur propre ou (critre de Kaiser) : les variables initiales ont une variance gale 1,
puisquelles sont rduites. On retient les composantes dont la variance est suprieure 1,
parce quelles apportent plus dinformation (variance) que les variables de dpart.
Utilisation du graphique des valeurs propres (Scree-test):

On relier par une droite les points presque aligns, en partant de la dernire composante, le
nombre de composantes retenir est alors reprsent par les points ne figurant pas sur la
droite.
En utilisant le critre de Kaiser SPSS a retenu 2 composantes : qui restituent 86,521 % de la
variance des variables de dpart.

En utilisant le critre du Scree-Test daprs le graphique des valeurs propres les composantes
4,5,6 et 7 peuvent tre considres comme aligns sur une mme droite, donc les composantes
retenir sont les composantes 1,2 et 3 qui restituent 95% de la variance des valeurs initiales.
Donc si vous voulez opter pour lutilisation du Scree-Test, il faut refaire lACP et dans la
fentre Extraction il faut slectionner Nombre de facteurs : 3 ( et non loption valeurs propres
suprieures : 1).

Page 7/7

You might also like