You are on page 1of 6

Analyse des données

Vous lisez un « bon article ».


L’analyse des données est une famille de méthodes statistiques dont les principales
caractéristiques sont d'être multidimensionnelles et descriptives. Dans l'acception française, la
terminologie « analyse des données » désigne donc un sous-ensemble de ce qui est appelé plus
généralement la statistique multivariée. Certaines méthodes, pour la plupart géométriques, aident
à faire ressortir les relations pouvant exister entre les différentes données et à en tirer une
information statistique qui permet de décrire de façon plus succincte les principales informations
contenues dans ces données. D'autres techniques permettent de regrouper les données de
façon à faire apparaître clairement ce qui les rend homogènes, et ainsi mieux les connaître.
L’analyse des données permet de traiter un nombre très important de données et de dégager les
aspects les plus intéressants de la structure de celles-ci. Le succès de cette discipline dans les
dernières années est dû, dans une large mesure, aux représentations graphiques fournies. Ces
graphiques peuvent mettre en évidence des relations difficilement saisies par l’analyse directe
des données ; mais surtout, ces représentations ne sont pas liées à une opinion « a priori » sur
les lois des phénomènes analysés contrairement aux méthodes de la statistique classique.
Les fondements mathématiques de l’analyse des données ont commencé à se développer au
début du XXe siècle, mais ce sont les ordinateurs qui ont rendu cette discipline opérationnelle, et
qui en ont permis une utilisation très étendue. Mathématiques et informatique sont ici intimement
liées.

fig.18 - Cartographie spectrale des Iris de Fisher qui ont donné lieu à de nombreuses études en analyse
des données.

Sommaire
[masquer]

 1Définition
 2Histoire
 3Domaines d'application
 4Analyse par réduction des dimensions
o 4.1Analyse en composantes principales
o 4.2Analyse factorielle des correspondances
o 4.3Analyse des correspondances multiples
o 4.4Analyse canonique
o 4.5Positionnement multidimensionnel
o 4.6Analyse Factorielle Multiple
 4.6.1Exemples d’application
 4.6.2Intérêt
o 4.7Autres méthodes
 5Analyse par classification
o 5.1Classification automatique
 5.1.1Classification « à plat »
 5.1.2Classification hiérarchique
o 5.2Analyse factorielle discriminante
 6Analyse des données et régressions
o 6.1Approche PLS
o 6.2Régressions
 7Logiciels
 8Notes et références
o 8.1Notes
o 8.2Références
 8.2.1Ouvrages spécialisés
 8.2.2Articles publiés sur internet
 9Voir aussi
o 9.1Bibliographie
o 9.2Articles connexes
o 9.3Liens externes

Définition[modifier | modifier le code]


Dans l'acception française, la terminologie « analyse des données » désigne un sous-ensemble
de ce qui est appelé plus généralement la statistique multivariée. L'analyse des données est un
ensemble de techniques descriptives, dont l'outil mathématique majeur est l'algèbre matricielle, et
qui s'exprime sans supposer a priori un modèle probabilisteb 1,i 1.
Elle comprend l’analyse en composantes principales (ACP), employée pour des données
quantitatives, et ses méthodes dérivées : l'analyse factorielle des correspondances (AFC) utilisée
sur des données qualitatives (tableau d’association) et l'analyse factorielle des correspondances
multiples (AFCM ou ACM) généralisant la précédente. L'analyse canonique et l'analyse
canonique généralisée, qui sont plus des cadres théoriques que des méthodes aisément
applicablesb 2,b 3, étendent plusieurs de ces méthodes et vont au-delà des techniques de
descriptionb 4. L'Analyse Factorielle Multiple est adaptée aux tableaux dans lesquels les variables
sont structurées en groupes et peuvent être quantitative et/ou qualitatives. La classification
automatique, l’analyse factorielle discriminante (AFD) ou analyse discriminante permettent
d’identifier des groupes homogènes au sein de la population du point de vue des variables
étudiées.
En marge de l'analyse des données, l'analyse en composantes indépendantes (ACI), plus
récente, issue de la physique du signal et connue initialement comme méthode de séparation
aveugle de source, est plus proche intuitivement des méthodes de classification non supervisée.
L'iconographie des corrélations pour des données qualitatives et quantitatives, organise les
corrélations entre variables sous la forme de graphes. L'analyse inter-batterie de Tucker est
intermédiaire entre l'analyse canonique et l'analyse en composantes principalesb 5, l'analyse des
redondances appelée aussi analyse en composantes principales sur variables instrumentales se
rapproche de la régression puisque les variables d'un des groupes analysés sont considérées
comme dépendantes, les autres comme indépendantes, et que la fonction à maximiser est une
somme de coefficients de corrélation entre les deux groupesb 6.
En dehors de l'école française, l'analyse des données multivariée est complétée par la méthode
de poursuite de projection de John Tukey, et les méthodes de quantification de Chikio Hayashi,
dont la quantification de type III est analogue à l'analyse de correspondancesb 7. L'analyse
factorielle anglo-saxonne, ou « Factor Analysis », est proche de l'analyse en composantes
principales, sans être équivalente, car elle utilise les techniques de régressionnote 1,i 2,i 3 pour
découvrir les « variables latentes »note 2.
Ces procédés permettent notamment de manipuler et de synthétiser l’information provenant de
tableaux de données de grande taille, à l'aide de l'estimation des corrélations entre les variables
que l’on étudie. L'outil statistique utilisé est la matrice des corrélations ou la matrice de variance-
covariance.

Histoire[modifier | modifier le code]


Les pères de l’analyse des données modernes sont Jean-Paul Benzécri, Louis Guttman, Chikio
Hayashi (concepteur des méthodes dénommées « Data Sciences »), Douglas Carroll et R.N.
Shepardi 4,i 1.
Mais bien avant leur temps, les techniques de base de l'analyse des données sont déjà connues.
Les tableaux de contingences, par exemple, sont présents tôt dans l'histoire : l'invincible
armada est décrite, par Paz Salas et Alvarez dans un livre publié en 1588, sous la forme d'un
tableau où les lignes représentent les flottes de navires et les colonnes les caractéristiques telles
que le tonnage, le nombre de gens d'armes, etc. Nicolas de Lamoignon de Basville, intendant du
roi Louis XIV, compte et caractérise les couvents et le monastères de la région du Languedoc en
1696i 5.
La classification trouve son maître, entre 1735 et 1758, en la personne de Carl von Linné qui met
en place à cette époque les fondements de la nomenclature binomiale et la taxinomie moderneb 8.
Robert R. Sokal et Peter H.A. Sneath présentent en 1963 des méthodes quantitatives appliquées
à la taxinomieb 9.
Les notions requises pour une analyse des données modernes commencent à être maitrisées au
début du XIXe sièclei 6. Adolphe Quetelet, astronome, statisticien belge, exploite ce qu'il connait de
la loi gaussienne à l'anthropométrie pour examiner la dispersion autour de la moyenne
(la variance) des mesures des tailles d'un groupe d'hommes. Puis, Francis Galton, parce qu'il
veut étudier la taille des pères et des fils, s'intéresse à la variation conjointe (la covariance et
la corrélation) de deux grandeurs, qui est à l'origine de ce qu'on appelle aujourd'hui la régression.
Quand Karl Pearson et Raphael Weldon s'emparent des travaux de Francis Galton, ils peuvent
généraliser la régression de Galton aux données multidimensionnelles, puis Karl Pearson a l'idée
de changer les axes de présentation pour les exprimer en fonction de variables indépendantes en
1901, établissant ainsi les prémisses de l’analyse en composantes principales. Celle-ci est
développée en 1933 par Harold Hotelling qui définit en 1936 l'Analyse canonique.
Marion Richardson et Frederic Kuder en 1933, cherchant à améliorer la qualité des vendeurs
de « Procter & Gamble », utilisent ce qu'on appelle maintenant l'algorithme (« Reciprocal
averaging »), bien connu en ACPi 7. Herman Otto Hirschfeld, dans sa publication « A connection
between correlation and contingency », découvre les équations de l'analyse des
correspondancesi 8.
C'est la psychométrie qui développe le plus l'analyse des données. Quand Alfred Binet définit ses
tests psychométriques pour mesurer l'intelligence chez l'enfant, Charles Spearman s'en accapare
pour définir, en 1904, sa théorie des facteurs général et spécifique qui mesurent l'aptitude
générale et l'aptitude particulière à une activité, nécessaires pour mener à bien cette activitéi
9
. Louis Leon Thurstone met au point sous forme matricielle les équations induites par la théorie
des facteurs, en 1931, et la complète par l'étude du terme d'erreuri 10. Il introduit aussi la notion
d'axes principaux d'inertie. En 1933, Harold Hotelling propose l'utilisation de l'itération pour la
diagonalisation des matrices et la recherche des vecteurs propresi 9.
Jean-Paul Benzécri et Brigitte Escofier-Cordier proposent l'Analyse factorielle des
correspondances en 1962-65, mais en 1954 Chikio Hayashi a déjà établi les fondations de cette
méthode sous le nom Quantification de type IIIi 4.
L'analyse des correspondances multiples est initiée par Louis Guttman en 1941, Cyril Burt en
1950 et à Chikio Hayashi en 1956i 7. Cette technique est développée au Japon en 1952 par
Shizuhiko Nishisato sous la dénomination « Dual Scaling »i 7,i 11 et aux Pays-Bas en 1990 sous le
nom de « Homogeneity analysis »i 12 par le collectif Albert Gifii 7.
L'avènement de l'ordinateur, et surtout du micro-ordinateur, est un saut technologique qui rend
possible les calculs complexes, les diagonalisations, les recherches de valeurs propres sur de
grands tableaux de données, avec des délais d'obtention de résultats très courts par rapport à ce
qui est fait dans le passéi 9,i 1.

Domaines d'application[modifier | modifier le code]


L'analyse des données est utilisée dans tous les domaines dès lors que les données se
présentent en trop grand nombre pour être appréhendées par l'esprit humain.
En sciences humaines, cette technique est utilisée pour cerner les résultats des enquêtes
d'opinion par exemple avec l'Analyse des correspondances multiplesb 10 ou l'Analyse factorielle
des correspondancesb 11. La sociologie compte beaucoup sur l'analyse des données pour
comprendre la vie et le développement de certaines populations comme celles du Liban dont
l'évolution est montrée par deux études faites en 1960 et 1970, présentées par Jean-Paul
Benzécri, et dont la structure du niveau de vie et de son amélioration sont décortiquées à l'aide
de l'analyse en composantes principalesb 12. L'analyse des correspondances multiples est souvent
utilisée en sociologie pour analyser les réponses à un questionnaire. Les sociologues Christian
Baudelot et Michel Gollac utilisent une analyse des correspondances multiples pour étudier le
rapport des Français à leur travaili 13. S'inspirant de Pierre Bourdieu pour étudier un « champ »
spécifique, le sociologue Frédéric Lebaron emploie une ACM pour analyser le champ des
économistes françaisb 13 et Hjellbrekke et ses coauteurs appliquent la même méthode pour
analyser le champ des élites norvégiennesi 14. De même, François Denord et ses coauteurs
utilisent une ACM pour analyser le champ du pouvoir en France à partir du Who's Whoi 15.
Toujours dans les travaux qui s'inspirent de Pierre Bourdieu, on peut aussi prendre comme
exemple l'analyse du champ du cinéma français par Julien Duvali 16. Les linguistes utilisent
l'analyse de texte et les techniques d'analyse des données pour situer un député sur l'échiquier
politique en examinant la fréquence d'usage de certains motsb 14. Brigitte Escofier-Cordier a étudié
quelques éléments du vocabulaire employé dans la pièce de Racine, Phèdre, pour montrer
comment l'auteur se sert des mots pour ancrer ses personnages dans la hiérarchie socialei 17.
En économie, les bilans des entreprises ont été étudiés par C. Desroussilles pour décrire la
structure et la taille de ces organismes à l'aide de la classification ascendante et de l'analyse des
correspondancesi 18. La structure de la consommation des ménages dans la CEE, est présentée
par Jean-Paul Benzécri et al. sur les deux axes d'une analyse des correspondancesb 15 et une
première étape dans l'établissement d'une nomenclature des activités économiques dans
l'industrie montre l'utilité d'une analyse des correspondances et de la classification hiérarchique
dans ce type d'opérationb 16.
Dans le domaine des sciences et techniques, certains chercheurs adoptent ces méthodes
statistiques pour déchiffrer plusieurs caractéristiques du génomeb 17. D'autres se servent de
l'analyse des données pour mettre en place un processus nécessaire à la reconnaissance des
visagesi 19. En épidémiologie, l'Inserm met à disposition ses données qu'ont exploitées Husson et
al. via l'Analyse factorielle des correspondances pour décrire les tranches d'âges en France en
fonction de leurs causes de mortalitéb 18. Jean-Paul Benzécri donne aussi des exemples de
l'usage de l'analyse des correspondances dans le cadre de l'apprentissageb 19, de l'hydrologieb 20,
de la biochimieb 21. Un exemple dans les sciences de l'environnement est celui de l'étude des
traces de métaux dans le blé en fonction des sols cultivés, qui utilise l'analyse des corrélations
canoniques considérée habituellement comme un outil plutôt théoriquei 20. L'Observatoire des
Maladies du Bois de la Vigne a cherché, dans la première décennie de ce siècle, à mesurer
l'évolution de trois maladies de la vigne en pratiquant, entre autres méthodes, l'analyse des
correspondances multiples et l'analyse en composantes principales dans un projet
d'épidémiologie végétalei 21.
Le domaine du sport est très friand de statistiques : un médecin du sport s'interroge sur l'âge des
pratiquants, leurs motivations et le sport qu'ils pratiquenti 22. Dans une autre étude le sport
s'intéresse aux motivations des sportifs lesquelles vont de l’amitié et la camaraderie à
l'affirmation de soi représentées sur un axe, et de la nature et la beauté à la combativité sur un
second axeb 22. Le sociologue cherche à savoir si la sociabilité des adeptes d'un sport est
influencée par sa pratiquei 23, la biométrie humaine caractérise la morphologie du sportif selon le
sport qu'il pratique, et dans le cas de sports collectifs le poste qu'il occupe dans l'équipei 24, etc.
La microfinance s'est aussi emparée de l'analyse des données pour évaluer les risques et définir
les populations emprunteusesi 25. L'industrie de l'assurance se sert de l'analyse des données pour
la connaissance des risques et la tarification à priorii 26.

Analyse par réduction des dimensions[modifier | modifier le code]


La représentation des données multidimensionnelles dans un espace à dimension réduite est le
domaine des analyses factorielles, analyse factorielle des correspondances, analyse en
composantes principales, analyse des correspondances multiplesb 23. Ces méthodes permettent
de représenter le nuage de points à analyser dans un plan ou dans un espace à trois dimensions,
sans trop de perte d'information, et sans hypothèse statistique préalablei 27. En mathématiques,
elles exploitent le calcul matriciel et l'analyse des vecteurs et des valeurs propres.
Analyse en composantes principales[modifier | modifier le code]
Article détaillé : Analyse en composantes principales.

fig.02 - ACP : contribution des variables aux deux premières composantes principales d'après une
présentation effectuée par FG Carpentier sur sa page « Analyse en composantes principales avec R »i 28 à
l'aide du logiciel R sur les données Budgets-Temps de l'ONU, étude effectuée en 1967

fig.01 - ACP : contribution des individus aux deux premières composantes principales d'après une
présentation effectuée par FG Carpentier sur sa page « Analyse en composantes principales avec R »i 28 à
l'aide du logiciel R sur les données Budgets-Temps de l'ONU, étude effectuée en 1967
L'analyse en composantes principales est utilisée pour réduire p variables corrélées en un
nombre q de variables non corrélées de telles manières que les q variables soient des
combinaisons linéaires des p variables initiales, que leur variance soit maximale et que les
nouvelles variables soient orthogonales entre elles suivant une distance particulièrei 29,i 30,i 31. En
ACP, les variables sont quantitatives.
Les composantes, les nouvelles variables, définissent un sous-espace à q dimensions sur lequel
sont projetés les individus avec un minimum de pertes d'information. Dans cet espace le nuage
de points est plus facilement représentable et l'analyse est plus aiséeb 24. En analyse des
correspondances, la représentation des individus et des variables ne se fait pas dans le même
espace.
La mesure de la qualité de représentation des données peut être effectuée à l'aide du calcul de la
contribution de l'inertie de chaque composante à l'inertie totale. Dans l'exemple donné sur les
deux images ci-contre, la première composante participe à hauteur de 45,89 % à l'inerte totale, la
seconde à 21,2 %.
Plus les variables sont proches des composantes et plus elles sont corrélées avec elles.
L'analyste se sert de cette propriété pour l'interprétation des axesb 25. Dans l'exemple de la fig.01
les deux composantes principales représentent l'activité majeure et l'activité secondaire la plus
fréquente dans lesquelles les Femmes (F) et les Hommes (H) mariés (M) ou célibataires (C) aux
Usa (U) ou en Europe de l'Ouest (W) partagent leur journée. Sur la fig.02 est illustré le cercle des
corrélations où les variables sont représentées en fonction de leur projection sur le plan des deux
premières composantes. Plus les variables sont bien représentées et plus elles sont proches du
cercle. Le cosinus de l'angle formé par deux variables est égal au coefficient de corrélation entre
ces deux variablesb 26.
De même, plus l'angle engendré par l'individu et l'axe de la composante est petit et mieux
l'individu est représenté. Si deux individus, bien représentés par un axe, sont proches, ils sont
proches dans leur espace. Si deux individus sont éloignés en projection, ils sont éloignés dans
leur espacei 29.