You are on page 1of 12

1

Classication non supervise

Classication non supervise

1.2

Les objectifs

Lobjectif dune mthode de classication dborde le cadre strictement exploratoire. Cest la recherche dune typologie, ou segmentation, cest--dire dune partition, ou rpartition des individus en classes, ou catgories. Ceci est fait en optimisant un critre visant regrouper les individus dans des classes, Rsum chacune le plus homogne possible et, entre elles, les plus distinctes possible. Mthodes de classication non supervise (ou clustering). Notions de Cet objectif est distinguer des procdures de discrimination, ou encore de distance, classication ascendante hirarchique et distances entre classes, classement (en anglais classication) pour lesquelles une typologie est a priori construction du dendrogramme. Classication par rallocation dynamique connue, au moins pour un chantillon dapprentissage. Nous sommes dans une situation dapprentissage non-supervis, ou en anglais de clustering 1 . (kmeans), mthode mixte pour les grands tableaux. Prcdent : Positionnement multidimensionnel Suivant : Complments et rappels dalgbre linaire

1.3

Les mthodes

Un calcul lmentaire de combinatoire montre que le nombre de partitions Travaux pratiques avec SAS et R pour la recherche de classes et leur repr- possibles dun ensemble de n lments crot plus quexponentiellement avec sentation. n ; le nombre de partitions de n lments en k classes estle nombre de Stirling, n le nommbre total de partition est celui de Bell : Pn = 1 k = 1 k . e k! Pour n = 20, il est de lordre de 1013 . Il nest donc pas question de chercher optimiser le critre sur toutes les partitions possibles. Les mthodes se 1.1 Les donnes limitent lexcution dun algorithme itratif convergeant vers une bonne Comme dans le cas du thme prcdent (MDS), les donnes peuvent se pr- partition qui correspond en gnral un optimum local. Mme si le besoin senter sous diffrentes formes ; elles concernent n individus supposs affects, de classer des objets est trs ancien, seule la gnralisation des outils informatiques en a permis lautomatisation dans les annes 1970. Celeux et col. (1989) pour simplier, du mme poids : un tableau de distances (ou dissimilarits, ou mesures de dissemblance), dcrivent en dtail ces algorithmes. n n, entre les individus pris deux deux ; Diffrents choix sont laisss linitiative de lutilisateur : les observations de p variables quantitatives sur ces n individus ; une mesure dloignement (dissemblance, dissimilarit ou distance) entre les observations, toujours sur ces n individus, de variables qualitatives ou individus ; dun mlange de variables quantitatives et qualitatives. le critre dhomognit des classes optimiser : il est, dans le cas de vaDune faon ou dune autre, il sagit, dans chaque cas, de se ramener au tariables quantitatives, gnralement dni partir de la trace dune matrice bleau des distances deux deux entre les individus (cest--dire au premier de variances-covariances ; soit les variances et covariances interclasses (la cas). Le choix dune matrice de produit scalaire permet de prendre en compte trace correspond alors linertie de la partition), soit les variances et cosimplement un ensemble de variables quantitatives tandis que le troisime cas variances intraclasse ; ncessite plus de dveloppements ; il nest pas prsent ici car de peu dintrt la mthode : la classication ascendante hirarchique et celle par rallopour des donnes dexpression. cation dynamique sont les plus utilises, seules ou combines ;
1. Faire attention aux faux amis franais / anglais : discrimination / classication (supervise) et classication / clustering (non-supervise)

Introduction

Prcdente

Suivante

Premire

Dernire

Retour

Quitter

Classication non supervise

le nombre de classes : cest un point dlicat. Enn, diffrents outils recherchent une interprtation, ou des caractrisations, des classes obtenues. On notera que les principes algorithmiques de ces mthodes sont relativement lmentaires. Classication ascendante hirarchique, ou CAH

2.1

Indice de ressemblance, ou similarit

Cest une mesure de proximit dnie de dans R+ et vriant : s(i, j) s(i, i) = = s(j, i), (i, j) : symtrie ;

S > 0, i : ressemblance dun individu avec lui-mme ; S, (i, j) : la ressemblance est majore par S.

s(i, j)

Il sagit de regrouper itrativement les individus, en commenant par le bas (les deux plus proches) et en construisant progressivement un arbre, ou den- Un indice de ressemblance norm s est facilement dni partir de s par : drogramme, regroupant nalement tous les individus en une seule classe, 1 la racine (cf. gure 3.5 qui reprend les donnes lmentaires du chapitre prs (i, j) = s(i, j), (i, j) ; S cdent). Ceci suppose de savoir calculer, chaque tape ou regroupement, la distance entre un individu et un groupe ainsi que celle entre deux groupes. Ceci s est une application de dans [0, 1]. ncessite donc, pour lutilisateur de cette mthode, de faire un choix supplmentaire : comment dnir la distance entre deux groupes connaissant celles 2.2 Indice de dissemblance, ou dissimilarit de tous les couples dindividus entre ces deux groupes. Diffrents choix, apUne dissimilarit est une application d de dans R+ vriant : pels saut en franais et linkage en anglais, sont dtaills plus loin. Le nombre de classes est dtermin a posteriori, la vue du dendrogramme ou dun graphique reprsentant la dcroissance de la hauteur de chaque saut, ou cart de d(i, j) = d(j, i), (i, j) : symtrie ; distance, opr chaque regroupement. d(i, i) = 0, i : nullit de la dissemblance dun individu avec lui-mme. Classication par rallocation dynamique Dans ce cas, le nombre de classes, k, est x a priori. Ayant initialis k centres de classes par tirage alatoire, tous les individus sont affects la classe dont le centre est le plus proche au sens de la distance choisie (en principe, euclidienne pour cette mthode). Dans une deuxime tape, lalgorithme calcule des barycentres de ces classes qui deviennent les nouveaux centres. Le procd (affectation de chaque individu un centre, dtermination des centres) est itr jusqu convergence vers un minimum (local) ou un nombre ditrations maximum x. Les notions de similarit et dissimilarit se correspondent de faon lmentaire. Si s est un indice de ressemblance, alors d(i, j) = S s(i, j), (i, j) est un indice de dissemblance. De faon rciproque, si d est un indice de dissemblance avec D = sup(i,j) d(i, j), alors s(i, j) = D d(i, j) est un indice de ressemblance. Comme s , un indice de dissemblance norm est dni par : 1 d (i, j) = d(i, j), (i, j) D

Mesures dloignement

Notons = {i = 1, . . . , n} lensemble des individus. Cette section se avec d = 1 s et s = 1 d . Du fait de cette correspondance immdiate, propose de dnir sur diffrentes mesures dloignement entre deux seule la notion de dissemblance, ou dissimilarit, norme est considre par la individus. Les hypothses et proprits tant de plus en plus fortes. suite. Prcdente Suivante Premire Dernire Retour Quitter

Classication non supervise

2.3

Indice de distance

Un indice de distance est, par dnition, un indice de dissemblance qui vrie de plus la proprit : d(i, j) = 0 = i = j.

Il est alors facile de la transformer en une matrice de dissemblances normes avant daborder une classication. Nous prcisons ci-dessous les autres cas. Donnes quantitatives

Lorsque les p variables sont toutes quantitatives, il est ncessaire de dnir Cette proprit vite des incohrences pouvant apparatre entre dissemblances, une matrice M de produit scalaire sur lespace RP . Le choix M = Ip , matrice par exemple : identit, est un choix lmentaire et courant ; mais il est vivement conseill de rduire les variables de variances htrognes, comme en ACP, ce qui revient k : d(i, k) = d(j, k), avec pourtant i = j et d(i, j) = 0. considrer, comme matrice de produit scalaire, la matrice diagonale compose des inverses des carts-types : 2.4 Distance Une distance sur est, par dnition, un indice de distance vriant en plus la proprit dingalit triangulaire. Autrement dit, une distance d est une application de dans R+ vriant : d(i, j) = d(j, i), (i, j) ; d(i, i) = 0 i = j ; d(i, j) d(i, k) + d(j, k), (i, j, k) .
3

M = 1 = diag (

1 1 ). 1 p

La mtrique dite de Mahalanobis (inverse de la matrice des variancescovariances) peut aussi tre utilise pour attnuer la structure de corrlation. Donnes qualitatives

Dans le cas trs particulier o toutes les variables sont binaires (prsence, absence de caractristiques), de nombreux indices de ressemblances ont t Si est ni, la distance peut tre norme. proposs dans la littrature. Ils sont bass sur les quantits suivantes dnis pour deux individus i et j distincts : 2.5 Distance euclidienne aij = nombre de caractres communs i et j sur les p considrs, Dans le cas o est un espace vectoriel muni dun produit scalaire, donc bij = nombre de caractres possds par i mais pas par j, dune norme, la distance dnie partir de cette norme est appele distance cij = nombre de caractres possds par j mais pas par i, euclidienne : cij = nombre de caractres que ne possdent ni i ni j. d(i, j) = < i j, i j >1/2 = i j . bien sr, aij + bij + bij + dij = p. Les indices de ressemblance les plus courants sont : La condition pour quune matrice donne de distances entre lments dun espace vectoriel soit issue dune distance euclidienne est explicite dans le aij + dij aij 2aij (concordance), (Jaccard), (Dice). chapitre prcdent. Toute distance nest pas ncessairement euclidienne ; voir, p aij + bij + bij 2aij + bij + bij par exemple, celle construite sur la valeur absolue. Puis, il est facile de construire un indice de dissemblance.

2.6

Dans le cas plus gnral de p variables qualitatives, la distance la plus utiliConcrtement, il peut arriver que les donnes traiter soient directement se est celle, euclidienne, dite du 2 entre prols-lignes du tableau disjonctif sous la forme dune matrice dun indice de ressemblance ou de dissemblance. complet (cf. chapitre 6 AFCM). La distance entre deux individus i et k est Prcdente Suivante Premire Dernire Retour Quitter

Utilisation pratique

Classication non supervise

alors dnie par : d2 2 n = p


mj

p
j=1 =1

j ik

1 nj

.
j

Attention, si n est grand, la deuxime solution peut se heurter rapidement des problmes de stockage en mmoire pour lexcution des algorithmes.

2.8

Accord entre partitions

o mj est le nombre de modalits de la variable qualitative Y j , n est leffecj tif de la ime modalit de Y j et ik vaut 1 si les individus i et k prsentent une discordance pour la ime modalit de la variables Y j et 0 sinon. Limportance donne une discordance est dautant plus importante que les modalits considres sont rares. Le coefcient n/p peut tre omis.

Une partition de n individus dnit une variable qualitative dont les catgories sont les classes de la partition. Une comparaison de deux partitions est obtenue an contruisant la table de contingence croisant ces deux variables. Cependant, les numros des classes tant arbitraires, lapprciation de cet accord est difcile aussi un indice quantitatif a t propos en considrant toutes les paires dindividus, selon quils appartiennent la mme classe dans les deux Mlange quantitatif, qualitatif partitions, quils sont dans la mme classe pour lune mais pas pour lautre, et Diffrentes stratgies sont envisageables dpendant de limportance relative enn quils sont spars dans les deux partitions. des nombres de variables qualitatives et quantitatives. En notant nkl le terme gnral de la table de contingence croisant les deux Rendre tout qualitatif . Les variables quantitatives sont rendues qualitatives partitions, lindice dit de Rand scrit : 2 par dcoupage en classes. Les classes dune mme variable sont gnnkl k n2 k+ l n+l 2 2 R= k l n n . ralement recherches deffectifs sensiblement gaux : bornes des classes + gales des quantiles. La mtrique utiliser est alors celle du 2 dcrite Cet indice prend ses valeurs entre 0 et 1, il est gal 1 lorsque les deux partici-dessus. tions sont identiques. Dautres variantes ont t proposes. Rendre tout quantitatif laide dune AFCM. Une AFCM est calcule sur les seules variables qualitatives ou sur lensemble des variables aprs dcoupage en classes des variables quantitatives. LAFCM calcule par 3 Classication ascendante hirarchique AFC du tableau disjonctif complet produit des scores (cf. chapitre 6) qui sont les composantes principales de lACP des prols-lignes. Dans le 3.1 Principe cas dune AFCM partielle des seules variables qualitatives, les variables Linitialisation de cet algorithme consiste, sil nest dj donn, calculer quantitatives restantes doivent tre ncessairement rduites. Ces scores un tableau de distances (ou de dissemblances) entre les individus classer. sont ensuite utiliss commes coordonnes quantitatives des individus en Lalgorithme dmarre alors de la partition triviale des n singletons (chaque invue dune classication. dividu constitue une classe) et cherche, chaque tape, constituer des classes

2.7

Bilan

Une fois ces prliminaires accomplis, nous nous retrouvons donc avec soit un tableau de mesures quantitatives n p, associ une matrice de 3.2 Distance, ou dissemblance, entre deux classes produit scalaire pp (en gnral Ip ) dnissant une mtrique euclidienne, soit directement un tableau n n de dissemblances ou de distances entre chaque tape de lalgorithme, il est ncessaire de mettre jour le tableau individus. des distances (ou des dissemblances). Aprs chaque regroupement, de deux Prcdente Suivante Premire Dernire Retour Quitter

par agrgation des deux lments les plus proches de la partition de ltape prcdente. Lalgorithme sarrte avec lobtention dune seule classe. Les regroupements successifs sont reprsents sous la forme dun arbre binaire ou dendrogramme.

Classication non supervise

individus, de deux classes ou dun individu une classe, les distances entre ce regroupement, une minimisation de la dcroissance de la variance interclasse. nouvel objet et les autres sont calcules et viennent remplacer, dans la matrice, De plus, mme si la distance entre individus nest pas euclidienne, la mme les distances des objets qui viennent dtre agrgs. Diffrentes approches sont expression est utilise pour faire du saut de Ward dans le cas non-euclidien. possibles ce niveau, donnant lieu diffrentes CAH. Notons A et B deux classes, ou lments, dune partition donne, wA et wB leurs pondrations, et di,j la distance entre deux individus quelconques i et j. Le problme est de dnir d(A, B), distance entre deux lments dune partition de . Cas dune dissemblance Les stratgies ci-dessous saccomodent dun simple indice de dissemblance dni entre les individus. Elles sappliquent galement des indices plus structurs (distance) mais nen utilisent pas toutesles proprits. d(A, B) d(A, B) d(A, B) = = =
iA,jB

3.3

Algorithme

A LGORITHME 1 : classication ascendante hirarchique Initialisation Les classes initiales sont les singletons. Calculer la matrice de leurs distances deux deux. Itrer les deux tapes suivantes jusqu lagrgation en une seule classe : i. regrouper les deux classes les plus proches au sens de la distance entre classes choisie, ii. mettre jour le tableau de distances en remplaant les deux classes regroupes par la nouvelle et en calculant sa distance avec chacune des autres classes.

min (dij ) (saut minimum, single linkage), sup (dij ) (saut maximum ou diamtre, complete linkage),

iA,jB

1 card(A)card(B)

dij
iA,jB

(saut moyen, group average linkage).

3.4

Graphes

Les graphes obtenus lissue dune CAH ont t prsents et illustrs dans le paragraphe 2. Il sagit du graphique daide au choix du nombre de classes et Considrons que les donnes sont sous la forme dune matrice n p de du dendrogramme. variables quantitatives associe une mtrique euclidienne dans Rp ou directement sous la forme dune matrice de distances euclidiennes (n n) des 3.5 Illustration individus 2 2. Dans le premier cas, il est facile de calculer les barycentres des Les donnes sont celles dj reprsentes laide du MDS : un tableau classes et donc de considrer les distances suivantes entre deux groupes. contenant les distances kilomtriques par route (Source : IGN) entre 47 grandes d(A, B) = d(gA , gB ) (distance des barycentres, centrod), villes en France et dans les pays limitrophes. Toutes ces valeurs sont ranges wA wB dans le triangle infrieur dune matrice carre avec des 0 sur la diagonale. Il d(gA , gB ) (saut de Ward). d(A, B) = wA + wB sagit donc de regrouper au mieux ces villes, en tenant compte de leurs proxiDans le 2me cas, le carr de la distance entre 2 barycentres se calcule partir mits relatives au sens de cette distance routire. Cas dune distance euclidienne de la matrice des distances 2 2. Remarque : Le saut de Ward joue un rle particulier et est la stratgie la plus courante ; cest mme souvent loption par dfaut (SAS) dans le cas dune distance euclidienne entre individus. En effet, ce critre induit, chaque tape de Prcdente Suivante Premire lissue de lexcution, la classication ascendante hirarchique fournit les deux graphiques prciss ci-dessous. Un graphique daide au choix du nombre de classes (cf. gure 3.5). Il reprsente rebours, en fonction du nombre de classes, la dcroissance Dernire Retour Quitter

Classication non supervise

Hauteur

1000

2000

3000

4000

5000

10 nb de classes

15

Height

F IGURE 2 Villes : Exemple dun dendrogramme issu de la classication des Une fois un nombre de classes slectionn laide du premier graphique, donnes par CAH et saut de Ward. une coupure de larbre fournit, dans chaque sous-arbre, la rpartition des individus en classes. Ces classes peuvent ensuite tre reprsentes dans les axes dune analyse factorielle : une ACP si la classication a t opre sur des variables quantitatives assorties dune mtrique euclidienne, Prcdente Suivante Premire Dernire Retour Quitter

de la distance interclasses. La prsence dune rupture importante dans cette dcroissance aide au choix du nombre de classes comme dans le cas du choix de dimension en ACP, avec lboulis des valeurs propres. Dans ce cas, il faut lire le graphe de droite gauche et sarrter avant le premier saut jug signicatif. Avec lindice de Ward, cela revient couper larbre avant une perte, juge trop importante, de la variance interclasses. Dans le cas des villes repres par leurs distances kilomtriques, le choix de 5 classes semble raisonnable. Le dendrogramme (cf. gure 3.5) est une reprsentation graphique, sous forme darbre binaire, des agrgations successives jusqu la runion en une seule classe de tous les individus. La hauteur dune branche est proportionnelle lindice de dissemblance ou distance entre les deux objets regroups. Dans le cas du saut de Ward, cest la perte de variance interclasses.

0 luxe metz nanc reim troy besa dijo stra bale mulh mars nice cham gene gren lyon hend bord roya mont perp ando lour toul boul cala brux lill caen cher leha roue amie pari bres renn stma laba nant clem limo poit ange lema tour bour orle

1000

2000

3000

F IGURE 1 Villes : Dcroissance de la variance interclasses chaque regroupement dans le cas du saut de Ward.

4000

5000

Classication non supervise

une AFCM si la classication a t opre sur les composantes dune AFCM de variables qualitatives, un MDS dans le cas de lexemple (gure 3.5) car la classication est directement clcule sur un tableau de distance. Signalons quil est courant, dans la pratique, de mettre en uvre, lissue dune CAH, une mthode de rallocation dynamique avec pour nombre de classes celui choisi par CAH et pour centres initiaux les barycentres des classes obtenues : on stabilise ainsi les classes. Notons galement que lexemple prsent ici est relativement simple et bien structur. Modier le critre de saut ne change pas grand chose dans ce cas. Mais, attention, il est facile de vrier exprimentalement quune classication ascendante est un objet trs sensible. En effet, il suft de modier une distance dans le tableau, par exemple de rduire sensiblement la distance de Grenoble Brest, pour que la classication (nombre de classes, organisation) devienne trs sensible au choix du critre de saut. En revanche, la structure des donnes fait que la reprsentation factorielle de lACP du tableau de distance (MDS) est trs robuste ce type derreur de mesure ; il est recommand de systmatiquement complter une classicaiton par une reprsentation factorielle.
hend lour 400 ando 200 bord roya toul bres laba stma nant renn cher poit ange lema caen tour bour orle pari troy dijo besa mulh bale 800 600 400 200 cp1 0 leha roue amieboul cala lill brux nanc metz luxe stra 200 400

limo perp

cp2

clem mont

200

4
4.1

Agrgation autour de centres mobiles


Principes

mars nice gren

lyon gene cham

reim

Diffrents types dalgorithmes ont t dnis autour du mme principe de rallocation dynamique des individus des centres de classes, eux-mmes recalculs chaque itration. Ces algorithmes requirent une reprsentation vectorielle des individus dans Rp muni dune mtrique, gnralement euclidienne. Il est important de noter que, contrairement la mthode hirarchique prcdente, le nombre de classes k doit tre dtermin a priori.

Ces mthodes sont itratives : aprs une initialisation des centres consis- F IGURE 3 Villes : Reprsentation des classes (couleurs) obtenues par CAH tant, par exemple, tirer alatoirement k individus, lalgorithme rpte deux dans les coordonnes du MDS. oprations jusqu la convergence dun critre : i. Chaque individu est affect la classe dont le centre est le plus proche au sens dune mtrique. ii. Calcul des k centres des classes ainsi constitues. Prcdente Suivante Premire Dernire Retour Quitter

400

Classication non supervise

4.2

Principale mthode

k-means

Il sagit de la version propos par Forgy (1965) des algoritmes de type kTouljours sous la mme appelation (une option de la commande kmeans means. de R) Mac Queen (1967) a propos une dune modication de lalgorithme prcdent. Les noyaux des classes, ici les barycentres des classes concernes, sont recalculs chaque allocation dun individu une classe. Lalgorithme A LGORITHME 2 : Initialisation Tirer au hasard, ou slectionner pour des raisons est ainsi plus efcace, mais la solution dpend de lodre des individus dans le extrieures la mthode, k points dans lespace des individus, en gnral chier. k individus de lensemble, appels centres ou noyaux. Nues dynamiques Itrer les deux tapes suivantes, jusqu ce que le critre de variance La variante propose par Diday (1971) consiste remplacer chaque centre interclasses ne croisse plus de manire signicative, cest--dire jusqu de classe par un noyau constitu dlments reprsentatifs de cette classe. Cela la stabilisation des classes. permet de corriger linuence dventuelles valeurs extrmes sur le calcul du i. Allouer chaque individu au centre (cest--dire la classe) le plus barycentre. Il a galement propos la recherche de formes fortes communes proche au sens de la mtrique euclidienne choisie ; on obtient ainsi, plusieurs partitions issues dinitialisations diffrentes. chaque tape, une classication en k classes, ou moins si, nalement, une des classes devient vide. Partitionning Around Medods Cet algorithme (PAM), propos par Kaufman & Rousseeuw (1990), permet de classier des donnes de faon plus robuste, cest--dire moins sensible des valeurs atypiques. Le noyau dune classe est alors un medod cest--dire lobservations dune classe qui mimise la moyenne des distances ou dissimilarits aux autres observations de la classes. Une diffrence majeurs avec lal4.3 Proprits gorithme k-means est quun medoid fait partie des donnes et permet donc de Convergence Le critre (la variance interclasses) est major par la variance partitionner des matrices de dissimilarits. En contre-partie, il il est limit par totale. Il est simple de montrer quil ne peut que crotre chaque tape de le nombre dobservations (matrice de dissimilarits stocker) et en temps de 2 lalgorithme, ce qui en assure la convergence. Il est quivalent de maximi- calcul (algorithme en O(n )). ser la variance interclasses ou de minimiser la variance intraclasse. Cette La classication des villes par partitionnement autour de medoids est fournie dernire est alors dcroissante et minore par 0. Concrtement, une di- dans la gure 4.4 ; le nombre de classes est x a priori 5 comme le suggre zaine ditrations suft gnralement pour atteindre la convergence. la CAH alors que les classes obtenues sont sensiblement diffrentes. Optimum local La solution obtenue est un optimum local, cest--dire que la 4.5 Combinaison rpartition en classes dpend du choix initial des noyaux. Plusieurs excutions de lalgorithme permettent de sassurer de la prsence de formes Chaque mthode prcdente peut tre plus ou moins adapte la situation fortes, cest--dire de classes, ou partie de classes, prsentes de manire rencontre. La classication hirarchique, qui construit ncessairement la mastable dans la majorit des partitions obtenues. trice des distances, naccepte quun nombre limit dindividus ; de son ct, la rallocation dynamique ncessite de xer a priori le nombre de classes. 4.4 Variantes La stratgie suivante, adapte aux grands ensembles de donnes, permet de Prcdente Suivante Premire Dernire Retour Quitter ii. Calculer le centre de gravit de chaque classe : il devient le nouveau noyau ; si une classe sest vide, on peut ventuellement retirer alatoirement un noyau complmentaire.

Classication non supervise

contourner ces difcults. i. Excuter une mthode de rallocation dynamique en demandant un grand nombre de classes, de lordre de 10% de n. ii. Sur les barycentres des classes prcdentes, excuter une classication hirarchique puis dterminer un nombre optimal k de classes. iii. Excuter une mthode de rallocation dynamique sur tout lensemble en xant k le nombre de classes. Pour initialiser lalgorithme, il est habituel de choisir pour noyaux les barycentres (calculs en pondrant par les effectifs de classes) des classes de ltape prcdente.

hend lour 400 ando 200 bord roya toul

bres laba stma nant renn

Donnes gnomiques

cher poit ange lema caen limo tour perp clem mont bour orle pari troy dijo besa mulh bale 800 600 400 200 cp1 0 leha roue amieboul cala lill brux nanc metz luxe stra 200 400

mars nice gren

lyon gene cham

reim

400

Pour ce type de donnes, les biologistes apprcient particulirement de construire une double classication hirarchique oprant la fois sur les lignes et sur les colonnes (gnes et chantillons). Une reprsentation en fausses couleurs fournit une lecture susceptible de prendre en compte les distances respectives des lignes (gnes) dune part et des colonnes (chantillons biologiques) dautre part, et de se faire ainsi une ide des gnes pouvant inuencer la hirarchie obtenue pour les chantillons. Nanmoins, cette lecture, mme en se limitant une slection des gnes proposs par lanalyse en composantes principales (chapitre 3), nest pas trs aise (gure 5). Le choix de la distance est videmment important. La plus frquemment rencontre pour ltude du transcriptome est du type de d3 , base sur la corrlation. Il nous semble pertinent dutiliser les trois types de distances et den apprcier leur complmentarit quant linterprtation des rsultats. Nous avons fait le choix de limiter cette comparaison des distances au MDS et nous nous contenterons ici de prsenter une classication base sur la distance euclidienne d1 . Le deuxime choix intervenant en classication concerne le critre dagglomration, cest--dire la faon dont est dnie la distance entre deux groupes, et na pas dinterprtation biologique simple. Ce choix a plus une implication gomtrique, sur la forme des classes obtenues. Nous avons utilis le critre de Ward parce quil favorise la construction de classes relativement sphriques et quon peut lui associer des critres guidant la dtermination du nombre de classes. Linterprtation de la double classication (Fig. 5) prsente des analogies

cp2

F IGURE 4 Villes : Reprsentation des classes (couleurs) obtenues par PAM dans les coordonnes du MDS.

Prcdente

200

Suivante

Premire

Dernire

Retour

Quitter

10

Classication non supervise

PPAR efad PPAR efad PPAR ref WT efad WT efad WT efad WT dha WT dha WT dha WT dha WT tsol WT tsol WT lin WT lin WT lin WT lin WT ref WT ref WT tsol WT efad WT tsol WT ref WT ref PPAR tsol PPAR tsol PPAR lin PPAR lin PPAR ref PPAR lin PPAR dha PPAR lin PPAR ref PPAR tsol PPAR tsol PPAR efad PPAR efad PPAR dha PPAR dha PPAR dha PPAR ref
SR.BI Ntcp CAR1 PAL c.fos TRb VLDLr RARa SIAT4c i.NOS CYP2b13 eif2g ADSS1 FAT UCP2 CYP2b10 NGFiB CYP26 RARb2 CYP27b1 CYP24 UCP3 RXRg1 Lpin3 i.BAT GS PON COX2 NURR1 M.CPT1 PXR MS VDR PDK4 ACOTH RXRa MCAD CIDEA OCTN2 ACC1 PPARg FXR MDR1 Waf1 apoC3 SHP1 TRa i.BABP C16SR X36b4 COX1 Bcl.3 LXRa LXRb LPL hABC1 ADISP RXRb2 MTHFR ap2 CYP7a mABC1 IL.2 Pex11a ACAT1 THB PPARd CYP4A10 CYP4A14 CYP3A11 L.FABP THIOL PMDCI GSTmu GSTpi2 CYP2c29 G6Pase S14 Lpin1 Lpin FAS HMGCoAred PLTP LDLr FDFT G6PDH ACC2 PPARa i.FABP LPK cHMGCoAS CYP8b1 CPT2 CACP PECI ALDH3 mHMGCoAS BIEN GK GSTa HPNCL Lpin2 AOX ACBP CBS SPI1.1 apoA.I MDR2 CYP27a1 BSEP BACT Tpbeta Tpalpha MRP6 cMOAT LCE apoB AM2R apoE

avec celle de lACP sur le premier plan principal. Si lon sintresse aux individus-souris, on peut constater que les deux gnotypes sont diffrencis en deux groupes, lexception de trois souris de type PPAR ayant suivi les rgimes efad (pour deux dentre elles) et ref. Ce sont ces trois mmes individus que lon retrouve projets dans la partie ngative du premier axe de lACP (Fig. ??). Pour les variables-gnes, on peut distinguer deux grandes classes correspondant, daprs les donnes, deux niveaux dexpressions : gauche, les gnes dont lexpression est relativement faible, droite les gnes dont lexpression est globalement plus leve. Dans cette seconde classe, un groupe attire particulirement lattention sur limage : sur une bande verticale correspondant 14 gnes, les couleurs sont nettement plus variables que sur le reste de limage. Il sagit des gnes : CYP4A10, CYP4A14, CYP3A11, L.FABP, THIOL, PMDCI, S14, Lpin1, Lpin, FAS, GSTmu, GSTpi2, CYP2c29, G6Pase. qui apparaissent tous parmi les gnes les plus corrls aux deux premiers axes principaux de lACP (Fig. ??). MDS et classication apparaissent donc comme des techniques complmentaires, mais elles ne sont pas sensibles de la mme faon aux perturbations. La perturbation dune donne peut fortement inuencer la structure dun dendrogramme alors quen MDS, la prise en compte conjointe de toutes les distances deux deux assure une certaine robustesse pour le calcul des coordonnes principales. Pour cette raison, il est utile de reprsenter les classes dans une projection sur des axes factoriels obtenus soit par MDS soit par ACP. Lboulis des valeurs propres (Fig. 6) nous oriente vers une reprsentation du MDS en deux dimensions.

F IGURE 5 Souris : double classication ascendante hirarchique des La reprsentation de la gure 7 est analogue celle dj prsente en apindividus-souris et des variables-gnes selon la mthode de Ward, avec la displication du MDS. Elle est simplement complte par un codage en couleurs tance euclidienne. des gnes, selon leur appartenance une classe issue de la classication hirarchique. Pour cela, nous avons coup larbre an den extraire 5 classes. Brivement, on peut noter que laxe 1 met en vidence lopposition prcdemment voque entre CAR1 (surexprim chez les souris PPAR) et un groupe de gnes (CYP3A10, CYP4A10, CYP4A14, PMDCI, THIOL et L-FABP) qui est surexprim chez les souris WT. De manire similaire, laxe 2 oppose les gnes induits par le rgime dha (valeurs positives, gnes impliqus dans le catabolisme des lipides et dans le mtabolisme des xnobiotiques) aux gnes

Prcdente

Suivante

Premire

Dernire

Retour

Quitter

11

Classication non supervise

Valeurs propres

10

12

14

10

Dimension

1.0

CYP4A14

F IGURE 6 Souris : boulis des valeurs propres pour le MDS de la matrice de distance euclidienne intergnes.
Dimension 2

0.5

CYP3A11 CYP4A10 GSTpi2 PMDCI CYP2c29 CAR1 MCAD ACOTH PECI THB mHMGCoAS Tpalpha Pex11a GSTmu Tpbeta M.CPT1 LCE IL.2RXRa PON apoB apoE PPARg RXRb2 VLDLr LXRb FXR G6Pase CACP AM2RLPL SIAT4c ACAT1 GS PXR C16SR SHP1 MTHFR AOX SPI1.1PPARaBcl.3 PPARd TRa X36b4 ADISP OCTN2 MDR1 CIDEA i.BABP Lpin3 BIEN i.BAT RARa NURR1 ap2 COX2 LXRa hABC1 CPT2 BACTCOX1MS SR.BI UCP3 CYP26 VDR RXRg1 TRb CYP2b13 ADSS1 i.NOS c.fos CYP7a ALDH3CBScMOAT CYP27b1 CYP2b10 MDR2 NGFiB Ntcp mABC1Waf1 ACC1PDK4 apoC3 UCP2 CYP24 FAT CYP27a1 i.FABP HPNCL MRP6FDFTeif2g BSEP ACAT2RARb2 THIOL GSTa ACBP G6PDH L.FABP apoA.I Lpin2 PLTP PAL LDLr CYP8b1 LPK GK HMGCoAred ACC2 cHMGCoAS Lpin1 Lpin

1.0

induits par le rgime efad (valeurs ngatives, gnes principalement impliqus dans la synthse de lipides). En remontant vers les feuilles de larbre de classication, on notera que le groupe des gnes reprsents en vert est spar en deux sous-groupes qui conservent une cohrence vis--vis des fonctions biologiques de catabolisme et de synthse des lipides respectivement. Une observation des donnes individuelles rvle que ces rgulations opres par les rgimes semblent plus marques chez les souris WT. Nous laissons au lecteur lapprciation sur le nombre de combinaisons doptions possibles qui sont offertes par lensemble de ces outils : centrage, rduction, distance, critre de saut, projection, classication !

0.5

0.0

S14

FAS

1.0

0.5

0.0

0.5

1.0

En guise de conclusion

Dimension 1

Quelle mthode ou combinaison de mthodes associes quelles options... faut-il choisir et sur quel critre ? Rponse, celle et ceux qui fournissent des F IGURE 7 Souris : reprsentation par positionnement multidimensionnel rsultats les plus utiles. Les techniques mises en uvre sont fondamentale- (distance euclidienne) des 5 groupes issues de la classication hirarchique ment exploratoires, pas conrmatoires ni dcisionnelles. Un rsultat utile des gnes. est un rsultat qui fournit d enouveaus clairages, un point de vue fructueux sur des donnes complexes, et ainsi une meilleure comprhension des interactions en jeu. Cest une tape pralable la contruction de futures modlisations et dinfrences quiseront conrmer. Ainsi, associer, au sein dune mme classe, des gnes de fonctions inconnues dautres de fonctions connues est une straPrcdente Suivante Premire Dernire Retour Quitter

12

Classication non supervise

tgie frquente piur le biologiste pour poser des hypothses sur lannotation de ces gnes, hypothses inrmer ou conrmer par de nouvelles expriences. Attention, la pertinence des rsultats et la abilit des interprtations reposent sur une juste connaissance des mthodes, des options, des hypothses sous-jacentes ces mthodes : comment interprter une proximit, au sens de quelle distance avec quelle conance ?... sinon, lorientation du travail pour poser de nouvelles hypothses risque de se fourvoyer ou au mieux adopter une marche alatoire (cf. devise Schadok) : ...en essayant continuellement on nit par russir donc, plus a rate, plus on a de chance que a marche...

Prcdente

Suivante

Premire

Dernire

Retour

Quitter

You might also like