You are on page 1of 50

Travail de session : Mmoire

Le clustering de donnes
Par Nicolas Sola & Mathieu Schmitt

Rsum
Le travail du clustering consiste regrouper les donnes en classe ; nous obtenons par ce
biais une forte similarit intra-classe et une faible similarit inter-classe. Un nombre consquent
dalgorithmes nous sont prsents avec leurs avantages mais aussi leurs inconvnients. De ce
fait, la prsence dun utilisateur expert capable de jugement objectif est fortement recommande
pour le choix des dimensions significatives et lanalyse des rsultats. Dune manire schmatique,
nous catgorisons les algorithmes de clustering autour de plusieurs mthodes : hirarchique,
par partition, base sur la densit et sur les grilles. Les algorithmes sont entre autres usits
pour pallier des problmatiques rcurrentes telles que le traitement des donnes bruites
ou la gestion des objets haute dimension. Nous ne mprenons pas sur limportance de ces
donnes bruites qui peuvent en effet compromettre significativement la qualit des clusters.
Elles influent directement sur les performances et le fonctionnement des algorithmes, qui plus
est, sur la prcision des clusters crs. La haute dimensionnalit des donnes (> 10 dimensions)
enlve toute utilit aux mesures de distance et apportent aux objets une relative quidistance
les uns par rapport aux autres. Nous adoptons la mthode du clustering par sous-espace comme
solution la problmatique rencontre.
Ce genre de clustering se divise autour :
De mthodes de recherche ascendante qui utilisent celles bases sur la densit, les grilles
statiques ou adaptatives,
De mthodes itratives de recherche descendante qui affectent des coefficients de pondration aux dimensions.

Mots-cls : Clustering de donnes, rduction du bruit, haute-dimensionnalit des


donnes, clustering hirarchique, clustering par partition, clustering bas sur la densit, clustering bas sur les grilles

Introduction

Mise en contexte
Clustering, apprentissage non supervis ou regroupement automatique sont des expressions
similaires auxquelles nous devons nous familiariser ; elles convergent toutes dans la mme direction et font rfrence des mthodes qui se singularisent par :
un regroupement de donnes issues elles-mmes dun ensemble de donnes, en groupes
homognes inconnus initialement, en fonction de leur similarit.
Les techniques de clustering voient leur intrt se dcupler trs rapidement. Leurs applications progressives sont trs porteuses et se retrouvent aujourdhui en nombre incalculable
dans maints domaines. Nous pouvons citer par exemple lanalyse de donnes conomiques qui
permet de segmenter un march ou profiler des clients, la classification et catgorisation de
documents sur le Web, la reconnaissance de formes et le traitement dimages,...//
Posons-nous prsent la question pertinente suivante et tentons dy rpondre : quelles
sont les raisons pour lesquelles ces techniques novatrices ont fait leur apparition ?
La rponse que nous apportons fait preuve de bon sens. Depuis lapparition de linformatique, nous sommes confronts une croissance effrne de la quantit de donnes stockes
dans le monde entier. Ces donnes se retrouvent sous formes diverses et varies et constituent
un gigantesque vivier o lHomme vient puiser des informations et des connaissances pour en tirer le meilleur profit. Une analyse manuelle relve ds lors de limpossible et au vu de ce constat,
lHomme cre des techniques de recherche, danalyses de donnes de plus en plus performantes.
Une ide prdomine dsormais : regrouper des donnes et en soustraire des connaissances .
Tout pense croire que cette ide est en relation avec linstinct primaire de lHomme qui
par son comportement obit la logique aristotlicienne, celle qui "aime" tout catgoriser.
Et pour cause, "Aristote na pas vcu sous lre informatique certes, cependant nous lui devons les premires classifications hirarchiques systmatiques des connaissances et des concepts.
Sinspirait-il des divisions utilises pour lorganisation des armes ? Cette hypothse nous semble
plus que probable."[17].

Dfinition
Nous utilisons de nos jours les techniques de clustering pour la dcouverte de groupes inconnus parmi certains ensembles de donnes. La classification peut tre considre comme une fin
en soi, nanmoins elle est trs efficace comme outil de pr-traitement et accepter par dautres
i

mthodes de fouille de donnes.

Figure 1: tapes du datamining

Dans le cadre dune analyse complte de datamining, lutilisation du clustering durant la


phase de fouille de donnes savre bien judicieuse.
Argumentons : le seul fait de pratiquer un regroupement des donnes en fonction de leur
similarit peut faire apparatre des "motifs" utiles qui viennent alimenter nos connaissances.
Cette alternative sied parfaitement des mthodes telles que : lassociation, la rcapitulation,
la rgression dans les cas dabsence de classement des donnes avec cependant possibilit de
dtecter des similarits entre ces donnes.

ii

Problmatiques
Nous utilisons dans notre vie quotidienne diffrentes mthodes de classement pour nos objets ; il en va de mme pour les algorithmes de clustering. Larticle "Data Clustering : A review
[8]" rvle quil "nexiste pas de techniques de clustering de donnes universellement applicables
puisque nous sommes en prsence dune grande varit de structures multidimensionnelles de
donnes.".
Cette affirmation nous conduit ces deux questions : Quelles mthodes sont actuellement
proposes ? Quelles sont leur spcificit respective ?
Nous sommes amens par ailleurs uvrer sur des ensembles de donnes potentiellement
complexes avec plusieurs dimensions ou des ensembles contenants des donnes bruites (des
donnes parasites). Ds lors, des interrogations apparaissent :
Que signifie la haute dimensionnalit des donnes ?
Quelles sont les techniques appropries dans la gestion de ce problme ?
Quels sont les impacts occasionns par les donnes bruites sur une analyse de donnes ?
De quelle manire les algorithmes de clustering ragissent-ils face au bruit ?
A quelles mthodes faisons-nous appel pour llimination de ce "bruit" dans un ensemble
de donnes ?
Nous dvelopperons principalement les rponses apportes ces deux dernires questions et
cernerons les problmatiques qui en dcoulent.
Nous souhaitons toutes et tous une bonne lecture, et de ne pas tre :
"Celui qui se perd dans ce quil lit, mais celui qui sy trouve" Paul Valry.

iii

Table des matires

Introduction
Mise en contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Dfinition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Problmatiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

iii
iii
iii
iii

Table des matires

iv

1 Mthodes de clustering
1.1 Gnralits . . . . . . . . . . . . . . . . . . . .
1.2 Hirarchiques . . . . . . . . . . . . . . . . . . .
1.2.1 Gnralits . . . . . . . . . . . . . . . .
1.2.2 Mthodes agglomratives et divisives . .
1.2.3 Mthodes de mesure entre deux clusters
1.2.4 Algorithme BIRCH . . . . . . . . . . . .
1.3 Partitions . . . . . . . . . . . . . . . . . . . . .
1.3.1 Gnralits . . . . . . . . . . . . . . . .
1.3.2 Fonctionnement . . . . . . . . . . . . .
1.3.3 Les mthodes heuristiques . . . . . . . .
1.4 Autres mthodes . . . . . . . . . . . . . . . . .
1.4.1 Mthode sappuyant sur la densit . . .
1.4.2 Mthode base sur les grilles . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.

1
1
5
5
5
6
7
8
8
8
8
12
12
13

.
.
.
.
.
.
.
.
.

16
16
17
17
18
19
20
20
20
21

3 Haute dimensionnalit des donnes


3.1 Mise en contexte et problmatiques . . . . . . . . . . . . . . . . . . . . . . .
3.2 Mthodes de clustering subspatial . . . . . . . . . . . . . . . . . . . . . . . .
3.2.1 Prsentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

23
23
25
25

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

2 Rduction du bruit
2.1 Introduction au problme . . . . . . . . . . . . . . . . . . . . . . .
2.2 Consquences des donnes bruites . . . . . . . . . . . . . . . . . .
2.2.1 Avis des articles scientifiques . . . . . . . . . . . . . . . . .
2.2.2 Exprimentations . . . . . . . . . . . . . . . . . . . . . . .
2.2.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3 Les solutions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.1 Mthodes fondes sur la distance . . . . . . . . . . . . . . .
2.3.2 Mthodes fondes sur le regroupement . . . . . . . . . . . .
2.3.3 Approche fonde sur le facteur des valeurs aberrantes locales

iv

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

3.2.2
3.2.3
3.2.4

Mthode de recherche ascendante . . . . . . . . . . . . . . . . . . . .


Mthode itrative de recherche descendante . . . . . . . . . . . . . .
Comparaison des mthodes ascendantes et descendantes . . . . . . . .

26
28
29

Conclusion
Analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Perspectives dvolution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

32
32
32

Table des figures

33

Bibliographie

35

Appendices

37

Chapitre 1

Mthodes de clustering
1.1

Gnralits

Un algorithme de clustering dit "efficace" gre toutes les situations. Dans une mission
parfaitement accomplie, un algorithme devrait rpondre aux critres suivants [7] :
1. Evolutivit : Les BDD sont capables de rceptionner un volume considrable de donnes
notamment lorsque nous faisons appel dans le cadre de notre travail aux services du Web.
Dans ce cas prcis, les algorithmes communs perdent de leur efficacit dans le traitement
des donnes qui sont lgions et risquent de gnrer des rsultats biaiss. La recherche
dalgorithmes volutifs savre donc indispensable.
2. Capacit traiter diffrents types dattributs :Un algorithme peut aisment traiter
des donnes dans des formats simples et uniques sous forme de nombre par exemple
Nous utilisons cependant des types de donnes de plus en plus complexes tels que des
graphiques, des images. De plus, les ensembles de donnes contiennent souvent plusieurs types de donnes, en simultan, compliquant fortement le fonctionnement des algorithmes. Notre objectif est de garantir des rsultats probants ; cette phase de ralisation
revt donc un caractre essentiel dans le cheminement du "bon" algorithme.
3. Dcouverte de clusters de forme arbitraire : Diffrentes mthodes permettent de
classer les donnes, chacune dentre elles se distingue par des spcificits qui affectent
les rsultats obtenus. Prenons un exemple pour affiner nos propos : Les algorithmes qui
sappuient sur des mesures de distance pour effectuer des regroupements obtiennent au
travers de leur recherche des amas de points de forme sphrique gnralement de taille
et de densit relativement similaires. In fine, ne ngligeons pas limpact que peut avoir
une mthode de classification ; il est primordial pour un "bon" algorithme deffectuer une
dtection pointue sur les rsultats obtenus et nous confirmer la dcouverte dune forme
arbitraire.
4. Exigences relatives aux connaissances du domaine pour dterminer les paramtres dentre : Dlivrer un algorithme des informations relatives au domaine de
recherche sous forme de paramtre dentre, peut sembler drisoire. Cependant lintervention humaine influe considrablement les rsultats finals. En effet, les algorithmes de
clustering peuvent tre trs sensibles ces paramtres. Prenons un exemple concret : Si,
pour fonctionner, lalgorithme de clustering ncessite lintervention de lutilisateur pour
renseigner le nombre de groupes (de clusters) souhaits, nous obtiendrons au final des
rsultats que nous ne pourrons pas qualifier de partiaux et gnraux mme sils reproduiront fidlement les souhaits formuls en amont par lusager. De ce fait, il est conseill
de rduire de faon maximale lintervention de lutilisateur dans le fonctionnement de
lalgorithme afin de ne pas ternir la qualit des rsultats, et de conserver leur pertinence
et leur prcision.
5. Aptitude faire face des donnes bruites : Dans le monde rel, les ensembles de
donnes sont soumis aux inexactitudes de la vie. En effet, ces ensembles sont susceptibles
de contenir des valeurs aberrantes, des donnes manquantes, inconnues ou errones. Nous
connaissons la sensibilit des algorithmes de clustering face au bruit ; celle-ci peut donc

conduire des regroupements de mauvaise qualit. Pour remdier cette sensibilit, les
mthodes de clustering doivent faire preuve de robustesse.
6. Regroupement incrmentiel et insensibilit lordre dentre : Des algorithmes
fiables sont capables de grer sans encombre les donnes dynamiques au fur et mesure
de leur arrive sans retourner systmatiquement la case dpart. Des algorithmes dits
sensibles lordre dentre des donnes fournissent des rsultats diamtralement diffrents
en fonction de lordre de prsentation de ces donnes. Nous devons de ce fait veiller
conserver une insensibilit dans lordre dentre des donnes.
7. Capacit crer des regroupements partir dimportants volumes de donnes :
La majorit des algorithmes font preuve dincomptence lorsquil sagit de traiter plusieurs
dimensions 1 : de nouveaux problmes viennent se greffer ceux dj existants telle la
dispersion des donnes. Sapproprier des clusters de qualit devient donc trs complexe.
8. Problmes lis au contexte, lInterprtation et lutilisation des rsultats :
Les utilisateurs exigent des rsultats de clustering clairs et exploitables do limportance
dtudier la manire dont lobjectif peut influencer le choix des fonctions et des mthodes
de clustering.
Tous ces constatations affectent le droulement et les rsultats du clustering.
La littrature nous fait dcouvrir lexistence de nombreux algorithmes de clustering et notre
grand dam linexistence dune technique universelle de regroupement. Cependant, lorganisation
de ces algorithmes passe par diffrentes mthodes retenues en fonction de leur approche en
matire de traitement des donnes :
Les mthodes de clustering hirarchiques tudies en 1.2,
Les mthodes de clustering par partition tudies en 1.3,
Les autres mthodes de clustering tudies en 1.4
+ Bases sur les grilles,
+ Bases sur la densit.

Les cinq tapes du regroupement de donnes sont reprsentes sur la figure 1.1 :

Figure 1.1: tapes du clustering

Prenons connaissance des tapes [8] :


1. La reprsentation de motifs : Cette tape correspond au nombre : de motifs, de
classes, de types et dchelles disponibles pour un algorithme de clustering. La slection de caractristiques passe par la recherche dattributs les plus concrets dans un souci
didentification des sous-espaces de recherche. Lextraction de caractristiques rsume le
jeu de donnes 2 par la cration dune combinaison linaire des attributs. Cette phase dex1. Une dimension est un attribut ou une caractristique dun jeu de donnes.
2. Un jeu de donnes est une matrice de valeurs. Les enregistrements reprsentent les instances ou objets,
et les colonnes les dimensions

traction permet entre autres de produire de nouvelles caractristiques saillantes. Notons


que les deux mthodes prcites sont optionnelles dans cette tape,
2. La dfinition dun modle de mesure de proximit appropri pour les donnes
tudies : Cette mthode sefforce de mesurer la distance entre motifs grce lutilisation
de fonctions de mesure,
3. Le regroupement : Avec cette tape, nous touchons le centre du processus de clustering. Nous prendrons connaissance ci-aprs des nombreuses mthodes de regroupement
utilisables ce jour. Nanmoins, les deux plus communes sont les mthodes de clustering
(1.2) et les mthodes par partition (1.3). La figure 1.2 permet dapprcier ltendue de
ces dernires,
4. Labstraction des donnes (facultatif) : Cette tape autorise lextraction dune petite
portion de chaque cluster. Ltre humain matrise thoriquement ce petit jeu de donnes,
dans le cas contraire, cette phase est traite par analyse automatique offrant sret et
efficacit.
5. Lvaluation des rsultats (facultatif). La figure 1.1 nous dmontre que certaines
tapes donnent lieu des retours en arrire ; notons ds lors que lexprience et la dextrit de lutilisateur revtent un grande importance. En effet, une parfaite comprhension
des rsultats obtenus chaque tape savre ncessaire au regard de la qualit finale du
cluster. Par ailleurs, lutilisateur se trouve en prsence dun nombre considrable dalgorithmes de clustering, il doit tre en mesure de slectionner le plus appropri face la
problmatique rencontre. Enfin, il doit tre pourvu de suffisamment de connaissances
lies au domaine dtude pour une slection adquate de sa part des variables dentre.
En rsum : nous attendons de lutilisateur quil fasse preuve dclectisme.
Plusieurs regroupements de donnes sont ralisables pour un mme jeu de donnes. Dans
ce cas ,lvaluation de la pertinence des rsultats relve de la subjectivit et nous restons
face un problme rcurrent. Diffrentes mthodes telles que lutilisation de donnes
artificielles communment appele "valuation externe", de classes tiquetes ou le recours un expert dans le domaine, constituent des mtriques efficaces quant la qualit
statistique des rsultats obtenus [3].

Figure 1.2: Dcoupage des mthodes de clustering [8]

Le terme de similarit revt toute son importance dans le sens o le clustering est imprgne
de cette volont vouloir rassembler naturellement les groupes dobjets 3 . Lalgorithme sattle
maximiser les similarits intra-classe, minimiser les similarits inter-classe en vue dune
cration de sous-groupes de qualit.
3. Un objet ou une instance est une ligne dans un jeu de donnes.

1.2
1.2.1

Hirarchiques
Gnralits

Les mthodes de regroupement hirarchique ont pour vocation de grouper les donnes sous
forme hirarchique cest dire sous forme darbre ou dun "Dendrogramme" composs de clusters : En plus dtre visuelle, cette reprsentation trouve toute son utilit dans le rsum des
donnes. La figure 1.4b montre un tel dendogramme.
Ainsi le nud au top de larbre constitue lensemble des donnes de la base. Un parcours
de larbre vers le bas nous montre des clusters de plus en plus spcifiques un groupe dobjets ;
objets qui se caractrisent par une notion de similitude.

1.2.2

Mthodes agglomratives et divisives

Deux mthodes diamtralement opposes se distinguent par leur capacit crer de tels
arbres :
1. La premire mthode appele mthode agglomrative dbute au bas de larbre bottom.
Il y a autant de clusters que de donnes prsents dans la base. A mesure que nous
remontons dans larbre, les objets se regroupent en formant leurs propres clusters, ces
clusters fusionnent itrativement prenant ainsi de lampleur jusqu atteindre le nud
racine (top) 4 . Les algorithmes BIRCH ou AGNES sont le parfait reflet de cette mthode
(figure 1.3).
2. La deuxime mthode appele mthode divisive prend sa source au noeud racine et
place tous les objets dans un seul et unique cluster. Cette mthode divise successivement
les clusters en sous-clusters de plus petite taille 5 . Lalgorithme DIANA est un exemple
de cette mthode (figure 1.3).

Figure 1.3: Mthodes divisive et agglomrative

4. Nous sommes en prsence du concept de gnralisation si chre au paradigme objet


5. Notons lanalogie avec le design pattern de spcialisation propre au concept de programmation oriente
objet

La ralisation de lune ou lautre de ces tapes rend impossible un retour en arrire, ce qui
confre une certaine rigidit ces mthodes hirarchiques. Un point positif se dgage cependant : un gain dconomie en terme de mmoire centrale.
Puisque nous venons de dfinir les axiomes qui rgissent les algorithmes hirarchiques, allons
plus loin dans nos investigations et posons nous la question : De quelle manire pouvons-nous
mesurer la distance entre deux clusters ?

1.2.3

Mthodes de mesure entre deux clusters

Nous utiliserons principalement quatre mesures qui se fondent sur la distance entre clusters
(mesure de liaison) :
1. La distance minimum : les algorithmes qui sappuient sur ce concept sintitulent Algorithme de clustering du plus proche voisin. "Si le processus de clustering est termin
quand la distance entre les clusters les plus proches excde la valeur dfinie par lutilisateur, cet algorithme est aussi appel "Algorithme simple lien"."[7]. La figure 1.4b illustre
ce concept. Par ailleurs, un algorithme de type agglomratif qui utilise cette mesure de
distance pour la construction dun arbre est appel "minimal Spanning Tree Algorithm",
2. La distance maximum : les algorithmes qui adoptent cette technique se nomment
Algorithme de clustering du voisin le plus loign. Contrairement lalgorithme simple
lien, dans le cas o le processus est achev lorsque la distance maximale entre les clusters
les plus proches excde la valeur dfinie par lutilisateur, cet algorithme sera qualifi
dalgorithme lien complet. La figure 1.4c nous en donne un exemple.
3. La distance au milieu et 4. la distance moyenne : Ces deux distances cherchent
un compromis par rapport aux deux distances extrmes prsentes ci-dessus ; elles se
caractrisent la fois par une sensibilit aux donnes bruites et aux valeurs aberrantes.
Notons que la distance au milieu se calcule facilement alors que le calcul de la distance
moyenne savre plus complexe voire mme impossible dans certains cas.

(a) Un jeu de donnes

(b) Algorithme de clustering utilisant la mthode


simple lien.

(c) Algorithme de clustering utilisant la mthode lien


complet

Figure 1.4: Clustering hirarchique ayant recours aux algorithmes lien simple et lien
complet. [7]

1.2.4

Algorithme BIRCH

BIRCH est lacronyme de "Balanced Iterative Reducing and Clustering using Hierarchies".
Son fonctionnement se singularise par une division en quatre phases dont deux sont optionnelles :
1. Phase 1 : Dans un premier temps, lalgorithme scanne la base de donnes pour construire
un arbre de type CF-Tree (figure 1.5) plac dans la mmoire centrale de lordinateur. Cet
arbre qui permet de conserver la structure des donnes est compos de deux facteurs :
Le facteur de branchement qui correspond au nombre denfants pour chaque noeud
et le seuil not T qui indique le diamtre maximal du sous-cluster. Larbre est construit
dynamiquement en fonction de linsertion des objets, ce qui en fait un algorithme incrmental. Un objet est insr dans la feuille la plus proche. Si le diamtre du sous-cluster
aprs insertion de lobjet est suprieur au seuil T la feuille est alors spare,
2. Phase 2 (Optionnelle) : Lalgorithme peut condenser larbre CF en un plus petit,
3. Phase 3 : Lalgorithme applique un algorithme de clustering pour regrouper les feuilles
de larbre CF. Les donnes bruites sont lagues et les units denses sont fusionnes
pour former de plus gros clusters,
4. Phase 4 (Optionnelle) : Cette phase raffine les clusters pour amliorer leur qualit cette
tape cependant requiert un nouveau passage sur la base de donnes.

Figure 1.5: Une structure CF-Tree [7]

Dans la ressource bibliographique [20], Tian Zhang & Al affirment que la force de leur
algorithme rside dans les points suivants :
Chaque dcision se prend sans scannage systmatique de toutes les donnes favorisant ainsi un gain de puissance computationnelle non ngligeable,
Lespace de donnes nest pas uniforme, ainsi BIRCH ne donne pas la mme pondration
chaque point : Les clusters ainsi crs sont plus prcis,
Toute la mmoire disponible est utilise pour crer des clusters de bonne qualit et
ainsi minimiser le cot des entres-sorties.

BIRCH offre une bonne flexibilit puisquil laisse lutilisateur la possibilit de renseigner les
valeurs de seuil et le nombre de clusters, cependant il devient un handicap pour un utilisateur
non- expert. La qualit des clusters crs est dpendante des valeurs dentre. BIRCH ne
sapprtent pas efficacement aux clusters de forme non sphrique car il adopte des valeurs telles
que le diamtre et le radius pour le calcul des bornes du cluster.

1.3

Partitions

1.3.1

Gnralits

Grouper les donnes de faon optimale pour un critre de partitionnement donn et un


nombre de groupes (clusters) dfini par avance, tel est lobjectif que se fixent les mthodes de
regroupement par partitionnement.

Figure 1.6: Exemple de clustering par partition

1.3.2

Fonctionnement

Nous disposons principalement de deux procds efficaces pour la cration de partitions. La


premire mthode consiste dceler l"optimum global" pour un ensemble de donnes. Plus
prcisment, elle construit toutes les partitions possibles, value par la suite la qualit de chaque
groupe et retient enfin la meilleure partition.
Cette technique augmente de manire exponentielle le nombre de partitions possibles rendant trop onreux une utilisation constante de ressources.
La seconde mthode est appele mthode heuristique. Elle permet dacqurir au moins
une bonne partition qui nest cependant pas ncessairement la partition "optimale". Elle nous
pargne nanmoins lnumration exhaustive de toutes les partitions possibles ; elle est donc
reconnue en tant que principale mthode utilise.

1.3.3

Les mthodes heuristiques

Comme nous venons de le dcrire, les mthodes heuristiques ne dclent pas systmatiquement la partition "optimale". Plusieurs moyens existent cependant pour obtenir une bonne
partition proche de la partition "optimale" :

premire technique : elle reprsente chaque groupe (cluster) par son centre (nous parlons
de centrode) ; lalgorithme K-means exploite cette mthode.
deuxime technique : elle reprsente chaque groupe par un objet qui correspond au
membre le plus proche du centre (nous parlons de mdode). Les algorithmes K-medoids
et PAM (Partition Around Medoids) se servent de cette mthode.
K-means
Dans un premier temps, lutilisateur va choisir le nombre de groupes quil souhaite acqurir. Lalgorithme partitionne ensuite les objets en autant de groupes non vides sollicits par
lutilisateur. Une fois la cration des groupes acheve, nous pouvons calculer leur centre. Nous
affectons chaque objet au groupe dont le "centre" est le plus proche. Lalgorithme recommence
les deux dernires tapes autant de fois quil est ncessaire jusqu ce quil ny ait plus de
changements dans les groupes. Nous parlons dans ce cas de groupes stables ; la fin du travail
de lalgorithme correspond ce que nous appelons un optimum local. Le schma ci-aprs 1.7
rcapitule le fonctionnement de lalgorithme.

Figure 1.7: Fonctionnement dune itration de lalgorithme K-means

Nous trouvons un intrt dans le travail de cet algorithme par sa capacit regrouper
efficacement les donnes. Il souffre nanmoins de quelques faiblesses :
Cet algorithme nest utilisable que lorsque la moyenne est dfinie posant ainsi problme
certains types de donnes, notamment les donnes non numriques.
Nous devons slectionner le nombre de groupes lavance 1.8.
Il est trs sensible aux donnes bruites et aux valeurs aberrantes puisque la moyenne est
impacte.
Cet algorithme ne dtecte que des groupes de forme convexe.

Figure 1.8: Impact du choix du nombre de groupes

K-medoids et PAM
Cet algorithme par son fonctionnement se rapproche de lalgorithme K-means. Nous choisissons un nombre de groupes et nous calculons le centre de chacun de ces groupes. Cependant,
ce centre nest plus considr comme point de rfrence conserver. En effet, le centre du
groupe correspond dans cet algorithme lobjet du groupe le plus proche du centre calcul (le
centre est donc un objet "rel" et non plus un point "fictif"). Nous affectons ensuite les objets
(hors objets considrs comme centre de groupe) au groupe dont lobjet central est le plus
limitrophe. Ces oprations se rptent jusqu la parfaite stabilisation des groupes. La figure
ci-dessous 1.9 rcapitule le fonctionnement de lalgorithme :

Figure 1.9: Calcul du centre par lalgorithme K-medoids

Lalgorithme K-medoids prsente un avantage sur lalgorithme K-means par sa plus grande
robustesse, il est nettement moins affect par les donnes bruites. Linconvnient cependant
rside dans sa performance qui ngale pas celle de lalgorithme K-means. Il conviendra donc
parfaitement pour de petits jeux de donnes mais ne saffirmera pas sur un nombre plus consquent de donnes.
Pour pallier cette problmatique, une solution est retenue avec lalgorithme CLARA qui
fonctionne en parallle avec PAM. CLARA correspond une mthode dchantillonnages.

10

CLARA
CLARA signifie Clustering LARge Application. Retenons lide principale qui se dgage de
cet algorithme : nous allons appliquer la mthode PAM un chantillon de donnes. Pour ce
faire, plusieurs chantillons sont extraits dun grand ensemble de donnes ; chaque chantillon
ainsi prlev est soumis la mthode PAM. Nous slectionnons ensuite le meilleur rsultat.
Cette combinaison de deux algorithmes prsente un intrt vident car nous faisons appel
lefficacit de PAM pour travailler sur de grands ensembles de points. Sa performance a
cependant des limites, elle est tributaire de la taille et de la quantit des chantillons.
Pour pallier ce problme dchantillons, nous utiliserons une variante de CLARA appele
CLARANS. CLARANS amliore la qualit du travail par rapport CLARA grce sa capacit
rcuprer les chantillons de manire alatoire (et non plus slectionns par lhomme), et
diffrents chaque tape.

11

1.4

Autres mthodes

Cette section prsente deux autres mthodes qui permettent la pratique du clustering
savoir la mthode base sur la densit et la mthode base sur les grilles.

1.4.1

Mthode sappuyant sur la densit

Cette mthode est un remde la problmatique rcurrente des mthodes hirarchiques


et des mthodes par partition : ceux-ci grent correctement les clusters de forme sphrique,
beaucoup moins les clusters de forme arbitraire (figure 1.10). Pour rgir au mieux ces formes
alatoires, "il est ncessaire de considrer un cluster comme tant une rgion homogne de
haute densit entoure de rgions de faible densit"[3] comme le dmontre concrtement la
figure 1.11. De plus, cette mthode est capable de grer le bruit qui peut exister dans les
donnes.

Figure 1.10: BDD formes particulires

Lalgorithme DBSCAN (Density-Based Spatial Clustering of Applications with Noise) est


lalgorithme le plus connu. Il contient trois donnes dentre :
1. D : le jeu de donnes contenant n objet,
2.  : le rayon,
3. M inP ts : Le nombre minimum de points qui doit tre contenu dans le rayon  pour que
la zone soit considre comme tant dense.
Tout dabord, DBSCAN marque chaque objet contenu dans D comme non-visit. Lalgorithme fonctionne ensuite en deux tapes. En premier lieu, pour chaque objet p slectionn
alatoirement, lalgorithme le marque comme visit. Il teste ensuite si le voisinage dcrit par le
rayon  et ayant pour centre lobjet p contient au moins M inP ts objets. Si ce nest pas le cas,
lobjet est marqu et rpertori en tant que bruit. Sinon deux alternatives se prsentent : soit
lobjet est rajout un cluster, soit un nouveau cluster est cre. Lalgorithme continue de cette
manire aussi longtemps que subsistent des objets non-visits.

Figure 1.11: Rsultats des regroupements effectus par DBSCAN

Lutilisateur spcifie les valeurs M inP ts et , ce qui peut paratre complexe. Ces deux dernires valeurs tant globales, elles sont incapables de traiter des clusters de densits diffrentes.
12

1.4.2

Mthode base sur les grilles

Principes et challenges techniques


Les algorithmes de clustering bass sur les grilles se conforment aux trois tapes suivantes :
1. Diviser lespace en cellules rectangulaires afin dobtenir une grille compose de cellules de taille quivalente. La figure 1.12 montre une telle grille,
2. Supprimer les cellules de basse densit cest dire que les cellules qui possdent
une densit de points levs sapparentent des clusters, contrario les cellules peu de
points du bruit,
3. Combiner les cellules adjacentes ayant une forte densit pour former des clusters.

Figure 1.12: Grille deux dimensions pour la recherche de clusters

La force de lapproche par grille permet dobtenir un temps linaire pour lassignement des
points aux cellules : la complexit est donc de O(n), o n reprsente le nombre de points de
donnes.
Nous devons ncessairement nous arrter un petit moment afin de mditer sur la problmatique suivante : Puisque les cellules prsentent une taille rectangulaire et fixe, elles ne viennent
pas pouser systmatiquement la forme du cluster.
Une approche nave consisterait augmenter le nombre de cellules dans un but de prcision.
Le temps dexcution augmenterait de faon significative et plus encore en prsence dun grand
nombre de dimensions occasionnant par la mme un problme de sur-partitionnement.
Abordons une autre difficult lie lutilisation de ces mthodes fondes sur les grilles, celle de
la haute dimensionnalit des donnes : une augmentation des donnes entranerait systmatiquement un surcrot impressionnant du nombre de cellules. A contrario, la cration dune grille
pourvue de peu de cellules pourrait engendrer des trous dans le cluster, le rsultat ainsi obtenu
ne serait donc pas significatif : cest bien l tout le problme du sous-partitionnement.
Noircissons le tableau des difficults et parlons de celle rencontre lors de la recherche de clusters
dans un espace pleine dimension. Comme prcis dans [15],"si nous rajoutions de nombreuses
variables additionnelles chaque point dun cluster de la figure 1.12 et que ces points soient
uniformment rpartis, la majorit des points se retrouveraient dans une cellule spare de cet
13

espace haute dimension. Ainsi, les clusters de points devraient exister uniquement dans des
sous-espaces 6 ; sous-espaces augmentant exponentiellement en fonction de la dimensionnalit
de lespace". Avec ce cas, nous nous trouvons nouveau confronts la problmatique de la
haute dimensionnalit des donnes.
Les principaux challenges techniques sont prsent poss, penchons-nous maintenant sur
les algorithmes sappuyant sur les grilles et observons leur comportement face aux problmes
noncs tantt.

Principaux algorithmes
STING - STatistical INformation Grid est un algorithme qui ne sappuie pas sur la musique :-) mais bien sur les grilles. Dcouvrons son intrt : la disposition des cellules suit
un ordonnancement hirarchique. Ainsi donc, une cellule haut niveau est partitionne dans
un nombre de cellules plus petites, au niveau infrieur, comme nous pouvons le constater sur
la figure 1.13. Les informations statistiques de chaque cellule sont pr-calcules et stockes
en tant que paramtre statistique. Les paramtres du niveau i se calculent aisment partir
du i 1. Nous dtectons ainsi trs facilement des valeurs telles que le max, le min, le type

Figure 1.13: Structure hirarchique pour lalgorithme STING[7]

de distribution. STING utilise une approche de type Top-Down : lalgorithme dmarre avec
un niveau i pr-slectionn, souvent avec un petit nombre de cellules. Il supprime ensuite les
cellules non-pertinentes (infrieures un niveau de confidence donne). la fin de lexamen
du niveau i, STING passe au niveau plus bas i 1, jusqu ce que le niveau le plus bas soit
atteint. Lavantage de STING rside dans sa complexit O(k) o k est le nombre de cellule du
niveau le plus bas. Comme dit prcdemment, les informations statistiques de chaque cellule
sont stockes rendant les calculs dpendants des requtes. Par ailleurs,nous pouvons parallliser les calculs sans difficult en raison de la structure en grille. Enfin, STING ne ralise quun
unique passage sur la BDD lors du calcul des paramtres statistiques, la complexit lors de
cette tape est de O(n) o n reprsente le nombre dobjets. Ds linstant o nous avons la
certitude que la structure hirarchique est bien en place, la complexit est amene O(g) (o
g reprsente le nombre de cellules, valeur plus petite que n). Toutefois, la qualit des clusters
dpend entirement du niveau de granularit des cellules, problmatique soulev en 1.4.2. De
plus, les clusters peuvent tre de mauvaise qualit en dpit dune vitesse dexcution leve :
6. un sous-espace est un sous - ensemble des dimensions dun jeu de donnes.

14

Une relation spatiale entre les enfants et leurs cellules voisines est inexistante lors de la cration
de la cellule parente.
CLIQUE - Cet algorithme sera tudi en 3.2.2.

15

Chapitre 2

Rduction du bruit
2.1

Introduction au problme

Nos premires approches en matire de technique de clustering nous font prendre rapidement conscience de limportance de possder des ensembles de donnes de bonne qualit ; cette
constatation est galement valable pour dautres techniques de datamining bien entendu. Lintrt que nous portons la qualit des donnes nous conduit systmatiquement au dtour de
conversations nous familiariser avec les termes "donnes bruites"..
Que signifie rellement une donne bruite ?
Lorsque lon parle de donnes, on pourrait dfinir le terme de donnes bruites comme tant
des donnes "hors de propos" ou des donnes "dnues de sens". De manire plus concrte,
ce bruit peut correspondre des valeurs aberrantes, des donnes incohrentes, des donnes en
double ou des valeurs manquantes.
Le tableau ci-dessous 2.1 est un exemple de jeu de donnes contenant des donnes bruites (en
gras) et des valeurs manquantes (reprsentes par un ?) :

Figure 2.1: Donnes bruites et valeurs manquantes

Quelle est la provenance de ce bruit que nous relevons dans les donnes ?
La mise en place dune technique de clustering dans des conditions relles implique quasiinvitablement la prsence de donnes bruites, juste titre dailleurs car nous savons que
nous voluons dans un monde imparfait. Dans la plupart des cas, ces valeurs aberrantes sont
occasionnes par des capteurs dfectueux ou par des erreurs humaines : nous parlons ds lors
derreurs de donnes de bas niveau.
Gnralement,la quantit de bruit relev dans un ensemble de donnes est relativement faible.
Il a t dmontr ([18]) par exemple que les taux derreurs dans les donnes, constats dans les
entreprises avoisinent les 5% voire moins, en effet, les organisations prennent trs souvent des
mesures pour viter les erreurs de donnes. Il existe nanmoins certains cas bien que gnralement peu frquents o la quantit de donnes bruites peut devenir importante. Citons pour
exemple des exprimentations pratiques en sciences et en chimie avec des rsultats fausss sur
des interactions complexes entre protines notamment o il nest pas rare de constater jusqu
30% de faux positifs [18].

16

Les erreurs de donnes de bas niveau sont elles les seules type de donnes bruites ?
Nous cherchons liminer principalement les erreurs de donnes de bas niveau qui rsultent
dun processus de collecte imparfaite de donnes, ces erreurs sont en effet les principales sources
de donnes bruites mais non les seules.
Pouvons-nous qualifier systmatiquement de donne bruite une donne rellement diffrente
des autres ou la considrer comme une donne exacte qui possde simplement une valeur
diffrente des autres ? Essayons de comprendre par un exemple : en ralisant des relevs pour
vrifier le niveau dun cours deau, nous pouvons atteindre un niveau deau trs lev en cas
dinondation. Si ce phnomne arrive extrmement rarement, et que nous ne voyons que les
chiffres, nous pourrions penser une donne bruite.
A partir de cet exemple, nous discernons concrtement une seconde catgorie de donnes
bruites ; la question est de savoir maintenant si cette donne est conserver ou non. Nous
pouvons dans ce sens considrer une donne peu ou non pertinente comme donne bruite. Elle
est cependant difficilement dcelable et potentiellement plus complexe liminer. Lexemple
le plus difiant dans la non-pertinence des donnes se situe dans lapplication de mthode de
clustering sur des donnes web. La quantit de bruits en effet occasionns par des objets de
donnes non pertinentes sur internet peut savrer trs importante.

2.2

Consquences des donnes bruites

Comme nous lavons vu prcdemment, les donnes bruites sont omniprsentes. Mais ontelles une influence sur les rsultats des mthodes de clustering ?
Pour rpondre cette question, nous allons dans un premier temps nous fonder sur diffrents avis
manant darticles scientifiques avant de procder quelques exprimentations. Nous livrerons
ensuite une conclusion cette sous-partie.

2.2.1

Avis des articles scientifiques

Dans cette sous-section, les articles scientifiques "Effect of Noise on the performance of Clustering Techniques" [10] et "Enhancing Data Analysis with Noise Removal" [18] nous servent
de rfrence.
Le principe des algorithmes de clustering est trs simple, il consiste placer tous les lments
dans des groupes (clusters). Si une valeur est bruite, plusieurs cas de figures sont possibles :
Si la valeur est trs loigne des autres, il se peut que lalgorithme de clustering considre
cet lment comme un groupe lui seul.
Si la valeur peut tre rattache un groupe, lalgorithme va la placer dans ce groupe.

Dans les deux cas leffet est identique, savoir une perte de prcision dans les rsultats.
Dveloppons :
Premier cas : la donne bruite correspond elle seule un groupe consquences :moins
de groupes restent disponibles pour les autres donnes ce qui entranerait la cration
de groupes plus "larges" donc moins prcis. En cas extrme, cette situation aurait une
rpercussion sur tous les groupes.
Deuxime cas : la donne est rattache un groupe existant consquences : ce groupe
slargirait pour accueillir la donne et deviendrait par cette manuvre moins prcis ;
notons que ce groupe seul serait affect.
17

Nous nous apercevons que les donnes bruites jouent un rle important sur la prcision
des rsultats finaux (en dehors des cas o lon fait appel aux algorithmes de clustering comme
outil de travail ou pour ltude des donnes bruites.)
Au-del de la prcision des rsultats, les donnes bruites ont-elles dautres consquences sur
le fonctionnement des algorithmes de clustering ?
Le tableau suivant 2.2 montre les rsultats dexprimentations effectues dans le cadre de
larticle "Effect of Noise on the performance of Clustering Techniques".

Figure 2.2: Impact des donnes bruites sur les performances de lalgorithme K-Means
([10])

Nous constatons que le temps dexcution ncessaire lalgorithme augmente en fonction


du pourcentage de donnes bruites. On peut observer deux cas dans le tableau o cela ne
sapplique pas (par exemple le cas avec lalgorithme K-Means o 6 groupes sont recherchs
avec 40% de donnes) bruites. Lexplication plausible rside dans le travail de lalgorithme qui
effectue un regroupement dune partie des donnes bruites.
En ralisant la mme exprience avec un algorithme diffrent (ici lalgorithme "Partitioning
Around Medoids"), nous observons les mmes rsultats :

2.2.2

Exprimentations

En complment des articles scientifiques, nous avons effectu plusieurs sries de tests pour
observer quels taient rellement les impacts des donnes bruites sur le fonctionnement et
les rsultats des algorithmes de clustering. Nous prsentons deux de ces exprimentations en
annexe.
18

Figure 2.3: Impact des donnes bruites sur les performances de lalgorithme PAM ([10])

Leurs conclusions dmontrent que les donnes bruites ont une incidence sur les performances
des algorithmes en matire de temps dexcution CPU ainsi que sur le nombre ditrations
requises pour obtenir des groupes stables.
Les rsultats obtenus sont aussi impacts par les donnes bruites. Les groupes sont moins prcis
et cette perte de prcision peut tre le vecteur de rsultats qui ne seraient pas en adquation
avec la ralit.

2.2.3

Conclusion

Nos exprimentations sont en conformit avec les rsultats observs dans les articles scientifiques ; nous affirmons donc que les donnes bruites ont un impact ngatif sur les rsultats.
Cet impact porte la fois sur les rsultats finaux et sur les performances des algorithmes de
clustering.

19

2.3

Les solutions

Pour pallier ces effets ngatifs quoccasionnent les donnes bruites sur les rsultats des
techniques de clustering, nous devons tenter de minimiser voire dliminer ce flau. Pour ce
faire, il existe diffrentes techniques bases sur des mesures de distance, sur des regroupements
...
Nous allons nous intresser principalement trois techniques de suppression du bruit :
Les mthodes fondes sur la distance.
Les mthodes fondes sur le regroupement.
Lapproche base sur le facteur des valeurs aberrantes locales.
Nous nous appuierons sur larticle : "Enhancing Data Analysis with noise Removal" [18].
De manire gnrale, les techniques de dtection de donnes bruites liminent uniquement
une petite fraction dobjet puisque par dfinition (on parle de "outliers" en anglais) le nombre
de valeurs aberrantes dans un ensemble de donnes est faible.
Cependant, si nous partons du principe quune grande quantit de bruit subsiste dans les donnes, nous devons tre capables de nettoyer ces donnes par une limination optimale de la
quantit de bruits. Les mthodes de nettoyage doivent grer efficacement ce cas de figure.
Comme pour les mthodes de clustering, il nexiste pas une mthode unique, utilisable dans
tous les cas de figure. Au contraire, une multitude de mthodes sont notre disposition pour
liminer le bruit dans un jeu de donnes en fonction du contexte.( Il est aussi possible dutiliser
plusieurs mthodes pour liminer de manire plus efficace les donnes bruites).

2.3.1

Mthodes fondes sur la distance

Les mthodes qui utilisent la distance pour dtecter les donnes bruits ont un fonctionnement trs simple. En effet, on peut considrer quun lment dun ensemble de donne est bruit
lorsque la distance entre cet lment et le centre du groupe est plus grande quune certaine
valeur dfinie. Ce raisonnement simple de comprhension pose quand mme problme face
des ensembles de donnes avec des zones de densits variables. Ces mthodes passent outre
le fait que certains lments sont placs dans des rgions forte densit et dautres dans des
rgions faible densit.
La schma suivant 2.4 montre un exemple dimplmentation dun algorithme de dtection
des donnes bruites qui sappuie sur la distance :

2.3.2

Mthodes fondes sur le regroupement

Nous considrons que le regroupement des algorithmes peut dtecter les valeurs aberrantes
comme tant un sous-produit du processus de regroupement. En effet, lachvement du regroupement des donnes effectu par un algorithme de clustering, nous dfinissons comme
lments bruits ceux qui sont les plus loigns de leurs "centres de gravit" du cluster correspondant. Nous avons alors le choix dliminer un certain pourcentage de donnes en cartant
les donnes les plus loignes du centre
Par rapport la solution prcdente, lintrt est que lutilisateur na pas besoin de dterminer une distance arbitraire. Il doit simplement choisir un pourcentage de donnes liminer.
Lautre avantage est que cette mthode est indpendante de la densit des groupes. Cependant
cette mthode est faiblement efficace dans les groupes contenant peu de donnes.
La figure suivante 2.5 montre un exemple dalgorithme permettant de dtecter les valeurs
aberrantes en utilisant le regroupement.
20

Figure 2.4: Algorithme de rduction du bruit bas sur la distance

Figure 2.5: Algorithme de rduction du bruit bas sur le regroupement

2.3.3

Approche fonde sur le facteur des valeurs aberrantes locales

Cette mthode galement nomme mthode base sur la densit dtecte des valeurs aberrantes dans des ensembles de donnes densit diffrente. Le LOF (Local Outlier Factor) est
lune des meilleures approches retenir dans la dtection des valeurs aberrantes.
Le LOF dun objet dans un ensemble de donnes, est bas sur la densit locale des lments
voisins notre objet.
Pour lutiliser, nous devons dterminer au pralable un paramtre que nous appelons "MinPts"
et qui correspond au nombre minimum dlments situs proximit de lobjet. Pour chaque
lment, nous calculons son nombre de voisins, et nous trions ensuite la liste des lments en
fonction de ce paramtre. Moins un lment a de voisins (par rapport aux autres lments) et
plus il a de chance de correspondre une donne bruite. Cest cette dfinition que correspond
le "local outliner factor".
Grce au tri des donnes en fonction de leurs voisins, nous pouvons dterminer le "local outliner factor" et dtecter les valeurs aberrantes. En effet, les lments ayant un LOF lev sont
considrs comme des donnes bruites.
Plutt que dutiliser des distances ou des similitudes entre lments, nous privilgions lutilisation dlments voisins permettant cette mthode de faire preuve defficacit dans les cas de
donnes densit diffrente.

21

Le schma ci-aprs 2.6 est un exemple dimplmentation dun algorithme de dtection des
valeurs aberrantes se fondant sur le LOF :

Figure 2.6: Algorithme de rduction du bruit bas sur les "valeurs aberrantes locales" LOF

Retenons lide principale : chaque objet dans un ensemble de donnes est une valeur
aberrante dans une certaine mesure, et que cette mesure peut tre valuer laide du facteur
de valeurs aberrantes locales (LOF).

22

Chapitre 3

Haute dimensionnalit des donnes


3.1

Mise en contexte et problmatiques

La maldiction de la dimensionnalit fut introduite pour la premire fois par Richard Bellman
en 1956 dans larticle "On adaptive control processes" [2] pour nous informer dune nouvelle
problmatique : lexplosion des donnes lies laugmentation de la dimension. Notre raisonnement doit se conformer celui dun scientifique, en terme de valeur concrte, en ordre de
grandeur tout au plus. Dans cette optique, nous devons tre capables de rpondre la question :
"Que signifie une grande base de donnes ?"
"Grande" au terme des annes 60 reprsentait quelques centaines de modles regrouper ;
lentre du nouveau millnaire "grande" quivaut des centaines de millions. Quelques gouvernements dits "pionniers" nous ouvrent les portes de leurs donnes (open data) et nous offrent
la possibilit de les analyser. Le livre [7] dfinit la haute dimensionnalit en tant que donne
dcrite par dix attributs ou plus.
Une question vient naturellement effleure notre esprit :
"De quelle manire pouvons-nous traiter un volume consquent de donnes avec des centaines
de dimensions ?"
La majorit des algorithmes de clustering ne possdent pas de solution pour grer un volume
de donnes et un nombre de dimensions si importants. Nous avons en effet plusieurs challenges
techniques relever lis directement cette problmatique :
conserver une vitesse dexcution leve de lalgorithme tout en crant des clusters
de qualit,
de nombreuses dimensions dites non-pertinentes peuvent masquer des clusters qualifis de pertinents,
Par leur prsence importante, une quantit de dimensions sont non-pertinentes et surprennent les algorithmes de clustering par dissimulation de clusters dans des donnes
bruites,
dans les environnements trs grande dimension, il nest pas rare de percevoir tous
les objets quasiment quidistants les uns des autres, masquant ainsi les clusters ;
de plus, les mesures de distance perdent de leur intrt. La figure 3.3 illustre ces
challenges de faon image. Le jeu de donnes est constitu de 20 points, placs au hasard
dans le repre. La figure 3.1a montre les donnes projetes sur un axe ; elles sont proches
les unes des autres. Lorsque nous ajoutons une dimension (3.1b), les donnes sont tires
au travers de la 2nde dimension. Le rajout dune dimension (3.1c) implique un plus grand
tirement des objets rendant les donnes extrmement parses.

Pour pallier ces problmes, la recherche dans ce domaine donner naissance plusieurs
mthodes qui sappuient sur lheuristique :

23

(a) 11 objets dans une bote

(b) 6 objets dans une bote

(c) 4 Objets dans une bote

Figure 3.1: Le flau de la dimensionnalit exprim au travers dun exemple


Texte et image tirs de [12]

Mthodes fondes sur le clustering par sous-espace 3.2 : recherche de clusters dans
les sous-espaces existants. Un sous-espace est dfini en tant que sous-ensemble dattributs
de lespace,
Mthodes bases sur la rduction de la dimensionnalit : construction dun espace
avec moins de dimensions et recherche de clusters en son sein.

24

3.2
3.2.1

Mthodes de clustering subspatial


Prsentation

Les mthodes de clustering subspatial effectuent des recherches de clusters dans divers sousespaces. Dans ce contexte bien spcifique, le cluster peut tre dfini comme un sous-ensemble
dobjets similaires entre eux dans un sous-espace.
La figure 3.2 reprsente les techniques de recherche de sous-espaces ainsi que les mesures
utilises.

Figure 3.2: Hirarchie des algorithmes de clustering par sous-espaces

Une approche simple consisterait rechercher les clusters dans tous les sous-espaces mais
cette solution nest pas retenir puisque le problme reste insurmontable.
Il existe deux types de recherche subspatiale [7] :
1. Mthode de recherche ascendante prsente en 3.2.2 : Les algorithmes commencent leur
recherche dans des sous-espaces petites dimensions, puis sont en qute de sous-espaces
plus grands susceptibles de contenir des clusters,
2. Mthode itrative de recherche descendante prsente en 3.2.3 : La recherche effectue
par les algorithmes englobe tout lespace et cette fouille continue dans des sous-espaces
de plus en plus petits.

25

3.2.2

Mthode de recherche ascendante

Le concept de la recherche ascendante consiste sapproprier les avantages de la densit


des fermetures pour rduire lespace de recherche avec laide dune approche de typeApriori. De
manire plus concrte, si la dimension k possde une unit dense, nous trouvons imprativement
des units denses dans la dimension de niveau (k 1). Lalgorithme CLIQUE utilise cette
approche (3.2.2). Notons que lapproche ascendante conduit souvent des clusters qui se
chevauchent : un objet peut ainsi se retrouver dans un ou plusieurs clusters. Comme cette
approche utilise des grilles (mthode tudie en 1.4.2), nous devons au pralable configurer la
taille de la grille et le paramtre de densit pour obtenir des rsultats plausibles. Les algorithmes
CLIQUE (3.2.2) et ENCLUS se fondent sur une grille statique. Cependant, ces valeurs prconfigurs se retrouvent au travers de toutes les dimensions du jeu de donnes ce qui peut
provoquer quelques cheveux gris nos minents experts. Des chercheurs se sont penchs sur
cette problmatique et ont engendr une gnration de grilles adaptes dans la stabilisation des
rsultats. Les algorithmes MAFIA (3.2.2) ou CLTree sont les fruits de leurs travaux.
Grille statique : algorithme CLIQUE
CLustering In QUEst est qualifi dalgorithme qui se fonde la fois sur la densit et sur
les grilles. Il identifie de manire automatique les sous-espaces contenus dans des espaces
haute-dimensionnalit de donnes. Ainsi, par essence, CLIQUE partitionne dans un premier
temps chaque dimension dans le mme nombre dintervalles de longueur gale. Il sinspire ici de
lalgorithme Apriori : une k d cellule ne peut tre dense si une de ses (k 1) d projection
ne lest.
Dans un deuxime temps, CLIQUE utilise la densit de chaque cellule contenue dans chaque
sous-espace pour la cration des clusters. Une cellule est dite dense si le nombre de points de
donnes dans cette cellule excde un certain seuil. Lalgorithme dfinit un cluster comme tant
un ensemble de cellules hautement denses connectes au sein dun mme sous-espace.
Les avantages de CLIQUE sont multiples. Cet algorithme permet entre autres de dceler automatiquement des sous-espaces dans un espace haute dimensionnalit. De plus, il crot
linairement avec la taille des donnes ; de la mme faon, il se comporte tout aussi bien vis-vis de laccroissement du nombre de dimensions. Il prsente nanmoins quelques problmes :
obtenir un cluster de bonne qualit dpend du rglage de la taille de la grille et du seuil de densit ; or, ces valeurs sutilisent au travers de toutes les dimensions 3.3a. Nous relevons un point
de contradiction entre la simplicit de la mthode et la dimensionnalit des donnes analyser.
Lalgorithme MAFIA prsent ci-dessous (3.2.2) permet de sabstraire de ces contraintes.

26

Grille adaptative : algorithme MAFIA


MAFIA (Merging of Adaptative Finite Intervals (Algorithm)) est un algorithme qui utilise
les grilles adaptatives 3.3b : celles-ci rduisent les calculs et amliorent la qualit des clusters. En
effet, lalgorithme propose dans chaque dimension une technique de calcul adaptatif dintervalles
finis appels "bins" en anglais ; ces intervalles fusionnent ensuite et explorent des clusters dans
une plus grande dimension. MAFIA se diffrencie ici et amliore considrablement lalgorithme
CLIQUE.
Retenons une autre divergence entre les deux algorithmes :
MAFIA ne fait pas appel aux valeurs dentre fournies par lutilisateur, la force des clusters
qui sont dcouvrir dans le jeu de donnes suffit le satisfaire,
MAFIA fournit une concentration optimale sur des espaces de donnes possdant le plus
de points et par dduction la plus grande probabilit de dtenir des clusters. MAFIA
procure une taille dintervalle adaptatif pour partitionner la dimension en fonction de la
distribution des donnes dans cette dimension.

(a)

(b)

Figure 3.3: Diffrence entre les grilles de type statique (3.3a) et adaptative (3.3b).
Images tires de [5]

En premier lieu, lalgorithme opre une passe sur toutes les donnes et cre un histogramme
qui dtermine le nombre minimum de "bins" pour une dimension. Puis, les intervalles finis
prsentant un histogramme de valeurs similaires et qui sont contigus font lobjet dune fusion
en vue de la cration de plus larges intervalles (bins). Les "bins" et les cellules faible densit
sont lagus pour rduire les calculs.
MAFIA dtient un atout dans le sens o les limites des intervalles finis ne sont pas rigides :
les clusters forms sont plus prcis dans chaque dimension ce qui implique une amlioration
trs significative de la qualit des rsultats du clustering.
Une comparaison entre CLIQUE et MAFIA aboutit la conclusion suivante : la technique
employe par MAFIA rend cet algorithme 40 50 fois plus rapide que son homologue. De
plus, MAFIA introduit la notion de paralllisme permettant dobtenir un algorithme volutif
pour de grandes bases de donnes.

27

3.2.3

Mthode itrative de recherche descendante

Lapproche de recherche descendante i.e. "Top-Down" semploie tout dabord trouver une
approximation des clusters dans tout lespace de donnes avec des dimensions de mme pondration. Les prochaines dimensions se voient assigner un poids pour chaque cluster ; les poids
mis jour sont utiliss ensuite pour rgnrer les clusters.
Cette approche cependant ncessite plusieurs itrations sur tout le jeu de donnes pour rsoudre
le problme, les algorithmes qui se servent de cette approche mettent profit lchantillonnage.
Ces mthodes dchantillonnage ncessitent lutilisation de la taille de lchantillon en plus des
deux paramtres obligatoires : le nombre de clusters et la taille de sous-espaces.
La notion de voisinage est dfinie par des approximations fondes sur le coefficient de pondration de la dimension obtenue prcdemment. titre dexemple, les algorithmes PROCLUS et
FINDIT 3.2.3 utilisent cette notion de pondration.
Algorithme avec coefficient de pondration : FINDIT
Lalgorithme FINDIT (a Fast and Intelligent Subspace Clustering Algorithm using Dimension
Voting) dtermine la corrlation pour chaque cluster en sappuyant sur deux facteurs :
1. Dimension-oriented Distance (dod ) : Mesure la similarit entre deux points en comptant le nombre de dimensions pour lesquelles la diffrence des valeurs des deux points est
plus petit que le seuil ,
2. Dimension voting policy : Dtermine les dimensions importantes de manire probabiliste par utilisation du "V nearest neighbors" choisi lors du processus de slection des
dimensions.

Lalgorithme FINDIT utilise trois entres pour fonctionner :


1. Le jeu de donnes,
2. Cminsize : La taille minimum du cluster,
3. Dmindist : La diffrence minimum entre deux clusters.

Par ailleurs, lalgorithme FINDIT uvre selon trois phases illustres sur la figure 3.4 :
1. La phase dchantillonage : Deux chantillons dissemblables sont gnrs grce des
mthodes dchantillonages alatoires. Le premier S est un chantillon de la distribution
bti partir du jeu de donnes, le deuxime M est aussi construit partir du jeu de
donnes et ses points sont reprsentatifs i.e. mdoids des clusters originaux,
2. La phase de formation des clusters : Cette phase permet dacqurir des clusters par
lexploitation des chantillons S et M gnrs lors de la premire phase. Nous devons
dterminer les dimensions corrles 1 en appliquant la mthode de vote prsente cidessus. Puis, les mdoids proches les uns des autres sont regroups pour donner naissance
des clusters mdoids[6]. Enfin, FINDIT incrmente la valeur de et renouvelle cette
opration jusqu stabilisation des clusters,
3. La phase dassignement des donnes : Tous les points sont assigns leur plus proche
cluster mdoid, les points sans affectation sont considrs comme valeur aberrante.
FINDIT se veut rapide grce au processus de vote fond sur lchantillonnage : la slection
des dimensions ne requiert pas ditration et de partitionnement de la dimension. De plus,
FINDIT ne souffre pas de la taille du jeu de donnes et de laugmentation de la dimension.
1. Lintensit de la liaison qui peut exister entre ces dimensions

28

Figure 3.4: tapes de lalgorithme FINDIT. Image tire de [6]

3.2.4

Comparaison des mthodes ascendantes et descendantes

Dans cette sous-section, nous comparons les deux algorithmes reprsentatifs de chaque mthode de recherche par sous-espace savoir : MAFIA (3.2.2) et FINDIT (3.2.3). Nous nous
appuierons sur les rsultats de larticle [12].
Le graphique 3.5 montre la supriorit de performance de MAFIA sur son homologue FINDIT
dans la majorit des cas : nous observons une bonne rsultante de lapproche ascendante qui
vite de multiples passages sur les donnes. Devant un petit jeu de donnes (< 500, 000 objets)
et peu de dimensions MAFIA excelle ; ceci sexplique par le fait que les algorithmes utilisant
la mthode ascendante ncessitent un petit nombre de dimensions significatives lors de leur
recherche.
Une augmentation du nombre de donnes implique logiquement pour les deux algorithmes
un temps dexcution plus long. La figure 3.5b montre que FINDIT crase MAFIA lorsque le jeu
de donnes prend de limportance (> 4, 000, 000 dobjets) : un K.O. au bnfice de FINDIT qui
fait appel lchantillonnage alatoire et ses avantages dans ce cas prcis. Les performances
de MAFIA sestompent, lalgorithme est contraint de scanner chaque passe toutes les donnes
qui permettent de trouver des units denses.

(a)

(b)

Figure 3.5: Temps dexcution pour les algorithmes MAFIA et FINDIT dans le cas dun
petit jeu de donnes (3.5a) et dun grand jeu de donnes (3.5b).
Images tires de [12]

29

La figure 3.6 effectue une autre comparaison : un petit jeu de donnes (100, 000 objets) et
un grand nombre de dimensions. Le jeu de donnes contient 5 clusters.

Figure 3.6: tapes de lalgorithme FINDIT. Image tire de [6]

Nous constatons que MAFIA ralise nouveau une excellente performance (il crot linairement avec le nombre de dimensions) car lapproche ascendante projette les donnes sur de petits
sous-espaces et ajoute uniquement les dimensions qui prsentent un sens. Lapproche dchantillonnage alatoire employ par FINDIT nest daucun secours dans ce cas puisque lalgorithme
doit pondrer chaque dimension, pour chaque cluster et slectionner les plus significatifs.

30

Bilan

Conclusion
Nous venons douvrir les portes travers notre tude du vaste univers auquel appartient le
clustering de donnes.
Nous nous sommes longuement penchs sur les principaux algorithmes de clustering qui composent les diffrentes familles de techniques de regroupement, les lments qui font quun
algorithme peut tre considr comme "bon".
Lavance informatique comme tout progrs passe par des obstacles ; nous en avons rencontr
lors de notre analyse du clustering, deux handicaps : les donnes bruites, les inconvnients lis
la haute dimensionnalit des donnes.
Nos exprimentations effectues nous procurent le discernement qui nous faisait dfaut sur la
fonction pratique du clustering en plus de son aspect thorique. Nous avons trouv de lintrt
et de la satisfaction traiter ce sujet non abord dans nos cours prcdents.
Lidentification et la rsolution des problmes lies aux donnes bruites et la haute dimensionnalit sont le rsultat dun cheminement dtapes successives que nous matrisons mieux
prsent.

Analyse et perspectives dvolution


Les techniques du clustering nous apportent toute leur comptence dans la fouille de donnes
et rpondent aux besoins des utilisateurs dans la cration de groupes partir densembles de
donnes.
Nous avons recours actuellement ces techniques qui procurent satisfaction dans des domaines
varis tels que :
Lanalyse de donnes conomiques pour segmenter un march, pour profiler des clients
...
La classification et catgorisation de documents sur le Web.
La reconnaissance de formes.
Le traitement et la classification dimages.
Etc.
Cependant ces techniques en raison dune mauvaise utilisation peuvent savrer dangereuses.
Nous pouvons aisment obtenir des rsultats errons ou en inadquation avec la ralit par une
exploitation incorrecte des algorithmes ou par des ensembles de donnes initiaux non "propres"
ou non "adapts".

31

Mditons sur la citation de Saint-John Perse, pote et diplomate qui tombe propos :
"En science, on trouve dabord et on cherche ensuite. Il ny a pas de fait en soi mais des faits
observs"

Diffrentes mthodes existent donc bien pour rsoudre les problmes lis la pratique du
clustering mais elles ne sont pas infaillibles.
Nous nous sommes poss la question de savoir si une intervention manuelle tait bnfique ou
non.
Par ailleurs, des incertitudes peuvent apparatre sur lanalyse et sur la pertinence des rsultats ;
il serait donc plus sage de recourir lavis dun expert ou prendre un avis extrieur.
Pour ces situations singulires le recours au crowdsourcing 2 serait efficace notamment sur des
problmes rencontrs lors dune analyse par clustering.
Nous remercions pour leurs conseils dans la rdaction de ce mmoire, Monsieur Valtchev sans
qui laboutissement de cet crit naurait pas eu la mme porte ni le mme clat.

2. http://fr.wikipedia.org/wiki/Crowdsourcing

32

Table des figures

tapes du datamining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

ii

1.1
1.2
1.3
1.4

2
3
5

1.5
1.6
1.7
1.8
1.9
1.10
1.11
1.12
1.13

tapes du clustering . . . . . . . . . . . . . . . . . . . . . . . . . . .
Dcoupage des mthodes de clustering [8] . . . . . . . . . . . . . . .
Mthodes divisive et agglomrative . . . . . . . . . . . . . . . . . . .
Clustering hirarchique ayant recours aux algorithmes lien simple et
complet. [7] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Une structure CF-Tree [7] . . . . . . . . . . . . . . . . . . . . . . . .
Exemple de clustering par partition . . . . . . . . . . . . . . . . . . .
Fonctionnement dune itration de lalgorithme K-means . . . . . . . .
Impact du choix du nombre de groupes . . . . . . . . . . . . . . . . .
Calcul du centre par lalgorithme K-medoids . . . . . . . . . . . . . .
BDD formes particulires . . . . . . . . . . . . . . . . . . . . . . .
Rsultats des regroupements effectus par DBSCAN . . . . . . . . . .
Grille deux dimensions pour la recherche de clusters . . . . . . . . .
Structure hirarchique pour lalgorithme STING[7] . . . . . . . . . . .

2.1
2.2
2.3
2.4
2.5
2.6

Donnes bruites et valeurs manquantes . . . . . . . . . . . . . . . . . . . .


Impact des donnes bruites sur les performances de lalgorithme K-Means ([10])
Impact des donnes bruites sur les performances de lalgorithme PAM ([10]) .
Algorithme de rduction du bruit bas sur la distance . . . . . . . . . . . . . .
Algorithme de rduction du bruit bas sur le regroupement . . . . . . . . . . .
Algorithme de rduction du bruit bas sur les "valeurs aberrantes locales" LOF

3.1

Le flau de la dimensionnalit exprim au travers dun exemple Texte et image


tirs de [12] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Hirarchie des algorithmes de clustering par sous-espaces . . . . . . . . . . . .
Diffrence entre les grilles de type statique (3.3a) et adaptative (3.3b). Images
tires de [5] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
tapes de lalgorithme FINDIT. Image tire de [6] . . . . . . . . . . . . . . .
Temps dexcution pour les algorithmes MAFIA et FINDIT dans le cas dun
petit jeu de donnes (3.5a) et dun grand jeu de donnes (3.5b). Images tires
de [12] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
tapes de lalgorithme FINDIT. Image tire de [6] . . . . . . . . . . . . . . .
Jeu de donnes du cas 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Rsultats de lalgorithme K-means dans un cas sans donnes bruites . . . . .
Rsultats de lalgorithme K-means dans un cas avec donnes bruites . . . . .
Visualisation des groupes sans donnes bruites . . . . . . . . . . . . . . . . .

3.2
3.3
3.4
3.5

3.6
7
8
9
10

33

. . . .
. . . .
. . . .
lien
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .

6
7
8
9
10
10
12
12
13
14
16
18
19
21
21
22
24
25
27
29

29
30
38
39
40
40

11
12
13

Visualisation des groupes avec donnes bruites . . . . . . . . . . . . . . . . .


Rsultats de lalgorithme K-means sur un jeu de donnes sans donnes bruites
Rsultats de lalgorithme K-means sur un jeu de donnes avec donnes bruites

34

41
42
43

Bibliographie

[1] Rakesh Agrawal, Johannes Gehrke, Dimitrios Gunopulos et Prabhakar Raghavan : Automatic subspace clustering of high dimensional data for data mining applications.
In Proceedings of the 1998 ACM SIGMOD international conference on Management of
data, SIGMOD 98, pages 94105, New York, NY, USA, 1998. ACM.
[2] R. Bellman et R. Kalaba : On adaptive control processes. Automatic Control, IRE
Transactions on, 4(2):1 9, nov 1959.
[3] Laurent Candillier : Contextualisation, visualisation et valuation en apprentissage non
supervis. Thse de doctorat, Universit Charles de Gaulle - Lille 3, 2006.
[4] Martin Ester, Hans peter Kriegel, Jorg S et Xiaowei Xu : A density-based algorithm
for discovering clusters in large spatial databases with noise. pages 226231. AAAI Press,
1996.
[5] Sanjay Goil, Harsha Nagesh et Alok Choudhary : Mafia : Efficient and scalable
subspace clustering for very large data sets. Rapport technique, 1999.
[6] Kyoung gu Woo, Jeong hoon Lee, Myoung ho Kim et Yoon joon Lee : Findit : a fast
and intelligent subspace clustering algorithm using dimension voting. In PhD thesis, Korea
Advanced Institute of Science and Technology, page 2004, 2002.
[7] Kamber Han, Pei : Data Mining : Concept And Techniques.
[8] A. K. Jain, M. N. Murty et P. J. Flynn : Data clustering : a review. ACM Comput.
Surv., 31:264323, September 1999.
[9] Ren Jingbiao et Yin Shaohong : Research and improvement of clustering algorithm in
data mining. In Signal Processing Systems (ICSPS), 2010 2nd International Conference
on, volume 1, pages V1842 V1845, july 2010.
[10] Amaninder Kaur, Pankaj Kumar et Paritosh Kumar : Effect of noise on the performance of clustering techniques. In Networking and Information Technology (ICNIT), 2010
International Conference on, pages 504 506, june 2010.
[11] Philippe Leray : Le clustering en 3 leons. [En ligne]. Disponible :asi.insa-rouen.
fr/enseignement/siteUV/dm/Cours/clustering.pdf. [Consult le 1 mars 2012].
[12] Lance Parsons, Ehtesham Haque et Huan Liu : Subspace clustering for high dimensional data : a review. SIGKDD Explor. Newsl., 6(1):90105, juin 2004.
[13] Anthony Quinn : L. : A survey of techniques for preprocessing in high dimensional data
clustering. In In : Proceedings of the Cybernetic and Informatics Eurodays, 2000.
[14] L. Singh, S. Singh et P.K. Dubey : Applications of clustering algorithms and self
organizing maps as data mining and business intelligence tools on real world data sets. In
35

Methods and Models in Computer Science (ICM2CS), 2010 International Conference on,
pages 27 33, dec. 2010.
[15] Michael Steinbach, Levent Ertz et Vipin Kumar : The challenges of clustering highdimensional data. In In New Vistas in Statistical Physics : Applications in Econophysics,
Bioinformatics, and Pattern Recognition. Springer-Verlag, 2003.
[16] Wikipedia : Partitionnement de donnes. [En ligne]. Disponible :http://fr.
wikipedia.org/wiki/Partitionnement_de_donn%C3%A9es, 2010. [Consult le 5 mars
2012].
[17] Wikipedia : Aristote. [En ligne]. Disponible :http://http://fr.wikipedia.org/
wiki/Aristote, 2012. [Consult le 9 mai 2012].
[18] H. Xiong, Gaurav Pandey, M. Steinbach et Vipin Kumar : Enhancing data analysis
with noise removal. Knowledge and Data Engineering, IEEE Transactions on, 18(3):304
319, march 2006.
[19] Rui Xu et II Wunsch, D. : Survey of clustering algorithms. Neural Networks, IEEE
Transactions on, 16(3):645 678, may 2005.
[20] Tian Zhang, Raghu Ramakrishnan et Miron Livny : Birch : an efficient data clustering method for very large databases. SIGMOD Rec., 25:103114, June 1996.

36

Appendices

37

Annexe : Exprimentations

Introduction
Nous avons effectu plusieurs sries de tests pour tudier le comportement des algorithmes
de clustering lorsque lon utilise des jeux de donnes contenant des donnes bruites.
Lobjectif de ces exprimentations est dtudier limpact des donnes bruites sur les rsultats,
sur les performances et sur le fonctionnement des algorithmes de clustering.
Deux cas que nous avons tudi vont tre prsent ici.

Figure 7: Jeu de donnes du cas 1

38

1er cas de test


Introduction
Dans ce premier cas, nous avons utilis un jeu de donnes de taille relativement faible 7
(36 lments) et nous avons appliqu lalgorithme K-Means pour partitionner ces donnes en
4 groupes.
Nous avons effectu lexprience deux fois de suite avec les mmes paramtres dentre pour
lalgorithme ; le seul changement est que la seconde fois, nous avons volontairement bruit
certaines donnes (les donnes reprsentes en rouge dans la figure). 7).

Les objectifs
Lobjectif ici est de voir quel impact les donnes bruites ont sur la pertinence des rsultats
obtenus via les algorithmes de clustering. Le jeu de donnes tant de taille assez faible, il ne
sera probablement pas possible dvaluer limpact des donnes bruites sur le temps CPU dans
ce premier cas de figure.

Les rsultats
En comparant les rsultats obtenus (8 et 9), on peut observer que les donnes bruites ont
modifies de manire importante la rpartition des donnes dans les groupes.
Ces modifications ont entran un dsquilibre entre les groupes qui semblent donc moins
prcis.

Figure 8: Rsultats de lalgorithme K-means dans un cas sans donnes bruites

Pour vrifier cette perte de prcision, on peut visualiser les groupes obtenu laide des
figures 11 et 10. On peut, en effet, observer que les valeurs "minimales" et "maximales" des
39

Figure 9: Rsultats de lalgorithme K-means dans un cas avec donnes bruites

groupes ont t modifie, et ce cause de laugmentation des donnes dans trois des quatre
groupes. Les groupes sont plus larges, leurs "frontires" semblent plus "floues". Ceci est un
indicatif de perte de prcision

Figure 10: Visualisation des groupes sans donnes bruites

Au final, cette exprience met en avant le fait que les donnes bruites ont un impact sur
les rsultats obtenu avec lalgorithme de clustering. Elles influent sur la rpartition des groupes
et donc sur leur prcision.
On peut aussi noter en comparant les rsultats 8 et 9 que dans le cas des donnes bruites, on
a une augmentation du nombre ditration (passage de 5 7 itrations) dans le fonctionnement
de lalgorithme. Ceci peut tre considr comme un premier lment indiquant une diminution
des performances des algorithmes de clustering en cas de donnes bruites.
40

Figure 11: Visualisation des groupes avec donnes bruites

41

2nd cas de test


Introduction
Dans ce second cas, nous avons utilis un jeu de donnes assez consquent (10000 donnes,
10 attributs par donnes), et nous avons appliqu lalgorithme K-Means pour partitionner ces
donnes en 6 groupes.
Nous avons effectu lexprience deux fois de suite avec les mmes paramtres dentre pour
lalgorithme ; le seul changement est que la seconde fois, nous avons volontairement bruit
certaines donnes (1% de donnes bruites soit 100 donnes bruites).

Les objectifs
Lobjectif principal est ici de montrer limpact des donnes bruites sur les performances
des algorithmes de clustering, notamment sur le temps CPU.

Les rsultats
Si lon observe les rsultats obtenus, on saperoit que lalgorithme met plus de temps se
terminer dans le cas o le jeu de donnes contient des donnes bruites que dans le cas avec
des donnes "propres". On passe dun temps dexcution de 0,44 secondes 0,60 secondes.
On observe donc un impact des donnes bruites sur les performances. Cet impact est visible
alors quil ny a que 1% de donnes bruites dans le jeu de donnes.

Figure 12: Rsultats de lalgorithme K-means sur un jeu de donnes sans donnes bruites

42

Figure 13: Rsultats de lalgorithme K-means sur un jeu de donnes avec donnes bruites

Conclusion
Au vu des expriences effectues et des deux cas prsents ici, on peut dduire que les
donnes bruites ont un impact sur le fonctionnement des algorithmes de clustering.
Les donnes bruites ont un impact au niveau :
des performances (il faut plus de temps pour obtenir les rsultats),
du fonctionnement de lalgorithme (il faut plus ditrations pour obtenir des groupes
stables),
de la prcision des rsultats (les groupes sont moins prcis).

43

You might also like