You are on page 1of 49

Cours Datamining

Dr. Mamadou Camara


mamadou.camara@ucad.edu.sn
2013-2014

Table des mati`


eres
1 Introduction au datamining
1.1 Introduction . . . . . . . . . . . . . . .
1.2 Techniques predictives de Datamining
1.3 Processus de datamining . . . . . . .
1.4 Comprehension des donnees . . . . . .
1.5 Preparation des donnees . . . . . . . .

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

2
2
3
6
8
9

2 Apprentissage non supervis


e
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Analyse de cluster . . . . . . . . . . . . . . . . . . . . .
2.3 Types de donnees dans lanalyse des clusters . . . . . .
2.4 Methodes de partitionnement . . . . . . . . . . . . . . .
2.5 Methodes hierarchiques . . . . . . . . . . . . . . . . . .
2.6 Exigences des methodes de clustering . . . . . . . . . . .
2.7 TP : methode k-means sur des donnees de pluviometrie
2.8 TP2 : methode k-means sur des donnees de la base iris .
2.9 Validation des clusters . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

15
15
15
16
23
27
29
33
38
41

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

Chapitre 1

Introduction au datamining
1.1

Introduction

Le datamining est, en essence, un ensemble de techniques qui permettent dacceder aux informations
appropriees, precises et utiles qui sont cachees dans les bases de donnees[7]. Le datamining propose des
solutions au besoin de ciblage dans un certain nombre de domaines.
Dans le domaine de la gestion de la relation client, par exemple, un des gains attendus du
datamining est lidentification des clients les plus rentables, et la concentration sur eux
des efforts des commerciaux [22]. Le datamining sappuie sur des bases de donnees, ou de plus en
plus sur des entrep
ots de donnees qui permettent de stocker le profil de chaque client.
Dans le domaine de la prevention de la non-qualite en genie logiciel, le datamining est utilise pour
lidentification des modules susceptibles d
etre non fiables avant la phase de test. Cela
permet de concentrer les efforts de test sur ces modules pour assurer un gain de temps et de productivite
[11]. En effet, une grande partie du travail realise dans le developpement dun logiciel concerne la phase
de test. Selon [11], cela est d
u au fait que on consacre un temps de test et de verification egale `
a
tous les modules alors que 80% des erreurs se trouvent dans 20% du code[11]. Des techniques
statistiques sont ainsi mises en uvre pour construire des mod`eles predictifs permettant devaluer au
mieux une caracteristique qualite donnee `a partir de mesures descriptives de lobjet `a evaluer. Lobjectif
est dassurer la qualite des logiciels par la definition de mesures pertinentes et lanalyse des retours
dexperience.
Un second interet du datamining est quil permet de tirer parti des informations historis
ees
disponibles autour dune probl
ematique de recherche ou dun cas industriel.
Selon [7], la plupart des organisations produisent en une semaine plus de donnees que ne peuvent lire
beaucoup de personnes durant toute leur vie. Elles sont confrontees ainsi au paradoxe de laugmentation
des donnees car plus de donnees signifie moins dinformation. Les organisations qui filtrent, selectionnent
et interpr`etent le mieux les donnees vont avoir plus de chances pour survivre ; et `a cause de cela,
linformation elle-meme est devenue un facteur de production[7].
Selon [22], le datamining permet de limiter la subjectivit
e humaine dans le processus de d
ecision,
et aussi, gr
ace `
a la puissance grandissante des outils informatiques, de traiter de plus en plus rapidement de
grands nombres de dossiers.
La prise de decision et les actions qui sen suivent sont basees sur des hypoth`eses emises sur les relations
entre plusieurs concepts lies `
a la problematique. Ces hypoth`eses sont construites de mani`ere empirique
par lexperience de chercheurs ou de praticiens mais leur validite reelle nest pas prouvee. Nous constatons l`
a une certaine forme de subjectivite dans les decisions prises. Dans des situations de ce type, il
est possible de rassembler ces hypoth`eses et de les soumettre `a la validation du datamining. Le rejet ou
lacceptation de chaque hypoth`ese repose sur sa verification quantitative par les donnees historisees.

1.2

Techniques pr
edictives de Datamining

La fouille de donnee (souvent appelee  Datamining ) est le processus de decouverte de connaissances


interessantes `
a partir de grande quantite de donnees stockees, soit dans des bases de donnees, soit dans
des entrep
ots de donnees ou autre repertoire dinformation[12]. [12] dresse une typologie des methodes de
Datamining selon leur objectif :
1. description : trouver un resume des donnees qui soit plus intelligible
Statistique descriptive (Exemple : moyenne dage des personnes presentant un cancer du sein)
Analyse factorielle : Lanalyse factorielle cherche `a reduire un nombre important dinformations (prenant la forme de valeurs sur des variables) `a quelques grandes dimensions 1

2. association : trouver les ensembles de descripteurs qui sont le plus correles.Les r`egles dassociation :
les donnees
Caddie p1 p2 p3 p4
1
1
1
1
0
2
1
0
1
0
3
1
1
1
0
4
1
0
1
0
5
0
1
1
0
6
0
0
0
1
la r`egle dassociation suivante :
R1 : Si p1 alors p2
le support est un indicateur de  fiabilite  de la r`egle
sup(R1) = 2 ou supr(R1) =
1. The General Factor of Personality (GFP)

2
= 33%
6

(1.1)

la confiance est un indicateur de

precision

de la r`egle

sup(R1)
sup(p1 p2)
2
=
= = 50%
sup(antecedentR1)
sup(p1)
4

(1.2)

Une bonne r`egle est une r`egle avec un support et une confiance eleves.
3. explication : predire les valeurs dun attribut (endog`ene) `a partir dautres attributs (exog`enes). Predire
la qualite dun client (rembourse ou non son credit) en fonction de ses caracteristiques (revenus, statut
marital, nombre denfants, etc). Cest lapprentissage supervise :
arbre de decision (CHAID, C4.5 et CART),
arbre de regression,
methode Bayesienne.

4. structuration : faire ressurgir des groupes  naturels  qui representent des entites particuli`eres. Cest
la classification (clustering ou apprentissage non supervise)
arbre de classification(classification ascendante hierarchique - CAH).

1.3

Processus de datamining

Le datamining, ou fouille de donnees, est lensemble des methodes et techniques destinees `a lexploration
et lanalyse de (souvent grandes) bases de donnees informatiques, de facon automatique ou semi-automatique,
en vue de detecter dans ces donnees des r`egles, des associations, des tendances inconnues ou cachees, des
structures particuli`eres restituant lessentiel de linformation utile tout en reduisant la quantite de donnees
[22]. Le spectre dapplication du datamining et de la statistique est tr`es large [22] :
genomique, Astrophysique,
gestion de la relation client,
aide au pilotage aeronautique,
e-commerce,
prevention du terrorisme, detection automatique de la fraude dans la telephonie mobile ou lutilisation
des cartes bancaires,
contr
ole qualite, pilotage de la production,
6

enquetes en sciences humaines, etudes biologiques, medicales et pharmaceutiques ;


etudes agronomiques et agro-alimentaires,
prediction daudience TV.
Le CRISP-DM (Cross Industry Standard Process for Data Mining) est considere comme la methodologie
la plus utilisee pour le datamining [6]. Il a ete concu par un consortium dentreprises pour etre utilise avec
nimporte quel outil de datamining dans nimporte quel domaine[6]. Le CRISP-DM identifie six phases dans
le processus de datamining (Figure 1) [17].

Compr
ehension du m
etier. Cette premi`ere phase doit permettre de comprendre les objectifs et les
besoins dun point de vue metier, et ainsi convertir cette connaissance en une definition de probl`eme
de datamining, et un plan permettant datteindre ces objectifs.
Compr
ehension des donn
ees. La phase de comprehension des donnees commence avec une collecte
des donnees et se poursuit avec des activites qui ont pour objectif de se familiariser avec les donnees,
didentifier les probl`emes de qualite des donnees, decouvrir les premi`eres connaissances dans les donnees,
ou detecter les sous-ensembles interessants pour former des hypoth`eses sur les informations cachees.
Pr
eparation des donn
ees. Cette phase couvre toutes les activites permettant de construire lechantillon
final (le jeu de donnees qui sera fourni `a loutil de modelisation). Les taches de preparation des donnees
sont souvent executees plusieurs fois, et non dans un ordre prescrit. Ces taches incluent la selection de
tables, denregistrements et dattributs, ainsi que la transformation et le nettoyage des donnees pour
loutil de modelisation.
Mod
elisation. Dans cette phase, diverses techniques de modelisation sont selectionnees et appliquees,
et leurs param`etres ajustes aux valeurs optimales. Generalement, il existe plusieurs techniques pour le
meme type de probl`eme de datamining. Certaines techniques ont des exigences specifiques sur la forme
des donnees. Par consequent, un pas en arri`ere vers la preparation des donnees est souvent necessaire.

Evaluation
du mod`
ele. A cette etape du projet, un (ou des) mod`ele qui semble avoir une haute
qualite, du point de vue de lanalyse de donnees, a ete construit. Avant de proceder au deploiement
final du mod`ele, il est important de bien evaluer le mod`ele, et de revoir les etapes executees pour
construire le mod`ele, pour etre certain quil satisfait correctement les objectifs metiers. A la fin de cette
phase, une decision sur lutilisation ou non des resultats du processus datamining doit etre prise.
Utilisation du mod`
ele. La mise au point du mod`ele nest pas la fin du processus de datamining. Une
fois les connaissances extraites des donnees, elles doivent encore etre organisees et presentees de facon
a les rendre utilisables par les destinataires du mod`ele. Selon les besoins, le deploiement peut etre aussi
`
simple que de fournir une synth`ese descriptive des donnees ou aussi complexe que de mettre en uvre
un processus de fouille de donnees repetable. Dans tous les cas, cest lutilisateur, et non lanalyste de
donnees, qui va mettre en uvre la phase de deploiement. Il est neanmoins toujours important que
lutilisateur comprenne demblee quelles actions devront etre menees afin de veritablement faire usage
du mod`ele.

1.4

Compr
ehension des donn
ees

Letape de  preparation de donnees  est precedee dune etape de  comprehension des donnees . Elle
commence par une collecte des donnees et se poursuit avec des activites dont lobjectif est de se familiariser
avec les donnees, didentifier les probl`emes de qualite des donnees, de decouvrir les premi`eres connaissances
dans les donnees, ou de detecter les sous-ensembles interessants pour former des hypoth`eses sur les informations cachees.

1.4.1

Collecter les donn


ees initiales

Lister les jeux (ensembles) de donn


ees collect
es, avec leurs localisations, les m
ethodes utilis
ees pour les collecter, et tout probl`
eme rencontr
e [9]. Les solutions proposees pour regler ces
probl`emes doivent aussi etre enregistrees. Cela continuera une base solide pour une replication eventuelle du
projet ou pour lexecution dun projet similaire dans le futur.

1.4.2

D
ecrire les donn
ees

D
ecrire les donn
ees collect
ees, y compris le format des donnees, la quantit
e de donnees (par exemple,
nombre denregistrements and dattributs dans chaque table), la description des des attributs, et tout autre

caracteristique importante qui a ete decouverte dans les donnees. Evaluer


si les donn
ees collect
ees
permettent de satisfaire les besoins identifi
es.

1.4.3

Explorer les donn


ees

Cette t
ache traite des questions reliees a` la fouille en utilisant les requetes, la visualisation, et les techniques
de reporting. Cela inclut les distributions des attributs cl
es (pour par exemple, la variable de reponse
dune t
ache de prediction). Cela inclut aussi les relations entre paires (ou un nombre limit
e) de
variables, des r
esultats dagr
egations simples, les propri
et
es dune sous-population significative,
et toute autre analyse statistique simple. Ces analyse peuvent directement traiter des objectifs lies `a la fouille ;
elles peuvent aussi contribuer `
a affiner la description des donnees et les rapports sur la qualite des donnees,
8

elle peuvent fournir des entrees aux etapes de preparation des donnees (surtout celle liees `a la transformation
des donnees).

1.4.4

V
erifier la qualit
e des donn
ees

Examiner la qualite des donnees avec des questions comme : Les donn
ees sont-elles compl`
etes (tous
les cas requis sont-ils couverts) ? Le jeux de donnees est-il correct, ou contient-il des erreurs, sil y a
des erreurs, comment il y en a-t-il, quelle est leur frequence ? Les donnees contiennent-elles des des valeurs
manquantes ? Le cas echeant, comment sont-elles representees, o`
u se produisent-elles, et quelle est leur
frequence.

1.5

Pr
eparation des donn
ees

La preparation des donnees est lun des aspects les plus importants et les plus co
uteux en temps du
datamining [18]. Lexistence dun entrep
ot de donnees peut aider `a diminuer sensiblement leffort depense au
niveau de cette phase. En effet, les donnees seront dej`a passees par la phase dExtraction-TransformationChargement avant detre stockees dans lentrepot. Ceci permet de reduire le temps de traitement des donnees.
Cependant, la preparation et lintegration des donnees en vue de loperation de fouille requi`erent encore
beaucoup defforts. La phase de preparation des donnees dun processus DM fait le lien entre les donnees `
a
la disposition et la phase de modelisation. La phase preparation des donnees du CRISP-DM regroupe cinq
t
aches : la selection, le nettoyage, la construction, lintegration, et le formatage.

1.5.1

La s
election des donn
ees

En fonction de la collecte initiale de donnees realisee dans la phase de  comprehension des donnees  du
CRISP-DM, lon peut commencer `
a choisir les donnees pertinentes en accord avec les objectifs fixes pour
loperation de fouille. Ce choix se fait en tenant compte de la qualite des donnees et des contraintes techniques
telles que les limites sur le volume des donnees ou des types de donnees. Il faut noter que la selection des
donnees couvre aussi bien la s
election des attributs (colonnes) que la s
election des enregistrements
(lignes) dune table.
` ce niveau, lutilisation des tests de signification et de corr
A
elation afin de decider de lexclusion
ou non des donnees sur un champ est aussi utile.La signification statistique a pour objectif de determiner
la probabilite que le resultat obtenu dans une etude soit du `a linfluence de variables independantes plut
ot
quau hasard.

Corr
elation des variables : Third variable problem

10

1.5.2

Le nettoyage des donn


ees

La t
ache de nettoyage a pour but de d
etecter et corriger les
eventuelles anomalies survenues au
cours de la collecte des donn
ees et de traiter les valeurs manquantes.
1. Elle permet aussi dameliorer la qualite des donnees au niveau requis par les techniques danalyses
selectionnees.
2. Cela peut impliquer la selection de sous-ensembles des donnees propres, le remplacement des donnees
manquantes avec des techniques plus ambitieuses, telles que lestimation des donnees manquantes.
3. On peut utiliser dans cette phase, le rapport sur la qualite des donnees preparees au cours de la phase
de  comprehension des donnees .
4. Ce rapport contient des informations sur les types de probl`emes lies aux donnees choisies.
5. Ainsi, lon peut lutiliser comme point de depart la manipulation des donnees incluses dans le nettoyage
des donnees de la phase de preparation des donnees.

1.5.3

La construction des donn


ees

La t
ache de construction vise `
a definir les unites sur lesquelles portent les mesures, et les variables. Bref, les
caracteristiques mesurees sur les individus. Cette tache comprend entre autres les operations de production
dattributs derives, de complement des nouveaux enregistrements, ou des attributs existants dont les valeurs
ont ete transformees afin dobtenir un ensemble de donnees complet et utile `a lanalyse. Les nouvelles donnees
peuvent etre construites de deux mani`eres :
Calculer les attributs (colonnes ou caract
eristiques) : creer des champs calcules `a partir de
champs existants `
a laide dun nud calcule, creer un champ booleen `a laide dun nud binaire ;
G
en
erer les enregistrements (lignes).

11

La construction des donnees est un element important de la preparation des donnees. Elle peut utiliser
des formulations mathematiques simples pour convertir des donnees selon differentes mesures choisies et `
a
des fins danalyse. De nombreuses mesures de statistiques sont disponibles : la moyenne, la mediane, le mode
et la variance. Elles peuvent etre facilement utilisees pour transformer les donnees.

1.5.4

Lint
egration des donn
ees

Les donnees necessaires `


a lanalyse peuvent provenir de plusieurs sources des donnees. Il est donc important
de proceder `
a une combinaison de ces donnees grace `a des methodes afin de creer des nouvelles donnees. La
t
ache dintegration consiste `
a croiser linformation contenue dans differentes tables, ou dautres sources, afin
de creer les lignes et les colonnes de la future table. Deux methodes principales existent pour lintegration de
donnees :
Lajout de donn
ees, qui implique lintegration de plusieurs ensembles de donnees possedant des
attributs semblables mais des enregistrements diff
erents. Ces donnees sont integrees en fonction
dun champ identique (tel quun nom de produit ou une duree de contrat) ;
La fusion de donn
ees, qui implique la jonction de deux ou plusieurs ensembles de donnees possedant
des enregistrements semblables mais des attributs diff
erents. Ces donnees sont fusionnees `
a
laide dun meme identificateur-cle pour chaque enregistrement (tel que lID client). Lintegration
des donnees peut saverer complexe si lon na pas suffisamment de temps `a passer sur la bonne
comprehension des donnees.

1.5.5

Le formatage des donn


ees

Lorsque les techniques de modelisation envisagees limposent, une tache de formatage de la table de
donnees est effectuee. Lop
eration de formatage se r
ef`
ere principalement `
a des modifications syntaxiques apport
ees aux donn
ees qui ne changent pas de sens, mais peuvent
etre exig
ees par
loutil de mod
elisation. Avant de commencer la creation dun mod`ele, il est utile de verifier si certaines
techniques necessitent lapplication dun format ou dun ordre particulier aux donnees. Par exemple, le tri
prealable des donnees avant lexecution du mod`ele. Meme si lalgorithme utilise est en mesure de realiser ce
tri, la realisation de cette operation au prealable permet parfois de reduire le temps de traitement en utilisant

12

des donnees triees avant la modelisation. Les differentes phases de preparation etant presentees ainsi que les
probl`emes qui minent cette etape. Nous presentons dans la partie qui suit, les techniques de resolution de
probl`emes des donnees manquantes et donnes aberrantes qui constituent aussi un des probl`emes majeurs de
cette etape.

1.5.6

Probl`
emes li
es `
a la pr
eparation des donn
ees

Les donn
ees aberrantes
Une valeur aberrante est une valeur qui diff`ere de facon significative de la tendance globale des autres
observations quand on observe un ensemble de donnees ayant des caracteristiques communes
Contr
ole sur le domaine des valeurs
Detection graphique (lhistogramme, le nuage des points, le diagramme de dispersion)
Tests de Dixon (distance entre les points)
Test de Grubbs
La r`egle de la bote de Tukey
La methode des correlations (variation du coefficient de correlation entre deux variables en supprimant
une valeur)
Les techniques classiques danalyses multivariees (analyse discriminante, analyse factorielle des correspondances, analyse en composantes principales).
Les donn
ees manquantes
Les mecanismes danalyse des donnees manquants sont classes en trois (3) categories :
MAR ( Missing At Random), si la probabilite de non-reponse peut d
ependre des observations
mais pas des donn
ees Manquantes. Considerons une variable Y le revenu et une variable X qui est
l
age. Dans le cas MAR, la probabilite que revenu soit recolte depend de lage des repondants mais ne
varie pas en fonction du revenu au sein des groupes dage.
P(Revenu = absent) = f(Age)
MNAR( Missing Not At Random), lorsque la probabilit
e de non-r
eponse est li
ee aux valeurs
prises par la variable ayant des donn
ees manquantes. Dans le dernier cas, la probabilite que
revenu soit recolte varie aussi en fonction du revenu dans le groupe dage.
P(Revenu = absent) = f(Revenu)
MCAR ( Missing Completely At Random), si la probabilite de non reponse pour une variable
donnee ne d
epend ni des donn
ees non-observ
ees (la variable manquante y compris) ni
des donn
ees observ
ees (les autres variables), mais uniquement des param`etres exterieurs. Le cas
MCAR est verifie si la probabilite que revenu soit recolte est la meme pour tous les individus.
Le traitement des donnees manquantes revet un caract`ere capital car il permet daffiner les donnees necessaires
a lanalyse. Cependant, ce traitement ne doit pas modifier la distribution des donnees. Cest pourquoi recom`
mande que toutes methodes de traitement des donnees manquantes doit repondre aux r`egles suivantes :
Faire de lestimation sans biais : la methode utilisee pour le traitement des donnees manquantes
ne devrait pas changer la distribution des donnees ;
La relation entre les attributs devrait etre conserv
ee ;
Le Co
ut. Utiliser une methode moins co
uteuse en temps et pratiquement moins complexe.
Lapprehension des donnees manquantes est un probl`eme delicat.
Non pas `
a cause de sa gestion informatique mais plutot `a cause des consequences de leur traitement
(suppression des individus ayant une mesure manquante ; ou remplacement par une valeur plausible
a partir des observations disponibles : On parle dimputation) sur les resultats danalyse ou sur les
`
param`etres dinteret [19].
En effet, selon Tuffery, si les donnees ne sont pas manquantes au hasard et sil existe des differences
systhematiques entre les observations compl`etes et incompl`etes, la suppressions des observations incompl`etes introduit un biais dans lanalyse [22].
Les methodes de traitement des donnees manquantes se distinguent selon deux approches [20, 3]
les methodes supprimant les donnees manquantes

13

1. Dans la premi`ere categorie, lon retrouve les techniques connues sous lappellation analyse des cas
complets (listwise deletion) et analyse des cas complets par paires (pairwise deletion).
2. Certains auteurs sugg`erent egalement que le choix de ne pas inclure dans les analyses les variables
qui comportent des donnees manquantes constitue une forme de suppression des donnees.
les methodes utilisant toute linformation disponible. Parmi les methodes utilisant toute linformation
disponible, notons
1. lajustement par variable binaire,
2. toutes les variantes de limputation, le maximum de vraisemblance, lalgorithme EM, le Markov
Chain Monte Carlo (MCMC), la ponderation ainsi que limputation multiple.
Les methodes utilisant toute linformation disponible sont generalement preferees [20].

1.5.7

Ind
ependance des observations : Echantillonnage
`
a plusieurs niveaux

Dans une recherche pour leducation par exemple,


la population est composee decoles et del`eves dans ces ecoles.
lechantillonnage proc`ede en deux etapes :
1. un certain nombre decoles sont selectionnees,
2. et un echantillon del`eves est choisi dans chacune de ces ecoles.
Dans un tel echantillonnage, les observations individuelles ne sont pas compl`etement independantes
lhistoire, de lenvironnement ou des conditions quils partagent
risque que les el`eves de meme classe socio-economique soient selectionnes dans les memes ecoles
Recherche sur les performances des employes
Niveau employe : formation, les competences et la motivation
Niveau service ou entreprise : la taille, le mode de management, lambiance, le pourcentage annuel de
promotion, le soutien accorde par les autres membres de lequipe.
Lhypoth`
ese dind
ependance. La violation de lhypoth`ese dindependance des observations [2].
entraine une estimation tr`es faible de lerreur standard par les tests statistiques conventionnels
produit beaucoup de resultats faussement significatifs

14

Chapitre 2

Apprentissage non supervis


e
2.1

Introduction

Le clustering consiste en un processus de regroupement de donnees en classes ou clusters, de telle mani`ere


que les objets `
a linterieur dun cluster aient une haute similarite les uns par rapport aux autres mais soient
tr`es dissimilaires des objets dans les autres clusters [12]. Les dissimilarites sont mesurees sur la base des valeurs
des attributs qui decrivent les objets. Souvent, ce sont des mesures de distance qui sont utilisees. Dans ce
chapitre, nous commencerons par etudier les exigences des methodes de clustering pour des grands volumes
de donnees. Nous expliquerons par la suite comment calculer les dissimilarites entre objets representes par
divers attributs ou types de variables. Pour terminer, nous examinerons plusieurs techniques de clustering
organisees selon les categories suivantes : clustering hierarchique, clustering de partitionnement, les methodes
basees sur les mod`eles, etc.

2.2

Analyse de cluster

La classification dobjets similaires en groupes est une activite humaine importante. Lanalyse de cluster
est souvent consideree comme une branche du Pattern Recognition 1 et de lintelligence artificielle [16]. La
classification a toujours joue un r
ole en science. Au 18 `eme si`ecle, Linnaeus et Sauvages ont produit des
classifications approfondies des animaux, des plantes, des mineraux et des maladies [16]-un etude plus recente
est produite dans [14]. En astronomie, Hertzsprung et Russell ont classifie les etoiles en divers categories sur
la base de deux variables : lintensite de leur lumi`ere et la temperature de leur surface. En science sociale, on
classifie souvent les personnes relativement `a leur comportement et leurs preferences. En marketing, on tente
souvent didentifier les segments de marche, cest-`a des groupes de clients ayant des besoins similaires. Dautres
exemples pourrait etre donnes en geographie (clustering des regions), en medecine (lincidence -frequence- de
certains types de cancers), en chimie (classification des composes), en histoire (regroupement des decouvertes
archeologiques) et ainsi de suite. Vu la disponibilite de grands volumes de donnees collectes dans base de
donnees, lanalyse de cluster est devenu recemment un sujet tr`es actif dans la recherche en Datamining. Le
clustering ne repose pas sur des classes predefinies et des exemples avec des classes (labels ou etiqu`etes)
connues davance. Pour cette raison, le clustering peut etre considere comme une sorte dapprentissage par
observation, plut
ot quun apprentissage par exemples. Les algorithmes de clustering consistent `a assigner des
classes en respectant les r`egles suivantes :
1. La distance entre les elements dune meme classe (distance intra-classe) est minimale.
2. La distance entre chaque classe (distance inter-classes) est maximale.
1. Reconnaissance de formes

15

2.3

Types de donn
ees dans lanalyse des clusters

Nous etudions ici les types de donnees qui se rencontrent en analyse de cluster et comment les traiter pour
une telle analyse. Supposons que lensemble des donnees `a clustrer contient n objets, qui peuvent representer
des personnes, des maisons, des documents, des pays, etc. la plupart des algorithmes de clustering fonctionnent
sur lun ou lautre de ces deux structures de donnees. Matrice de donnees. Une matrice de donnees represente
n objets, par exemple de personnes, avec p variables (aussi appelees mesures ou attributs), par exemple l
age,
la taille, le poids, le sexe, etc. la structure a la forme dune matrice (n objet * p variables) :

x11 x1p
..
..
..
(2.1)
.
.
.
xn1

xnp

Matrice de dissimilarites. Cette matrice stocke une collection de proximites disponibles pour toutes les paires
parmi les n objets. Elle est souvent representee par une table n*n :

0
d(2, 1)

(2.2)
..

0
d(n, 1) d(n, 2)

O`
u d(i, j) est la difference ou dissimilarite mesuree entre les objets i et j. En general, d(i, j) est un nombre
non negatif qui est proche de 0 si les objets i et j sont tr`es similaires ou proches lun de lautre, et devient
plus grand plus ils different. Beaucoup dalgorithmes fonctionnent avec une matrice de dissimilarites. Si les
donnees sont presentees sous la forme dune matrice de donnees, elle doit etre dabord transformee en matrice
de dissimilarites avant dappliquer de tels algorithmes.

2.3.1

Les variables binaires

Nous presentons dans cette section le calcul des dissimilarites entre objets decrits par des variables binaires
symetriques ou asymetriques. Une variable binaire a seulement deux etats 0 ou 1,
0 voulant dire que la variable (ou caracteristique) est absente,
et 1 quelle est presente (par exemple fumeur =1 et non-fumeur = 0).
Lorsque toutes les variables ont le meme poids, la dissimilarite peut etre calculee en utilisant un tableau
de contingence avec :
1. M11 est le nombre de variables egales `a 1 pour les objets i et j.
2. M10 est le nombre de variables egales `a 1 pour i et 0 pour j.

16

3. M01 est le nombre de variables egales `a 0 pour i et 1 pour j.


4. M00 est le nombre de variables egales `a 0 pour les objets i et j.
Une variable binaire est dite symetrique si
ses deux etats sont de valeurs egales et portent le meme poids,
cest `
a dire quil ny a pas de preference sur quel etat doit etre code 0 ou 1.
Le genre est un exemple de variable binaire symetrique.
La dissimilarite binaire symetrique se calcule comme suit :
d(i, j) =

M10 + M01
M11 + M10 + M01 + M00

(2.3)

Une variable binaire est asymetrique si


les valeurs liees `
a ses etats nont pas la meme importance,
par exemple un resultat positif ou negatif dun test de maladie.
Par convention,
la sortie la plus importante (test maladie positif), qui est souvent la plus rare doit etre codee `
a 1,
et lautre (test maladie negatif) `
a 0.
Si nous considerons deux objets decrits par des variables asymetriques, la correspondance de deux 1s
(correspondance positive) sera considere comme etant plus importante que celle entre deux 0s (correspondance
negative). Le calcul de la dissimilarite binaire asymetrique ignore le nombre de correspondances negative et
se fait comme suit :
M10 + M01
(2.4)
d(i, j) =
M11 + M10 + M01

2.3.2

Les variables cat


egorielles

Une variable categorielle est une g


en
eralisation de la variable binaire,dans le sens o`
u le nombre
d
etats M peut
etre sup
erieur `
a deux (une variable decrivant des couleurs par exemple). Des lettres,
des symboles ou un ensemble dentiers (ne repr
esentant pas un ordre sp
ecifique) peuvent etre utilises
pour representer les etats dune variables categorielle. La dissimilarite entre deux objets i et j decrits par des
variables categorielles peut etre calculee en utilisant le ratio des inadequations :
d(i, j) =

pm
p

(2.5)

o`
u m est le nombre dadequations et p le nombre total de variables.

2.3.3

Les variables ordinales

Une variable ordinale discr`


ete ressemble `a une variable categorielle, excepte que les M etats de la
variable ordinale sont ordonnee dans une sequence qui a une signification. Les intervalles entres les points
de l
echelle ont une signification (lampleur est importante) mais peuvent
etre in
egales.
grades des enseignant-chercheurs (Assistant `a Professeur)
niveaux deducation (primaire `
a universitaire)
stades de cancer (stade I, II, III, IV)
Une variable ordinale continue est une sorte densemble de donnees continues dune lechelle inconnue ;
ce qui veut dire que lordre des valeurs est importante mais leur ampleur ne lest pas :
le classement dans un sport particulier (i.e., or, argent, bronze)
Niveau de douleur (leg`ere, moderee, sev`ere)
Niveau de satisfaction (tr`es insatisfait, insatisfait, neutre, satisfait, tr`es satisfait)
Niveau daccord (fortement en desaccord, en desaccord, neutre, daccord, fortement daccord)
Les valeurs dune variable ordinale peuvent etre mappees en des rangs. Supposons quune variable ordinale
f a Mf etats qui definissent une classement de 1, , Mf . Le traitement des variables ordinales est assez
similaire `
a celui des Interval-scaled variables quand il sagit de calculer la dissimilarite entre deux objets.
Supposons que f est une variable parmi un ensemble de variables ordinales decrivant n objets. Le calcul de
la dissimilarite relative `
a f inclut les etapes suivantes :
17

1. La valeur pour f du ieme objet est xif , et f a Mf etats ordonnes representant les rangs 1, , Mf .
Remplacer xif par le rang correspondant rif {1, , Mf }.
2. Vu que chaque variable peut avoir un nombre detats differents, il est souvent necessaire de mapper
letendue de chaque variable `
a lintervalle [0.0, 1.0], de sorte que les variables aient le meme poids. Cette
operation se fait en remplacant le rang rif par
zif =

rif 1
Mf 1

(2.6)

3. La dissimilarite peut ainsi etre calcule en utilisant une des distances sappliquant aux Interval-scaled
variables (variables dintervalle), avec zif representant la valeur de f du ieme objet.

2.3.4

Les variables dintervalle (d


echelle)

Cette section presente les variables dintervalles et leur standardisation. Elle decrit ensuite les mesures de
distances souvent utilisees pour calculer les dissimilarites des objets decrits par de telles variables.
1. Les variables intervalles sont similaires aux variables ordinales sauf que intervalle entre deux
cat
egories `
a toujours la m
eme valeur, la meme signification (Temperature en Celsius ou en Fahrenheit, Annee de naissance). La difference entre 100 c et 110 c est identique `a celle entre 200 c et 210 c.
2. Le zero ne correspond pas labsence de lelement. A 00 c, il y a toujours une temperature. Lan 0 ne
correspond pas au debut de lunivers.
3. Laddition et la soustraction peuvent etre definies sur des donnees de ce type.
4. La division et la multiplication ne sont pas applicable. En effet, le rapport entre deux temperatures
donnees en Celsius nest pas egale au rapport de ces deux meme temperatures donnees en Fahrenheit.
Mesure
1
2

T en Celsius
10
11

T en Fahrenheit
50
52

Pour pouvoir multiplier et diviser des temperatures, il faudrait utiliser comme unite le Kelvin qui
poss`ede un zero veritable.
Une variable dintervalle est representee sur une echelle lineaire.
Lorsque des intervalles de longueur physiques egales sont representes sur une echelle lineaire, chaque
intervalle va englober la meme quantite de la variable quelque soit lendroit o`
u se trouve lintervalle
[13].
Par exemple, la distance physique entre 1 et 2 (une difference de 1) est la meme que la distance physique
entre 99 et 100 (egalement une difference de 1) .
Des exemples typiques sont la latitude, la longitude (p. ex., lors du clustering de maisons), et la
temperature de leau.
Parmi les mesures applicables aux variables dintervalles, nous trouvons : les mesures euclidiennes, celle
de Manhattan et celle de Minkowski.
Apr`es la standardisation, ou sans standardisation dans certains cas, les dissimilarites (ou similarites) sont
calculees entre objets decrits par des interval-scaled variables en utilisant la distance entre chaque paire
dobjets. La mesure de distance la plus utilisee est la distance euclidienne, definie comme.
q
d(i, j) = (xi1 xj1 )2 + (xi2 xj2 )2 + + (xip xjp )2
(2.7)
o`
u i = (xi1 , xi2 , , xip ) et j = (xj1 , xj2 , , xjp ) sont deux objets de donnees de dimension n. Une autre
metrique bien connue est la distance de Manhattan, defini comme :
d(i, j) = |xi1 xj1 | + |xi2 xj2 | + + |xip xjp |

(2.8)

Aussi bien la distance euclidienne que la distance de Manhattan satisfont les exigences suivantes sur les
fonctions de distances :

18

1. d(i, j) 0 : la distance est un nombre non negatif.


2. d(i, i) = 0 : la distance dun objet `
a lui meme est egale `a 0.
3. d(i, j) = d(j, i) : la distance est une fonction symetrique.
4. d(i, j) d(i, h) + d(h, j) : aller directement de i `a j dans lespace nest pas superieur `a faire un detour
nimporte quel autre objet h.
La distance de Minkowski est une generalisation des distances euclidienne et de manhattan. Elle est definie
comme suit :
1
d(i, j) = (|xi1 xj1 |q + |xi2 xj2 |q + + |xip xjp |q ) q
(2.9)
o`
u p est un entier positif. Elle represente la distance euclidienne si q = 2 et la distance de manhattan si q
=1. Dans le cas `
a chaque variable vous voulez assigner un poids, la distance euclidienne pondere se calcule
comme suit.
q
(2.10)
d(i, j) = w1 (xi1 xj1 )2 + w2 (xi2 xj2 )2 + + wp (xip xjp )2
La ponderation peut aussi etre applique aux distances de manhattan et de Minkowski.

2.3.5

Les variables de ratios ou de rapport.

Les variables de ratios sont des variables dintervalles avec un zero naturel. Par exemple pour la duree dun
test, `
a 0, il ny pas de temps.La multiplication et la division sont definies : un employe avec 50.000 dollars
lannee gagne deux fois plus que celui avec 25.000 dollars lannee. Une variable de ratio est une mesure positive
sur une echelle nonlineaire (logarithmique ou exponentielle). Pour des intervalles dune longueur physique
egale qui sont marques sur une echelle non lineaire, le ratio entre la valeur superieure de lintervalle et celle
inferieure, est le meme dun intervalle `
a lautre [13, 23]. Si nous considerons une echelle logarithmique par
exemple, la distance physique entre 1 et 10 (un ratio de 10 pour 1) est la meme que la distance physique
entre 100 et 1000 (aussi un ratio de 10 pour 1). En effet, log(10) - log(1) = log(1000)-log(100). Il faudra noter
que la distance qui separe 1 de 2, dans cette echelle est superieur `a celle qui separer 2 de 3.

Un autre exemple dechelle non lineaire est lechelle exponentielle, qui suit approximativement la formule
suivante :
AeBt ou AeBt
(2.11)
o`
u A et B sont des constantes positives et t represente le temps. Les intervalles x-y et y-z ci dessous par
exemple, seront represente sur lechelle par les meme distance physique `a cause de legalite des rapports :
y
AeB(tx +1)
=
= eB
x
AeB(tx )

(2.12)

z
AeB(tx +2)
=
= eB
y
AeB(tx +1)

(2.13)

Parmi les variables pouvant etre represente par des formules de ce type, nous pouvons citer celles
representant levolution dune population de bacteries ou la desintegration dun element atomique par exemple
[12]. Il y a trois methodes pour traiter les variables de rapport lors du calcul des dissimilarites.

19

1. Traiter les variables de ratio comme des variables dintervalles. Ceci nest souvent pas considere comme
un bon choix car lechelle peut etre distordue.
2. Appliquer une transformation logarithmique `a la variable de ratio f ayant la valeur xif pour lobjet i en
utilisant la formule yif = log(xif ). La valeur yif peut ainsi etre traite comme une variable dintervalle.
La transformation appliquee depend de la definition de la variable et de lapplication (le probl`eme).
3. Traiter les xif comme des variables ordinales continus et considerer leurs rangs comme des valeurs dune
variable dechelle.
Exercice
Considerons les objets suivants qui sont decrit en utilisant une variable de rapport. Donner la matrice de
dissimilarites, en utilisant loption de transformation logarithmique avec le log `a base 10.
Identifiant objet
1
2
3
4

2.3.6

V-rapport
445
22
164
1210

Les variables de types diff


erents

Dans une base de donnees reelles, les objets peuvent etre cedrits par un des variables dun seul types ou par
un melanges de variables de types differents : binaire symetrique, binaire asymetrique, categorielle, ordinale,
dintervalle ou de rapport. Lorsque chaque type de variable est traite (clustre) separement, les resultats
obtenus auront peu de chance detre compatibles. La meilleur approche consiste `a traiter toutes les variables
dans un processus de clustering unique. Cela implique de combiner les differents types de variables dans une
seule matrice de dissimilarite. Toutes les distances sont ramenees dans une meme echelle de lintervalle [0.0,
1.0]. Supposons un ensemble de donnees contenant p variable de types differents. La dissimilarite d(i, j) entre
deux objets i et j est definie comme suit :
(f ) (f )
f =1 ij dij
(f )
f =1 ij

Pp
d(i, j) =

(2.14)

Pp

(f )

O`
u lindicateur ij = 0 si (1) xif ou xjf est absent, ou (2) xif = xjf = 0 et f est une variable asymetrique
(f )

(f )

binaire ; dans le cas contraire,ij = 1. La contribution de la variable f `a la dis similarite entre i et j est dij ,
calcule selon le type :
(f )

1. Si f est une variable dintervalle, dij =


lesquels la variable f est presente.

|xif xjf |
maxh xhf minh xhf

(f )

, h parcourant lensemble des objets pour


(f )

2. Si f est binaire ou categorielle, dij = 0 si xif = xjf ; sinon dij = 1.


3. Si f est ordinale, calculer les rangs rif puis zif =
(Cf. section variables dintervalle).

rif 1
Mf 1 ,

et traiter les zif comme une variable dechelle

4. Si f est une variable de rapport


soit il faut appliquer une transformation logarithmique et traiter les donnees transformees comme
une variable dechelle (Cf. item 1).
ou, traiter f comme une variable ordinale continue, calculer les rif et les zif et traiter les zif comme
une variable dechelle (Cf. section variables dintervalle).
Exercice
Considerons les objets suivants representes par une variable categorielle (test-1) et une variable ordinale
(test-2). Donner la matrice de dissimilarite.

20

Id
1
2
3
4

2.3.7

Test-1
Code-A
Code-B
Code-C
Code-A

Test-2
Excellent
Passable
Bien
Excellent

Normalisation

Lunite de mesure utilise peut impacter lanalyse de cluster.


1. Par exemple, changer une unite de mesure de m`etres en pouces pour la taille, ou de kilogrammes `
a livre
pour le poids, peut mener a une structure de structering tr`es differente.
2. En general, exprimer une variable dans des unites plus petites m`enera `a echelle plus grande pour la
variable, et ainsi un effet plus large sur la structure resultante du clustering.
3. Pour
eviter cette d
ependance au choix de lunit
e de mesure, les donn
ees doivent
etre
standardis
ees.
4. La standardisation a pour objet de donner `a toutes les variables le meme poids. Cela est particuli`erement
utile lorsque vous navez pas de connaissances `a priori sur les donnees.
5. Cependant, dans certaines applications, peut intentionnellement vouloir donner `a un ensemble de variables plus de poids plus que dautres.
Par exemple, pour le clustering de candidats `a une equipe de basketball, vous pouvez donner plus de
poids `
a la variable taille.
Pour illustrer la dependance au choix de lunite de mesure, considerons lexemple dans lequel nous avons
4 personnes decrites par les attributs age (abscisse) et taille (ordonnee).
dans le premier cas la taille est represente en cm
dans le second cas la taille est represente en pied

21

22

Pour standardiser des mesures, on peut convertir les mesures de depart dans des variables sans unite.

Etant
donne des mesures pour une variable f, cela peut etre realise comme suit :
1. Lecart absolu moyen (mean absolute deviation) : il sagit de la moyenne des ecarts en valeur absolue
entre les observations et leur moyenne, soit
sf =

1
(|x1f mf | + |x2f mf | + + |xnf mf |)
n

O`
u x1f , , xnf sont les n mesures sur f, et mf est la moyenne de f, cest-`a-dire, mf =
+ xnf ).

(2.15)
1
n (x1f

+ x2f +

2. Calculer la mesure standardise ou z-score :


zif =

xif mf
sf

(2.16)

Lecart absolu moyen, sf , est plus robuste aux valeurs aberrantes que lecart-type (standard deviation), f .
Dans le calcul de lecart absolu moyen, la deviation de la moyenne (i.e., (|xif mf |) nest pas eleve au carre ;
par consequent, leffet des valeurs aberrantes est quelque peu reduit.
Supposons que la moyenne de la variable revenue est de 50.000 euros et son ecart-type 15.000 euros.
= 1.33
Avec, la normalisation par z-score, la valeur 70.000 euros est transformee en 7000050000
15000
La standardisation peut etre ou peut ne pas etre utile pour une application particuli`ere. Partant, la decision
de normaliser et choix de facon de normaliser doit etre laisse `a lutilisateur. Un attribut est normalise par
mise `
a lechelle de ses valeurs afin que ces derni`eres tombent dans une plage reduite specifique, telle que
lintervalle 0 `
a 1 par exemple. Il existe des methodes de normalisation de donnees autre que le z-score :
Normalisation Min-max. Supposons que minA et maxA sont les valeurs minimale et maximale dun
0
attribut A. La normalisation Min-max mappe une valeur, v, de A vers v se situant dans lintervalle
[nouveau minA , nouveau maxA ], en calculant :
0

v =

v minA
(nouveau maxA nouveau minA ) + nouveau minA
maxA minA

(2.17)

La normalisation Min-max va rencontrer une erreur hors-limite lorsquun nouveau cas donne en
entree de la normalisation se situe en dehors de lintervalle des valeurs de depart de A. Supposons que
les valeurs minimale et maximale de lattribut revenue soient 10.000 et 90.000 euros respectivement.
Nous voulons standardiser lattribut revenu dans lintervalle [0.0, 1.0]. Par la normalisation Min-max,
une valeur de revue de 70.000 euros sera transforme `a 70.00010.000
90.00010.000 (1.0 0) + 0 = 0.75
Normalisation par mise en decimal. La normalisation par mise en decimal consiste `a deplace la virgule
dans les valeurs de lattribut A. Le nombre de decalages du point decimal depend maximum de A en
0
valeur absolue. Une valeur v de A est normalise en v en faisant
0

v =

v
10j

(2.18)

o`
u j est lentier le plus petit tel que M ax(|v |) < 1.
Supposons que les valeurs enregistrees pour A vont de - 978 `a 915. Le maximum en valeur absolue pour
A est donc 978. Pour normaliser par mise en decimal, nous devons diviser chaque valeur par 1.000 (i.e.,
j = 3) de sorte que - 978 est normalise en - 0.978 et 915 en 0.915.

2.4

M
ethodes de partitionnement

Beaucoup dalgorithmes de clustering existent dans la litterature. Il est difficile de fournir une categorisation
nette et precise de ces methodes car ces categories peuvent se chevaucher, de sorte quune methode peut avoir
des caracteristiques de plusieurs categories. Neanmoins, il est utile de presenter une vue relativement organisee
des differentes methodes de clustering.

Etant
donne D, un ensemble de n objets, et k, le nombre de clusters `a former, un algorithme de partitionnement organise les objets en k partitions (k  n), o`
u chaque partition represente un cluster. Les clusters sont
23

formes pour optimiser un crit`ere objectif de partitionnement, tel quune fonction de dissimilarite base sur une
distance, de telle mani`ere que les objets dans un meme cluster sont similaires alors que les objets de cluster
differents sont dissimilaires en termes dattributs de lensemble de donnees. Les methodes de partitionnement
les plus connues et les plus utilisees sont k-means, k-medoids, et leurs variantes.

2.4.1

La m
ethode k-means

Lalgorithme k-means prend en argument le parameter dentre k, et partitionne un ensemble de n objets en


k clusters, de telle sorte que la similarite intracluster resultante soit forte mais que la similarite intercluster
soit faible. La similarite dans un cluster est mesuree en considerant la valeur moyene des objets dans le
cluster, celle-ci pouvant etre vue comme le center de gravite du cluster. Lalgorithme k-means fonctionne de
la mani`ere suivante.
Dabord, il s
electionne al
eatoirement k objets, chacun deux repr
esentant initialement le
centre dun cluster.
Pour chaque objet restant, lobjet est assigne au cluster dont il est le plus similaire sur la base de la
distance entre lobjet et la moyenne du cluster.
Elle calcule ensuite la nouvelle moyenne pour chaque cluster.
Le processus boucle jusqu`
a ce que la fonction de crit`ere converge. Generalement, le crit`ere de carre des
erreurs est utilise, elle est definie comme :
E=

k X
X

|p mi |2

(2.19)

i = 1 p  Ci

E est la somme des carres des erreurs pour tous les objets dans lensemble de donnees. p est un point dans
lespace representant un objet donne ; mi est la moyenne du cluster Ci (p et mi sont multidimensionnels).
Clustering par la m
ethode de partitionnement k-means. Supposons que nous avons un ensemble
dobjets localises dans lespace comme presente sur la figure a suivante.
Soit k = 3 ; cest-`
a-dire, lutilisateur voudrait partitionner les objets en trois clusters.
Conformement lalgorithme, nous choisissons arbitrairement trois objets comme les centres des trois
clusters initiaux, o`
u les centres sont marques par un  + .
Chaque objet est distribue `
a un cluster selon le centre du cluster dont il est le plus proche. Une telle
distribution forme de silhouettes encerclees par des courbes en pointilles comme le montre la figure a.
Ensuite, les centres des clusters sont mis `a jour. Cest-`a-dire que la valeur moyenne de chaque cluster
est recalculee sur la base des objets dans le cluster.
En utilisant les nouveaux centres de clusters, les objets sont redistribues dans les clusters sur la base
du centre dont ils sont le plus proches.
Une telle redistribution forme de nouvelles silhouettes encerclees par des courbes en pointilles, comme
le montre la partie b de a figure.
Le processus boucle, et produit `
a la fin la figure c. Ce processus consistant `a reassigner iterativement
les objets aux clusters afin dameliorer le partitionnement est appele reallocation iterative.
Si, eventuellement, aucune redistribution na lieu, le processus sarrete. Les clusters resultants sont
retournes par le processus de clustering.

24

Algorithme : lalgorithme de partitionnement k-means, dans lequel chaque centre de cluster est represente
par la valeur moyenne des objets dans le cluster.
Entree
1. k : le nombre de clsuters,
2. D : un ensemble de donnees contenant n objets.
Sortie : un ensemble de k clusters
Methode
1. Choisir arbitrairement k objets de D comme centre des clusters initiaux ;
2. Repeter
(a) (re)assigner chaque objet au cluster auquel lobjet est le plus similaire, sur la base de la valeur
moyenne des objets dans le cluster ;
(b) Mettre `
a jour les moyennes de clsuters,
3. Jusqu`
a ce quil ny ait plus de changement
La figure ci-dessous presente une autre variante de lalgorithme et illustre bien la boucle calcul des centresreaffectation.

Lalgorithme tente de determiner k partitions qui minimisent la fonction de carrees des erreurs.
Il fonctionne bien lorsque les clusters sont des nuages compacts qui sont plutot bien separes les uns des
autres.
Sur la base de sa complexite algorithmique, la methode k-means peut etre consideree comme relativement scalable et efficace dans le traitement de larges ensembles de donnees (Han, Kamber et al.
2005).
Cependant, la methode k-means, peut etre appliquee seulement lorsque la moyenne dun cluster est
definie. Cela peut ne pas etre le cas dans certaines applications, par exemple lorsque des donnees avec
des attributs categoriels sont impliquees.
La necessite pour les utilisateurs de specifier k, le nombre de cluster, `a lavance peut etre vu comme un
desavantage.
La methode k-means nest pas tr`es appropriee pour decouvrir des clusters de forme non convexe et des
clsuters avec des tailles tr`es differentes.
De plus, elle est sensible au bruit et aux donnees (points) aberrantes car un petit nombre de telles
donnees peut considerablement la valeur moyenne.
25

Il existe quelques variantes de la methode k-means.


Elles differents dans la selection des k moyennes initiales, dans le calcul des dissimilarites, et dans les
strategies de calcul des moyennes des clusters.
Une strategie interessante qui produit souvent de bon resultats consiste `
a appliquer dabord un
algorithme dagglomeration hi
erarchique, qui determine le nombre de clusters et trouve un clustering initial, et ensuite utiliser la reallocation iterative pour ameliorer le clustering.
Une autre variante du k-means est la methode k-modes, qui
etend le paradigme k-means pour
clustrer des donn
ees cat
egorielles en rempla
cant les moyennes des clsuters par des modes,
en utilisant de nouvelles mesures de dissimilarite pour traiter les objets categoriels et une methode
basee sur les frequences pour mettre `a jour les modes des clusters.
1. Pour chaque cluster, le centroid sera un objet (virtuel) prenant comme valeur pour
chaque question, la r
eponse la plus fr
equente `
a lint
erieur du cluster.
2. Pour chaque point et chaque centroid, la distance peut etre definie par exemple comme etant le
nombre de questions sur lesquels il y a desaccord.
Les methodes k-means et k-modes peuvent etre integrees pour clustrer des donnees mixtes contenant
des valeurs numeriques et categorielles.
Lalgorithme EM (Expectation-Maximization) etend le paradigme k-means dune mani`ere differente.
Tandis que kmeans assigne chaque objet `a un cluster, dans EM chaque objet est assign
e`
a un cluster
selon un poids repr
esentant sa probabilit
e dappartenance. En dautres termes, il ny a pas de
fronti`eres strictes entre clusters. Pour cette raison, les moyennes sont calculees sur la base de mesures
ponderees.

2.4.2

Technique bas
ee sur la repr
esentativit
e : la m
ethode k-medoids

Lalgorithme k-means est sensible aux valeurs aberrantes car un objet avec une valeur extremement grande
peut distordre de mani`ere considerable la distribution des donnees. Cet effet est particuli`erement exacerbe par
la fonction de carre des erreurs. Comment lalgorithme doit etre modifie pour diminuer cette sensibilite. Au
lieu de prendre la valeur moyenne des objets dans le cluster comme reference, on peut choisir des objets pour
representer les clusters, en utilisant un objet representatif par cluster. Chacun des objets restant est clustre
avec lobjet representatif dont il est le plus similaire. La methode de partitionnement est alors appliquee sur
la base du principe de minisation de la somme des dissimilarites entre chaque objet et le point de reference
qui lui correspond. Un crit`ere derreur absolue est utilise, il est definit comme suit :
E=

k
X
X

|p oj |

(2.20)

j = 1 p  Cj

E est la somme des erreurs absolues pour tous les objets de lensemble de donnees ; p est un point
representant un objet dans le cluster Cj ; et oj est lobjet representatif de Cj . En general, lalgorithme boucle
jusqu`
a ce que, eventuellement, chaque objet representatif soit le medoid, ou lobjet le plus central, de son
cluster.
Les objets repr
esentatifs initiaux sont choisis arbitrairement.
Le processus iteratif de remplacement des objets representatifs par des objets non representatifs continue
tant que la qualite du clustering resultant est amelioree.
Cette qualite est estimee en utilisant une fonction de co
ut qui mesure la moyenne de dissimilarit
es
entre un objet et lobjet repr
esentatif de son cluster 2 .
Pour determiner si un objet non repr
esentatif, orandom , est bon pour le remplacement dun objet
repr
esentatif, oj , les quatre cas suivants sont examines pour chacun des objets non representatifs, p, comme
le montre la figure suivante :
Cas 1 : p appartient `
a lobjet representatif, oj . si oj est remplace par orandom comme objet representatif
et p est plus proche dun autre objet representatif, oi , i 6= j, alors p est reassigne `a oi .
2. A medoid can be defined as the object of a cluster, whose average dissimilarity to all the objects in the cluster is minimal
i.e. it is a most centrally located point in the cluster.

26

Cas 2 : p appartient `
a lobjet representatif, oj . si oj est remplace par orandom comme objet representatif
et p est plus proche de orandom , alors p est reassigne `a orandom .
Cas 3 : p appartient `
a lobjet representatif oi , i 6= j. si oj est remplace par orandom en tant quobjet
representatif et p est toujours plus proche de oi , alors lassignement ne change pas.
Cas 4 : p appartient `
a lobjet representatif oi , i 6= j. si oj est remplace par orandom comme objet
representatif et p est plus proche de orandom , donc p est reassigne `a orandom .

En resume, il faut considerer trois niveaux dans lapplication la methode k-medoids :


1. le niveau de la mesure globale de qualite du clustering (i.e. derreur absolue) qui concerne tous les
clusters et qui permet de decider de continuer ou darreter le clustering.
2. le second evalue `
a chaque etape la necessite de changer dobjet representatif pour cluster donne sur la
base de la la moyenne de dissimilarites. Ce remplacement doit etre suivi de la reaffectation des objets,
reaffectation qui nentraine pas necessairement une amelioration du crit`ere global derreur absolue.
3. le re assignement (affectation) dun objet `a un cluster.

2.5

M
ethodes hi
erarchiques

Une methode de clustering hierarchique fonctionne en regroupant les objets de donnees dans un arbre de
clusters. Les methodes de clustering hierarchique peuvent etre classifiees en soit agglomerative ou divisive,
dependant du fait que la decomposition hierarchique est construite dune mani`ere bottom-up (merging) ou
top-down (splitting). La qualite dune methode de clustering hierarchique pure souffre de son incapacite de
realiser un ajustement une fois quune decision de merge ou de split a ete executee. Cela veut dire que si un
merge ou un split particulier sav`ere etre un mauvais choix, la methode ne peut pas revenir en arri`ere et le
corriger. Des etudes recentes ont souligne linteret dintegrer lagglomeration hierarchique avec les methodes
de reallocation iterative.
M
ethodes agglomeratives. Cette strategie bottom-up commence par placer chaque object dans
son cluster propre et agglom`ere ces clusters atomique en des clusters de plus en plus larges, jusqu`
a
tous les objets soient dans un cluster unique ou jusqu`a ce que certaines conditions terminales soient
satisfaites. La figure ci-apr`es, montre lapplication de AGNES (AGglomerative NESting), une methode
agglomerative, `
a un jeu de donnees de cinq objets {a, b, c, d, e} . Initialement, AGNES place chaque objet
dans un cluster et utiliser lapproche appelee single-linkage, approche dans laquelle chaque cluster est
represente par tous les objets quil contient, et la similarite entre deux clusters est mesuree par la
similarites de la paire dobjets les plus proches (chaque point appartenant `a un des clusters). Un merge
effectue entre les clusters C1 et C2 si un point de C1 et un point de C2 forment la distance euclidienne
minimale entre deux objets de clusters differents. Le processus de merging continue jusqu`a la formation
dun cluster unique.

27

M
ethodes divisives. Cette strategie top-down realise linverse des methodes agglomeratives de clustering en commencant par rassembler tous les objets dans un unique cluster. Elle subdivise le cluster
en de plus en plus petites parcelles, jusqu`a ce que chaque objet forme son propre cluster ou quune
certaines conditions de terminaison soient satisfaites (e.g.le nombre desire de clusters a ete obtenu ou
le diam`etre de chaque cluster ne depasse pas un certain seuil). DIANA (DIvisive ANAlysis) est une
methode divisive applicable au meme jeu de donnees. Les divisions du cluster initial sont faites selon
un principe tel que le maximum de la distance euclidienne entre deux voisins les proches dun cluster.
Le processus de division se poursuit jusqu`a ce que eventuellement, chaque cluster ne contienne quun
objet.

Un arbre appelle dendrogram est souvent utilise pour representer le processus de clustering hierarchique.
Laxe niveau represente les differentes sequences du clustering. Laxe similarite represente le niveau de la
similarite entre les clusters. Par exemple, la similarite entre les clusters {c} et {d, e} est de 0.4.

Differentes metriques sont definies pour mesurer la distances entre deux clusters :
0

Distance M inimum : dmin (Ci , Cj ) = minp  Ci ,p0  Cj |p p |


0

(2.21)

Distance M aximum : dmax (Ci , Cj ) = maxp  Ci ,p0  Cj |p p |

(2.22)

Distance des moyennes : dmean (Ci , Cj ) = |mi mj |

(2.23)

Distance moyenne : davg (Ci , Cj ) =

0
1 X X
|p p |
ni nj
0

p  C i p  Cj

28

(2.24)

|p p | represente la distance entre deux objets p et p ; mi est la moyenne du cluster Ci et ni est le nombre
dobjets dans Ci . Ces mesures peuvent etre utiliser pour progresser dans le processus de clustering mais elles
peuvent etre comparees `
a un seuil donne pour decider par exemple darreter le clustering.

2.6

Exigences des m
ethodes de clustering

En datamining, les th`emes actifs de la recherche se concentrent sur la scalabilite des methodes de clustering, lefficacite des methodes pour le clustering de formes et de types de donnees complexes, des techniques
de clustering grand dimension, et des methodes de clustering de donnees numeriques et categorielles mixees
dans des bases de donnees larges. Le clustering est un domaine de la recherche o`
u il y a beaucoup de challenge et dans lequel les applications potentielles posent leurs propres exigences. Les elements suivants sont
des exigences typiques du clustering en datamining :
1. Scalabilit
e : beaucoup dalgorithmes de clustering fonctionnent bien sur des petits ensembles de
donnees contenant moins de plusieurs centaines dobjets ; cependant, les grandes bases de donnees
peuvent contenir des millions dobjets. Le clustering sur un echantillon dun large ensemble de donnees
peut conduire `
a des resultats biaises. Des algorithmes de clustering hautement scalables sont necessaires.
2. Capacit
e`
a traiter diff
erent types dattributs : beaucoup dalgorithmes sont concus pour clustrer
des donnees numeriques (interval-based data). Cependant, les applications peuvent requerir de clustrer
dautres types de donnees, tels que les donnees binaires, categorielle (nominales), et ordinales, ou un
melange de ces types.
3. D
ecouverte de clusters avec des formes arbitraires : beaucoup dalgorithmes de clustering
determinent les clusters sur la base de mesures de distances euclidiennes ou de Manhattan. Les algorithmes bases sur de telles mesures de distances ont tendance `a trouver des clusters spheriques avec
des tailles et des densites similaires.

Cependant, les clusters peuvent etre de nimporte quelle forme.


Il est important de developper des algorithmes permettant de detecter des clusters de formes quelconques.
Par exemple, pour le Density-based Clustering, lidee de base est que les clusters sont les regions
denses de lespace de donnees, separes par des regions o`
u la densite dobjets est moins importante.

29

4. Exigence minimale de connaissances du domaine pour d


eterminer les param`
etres dentr
es :
un grand nombre dalgorithmes de clustering exigent que lutilisateur fournissent certains param`etres `
a
lanalyse de clusters (le nombre de cluster desires par exemple). Les resultats du clustering peuvent
etre assez sensibles aux param`etres dentree. Les param`etres sont souvent difficiles `a determiner,
specialement pour des ensembles de donnees contenant des objets de dimensions eleves. Cela ne fait
pas que charger (de travail) les utilisateurs, mais ca rend egalement difficile le controle de la qualite du
clustering.
5. Capacit
e`
a traiter des donn
ees contenant du bruit : la plupart des bases de donnees du monde reel
contiennent des donnees aberrantes, absentes, inconnues ou erronees. Certains algorithmes de clustering
sont sensibles `
a de telles donnees et peuvent conduire `a des clusters de faible qualite.

30

6. Clustering incr
emental et non sensibilit
e `
a lordre dentr
ee des enregistrements : Il est
important de developper des algorithmes incrementaux et des algorithmes qui ne sont pas sensibles `
a
lordre dentre.
certains algorithmes de clustering ne permettent pas dincorporer des donn
ees nouvellement
ins
er
ees (i.e., mise `
a jour des bases de donnees) dans des structures de clustering existant et, doivent
determiner un nouveau clustering `
a partir de z
ero.
Certains algorithmes de clustering sont sensibles `a lordre dentree des donnees. Cest-`a-dire, etant
donne un ensemble dobjets, de tels algorithmes peuvent retourner des clusterings radicalement
diff
erents d
ependant de lordre de pr
esentation des objets dentr
e.
7. Dimension
elev
e : une base de donnees ou un entrepot de donnees peuvent contenir plusieurs dimensions ou attributs. Beaucoup dalgorithmes de clustering sont bon dans le traitement des donnees
a faible dimension, impliquant deux a` trois dimensions. Trouver des clusters dobjets de donnees dans
`
un espace de dimension eleve est difficile, specialement si on consid`ere que ces donnees peuvent etre
clairsemees et hautement asymetriques.
8. Clustering bas
e sur des contraintes : les applications du monde reel peuvent necessiter de clustrer
sous des divers types de contraintes. Supposons que vous devez choisir des emplacements pour un
nombre donne de guichets automatiques de banque dans une ville. Pour decider sur cela, il faut clustrer
les menages en tenant compte des rivi`eres et du reseau autoroutier de la ville, et le type et le nombre
de clients par cluster. Une t
ache difficile consiste en lidentification de groupes de donnees qui forment
de bons clusters en respectant les contraintes specifiees. Lexemple ci-apr`es montre la prise en compte
de contraintes physiques (obstacles et ponts) dans le cadre dun Density-Based Clustering.
31

Lexemple ci-apr`es permet dabord dillustrer la decouverte de clusters avec des formes arbitraires :
les clusters nont pas une forme spherique. Cet exemple rentre dans la cadre de lapplication dun
algorithme de clustering hierarchique. Considerons maintenant la contrainte de connectivite suivante :
seul des clusters adjacents (sur la structure donnee `a priori) peuvent etre fusionner.
(a) Dans le cas de non prise en compte de la contraintes, les clusters sont construits seulement sur la
base de la distances entre les clusters de literation precedente.

32

(b) Dans le cas o`


u la contrainte est prise en compte, le resultat du clustering depend de la distances
entre les clusters de literation precedente dans le respect le contrainte.

9. Interpr
etabilit
e et utilisabilit
e : les utilisateurs attendent du clustering des resultats interpretables,
comprehensibles et utilisables. En effet, le clustering peut etre lie `a des interpretations et des applications
semantiques specifiques. Il est important detudier comment un objectif dapplication peut influencer
la selection des caracteristiques et methodes de clustering.

2.7

TP : m
ethode k-means sur des donn
ees de pluviom
etrie

Ce tp concerne lune des methodes de partitionnement en loccurrence la methode K-means. Il sera realise
avec un ensemble de donnees qui est un echantillon des donnees pluviales dans les regions du senegal (fichier
 exemple1.txt ).

33

Le code suivant permet detudier le fonctionnement du clustering avec la methode k means du package cluster.
En principe chaque appel de la methode k means realise des iterations et donne une solution. Les iterations
de la fonction kmeans netant pas affichees, nous allons utiliser une boucle qui permettra de simuler ces
iterations. Lidee est dutiliser un crit`ere de nombre diteration maximales pour forcer larret (parfois avant
la stabilisation des clusters qui est le crit`ere principal) `a chaque appel de la fonction.

34

Pour calculer la dissimilarite nous avons utilise la fonction  dist  de R qui permet de nous donner la
matrice de dissimilarite. Les solutions successives sont affichees la zone de dessin avec la fonction clusplot.

35

Le resultats des differents appels de la fonction data.frame est dajouter les correspondances obervationsclusters issues des differents solutions obetnues.

Expliquer la difference entre le code ci-dessous et le precedant.


36

Une convergence est notee dans le second cas, expliquer son origine en comparaison avec le resultat
precedant.

37

2.8

TP2 : m
ethode k-means sur des donn
ees de la base iris

Ce exercice part du meme principe que le second exemple du TP sur les donnees de pluviometrie. Il utilise
des donnees differentes cependant.

38

Expliquer la difference entre le code ci-dessous et le precedant.

39

Verifier que les deux versions de code donnent le meme resultat. Dire literation `a partir de laquelle la
convergence est obtenu.

40

2.9

Validation des clusters

Parmi les differents aspects qui sont pris en compte dans la validation de clusters, nous pouvons citer :
1. Comparer les resultats dune analyse de clusters `a des resultats externes connus (i.e. les labels -classesdonnees en externe)

Evaluation
de performance.

2. Evaluer dans quelle mesure les resultats dune analyse de clusters correspondent aux donnees sans
reference `
a de linformation externe
Utiliser uniquement les donnees
3. Comparer les resultats de de deux differentes analyses de clusters pour determiner la meilleur
Selectionner un bon algorithme pour un jeu de donnees.
4. Selectionner les valeurs de certains param`etres pour un algorithme de clustering :
Determiner le nombre correct de clusters
5. Selectionner une bonne mesure de distance pour des donnees [15]
En general, les indices de validite de clustering (cluster validity index) son definis par combinaison des
proprietes de compacite et de separation :
La compacite (compactness) mesure proximite des elements du cluster. Une mesure courante de compacite est la variance
La separation (separability) indique comment deux clusters sont distincts sont en calculant la distance
entre eux. La distance entre les objets representatifs de deux clusters en est un bon exemple.
Les categories dindices definies dans la litteratures sont les suivantes [21, 1]
les indices internes. Le premier type est base sur le calcul de proprietes de la une partition resultante
tels que la compacite ou la separation. Cette approche est appelee validation interne car elle ne necessite
pas des information additionnelles sur les donnees.
les indices relatifs. La seconde approche est basee sur des comparaisons de partitions generee par le
meme algorithme avec differents param`etres, ou differents sous-ensembles de donnees. Cette validation
relative est assimilable ou proche de la validation interne dans la mesure ou elle ninclut pas non plus
des information additionnelles sur les donnees [8, 1].

41

les indices externes. La troisi`eme approche est appelee validation externe et est basee sur la comparaison
de partitions, les partitions `
a comparer etant celle generee par lalgorithme de clustering et une partition
donnee des observations.

2.9.1

Les indices externes

Les indices de validation externes evaluent comment la partition (le clustering) obtenue est en adequation
avec la variable de classe des donnees. Parmi les indices externes, nous pouvons citer [21, 1] :
1. F-Measure
2. Purity
3. RAND statistics
4. Kullback-Leibler
5. Entropy
6. Nmimeasure
F-Measure
Considerons un ensemble dobjets D organise selon une classification C = {C1 , , Cl } et un clustering
C = {C1 , , Ck } des ces objets.

42

La F-mesure Fi,j dun clsuter j est calcule par rapport `a la classe i en utilisant :
C C
le rappel (recall) de clsuter j par rapport `a la classe jC i
i

le rappel cluster j classe i ci-dessous est de 10


10
la precision (precision) du clsuter j par rapport `a la classe
la precision cluster j classe i ci-dessous est de 10
14

Cj Ci
Cj

Fi,j mesure la qualite de lu cluster j dans la description de la classe naturelle i [10]. La formule de calcul
de la F-mesure est la suivante [10, 1] :
F =

1+

+ recall

1
precision

(2.25)

La valeur attribue `
a permet
1. soit dequilibrer les poids du rappel et de la precision ( = 1)
2. soit de favoriser la precision par rapport au rappel precision (0  1)
3. soit de favoriser le rappel par rapport `a la precision (  1)
La qualite du clustering resultant C est calcule soit par la micro-moyenne [1] ou la macro-moyenne [10, 1].
La micro-moyenne F-mesure de hD, C, C i [1, 4, 10]
F =

l
X
|Ci |
. max {Fi,j }
|D| j=1, ,k
i=1

(2.26)

La micro-moyenne est la somme ponderee des maximum Fi,j pour chaque classe [4, 10]. Selon , la micromoyenne est toujours comprise entre 0 et 1. Une valeur plus elevee de cet mesure indique une similarite
plus importante entre deux clustering, celui genere `a partir des lechantillon de donnees (1) et les donnees
masquees (2) (i.e. une meilleur prservation de la qualite du clustering) [4].

43

La micro-moyenne est domin


ee par les classes de grandes tailles.Pour avoir une idee de leffet des
classes de petites tailles, la macro-moyenne peut etre utilisee [5]. La macro-moyenne F-mesure de hD, C, C i
donne une poids identique aux differentes classes [1]
F =

2.9.2

l
1X
max {Fi,j }
l i = 1 j=1, ,k

(2.27)

Les indices internes (Projet 2015)

Silhouette width
La silhouette width est la moyenne des valeurs silhouette pour les observations. La valeur silhouette mesure
le degre de confiance dans laffectation une observation specifique lors dun clustering. Les observations bien
clustrees vont avoir une valeur proche de 1, et celles mal clustrees vont avoir une valeur proche de -1. Pour
une observation, valeur silhouette est definie comme :

Ou ai est la distance moyenne entre i et les observations du meme cluster.


et bi est la distance moyenne entre i et les observations du cluster voisin le plus proche.

C(i) est le cluster contenant lobservation i


dist(i ; j) est la distance(e.g. Euclidean, Manhattan) entre les observations i et j,
et n(C) est la cardinalite du cluster C.
La silhouette width est donc comprise dans lintervalle [-1 ; 1], et doit etre maximisee.
Dunn index
Lindex Dunn est un rapport entre la plus petite distance entre deux observations netant pas dans le
meme cluster et la distance intra-cluster la plus grande. Il est calcule comme suit :

diam(Cm) est la distance maximale entre les observations du cluster Cm.


lindex Dunn a une valeur comprise entre 0 et 1.
il doit etre maximise

44

2.9.3

Les indices relatifs

45

2.9.4

Les indices relatifs (Projet)

Dans le cadre de ce projet, il est demande de presenter les elements suivants :


1. Decrire le fonctionnement general des indices relatifs.
2. Donner les elements generaux de comparaison avec les autres categories dindices.
3. Lister quelques indices relatifs.
4. Choisir un indice relatif que vous presentez plus en details.

46

Bibliographie
[1] Cluster Evaluation.
[2] Applied Multilevel Analysis. TT Publikaties, Amsterdam, 1995.
[3] Missing Data : A Gentle Introduction. The Guilford Press, 2007.
[4] Introduction to Privacy-Preserving Data Publishing Concepts and Techniques. Chapman and Hall-CRC,
2010.
[5] Current Challenges in Patent Information Retrieval, chapter Phrase-Based Document Categorization.
Springer-Verlag, 2011.
[6] Richard Adderley, Michael Townsley, and John Bond. Use of data mining techniques to model crime
scene investigator performance. Knowl.-Based Syst., 2007.
[7] P. Adriaans and D. Zantinge. Data mining. Addison-Wesley, 1996.
[8] Marcel Brun, Chao Sima, Jianping Hua, James Lowey, Brent Carroll, Edward Suh, and Edward R.
Dougherty. Model-based evaluation of clustering validation measures. Pattern Recognitio, 2007.
[9] Pete Chapman and Julian Clinton. Crisp-dm 1.0. Technical report, SPSS Inc, 2000.
[10] Benjamin C.M. Fung, Ke Wang, and Martin Ester. Hierarchical document clustering using frequent
itemsets. In SIAM INTERNATIONAL CONFERENCE ON DATA MINING 2003 (SDM 2003).
[11] Swapna Gokhale and Michael R. Lyu. Regression tree modeling for the prediction of software quality.
In In Proc. of ISSAT97, 1997.
[12] Jiawei Han and Micheline Kamber. Data Mining : Concepts and Techniques. Morgan Kaufmann Series
in Data Management Systems, 2005.
[13] Robert L. Harris. Information Graphics : A Comprehensive Illustrated Reference. Oxford University
Press, 1999.
[14] Eric W. Holman. Evolutionary and psychological effects in pre-evolutionary classifications. Journal of
Classification, 2(1) :2939, 1985.
[15] Pablo A Jaskowiak, Ricardo JGB Campello, and Ivan G Costa. On the selection of appropriate distances
for gene expression data clustering. In The Twelfth Asia Pacific Bioinformatics Conference.
[16] Leonard Kaufman and Peter J. Rousseeuw. Finding Groups in Data : An Introduction to Cluster
Analysis. Wiley Series in Probability and Statistics Series, 1990.
[17] V. Milutinovic and F. Patricell. E-Business and E-Challenges. IOS Press, 2002.
[18] Djasrabe NAGUINGAR. Amelioration du processus de fouille de donnees par lingenierie logicielle.
CHEIKH ANTA DIOP, 2013.
Masters thesis, UNIVERSITE

47

[19] Oumy Niass, Aissatou Toure, Abdou Ka Diongue, and Dabye Aly Souleymane. Gestion des donnees
manquantes dans les etudes sero-epidemiologiques. In conference internationale Statistique appliquee
pour le developpement en Afrique (SADA13).
[20] Stephane Paquin. Comparaison de quatre methodes pour le traitement des donnees manquantes au sein
dun mod`ele multiniveau parametrique visant lestimation de leffet dune intervention. Masters thesis,
Universite de Montreal, 2010.
[21] Erendira Rendon, Itzel Abundez, Alejandra Arizmendi, and Elvia M. Quiroz. Internal versus external
cluster validation indexes. International Journal of Computer and Communication, 2011.
[22] S. Tuffery. Data mining et statistique decisionnelle : lintelligence des donnees. Editions Ophrys, 2007.
[23] Jeffrey T. Walker. Statistics In Criminal Justice : Analysis and Interpretation. Aspen Publishers, Inc.,
1999.

48