Descriptive S

Stphane Tuffry
DATA MINING
& STATISTIQUE DCISIONNELLE
04/04/2008
Stphane Tuffry - Data Mining - http://data.mining.free.fr
Plan du cours
Quest-ce que le data mining ? A quoi sert le data mining ? Les 2 grandes familles de techniques Le droulement dun projet de data mining Cots et gains du data mining Facteurs de succs - Erreurs - Consulting Lanalyse et la prparation des donnes Techniques descriptives de data mining Techniques prdictives de data mining Logiciels de statistique et de data mining Informatique dcisionnelle et de gestion CNIL et limites lgales du data mining Le text mining Le web mining
04/04/2008 Stphane Tuffry - Data Mining - http://data.mining.free.fr 2
Techniques descriptives
04/04/2008
10% 20% 30% 40% 50% 60%
0%
04/04/2008
Decision Trees Clustering Statistics Neural nets Regression Visualization Assocation rules Nearest neighbor Bayesian Sequence / time series analysis SVM Hybrid methods Genetic algorithms Boosting Bagging Other
Sondages sur www.kdnuggets.com
Stphane Tuffry - Data Mining - http://data.mining.free.fr 4
avril 2006 en % des votants
novembre 2003 en % des votants
Les techniques descriptives
Rappel : Les techniques descriptives :

visent mettre en vidence des informations prsentes mais caches par le volume des donnes il ny a pas de variable cible prdire
Analyse factorielle
Projection du nuage de points sur un espace de dimension infrieure pour obtenir une visualisation de lensemble des liaisons entre variables tout en minimisant la perte dinformation
Classification
Dtection dassociations entre des objets

04/04/2008
Trouver dans lespace de travail des groupes homognes dindividus ou de variables
Les 2 principales familles de mthodes descriptives
carte de Kohonen Source : Lebart-Morineau-Piron, Statistique exploratoire multidimensionnelle, page 10 04/04/2008 Stphane Tuffry - Data Mining - http://data.mining.free.fr 6
Techniques descriptives de data mining :
La classification
04/04/2008
Quest-ce que la classification ?
Regrouper des objets en groupes, ou classes, ou familles,

ou segments, ou clusters, de sorte que :
Mthode descriptive : Utilisation en marketing, mdecine, sciences humaines Les objets classer sont :

des individus des variables
2 objets dun mme groupe se ressemblent le + possible 2 objets de groupes distincts diffrent le + possible le nombre des groupes est parfois fix pas de variable cible privilgie dcrire de faon simple une ralit complexe en la rsumant
04/04/2008
Complexit du problme !
Le nombre de partitions (non recouvrantes) de n objets est

le nombre de Bell :
1 kn Bn = e k =1 k! Exemple : pour n = 4 objets, on a Bn = 15, avec
1 partition 1 classe (abcd) 7 partitions 2 classes (ab,cd), (ac,bd), (ad,bc), (a,bcd), (b,acd), (c,bad), (d,abc) 6 partitions 3 classes (a,b,cd), (a,c,bd), (a,d,bc), (b,c,ad), (b,d,ac), (c,d,ab) 1 partition 4 classes (a,b,c,d)
Exemple : pour n = 30 objets, on a B30 = 8,47.1023 Bn > exp(n) Ncessit de dfinir des critres de bonne
classification et davoir des algorithmes performants
La classification
nb de produits
ge
revenus
04/04/2008
10
Terminologie : de nombreux synonymes
Classification, ou classification automatique, terme

gnralement employ par les auteurs franais
attention : il est employ dans un autre sens par les anglosaxons (qui disent classification pour dsigner la technique prdictive que les franais appellent classement )
Segmentation : terme employ en marketing (les

segments de clientle ) et assez explicite Typologie, ou analyse typologique Clustering : terme anglo-saxon le plus courant Taxinomie ou taxonomie (biologie, zoologie) Nosologie (mdecine) Reconnaissance de forme non supervise ...
04/04/2008
Structure des donnes classer
Soit une matrice rectangulaire dont : Cette structure permet de classer individus ou variables Soit une matrice carre de similarits, distances entre : Cette structure permet aussi de classer individus ou
variables
lignes = individus colonnes = variables
individus ou variables (par exemple : la matrice des corrlations)
04/04/2008
12
Structure des classes obtenues
Soit
2 classes sont toujours disjointes : mthodes de partitionnement : gnralement, le nombre de classes est dfini a priori
certaines mthodes permettent de saffranchir de cette contrainte (analyse relationnelle, mthodes paramtriques par estimation de densit comme la proc SAS/MODECLUS)
Soit

2 classes sont disjointes ou lune contient lautre : mthodes hirarchiques :

ascendantes (agglomratives : agglomration progressive dlments 2 2) descendantes (divisives)
Soit 2 classes peuvent avoir plusieurs objets en commun

(classes empitantes ou recouvrantes ) :
analyse floue , o chaque objet a une certaine probabilit dappartenir une classe donne
Stphane Tuffry - Data Mining - http://data.mining.free.fr 13 04/04/2008
Les diffrentes mthodes
Mthodes hirarchiques

ascendantes (agglomratives)
bases sur une notion de distance ou de densit
descendantes (divisives) centres mobiles, k-means et nues dynamiques k-modes, k-prototypes, k-reprsentants (k-medoids) rseaux de Kohonen mthodes bases sur une notion de densit mthode de Condorcet (analyse relationnelle)
Mthodes de partitionnement
Mthodes mixtes Analyse floue (fuzzy clustering)

Applications de la classification
Marketing
: dcouper la clientle en segments dots chacun dune offre et dune communication spcifique Commercial : rpartir lensemble des magasins dune enseigne en tablissements homognes du point de vue type de clientle, CA, CA par rayon (selon type darticle), taille du magasin Mdical : dterminer des groupes de patients susceptibles dtre soumis des protocoles thrapeutiques dtermins, chaque groupe regroupant tous les patients ragissant identiquement Sociologie : dcouper la population en groupes homognes du point de vue sociodmographique, style de vie, opinions, attentes
04/04/2008
Classification gnrale de la clientle
Dtection des profils :

clients clients clients clients clients dont on est la 2de banque avec faibles encours mais 1re banque chez nous tendance pargne tendance crdit consommation tendance crdit habitat
Utilisation pour :
les ciblages des actions commerciales lvaluation du potentiel commercial laffectation des clients aux diffrents types de commerciaux
04/04/2008
16
Reprsentation des classes

10
patrimoine - ge
5 P C R 2 0
-5 crdit conso - CB
10
faibles revenus
PCR1
forts revenus
S1 : rouge S2 : vert S3 : rose

04/04/2008
S4 : orange S5 : bleu S6 : noir

17
Interprtation des classes
Statistiques descriptives des classes (comparaison des

moyenne ou des modalits par un test statistique)
Analyse factorielle reprsentant les classes obtenues et les

variables initiales
Arbre de dcision avec la classe obtenue comme variable

cible
Classification des variables : variables initiales +

indicatrices des classes obtenues
04/04/2008
18
Reprsentation des classes

Noeud 1 Catgorie % n 6 100,00 64771 2 0,00 0 3 0,00 0 4 0,00 0 1 0,00 0 5 0,00 0 Total (38,51) 64771 Noeud 2 Catgorie % 6 6,58 2 19,19 3 17,94 4 11,37 1 32,88 5 12,04 Total (61,49) n 6806 19848 18560 11766 34011 12450 103441
Noeud 0 Catgorie % 6 42,55 2 11,80 3 11,03 4 6,99 1 20,22 5 7,40 Total (100,00)
n 71577 19848 18560 11766 34011 12450 168212
Identification des classes par un arbre de dcision
Noeud 3 Catgorie % n 6 5,02 1734 2 0,16 54 3 0,01 3 4 0,37 127 1 94,19 32563 5 0,27 92 Total (20,55) 34573
n 5072 19794 18557 11639 1448 12358 68868
04/04/2008
n 1139 1 0 6033 0 0 7173
19
Techniques de classification :
La classification dindividus
04/04/2008
20
Intrt de la classification pour la prdiction
Classification
Homognit des groupes dindividus Moins de variables discriminantes (ventuellement, valeurs manquantes compltes) + grande fiabilit des prdictions
04/04/2008
21
Critres de bon algorithme
Dtecter les structures prsentes dans les donnes Permettre de dterminer le nombre optimal de classes Fournir des classes bien diffrencies Fournir des classes stables vis--vis de lgres
modifications des donnes Traiter efficacement les grands volumes de donnes Traiter tous les types de variables (quantitatives et qualitatives)
Mais
Ce point est rarement obtenu sans transformation
pas de critre universel de qualit semblable laire sous la courbe ROC des mthodes de scoring
de nombreuses techniques existent
04/04/2008
22
Classification avec des variables continues
Il
faut choisir une distance entre individus, le plus souvent la distance euclidienne de standardiser les variables si elles ne sont pas toutes mesures dans la mme unit et ont des moyennes ou des variances dissemblables
Ncessit
Prfrable disoler les outliers (individus hors-norme)

Voir exemple plus loin des 2 ellipses avec CAH single linkage
Quand on a des variables qualitatives se ramener

une classification de variables continues par une ACM
Inertie dun nuage dindividus
Inertie totale ITOT de la population : moyenne (pondre

par le poids de chaque individu gnralement 1/effectif) des carrs des distances des individus au barycentre Inertie intraclasse IA : somme des inerties totales de chaque classe Inertie interclasse IR : moyenne (pondre par la somme des poids de chaque classe) des carrs des distances des barycentres de chaque classe au barycentre global Formule de Huygens : ITOT = IA + IR
2
2 pi ( xi x ) = pi ( xi x j ) + iI jclasses iI j
04/04/2008
2 pi (x j x ) jclasses iI j
24
Inertie et qualit dune classification
Une classe est homogne son inertie est faible Deux critres de bonne classification : grande IR, petite IA Ces deux critres sont quivalents daprs la formule de
Huygens : ITOT = IA + IR
inertie totale
inertie interclasse + inertie intraclasse
04/04/2008
25
Mesures de qualit dune classification
R = proportion de la variance explique par les classes

rapport IR / ITOT tre le plus proche possible de 1 sans avoir trop de classes sarrter aprs le dernier saut important
R -S qua r ed 1. 0 0. 9 0. 8 0. 7 0. 6 0. 5
4 classes
0. 4
0. 3
0. 2
0. 1
0. 0 1 2 3 4 5 N um ber of C l ust er s 6 7 8 9
Pseudo F = mesure la sparation entre toutes les classes

rechercher une grande valeur avec n = nb dobservations et c = nb de classes on a pseudo F =
R c 1 1 R nc
26
04/04/2008
Mesures de qualit dune classification
Cubic clustering criterion (CCC)

> 2 : bonne classification entre 0 et 2 : classification peut-tre OK mais vrifier < 0 : prsence doutliers gnants (surtout si CCC < - 30)
un creux pour k classes suivi dun pic pour k+1 classes indique une bonne classification en k+1 classes (surtout si on
a une ou une douce partir de k+2 classes)
C u bi c C l ust er i ng C ri t e r i on 5 4 3 2 1 0 -1 -2 -3 -4 -5 -6 -7 -8 -9 1 2 3 4 5 6 7 8 9
4 classes
N um be r of C lu st ers
Ne pas utiliser CCC et pseudo F avec single linkage

Mesures de qualit dune CAH
semi-partiel (SPRSQ) = mesure la perte dinertie interclasse provoque en regroupant 2 classes

le but tant davoir une inertie interclasse maximum, on recherche un faible SPRSQ suivi dun fort SPRSQ lagrgation suivante un pic pour k classes et un creux pour k+1 classes indique une bonne classification en k+1 classes
S e m i -P ar t i al R -S qu ar ed 0. 35 0. 34 0. 33 0. 32 0. 31 0. 30 0. 29 0. 28 0. 27 0. 26 0. 25 0. 24 0. 23 0. 22 0. 21 0. 20 0. 19 0. 18 0. 17 0. 16 0. 15 0. 14 0. 13 0. 12 0. 11 0. 10 0. 09 0. 08 0. 07 0. 06 0. 05 0. 04 0. 03 0. 02 0. 01
4 classes
N um ber of C l ust er s
04/04/2008
28
Classification ascendante hirarchique
Utilisables ds que lon dispose dune distance : dans un espace des individus ou des variables Schma de lalgorithme :
1) les classes initiales sont les observations 2) on calcule les distances entre classes 3) les 2 classes les plus proches sont 4)
fusionnes et
remplaces par une seule on reprend en 2) jusqu navoir plus quune seule classe, qui contient toutes les observations le niveau o lon coupe larbre dtermine le nb de classes la hauteur dune branche est proportionnelle la perte dinertie interclasse (R semi-partiel)
Rsultat sous forme dun arbre appel dendrogramme :

04/04/2008
Classification ascendante hirarchique
couper ici avant une forte perte dinertie interclasse en passant de 4 3 classes
04/04/2008
30
Les diffrentes distances utilises 1/3
Distance minimale entre 2 observations a A et b B

sait dtecter les classes allonges/irrgulires voire sinueuses sensible leffet de chane : 2 classes bien distinctes mais relies par une srie de points isols vont se retrouver regroupes moins adapte pour dtecter les classes sphriques bonnes proprits thoriques frquemment utilise saut minimum ou single linkage
04/04/2008
31
Distance maximale entre 2 observations a A et b B

tend produire des classes de diamtres gaux trs sensible aux outliers ! peu utilise saut maximum ou critre du diamtre ou complete linkage intermdiaire entre saut minimum et saut maximum tend produire des classes de variances gales saut moyen ou average linkage plus simple calculer mais moins prcise distance des barycentres ou centroid method
Distance moyenne entre 2 observations a A et b B
Distance entre les barycentres ( centrodes ) de A et B
04/04/2008
Critre de Ward (baisse dinertie interclasse rsultant de la fusion des 2 classes) correspond lobjectif davoir la plus forte inertie interclasse possible avoir la plus faible baisse dinertie en fusionnant 2 classes la distance de 2 classes A et B, de barycentres a et b, et deffectifs nA et nB, vaut :
d (a, b) d ( A, B) = 1 1 + n A nB
cest une fonction de la distance des barycentres tend produire des classes sphriques et de mmes effectifs
peu efficace sur les classes allonges trs sensible aux outliers mthode la plus utilise (fonctionne bien sur les pbs rels)
04/04/2008
Influence du choix de la distance

A B A B
D C D
distance minimale(A,B) = distance minimale(C,D) = 3 distance minimale(A,C) = distance minimale(B,D) = 4 distance minimale(A,D) = distance minimale(B,C) = 5
distance maximale(A,B) = distance maximale(C,D) = 7 distance maximale(A,C) = distance maximale(B,D) = 4,4 distance maximale(A,D) = distance maximale(B,C) = 8,0 34
04/04/2008
Effet de chane
04/04/2008
35
Illustration de la CAH
04/04/2008
36
Illustration de la CAH (autre cas)
04/04/2008
37
Avantages de la CAH
Permet
de classer : des individus, des variables, des moyennes de classes obtenues en sortie dun algorithme des centres mobiles
si on classe des moyennes, on amliore les rsultats si on connat non seulement les moyennes des classes, mais aussi les inerties intraclasses et les effectifs des classes
Sadapte aux diverses formes de classes, par le choix de

la distance Permet de choisir le nombre de classes de faon optimale, grce des indicateurs de qualit de la classification en fonction du nombre de classes
R semi-partiel et pseudo t
04/04/2008
38
Mthode des centres mobiles
1) On choisit k individus comme centres initiaux des
classes 2) On calcule les distances entre chaque individu et chaque centre ci de ltape prcdente, et on affecte chaque individu au centre le plus proche, ce qui dfinit k classes 3) On remplace les k centres ci par les barycentres des k classes dfinies ltape 2 4) On regarde si les centres sont rests suffisamment stables ou si un nombre fix ditrations a t atteint :
si oui, on arrte (en gnral, aprs au moins une dizaine ditrations) si non, on revient ltape 2
04/04/2008
39
Centres mobiles : illustration
Source : Ludovic Lebart Analyse des donnes applique - 2002
04/04/2008
40
Variantes
k-means

le barycentre de chaque groupe est recalcul chaque nouvel individu introduit dans le groupe, au lieu dattendre laffectation de tous les individus la convergence est parfois possible en une seule itration plus grande rapidit les rsultats risquent de dpendre de lordre du fichier ! chaque classe nest plus reprsente par son barycentre (ventuellement extrieur la population), mais par un sous-ensemble de la classe, appel noyau, qui, sil est bien compos (des individus les plus centraux, par exemple), sera plus reprsentatif de la classe que son barycentre
Nues dynamiques
04/04/2008
Avantages des centres mobiles
Rapidit (complexit en n) SAS permet de dtecter les outliers et de les isoler ou non

les outliers sont des classes rduites un lment on peut les supprimer de lensemble des centres initiaux et utiliser une option ( strict=s dans la proc FASTCLUS de SAS) qui attribue le n de classe k toute observation plus proche de la ke classe que des autres, mais spare de cette classe par une distance suprieure au seuil s indiqu
choix du seuil en regardant les rayons (_radius_) des classes deffectifs levs et en choisissant s lgrement suprieur
on ne compare pas toutes les observations entre elles mais par rapport aux centres de classes
04/04/2008
42
Inconvnients de ces techniques
Centres mobiles :

obligation de fixer a priori le nombre de classes
possibilit de saider dune ACP
dpendance au choix des centres initiaux ne dtecte bien que les formes convexes
surtout sphriques de mme taille
Classification ascendante hirarchique :

complexit algorithmique non linaire (en n2 ou n3, parfois n2log(n))
lalgorithme des voisins rciproques permet de passer de n3 en n2, en regroupant judicieusement plus de 2 observations pas seulement les 2 plus proches chaque itration
2 observations places dans des classes diffrentes ne sont jamais plus compares
pas doptimisation globale mme dfaut que les arbres de dcision
04/04/2008
Influence du choix des centres initiaux
04/04/2008
44
CAH versus nues dynamiques 1/2
04/04/2008
45
CAH versus nues dynamiques 2/2
04/04/2008
46
Mthodes mixtes
Combiner les avantages de CAH et des k-means

effectuer une 1re classification sur les n observations par les centres mobiles ou les k-means, en fixant le nombre de classes entre 10 et 100 (ou limite de Wong : n0,3) valeur assez grande pour limiter le risque de fusion de classes naturelles puis effectuer la CAH sur les centres de ces pr-classes la mthode par estimation de densit de Wong est obligatoirement prcde dune procdure k-means
les autres mthodes par estim. de densit ne sont pas mixtes
Exemples
les CAH Ward ou average linkage ou centroid peuvent tre prcdes dune procdure k-means algorithme BIRCH (= 2-step cluster component dans SPSS)
04/04/2008
Mthodes mixtes avec SAS 1/12 :

premire phase de standardisation
Standardiser les variables :

proc standard data=dbscan out=test mean=0 std=1; var &var; run; Cette tape est vivement recommande si les variables ont des variances sensiblement ingales
une ACM si les variables sont qualitatives et non quantitatives
Utiliser
04/04/2008
48
Mthodes mixtes avec SAS 2/12
Lancer une procdure des centres mobiles pour obtenir :

(au +) maxc (ici 10) classes, dont le no est dans cluster en (au +) maxiter (ici 50) itrations (sauf si convergence avant)
valeur par dfaut = 1 valeur conseille 10 valeur = 0 chaque individu est directement affect lun des centres initiaux et on obtient aussitt les classes finales
converge=0.02 les itrations sarrtent quand plus aucun centre ne se dplace dune distance > 0.02
option sans objet si maxiter 1
chaque individu est affect dans le fichier OUT une classe ces (ici 10) classes sont dcrites dans le fichier MEAN delete=2 supprime les centres avec 2 individus rattachs (pour viter davoir pour centre un outlier )
04/04/2008

requte pour les centres mobiles
Code SAS :
proc Autres options :
fastclus data=test summary maxc=10 maxiter=50 converge=0.02 mean=centres out=presegm cluster=presegm delete=2; limite les statistiques affiches var &var; run;
(autre option : short )
drift : pour remplacer la mthode des centres mobiles par celle des k-means (convergence plus rapide) radius=d : spcifie la distance minimale entre 2 centres initiaux (= 0 par dfaut) replace=none : acclre la phase de slection des centres initiaux en empchant les substitutions des centres les plus proches (choisir alors radius assez grand) mieux vaut laisser loption par dfaut replace=full
04/04/2008

donnes crites en sortie
Une ligne par classe
Le fichier MEAN contient des infos sur les classes :

Obs 1 2 presegm
1 2
_FREQ_
21 31
_RMSSTD_
0.26371 0.22412
_RADIUS_
0.62286 0.45198
_NEAR_
7 6
_GAP_
0.90908 1.23883
X
-0.03354 1.25483
Y
-0.78624 1.60977
Une ligne par individu
_FREQ_ : effectif de la classe donnes utilises par la CAH ultrieure _RMSSTD_ : inertie intra-classe _NEAR_ : no de la classe la + proche _GAP_ : distance entre le centre et lautre centre le + proche _RADIUS_ : distance max entre 1 individu et son centre X, Y : coordonnes du centre de la classe Le fichier OUT contient les var. initiales + les variables : CLUSTER = presegm : no de la classe DISTANCE : sparant lindividu du centre de sa classe
Obs 1 X
-1.92073 -1.88339
Y
-1.49419 -1.36798
N
1 1
presegm
9 9
DISTANCE
0.38436 0.33055
04/04/2008
51

qualit de la classification
Vrifier que R >> 0 et CCC > 2 Exemple :

Pseudo F Statistic =
401.74
0.94535
Observed Over-All R-Squared =
Approximate Expected Over-All R-Squared =
0.90858
calcul en supposant les variables non corrles non calcul si le nb de classes > 20 % du nb dobservations
Cubic Clustering Criterion =
8.533
calcul en supposant les variables non corrles
Maximiser ces valeurs en testant diffrentes valeurs du nb

de classes
04/04/2008
52

FASTCLUS en 2 temps pour liminer des outliers
Premire FASTCLUS pour crer un fichier de centres

proc fastclus data=test summary maxc=10 maxiter=50
Suppression des centres nayant au plus que 2 individus data centres;set centres;where _freq_ > 2;run; Nouvelle FASTCLUS sur le fichier des centres purs avec option strict=0.6 pour carter les individus loigns dune distance > 0.6 de toute classe proc fastclus data=test seed=centres summary
maxc=10 maxiter=50 converge=0.02 strict=0.6 mean=centres2 out=presegm cluster=presegm ; var &var;run;
102 103
-0.59774 -0.80046 -1.05012 -0.97533 4 4 -1 -3 0.65400 0.64009
converge=0.02 outseed=centres delete=2; var &var; run;
04/04/2008
53

visualisation des classes
Plot of _GAP_*_FREQ_. Plot of _RADIUS_*_FREQ_. Symbol used is 'G'. Symbol used is 'R'. 1.4 D i s t a n 1.2 c e t o 1.0 N e a r e s 0.8 t C l u s 0.6 t e r proc gplot data=centres; plot _gap_*_freq_='G' _radius_*_freq_='R' / overlay; run; G G G G G G G G G G R R R R R R fixer strict proche des _radius_ des grands clusters R R R R 18 19 20 21 22 23 24 25 26 27 28 29 30 31 Frequency of Mining Cluster - http://data.mining.free.fr Stphane Tuffry - Data
0.4
04/04/2008
54

classification ascendante hirarchique
CAH
par la mthode de Ward applique aux centres en sortie de la procdure FASTCLUS : proc cluster data=centres outtree=tree
CAH par la mthode de Wong applique aux centres en sortie de la procdure FASTCLUS : proc cluster data=centres outtree=tree
method=density hybrid ccc pseudo print=10 proc cluster data=centres outtree=tree method=twostage hybrid ccc pseudo print=10
method=ward ccc pseudo print=10; var &var; pour recopier la variable presegm copy presegm; dans le fichier OUTTREE run;
Structure hirarchique dcrite dans le fichier OUTTREE


historique des dernires fusions de classes
Cluster History T i e
NCL 9 8 7 6 5 4 3 2 1
Clusters Joined
OB6 OB8
FREQ
37
SPRSQ
0.0160
RSQ
.931
ERSQ
.906
CCC
5.04
PSF
350
PST2
51.2
CL9
OB7
56
0.0181
.913
.893
3.38
312
31.2
ex aequo
OB1
OB5
43
0.0198
.893
.877
2.41
292
69.4
OB3
OB10
38
0.0199
.873
.855
2.37
290
62.0
CL7
OB4
65
0.0315
.842
.824
1.95
281
56.3
CL6
CL8
94
0.0739
.768
.778
-.88
235
84.1
CL5
CL4
159
0.1980
.570
.700
-8.2
142
140
CL3
OB9
186
0.2255
.344
.530
-7.4
113
98.0
CL2
OB2
217
0.3442
.000
.000
0.00
113
04/04/2008
56

fichier OUTTREE et dendrogramme
Obs 1 2 3 _NAME_
OB6 OB8 CL9
_PARENT_
CL9 CL9 CL8
_NCL_
10 10 9
_FREQ_
19 18 37
_HEIGHT_
0.00000 0.00000 0.01599
_RMSSTD_
0.26769 0.25155 0.40234
_SPRSQ_
0.00000 0.00000 0.01599
_RSQ_
0.94681 0.94681 0.93081
_PSF_
. . 349.798
_PST2_
. . 51.224
_ERSQ_
. . 0.90621
CL3
couper ici avant une forte perte dinertie interclasse (SPRSQ)
CL4 CL5 CL6 CL8
04/04/2008
57

choix du nombre de classes
Les classes sont notes CLn sauf les singletons nots OBn FREQ : nb dindividus dans la nouvelle classe SPRSQ (R semi-partiel = perte dinertie interclasse) PST2 (pseudo t)

un pic pour k classes et un creux pour k+1 classes indique que la classification en k+1 classes est bonne le R doit sapprocher de 1 viter CCC << 0 (prsence doutliers) rechercher une grande valeur
RSQ (proportion de la variance explique par les classes) CCC (cubic clustering criterion) PSF (pseudo F)
04/04/2008
les petites classes isoles expliquent ici un CCC lgrement ngatif

fin de la requte
La proc TREE sert :

proc tree data=tree ncl=4 out=segmhier; copy presegm;run; horizontal
afficher le dendrogramme (dans le sens ou |) crer un fichier OUT contenant le no (CLUSTER) et le nom (CLUSNAME) de la classe de chaque individu (not OBn)
pour la classification ayant le nb de classes spcifi par NCL
Il ne reste plus qu croiser :

le fichier PRESEGM contenant la pr-classe PRESEGM de chaque individu le fichier SEGMHIER contenant la classe dfinitive CLUSTER de chaque pr-classe
data segm; merge presegm segmhier; by presegm; run;

Les mthodes non paramtriques en CAH (estimation de densit)
3 tapes :
estimation de la densit selon une certaine mthode :

plus proches voisins (la densit en un point x = nb dobservations dans une sphre centre sur x, divis par le volume de la sphre) mthode des noyaux uniformes mthode hybride de Wong (utilise les k-means dans une analyse prliminaire)
La densit de probabilit est un paysage vallonn dont les
on dfinit une distance dP entre 2 classes comme inversement proportionnelle la densit au milieu de ces 2 classes (ou dP = si les 2 classes sont non adjacentes) CAH selon la mthode du saut minimum applique dP
montagnes sont les classes et les fonds des valles sont les frontires Stphane Tuffry - Data Mining - http://data.mining.free.fr 04/04/2008 60
Mthodes par estimation de densit
Principe
: une classe est une rgion entourant un maximum local de la fonction de densit de probabilit Dtecte bien tous les types de classes, en particulier les classes de formes irrgulires et de tailles et de variances ingales Mieux vaut standardiser les variables continues et carter les outliers Rclame des effectifs suffisamment importants On ne fixe pas le nb de classes, mais un paramtre de lissage ( smoothing parameter ) qui est :
le nombre k de voisins de chaque point x ou le rayon r de la sphre entourant x ou le nb de classes des k-means prliminaires (Wong)
04/04/2008
Estimation de densit avec SAS
Hormis
la mthode de Wong, aucune mthode par estimation de densit nest prcde de FASTCLUS Exemple de classification par les 5 plus proches voisins :
proc proc
cluster data=test outtree=tree method=density k=5 ccc pseudo print=10; var &var;run; tree data=tree ncl=4 out=segmhier;run;
Variante empchant la fusion des grosses classes avant

que les petites classes naient fusionn avec les grosses
appele algorithme two stage proc cluster data=test outtree=tree

method=two k=5 ccc pseudo print=10;
Comparaison des mthodes avec k = 10

mthode density mthode twostage
Remarque : avec k = 5, les 2 mthodes dcouvrent les bonnes classes

Efficacit des mthodes par estimation de densit 1/3
04/04/2008
Seules les mthodes par estimation de densit dtectent ces classes. Wong et les + proches voisins donnent les mmes rsultats (avec 10 classes prliminaires ou 10 voisins)
64
04/04/2008
Seules les mthodes Ward et par estimation de densit dtectent ces classes. Ward, Wong et les + proches voisins donnent les mmes rsultats (avec 10 classes prliminaires ou 10 voisins)
65
Seules les mthodes single linkage et par estimation de densit dtectent ces classes. Single linkage, Wong et les + proches voisins donnent les mmes rsultats (avec 10 classes prlim. ou 10 voisins)
Importance du paramtre de lissage
04/04/2008
67
Comparaison de mthodes par densit

(single linkage est la seule autre mthode efficace ici)
04/04/2008
68
Comparaison de mthodes par densit

(single linkage est la seule autre mthode efficace ici)
04/04/2008
69
Le rseau de Kohonen
Les nuds de la couche dentre

couche de sortie
correspondent aux variables de classification et servent prsenter les individus
pijk
Les nuds de la couche de sortie

individu 1
sont disposs sur une grille
individu 2
La forme et la taille (par ex :

couche dentre
individu N
rectangulaire de taille lxm) de la grille sont gnralement choisies par lutilisateur mais peuvent aussi voluer au cours de lapprentissage
Le + utilis des rseaux de Chaque nud dentre est neurones apprentissage connect tous les nuds de non supervis sortie, avec une pondration pijk
Activation dun nud

un individu (xk)k[1,n] est la distance euclidienne :
couche de sortie
La rponse dun nud (i,j)

dij (x ) = (xk pijk )
n 2
pijk
Le nud retenu pour

individu 1 individu 2
k =1
reprsenter (xk) est le nud pour lequel dij(x) est minimum
(i,j)
couche dentre
individu N
et tous les nuds voisins (I,J) voient leurs poids ajusts pIJk + .f(i,j;I,J).(xk pIJk) pour les rapprocher de (xk)
distance entre (i,j) et (I,J) f(i,j;i,j) = 1
Initialisation alatoire des

poids pijk
04/04/2008
= taux dapprentissage f(i,j;I,J) = fct dcroissante de la

71
Apprentissage du rseau
Pour chaque individu, un seul

(i-1,j+1) (i,j+1) (i+1,j+1)
nud de sortie est activ ( le gagnant )
Le gagnant et ses voisins

voient leurs poids ajusts
(i-1,j)
(i,j)
(i+1,j)
En rapprochant les voisins,

(i-1,j-1) (i,j-1) (i+1,j-1)
lajustement fait en sorte qu deux individus proches correspondent deux nuds proches en sortie
Des groupes (clusters) de

ge revenus nombre denfants
nuds se forment en sortie

72
04/04/2008
Application dun rseau de Kohonen
Tout

se passe comme si la grille du rseau tait en caoutchouc et si on la dformait pour lui faire traverser le nuage des individus en sapprochant au plus prs des individus.
avec un plan factoriel : cest une projection non-linaire avec les autres mthodes de classification : rduction de la dimension
Une
fois que tous les individus de lchantillonnage dapprentissage ont t prsents au rseau et que tous les poids ont t ajusts, lapprentissage est achev. En phase dapplication, le rseau de Kohonen fonctionne en reprsentant chaque individu en entre par le nud du rseau qui lui est le plus proche au sens de la distance dfinie ci-dessus. Ce nud sera la classe de lindividu.
04/04/2008
Reprsentation dune carte de Kohonen
04/04/2008
74
Utilisation des rseaux de Kohonen
Synonymes
: 1) carte de Kohonen 2) SOM (Self Organizing Map) Utilisation comme une ACP non linaire
pour reprsenter sur une carte les groupes dindividus et comparer les groupes sopposant sur la carte
Utilisation

comme pr-classification avant une CAH (voir la classification mixte)

on construit une carte de taille au moins 10 x 10 nuds on regroupe ensuite les 100 nuds en un nb plus petit de classes qui doivent tre connexes dans le plan
Utilisation
voir 04/04/2008
pour placer les prototypes dun rseau de neurones RBF viter dutiliser directement pour obtenir qq classes
les exemples suivants Stphane Tuffry - Data Mining - http://data.mining.free.fr
75
Kohonen peine mieux que k-means

(moins bien que single-linkage ou Wong ou + proches voisins)
04/04/2008
76
Kohonen pas mieux que k-means

(moins bien que Ward ou Wong ou + proches voisins)
04/04/2008
77
Kohonen pas mieux que k-means

(moins bien que single-linkage ou + proches voisins)
04/04/2008
78
Analyse relationnelle
Dfinition
dun critre de similarit : le critre de Condorcet
Critre de Condorcet de deux individus A et B

c(A,B) := (nb de variables ayant mme valeur pour A et B) (nb de variables ayant des valeurs diffrentes pour A et B) on considre que deux variables continues ont la mme valeur si elles sont dans le mme dcile
Critre de Condorcet dun individu A et dune classe S
c(A,S) = c(A,Bi), la somme tant sur tous les Bi S.

Stphane Tuffry - Data Mining - http://data.mining.free.fr 79 04/04/2008
La classification relationnelle
On
commence la constitution des classes en plaant chaque individu A dans la classe S telle que c(A,S) soit maximum et 0. Si c(A,S) < 0 pour tout S existant, A constitue le 1er lment dune nouvelle classe. Cette tape constitue la 1re itration.
On peut raliser une 2de itration, en reprenant chaque

individu et en le raffectant ventuellement une autre classe, parmi ceux dfinis lors de la 1re itration.
On ralise ainsi plusieurs itrations, jusqu' ce que soit

atteint le nb max ditrations ou de classes spcifi.
Illustration de lanalyse relationnelle 1/2
04/04/2008
81
Illustration de lanalyse relationnelle 2/2
04/04/2008
82
Utilisation de lanalyse relationnelle
Faiblesse
continues
de lanalyse relationnelle sur les variables
la discrtisation fait perdre la relation dordre dans R, que ne gre pas lanalyse relationnelle le principe de la mthode conduit rassembler les individus qui sont proches sur une majorit de variables
dans le cas de 2 variables, on verra par exemple que si :
deux individus x et y sont dans le mme dcile de la 1re variable, et trs diffrents sur la 2de variable x et un autre individu z sont assez proches , car dans le mme quintile (mais pas le mme dcile) pour les 2 variables alors x sera agrg avec y et non avec z !
sensibilit aux variables binaires et aux variables redondantes
Conseil
04/04/2008
: rserver lanalyse relationnelle aux variables qualitatives

Techniques de classification :
La classification de variables
04/04/2008
84
Classification de variables numriques
Classification ascendante

hirarchique sur variables

remplacer la distance euclidienne par le coefficient de corrlation de Pearson utiliser la mthode single linkage car il suffit que 2 groupes V et W de variables contiennent v V et w W suffisamment corrles pour que les groupes soient proches
Classification descendante hirarchique (combine
ventuellement binaires
avec ACP oblique) : procdure VARCLUS de SAS Ces mthodes sappliquent des variables numriques
85
04/04/2008
Algorithme VARCLUS de SAS 1/2

(option maxeigen par dfaut)
1) On part de lensemble des variables 2) On fait une ACP et on retient les 2 premiers axes, de
valeurs propres 1 et 2 (on a 1 2) :
si 2 > 1 (critre de Kaiser on peut remplacer la valeur 1 par une autre), on effectue une rotation quartimax oblique et on rpartit les variables dans le groupe V1 des var plus corrles avec le 1er axe et le groupe V2 des var plus corrles avec le 2d axe
ensuite on raffecte chaque var dans V1 ou V2 pour tenter de maximiser encore plus la variance explique par la 1re composante principale de chacun de ces groupes (non orthogonales entre elles)
04/04/2008
si 2 1, lensemble des variables nest pas divis
86
Procdure VARCLUS de SAS 2/2

3) On reprend en 2) avec chacune des classes V1 et V2 4) On sarrte quand on na plus de classes avec 2 > 1

ou quand un nb de classes spcifi a t atteint ou quand les scissions produisent des classes vides aprs raffectation
04/04/2008
87
Remarques sur VARCLUS
Pour chaque classe, la variable-classe est (par dfaut) la 1re composante principale de la classe Le but de VARCLUS est de maximiser la somme (sur lensemble des classes) des variances de ces variablesclasse VARCLUS exprime la variable-classe comme combinaison linaire des variables contenues dans la classe Du fait des rotations obliques de VARCLUS, les diffrentes variables-classe sont (faiblement) corrles On peut limiter la raffectation de variables lintrieur dun dcoupage de classes, pour ne pas affecter une variable une classe anciennement forme, ce qui dtruirait la structure darbre de la classification
04/04/2008
option hierarchy - permet de limiter le temps de calcul

Diffrence entre VARCLUS et une ACP standard
Dans une ACP, toutes les composantes principales sont calcules partir des mmes variables (variables initiales) Dans VARCLUS
les variables initiales sont spares itrativement en sousgroupes (par quartimax) et les composantes principales sont calcules sur ces sousgroupes et non lensemble des variables
Si on limite k le nb de classes de variables, de sorte que lon ne retient que k composantes par VARCLUS, ces k composantes expliquent peut-tre moins de variance que les k premires composantes de lACP, mais elles sont plus faciles interprter VARCLUS est une mthode performante de classification
mais plus consommatrice en temps de calcul que lACP : attention si plus de 30 variables
04/04/2008
Techniques de data mining :
Recherche dassociations (analyse du ticket de caisse)
04/04/2008
90
Les recherches dassociations
Rechercher les associations consiste rechercher les rgles du type : Si pour un individu, la variable A = xA, la variable B = xB, etc, alors, dans 80% des cas, la variable Z = xZ, cette configuration se rencontrant pour 20 % des individus La valeur de 80% est appele indice de confiance et la valeur de 20% est appele indice de support Par exemple, dans lensemble de transactions ci-contre :
T26 T1245 T156 T2356 T145
A B B A C
B C E B D
C E
D F
lindice de confiance de B E =3/4 lindice de support de B E =3/5

04/04/2008
Les associations : dfinitions
Une rgle est donc une expression de la forme : >Si Condition alors Rsultat. Exemple : >Si couches et samedi, alors bire. Lindice de support est la probabilit : >p (condition et rsultat). Il ne doit pas tre trop petit. Lindice de confiance est la probabilit : >p (condition et rsultat) / p (condition).
Intrt dune rgle dassociation
Dans lexemple prcdent, on a : Or, probabilit (B) = 0,8 Cette probabilit est suprieure lindice de confiance
B est prsent dans presque tous les tickets de caisse.
indice de confiance de lassociation C B est 2/3 indice de support = 2/5.
de C B, ce qui fait que lon ne gagne rien utiliser la rgle C B pour prdire B. Si lon suppose alatoirement quun ticket de caisse contient B, on na qu1 chance / 5 de se tromper, contre 1 chance / 3 en appliquant la rgle C B.
04/04/2008
93
Lift dune rgle : mesure son intrt
Lamlioration apporte par une rgle, par rapport une

rponse au hasard est appele lift et vaut : lift (rgle) = confiance (rgle) / p (rsultat) = p (condition et rsultat) / [ p (condition) x p (rsultat) ].
Quand le lift est < 1, la rgle napporte rien. Exemples :

lift (C B) = 5/6 (rgle inutile) lift (B E) = 5/4 (rgle utile).
04/04/2008
94
Lift de la rgle inverse
Il faut noter que si le lift de la rgle est < 1, alors le lift de la rgle inverse, c.a.d. de : est > 1, puisque : et Si

Si Condition alors NON Rsultat confiance (rgle inverse) = 1 - confiance (rgle) p (NON rsultat) = 1 - p (rsultat).
Si Condition alors Rsultat
une rgle nest pas utile, on peut donc essayer la rgle inverse en esprant que cette dernire soit intressante en termes de mtier ou de marketing.
04/04/2008
Taxinomie : dfinition
Les produits peuvent tre dfinies avec un niveau plus

ou moins fin de dtail. On peut par exemple considrer :
les produits dpargne bancaire, financire parmi les produits dpargne bancaire, les comptes de chques, les livrets parmi les livrets, les livrets A, les Codevi, les LEP
La
taxinomie des produits est lensemble de ces niveaux.
04/04/2008
96
Taxinomie : utilisation
Le niveau le plus fin permet dentreprendre des

actions commerciales plus prcises
Mais travailler au niveau le plus fin multiplie les rgles, parmi lesquelles un grand nombre nauront quun faible support et seront peut-tre limines
Travailler au niveau le plus gnral permet dobtenir

des rgles plus fortes
>Les 2 points de vue ont leurs avantages et leurs

inconvnients >Il faut adapter le niveau de gnralit chaque produit, en fonction notamment de sa raret
Taxinomie : intrt
Les articles les plus rares et les plus chers (exemple :
micro-informatique ou HIFI dans un grand magasin) seront codifis au niveau le plus fin Les articles les plus courants (exemple : produits alimentaires) seront codifis un niveau plus gnral. On regroupera par exemple tous les yaourts, fromages blancs, flancs en produits laitiers , tout en distinguant un tlviseur dun magntoscope ou dun camscope. Lintrt de cette faon de procder est dobtenir des rgles plus pertinentes, dans lesquelles les articles les plus courants ne dissimulent pas, par leur frquence, les articles les moins courants.
04/04/2008
98
Illustration avec Clementine
04/04/2008
99
Le panier de la mnagre
Cette technique est trs utilise dans la grande distribution : >do les termes danalyse du ticket de caisse ou du panier de la mnagre pour dsigner la recherche dassociations Autres usages : associations doptions retenues dans les produits packags (banque, tlphonie, assurance) web mining (analyse de la navigation sur un site internet) Difficults : volumes de donnes importants trouver des rgles intressantes noyes parmi les rgles triviales ou non utilisables
04/04/2008
Utilisation de variables supplmentaires
En ajoutant des variables temporelles (jour et heure de

la transaction), on pourra rechercher lensemble des vnements qui dbouchent sur lacquisition dun nouveau produit, sur le dpart du client En ajoutant le nom du fabricant, on pourra dtecter des phnomnes dattachement une marque Autres variables supplmentaires :
Le dveloppement des cartes de fidlit permet de

croiser les achats avec de nombreuses autres donnes : ge, adresse
canal de distribution mode de paiement

Descriptive S

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Descriptive S

Uploaded by

Copyright:

Available Formats

Stphane Tuffry

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Stphane Tuffry - Data Mining - http://data.mining.free.fr

10% 20% 30% 40% 50% 60%

Sondages sur www.kdnuggets.com

Stphane Tuffry - Data Mining - http://data.mining.free.fr 4

avril 2006 en % des votants

novembre 2003 en % des votants

Les techniques descriptives

Rappel : Les techniques descriptives :

Dtection dassociations entre des objets

Trouver dans lespace de travail des groupes homognes dindividus ou de variables

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Les 2 principales familles de mthodes descriptives

Techniques descriptives de data mining :

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Quest-ce que la classification ?

Regrouper des objets en groupes, ou classes, ou familles,

Le nombre de partitions (non recouvrantes) de n objets est

1 kn Bn = e k =1 k! Exemple : pour n = 4 objets, on a Bn = 15, avec

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Terminologie : de nombreux synonymes

Classification, ou classification automatique, terme

Segmentation : terme employ en marketing (les

Structure des donnes classer

lignes = individus colonnes = variables

individus ou variables (par exemple : la matrice des corrlations)

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Structure des classes obtenues

2 classes sont disjointes ou lune contient lautre : mthodes hirarchiques :

Soit 2 classes peuvent avoir plusieurs objets en commun

Les diffrentes mthodes

Mthodes mixtes Analyse floue (fuzzy clustering)

Classification gnrale de la clientle

Dtection des profils :

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Reprsentation des classes

S1 : rouge S2 : vert S3 : rose

S4 : orange S5 : bleu S6 : noir

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Interprtation des classes

Statistiques descriptives des classes (comparaison des

Analyse factorielle reprsentant les classes obtenues et les

Arbre de dcision avec la classe obtenue comme variable

Classification des variables : variables initiales +

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Reprsentation des classes

n 71577 19848 18560 11766 34011 12450 168212

Identification des classes par un arbre de dcision

n 5072 19794 18557 11639 1448 12358 68868

Stphane Tuffry - Data Mining - http://data.mining.free.fr

n 1139 1 0 6033 0 0 7173

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Intrt de la classification pour la prdiction

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Critres de bon algorithme

Ce point est rarement obtenu sans transformation

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Classification avec des variables continues

Prfrable disoler les outliers (individus hors-norme)

Quand on a des variables qualitatives se ramener

Inertie dun nuage dindividus

Inertie totale ITOT de la population : moyenne (pondre