You are on page 1of 82

Introduction au Data Mining et

lapprentissage statistique

Gilbert Saporta

Chaire de Statistique Applique & CEDRIC, CNAM,


292 rue Saint Martin, F-75003 Paris
gilbert.saporta@cnam.fr
http://cedric.cnam.fr/~saporta

Plan
1. Quest-ce que le data mining?
2. Trois mthodes emblmatiques
2.1 Rgles dassociations
2.2 Arbres de dcision
2.3 Scoring

3. Performance des mthodes de prvision


4. Construction et choix de modles: thorie de
lapprentissage
5. Le DM, une nouvelle conception de la statistique et
du rle des modles
2

1. Quest-ce que le Data


Mining?
Le Data Mining est un nouveau champ situ au
croisement de la statistique et des technologies de
linformation (bases de donnes, intelligence
artificielle, apprentissage etc.) dont le but est de
dcouvrir des structures dans de vastes ensembles de
donnes.
Deux types: modles et patterns (ou comportements)
(D.Hand)

1.1 Dfinitions:
U.M.Fayyad, G.Piatetski-Shapiro : Data Mining is

the nontrivial process of identifying valid, novel,


potentially useful, and ultimately understandable
patterns in data
D.J.Hand : I shall define Data Mining as the
discovery of interesting, unexpected, or valuable
structures in large data sets

La mtaphore du Data Mining signifie quil y a des


trsors ou ppites cachs sous des montagnes de
donnes que lon peut dcouvrir avec des outils
spcialiss.
Le Data Mining analyse des donnes recueillies
dautres fins: cest une analyse secondaire de bases
de donnes, souvent conues pour la gestion de
donnes individuelles (Kardaun, T.Alanko,1998)
Le Data Mining ne se proccupe donc pas de
collecter des donnes de manire efficace
(sondages, plans dexpriences) (Hand, 2000)
5

Est-ce nouveau? Est-ce une rvolution ?


Lide de dcouvrir des faits partir des donnes est
aussi vieille que la statistique Statistics is the

science of learning from data. Statistics is essential


for the proper running of government, central to
decision making in industry,and a core component of
modern educational curricula at all levels (J.Kettenring, 1997,
ancien prsident de lASA).

Dans les annes 60: Analyse Exploratoire (Tukey,


Benzcri) Lanalyse des donnes est un outil pour

dgager de la gangue des donnes le pur diamant de


la vridique nature. (J.P.Benzcri 1973)
7

1.2 le Data Mining est n de :


Lvolution des SGBD vers linformatique
dcisionnelle avec les entrepts de donnes (Data
Warehouse).
La constitution de giga bases de donnes :
transactions de cartes de crdit, appels
tlphoniques, factures de supermarchs: terabytes
de donnes recueillies automatiquement.
Dveloppement de la Gestion de la Relation Client
(CRM)
Marketing client au lieu de marketing produit
Attrition, satisfaction, etc.

Recherches en Intelligence artificielle,


apprentissage, extraction de connaissances
8

Le dfi de lexplosion du volume


de donnes (Michel Bra, 2009)
In the 90s

Today
Web transactions At Yahoo ! (Fayyad, KDD 2007)
16 B events - day, 425 M visitors - month, 10 Tb data / day
Radio-frequency identification (Jiawei, Adma 2006)
A retailer with 3,000 stores, selling 10,000 items a day per store
300 million events per day (after redundancy removal)
Social network (Kleinberg, KDD 2007)
4.4-million-node network of declared friendships on blogging community
240-million-node network of all IM communication over one month on
Microsoft Instant Messenger
Cellular networks
A telecom carrier generates hundreds of millions of CDRs / day
The network generates technical data : 40 M events / day in a large city
99

http://www.kdnuggets.com
10

http://www.kdnuggets.com

11

1.3 Objectifs et outils

Le Data Mining cherche des structures de deux


types : modles et patterns
Patterns
une structure caractristique possde par un petit
nombre dobservations: niche de clients forte
valeur, ou au contraire des clients haut risque
Outils: classification, visualisation par rduction de
dimension (ACP, AFC etc.), rgles dassociation.
12

modles
Construire des modles a toujours t une activit
des statisticiens. Un modle est un rsum global
des relations entre variables, permettant de
comprendre des phnomnes, et dmettre des
prvisions. Tous les modles sont faux, certains

sont utiles (G.Box) *

* Box, G.E.P. and Draper, N.R.: Empirical Model-Building and Response Surfaces, p. 424, Wiley, 1987

13

Modles
Le DM ne traite pas destimation et de tests de
modles prspcifis, mais de la dcouverte de
modles laide dun processus de recherche
algorithmique dexploration de modles:
linaires ou non,
explicites ou implicites: rseaux de neurones, arbres de
dcision, SVM, rgression logistique, rseaux bayesiens.

Les modles ne sont pas issus dune thorie mais


de lexploration des donnes.

14

Autre distinction: prdictif (supervis) ou


exploratoire (non supervis)

15

Des outils ou un process?


Le DM est souvent prsent comme un ensemble
intgr doutils permettant entre autres de comparer
plusieurs techniques sur les mmes donnes.
Mais le DM est bien plus quune bote outils:
Donnes
prtraitements

Information

Connaissance
analyse

16

Data mining et KDD


Le Data Mining est une tape dans le processus
dextraction des connaissances, qui consiste
appliquer des algorithmes danalyse des donnes

17

18

2. Trois techniques
emblmatiques du Data Mining
Une mthode non supervise:
Rgles dassociation

Deux mthodes supervises


Arbres de dcision
Scores

19

2.1 La recherche de rgles


dassociation ou lanalyse du panier
de la mnagre
Illustr avec un exemple industriel provenant
de PSA Peugeot-Citroen .
(Thse CIFRE de Marie Plasse).

20

PROBLEMATIQUE INDUSTRIELLE
Les donnes
Plus de 80000 vhicules dcrits par plus de 3000 attributs binaires
Vhicules

A1

A2

A3

A4

A5

Ap

{A1, A4}

{A3, A4}

{A2, A5}

{A3}

Matrice de donnes binaires

Trouver des corrlations entre les attributs


grce la recherche de rgles d'association

21

Vhicules

Attributs prsents

{A2, A5}
{A1, A5}
{A2, A5, Ap}

Donnes de transaction

LA RECHERCHE DE REGLES D'ASSOCIATION


Rappel de la mthode
Origine marketing : analyser les ventes des supermarchs
"lorsqu'un client achte du pain et du beurre,
il achte 9 fois sur 10 du lait en mme temps"

Formalisation :

AC

AC=

Fiabilit : Support : % de transactions contenant A et C


sup( A C ) P( A C ) P( C / A ) P( A )

s(A C) = 30 %
30% des transactions
contiennent la fois
+
+

Prcision : Confiance : % de transactions contenant C sachant qu'elles ont A


P( A C ) sup( A C )
conf ( A C ) P( C / A )

P( A )
sup( A )

Algorithmes :
Recherche des sous-ensembles frquents (avec minsup)
Extraction des rgles d'association (avec minconf)
22

c(A C) = 90 %
90% des transactions
qui contiennent
+
contiennent aussi
Apriori (Agrawal & Srikant, 1994)
Partition (Saverese et al., 1995)
Sampling (Brin & Motwani, 1997)
Eclat (Zaki, 2000)
FP-Growth (Han & Pei, 2003)

LA RECHERCHE DE REGLES D'ASSOCIATION


Spcificits des donnes
80000 vhicules dcrits par 3000 attributs binaires : environ 4 mois de production
Des donnes clairsemes :
Rpartition des 100 attributs les plus frquents :

Nombre d'attributs prsents par


vhicule :

Nombre de
vhicules
9727

12 %

8106

10 %

6485

8%

4863

6%

3242

4%

1621

2%

Nombre et % d'apparition des 100 attributs les plus frquents

4 attributs en moyenne
23

LA RECHERCHE DE REGLES D'ASSOCIATION


Extraction des rgles
Rgles extraites :

Support minimum
(nb de vhicules vrifiant la rgle)

Confiance
minimum

Nombre de
rgles

Taille maximum des


rgles obtenues

500

50 %

16

400

50 %

29

300

50 %

194

250

50 %

1299

200

50 %

102 981

10

100

50 %

1 623 555

13

Rduire le nombre et la
complexit des rgle tout
en gardant une valeur
faible pour le support
minimum

Ralisation d'une classification de variables pralable (Plasse et al., 2005)


Recherche des rgles l'intrieur de chaque groupe :
A B
K F
L G
J D

Rsultats :

24

E
V W

U T
Nombre de
rgles

Complexit
maximum

Rduction du nombre
de rgles

Sans classification : Rappel premier rsultat

1 623 555

13

Sans classification : regroupement manuel

600636

12

60%

Avec classification pralable

218

99%

LES INDICES DE PERTINENCE


Slection des "meilleures" rgles
Pour faire valider les rgles par un expert du terrain, il faut slectionner les
"meilleures" rgles
On peut les classer par ordre dcroissant de leur intrt statistique
Il existe plusieurs indices pour valuer la pertinence des rgles
Un des plus connus et utiliss : le lift (Brin et al., 1997)

P AC
lift( A C )
P( A ).P( C )

25

2.2 Arbres de dcision


Dveloppes autour de 1960 (AID de Morgan & Sonquist) et
trs utilises en marketing, ces mthodes dlaisses par les
statisticiens ont connu un regain dintrt avec les travaux de
Breiman & al. (1984) qui en ont renouvel la problmatique:
elles sont devenues un des outils les plus populaires du data
mining en raison de la lisibilit des rsultats. On peut les
utiliser pour prdire une variable Y quantitative (arbres de
rgression) ou qualitative (arbres de dcision, de
classification, de segmentation) laide de prdicteurs
quantitatifs ou qualitatifs. Les termes de partitionnement
rcursif ou de segmentation sont parfois utiliss

26

logiciel gratuit SIPINA


http://eric.univ-lyon2.fr

27

Rsolution des problmes de discrimination et de


rgression en divisant successivement l chantillon
en sous-groupes.
Il sagit de slectionner parmi les variables
explicatives celle qui est la plus lie la variable
expliquer. Cette variable fournit une premire
division de l chantillon en plusieurs sous-ensembles
appels segments.Puis on ritre cette procdure
lintrieur de chaque segment en recherchant la
deuxime meilleure variable, et ainsi de suite
Il sagit donc dune classification descendante
but prdictif oprant par slection de variables :
chaque classe doit tre la plus homogne possible
vis vis de Y
28

Arbres binaires ou non?


En prsence dun prdicteur qualitatif, on
pourrait utiliser des arbres non binaires en
dcoupant en m sous ensembles : cette ide
nest en gnral pas bonne car elle conduit
des subdivisions avec trop peu dobservations
et souvent non pertinentes.
Lintrt des arbres binaires est de pouvoir
regrouper les modalits qui ne se distinguent
pas vis vis de y.
29

La mthode CART

La mthode CART permet de construire un arbre de


dcision binaire par divisions successives de
l chantillon en deux sous-ensembles.
Il ny a pas de rgle darrt du processus de division
des segments : lobtention de larbre maximal, une
procdure d lagage permet de supprimer les
branches les moins informatives.
Au cours de cette phase dlagage, la mthode
slectionne un sous arbre optimal en se fondant sur
un critre derreur calcul sur un chantillon test

30

Divisions dun nud

(arbres binaires)

Les divisions possibles dpendent de la nature


statistique de la variable :
variable binaire B(0,1) : une division possible
variable nominale N (k modalits) : 2k-1 - 1 divisions
possibles
variable ordinale O (k modalits) : k-1 divisions possibles
variable quantitative Q (q valeurs distinctes) : q-1 divisions
possibles

31

Discrimination : arrt des


divisions, affectation
Nud terminal :
sil est pur ou sil contient des observations toutes
identiques
sil contient trop peu d observations

Un segment terminal est affect la classe


qui est la mieux reprsente

32

Discrimination : T.E.A.
Reprsente la proportion dindividus mal classs dans
lensemble des segments terminaux

33

Discrimination : Slection du
meilleur sous-arbre
chantillon dapprentissage :
Construction de l arbre complet Amax, puis lagage : partir de l arbre

complet, on dtermine la squence optimale de sous-arbres embots


{Amax-1,Ah, A1} avec 1 h < max
Le taux derreur en apprentissage (TEA) de Ah vrifie :

TEA( Ah ) min ASh {TEA( A)}


O Sh est l ensemble des sous-arbres de Amax ayant h segments terminaux

chantillon-test :
Choix de A* tel que lerreur de classement en test (ETC) vrifie :

ETC ( A* ) min1h max {ETC ( Ah )}


34

Exemple: bons et mauvais


clients dune banque (SPAD)

35

36

37

38

Matrice de confusion
-----------------------------PREDIT
OBSERVE BON
MAUV
-----------------------------BON
163
25
MAUV
67
119
------------------------------

39

Avantages et inconvnients
Les mthodes de segmentation fournissent
une alternative intressante aux mthodes
paramtriques usuelles : elles ne ncessitent
pas dhypothse sur les donnes, et les
rsultats sont plus simples exploiter
MAIS : elles fournissent souvent des arbres
instables (une division conditionne les
suivantes, les branches coupes ne
repoussent pas...).
40

2.3 Le scoring
Prdire une variable deux modalits :
ex.: qualit dun client, survie dun malade
etc.
Construction dune note de risque (score S)
combinaison des prdicteurs
Fixation dun seuil de dcision
Si S>s on classe dans une modalit, sinon dans
lautre
41

Exemple assurance

(SPAD)

1106 contrats automobile belges:


2 groupes: 1 bons, 2 mauvais
9 prdicteurs: 20 catgories
Usage (2), sexe (3), langue (2), age (3), rgion
(2), bonus-malus (2), puissance (2), dure (2),
age du vhicule (2)

42

ACM

43

ADL de Fisher sur les composantes


FACTEURS
CORRELATIONS
COEFFICIENTS
..............................................................................
1 F 1
0.719
6.9064

2 F

4 F

6 F
7 F

6
7

0.064
-0.001

11 F 11

-0.056

3 F
5 F

0.055

0.7149

-0.078

-0.8211

0.083

1.2581

8 F 8
9 F 9
10 F 10

-0.030

0.090
-0.074
-0.150

-0.4615
1.0274
0.2169

1.3133
-1.1383
-3.3193

-1.4830

CONSTANTE
0.093575
..............................................................................
R2 =
0.57923
F =
91.35686
D2 =
5.49176
T2 = 1018.69159
..............................................................................

Score= 6.90 F1 - 0.82 F3 + 1.25 F5 + 1.31 F8 - 1.13 F9 - 3.31 F10

44

scores normaliss
Echelle de 0 1000
Transformation linaire du score et du seuil

45

Grille de score ( scorecard )


+----------------------------------------------------------------------------+
|
| COEFFICIENTS | TRANSFORMED |
| CATEGORIES
| DISCRIMINANT | COEFFICIENTS |
|
|
FUNCTION
|
(SCORE)
|
+----------------------------------------------------------------------------+
|
2 . Use type
|
| USE1 - Profess.
|
-4.577 |
0.00 |
| USE2 - private
|
0.919 |
53.93 |
+----------------------------------------------------------------------------+
|
4 . Gender
|
| MALE - male
|
0.220 |
24.10 |
| FEMA - female
|
-0.065 |
21.30 |
| OTHE - companies
|
-2.236 |
0.00 |
+----------------------------------------------------------------------------+
|
5 . Language
|
| FREN French
|
-0.955 |
0.00 |
| FLEM - flemish
|
2.789 |
36.73 |
+----------------------------------------------------------------------------+
| 24 . Birth date
|
| BD1 - 1890-1949 BD
|
0.285 |
116.78 |
| BD2 - 1950-1973 BD
|
-11.616 |
0.00 |
| BD? - ???BD
|
7.064 |
183.30 |
+----------------------------------------------------------------------------+
|
25 . Region
|
| REG1 - Brussels
|
-6.785 |
0.00 |
| REG2 Other regions
|
3.369 |
99.64 |
+----------------------------------------------------------------------------+
|
26 . Level of bonus-malus
|
| BM01 - B-M 1 (-1)
|
17.522 |
341.41 |
| BM02 - Others B-M (-1)
|
-17.271 |
0.00 |
+----------------------------------------------------------------------------+
|
27 . Duration of contract
|
| C<86 - <86 contracts
|
2.209 |
50.27 |
| C>87 - others contracts
|
-2.913 |
0.00 |
+----------------------------------------------------------------------------+
|
28 . Horsepower
|
| HP1 - 10-39 HP
|
6.211 |
75.83 |
| HP2 - >40
HP
|
-1.516 |
0.00 |
+----------------------------------------------------------------------------+
| 29 . year of vehicle construction
|
| YVC1 - 1933-1989 YVC
|
3.515 |
134.80 |
| YVC2 - 1990-1991 YVC
|
-10.222 |
0.00 |
+----------------------------------------------------------------------------+

46

47

Cas des prdicteurs numriques


Si prdicteurs numriques (taux
dendettement, revenu )
Dcoupage en classes
Avantages, dtection des liaisons non linaires

48

Une autre mthode :


rgression logistique
0 1 x1 ... p x p

exp( S (x))
e
P(G1|x)

0 1 x1 ... p x p
1 exp( S (x)) 1 e
Estimation directe de la probabilit a
posteriori
Maximum de vraisemblance conditionnel au
lieu des moindres carrs.

49

3. Performance des mthodes de


prvision
Mesures de performance en classification
binaire supervise
le taux derreur suppose le choix dun seuil
le score est plus riche. Lutilisateur choisit son
seuil
une proba dappartenance P(G1/x) est aussi un
score mais compris entre 0 et 1: peu prs
toutes les mthodes fournissent un score
50

Groupe dtecter G1: scores levs


Sensibilit 1-= P(S>s/G1):% de vrais positifs
Spcificit 1-=P(S<s/G2) :% de vrais ngatifs

51

courbe ROC
Une synthse de la performance dun score quand
le seuil s varie. x est class en G1 si S(x) > s
La courbe ROC relie le taux de vrais positifs 1- au
taux de faux ngatifs .

52

L AUC
La surface sous la courbe ROC est un indice global
de performance variant de 0.5 1
Indice de Gini: deux fois la surface entre la courbe
et la diagonale G=2AUC-1
AUC et G permettent de choisir entre plusieurs
modles si les courbes ne se croisent pas
Mais attention ne pas comparer sur lchantillon
dapprentissage un modle simple avec un modle
complexe.
53

ROC curve

1,0

scdisc
sclogist
Reference line

Sensitivity

0,8

0,6

AUC

Std Err.

Asymptotic confidence Interval 95%

0,4

0,2

Lower bound

Upper bound

Scdisc

0.839

0.015

0.810

0.868

Sclogist

0.839

0.015

0.811

0.868

0,0
0,0

0,2

0,4

0,6

0,8

1,0

1 - Specificity

54

Courbe de lift
% de la cible

55

Coefficient Ki (Kxen)
Ki=(surface entre lift estim et alatoire) /
(surface entre lift idal et alatoire)
Ki=2AUC-1=G

56

5. Construction et choix de

modles: thorie de
lapprentissage

A la recherche de modles simples et


efficaces
ne pas confondre ajustement (prdire le pass) et
capacit de gnralisation (prdire lavenir)

57

De Guillaume dOckham
Vladimir Vapnik
Guillaume dOckham 1319

Frank Rosenblatt 1962

Norbert Wiener 1948

Vladimir Vapnik 1982

58

Guillaume dOccam (1285 - 3 avril 1349), dit le docteur


invincible franciscain philosophe logicien et thologien
scolastique.
Etudes Oxford, puis Paris. Enseigne quelques annes
Oxford.
Accus d'hrsie, convoqu pour sexpliquer Avignon, se
rfugie Munich la cour de Louis de Bavire, est
excommuni. Meurt de l'pidmie de peste noire.
Rhabilit par Innocent VI en 1359.
A inspir le personnage du moine franciscain Guillaume de
Baskerville dans le Nom de la rose d'Umberto Eco.

Premier jour, vpres : il ne faut pas multiplier les


explications et les causes sans qu'on en ait une stricte
ncessit.

59

Apprentissage, gnralisation et
complexit
Mesures derreur
Risque empirique sur les donnes utilises
Risque R sur de futures donnes gnralisation

Comportement
selon le nombre de donnes disponibles
selon la complexit du modle

60

61

Hastie et al., 2009


62

complexit dun modle


Plus un modle est complexe, mieux il
sajuste en apprentissage mais avec de
grands risques en test.
compromis optimal
Comment mesurer la complexit dun modle?
V.Vapnik a montr que ce nest pas le nombre de
paramtres

63

VC-dimension dune famille de


classifieurs
Une mesure du pouvoir sparateur lie au
nombre maximal de points sparables
parfaitement. Note h

64

Exemple
En 2-D, la VC dimension des classifieurs linaires
non contraints est 3
(en p-D VCdim=p+1)

65

La VC dimension nest pas gale au


nombre de paramtres libres: elle peut
tre plus grande ou plus petite
La VC dimension de f(x,w) = sign (sin (w.x) )
c < x < 1, c>0,
est infinie alors quil ny a quun paramtre .

Hastie et al. 2001

66

La rgression ridge
La VC dimension de lensemble des
p
indicatrices linaires
f ( X , w ) sign i 1 wi xi 1
X R

satisfaisant la condition :

1
i 1 w
C
p

2
i

dpend de C et peut prendre toute valeur de


0 p+1.
R2
h min ent 2 ; p 1
C

67

La ridge comme technique de rgularisation


utile si le nombre de variables est grand
fournit des rsultats plus robustes que les
moindres carrs: coefficients plus stables
lger biais mais meilleur pouvoir prdictif

68

Ingalit de Vapnik
Avec la probabilit 1- :

R Remp

h ln 2n h 1 ln ( 4)
n

ne fait pas intervenir p mais la VC dimension h


ne fait pas intervenir la distribution de probabilit P
69

Principe de minimisation structure du


risque (SRM)
h ln 2n h 1 ln( / 4)
R Remp
h ln 2 L h 1 ln q
n
R ( w) E ( w)
L

lorsque n/h est faible (h trop grand), le


deuxime terme est grand
Lide gnrale du SRM est de minimiser la
somme des deux termes la droite de
linquation.
70

n fix

71

Contrle de h

h doit tre fini


h/n doit tre petit: si n augmente, on peut
augmenter la complexit du modle
h dcroit avec:
Rduction de dimension (cf. Disqual)
La marge (SVM)
C en rgression ridge

Mais h difficile obtenir

72

Les 3 chantillons:
Apprentissage: pour estimer les paramtres des
modles
Test : pour choisir le meilleur modle
Validation : pour estimer la performance sur des
donnes futures
Rchantillonner: validation croise, bootstrap
Modle final: avec toutes les donnes disponibles

73

74

Apprentissage 70%, validation


30%, 30 retirages

Variabilit

ROC curve
ROC curve

ROC curve

1,0
1,0

1,0

scdisc5
sclogist5
Reference line

0,6

0,6

0,6

0,4

0,4

0,4

0,2

0,2

0,2

0,0
0,0

0,2

0,4

0,6

1 - Specificity

0,8

1,0

0,0

scdisc23
sclogist23
Reference line

0,8

Sensitivity

0,8

Sensitivity

Sensitivity

0,8

scdisc20
sclogist20
Reference line

0,0
0,0

0,2

0,4

0,6

1 - Specificity

0,8

1,0

0,0

0,2

0,4

0,6

0,8

1,0

1 - Specificity

75

6. Data mining : une nouvelle


conception de la statistique et
du rle des modles
Modles pour comprendre ou modles pour prvoir?
Comprhension des donnes et de leur mcanisme
gnrateur travers une reprsentation simple
(parcimonieuse)
Prdire de nouvelles observations avec une bonne
prcision

76

Paradoxe n 1
Un bon modle statistique ne donne pas
ncessairement des prdictions prcises au
niveau individuel. Exemple facteurs de risque en
pidmiologie

Paradoxe n2
On peut prvoir sans comprendre:
pas besoin dune thorie du consommateur pour faire
du ciblage
un modle nest quun algorithme

77

En data mining, un bon modle est celui qui


donne de bonnes prvisions
capacit prdictive sur de nouvelles observations
gnralisation
diffrent de lajustement aux donnes (prdire le
pass)
Un modle trop prcis sur les donnes se comporte de
manire instable sur de nouvelles donnes :
phnomne de surapprentissage
Un modle trop robuste (rigide) ne donnera pas un bon
ajustement sur les donnes

modles issus des donnes


78

Tirer le meilleur des deux approches: data


driven et hypothesis driven en les combinant
Plus que jamais un mtier davenir pour ceux
qui savent combiner les comptences
statistiques et informatique
thique et traitements de donnes
personnelles
79

80

Rfrences
Acadmie des Sciences (2000): Rapport sur la science et la
technologie n8, La statistique,
J.Friedman (1997) : Data Mining and statistics, whats the
connection? http://www-stat.stanford.edu/~jhf/ftp/dmstat.ps
Hastie, Tibshirani, Friedman (2009): The Elements of
Statistical Learning, 2nd edition, Springer-Verlag,
http://www-stat.stanford.edu/~hastie/Papers/ESLII.pdf
Nisbet R., Elder J., Miner G. (2009):Handbook of Statistical
Analysis and Data Mining Applications, Academic Press
Tuffry, S. (2009) Data Mining et Statistique Dcisionnelle,
3me dition,Technip

81

Merci pour votre attention

You might also like