DM PDF

Introduction au Data Mining et
lapprentissage statistique
Gilbert Saporta
Chaire de Statistique Applique & CEDRIC, CNAM,

292 rue Saint Martin, F-75003 Paris
gilbert.saporta@cnam.fr
http://cedric.cnam.fr/~saporta
Plan
1. Quest-ce que le data mining?
2. Trois mthodes emblmatiques
2.1 Rgles dassociations
2.2 Arbres de dcision
2.3 Scoring
3. Performance des mthodes de prvision

4. Construction et choix de modles: thorie de
lapprentissage
5. Le DM, une nouvelle conception de la statistique et
du rle des modles
2
1. Quest-ce que le Data

Mining?
Le Data Mining est un nouveau champ situ au
croisement de la statistique et des technologies de
linformation (bases de donnes, intelligence
artificielle, apprentissage etc.) dont le but est de
dcouvrir des structures dans de vastes ensembles de
donnes.
Deux types: modles et patterns (ou comportements)
(D.Hand)
1.1 Dfinitions:
U.M.Fayyad, G.Piatetski-Shapiro : Data Mining is
the nontrivial process of identifying valid, novel,

potentially useful, and ultimately understandable
patterns in data
D.J.Hand : I shall define Data Mining as the
discovery of interesting, unexpected, or valuable
structures in large data sets
La mtaphore du Data Mining signifie quil y a des

trsors ou ppites cachs sous des montagnes de
donnes que lon peut dcouvrir avec des outils
spcialiss.
Le Data Mining analyse des donnes recueillies
dautres fins: cest une analyse secondaire de bases
de donnes, souvent conues pour la gestion de
donnes individuelles (Kardaun, T.Alanko,1998)
Le Data Mining ne se proccupe donc pas de
collecter des donnes de manire efficace
(sondages, plans dexpriences) (Hand, 2000)
5
Est-ce nouveau? Est-ce une rvolution ?

Lide de dcouvrir des faits partir des donnes est
aussi vieille que la statistique Statistics is the
science of learning from data. Statistics is essential

for the proper running of government, central to
decision making in industry,and a core component of
modern educational curricula at all levels (J.Kettenring, 1997,
ancien prsident de lASA).
Dans les annes 60: Analyse Exploratoire (Tukey,

Benzcri) Lanalyse des donnes est un outil pour
dgager de la gangue des donnes le pur diamant de

la vridique nature. (J.P.Benzcri 1973)
7
1.2 le Data Mining est n de :

Lvolution des SGBD vers linformatique
dcisionnelle avec les entrepts de donnes (Data
Warehouse).
La constitution de giga bases de donnes :
transactions de cartes de crdit, appels
tlphoniques, factures de supermarchs: terabytes
de donnes recueillies automatiquement.
Dveloppement de la Gestion de la Relation Client
(CRM)
Marketing client au lieu de marketing produit
Attrition, satisfaction, etc.
Recherches en Intelligence artificielle,

apprentissage, extraction de connaissances
8
Le dfi de lexplosion du volume

de donnes (Michel Bra, 2009)
In the 90s
Today
Web transactions At Yahoo ! (Fayyad, KDD 2007)
16 B events - day, 425 M visitors - month, 10 Tb data / day
Radio-frequency identification (Jiawei, Adma 2006)
A retailer with 3,000 stores, selling 10,000 items a day per store
300 million events per day (after redundancy removal)
Social network (Kleinberg, KDD 2007)
4.4-million-node network of declared friendships on blogging community
240-million-node network of all IM communication over one month on
Microsoft Instant Messenger
Cellular networks
A telecom carrier generates hundreds of millions of CDRs / day
The network generates technical data : 40 M events / day in a large city
99
http://www.kdnuggets.com
10
http://www.kdnuggets.com
11
1.3 Objectifs et outils
Le Data Mining cherche des structures de deux

types : modles et patterns
Patterns
une structure caractristique possde par un petit
nombre dobservations: niche de clients forte
valeur, ou au contraire des clients haut risque
Outils: classification, visualisation par rduction de
dimension (ACP, AFC etc.), rgles dassociation.
12
modles
Construire des modles a toujours t une activit
des statisticiens. Un modle est un rsum global
des relations entre variables, permettant de
comprendre des phnomnes, et dmettre des
prvisions. Tous les modles sont faux, certains
sont utiles (G.Box) *
* Box, G.E.P. and Draper, N.R.: Empirical Model-Building and Response Surfaces, p. 424, Wiley, 1987
13
Modles
Le DM ne traite pas destimation et de tests de
modles prspcifis, mais de la dcouverte de
modles laide dun processus de recherche
algorithmique dexploration de modles:
linaires ou non,
explicites ou implicites: rseaux de neurones, arbres de
dcision, SVM, rgression logistique, rseaux bayesiens.
Les modles ne sont pas issus dune thorie mais

de lexploration des donnes.
14
Autre distinction: prdictif (supervis) ou

exploratoire (non supervis)
15
Des outils ou un process?

Le DM est souvent prsent comme un ensemble
intgr doutils permettant entre autres de comparer
plusieurs techniques sur les mmes donnes.
Mais le DM est bien plus quune bote outils:
Donnes
prtraitements
Information
Connaissance
analyse
16
Data mining et KDD

Le Data Mining est une tape dans le processus
dextraction des connaissances, qui consiste
appliquer des algorithmes danalyse des donnes
17
18
2. Trois techniques
emblmatiques du Data Mining
Une mthode non supervise:
Rgles dassociation
Deux mthodes supervises

Arbres de dcision
Scores
19
2.1 La recherche de rgles

dassociation ou lanalyse du panier
de la mnagre
Illustr avec un exemple industriel provenant
de PSA Peugeot-Citroen .
(Thse CIFRE de Marie Plasse).
20
PROBLEMATIQUE INDUSTRIELLE
Les donnes
Plus de 80000 vhicules dcrits par plus de 3000 attributs binaires
Vhicules
A1
A2
A3
A4
A5
Ap
{A1, A4}
{A3, A4}
{A2, A5}
{A3}
Matrice de donnes binaires
Trouver des corrlations entre les attributs

grce la recherche de rgles d'association
21
Vhicules
Attributs prsents
{A2, A5}
{A1, A5}
{A2, A5, Ap}
Donnes de transaction
LA RECHERCHE DE REGLES D'ASSOCIATION

Rappel de la mthode
Origine marketing : analyser les ventes des supermarchs
"lorsqu'un client achte du pain et du beurre,
il achte 9 fois sur 10 du lait en mme temps"
Formalisation :
AC
AC=
Fiabilit : Support : % de transactions contenant A et C

sup( A C ) P( A C ) P( C / A ) P( A )
s(A C) = 30 %
30% des transactions
contiennent la fois
+
+
Prcision : Confiance : % de transactions contenant C sachant qu'elles ont A

P( A C ) sup( A C )
conf ( A C ) P( C / A )
P( A )
sup( A )
Algorithmes :
Recherche des sous-ensembles frquents (avec minsup)
Extraction des rgles d'association (avec minconf)
22
c(A C) = 90 %
90% des transactions
qui contiennent
+
contiennent aussi
Apriori (Agrawal & Srikant, 1994)
Partition (Saverese et al., 1995)
Sampling (Brin & Motwani, 1997)
Eclat (Zaki, 2000)
FP-Growth (Han & Pei, 2003)

Spcificits des donnes
80000 vhicules dcrits par 3000 attributs binaires : environ 4 mois de production
Des donnes clairsemes :
Rpartition des 100 attributs les plus frquents :
Nombre d'attributs prsents par

vhicule :
Nombre de
vhicules
9727
12 %
8106
10 %
6485
8%
4863
6%
3242
4%
1621
2%
Nombre et % d'apparition des 100 attributs les plus frquents
4 attributs en moyenne
23

Extraction des rgles
Rgles extraites :
Support minimum
(nb de vhicules vrifiant la rgle)
Confiance
minimum
Nombre de
rgles
Taille maximum des

rgles obtenues
500
50 %
16
400
50 %
29
300
50 %
194
250
50 %
1299
200
50 %
102 981
10
100
50 %
1 623 555
13
Rduire le nombre et la
complexit des rgle tout
en gardant une valeur
faible pour le support
minimum
Ralisation d'une classification de variables pralable (Plasse et al., 2005)

Recherche des rgles l'intrieur de chaque groupe :
A B
K F
L G
J D
Rsultats :
24
E
V W
U T
Nombre de
rgles
Complexit
maximum
Rduction du nombre
de rgles
Sans classification : Rappel premier rsultat
1 623 555
13
Sans classification : regroupement manuel
600636
12
60%
Avec classification pralable
218
99%
LES INDICES DE PERTINENCE

Slection des "meilleures" rgles
Pour faire valider les rgles par un expert du terrain, il faut slectionner les
"meilleures" rgles
On peut les classer par ordre dcroissant de leur intrt statistique
Il existe plusieurs indices pour valuer la pertinence des rgles
Un des plus connus et utiliss : le lift (Brin et al., 1997)
P AC
lift( A C )
P( A ).P( C )
25
2.2 Arbres de dcision

Dveloppes autour de 1960 (AID de Morgan & Sonquist) et
trs utilises en marketing, ces mthodes dlaisses par les
statisticiens ont connu un regain dintrt avec les travaux de
Breiman & al. (1984) qui en ont renouvel la problmatique:
elles sont devenues un des outils les plus populaires du data
mining en raison de la lisibilit des rsultats. On peut les
utiliser pour prdire une variable Y quantitative (arbres de
rgression) ou qualitative (arbres de dcision, de
classification, de segmentation) laide de prdicteurs
quantitatifs ou qualitatifs. Les termes de partitionnement
rcursif ou de segmentation sont parfois utiliss
26
logiciel gratuit SIPINA

http://eric.univ-lyon2.fr
27
Rsolution des problmes de discrimination et de

rgression en divisant successivement l chantillon
en sous-groupes.
Il sagit de slectionner parmi les variables
explicatives celle qui est la plus lie la variable
expliquer. Cette variable fournit une premire
division de l chantillon en plusieurs sous-ensembles
appels segments.Puis on ritre cette procdure
lintrieur de chaque segment en recherchant la
deuxime meilleure variable, et ainsi de suite
Il sagit donc dune classification descendante
but prdictif oprant par slection de variables :
chaque classe doit tre la plus homogne possible
vis vis de Y
28
Arbres binaires ou non?

En prsence dun prdicteur qualitatif, on
pourrait utiliser des arbres non binaires en
dcoupant en m sous ensembles : cette ide
nest en gnral pas bonne car elle conduit
des subdivisions avec trop peu dobservations
et souvent non pertinentes.
Lintrt des arbres binaires est de pouvoir
regrouper les modalits qui ne se distinguent
pas vis vis de y.
29
La mthode CART
La mthode CART permet de construire un arbre de

dcision binaire par divisions successives de
l chantillon en deux sous-ensembles.
Il ny a pas de rgle darrt du processus de division
des segments : lobtention de larbre maximal, une
procdure d lagage permet de supprimer les
branches les moins informatives.
Au cours de cette phase dlagage, la mthode
slectionne un sous arbre optimal en se fondant sur
un critre derreur calcul sur un chantillon test
30
Divisions dun nud
(arbres binaires)
Les divisions possibles dpendent de la nature

statistique de la variable :
variable binaire B(0,1) : une division possible
variable nominale N (k modalits) : 2k-1 - 1 divisions
possibles
variable ordinale O (k modalits) : k-1 divisions possibles
variable quantitative Q (q valeurs distinctes) : q-1 divisions
possibles
31
Discrimination : arrt des

divisions, affectation
Nud terminal :
sil est pur ou sil contient des observations toutes
identiques
sil contient trop peu d observations
Un segment terminal est affect la classe

qui est la mieux reprsente
32
Discrimination : T.E.A.
Reprsente la proportion dindividus mal classs dans
lensemble des segments terminaux
33
Discrimination : Slection du
meilleur sous-arbre
chantillon dapprentissage :
Construction de l arbre complet Amax, puis lagage : partir de l arbre
complet, on dtermine la squence optimale de sous-arbres embots

{Amax-1,Ah, A1} avec 1 h < max
Le taux derreur en apprentissage (TEA) de Ah vrifie :
TEA( Ah ) min ASh {TEA( A)}

O Sh est l ensemble des sous-arbres de Amax ayant h segments terminaux
chantillon-test :
Choix de A* tel que lerreur de classement en test (ETC) vrifie :
ETC ( A* ) min1h max {ETC ( Ah )}

34
Exemple: bons et mauvais

clients dune banque (SPAD)
35
36
37
38
Matrice de confusion
-----------------------------PREDIT
OBSERVE BON
MAUV
-----------------------------BON
163
25
MAUV
67
119
------------------------------
39
Avantages et inconvnients
Les mthodes de segmentation fournissent
une alternative intressante aux mthodes
paramtriques usuelles : elles ne ncessitent
pas dhypothse sur les donnes, et les
rsultats sont plus simples exploiter
MAIS : elles fournissent souvent des arbres
instables (une division conditionne les
suivantes, les branches coupes ne
repoussent pas...).
40
2.3 Le scoring
Prdire une variable deux modalits :
ex.: qualit dun client, survie dun malade
etc.
Construction dune note de risque (score S)
combinaison des prdicteurs
Fixation dun seuil de dcision
Si S>s on classe dans une modalit, sinon dans
lautre
41
Exemple assurance
(SPAD)
1106 contrats automobile belges:

2 groupes: 1 bons, 2 mauvais
9 prdicteurs: 20 catgories
Usage (2), sexe (3), langue (2), age (3), rgion
(2), bonus-malus (2), puissance (2), dure (2),
age du vhicule (2)
42
ACM
43
ADL de Fisher sur les composantes

FACTEURS
CORRELATIONS
COEFFICIENTS
..............................................................................
1 F 1
0.719
6.9064
2 F
4 F
6 F
7 F
6
7
0.064
-0.001
11 F 11
-0.056
3 F
5 F
0.055
0.7149
-0.078
-0.8211
0.083
1.2581
8 F 8
9 F 9
10 F 10
-0.030
0.090
-0.074
-0.150
-0.4615
1.0274
0.2169
1.3133
-1.1383
-3.3193
-1.4830
CONSTANTE
0.093575
..............................................................................
R2 =
0.57923
F =
91.35686
D2 =
5.49176
T2 = 1018.69159
..............................................................................
Score= 6.90 F1 - 0.82 F3 + 1.25 F5 + 1.31 F8 - 1.13 F9 - 3.31 F10
44
scores normaliss
Echelle de 0 1000
Transformation linaire du score et du seuil
45
Grille de score ( scorecard )

+----------------------------------------------------------------------------+
|
| COEFFICIENTS | TRANSFORMED |
| CATEGORIES
| DISCRIMINANT | COEFFICIENTS |
|
|
FUNCTION
|
(SCORE)
|
+----------------------------------------------------------------------------+
|
2 . Use type
|
| USE1 - Profess.
|
-4.577 |
0.00 |
| USE2 - private
|
0.919 |
53.93 |
+----------------------------------------------------------------------------+
|
4 . Gender
|
| MALE - male
|
0.220 |
24.10 |
| FEMA - female
|
-0.065 |
21.30 |
| OTHE - companies
|
-2.236 |
0.00 |
+----------------------------------------------------------------------------+
|
5 . Language
|
| FREN French
|
-0.955 |
0.00 |
| FLEM - flemish
|
2.789 |
36.73 |
+----------------------------------------------------------------------------+
| 24 . Birth date
|
| BD1 - 1890-1949 BD
|
0.285 |
116.78 |
| BD2 - 1950-1973 BD
|
-11.616 |
0.00 |
| BD? - ???BD
|
7.064 |
183.30 |
+----------------------------------------------------------------------------+
|
25 . Region
|
| REG1 - Brussels
|
-6.785 |
0.00 |
| REG2 Other regions
|
3.369 |
99.64 |
+----------------------------------------------------------------------------+
|
26 . Level of bonus-malus
|
| BM01 - B-M 1 (-1)
|
17.522 |
341.41 |
| BM02 - Others B-M (-1)
|
-17.271 |
0.00 |
+----------------------------------------------------------------------------+
|
27 . Duration of contract
|
| C<86 - <86 contracts
|
2.209 |
50.27 |
| C>87 - others contracts
|
-2.913 |
0.00 |
+----------------------------------------------------------------------------+
|
28 . Horsepower
|
| HP1 - 10-39 HP
|
6.211 |
75.83 |
| HP2 - >40
HP
|
-1.516 |
0.00 |
+----------------------------------------------------------------------------+
| 29 . year of vehicle construction
|
| YVC1 - 1933-1989 YVC
|
3.515 |
134.80 |
| YVC2 - 1990-1991 YVC
|
-10.222 |
0.00 |
+----------------------------------------------------------------------------+
46
47
Cas des prdicteurs numriques

Si prdicteurs numriques (taux
dendettement, revenu )
Dcoupage en classes
Avantages, dtection des liaisons non linaires
48
Une autre mthode :

rgression logistique
0 1 x1 ... p x p
exp( S (x))
e
P(G1|x)
0 1 x1 ... p x p
1 exp( S (x)) 1 e
Estimation directe de la probabilit a
posteriori
Maximum de vraisemblance conditionnel au
lieu des moindres carrs.
49
3. Performance des mthodes de

prvision
Mesures de performance en classification
binaire supervise
le taux derreur suppose le choix dun seuil
le score est plus riche. Lutilisateur choisit son
seuil
une proba dappartenance P(G1/x) est aussi un
score mais compris entre 0 et 1: peu prs
toutes les mthodes fournissent un score
50
Groupe dtecter G1: scores levs

Sensibilit 1-= P(S>s/G1):% de vrais positifs
Spcificit 1-=P(S<s/G2) :% de vrais ngatifs
51
courbe ROC
Une synthse de la performance dun score quand
le seuil s varie. x est class en G1 si S(x) > s
La courbe ROC relie le taux de vrais positifs 1- au
taux de faux ngatifs .
52
L AUC
La surface sous la courbe ROC est un indice global
de performance variant de 0.5 1
Indice de Gini: deux fois la surface entre la courbe
et la diagonale G=2AUC-1
AUC et G permettent de choisir entre plusieurs
modles si les courbes ne se croisent pas
Mais attention ne pas comparer sur lchantillon
dapprentissage un modle simple avec un modle
complexe.
53
ROC curve
1,0
scdisc
sclogist
Reference line
Sensitivity
0,8
0,6
AUC
Std Err.
Asymptotic confidence Interval 95%
0,4
0,2
Lower bound
Upper bound
Scdisc
0.839
0.015
0.810
0.868
Sclogist
0.839
0.015
0.811
0.868
0,0
0,0
0,2
0,4
0,6
0,8
1,0
1 - Specificity
54
Courbe de lift
% de la cible
55
Coefficient Ki (Kxen)
Ki=(surface entre lift estim et alatoire) /
(surface entre lift idal et alatoire)
Ki=2AUC-1=G
56
5. Construction et choix de
modles: thorie de
lapprentissage
A la recherche de modles simples et

efficaces
ne pas confondre ajustement (prdire le pass) et
capacit de gnralisation (prdire lavenir)
57
De Guillaume dOckham
Vladimir Vapnik
Guillaume dOckham 1319
Frank Rosenblatt 1962
Norbert Wiener 1948
Vladimir Vapnik 1982
58
Guillaume dOccam (1285 - 3 avril 1349), dit le docteur

invincible franciscain philosophe logicien et thologien
scolastique.
Etudes Oxford, puis Paris. Enseigne quelques annes
Oxford.
Accus d'hrsie, convoqu pour sexpliquer Avignon, se
rfugie Munich la cour de Louis de Bavire, est
excommuni. Meurt de l'pidmie de peste noire.
Rhabilit par Innocent VI en 1359.
A inspir le personnage du moine franciscain Guillaume de
Baskerville dans le Nom de la rose d'Umberto Eco.
Premier jour, vpres : il ne faut pas multiplier les

explications et les causes sans qu'on en ait une stricte
ncessit.
59
Apprentissage, gnralisation et
complexit
Mesures derreur
Risque empirique sur les donnes utilises
Risque R sur de futures donnes gnralisation
Comportement
selon le nombre de donnes disponibles
selon la complexit du modle
60
61
Hastie et al., 2009

62
complexit dun modle

Plus un modle est complexe, mieux il
sajuste en apprentissage mais avec de
grands risques en test.
compromis optimal
Comment mesurer la complexit dun modle?
V.Vapnik a montr que ce nest pas le nombre de
paramtres
63
VC-dimension dune famille de

classifieurs
Une mesure du pouvoir sparateur lie au
nombre maximal de points sparables
parfaitement. Note h
64
Exemple
En 2-D, la VC dimension des classifieurs linaires
non contraints est 3
(en p-D VCdim=p+1)
65
La VC dimension nest pas gale au

nombre de paramtres libres: elle peut
tre plus grande ou plus petite
La VC dimension de f(x,w) = sign (sin (w.x) )
c < x < 1, c>0,
est infinie alors quil ny a quun paramtre .
Hastie et al. 2001
66
La rgression ridge
La VC dimension de lensemble des
p
indicatrices linaires
f ( X , w ) sign i 1 wi xi 1
X R
satisfaisant la condition :
1
i 1 w
C
p
2
i
dpend de C et peut prendre toute valeur de

0 p+1.
R2
h min ent 2 ; p 1
C
67
La ridge comme technique de rgularisation

utile si le nombre de variables est grand
fournit des rsultats plus robustes que les
moindres carrs: coefficients plus stables
lger biais mais meilleur pouvoir prdictif
68
Ingalit de Vapnik
Avec la probabilit 1- :
R Remp
h ln 2n h 1 ln ( 4)
n
ne fait pas intervenir p mais la VC dimension h

ne fait pas intervenir la distribution de probabilit P
69
Principe de minimisation structure du

risque (SRM)
h ln 2n h 1 ln( / 4)
R Remp
h ln 2 L h 1 ln q
n
R ( w) E ( w)
L
lorsque n/h est faible (h trop grand), le

deuxime terme est grand
Lide gnrale du SRM est de minimiser la
somme des deux termes la droite de
linquation.
70
n fix
71
Contrle de h
h doit tre fini

h/n doit tre petit: si n augmente, on peut
augmenter la complexit du modle
h dcroit avec:
Rduction de dimension (cf. Disqual)
La marge (SVM)
C en rgression ridge
Mais h difficile obtenir
72
Les 3 chantillons:
Apprentissage: pour estimer les paramtres des
modles
Test : pour choisir le meilleur modle
Validation : pour estimer la performance sur des
donnes futures
Rchantillonner: validation croise, bootstrap
Modle final: avec toutes les donnes disponibles
73
74
Apprentissage 70%, validation

30%, 30 retirages
Variabilit
ROC curve
ROC curve
ROC curve
1,0
1,0
1,0
scdisc5
sclogist5
Reference line
0,6
0,6
0,6
0,4
0,4
0,4
0,2
0,2
0,2
0,0
0,0
0,2
0,4
0,6
1 - Specificity
0,8
1,0
0,0
scdisc23
sclogist23
Reference line
0,8
Sensitivity
0,8
Sensitivity
Sensitivity
0,8
scdisc20
sclogist20
Reference line
0,0
0,0
0,2
0,4
0,6
1 - Specificity
0,8
1,0
0,0
0,2
0,4
0,6
0,8
1,0
1 - Specificity
75
6. Data mining : une nouvelle

conception de la statistique et
du rle des modles
Modles pour comprendre ou modles pour prvoir?
Comprhension des donnes et de leur mcanisme
gnrateur travers une reprsentation simple
(parcimonieuse)
Prdire de nouvelles observations avec une bonne
prcision
76
Paradoxe n 1
Un bon modle statistique ne donne pas
ncessairement des prdictions prcises au
niveau individuel. Exemple facteurs de risque en
pidmiologie
Paradoxe n2
On peut prvoir sans comprendre:
pas besoin dune thorie du consommateur pour faire
du ciblage
un modle nest quun algorithme
77
En data mining, un bon modle est celui qui

donne de bonnes prvisions
capacit prdictive sur de nouvelles observations
gnralisation
diffrent de lajustement aux donnes (prdire le
pass)
Un modle trop prcis sur les donnes se comporte de
manire instable sur de nouvelles donnes :
phnomne de surapprentissage
Un modle trop robuste (rigide) ne donnera pas un bon
ajustement sur les donnes
modles issus des donnes

78
Tirer le meilleur des deux approches: data

driven et hypothesis driven en les combinant
Plus que jamais un mtier davenir pour ceux
qui savent combiner les comptences
statistiques et informatique
thique et traitements de donnes
personnelles
79
80
Rfrences
Acadmie des Sciences (2000): Rapport sur la science et la
technologie n8, La statistique,
J.Friedman (1997) : Data Mining and statistics, whats the
connection? http://www-stat.stanford.edu/~jhf/ftp/dmstat.ps
Hastie, Tibshirani, Friedman (2009): The Elements of
Statistical Learning, 2nd edition, Springer-Verlag,
http://www-stat.stanford.edu/~hastie/Papers/ESLII.pdf
Nisbet R., Elder J., Miner G. (2009):Handbook of Statistical
Analysis and Data Mining Applications, Academic Press
Tuffry, S. (2009) Data Mining et Statistique Dcisionnelle,
3me dition,Technip
81
Merci pour votre attention

DM PDF

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

DM PDF

Uploaded by

Copyright:

Available Formats

Introduction au Data Mining et

Chaire de Statistique Applique & CEDRIC, CNAM,

3. Performance des mthodes de prvision

1. Quest-ce que le Data

the nontrivial process of identifying valid, novel,

La mtaphore du Data Mining signifie quil y a des

Est-ce nouveau? Est-ce une rvolution ?

science of learning from data. Statistics is essential

Dans les annes 60: Analyse Exploratoire (Tukey,

dgager de la gangue des donnes le pur diamant de

1.2 le Data Mining est n de :

Recherches en Intelligence artificielle,

Le dfi de lexplosion du volume

1.3 Objectifs et outils

Le Data Mining cherche des structures de deux

sont utiles (G.Box) *

Les modles ne sont pas issus dune thorie mais

Autre distinction: prdictif (supervis) ou

Des outils ou un process?

Data mining et KDD

Deux mthodes supervises

2.1 La recherche de rgles

Matrice de donnes binaires

Trouver des corrlations entre les attributs

LA RECHERCHE DE REGLES D'ASSOCIATION

Fiabilit : Support : % de transactions contenant A et C

Prcision : Confiance : % de transactions contenant C sachant qu'elles ont A

LA RECHERCHE DE REGLES D'ASSOCIATION

Nombre d'attributs prsents par

Nombre et % d'apparition des 100 attributs les plus frquents

LA RECHERCHE DE REGLES D'ASSOCIATION

Taille maximum des

Ralisation d'une classification de variables pralable (Plasse et al., 2005)

Sans classification : Rappel premier rsultat

Sans classification : regroupement manuel

Avec classification pralable

LES INDICES DE PERTINENCE

2.2 Arbres de dcision

logiciel gratuit SIPINA

Rsolution des problmes de discrimination et de

Arbres binaires ou non?

La mthode CART permet de construire un arbre de

Divisions dun nud

Les divisions possibles dpendent de la nature

Discrimination : arrt des

Un segment terminal est affect la classe

complet, on dtermine la squence optimale de sous-arbres embots

TEA( Ah ) min ASh {TEA( A)}

ETC ( A* ) min1h max {ETC ( Ah )}

Exemple: bons et mauvais

1106 contrats automobile belges:

ADL de Fisher sur les composantes

Score= 6.90 F1 - 0.82 F3 + 1.25 F5 + 1.31 F8 - 1.13 F9 - 3.31 F10

Grille de score ( scorecard )

Cas des prdicteurs numriques

Une autre mthode :

3. Performance des mthodes de

Groupe dtecter G1: scores levs

Asymptotic confidence Interval 95%

A la recherche de modles simples et

Frank Rosenblatt 1962

Norbert Wiener 1948

Vladimir Vapnik 1982