Professional Documents
Culture Documents
lapprentissage statistique
Gilbert Saporta
Plan
1. Quest-ce que le data mining?
2. Trois mthodes emblmatiques
2.1 Rgles dassociations
2.2 Arbres de dcision
2.3 Scoring
1.1 Dfinitions:
U.M.Fayyad, G.Piatetski-Shapiro : Data Mining is
Today
Web transactions At Yahoo ! (Fayyad, KDD 2007)
16 B events - day, 425 M visitors - month, 10 Tb data / day
Radio-frequency identification (Jiawei, Adma 2006)
A retailer with 3,000 stores, selling 10,000 items a day per store
300 million events per day (after redundancy removal)
Social network (Kleinberg, KDD 2007)
4.4-million-node network of declared friendships on blogging community
240-million-node network of all IM communication over one month on
Microsoft Instant Messenger
Cellular networks
A telecom carrier generates hundreds of millions of CDRs / day
The network generates technical data : 40 M events / day in a large city
99
http://www.kdnuggets.com
10
http://www.kdnuggets.com
11
modles
Construire des modles a toujours t une activit
des statisticiens. Un modle est un rsum global
des relations entre variables, permettant de
comprendre des phnomnes, et dmettre des
prvisions. Tous les modles sont faux, certains
* Box, G.E.P. and Draper, N.R.: Empirical Model-Building and Response Surfaces, p. 424, Wiley, 1987
13
Modles
Le DM ne traite pas destimation et de tests de
modles prspcifis, mais de la dcouverte de
modles laide dun processus de recherche
algorithmique dexploration de modles:
linaires ou non,
explicites ou implicites: rseaux de neurones, arbres de
dcision, SVM, rgression logistique, rseaux bayesiens.
14
15
Information
Connaissance
analyse
16
17
18
2. Trois techniques
emblmatiques du Data Mining
Une mthode non supervise:
Rgles dassociation
19
20
PROBLEMATIQUE INDUSTRIELLE
Les donnes
Plus de 80000 vhicules dcrits par plus de 3000 attributs binaires
Vhicules
A1
A2
A3
A4
A5
Ap
{A1, A4}
{A3, A4}
{A2, A5}
{A3}
21
Vhicules
Attributs prsents
{A2, A5}
{A1, A5}
{A2, A5, Ap}
Donnes de transaction
Formalisation :
AC
AC=
s(A C) = 30 %
30% des transactions
contiennent la fois
+
+
P( A )
sup( A )
Algorithmes :
Recherche des sous-ensembles frquents (avec minsup)
Extraction des rgles d'association (avec minconf)
22
c(A C) = 90 %
90% des transactions
qui contiennent
+
contiennent aussi
Apriori (Agrawal & Srikant, 1994)
Partition (Saverese et al., 1995)
Sampling (Brin & Motwani, 1997)
Eclat (Zaki, 2000)
FP-Growth (Han & Pei, 2003)
Nombre de
vhicules
9727
12 %
8106
10 %
6485
8%
4863
6%
3242
4%
1621
2%
4 attributs en moyenne
23
Support minimum
(nb de vhicules vrifiant la rgle)
Confiance
minimum
Nombre de
rgles
500
50 %
16
400
50 %
29
300
50 %
194
250
50 %
1299
200
50 %
102 981
10
100
50 %
1 623 555
13
Rduire le nombre et la
complexit des rgle tout
en gardant une valeur
faible pour le support
minimum
Rsultats :
24
E
V W
U T
Nombre de
rgles
Complexit
maximum
Rduction du nombre
de rgles
1 623 555
13
600636
12
60%
218
99%
P AC
lift( A C )
P( A ).P( C )
25
26
27
La mthode CART
30
(arbres binaires)
31
32
Discrimination : T.E.A.
Reprsente la proportion dindividus mal classs dans
lensemble des segments terminaux
33
Discrimination : Slection du
meilleur sous-arbre
chantillon dapprentissage :
Construction de l arbre complet Amax, puis lagage : partir de l arbre
chantillon-test :
Choix de A* tel que lerreur de classement en test (ETC) vrifie :
35
36
37
38
Matrice de confusion
-----------------------------PREDIT
OBSERVE BON
MAUV
-----------------------------BON
163
25
MAUV
67
119
------------------------------
39
Avantages et inconvnients
Les mthodes de segmentation fournissent
une alternative intressante aux mthodes
paramtriques usuelles : elles ne ncessitent
pas dhypothse sur les donnes, et les
rsultats sont plus simples exploiter
MAIS : elles fournissent souvent des arbres
instables (une division conditionne les
suivantes, les branches coupes ne
repoussent pas...).
40
2.3 Le scoring
Prdire une variable deux modalits :
ex.: qualit dun client, survie dun malade
etc.
Construction dune note de risque (score S)
combinaison des prdicteurs
Fixation dun seuil de dcision
Si S>s on classe dans une modalit, sinon dans
lautre
41
Exemple assurance
(SPAD)
42
ACM
43
2 F
4 F
6 F
7 F
6
7
0.064
-0.001
11 F 11
-0.056
3 F
5 F
0.055
0.7149
-0.078
-0.8211
0.083
1.2581
8 F 8
9 F 9
10 F 10
-0.030
0.090
-0.074
-0.150
-0.4615
1.0274
0.2169
1.3133
-1.1383
-3.3193
-1.4830
CONSTANTE
0.093575
..............................................................................
R2 =
0.57923
F =
91.35686
D2 =
5.49176
T2 = 1018.69159
..............................................................................
44
scores normaliss
Echelle de 0 1000
Transformation linaire du score et du seuil
45
46
47
48
exp( S (x))
e
P(G1|x)
0 1 x1 ... p x p
1 exp( S (x)) 1 e
Estimation directe de la probabilit a
posteriori
Maximum de vraisemblance conditionnel au
lieu des moindres carrs.
49
51
courbe ROC
Une synthse de la performance dun score quand
le seuil s varie. x est class en G1 si S(x) > s
La courbe ROC relie le taux de vrais positifs 1- au
taux de faux ngatifs .
52
L AUC
La surface sous la courbe ROC est un indice global
de performance variant de 0.5 1
Indice de Gini: deux fois la surface entre la courbe
et la diagonale G=2AUC-1
AUC et G permettent de choisir entre plusieurs
modles si les courbes ne se croisent pas
Mais attention ne pas comparer sur lchantillon
dapprentissage un modle simple avec un modle
complexe.
53
ROC curve
1,0
scdisc
sclogist
Reference line
Sensitivity
0,8
0,6
AUC
Std Err.
0,4
0,2
Lower bound
Upper bound
Scdisc
0.839
0.015
0.810
0.868
Sclogist
0.839
0.015
0.811
0.868
0,0
0,0
0,2
0,4
0,6
0,8
1,0
1 - Specificity
54
Courbe de lift
% de la cible
55
Coefficient Ki (Kxen)
Ki=(surface entre lift estim et alatoire) /
(surface entre lift idal et alatoire)
Ki=2AUC-1=G
56
5. Construction et choix de
modles: thorie de
lapprentissage
57
De Guillaume dOckham
Vladimir Vapnik
Guillaume dOckham 1319
58
59
Apprentissage, gnralisation et
complexit
Mesures derreur
Risque empirique sur les donnes utilises
Risque R sur de futures donnes gnralisation
Comportement
selon le nombre de donnes disponibles
selon la complexit du modle
60
61
63
64
Exemple
En 2-D, la VC dimension des classifieurs linaires
non contraints est 3
(en p-D VCdim=p+1)
65
66
La rgression ridge
La VC dimension de lensemble des
p
indicatrices linaires
f ( X , w ) sign i 1 wi xi 1
X R
satisfaisant la condition :
1
i 1 w
C
p
2
i
67
68
Ingalit de Vapnik
Avec la probabilit 1- :
R Remp
h ln 2n h 1 ln ( 4)
n
n fix
71
Contrle de h
72
Les 3 chantillons:
Apprentissage: pour estimer les paramtres des
modles
Test : pour choisir le meilleur modle
Validation : pour estimer la performance sur des
donnes futures
Rchantillonner: validation croise, bootstrap
Modle final: avec toutes les donnes disponibles
73
74
Variabilit
ROC curve
ROC curve
ROC curve
1,0
1,0
1,0
scdisc5
sclogist5
Reference line
0,6
0,6
0,6
0,4
0,4
0,4
0,2
0,2
0,2
0,0
0,0
0,2
0,4
0,6
1 - Specificity
0,8
1,0
0,0
scdisc23
sclogist23
Reference line
0,8
Sensitivity
0,8
Sensitivity
Sensitivity
0,8
scdisc20
sclogist20
Reference line
0,0
0,0
0,2
0,4
0,6
1 - Specificity
0,8
1,0
0,0
0,2
0,4
0,6
0,8
1,0
1 - Specificity
75
76
Paradoxe n 1
Un bon modle statistique ne donne pas
ncessairement des prdictions prcises au
niveau individuel. Exemple facteurs de risque en
pidmiologie
Paradoxe n2
On peut prvoir sans comprendre:
pas besoin dune thorie du consommateur pour faire
du ciblage
un modle nest quun algorithme
77
80
Rfrences
Acadmie des Sciences (2000): Rapport sur la science et la
technologie n8, La statistique,
J.Friedman (1997) : Data Mining and statistics, whats the
connection? http://www-stat.stanford.edu/~jhf/ftp/dmstat.ps
Hastie, Tibshirani, Friedman (2009): The Elements of
Statistical Learning, 2nd edition, Springer-Verlag,
http://www-stat.stanford.edu/~hastie/Papers/ESLII.pdf
Nisbet R., Elder J., Miner G. (2009):Handbook of Statistical
Analysis and Data Mining Applications, Academic Press
Tuffry, S. (2009) Data Mining et Statistique Dcisionnelle,
3me dition,Technip
81