Professional Documents
Culture Documents
V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Data Mining
Vincent Augusto
Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives
1/65
Ecole
Nationale Sup
erieure des Mines de Saint-Etienne
2012-2013
Data Mining
V. Augusto
1 Introduction
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives
3 Extraction de connaissances
4 Post-traitement
5 Exemple de repr
esentation : Arbres de decision
6 Perspectives
2/65
Data Mining
Definition generale
V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives
structures particuli`eres,
restituant linformation utile,
tout en r
eduisant la quantite de donnees.
3/65
Data Mining
Objectif
V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives
4/65
Mais :
Data Mining
Des statistiques...
V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives
Statistiques :
Quelques centaines dindividus.
Quelques variables recueillies avec un protocole sp
ecial
Analyse de donnees :
Quelques milliers dindividus.
Plusieurs dizaines de variables.
Construction de tableaux Individus Variables.
Importance de la repr
esentation visuelle.
5/65
Data Mining
V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Contexte actuel :
Quelques millions dindividus.
Quelques centaines de variables.
De nombreux types de variables (num
eriques ou
symboliques).
Extraction de
connaissances
Donn
ees recueillies souvent avant letude et `a dautres fins.
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives
Nouvel objectif :
On ne cherche pas toujours loptimum math
ematique.
On recherche le mod`
ele le plus facile `
a appr
ehender par
6/65
Data Mining
Domaines dapplication
V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives
7/65
Domaines concernes :
Customer Relationship Management (CRM).
D
etection de fraude (CB, telephone mobile).
Text Mining (
etude de mails de reclamation, extraction et
Data Mining
V. Augusto
Domaines dapplication
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives
8/65
Domaines pluridisciplinaires :
Analyse de donn
ees, statistiques, probabilites.
Bases de donn
ees.
Intelligence artificielle :
syst`
emes experts ;
apprentissage automatique ;
logique.
Sciences cognitives :
neurosciences ;
psychologie exp
erimentale ;
philosophie...
Data Mining
V. Augusto
1 Introduction
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives
3 Extraction de connaissances
4 Post-traitement
5 Exemple de repr
esentation : Arbres de decision
6 Perspectives
9/65
Data Mining
V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives
10/65
Data Mining
V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Extraction de
connaissances
Posttraitement
Caracteristiques :
Chaque supermarch
e poss`ede sa propre base.
Informations sur les clients :
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives
11/65
Data Mining
V. Augusto
1 Introduction
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives
3 Extraction de connaissances
4 Post-traitement
5 Exemple de repr
esentation : Arbres de decision
6 Perspectives
12/65
Data Mining
V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives
Objectif :
Supprimer les donnees bruitees ou non pertinentes.
Questions :
Que faire si certaines donn
ees sont manquantes ?
Certains clients nont pas donn
e leur adresse.
Toutes les donn
ees sont-elles fiables (probl`emes
dinconsistance) ?
Un m
eme article appartient `a differentes categories (dans
13/65
o`
u la technique dextraction ne peut manipuler que des
donnees symboliques ?
Data Mining
Donnees manquantes
V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives
14/65
Solutions :
Ne pas tenir compte des tuples contenant des donn
ees
Data Mining
Donnees bruitees
V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives
Data Mining
Donnees bruitees
V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives
attribut X .
Ann
ees dexperience X et salaire Y.
16/65
Data Mining
V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Extraction de
connaissances
Donnees de depart :
Un ensemble de couples (Xi , Yi ).
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
a=
Perspectives
17/65
cov(x, y )
.
V (x)
aX
.
b=Y
Data Mining
Donnees inconsistantes
V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives
18/65
respectees.
Exemples :
La contrainte I IDI CATEGORY nest pas respect
ee au
moment de lintegration des donnees.
Unicit
e de cles non respectee.
Data Mining
V. Augusto
1 Introduction
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives
3 Extraction de connaissances
4 Post-traitement
5 Exemple de repr
esentation : Arbres de decision
6 Perspectives
19/65
Data Mining
V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives
20/65
Objectif :
Regrouper les donnees provenant de differentes sources.
Problematique typique lors de la construction dentrepots de
donnees.
Exemple :
Un attribut nomme C ID dans la BD de Paris peut tr`es bien se
nommer CUST ID dans la BD de Londres.
Utilisation de meta-donnees (XML) pour la mise en
correspondance.
Data Mining
V. Augusto
1 Introduction
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives
3 Extraction de connaissances
4 Post-traitement
5 Exemple de repr
esentation : Arbres de decision
6 Perspectives
21/65
Data Mining
V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives
Lissage de donn
ees : utilisation de techniques de
regression.
Normalisation des donn
ees : normaliser certains
mois plut
ot que par jour.
G
en
eralisation des donn
ees : remplacer les donnees
postal.
22/65
Remplacer l
age des clients par
senior .
jeune
adulte
Data Mining
V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives
23/65
Data Mining
V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives
pi . log(pi ) avec pi =
Proprietes :
Ent(S) est maximale (
egale `
a 0) si les donnees sont
|Ci |
|S| .
Data Mining
V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives
25/65
Methode :
D
ecouper S = [a, b] en S1 = [a, c] et S2 = [c, b].
Maximiser le gain dinformation
I (S, c) =
|S1 |
|S| Ent(S1 )
|S2 |
|S| Ent(S2 )
Ent(S).
Arr
et du decoupage si le gain devient insuffisant, quel que
soit c.
Data Mining
V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives
26/65
Variation de lentropie
Data Mining
V. Augusto
1 Introduction
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives
3 Extraction de connaissances
4 Post-traitement
5 Exemple de repr
esentation : Arbres de decision
6 Perspectives
27/65
Data Mining
V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives
28/65
Objectif :
Garder uniquement les donnees pertinentes pour letude `a
realiser.
Exemple :
Doit-on sint
eresser `
a toutes les categories de produits de
vente ?
Doit-on sint
eresser aux ventes realisees il y a plus dun
an ?
Data Mining
V. Augusto
1 Introduction
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives
3 Extraction de connaissances
4 Post-traitement
5 Exemple de repr
esentation : Arbres de decision
6 Perspectives
29/65
Data Mining
V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives
dextraction.
Plusieurs m
ethodes : echantillonnage aleatoire (avec ou
corrA,B =
P(AB)
P(A).P(B)
P(B/A)
P(B)
Ind
ependance : corrA,B = 1 si P(B/A) = P(B).
30/65
Corr
elation positive : corrA,B > 1 si P(B/A) > P(B).
Data Mining
Matrice de contingence
V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives
Avec pain
4.000
2.000
6.000
Sans pain
3.500
500
4.000
Analyse de correlation :
P(Beurre) =
7.500
10.000
4.000
10.000 = 0.4.
0.4
0.750.6 = 0.89 <
P(Beurre Pain) =
1
Indique une correlation negative.
corrPain,Beurre =
31/65
Total
7.500
2.500
10.000
Data Mining
Qualite de la correlation
V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives
Coefficient de correlation :
rA,B =
avec X =
(Ai A)(B
i B)
A .B
pP
)2 .
(Xi X
Signification :
Plus rA,B seloigne de zero, meilleure est la correlation :
rA,B = +1 : corr
elation positive parfaite.
rA,B = 1 : corr
elation negative parfaite.
rA,B = 0 : absence totale de corr
elation.
32/65
Data Mining
V. Augusto
1 Introduction
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives
3 Extraction de connaissances
4 Post-traitement
5 Exemple de repr
esentation : Arbres de decision
6 Perspectives
33/65
Data Mining
V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives
34/65
Extraction de connaissances
Data Mining
V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives
donnees.
Pas de variable
cible
a predire.
`
Exemples :
Techniques de segmentation/clustering : nu
ees
Extraction de r`
egles dassociation.
Data Mining
V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives
36/65
informations presentes.
Cas general du scoring (impayes, attrition, credit).
Permettent d expliquer
Il existe une variable
cible
les donnees.
a predire.
`
Exemples :
Classification/discrimination (variable cible qualitative) :
analyse discriminante ;
arbres de classification ;
r
eseaux neuronaux multi-couches.
Pr
ediction (variable cible quantitative) :
r
egression lineaire (simple et multiple) ;
arbres de r
egression.
Data Mining
V. Augusto
1 Introduction
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives
3 Extraction de connaissances
4 Post-traitement
5 Exemple de repr
esentation : Arbres de decision
6 Perspectives
37/65
Data Mining
V. Augusto
Post-traitement
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives
Pr
esentation des connaissances.
38/65
Data Mining
V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives
39/65
Probl`eme :
Formules logiques :
[1.402].
Age(X , jeune), Revenu(X , bas) class(X , B)
[1.038].
Age(X , senior ) class(X , C ) [2.160].
Data Mining
V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Tableau :
Age
jeune
jeune
senior
senior
Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives
40/65
Arbre de decision :
Revenu
eleve
bas
eleve
bas
Class
A
B
C
C
Count
1.402
1.038
786
1.374
Data Mining
V. Augusto
1 Introduction
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives
3 Extraction de connaissances
4 Post-traitement
5 Exemple de repr
esentation : Arbres de decision
6 Perspectives
41/65
Data Mining
Generalites
V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives
Les origines :
Intelligence artificielle [Quinlan, 1983].
Statistiques [Breiman, 1986].
Points forts :
Applicables `
a la fois `
a des attributs numeriques et
symboliques.
Intelligibilit
e de la procedure de decision.
Rapidit
e de la decision.
Invariance des r
esultats `
a toute transformation monotone
des donnees.
Probl`eme :
42/65
Data Mining
Principe de construction
V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives
43/65
Donnees :
Ensemble de K classes C1 , C2 , . . . , CK .
Ensemble dobjets d
ecrits selon N + 1 attributs ou
variables :
N variables descriptives (taille, couleurs, forme, etc.)
1 variable de cat
egorie : `a quelle classe appartient un objet
Principe de lalgorithme :
Partitionnement successif de lensemble de donnees.
Data Mining
V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
X?
Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives
44/65
Variable quantitative X
X < ?
Data Mining
V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Extraction de
connaissances
Variable qualitative X
avec M modalites dans E = {e1 , . . . , em }.
X E E ?
X?
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives
45/65
e1
e2
eM
Data Mining
V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives
46/65
Principe :
Partitionner les donnees en sous-ensembles les plus
purs possibles, i.e. contenant des objets dune seule classe.
Pk log2 Pk .
P
Crit`
ere de Gini : G (S) = 1 k Pk2 .
k
Data Mining
V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Definition :
I = I (S) PL I (SL ) PR I (SR )
avec PL = |S|S|L | et PR = |S|S|R | . I est la fonction dentropie.
Exemple :
S(20/30)
Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives
SL (15/5)
SR (5/25)
47/65
Data Mining
V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives
48/65
|Sk |
|S| .
Probl`eme :
Les variables avec un grand nombre de modalites induisent une
plus grande reduction de limpurete.
Gain ratio impurity
IK =
I
k Pk log Pk
Data Mining
Algorithme de construction
V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives
Arret :
Lorsquune feuille contient uniquement des objets dune
seule classe.
Lorsque le gain en information est inf
erieur `a un seuil
49/65
donne.
Data Mining
V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives
50/65
Exemple 1 (1/3)
Data Mining
V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives
51/65
Exemple 1 (2/3)
Data Mining
Exemple 1 (3/3)
V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
0
Y < 2, 5 ?
Cercle
Perspectives
Carr
e
52/65
Cercle
Data Mining
Exemple 2 (1/6)
V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives
53/65
id
1
2
3
4
5
6
7
8
9
10
11
12
13
14
age
<30
<30
30-40
>40
>40
>40
30-40
<30
<30
>40
<30
30-40
30-40
>40
income
high
high
high
medium
low
low
low
medium
low
medium
medium
medium
high
medium
student
no
no
no
no
yes
yes
yes
no
yes
yes
yes
no
yes
no
credit-rating
fair
good
fair
fair
fair
good
good
fair
fair
fair
good
good
fair
good
class
no
no
yes
yes
yes
no
yes
no
yes
yes
yes
yes
yes
no
Data Mining
V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives
54/65
Exemple 2 (2/6)
Entropie de d
epart : I (S) = 0, 940.
Avec lattribut age :
age < 30 : I (SL ) = 0, 971 et I (SR ) = 0, 764 donc
I = 0, 102.
age < 40 : I (SL ) = 0, 918 et I (SR ) = 0, 971 donc
I = 0, 003.
Avec lattribut income :
income = low : I (SL ) = 0, 811 et I (SR ) = 0, 971 donc
I = 0, 015.
income = medium : I (SL ) = 0, 918 et I (SR ) = 0, 954 donc
I = 0, 001.
income = high : I (SL ) = 1, 0 et I (SR ) = 0, 881 donc
I = 0, 025.
Avec lattribut student :
student = yes : I (SL ) = 0, 592 et I (SR ) = 0, 985 donc
I = 0.152.
Avec lattribut credit rating :
rating = fair : I (SL ) = 0, 811 et I (SR ) = 1, 0 donc
I = 0, 048.
Data Mining
Exemple 2 (3/6)
V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives
55/65
student
id
5
6
7
9
10
11
13
1
2
3
4
8
12
14
= yes
age
>40
>40
30-40
<30
>40
<30
30-40
<30
<30
30-40
>40
<30
30-40
>40
income
low
low
low
low
medium
medium
high
high
high
high
medium
medium
medium
medium
student
yes
yes
yes
yes
yes
yes
yes
no
no
no
no
no
no
no
credit-rating
fair
good
good
fair
fair
good
fair
fair
good
fair
fair
fair
good
good
class
yes
no
yes
yes
yes
yes
yes
no
no
yes
yes
no
yes
no
Data Mining
V. Augusto
Exemple 2 (4/6)
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives
56/65
Entropie de d
epart (student = no) : I (S) = 0, 985.
Avec lattribut age :
age < 30 : I (SL ) = 0 et I (SR ) = 0, 811 donc I = 0,522.
age < 40 : I (SL ) = 0, 811 et I (SR ) = 1, 0 donc
I = 0, 006.
Avec lattribut income :
income = medium : I (SL ) = 1, 0 et I (SR ) = 0, 918 donc
I = 0, 020.
income = high : I (SL ) = 1, 0 et I (SR ) = 0, 918 donc
I = 0, 020.
Avec lattribut credit rating :
rating = fair : I (SL ) = 1, 0 et I (SR ) = 0, 918 donc
I = 0, 020.
Data Mining
Exemple 2 (5/6)
V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives
57/65
age < 30
id age
5
>40
6
>40
7
30-40
9
<30
10 >40
11 <30
13 30-40
1
<30
2
<30
8
<30
3
30-40
4
>40
12 30-40
14 >40
income
low
low
low
low
medium
medium
high
high
high
medium
high
medium
medium
medium
student
yes
yes
yes
yes
yes
yes
yes
no
no
no
no
no
no
no
credit-rating
fair
good
good
fair
fair
good
fair
fair
good
fair
fair
fair
good
good
class
yes
no
yes
yes
yes
yes
yes
no
no
no
yes
yes
yes
no
Data Mining
Exemple 2 (6/6)
V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Yes
0
age < 30 ?
No
Yes
Perspectives
58/65
Data Mining
R`egles darret
V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives
dinformation ;
la partition qui serait obtenue sous lhypoth`
ese
dindependance.
59/65
Data Mining
V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives
60/65
Elagage
de larbre :
Laisser larbre pousser jusqu`
a lobtention de feuilles
de co
ut-capacite. [Breiman, Olshen et Stone, 1984]
Data Mining
V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives
61/65
Bagging :
Am
elioration de la stabilite de la methode de classification.
Data Mining
Conclusion
V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives
Avantages :
Applicables `
a des variables quantitatives ou qualitatives.
Intelligibilit
e de la procedure de classification (avec une
de larbre).
Invariance `
a toute transformation monotone des donnees.
S
electionne automatiquement les variables les plus
importantes.
Probl`emes :
Performance sur de grands volumes de donn
ees ?
62/65
Data Mining
V. Augusto
1 Introduction
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives
3 Extraction de connaissances
4 Post-traitement
5 Exemple de repr
esentation : Arbres de decision
6 Perspectives
63/65
Data Mining
Probl`emes et perspectives
V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Probl`eme de performance :
Les volumes de donnees `
a traiter peuvent etre tr`es importants.
Solutions :
Extraction de
connaissances
Calcul parall`
ele et/ou distribue : utilisation de grilles de
Posttraitement
calcul.
Techniques incr
ementales :
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives
64/65
utilisation de r
esultats anterieurs pour loptimisation des
Data Mining
V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees
Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives
65/65
Probl`emes et perspectives
Traitement de donnees de differents types :
Feuilles de calcul MS Excel.
Bases de donn
ees transactionnelles.
Bases de donn
ees relationnelles.
Structures complexes : donn
ees spatiales, temporelles, etc.
(tendances).
Introduction de nouveaux langages : MSQL, MINE-RULE,
DMQL...
Syntaxes proches de SQL.
Pas de th
eorie generale et/ou dalg`ebre.