You are on page 1of 65

Data Mining

V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

Data Mining
Vincent Augusto

Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives

1/65

Ecole
Nationale Sup
erieure des Mines de Saint-Etienne

2012-2013

Data Mining
V. Augusto

1 Introduction

Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

2 Traitement des donn


ees

Nettoyage des donnees


Integration des donnees
Transformation des donnees
Selection des donnees
Reduction des donnees

Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives

3 Extraction de connaissances
4 Post-traitement
5 Exemple de repr
esentation : Arbres de decision
6 Perspectives

2/65

Data Mining

Definition generale

V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

Le data mining est lensemble des algorithmes et


methodes :
destin
es `a lexploration et `
a lanalyse,
pour de grandes bases de donn
ees informatiques,
sans a priori.

Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives

Le data mining permet la detection dans les donnees :


de r`
egles, dassociations, de tendances inconnues, de

structures particuli`eres,
restituant linformation utile,
tout en r
eduisant la quantite de donnees.

3/65

pour laide `a la decision.

Data Mining

Objectif

V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives

4/65

On ne veut plus seulement savoir :


Combien de clients ont achete tel produit pendant telle
periode ?

Mais :

Quel est le profil des clients ?

Quels autres produits les interesseront ?

Quand seront-ils interesses ?

Data Mining

Des statistiques...

V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives

Statistiques :
Quelques centaines dindividus.
Quelques variables recueillies avec un protocole sp
ecial

(echantillonnage, plan dexperience).


Hypoth`
eses fortes (`
a priori) sur les lois statistiques suivies.

Analyse de donnees :
Quelques milliers dindividus.
Plusieurs dizaines de variables.
Construction de tableaux Individus Variables.
Importance de la repr
esentation visuelle.

5/65

Data Mining

... au data mining.

V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

Contexte actuel :
Quelques millions dindividus.
Quelques centaines de variables.
De nombreux types de variables (num
eriques ou

symboliques).

Extraction de
connaissances

Donn
ees recueillies souvent avant letude et `a dautres fins.

Posttraitement

Mise en uvre de calculs rapides.

Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives

Nouvel objectif :
On ne cherche pas toujours loptimum math
ematique.
On recherche le mod`
ele le plus facile `
a appr
ehender par

6/65

un utilisateur non statisticien.

Data Mining

Domaines dapplication

V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives

7/65

Domaines concernes :
Customer Relationship Management (CRM).
D
etection de fraude (CB, telephone mobile).
Text Mining (
etude de mails de reclamation, extraction et

classification de connaissance dans les textes).


Web Mining (personnalisation de sites web en fonction des

habitudes et du contenu examine).


Aide au diagnostic m
edical.

Exemple : en fonction de points communs detectes avec


les symptomes dautres patients connus, le syst`eme peut
categoriser de nouveaux patients au vu de leurs analyses
medicales en risque estime (probabilite) de developper telle
ou telle maladie.

Data Mining
V. Augusto

Domaines dapplication

Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives

8/65

Domaines pluridisciplinaires :
Analyse de donn
ees, statistiques, probabilites.
Bases de donn
ees.
Intelligence artificielle :
syst`
emes experts ;
apprentissage automatique ;
logique.
Sciences cognitives :
neurosciences ;
psychologie exp
erimentale ;
philosophie...

Data Mining
V. Augusto

1 Introduction

Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

2 Traitement des donn


ees

Nettoyage des donnees


Integration des donnees
Transformation des donnees
Selection des donnees
Reduction des donnees

Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives

3 Extraction de connaissances
4 Post-traitement
5 Exemple de repr
esentation : Arbres de decision
6 Perspectives

9/65

Data Mining
V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives

10/65

Decouverte des connaissances

Data Mining
V. Augusto

Decouverte des connaissances

Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

Extraction de
connaissances
Posttraitement

Exemple de base de donnees :


Un ensemble de supermarches localises dans differentes villes,
en France et `a letranger.

Caracteristiques :
Chaque supermarch
e poss`ede sa propre base.
Informations sur les clients :

Customer(c id, c name, c addr, c job, ...)

Exemple de
repr
esentation :
Arbres de
d
ecision

Informations sur les produits/articles en vente :

Perspectives

Informations sur les achats/transactions r


ealisees (pour

Item(i id, i name, i category, ...)


chaque transaction, les articles sont stockes un par un) :
Transaction(t id, c id, i id, t date, ...)

11/65

Data Mining
V. Augusto

1 Introduction

Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

2 Traitement des donn


ees

Nettoyage des donnees


Integration des donnees
Transformation des donnees
Selection des donnees
Reduction des donnees

Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives

3 Extraction de connaissances
4 Post-traitement
5 Exemple de repr
esentation : Arbres de decision
6 Perspectives

12/65

Data Mining

Nettoyage des donnees

V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives

Objectif :
Supprimer les donnees bruitees ou non pertinentes.

Questions :
Que faire si certaines donn
ees sont manquantes ?
Certains clients nont pas donn
e leur adresse.
Toutes les donn
ees sont-elles fiables (probl`emes

dinconsistance) ?
Un m
eme article appartient `a differentes categories (dans

des magasins differents).


Le prix dun m
eme article est tr`es superieur `a la normale

dans un magasin donne.


Que faire si certaines donn
ees sont numeriques dans le cas

13/65

o`
u la technique dextraction ne peut manipuler que des
donnees symboliques ?

Data Mining

Donnees manquantes

V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives

14/65

Solutions :
Ne pas tenir compte des tuples contenant des donn
ees

manquantes (valeurs nulles).


Remplir manuellement les champs non remplis.
Utiliser les valeurs connues :
Remplacer un salaire manquant par le salaire m
edian des
clients.
Pr
edire les valeurs manquantes, en le deduisant dautres
param`etres (salaire `a partir de lage et de la profession).

Data Mining

Donnees bruitees

V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives

Plusieurs solutions : lissage, segmentation, regression lineaire.

Techniques de lissage (data smoothing) :


1

Trier les differentes valeurs de lattribut considere.


{4, 8, 15, 21, 21, 24, 25, 28, 34}

Partitionner lensemble resultat.


{{4, 8, 15}, {21, 21, 24}, {25, 28, 34}}
Remplacer les valeurs initiales par de nouvelles valeurs en
fonction du partitionnement realise :

par la valeur moyenne des regroupements r


ealises

{9, 22, 29}


par les min et max des regroupements r
ealises.

{{4, 4, 15}, {21, 21, 24}, {25, 25, 34}}


15/65

Implique une perte de precision ou dinformation.

Data Mining

Donnees bruitees

V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives

Techniques de segmentation (clustering) :


Les valeurs similaires sont plac
ees dans une meme classe.
On ne tient pas compte des valeurs isol
ees (dans une

classe comportant trop peu delements).

Techniques de regression lineaire :


Hypoth`
ese : un attribut Y depend lineairement dun

attribut X .
Ann
ees dexperience X et salaire Y.

Trouver les coefficients a et b tels que Y = aX + b.


Remplacer les valeurs de Y par celles pr
edites.

16/65

Data Mining

Donnees bruitees : regression


lineaire

V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

Extraction de
connaissances

Donnees de depart :
Un ensemble de couples (Xi , Yi ).

Determination des coefficients :

Posttraitement

et Y les valeurs moyennes des attributs X et Y .


Soient X

Exemple de
repr
esentation :
Arbres de
d
ecision

a=

Perspectives

17/65

cov(x, y )
.
V (x)
aX
.
b=Y

Data Mining

Donnees inconsistantes

V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives

18/65

Donnees inconsistantes dans une base de donnees :


Contraintes dint
egrites ou dependances fonctionnelles non

respectees.
Exemples :
La contrainte I IDI CATEGORY nest pas respect
ee au
moment de lintegration des donnees.
Unicit
e de cles non respectee.

Data Mining
V. Augusto

1 Introduction

Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

2 Traitement des donn


ees

Nettoyage des donnees


Integration des donnees
Transformation des donnees
Selection des donnees
Reduction des donnees

Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives

3 Extraction de connaissances
4 Post-traitement
5 Exemple de repr
esentation : Arbres de decision
6 Perspectives

19/65

Data Mining

Integration des donnees

V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives

20/65

Objectif :
Regrouper les donnees provenant de differentes sources.
Problematique typique lors de la construction dentrepots de
donnees.

Exemple :
Un attribut nomme C ID dans la BD de Paris peut tr`es bien se
nommer CUST ID dans la BD de Londres.
Utilisation de meta-donnees (XML) pour la mise en
correspondance.

Data Mining
V. Augusto

1 Introduction

Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

2 Traitement des donn


ees

Nettoyage des donnees


Integration des donnees
Transformation des donnees
Selection des donnees
Reduction des donnees

Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives

3 Extraction de connaissances
4 Post-traitement
5 Exemple de repr
esentation : Arbres de decision
6 Perspectives

21/65

Data Mining

Transformation des donnees

V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives

Lissage de donn
ees : utilisation de techniques de

regression.
Normalisation des donn
ees : normaliser certains

attributs numeriques afin quils varient entre 0 et 1.


Pour ne pas privil
egier les attributs ayant les plus grands

domaines de variation (salaire/age).


Agr
egation des donn
ees : operations OLAP (On-Line

Analytical Processing) permettant une analyse


multidimensionnelle sur les BD volumineuses afin de
mettre en evidence une analyse particuli`ere des donnees.
Calculer les niveaux de ventes r
ealisees de tel produit par

mois plut
ot que par jour.
G
en
eralisation des donn
ees : remplacer les donnees

finies par des donnees de plus haut niveau.


Remplacer les adresses precises des clients par leur code

postal.
22/65

Remplacer l
age des clients par

senior .

jeune

adulte

Data Mining
V. Augusto

Discretisation des connaissances

Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives

23/65

Repartition des valeurs des attributs :


` chaque etape, on cherche `
A
a decouper lintervalle de variation
des donnees en K intervalles comportant le meme nombre de
valeurs.
On divise C AGE= [0, 100] en A1 = [0, 20] et A2 = [20, 100] si
50 % des clients ont moins de 20 ans.

Entropie et classification `a priori des donnees :


On cherche `a caracteriser les individus achetant les differents
types de lait (entier, demi-ecreme, ecreme).

Facilite `a apprehender le decoupage obtenu :


On veut obtenir des intervalles du type [12.5, 0] plutot que
[12.536, 0.0005].

Data Mining
V. Augusto
Introduction

Discretisation basee sur lentropie


(1/2)

Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives

Entropie dun ensemble de donnees S :


Definition :
S est d
ecoupe en k classes C1 ,. . .,Ck .
Ent(S) =

pi . log(pi ) avec pi =

Proprietes :
Ent(S) est maximale (
egale `
a 0) si les donnees sont

reparties dans une seule et meme classe.


Ent(S) est minimale si les donn
ees sont uniformement

reparties dans toutes les classes.


24/65

|Ci |
|S| .

Data Mining

Discretisation basee sur lentropie


(2/2)

V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives

25/65

Methode :
D
ecouper S = [a, b] en S1 = [a, c] et S2 = [c, b].
Maximiser le gain dinformation

I (S, c) =

|S1 |
|S| Ent(S1 )

|S2 |
|S| Ent(S2 )

Ent(S).

Arr
et du decoupage si le gain devient insuffisant, quel que

soit c.

Data Mining
V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives

26/65

Variation de lentropie

Data Mining
V. Augusto

1 Introduction

Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

2 Traitement des donn


ees

Nettoyage des donnees


Integration des donnees
Transformation des donnees
Selection des donnees
Reduction des donnees

Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives

3 Extraction de connaissances
4 Post-traitement
5 Exemple de repr
esentation : Arbres de decision
6 Perspectives

27/65

Data Mining

Selection des donnees

V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives

28/65

Objectif :
Garder uniquement les donnees pertinentes pour letude `a
realiser.

Exemple :
Doit-on sint
eresser `
a toutes les categories de produits de

vente ?
Doit-on sint
eresser aux ventes realisees il y a plus dun

an ?

Data Mining
V. Augusto

1 Introduction

Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

2 Traitement des donn


ees

Nettoyage des donnees


Integration des donnees
Transformation des donnees
Selection des donnees
Reduction des donnees

Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives

3 Extraction de connaissances
4 Post-traitement
5 Exemple de repr
esentation : Arbres de decision
6 Perspectives

29/65

Data Mining

Reduction des donnees

V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives

Reduction en ligne par echantillonnage :


Pour des raisons de performance.
Du fait de la compl
exite importante des algorithmes

dextraction.
Plusieurs m
ethodes : echantillonnage aleatoire (avec ou

sans remise), echantillonnage par clustering/segmentation.

Reduction en colonne par suppression des attributs


redondants :
Cas triviaux (
age et date de naissance).
Via une analyse des corr
elation entre attributs :

corrA,B =

P(AB)
P(A).P(B)

P(B/A)
P(B)

Ind
ependance : corrA,B = 1 si P(B/A) = P(B).
30/65

Corr
elation positive : corrA,B > 1 si P(B/A) > P(B).

Data Mining

Matrice de contingence

V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

Exemple de matrice de contingence :


Avec beurre
Sans beurre
Total

Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives

Avec pain
4.000
2.000
6.000

Sans pain
3.500
500
4.000

Analyse de correlation :
P(Beurre) =

7.500
10.000

= 0.75 et P(Pain) = 0.6.

4.000
10.000 = 0.4.
0.4
0.750.6 = 0.89 <

P(Beurre Pain) =

1
Indique une correlation negative.

corrPain,Beurre =
31/65

Total
7.500
2.500
10.000

Data Mining

Qualite de la correlation

V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives

Coefficient de correlation :
rA,B =
avec X =

(Ai A)(B
i B)
A .B

pP
)2 .
(Xi X

Signification :
Plus rA,B seloigne de zero, meilleure est la correlation :
rA,B = +1 : corr
elation positive parfaite.
rA,B = 1 : corr
elation negative parfaite.
rA,B = 0 : absence totale de corr
elation.

32/65

Data Mining
V. Augusto

1 Introduction

Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

2 Traitement des donn


ees

Nettoyage des donnees


Integration des donnees
Transformation des donnees
Selection des donnees
Reduction des donnees

Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives

3 Extraction de connaissances
4 Post-traitement
5 Exemple de repr
esentation : Arbres de decision
6 Perspectives

33/65

Data Mining
V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives

34/65

Extraction de connaissances

Data Mining
V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives

Extraction de connaissances (1/2)


Techniques descriptives :
Visent `
a mettre en evidence des informations presentes,

mais cachees dans les gros volumes de donnees.


Cas de la segmentation de la client`ele, de la recherche
dassociation de produits sur les tickets de caisse.
Permettent de r
eduire, de resumer et de synthetiser les

donnees.
Pas de variable

cible

a predire.
`

Exemples :
Techniques de segmentation/clustering : nu
ees

dynamiques, segmentation hierarchique, reseaux de


neurones.
35/65

Extraction de r`
egles dassociation.

Data Mining
V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives

36/65

Extraction de connaissances (2/2)


Techniques predictives :
Visent `
a extrapoler de nouvelles informations `a partir des

informations presentes.
Cas general du scoring (impayes, attrition, credit).
Permettent d expliquer
Il existe une variable

cible

les donnees.

a predire.
`

Exemples :
Classification/discrimination (variable cible qualitative) :
analyse discriminante ;
arbres de classification ;
r
eseaux neuronaux multi-couches.
Pr
ediction (variable cible quantitative) :
r
egression lineaire (simple et multiple) ;
arbres de r
egression.

Data Mining
V. Augusto

1 Introduction

Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

2 Traitement des donn


ees

Nettoyage des donnees


Integration des donnees
Transformation des donnees
Selection des donnees
Reduction des donnees

Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives

3 Extraction de connaissances
4 Post-traitement
5 Exemple de repr
esentation : Arbres de decision
6 Perspectives

37/65

Data Mining
V. Augusto

Post-traitement

Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives

Pr
esentation des connaissances.
38/65

Visualisation des connaissances.


Manipulation des connaissances.

Data Mining

Presentation des connaissances

V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

Comment representer/visualiser les connaissances extraites ?

Extraction de
connaissances

Age(X , jeune), Revenu(X , eleve) class(X , A)

Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives

39/65

Probl`eme :
Formules logiques :
[1.402].
Age(X , jeune), Revenu(X , bas) class(X , B)

[1.038].
Age(X , senior ) class(X , C ) [2.160].

Data Mining

Presentation des connaissances

V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

Tableau :
Age
jeune
jeune
senior
senior

Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives

40/65

Arbre de decision :

Revenu
eleve
bas
eleve
bas

Class
A
B
C
C

Count
1.402
1.038
786
1.374

Data Mining
V. Augusto

1 Introduction

Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

2 Traitement des donn


ees

Nettoyage des donnees


Integration des donnees
Transformation des donnees
Selection des donnees
Reduction des donnees

Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives

3 Extraction de connaissances
4 Post-traitement
5 Exemple de repr
esentation : Arbres de decision
6 Perspectives

41/65

Data Mining

Generalites

V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives

Les origines :
Intelligence artificielle [Quinlan, 1983].
Statistiques [Breiman, 1986].

Points forts :
Applicables `
a la fois `
a des attributs numeriques et

symboliques.
Intelligibilit
e de la procedure de decision.
Rapidit
e de la decision.
Invariance des r
esultats `
a toute transformation monotone

des donnees.

Probl`eme :
42/65

Comment construire un arbre de decision `


a partir dun
ensemble de donnees ?

Data Mining

Principe de construction

V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives

43/65

Donnees :
Ensemble de K classes C1 , C2 , . . . , CK .
Ensemble dobjets d
ecrits selon N + 1 attributs ou

variables :
N variables descriptives (taille, couleurs, forme, etc.)
1 variable de cat
egorie : `a quelle classe appartient un objet

donne (raisin, pomme, banane, etc.) ?

Principe de lalgorithme :
Partitionnement successif de lensemble de donnees.

Data Mining
V. Augusto

Definition dune partition (1/2)

Introduction
Traitement
des donn
ees

Variable binaire X {1, 0}

Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

X?

Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives

44/65

Variable quantitative X
X < ?

Data Mining
V. Augusto

Definition dune partition (2/2)

Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

Extraction de
connaissances

Variable qualitative X
avec M modalites dans E = {e1 , . . . , em }.
X E E ?

X?

Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives

45/65

e1

e2

eM

Data Mining

Choix dune partition

V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives

46/65

Principe :
Partitionner les donnees en sous-ensembles les plus
purs possibles, i.e. contenant des objets dune seule classe.

Exemples de crit`eres dimpurete :


Soit un ensemble S partitionne en K classes C1 , . . . , CK . Soit
k|
Pk = |C
|S| .
Taux ditems mal class
es : T (S) = 1 maxk (Pk ).
Entropie : I (S) =

Pk log2 Pk .
P
Crit`
ere de Gini : G (S) = 1 k Pk2 .
k

Data Mining

Gain dinformation (1/2)

V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

Definition :
I = I (S) PL I (SL ) PR I (SR )
avec PL = |S|S|L | et PR = |S|S|R | . I est la fonction dentropie.

Exemple :
S(20/30)

Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives

SL (15/5)

SR (5/25)

I (S) = 20/50 log 2 (20/50) 30/50 log 2 (30/50) = 0, 971


I (SL ) = 15/20 log 2 (15/20) 5/20 log 2 (5/20) = 0, 811
I (SR ) = 5/30 log 2 (5/30) 25/30 log 2 (25/30) = 0, 65

47/65

I = 0, 971 20/50(0, 811) 30/50(0, 65) = 0, 26

Data Mining

Gain dinformation (2/2)

V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives

48/65

Cas dune partition quelconque :


P
I = I (S) k Pk I (Sk )
dans le cas o`
u S est decoupe en S1 , . . . , SK , avec Pk =

|Sk |
|S| .

Probl`eme :
Les variables avec un grand nombre de modalites induisent une
plus grande reduction de limpurete.
Gain ratio impurity
IK =

I
k Pk log Pk

Data Mining

Algorithme de construction

V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives

Partionnement dune feuille :


1

Pour chaque variable Xi , rechercher la partition optimale


Pi = {S1 , . . . , SN }, i.e. la partition maximisant le gain
dinformation.
(Si Xi est quantitatif, chercher le seuil maximisant le
gain dinformation.)

Choisir parmi toutes les partition Pi celle qui maximise le


gain dinformation.

Arret :
Lorsquune feuille contient uniquement des objets dune

seule classe.
Lorsque le gain en information est inf
erieur `a un seuil
49/65

donne.

Data Mining
V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives

50/65

Exemple 1 (1/3)

Data Mining
V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives

51/65

Exemple 1 (2/3)

Data Mining

Exemple 1 (3/3)

V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision

Arbre de decision final :


X < 1, 5 ?

0
Y < 2, 5 ?

Cercle

Perspectives

Carr
e
52/65

Cercle

Data Mining

Exemple 2 (1/6)

V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives

53/65

id
1
2
3
4
5
6
7
8
9
10
11
12
13
14

age
<30
<30
30-40
>40
>40
>40
30-40
<30
<30
>40
<30
30-40
30-40
>40

income
high
high
high
medium
low
low
low
medium
low
medium
medium
medium
high
medium

student
no
no
no
no
yes
yes
yes
no
yes
yes
yes
no
yes
no

credit-rating
fair
good
fair
fair
fair
good
good
fair
fair
fair
good
good
fair
good

class
no
no
yes
yes
yes
no
yes
no
yes
yes
yes
yes
yes
no

Data Mining
V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives

54/65

Exemple 2 (2/6)
Entropie de d
epart : I (S) = 0, 940.
Avec lattribut age :
age < 30 : I (SL ) = 0, 971 et I (SR ) = 0, 764 donc
I = 0, 102.
age < 40 : I (SL ) = 0, 918 et I (SR ) = 0, 971 donc
I = 0, 003.
Avec lattribut income :
income = low : I (SL ) = 0, 811 et I (SR ) = 0, 971 donc
I = 0, 015.
income = medium : I (SL ) = 0, 918 et I (SR ) = 0, 954 donc
I = 0, 001.
income = high : I (SL ) = 1, 0 et I (SR ) = 0, 881 donc
I = 0, 025.
Avec lattribut student :
student = yes : I (SL ) = 0, 592 et I (SR ) = 0, 985 donc
I = 0.152.
Avec lattribut credit rating :
rating = fair : I (SL ) = 0, 811 et I (SR ) = 1, 0 donc
I = 0, 048.

Data Mining

Exemple 2 (3/6)

V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives

55/65

student
id
5
6
7
9
10
11
13
1
2
3
4
8
12
14

= yes
age
>40
>40
30-40
<30
>40
<30
30-40
<30
<30
30-40
>40
<30
30-40
>40

income
low
low
low
low
medium
medium
high
high
high
high
medium
medium
medium
medium

student
yes
yes
yes
yes
yes
yes
yes
no
no
no
no
no
no
no

credit-rating
fair
good
good
fair
fair
good
fair
fair
good
fair
fair
fair
good
good

class
yes
no
yes
yes
yes
yes
yes
no
no
yes
yes
no
yes
no

Data Mining
V. Augusto

Exemple 2 (4/6)

Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives

56/65

Entropie de d
epart (student = no) : I (S) = 0, 985.
Avec lattribut age :
age < 30 : I (SL ) = 0 et I (SR ) = 0, 811 donc I = 0,522.
age < 40 : I (SL ) = 0, 811 et I (SR ) = 1, 0 donc
I = 0, 006.
Avec lattribut income :
income = medium : I (SL ) = 1, 0 et I (SR ) = 0, 918 donc
I = 0, 020.
income = high : I (SL ) = 1, 0 et I (SR ) = 0, 918 donc
I = 0, 020.
Avec lattribut credit rating :
rating = fair : I (SL ) = 1, 0 et I (SR ) = 0, 918 donc
I = 0, 020.

Data Mining

Exemple 2 (5/6)

V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives

57/65

age < 30
id age
5
>40
6
>40
7
30-40
9
<30
10 >40
11 <30
13 30-40
1
<30
2
<30
8
<30
3
30-40
4
>40
12 30-40
14 >40

income
low
low
low
low
medium
medium
high
high
high
medium
high
medium
medium
medium

student
yes
yes
yes
yes
yes
yes
yes
no
no
no
no
no
no
no

credit-rating
fair
good
good
fair
fair
good
fair
fair
good
fair
fair
fair
good
good

class
yes
no
yes
yes
yes
yes
yes
no
no
no
yes
yes
yes
no

Data Mining

Exemple 2 (6/6)

V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision

Arbre de decision final :


student ?

Yes

0
age < 30 ?

No

Yes

Perspectives

58/65

Data Mining

R`egles darret

V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

Extraction de
connaissances

Exemples de r`egles darret :


Nombre d
elements dans une feuille inferieur `a un seuil.
Taux de bien class
es dans une feuille superieur `a un seuil

(exemple : maxk (Pk ) > 95%).


Gain dinformation inf
erieur `
a un seuil (exemple : I < ).

Posttraitement

Autre approche : test du 2

Exemple de
repr
esentation :
Arbres de
d
ecision

Test de lindependance entre :

Perspectives

la partition obtenue par maximisation du gain

dinformation ;
la partition qui serait obtenue sous lhypoth`
ese

dindependance.
59/65

Data Mining

Pour aller plus loin...

V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives

60/65

Elagage
de larbre :
Laisser larbre pousser jusqu`
a lobtention de feuilles

pratiquement pures, puis couper des branches pour


simplifier larbre.
M
ethode : rechercher le sous-arbre minimisant la fonction

de co
ut-capacite. [Breiman, Olshen et Stone, 1984]

Data Mining

Pour aller plus loin...

V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives

61/65

Bagging :
Am
elioration de la stabilite de la methode de classification.

Data Mining

Conclusion

V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives

Avantages :
Applicables `
a des variables quantitatives ou qualitatives.
Intelligibilit
e de la procedure de classification (avec une

traduction possible sous forme de r`egles).


Rapidit
e du processus de classification (apr`es construction

de larbre).
Invariance `
a toute transformation monotone des donnees.
S
electionne automatiquement les variables les plus

importantes.

Probl`emes :
Performance sur de grands volumes de donn
ees ?

62/65

Choix des variables : arbres multi-vari


es potentiellement

plus performant, mais au detriment de lintelligibilite des


solutions proposees.

Data Mining
V. Augusto

1 Introduction

Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

2 Traitement des donn


ees

Nettoyage des donnees


Integration des donnees
Transformation des donnees
Selection des donnees
Reduction des donnees

Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives

3 Extraction de connaissances
4 Post-traitement
5 Exemple de repr
esentation : Arbres de decision
6 Perspectives

63/65

Data Mining

Probl`emes et perspectives

V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

Probl`eme de performance :
Les volumes de donnees `
a traiter peuvent etre tr`es importants.

Solutions :

Extraction de
connaissances

Calcul parall`
ele et/ou distribue : utilisation de grilles de

Posttraitement

calcul.
Techniques incr
ementales :

Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives

64/65

utilisation de r
esultats anterieurs pour loptimisation des

calculs de nouvelles requetes dextraction ;


stockage efficace des r
esultats de requetes dextraction.

Data Mining
V. Augusto
Introduction
Traitement
des donn
ees
Nettoyage des
donn
ees
Int
egration des
donn
ees
Transformation
des donn
ees
S
election des
donn
ees
R
eduction des
donn
ees

Extraction de
connaissances
Posttraitement
Exemple de
repr
esentation :
Arbres de
d
ecision
Perspectives

65/65

Probl`emes et perspectives
Traitement de donnees de differents types :
Feuilles de calcul MS Excel.
Bases de donn
ees transactionnelles.
Bases de donn
ees relationnelles.
Structures complexes : donn
ees spatiales, temporelles, etc.

Probl`eme de lheterogeneite des donnees.

Besoin de langages de requetes dextraction :


SQL ne permet pas de mesurer des notions floues

(tendances).
Introduction de nouveaux langages : MSQL, MINE-RULE,
DMQL...
Syntaxes proches de SQL.
Pas de th
eorie generale et/ou dalg`ebre.

You might also like