You are on page 1of 46

Stphane Tuffry

DATA MINING
& STATISTIQUE DCISIONNELLE

01/05/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Plan du cours

Quest-ce que le data mining ?


A quoi sert le data mining ?
Les 2 grandes familles de techniques
Le droulement dun projet de data mining
Cots et gains du data mining
Facteurs de succs - Erreurs - Consulting
Lanalyse et la prparation des donnes
Techniques descriptives de data mining
Techniques prdictives de data mining 1
Techniques prdictives de data mining 2 : rseaux
de neurones, SVM et algorithmes gntiques
Logiciels de statistique et de data mining
Informatique dcisionnelle et de gestion
CNIL et limites lgales du data mining
Le text mining
Le web mining

01/05/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Technique de classement ou de
prdiction :

Les rseaux de neurones

01/05/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Les rseaux de neurones

Un rseau de neurones : ensemble de nuds connects

entre eux, chaque variable correspondant un nud


Le plus courant est le perceptron :
n1

n2

p1
p2

donnes

n3

p3
p4

n4

s(n1p1+ + nkpk)

p5

couche de sortie
n5

couche d'entre

01/05/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Principe du perceptron multicouches

Lors de lapprentissage du rseau de neurones, pour

chaque exemple prsent en entre, la valeur renvoye


( rtropropage ) par le nud de sortie est compare
la valeur relle, et les poids pi sont ajusts
La fonction de combinaison inipi (produit scalaire) est
suivie dune fonction de transfert : souvent la sigmode

s(x) = 1 / [1 + exp(-x)]

Lchantillon

dapprentissage est parcouru plusieurs fois.


Lapprentissage sachve lorsque 1) une solution optimale
a t trouve ou 2) un nb fix ditrations a t atteint
Lapprentissage se fait en ajustant 1 1 chaque poids
(rtropropagation), ou par modification alatoire des
poids suivie dun mcanisme de slection (algorithme
gntique)

01/05/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

La fonction logistique
Fonction Sigmode

1/(1+exp(-x))

1,2
1
0,8
0,6
0,4
0,2
0
-5

-4

-3

-2

-1

01/05/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Les rseaux couches caches

On augmente le pouvoir de prdiction en ajoutant une

ou plusieurs couches caches entre les couches dentre


et de sortie
n1
ge

p1
q1

n2
nb enfants
revenus
donnes

n3

s(n ipi)

niqi

...

n4
...

nipi

s [.s(nipi)
+ .s( niq i)]

s(niqi)

p5
n5

q5

couche cache

couche de sortie

couche d'entre

01/05/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Les rseaux couches caches

Le pouvoir de prdiction augmente avec le nombre de


nuds des couches caches

le nb de couches caches est trs gnralement 1 ou 2


lorsque ce nombre = 0, le rseau effectue une rgression
linaire ou logistique (selon la fonction de transfert)

Mais ce dernier doit nanmoins tre limit pour que le


rseau de neurones ne se contente pas de mmoriser
lensemble dapprentissage mais puisse le gnraliser

sinon, il y a sur-apprentissage

Le fait que toutes les valeurs soient comprises entre 0 et

1 permet de prendre en entre dun nud la sortie dun


nud prcdent
Autre but de la normalisation des valeurs : viter que les
donnes avec de grandes valeurs crasent les autres

01/05/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Les rseaux plusieurs sorties

La couche de sortie du rseau peut parfois avoir

plusieurs nuds, lorsquil y a plusieurs valeurs prdire.


n1

n2

donnes

n3

n4

n5

couche cache

couche de sortie

couche d'entre

01/05/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Diffrents rseaux de neurones

Le

Perceptron multicouches est utilis pour prdire


une variable cible continue ou discrte
Le rseau fonction radiale de base ( radial basis
function RBF) est aussi utilis pour prdire une
variable cible continue ou discrte
Le rseau de Kohonen effectue les analyses
typologiques (clustering, recherche de segments)
Rseaux par estimation de densit de probabilit
de Speckt (1990)

PNN (probabilistic neural networks) : classement


GRNN (general regression neural networks) : rgression

Analyse discriminante gnralise : les Support


Vector Machines de Vladimir Vapnik (1998) sont
utilises pour prdire une variable cible discrte

01/05/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

10

Mise en uvre dun rseau

Les

tapes dans la mise en uvre dun rseau de


neurones pour la prdiction ou le classement sont :

identification des donnes en entre et en sortie


normalisation de ces donnes
constitution dun rseau avec une topologie adapte
apprentissage du rseau
test du rseau
application du modle gnr par lapprentissage
dnormalisation des donnes en sortie.

01/05/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

11

Quelques rgles empiriques

Il faut 5 10 individus pour ajuster chaque poids


On recommande davoir 1 unit cache (rseau RBF) ou 1

ou 2 (rseau PMC)
Un rseau n units dentre, 1 unit cache, m units
dans la couche cache et 1 unit de sortie a n.m+m poids
Il faut donc un chantillon dau moins 5(n.m+m) individus
pour lapprentissage
La valeur de m est gnralement comprise en n/2 et 2n
On a intrt diminuer n (en utilisant lACP par ex)
Pour un classement, m nombre de classes
Lchantillon dapprentissage ne doit pas tre tri selon un
ordre significatif, qui pourrait induire le rseau en erreur
Lchantillon dapprentissage doit couvrir tous les cas

01/05/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

12

Algorithmes dapprentissage 1/2

Levenberg-Marquardt

trs performant (converge plus rapidement et vers une


meilleure solution que la rtro-propagation)
ne fonctionne quavec un seul nud en sortie
requiert une grande capacit mmoire, proportionnelle n,
avec n = nb de nuds
=> limit des petits rseaux (peu de variables)

Descente du gradient conjugu

ses performances se rapproche de Levenberg-Marquardt en


terme de convergence
applicable des rseaux + complexes que LevenbergMarquardt (avec ventuellement plusieurs sorties)

01/05/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

13

Algorithmes dapprentissage 2/2

Rtro-propagation du gradient

le plus ancien et le plus rpandu


moins fiable (sensible aux minimas locaux)
utilis sur de grands volumes de donnes

Propagation rapide ( quick propagation )

pas toujours meilleurs que la rtro-propagation et parfois


pire
difficile paramtrer

Quasi-Newton
Algorithmes gntiques
01/05/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

14

Rtropropagation du gradient

Fonction derreur : mesure cart entre valeur attendue et

valeur fournie par le rseau


Chaque n-uplet (p1, p2, , pn) de poids peut tre
reprsent dans un espace n+1 dimensions, la dernire
dimension reprsentant la fonction derreur
Surface derreur : ensemble des valeurs (p1, p2, , pn,)
Modles linaires => surface derreur mathmatiquement
bien dfinie
Rseaux de neurones => surface derreur complexe
Il faut trouver son point le plus bas
Rtropropagation du gradient : dplacement sur la
surface derreur en suivant la ligne de plus grande pente

01/05/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

15

Convergence vers une mauvaise


solution

C
A

B
01/05/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

16

Paramtres de rtropropagation

Taux

dapprentissage : contrle limportance de la


modification
des
poids
durant
le
processus
dapprentissage

= contrle la vitesse de dplacement


+ il est lev, + lapprentissage est rapide mais + le rseau
risque de converger vers une solution globalement non
optimale

Moment : agit comme un paramtre damortissement en

rduisant les oscillations et en aidant atteindre la


convergence

= contrle la rapidit des changements de direction sur la


surface derreur
+ il est faible, + le rseau sadapte au terrain mais +
linfluence des donnes extrmes sur les poids se fait sentir

01/05/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

17

Contrle interactif de lapprentissage


Un graphique en
temps rel du taux
derreur en
apprentissage et
en validation
permet
dinterrompre
lapprentissage ds
lapparition de surapprentissage et la
hausse du taux
derreur en
validation

01/05/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

18

Rseaux PMC et RBF

rseau

PMC

RBF

poids p i

centre i

couche(s) fonction combinaison

produit scalaire i pixi

distance euclidienne i (xi i)

cache(s) fonction transfert

logistique s(X) = 1/(1 + exp(X))

gaussienne (X) = exp( X/2)

nb couches caches

=1

fonction combinaison

produit scalaire k pkxk

combinaison linaire de gaussiennes

poids

couche

k kk (voir ci-aprs)
de sortie

fonction transfert

logistique s(X) = 1/(1 + exp(X))

rapidit

plus rapide en mode application plus rapide en mode apprentissage


du modle

01/05/2007

fonction linaire f(X) = X

du modle

Stphane Tuffry - Data Mining - http://data.mining.free.fr

19

Rponse globale du rseau


chaque individu (xi)
nb de noeuds en entre

k 2
( xi i )

nb de noeuds cachs
1
i =1

exp

k
2
k
2

k =1

01/05/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

20

RBF : choix des paramtres initiaux

Solution simple

nombre de nuds : + grand quavec le perceptron


parfois plusieurs centaines

rpartition uniforme des k


j deux fois la distance moyenne entre les k

dans les zones de forte densit en observations


(adaptation aux X) et dans les zones o la donne
prdire varie rapidement (adaptation aux Y) :

Solution labore : adaptation aux donnes

k plus nombreux
k plus faibles

partitionnement par k-means ou Kohonen pour fixer les k


k-plus proches voisins pour fixer les k (prendre la
distance moyenne aux k-plus proches voisins)

01/05/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

21

RBF : choix des paramtres initiaux

Importance du choix des k

si trop grands => manque de prcision du rseau


si trop petits => sur-apprentissage => mauvaise
gnralisation du rseau

01/05/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

22

Comparaison PMC - RBF

PMC

meilleure capacit de gnralisation, notamment sur


donnes bruites
risque de convergence vers un optimum local non global
paramtres plus difficiles rgler

RBF

apprentissage plus rapide


plus facile de trouver les bons paramtres
moins bonne capacit de gnralisation, surtout si
lchantillon dapprentissage ne couvre pas toutes les
configurations possibles
ce sont un peu les avantages et inconvnients des
rseaux estimation de densit de probabilit

01/05/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

23

Technique de classification :

Les rseaux de neurones


de Kohonen

01/05/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

24

Le rseau de Kohonen

Les nuds de la couche dentre


couche de sortie

correspondent aux variables de


classification et servent prsenter
les individus

Les nuds de la couche de sortie

pijk

sont disposs sur une grille

individu 1

La forme et la taille (par ex :

individu 2

couche dentre

individu N

rectangulaire de taille lxm) de la


grille sont gnralement choisies par
lutilisateur mais peuvent aussi
voluer au cours de lapprentissage

Le + utilis des rseaux de

Chaque nud dentre est


neurones apprentissage connect tous les nuds de
non supervis
sortie, avec une pondration pijk
01/05/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

25

Activation dun nud

La rponse dun nud (i,j)


couche de sortie

Le nud retenu pour

reprsenter (xk) est le nud


pour lequel dij(x) est minimum

individu 1

(i,j)

individu 2

couche dentre

individu N

Initialisation alatoire des


01/05/2007

dij (x ) = (xk pijk )


k =1

pijk

poids pijk

un individu (xk)k[1,n] est la


distance euclidienne
:
n

et tous les nuds voisins


(I,J) voient leurs poids ajusts
pIJk + .f(i,j;I,J).(xk pIJk) pour
les rapprocher de (xk)

= taux dapprentissage
f(i,j;I,J) = fct dcroissante de la

distance entre (i,j) et (I,J)


f(i,j;i,j) = 1
Stphane Tuffry - Data Mining - http://data.mining.free.fr

26

Apprentissage du rseau

Pour chaque individu, un seul


(i-1,j+1)

(i,j+1)

(i+1,j+1)

(i-1,j)

(i,j)

(i+1,j)

nud de sortie est activ ( le


gagnant )

Le gagnant et ses voisins


voient leurs poids ajusts

En rapprochant les voisins,


(i-1,j-1)

(i,j-1)

lajustement fait en sorte qu


deux individus proches
correspondent deux nuds
proches en sortie

(i+1,j-1)

Des groupes (clusters) de


ge

01/05/2007

revenus

nombre
denfants

nuds se forment en sortie

Stphane Tuffry - Data Mining - http://data.mining.free.fr

27

Application dun rseau de Kohonen

Tout

se passe comme si la grille du rseau tait en


caoutchouc et si on la dformait pour lui faire traverser le
nuage des individus en sapprochant au plus prs des
individus.

avec un plan factoriel : cest une projection non-linaire


avec les autres mthodes de classification : rduction de
la dimension

Une

fois que tous les individus de lchantillonnage


dapprentissage ont t prsents au rseau et que tous
les poids ont t ajusts, lapprentissage est achev.
En phase dapplication, le rseau de Kohonen fonctionne
en reprsentant chaque individu en entre par le nud
du rseau qui lui est le plus proche au sens de la distance
dfinie ci-dessus. Ce nud sera la classe de lindividu.

01/05/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

28

Reprsentation dune carte de


Kohonen

01/05/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

29

Utilisation des rseaux de Kohonen

Synonymes

: 1) carte de Kohonen 2) SOM (Self


Organizing Map)
Utilisation comme une ACP non linaire

pour reprsenter sur une carte les groupes dindividus et


comparer les groupes sopposant sur la carte

Utilisation comme pr-classification avant une CAH (voir la


classification mixte)

on construit une carte de taille au moins 10 x 10 nuds


on regroupe ensuite les 100 nuds en un nb plus petit de
classes qui doivent tre connexes dans le plan

Utilisation

pour placer les prototypes dun rseau de


neurones RBF
viter dutiliser directement pour obtenir qq classes

voir
01/05/2007

les exemples
suivants
Stphane Tuffry
- Data Mining - http://data.mining.free.fr

30

Avantages des rseaux de neurones

Aptitude modliser des structures complexes et des


donnes irrgulires

prise en compte des relations non linaires (interactions)


entre les variables

Assez bonne rsistance aux donnes bruites


Aptitude modliser des problmes trs varis

01/05/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

31

Problmes modliss par les


rseaux de neurones

Analyse typologique
Prdiction classement
Sries temporelles (prvision de cours boursiers)
Reconnaissance de caractres optiques et de lcriture

manuscrite (sur des chques, lettres, signatures)


Reconnaissance/synthse de la parole
Jeu dchecs (Deep Blue vainqueur de Kasparov en 1997)
Reconnaissance des formes (prvention des pannes de
machines par lanalyse de leurs vibrations)
Reconnaissance des visages
Analyse dimages (dtecter si une gare est bonde)
Traitement du signal
Sries temporelles

01/05/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

32

Inconvnients des rseaux de neurones

Rsultats totalement non explicites

rdhibitoire pour le diagnostic mdical ou les pilotes


automatiques davion

Sensibilit aux individus hors norme


Sensibilit un trop grand nombre

de variables non

discriminantes
Convergence vers la meilleure solution globale pas
toujours assure
Difficult dutilisation correcte paramtres nombreux
et dlicats rgler (nb et tailles des couches caches,
taux dapprentissage, moment...)
Ne sappliquent naturellement quaux variables
continues dans lintervalle [0,1]

multiplication des nuds pour les variables catgorielles

01/05/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

33

Nouvelle technique de classement :

Les Support Vector Machines


Sparateurs Vaste Marge

01/05/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

34

Les Support Vector Machines

Mthode rcente (1998)


Mthode de classement
Deux tapes :

transformation non linaire pour passer dans un espace


de dimension plus grande (voire infinie) que lespace
dorigine, mais dot dun produit scalaire
dans cet espace, on cherche un sparateur linaire f(x) =
a.x+b (ex : fonction discriminante de Fisher), qui est un
hyperplan optimal
sparant bien les groupes (prcision du modle)
f(x) > 0 classe A ; f(x) 0 classe B

le + loin possible de tous les cas (robustesse du modle)

on exprime f((x)) sans faire intervenir explicitement

01/05/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

35

Exemple de transformation

Observer laugmentation de la dimension

01/05/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

36

Maximisation de la marge

Distance dun point x lhyperplan


sparation correcte

ax+b
a
B1 meilleur que B2

sparation optimale

B1

B2

marge

b21
b22

margin

b11

b12

01/05/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

37

Forme de la solution

tant donns les points (xi,yi), avec yi = 1 si xi A et yi =


1 si xi B , trouver le sparateur linaire f(x) = a.x+b
trouver (a,b) satisfaisant simultanment les 2 conditions :

pour tout i, yi(a.xi + b) 1 (bonne sparation)


a est minimum (marge maximale)

La sol. f(x) sexprime en fonction de produits scalaires x.x


Aprs transformation , la solution sexprime en fonction

de produits scalaires (x).(x)


La quantit k(x,x) = (x).(x) est appele noyau
Cest k et non que lon choisit. En sy prenant bien, on
peut calculer k(x,x) sans faire apparatre
Les calculs sont alors faits dans lespace de dpart, et
sont beaucoup + simples et + rapides

01/05/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

38

Exemples de noyaux

Linaire

k(x,x) = x.x

k(x,x) = (x.x)d
si d = 2, x=(x1,x2) et (x) = (x1,2x1x2,x2), alors
(x).(x) = (x1x1 + x2x2) = (x.x)2

Polynomial

Gaussien (RBF)

x x'
2

k(x,x) =

k(x,x) = tanh {(x.x) + }

Sigmodal

Intrt des SVM : prcision des prdictions


01/05/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

39

Nouvelle technique de data mining :

Algorithmes gntiques

01/05/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

40

Algorithmes gntiques

Les

algorithmes gntiques cherchent reproduire les


mcanismes de la slection naturelle, en slectionnant
les rgles (<=> gnes) les mieux adaptes la
prdiction, et en les croisant et mutant jusqu obtention
dun modle suffisamment prdictif.

Droulement en 3 phases :

gnration alatoire des rgles initiales


slection des meilleures rgles
gnration de nouvelles rgles par mutation ou
croisement
la phase 3 bouclant sur la phase 2 jusqu la fin du
droulement de lalgorithme.

01/05/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

41

Gnration initiale et slection

Les premires rgles sont alatoirement gnres


Elles doivent toutes tre distinctes
Chaque rgle contient un nombre alatoire de variables,
chacune avec une modalit alatoirement choisie.

Les rgles sont values au vu de lobjectif atteindre


Les rgles sont retenues avec une probabilit dautant

plus grande que la rgle sera meilleure


Les rgles retenues doivent tre satisfaites par un
nombre minimum dindividus
Certaines rgles vont disparatre, tandis que dautres
seront slectionnes plusieurs fois.

01/05/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

42

Croisement de rgles

Un croisement de deux rgles (distinctes) est lchange

de certaines de leurs variables ou modalits pour donner


deux nouvelles rgles. Le croisement correspond
lchange de place de deux sous-arbres.
Si on prend les rgles suivantes la gnration n :

ge > 65 ans et patrimoine financier > 300 kF


ge [18,35 ans] et patrimoine financier [50,100 kF] et
revenus mensuels [10,20 kF]

leur croisement pourra donner

la gnration n+1 les


rgles suivantes (rgles filles ) :

patrimoine financier > 300 kF et revenus [10,20 kF]


patrimoine financier [50,100 kF] et revenus [10,20 kF]
et ge > 65 ans

01/05/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

43

Mutation dune rgle

Une

mutation est le remplacement par une autre dune

variable ou dune modalit de la rgle dorigine. Cela


correspond au remplacement dun nud dun arbre.
Si on prend la rgle suivante la gnration n :

ge [36,50 ans] et revenus mensuels [10,20 kF]

ge [36,50 ans] et patrimoine financier [50,100 kF].

une mutation pourra donner la rgle fille :


Les mutations permettent de :

rintroduire des conditions intressantes disparues par


hasard
viter une convergence trop prcoce vers un optimum local.

01/05/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

44

Slection des rgles filles

Les rgles filles conserves pour tre values sont


celles qui sont :

diffrentes des rgles mres


diffrentes entre elles
satisfaites par un nombre minimum dindividus.

Aprs

valuation, certaines des rgles filles seront


retenues pour poursuivre lalgorithme.
Lalgorithme sachve lorsque :

un nombre pralablement fix ditrations a t atteint


OU : partir dune gnration de rang n, les rgles des
gnrations n, n-1 et n-2 sont (presque) identiques.

Le nombre ditrations varie entre quelques dizaines et


quelques centaines.

01/05/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

45

Utilisation des algorithmes gntiques

Utilisation dans le calcul des poids des nuds dun


rseau de neurones.

reprsenter lensemble de toutes les poids du rseau par


un gne
partir de plusieurs ensembles de poids (cest--dire : de
gnes) possibles
slectionner, croiser et muter les meilleurs gnes de
gnration en gnration
jusqu obtention dun ensemble de poids optimal.

Cet algorithme dune grande complexit nest

utilisable que sur des volumes de donnes assez


faibles.

01/05/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

46