Neurones

Stphane Tuffry
DATA MINING
& STATISTIQUE DCISIONNELLE
01/05/2007
Stphane Tuffry - Data Mining - http://data.mining.free.fr
Plan du cours
Quest-ce que le data mining ?

A quoi sert le data mining ?
Les 2 grandes familles de techniques
Le droulement dun projet de data mining
Cots et gains du data mining
Facteurs de succs - Erreurs - Consulting
Lanalyse et la prparation des donnes
Techniques descriptives de data mining
Techniques prdictives de data mining 1
Techniques prdictives de data mining 2 : rseaux
de neurones, SVM et algorithmes gntiques
Logiciels de statistique et de data mining
Informatique dcisionnelle et de gestion
CNIL et limites lgales du data mining
Le text mining
Le web mining
01/05/2007
Technique de classement ou de
prdiction :
Les rseaux de neurones
01/05/2007
Un rseau de neurones : ensemble de nuds connects
entre eux, chaque variable correspondant un nud

Le plus courant est le perceptron :
n1
n2
p1
p2
donnes
n3
p3
p4
n4
s(n1p1+ + nkpk)
p5
couche de sortie
n5
couche d'entre
01/05/2007
Principe du perceptron multicouches
Lors de lapprentissage du rseau de neurones, pour
chaque exemple prsent en entre, la valeur renvoye

( rtropropage ) par le nud de sortie est compare
la valeur relle, et les poids pi sont ajusts
La fonction de combinaison inipi (produit scalaire) est
suivie dune fonction de transfert : souvent la sigmode
s(x) = 1 / [1 + exp(-x)]
Lchantillon
dapprentissage est parcouru plusieurs fois.

Lapprentissage sachve lorsque 1) une solution optimale
a t trouve ou 2) un nb fix ditrations a t atteint
Lapprentissage se fait en ajustant 1 1 chaque poids
(rtropropagation), ou par modification alatoire des
poids suivie dun mcanisme de slection (algorithme
gntique)
01/05/2007
La fonction logistique
Fonction Sigmode
1/(1+exp(-x))
1,2
1
0,8
0,6
0,4
0,2
0
-5
-4
-3
-2
-1
01/05/2007
Les rseaux couches caches
On augmente le pouvoir de prdiction en ajoutant une
ou plusieurs couches caches entre les couches dentre

et de sortie
n1
ge
p1
q1
n2
nb enfants
revenus
donnes
n3
s(n ipi)
niqi
...
n4
...
nipi
s [.s(nipi)
+ .s( niq i)]
s(niqi)
p5
n5
q5
couche cache
couche de sortie
couche d'entre
01/05/2007
Les rseaux couches caches
Le pouvoir de prdiction augmente avec le nombre de

nuds des couches caches
le nb de couches caches est trs gnralement 1 ou 2

lorsque ce nombre = 0, le rseau effectue une rgression
linaire ou logistique (selon la fonction de transfert)
Mais ce dernier doit nanmoins tre limit pour que le

rseau de neurones ne se contente pas de mmoriser
lensemble dapprentissage mais puisse le gnraliser
sinon, il y a sur-apprentissage
Le fait que toutes les valeurs soient comprises entre 0 et
1 permet de prendre en entre dun nud la sortie dun

nud prcdent
Autre but de la normalisation des valeurs : viter que les
donnes avec de grandes valeurs crasent les autres
01/05/2007
Les rseaux plusieurs sorties
La couche de sortie du rseau peut parfois avoir
plusieurs nuds, lorsquil y a plusieurs valeurs prdire.

n1
n2
donnes
n3
n4
n5
couche cache
couche de sortie
couche d'entre
01/05/2007
Diffrents rseaux de neurones
Le
Perceptron multicouches est utilis pour prdire

une variable cible continue ou discrte
Le rseau fonction radiale de base ( radial basis
function RBF) est aussi utilis pour prdire une
variable cible continue ou discrte
Le rseau de Kohonen effectue les analyses
typologiques (clustering, recherche de segments)
Rseaux par estimation de densit de probabilit
de Speckt (1990)
PNN (probabilistic neural networks) : classement

GRNN (general regression neural networks) : rgression
Analyse discriminante gnralise : les Support

Vector Machines de Vladimir Vapnik (1998) sont
utilises pour prdire une variable cible discrte
01/05/2007
10
Mise en uvre dun rseau
Les
tapes dans la mise en uvre dun rseau de

neurones pour la prdiction ou le classement sont :
identification des donnes en entre et en sortie

normalisation de ces donnes
constitution dun rseau avec une topologie adapte
apprentissage du rseau
test du rseau
application du modle gnr par lapprentissage
dnormalisation des donnes en sortie.
01/05/2007
11
Quelques rgles empiriques
Il faut 5 10 individus pour ajuster chaque poids

On recommande davoir 1 unit cache (rseau RBF) ou 1
ou 2 (rseau PMC)
Un rseau n units dentre, 1 unit cache, m units
dans la couche cache et 1 unit de sortie a n.m+m poids
Il faut donc un chantillon dau moins 5(n.m+m) individus
pour lapprentissage
La valeur de m est gnralement comprise en n/2 et 2n
On a intrt diminuer n (en utilisant lACP par ex)
Pour un classement, m nombre de classes
Lchantillon dapprentissage ne doit pas tre tri selon un
ordre significatif, qui pourrait induire le rseau en erreur
Lchantillon dapprentissage doit couvrir tous les cas
01/05/2007
12
Algorithmes dapprentissage 1/2
Levenberg-Marquardt
trs performant (converge plus rapidement et vers une

meilleure solution que la rtro-propagation)
ne fonctionne quavec un seul nud en sortie
requiert une grande capacit mmoire, proportionnelle n,
avec n = nb de nuds
=> limit des petits rseaux (peu de variables)
Descente du gradient conjugu
ses performances se rapproche de Levenberg-Marquardt en

terme de convergence
applicable des rseaux + complexes que LevenbergMarquardt (avec ventuellement plusieurs sorties)
01/05/2007
13
Algorithmes dapprentissage 2/2
Rtro-propagation du gradient
le plus ancien et le plus rpandu

moins fiable (sensible aux minimas locaux)
utilis sur de grands volumes de donnes
Propagation rapide ( quick propagation )
pas toujours meilleurs que la rtro-propagation et parfois

pire
difficile paramtrer
Quasi-Newton
Algorithmes gntiques
01/05/2007
14
Rtropropagation du gradient
Fonction derreur : mesure cart entre valeur attendue et
valeur fournie par le rseau

Chaque n-uplet (p1, p2, , pn) de poids peut tre
reprsent dans un espace n+1 dimensions, la dernire
dimension reprsentant la fonction derreur
Surface derreur : ensemble des valeurs (p1, p2, , pn,)
Modles linaires => surface derreur mathmatiquement
bien dfinie
Rseaux de neurones => surface derreur complexe
Il faut trouver son point le plus bas
Rtropropagation du gradient : dplacement sur la
surface derreur en suivant la ligne de plus grande pente
01/05/2007
15
Convergence vers une mauvaise

solution
C
A
B
01/05/2007
16
Paramtres de rtropropagation
Taux
dapprentissage : contrle limportance de la

modification
des
poids
durant
le
processus
dapprentissage
= contrle la vitesse de dplacement

+ il est lev, + lapprentissage est rapide mais + le rseau
risque de converger vers une solution globalement non
optimale
Moment : agit comme un paramtre damortissement en
rduisant les oscillations et en aidant atteindre la

convergence
= contrle la rapidit des changements de direction sur la

surface derreur
+ il est faible, + le rseau sadapte au terrain mais +
linfluence des donnes extrmes sur les poids se fait sentir
01/05/2007
17
Contrle interactif de lapprentissage

Un graphique en
temps rel du taux
derreur en
apprentissage et
en validation
permet
dinterrompre
lapprentissage ds
lapparition de surapprentissage et la
hausse du taux
derreur en
validation
01/05/2007
18
Rseaux PMC et RBF
rseau
PMC
RBF
poids p i
centre i
couche(s) fonction combinaison
produit scalaire i pixi
distance euclidienne i (xi i)
cache(s) fonction transfert
logistique s(X) = 1/(1 + exp(X))
gaussienne (X) = exp( X/2)
nb couches caches
=1
fonction combinaison
produit scalaire k pkxk
combinaison linaire de gaussiennes
poids
couche
k kk (voir ci-aprs)
de sortie
fonction transfert
logistique s(X) = 1/(1 + exp(X))
rapidit
plus rapide en mode application plus rapide en mode apprentissage

du modle
01/05/2007
fonction linaire f(X) = X
du modle
19
Rponse globale du rseau

chaque individu (xi)
nb de noeuds en entre
k 2
( xi i )
nb de noeuds cachs
1
i =1
exp
k
2
k
2
k =1
01/05/2007
20
RBF : choix des paramtres initiaux
Solution simple
nombre de nuds : + grand quavec le perceptron

parfois plusieurs centaines
rpartition uniforme des k

j deux fois la distance moyenne entre les k
dans les zones de forte densit en observations

(adaptation aux X) et dans les zones o la donne
prdire varie rapidement (adaptation aux Y) :
Solution labore : adaptation aux donnes
k plus nombreux
k plus faibles
partitionnement par k-means ou Kohonen pour fixer les k

k-plus proches voisins pour fixer les k (prendre la
distance moyenne aux k-plus proches voisins)
01/05/2007
21
RBF : choix des paramtres initiaux
Importance du choix des k
si trop grands => manque de prcision du rseau

si trop petits => sur-apprentissage => mauvaise
gnralisation du rseau
01/05/2007
22
Comparaison PMC - RBF
PMC
meilleure capacit de gnralisation, notamment sur

donnes bruites
risque de convergence vers un optimum local non global
paramtres plus difficiles rgler
RBF
apprentissage plus rapide

plus facile de trouver les bons paramtres
moins bonne capacit de gnralisation, surtout si
lchantillon dapprentissage ne couvre pas toutes les
configurations possibles
ce sont un peu les avantages et inconvnients des
rseaux estimation de densit de probabilit
01/05/2007
23
Technique de classification :

de Kohonen
01/05/2007
24
Le rseau de Kohonen
Les nuds de la couche dentre

couche de sortie
correspondent aux variables de

classification et servent prsenter
les individus
Les nuds de la couche de sortie
pijk
sont disposs sur une grille
individu 1
La forme et la taille (par ex :
individu 2
couche dentre
individu N
rectangulaire de taille lxm) de la

grille sont gnralement choisies par
lutilisateur mais peuvent aussi
voluer au cours de lapprentissage
Le + utilis des rseaux de
Chaque nud dentre est

neurones apprentissage connect tous les nuds de
non supervis
sortie, avec une pondration pijk
01/05/2007
25
Activation dun nud
La rponse dun nud (i,j)

couche de sortie
Le nud retenu pour
reprsenter (xk) est le nud

pour lequel dij(x) est minimum
individu 1
(i,j)
individu 2
couche dentre
individu N
Initialisation alatoire des

01/05/2007
dij (x ) = (xk pijk )

k =1
pijk
poids pijk
un individu (xk)k[1,n] est la

distance euclidienne
:
n
et tous les nuds voisins

(I,J) voient leurs poids ajusts
pIJk + .f(i,j;I,J).(xk pIJk) pour
les rapprocher de (xk)
= taux dapprentissage
f(i,j;I,J) = fct dcroissante de la
distance entre (i,j) et (I,J)

f(i,j;i,j) = 1
26
Apprentissage du rseau
Pour chaque individu, un seul

(i-1,j+1)
(i,j+1)
(i+1,j+1)
(i-1,j)
(i,j)
(i+1,j)
nud de sortie est activ ( le

gagnant )
Le gagnant et ses voisins

voient leurs poids ajusts
En rapprochant les voisins,

(i-1,j-1)
(i,j-1)
lajustement fait en sorte qu

deux individus proches
correspondent deux nuds
proches en sortie
(i+1,j-1)
Des groupes (clusters) de

ge
01/05/2007
revenus
nombre
denfants
nuds se forment en sortie
27
Application dun rseau de Kohonen
Tout
se passe comme si la grille du rseau tait en

caoutchouc et si on la dformait pour lui faire traverser le
nuage des individus en sapprochant au plus prs des
individus.
avec un plan factoriel : cest une projection non-linaire

avec les autres mthodes de classification : rduction de
la dimension
Une
fois que tous les individus de lchantillonnage

dapprentissage ont t prsents au rseau et que tous
les poids ont t ajusts, lapprentissage est achev.
En phase dapplication, le rseau de Kohonen fonctionne
en reprsentant chaque individu en entre par le nud
du rseau qui lui est le plus proche au sens de la distance
dfinie ci-dessus. Ce nud sera la classe de lindividu.
01/05/2007
28
Reprsentation dune carte de

Kohonen
01/05/2007
29
Utilisation des rseaux de Kohonen
Synonymes
: 1) carte de Kohonen 2) SOM (Self

Organizing Map)
Utilisation comme une ACP non linaire
pour reprsenter sur une carte les groupes dindividus et

comparer les groupes sopposant sur la carte
Utilisation comme pr-classification avant une CAH (voir la

classification mixte)
on construit une carte de taille au moins 10 x 10 nuds

on regroupe ensuite les 100 nuds en un nb plus petit de
classes qui doivent tre connexes dans le plan
Utilisation
pour placer les prototypes dun rseau de

neurones RBF
viter dutiliser directement pour obtenir qq classes
voir
01/05/2007
les exemples
suivants
Stphane Tuffry
- Data Mining - http://data.mining.free.fr
30
Avantages des rseaux de neurones
Aptitude modliser des structures complexes et des

donnes irrgulires
prise en compte des relations non linaires (interactions)

entre les variables
Assez bonne rsistance aux donnes bruites

Aptitude modliser des problmes trs varis
01/05/2007
31
Problmes modliss par les

rseaux de neurones
Analyse typologique
Prdiction classement
Sries temporelles (prvision de cours boursiers)
Reconnaissance de caractres optiques et de lcriture
manuscrite (sur des chques, lettres, signatures)

Reconnaissance/synthse de la parole
Jeu dchecs (Deep Blue vainqueur de Kasparov en 1997)
Reconnaissance des formes (prvention des pannes de
machines par lanalyse de leurs vibrations)
Reconnaissance des visages
Analyse dimages (dtecter si une gare est bonde)
Traitement du signal
Sries temporelles
01/05/2007
32
Inconvnients des rseaux de neurones
Rsultats totalement non explicites
rdhibitoire pour le diagnostic mdical ou les pilotes

automatiques davion
Sensibilit aux individus hors norme

Sensibilit un trop grand nombre
de variables non
discriminantes
Convergence vers la meilleure solution globale pas
toujours assure
Difficult dutilisation correcte paramtres nombreux
et dlicats rgler (nb et tailles des couches caches,
taux dapprentissage, moment...)
Ne sappliquent naturellement quaux variables
continues dans lintervalle [0,1]
multiplication des nuds pour les variables catgorielles
01/05/2007
33
Nouvelle technique de classement :
Les Support Vector Machines

Sparateurs Vaste Marge
01/05/2007
34
Les Support Vector Machines
Mthode rcente (1998)

Mthode de classement
Deux tapes :
transformation non linaire pour passer dans un espace

de dimension plus grande (voire infinie) que lespace
dorigine, mais dot dun produit scalaire
dans cet espace, on cherche un sparateur linaire f(x) =
a.x+b (ex : fonction discriminante de Fisher), qui est un
hyperplan optimal
sparant bien les groupes (prcision du modle)
f(x) > 0 classe A ; f(x) 0 classe B
le + loin possible de tous les cas (robustesse du modle)
on exprime f((x)) sans faire intervenir explicitement
01/05/2007
35
Exemple de transformation
Observer laugmentation de la dimension
01/05/2007
36
Maximisation de la marge
Distance dun point x lhyperplan

sparation correcte
ax+b
a
B1 meilleur que B2
sparation optimale
B1
B2
marge
b21
b22
margin
b11
b12
01/05/2007
37
Forme de la solution
tant donns les points (xi,yi), avec yi = 1 si xi A et yi =

1 si xi B , trouver le sparateur linaire f(x) = a.x+b
trouver (a,b) satisfaisant simultanment les 2 conditions :
pour tout i, yi(a.xi + b) 1 (bonne sparation)

a est minimum (marge maximale)
La sol. f(x) sexprime en fonction de produits scalaires x.x

Aprs transformation , la solution sexprime en fonction
de produits scalaires (x).(x)

La quantit k(x,x) = (x).(x) est appele noyau
Cest k et non que lon choisit. En sy prenant bien, on
peut calculer k(x,x) sans faire apparatre
Les calculs sont alors faits dans lespace de dpart, et
sont beaucoup + simples et + rapides
01/05/2007
38
Exemples de noyaux
Linaire
k(x,x) = x.x
k(x,x) = (x.x)d
si d = 2, x=(x1,x2) et (x) = (x1,2x1x2,x2), alors
(x).(x) = (x1x1 + x2x2) = (x.x)2
Polynomial
Gaussien (RBF)
x x'
2
k(x,x) =
k(x,x) = tanh {(x.x) + }
Sigmodal
Intrt des SVM : prcision des prdictions

01/05/2007
39
Nouvelle technique de data mining :
01/05/2007
40
Les
algorithmes gntiques cherchent reproduire les

mcanismes de la slection naturelle, en slectionnant
les rgles (<=> gnes) les mieux adaptes la
prdiction, et en les croisant et mutant jusqu obtention
dun modle suffisamment prdictif.
Droulement en 3 phases :
gnration alatoire des rgles initiales

slection des meilleures rgles
gnration de nouvelles rgles par mutation ou
croisement
la phase 3 bouclant sur la phase 2 jusqu la fin du
droulement de lalgorithme.
01/05/2007
41
Gnration initiale et slection
Les premires rgles sont alatoirement gnres

Elles doivent toutes tre distinctes
Chaque rgle contient un nombre alatoire de variables,
chacune avec une modalit alatoirement choisie.
Les rgles sont values au vu de lobjectif atteindre

Les rgles sont retenues avec une probabilit dautant
plus grande que la rgle sera meilleure

Les rgles retenues doivent tre satisfaites par un
nombre minimum dindividus
Certaines rgles vont disparatre, tandis que dautres
seront slectionnes plusieurs fois.
01/05/2007
42
Croisement de rgles
Un croisement de deux rgles (distinctes) est lchange
de certaines de leurs variables ou modalits pour donner

deux nouvelles rgles. Le croisement correspond
lchange de place de deux sous-arbres.
Si on prend les rgles suivantes la gnration n :
ge > 65 ans et patrimoine financier > 300 kF

ge [18,35 ans] et patrimoine financier [50,100 kF] et
revenus mensuels [10,20 kF]
leur croisement pourra donner
la gnration n+1 les

rgles suivantes (rgles filles ) :
patrimoine financier > 300 kF et revenus [10,20 kF]

patrimoine financier [50,100 kF] et revenus [10,20 kF]
et ge > 65 ans
01/05/2007
43
Mutation dune rgle
Une
mutation est le remplacement par une autre dune
variable ou dune modalit de la rgle dorigine. Cela

correspond au remplacement dun nud dun arbre.
Si on prend la rgle suivante la gnration n :
ge [36,50 ans] et revenus mensuels [10,20 kF]
ge [36,50 ans] et patrimoine financier [50,100 kF].
une mutation pourra donner la rgle fille :

Les mutations permettent de :
rintroduire des conditions intressantes disparues par

hasard
viter une convergence trop prcoce vers un optimum local.
01/05/2007
44
Slection des rgles filles
Les rgles filles conserves pour tre values sont

celles qui sont :
diffrentes des rgles mres

diffrentes entre elles
satisfaites par un nombre minimum dindividus.
Aprs
valuation, certaines des rgles filles seront

retenues pour poursuivre lalgorithme.
Lalgorithme sachve lorsque :
un nombre pralablement fix ditrations a t atteint

OU : partir dune gnration de rang n, les rgles des
gnrations n, n-1 et n-2 sont (presque) identiques.
Le nombre ditrations varie entre quelques dizaines et

quelques centaines.
01/05/2007
45
Utilisation des algorithmes gntiques
Utilisation dans le calcul des poids des nuds dun

rseau de neurones.
reprsenter lensemble de toutes les poids du rseau par

un gne
partir de plusieurs ensembles de poids (cest--dire : de
gnes) possibles
slectionner, croiser et muter les meilleurs gnes de
gnration en gnration
jusqu obtention dun ensemble de poids optimal.
Cet algorithme dune grande complexit nest
utilisable que sur des volumes de donnes assez

faibles.
01/05/2007
46

Neurones

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Neurones

Uploaded by

Copyright:

Available Formats

Stphane Tuffry

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Quest-ce que le data mining ?

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Les rseaux de neurones

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Les rseaux de neurones

Un rseau de neurones : ensemble de nuds connects

entre eux, chaque variable correspondant un nud

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Principe du perceptron multicouches

Lors de lapprentissage du rseau de neurones, pour

chaque exemple prsent en entre, la valeur renvoye

dapprentissage est parcouru plusieurs fois.

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Les rseaux couches caches

On augmente le pouvoir de prdiction en ajoutant une

ou plusieurs couches caches entre les couches dentre

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Les rseaux couches caches

Le pouvoir de prdiction augmente avec le nombre de

le nb de couches caches est trs gnralement 1 ou 2

Mais ce dernier doit nanmoins tre limit pour que le

Le fait que toutes les valeurs soient comprises entre 0 et

1 permet de prendre en entre dun nud la sortie dun

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Les rseaux plusieurs sorties

La couche de sortie du rseau peut parfois avoir

plusieurs nuds, lorsquil y a plusieurs valeurs prdire.

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Diffrents rseaux de neurones

Perceptron multicouches est utilis pour prdire

PNN (probabilistic neural networks) : classement

Analyse discriminante gnralise : les Support

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Mise en uvre dun rseau

tapes dans la mise en uvre dun rseau de

identification des donnes en entre et en sortie

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Quelques rgles empiriques

Il faut 5 10 individus pour ajuster chaque poids

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Algorithmes dapprentissage 1/2

trs performant (converge plus rapidement et vers une

Descente du gradient conjugu

ses performances se rapproche de Levenberg-Marquardt en

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Algorithmes dapprentissage 2/2

le plus ancien et le plus rpandu

Propagation rapide ( quick propagation )

pas toujours meilleurs que la rtro-propagation et parfois

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Fonction derreur : mesure cart entre valeur attendue et

valeur fournie par le rseau

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Convergence vers une mauvaise

Stphane Tuffry - Data Mining - http://data.mining.free.fr

dapprentissage : contrle limportance de la

= contrle la vitesse de dplacement

Moment : agit comme un paramtre damortissement en

rduisant les oscillations et en aidant atteindre la

= contrle la rapidit des changements de direction sur la

Stphane Tuffry - Data Mining - http://data.mining.free.fr