Professional Documents
Culture Documents
Techniques prdictives de
data mining
Walid AYADI
2
Techniques prdictives
visent extrapoler de nouvelles informations
partir des informations prsentes (cest le cas du
scoring)
expliquent les donnes
il y a une variable cible prdire.
Classement
Le classement consiste placer chaque individu
de la population dans une classe, parmi plusieurs
Classes prdfinies, en fonction des caractristiques
de lindividu indiques.
Prdiction
La prdiction consiste estimer
Mthodes prdictives
Rgression multiple
Estimer la relation entre une variable dpendante
(Y ) quantitative et plusieurs variables indpendantes (X1,X2, )
Y b0 b1 X 1 b 2 X 2 ...b p X p e
o b0, b1, b2, . . . , bp sont les paramtres et e est un bruit alatoire
reprsentant le terme derreur.
9
Rgression multiple
Rgression multiple
Rgression multiple
n n
i i i
e 2
i 1
( y
y ) 2
i 1
12
Rgression simple
Les estimations b0 ,b1
b1
( y y )( x x ) cov( x, y)
i i i
(x x)
i i
2
s 2
x
b0 y b1 x
Dmonstration?....
13
Rgression multiple
b X T X
1
X TY
Rgression multiple
Contrainte : les variables explicatives doivent tre indpendantes.
Car si les variables sont corrles donc les colonnes de X T X
sont corrles et ainsi X T X 1 .
1
X 1
tComX puisque det X 0
det X
avec det X : dterminant de X et Com X : comatrice de X
15
Rgression multiple
Exercice 1
Au cours dun mois donn, le reprsentant dune socit
commercialisant du matriel de bureau a visit 56
entreprises rpartis dans sept dpartement. Le tableau
suivant indique, dpartement par dpartement, le
nombre de visites ralises de mme que les commandes
enregistrs pendant la priode correspondante mesures
en milliers de dinars.
17
Exercice 1
Dpartement (i) Nombre de visites Commandes
(Xi) (Yi)
1 2 23
2 3 27
3 5 28
4 9 39
5 10 39
6 12 45
7 15 51
Exercice 1
i Xi Yi XiYi X i2 X i X ( X i X ) 2 Yi Y ( X i X )(Yi Y )
1 2 23 46 4 -6 36 -13 78
2 3 27 81 9 -5 25 -9 45
3 5 28 140 25 -3 9 -8 24
4 9 39 351 81 1 1 3 3
5 10 39 390 100 2 4 3 6
6 12 45 540 144 4 16 9 36
7 15 51 765 255 7 49 15 105
Total 56 252 2313 58 0 140 0 297
8
Moy. 8 36 330.4 84 0 20 0 42.4
19
Exercice 1
Y bX 36 (2.12)(8) 19
Y = 2.12 X +19
20
Exercice 1
Lquation du modle est :
Y = 2.12 X +19
Exercice 1 :
Au cours dun mois donn, le reprsentant dune socit
commercialisant du matriel de bureau a visit 56
entreprises rpartis dans sept dpartement. Le tableau
suivant indique, dpartement par dpartement, le
nombre de visites ralises de mme que les commandes
enregistrs pendant la priode correspondante mesures
en milliers de dinars.
24
Exercice 1 : suite
Dpartement (i) Nombre de visites Commandes
(Xi) (Yi)
1 2 23
2 3 27
3 5 28
4 9 39
5 10 39
6 12 45
7 15 51
Exercice 1 : suite
i Xi Yi Yi Yi Y (Yi Y ) 2 (Yi Y ) (Yi Y ) 2 (Yi Yi ) (Yi Yi ) 2
1 2 23 23.27 -13 169 -12.73 162 0.27 0.07
2 3 27 25.39 -9 81 -10.61 112.57 -1.61 2.59
3 5 28 29.64 -8 64 -6.36 40.45 1.64 2.69
4 9 39 38.12 3 9 2.12 4.49 -0.88 0.77
5 10 39 40.24 3 9 4.24 17.98 1.24 1.54
6 12 45 44.49 9 81 8.49 72.08 -0.51 0.26
7 15 51 50.85 15 225 14.85 220.52 -0.51 0.02
Total 638 630.09 7.94
Dispersion rsiduelle :
e (Yi Yi ) 7.94
2 2
i
26
Exercice 1 : suite
i Xi Yi Yi Yi Y (Yi Y ) 2 (Yi Y ) (Yi Y ) 2 (Yi Yi ) (Yi Yi ) 2
1 2 23 23.27 -13 169 -12.73 162 0.27 0.07
2 3 27 25.39 -9 81 -10.61 112.57 -1.61 2.59
3 5 28 29.64 -8 64 -6.36 40.45 1.64 2.69
4 9 39 38.12 3 9 2.12 4.49 -0.88 0.77
5 10 39 40.24 3 9 4.24 17.98 1.24 1.54
6 12 45 44.49 9 81 8.49 72.08 -0.51 0.26
7 15 51 50.85 15 225 14.85 220.52 -0.51 0.02
Total 638 630.09 7.94
Coefficient de dtermination :
R 2 i
(Y Y )
2
630
0.987
(Yi Y ) 638
2
b j b j
Soit la statistique t telle que t
S b
j
S X jY
S b : lerreur standard sur b j
j
X
i
ij nX j
i i
(Y Y ) 2
S X jY i
: lcart type des erreurs du modle
n2
28
Sous H0 : b j 0
t
S b
j
Exercice 1 : suite
Dpartement (i) Nombre de visites Commandes
(Xi) (Yi)
1 2 23
2 3 27
3 5 28
4 9 39
5 10 39
6 12 45
7 15 51
Exercice 1 : suite
5.
7.94
S X iY 1.26
5
1.26
Sa 0.106
11.83
2.12
t 20
0.106
On compare t par rapport au chiffre lu sur la table de Student pour
n-k-1=7-2=5 degrs de libert (3.365 avec un seuil de confiance 0.02 )
R2 / k
f
(1 R 2 ) /( n k 1)
Avec n nombre dindividus (lignes) et k nombre de variables
(colonnes)
34
R2 / k
f
(1 R 2 ) /( n k 1)
Exercice 2 :
Supposons que les services de police souhaitent tablir un modle de
rgression linaire reliant la variable endogne taux de criminalit
juvnile mesur par un indicateur Y, la densit de la population urbaine
mesure par un indicateur X1 et aux taux de scolarit X2. On a relev 5
observations :
Y X1 X2
1 2 4
1 3 2
2 5 2
3 7 1
3 8 1
Exercice 2 : rponse
1. Pour simplifier les calculs matriciels, nous oprons un changement de
variables Y=Y-2, X1=X1-5, X2=X2-2
Y X1 X2
-1 -3 2
-1 -2 0
0 0 0
1 2 -1
1 3 -1
39
Exercice 2 : rponse
3 2
2 0
3 2 0 2 3 26 11
X 'X 0 0
2 0 0 1 1 11 6
2 1
3 1
1 1 6 11 0.17 0.31
(X X )
'
35 11 26 0.31 0.74
40
Exercice 2 : rponse 1
1
3 2 0 2 3 10
XY
'
0
2 0 0 1 1 4
1
1
Exercice 2 : rponse
Exercice 2 : rponse
2. Coefficient de dtermination : R 2 0.971
Coefficient de dtermination ajust : R 2
ajust 0.942
3. Test de Student :
t X1 4.61 significative au niveau de confiance 0.05
t X 2 0.83 non significative
Coeffi cientsa
Unstandardized
Coef f icients Variables
Model B St d. Error t Sig. significatives et
1 (Constant) 3129.231 641.355 4.879 .000 pertinentes :
MT 4.423 1.588 2.785 .009
P-valeur < 0.05
RG 1.676 3.291 .509 .614
PRIX -13.526 8.305 -1.629 .114
BR -3.410 6.569 -.519 .608
INV 1.924 .778 2.474 .019
PUB 8.547 1.826 4.679 .000
FV 1.497 2.771 .540 .593
TPUB -2.15E-02 .401 -.054 .958
a. Dependent Variable: VENTES
45
Mthodes de slection
automatique de variables
46
Slection de variables
Slection des variables pertinentes du modle :
Slectionner les variables avec des P-valeur proches de 0 partir du
modle complet ?
variables non pertinentes en prsence dautres variables
variables pertinentes seulement en prsence dautres variables
Coeffi cientsa
Unstandardized
Coef f icients Variables
Model B St d. Error t Sig. significatives et
1 (Constant) 3129.231 641.355 4.879 .000 pertinentes :
MT 4.423 1.588 2.785 .009
P-valeur < 0.05
RG 1.676 3.291 .509 .614
PRIX -13.526 8.305 -1.629 .114
BR -3.410 6.569 -.519 .608
INV 1.924 .778 2.474 .019
PUB 8.547 1.826 4.679 .000
FV 1.497 2.771 .540 .593
TPUB -2.15E-02 .401 -.054 .958
a. Dependent Variable: VENTES
52
Rgression multiple : exemple backward
Model Summary
Etape 1
Adjusted St d. Error of
Model R R Square R Square the Estimate
1 .898a .806 .752 256.29
a. Predictors: (Constant), Tot al publicit de la branche,
March total, Remises aux grossistes, Budget de
recherche, I nv estissements, Publicit, Prix, Frais de
v entes
Coeffi cientsa
Unstandardized
Coef f icients
Model B St d. Error t Sig.
1 (Constant) 3129.231 641.355 4.879 .000
MT 4.423 1.588 2.785 .009
RG 1.676 3.291 .509 .614
PRIX -13.526 8.305 -1.629 .114
BR -3.410 6.569 -.519 .608
INV 1.924 .778 2.474 .019
PUB 8.547 1.826 4.679 .000
FV 1.497 2.771 .540 .593
TPUB -2.15E-02 .401 -.054 .958
a. Dependent Variable: VENTES
Coeffi cientsa
Unstandardized
Coef f icients
Model B St d. Error t Sig.
1 (Constant) 3115.648 579.517 5.376 .000
MT 4.426 1.561 2.836 .008
RG 1.706 3.191 .535 .597
PRIX -13.445 8.029 -1.675 .104
BR -3.392 6.451 -.526 .603
INV 1.931 .756 2.554 .016
PUB 8.558 1.784 4.798 .000
FV 1.482 2.710 .547 .588
a. Dependent Variable: VENTES
Adjusted St d. Error of
Model R R Square R Square the Estimate
1 .897a .804 .766 249.04
a. Predictors: (Constant), Frais de v entes, Remises aux
grossistes, Publicit, Inv estissements, Prix, March
total
b. Dependent Variable: Vent es
Coeffi cientsa
Unstandardized
Coef f icients
Model B St d. Error t Sig.
1 (Constant) 3137.547 571.233 5.493 .000
MT 4.756 1.412 3.368 .002
RG 1.705 3.153 .541 .593
PRIX -14.790 7.521 -1.966 .058
INV 1.885 .742 2.539 .016
PUB 8.519 1.761 4.837 .000
FV .950 2.484 .382 .705
a. Dependent Variable: VENTES
Modles paramtriques:
Rgression Logistic
Visiblement la rgression
linaire ne convient pas
Le modle logistique
1 e
1.0
.8
ou .6
.4
Prob(Y=1 / X)
( x )
) b0 b1x
.2
Log(
1 ( x ) 0.0
10 20 30 40 50 60 70
AGE
60
61
X Y
x1 y1 ( x i ) P ( Y 1 / X x i )
xi yi eb0 b1xi
b0 b1x i
xn yn 1 e
yi = 1 si caractre prsent,
0 sinon
62
n
Prob( Y yi / X x i )
i 1
n
( x i ) yi (1 ( x i ))1yi
i1
n b 0 b1 xi
e 1
( b 0 b1 xi
) yi
( b 0 b1 xi
)1 yi
i 1 1 e 1 e
(b0 , b1 )
63
n
( xi )
yi Log ( ) Log (1 ( xi ))
i 1 1 ( xi )
n
yi (b0 b1 xi ) Log (1 exp(b0 b1 xi ))
i 1
, b )
On cherche b0 et b1 maximisant la Log-vraisemblance L(b0 1
Pas de solution analytique utiliser une mthode numrique
itrative (ex : Newton-Raphson)
64
TEST DE WALD
Le modle eb0 b1x
( x ) P( Y 1 / X x )
1 eb0 b1x
Test de Wald
H0 : b1 = 0
H1 : b1 0
Sous H0 , la statistique de Wald suit une loi de Khi 2 1 degr de libert avec :
b 12
Wald 2
s1
s12 variance de b1
64
Rejet de H0 si Wald 12 (1)
65
TEST DE WALD
66
TEST DE WALD
67
Mesure de la qualit de la modlisation
R2 ajust de Nagelkerke
2
R
2
2 2
R adj
R max Max R 2 1 [(cte)] n
68
Tableau de classification
Une observation i est affecte la classe [Y=1] si i c.
Les donnes
Les ratios suivants sont observs sur 46 entreprises :
Deux ans aprs 21 de ces entreprises ont fait faillite et 25 sont restes en
bonne sant financire.
Case Su mmariesa
75
current
Les donnes
assets / current
cash flow / net income / current assets /
total debt total assets li abil ities net sales FAILLIT E
1 -.45 -.41 1.09 .45 F
des entreprises
2 -.56 -.31 1.51 .16 F
3 .06 .02 1.01 .40 F
4 -.07 -.09 1.45 .26 F
5 -.10 -.09 1.56 .67 F
6 -.14 -.07 .71 .28 F
7 .04 .01 1.50 .71 F
8 -.07 -.06 1.37 .40 F
9 .07 -.01 1.37 .34 F
10 -.14 -.14 1.42 .43 F
11 -.23 -.30 .33 .18 F
12 .07 .02 1.31 .25 F
13 .01 .00 2.15 .70 F
14 -.28 -.23 1.19 .66 F
15 .15 .05 1.88 .27 F
16 .37 .11 1.99 .38 F
17 -.08 -.08 1.51 .42 F
18 .05 .03 1.68 .95 F
19 .01 .00 1.26 .60 F
20 .12 .11 1.14 .17 F
21 -.28 -.27 1.27 .51 F
22 .51 .10 2.49 .54 NF
23 .08 .02 2.01 .53 NF
24 .38 .11 3.27 .35 NF
25 .19 .05 2.25 .33 NF
26 .32 .07 4.24 .63 NF
27 .31 .05 4.45 .69 NF
28 .12 .05 2.52 .69 NF
29 -.02 .02 2.05 .35 NF
30 .22 .08 2.35 .40 NF
31 .17 .07 1.80 .52 NF
32 .15 .05 2.17 .55 NF
33 -.10 -.01 2.50 .58 NF
34 .14 -.03 .46 .26 NF
35 .14 .07 2.61 .52 NF
36 .15 .06 2.23 .56 NF
37 .16 .05 2.31 .20 NF
38 .29 .06 1.84 .38 NF
39 .54 .11 2.33 .48 NF
40 -.33 -.09 3.01 .47 NF
41 .48 .09 1.24 .18 NF
42 .56 .11 4.29 .44 NF
43 .20 .08 1.99 .30 NF
44 .47 .14 2.92 .45 NF
45 .17 .04 2.45 .14 NF
46 .58 .04 5.06 .13 NF
a. Limited to first 100 cases.
76
Rsultats
Model Summary
Le modle estim
Pr ob(Y F / X)
5.320 7.138X1 3.703X 2 3.415X 3 2.968X 4
e
5.320 7.138X1 3.703X 2 3.415X 3 2.968X 4
1 e
Prvision de faillite
78
Analyse discriminante
Situation : on a un ensemble dindividus caractriss par
une variable expliquer Y qualitative et des variables
explicatives Xi quantitatives
dtermination de 3 rgions de
dcision (R1, R2 , R3) dlimitant
les points 'senss appartenir
aux diffrentes classes
90
Lanalyse discriminante
Exemple : Prvision de faillite
Les donnes
Les ratios suivants sont observs sur 46 entreprises :
Deux ans aprs 21 de ces entreprises ont fait faillite et 25 sont restes en
bonne sant financire.
Case Su mmariesa
96
current
Les donnes
assets / current
cash flow / net income / current assets /
total debt total assets li abil ities net sales FAILLIT E
1 -.45 -.41 1.09 .45 F
des entreprises
2 -.56 -.31 1.51 .16 F
3 .06 .02 1.01 .40 F
4 -.07 -.09 1.45 .26 F
5 -.10 -.09 1.56 .67 F
6 -.14 -.07 .71 .28 F
7 .04 .01 1.50 .71 F
8 -.07 -.06 1.37 .40 F
9 .07 -.01 1.37 .34 F
10 -.14 -.14 1.42 .43 F
11 -.23 -.30 .33 .18 F
12 .07 .02 1.31 .25 F
13 .01 .00 2.15 .70 F
14 -.28 -.23 1.19 .66 F
15 .15 .05 1.88 .27 F
16 .37 .11 1.99 .38 F
17 -.08 -.08 1.51 .42 F
18 .05 .03 1.68 .95 F
19 .01 .00 1.26 .60 F
20 .12 .11 1.14 .17 F
21 -.28 -.27 1.27 .51 F
22 .51 .10 2.49 .54 NF
23 .08 .02 2.01 .53 NF
24 .38 .11 3.27 .35 NF
25 .19 .05 2.25 .33 NF
26 .32 .07 4.24 .63 NF
27 .31 .05 4.45 .69 NF
28 .12 .05 2.52 .69 NF
29 -.02 .02 2.05 .35 NF
30 .22 .08 2.35 .40 NF
31 .17 .07 1.80 .52 NF
32 .15 .05 2.17 .55 NF
33 -.10 -.01 2.50 .58 NF
34 .14 -.03 .46 .26 NF
35 .14 .07 2.61 .52 NF
36 .15 .06 2.23 .56 NF
37 .16 .05 2.31 .20 NF
38 .29 .06 1.84 .38 NF
39 .54 .11 2.33 .48 NF
40 -.33 -.09 3.01 .47 NF
41 .48 .09 1.24 .18 NF
42 .56 .11 4.29 .44 NF
43 .20 .08 1.99 .30 NF
44 .47 .14 2.92 .45 NF
45 .17 .04 2.45 .14 NF
46 .58 .04 5.06 .13 NF
a. Limited to first 100 cases.
97
Lanalyse discriminante
Exemple : Prvision de faillite
Rsultat sous R-cran
98
La statistique du test :
N K J J
F 1
J 1 J 1
Avec N : taille de lchantillon, et K=nombre de classes.
Arbre de dcision
Les donnes
Le classement seffectue en
partant de la racine pour poursuivre
rcursivement le processus jusqu ce
qu'on rencontre une feuille.
Exemple bancaire
Prdire si un client sera un client qui rembourse son prt
avec succs (classe OUI) ou un client qui a des difficults de
remboursement (classe NON)
Client Logement salaire Salaire S. co-emp Succs
E1 locataire A Moyen Elev NON
E2 locataire A Moyen Faible NON
E3 propritaireA Moyen Elev OUI
E4 famille B Moyen Elev OUI
E5 famille C Elev Elev OUI
E6 famille C Elev Faible NON
E7 propritaireC Elev Faible OUI
E8 locataire B Moyen Elev NON
E9 locataire C Elev Elev OUI
E10 famille B Elev Elev OUI
E11 locataire B Elev Faible OUI
E12 propritaireB Moyen Faible OUI
E13 propritaireA Elev Elev OUI
E14 famille B Moyen Faible NON
105
Description de lalgorithme
Droulement de la construction :
Description de lalgorithme
Plusieurs critres de choix de variables correspondant
diffrents types darbres :
- CART (Classification And Regression Tree : Indice de Gini)
- CHAID (Chi square Automatic Interaction Detection)
- C5.0 (Entropie de Shannon)
La variable la plus discriminante doit maximiser
IG(avant sep.)-[IG(fils1)+IG(fils2)]
Exercice
Une banque dispose des
informations suivantes sur un
ensemble de clients:
- M : moyenne des montants sur le
compte client.
- A : tranche d'ge du client.
- R : localit de rsidence du client.
- E : valeur oui si le client a un
niveau d'tudes suprieures.
Question : trouver un - I : classe oui correspond un client
arbre de dcision qui effectue une consultation de ses
capable de dire si un comptes bancaires en utilisant
client effectue des Internet
consultations de ses
comptes par Internet
Data mining - Walid Ayadi
117
Rseaux de neurones
118
Fondement biologique
L'lment fondamental du systmes nerveux est le neurone ou
cellule nerveuse.
Le neurone comprend une masse protoplasmique qui entoure le
noyau, de nombreuses arborisations protoplasmiques ou
dendrites et un long prolongement cylindrique ou axone.
Le systme nerveux peut tre vu comme un ensemble
de neurones interconnects.
119
Fondement biologique
L'axone se divise et ses ramifications sont relies aux dendrites
d'autres neurones ainsi qu'ventuellement aux siennes : les
points de jonction sont les synapses; elles sont caractrises
par une efficacit synaptique qui peut tre vue comme un
amplificateur de l'impulsion qui traverse la synapse.
Fondement biologique
Chaque neurone possde en son noyau un additionneur
qui somme les impulsions lectriques amplifies par les synapses
l'entre dans le neurone et un seuil de stimulation. Si
l'excitation totale du neurone excde le seuil de stimulation, le
noyau initie une impulsion.
Fondement biologique
Les dendrites sont donc les organes d'entres du neurone et
l'axone son unit de sortie.
L'impulsion peut prendre la forme d'une excitation ou d'une
inhibition : l'activit d'un groupe de neurones peut renforcer
ou prvenir l'activit concurrente d'un autre groupe.
Fondement biologique
Quelques chiffres :
La dure d'une impulsion est de l'ordre de la milli-seconde
et l'amplitude d'environ 0,1 Volt.
La vitesse de propagation de l'influx nerveux est de 100 m/s
environ donc bien infrieure la vitesse de transmission de
l'information dans un rseau lectronique.
Chaque neurone intgre en permanence jusqu' 1000 signaux
synaptiques mais le nombre de contacts synaptiques par
neurones peut atteindre plusieurs dizaine de milliers.
Le cerveau contient environ 100 milliards de neurones donc,
par analogie avec la thorie des graphes, le nombre de
connexions (arcs) est de l'ordre de 104 (degr) * 1011 (nombre de
sommets) soit 1015 environ.
Neurone artificiel
De faon naturelle, on reprsente un neurone par une unit de
calcul ayant :
des entres ( dendrites +synapses)
une sortie ( axone)
des connexions pondres avec les autres neurones (
efficacit synaptique)
un additionneur
un seuil d'activation
un signal de sortie
Neurone formel
Modlisation :
Le neurone reoit les entres x1, , xi, , xn.
Le potentiel dactivation du neurone p est dfini comme
la somme pondre (les poids sont les coefficients
synaptiques wi) des entres.
La sortie o est alors calcule en fonction du seuil
Neurone formel
Exemple
127
Dfinitions
- Dterminer un rseau de neurones = Trouver les coefficients
synaptiques.
- On parle de phase dapprentissage : les caractristiques du
rseau sont modifies jusqu ce que le comportement dsir
soit obtenu.
coefficients synaptiques
Percepton
129
Perceptron
On ajoute une entre supplmentaire x0 (le biais)
On associe comme fonction de transfert la fonction de Heavyside :
f(x) = 1 si x > 0
f(x) = 0 sinon
Perceptron
Apprentissage par l algorithme du perceptron
On note S la base d apprentissage.
S est compose de couples (x, c) o :
x est le vecteur associ l entre (x0, x1, , xn)
c la sortie correspondante souhaite
On cherche dterminer les coefficients (w0, w1, , wn).
Perceptron : exemple
Apprentissage par lalgorithme de perceptron du OU :
les descriptions appartiennent {0,1}2, les entres du
perceptron appartiennent {0,1}3, la premire composante
correspond l'entre x0 et vaut toujours 1, les deux composantes
suivantes correspondent aux variables x1 et x2 . On suppose qu'
l'initialisation, les poids suivants ont t choisis : w0=0 ; w1 =
1 et w2 = -1.
Perceptron : exemple
Apprentissage par lalgorithme de perceptron : exemple
Donc : w0 = 0 ; w1 = 1 ; w2 = 1
Ce perceptron calcule le OU logique pour tout couple (x1 ; x2)
Rseaux de neurones- Walid Ayadi
133
Perceptron : exercice 1
Apprentissage d'un ensemble linairement sparable :
les descriptions appartiennent R2, le concept cible est dfini
l'aide de la droite d'quation y=x/2. Les couples (x,y) tels
que y>x/2 sont de classe 1 ; Les couples (x,y) tels que y <= x/2
sont de classe 0.
L'chantillon d'entre est :
S={((0,2),1), ((1,1),1), ((1,2.5),1), ((2,0),0), ((3,0.5),0)}.
On suppose qu' l'initialisation, les poids ont t choisis :
w0=0 ; w1 = 0 et w2 = 0.
On choisit de prsenter tous les exemples en alternant exemple
positif (de classe 1) et exemple ngatif.
Perceptron : exercice 1
L'chantillon d'entre est :
S={((0,2),1), ((1,1),1), ((1,2.5),1), ((2,0),0), ((3,0.5),0)}.
On suppose qu' l'initialisation, les poids ont t choisis :
w0=0 ; w1 = 0 et w2 = 0.
Perceptron : exercice 2
Apprentissage de parit : Considrons un afficheur numrique
sept segments et formons un perceptron donnant la parit
du chiffre crit, savoir 0 s'il est pair et 1 sinon.
On commence par coder chaque chiffre en
une liste de sept 0 ou 1 selon les segments
allums, liste qui constituera les neurones
d'entre du perceptron
136
Perceptron : exercice 2
On commence par coder chaque chiffre en
une liste de sept 0 ou 1 selon les segments
allums, liste qui constituera les neurones
d'entre du perceptron
But : Apprendre si
On considre un ensemble complet
un chiffre est pair
ou impair.
Perceptron : exercice 2
Trace de lalgorithme
138
Carte de Kohonen
Algorithme dapprentissage :
- Initialiser alatoirement les coefficients wij.
- Fixer les taux dapprentissage et .
Rpter
- Prendre une entre e = (e1, , ei, , en)
- Calculer la distance dj de chaque neurone xj par rapport e
Apprentissage du rseau
Pour chaque individu, un seul
noeud de sortie est activ ( le gagnant )
Le gagnant et ses voisins voient leurs
poids ajusts
En rapprochant les voisins, lajustement
fait en sorte qu deux individus proches
correspondent deux nuds proches
en sortie
Des groupes (clusters) de nuds
se forment en sortie
C C C C C
1 2 3 4 5
0.3 0.7 0.6 0.9 0.1 0.5 0.4 0.3 0.8 0.2
U U
1 2
C C C C C
1 2 3 4 5
0.3 0.7 0.6 0.9 0.1 0.5 0.4 0.3 0.8 0.2
U U
1 2
Le neurone le plus proche de lentre est donc C4, il gagne ainsi la comptition.
Rseaux de neurones- Walid Ayadi
147
C C C C C
1 2 3 4 5
0.3 0.7 0.6 0.9 0.1 0.5 0.42 0.28 0.8 0.2
U U
1 2
C C C C C
1 2 3 4 5
0.3 0.7 0.6 0.9 0.18 0.44 0.4 0.3 0.74 0.2
U U
1 2
Exercice :
On considre des entres caractrises par deux variables
U1 et U2. Les coefficients initiaux entre les variables des
entres et les neurones de la carte sont affichs dans la
figure 1.
Pour les entres (1.5 , 0.8) ; (0.5 , 1) ; (2 , 1) et un taux
dapprentissage de 0.1 , rpondre aux questions suivantes
en tenant compte de lordre de passage des entres :
1. Le neurone le plus proche de chaque entre?
2. Mise jour des poids du neurone gagnant pour chaque entre?
3. Mise jour des poids des neurones voisins du neurone
gagnant?
150
Exemple dapplication C. K.
Exemple :
- Analyse de donnes socio-conomiques (PIB, croissance du PIB,
mortalit infantile, taux dillettrisme, ) de 52 pays.
- 1 neurone de la carte = 1 groupe de pays (mme situation
socioconomique).
- Neurones voisins = groupes de pays proches (du point de vue
de la situation socio-conomique).
Exemple dapplication C. K.