You are on page 1of 471

Algorithmes

G. Dreyfus, J.-M. Martinez, M. Samuelides


M. B. Gordon, F. Badran, S. Thiria

Apprentissage
Sous la direction de Grard Dreyfus

statistique
Rseaux de neurones Cartes topologiques
Machines vecteurs supports
CD-R
r le

om
Su

li v r e
Cinq exemples de modles, offe
avec donnes et code source t a
vec ce
r
Neuro One 6.10.7*, outil
de cration de modles neuronaux
Compilateur C pour Windows.
Bibliothque non linaire
MonaEx70.dll, niveau 0.
* Version dvaluation de 6 semaines
pour MS-Windows NT, 2000, 2003, XP

Prvision
Data mining
Bio-ingnierie
Reconnaissance de formes
Robotique et commande de processus
Apprentissage
statistique
CHEZ LE MME DITEUR

Dans la mme collection

P. Nam, P.-H. Wuillemin, P. Leray, O. Pourret, A. Becker. Rseaux baysiens.


N11972, 3e dition, 2007, 424 pages (collection Algorithmes).

G. Fleury, P. Lacomme et A. Tanguy. Simulation vnements discrets.


Modles dterministes et stochastiques Exemples dapplications implments en Delphi et en C++.
N11924, 2006, 444 pages avec CD-Rom.

J. Richalet et al. La commande prdictive.


Mise en uvre et applications industrielles.
N11553, 2004, 256 pages.

P. Lacomme, C. Prins, M. Sevaux Algorithmes de graphes.


N11385, 2003, 368 pages, avec CD-Rom.

J. Dro, A. Ptrowski, P. Siarry, E. Taillard Mtaheuristiques pour loptimisation difficile.


Recuit simul, recherche tabou, algorithmes volutionnaires et algorithmes gntiques, colonies de fourmis
N11368, 2003, 368 pages.

A. Cornujols, L. Miclet. Apprentissage artificiel.


Concepts et algorithmes.
N11020, 2002, 638 pages.

Y. Collette, P. Siarry Optimisation multiobjectif.


N11168, 2002, 316 pages.

C. Guret, C. Prins, M. Sevaux. Programmation linaire.


65 problmes doptimisation modliss et rsolus avec Visual XPress.
N9202, 2000, 365 pages, avec CD-ROM.

Autres ouvrages

I. Hurbain, avec la contribution dE. Dreyfus. Mmento Unix/Linux.


N11954, 2006, 14 pages.

C. Jacquet. Mmento LaTeX.


N12244, 2007, 14 pages.
Apprentissage
statistique
G. Dreyfus, J.-M. Martinez, M. Samuelides
M. B. Gordon, F. Badran, S. Thiria
Sous la direction de Grard Dreyfus
DITIONS EYROLLES
61, bd Saint-Germain
75240 Paris Cedex 05
www.editions-eyrolles.com

Cet ouvrage est la troisime dition, avec mise jour et nouveau titre,
de louvrage paru lorigine sous le titre
Rseaux de neurones Mthodologie et applications
(ISBN: 978-2-212-11464-5)

Le code de la proprit intellectuelle du 1er juillet 1992 interdit en effet expressment la


photocopie usage collectif sans autorisation des ayants droit. Or, cette pratique sest
gnralise notamment dans les tablissements denseignement, provoquant une baisse
brutale des achats de livres, au point que la possibilit mme pour les auteurs de crer des
uvres nouvelles et de les faire diter correctement est aujourdhui menace.
En application de la loi du 11 mars 1957, il est interdit de reproduire intgralement ou
partiellement le prsent ouvrage, sur quelque support que ce soit, sans autorisation de lditeur ou du Centre
Franais dExploitation du Droit de Copie, 20, rue des Grands-Augustins, 75006 Paris.
Groupe Eyrolles, 2002, 2004, 2008, ISBN : 978-2-212-12229-9
Remerciements

Je tiens exprimer ma chaleureuse gratitude la direction de lcole Suprieure de Physique et de Chimie


Industrielles (Jacques Prost, Directeur, et Claude Boccara, Directeur Scientifique) et leurs prdcesseurs
Pierre-Gilles de Gennes et Jacques Lewiner, qui, ds 1982, une poque o le sujet ntait gure popu-
laire, ont apport un soutien continu aux recherches menes sur lapprentissage artificiel dans mon labo-
ratoire.
Je remercie galement, de la manire la plus vive, mes collaborateurs, prsents ou passs, dont les travaux
ont contribu faire progresser ce sujet difficile.
Mes remerciements vont aussi aux managers, ingnieurs et chercheurs des socits franaises et tran-
gres qui font ou ont fait confiance aux mthodes que nous avons dveloppes. Je tiens mentionner
spcialement Netral S.A., qui a accept de contribuer au contenu du CD-Rom qui accompagne cet
ouvrage.
Enfin, je suis heureux de remercier amicalement lditeur de ce livre, Muriel Shan Sei Fan, qui en a assur
la bonne fin avec une nergie et une bonne humeur inpuisables, ainsi que tous les auteurs : ils ont apport
leurs contributions avec enthousiasme et ponctualit, et ils ont accept de bonne grce les contraintes de
vocabulaire, de style et de notation quimposait notre volont commune de rdiger un ouvrage didactique,
accessible aux ingnieurs comme aux tudiants et aux chercheurs.
Grard Dreyfus

Je tiens remercier Jean-Baptiste Thomas et Patrick Raymond, responsables la Direction de lnergie


Nuclaire du CEA au Centre dtudes de Saclay, pour la confiance et le soutien quils mont accords sur
les activits rseaux de neurones artificiels. Je voudrais galement remercier chaleureusement mes
anciens thsards : Fabrice Gaudier, Manuel Dominguez, Lionel Montoliu et Vincent Vigneron qui ont
contribu largement aux travaux de recherche et dveloppement des rseaux de neurones dans mon labo-
ratoire.
Jean-Marc Martinez

Je remercie la direction scientifique de lONERA et le chef de projet Jean-Louis Gobert pour le soutien
accord des recherches dordre gnral sur les rseaux de neurones notamment dans le cadre du projet
fdrateur de contrle actif des coulements.
Je tiens remercier parmi mes tudiants en thse actuels ou passs, ceux qui ont directement contribu
faire progresser notre comprhension collective du contrle neuronal savoir : Emmanuel Dauc
(Universit dAix-Marseille), Alain Dutech (INRIA, Nancy), Marc Lion (ingnieur informaticien),
Laurent Perrinet (ONERA-DTIM). Il faut aussi mentionner les tudiants de Suparo dont jai guid les
projets lan dernier et dont les ractions mont aides amliorer le contenu des chapitres 4 et 5.
Enfin, je voudrais ajouter mes remerciements personnels Grard Dreyfus pour le dialogue scientifique
qui sest instaur entre nous travers ces changes trs enrichissants pour moi. Bien conscient que les
justifications mathmatiques ne suffisent pas valuer lintrt dun algorithme, jai donc attach un
grand prix lexprience pratique que Grard ma transmise par ses observations.
Manuel Samuelides
Lapprentissage statistique
II

Je remercie mes tudiants du DEA de Sciences Cognitives de Grenoble. Au fil des annes, ils ont
contribu faire voluer mon cours par leurs remarques et leurs questions. Ils ont apport des corrections
mes notes, dont une partie a servi de base la rdaction du chapitre 6.
Le travail avec mes tudiants de thse : Juan Manuel Torres Moreno, Arnaud Buhot, Sebastian Risau
Gusman, Christelle Godin, ma apport la joie de la recherche partage, et a enrichi ma comprhension
du domaine de lapprentissage. Je les en remercie chaleureusement.
Enfin, je tiens remercier mon collgue Bernard Amy pour sa relecture critique, amicale et pleine de
remarques pertinentes.
Mirta B. Gordon

Le chapitre qui est prsent est le rsultat de nombreux efforts, il reprsente une collaboration fructueuse
entre informaticiens, physiciens et mathmaticiens. Nous tenons remercier amicalement tous les cher-
cheurs qui, par leur travail ou lintrt quils lui ont port, ont permis la ralisation de ce travail et tout
particulirement : Mziane Yacoub, Carlos Mejia, Michel Crpon, Awa Niang, Ludvine Gross, F. Anouar,
Philippe Daigremont et Dominique Frayssinet.
Fouad Badran, Sylvie Thiria

Je tiens remercier tous les collaborateurs du CEA et les tudiants qui ont particip ces travaux de
recherche. Sans tre exhaustif, je tiens exprimer toute ma gratitude Caroline Privault, Dominique
Derou-Madeline, Muriel Pitiot, Jol Feraud, Jean-Marc Bollon, Georges Gonon, Claire Jausions, Pierre
Puget et enfin Jean-Jacques Niez, qui a initi les recherches en rseaux de neurones au CEA-LETI.
Laurent Hrault
Sommaire

Avant-propos et guide de lecture XI

Guide de lecture XII


Dtail des contributions XIII

1 Lapprentissage statistique : pourquoi, comment ? 1

Introduction 1
Premier exemple : un problme lmentaire dapprentissage statistique 2
Point de vue algorithmique 3
Point de vue statistique 4
Quelques dfinitions concernant les modles 5
Modles statiques 5
Modles dynamiques 6
Deux exemples acadmiques dapprentissage supervis 7
Un exemple de modlisation pour la prdiction 7
Un exemple de classification 11
Conclusion 16
lments de thorie de lapprentissage 16
Fonction de perte, erreur de prdiction thorique 17
Dilemme biais-variance 22
De la thorie la pratique 25
Remplacer des intgrales par des sommes 26
Bornes sur lerreur de gnralisation 27
Minimisation du risque structurel 30
Conception de modles en pratique 30
Collecte et prtraitement des donnes 30
Les donnes sont prexistantes 30
Les donnes peuvent tre spcifies par le concepteur 30
Prtraitement des donnes 31
Slection des variables 31
Apprentissage des modles 32
Slection de modles 32
Slection de modles 32
Validation simple (hold-out) 32
Lapprentissage statistique
IV

Validation croise ( cross-validation ) 33


Leave-one-out 34
Slection de variables 35
Cadre thorique 36
Mthode de la variable sonde 37
Rsum : stratgies de conception 47
Conception de modles linaires par rapport leurs paramtres (rgression linaire) 48
Slection de variables pour les modles linaires en leurs paramtres 48
Apprentissage de modles linaires en leurs paramtres : la mthode des moindres carrs 49
Proprits de la solution des moindres carrs 51
Estimation de la qualit de lapprentissage 52
Interprtation gomtrique 53
Dilemme biais-variance pour les modles linaires 54
Slection de modles linaires 56
Moindres carrs par orthogonalisation de Gram-Schmidt 59
lments de statistiques 60
Quest-ce quune variable alatoire ? 60
Esprance mathmatique dune variable alatoire 62
Estimateur non biais 63
Variance dune variable alatoire 64
Autres distributions utiles 65
Intervalles de confiance 66
Tests dhypothse 68
Conclusion 70
Bibliographie 70

2 Les rseaux de neurones 73

Introduction 73
Rseaux de neurones : dfinitions et proprits 73
Les neurones 74
Les rseaux de neurones 75
Proprit fondamentale des rseaux de neurones statiques (non boucls) :
lapproximation parcimonieuse 82
quoi servent les rseaux de neurones non boucls apprentissage supervis ?
Modlisation statique et discrimination (classification) 84
quoi servent les rseaux de neurones apprentissage
non supervis ? Analyse et visualisation de donnes 87
Sommaire
V

quoi servent les rseaux de neurones boucls apprentissage supervis ? Modlisation


dynamique bote noire
et semi-physique ; commande de processus 87
Quand et comment mettre en uvre des rseaux
de neurones apprentissage supervis ? 88
Quand utiliser les rseaux de neurones ? 88
Comment mettre en uvre les rseaux de neurones ? 89
Conclusion 93
Rseaux de neurones apprentissage supervis
et discrimination (classification) 93
Quand est-il opportun dutiliser un classifieur statistique ? 93
Classification statistique et formule de Bayes 95
Classification et rgression 96
Modlisation et classification de donnes structures :
les graph machines 103
Dfinitions 104
Apprentissage 105
Deux exemples acadmiques 106
Exemples dapplications 107
Introduction 107
Reconnaissance de formes :
la lecture automatique de codes postaux 107
Une application en contrle non destructif :
la dtection de dfauts dans des rails par courants de Foucault 111
Fouille de donnes : le filtrage de documents 112
Aide la dcouverte de mdicaments : prdiction de proprits chimiques et dactivits
thrapeutiques de molcules 116
Une application en formulation :
la prdiction de la temprature de liquidus de verres 118
Modlisation dun procd de fabrication : le soudage par points 118
Application en robotique :
modlisation de lactionneur hydraulique dun bras de robot 121
Modlisation semi-physique dun procd manufacturier 122
Contrle de lenvironnement : hydrologie urbaine 123
Une application en robotique mobile :
le pilotage automatique dun vhicule autonome 124
Techniques et mthodologie de conception de modles statiques (rseaux non boucls) 125
Slection des variables 126
Estimation des paramtres (apprentissage) dun rseau de neurones non boucl 126
Lapprentissage statistique
VI

Slection de modles 143


Techniques et mthodologie de conception de modles dynamiques
(rseaux boucls ou rcurrents) 156
Reprsentations dtat et reprsentations entre-sortie 157
Les hypothses concernant le bruit et leurs consquences sur la structure, lapprentissage
et lutilisation du modle 158
Apprentissage non adaptatif des modles dynamiques sous forme canonique 166
Que faire en pratique ? Un exemple rel de modlisation bote noire 172
Mise sous forme canonique des modles dynamiques 175
Modlisation dynamique bote grise 179
Principe de la modlisation semi-physique 179
Conclusion : quels outils ? 188
Complments thoriques et algorithmiques 189
Quelques types de neurones usuels 189
Algorithme de Ho et Kashyap 191
Complment algorithmique : mthodes doptimisation de Levenberg-Marquardt
et de BFGS 191
Complment algorithmique : mthodes de recherche unidimensionnelle
pour le paramtre dapprentissage 193
Complment thorique : distance de Kullback-Leibler entre deux distributions gaussiennes 194
Complment algorithmique : calcul des leviers 196
Bibliographie 197

3 Complments de mthodologie pour la modlisation :


rduction de dimension et r-chantillonnage 203

Pr-traitements 204
Pr-traitements des entres 204
Pr-traitement des sorties pour la classification supervise 204
Pr-traitement des sorties pour la rgression 205
Rduction du nombre de composantes 206
Analyse en composantes principales 206
Principe de lACP 206
Analyse en composantes curvilignes 210
Formalisation de lanalyse en composantes curvilignes 211
Algorithme danalyse en composantes curvilignes 212
Mise en uvre de lanalyse en composantes curvilignes 213
Qualit de la projection 214
Difficults prsentes par lanalyse en composantes curvilignes 214
Sommaire
VII

Application en spectromtrie 215


Le bootstrap et les rseaux de neurones 216
Principe du bootstrap 217
Algorithme du bootstrap pour calculer un cart-type 218
Lerreur de gnralisation estime par bootstrap 218
La mthode NeMo 219
Test de la mthode NeMo 221
Conclusions 223
Bibliographie 224

4 Identification neuronale de systmes dynamiques


commands et rseaux boucls (rcurrents) 225

Formalisation et exemples de systmes dynamiques commands temps discret 226


Formalisation dun systme dynamique command par lquation dtat 226
Exemple dun systme dynamique espace dtat discret 227
Exemple dun oscillateur linaire 227
Exemple du pendule invers 228
Exemple dun oscillateur non linaire : loscillateur de Van der Pol 229
Introduction dun bruit dtat dans un systme dynamique espace dtat discret :
notion de chane de Markov 229
Introduction dun bruit dtat dans un systme dynamique tats continus :
modle linaire gaussien 231
Modles auto-rgressifs 231
Limites des modlisations des incertitudes sur le modle par un bruit dtat 233
Identification de systmes dynamiques commands par rgression 233
Identification dun systme dynamique command par rgression linaire 233
Identification dun systme dynamique non linaire par rseaux de neurones non boucls 237
Identification adaptative (en ligne) et mthode de lerreur de prdiction rcursive 239
Estimateur rcursif de la moyenne empirique 239
Estimateur rcursif de la rgression linaire 241
Identification rcursive dun modle AR 242
Mthode gnrale de lerreur de prdiction rcursive 243
Application lidentification neuronale dun systme dynamique command 244
Filtrage par innovation dans un modle dtat 245
Introduction dune quation de mesure et problme du filtrage 245
Filtrage de Kalman 247
Extension du filtre de Kalman 251
Lapprentissage statistique
VIII

Apprentissage adaptatif dun rseau de neurones par la mthode du filtrage de Kalman 252
Rseaux neuronaux rcurrents ou boucls 254
Simulateur neuronal dun systme dynamique command en boucle ouverte 254
Simulateur neuronal dun systme dynamique command en boucle ferme 255
Quelques rseaux boucls particuliers 255
Mise sous forme canonique des rseaux boucls 258
Apprentissage des rseaux de neurones rcurrents ou boucls 258
Apprentissage dirig (teacher forcing) 259
Dpliement de la forme canonique et rtropropagation travers le temps 260
Apprentissage en temps rel des rseaux boucls 262
Application des rseaux neuronaux boucls lidentification de systmes dynamiques
commands mesurs 263
Complments algorithmiques et thoriques 264
Calcul du gain de Kalman et propagation de la covariance 264
Importance de la distribution des retards dans un rseau rcurrent 266
Bibliographie 267

5 Apprentissage dune commande en boucle ferme 269

Gnralits sur la commande en boucle ferme des systmes non linaires 269
Principe de la commande en boucle ferme 269
Commandabilit 270
Stabilit des systmes dynamiques commands 271
Synthse dune commande neuronale par inversion du modle du processus 273
Inversion directe 273
Utilisation dun modle de rfrence 276
Commande avec modle interne 277
Commande prdictive et utilisation des rseaux rcurrents 278
Programmation dynamique et commande optimale 280
Exemple de problme dterministe espace dtats discret 280
Exemple de problme de dcision markovienne 281
Dfinition dun problme de dcision markovienne 282
Programmation dynamique horizon fini 286
Programmation dynamique horizon infini et cot actualis 287
Problmes de dcision markovienne partiellement observs 288
Apprentissage par renforcement et programmation neuro-dynamique 289
valuation dune politique par la mthode de Monte-Carlo et apprentissage
par renforcement 289
Sommaire
IX

Prsentation de lalgorithme TD dvaluation dune politique 290


Apprentissage par renforcement : mthode du Q-learning 292
Apprentissage par renforcement et approximation neuronale 294
Bibliographie 297

6 La discrimination 301

Apprentissage de la discrimination 302


Erreurs dapprentissage et de gnralisation 303
Surfaces discriminantes 304
Sparation linaire : le perceptron 305
Gomtrie de la classification 306
Algorithmes dapprentissage pour le perceptron 309
Algorithme Minimerror 317
Exemple dapplication : la classification de signaux de sonar 318
Algorithmes dapprentissage adaptatifs ( en ligne ) 320
Interprtation de lapprentissage en termes de forces 320
Au-del de la sparation linaire 321
Perceptron sphrique 321
Heuristiques constructives 322
Algorithme constructif NetLS 323
Machines vecteurs supports (Support Vector Machines) 325
SVM marge dure 327
Machines noyaux (Kernel machines) 329
SVM marge floue (Soft margin SVM) 331
SVM pratique 333
Problmes plusieurs classes 334
Questions thoriques 335
Formulation probabiliste de lapprentissage et infrence baysienne 335
Thorie statistique de lapprentissage 340
Prdiction du comportement typique des classifieurs 342
Complments 344
Bornes du nombre ditrations de lalgorithme du perceptron 344
Nombre de dichotomies linairement sparables 345
Bibliographie non commente 345

7 Cartes auto-organisatrices et classification automatique 349

Notations et dfinitions 351


Lapprentissage statistique
X

Mthode des k-moyennes 352


Prsentation de lalgorithme 352
Version stochastique des k-moyennes 354
Interprtation probabiliste des k-moyennes 357
Carte topologique auto-organisatrice 360
Les cartes auto-organisatrices 360
Lalgorithme doptimisation non adaptative des cartes topologiques 363
Lalgorithme de Kohonen 369
Discussion 370
Architecture neuronale et carte topologique 371
Architecture et carte topologique volutive 372
Interprtation de lordre topologique 373
Carte topologique probabiliste 375
Classification et carte topologique 378
tiquetage de la carte par donnes expertises 378
Recherche dune partition adapte aux classes recherches 379
tiquetage et classification 381
Applications 382
Une application en tldtection satellitaire 383
Carte topologique et recherche documentaire 407
Extension des cartes topologiques aux donnes catgorielles 409
Codage et analyse des donnes catgorielles 409
Cartes topologiques et donnes binaires 410
Cartes topologiques probabilistes et donnes catgorielles (CTM) 413
Discussion 416
Exemples dapplication 417
Le modle BTM 417
Analyse des correspondances multiples 418
Le modle CTM 419
Bibliographie 424

Bibliographie commente 427

Outils pour les rseaux de neurones et contenu du CD-Rom 431

Installer Neuro One 431


Prsentation des exemples 436
Exemple 1 436
Sommaire
XI

Exemple 2 436
Exemple 3 437
Exemple 4 437
Exemple 5 437
Installation des exemples 437
Compiler le code source 438
Excuter le code source 438
Excuter le code source Visual Basic 439
Visualiser les modles 440
La librairie NDK (Neuro Developer Kit) 440
Programme de dmonstration de la librairie 440
Les compilateurs C 441
Licence 442

Index 443
Avant-propos et guide de lecture

En une vingtaine dannes, lapprentissage artificiel est devenu une branche majeure des mathmatiques
appliques, lintersection des statistiques et de lintelligence artificielle. Son objectif est de raliser des
modles qui apprennent par lexemple : il sappuie sur des donnes numriques (rsultats de mesures
ou de simulations), contrairement aux modles de connaissances qui sappuient sur des quations
issues des premiers principes de la physique, de la chimie, de la biologie, de lconomie, etc. Lapprentis-
sage statistique est dune grande utilit lorsque lon cherche modliser des processus complexes,
souvent non linaires, pour lesquels les connaissances thoriques sont trop imprcises pour permettre des
prdictions prcises. Ses domaines dapplications sont multiples : fouille de donnes, bio-informatique,
gnie des procds, aide au diagnostic mdical, tlcommunications, interface cerveau-machines, et bien
dautres.
Cet ouvrage reflte en partie lvolution de cette discipline, depuis ses balbutiements au dbut des
annes 1980, jusqu sa situation actuelle ; il na pas du tout la prtention de faire un point, mme partiel,
sur lensemble des dveloppements passs et actuels, mais plutt dinsister sur les principes et sur les
mthodes prouvs, dont les bases scientifiques sont sres. Dans un domaine sans cesse parcouru de
modes multiples et phmres, il est utile, pour qui cherche acqurir les connaissances et principes de
base, dinsister sur les aspects prennes du domaine.
Cet ouvrage fait suite Rseaux de neurones, mthodologies et applications, des mmes auteurs, paru
en 2000, rdit en 2004, chez le mme diteur, puis publi en traduction anglaise chez Springer.
Consacr essentiellement aux rseaux de neurones et aux cartes auto-adaptatives, il a largement contribu
populariser ces techniques et convaincre leurs utilisateurs quil est possible dobtenir des rsultats
remarquables, condition de mettre en uvre une mthodologie de conception rigoureuse, scientifique-
ment fonde, dans un domaine o lempirisme a longtemps tenu lieu de mthode.
Tout en restant fidle lesprit de cet ouvrage, combinant fondements mathmatiques et mthodologie de
mise en uvre, les auteurs ont largi le champ de la prsentation, afin de permettre au lecteur daborder
dautres mthodes dapprentissage statistique que celles qui sont directement dcrites dans cet ouvrage.
En effet, les succs de lapprentissage dans un grand nombre de domaines ont pouss au dveloppement
de trs nombreuses variantes, souvent destines rpondre efficacement aux exigences de telle ou telle
classe dapplications. Toutes ces variantes ont nanmoins des bases thoriques et des aspects mthodolo-
giques communs, quil est important davoir prsents lesprit.
Le terme dapprentissage, comme celui de rseau de neurones, voque videmment le fonctionnement du
cerveau. Il ne faut pourtant pas sattendre trouver ici dexplications sur les mcanismes de traitement des
informations dans les systmes nerveux ; ces derniers sont dune grande complexit, rsultant de
processus lectriques et chimiques subtils, encore mal compris en dpit de la grande quantit de donnes
exprimentales disponibles. Si les mthodes dapprentissage statistique peuvent tre dune grande utilit
pour crer des modles empiriques de telle ou telle fonction ralise par le systme nerveux, celles qui
sont dcrites dans cet ouvrage nont aucunement la prtention dimiter, mme vaguement, le fonctionne-
ment du cerveau. Lapprentissage artificiel, notamment statistique, permettra-t-il un jour de donner aux
ordinateurs des capacits analogues celles des tres humains ? Se rapprochera-t-on de cet objectif en
perfectionnant les techniques actuelles dapprentissage, ou bien des approches radicalement nouvelles
sont-elles indispensables ? Faut-il sinspirer de ce que lon sait, ou croit savoir, sur le fonctionnement du
cerveau ? Ces questions font lobjet de dbats passionns, et passionnants, au sein de la communaut
scientifique : on nen trouvera pas les rponses ici.
Lapprentissage statistique
XII

Les objectifs de ce livre sont, plus modestement :


de convaincre les ingnieurs, chercheurs, et dcideurs, de lintrt et de la grande efficacit de lappren-
tissage statistique ;
de leur permettre de le mettre en uvre de manire simple et raisonne dans des applications.

Guide de lecture
La varit des motivations qui peuvent amener le lecteur aborder cet ouvrage justifie sans doute un guide
de lecture. En effet, les applications de lapprentissage statistique ne ncessitent pas toutes la mise en
uvre des mmes mthodes.
Le premier chapitre ( Lapprentissage statistique : pourquoi, comment ? ) constitue une prsentation
gnrale des principes de lapprentissage statistique et des problmes fondamentaux rsoudre. partir
dexemples acadmiques trs simples, le lecteur est amen dcouvrir les problmes que pose la concep-
tion de modles par apprentissage. Ces problmes sont ensuite formaliss par la prsentation de quelques
lments de la thorie de lapprentissage. La conception des modles les plus simples les modles
linaires en leurs paramtres est dcrite. Enfin, les diffrentes tapes de la conception dun modle par
apprentissage statistique sont dtailles : slection de variables, apprentissage, slection de modle, test
du modle slectionn.
Le chapitre 2 est entirement consacr aux rseaux de neurones, qui constituent une des familles de
modles les plus utiliss. Les lecteurs qui sintressent un problme de modlisation statique liront ce
chapitre jusqu la section Techniques et mthodologie de conception de modles statiques (rseaux
non boucls) incluse. Ils tireront galement profit de la lecture du chapitre 3 ( Complments de mtho-
dologie pour la modlisation : rduction de dimension et validation de modle par r-chantillonnage ).
Les lecteurs qui se posent un problme de modlisation dynamique liront le chapitre 2 en entier, le
chapitre 3 et le chapitre 4 ( Identification neuronale de systmes dynamiques commands et rseaux
boucls (rcurrents) . Sils veulent utiliser ce modle au sein dun dispositif de commande de processus,
ils liront ensuite le chapitre 5 ( Apprentissage dune commande en boucle ferme ).
Les lecteurs qui sintressent un problme de classification supervise (ou discrimination) liront le
chapitre 1, la section Rseaux de neurones apprentissage supervis et discrimination du chapitre 2,
puis le chapitres 3 ( Complments de mthodologie pour la modlisation : rduction de dimension et
validation de modle par r-chantillonnage ) et surtout le chapitre 6 ( Discrimination ), qui introduit,
de manire originale, les machines vecteurs supports.
Enfin, les lecteurs qui cherchent rsoudre un problme qui relve de lapprentissage non supervis
passeront du chapitre 1 au chapitre 3, puis au chapitre 7 ( Cartes auto-organisatrices et classification
automatique ).
Avant-propos
XIII

Dtail des contributions

Chapitres 1 et 2 Grard Dreyfus est professeur lcole Suprieure de Physique et de Chimie Indus-
trielles (ESPCI-Paristech), et directeur du Laboratoire dlectronique de cet tablis-
sement. Il enseigne lapprentissage statistique lESPCI, ainsi que dans plusieurs
masters et mastres. Depuis 1988, il organise chaque anne deux sessions de forma-
tion continue pour ingnieurs, consacres lapprentissage statistique et ses appli-
cations industrielles et financires. Depuis 1982, les recherches de son laboratoire
sont entirement consacres la modlisation et lapprentissage, pour lingnierie
et la neurobiologie.
ESPCI, Laboratoire dlectronique, 10 rue Vauquelin, F 75005 Paris France
Chapitre 3 Jean-Marc Martinez, ingnieur au Centre dtudes de Saclay, effectue des recher-
ches dans le domaine des mthodes adaptes la supervision de la simulation. Il
enseigne les mthodes dapprentissage statistique lINSTN de Saclay et vry en
collaboration avec le LSC, unit mixte CEA Universit.
DM2S/SFME Centre dtudes de Saclay, 91191 Gif sur Yvette France
Lapprentissage statistique
XIV

Chapitres 4 et 5 Manuel Samuelides, professeur lcole Nationale Suprieure de lAronautique et


de lEspace (Suparo), et chef du dpartement de Mathmatiques Appliques de cette
cole, enseigne les probabilits, loptimisation et les techniques probabilistes de
lapprentissage et de la reconnaissance des formes. Il effectue des recherches sur les
applications des rseaux de neurones au Dpartement de Traitement de lInformation
et Modlisation de lONERA.
cole Nationale Suprieure de lAronautique et de lEspace, dpartement Mathma-
tiques Appliques, 10 avenue douard Belin, BP 4032, 31055 Toulouse Cedex
France
Chapitre 6 Mirta B. Gordon, physicienne et directrice de recherches au CNRS, est responsable
de lquipe Apprentissage: Modles et Algorithmes (AMA) au sein du laboratoire
TIMC-IMAG (Grenoble). Elle effectue des recherches sur la modlisation des
systmes complexes adaptatifs, et sur la thorie et les algorithmes dapprentissage.
Elle enseigne ces sujets dans diffrentes coles doctorales.
Laboratoire TIMC IMAG, Domaine de la Merci Bt. Jean Roget, 38706 La Tranche
France
Chapitre 7 Fouad Badran, professeur au CNAM (CEDRIC), y enseigne les rseaux de
neurones.
Mustapha Lebbah est matre de confrences luniversit de Paris 13.
Laboratoire dInformatique Mdicale et Bio-Informatique (LIMBIO), 74, rue Marcel
Cachin 93017 Bobigny Cedex France
Sylvie Thiria est professeur luniversit de Versailles Saint-Quentin-en-Yvelynes,
chercheur au LODYC (Laboratoire dOcanographie DYnamique et de Climato-
logie). Elle effectue des recherches sur la modlisation neuronale et sur son applica-
tion des domaines comme la gophysique.
Laboratoire dOcanographie Dynamique et de Climatologie (LODYC), case 100,
Universit Paris 6, 4 place Jussieu 75252 Paris cedex 05 France
1
Lapprentissage statistique :
pourquoi, comment ?

Introduction
Une des tches essentielles du cerveau consiste transformer des informations en connaissances : identi-
fier les lettres qui constituent un texte, les assembler en mots et en phrases, en extraire un sens, sont des
activits qui nous paraissent naturelles une fois lapprentissage ncessaire accompli avec succs.
Lobjectif de lapprentissage statistique est dimiter, laide dalgorithmes excuts par des ordinateurs,
la capacit quont les tres vivants apprendre par lexemple. Ainsi, pour apprendre un enfant la lecture
des lettres ou des chiffres, on lui prsente des exemples de ceux-ci, crits dans des styles et avec des
polices diffrents. On ne fournit gnralement pas lenfant une description analytique et discursive de la
forme et de la topologie des caractres : on se contente de lui montrer des exemples. la fin de lappren-
tissage, on attend de lenfant quil soit capable de lire non seulement tous les chiffres et lettres qui lui ont
t prsents durant son apprentissage, mais galement tous les chiffres et lettres quil est susceptible de
rencontrer : en dautres termes, on attend de lui quil ait une capacit de gnralisation partir des exem-
ples qui lui ont t prsents. De mme, lissue de lapprentissage dun modle statistique partir
dexemples, celui-ci doit tre capable de gnraliser, cest--dire de fournir un rsultat correct, dans des
situations quil na pas connues pendant lapprentissage.
Considrons deux exemples simples de tches qui peuvent tre accomplies par apprentissage artificiel :
Dans les centres de tri postal, la lecture automatique des codes postaux, et des autres lments de
ladresse des lettres et paquets, est frquemment effectue laide de modles obtenus par apprentissage
statistique, partir dexemples de chacune des classes de chiffres. Il sagit l dun problme de
classification : chaque chiffre inconnu doit tre attribu une classe parmi les 10 classes de chiffres
possibles (ou tre attribu une classe dite de rejet si le chiffre est trop mal crit pour tre reconnu
par la machine : lobjet postal doit alors tre trait manuellement).
Dans lindustrie pharmaceutique, on cherche prdire lactivit thrapeutique dune molcule partir
de sa structure, avant mme de synthtiser cette molcule, afin dviter quune synthse coteuse risque
de se rvler finalement inutile. Cette prdiction est frquemment effectue par des modles, construits
par apprentissage statistique, partir de bases de donnes de molcules dont les activits thrapeutiques
sont connues.
Ces deux problmes, quoique trs diffrents, ont une caractristique commune essentielle : ils ne peuvent
pas tre rsolus par lapplication de connaissances existant a priori. Il nexiste pas dquation mathma-
tique, issue des connaissances des chimistes et des pharmaciens, qui permette de prdire prcisment
lactivit dune molcule connaissant sa structure ; de mme, il nexiste pas dquation qui dcrive les
proprits topologiques des chiffres manuscrits. Cest dans de telles conditions que le recours lappren-
Lapprentissage statistique
2

tissage statistique partir dexemples se rvle trs fructueux. Nous prsenterons bien dautres exemples
dapplications dans ce chapitre et les suivants.
Cet ouvrage prsente trois grandes familles de modles statistiques obtenus par apprentissage artificiel
les rseaux de neurones, les machines vecteur supports et les cartes auto-adaptatives qui connaissent
un grand succs, depuis plusieurs annes ; ils font lobjet de trs nombreuses applications.
Lobjectif de ce chapitre est de prsenter les bases de la conception dun modle par apprentissage, de
manire aussi intuitive que possible, mais avec la rigueur ncessaire pour une mise en uvre raisonnable
et lobtention de rsultats fiables. On prsente tout dabord un exemple trs lmentaire de modlisation
par apprentissage, qui montre la dualit entre lapproche algorithmique, traditionnelle en apprentissage,
dune part, et lapproche statistique, qui en est devenue indissociable, dautre part. La notion fondamen-
tale tant celle de modle, on prsente ensuite quelques dfinitions qui prcisent ce que lon entend par
modle dans cet ouvrage ; on introduit notamment la distinction entre modles linaires et modles non
linaires en les paramtres, ainsi que la distinction entre modles statiques et modles dynamiques. La
section suivante dcrit deux problmes acadmiques dapprentissage, lun dans le domaine de la classifi-
cation, lautre dans celui de la prdiction ; ces exemples simples permettent de mettre en vidence le
dilemme biais-variance, qui constitue un problme central pour la pratique de lapprentissage statistique.
On prsente ensuite, de manire plus formelle, les lments de la thorie de lapprentissage : fonction de
perte, erreur de prdiction thorique, classifieur de Bayes, dilemme biais-variance. Il sagit l essentielle-
ment de rsultats asymptotiques, valables dans lhypothse o le nombre dexemples est infini. La
cinquime section est plus proche de la pratique, en ce sens que les rsultats qui y sont prsents tiennent
compte du fait que les donnes sont en nombre fini : ce sont les bornes sur lerreur de prdiction, fournies
par la thorie de V. Vapnik. Les quatre sections suivantes sont de nature entirement pratique : elles expo-
sent les diffrentes tches accomplir pour concevoir un modle par apprentissage collecte des donnes,
prtraitements, slection des variables, apprentissage, slection de modles. Ces deux dernires tches
font lobjet de deux sections suivies dun rsum de la stratgie de conception de modles. On prsente
ensuite a conception des modles les plus simples : les modles linaires en leurs paramtres. Enfin, la
dernire section du chapitre fournit les lments de statistiques ncessaires une bonne comprhension
de la mise en uvre des mthodes dcrites tout au long de louvrage.

Premier exemple : un problme lmentaire


dapprentissage statistique
Comme indiqu plus haut, lobjectif de lapprentissage statistique est de raliser, partir dexemples, un
modle prdictif dune grandeur numrique, de nature quelconque (physique, chimique, biologique,
financire, sociologique, etc.).
La dmarche de conception dun modle par apprentissage ncessite de postuler une fonction, dont les
variables (galement appeles facteurs) sont susceptibles davoir une influence sur la grandeur
modliser ; on choisit cette fonction parce que lon pense quelle est susceptible
dapprendre les donnes existantes, cest--dire de les reproduire le mieux possible,
de gnraliser, cest--dire de prdire le comportement de la grandeur modliser dans des circons-
tances qui ne font pas partie des donnes dapprentissage.
Cette fonction dpend de paramtres ajustables : lapprentissage artificiel consiste en lajustement de ces
paramtres de telle manire que le modle ainsi obtenu prsente les qualits requises dapprentissage et
de gnralisation.
Lapprentissage statistique : pourquoi, comment ?
3
CHAPITRE 1

Dans cet ouvrage, toutes les variables seront regroupes en un vecteur not x, et tous les paramtres en un
vecteur not w. Un modle statique sera dsign par g(x, w) : aprs apprentissage, cest--dire estimation
des paramtres w, la valeur que prend la fonction, lorsque les variables prennent un ensemble de valeurs
x, constitue la prdiction effectue par le modle. Les modles dynamiques seront dfinis dans la section
suivante, intitule Quelques dfinitions concernant les modles .
titre dexemple trs simple de modle statique, supposons que lon ait effectu N mesures (p1, p2, ,
pN) du poids dun objet, avec des balances et dans des lieux diffrents. Nous cherchons estimer le poids
de cet objet. Nous observons que les rsultats des mesures sont tous peu prs identiques, des fluctua-
tions prs qui peuvent tre dues limprcision des mesures, aux rglages diffrents des balances, ou
des variations locales de lacclration de la pesanteur. On peut donc supposer raisonnablement que la
masse de lobjet est constante ; en consquence, la premire tape de conception dun modle prdictif
consiste postuler un modle de la forme
g ( x, w ) = w ,
o w est un paramtre constant dont la valeur est lestimation du poids de lobjet. La deuxime tape consiste
estimer la valeur de w partir des mesures disponibles : cest ce qui constitue lapprentissage proprement
dit. Une fois lapprentissage termin, le modle fournit une estimation du poids de lobjet, donc une prdic-
tion du rsultat de la mesure de celle-ci, quels que soient la balance utilise et le lieu de la mesure.
Cet exemple contient donc, sous une forme trs simplifie, les tapes que nous avons dcrites plus haut :
On sest fix un objectif : prdire la valeur dune grandeur ; dans cet exemple trs simple, cette valeur
est constante, mais, en gnral, la valeur prdite dpend de variables x.
On a postul un modle g(x, w), o x est le vecteur des variables du modle, et w est le vecteur des para-
mtres du modle ; dans cet exemple, il ny a pas de variable puisque la grandeur prdire est constante,
et il y a un seul paramtre w. Le modle postul est donc simplement la fonction constante g(x, w) = w.
Il reste alors estimer lunique paramtre du modle, cest--dire effectuer lapprentissage du modle
partir des donnes disponibles.
Cet apprentissage peut tre considr sous deux points de vue, qui suggrent deux mthodes destimation
diffrentes ; elles conduisent videmment au mme rsultat.

Point de vue algorithmique


Nous cherchons la valeur du paramtre w pour laquelle la prdiction du modle est aussi proche que
possible des mesures. Il faut donc dfinir une distance entre les prdictions et les mesures ; la distance
la plus frquemment utilise est la fonction de cot des moindres carrs
N

( )
J ( w ) = pk g ( x k , w ) ,
2

k =1

cest--dire la somme des carrs des diffrences entre les prdictions g(xk, w) et les mesures pk. xk dsigne
le vecteur des valeurs que prennent les variables lors de la mesure k. Puisque nous avons postul un
modle constant, cette fonction de cot scrit
N
J ( w ) = ( pk w ) .
2

k =1

Pour trouver la valeur de w pour laquelle cette fonction est minimale, il suffit dcrire que sa drive est
nulle :
Lapprentissage statistique
4

dJ ( w )
= 0,
dw
ce qui donne :

1 N
w= pk .
N k =1
Le meilleur modle prdictif, au sens de la distance des moindres carrs que nous avons choisie, et
compte tenu des donnes dont nous disposons, sous lhypothse que la masse de lobjet est constante, est
donc

1 N
g ( x, w ) = pk .
N k =1
Le poids prdit est donc simplement la moyenne des poids mesurs.

Point de vue statistique


Prenons prsent le problme sous langle des statistiques. Puisque lon a de bonnes raisons de penser
que le poids p0 de cet objet est constant, il est naturel, dun point de vue statistique, de modliser les rsul-
tats de ses mesures comme des ralisations dune variable alatoire P. Celle-ci est la somme dune
variable alatoire certaine P0, desprance mathmatique p0, et dune variable alatoire B, desprance
mathmatique nulle (le lecteur qui nest pas familier avec ces notions en trouvera les dfinitions dans la
dernire section de ce chapitre) :
P = P0 + B

de sorte que lon a :


EP = p0
o EP dsigne lesprance mathmatique de la variable alatoire P.
La variable alatoire B modlise lensemble des perturbations et bruits de mesure. Le vrai poids
(inconnu) de lobjet tant p0, lapprentissage a donc pour objectif de trouver une valeur du paramtre w
qui soit aussi proche que possible de p0. Dans cet exemple, lobjectif de lapprentissage est donc destimer
lesprance mathmatique de la variable alatoire P connaissant des ralisations pk (k = 1 N) de celle-ci.
Or la moyenne est un estimateur non biais de lesprance mathmatique, cest--dire quelle tend vers p0
lorsque le nombre de mesures tend vers linfini (ce rsultat est dmontr dans la dernire section de ce
chapitre, intitule lments de statistiques ). La meilleure estimation de p0 que nous puissions obtenir,
partir des donnes disponibles, est donc la moyenne des mesures :

1 N
pk .
N k =1

1 N
On retrouve donc le modle prdictif obtenu par lapproche algorithmique : g ( x, w ) = pk .
N k =1
Ayant ainsi dtermin le modle par apprentissage, il est trs important destimer la confiance que lon
peut avoir en cette prdiction : pour cela, on calcule un intervalle de confiance sur la prdiction fournie.
Lapprentissage statistique : pourquoi, comment ?
5
CHAPITRE 1

Le calcul de lintervalle de confiance sur la moyenne dobservations est dcrit dans la dernire section de
ce chapitre.
Ces deux points de vue, algorithmique et statistique, ont longtemps t spars. Les tout premiers dve-
loppements de la thorie de lapprentissage, apparus dans les annes 1980, taient essentiellement
inspirs par le point de vue algorithmique, ce qui nintressait gure les statisticiens. Ce nest que dans les
annes 1990 quune vritable synergie sest cre entre les deux approches, permettant le dveloppement
de mthodologies efficaces et fiables pour la conception de modles par apprentissage.

Quelques dfinitions concernant les modles


Dans tout cet ouvrage, on dsignera sous le terme de modle une quation paramtre (ou un ensemble
dquations paramtres) permettant de calculer la valeur de la grandeur (ou des grandeurs) modliser
partir des valeurs dautres grandeurs appeles variables ou facteurs. On distinguera les modles statiques
des modles dynamiques, et les modles linaires en leurs paramtres des modles non linaires en leurs
paramtres.

Modles statiques
Un modle statique est une fonction paramtre note g ( x, w ), o x est le vecteur dont les composantes
sont les valeurs des variables, et o w est le vecteur des paramtres du modle.

Modles statiques linaires en leurs paramtres


Un modle statique est linaire en ses paramtres sil est une combinaison linaire de fonctions non para-
mtres des variables ; il est de la forme
p
g ( x, w ) = wi fi ( x ),
i =1

o fi est une fonction connue, non paramtre, ou paramtres connus. Ce modle peut encore scrire
sous la forme dun produit scalaire :
g ( x, w ) = w f ( x ),
o f (x) est le vecteur dont les composantes sont les fonctions fi(x).
Les polynmes, par exemple, sont des modles linaires en leurs paramtres : les fonctions fi(x) sont les
monmes des variables x. Les polynmes sont nanmoins non linaires en leurs variables.
On appelle modle linaire un modle qui est linaire en ses paramtres et en ses variables. Les modles
linaires sont donc de la forme :
p
g ( x, w ) = wi xi = w x .
i =1

Un modle affine est un modle linaire qui contient une constante additive :
p 1
g ( x, w ) = w0 + wi xi .
i =1
Lapprentissage statistique
6

Remarque
Un modle afne peut donc tre considr comme un modle linaire dont une des variables est constante, gale 1. Il est donc inutile,
en gnral, de faire une distinction entre modles linaires et modles afnes.

Modles statiques non linaires en leurs paramtres


On peut imaginer une grande varit de modles non linaires en leurs paramtres. Nous tudierons parti-
culirement dans cet ouvrage les modles non linaires en leurs paramtres qui sont de la forme
p
g ( x, w ) = wi fi ( x, w )
i =1

o les fonctions fi sont des fonctions non linaires, paramtres par les composantes du vecteur w. Le
vecteur w a donc pour composantes les paramtres wi (i = 1 p) et les composantes de w. Les rseaux de
neurones, qui sont largement tudis dans cet ouvrage, constituent un exemple de modles non linaires
en leurs paramtres et non linaires en leurs variables.

Modles dynamiques
Dans les modles dcrits dans la section prcdente, le temps ne joue aucun rle fonctionnel : si les varia-
bles x sont indpendantes du temps, la valeur fournie par le modle (ou sortie du modle) est indpen-
dante du temps. Les modles dynamiques, en revanche, ont une forme de mmoire : la sortie du modle
un instant donn dpend de ses sorties passes. En consquence, elle peut voluer dans le temps, partir
dun tat initial, mme si les variables x sont constantes, voire nulles.
La trs grande majorit des applications des modles statistiques sont ralises laide dordinateurs, ou
de circuits lectroniques numriques. Dans les deux cas, les mesures des variables sont effectues inter-
valles rguliers, dont la dure est appele priode dchantillonnage. De mme, les prdictions du modle
ne sont pas fournies de manire continue, mais intervalles rguliers, gnralement caractriss par la
mme priode dchantillonnage que les mesures des variables. De tels systmes sont dits temps discret,
par opposition aux systmes physiques naturels, qui sont des systmes temps continu.
Ces derniers sont dcrits par des modles dynamiques temps continu, qui sont des quations (ou des
systmes dquations) diffrentielles du type :

dy
= g ( y, x, w )
dt
o t dsigne le temps, y la prdiction effectue par le modle, x et w les vecteurs des variables et des para-
mtres respectivement.
Pour les modles temps discret, le temps nest plus une variable continue :

t = kT
o T dsigne la priode dchantillonnage et k est un nombre entier positif. La prdiction de la valeur prise
par la grandeur modliser linstant kT, connaissant les prdictions effectues aux n instants prcdents,
et les valeurs des variables aux m instants prcdents, peut alors tre mise sous la forme :

y ( kT ) = g y (( k 1) T ) , y (( k 2 ) T ) ,...y (( k n ) T ) , x (( k 1) T ) , x (( k 2 ) T ) ,...x (( k n ') T ) , w


Lapprentissage statistique : pourquoi, comment ?
7
CHAPITRE 1

o n et n sont des entiers positifs ; n est appel ordre du modle. Cette forme de modle est assez natu-
relle, mais nous verrons, dans les sections du chapitre 2 consacres la modlisation dynamique bote
noire , et dans les chapitres 4 et 5, quil existe des formes plus gnrales de modles dynamiques.
Comme pour les modles statiques, la fonction g(y, x, w) peut tre soit linaire, soit non linaire, par
rapport ses variables et ses paramtres. Dans la suite de ce chapitre, nous ne considrerons que des
modles statiques ; les modles dynamiques seront abords dans les chapitres 2, 4 et 5.

Deux exemples acadmiques dapprentissage supervis


On considre prsent deux exemples acadmiques, qui permettent de mettre en vidence les problmes
fondamentaux qui se posent dans le domaine de lapprentissage statistique. Ces deux exemples entrent
dans la catgorie de lapprentissage supervis, dans lequel un professeur dtermine la rponse que devrait
fournir le modle : dans un problme de classification, le professeur fournit, pour chaque exemple, une
tiquette indiquant quelle classe appartient lobjet ; dans un problme de prdiction, le professeur
associe chaque exemple une mesure de la grandeur modliser. Lapprentissage supervis nest pas le
seul type dapprentissage ; le chapitre 7 de cet ouvrage sera consacr un outil trs important de
lapprentissage non supervis, les cartes topologiques.

Un exemple de modlisation pour la prdiction


+10 Considrons une grandeur yp, engendre par un
processus de nature quelconque physique, chimique,
biologique, sociologique, conomique, , que lon
cherche modliser afin den prdire le
comportement ; elle dpend dune seule variable x.
Un ensemble dapprentissage est constitu de NA = 15
mesures ykp (k = 1 NA), effectues pour diverses
yp

valeurs xk (k = 1 NA) de la variable x. Elles sont repr-


sentes par des croix sur la figure 1-1. Nous cherchons
tablir un modle g(x, w) qui permette de prdire la
valeur de la grandeur modliser pour une valeur quel-
conque de x dans le domaine considr (2 x +3).
-4 Il sagit dun problme acadmique en ce sens que le
-2 x +3
processus par lequel ont t cres ces donnes est
Figure 1-1. Un problme acadmique de modlisation connu, ce qui nest jamais le cas pour un problme
raliste dapprentissage statistique : on sait que chaque
lment k de lensemble dapprentissage a t obtenu
en ajoutant la valeur de 10 sin(xk)/xk une ralisation dune variable alatoire obissant une loi normale
(gaussienne de moyenne nulle et dcart type gal 1).
Comme indiqu plus haut, il faut dabord postuler une fonction g(x, w). Puisque la grandeur modliser
ne dpend que de la variable x, le vecteur x se rduit un scalaire x. En labsence de toute indication sur
la nature du processus gnrateur des donnes, une dmarche naturelle consiste postuler des fonctions
de complexit croissante, dans une famille de fonctions donnes. Choisissons la famille des polynmes ;
dans cette famille, le modle polynomial de degr d scrit :
g ( x, w ) = w 0 + w 1 x + w 2 x 2 + + w d x d
Lapprentissage statistique
8

Cest donc un modle d+1 paramtres w0, w1, , wd. Le modle le plus simple de cette famille est le
modle constant g(x, w) = w0, mis en uvre dans la section intitule Premier exemple .

Pour effectuer lapprentissage de ces modles, on peut utiliser la mthode des moindres carrs, dj
mentionne. Les dtails en seront dcrits plus loin, dans la section intitule Conception de modles
linaires par rapport leur paramtres ; pour linstant, il est intressant dobserver les rsultats de ces
apprentissages, reprsents sur la figure 1-2 pour d = 1 (fonction affine), d = 6 et d = 10 ; le mme
graphique comporte galement une reprsentation de la fonction 10 sin x / x.

20

d=1

d=6
Figure 1-2.
Trois modles
d = 10 polynomiaux

10 sinx / x

-5
-2 x +3

Le modle affine (d = 1) ne rend pas du tout compte des observations car il na pas la souplesse souhai-
table pour sadapter aux donnes ; dans le jargon de lapprentissage statistique, on dira que la complexit
du modle est insuffisante. linverse, le modle polynomial de degr 10 est suffisamment complexe
pour passer trs prcisment par tous les points dapprentissage ; on observe nanmoins que cette prci-
sion sur lensemble dapprentissage est obtenue au dtriment des qualits de gnralisation du modle :
cest le phnomne de surajustement. En effet, au voisinage de x = 2 comme au voisinage de x = +3, ce
modle fournit des prdictions trs loignes de la ralit reprsente en trait plein. En revanche, le
modle polynomial de degr 6 prsente un bon compromis : la courbe ne passe pas exactement par tous
les points ce qui est normal puisque ces points rsultent en partie dun tirage alatoire mais elle est
assez proche de la vraie fonction 10 sinx / x.

Afin de rendre ces considrations plus quantitatives, on a constitu, outre lensemble dapprentissage, un
deuxime ensemble de donnes, dit ensemble de test, indpendant du prcdent, mais dont les NT
Lapprentissage statistique : pourquoi, comment ?
9
CHAPITRE 1

lments sont issus de la mme distribution de probabilit. On dfinit lerreur quadratique moyenne sur
lensemble dapprentissage (EQMA) et lerreur quadratique moyenne sur lensemble de test (EQMT) :

1 NA p NT

(
yk g ( x k , w ) ) 1
( y g ( xk , w ) )
2 2
EQMA = EQMT = p
k .
N A k =1 NT k =1

Lensemble de test, comprenant NT = 1000 lments, est reprsent sur la figure 1-3. De plus, 100 ensem-
bles dapprentissage de NA = 15 lments chacun ont t constitus.

+10

Figure 1-3.
Ensemble de test
yp

-4
-2 x +3
100 modles ont t crs partir de ces ensembles dapprentissage, et, pour chacun de ces modles,
lEQMA et lEQMT ont t calcules. La figure 1-4 montre lvolution des moyennes des EQMA et
EQMT, en fonction de la complexit (degr) du modle polynomial postul.
Remarque 1
Le fait de prsenter des moyennes des EQMA et EQMT, sur 100 modles obtenus partir de 100 ensembles dapprentissage diffrents,
permet dviter lobservation de phnomnes lis une ralisation particulire du bruit prsent dans les observations dun ensemble
dapprentissage donn. Dans la pratique, on ne dispose videmment que dun seul ensemble dapprentissage.

Remarque 2
Dans la pratique, si lon disposait dun ensemble de 1 000 exemples, on utiliserait beaucoup plus que 15 exemples pour effectuer lappren-
tissage. Par exemple, on utiliserait 500 exemples pour lapprentissage et 500 pour tester le modle. Dans cette section, nous nous plaons
volontairement dans un cadre acadmique, pour mettre en vidence les phnomnes importants. La mthodologie adopter pour la
conception de modles est prsente dans la section de ce chapitre intitule La conception de modle en pratique , et elle est large-
ment dveloppe dans le chapitre 2.
Lapprentissage statistique
10

6
EQMT EQMA

5
Figure 1-4.
Erreurs
quadratiques
4 moyennes
sur lensemble
dapprentissage
et sur lensemble
3 de test

0
0 2 4 6 8 10 12 14
Degr du modle polynomial

On observe que lerreur dapprentissage (EQMA) diminue lorsque la complexit du modle augmente :
le modle apprend de mieux en mieux les donnes dapprentissage. En revanche, lerreur sur lensemble
de test (EQMT) passe par un optimum (d = 6) puis augmente : laugmentation de la complexit du modle
au-del de d = 6 se traduit par une dgradation de ses capacits de gnralisation.
Remarque
Les brusques variations de lEQMA et de lEQMT observes lorsque lon passe du degr 3 au degr 4 sont dues la nature particulire de
lexemple tudi : en effet, dans le domaine de variation de x considr, la fonction sin x / x prsente deux points dinexion (points o la
drive seconde de la fonction est nulle). Or un polynme de degr d a au plus d 2 points dinexion : pour que le modle polynomial
puisse reproduire les deux points dinexion de la fonction gnratrice des donnes, il faut donc quil soit au moins de degr 4.

On observe galement que lEQMT reste toujours suprieure lcart-type du bruit (qui vaut 1 dans cet
exemple), et que lEQMT du modle qui a la meilleure gnralisation est voisine de lcart-type du bruit.
Ainsi, le meilleur modle ralise un compromis entre la prcision de lapprentissage et la qualit de la gn-
ralisation. Si le modle postul est trop peu complexe, lapprentissage et la gnralisation sont peu prcis ;
si le modle est trop complexe, lapprentissage est satisfaisant, mais la gnralisation ne lest pas. Ce
compromis entre la qualit de lapprentissage et celle de la gnralisation, gouvern par la complexit du
modle, est connu sous le terme de dilemme biais-variance : un modle qui a un biais faible apprend trs
bien les points dapprentissage, mais il peut avoir une variance leve car il peut tre fortement tributaire de
dtails de lensemble dapprentissage (modle surajust). En revanche, un modle peut avoir un biais lev
Lapprentissage statistique : pourquoi, comment ?
11
CHAPITRE 1

(il napprend pas parfaitement les lments de lensemble dapprentissage) mais une variance faible (il ne
dpend pas des dtails de lensemble dapprentissage). Le phnomne observ dans cet exemple est absolu-
ment gnral, comme nous le dmontrerons dans la section intitule Dilemme biais-variance .
Dans la section intitule lments de thorie de lapprentissage , on donnera une expression quantita-
tive de la notion de complexit. On montrera notamment que, pour les modles polynomiaux, la
complexit nest rien dautre que le nombre de paramtres du modle, soit d + 1 pour un polynme de
degr d ; on montrera galement que le dilemme biais-variance est gouvern par le rapport du nombre de
paramtres au nombre dexemples disponibles.
Retrouvons prsent le mme phnomne sur un second exemple acadmique, qui est cette fois un
problme de classification.

Un exemple de classification
3 Rappelons quun problme de classification
consiste affecter un objet inconnu une classe
parmi plusieurs. Considrons un problme deux
2
classes A et B. On souhaite que soit attribue tout
lment de la classe A une tiquette yp = +1, et
1 tout lment de B une tiquette yp = 1. On dispose
dun ensemble dapprentissage, constitu dexem-
ples de chacune des classes, dont la classe est
connue : des tiquettes exactes leur ont t affec-
x2

0
tes. Dans le problme considr ici, chaque
objet est dcrit par un vecteur x deux
-1
composantes : on peut donc le reprsenter par un
point dans le plan des variables (x1, x2). La figure 1-5
-2 reprsente un ensemble dapprentissage compre-
nant 80 exemples par classe. Les exemples de la
classe A sont reprsents par des croix, ceux de la
-3
-3 -2 -1 0 1 2 3 classe B par des cercles. On cherche la frontire
1
x entre ces classes, cest--dire une ligne, dans ce
plan, qui spare les exemples avec un nombre
Figure 1-5. Ensemble dapprentissage pour un problme derreurs minimal : on souhaite que la plupart des
acadmique de classification exemples dune classe (voire tous) soient dun ct
de la frontire, et que la plupart des exemples de
lautre classe (voire tous) soient de lautre ct ; on dit quil y a une erreur de classification lorsquun
exemple est situ du mauvais ct de la frontire.
Comme dans lexemple de modlisation, on prsente ici un problme acadmique : le processus gnra-
teur des donnes est connu, ce qui nest pas le cas pour un problme rel. Les exemples de lensemble
dapprentissage ont t tirs de deux distributions gaussiennes isotropes dcart-type gal 1, dont les
centres sont respectivement le point (x1 = + 0,5 ; x2 = 0,5) pour la classe A, et (x1 = 0,5 ; x2 = + 0,5)
pour la classe B. On dmontrera, dans la section intitule Classifieur de Bayes , que la diagonale du
carr, qui est laxe de symtrie du problme, est la frontire pour laquelle le risque derreur de classifica-
tion est minimal. On voit que cette frontire thorique idale ne spare pas parfaitement bien tous les
exemples dapprentissage : le taux derreur sur lensemble dapprentissage nest pas nul si lon choisit
cette frontire, mais nous montrerons que le taux derreur sur lensemble de tous les objets, engendrs par
le mme processus gnrateur, mais nappartenant pas lensemble dapprentissage, est minimal.
Lapprentissage statistique
12

Le classifieur de Bayes prsente donc une gnralisation optimale ; malheureusement, on ne peut le dter-
miner que si les distributions des exemples sont connues, ce qui nest gnralement pas le cas dans un
problme rel. On peut seulement sefforcer de trouver un classifieur qui en soit proche. Cest ce qui va
tre tent par les deux mthodes dcrites ci-dessous.

La mthode des k plus proches voisins


Une approche nave consiste considrer que des points voisins ont une grande chance dappartenir une
mme classe. Alors, tant donn un objet inconnu dcrit par le vecteur x, on peut dcider que cet objet
appartient la classe de lexemple dapprentissage qui est le plus proche de lextrmit de x. De manire
plus gnrale, on peut dcider de considrer les k plus proches voisins de lobjet inconnu, et daffecter
celui-ci la classe laquelle appartient la majorit des k exemples les plus proches (on prend de prf-
rence k impair). Cette approche, appele mthode des k plus proches voisins, revient postuler une fonc-
1 k
tion g ( x, k ) = yip, o la somme porte sur les k exemples les plus proches de x, et mettre en uvre
k i =1
( ( ))
la rgle suivante : lobjet dcrit par x est affect la classe A si sgn g x , k = +1, et il est affect la
classe B dans le cas contraire1. On construit ainsi un modle constant par morceaux, gal la moyenne
des tiquettes des k exemples les plus proches. Le seul paramtre du modle est donc k, le nombre de plus
proches voisins pris en considration dans la moyenne.

Pour visualiser les rsultats, le calcul est effectu pour 10 000 points disposs rgulirement sur une grille
de 100 100 points. La figure 1-6 montre les rsultats obtenus pour k = 1, k = 7, k = 21 et k = 159 (cette
dernire valeur est la valeur maximale de k puisque lensemble dapprentissage comporte en tout
160 exemples) ; les points affects la classe A par le classifieur sont reprsents en gris fonc, ceux qui
sont affects la classe B en gris clair.

Pour k = 1, on observe que la frontire est trs irrgulire, et dfinit des lots de lune des classes dans
lautre classe. Ce phnomne sexplique facilement : comme chaque point de lensemble dapprentissage
est son propre plus proche voisin, il est forcment bien class. La frontire dpend donc compltement de
lensemble dapprentissage choisi : un autre tirage alatoire de points dans les mmes distributions gaus-
siennes aurait produit une frontire trs diffrente. Cest un modle qui a un biais faible (tous les exemples
de lensemble dapprentissage tant bien appris, le taux derreur sur lensemble dapprentissage est nul)
et une variance leve (la frontire varie beaucoup si lon change lensemble dapprentissage). La capa-
cit de gnralisation est donc certainement trs faible, le modle tant compltement surajust
lensemble dapprentissage disponible. La croix en traits pais (x1 = 2, x2 = 2,5), qui nappartient pas
lensemble dapprentissage, est mal classe.

Lorsque lon augmente k, la frontire devient plus rgulire, et plus proche de la frontire optimale (k = 7,
k = 21). La croix en traits pais est correctement classe dans lensemble des croix. Pour k = 159, on
observe en revanche que la frontire devient trs rgulire, mais quelle est trs loigne de la solution
optimale (la diagonale du carr). La croix en traits pais est nouveau mal classe.

On passe ainsi de modles de faible biais et grande variance (faibles valeurs de k) des modles de faible
variance mais de biais lev (grandes valeurs de k). Comme dans lexemple prcdent, on voit apparatre
la ncessit de trouver un compromis satisfaisant entre le biais et la variance ; ce compromis dpend la
valeur de 1 / k.

1. La fonction sgn(u) est dfinie de la manire suivante : sgn(u) = +1 si u > 0, sgn(u) = 1 si u 0


Lapprentissage statistique : pourquoi, comment ?
13
CHAPITRE 1

3 3

2 2

1 1
x2

x2
0 0

-1 -1

-2 -2

-3 -3
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
x1 x1

k=1 k=7
3 3

2 2

1 1
x2

x2

0 0

-1 -1

-2 -2

-3 -3
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
x1 x1

k = 21 k = 159
Figure 1-6. Classification par la mthode des k plus proches voisins
Lapprentissage statistique
14

Pour caractriser quantitativement ce phnomne, 30

on peut procder comme pour lexemple prc-


28
dent : on constitue un ensemble de test de 1000

Taux derreur de classification (%)


points, et 100 ensembles dapprentissage de tailles 26
Ensemble de test

identiques (100 exemples par classe), tirs des


mmes distributions de probabilits. Pour diff- 24 Limite de Bayes
rentes valeurs de k, on construit un modle partir
de chaque ensemble dapprentissage par la 22
Ensemble dapprentissage
mthode des plus proches voisins, soit 100
20
modles pour chaque valeur de k. Pour chaque
modle, on calcule le taux derreur de classification 18
(rapport du nombre dexemples mal classs au
nombre total dexemples) sur lensemble dappren- 16
1/199 1/31 1/3
tissage et sur lensemble de test ; on calcule enfin la 1/k
moyenne de ces taux derreur sur les 100 ensem- Figure 1-7. Erreurs dapprentissage et de test
bles dapprentissage considrs. La figure 1-7 pour la mthode des k plus proches voisins
prsente les taux moyens derreur de classification
sur lensemble dapprentissage (+), et lerreur sur
lensemble de test (x), pour k variant de 3 199. Pour les faibles complexits (k grand), le taux derreur
sur les ensembles dapprentissage et de test sont grands, et du mme ordre de grandeur ; pour les
complexits leves (k petit), le taux derreur sur lensemble dapprentissage tend vers zro, tandis que le
taux derreur sur lensemble de test crot. Ce comportement est donc tout fait analogue celui qui a t
observ pour la prdiction (figure 1-4). Le taux derreur sur lensemble de test passe par un minimum,
appel limite de Bayes , qui, dans le cas particulier de deux distributions gaussiennes, peut tre calcul
si lon connat les moyennes et carts-types de ces distributions (voir la section Classifieur de Bayes ) ;
avec les valeurs numriques considres ici, ce taux thorique est de 23,9 %, ce qui est bien le rsultat
observ dans cette exprience numrique (la valeur du taux derreur thorique est tablie dans la section
de ce chapitre intitule Classification : rgle de Bayes et classifieur de Bayes ).
Ainsi, le dilemme biais-variance, illustr dans lexemple de modlisation, se retrouve ici sous une forme
diffrente : laugmentation du nombre de plus proches voisins, donc la diminution de la complexit ,
entrane une augmentation du nombre derreurs de classification dans lensemble dapprentissage, mais
une diminution du nombre derreurs en-dehors de lensemble dapprentissage, donc une meilleure gn-
ralisation.
Le tableau 1-1 rsume les aspects du dilemme biais-variance, pour la classification par la mthode des
plus proches voisins dune part, et pour la prdiction dautre part.
Classification Prdiction
(k plus proches voisins) (modles linaires)

Nombre dexemples Nombre de paramtres


Dilemme biais-variance gouvern par -------------------------------------------------------------------------- ------------------------------------------------------
Nombre de plus proches voisins Nombre dexemples

Limite infrieure de lerreur de gnralisation Limite de Bayes Variance du bruit


Tableau 1-1. Dilemme biais-variance pour la classification par la mthode des plus proches voisins et pour la prdiction par
des modles linaires ou polynomiaux

Classification linaire ou polynomiale


Rappelons que la mthode des k plus proches voisins consiste calculer, pour tout objet dcrit par x, la
fonction
Lapprentissage statistique : pourquoi, comment ?
15
CHAPITRE 1

1
g(x) = ykp
k k plus proches
voisins de x

( ( )) = +1 lobjet dcrit par x est affect la classe A,


et utiliser la rgle de dcision suivante : si sgn g x
( ( ))
si sgn g x = 1 il est affect la classe B.
Cette approche peut tre gnralise de la manire suivante : on cherche estimer, par apprentissage,
les paramtres dune fonction g ( x, w ) telle que sgn ( g ( x, w )) = +1 pour tous les objets de la classe A et
1 + sgn g ( x, w )
( ( ))
sgn g x , w = 1 pour tous les objets de la classe B. La fonction ( x, w ) =
2
, qui vaut
+1 pour tous les lments de A et 0 pour tous les lments de B, est appele fonction indicatrice.
3 Au lieu de postuler une fonction constante par
morceaux comme on le fait dans la mthode des k
plus proches voisins, postulons prsent une fonc-
2
tion polynomiale. La plus simple dentre elles est
la fonction affine g ( x, w ) = w0 + w1 x1 + w2 x2 , que
1 lon peut encore crire g ( x, w ) = x w , o le
symbole reprsente le produit scalaire ; x est le
vecteur de composantes {1, x1, x2} et w est le
x2

0 vecteur de composantes {w0, w1, w2}. Pour chaque


exemple k de lensemble dapprentissage, on crit
-1
( )
que g x k , w = ykp , o ykp = +1 pour tous les exem-
ples de la classe A et ykp = 1 pour tous les exem-
ples de la classe B. On met alors en uvre la
-2 mthode des moindres carrs, dcrite plus loin
dans la section Apprentissage de modles
linaires , pour estimer le vecteur des paramtres
-3 w. Pour lensemble dapprentissage reprsent sur
-3 -2 -1 0 1 2 3
x1 la figure 1-5, le rsultat obtenu est reprsent sur la
Figure 1-8. Sparation linaire figure 1-8. On observe que la frontire ainsi dfinie
est proche de la premire diagonale du carr,
laquelle garantit la meilleure gnralisation.
Comme dans le cas de la modlisation que nous avons tudi plus haut, le dilemme biais-variance est
gouvern par le rapport du nombre de paramtres du modle (1 + degr du polynme) au nombre dexem-
ples disponibles. La figure 1-9 montre lvolution du taux derreur de classification, sur lensemble
dapprentissage et sur lensemble de test, complexit donne (3 paramtres), en fonction du nombre
dexemples.
Lorsque le nombre dexemples est faible, le taux derreur sur lensemble dapprentissage est trs petit
(biais faible) et le taux derreur sur lensemble de test est trs grand (variance importante). En revanche,
lorsque le nombre dexemples augmente, les deux taux derreur convergent vers le taux derreur de Bayes
(qui, rappelons-le, peut tre calcul analytiquement dans ce cas, et vaut 23,9 %).
Lapprentissage statistique
16

40

35
Ensemble de test Figure 1-9.
Taux derreur
Taux derreur de classification (%)

en fonction
30 du nombre
dexemples,
complexit fixe

25
Limite de Bayes

20

15
Ensemble dapprentissage

10

5
0 4 8 12 16 20
Nombre dexemples par classe

Conclusion
Dans cette section, deux problmes acadmiques simples dapprentissage supervis ont t prsents : un
exemple de prdiction et un exemple de classification. Ces deux exemples ont permis de mettre en
vidence un problme central de lapprentissage artificiel : le dilemme biais-variance, cest--dire la
ncessit de trouver le meilleur compromis possible entre la capacit du modle apprendre les exemples
dapprentissage et sa capacit gnraliser des situations non apprises. Ces observations empiriques
vont prsent tre justifies de manire plus rigoureuse.

lments de thorie de lapprentissage


Cette section prsente quelques rsultats thoriques fondamentaux concernant lapprentissage supervis,
pour la prdiction et la classification. On prsentera tout dabord un formalisme gnral pour la modli-
sation par apprentissage. On introduira ensuite le classifieur de Bayes, et lon en dmontrera les
proprits. Enfin, on prouvera que le dilemme biais-variance est un phnomne gnral.
Lapprentissage statistique : pourquoi, comment ?
17
CHAPITRE 1

Fonction de perte, erreur de prdiction thorique


Puisque lapprentissage cherche reproduire les donnes, il faut dfinir une distance entre les prdic-
tions du modle et les donnes : on dfinit donc une fonction dite fonction de perte

y p , g ( x, w ) 0,
o yp est la valeur souhaite et g(x, w) est la valeur prdite par le modle, dont les paramtres sont les
composantes du vecteur w, tant donn le vecteur de variables x. Pour une tche de prdiction, yp est la
valeur mesure de la grandeur prdire ; pour une tche de classification deux classes, yp vaut +1 pour
un objet dune classe et 1 (ou 0) pour un objet de lautre classe.
Exemples
Une distance naturelle, trs frquemment utilise, est lerreur quadratique de modlisation :

y p , g ( x ,w ) = y p g ( x ,w ) .
2

Il arrive aussi que lon utilise la valeur absolue de lerreur :

y p , g ( x ,w ) = y p g ( x ,w ) .

Comment dcrire mathmatiquement la qualit du modle ? Comme dans la premire section de ce


chapitre, on peut modliser les rsultats des mesures yp comme des ralisations dune variable alatoire
Yp, et les vecteurs des variables x comme des ralisations dun vecteur alatoire X. Alors les valeurs de la
fonction de perte deviennent elles-mmes des ralisations dune variable alatoire , fonction de Yp et
de X, et il est naturel de caractriser la performance du modle par lesprance mathmatique de , ou
erreur de prdiction thorique, que nous noterons P2 (cette quantit est toujours positive, daprs la dfi-
nition de ) :

P 2 = E = ( y , g ( x, w )) p
p
Y p ,X
dy p dx

o pY p ,X est la probabilit conjointe de la variable alatoire Yp et du vecteur alatoire X ; les intgrales


portent sur toutes les valeurs possibles de la grandeur modliser et des variables qui la gouvernent. Cette
erreur de prdiction est bien une erreur thorique : en pratique, on ne dispose que dun ensemble de
donnes de taille finie, et les distributions de probabilits sont inconnues. On ne peut donc jamais calculer
cette erreur, mais seulement lestimer partir de lensemble de donnes dont on dispose.
Notons que, pour les modles dont les paramtres w sont dtermins par apprentissage, ces derniers
dpendent aussi des ralisations de YP prsentes dans lensemble dapprentissage : les paramtres du
modle peuvent donc aussi tre considrs comme des ralisations de variables alatoires. Nous utilise-
rons cette remarque dans la section intitule Dilemme biais-variance .
Lerreur de prdiction thorique peut alors scrire :

P 2 == E X EY p X ( )

o EY p X ( ) dsigne lesprance mathmatique de la variable alatoire Y p X , cest--dire lesp- ( )
rance mathmatique de la fonction de perte pour les prdictions effectues par le modle pour un vecteur
de variables x donn.
Dmonstration
( )
La probabilit conjointe peut scrire pY p ,X = pY p y p x p X . Lerreur de prdiction thorique scrit donc
Lapprentissage statistique
18

( ) (
P 2 = y p , g ( x ,w ) pY p y p x p X dy p d x )
( ) (
= y p , g ( x ,w ) pY p y p x dy p p X d x )
= E X EY p X ( ) .

Considrons un exemple caractris par le vecteur de variables x. En ce point, le meilleur modle est le
modle pour lequel lerreur de prdiction thorique est minimum. Appliquons cette proprit successive-
ment deux tches : la prdiction et la classification.

Prdiction
Comme indiqu plus haut, la fonction de perte la plus frquemment utilise pour la prdiction est

y p , g ( x, w ) = y p g ( x, w )
2

Alors le meilleur modle possible est la fonction de rgression de la grandeur modliser :

f ( x ) = EY p X

Dmonstration
Rappelons que lesprance mathmatique de la fonction de perte est donne par :

( )
EY p X ( ) = y P g ( x ,w ) pY p y p x dy p . ( )
2

Son minimum est obtenu pour le modle f(x) tel que


dEY p X
0=
dg ( x ,w )
g ( x ,w )= f ( x )

( )
d y P g ( x ,w ) 2 p p y p x dy p
=
Y

( )
dg ( x ,w )
g ( x ,w )=f ( x )

( ) (
= 2 y P f ( x ) pY p y p x dy p )
= 2 y pY p P
( y x ) dy
p p
(
2f ( x ) pY p y p x dy p . )
La premire intgrale nest autre que lesprance mathmatique de Yp tant donn x ; la seconde est gale 1 par dnition de la densit
de probabilit. On obtient ainsi : EY p X = f ( x ).
La distribution de probabilit des observations tant inconnue, la fonction de rgression est inconnue.
Pour connatre sa valeur en x, il faudrait raliser une infinit de mesures de la grandeur yp pour une valeur
donne des variables x et faire la moyenne des rsultats de ces mesures, ce qui nest videmment pas
raliste.

Classification : rgle de Bayes et classifieur de Bayes


Considrons prsent un problme de classification deux classes A et B. Affectons ltiquette yp = +1
tous les exemples de la classe A et ltiquette yp = 1 tous les exemples de la classe B. Comme nous
lavons fait plus haut, nous cherchons une fonction g(x, w) qui permettra daffecter la classe A tous les
lments pour lesquels sgn[g(x, w)] = +1, et la classe B tous les lments pour lesquels sgn[g(x, w)] = 1.
Lapprentissage statistique : pourquoi, comment ?
19
CHAPITRE 1

Cette fonction doit tre telle que lerreur de prdiction thorique soit minimale (on trouvera dans le
chapitre 6 un traitement beaucoup plus dtaill de ce problme).
Rgle de dcision de Bayes
Pour la prdiction, considre dans la section prcdente, on a mis en uvre, pour dfinir lerreur tho-
rique, la fonction de perte des moindres carrs. Pour la classification, on ne cherche pas approcher les
valeurs des rsultats de mesures, mais classer correctement des objets. On utilise donc une autre fonc-
tion de perte, mieux adapte ce problme :

y p ,sgn ( g ( x, w )) = 0 si y p = sgn ( g ( x, w ))
y p , sgn ( g ( x, w )) = 1 si y p sgn ( g ( x, w ))

Ainsi, la fonction de perte vaut 1 si le classifieur commet une erreur de classement pour lobjet dcrit par
x, et 0 sinon. Contrairement au cas de la prdiction, cette fonction est valeurs discrtes. Lesprance
mathmatique de la variable alatoire discrte nest autre que la probabilit pour que le classifieur
considr commette une erreur de classification pour un objet dcrit par x ; en effet :

E ( x ) = 1 Pr (1 x ) + 0 Pr ( 0 x )
= Pr (1 x ) .

Cette quantit est inconnue : pour lestimer, il faudrait disposer dune infinit dobjets dcrits par x, dont
les classes sont connues, et compter la fraction de ces objets qui est mal classe par le classifieur consi-
dr.
La variable alatoire est fonction de Yp. Son esprance mathmatique peut donc scrire :

( ) (
E ( x ) = +1,sgn ( g ( x, w )) PrY p ( +1 x ) + 1,sgn ( g ( x,w )
w )) PrY p ( 1 x ) .

La probabilit dappartenance dun objet une classe C connaissant le vecteur de variables x qui dcrit
cet objet, note PrY p ( C x ), est appele probabilit a posteriori de la classe C pour lobjet dcrit par x.
On remarque que E ( x ) ne peut prendre que deux valeurs :

E ( x ) = PrY p ( +1 x ) si sgn ( g ( x, w )) = 1,
E ( x ) = PrY p ( 1 x ) si sgn ( g ( x, w )) = +1.

Supposons que la probabilit a posteriori de la classe A au point x soit suprieure celle de la classe B :

PrY p ( +1 x ) > PrY p ( 1 x ) .

Rappelons que lon cherche la fonction g ( x, w ) pour laquelle la probabilit derreur de classification au
point x, cest--dire E ( x ), soit minimum. La fonction g ( x, w ) pour laquelle E ( x ) est minimum est
donc telle que sgn ( g ( x, w )) = +1, puisque, dans ce cas, E ( x ) = PrY p ( 1 x ), qui est la plus petite des deux
valeurs possibles.
linverse, si PrY p ( 1 x ) > PrY p ( +1 x ), la fonction g ( x, w ) qui garantit le plus petit taux derreur en x est
telle que sgn ( g ( x, w )) = 1.
Lapprentissage statistique
20

En rsum, le meilleur classifieur possible est celui qui, pour tout x, affecte lobjet dcrit par x la classe
dont la probabilit a posteriori est la plus grande en ce point.

Cette rgle de dcision (dite rgle de Bayes) garantit que le nombre derreurs de classification est
minimal ; pour pouvoir la mettre en uvre, il faut calculer (ou estimer) les probabilits a posteriori des
classes.

Classifieur de Bayes

Le classifieur de Bayes utilise, pour le calcul des probabilits a posteriori, la formule de Bayes : tant
donn un problme c classes Ci (i = 1 c), la probabilit a posteriori de la classe Ci est donne par la
relation

pX ( x Ci ) PrCi
Pr ( Ci x ) =
( x C ) Pr
c

p X j Cj
j =1

( )
o pX x C j est la densit de probabilit du vecteur x des variables observes pour les objets de la classe
Cj (ou vraisemblance du vecteur x dans la classe Cj), et PrC j est la probabilit a priori de la classe Cj,
cest--dire la probabilit pour quun objet tir au hasard appartienne la classe Cj.

Si toutes les classes ont la mme probabilit a priori 1/c, la rgle de Bayes revient classer lobjet inconnu
x dans la classe pour laquelle x a la plus grande vraisemblance : cest une application de la mthode du
maximum de vraisemblance.

Ainsi, si lon connat analytiquement les vraisemblances, et si lon connat les probabilits a priori des
classes, on peut calculer exactement les probabilits a posteriori.

Exemple : cas de deux classes gaussiennes de mmes variances

Reprenons le cas considr plus haut, dans la section intitule un exemple de classification : deux
classes A et B dans un espace deux dimensions, telles que les vraisemblances des variables sont gaus-
siennes, de mme variance , de centres xA (x1A, x2A) et xB (x1B, x2B) :

( x x )2 ( x x )2
pX ( x A ) =
1
exp 1 21A exp 2 22 A
2 2 2
( x x )2 ( x x )2
pX ( x B ) =
1
exp 1 21B exp 2 22 B .
2 2 2

Supposons que les probabilits a priori des classes soient les mmes, gales 0,5.
Dans lexemple considr plus haut, chaque classe tait reprsente par le mme nombre dexemples. Si la probabilit a priori des classes
est estime par la frquence des exemples, cest--dire le rapport du nombre dexemples dune classe au nombre total dexemples, on est
dans le cas o les deux probabilits a priori sont gales 0,5.
Lapprentissage statistique : pourquoi, comment ?
21
CHAPITRE 1

Alors la formule de Bayes permet de calculer les probabilits a posteriori :

1 ( x x )2 ( x x )2
exp 1 21A exp 2 22 A
0, 5
2 2 2
Pr ( A x ) =
1 (x x )
2
(x x ) 2
1 ( x x )2 ( x x )2
0, 5 exp 1 21A exp 2 22 A + 0, 5 exp 1 21B exp 2 22 B
2 2 2 2 2 2

1 ( x1 x1B )2 ( x 2 x 2 B )2
0, 5 exp exp
2
2 2 2 2
Pr ( B x ) = .
0, 5
1
exp
( x1 x1A )
2

exp
( x2 x2 A )
2

+ 0, 5
1
exp
( x1 x1B )
2
( x 2 x 2 B )2
exp
2 2 2 2 2 2 2 2 2 2

La rgle de classification de Bayes affecte lobjet dcrit par x la classe dont la probabilit a posteriori est
la plus grande (ou, puisque les probabilits a priori sont gales, la classe pour laquelle la vraisemblance
de x est la plus grande).
La frontire entre les classes est donc le lieu des points, dans lespace des vecteurs x, o les vraisem-
blances sont gales : cest le lieu des points tels que

( x x )2 ( x x )2 ( x x )2 ( x x )2
exp 1 21A exp 2 22 A = exp 1 21B exp 2 22 B .
2 2 2 2
soit encore

( x1 x1A )2 + ( x2 x2 A )2 = ( x1 x1B )2 + ( x2 x2 B )2 .
La frontire optimale entre les classes est donc le lieu des points quidistants des centres des
distributions : cest la mdiatrice du segment de droite qui joint ces centres.
Dans lexemple considr plus haut, les centres des gaussiennes taient symtriques par rapport la
diagonale du carr reprsent sur la figure 1-6 et la figure 1-8, donc la meilleure frontire possible entre
les classes tait la diagonale de ce carr. Le rsultat le plus proche du rsultat thorique tait le sparateur
linaire de la figure 1-8 ; en effet, on avait postul un modle linaire, et celui-ci tait vrai au sens
statistique du terme, cest--dire que la solution optimale du problme appartenait la famille des fonc-
tions dans laquelle nous cherchions une solution par apprentissage. On tait donc dans les meilleures
conditions possibles pour trouver une bonne solution par apprentissage.
Connaissant la surface de sparation fournie par le classifieur de Bayes, et sachant que les classes ont le
mme nombre dlments, il est facile de trouver le taux derreur de ce classifieur : cest la probabilit de
trouver un lment de la classe A (classe des +) dans le demi-plan suprieur gauche (ou, par symtrie, la
probabilit de trouver un lment de B (classe des o) dans le demi-plan complmentaire) :
+

1 ( x x )2 ( x x )2
exp 1 21A exp 2 22 A dx1dx2,
2
2
x2 > x1 2
Lapprentissage statistique
22

avec = 1 dans lexemple considr.


Cette expression se calcule trs simplement en effectuant une rotation des axes de 45 dans le sens trigonomtrique, suivie dune transla-
tion, de manire que la frontire entre les classes devienne verticale et que le centre de la classe A soit lorigine (gure 1-10). Le taux
derreur est alors la probabilit cumule dune variable normale entre et 2 2 . On trouve facilement cette dernire valeur laide
dun logiciel de statistiques, ou sur le Web (par exemple http://www.danielsoper.com/statcalc/calc02_do.aspx) : elle vaut environ 24 %,
comme indiqu plus haut.

Frontire de Bayes Centre de


entre classes la distribution
de probabilit
des exemples Centre de
Centre de
la distribution + 0,5 de la classe B la distribution
de probabilit
de probabilit des exemples
des exemples
-0,5 0,5
+ +0 de la classe A
Figure 1-10.
de la classe B 2 Rotation
Centre de 2 et translation
-0,5 + la distribution 2 des axes
de probabilit
des exemples Frontire de Bayes
de la classe A entre classes

Dilemme biais-variance
Les deux exemples acadmiques considrs en dbut de chapitre ont permis de mettre en vidence le
dilemme biais-variance. Muni des lments thoriques de la section prcdente, on peut prsent forma-
liser ce problme.
Considrons le cas de la prdiction par un modle dont les paramtres sont dtermins par apprentissage ;
comme indiqu plus haut, la fonction de perte la plus frquemment utilise dans ce cas est le carr de
lerreur de modlisation :

y p , g ( x, w ) = y p g ( x, w )
2

et lerreur de prdiction thorique est

P 2 = E X EY p X y p g ( x, w ) .
2


Cherchons lerreur de prdiction en un point x de lespace des variables

P 2 ( x ) = EY p X y p g ( x, w ) ,
2


en supposant que les observations yp effectues en ce point x sont des ralisations de la variable alatoire
Y p = f (x) +
o est une variable alatoire desprance mathmatique nulle et de variance 2, et o f(x) est une fonc-
tion certaine ; lesprance mathmatique de Yp est donc f(x), la fonction de rgression de yp, dont on a vu
plus haut que cest le meilleur modle possible au sens de la fonction de perte choisie.
Supposons enfin que le modle soit obtenu par apprentissage : les paramtres w du modle doivent donc
tre considrs comme des ralisations dun vecteur alatoire W qui dpend des ralisations de Yp
Lapprentissage statistique : pourquoi, comment ?
23
CHAPITRE 1

prsentes dans lensemble dapprentissage ; de mme, les prdictions g(x, w) peuvent tre considres
comme des ralisations dune variable alatoire G(x, W) qui dpendent de Yp. Pour rendre les quations
plus lisibles, on remplace ici la notation varX par var (X) et EX par E(X).
Lerreur de prdiction thorique au point x est alors donne par :

P 2 ( x ) = 2 + var G ( x, W ) + E f ( x ) G ( x, W ) ,
2

o le phnomne alatoire est la constitution de lensemble dapprentissage.

Dmonstration
Rappelons que, pour une variable alatoire Z, on a la relation

E Z 2 = varZ + [E Z ] .
2

Le modle tant construit par apprentissage, ses paramtres, donc les prdictions du modle, sont eux-mmes des ralisations de varia-
bles alatoires W et G(x, W) par lintermdiaire de Yp. On peut donc crire :

P 2 ( x ) == E Y p G ( x ,W ) = var Y p G ( x ,w ) + E Y p G ( x ,W )
2 2


= var Y p f ( x ) + f ( x ) G ( x ,W ) + E Y p f ( x ) + f ( x ) G ( x ,W )
2

= var + f ( x ) G ( x ,W ) + E + f ( x ) G ( x ,W ) .
2

La fonction f(x) tant certaine (elle ne dpend pas de W, donc de lensemble dapprentissage), sa variance est nulle. Dautre part, lesp-
rance mathmatique de est nulle : on a donc nalement :

P 2 ( x ) = 2 + var G ( x ,W ) + E f ( x ) G ( x ,W ) .
2

Le premier terme de la somme est la variance du bruit de mesure. Le deuxime est la variance de la prdic-
tion du modle au point x, qui reprsente la sensibilit du modle lensemble dapprentissage. Le troi-
sime est le biais du modle, cest--dire le carr de lesprance mathmatique de lcart entre les prdic-
tions fournies par le modle et celles qui sont fournies par le meilleur modle possible (la fonction de
rgression f(x)).
Cette relation trs importante appelle plusieurs commentaires :
La qualit dun modle ne peut tre value que par comparaison entre son erreur de prdiction et la
variance du bruit sur les mesures. Un modle qui fournit des prdictions en dsaccord de 10 % avec les
mesures est un excellent modle si les mesures ont elles-mmes une prcision de 10 % ; mais si la prci-
sion sur les mesures est de 1 %, le modle est trs mauvais : il faut chercher lamliorer. Si la prcision
sur les mesures est de 20 %, la performance de 10% annonce pour le modle est trs suspecte : son esti-
mation doit tre remise en cause. Les trois termes de la somme tant positifs, lerreur de prdiction tho-
rique ne peut tre infrieure la variance des observations en x, cest--dire la variance du bruit qui
affecte les mesures ; en dautres termes, on ne peut pas esprer quun modle, conu par apprentissage,
fournisse des prdictions plus prcises que les mesures partir desquelles il a t construit. Cest ce qui
a t observ sur la figure 1-4, o le minimum de la racine carre de lerreur de prdiction thorique,
estime par lEQMT, tait de lordre de lcart-type du bruit.
On retrouve par cette relation le fait que le meilleur modle est la fonction de rgression : en effet, si
g(x, w) = f(x), la variance est nulle puisque le modle ne dpend pas de w, et le biais est nul ; lerreur de
prdiction est donc la plus petite possible, gale la variance du bruit.
Lapprentissage statistique
24

Si le modle ne dpend pas de paramtres ajustables, la variance est nulle, mais le biais peut tre trs
grand puisque le modle ne dpend pas des donnes. Par exemple, si g(x, w) = 0, la variance est nulle et
le biais vaut f ( x ) .
2

Dans les exemples acadmiques de prdiction et de classification que nous avons prsents, nous avons
observ que le biais et la variance varient en sens inverse en fonction de la complexit du modle : un
modle trop complexe par rapport aux donnes dont on dispose possde une variance leve et un biais
faible, alors quun modle de complexit insuffisante a une variance faible mais un biais lev. Comme
lerreur de gnralisation fait intervenir la somme de ces deux termes, elle passe par un optimum qui est
au moins gal la variance du bruit. Cest exactement ce que nous avons observ sur la figure 1-4 :
lerreur quadratique moyenne sur lensemble de test, qui est une estimation de lerreur de gnralisation,
passe par un minimum pour un polynme de degr 6, qui prsente donc la complexit optimale compte
tenu des donnes dapprentissage dont on dispose.
La relation qui vient dtre tablie fournit lerreur de prdiction thorique en un point x. Lerreur de
prdiction thorique est

P 2 = E X P 2 ( x ) = P 2 ( x ) pX dx

= 2 + E X var G ( x, W ) + E X E f ( x ) G ( x, W ) .
2

Remarque
Lesprance mathmatique EX na pas le mme sens que lesprance mathmatique E : la premire porte sur toutes les conditions expri-
mentales possibles, tandis que la seconde porte sur toutes les ralisations possibles de lensemble dapprentissage.

Pour vrifier numriquement cette relation, reprenons lexemple de la modlisation par apprentissage
partir de donnes qui ont t cres artificiellement en ajoutant la fonction 10 sin(x)/x un bruit pseudo-
alatoire de variance gale 1, en NA = 15 points xk. Pour estimer le biais et la variance en un point x, 100
ensembles dapprentissage diffrents ont t crs, en tirant au hasard, dans une distribution normale
centre, 100 valeurs de yp pour chaque valeur de xk ; on a fait lapprentissage de 100 modles diffrents
g(x, wi), i = 1 100, cest--dire que 100 vecteurs de paramtres ont t estims par la mthode des moin-
dres carrs (qui sera dcrite plus loin). Un ensemble de test de 1 000 points a t cr, et, en chaque point
de cet ensemble, le biais et la variance du modle de paramtres wi ont t estims :
2
1 100 sin xktest
estimation du biais du modle g(x, wi) au point x test
k :
100 i =1 xk
( )
10 test g xktest , wi

estimation de la variance du modle g(x, wi) au point xktest :
2
1 100

99 i =1
( )
g xktest , w i
1 100

100 j =1
( )
g xktest , w j .

( )
Lerreur de prdiction P 2 xktest est estime par :

( )) .
100
1
(
yktest g xktest ,wi
2

100 i =1
Finalement, les esprances mathmatiques de ces trois quantits sont estimes par la moyenne de chacune
delles sur les 1 000 points de test.
Lapprentissage statistique : pourquoi, comment ?
25
CHAPITRE 1

9 La figure 1-11 montre, en fonction de la complexit


8
du modle, les estimations du biais du modle, de
la variance du modle, ainsi que la valeur de la
7 variance du bruit. La somme de ces trois quantits
6 (reprsente par des cercles) est en excellent
accord avec lestimation de lerreur de prdiction
5
(courbe en trait plein). On observe clairement que
4 le biais et la variance varient en sens opposs, et
que la somme passe par un minimum pour les poly-
3
nmes de degr 6.
2
Les rsultats ci-dessus ont t tablis pour la
1 prdiction. Pour la classification, ils prennent une
0
forme analogue, comme illustr numriquement
0 2 4 6 8 10 12 sur la figure 1-7. De manire gnrale, on peut
Complexit du modle (degr du polynme) rsumer la problmatique du dilemme biais-
Figure 1-11. Dilemme biais-variance pour la rgression
variance comme reprsent sur la figure 1-12 : le
x : estimation de lesprance mathmatique de la meilleur modle, au sens statistique du terme,
variance ; constitue un compromis entre lignorance
+ : estimation de lesprance mathmatique du biais (modles incapables dapprendre) et la stupidit
o : variance du bruit + variance de la prdiction + biais (modles surajusts, qui apprennent trs bien et
de la prdiction ; sont incapables de gnraliser).
trait plein : estimation de lesprance mathmatique
de lerreur de prdiction;
tirets : variance du bruit Meilleur modle
compte tenu des donnes disponibles
Erreur de prdiction

sur un ensemble
de donnes indpendant
de lensemble dapprentissage

sur lensemble
dapprentissage

Complexit du modle

Figure 1-12. Reprsentation symbolique Modles ignorants Modles stupides


du dilemme biais-variance (surajusts)

De la thorie la pratique
Les rsultats qui ont t prsents dans la section prcdente sont des rsultats asymptotiques, cest--dire
quils sont exacts si lon dispose dune quantit infinie de donnes. Ils sont trs utiles, car ils expliquent
les grandes lignes des phnomnes que lon observe, et mettent en vidence les problmes quil faut
rsoudre. Nanmoins, dans une situation relle de mise en uvre des mthodes dapprentissage artificiel,
on dispose toujours dune quantit finie de donnes, insuffisante pour estimer de manire trs prcise les
Lapprentissage statistique
26

intgrales ncessaires au calcul des esprances mathmatiques ou des variances ; de plus, les distributions
de probabilits auxquelles obissent les donnes sont galement inconnues. Dans cette section, on
prsente des rsultats thoriques sur lesquels il est possible de sappuyer pour trouver des mthodes prati-
ques de conception de modles par apprentissage. Le lecteur qui ne cherche pas approfondir la thorie
de lapprentissage peut sans dommage omettre de lire cette section et passer directement la section inti-
tule La conception de modles en pratique .

Remplacer des intgrales par des sommes


Rappelons que lobjectif de la modlisation par apprentissage est de trouver des fonctions paramtres qui
sont susceptibles de rendre compte des donnes disponibles, et de fournir des prdictions aussi prcises
que possible concernant des donnes dont on ne dispose pas lors de lapprentissage. Lobjectif thorique
est donc de trouver le vecteur de paramtres w pour lequel lerreur de prdiction thorique

P 2 = E = ( y , g ( x, w )) p
p
Y p ,X
dy p dx

est minimale. Lintgrale ntant pas calculable, il convient donc de lestimer laide des donnes dispo-
nibles. On estime donc lerreur de prdiction thorique par lerreur de prdiction empirique (galement
appele risque empirique)

1 N
P *2 = (
ykp , g ( xk , w )
N k =1
)
( )
o ykp , g ( xk , w ) est la fonction de perte choisie.
Lapport fondamental de la thorie de lapprentissage, par rapport aux statistiques classiques, rside dans
ltude de la manire dont lerreur empirique converge (ou ne converge pas) vers lerreur thorique. Ainsi,
en statistique, on montre que la moyenne est un estimateur non biais de lesprance mathmatique ; la
thorie de lapprentissage, pour sa part, sintresse la faon dont la moyenne converge vers lesprance
mathmatique lorsque le nombre dexemples augmente. Ainsi on peut valuer le nombre dexemples
ncessaires pour estimer lesprance mathmatique avec une prcision donne, ou bien valuer lerreur
que lon commet en estimant lesprance mathmatique par la moyenne, pour un nombre dexemples
donn.
Comme indiqu plus haut, la fonction de perte la plus utilise dans le cas de la prdiction est le carr de
lerreur, et lerreur de prdiction empirique est donne par

1 N p
(
yk g ( xk , w ) )
2
P *2 =
N k =1

o la somme porte sur un ensemble de donnes convenablement choisies parmi les donnes disponibles.
La premire tche consiste estimer les paramtres w, cest--dire effectuer lapprentissage proprement
dit. Pour cela, on choisit, parmi les donnes disponibles, un ensemble dapprentissage, de cardinal NA, et
lon cherche, laide dalgorithmes appropris, le vecteur w pour lequel la fonction de cot
NA

(
J = ykp g ( xk , w ) )
k =1

est minimale. Rappelons que, dans le cas o est le carr de lerreur, la fonction
Lapprentissage statistique : pourquoi, comment ?
27
CHAPITRE 1

NA

(
J = ykp g ( xk , w ) )
2

k =1

est appele fonction de cot des moindres carrs.

Supposons donc que lon ait trouv le minimum de la fonction de cot choisie ; la valeur de ce minimum
est-elle reprsentative de la qualit des prdictions que fournira le modle, muni des paramtres ainsi
dtermins, pour des valeurs de x qui ne font pas partie de lensemble dapprentissage ? Les exemples
prcdents montrent que la rponse est gnralement ngative. Ainsi, la figure 1-4 montre que lerreur
quadratique moyenne sur lensemble dapprentissage (EQMA), qui vaut J , est trs infrieure lerreur
quadratique moyenne sur lensemble de test pour des modles trop complexes (de degr suprieur ou gal
7). De mme, la figure 1-9 montre que lerreur sur lensemble dapprentissage est trs optimiste, cest-
-dire trs infrieure lerreur sur lensemble de test, lorsque le nombre dexemples est petit. Dautre part,
lerreur sur lensemble de test elle-mme nest quune estimation, laide dun nombre fini dexemples,
de lerreur de prdiction thorique. On peut donc en tirer deux enseignements :
dune part, il ne faut gnralement pas estimer la performance dun modle partir des rsultats de
lapprentissage ;
dautre part, il faut estimer le mieux possible lerreur de prdiction.

Les deux sections suivantes dcrivent, dune part, des lments thoriques qui permettent de borner
lerreur que lon commet en estimant les capacits de gnralisation partir des estimations obtenues
laide de donnes en nombre fini, et, dautre part, des lments mthodologiques qui permettent de dfinir
les bonnes pratiques pour la conception de modles par apprentissage.

Bornes sur lerreur de gnralisation


Les rsultats thoriques prsents dans la section Dilemme biais-variance sont des rsultats asympto-
tiques, qui sont exacts dans la limite o les exemples sont en nombre infini. Dans le cas, plus raliste, o
les exemples sont en nombre fini, on ne peut plus tablir de rsultats exacts ; en revanche, on peut obtenir
des rsultats en probabilit. Le cadre thorique le plus frquemment utilis est celui de la thorie de
lapprentissage tablie par V. Vapnik [VAPNIK 1998].

Le rsultat le plus remarquable de cette thorie consiste en une expression quantitative de la notion de
complexit du modle : tant donne une famille de fonction g(x, w), la complexit de cette famille peut
tre caractrise par une grandeur, appele dimension de Vapnik-Chervonenkis. Le fait quil suffise dune
seule grandeur pour dfinir la complexit dune famille de fonctions quelconque est trs remarquable ; il
faut nanmoins admettre que le calcul de la dimension de Vapnik-Chervonenkis pour une famille de fonc-
tions nest pas toujours simple.

Pour la famille des polynmes de degr d, la dimension de Vapnik-Chervonenkis est gale au nombre de
paramtres du modle, soit d+1.

En classification, la dimension de Vapnik-Chervonenkis admet une interprtation gomtrique simple :


cest le nombre maximal de points qui peuvent tre spars sans erreur par une fonction indicatrice appar-
tenant la famille considre. On trouvera dans le chapitre 6 une justification originale et bien dveloppe
de la dimension de Vapnik-Chervonenkis, dans le cadre de la classification.
Lapprentissage statistique
28

Exemple
Considrons la famille des fonctions afnes deux varia-
bles x1 et x2. Il est facile de prouver que la dimension de
Vapnik-Chervonenkis de cette famille de fonctions est
gale 3 : la gure 1-13 montre que les points appartenant
toutes les congurations possibles de 3 points apparte-
nant deux classes, en dimension 2, peuvent tre spars
par une fonction afne. En revanche, la gure 1-14 montre
une conguration de 4 points qui ne sont pas sparables
par une fonction de cette famille. Cette conguration admet
Figure 1-13. Toute configuration de 3 points dans le plan,
nanmoins un sparateur quadratique (une hyperbole), ce appartenant deux classes, admet un sparateur affine.
qui prouve que la dimension de Vapnik-Chervonenkis des
fonctions afnes de deux variables est gale 3, et que
celle des fonctions quadratiques de deux variables est
suprieure 3 ; comme indiqu plus haut, elle est gale au
nombre de paramtres, soit 6 pour les polynmes du
second degr deux variables.

La dimension de Vapnik-Chervonenkis est Figure 1-14. Une configuration de 4 points qui nadmet
gnralement une fonction croissante du pas de sparateur affine, mais qui admet un sparateur
quadratique.
nombre de paramtres. Mais ce nest pas
toujours le cas. Ainsi, la fonction sgn sin wx ( )
a un seul paramtre, mais peut sparer un nombre quelconque de points : il suffit de choisir une longueur
donde 2/w suffisamment petite. Sa dimension de Vapnik-Chervonenkis est infinie (figure 1-15).

Figure 1-15. La dimension


sin(wx)

de Vapnik-Chervonenkis
x ox oo x o xx o x xo x o xx o de la fonction sin(wx) est infinie.

x
Cette dfinition de la complexit permet dtablir des bornes sur lerreur commise en remplaant lerreur
de prdiction thorique P2 par une erreur empirique P*2 estime sur lensemble dapprentissage. Ainsi,
supposons que lon effectue lapprentissage dun classifieur en cherchant la fonction indicatrice
1 + sgn g ( x, w )
( x, w ) = (de valeur 0 ou 1, comme indiqu plus haut) qui minimise une erreur empi-
2
rique P*2(w) sur un ensemble dapprentissage de cardinal NA. Soit h la dimension de Vapnik-
Lapprentissage statistique : pourquoi, comment ?
29
CHAPITRE 1

Chervonenkis de g(x, w). On a le rsultat suivant : si NA > h, alors, avec une probabilit au moins gale
1 , pour toute fonction de cette famille, la diffrence entre lerreur de gnralisation (inconnue) P2(w)
commise par cette fonction et lerreur empirique P*2(w) calcule sur les donnes dapprentissage est
borne suprieurement par la quantit

E ( N A , h, ) 4 P *2 ( w )
B ( N A , h, ) = 1 + 1 + ,
2 E ( N A , h, )

N
h ln 2 A + 1 ln
4
o E ( N A , h, ) = 4
h
.
NA
( )
De plus, pour la fonction g x , w * pour laquelle lerreur empirique est minimale (cest--dire pour le
modle de la famille considre qui est trouv par apprentissage), avec une probabilit au moins gale
1-2, la diffrence entre lerreur de gnralisation P2(w*) commise par cette fonction et la plus petite
erreur de gnralisation qui puisse tre commise par un modle de cette famille est borne suprieurement par :

-ln E ( N A , h, ) 4
B * ( N A , h, ) = + 1 + 1 + .
2NA 2 E ( N A , h, )
La figure 1-16 montre
lvolution de B*(NA, h,
) en fonction du nombre
dexemples et de la
40 dimension de Vapnik-
35
Chervonenkis ( = 10-2).
On observe que cette
30 borne crot lorsque le
nombre dexemples
)

25
B * NA ,h,

diminue, ce qui confirme


20
le fait, mis en vidence
(

15 dans les exemples


10 prsents plus haut, que
la qualit du modle est
5 dautant meilleure que le
10
0 8 kis nombre dexemples est
0 o nen grand devant la
6 erv
10 ik-C complexit du modle.
20 4 pn
Nomb Va
re de 30 2 de
xemp ion
les 40 0 imens
D
Figure 1-16. Exemple
de borne thorique

Dans la pratique, la mise en uvre de ces bornes est peu utile, car elles sont gnralement trs
pessimistes ; elles peuvent ventuellement tre utilises pour comparer des modles entre eux. Nan-
moins, lapproche possde le trs grand mrite de mettre en vidence des comportements universels de
familles de fonctions, indpendamment de la distribution des exemples, pour des nombres dexemples
Lapprentissage statistique
30

finis, et de fournir des guides pour la conception de modles utiles dans des applications difficiles. Ainsi,
les machines vecteurs supports, dcrites dans le chapitre 6, permettent un contrle sur la dimension de
Vapnik-Chervonenkis.

Minimisation du risque structurel


Les considrations dveloppes dans les sections prcdentes conduisent naturellement un lment
important de la mthodologie de conception de modle, dite mthode de minimisation du risque struc-
turel. Elle consiste :
postuler des modles de complexit croissante, par exemple des polynmes de degr croissant ;
trouver le ou les modles pour lesquels lerreur de prdiction empirique est minimale pour chaque
complexit, ventuellement en pnalisant la variance par des mthodes de rgularisation qui seront
dcrites dans le chapitre 2 ;
choisir le meilleur modle.
Les mthodes de conception de modle qui seront dcrites dans cet ouvrage entrent dans ce cadre.

Conception de modles en pratique


Les exemples qui ont t exposs, et les considrations thoriques qui ont t dcrites, illustrent les
grandes lignes de la mthodologie de conception de modles quil convient de suivre de manire rigou-
reuse pour obtenir, par apprentissage, des modles prcis et fiables, donc utiles. Dans cette section, nous
rcapitulons les tapes de conception dun tel modle.

Collecte et prtraitement des donnes


La premire tape est videmment la collecte des donnes. Deux situations peuvent se prsenter :
le modle doit tre conu partir dune base de donnes prexistante, que lon ne peut pas enrichir ;
le concepteur du modle peut spcifier les expriences qui doivent tre effectues pour amliorer le
modle.
Une fois les donnes disponibles, il convient de les traiter de manire rendre la modlisation aussi effi-
cace que possible.

Les donnes sont prexistantes


L encore, il faut distinguer deux cas :
les donnes sont peu nombreuses ; il faut alors sefforcer de tirer le meilleur parti de ces donnes, en
construisant des modles aussi parcimonieux que possible en nombre de paramtres ;
les donnes sont trs nombreuses : on peut alors mettre en uvre des mthodes dites de planification
exprimentale ou dapprentissage actif, afin de ne retenir que les exemples qui apportent une relle
information au modle. La description dtaille de ces mthodes sort du cadre de cet ouvrage, mais des
lments en seront dcrits dans les chapitres qui suivent.

Les donnes peuvent tre spcifies par le concepteur


Dans un tel cas, il est trs souhaitable de mettre en uvre des mthodes de planification exprimentale,
surtout si les expriences sont longues ou coteuses. Les plans dexprience permettent en effet de limiter
Lapprentissage statistique : pourquoi, comment ?
31
CHAPITRE 1

le nombre dexpriences, en neffectuant que celles qui sont rellement utiles pour la conception du
modle.

Prtraitement des donnes


Une fois les donnes disponibles, il faut effectuer un prtraitement qui permette de rendre la modlisation
aussi efficace que possible. Ces prtraitements dpendent de la tche effectuer et des particularits des
donnes que lon manipule. Dans tous les cas, le prtraitement minimal consiste normaliser et centrer
les donnes, de manire viter, par exemple, que certaines variables aient de trs grandes valeurs num-
riques par rapport dautres, ce qui rendrait les algorithmes dapprentissage inefficaces. Le prtraitement
le plus simple consiste donc effectuer le changement de variables suivant, pour les variables x comme
pour la grandeur modliser yp :

u u
u' = ,
su
o u dsigne la moyenne de la grandeur u considre

1 N
u = uk ,
N k =1
et su est lestimateur de lcart-type de u :

1 N
(u u ) 2
su = .
N 1 k =1

Ainsi, toutes les grandeurs sont de moyenne nulle et dcart-type unit.


Dans toute la suite, on supposera toujours que les grandeurs considres ont t pralablement normali-
ses et centres.

Slection des variables


Lorsquon modlise un processus physique ou chimique bien connu, on dtermine gnralement, par une
analyse pralable du problme, les variables qui ont une influence sur le phnomne tudi ; dans ce cas,
une tape de slection des variables nest pas toujours ncessaire. En revanche, ce nest pas le cas
lorsquon cherche modliser un processus conomique, social ou financier, ou encore un processus
physico-chimique complexe ou mal connu : les experts du domaine peuvent donner des indications sur les
facteurs quils estiment pertinents, mais il sagit souvent de jugements subjectifs quil faut mettre
lpreuve des faits. On est alors conduit retenir un grand nombre de variables candidates (appeles
galement facteurs ou descripteurs), potentiellement pertinentes. Nanmoins, la complexit du modle
crot avec le nombre de variables : par exemple, la dimension de Vapnik-Chervonenkis de polynmes de

degr d vaut ( n + d )!, o n est le nombre de variables ; elle crot donc trs rapidement avec n. Conserver
n! d !
un contrle sur le nombre de variables est donc un lment important dans une stratgie de modlisation
qui cherche matriser la complexit des modles. Nous dcrirons plus en dtail, dans ce chapitre, le
problme de la slection de variables et nous proposerons une mthode efficace pour le rsoudre.
Lapprentissage statistique
32

Les rsultats de la slection de variables sont susceptibles de remettre en cause des ides reues concer-
nant le phnomne modliser, ou, au contraire, de conforter des conjectures ou des intuitions concernant
linfluence des variables candidates sur la grandeur modliser.
On peut galement souhaiter diminuer le nombre de variables en rduisant la dimension de lespace de
reprsentation de la grandeur que lon cherche modliser. Les principales mthodes utilises dans ce but
sont lAnalyse en Composantes Principales (ACP), lAnalyse en Composantes Indpendantes (ACI, ou
ICA pour Independent Component Analysis) ou encore lAnalyse en Composantes Curvilignes (ACC).
LACP et lACC sont dcrites dans le chapitre 3 de cet ouvrage.

Apprentissage des modles


Les mthodes dapprentissage de diffrentes familles de modles seront dcrites en dtail dans les diff-
rents chapitres de cet ouvrage. Comme nous lavons dj vu, elles consistent toutes optimiser des fonc-
tions bien choisies par des mthodes appropries. Lapprentissage des modles linaires en leurs param-
tres est dcrit dans ce chapitre, dans la section Conception de modles linaires par rapport leurs
paramtres (rgression linaire) .

Slection de modles
Comme indiqu plus haut, la mthode de minimisation du risque structurel conduit concevoir des
modles de complexits diffrentes et choisir celui qui est susceptible davoir les meilleures proprits
de gnralisation.
Nous avons vu quil est impossible, en gnral, destimer la capacit de gnralisation dun modle
partir des rsultats de lapprentissage ; une telle procdure conduirait systmatiquement slectionner un
modle de biais faible et de variance leve, donc surajust. Pour slectionner le meilleur modle parmi
des modles de complexits diffrentes, il convient donc de les comparer sur la base des prdictions quils
effectuent sur des donnes qui nont pas servi lapprentissage. Nous dcrivons ci-dessous, dans la
section intitule Slection de modles , les mthodes les plus couramment utilises.

Slection de modles
Comme indiqu plus haut, la slection de modles est une tape cruciale dans la conception dun modle
par apprentissage. Nous dcrivons ici les trois mthodes les plus frquemment mises en uvre.

Validation simple (hold-out)


Lorsque lon dispose dun grand nombre de donnes, la mthode la plus simple consiste diviser les
donnes en trois ensembles (figure 1-17) :
Un ensemble dapprentissage, de taille NA, utilis pour lapprentissage du modle ; lissue de lappren-
tissage, on calcule lEQMA du modle obtenu

1 NA p
(
yk g ( x k , w ) )
2
EQMA =
N A k =1
o la somme porte sur les lments de lensemble dapprentissage.
Lapprentissage statistique : pourquoi, comment ?
33
CHAPITRE 1

Un ensemble de validation de taille NV, disjoint de lensemble dapprentissage, mais issu de la mme
distribution de probabilit, qui est utilis pour comparer les performances des modles du point de vue
de leur aptitude gnraliser. On calcule, pour chaque modle, son Erreur Quadratique Moyenne de
Validation (EQMV)
NV

( y )
1
g ( xk , w )
2
EQMV = p
k
NV k =1

o la somme porte sur les lments de la base de validation.


Un ensemble de test de taille NT, disjoint des deux prcdents, qui sert valuer la performance du
modle slectionn en calculant lErreur Quadratique Moyenne de Test (EQMT)
NT

( y )
1
g ( xk , w )
2
EQMT = p
k
NT k =1

o la somme porte sur les lments de la base de test ; ces donnes ne doivent videmment pas tre utili-
ses pendant toute la phase de slection de modle.

Apprentissage Validation Test

Ensemble des donnes disponibles


Figure 1-17. Validation simple

Parmi lensemble des modles dont on a effectu lapprentissage, on choisit videmment celui dont
lEQMV est la plus petite ; si plusieurs modles de complexits diffrentes peuvent prtendre tre
choisis car leurs EQMV sont petites, et du mme ordre de grandeur, on choisit celui dont la complexit
est la plus faible.
Une fois dtermine la famille de fonctions de complexit optimale, on effectue un dernier apprentissage
avec lensemble des donnes utilises pralablement pour lapprentissage et la validation ; la performance
du modle ainsi obtenu est estime sur les donnes rserves pour le test.

Validation croise ( cross-validation )


Si lon ne dispose pas de donnes abondantes, la validation simple risque de conduire choisir des
modles surajusts lensemble de validation. On utilise alors la validation croise. Pour une famille de
fonctions :
sparer les donnes disponibles en un ensemble dapprentissage-validation et un ensemble de test ;
subdiviser le premier ensemble en D sous-ensembles disjoints (typiquement D = 5) ;
itrer D fois, de telle manire que chaque exemple soit prsent une et une seule fois dans un sous-
ensemble de validation (figure 1-18) ;
effectuer lapprentissage sur D-1 sous-ensembles ; calculer la somme des carrs des erreurs sur le sous-
ensemble des donnes restantes ;
Lapprentissage statistique
34

(y g ( x k , wi ) )
2
Si = p
k
k sous-ensemble
de validaation i

Apprentissage
Validation

Test
Figure 1-18. Validation croise

calculer le score de validation croise


1 D
Si ;
N i =1
slectionner le modle dont le score de validation croise est le plus faible ; si plusieurs modles de
complexits diffrentes peuvent prtendre tre choisis car leurs EQMV sont petites, et du mme ordre
de grandeur, choisir celui dont la complexit est la plus faible.
Une fois dtermine la famille de fonctions de complexit optimale, on effectue lapprentissage sur
lensemble des donnes utilises pralablement pour la validation croise, et la performance du modle
ainsi obtenu est estime sur les donnes rserves pour le test.

Leave-one-out
Le leave-one-out (galement appel jackknife) est la limite de la validation croise, dans laquelle le
nombre de partitions D de lensemble dapprentissage-validation est gal au nombre de ses lments N.
Chaque sous-ensemble de validation est donc constitu dun seul exemple. Pour une famille de fonctions
de complexit donne, il faut donc raliser autant dapprentissages quil y a dexemples dans la base
dapprentissage-validation. Pour chaque exemple k exclu de lensemble dapprentissage, on calcule
lerreur de prdiction

rk k = ykp g( x, w k )

o g(x, w-k) dsigne le modle, de paramtres w-k, obtenu lorsque lexemple k est exclu de lensemble
dapprentissage.
Une fois la procdure effectue, on calcule le score de leave-one-out

1 N k
rk ( )
2
Et = .
N k =1
Comme dans les cas prcdents, on choisit le modle qui a le plus petit score de leave-one-out ; si
plusieurs modles de complexits diffrentes peuvent prtendre tre choisis car leurs scores de leave-
Lapprentissage statistique : pourquoi, comment ?
35
CHAPITRE 1

one-out sont petits, et du mme ordre de grandeur, on choisit celui dont la complexit est la plus faible.
Lapprentissage final est effectu avec lensemble des donnes disponibles.
3
Score de leave-one-out
La figure 1-19 montre le score de leave-one-out et
EQMA lEQMA en fonction du degr du modle polyno-
2,5 cart-type du bruit mial, pour lexemple tudi plus haut dans la
section intitule Un exemple de modlisation
pour la prdiction . Les rsultats sont remarqua-
2 blement voisins de ceux qui sont reprsents sur la
figure 1-4 ; mais, la diffrence de ces derniers,
lerreur de gnralisation nest pas estime sur un
1,5
ensemble de test de 1 000 exemples (il est tout
fait exceptionnel de disposer de donnes de test
1 aussi abondantes), mais avec les seuls 30 points
disponibles. La procdure conduit la slection
dun polynme de degr 6 ; il faut noter que les
0,5
0 2 4 6 8 10 12
rsultats prsents ici sont une moyenne sur
Degr du modle polynomial 100 ensembles dapprentissage.
Figure 1-19. EQMA et score de leave-one-out moyens
sur 100 bases dapprentissage comprenant chacune
30 exemples
6 Dans la pratique, on ne dispose que dun ensemble
Score de leave-one-out
dapprentissage, ce qui introduit une plus grande
EQMA
5 variabilit dans les rsultats ; ainsi, dans le cas
cart-type du bruit
reprsent sur la figure 1-20, les modles de degr
4 6 et 8 peuvent prtendre tre choisis ; compte
tenu du fait que les scores de leave-one-out sont
3
trs voisins, on choisit le modle de degr 6.
Cette technique est donc gourmande en temps de
2 calcul, en raison du grand nombre dapprentissages
ncessaires. Le calcul du PRESS, dcrit dans la
1
section Conception de modles linaires de ce
chapitre, et la mthode du leave-one-out virtuel,
qui sera dcrite dans le chapitre 2, constituent des
0
0 2 4 6 8 10 12 alternatives beaucoup plus conomiques en temps
Degr du modle polynomial de calcul.
Figure 1-20. EQMA et score de leave-one-out
pour un seul ensemble dapprentissage

Slection de variables
Comme soulign plus haut, la slection de variables constitue un lment important dans une stratgie de
conception dun modle par apprentissage ; elle contribue en effet la diminution de la complexit dun
modle. Louvrage [GUYON 2006] fournit une excellente vue densemble des approches modernes de la
slection de variables.
Lapprentissage statistique
36

La slection de variables ncessite toujours :


de dfinir un critre de pertinence des variables pour la prdiction de la grandeur modliser ;
de ranger les variables candidates par ordre de pertinence ;
de dfinir un seuil qui permette de dcider que lon conserve ou que lon rejette une variable ou un
groupe de variables.
Dans cette section, nous poserons dabord le problme de la dfinition dun critre de pertinence sous son
angle statistique, puis nous dcrirons une mthode efficace de slection de variables. Enfin, nous dcri-
rons une stratgie gnrale appliquer pour la slection de variables.

Cadre thorique
Cette section pose les bases thoriques ncessaires une apprhension gnrale du problme de slection
de variables. Le lecteur peu soucieux de ce cadre thorique peut sans dommage omettre la lecture de cette
section et passer directement la section intitule Mthode de la variable sonde .
La prsentation qui suit est inspire de lintroduction de [GUYON 2006].
Lobjectif de la slection de variables est de discerner, dans un ensemble de variables candidates {x1, x2,
xn}, qui constituent le vecteur de variables que nous avons not x dans les sections prcdentes, celles
qui sont pertinentes pour la modlisation de la grandeur yp. Comme prcdemment, ces variables peuvent
tre modlises comme des ralisations des composantes X1, X2, , Xn dun vecteur alatoire X. On
dsigne par Xi le vecteur dont les composantes sont celles de X lexception de la variable xi. Enfin, on
dsigne par Si un vecteur alatoire dont les composantes sont un sous-ensemble des composantes de Xi
(Si peut tre identique Xi). En rsum, le vecteur X modlise toutes les variables candidates, le vecteur
Xi modlise le vecteur des variables candidates dont on a supprim la variable i, et le vecteur Si modlise
le vecteur des variables candidates dont on a supprim au moins la variable i, et ventuellement dautres
variables.
Il va de soi que la variable i est certainement non pertinente pour prdire la grandeur yp si et seulement si
les variables xi et yp varient indpendamment lune de lautre lorsque toutes les autres variables sont
fixes, ce qui peut scrire :

( ) ( ) (
pX ,Y p Xi , Y p S i = p Xi Xi S i pY p Y p S i .
i
)
Une variable qui est pertinente nobit donc pas cette relation. Pour savoir si une variable est peu perti-
nente ou trs pertinente, il est donc naturel de chercher savoir si le membre de gauche de cette galit
est peu diffrent, ou trs diffrent, du membre de droite. Sagissant de distributions de probabilits, une
diffrence sexprime gnralement par la distance de Kullback-Leibler entre les distributions. La
distance de Kullback-Leibler entre deux distributions de probabilits pU et pV est dfinie par la
relation [KULLBACK 1959] :
+
pU
pV ln p du dv.
V

Elle scrit donc ici :

( )
+
p X ,Y p Xi , Y p S i
(
I Xi , Y S p i
) i
( )
= pX ,Y p Xi , Y p S i ln i

( ) (
pXi Xi S i pY p Y p S i )
dxi dy p .


Lapprentissage statistique : pourquoi, comment ?
37
CHAPITRE 1

Cette quantit nest autre que linformation mutuelle entre Xi et Yp, tant donnes toutes les autres varia-
bles. Plus elle est grande, plus la variable xi est pertinente pour la prdiction de yp, toutes les autres varia-
bles tant connues.
Puisque lon cherche un indice de pertinence qui soit indpendant des autres variables candidates, il est
naturel de proposer comme indice de pertinence, pour la variable i, la moyenne de linformation
mutuelle :

( )( )
r ( i ) = Pr S i I Xi , Y p S i .
S i

On peut alors fixer un seuil et dcider de rejeter toutes les variables telles que

r ( i ) < .
Il faut nanmoins remarquer que les intgrales qui interviennent dans lexpression de lindice de perti-
nence ne sont pas calculables, puisque lon ne dispose que dun nombre fini N de ralisations de xi et de
yp. Ce critre de slection nest donc pas applicable en pratique ; en revanche, on peut, au moins en prin-
cipe, estimer la probabilit pour que lindice de pertinence soit suprieur un seuil , et dcider que la
variable candidate doit tre rejete si la probabilit pour que son indice de pertinence soit suprieur au
seuil est infrieure une quantit :

Pr ( r ( i, N ) > ) <

o r(i, N) dsigne lindice de pertinence estim pour la variable i partir dun chantillon de N exemples.
Les mthodes qui ncessitent lestimation de densits de probabilit sont gnralement de mise en uvre
dlicate, notamment lorsque les exemples sont en nombre limit. Nous dcrivons ci-dessous une mthode
simple et robuste qui est fonde sur lestimation de corrlations.

Mthode de la variable sonde


Rappelons lobjectif de toute procdure de slection de variables : classer les variables candidates en deux
groupes, les variables que lon conserve car on les considre pertinentes, et celles que lon rejette. Suppo-
sons que lon ait dfini un indice de pertinence r(i, N) pour la variable i, partir dun chantillon de N
observations. La variable i tant modlise comme une variable alatoire, son indice de pertinence est lui-
mme une variable alatoire. La figure 1-21 reprsente symboliquement les distributions de probabilit de
lindice de pertinence pour les variables pertinentes et pour les variables non pertinentes ; ces distributions
sont videmment inconnues, puisque lon ne sait pas quelles variables sont pertinentes. Nanmoins, on
peut penser que, si lindice de pertinence est bien choisi, sa distribution, pour les variables pertinentes,
possde un pic situ des valeurs plus leves que le pic de sa distribution pour les variables non perti-
nentes. Dans la pratique, les deux distributions ne sont pas parfaitement spares : si lon choisit un seuil
comme indiqu sur la figure, il existe une probabilit non nulle de faux positif (probabilit de
conserver une variable alors quelle nest pas pertinente), et une probabilit non nulle de faux ngatif
(probabilit de rejeter une variable alors quelle est pertinente). Il faut donc choisir judicieusement ce
seuil compte tenu des donnes dont on dispose.
la fin de la section prcdente, un critre de rejet a t propos : rejeter la variable i si

Pr ( r ( i, N ) > ) < .
Lapprentissage statistique
38

Cette condition se traduit


sur la figure 1-21 par le
fait que lon choisit de
telle manire que laire
hachure en traits gras
soit infrieure la proba-
Distribution de probabilit
de lindice de pertinence

bilit que lon sest


fixe.
Variables non pertinentes Variables pertinentes
Si lon connaissait la
distribution de lindice de
pertinence pour les varia-
bles non pertinentes, le
seul paramtre que le
concepteur du modle
aurait choisir serait
probabilit probabilit
donc cette probabilit .
de faux ngatif de faux positif ()
Lintrt de la mthode
de la variable sonde est
quelle permet destimer
la densit de probabilit
Indice de pertinence de lindice de pertinence
Figure 1-21. Distributions de probabilit de lindice de pertinence des variables non perti-
pour des variables pertinentes et pour des variables non pertinentes nentes. Muni de cette
connaissance, on procde
de la manire suivante : si
les donnes sont peu nombreuses, on choisit petit , donc grand , car il convient dtre trs
slectif afin de limiter le nombre de faux positifs. En revanche, si les donnes sont nombreuses, on peut
se permettre de diminuer le seuil , donc de slectionner un plus grand nombre de variables, au risque de
conserver des variables non pertinentes.

Dfinition de lindice de pertinence


Comme indiqu dans la section prcdente ( cadre thorique ), un indice de pertinence peut naturelle-
ment tre dfini partir de la notion dinformation mutuelle, mais il est trs difficile estimer pratique-
ment, notamment dans le cas o de nombreuses variables sont candidates. Il est plus simple de dfinir un
indice de pertinence partir du coefficient de corrlation entre les variables candidates et la grandeur
modliser, que celle-ci soit binaire (classification) ou relle (rgression).
Dans ce but, on se place dans le cadre de modles linaires en leurs paramtres
p
g ( x, w ) = wi fi ( x ).
i =1

Dans cette expression, fi(x) peut tre soit la variable xi elle-mme, qui est alors appele variable
primaire , soit une fonction non paramtre des variables, alors appele variable secondaire . Pour
simplifier, on dsignera dans la suite par zi la variable candidate de numro i, quil sagisse dune variable
primaire ou dune variable secondaire :
p
g ( x, w ) = wi zi .
i =1
Lapprentissage statistique : pourquoi, comment ?
39
CHAPITRE 1

La figure 1-22 illustre la notion de variables primaire et secondaire, laide dun graphisme qui sera large-
ment utilis dans la suite de louvrage. Les cercles reprsentent des fonctions ; le cercle contenant un
signe reprsente une fonction sommation. Les carrs ne ralisent aucune fonction : ils symbolisent
simplement les variables du modle. Le modle reprsent gauche est un modle linaire en ses para-
mtres et en ses variables : les variables primaires et secondaires sont identiques. Le modle de droite est
un modle linaire en ses paramtres mais non linaire en ses variables ; les variables secondaires sont
obtenues partir des variables primaires par des transformations non linaires non paramtres. Ainsi, le
modle de droite pourrait reprsenter un polynme, les fonctions i tant des monmes des variables
primaires.

g(x, w)
g(x, w)
w1 w2 wp

z1 z2 Variables secondaires zp
w1 w2 wp

z1 z2 Variables secondaires zp 1 2 ....... p

1 x2 Variables primaires xp
...
1 x2 xm
Variables primaires

Figure 1-22. Modles linaires en leurs paramtres

Le carr du coefficient de corrlation entre deux variables alatoires U et V centres (de moyenne nulle),
dont on connat N ralisations, est estim par la quantit

(u v )
2
k k
k =1
r2
U ,V = N N
.
uk2 vk2
k =1 k =1

Cette quantit a une interprtation gomtrique simple. Considrons lespace des observations, de dimen-
sion N. Dans cet espace, la grandeur u est reprsente par un vecteur u, dont chaque composante est une
observation uk de u. Le carr du coefficient de corrlation est alors le carr du cosinus de langle uv entre
les vecteurs u et v dans cet espace :

r2
= cos uv 2
=
( u v)
2

U ,V
(u u )(v v )
Lapprentissage statistique
40

o le symbole reprsente le produit scalaire dans lespace des observations. Le coefficient de corrlation
est donc compris entre zro (observations non corrles, vecteurs reprsentatifs orthogonaux dans
lespace des observations) et 1 (observations compltement corrles, vecteurs reprsentatifs colinaires).
Ainsi, le coefficient de corrlation entre la grandeur modliser yp et la variable candidate zi est donn
par :

r2
=
(y p
k zi ) 2

Y p , Zi
(y p
k )
ykp ( zi zi )
p
o yk et zi sont les vecteurs reprsentatifs, dans lespace des observations, de la grandeur modliser et
de la variable candidate de numro i (primaire ou secondaire) respectivement.
Attention
Ne pas confondre z et zi. Le vecteur z, qui intervient par exemple dans la notation du modle g(z, w), dsigne le vecteur des variables du
modle : il est de dimension p. En revanche, le vecteur zi reprsente la variable numro i du modle dans lespace des observations : il est
de dimension N, o N dsigne le nombre dobservations.
partir de ce coefficient de corrlation, lindice de pertinence des variables candidates est dfini comme
le rang de la variable candidate dans un classement tabli par orthogonalisation de Gram-Schmidt
[CHEN 1989]. La procdure est la suivante :
calculer les coefficients de corrlation entre ykp et les p variables candidates, et choisir la variable candi-
date zi la plus corrle ykp ;
projeter le vecteur ykp et toutes les variables non slectionnes sur le sous-espace orthogonal la variable
zi ;
itrer dans ce sous-espace.
Les variables sont donc slectionnes les unes aprs les autres. chaque orthogonalisation, la contribu-
p
tion de la dernire variable slectionne au vecteur yk est supprime ; on obtient donc bien un classe-
ment des variables par ordre de pertinence dcroissante. Il est alors naturel de considrer que le rang dune
variable dans ce classement est le reflet de la pertinence de cette variable par rapport la modlisation que
lon cherche effectuer.
La figure 1-23 illustre le processus dans un cas trs
simple o lon aurait trois exemples (N = 3) et deux
variables primaires ou secondaires candidates (p =
2), reprsentes par les vecteurs z1 et z2 dans lespace yp
des observations. La premire tape a pour effet de
slectionner la variable z1, car langle entre z1 et yP z1
est plus petit que langle entre z2 et yp. La deuxime
tape consiste projeter orthogonalement yP et la
variable non slectionne z2 sur le sous-espace ortho-
gonal z1. Toutes les variables candidates tant clas-
ses, le processus sarrte alors. Sil y avait plus de z21 yp1
deux variables candidates, le mme processus serait
itr dans le sous-espace orthogonal z1.
Remarque 1 z2
En pratique, il est prfrable dutiliser une variante de lalgorithme de
Figure 1-23. Orthogonalisation de Gram-Schmidt pour
Gram-Schmidt, appele algorithme de Gram-Schmidt modi, qui le classement de deux variables candidates dans un
est plus stable numriquement [BJRCK 1967]. espace des observations de dimension trois
Lapprentissage statistique : pourquoi, comment ?
41
CHAPITRE 1

Remarque 2
Lalgorithme dorthogonalisation de Gram-Schmidt dcrit ci-dessus est un cas particulier dun algorithme dapprentissage de modles
linaires, dcrit plus loin dans la section Moindres carrs par orthogonalisation de Gram-Schmidt

Exemple important x2
Pour illustrer limportance de considrer les variables secondaires, et de ne pas se limiter aux varia-
1 2
bles primaires, considrons un problme simple de classication, illustr sur la gure 1-24.
On dispose de quatre exemples, appartenant deux classes : la classe A, reprsente par des croix,
o +
laquelle on affecte ltiquette yp = +1, et la classe B, reprsente par des cercles, laquelle on
affecte ltiquette yp = 1. Considrons comme variables candidates les variables primaires z1 = x1, z2
3 4 x1
= x2, ainsi que la variable secondaire z3 = x1 x2. Dans lespace des observations, de dimension 4, les
vecteurs reprsentatifs des variables candidates sont (les numros des observations sont indiqus + o
sur la gure 1-24)
1 +1 1 Figure 1-24.
+1 +1 +1 Exemple illustrant
z1 = ; z 2 = ; z 3 = limportance des variables
1 1 +1 secondaires

+1 1 1
et le vecteur reprsentatif de la grandeur modliser est
1
+1
y = .
p

+1

1
( ) ( )
2 2
Aucune des deux variables primaires, prise sparment, nest pertinente pour la prdiction de yp, puisque z 1 y p = 0 et z 2 y p = 0.
En revanche, le coefcient de corrlation entre z3 et yp vaut 1. Par consquent, la variable secondaire x1x2 dtermine entirement le
modle, alors que les variables primaires sont compltement inoprantes pour rsoudre ce problme de classication (connu sous le nom
de problme du OU exclusif ou problme du XOR ) avec des modles linaires en leurs paramtres. Le modle g(x, w) = x1x2
spare compltement les exemples disponibles puisque sgn(g(x, w)) = +1 pour les exemples de la classe A et sgn(g(x, w)) = 1 pour ceux
de la classe B. Il faut nanmoins remarquer que le problme peut tre rsolu avec comme variables x1 et x2 si lon met en uvre des mod-
les non linaires en leurs paramtres, des rseaux de neurones par exemple.

Dtermination du seuil de slection des variables


Disposant dune mthode de classement des variables candidates, il reste donc dterminer le rang au-
del duquel les variables candidates doivent tre rejetes. Comme indiqu dans la section Cadre
thorique , le problme serait simple si les distributions du rang des variables pertinentes et du rang des
variables non pertinentes taient connues. Ce nest videmment pas le cas, mais il est nanmoins possible
destimer la distribution du rang des variables non pertinentes en crant artificiellement des variables non
pertinentes ou variables sondes .
Prsentation intuitive
Intuitivement, on pourrait envisager la procdure suivante :
crer une variable sonde dont les valeurs observes seraient alatoires, sans relation avec la grandeur
modliser : cette variable est donc, par construction, non pertinente ;
lors du classement par orthogonalisation de Gram-Schmidt, faire participer cette variable au mme titre
que les autres variables ;
arrter le classement des variables lorsque la variable sonde apparat dans la procdure de classement :
toutes les variables non encore classes sont alors rejetes, puisquelles sont moins pertinentes que la
variable sonde qui, par construction, nest pas pertinente.
Lapprentissage statistique
42

Cette procdure est risque : en effet, la dcision de rejet est fonde sur le classement dun seul vecteur
reprsentatif de la variable sonde, donc dune seule ralisation de ce vecteur alatoire. Si lon procdait
un autre tirage des valeurs de la variable sonde, on obtiendrait trs probablement un autre rang, dans le
classement, pour cette variable : on prendrait donc une autre dcision de rejet. En dautres termes, le rang
de la variable sonde est lui-mme une variable alatoire, dont la distribution de probabilit est une estima-
tion de la distribution de probabilit du rang des variables non pertinentes.
Prsentation rigoureuse
Cette dernire remarque renvoie la condition de rejet tablie dans la section Cadre thorique : une
variable candidate i est rejete si
Pr ( r ( i, N ) > ) <

o r(i, N) est lindice de pertinence de la variable i, estim partir de N observations. Dans le cadre de la
mthode de la variable sonde, lindice de pertinence est le rang (i, N) de la variable candidate i ; la
variable i est donc dautant plus pertinente que son rang est petit. Lquation prcdente scrit alors :

Pr ( ( i, N ) < 0 ) <

o 0 est le rang au-del duquel les variables candidates doivent tre rejetes. Or on souhaite que toutes
les ralisations de la variable sonde soient rejetes ; lapplication de la relation prcdente aux variables
sondes scrit donc :
Pr ( S < 0 ) <

o S dsigne le rang dune ralisation de 0,14

la variable sonde. Ainsi, tant donne une 0,12 Variables pertinentes


Distribution de probabilit

(distribution inconnue)
valeur de fixe, le seuil de rejet 0 est le
du rang des variables

0,1
rang tel quune ralisation de la variable 0,08
sonde soit classe au-dessus de ce rang Variables non pertinentes
(distribution estime par celle des variables sondes)
avec une probabilit infrieure , ou
0,06

encore quune ralisation de la variable 0,04

sonde ait une probabilit 1 dtre 0,02

classe dans un rang au-del de 0. Cette 0


0 5 10 15 20 25 30 35 40 45 50
situation est rsume sur la figure 1-25, Rang des variables
o sont prsentes la distribution hypo-
thtique (puisque inconnue) du rang des 1
variables pertinentes, et la distribution du 0,9
rang de la variable sonde, qui constitue
du rang des variables

0,8
Probabilit cumule

une estimation du rang des variables non 0,7


0,6
pertinentes. Si lon est prt admettre un
risque de 10 % ( = 0,1) pour quune
0,5
0,4
variable soit conserve alors quelle est 0,3
aussi bien ou moins bien classe quune 0,2
= 0,1
ralisation de la variable sonde ( risque 0,1
0
de premire espce ), on lit, sur le 0 5 10 15 20 25 30 35 40 45 50

graphe de la probabilit cumule, quil Rang des variables


faut rejeter toute variable de rang sup- Figure 1-25. Choix du seuil de rejet des variables candidates
rieur 15. On peut noter que cette proc-
Lapprentissage statistique : pourquoi, comment ?
43
CHAPITRE 1

dure ne contrle pas le risque de rejeter dventuelles variables pertinentes qui seraient classes au-del
du rang 15 ( risque de deuxime espce ) ; on verra, dans la section intitule Limitations de la
mthode , quil est nanmoins possible destimer ce risque, sans toutefois le contrler.
En pratique, deux techniques sont utilisables pour engendrer les ralisations de la variable sonde :
mlanger alatoirement les observations des variables candidates ;
tirer des nombres alatoires dans une distribution de moyenne nulle et de variance 1, puisque les varia-
bles candidates ont t pralablement normalises et centres, comme indiqu plus haut dans la section
Prtraitement des donnes .
Si les variables candidates obissent une distribution gaussienne, on peut lgitimement considrer que
la variable sonde est gaussienne. Alors, la probabilit cumule du rang de la variable sonde peut tre
calcule analytiquement [STOPPIGLIA 2003], de sorte quil est inutile dengendrer des ralisations de la
variable sonde. On procde de la manire suivante : chaque tape du classement par la mthode de
Gram-Schmidt, on calcule la probabilit cumule du rang de la variable sonde, et, lorsque celle-ci atteint
la valeur choisie, on arrte le processus.
Si les variables nobissent pas une distribution gaussienne, on estime la probabilit cumule du rang de
la variable sonde. Pour cela, on engendre un grand nombre de ralisations de la variable sonde, et lon
procde lorthogonalisation de Gram-Schmidt. Chaque fois quune ralisation de la variable sonde est
rencontre, on en prend note et lon enlve cette variable du classement : on obtient ainsi une estimation
empirique de la probabilit cumule du rang de la variable sonde. Comme dans le cas prcdent, on arrte
le processus lorsque lestimation de la probabilit cumule atteint la valeur fixe lavance.
La figure 1-26 illustre cette approche laide dun 1 X
X
du rang de la variable sonde

exemple acadmique propos dans [LAGARDE DE X


0,8
1983] et repris dans [STOPPIGLIA 2003]. partir
Probabilit cumule

Calcule
dun ensemble de 15 observations, on cherche 0,6
X
X

tablir un modle linaire (en ses paramtres et en X

ses variables) avec 10 variables candidates, dont 5 0,4 Estime laide


X
seulement sont pertinentes : les coefficients des X de 100 ralisations
0,2
autres variables, dans la fonction linaire gnra- X
X
X
de la variable sonde
X X X X
trice des donnes, sont nuls. Sagissant dun 0 X X X

problme acadmique, les exemples ont t engen- 0 2 4 6 8 10


Rang de la variable sonde
drs en ajoutant une fonction linaire un bruit
Figure 1-26. Probabilits cumules, calcules et estimes
gaussien centr ; les variables obissent une loi
normale. Lobjectif est de slectionner les variables
pertinentes. La figure 1-26 prsente deux courbes : la probabilit cumule du rang de la variable sonde
calcule en supposant que la variable sonde obit une loi gaussienne, et la probabilit cumule estime,
par la procdure dcrite plus haut, partir de 100 ralisations de la variable sonde, tires dune distribu-
tion gaussienne. On observe que, dans les deux cas, le choix dun risque = 0,1 conduit slectionner les
5 variables candidates les mieux classes, qui sont effectivement les 5 variables pertinentes partir
desquelles les donnes ont t engendres.

Limitations de la mthode
La principale limitation de la mthode de la variable sonde rsulte de lutilisation de lalgorithme de
Gram-Schmidt, qui exige que le nombre de variables slectionnes soit suprieur au nombre dexemples.
Il convient de noter que cette limitation porte sur le nombre de variables slectionnes, et non sur le
nombre de variables candidates : laide de la mthode de la variable sonde, on peut traiter des problmes
o le nombre de variables candidates est trs suprieur au nombre dexemples.
Lapprentissage statistique
44

Dautre part, la mthode contrle directement le risque de faux positif, cest--dire le risque de conserver
une variable alors quelle nest pas pertinente. Elle ne contrle pas directement le risque de faux ngatif,
cest--dire le risque de rejeter une variable alors quelle est pertinente. Nanmoins, il est possible de
conserver galement un contrle sur ce phnomne en estimant le taux de fausse dcouverte (false
discovery rate ou FDR), comme dcrit dans [DREYFUS 2006].

Exemples acadmiques (classification)


Exemple 1
100 bases de donnes ont t construites de la manire suivante : pour chaque base, une fonction g(x, w)
de deux variables a t choisie alatoirement, 1 200 exemples ont t crs alatoirement partir de cette
fonction en affectant la classe A les exemples pour lesquels sgn(g(x, w)) = +1. 10 % de ces exemples ont
t affects de manire errone, de sorte quil y a 10 % derreur sur la base dapprentissage. 800 exemples
ont t utiliss pour lapprentissage et 400 pour le test. Enfin, 238 variables non pertinentes ont t ajou-
tes lensemble des variables, de sorte quil y a en tout 240 variables candidates, parmi lesquelles deux
seulement sont pertinentes. La mthode dcrite ci-dessus a t applique aux 240 variables candidates, et
un classifieur a t ralis laide des deux premires variables slectionnes. titre de comparaison, un
classifieur a t ralis avec les deux vraies variables. Pour les 100 bases de donnes, la procdure a
toujours trouv au moins une des deux vraies variables, et a trouv les deux vraies variables dans 74% des
cas. Le tableau 1-2 rsume les rsultats moyens obtenus sur les 100 bases dapprentissage.
Taux moyen derreurs Taux moyen derreurs Hypothse nulle : diffrence
de classification avec les variables de classification avec les vraies entre les taux derreurs moyens
slectionnes variables < 0,125
10,4% 10,1% Accepte
(cart-type 1,1%) (cart-type 0,7%)
Tableau 1-2

On observe que le taux derreur de classification moyen (en moyenne sur les 100 bases de donnes),
obtenu par un classifieur construit avec les descripteurs slectionns, est trs voisin du taux derreur de
classification obtenu par un classifieur tabli avec les vraies variables. Un test dhypothse (voir la
dernire section de ce chapitre) accepte lhypothse que la diffrence entre les taux derreurs moyens est
infrieur 0,125, cest dire une erreur sur 800 ; en dautres termes, la diffrence observe entre les taux
derreurs des deux classifieurs nest pas significative, puisque chaque base de donnes comprend
800 exemples dapprentissage. Cela signifie que, lorsque la mthode na trouv quune des deux vraies
variables, lautre variable slectionne permettait de discriminer les exemples de manire aussi prcise
que la vraie variable qui na pas t dcouverte. Les rsultats sont semblables sur les bases de test.
titre de comparaison, les taux derreurs sont denviron 45 % si les deux variables sont choisies alatoi-
rement, et de 30 % si une des vraies variables est utilise, lautre variable tant choisie alatoirement. Si
lon utilise un risque de 1% ( = 0,1), les trois premires variables du classement sont slectionnes, ce
qui ne dgrade pas les rsultats de manire significative [STOPPIGLIA 2003].
Exemple 2
On construit 100 bases de donnes de 100 exemples tirs de distributions gaussiennes deux variables x1
et x2, les centres tant dans les positions du problme du XOR (figure 1-24) ; 50 variables alatoires non
pertinentes sont ajoutes lensemble des variables candidates. On utilise cette fois, outre les variables
primaires, les monmes du second degr de celles-ci, ce qui produit en tout 1 326 variables candidates
dont 52 variables indpendantes. Comme indiqu plus haut, la seule variable pertinente pour rsoudre ce
problme est le produit x1x2 ; avec un risque de 1%, cest effectivement la seule variable slectionne.
Lapprentissage statistique : pourquoi, comment ?
45
CHAPITRE 1

Variable sonde et test de Fisher


La mthode de la variable sonde est apparente lutilisation de tests dhypothse pour la slection de
variables. Le lecteur qui nest pas familier avec les tests dhypothses trouvera les concepts et dfinitions
ncessaires dans la dernire section de ce chapitre.
Test de Fisher pour la slection de variables
Comme prcdemment, nous nous plaons dans le cadre des modles linaires par rapport leurs para-
mtres
p
g ( x, w ) = wi zi = w z
i =1

o les zi sont les variables primaires ou secondaires.


On suppose que les mesures de la grandeur modliser peuvent tre considres comme les ralisations
dune variable alatoire Yp telle que Y p = w p z + , o z est le vecteur des variables du modle (de
dimension inconnue), o wp est le vecteur (non alatoire mais inconnu) des paramtres du modle, et o
est une variable alatoire gaussienne inconnue desprance mathmatique nulle. On a donc :

EY p = w p z .
Nous cherchons construire un modle g, partir dun ensemble de N mesures { ykp, k = 1 N} qui cons-
tituent un ensemble de ralisations de la variable alatoire Yp ; nous dsignons par yp le vecteur, de dimen-
sion N, dont les composantes sont les ykp. Ce modle dpend de lensemble des mesures utilises pour sa
construction : il est donc lui-mme une ralisation dune variable alatoire G.
Supposons que lon ait dtermin un ensemble de Q variables qui contient certainement les variables
mesurables pertinentes pour la grandeur modliser. Un modle contenant toutes les variables mesurables
pertinentes est appel modle complet. On cherche alors un modle de la forme

GQ = W Q z Q

o zQ est le vecteur des variables du modle (de dimension Q+1 puisque, outre les variables pertinentes,
le vecteur des variables contient une composante constante gale 1) et o W est un vecteur alatoire qui
dpend de la ralisation du vecteur Yp utilise pour la construction du modle. Rappelons que lon dit que
ce modle complet est vrai, pour indiquer quil existe certainement une ralisation wp du vecteur alatoire
W telle que gQ = EY p .
Supposons que lapprentissage soit effectu par minimisation de la fonction de cot des moindres carrs

( ) (y )
N
J ( w ) = ykp gQ ( z k , w ) gQ ( z, w ) ,
2 2
= p

k =1

o w dsigne une ralisation du vecteur des paramtres W, zk est le vecteur des Q+1 variables pour
lexemple k, et o gQ(z, w) est le vecteur des valeurs des ralisations de GQ pour les N mesures effectues.
Q
Soit wmc le vecteur des paramtres pour lequel la fonction de cot J est minimum. Le modle obtenu est
donc de la forme gQ = wmc Q
z , et lon peut dfinir le vecteur gQ = Zwmc
Q
, o :
gQ est le vecteur dont les N composantes sont les prdictions du modle pour chacune des N mesures
effectues ;
Lapprentissage statistique
46

Z est une matrice (dite matrice des observations) dont la colonne i (i = 1 Q+1) est le vecteur zi dont les
composantes sont les N mesures de la variable numro i : la matrice Z a donc N lignes et Q+1 colonnes :


z 11 z 1, Q + 1
O z 2, Q + 1
Z = z 21
M O M

z N, 1 z N, Q + 1

o zij dsigne la mesure numro i de la variable candidate numro j.

On se pose la question suivante : les Q variables du modle complet sont-elles toutes pertinentes ? Pour
rpondre cette question, on remarque que, si une variable nest pas pertinente, le paramtre correspon-
dant du modle complet doit tre gal zro. On appelle sous-modle du modle complet un modle
obtenu en mettant zro un ou plusieurs paramtres du modle complet. Pour rpondre la question
pose, il faut donc comparer le modle complet tous ses sous-modles. Considrons un de ceux-ci, par
exemple le modle dont le vecteur w a ses q dernires composantes (numrotes de Q-q+2 Q+1) gales
Qq Qq
zro : gQ q = Zwmc , o wmc est le vecteur de paramtres obtenus en minimisant la fonction de cot des

( )
moindres carrs J ( w ) = y p gQ q ( z, w ) sous la contrainte que les q dernires composantes du vecteur
2

des paramtres soient nulles. On veut tester lhypothse nulle H0 : les q derniers paramtres du vecteur
alatoire W sont nuls. Si cette hypothse est vraie, la variable alatoire

2 2 2
N Q 1 Y GQ q Y GQ N Q 1 GQ GQ-q
p p

U= 2
= 2
q Y p GQ q Y p GQ

est une variable de Fisher q et N-Q-1 degrs de libert.


2
En effet, la quantit Y p GQ est la somme des carrs des composantes du vecteur Y p GQ , dont on verra, dans la section consacre
lapprentissage des modles linaires par rapport leurs paramtres, quil est orthogonal au sous-espace dtermin par les Q + 1 colon-
nes de la matrice Z. Cest donc la somme de N (Q + 1) carrs de variables alatoires indpendantes gaussiennes : elle suit une distribu-
tion de Pearson N Q 1 degrs de libert. De mme, le vecteur GQ GQ q est dans un espace q dimensions, donc le carr de sa
2
norme est une somme des carrs de q variables alatoires indpendantes : GQ GQ q est donc une variable de Pearson q degrs de
libert. Le rapport U de ces deux variables est donc une variable de Fisher, comme indiqu dans la section lments de statistiques .

Supposons que lon dispose dune trs grande quantit de mesures ; si lhypothse nulle est vraie, le
numrateur de U est trs petit car le procd de minimisation de la fonction de cot donne des valeurs
nulles aux q paramtres inutiles du modle complet, donc gQ et gQ-q sont trs voisins. Si lhypothse
nulle est fausse, les deux modles ne peuvent pas tre trs voisins, mme si le nombre de mesures est trs
grand, puisque le sous-modle est trop pauvre pour rendre compte des donnes exprimentales. On
comprend ainsi que la valeur de la ralisation de U doit tre petite si lhypothse nulle est vraie.

Le test de Fisher consiste donc choisir un risque , et trouver, en inversant la distribution de probabilit
cumule de Fisher, la valeur u telle que Pr(u < u ) = . On calcule alors la quantit u (ralisation de la
variable U avec les mesures disponibles) :
Lapprentissage statistique : pourquoi, comment ?
47
CHAPITRE 1

( ) ( )
2 2
Qq
N Q 1 y gQ q z , wmc y p gQ z , wmc
p Q

u=
( )
2
q y p gQ z , wmc
Q

et lon accepte lhypothse nulle si et seulement si u < u .


Test de Fisher et mthode de la variable sonde
On trouvera dans [STOPPIGLIA 2003] la dmonstration du rsultat suivant : si le modle examin litra-
tion k du procd dorthogonalisation de Gram-Schmidt est un modle complet, cest--dire sil contient
toutes les variables pertinentes, et si le modle complet est vrai, cest--dire si la fonction de rgression
appartient la famille des fonctions dans laquelle on recherche le modle, alors lopration de slection
effectue litration k est quivalente un test de Fisher entre les modles obtenus aux itrations k et k1.
La mthode de la variable sonde prsente donc deux avantages par rapport au test de Fisher : dune part,
elle donne une interprtation claire et intuitive du critre de slection ; dautre part, elle est applicable, que
lon dispose ou non dun modle complet, et que ce modle soit vrai ou ne le soit pas.

Rsum : stratgies de conception


Dans cette section, nous montrons comment les diffrentes tches accomplir doivent tre articules entre
elles pour concevoir un modle par apprentissage (slection de variables, apprentissage, slection de
modles). On suppose que les tapes de collecte des donnes et de prtraitement de celles-ci ont t effec-
tues.
Une premire stratgie peut tre rsume de la faon suivante :
Effectuer la slection de variables sur lensemble des donnes disponibles.
Effectuer lapprentissage et la slection de modles de complexits diffrentes par validation croise ou
leave-one-out.
Effectuer lapprentissage du meilleur modle avec toutes les donnes dapprentissage et de validation.
Tester le modle sur un ensemble de tests.
Cette stratgie est simple et relativement peu coteuse, mais elle nest pas compltement rigoureuse dans
la mesure o toutes les donnes disponibles sont utilises pour la slection de variables.
Pour tre plus rigoureux, il convient de procder de la faon suivante :
Sparer les donnes en sous-ensembles dapprentissage et de validation.
Pour chaque sous-ensemble dapprentissage
effectuer la slection de variables, noter le nombre de variables slectionnes,
effectuer lapprentissage de modles de complexits diffrentes et calculer les erreurs de validation.
Calculer les scores de validation croise et choisir le meilleur modle ; soit n0 le nombre de variables de
ce modle.
Avec toutes les donnes utilises pour lapprentissage et la validation
effectuer le classement de variables par la mthode de Gram-Schmidt et choisir les n0 variables les
mieux classes,
avec ces variables, effectuer lapprentissage du modle qui a la meilleure complexit.
Tester le modle sur lensemble de test.
Lapprentissage statistique
48

Si lon nest pas sr que la valeur de choisie pour effectuer cette procdure est optimale, on peut ajouter
une boucle extrieure portant sur diffrentes valeurs de .
Cette stratgie est applicable toute mthode de slection de variables fonde sur un classement des varia-
bles par ordre de pertinence.
Rappelons quil existe un grand nombre de mthodes de slection de variables. La mthode de la variable
sonde, dcrite ici, a t prsente car elle est simple et robuste ; elle a t valide sur une grande varit
dapplications ; nanmoins, il ny a pas de mthode miracle, et dans certains cas, dautres mthodes
peuvent se rvler plus efficaces. Une synthse trs complte des mthodes modernes de slection de
variables est prsente dans louvrage [GUYON 2006].

Conception de modles linaires par rapport


leurs paramtres (rgression linaire)
On a rappel au dbut de ce chapitre le lien troit qui existe entre apprentissage artificiel et statistiques.
Avant mme lintroduction du terme dapprentissage, les statisticiens avaient largement dvelopp la
conception de modles linaires en leurs paramtres, ou rgression linaire. Il est donc important, ds ce
chapitre introductif, de rappeler les mthodes de conception de modles linaires. De nombreux ouvrages
sont entirement consacrs ce sujet (par exemple [SEBER 1977], [DRAPER 1998])
Rappelons quun modle est dit linaire en ses paramtres , ou simplement linaire sil est de la
forme :
p
g ( x, w ) = wi fi ( x )
i =1

o les fonctions fi(x) sont des fonctions non paramtres des variables (composantes du vecteur x), dites
variables primaires. Ces fonctions peuvent tre considres comme des variables secondaires zi, de sorte
que lon crira de manire gnrale un modle linaire en ses paramtres sous la forme
p
g ( z, w ) = wi zi
i =1

o les variables zi peuvent tre soit les variables primaires elles-mmes, soit des variables secondaires
dduites des variables primaires par une transformation non paramtre (ou paramtres fixs). On crira
aussi un tel modle sous la forme

g ( z, w ) = w z

o w et z sont des vecteurs de dimension p.

Slection de variables pour les modles linaires


en leurs paramtres
Ce problme a t abord plus haut, dans la section consacre la slection de modles. Les mthodes
dcrites dans cette section sont directement applicables la conception de modles linaires en leurs para-
mtres.
Lapprentissage statistique : pourquoi, comment ?
49
CHAPITRE 1

Apprentissage de modles linaires en leurs paramtres :


la mthode des moindres carrs
Pour lapprentissage des modles linaires en leurs paramtres, on choisit gnralement comme fonction
de perte le carr de lerreur de modlisation

y p , g ( z, w ) = y p g ( z, w )
2

de sorte que lon cherche les paramtres pour lesquels la fonction de cot des moindres carrs J(w) est
minimum :
NA

(
J ( w ) = ykp g ( z k , w ) )
2

k =1

o NA est le nombre dexemples de lensemble dapprentissage, zk est le vecteur des variables pour
lexemple k, et ykp est la valeur de la grandeur modliser pour lexemple k.
Dans la section intitule Variable sonde et test de Fisher , on a dfini la matrice des observations Z, qui
est une matrice N lignes et p colonnes, dont llment zij est la valeur prise par la variable numro j du
modle pour lexemple i de lensemble dapprentissage :


z 11 z 1, p
O z 2, p .
Z = z 21
M O M

z N, 1 z N, p

La fonction de cot peut alors se mettre sous la forme :

J ( w ) = y p g ( z, w )
2

o yp est le vecteur dont les N composantes sont les valeurs de la grandeur mesurer pour chacun des N
exemples, et g(z, w) est le vecteur dont les N composantes sont les prdictions du modle pour chacun des
exemples. Le vecteur wmc est le vecteur pour lequel la fonction de cot est minimum :

dJ ( w )
w J = = 0,
dw w=wmc

qui reprsente un ensemble de p quations, dont les p inconnues sont les paramtres wi, i = 1 p. Comme
la fonction J(w) est quadratique en fonction des wi, sa drive par rapport wi est linaire : il sagit donc
dun systme linaire de p quations p inconnues, appeles quations canoniques.
On montre facilement que cette quation scrit

w J = 2 ZT y p Zwmc = 0( )
o ZT dsigne la transpose de la matrice Z, soit encore

( )
1
wmc = ZT Z ZT y p .
Lapprentissage statistique
50

Exemple 70
r2 = 0,89
Considrons un modle afne une variable (p = 2) comme 60 wmc1 = - 0,3
wmc2 = 5,9
reprsent sur la gure 1-27 :
50

g ( x ,w ) = w 1 + w 2 x . Modle g(x, wmc1, wmc2)


40
Dans cet exemple, les points exprimentaux ont t obtenus
en ajoutant la fonction de rgression f(x) = 2 + 5 x des ralisa- 30

yp
tions dune variable alatoire gaussienne de moyenne nulle et 20
Fonction de rgression
dcart-type gal 3. Rappelons que, dans un problme raliste, y=2+5x
10
la fonction de rgression est inconnue : lobjectif de lapprentis-
sage est de trouver un modle qui soit aussi proche que possible 0

de cette fonction inconnue.


-10

1 x1

-20
-2 0 2 4 6 8 10

La matrice des observations vaut X = 1 x2 , o x dsigne x


i
M M Figure 1-27. Points exprimentaux et modle obtenu par
1 xN la mthode des moindres carrs ; la somme des carrs des
longueurs des segments en pointills est minimale ;
la valeur prise par pour lobservation i de la variable x. On a alors : le coefficient de corrlation r2 est dfini ci-dessous, dans
la section Estimation de la qualit de lapprentissage .
N

N x k

XT X = N .
k =1

N
2
xk
k =1
( x k )
k =1

( )
1
Par application de la relation w mc = X T X X T y p , on trouve les paramtres du modle afne :
N N N
N x k y kp x k y kp
k =1 k =1 k =1
xy p x y p
w mc 2 = 2
= 2
N
N x2 x
N (xk ) xk
2

k =1 k =1
1 N p 1 N
w mc 1 = y w mc 2 N x k = y p w mc 2 x
N k =1 k k =1

o u dsigne la valeur moyenne de la grandeur u.

Remarque 1
La droite des moindres carrs passe par le centre de gravit des mesures.
En effet : g ( x ,w ) = w mc 1 + w mc 2 x = y p w mc 2 x + w mc 2 x = y p .

Remarque 2
xy p
Si les donnes sont centres ( x = y p = 0), la droite des moindres carrs passe par lorigine car wmc1 = 0. De plus : w mc 2 =
x2

1 N
(x x )
2
= 1 = x 2 , par consquent w mc 2 = xy .
p
Si, de plus, les donnes sont normalises, on a en outre
N k =1
Lapprentissage statistique : pourquoi, comment ?
51
CHAPITRE 1

Proprits de la solution des moindres carrs


Un modle obtenu par la mthode des moindres carrs possde des proprits statistiques intressantes
qui justifient lutilisation de la fonction de perte derreur quadratique, de prfrence dautres fonctions
de pertes envisageables telles que la valeur absolue de lerreur.

Cas o le modle est vrai


Supposons que le modle linaire postul soit vrai , cest--dire que la fonction de rgression inconnue
appartienne effectivement la famille des fonctions linaires. Ce cas a dj t rencontr plus haut (clas-
sification de deux ensembles dobservations issues de deux distributions gaussiennes de mmes
variances) ; le cas inverse a galement t rencontr (modlisation de la fonction 10 sinx / x par des poly-
nmes). Les observations sont donc des ralisations de la variable alatoire Y p = w p z + , avec E = 0.
En consquence, EY p = w p z. Dsignant par Yp le vecteur des N observations, on a donc EY p = ZW p .

Proprit

Le vecteur des paramtres wmc trouvs par la mthode des moindres carrs est un estimateur non
biais des paramtres wp de la fonction de rgression.

Dmonstration
( ) ( ) ( )
1 1 1
On a vu plus haut que w mc = Z T Z Z T y p. Par consquent : E w mc = Z T Z Z T EY p = Z T Z Z T ZW p = W p, ce qui prouve la
proprit.

Thorme de Gauss-Markov

Thorme

Les paramtres des modles obtenus par minimisation de la fonction de cot des moindres carrs sont
les paramtres de variance minimum.

Ainsi, dans la mesure o cest laugmentation de la variance qui produit le surajustement, la minimisation
de la fonction de cot des moindres carrs permet de limiter le phnomne (sans toutefois le supprimer,
bien entendu). Lexpression de la variance des paramtres est tablie plus loin, dans la section Variance
des paramtres dun modle linaire .

Cas o le bruit est gaussien


Si le bruit est gaussien, de variance 2, les estimations des paramtres obissent une loi gaussienne.
De plus, on dmontrera, dans la section Variance des paramtres dun modle linaire , que la variance
( )
1
des paramtres vaut ZT Z 2 (quelle que soit la distribution de ).
La figure 1-28 prsente les histogrammes des paramtres wmc1 et wmc2 pour lexemple considr sur la
figure 1-27. Ces histogrammes ont t obtenus en engendrant 100 ensembles dapprentissage correspon-
dant 100 ralisations diffrentes du bruit, et en effectuant lapprentissage de 100 modles par la mthode
des moindres carrs. On observe bien des distributions gaussiennes, centres sur les valeurs des param-
tres de la fonction de rgression (w1p = 2, w2p = 5).
Lapprentissage statistique
52

0,14 0,14

0,12 0,12

0,10 0,10
Frquence de wmc1

Frquence de wmc2
0,08 0,08

0,06 0,06

0,04 0,04

0,02 0,02

0 0
1,5 2 2,5 4,5 5 5,5
wmc1 wmc2

Figure 1-28. Distributions des paramtres dun modle linaire avec bruit gaussien

Estimation de la qualit de lapprentissage


La qualit dun modle linaire est estime par le coefficient de corrlation multiple r2 entre les donnes
et les prdictions.
Si U et V sont deux variables alatoires, leur coefficient de corrlation RU ,V est dfini par
cov U, V E UV E U E V
R U, V = ---------------
- = --------------------------------------------------
-
U V EU2 EU EV 2 EV
2 2

o covU,V dsigne la covariance de U et V (voir la dfinition de la covariance de deux variables dans


lannexe lments de statistiques la fin de ce chapitre).
Si U et V sont identiques, le coefficient de corrlation est une variable certaine qui vaut 1 ; si, au contraire,
ces deux variables alatoires sont indpendantes, le coefficient de corrlation vaut 0.
Comme cela a t fait plusieurs reprises dans ce chapitre, considrons les donnes yp et les prdictions
du modle comme des ralisations de variables alatoires. On peut alors calculer une ralisation r de la
variable R :

( g ( x, w ) g ( x, w ) ) ( y )
N

mc mc
p
yp
k =1
r= (N >> 1).
( ) ( )
N N
g ( x, wmc ) g ( x, wmc )
2 2
yp yp
k =1 k =1

Pour juger de la qualit du modle, on utilise le coefficient de dtermination, dont on dmontre quil est
une ralisation du carr du coefficient de corrlation entre les prdictions du modle et les observations :
N

( g ( xk, wmc ) y )
p 2

2
r = k--------------------------------------------------------
=1
N
-.
( yk y )
p p 2

k=1
Lapprentissage statistique : pourquoi, comment ?
53
CHAPITRE 1

Si les variables sont centres, cette expression se rduit :


( xy )
2
p

r =
2
.
x2 (y ) p 2

Remarque
On retrouve ici la formule du carr du coefcient de corrlation introduit comme critre de pertinence dans la section Slection de
variables ; on trouve galement dans cette section linterprtation gomtrique de ce coefcient.

Pour juger visuellement de la qualit dun modle, il est trs commode dutiliser son diagramme de
dispersion, qui prsente les valeurs prdites par le modle en fonction des valeurs exprimentales
correspondantes : les points de ce diagramme sont dautant plus proches de la premire bissectrice que la
qualit de lapprentissage est meilleure.
Remarque trs importante
Rappelons quun apprentissage de trs bonne qualit ne signie pas que le modle obtenu soit capable de gnraliser correctement : un
modle qui a parfaitement appris les donnes dapprentissage peut tre surajust, donc gnraliser trs mal. Il faut ainsi considrer le
diagramme de dispersion sur les donnes dapprentissage pour juger de la qualit de lapprentissage, mais galement le diagramme de
dispersion sur des donnes non utilises pour lapprentissage, an destimer la capacit de gnralisation du modle.

La figure 1-29 montre le diagramme de dispersion 80

pour le modle linaire ralis partir des donnes 70


dapprentissage reprsentes sur la figure 1-27.
60

Interprtation gomtrique 50
Prdictions du modle

La rgression linaire par la mthode des moindres 40


carrs a une interprtation gomtrique simple.
30
Rappelons que le vecteur wmc des paramtres du
modle 20

p 10
g ( z, w ) = wi zi = w z
i =1 0

-10
est obtenu par la relation

( )
1 -20
wmc = ZT Z ZT y p -20 0 20 40 60 80
Mesures

o Z est la matrice des observations. Par consquent, Figure 1-29. Diagramme de dispersion pour les donnes
reprsentes sur la Figure 1-27.
le vecteur g(z, wmc) des prdictions du modle sur
lensemble dapprentissage est donn par

(
g ( z, wmc ) = Zwmc = Z ZT Z )
1
ZT y p

Or la matrice Z ( Z Z ) T 1
ZT (de dimensions N, N) nest autre que la matrice de projection orthogonale sur
les vecteurs colonnes de la matrice Z. Le vecteur des prdictions du modle sur lensemble dapprentis-
sage est donc la projection orthogonale du vecteur yp sur le sous-espace de lespace des observations
dfini par les vecteurs colonnes de la matrice des observations Z. Ce dernier sous-espace est appel
espace des estimations .
Lapprentissage statistique
54

Remarque
( )
1
La matrice Z Z T Z Z T est souvent appele matrice chapeau et note H. En effet, le vecteur des estimations effectues par le
modle partir des observations y est souvent not y , donc y = Hy : la matrice H est la matrice qui met un chapeau sur y.

Linterprtation gomtrique de la mthode 1



des moindres carrs est illustre sur la figure u = 1
y p
1-30, pour un modle affine, dans le cas o 1
Espace des observations
lespace des observations est de dimension Vecteur des observations Vecteur des rsidus
3. Dans cet espace, la matrice des observa-
tions a pour expression : Hyp

1 z1 Espace des estimations

Z = 1 z2 .
Vecteur des estimations
1 z du modle
3
z1
Lespace des estimations est donc le sous-
v = z
espace dfini par les vecteurs colonnes de Z,
2

z
nots u et v respectivement. Le vecteur des 3

prdictions du modle pour lensemble Figure 1-30. Mthode des moindres carrs : interprtation
dapprentissage, ou vecteur des estimations, gomtrique
est la projection orthogonale du vecteur des
observations yp sur le sous-espace des estimations. Le vecteur des diffrences entre les mesures et les prdic-
tions sur lensemble dapprentissage est appel vecteur des rsidus. Le carr de son module est donc la somme
des carrs des erreurs sur les lments de lensemble dapprentissage. De tous les vecteurs qui joignent lextr-
mit de yp un point du sous-espace des estimations, cest celui qui a le plus petit module.

Dilemme biais-variance pour les modles linaires


Dans les sections Deux exemples acadmiques dapprentissage supervis et Dilemme biais-
variance , on a constat sur plusieurs exemples que, pour les modles linaires, ce dilemme est gouvern
par le rapport du nombre de paramtres au nombre dexemples. Ce rsultat va maintenant tre dmontr
de manire gnrale pour les modles linaires.

Variance des paramtres dun modle linaire


Les paramtres dun modle linaire obtenu par la mthode des moindres carrs sont donns par la relation
( )
1
wmc = ZT Z ZT y p

o Z est la matrice des observations. Si lon considre que les observations sont des ralisations de varia-
bles alatoires, le vecteur des paramtres est lui-mme une ralisation dun vecteur alatoire

( )
1
Wmc = ZT Z ZT Y p. Si les mesures de yp sont indpendantes et de mme variance 2, la variance du
vecteur alatoire Yp est la matrice
varY p = I NN 2.
o INN est la matrice identit de dimension N. La variance du vecteur des paramtres dun modle linaire
obtenu par la mthode des moindres carrs est donc :
( )
1
varWmc = ZT Z 2.
Lapprentissage statistique : pourquoi, comment ?
55
CHAPITRE 1

Dmonstration
Daprs la proprit rappele ci-dessous dans la section variance dun vecteur alatoire , on a :

( ) (( Z Z ) Z ) = ( Z Z ) Z (( Z Z ) Z )
1 1 T 1 1 T
varWmc = Z T Z Z T varY p T T T T T T 2

= (Z Z ) ( ) ( )
1 1 1
T
ZT Z ZT Z 2 = ZT Z 2

Variance de la prdiction dun modle linaire


On a vu, dans la section Dilemme biais-variance , que lerreur de prdiction thorique est donne par
la relation
P 2 = 2 + E z var G ( z, W ) + Ez E f ( z ) G ( z, W ) .
2

o Ez(U) dsigne lesprance mathmatique de la variable alatoire U, considre comme fonction du


vecteur alatoire z.
La prdiction du modle au point z est ici G ( z, Wmc ) = z Wmc , qui peut scrire, sous forme matricielle :
G ( z, Wmc ) = z T Wmc . Par consquent :
( )
var G ( z, Wmc ) = z T varWmc z = z T ZT Z ( )
1
z 2 .
Si les variables sont normalises et centres comme recommand dans la section Prtraitement des

( ) 1 1
I NN si p << N, de sorte que var G ( z, Wmc ) z T z . ( )
1
donnes , ZT Z
N N
p
( ( ))
p p p

( )
Dautre part : E z z T z = E z zk2 = E z zk2 = E z zk ( )
+ varzk . Les donnes tant supposes
2

k =1 k =1 k =1 k =1
normalises et centres, le premier terme de la somme est nul, et le second est gal p. Il reste donc :
p
E z var G ( z, W ) = .
N
Ainsi, on retrouve le fait que, lorsque lon 0,22

augmente le nombre de paramtres du modle (par 0,2

exemple en augmentant le degr du polynme dans 0,18


Estimation de la variance du modle

le cas dun modle polynomial) le terme de 0,16


variance augmente. La figure 1-31 montre lvolu-
0,14 Pente 1/100
tion de la variance en fonction du nombre de para-
mtres, pour lexemple dcrit dans la section Un 0,12

exemple de modlisation pour la prdiction , avec 0,1

N = 100 exemples pour lapprentissage, et des 0,08


polynmes de degr 1 20. Comme pour les rsul- 0,06
tats prsents sur la figure 1-11, les esprances
p
mathmatiques portant sur Y sont estimes par les 0,04

moyennes sur 100 ensembles dapprentissage, et 0,02


2 4 6 8 10 12 14 16 18 20 22
lesprance mathmatique portant sur z est estime Nombre de paramtres du modle polynomial

par une moyenne sur 1 000 points de test. On Figure 1-31. Variance dun modle polynomial
observe que la variance augmente linairement en fonction du degr du polynme (N = 100, p = 2 21)
avec le nombre de paramtres, la pente de la droite
valant 1/N, conformment la relation dmontre ci-dessus.
Lapprentissage statistique
56

Remarque
Dans lexemple dcrit par la gure 1-11, la variance (reprsente par le symbole x) ne varie pas linairement avec le degr du polynme. Ceci
est d au fait que lexpression de la variance que lon vient dtablir est vraie dans la limite des trs grands ensembles dapprentissage (N inni) ;
pour N = 100 cette relation est raisonnablement bien vrie (gure 1-31) mais ce nest pas le cas si N vaut seulement 15 (gure 1-11).

Slection de modles linaires


La slection de modles linaires peut tre effectue par les mthodes dcrites dans la section intitule
Slection de modles : validation simple, validation croise, leave-one-out. Cette dernire mthode
est efficace mais gourmande en temps de calcul. On dcrit ci-dessous une alternative intressante au
leave-one-out, qui est conome en temps de calcul : lestimation du PRESS (Predicted REsidual Sum of
Squares) pour les modles linaires, et le leave-one-out virtuel pour les modles non linaires.
Rappelons que le leave-one-out consiste retirer un exemple k de lensemble des donnes disponibles,
effectuer lapprentissage du modle g(z, w-k) avec toutes les autres donnes, et calculer lerreur de mod-
lisation (ou rsidu) sur lexemple retir des donnes :
rk k = ykp g( x, w k ).
La procdure est itre pour chaque exemple disponible, et le score de leave-one-out est calcul :
1 N k
rk ( )
2
Et = .
N k =1
Dans le cas de modles linaires, il est possible de calculer ce score de manire exacte, en effectuant un
seul apprentissage avec toutes les donnes disponibles.

PRESS (Predicted REsidual Sum of Squares)


Montrons cette proprit dans le cas simple dun modle linaire un seul paramtre w. Dans ce cas, la
matrice Z se rduit un vecteur dont les composantes sont les N mesures zi de la variable z, et la matrice
ZTZ se rduit un scalaire :

( ) 1
1
ZT Z = N .
( zk )
2

k =1

Si lon effectue lapprentissage avec les N exemples disponibles, le paramtre wmc vaut alors :
N

z y p
k k

( )
1
k =1
wmc = Z Z T
Z y =
T p
N .
zk2
k =1

Supposons que lon retire lexemple i de lensemble des donnes disponibles, et que lon effectue
lapprentissage avec tous les autres exemples. Le paramtre du modle devient :
N

z y p
k k
z y
N
p
zi yip
k =1 k k
i k i
w mc = N
= k =1
N .
zk2 zk2
k =1 k =1
k i k i
Lapprentissage statistique : pourquoi, comment ?
57
CHAPITRE 1

Linfluence du retrait de lexemple i sur le modle se traduit donc par la variation de son unique
paramtre :

N N

i
z y p
k k zi yip z y p
k k
ri
k =1
w mc wmc = k =1
N
N
= zi N

z 2
k z 2
k z 2
k
k =1 k =1 k =1
k i k i

o ri est le rsidu (erreur de modlisation) sur lexemple i lorsque celui-ci est dans lensemble
dapprentissage :
N

z y p
k k
ri = y wmc zi = y
i
p
i
p k=1
N
zi .
zk2
k =1

Montrons prsent que lon peut calculer lerreur rii commise lorsque lexemple i a t retir de
lensemble dapprentissage en fonction de ri :

ri i ri = wmc
i
(
wmc zi = zi2 ) N
ri
= zi2 N
ri ,
z 2
k z 2
k z 2
i
k =1 k =1
k i

et par consquent :

ri z2
ri i = avec hii = N i .
1 hii
zk2
k =1

Cette relation rend donc inutile la ralisation de N apprentissages successifs, puisque lon peut calculer
exactement lerreur de modlisation qui aurait t commise sur lexemple i si celui-ci avait t retir de
lensemble dapprentissage.
La quantit hii est appele levier de lexemple i, compris entre 0 et 1. Elle est prsente de manire plus
dtaille dans la section suivante.
partir de cette relation, on peut dfinir le PRESS (Predicted REsidual Sum of Squares) Ep, par analogie
avec le score de leave-one-out Et :

2
1 N ri .
Ep =
N k =1 1 hii

Dans le chapitre 2, une extension de ces rsultats aux modles non linaires sera prsente sous le nom de
leave-one-out virtuel .
Lapprentissage statistique
58

Les leviers
Ce rsultat peut tre tendu au cas o le modle possde p paramtres. Le levier de lexemple i est alors
llment diagonal i de la matrice chapeau

( )
1
H = Z ZT Z Z T.
Cette matrice tant une matrice de projection orthogonale, les leviers possdent les proprits suivantes
(aisment vrifies sur lexpression des leviers dans le cas dun modle un seul paramtre, prsent dans
la section prcdente) :
N
0 < hii < 1 ; hii = p .
i =1

Cette dernire relation fournit une interprtation intressante des leviers : le levier de lexemple i est la
proportion des paramtres qui est utilise pour modliser lexemple i. Ainsi, un exemple qui possde un
grand levier a une grande importance pour le modle : en dautres termes, le modle est trs sensible au
bruit prsent sur la mesure de yp pour lexemple i. Il y a un risque de surajustement lexemple i.
Cet effet est illustr sur la figure 1-32.

1 + 1 +
(a) (b)

0,6 0,6

0,2 + 0,2
+ +
- 0,2 - 0,2
+
- 0,6
+ - 0,6
+

-1 -1
-1 - 0,6 - 0,2 x 0,2 0,6 1 -1 - 0,6 - 0,2 x 0,2 0,6 1
1 +
(c)
Leviers = 0,495
0,6

0,2 +
+
- 0,2 Leviers = 0,005
+
- 0,6

-1
-1 - 0,6 - 0,2 x 0,2 0,6 1
Figure 1-32. Interprtation des leviers
Lapprentissage statistique : pourquoi, comment ?
59
CHAPITRE 1

On dispose de 4 points exprimentaux, et lon postule un modle un paramtre. La figure (a) montre le
modle linaire ainsi obtenu. Supposons quune autre mesure effectue en x = 0,1 donne un rsultat
diffrent, comme indiqu sur la figure (b) ; on obtient alors le modle reprsent en trait plein, trs peu
diffrent du modle prcdent, reprsent en pointill. Supposons en revanche que ce soit le point en
x = 1 qui soit affect (figure (c)). On obtient alors le modle reprsent en trait plein, trs diffrent du
modle initial. On observe ainsi que le point situ en x = 1 a beaucoup plus dinfluence sur le modle
que le point situ en x = 0,1. Ceci se traduit par des leviers de valeurs trs diffrentes, dans un facteur
peu prs gal 100 : les points situs en x = 1 et x = 1 sont 100 fois plus importants pour le modle que
les points situs en x = 0,1 et x = + 0,1. Les expriences qui ont t effectues pour obtenir ces deux
rsultats taient donc peu prs inutiles : il aurait t plus profitable de rpter les mesures en x = 1 et x = +
1, afin de moyenner le bruit en ces points. On note que, conformment ce qui a t indiqu plus haut,
la somme des leviers est gale 1, qui est le nombre de paramtres du modle postul.

Cette illustration numrique met en lumire lintrt des plans dexpriences, qui permettent de choisir
les mesures les plus judicieuses pour tablir un modle prdictif prcis.

Moindres carrs par orthogonalisation de Gram-Schmidt


Dans la section Apprentissage de modles linaires en leurs paramtres , on a prsent une dtermina-
tion algbrique du vecteur des paramtres pour lesquels la fonction de cot des moindres carrs est mini-
male, ainsi quune interprtation gomtrique de ce rsultat. La solution algbrique ncessite le calcul de
linverse dune matrice. La mthode dorthogonalisation de Gram-Schmidt permet dobtenir le mme
rsultat de manire itrative, paramtre par paramtre ; elle est simple comprendre dans le cadre de
linterprtation gomtrique de la mthode des moindres carrs. Elle a dj t rencontre dans le cadre
de la slection de modle, dans la section Mthode de la variable sonde .

On considre lespace des observations, de dimension N, dans lequel la grandeur modliser est repr-
sente par un vecteur yp, et chacune des variables est reprsente par un vecteur zi, i = 1 p ; rappelons
que p est le nombre de paramtres du modle et que N est le nombre dobservations de lensemble
dapprentissage. Lalgorithme est une application simple du thorme des trois perpendiculaires :
choisir une variable i reprsente par le vecteur zi ;

y p zi
projeter yp sur la direction de zi, ce qui fournit le paramtre wmci de la variable i : wmci = ;
zi

projeter le vecteur des rsidus ri = y p wmci zi , le vecteur yp, et tous les vecteurs zji sur le sous-espace
orthogonal zi ;
projeter la projection de yp sur la projection dun deuxime vecteur zj, ce qui fournit un deuxime para-
mtre du modle ;
itrer jusqu puisement des variables du modle.

La figure 1-33 prsente lalgorithme dans le cas N = 3, p = 2. Les prdictions du modle pour lensemble
dapprentissage sont reprsentes par g(z, w), projection orthogonale de yp sur lespace des estimations,
qui est donc une combinaison linaire de z1 et z2. On peut obtenir ce vecteur en projetant dabord sur un
des vecteurs des variables (ici z1), puis en projetant orthogonalement r1 et z2 sur le sous-espace orthogonal
z1. Ce rsultat sobtient par application rpte du thorme des trois perpendiculaires.
Lapprentissage statistique
60

Cet algorithme est celui qui est utilis pour tablir yp


le classement des variables candidates en vue de la
slection de variables. La seule diffrence rside
dans le fait que les projections ne se font pas dans
nimporte quel ordre, mais en tenant compte des
corrlations entre les vecteurs, comme indiqu r1
dans la section mthode de la variable sonde . Espace des
observations
Espace des
estimations
z1
lments de statistiques g(z, w)
Cette introduction aux statistiques, lusage du
lecteur peu familier avec celles-ci, termine ce z2
chapitre introductif. Il existe de trs nombreux
ouvrages classiques (par exemple, [MOOD 1974],
[WONNACOTT 1990]) auxquels le lecteur peut se Sous-espace
orthogonal
rfrer pour plus de dtails, notamment pour la z1
dmonstration de certains rsultats.
Figure 1-33. Moindres carrs par Gram-Schmidt

Quest-ce quune variable


alatoire ?
Une variable alatoire est une abstraction commode pour reprsenter une grandeur (par exemple, le
rsultat dune mesure) lorsque sa valeur nest pas certaine. On considre alors que la valeur de cette
variable est la ralisation dune variable alatoire ; cette dernire est entirement dtermine par sa
densit de probabilit (ou simplement densit , ou encore distribution ou loi ).

Dfinition

Soit pY(y) la densit de probabilit dune variable alatoire Y : la probabilit pour que la valeur dune
ralisation de Y soit comprise entre y et y+dy vaut pY(y)dy.

Ainsi, si lon traite une grandeur mesurable comme une variable alatoire, on fait comme si le rsultat de
la mesure de cette grandeur tait le rsultat dun tirage au sort dans un ensemble de valeurs possibles de
y, avec la distribution (gnralement inconnue) pY(y). Utiliser une variable alatoire pour modliser le
rsultat dune mesure ne signifie pas du tout que lon considre la grandeur mesure comme rgie par des
lois non dterministes : la variable alatoire est un outil mathmatique, dont lutilisation est trs commode
lorsque les facteurs qui dterminent le rsultat de la mesure ne sont pas connus, ou sont connus mais non
matriss ni mesurs.
Ainsi, le lancer dun d est un phnomne parfaitement dterministe, qui obit toutes les lois de la
physique : si lon connaissait la position initiale de la main du joueur, si lon pouvait mesurer la vitesse
initiale du d, et si lon connaissait les caractristiques mcaniques de la matire dont sont constitus le
d et la table sur laquelle on le lance, on pourrait prdire exactement le rsultat du lancer. Dans la pratique,
comme toutes ces grandeurs ne sont pas connues et pas mesures, il est commode de modliser ce rsultat
comme la ralisation dune variable alatoire. Dans ce cas particulier, cette variable Y est une variable
discrte, qui ne peut prendre que 6 valeurs, et, pour un d non pip, la probabilit de ralisation de
chacune de ces valeurs est gale 1/6.
Lapprentissage statistique : pourquoi, comment ?
61
CHAPITRE 1

De mme, les mthodes statistiques sont susceptibles de prvoir les rsultats dune lection, alors que
chaque citoyen ne vote pas au hasard, mais en fonction de ses convictions.

Proprit

La densit de probabilit pY(y) est la drive premire de la fonction de rpartition ou probabilit


dF ( y )
cumule : pY ( y ) = Y avec FY ( y ) = Probabilit (Y y ).
dy

Remarque
Toute ralisation y de la variable alatoire Y tant comprise entre et + , on a videmment
+
FY ( ) = 0, FY ( + ) = 1 et pY ( y ) dy = 1.
-

Variable certaine

Une variable certaine de valeur y0 est une variable alatoire dont la densit de probabilit est une
distribution de Dirac ( y y0 ).

Exemples de densits de probabilits (ou lois)


Densit de probabilit uniforme
Une variable alatoire Y a une distribution uniforme si sa densit de probabilit vaut pY ( y ) = 1 ( b a )
sur un intervalle [a, b], et est nulle partout ailleurs.
Densit de probabilit gaussienne
( y )2
1
La distribution gaussienne pY ( y ) = exp est trs frquemment utilise. est la
2 2 2 2
moyenne de la gaussienne et (>0) est son cart- 0,4

type. La figure 1-34 reprsente une distribution


0,35
normale centre rduite (ou simplement loi
normale), qui est une distribution gaussienne avec 0,3

= 0 et = 1. Les aires hachures indiquent que la 0,25


probabilit pour quune ralisation dune variable
suivant une loi normale soit comprise entre 1 et
pY(y)

0,2

+1 vaut environ 0,68, et que la probabilit pour 0,15


quelle soit entre 2 et +2 vaut environ 0,96.
0,1
Autres densits de probabilit
0,05
Les distributions de Pearson (ou du 2), de Student
et de Fisher sont prsentes plus loin. 0
-5 -4 -3 -2 -1 0 1 2 3 4 5
y

Figure 1-34. Loi normale


Lapprentissage statistique
62

Densits de probabilits conjointes


Soit pX ,Y ( x, y ) la densit de probabilit conjointe de deux variables alatoires X et Y : la probabilit pour
quune ralisation de X soit comprise entre x et x+dx et quune ralisation de Y soit comprise entre y et
y+dy vaut pX ,Y ( x, y ) dx dy.

Variables alatoires indpendantes

Deux variables alatoires X et Y sont indpendantes si la probabilit de ralisation dune des variables
est indpendante de la probabilit de ralisation de lautre. On a donc pX ,Y ( x, y ) = p X ( x ) pY ( y ).

Densits de probabilits conditionnelles


Soient deux variables alatoires X et Y. La probabilit pour quune ralisation de la variable Y soit
comprise entre y et y+dy lorsque la variable X prend la valeur x est note pY ( y x ) dy , o pY ( y x ) est la
densit de probabilit de y sachant x ou densit de probabilit conditionnelle de y. On a donc

pX ,Y ( x, y ) = pY ( y x ) pX ( x ) = p X ( x y ) pY ( y )

Remarque :
Si les variables sont indpendantes : pY ( y x ) = pY ( y ) et p X ( x y ) = p X ( x ).

Vecteur alatoire
Un vecteur alatoire est un vecteur dont les composantes sont des variables alatoires.

Esprance mathmatique dune variable alatoire

Dfinition

+
Lesprance mathmatique dune variable alatoire Y est EY = ypY ( y ) dy.

Lesprance mathmatique dune variable alatoire est donc le premier moment de sa densit de probabi-
lit.

Proprits
Il est facile de dmontrer les proprits suivantes :
lesprance mathmatique dune somme de variables alatoires est la somme des esprances mathma-
tiques des variables alatoires ;
lesprance mathmatique du produit de deux variables indpendantes est gale au produit de leurs
esprances mathmatiques ;
lesprance mathmatique dune variable certaine de valeur y0 est gale y0 ;
si une variable Y obit une distribution uniforme sur un intervalle [a, b], son esprance mathmatique
vaut (a+b)/2 ;
si une variable Y suit une loi gaussienne de moyenne , son esprance mathmatique vaut .
Lapprentissage statistique : pourquoi, comment ?
63
CHAPITRE 1

Comme nous lavons vu dans la section lments de la thorie de lapprentissage , lobjectif de tout
apprentissage est dobtenir une estimation fiable de lesprance mathmatique de la grandeur modliser.
cet effet, il est utile dintroduire le concept destimateur.

Estimateur non biais


Un estimateur est une variable alatoire, fonction dune ou plusieurs variables alatoires observables ;
une variable alatoire est observable si ses ralisations sont mesurables.

Dfinition

Un estimateur H dun paramtre de la distribution dune variable alatoire observable Y est dit non
biais si son esprance mathmatique EH est gale ce paramtre. Alors une ralisation de H
constitue une estimation non biaise du paramtre de la distribution.

Estimateur non biais dune variable certaine

Daprs la dnition prcdente, un estimateur dune variable certaine est non biais si son esprance mathmatique est gale la valeur
de la variable certaine.

Ainsi, chercher estimer les paramtres w dun modle, cest--dire faire lapprentissage dun modle,
revient chercher des estimateurs non biaiss des paramtres, ces derniers tant considrs comme des
variables certaines. Cest cette approche, dite frquentiste, qui est dcrite dans le prsent ouvrage.
Lapproche bayesienne qui considre les paramtres du modle comme des variables alatoires, permet
galement dobtenir dexcellents rsultats, comme dcrit par exemple dans [NEAL 1996] ; la description
de cette approche sort du cadre de cet ouvrage.

La moyenne est un estimateur non biais de lesprance mathmatique


Supposons que lon ait effectu N mesures dune grandeur Y, dans des conditions supposes identiques. On modlise cette grandeur par
une variable alatoire dont lesprance mathmatique EY est inconnue. Le rsultat yi de la mesure i peut tre considr comme une rali-
sation dune variable alatoire Yi. Supposons que le rsultat dune mesure naffecte pas les rsultats des autres mesures, ce qui est raison-
nable pour une exprience bien conue : toutes ces variables alatoires sont donc mutuellement indpendantes, et, puisque les mesures
ont t effectues dans des conditions identiques, elles ont des distributions de probabilit identiques ; elles ont donc notamment la mme
esprance mathmatique EY.

Considrons la variable alatoire M = (Y1 + Y2 + + YN) / N. Puisque lesprance mathmatique dune somme de variables alatoires est
la somme des esprances mathmatiques de ces variables, on a videmment EM = EY : lesprance mathmatique de la variable alatoire
M (appele moyenne ) est bien gale lesprance mathmatique de la variable alatoire Y. La grandeur m = (y1 + y2 + + yN) / N,
ralisation de lestimateur de lesprance mathmatique de Y, constitue une estimation non biaise de cette dernire.

Il reste valuer la qualit de cette estimation : le fait quelle soit non biaise ne garantit pas quelle soit
prcise : sa prcision dpend du nombre et de la qualit des mesures effectues, cest--dire de la
dispersion des mesures autour de lesprance mathmatique. Pour caractriser numriquement cette
dispersion, on utilise la notion de variance.
Lapprentissage statistique
64

Variance dune variable alatoire

Dfinition

La variance dune variable alatoire Y de distribution pY(y) est la quantit


+
[y E ] pY ( y ) dy.
2
varY = 2 = Y

La variance est donc le deuxime moment centr de la distribution de probabilit.

Remarque
La variance est galement lesprance mathmatique de [Y EY ] : varY = E Y E 2 .
2

( Y )

Proprits
Une variable certaine a une variance nulle.
varY = EY 2 ( EY ) .
2

varaY = a 2 varY .
Si une variable alatoire obit une distribution uniforme sur un intervalle [a, b], sa variance vaut
(ba)2/12.
Si une variable alatoire obit une loi gaussienne dcart-type , sa variance vaut 2.

Estimateur non biais de la variance dune variable alatoire


Rappelons que, pour introduire lestimateur moyenne M (estimateur non biais de lesprance mathma-
tique), on a considr que N mesures, mutuellement indpendantes, dune grandeur Y ont t effectues,
et elles ont t modlises comme des ralisations de variables alatoires Yi de distributions identiques.

Estimateur non biais de la variance

1 N
(Y M ) est un estimateur non biais de la variance de Y.
2
La variable alatoire S 2 =
N 1 i =1 i

Si lon dispose de N rsultats de mesures yi, il faut donc, pour estimer la variance, calculer dabord la
1 N
valeur de la moyenne m = yi , puis calculer lestimation de la variance par la relation :
N i =1
1 N
( yi m ) .
2
s2 =
N 1 i =1
Lestimation de la variance permet donc dvaluer, de manire quantitative, la dispersion des rsultats des
mesures autour de leur moyenne. La moyenne tant elle-mme une variable alatoire, elle possde une
variance : on pourrait effectuer plusieurs sries de mesures, calculer la moyenne de chacune de ces sries,
puis estimer la variance de la moyenne, laquelle caractriserait la dispersion de lestimation de la grandeur
modliser. Nanmoins, cette procdure est lourde puisquelle requiert que lon effectue plusieurs sries
de mesures, dans des conditions supposes identiques.
Lapprentissage statistique : pourquoi, comment ?
65
CHAPITRE 1

Covariance de deux variables alatoires


La covariance de deux variables alatoires U et V est dfinie par :

covU ,V = E(U EU )(V EV ) = EUV EU EV .

Remarque
On a vu plus haut que

varY = E Y E 2 .
( Y)

La variance dune variable alatoire est donc la covariance de cette variable et delle-mme.

Variance dun vecteur alatoire


u1
u 2 , de dimension p, sa variance est la matrice (p, p) donne
tant donn un vecteur alatoire U =
M

up
par :

var u cov u , u L cov u1, u p


1 1 2
cov u , u var u L L
var U = 1 2 2 .
M M O M

L L L var u p

Proprit

Si A est une matrice certaine : varAU = A varU AT .

Autres distributions utiles


Loi de 2 (ou de Pearson)
Si une variable alatoire X est la somme des carrs de N variables gaussiennes indpendantes, elle obit
une loi de 2 (ou de Pearson) N degrs de libert. Alors EX = N et varX = 2N.

Loi de Student
Si Y1 est une variable de distribution normale, et si Y2 est une variable alatoire, indpendante de Y1, obis-
Y1
sant une loi de Pearson N degrs de libert, alors la variable alatoire Z = obit une loi de
Y2 / N
Student N degrs de libert.
Lapprentissage statistique
66

Loi de Fisher
Si Y1 est une variable alatoire de Pearson N1 degrs de libert, et si Y2 est une variable alatoire de
Y / N1
Pearson N2 degrs de libert, alors la variable alatoire Z = 1 obit une loi de Fisher N1 et N2
degrs de libert. Y2 / N2

Intervalles de confiance
Dans les sections prcdentes, nous avons vu que lestimation dune grandeur dpend la fois du nombre
dexpriences et de la variabilit des observations. On peut combiner lgamment la taille de lchantillon
et sa variabilit pour valuer la diffrence qui peut exister entre lestimation dune grandeur et sa vraie
valeur.

Dfinition

Un intervalle de confiance, au seuil de confiance 1 , pour une variable alatoire Y, est un intervalle
qui, avec une probabilit 1 , contient la valeur de lesprance mathmatique de Y.

En consquence, plus lintervalle de confiance est petit, plus on peut avoir confiance en lestimation de la
grandeur modliser.
Ainsi, supposons que lon ait ralis 100 ensembles de mesures ; partir de celles-ci, on peut calculer 100
moyennes, 100 estimations de la variance, et 100 intervalles de confiance 95 % ( = 0,05). Alors, pour
95 % de ces ensembles de donnes, lintervalle de confiance contient la moyenne ; on ne peut videm-
ment pas garantir que, pour un ensemble particulier de mesures, la vraie valeur soit lintrieur de linter-
valle de confiance calcul partir de cet ensemble de mesures.

Conception dun intervalle de confiance


Pour concevoir un intervalle de confiance pour une variable alatoire Y, il faut trouver une variable ala-
toire Z, fonction de Y, dont la distribution pZ(z) soit connue et indpendante de Y. Puisque la distribution
p Z(z) est connue, il est facile de rsoudre lquation Pr ( z1 < z < z2 ) = pZ ( z ) dz = 1 : il suffit
z2

z1
dinverser la fonction de rpartition de Z, cest--dire trouver la valeur z1 de z telle que Pr(z < z1) = / 2,
et la valeur z2 de z telle que Pr(z > z2) = / 2. Une fois dtermines les valeurs de z1 et de z2, on inverse la
fonction Z(Y) afin de trouver les valeurs a et b de y telles que Pr(a < y < b) = 1 .

Exemple : conception dun intervalle de confiance pour la moyenne


Le tout premier exemple dapprentissage qui a t considr dans ce chapitre consistait en lestimation de
lunique paramtre w dun modle constant ; on a vu que ce paramtre ntait autre que lesprance
mathmatique de la grandeur modliser. On a galement vu que la moyenne est un estimateur non biais
de lesprance mathmatique. On se pose donc la question suivante : tant donn un ensemble de mesures
dune grandeur, dont on a calcul la moyenne pour estimer son esprance mathmatique, quelle confiance
peut-on accorder cette estimation ?
Supposons donc, comme prcdemment, que N expriences ont t effectues, et que lon peut modliser
les rsultats de ces expriences comme N ralisations de variables alatoires Yi indpendantes et de mme
distribution. De plus, supposons que la distribution commune ces variables est une distribution gaus-
sienne de moyenne et de variance 2.
Lapprentissage statistique : pourquoi, comment ?
67
CHAPITRE 1

Il est facile de dmontrer que la somme de N variables gaussiennes indpendantes est une variable gaus-
sienne dont la moyenne est la somme des moyennes, et dont la variance est la somme des variances. Ici
les distributions des N variables sont identiques, dont la moyenne est une gaussienne de moyenne N et
de variance N2. Leur moyenne M obit donc une loi gaussienne de moyenne et de variance 2/N ; par
consquent la variable alatoire M obit une loi normale (gaussienne de moyenne nulle et de
/ N
variance unit).
Rappelons que lon cherche tablir deux bornes pour lesprance mathmatique , qui doivent tre de la
forme m a, o m est la moyenne des mesures et a le demi-intervalle de confiance. On peut prvoir que
lintervalle de confiance crot avec la variance des mesures et dcrot avec leur nombre.
1 N Comme 2indiqu
plus haut, lestimateur non biais de la variance est la variable alatoire S 2 = 2(Yi M ) . Il est
N 1 i
commode de normaliser cette variable en la divisant par son esprance mathmatique =1 ; les variables Y
i
tant supposes gaussiennes, la variable alatoire M est galement gaussienne, donc (N 1) S2/ 2 est la
somme de N 1 variables gaussiennes indpendantes (il ny a que N 1 variables indpendantes puisque
M dpend des Yi) ; elle obit donc une loi de Pearson.
M
Dautre part, comme indiqu plus haut, la variable alatoire obit une loi normale.
/ N
M
M
Par consquent, la variable alatoire Z = / N = obit une loi de Student N 1 degrs
S /
2 2
S2 / N
de libert. La distribution de Student tant symtrique, il suffit alors de chercher la valeur de z0 telle
quune variable de Student soit comprise entre z0 et +z0 avec la probabilit 1 , soit encore telle quune
variable de Student soit comprise entre et z0 avec la probabilit / 2. partir des rsultats exprimen-
taux, on peut calculer une ralisation m de M, une ralisation s de S, et une ralisation z de Z par les rela-
1 N 1 N m
( yi m ) et z = 2 . Avec une probabilit 1 , lestimation m de
2
tions m = yi , s =
N i =1 N 1 i =1 s /N
se trouve lintrieur de lintervalle de confiance si z est dans lintervalle [ z0, + z0] :
m
z0 < < + z0
s2 / N
soit
m z0 s 2 / N < < m + z0 s 2 / N .
Lintervalle de confiance recherch est donc lintervalle centr sur lestimation de la moyenne m, et de
demi-largeur z0 s 2 / N .
Lapprentissage statistique
68

La figure 1-35 reprsente linverse de la distribu- 5


tion de probabilit cumule dune variable de 4
Student, pour diffrentes valeurs de N. On observe
3
que, au-del de N = 10, la distribution devient peu N=3
2
prs indpendante de N (elle est dailleurs trs

Variable de Student
voisine dune distribution normale) ; pour un 1

niveau de confiance de 0,95, on voit que z0 2 pour 0 N = 10


N = 100
N 10, de sorte que la largeur de lintervalle de -1
confiance pour est peu prs 2 s 2 / N = 2 s / N . -2
La largeur de lintervalle de confiance est donc -3
proportionnelle s, donc au bruit de mesure, et
-4
inversement proportionnelle la racine carre du
nombre dexemples : une grande variabilit dans -5
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
les mesures doit tre compense par une grande 0,025
Probabilit cumule dune variable de Student
0,975
taille de lchantillon. N degrs de libert
Figure 1-35. Inverse de la probabilit cumule
titre dexemple, on a simul 10 000 sries de 100 dune variable de Student
mesures en engendrant des ralisations dune
variable alatoire selon une loi normale. Pour
chaque srie de mesures, la moyenne, lestimateur de la variance, et lintervalle de confiance dtermin
ci-dessus, au niveau de confiance 0,95 ont t calculs : dans 95,7% des cas, lesprance mathmatique
des mesures (gale zro) se trouve bien lintrieur de lintervalle de confiance.
On a donc tabli ici un intervalle de confiance pour lestimation de lesprance mathmatique, ou, en
dautres termes, de lunique paramtre dun modle constant. Il est trs important de pouvoir fournir un
intervalle de confiance sur les prdictions fournies par un modle. On en rencontrera de nombreux exem-
ples dans cet ouvrage.

Tests dhypothse
On a vu plus haut que des tapes importantes dans la conception dun modle par apprentissage artificiel,
telles que la slection de variables ou la slection de modles, ncessitent de prendre des dcisions (slec-
tionner ou rejeter un modle ou une variable) partir des informations disponibles, qui sont gnralement
en nombre limit. Il faut donc prendre ces dcisions de manire raisonne. Les tests dhypothse sont les
outils appropris pour ce genre de situation. Ils permettent de faire une hypothse et dtablir une des deux
conclusions suivantes, avec un risque derreur fix :
les donnes confirment cette hypothse,
le fait que les donnes semblent confirmer cette hypothse est simplement le rsultat dun concours de
circonstances improbable, li la petite taille de lchantillon et la variabilit des mesures.
De nombreux tests dhypothses, adapts une grande varit de situations, ont t proposs (voir par
exemple [LEHMANN 1993]).
Le principe dun test dhypothse est le suivant : pour tester la validit dune hypothse (appele
hypothse nulle et traditionnellement note H0), on cherche tablir lexpression dune variable ala-
toire qui suit une loi connue si lhypothse nulle est vraie, et dont on peut calculer une ralisation partir
des donnes disponibles. Si la probabilit pour que cette ralisation se trouve dans un intervalle donn est
trop faible , on considre que la probabilit pour que lhypothse nulle soit vraie est trop faible : on la
rejette donc.
Lapprentissage statistique : pourquoi, comment ?
69
CHAPITRE 1

titre de premire illustration, supposons quun modle prdise que la grandeur modliser, par exemple
lunique paramtre dun modle constant, a une certaine valeur w0. On dispose dun ensemble de N obser-
vations de cette grandeur, et lon veut savoir si elles confirment lhypothse selon laquelle la grandeur a
pour vraie valeur w0. Ces mesures sont modlises comme des ralisations de N variables alatoires Yi
supposes gaussiennes, desprance mathmatique et de variance 2. Lhypothse nulle est donc
H0 : w0 = , et lhypothse alternative est w0 .
Nous avons vu dans la section prcdente que, si lhypothse nulle est vraie, cest--dire si w0 = , la
M w0
variable alatoire Z = , obit une loi de Student N 1 degrs de libert (M est lestimateur de
S2 / N
2
lesprance mathmatique, S est lestimateur de la variance). partir des N donnes disponibles, on peut
calculer une ralisation z de cette variable alatoire. Dautre part on peut calculer la valeur z0 telle que la
probabilit pour quune ralisation de la variable alatoire soit lextrieur de lintervalle [ z0, +z0] est
gale au risque choisi 1 . Si la ralisation observe z est lextrieur de cet intervalle, on peut consi-
drer que les donnes ne confirment pas de manire significative lhypothse H0 ; on rejette donc celle-ci,
avec un risque 1 de se tromper. En outre, il faut dfinir le niveau de risque derreur, not 1 , que
lon est dispos admettre, lerreur consistant rejeter lhypothse nulle alors quelle est vraie (erreur de
type 1).
Supposons par exemple quune thorie prvoie quune grandeur vaut w0 = 1. Supposons que lon dispose
de 100 mesures de cette grandeur, dont la moyenne m vaut 2 et lcart-type vaut s = 10 : ces mesures sont
donc trs disperses autour de la moyenne. On se pose la question : ces donnes confirment-elles lhypo-
thse selon laquelle w0 vaut 1 ? La ralisation de la variable alatoire z vaut
m w0
z= = 1.
s2 / N
En se reportant la figure 1-35, on voit que z0 2
(pour = 0,95), de sorte que z est dans lintervalle
[ z0, +z0]. On accepte donc lhypothse nulle au
vu des donnes disponibles. linverse, si les 5

donnes disponibles ont toujours pour moyenne 4


m = 2, mais avec une dispersion beaucoup plus 3
petite, par exemple s = 3, alors z = 3,3 ; dans ces
2
conditions, on est amen rejeter lhypothse
Variable de Student

nulle. 1
ACCEPTATION
La certitude avec laquelle on accepte lhypo- 0 DE LHYPOTHSE NULLE

thse nulle est exprime par la p-valeur de la -1


ralisation z de la variable alatoire Z. Cest la -2
probabilit pour quune ralisation de Z soit
-3
lextrieur de lintervalle z , + z si lhypothse
nulle est vraie : la p-valeur de z0 est donc 1 . -4

Ainsi, dans lexemple prcdent, la p-valeur de -5


0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9
z = 1 vaut 0,32, ce qui signifie que lon est raison-
nablement sr de ne pas se tromper en acceptant 0,16 Probabilit cumule dune variable de Student 0,16
100 degrs de libert
lhypothse nulle (figure 1-36). En revanche, la p-
Figure 1-36. p-valeur de z = 1
valeur de z = 3,3 vaut 8 10-3 : accepter lhypothse
nulle serait donc extrmement risqu.
Lapprentissage statistique
70

Notons que la p-valeur de z = 0 vaut 1, ce qui veut dire que lon accepte lhypothse nulle avec la plus
grande certitude possible ; cest naturel, puisque z = 0 correspond au cas o la moyenne est gale la
valeur postule de lesprance mathmatique.
Remarque
Dans ce cas particulier, le test dhypothse consiste regarder si la valeur de la moyenne dont on fait lhypothse se trouve dans lintervalle
de conance calcul au paragraphe prcdent, et rejeter lhypothse nulle si cette valeur est lextrieur de cet intervalle.
Un autre exemple de test dhypothses (test de Fisher) est dcrit dans la section Slection de variables .

Conclusion
Dans ce chapitre, les fondements de lapprentissage statistique et de sa mise en uvre ont t dcrits de
manire succincte ; on en trouvera une prsentation beaucoup plus dtaille dans [HASTIE 2001] par
exemple. Pendant longtemps, les efforts de recherche en apprentissage artificiel ont port essentiellement
sur les familles de modles et les algorithmes dapprentissage. Le nombre et la varit des applications,
leur difficult et leur exigence croissantes, ont rendu ncessaires la mise en place dun corps de doctrine
et dune mthodologie qui englobent tous les aspects de la conception de modle par apprentissage
statistique : slection de variables, slection de modle, planification dexpriences, estimation dinter-
valles de confiance sur les prdictions, sont au moins aussi importantes que lapprentissage lui-mme. Les
mthodes qui ont t dcrites ou esquisses dans ce chapitre peuvent tre mises en uvre pour la plupart
des grandes familles de modles. Les chapitres suivants de cet ouvrage sont consacrs diffrents types
de modles rseaux de neurones, cartes auto-organisatrices, machines vecteurs supports dont on
montrera les spcificits, la mise en uvre, et les applications.

Bibliographie
BJRCK A. [1967], Solving linear least squares problems by Gram-Schmidt orthogonalization. BIT, 7,
p. 1-27.
CHEN S., BILLINGS S. A., LUO W. [1989], Orthogonal least squares methods and their application to non-
linear system identification, International Journal of Control, 50, p. 1873-1896.
DRAPER N. R., SMITH H. [1998], Applied regression analysis, John Wiley & Sons.
DREYFUS G., GUYON I. [2006], Assessment Methods, in Feature Extraction, Foundations and Applica-
tions, I. Guyon, S. Gunn, M. Nikraveh, L. Zadeh, eds. (Springer), p. 65-88.
GUYON I., GUNN S., NIKRAVESH M., ZADEH L. [2006], Feature Extraction, Foundations and Applications,
Springer.
HASTIE T, TIBSHIRANI R., FRIEDMAN J. [2001], The elements of statistical learning, data mining, infer-
ence and predictions, Springer.
KULLBACK S. [1959], Information Theory and Statistics, Dover Publications.
LAGARDE DE J. [1983], Initiation lanalyse des donnes, Dunod, Paris.
LEHMANN E. L. [1993], Testing statistical hypotheses, Chapman & Hall.
MOOD A. M., GRAYBILL F. A., BOES D. C. [1974], Introduction to the Theory of Statistics, McGraw-Hill.
NEAL R. M. [1996] Bayesian Learning for Neural Networks, Springer.
Lapprentissage statistique : pourquoi, comment ?
71
CHAPITRE 1

SEBER G. A. F. [1977], Linear Regression Analysis, Wiley


STOPPIGLIA H. [1997], Mthodes statistiques de slection de modles neuronaux ; applications finan-
cires et bancaires, Thse de Doctorat de lUniversit Pierre et Marie Curie, Paris. Disponible sur le site
http://www.neurones.espci.fr.
STOPPIGLIA H., DREYFUS G., DUBOIS R., OUSSAR Y. [2003], Ranking a Random Feature for Variable and
Feature Selection, Journal of Machine Learning Research, p. 1399-1414.
VAPNIK V. [1998], The nature of statistical learning theory, Springer.
WONNACOTT T. H., WONNACOTT R. J. [1990], Statistique conomie-gestion-sciences-mdecine,
Economica, 4e dition, 1990.
2
Les rseaux de neurones

Introduction
Le premier chapitre de cet ouvrage a prsent les principes de lapprentissage statistique, ainsi quune
mthodologie globale permettant de rsoudre les problmes pratiques qui se posent lorsque lon souhaite
concevoir un modle prcis et fiable. Il reste appliquer ces principes des familles de modles rpondant
des besoins spcifiques notamment, en ce qui concerne ce chapitre, aux rseaux de neurones.
Le terme de rseau de neurones suggre un lien fort avec la biologie. Ce lien existe : les mthodes
mathmatiques dcrites dans ce chapitre ont t appliques avec succs la modlisation des systmes
nerveux vivants. Nanmoins, le terme est plus mtaphorique que scientifique : si le lien avec la biologie a
constitu une motivation majeure des pionniers du domaine, les rels dveloppements des rseaux de
neurones sont de nature purement mathmatique et statistique ; leurs applications se situent dans des
domaines qui nont gnralement aucun rapport avec la neurobiologie. Cest la raison pour laquelle, aprs
avoir fourni les dfinitions essentielles et nonc la proprit fondamentale des rseaux de neurones
lapproximation non linaire parcimonieuse , les classes de problmes que les rseaux de neurones sont
susceptibles de rsoudre sont rappeles : modlisation non linaire statique ou dynamique, classification
(discrimination), modlisation semi-physique ( bote grise ) et traitement de donnes structures
(graphes). Des applications trs diverses, choisies en raison de leur caractre exemplaire, sont dcrites en
dtail afin de fournir au lecteur des ides prcises sur le type de problmes auxquels les rseaux de
neurones sont susceptibles dapporter des solutions lgantes.
Cest seulement aprs avoir dcrit ces applications que sont prsents, de manire plus dtaille, les algo-
rithmes et la mthodologie de conception quil convient de suivre pour obtenir des rsultats solides. Les
tapes de conception, dcrites de manire gnrique dans le premier chapitre, sont abordes en dtail ici :
slection des variables, apprentissage, slection de modles statiques. Les modles dynamiques sont
galement prsents dans une optique de mthodologie ; ils sont dcrits de manire plus dtaille dans le
chapitre 4. Des complments thoriques et algorithmiques clturent ce chapitre.

Rseaux de neurones : dfinitions et proprits


Dans la section du premier chapitre intitule Quelques dfinitions concernant les modles , on a intro-
duit la distinction entre modles linaires et modles non linaires en leurs paramtres.
Rappelons quun modle linaire statique est de la forme :
p

( ) ( )
g x , w = wi f i x
i =1
Lapprentissage statistique
74

o le vecteur w est le vecteur des paramtres du modle, et o les fonctions fi(x) sont des fonctions non
paramtres, ou paramtres fixs et connus, des variables x.
Les rseaux de neurones entrent dans la catgorie des modles non linaires en leurs paramtres. La
forme la plus courante de rseau de neurones statique est une extension simple de la relation prcdente :
p
g ( x, w ) = wi fi ( x, w )
i =1

o les fonctions fi(x, w), appeles neurones , sont des fonctions paramtres qui seront dfinies dans
la section suivante.

Les neurones

Dfinition

Un neurone est une fonction non linaire, paramtre, valeurs bornes.

Suivant en cela lusage, on utilisera frquemment, par abus de langage, le terme de neurone linaire
pour dsigner une fonction paramtre linaire ou affine (qui nest donc pas borne).
Les variables sur lesquelles opre le neurone sont souvent y
dsignes sous le terme dentres du neurone, et la valeur de la
fonction sous le terme de sortie. Reprenant le graphisme de la
figure 1-22 du premier chapitre, il est commode de reprsenter
graphiquement un neurone comme indiqu sur la figure 2-1.
Cette reprsentation est le reflet de linspiration biologique qui
a t lorigine de la premire vague dintrt pour f
les neurones formels, dans les annes 1940 1970
[McCULLOCH 1943] [MINSKY 1969].
La fonction f peut tre paramtre de manire quelconque.
Deux types de paramtrage sont frquemment utiliss :
les paramtres sont attachs aux variables du neurone : la x1 x2 xn
sortie du neurone est une fonction non linaire dune combi-
naison des variables {xi} pondres par les paramtres {wi}, Figure 2-1. Un neurone ralise une fonction
qui sont alors souvent dsigns sous le nom de poids ou, non linaire paramtre borne y = f (x, w)
en raison de linspiration biologique des rseaux de neurones, o les composantes du vecteur x
poids synaptiques . Conformment lusage (galement sont les variables et celles du vecteur w
sont les paramtres.
inspir par la biologie), cette combinaison linaire sera
appele potentiel dans tout cet ouvrage. Le potentiel v le
plus frquemment utilis est la somme pondre, laquelle sajoute un terme constant ou biais 1 :
n
v = w0 + wi xi .
i =1

1. Ce terme de biais est malheureux, mais consacr par lusage. Il na rien voir le biais dun estimateur, dfini dans la section
lments de statistiques du premier chapitre.
Les rseaux de neurones
75
CHAPITRE 2

La fonction f est appele fonction dactivation. Pour des raisons qui seront exposes plus loin, il est
recommand dutiliser pour f une fonction sigmode (cest--dire une fonction en forme de s )
symtrique par rapport lorigine, telle que la tangente hyperbolique ou la fonction Arctangente. Ainsi,
dans la trs grande majorit des applications qui seront dcrites dans ce chapitre, la sortie dun neurone
a pour quation :

n

y = th w0 + wi xi .
i =1
Le biais w0 peut tre considr comme le produit du paramtre w0 par la constante 1, de sorte quil est
commode dintroduire une variable gale 1 dans le vecteur des variables. La relation prcdente peut
alors scrire :

y = th ( w x )

o le symbole dsigne le produit scalaire de deux vecteurs ;


les paramtres sont attachs la non-linarit du neurone : ils interviennent directement dans la fonction
f ; cette dernire peut tre une fonction radiale ou RBF (en anglais Radial Basis Function), ou encore
une ondelette ; la premire tire son origine de la thorie de lapproximation [POWELL 1987], la seconde
de la thorie du signal [MALLAT 1989].
Par exemple, la sortie dun neurone RBF non-linarit gaussienne a pour quation :

n 2
( xi wi )
y = exp i =1
2 wn2+1


o les paramtres wi, i = 1 n sont les coordonnes du centre de la gaussienne, et wn+1 est son cart-type.

Dans les complments thoriques et algorithmiques, en fin de chapitre, dautres exemples de neurones
sont prsents.

La diffrence pratique essentielle entre les deux types de neurones qui viennent dtre dcrits est la
suivante : les neurones tels que les RBF ou les ondelettes ont des non-linarits locales, qui tendent vers
zro dans toutes les directions de lespace des variables ; leur zone dinfluence est donc limite dans
lespace, ce qui nest pas le cas des neurones fonction dactivation sigmode.

Les rseaux de neurones


Un neurone ralise simplement une fonction non linaire, paramtre, de ses variables. Lintrt
des neurones rside dans les proprits qui rsultent de leur association en rseaux, cest--dire de la
composition des fonctions non linaires ralises par chacun des neurones.

Dans le premier chapitre, on a introduit la distinction entre modles statiques et modles dynamiques.
Bien entendu, la mme distinction sapplique aux rseaux de neurones : on diffrencie les rseaux stati-
ques (ou rseaux non boucls) et les rseaux dynamiques (ou rseaux boucls).
Lapprentissage statistique
76

Rseaux de neurones statiques ou rseaux non boucls


Forme gnrale

Dfinition

Un rseau de neurones non boucl ralise une (ou plusieurs) fonction(s) de ses entres par composition des
fonctions ralises par chacun des neurones.

Un rseau de neurones non boucl peut donc tre imagin comme un ensemble de neurones connects
entre eux, linformation circulant des entres vers les sorties sans retour en arrire . On peut alors
reprsenter le rseau par un graphe acyclique dont les nuds sont les neurones et les artes les
connexions entre ceux-ci. Si lon se dplace dans le rseau, partir dun neurone quelconque, en
suivant les connexions et en respectant leurs sens, on ne peut pas revenir au neurone de dpart. La repr-
sentation de la topologie dun rseau par un graphe est trs utile, notamment pour les rseaux boucls,
comme on le verra dans la section Rseaux de neurones dynamiques . Les neurones qui effectuent le
dernier calcul de la composition de fonctions sont les neurones de sortie ; ceux qui effectuent des calculs
intermdiaires sont les neurones cachs (voir figure 2-2).
Remarque
Le terme de connexions doit tre pris dans un sens mtaphorique : dans la trs grande majorit des applications, les oprations effec-
tues par un rseau de neurones sont programmes (nimporte quel langage de programmation convient) et excutes par un ordinateur
conventionnel. Le rseau de neurones nest donc pas, en gnral, un objet tel quun circuit lectronique, et les connexions nont pas de
ralit physique ; nanmoins, le terme de connexion, issu des origines biologiques des rseaux de neurones, est pass dans lusage, car
il est commode quoique trompeur ; il a mme donn naissance au terme de connexionnisme.

Rseaux couches
La seule contrainte sur le graphe des connexions dun
rseau de neurones non boucl est quil ne contient
pas de cycle. On peut donc imaginer une grande ..... Ns neurone(s) de sortie
varit de topologies pour ces rseaux. Nanmoins,
pour des raisons qui seront dveloppes dans la
section Proprit fondamentale , la trs grande .... Nc neurones cachs
majorit des applications des rseaux de neurones
mettent en jeu des rseaux couches , dont un x1 x2 x3 .... xn
exemple est reprsent sur la figure 2-2. n variables
Figure 2-2. Un rseau de neurones n variables,
Forme gnrale
une couche de Nc neurones cachs et Ns neurones
Ce rseau ralise NS fonctions algbriques des de sortie
n variables du rseau ; chacune des sorties est une
fonction, ralise par le neurone de sortie correspondant, des fonctions non linaires ralises par
les neurones cachs.
Le temps ne joue aucun rle fonctionnel dans un rseau de neurones non boucl : si les variables sont
indpendantes du temps, les sorties le sont galement. Le temps ncessaire pour le calcul de la fonction
ralise par chaque neurone est ngligeable et, fonctionnellement, on peut considrer ce calcul comme
instantan. Pour cette raison, les rseaux non boucls sont souvent appels rseaux statiques , par
opposition aux rseaux boucls ou dynamiques qui seront introduits plus loin.
Les rseaux de neurones
77
CHAPITRE 2

Terminologie
Les rseaux de neurones non boucls couches, dont les neurones cachs ont une fonction dactivation sigmode, sont souvent appels
Perceptrons multicouche (ou MLP pour Multi-Layer Perceptron).

proscrire
On mentionne souvent, outre la couche cache et la couche de sortie, une couche dentre voire des neurones dentre . Cette
expression est trompeuse, car les entres (reprsentes par des carrs sur la gure 2-2) ne sont pas des neurones : elles ne ralisent
aucun traitement de linformation.

Forme de rseau la plus utile : les rseaux une couche cache de sigmodes
et un neurone de sortie linaire
Comme indiqu dans le chapitre 1 et rappel au dbut de ce chapitre, lextension la plus naturelle des
modles linaires de la forme :
p
g ( x, w ) = wi fi ( x )
i =1

est une combinaison linaire de fonctions paramtres :


p
g ( x, w ) = wi fi ( x, w ) .
i =1

Cest la forme la plus utile de modle neuronal : g(x, w)

une combinaison linaire de fonctions non linaires Un neurone de sortie linaire


Nc+1
paramtres des variables. Dans le jargon des
rseaux de neurones, un tel modle est dcrit comme w2

un rseau une couche cache et un neurone de sortie f 1 1 .... Nc


Nc neurones cachs
fonction dactivation sigmode
linaire (figure 2-3). + un biais

W1
Le modle reprsent sur la figure 2-3 a pour
expression : x x0 x1 x2 .... xn n variables + un biais

n
Nc x0=1

g ( x, w ) = wN c +1,i th wij x j + wi 0 + wN c +1,0 Figure 2-3. Un rseau de neurones n variables,


i =1
j =1 un biais, une couche de Nc neurones cachs fonction
dactivation sigmode et un neurone de sortie linaire.
= w2 f ( W1 x ) Sa sortie g(x, w) est une fonction non linaire du
vecteur des variables x, de composantes 1, x1, x2, ...,
o x est le vecteur des variables (de dimension n+1), xN, et du vecteur des paramtres w,
w2 est le vecteur des paramtres de la deuxime dont les composantes sont les (n+1)N+Nc+1
paramtres du rseau.
couche de connexions (de dimension Nc+1), W1 est la
matrice des connexions de la premire couche (de
dimension (Nc+1, n+1), et f(.) est le vecteur (de dimension Nc + 1) constitu du biais et des fonctions rali-
n
ses par les neurones cachs : f0 = 1, fi = th wij x j . Les neurones cachs sont numrots de 1 Nc et
j =0
le neurone de sortie est numrot Nc+1. Par convention, le paramtre wij est relatif la connexion allant
du neurone (ou de lentre) j vers le neurone i.
Trs important
Le modle g(x, w) est une fonction linaire des paramtres de la dernire couche de connexions (qui relient les Nc neurones cachs et le
biais f0 au neurone de sortie, numrot Nc+1), et elle est une fonction non linaire des paramtres de la premire couche de connexions
Lapprentissage statistique
78

(qui relient les n+1 variables du rseau aux Nc neurones cachs). Cette proprit a des consquences importantes qui seront examines
dans la section Proprit fondamentale .
Ce quil faut retenir
Un rseau de neurones non boucl est une fonction non linaire de ses variables et de ses paramtres.
Quest-ce quun rseau de neurones zro neurone cach ?
Un rseau de neurones non boucl sans neurone cach, avec un neurone de sortie linaire, ralise simplement une fonction linaire de ses
entres. On peut donc considrer tout systme linaire comme un rseau de neurones, ce qui ne prsente aucun intrt, ni thorique ni pratique.
Les termes directs
Si la relation que lon cherche raliser entre les variables et les sorties prsente une importante composante linaire, il peut tre utile
dajouter, la structure de rseau couches qui vient dtre dcrite, des termes linaires, parfois appels termes directs , qui se tradui-
sent, dans la reprsentation graphique du rseau, par des connexions directes entre les entres et le neurone de sortie (gure 2-4). Par
exemple, pour un rseau dont les fonctions dactivation sont des sigmodes, le modle devient :
Nc
n n
g ( x ,w ) = w Nc +1,i th w ij x j + w i 0 + w Nc +1,0 + w Nc +1,k x k
i =1
j =1 k =1

= w 2 f (W1x ) + w 3 x '

o w3 est un vecteur de dimension n et x est le vecteur de composantes {x1, , xn}, cest--dire le vecteur x dpourvu du biais.
g(x, w)

Nc+1
Termes directs
w2 w3

f 1 1 .... Nc

W1

x x0 x1 x2 .... xn Figure 2-4. Reprsentation graphique dun rseau de neurones


x0=1 couches comportant des termes directs

Rseaux de RBF (fonctions radiales de base) ou dondelettes


Dans ce cas, comme indiqu plus haut, les paramtres relatifs aux RBF sont attachs la non-linarit
elle-mme ; en revanche, le neurone de sortie (linaire) ralise une somme pondre des sorties
des neurones cachs. La sortie du rseau a donc pour expression (pour des fonctions radiales
gaussiennes) :

n
x j wij ( )
2
Nc
g ( x, w ) = wN c +1,i exp
j =1

i ==1 2 wi2

o x est le vecteur des entres du rseau (de dimension n) et w est le vecteur des paramtres du rseau (de
dimension (n+2) Nc+1) [BROOMHEAD 1988] [MOODY 1989] ; les neurones cachs sont numrots de 1
Nc, et le neurone de sortie porte le numro Nc+1.
Remarquons que deux catgories de paramtres interviennent ici : ceux de la dernire couche (qui relient
les Nc fonctions radiales au neurone de sortie) et les paramtres des fonctions radiales (centres et carts-
Les rseaux de neurones
79
CHAPITRE 2

types pour des fonctions radiales gaussiennes). Les connexions de la premire couche ont toutes des para-
mtres gaux 1. Dans ces rseaux, la sortie est une fonction linaire des paramtres de la dernire
couche de connexions, et elle est une fonction non linaire des paramtres des gaussiennes. Les cons-
quences de cette proprit seront examines plus loin.

Les rseaux dondelettes ont exactement la mme structure, lquation de la gaussienne tant remplace
par celle dune ondelette multidimensionnelle. Les paramtres attachs la non-linarit sont alors les
centres et les dilatations des ondelettes [BENVENISTE 1994] [OUSSAR 2000].

Rseaux de neurones dynamiques ou rseaux boucls (ou rcurrents)

Forme gnrale

Larchitecture la plus gnrale, pour un rseau de neurones, est celle des rseaux boucls , dont le
graphe des connexions est cyclique : lorsque lon se dplace dans le rseau en suivant le sens des
connexions, il est possible de trouver au moins un chemin qui revient son point de dpart (un tel chemin
est dsign sous le terme de cycle ). La sortie dun neurone du rseau peut donc tre fonction delle-
mme ; ceci nest videmment concevable que si la notion de temps est explicitement prise en considra-
tion.

lheure actuelle, limmense majorit des applications des rseaux de neurones est ralise par des
systmes numriques (ordinateurs conventionnels ou circuits numriques spcialiss pour le traitement de
signal) : il est donc naturel de se placer dans le cadre des systmes temps discret, rgis par des
quations aux diffrences (ou quations rcurrentes , do le terme de rseaux rcurrents ). Ces
quations jouent le mme rle, en temps discret, que les quations diffrentielles en temps continu.

Ainsi, chaque connexion dun rseau de neurones boucl (ou chaque arte de son graphe) est attach,
outre un paramtre comme pour les rseaux non boucls, un retard, multiple entier (ventuellement nul)
de lunit de temps choisie. Une grandeur, un instant donn, ne pouvant pas tre fonction de sa propre
valeur au mme instant, tout cycle du graphe du rseau doit contenir au moins une arte dont le retard
nest pas nul.

Dfinition

Un rseau de neurones boucl temps discret ralise une (ou plusieurs) quation(s) aux diffrences non
linaires, par composition des fonctions ralises par chacun des neurones et des retards associs chacune
des connexions.

Proprit

Tout cycle du graphe des connexions dun rseau de neurones boucl doit comprendre au moins une
connexion de retard non nul.
La figure 2-5 prsente un exemple de rseau de neurones boucl. Les chiffres dans les carrs indiquent le
retard attach chaque connexion, exprim en multiple de lunit de temps (ou priode dchantillonnage)
T. Ce rseau contient un cycle qui part du neurone 3 et revient celui-ci en passant par le neurone 4 ; la
connexion de 4 vers 3 ayant un retard non nul, ce rseau est causal.
Lapprentissage statistique
80

Explications g(kT)
linstant kT : le neurone 3 calcule y3(kT) en fonction de y4[(k 1)T], u1(kT), u2[(k 1)T] (o k est un
entier positif et yi(kT) dsigne la sortie du neurone i linstant kT). Le neurone 4 calcule y4(kT) en
5
fonction de y3(kT) et u2(kT). Le neurone 5 calcule la sortie du rseau de neurones, g(kT), en fonction
de y3(kT), y4[(k 1)T] et u1(kT). Les quations rcurrentes qui gouvernent le rseau sont donc :
y3 (k) = f3 [y4 (k 1) u1 (k), u2 (k 1)] 0 1
y4 (k) = f4 [y3 (k), u2 (k)]
g (k) = f5 [y (k), y4 (k 1), u1 (k)] 0
3 0 4
o, pour allger les notations, la priode dchantillonnage T a t omise. f3, f4, f5 sont les fonctions 1
non linaires ralises par les neurones 3, 4 et 5 respectivement.
0 1 0
Forme canonique des rseaux de neurones boucls
Dans la mesure o les rseaux de neurones boucls ralisent des quations u1(kT) u2(kT)
rcurrentes non linaires, il est utile dexaminer les liens entre ces modles
non linaires et les modles dynamiques linaires, utiliss notamment en Figure 2-5. Un rseau
automatique des systmes linaires. de neurones boucl
deux variables.
La description la plus gnrale dun systme linaire est la description dtat : Les chiffres dans les carrs
x ( k ) = Ax ( k 1) + Bu ( k 1) indiquent le retard attach
chaque connexion,
g ( k ) = Cx ( k ) + Du ( k ) multiple de lunit de temps
(ou priode dchantillon-
o x(k) est le vecteur des variables dtat linstant (discret) kT, u(k) est le nage) T. Le rseau contient
vecteur des variables de commande linstant kT, g(k) est le vecteur des un cycle qui part du
neurone 3, va au neurone 4,
prvisions du modle linstant kT, et A, B, C, D sont des matrices. Rappe- et revient au neurone 3.
lons que les variables dtat sont un ensemble de variables, en nombre
minimal, telles que lon peut calculer leurs valeurs linstant (k+1)T si lon connat leurs valeurs initiales
et si lon connat les valeurs des variables de commande tout instant compris entre 0 et kT. Le nombre
de variables dtat est appel ordre du systme.
De manire analogue, on dfinit la forme canonique dun systme non linaire temps discret par les
quations suivantes :
x ( k ) = ( x ( k 1) , u ( k 1))
g ( k ) = ( x ( k 1) , u ( k 1)) Prdictions du modle Variables dtat
linstant k linstant k

o et sont des fonctions non linaires (des rseaux de g(k) x(k)


neurones, par exemple), et x est le vecteur des variables
dtat. L encore, les variables dtat sont un ensemble
Rseau de neurones non boucl
de variables, en nombre minimal, permettant de dcrire ralisant les fonctions et
compltement le systme linstant k si lon connat leurs q-1 q-1 Retards
units
valeurs initiales et si lon connat les valeurs des variables
de commande tout instant compris entre 0 et k-1. On
montrera, dans la section Mise sous forme canonique u(k-1) x(k-1)
des modles dynamiques , que tout rseau de neurones Variables externes Variables dtat
peut tre mis sous une forme canonique, figure sur la linstant k-1 linstant k-1
figure 2-6, o le symbole q1 reprsente un retard dune Figure 2-6. Forme canonique dun rseau
unit de temps. Ce symbole, habituel en Automatique, sera de neurones boucl. Le symbole q-1 reprsente
utilis systmatiquement dans toute la suite de louvrage. un retard dune unit de temps.
Les rseaux de neurones
81
CHAPITRE 2

Proprit g(k) g(k) x(k)


Tout rseau de neurones boucl, aussi complexe soit-il, peut tre
ramen une forme canonique, comportant un rseau de neurones 5
5
non boucl dont certaines sorties (les variables dtat) sont ramenes
aux entres par des bouclages de retard unit [NERRAND 1993].
0 1 3
Par exemple, le rseau de neurones reprsent sur la gure 2-5 peut q-1
tre mis sous la forme canonique indique sur la gure 2-7. Ce rseau 0
3 0 4
possde une seule variable dtat (il est donc du 1er ordre), qui est la 1 4
sortie du neurone 3. Dans cet exemple, ce neurone est un neurone
cach, mais un neurone de sortie peut tre un neurone dtat ; on en 0 1 0
verra un exemple dans la section intitule Que faire en pratique ? .
u1(k) u2(k) u1(k) u2(k-1) x(k-1)
Explications
linstant kT, le neurone 4 a pour variables u2[(k 1)T] et x[(k 1)T] =
y3[(k 1)T]) : il calcule donc y4[(k 1)T] ; comme dans la forme non Figure 2-7. Forme canonique ( droite) du rseau
canonique, le neurone 3 a pour variables u1(kT), u2[(k 1)T], reprsent sur la figure 2- 5 ( gauche). Ce rseau
y4[(k 1)T] : il calcule donc y3(kT) ; le neurone 5 a pour variables possde une variable dtat x(kT) (la sortie
y3(kT), u1(kT) et y4[(k 1)T] : il calcule donc sa sortie, qui est la sortie du neurone 3) : cest un rseau du 1er ordre. La partie
du rseau de neurones, g(kT). Les deux rseaux sont donc bien qui- grise constitue le rseau de neurones non boucl
valents fonctionnellement. On peut aussi montrer le rsultat en compa- de la forme canonique.
rant les quations qui rgissent les deux rseaux : posant
(
z 3 = f3 z 4 ,u 2 (k 1) )
z 4 = f4 ( z (k 1) ,u (k 1))
3 2

le modle sous forme canonique scrit :

( )
g (k ) = f5 z 3 , z 4 ,u 1 (k ) .
Ces quations sont bien identiques celles de la forme non canonique :
y3 (k) = f3 [y4 (k 1) u1 (k), u2 (k 1)]
y4 (k) = f4 [y3 (k), u2 (k)]
g (k) = f5 [y3 (k), y4 (k 1), u1 (k)]
en identiant z 3 y 3 (k ) et z 4 y 4 (k 1) .

Les rseaux boucls (et leur forme canonique) seront tudis en dtail dans la section Techniques et
mthodologie de conception de modles dynamiques de ce chapitre, ainsi que dans les chapitres 4 et 8.

Rsum
Les dfinitions essentielles concernant les rseaux de neurones ont t prsentes dans cette section.
Reprenant la distinction gnrale entre modles statiques et modles dynamiques, on a introduit :
les rseaux de neurones non boucls, statiques, qui ralisent des fonctions non linaires ;
les rseaux de neurones boucls, dynamiques, rgis par des quations aux diffrences (ou quations
rcurrentes) non linaires.
On a vu galement que tout rseau de neurones boucl peut tre mis sous une forme canonique, compre-
nant un rseau de neurones non boucl dont les variables dtat sont ramenes ses entres avec un retard
unit.
Llment de base est donc le rseau de neurones non boucl ; ses proprits sont exposes dans la
section suivante.
Lapprentissage statistique
82

Proprit fondamentale des rseaux de neurones statiques


(non boucls) : lapproximation parcimonieuse
Les rseaux de neurones sont des approximateurs universels
Proprit
Toute fonction borne sufsamment rgulire peut tre approche uniformment, avec une prcision arbitraire, dans un domaine ni de
lespace de ses variables, par un rseau de neurones comportant une couche de neurones cachs en nombre ni, possdant tous la
mme fonction dactivation, et un neurone de sortie linaire [HORNIK 1989] [HORNIK 1990] [HORNIK 1991].
Cette proprit, qui nest quun thorme dexistence et ne donne pas de mthode pour trouver les para-
mtres du rseau, nest pas spcifique aux rseaux de neurones. Cest la proprit suivante qui leur est
particulire et fait tout leur intrt.

Les rseaux de neurones non linaires par rapport leurs paramtres


sont des approximateurs parcimonieux
Dans la pratique, le nombre de fonctions ncessaires pour raliser une approximation est un critre impor-
tant dans le choix dun approximateur de prfrence un autre. Comme indiqu dans le chapitre 1, la
complexit dun modle est lie au nombre de ses paramtres : pour contrler le surajustement, on doit
toujours faire en sorte que ce nombre soit le plus petit possible. En dautres termes, on cherche lapproxi-
mation la plus parcimonieuse. Les rseaux de neurones possdent cette proprit de parcimonie : cest en
cela que rside leur intrt par rapport aux modles linaires en leurs paramtres tels que les polynmes.
Proprit fondamentale
On montre [BARRON 1993] que, si lapproximation dpend des paramtres ajustables de manire non linaire, elle est plus parcimonieuse
que si elle dpend linairement des paramtres.
Plus prcisment, le nombre de paramtres des 5
modles linaires en leurs paramtres crot beaucoup
plus rapidement avec le nombre de variables que le
log(Nombre de paramtres)

4
nombre de paramtres dun modle non linaire. Par Polynme
exemple, le nombre de paramtres dun polynme de de degr 5

degr d n variables vaut ( n + d )! , alors que le nombre 3


n! d ! Rseau de neurones
de paramtres dun rseau de neurones crot linaire- 5 neurones cachs
2
ment avec le nombre de variables. La figure 2-8 montre
lvolution du nombre de paramtres dun polynme et
du nombre de paramtres dun rseau de neurones, en 1
fonction du nombre de variables. La parcimonie est
donc dautant plus importante que le nombre 0 2 4 6 8 10 12 14 16 18 20
de variables du modle est grand : pour un modle Nombre de variables
une ou deux variables, on peut utiliser indiffremment Figure 2-8. Variation du nombre de paramtres
un modle linaire par rapport ses paramtres (poly- (ordonne logarithmique) en fonction du nombre
nme, par exemple) ou un modle non linaire par de variables pour un modle polynomial
et pour un rseau de neurones
rapport ses paramtres (rseau de neurones, par
exemple).
Il faut noter nanmoins que la dimension de Vapnik-Chervonenkis, qui crot linairement avec le nombre
de paramtres pour les modles linaires, crot au moins quadratiquement pour les rseaux de neurones,
donc on ne peut pas garantir que lon a toujours intrt utiliser des rseaux de neurones, surtout si le
Les rseaux de neurones
83
CHAPITRE 2

nombre de variables est petit, de lordre de 1 ou 2. En revanche, ds que le nombre de variables devient
suprieur 2, il est gnralement avantageux de mettre en uvre des rseaux de neurones avec une
couche de neurones cachs non-linarit sigmode, plutt que des polynmes, ou des rseaux de RBF
ou dondelettes paramtres fixs. Si, en revanche, on considre que les centres et carts-types des RBF
gaussiennes (ou les centres et les dilatations des ondelettes) sont des paramtres ajustables au mme titre
que les paramtres des connexions, il ny a pas, lheure actuelle, davantage mathmatiquement
dmontr utiliser un type de neurones plutt quun autre. En revanche, des arguments pratiques dcisifs
peuvent justifier une prfrence : connaissances a priori sur le type de non-linarit souhaitable, caractre
localis ou non de la fonction, rapidit de calcul, facilit dinitialisation de lapprentissage (voir la section
Initialisation des paramtres ), facilit de ralisation en circuit spcialis, etc.
Expliquons qualitativement lorigine de la parcimonie. Considrons un modle linaire par rapport ses
paramtres, un modle polynomial par exemple :
g(x) = 4 + 2x + 4x2 0,5x3.
Le modle g(x) est une combinaison linaire des fonctions y = 1, y = x, y = x2, y = x3, avec les paramtres
w0 = 4, w1 = 2, w2 = 4, w3 = 0,5. Ces fonctions ont une forme qui est fixe une fois pour toutes.
Considrons prsent le modle neuronal reprsent sur la figure 2-9, g(x, w)
dont lquation est :
g(x) = 0,5 2 th(10 + 0,5 x) + 3 th(1+ 0,25 x) 2 th(3 0,25 x).
Ce modle est aussi une combinaison linaire de fonctions (y = 1,
w2
y = th(10 + 0,5 x), y = th(1+ 0,25 x), y = th(3 0,25 x)), mais la 0,5 -2 3 -2
forme de ces fonctions dpend des valeurs des paramtres de la
matrice W1. f 1

Ainsi, au lieu de combiner des fonctions de formes fixes, on 10 5 1 0,25 3 -0,25


combine des fonctions dont la forme elle-mme est ajuste par des W1
paramtres. On comprend facilement que ces degrs de libert
supplmentaires permettent de raliser une fonction donne avec un x 1 x
plus petit nombre de fonctions lmentaires, ce qui est prcisment
la dfinition de la parcimonie. Figure 2-9. Un rseau de neurones
non boucl une variable (donc deux
Un exemple lmentaire entres) et trois neurones cachs.
Les nombres indiquent les valeurs
Considrons la parabole dquation des paramtres.
y = 16,71 x2 0,075.
Prenons 20 chantillons rgulirement espacs, pour effectuer un apprentissage, par minimisation de la fonc-
tion de cot des moindres carrs (dfinie au chapitre 1), dun rseau 2 neurones cachs ( fonction dacti-
vation arctangente) reprsent sur la figure 2-10(a). Un apprentissage laide de lalgorithme de Levenberg-
Marquardt (voir la section Mthodes de gradient du second ordre ) fournit, en quelques dizaines ditra-
tions, les paramtres indiqus sur la figure 2-10(a). La figure 2-10(b) reprsente les points de lensemble
dapprentissage et la prdiction du modle, qui passe par ces points avec une excellente prcision.
La figure 2-10(c) reprsente les sorties des neurones cachs, dont la combinaison linaire avec le biais
constitue la prdiction du rseau. La figure 2-10(d) montre les points dun ensemble de test et la prdiction
du rseau : lorsque lon sloigne du domaine dapprentissage [0,12, +0,12], la prcision de lapproxi-
mation se dgrade, ce qui est normal. On notera la symtrie dans les valeurs des paramtres, qui reflte la
symtrie du problme (simulation ralise laide du logiciel NeuroOne de NETRAL S.A.).
Lapprentissage statistique
84

0,15
g Paramtres
0 -1,02 0,1
1 2,73
5 6 2 1,02 0,05
3 2,73
4 7,23 0 Figure 2-10. Interpolation
4
5 4,58 dune parabole
1 3 0 2 6 -4,57 -0,005 par un rseau 2 neurones
cachs : (a) rseau ;
x 1 -0,1 (b) points dapprentissage
-0.15 -0,1 -0,05 0 0,05 0,1 0,15 (croix) et modle aprs
(a)
(a (b)
(b
18
apprentissage ;
6
(c) fonctions ralises
4 par les deux neurones cachs
14
(sigmodes) aprs
2
apprentissage ; (d) points
10
0 de test (croix) et modle
aprs apprentissage :
-2 6 lapproximation se dgrade
-4 en dehors de la zone
2 dapprentissage.
-6

-8 -2
-1 -0,5 0 0,5 1 -1 -0,5 0 0,5 1
(c) (d)

Remarque
Bien entendu, approcher une parabole une variable par un rseau de neurones ne prsente aucun intrt pratique, puisque la parabole
a deux paramtres alors que le rseau de neurones en a sept ! La seule justication de cet exemple est que, tant mono-dimensionnel, il
permet dutiliser des reprsentations graphiques simples.

En quoi la parcimonie est-elle avantageuse ?


Comme indiqu plus haut, la dimension de Vapnik-Chervonenkis des rseaux de neurones varie plus
lentement, en fonction du nombre de variables, que celle des modles linaires, de sorte que les rseaux
de neurones sont gnralement avantageux, en termes de complexit, ds que le nombre de variables
dpasse 2. Le dilemme biais-variance tant contrl par le rapport de la dimension de Vapnik-
Chervonenkis h au nombre de variables N, la parcimonie permet, rapport h/N fix, dutiliser un nombre
restreint dexemples. Ainsi, de manire gnrale, les rseaux de neurones permettent de tirer le meilleur
parti des donnes numriques disponibles, pour construire des modles plusieurs variables.
La figure 2-34 montre un exemple de parcimonie dans une application relle : la prdiction dun para-
mtre thermodynamique dun verre. Elle est commente dans la section Une application en
formulation .

quoi servent les rseaux de neurones non boucls apprentissage


supervis ? Modlisation statique et discrimination (classification)
Les proprits mathmatiques dcrites dans la section prcdente sont fondamentales : elles donnent une
base solide aux applications des rseaux de neurones apprentissage supervis. Nanmoins, dans la
pratique, il est rare que lon cherche raliser une approximation uniforme dune fonction connue.
Les rseaux de neurones
85
CHAPITRE 2

Le plus souvent, le problme qui se pose est celui qui a t tudi en dtail dans le chapitre 1 : on dispose
dun ensemble de variables mesures {xk, k = 1 N} et dun ensemble de mesures {yp(xk), k = 1 N}
dune grandeur relative un processus de nature quelconque (physique, chimique, biologique, finan-
cier...). On suppose quil existe une relation entre le vecteur des variables x et la grandeur modliser, et
lon cherche dterminer une forme mathmatique de cette relation, valable dans le domaine o les
mesures ont t effectues, sachant que (1) les mesures sont en nombre fini, et que (2) ces mesures sont
certainement entaches de bruit. De plus, toutes les variables qui dterminent la grandeur modliser ne
sont pas forcment mesures. En dautres termes, on cherche tablir un modle du processus, partir des
mesures disponibles, et delles seules : on dit que lon effectue une modlisation bote noire . On
tudiera plus loin la modlisation bote noire du comportement dun processus (lactionneur hydrau-
lique dun bras de robot) : lensemble de variables {x} est constitu dune seule variable (langle douver-
ture de la vanne dadmission de liquide hydraulique) et la grandeur yp est la pression dhuile dans laction-
neur. On verra galement plus loin un exemple de prdiction de proprits chimiques ou dactivits
thrapeutiques de molcules : on cherche une relation dterministe entre une proprit des molcules (par
exemple leurs points dbullition, leur action anti-HIV, leur toxicit) et des descripteurs de ces mol-
cules (masse molaire, nombre datomes, volume , moment dipolaire, etc.) ; on peut ainsi prdire les
proprits ou activits thrapeutiques de molcules dont la synthse na pas t effectue. Le lecteur
rencontrera dans cet ouvrage de nombreux cas de ce genre.
Le terme de bote noire qui vient dtre introduit soppose au terme de modle de connaissance ou
modle de comportement interne , qui dsigne un modle mathmatique tabli partir dune analyse
physique (ou chimique, physico-chimique, conomique, etc.) du processus que lon tudie ; ce modle
peut contenir un nombre limit de paramtres ajustables, qui possdent une signification physique. On
verra, dans la section Modlisation dynamique bote grise , que les rseaux de neurones peuvent tre
utiliss pour llaboration de modles semi-physiques , intermdiaires entre les modles botes
noires et les modles de connaissance.

Modlisation statique
Rappelons que lapprentissage statistique dun modle consiste estimer les valeurs des paramtres du
modle pour lesquelles lerreur de prdiction empirique est minimale. Le plus souvent, pour la modlisa-
tion par rseau de neurones, la fonction de perte utilise est le carr de lerreur de modlisation, de sorte
que la fonction de cot minimiser est la fonction de cot des moindres carrs
N

(
J ( w ) = ykp g ( x k , w ) )
2

k =1

p
o y est la valeur prise par la grandeur modliser pour lexemple k, et g(xk, w) est la prdiction du
k
modle pour lexemple k. Rappelons galement que lon a dmontr, au chapitre 1, que le meilleur
modle possible est la fonction de rgression du processus, laquelle est inconnue. La dmarche de mod-
lisation consiste donc postuler un modle de complexit donne (un rseau de neurones trois neurones
cachs, par exemple), en effectuer lapprentissage par des mthodes qui seront dcrites dans la section
Estimation des paramtres (apprentissage) dun rseau de neurones non boucl , et estimer la capa-
cit de gnralisation de ce modle, afin de la comparer celles dautres modles, de complexits diff-
rentes. Cette estimation permet finalement de choisir le meilleur modle compte tenu des donnes dispo-
nibles.
Cette procdure pose deux questions, centrales dans la pratique des rseaux de neurones :
comment, en pratique, dans une famille de rseaux de neurones de complexit donne, trouver celui
pour lequel la fonction de cot des moindres carrs est minimale ?
Lapprentissage statistique
86

une fois que celui-ci a t trouv, comment juger si ses capacits de gnralisation sont satisfaisantes ?
Ces questions pratiques seront abordes en dtail dans la section Techniques et mthodologie de
conception de modles statiques .

Classification (discrimination)
Comme indiqu dans le chapitre 1, classer un ensemble dobjets, cest attribuer chacun une classe (ou
catgorie ) parmi plusieurs classes dfinies lavance. Cette tche est appele classification ou
discrimination . Un algorithme qui ralise automatiquement une classification est appel classifieur.
Les applications des classifieurs sont trs nombreuses : dans le domaine de la reconnaissance des formes
(chiffres et caractres manuscrits ou imprims, images, parole, signaux temporels...), mais galement
dans bien dautres domaines (conomie, finance, sociologie, traitement du langage...). De manire gn-
rale, on dsignera sous le terme de forme nimporte quel objet dcrit par un ensemble de nombres
( descripteurs ) : ainsi, une image pourra tre dcrite par lensemble des valeurs dintensit de
ses pixels (contraction de picture elements ou lments dimage), un signal temporel par ses valeurs
successives au cours dune priode de temps dfinie, une entreprise par lensemble des lments de son
bilan, un texte par lensemble des mots importants quil contient, etc. Schmatiquement, la question
laquelle un classifieur doit apporter un lment de rponse est du type : le caractre inconnu est-il un a,
un b, un c, etc. ? Le signal observ est-il normal ou anormal ? Lentreprise examine constitue-t-elle un
excellent, trs bon, bon, mdiocre, mauvais, trs mauvais, support dinvestissement ? La dpche
dagence reue est-elle relative une prise de participation entre entreprises ? Y aura-t-il demain une
alerte la pollution par lozone ? Les statisticiens appellent aussi classification la tche qui consiste
regrouper des donnes qui se ressemblent dans des classes qui ne sont pas dfinies lavance ; les rseaux
de neurones apprentissage non supervis, mentionns dans le chapitre 1 et dcrits en dtail dans le
chapitre 7, peuvent raliser ce genre de tches ; il y a donc une certaine confusion dans les termes. On
sefforcera toujours de prciser ce dont il sagit, lorsque le contexte ne rend pas la distinction vidente.
Dans tout ce paragraphe, on considre le cas o les classes sont connues lavance.
Il faut noter que le classifieur nest pas ncessairement conu pour donner une rponse complte : il peut
apporter seulement un lment de rponse. En effet, il faut bien distinguer laide la dcision et la dci-
sion elle-mme : un classifieur peut apporter une information qui aidera un tre humain, ou un systme
automatique, prendre une dcision concernant lappartenance de lobjet inconnu telle ou telle classe.
Historiquement, les premiers rseaux de neurones utiliss pour la classification taient conus pour
fournir une dcision. Nanmoins, on a vu, dans le chapitre 1, que lon peut galement, par apprentissage,
obtenir une information beaucoup plus riche et fine quune simple dcision binaire : on peut estimer la
probabilit dappartenance de lobjet inconnu chacune des classes. Ceci permet notamment de conce-
voir des systmes de reconnaissance complexes qui utilisent plusieurs systmes de classification diff-
rents, chacun deux fournissant une estimation de la probabilit dappartenance de lobjet inconnu
chacune des classes. La dcision finale est prise au vu de ces estimations et en fonction, par exemple, des
domaines dexcellence de chacun des classifieurs.
De mme, dans le domaine de la fouille de donnes (data mining), une problmatique de plus en plus
frquente est celle du filtrage dinformation : trouver automatiquement, dans un corpus de donnes,
les textes qui sont pertinents pour un thme donn, et prsenter ces textes par ordre de probabilit de perti-
nence dcroissante, afin que lutilisateur puisse faire un choix rapide parmi les documents qui lui sont
prsents. L encore, il est indispensable que le classifieur ne se contente pas de donner une rponse
binaire (document pertinent ou non), mais bien quil dtermine une probabilit dappartenance une
classe. Comme on le verra plus loin, les modles obtenus par apprentissage, notamment les rseaux de
neurones non boucls, sont bien adapts ce type de tche, dont limportance est de plus en plus vidente.
Les rseaux de neurones
87
CHAPITRE 2

La section du prsent chapitre intitule Rseaux de neurones apprentissage supervis et


discrimination , et le chapitre 6 en entier, sont consacrs la discrimination.

quoi servent les rseaux de neurones apprentissage


non supervis ? Analyse et visualisation de donnes
Les moyens modernes de traitement et de stockage de linformation permettent de disposer de trs
grandes quantits dinformations, quelles soient numriques (traitements numriques intensifs de rsul-
tats exprimentaux) ou linguistiques (corpus de textes). Retrouver des informations dont on sait quelles
doivent tre prsentes dans les donnes, mais dont on ne sait pas bien comment les extraire, devient une
proccupation de plus en plus importante. Les progrs du graphisme des ordinateurs permettent des repr-
sentations des donnes de plus en plus claires et conviviales, mais loprateur est incapable de visualiser
clairement des donnes de haute dimension. Il est donc trs important de disposer de techniques de repr-
sentations des donnes basse dimension (typiquement 2) qui permettent de retrouver linformation
prgnante dans les donnes. Les rseaux de neurones apprentissage non supervis offrent un
ensemble de techniques puissantes dans ce domaine, notamment les cartes auto-organisatrices.
Le chapitre 7 de cet ouvrage, entirement consacr lapprentissage non supervis, dcrit en dtail de
belles applications, notamment en tldtection.

quoi servent les rseaux de neurones boucls apprentissage


supervis ? Modlisation dynamique bote noire
et semi-physique ; commande de processus
Dans le paragraphe consacr aux rseaux dynamiques, on a montr que tout rseau de neurones boucl
peut tre mis sous une forme canonique, qui comprend un rseau de neurones non boucl et des bouclages
(ou rcurrences) externes celui-ci. Les proprits des rseaux de neurones boucls sont donc directe-
ment lies celles des rseaux non boucls : de mme que lon met en uvre les rseaux de neurones non
boucls pour modliser, de manire statique, des processus non linaires qui peuvent tre utilement
dcrits par des quations algbriques, de mme il est intressant de mettre en uvre des rseaux de
neurones boucls pour modliser, de manire dynamique, des processus qui peuvent tre utilement dcrits
par des quations rcurrentes (ou quations aux diffrences). Une partie du prsent chapitre, et tout le
chapitre 4, sont consacrs la modlisation dynamique de processus.
Plusieurs motivations peuvent pousser lingnieur ou le chercheur concevoir un modle dynamique :
utiliser le modle comme simulateur pour prvoir lvolution dun processus dont la modlisation
de connaissance est trop complexe ou trop incertaine ;
utiliser le modle comme simulateur dun processus dont la modlisation de connaissance est possible,
mais conduit des quations diffrentielles, ou aux drives partielles, dont la rsolution numrique est
lourde et ne peut rpondre des contraintes de fonctionnement en temps rel : on peut alors crer un
ensemble dapprentissage partir du code de rsolution des quations, et concevoir un rseau de
neurones qui fournit de trs bonnes solutions dans des temps de calcul beaucoup plus courts. Larchitec-
ture de ce rseau peut avantageusement tre inspire des quations diffrentielles du modle de
connaissance : on conoit alors un modle semi-physique ou modle bote grise (voir la section
suivante) ;
utiliser le modle comme prdicteur trs court terme (une priode dchantillonnage) afin de lintgrer
un systme de commande.
Lapprentissage statistique
88

Modlisation semi-physique
Il est trs frquent, notamment dans lindustrie manufacturire, que lon dispose dun modle de connais-
sance dun procd, mais que celui-ci ne soit pas satisfaisant ; cela peut sexpliquer par plusieurs raisons :
le modle peut tre insuffisamment prcis pour lobjectif que lon sest fix. Par exemple, si lon dsire
dtecter une anomalie de fonctionnement en analysant la diffrence entre ltat du processus prvu par
le modle du fonctionnement normal et ltat rellement mesur, il faut que le modle de fonctionne-
ment normal soit prcis ;
le modle peut tre prcis, mais tre trop complexe pour pouvoir tre intgr numriquement en temps
rel (pour une application de surveillance ou de commande, par exemple).
Si lon dispose de mesures, on peut alors lgitimement dcider davoir recours un modle bote
noire , non linaire si ncessaire. Toutefois il serait nanmoins maladroit dabandonner compltement
toutes les connaissances accumules lors de la conception du modle, pour construire un autre modle
fond uniquement sur les mesures. La modlisation semi-physique permet de rconcilier ces deux points
de vue, en utilisant toutes les connaissances avres dont on peut disposer sur le processus (sous rserve
quelles soient sous la forme dquations algbriques ou diffrentielles) pour structurer le rseau et dfinir
son architecture. La mthodologie de conception dun tel modle sera prsente dans la section
Modlisation dynamique bote grise , et un exemple dapplication industrielle sera dcrit dans la
section Modlisation semi-physique dun procd manufacturier .

La commande de processus
Commander un systme, cest lui imposer une dynamique de rponse une commande. Sil sagit dune
rgulation, il faut imposer au systme de rester dans un tat dtermin quelles que soient les perturbations,
mesurables ou non, auxquelles il est soumis : pour un systme de rgulation de vitesse dune voiture
(cruise control), il faut agir automatiquement sur lacclrateur afin que la voiture conserve une vitesse
constante gale la vitesse de consigne, indpendamment de perturbations telles que des bourrasques de
vent, des changements de la pente de la route, etc. Sil sagit dun systme de poursuite, il faut imposer
celui-ci de suivre une trajectoire de consigne : par exemple, dans un fermenteur, agir sur le systme de
chauffage pour que la temprature suive un profil temporel dtermin lavance, indpendamment de la
temprature du four, de la temprature des ingrdients que lon ajoute durant la fermentation, des rac-
tions exothermiques ou endothermiques qui peuvent se produire, etc. Pour raliser ces tches, il faut gn-
ralement disposer dun modle qui, si les non-linarits sont importantes, peut tre un rseau de neurones.
Le chapitre 5 est entirement consacr la commande de processus non linaires.

Quand et comment mettre en uvre des rseaux


de neurones apprentissage supervis ?
Aprs avoir prsent les fondements thoriques qui justifient lutilisation de rseaux de neurones, on
aborde ici les problmes pratiques lis leur mise en uvre : on rappellera dabord quand utiliser et
quand ne pas utiliser les rseaux de neurones et on expliquera brivement ensuite comment il faut les
mettre en uvre. Toutes les questions qui sont abordes dans cette section sont approfondies dans ce
chapitre et les suivants.

Quand utiliser les rseaux de neurones ?


Rappelons le fondement thorique de lutilisation des rseaux de neurones apprentissage supervis : la
proprit dapprocher toute fonction non linaire suffisamment rgulire.
Les rseaux de neurones
89
CHAPITRE 2

Il peut donc tre avantageux de mettre en uvre des rseaux de neurones pour toute application ncessi-
tant de trouver, par apprentissage, une relation non linaire entre des donnes numriques.
Sous quelles conditions peut-on utiliser une telle approche ?
Une premire condition est ncessaire mais non suffisante : puisque les rseaux de neurones utilisent
des techniques issues des statistiques, il faut disposer dun ensemble de donnes de taille suffisamment
grande, et bien reprsentatif.
Une fois ces donnes recueillies, il faut sassurer de lintrt rel dun modle non linaire pour lappli-
cation considre : en effet, la mise en uvre dun modle linaire (ou affine) est toujours plus simple,
et moins coteuse en temps de calcul, que celle dun rseau de neurones. Par consquent, en labsence
de toute connaissance a priori sur lintrt dun modle non linaire, il faut dabord utiliser les
mthodes simples et prouves dlaboration dun modle linaire, qui ont t exposes dans le chapitre
1. Sil apparat que la prcision du modle est insuffisante bien que toutes les variables pertinentes
soient prsentes dans le modle, alors on doit envisager la mise en uvre de modles non linaires tels
que les rseaux de neurones.
Si les donnes sont disponibles, et si lon sest assur quun modle non linaire est utile, il faut sinter-
roger sur lopportunit dutiliser un rseau de neurones de prfrence une autre famille de fonctions non
linaire, les polynmes par exemple. Comme indiqu plus haut, les rseaux de neurones, notamment
fonction dactivation sigmode, sont dautant plus avantageux que le nombre de variables est grand ;
dans la majorit des cas, grand signifie, en pratique et de manire empirique, suprieur ou gal 3.
En rsum : si lon dispose de donnes numriques suffisamment nombreuses et reprsentatives, il est
gnralement avantageux dutiliser des rseaux de neurones dans toute application mettant en jeu lesti-
mation des paramtres dune fonction non linaire possdant au moins trois variables. Si le nombre
de variables est suprieur ou gal 3, il est gnralement avantageux dutiliser des rseaux de neurones
fonction dactivation sigmode ; dans le cas contraire, des rseaux de neurones utilisant des RBF centres
et carts-types fixs, ou des ondelettes centres et dilatations fixs, ou encore des polynmes, peuvent tre
aussi prcis et plus simples mettre en uvre.
Bien entendu, si les donnes ne sont pas numriques (mais linguistiques, par exemple), les rseaux de
neurones ne peuvent les traiter directement. Il faut avoir recours des prtraitements permettant de
quantifier ces donnes (par exemple, laide de techniques issues de la thorie des ensembles flous).

Comment mettre en uvre les rseaux de neurones ?


La mise en uvre des rseaux de neurones entre compltement dans le cadre gnral de la modlisation
par apprentissage statistique, dveloppe dans le chapitre 1. Elle ncessite donc :
de collecter les donnes utiles pour lapprentissage et lvaluation des performances du rseau de
neurones ;
de dterminer les variables pertinentes, cest--dire les grandeurs qui ont une influence significative sur
le phnomne que lon cherche modliser ;
de postuler des modles de complexit croissante et den effectuer lapprentissage, afin de trouver la
complexit approprie, cest--dire le nombre de neurones cachs ncessaires pour obtenir une gnra-
lisation satisfaisante ;
dvaluer les performances du rseau de neurones choisi lissue de la phase de slection de modle.
En fonction des rsultats obtenus, il peut tre ncessaire deffectuer plusieurs itrations de cette proc-
dure, ou dune partie de celle-ci.
Ces diffrents points seront abords ultrieurement.
Lapprentissage statistique
90

Les variables pertinentes


Le problme de la dtermination des variables pertinentes se pose de manire trs diffrente selon les
applications envisages.
Si le processus que lon veut modliser est un
processus industriel conu par des ingnieurs, le
problme est important mais pas crucial car, en gnral,
on connat bien les grandeurs qui interviennent et les
relations causales entre celles-ci. Ainsi, dans un
procd de soudage par points, on fait fondre locale-
ment les deux tles souder en faisant passer un
courant lectrique trs important (quelques kiloam-
pres) pendant quelques dizaines de millisecondes,
entre deux lectrodes qui exercent une pression mca-
nique sur les tles (figure 2-11). La qualit de la Transformateur
soudure, caractrise par le diamtre de la zone fondue,
dpend videmment de lintensit du courant, de la Figure 2-11. Schma dun processus industriel :
dure pendant laquelle il est appliqu, de leffort exerc le soudage par points
par les lectrodes pendant le passage du courant et
pendant la phase de solidification, de ltat de surface des lectrodes, de la nature des tles, et de quelques
autres facteurs qui ont t trs largement tudis en raison de limportance industrielle du procd. On
connat donc la nature des variables dsirables pour un modle ; il peut tre nanmoins utile de faire un
choix parmi ces grandeurs, en ne prenant en considration, comme variables du modle, que celles qui
agissent de manire trs significative sur le processus (cest--dire celles dont leffet est plus important
que lincertitude de la mesure).
Lapplication dune approche de ce problme par apprentissage statistique est dcrite plus en dtail dans
la section Modlisation dun procd de fabrication : le soudage par points .
En revanche, si le processus modliser est un processus naturel complexe (physiologique, par exemple),
ou un processus conomique, social ou financier, la dtermination des variables pertinentes peut tre
beaucoup plus dlicate. Ainsi, si lon veut prdire une proprit chimique dune molcule (cet exemple est
dcrit en dtail dans la section Aide la dcouverte de mdicaments ), le choix des descripteurs perti-
nents nest pas vident ; de mme, pour dterminer la solvabilit dun organisme, ou la qualit dune
entreprise, il est trs important de choisir des ratios appropris pour dcrire la situation comptable, fiscale,
commerciale, etc.
Les mthodes de slection de variables qui ont t dcrites ou mentionnes dans le chapitre 1 sont enti-
rement applicables aux rseaux de neurones.

La collecte des donnes


Pour pouvoir effectuer lapprentissage, il faut disposer de donnes. Celles-ci doivent tre en nombre suffi-
sant, et tre suffisamment reprsentatives de celles qui seront prsentes au modle lors de son utilisation.
Lorsque la grandeur que lon veut modliser dpend de nombreux facteurs, cest--dire lorsque le modle
possde de nombreuses variables, il nest pas possible de raliser un pavage rgulier dans tout le
domaine de variation de celles-ci ; il faut donc trouver une mthode permettant de raliser uniquement des
expriences qui apportent une information significative pour lapprentissage du modle : il faut raliser un
plan dexpriences . Pour les modles linaires, llaboration des plans dexpriences est bien
matrise ; pour les modles non linaires, le problme est plus difficile. La section laboration de plans
Les rseaux de neurones
91
CHAPITRE 2

dexpriences prsente quelques lments qui permettent de construire itrativement un plan dexp-
riences pour un modle neuronal.

La complexit : le nombre de neurones cachs


lheure actuelle, il nexiste pas de rsultat thorique permettant de dterminer a priori la complexit
souhaitable pour construire un modle compte tenu des donnes disponibles. Par exemple, lestimation de
la dimension de Vapnik-Chervonenkis, pour un rseau de neurones, permet de savoir comment cette
dernire varie avec le nombre de neurones cachs, mais ne fournit que des bornes larges, ventuellement
pessimistes, pour le nombre de neurones cachs ncessaires. Il faut donc ncessairement mettre en uvre
une procdure numrique de slection de modle, notamment celles dcrites dans le chapitre 1 : valida-
tion simple, validation croise, leave-one-out et leurs variantes.
Rappelons le rsultat tabli dans le chapitre 1 : pour tout modle conu par apprentissage, notamment un
rseau de neurones, le meilleur modle possible est celui pour lequel la variance de lerreur de prdiction
est gale la variance du bruit de mesure.

Lapprentissage des rseaux de neurones non boucls :


un problme doptimisation non linaire
Une fois que lon a postul un rseau de neurones de complexit donne, on doit procder son
apprentissage : estimer les valeurs des paramtres du rseau de neurones pour lesquelles la fonction de
cot des moindres carrs, calcule sur les points de lensemble dapprentissage, est minimale. Lappren-
tissage est donc un problme numrique doptimisation.
Considrons, pour simplifier, un rseau de neurones une sortie g(x, w). On dispose dun ensemble
dapprentissage comprenant N exemples. La fonction de cot des moindres carrs a t dfinie plus haut :
N
J ( w ) = ykp g ( xk , w )
2

k =1

o xk dsigne le vecteur des valeurs des variables pour lexemple k, et ykp la valeur de la mesure correspon-
dante.
Si lon met en uvre des modles linaires en leurs paramtres (des fonctions radiales gaussiennes dont
les centres et carts-types sont fixs, par exemple), les mthodes dcrites dans le chapitre 1, section
Conception de modles linaires , sont directement applicables. La qualit du rsultat dpend essen-
tiellement du choix des centres et les carts-types des fonctions non linaires mises en uvre ; ce choix
doit tre effectu par des techniques de slection de modle analogues celles qui sont dcrites dans la
section Slection de modles du chapitre 1.
Si, en revanche, on met en uvre des modles non linaires en leurs paramtres, tels que des Percep-
trons multicouche ou des rseaux de RBF centres et carts-types variables, on doit rsoudre un
problme doptimisation non linaire multivariable. Les mthodes utilises cet effet seront exposes
en dtail dans la section Estimation des paramtres (apprentissage) dun rseau de neurones non
boucl . Il sagit de techniques itratives qui, partir dun rseau muni de paramtres dont les valeurs
sont alatoires, modifient ceux-ci jusqu ce quun minimum de la fonction de cot empirique soit
atteint, ou quun critre darrt soit satisfait.
Dans ce dernier cas, les techniques doptimisation sont des mthodes de gradient : elles sont fondes sur
le calcul, chaque itration, du gradient de la fonction de cot par rapport aux paramtres du modle,
gradient qui est ensuite utilis pour calculer une modification des paramtres. Le calcul du gradient peut
tre effectu de diverses manires : il en est une, appele rtropropagation (voir la section valuation
Lapprentissage statistique
92

du gradient de la fonction de cot ), qui est gnralement plus conome que les autres en termes de
nombres doprations arithmtiques effectuer pour valuer le gradient. Contrairement une ide trop
rpandue, la rtropropagation nest pas un algorithme dapprentissage : cest simplement une technique
dvaluation du gradient de la fonction de cot, qui est frquemment, mais pas obligatoirement, utilise
au sein dalgorithmes dapprentissage. Il faut noter que, contrairement bien des affirmations, ce nest pas
linvention de la rtropropagation qui a permis lapprentissage des rseaux de neurones couches ; en
effet, les spcialistes de traitement du signal connaissaient, bien avant la rtropropagation, des mthodes
dvaluation du gradient dune fonction de cot des moindres carrs, mthodes qui auraient pu tre mises
en uvre pour effectuer lapprentissage de rseaux [MARCOS 1992].
Ces algorithmes dapprentissage ont fait dnormes progrs au cours des dernires annes. Alors que, au
dbut des annes 1990, les publications faisaient tat de dizaines ou de centaines de milliers ditrations,
reprsentant des journes de calcul sur des ordinateurs puissants, les nombres ditrations typiques
lheure actuelle sont de lordre de quelques dizaines quelques centaines. La figure 2-12 montre le drou-
lement de lapprentissage dun modle une variable.
2 2
1,5 5 itrations 1,5 10 itrations

1
0,5 0,5
0
-0,5 -0,5
-1
-1,5 -1,5
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2

2 2
1,5 30 itrations 1,5 50 itrations

1 1
0,5 0,5
0 0
-0,5 -0,5
-1 -1
-1,5 -1,5
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2
Figure 2-12. Apprentissage dun rseau de neurones une variable et 3 neurones cachs. Le trait continu reprsente
la prdiction du modle aprs 5, 10, 30 et 50 itrations de lalgorithme dapprentissage (reproduit avec lautorisation de
Netral S.A.).
Les rseaux de neurones
93
CHAPITRE 2

Les croix reprsentent les mesures de lensemble dapprentissage. Initialement, on donne aux paramtres
du rseau des valeurs petites (voir la section Initialisation des paramtres ). Le rsultat obtenu au
bout de 50 itrations est satisfaisant visuellement ; quantitativement, lEQMA et lEQMT (cette
dernire tant calcule sur un ensemble de points non reprsents sur la figure) sont du mme ordre de
grandeur, et de lordre de lcart-type du bruit, de sorte que le modle est satisfaisant.

Conclusion
Dans ce paragraphe, on a expliqu quand et comment utiliser les rseaux de neurones pour la modlisa-
tion. Rappelons que lutilisation des rseaux de neurones peut tre avantageuse chaque fois que lon
cherche tablir une relation non linaire entre des donnes numriques. Les rseaux de neurones entrent
dans le cadre gnral des mthodes statistiques dapprentissage dcrites dans le chapitre 1. Une vue gn-
rale de la mise en uvre de ces mthodes a t prsente, en insistant sur les conditions qui doivent tre
remplies pour quun rseau de neurones donne des rsultats satisfaisants. Les techniques dapprentissage,
de slection de variables et de slection de modle proprement dites, dont lefficacit conditionne en
grande partie les performances des rseaux, seront abordes en dtail dans la section Techniques et
mthodologie de conception de modles statiques .

Rseaux de neurones apprentissage supervis


et discrimination (classification)
Les premires recherches sur les rseaux de neurones taient motives par lambition dimiter certaines
fonctions des systmes nerveux vivants, notamment pour la reconnaissance des formes. Cest pourquoi
les premires applications des rseaux de neurones portrent sur la classification pour la reconnaissance
de formes ou de signaux. Ce nest que plus tard que lon comprit que les rseaux de neurones sont avant
tout des approximateurs de fonctions. Nanmoins, comme cela a t montr dans le chapitre 1, la mod-
lisation et la classification sont trs fortement lies, en dpit des diffrences apparentes. Cest pourquoi la
prsente section est consacre la discussion de ce quest un problme de classification. Le lecteur en
trouvera une prsentation plus dtaille dans le chapitre 6 de cet ouvrage.
On utilisera ici indiffremment le terme de classification ou celui de discrimination .

Quand est-il opportun dutiliser un classifieur statistique ?


Rappelons que les ingrdients dun problme de classification sont :
une population de N objets ;
n variables descriptives (ou descripteurs), valeurs relles ou binaires, qui permettent de dcrire les
objets, lensemble des descripteurs constituant la reprsentation des objets ;
un ensemble de C classes dans lesquelles on cherche ranger les objets (une des classes peut tre une
classe de rejet laquelle appartiennent tous les objets que lon ne peut attribuer aucune autre classe).
Rsoudre un problme de classification, cest trouver une application de lensemble des objets classer
dans lensemble des classes. Lalgorithme ou la procdure qui ralise cette application est appel classi-
fieur.
Lorsque lon se pose un problme de classification, il faut dabord analyser le type de mthode quil
convient de mettre en uvre pour le rsoudre. En effet, les classifieurs statistiques ne sont pas forcment
adapts au problme, et il y a bien dautres mthodes de classification. Afin de dlimiter le domaine
Lapprentissage statistique
94

dutilisation des classifieurs statistiques, considrons quelques exemples plus ou moins acadmiques, qui
illustrent plusieurs aspects de cette tche. Pour chacun des exemples, on se posera trois questions :
les connaissances a priori sur le problme permettent-elles de dterminer simplement des descripteurs
pertinents ?
ces descripteurs sont-ils mesurables (ou calculables partir de mesures) ?
quel est le rle de la classe de rejet ?
Les exemples suivants sont extraits de [STOPPIGLIA 1997].
Chacun a eu loccasion dutiliser un distributeur de tickets de mtro, ou un automate de page, qui recon-
nat les pices de monnaie utilises en paiement, et rejette les pices fausses ou trangres. Considrons
ce problme sous langle des trois questions ci-dessus :
il est facile de dterminer des descripteurs pertinents : le diamtre de la pice, son poids, son paisseur,
la composition de lalliage, etc. ; ces descripteurs sont en petit nombre (les nouvelles pices de monnaie
sont conues de manire en faciliter la discrimination) ;
les descripteurs sont des grandeurs physiques mesurables ;
la classe de rejet peut tre aussi grande que lon veut : elle nest limite que par la patience des usagers
qui naiment pas voir leurs pices rejetes sans raison ; ainsi, dans lespace des descripteurs, les classes
sont de petits paralllpipdes dlimits par les seuils de tolrance qui tiennent compte de la varia-
bilit de la fabrication et des erreurs de mesure ; tout le reste de lespace constitue la classe de rejet.
Dans ces conditions, il est facile de concevoir un automate qui met en uvre des rgles simples portant
sur les descripteurs des pices classer. Ces rgles rsultent dune analyse du problme, effectue par les
concepteurs de la machine, qui conduit un arbre de dcision implant dans lautomate. Dans un tel cas,
lutilisation dune mthode statistique de classification nest pas approprie.
Considrons prsent lvaluation du confort dune voiture. Pour prvoir les ractions des clients poten-
tiels la mise sur le march dun nouveau modle, les constructeurs automobiles ont recours des
panels dindividus, supposs reprsentatifs de la clientle, qui doivent mettre un jugement sur le
confort. Mais quest-ce que le confort ? Cest une notion complexe dans laquelle interviennent la qualit
de la suspension, la conception des siges, linsonorisation du vhicule, la visibilit, etc. Exprimer un
jugement (classer le confort du vhicule dans lune des trois classes bon , moyen , insuffisant )
est alors un processus impossible formaliser, fond sur des impressions plus que sur des mesures. Ce
problme a donc les caractristiques suivantes :
les descripteurs ne sont pas forcment tous connus et exprims clairement par les membres des panels ;
mme si les descripteurs sont bien dfinis, les jugements sont trs variables : deux personnes places
dans les mmes conditions peuvent mettre des jugements diffrents ;
les descripteurs ne sont pas ncessairement mesurables ;
il ny a pas de classe de rejet : un consommateur a forcment une opinion sur le confort de sa voiture.
Le fait que les descripteurs ne soient pas connus et pas ncessairement mesurables empche (ou rend trs
difficile) lutilisation dune mthode de classification statistique. Dans ce contexte, une mthode de clas-
sification floue serait mieux adapte.
La reconnaissance automatique des chiffres manuscrits, par exemple celle des codes postaux, a fait lobjet
de nombreuses tudes et ralisations. Considrons ce problme sous les mmes angles que les deux exem-
ples prcdents :
contrairement au cas du tri des pices de monnaie, la variabilit des styles dcriture pose un problme
majeur pour le choix des descripteurs ; nanmoins, contrairement au cas de lvaluation du confort, les
personnes qui savent lire identifient gnralement de la mme manire une image de chiffre donne
(sauf si le chiffre est vraiment mal crit) ;
Les rseaux de neurones
95
CHAPITRE 2

les descripteurs sont des nombres que lon peut extraire de limage : dans le cas dune description de
bas niveau , cest lintensit des pixels ; dans le cas dune description de haut niveau , cest le
nombre de boucles, de pointes, leur position, lorientation et la position des segments, etc. ;
la taille de la classe de rejet constitue un critre de performance : pour un taux derreur donn, le pour-
centage de rejet doit tre aussi faible que possible. En effet, tout objet postal rejet ncessite linterven-
tion dun prpos, et il est plus coteux denvoyer une lettre dans une mauvaise direction que davoir
recours une intervention humaine pour lire le code postal. Le cahier des charges est donc exprim de
la manire suivante : pour un taux derreur donn (par exemple 1 %), on veut un taux de rejet aussi
faible que possible. En effet, il serait facile de concevoir un classifieur qui ne se trompe jamais : il suffi-
rait quil ne prenne jamais de dcision. Compte tenu des donnes conomiques du problme, un bon
classifieur est un classifieur qui prend une dcision le plus souvent possible, tout en ne se trompant pas
plus dune fois sur cent. Si les conditions conomiques taient inverses, cest--dire si une erreur
cotait moins cher que lintervention dun expert, le critre de qualit serait diffrent : on chercherait
obtenir le taux derreur le plus petit possible pour un taux de rejet donn (cest le cas pour les diagnos-
tics mdicaux automatiss lchelle de toute une population, o lintervention dun mdecin cote
plus cher quune erreur de diagnostic de type faux positif ).
Dans ces conditions, la mise en uvre dune mthode statistique telle que les rseaux de neurone est
opportune, sous rserve que lon dispose dune base de donnes convenable. Le problme central est celui
du choix de la reprsentation des donnes. Cest dailleurs le cas dans la majorit des problmes de clas-
sification non acadmiques : la rflexion du concepteur, et la mise en uvre de techniques de prtraite-
ment des donnes adaptes au problme (des exemples sont dcrits dans le chapitre 3), sont bien souvent
plus importantes que lalgorithme de classification lui-mme.

Classification statistique et formule de Bayes


Supposons donc quune analyse pralable du problme ait conduit au choix de la mise en uvre dune
mthode statistique de classification, de prfrence un arbre de dcision, par exemple. On entre alors
dans le cadre de la classification statistique, tel quil a t dcrit succinctement dans le chapitre 1. Rappe-
lons notamment la formule de Bayes, qui permet le calcul de la probabilit pour que lobjet dcrit par le
vecteur de descripteurs x appartienne la classe Ci :

pX ( x Ci ) PrCi
Pr ( Ci x ) =
( x C ) Pr
c

p X j Cj
j =1

o Pr ( Ci x ) dsigne la probabilit a posteriori de la classe Ci sachant que lon observe lobjet dcrit par
le vecteur x, pX ( x Ci ) dsigne la vraisemblance du vecteur de descripteurs x sachant que lobjet dcrit par
x appartient la classe Ci, et o PrC dsigne la probabilit a priori de la classe Ci. Le classifieur de Bayes
i
consiste en lestimation de la probabilit a posteriori dun objet dcrit par x laide de la formule de
Bayes, suivie dune prise de dcision selon la rgle de dcision de Bayes : attribuer lobjet la classe dont
la probabilit a posteriori est la plus grande. Ce classifieur est le meilleur possible si toutes les erreurs ont
le mme cot. Son utilisation ncessite nanmoins de connatre aussi prcisment que possible les proba-
bilits a priori et les vraisemblances ; ces dernires sont particulirement difficiles estimer lorsque le
vecteur x est de grande dimension, ce qui est frquent dans des applications relles. Le classifieur de
Bayes prsente donc un intrt plus thorique que pratique. Il peut nanmoins servir de rfrence lorsque
lon cherche valuer la qualit dun classifieur : on peut appliquer celui-ci un problme fictif pour
lequel les probabilits a priori et les vraisemblances sont connues exactement, et comparer ses perfor-
Lapprentissage statistique
96

mances celles du classifieur de Bayes sur ce mme problme. Introduisons ici le problme fictif laide
duquel on testera quelques classifieurs.
Il sagit dun problme deux classes et
une variable ; les lments de la classe A sont des Classe A Classe B
ralisations de nombres alatoires obissant une
loi qui est la somme de deux gaussiennes ; ceux de -15 -10 -5 0 +5 +10
la classe B sont des ralisations de nombres ala- Figure 2-13. Densits de probabilit pour les classes A
toires obissant une loi uniforme dans un inter- et B
valle born (figure 2-13).
On peut donc calculer analytiquement les probabi-
1
lits a posteriori (figure 2-14), et dterminer les
limites de chaque classe (figure 2-15). Pour estimer 0,5
le taux derreur, on ralise un grand nombre
dexemples de chaque classe et lon compte la 0
proportion de ces ralisations qui se trouve du -15 -10 -5 0 +5
mauvais ct des limites dtermines par le Figure 2-14. Probabilit a posteriori de la classe A,
classifieur de Bayes ; dans ce problme, on dispose calcule par la formule de Bayes
de 600 exemples pour chaque classe (figure 2-16)
partir desquels, par simple dnombrement, on estime le taux derreur 30,1 %. Ainsi, on peut affirmer
que, pour ce problme, aucun classifieur, aussi bien conu soit-il, ne peut raliser une performance
meilleure que 69,9 % de classification correcte ; le meilleur classifieur rel est celui qui sapproche le plus
de cette limite thorique.

A B A B A 600 exemples

-15 -10 -5 0 +5
0 Rpartition des 1200 exemples
Figure 2-15. Classification ralise par le classifieur
de Bayes
600 exemples

-15 -10 -5 0 5 10

Figure 2-16. Exemples utiliss pour lestimation du taux


derreur. En haut : classe A ; en bas : classe B

Classification et rgression
Le lien entre classification et estimation de la fonction de rgression stablit de manire trs simple dans
le cas dun problme deux classes. On montrera ensuite comment on peut traiter les problmes plus de
deux classes.

Problme deux classes


Considrons tout dabord un problme deux classes C1 et C2. On a dfini, dans le chapitre 1, la fonction
1 + sgn g ( x, w )
indicatrice ( x, w ) = qui vaut +1 lorsque lobjet classer appartient la classe A, et 1
2
dans le cas contraire. Pour un objet dcrit par le vecteur de descripteurs x, la valeur de la fonction indica-
trice peut tre modlise comme une ralisation dune variable alatoire binaire (x).
Les rseaux de neurones
97
CHAPITRE 2

Proprit

La fonction de rgression de la variable alatoire (x) est la probabilit a posteriori dappartenance de


lobjet la classe A.

Dmonstration
La fonction de rgression de (x) est lesprance mathmatique de tant donn x, note E x . Or,

E x = Pr ( = 1 x ) 1+ Pr ( = 0 x ) 0 = Pr ( = 1 x )

ce qui dmontre le rsultat.

Le problme de lestimation de la probabilit a posteriori des classes ramne donc au problme de lesti-
mation de la fonction de rgression dune variable alatoire, ce qui peut tre ralis avec nimporte quelle
famille de fonctions bornes (les probabilits doivent tre comprises entre 0 et 1), notamment avec des
rseaux de neurones dont le neurone de sortie a une fonction dactivation sigmode, par exemple une
tangente hyperbolique. Cette dernire tant comprise entre 1 et +1, lestimation de la probabilit est
obtenue par 1 + g ( x, w ) 2 , o g(x, w) est la prdiction du modle. On peut aussi utiliser une fonction
sigmode du type 1 : variant entre 0 et 1, elle peut directement approcher une probabilit. La
1 + exp ( v )
figure 2-17 illustre cette approche : on effectue lapprentissage partir dun ensemble de couples
(xk, ykp), o xk est la valeur du descripteur x pour lexemple k, et ykp = +1 ou 1 selon que lexemple k
appartient la classe C1 ou la classe C2 (la figure prsente les rsultats aprs transformation ramenant
lestimation entre 0 et +1). Aprs estimation de la probabilit a posteriori, la frontire est dfinie comme
le lieu des points pour lesquels les probabilits a posteriori sont gales 0,5 (rgle de dcision de Bayes).

Estimation de la probabilit
Classe C1
a posteriori de la classe C1
0 Classe C2 sachant que lon observe le descripteur x1

1
Figure 2-17. Estimation
Frontire entre de la probabilit a posteriori
Pr (C1 | x)

les classes dappartenance la classe C1,


0,5 et dtermination du seuil
de dcision par la rgle
de Bayes

00 0 0 0000000000000000
x1 x
La complexit de la frontire entre les classes dpend de la complexit du modle choisi. Le modle le plus
simple est le modle sans neurone cach, avec un neurone de sortie fonction sigmode. Il dfinit une surface
de sparation qui est une droite pour un problme deux variables, un plan pour un problme trois variables,
et une surface appele hyperplan dans les autres cas. Considrons en effet un classifieur un neurone :

g ( x, w ) = th ( v ) avec v = w x .
Aprs apprentissage, et aprs la transformation mentionne ci-dessus pour que la prdiction du modle
puisse constituer une estimation dune probabilit, cette dernire devient :
Lapprentissage statistique
98

1 + th ( w x )
.
2
La frontire est le lieu des points o les
probabilits a posteriori sont gales 1
0,5, donc le lieu des points pour

g(x1,x2,w0,w1,w2)
lesquels th(wx) = 0, soit encore : 0,8 Frontire entre les classes:

w x = 0, 0,6 ( ) ( )
Pr C1 x = Pr C2 x = 0,5

ce qui est bien lquation dun plan de 0,4


vecteur normal w. Ainsi, la figure 2-18 0,2
montre lestimation de probabilit
0
dappartenance la classe des 3
cercles dans lexemple prsent
dans le chapitre 1, section Un x2
0
3
exemple de classification ; len- 0
semble dapprentissage est reprsent -3 x1
-3
sur la figure 1-5. Pour tout point (x1, Figure 2-18. Estimation de probabilit a posteriori par un classifieur
x2), le modle fournit une estimation un neurone (classifieur linaire)
de la probabilit a posteriori dappar-
tenance la classe des cercles ; la frontire entre les classes est la droite correspondant g(x, w) = 0,5. Sa
projection dans le plan des variables est reprsente sur la figure 1-8.
Rappelons que, dans ce cas (deux distributions gaussiennes isotropes de mme variance), la frontire
linaire est la frontire idale fournie par le classifieur de Bayes. Sil est ncessaire dobtenir des fron-
tires plus complexes, on peut :
soit mettre en uvre des neurones cachs ;
soit conserver un classifieur de la forme g(x, w) = th(v), mais rendre v plus complexe, par exemple en
postulant une forme polynomiale au lieu dune forme linaire (neurone dordre suprieur ).
La figure 2-19 montre lensemble dapprentissage pour un problme de classification o la solution optimale
nest pas une frontire linaire ; elle prsente galement la solution ce problme, fournie par un rseau
2 neurones cachs.
4

2 1

1 0,8
Frontire entre les classes:
0
( ) ( )
g(x, w)

0,6 Pr C1 x = Pr C2 x = 0,5
-1
x2

0,4
-2
0,2
-3
0
-4
4 5
2
-5 0
-2 0
-6 x2 -4 x1
-5 0 5 -6 -5
x1
Figure 2-19. Classification non linaire par un rseau de neurones deux neurones cachs et un neurone de sortie
activation sigmode
Les rseaux de neurones
99
CHAPITRE 2

Lexcellent ouvrage [BISHOP 1995] est entirement consacr la mise en uvre de rseaux de neurones
pour la classification. Le chapitre 6 du prsent ouvrage prsente en dtail les rseaux de neurones
(binaires ou non) ainsi que les machines vecteurs supports pour la classification.

Problme C classes
Lorsque le problme de classification est un problme plus de deux classes, plusieurs approches sont
possibles :
rsoudre globalement le problme en estimant simultanment, pour un objet donn, ses probabilits
dappartenance aux diffrentes classes ;
diviser le problme en sous-problmes deux classes, concevoir un ensemble de classifieurs deux
deux et combiner les rsultats de ces derniers pour estimer les probabilits a posteriori globales.
Ces deux approches vont tre examines successivement.
Approche globale
Cette approche est frquemment mise en uvre, bien
C neurones quelle ne soit pas toujours la plus efficace pour des
..... fonction dactivation problmes difficiles. Elle consiste utiliser un rseau
sigmode
de neurones C sorties (figure 2-20), le rsultat tant
.... cod laide dun code 1-parmi-C : lvnement
lobjet appartient la classe Ci est associ un
vecteur g dont seule la composante i est gale 1, les
x1 x2 x3 .... xn Descripteurs autres composantes tant gales 0. De manire
analogue au cas de deux classes, on dmontre facile-
Figure 2-20. Classification non linaire C classes : ment que lesprance mathmatique de chacune des
Perceptron multicouche C neurones de sortie
fonction dactivation sigmode composantes est gale la probabilit a posteriori de la
classe correspondante.
Terminologie
Dans le jargon des rseaux de neurones, un codage un-parmi-C est appel codage grand-mre . Cette appellation provient de la
neurobiologie : lune des thories de la reprsentation des informations dans les systmes nerveux soutient que certains de nos neurones
sont spcialiss dans la reconnaissance de formes usuelles, notamment du visage de notre grand-mre.

Il convient de noter plusieurs diffrences pratiques entre un Perceptron multicouche pour la classification
et un Perceptron multicouche pour la modlisation statique :
contrairement au cas de la modlisation, les neurones de sortie dun rseau pour la classification ont une
fonction dactivation sigmode, pour assurer que lestimation de la probabilit soit comprise entre 0 et
1 ; on trouvera, dans le chapitre 6, une justification thorique lutilisation de la tangente hyperbolique
comme fonction dactivation des neurones de sortie pour la classification ;
pour la classification, il est parfois plus efficace, pour estimer les probabilits, de minimiser la fonction
de cot dentropie croise plutt que la fonction de cot des moindres carrs [HOPFIELD 1987] [BAUM
1988] [HAMPSHIRE 1990] ; les algorithmes dapprentissage qui seront prsents dans la section
Estimation des paramtres (apprentissage) dun rseau de neurones non boucl sappliquent sans
difficult pour cette fonction de cot :
C
g ( x , w) 1 gi ( xk , w )
J = ik ln i kk (
+ 1 i ln
k
)
i 1 i
k
k i =1
o ik est la valeur (0 ou 1) de la variable indicatrice pour la sortie i lorsque lon prsente lentre
lexemple k, dcrit par le vecteur de descripteurs xk, et o gi(xk,w) est la valeur de la sortie i du classifieur
Lapprentissage statistique
100

pour cet exemple. On vrifie facilement que cette fonction est minimale lorsque tous les exemples sont
correctement classs.
Bien entendu, il convient de vrifier que la somme des sorties vaut 1 la fin de lapprentissage. La
mthode Softmax permet de garantir que cette condition est automatiquement remplie [BRIDLE 1990].
Cette difficult ne se prsente videmment pas si lon utilise un ensemble de classifieurs deux deux .
Comme indiqu dans le Classification : Thorique Estime avec 4 neurones cachs
chapitre 1, le dilemme 1
biais-variance existe pour
la classification comme
pour la rgression. Des 0,5
exemples de surajustement
en classification ont t
prsents dans le chapitre 0
1, figure 1-6. Il faut donc -15 -10 -5 0 5 10
mettre en uvre, pour (a)
slectionner le meilleur
modle, les techniques de
slection de modles intro- Classification : Thorique Estime avec 5 neurones cachs
duites dans le chapitre 1. 1
Essentiellement, il faut
trouver un rseau dont les
taux derreurs de classifi- 0,5
cation sur lensemble
dapprentissage et sur un
ensemble de validation 0
soient du mme ordre de -15 -10 -5 0 5 10
grandeur, et les plus petits (b)
possibles.
La figure 2-21 montre un
Classification : Thorique Estime avec 6 neurones cachs
exemple de surajustement 1
dans lestimation de la
probabilit dappartenance
la classe A pour lexem- 0,5
ple prsent sur la figure
2-16 ; on voit que le rseau
4 neurones cachs est trop 0
peu complexe pour estimer -15 -10 -5 0 5 10
correctement la probabi- (c)
lit, alors quun rseau Figure 2-21. Estimation des probabilits dappartenance la classe A avec trois
6 neurones cachs sajuste classifieurs de complexits diffrentes : (a) 4 neurones cachs (complexit insuffisante),
sur les fluctuations de la (b) 5 neurones cachs (performance trs proche de la meilleure performance thorique),
(c) 6 neurones cachs (surajustement manifeste)
densit des points utiliss
pour lapprentissage. Le
taux de classification incorrecte, estim sur un ensemble de validation de plusieurs millions de points, est
de 30,3 %, alors que le classifieur thorique de Bayes donne une erreur minimale de 30,1 %. On vrifie
bien ici que les rseaux de neurones peuvent approcher les meilleures performances possibles, celles du
classifieur thorique de Bayes.
Les rseaux de neurones
101
CHAPITRE 2

Classification 2 2
Il est souvent beaucoup plus sr, pour des problmes difficiles, de traiter une classification C classes
comme C(C-1)/2 problmes de classification 2 classes, pour les raisons suivantes :
on peut bnficier de nombreux rsultats et algorithmes, notamment concernant la sparation linaire
entre classes. Ces lments sont largement dvelopps dans le chapitre 6 ; ils seront introduits trs bri-
vement dans le paragraphe suivant, intitul Sparabilit linaire ;
on obtient des rseaux beaucoup plus petits, dont lapprentissage est court et la manipulation simple ;
chacun deux ayant une seule sortie, son interprtation comme une probabilit est immdiate ;
les descripteurs pertinents pour sparer la classe A de la classe B ne sont pas ncessairement les mmes
que ceux utiles pour discriminer la classe A de la classe C. En reconnaissance de formes notamment, le
fait de ne pas utiliser tous les descripteurs, mais seulement ceux qui sont utiles, constitue un avantage
considrable ; les techniques de slection des variables exposes dans le chapitre 1 sont directement
utilisables.
Une fois que les C(C-1)/2 probabilits des classes deux deux ont t estimes, ventuellement par de
simples rseaux sans couche cache, la probabilit pour quun objet dcrit par le vecteur de descripteurs
x appartienne la classe Ci est calcule par la relation [PRICE 1994] :

Pr ( Ci x ) =
1
C
1
Pr (C 2 )
j =1 ij
j i

o C est le nombre de classes et Prij la probabilit dappartenance de lobjet la classe i, estime par le
rseau de neurones qui spare la classe Ci de la classe Cj.
Sparabilit linaire
Deux ensembles dobjets dcrits dans un espace de N descripteurs, appartenant deux classes diffrentes,
sont dits linairement sparables sils peuvent tre spars sans erreurs par un hyperplan dans lespace
des variables.
Si des exemples sont linairement sparables, un rseau de neurones un seul neurone (galement appel
Perceptron ), fonction dactivation en chelon, peut les sparer. Ce classifieur est de la forme :
+1 si x w 0
g ( x, w ) =
1 si x w < 0

On peut donc considrer un Perceptron comme la limite dun rseau un seul neurone, lorsque la pente
lorigine de la tangente hyperbolique tend vers linfini. La frontire est lhyperplan dquation xw = 0.
Lorsque lon dcoupe le problme en sous-problmes de sparation de classes deux deux, il apparat que
la sparation linaire entre deux classes prsente trs souvent une complexit suffisante ; il est mme
frquent que, dans des problmes multiclasses rputs difficiles , les exemples soient, en fait, linaire-
ment sparables si lon considre les classes deux deux. Or, dans ce dernier cas, des algorithmes simples
et lgants permettent de trouver une trs bonne solution, comme expliqu en dtail dans le chapitre 6 : la
premire tape, dans la conception dun classifieur, est donc de chercher savoir si les exemples des
classes sont sparables deux deux. Lalgorithme de Ho et Kashyap [HO 1965], largement antrieur aux
rseaux de neurones, fournit rapidement une rponse cette question :
si les exemples sont linairement sparables, lalgorithme converge en un nombre fini ditrations vers
une solution ;
Lapprentissage statistique
102

si les exemples ne sont pas linairement sparables, lalgorithme lindique galement aprs un nombre
fini ditrations.
Par exemple, pour la base de donnes de codes postaux fournie par le National Institute of Standards and
Technology, qui a servi de support de trs nombreux travaux, les classes de chiffres sont linairement
sparables deux deux, mme si lon utilise une reprsentation par pixels [KNERR 1992] ! De mme, il
existe une base de donnes, relative des signaux sonar, qui a fait lobjet de trs nombreuses tudes et a
donn lieu la conception de nombreux classifieurs fort compliqus ; en quelques secondes de calcul,
lalgorithme de Ho et Kashyap montre que les exemples des deux classes sont linairement sparables. Il
est donc tout fait inutile, pour cette application, de concevoir un classifieur plus complexe quun rseau
un neurone ; cette application sera reprise dans le chapitre 6.

Mthodologie de conception dun classifieur


Ces considrations conduisent dfinir la stratgie suivante pour la conception dun classifieur utilisant
des rseaux de neurones (il faut donc pralablement sassurer que le problme pos relve bien dun trai-
tement statistique) :
laborer une reprsentation bien discriminante des objets classer, notamment dans des applications de
reconnaissance de formes (on utilisera avec profit, si ncessaire, les techniques dcrites dans le chapitre 3).
Cette tape est dune extrme importance et conditionne toute la suite, car une reprsentation bien
discriminante peut rendre le problme de classification trivial (ce point est illustr dans les applications
dcrites dans la section Exemples dapplications ) ;
Attention
Si le nombre dexemples nest pas grand devant la dimension du vecteur dentre dans la reprsentation choisie, il est inutile daller plus
loin, en vertu du thorme de Cover [COVER 1965], prsent dans le chapitre 6 : il faut chercher une reprsentation plus compacte ou
bien collecter dautres exemples avant de passer aux tapes suivantes, ou encore, lors de lapprentissage, adopter une mthode de rgu-
larisation svre telle que la modration des poids (weight decay, dcrite dans la section Rgularisation par modration des poids ).

pour chaque paire de classes, effectuer la slection des variables selon les mthodes dcrites dans le
chapitre 1 ; en effet, il nest pas du tout certain que les mmes descripteurs soient utiles pour sparer les
classes A et B et pour sparer les classes A et C ;
pour chaque paire de classes, tester la sparabilit linaire des exemples des classes deux deux laide
de lalgorithme de Ho et Kashyap ;
pour toutes les classes dont les exemples sont sparables deux deux, mettre en uvre les mthodes de
sparation linaire (dcrites dans le chapitre 6), et obtenir une estimation des probabilits a posteriori ;
pour les classes non linairement sparables, mettre en uvre de petits Perceptrons multicouches ou des
Perceptrons sphriques dcrits dans le chapitre 6, avec estimation des probabilits ; mettre en uvre des
mthodes de validation croise ou de leave-one-out (voir chapitres 1 et 2) pour la slection de modles ;
estimer la probabilit dappartenance chaque classe partir des probabilits dtermines ltape
prcdente, selon la formule indique plus haut dans la section Classification 2 2 ;
fixer les seuils de dcision pour dfinir les classes de rejet.
Cette stratgie constitue une variante de la procdure STEPNET [KNERR 1990] [KNERR 1991], utilise
efficacement dans plusieurs applications industrielles.
Dans la planification dun tel projet, il ne faut pas sous-estimer le temps ncessaire pour la premire et
pour la dernire tape : dans les applications relles non triviales, ce sont frquemment les deux tapes les
plus longues. La dernire dentre elles est susceptible de remettre en cause les rsultats obtenus lors des
tapes prcdentes.
Les rseaux de neurones
103
CHAPITRE 2

Lapplication de cette stratgie est videmment limite par le fait que le nombre de classifieurs varie
comme le carr du nombre de classes. Nanmoins, chacun des classifieurs est trs simple, de sorte que
cette dmarche sapplique sans difficult jusqu quelques dizaines de classes, ce qui couvre limmense
majorit des applications. Si le nombre de classes est plus lev, il faut avoir recours des stratgies
hirarchiques.

Rappelons que le chapitre 6 est entirement consacr la classification. Il prsente notamment les
machines vecteurs supports, qui sont des outils de classification trs puissants, notamment par le fait
quils permettent de contrler la complexit du modle.

Modlisation et classification de donnes structures :


les graph machines
Toutes les mthodes exposes, dans ce chapitre et dans le prcdent, ont pour objectif de traiter des
donnes qui sont sous la forme dun vecteur de variables x. Ainsi, une image ou un texte doivent dabord
tre transforms en un vecteur de variables susceptibles de dcrire, de manire pertinente, les donnes que
lon doit traiter. Nanmoins, celles-ci ont souvent naturellement une structure en graphes : une scne peut
tre dcrite par les relations entre les objets qui la composent, une phrase par les relations entre ses mots,
une molcule par les liaisons entre ses atomes ou ses groupements fonctionnels, etc. De telles donnes
sont dites structures. La transformation de ces donnes en vecteurs fait frquemment perdre leur struc-
ture, qui peut pourtant tre dterminante pour la prdiction ou la classification que lon cherche effec-
tuer. Il est donc utile de concevoir des mthodes qui permettent de modliser des relations entre graphes
et nombres, plutt que des relations entre vecteurs et nombres. Lensemble dapprentissage nest plus
compos de paires {xk, ykp }, mais de paires {Gk, ykp}, o Gk dsigne le graphe k de lensemble
dapprentissage ; lobjectif de la modlisation est de prdire la valeur de la grandeur yp tant donn un
graphe G qui ne fait pas partie de lensemble dapprentissage.

Lide de lapprentissage partir de donnes structures remonte au dbut des annes 1990, o les
mmoires auto-associatives rcursives ont t conues afin de fournir un codage compact pour une
catgorie particulire de graphes appels arbres [POLLAK 1990]. Une synthse sur le dveloppement
de lapprentissage numrique partir de donnes structures est prsente dans [GOULON 2005].

Le principe des graph machines est simple : au lieu de construire une fonction g(x, w) qui est la mme
pour tous les exemples, on construit, pour chaque graphe, une fonction (ou machine dans le jargon de
lapprentissage) par combinaison de fonctions lmentaires, cette combinaison ayant la structure du
graphe. Les fonctions lmentaires qui constituent les machines sont identiques, mais cest la faon de les
combiner qui change dun exemple lautre : cest elle qui reflte la structure du graphe auquel on veut
associer la grandeur que lon cherche prdire.

Ainsi, au lieu de concevoir une seule machine qui ralise la prdiction pour tous les exemples, on construit
autant de machines que dexemples ; toutes ces machines ont des structures diffrentes, qui refltent la
structure des donnes que lon veut traiter, mais elles sont constitues des mmes fonctions munies des
mmes paramtres. Les sections suivantes prsentent cette approche de manire un peu plus dtaille.
Lapprentissage statistique
104

Dfinitions
Graphes acycliques
Rappelons quun graphe est dfini par un ensemble de nuds et un ensemble dartes entre ces nuds, les
artes pouvant tre orientes. Sil nest pas possible de trouver un chemin dans le graphe, respectant
lorientation des artes, dont le point de dpart et le point darrive sont identiques, le graphe est dit
acyclique.
La figure 2-22 reprsente un ensemble de trois graphes ; les machines correspondantes sont obtenues en
remplaant chaque nud par une fonction paramtre f(z, w), o w est le vecteur des paramtres. La fonc-
tion du nud qui effectue le dernier calcul (nud racine ) peut tre diffrente des autres ; elle est note
F(z, W). Pour chaque graphe acyclique Gi, on construit une fonction gi ( graph machine ) qui est une
combinaison de fonctions paramtres ( fonctions de nuds ) identiques. Ces fonctions de nuds
peuvent tre, par exemple, des rseaux de neurones ; les fonctions gi sont parfois appeles rseaux
rcursifs [FRASCONI 1998].
Graphe G1: g w, W ( x 1, x 2, x 3, x 4 ) = F W ( x 4, f ( z 1, w ), f ( z 2, w ), f ( z 3, w ), W ) o :
1

x1, x2, x3, sont des vecteurs de variables, de dimension X1, qui fournissent une information sur les
nuds ; ces variables ne sont pas obligatoires, mais elles peuvent tre utiles pour fournir une informa-
tion spcifique aux nuds (un exemple en est prsent dans la section Aide la dcouverte de
mdicaments ). Si ces informations ne sont pas utiles, on a X1= 0, et, dans ce cas, la valeur de
gw1 ,W ( x1 , x2 , x3 , x4 ) ne dpend que du graphe et des paramtres des fonctions de nud ;
z1, z2, z3 sont des vecteurs de dimension D1 + 1 ; soit dk le degr du nud k, cest--dire le nombre
dartes adjacentes ce nud, et M1 = maxkdk . On a : D1 = M1 + X1 ; dans cet exemple M1 = 3, donc
D1 = 3. Ces vecteurs sont construits de la manire suivante :
pour tous les nuds, la premire composante z0 est gale 1 ;
pour le nud k, de degr dk, les composantes 2 dk + 1 de zk sont les valeurs de fw calcules
par les nuds parents du nud k, cest--dire les nuds j tels quil existe dans le graphe une
arte oriente de j vers k ; si dk < Mk, les composantes dk + 2 M1 + 1 sont gales zro ; si
X1 = 0, les composantes M1 + 2 M1 + 1 + X1 sont les composantes de xk.

7 7
9
4
10 8
6
5 4
6
1 3 5
1 2 3 3

1
Graphe G1
2 2 4
Graphe G2 Graphe G3
Figure 2-22. Trois graphes acycliques orients
Les rseaux de neurones
105
CHAPITRE 2

Dans lexemple reprsent sur la figure 2-22, sil nest pas ncessaire de fournir une information sur les
nuds (X1 = 0), on a D1 = 3.
Graphe G2 :

( ( ( ) )
gw2 ,W ( x1 , x2 , x 3 , x4 , x5 , x6 , x7 ) = FW x 7 , f ( z6 , w ) , fw x5 , f ( z 4 , w ) , fw x3 , f ( z2 , w ) , f ( z1 , w ) , w , w , W )
o les vecteurs x1 x7 et z1 z6 sont construits comme les variables correspondantes de G1, avec M2= 2.
Sil nest pas ncessaire dtiqueter les nuds (X2 = 0), on a :

D2 = 2, z1 = z2 = z 4 = z6 = (1 0 0 ) , z 3 = 1 ( f ( z1 , w ) )
f ( z2 , w ) , z5 = 1 ( f ( z3 , w ) )
f ( z4 , w ) ,
T T T

( f ( z5 , w ) f ( z6 , w ) )
T
z7 = 1

Graphe G3 :

( ( ( ( ( ) ( ) ) ) )
gw3 ,W ( x1 ,..., x10 ) = FW x10 , fw x9 , fw x8 , f ( z 7 , w ), f x6 , f x5 , fw ( z 4 , w ), w , f x3 , f ( z2 , w ), f ( z1 , w ), w , w , w , w , W )
o les vecteurs x1 x10 et z1 z9 sont construits comme indiqu plus haut, avec M3= 2.
Si ces trois graphes sont utiliss comme ensemble dapprentissage, les trois graph machines doivent
possder les mmes fonctions de nuds, de sorte que le nombre de variables de la fonction de nud soit
D = max Di , i = 1 3.
i

Graphes cycliques
Les graph machines peuvent manipuler les cycles et les artes parallles, ce qui est important notamment
pour leurs applications en aide la dcouverte de mdicaments. Le graphe initial subit un prtraitement
qui consiste supprimer des artes, en nombre gal au nombre de cycles, et dtruire toutes les artes
parallles sauf une ; de plus, on affecte chaque nud une tiquette qui est gale son degr dans le
graphe initial, ce qui permet de conserver linformation complte sur la structure du graphe original.
Enfin, on choisit un nud racine et lon affecte les orientations convenables aux artes.

Apprentissage
Lapprentissage des graph machines entre dans le cadre habituel de minimisation du risque structurel,
prsent dans le chapitre 1. Il ncessite la dfinition dune fonction de perte et la minimisation dune fonc-
tion de cot par rapport aux paramtres de la fonction de nud. La fonction de cot peut, si ncessaire,
contenir un ou des termes de rgularisation (voir la section Apprentissage avec rgularisation ). Typi-
quement, la fonction de cot est de la forme :
N

(
J ( w, W ) = yip gwi ,W )
2
+ 1 w + 2 W
i =1

o N est le nombre dexemples de lensemble dapprentissage, yip est la valeur de la grandeur modliser
pour lexemple i, 1 et 2 sont des constantes de rgularisation convenablement choisies. Rappelons que
les paramtres w et W sont les mmes pour toutes les machines i, de sorte quil faut utiliser la technique
des poids partags qui sera dcrite dans la section valuation du gradient sous contrainte dgalit
des paramtres .
Lapprentissage statistique
106

Les algorithmes doptimisation, dcrits dans la section Modification des paramtres en fonction du
gradient de la fonction de cot sont directement applicables.

Deux exemples acadmiques


Considrons deux exemples acadmiques : lapprentissage du nombre de nuds dun graphe et lappren-
tissage du nombre dartes dun graphe.
Dans le premier exemple, on cherche apprendre, partir dexemples, et prdire le nombre de nuds
prsents dans un graphe donn. Supposons que lensemble dapprentissage soit constitu des trois
graphes prsents sur la figure 2-22. On cherche donc associer G1 le nombre 4, G2 le nombre 7, et
G3 le nombre 10. Commenant par la structure la moins complexe, on postule une fonction f(z, w) affine,
et F = f. Comme tous les nuds sont quivalents pour le problme que lon cherche rsoudre, il nest
pas ncessaire de les tiqueter : X1 = X2 = X3 = 0. Les fonctions de nuds tant les mmes pour tous les
graphes, on prend D = max Di = 3, donc :
i

fw ( x ) = w0 + w1 z1 + w2 z2 + w3 z3 .
Toutes les artes tant quivalentes, on a w1 = w2 = w3 = w. Il ny a donc que deux paramtres indpen-
dants, w et w0.
Ce problme admet une solution vidente : w = w0 = 1. Ainsi, pour le graphe G1, on a :

( )
gw1 ,W ( x1 , x2 , x3 , x4 ) = f 1, f ( z1 , w ) , f ( z2 , w ) , f ( z 3 , w ) ,w = w0 + 3w1w0 = 4

o z1 = z2 = z 3 = (1 0 0 0 ) . On obtient bien le rsultat cherch.


T

De mme, considrons lapprentissage du nombre 5 5


dartes dun graphe. Supposons que, en plus des trois
graphes prcdents, lensemble dapprentissage
contienne le graphe G4, reprsent sur la figure 2-23. 3 4 3 4
Ce graphe est cyclique, de sorte quil doit subir le
prtraitement indiqu plus haut : une des artes du
cycle doit tre supprime, par exemple larte entre 1
et 2. Afin de conserver linformation sur lexistence de 1 2 1 2
cette arte dans le graphe initial, on affecte chaque Graphe G4 Graphe acyclique
nud une tiquette gale son degr ; on a donc orient
prsent Xk = 1 pour tous les nuds de tous les graphes Figure 2-23. Graphe cyclique
de lensemble dapprentissage. Aucune autre informa-
tion nest ncessaire pour le problme que lon cherche rsoudre. On a donc, pour le graphe G4 :

gw4 ( x1 , x2 , x3 , x4 , x5 ) = f ( z5 , w )

avec :
x1 = 2, x2 = 2, x3 = 3, x4 = 1, x5 = 2, z1 = z2 = (1 0 0 0 2 ) ,
T

( f ( z1 , w ) )
f ( z2 , w ) 0 3 , z 4 = (1 0 0 0 1) , z5 = 1 ( f ( z3 , w ) f ( z4 , w ) 0 2 .)
T T T
z3 = 1
Postulons nouveau une fonction de nud affine f ( z, w ) = w0 + w1 z1 + w2 z2 + w3 z3 + w4 z4 . On a une
solution vidente : w0 = 0, w1 = w2 = w3 =1, w4 = 0,5. On obtient alors, pour le graphe G4 par exemple :
Les rseaux de neurones
107
CHAPITRE 2

gw4 ( x1 , x2 , x3 , x4 , x5 ) = 1 + 2 w + 2 w 2 = 5

ce qui est bien le rsultat cherch.


Bien entendu, il est exceptionnel de disposer dune 450
400
solution vidente. Il faut donc avoir recours la proc-

Indice de Wiener estim


350
dure dapprentissage dcrite plus haut. De plus, il faut 300
trouver la complexit convenable pour la fonction de 250

nud, ce qui ncessite de mettre en uvre des techni- 200


150
ques de slection de modles dcrites dans le premier 100
chapitre : validation simple, validation croise, leave- 50
one-out ou leave-one-out virtuel. La figure 2-24 0
0 50 100 150 200 250 300 350 400 450
prsente le diagramme de dispersion des rsultats Indice de Wiener

obtenus pour lapprentissage de lindice de Wiener Figure 2-24. Prdiction de lindice de Wiener
dun graphe, cest--dire lapprentissage de la somme par une graph machine
des distances entre ses nuds. La base de donnes
utilise contient 150 graphes engendrs alatoirement, dont les indices de Wiener varient entre 1 et 426.
Les rsultats prsents ont t obtenus avec des fonctions de nuds qui sont des rseaux de neurones
4 neurones cachs ; la slection de modle a t effectue par validation croise. Dautres problmes
acadmiques sont dcrits dans [GOULON 2007].
Des exemples dapplication des graph machines la prdiction de proprits et dactivits de molcules
sont prsents dans la section Aide la dcouverte de mdicaments .

Exemples dapplications
Introduction
Le dbut de ce chapitre a t consacr lexpos du contexte mathmatique qui est essentiel pour
comprendre ce que sont rellement les rseaux de neurones et les principes sur lesquels repose leur mise
en uvre. Certains aspects peuvent paratre un peu techniques , mais il est important davoir bien
compris ces bases. En effet, la simplicit mme de mise en uvre des rseaux de neurones constitue un
danger, car elle peut conduire une application irrflchie qui donne des performances mdiocres ou
mauvaises.
Les rponses aux questions que se pose tout ingnieur ou chercheur qui envisage dutiliser des rseaux de
neurones peuvent galement tre claires par lexpos de quelques applications typiques. Bien entendu,
il nest pas question ici de faire un expos exhaustif des applications des rseaux de neurones : plusieurs
livres ny suffiraient pas. Il sagit plutt de montrer quelques applications ayant un caractre exemplaire,
en insistant sur les raisons pour lesquelles les rseaux de neurones ont un apport important, voire dcisif.

Reconnaissance de formes :
la lecture automatique de codes postaux
Cest sans doute dans le domaine de la reconnaissance de caractres que les rseaux de neurones ont
acquis leurs lettres de noblesse, et ont prouv quils constituent des alternatives fiables dautres
mthodes de classification. On citera ici quelques exemples et rsultats, qui sappuient sur les considra-
tions pratiques dveloppes dans le paragraphe consacr aux rseaux de neurones pour la classification.
Lapprentissage statistique
108

La reconnaissance automatique de codes postaux a probablement t lun des problmes de reconnais-


sance dimages les plus tudis. En effet, si le traitement automatique du courrier adresse dactylogra-
phie ou imprime est relativement simple, celui du courrier adresse manuscrite est beaucoup plus
complexe, en raison de la variabilit des styles dcriture. Pour chaque objet postal, une machine automa-
tique doit soit identifier le code, soit indiquer quelle ne peut pas lidentifier, et donc faire appel un
oprateur humain. Comme indiqu plus haut, il est plus onreux de rectifier une erreur de tri commise par
une machine que de faire lire un code postal par un oprateur, de sorte que le critre de performance le
plus frquemment utilis pour les machines de lecture de codes postaux est le suivant : pour un taux
derreur maximal fix (par exemple, 1 %) sur les codes identifis, quelle est la fraction du courrier qui
devra tre traite par un oprateur ? lheure actuelle, les machines les plus performantes font appel des
rseaux de neurones (conjointement dautres techniques), et le taux de rejet est infrieur 5 % pour un
taux derreur infrieur 1 %.
Lessor des tudes sur la reconnaissance des codes postaux est d deux facteurs : dune part, lenjeu
conomique du problme ; dautre part, le fait que, ds 1990, des bases de donnes de grande taille ont t
mises dans le domaine public par le Service postal des tats-Unis (USPS), puis par le National Institute
of Science and Technology (NIST). Cette disponibilit de bases de donnes, accessibles tous, a permis
de nombreux laboratoires (universitaires et industriels), de valider, de manire statistiquement significa-
tive, les mthodes et procdures quils avaient dveloppes. Cette politique a permis de faire progresser
ltat de lart sur la reconnaissance des codes postaux et, de manire plus gnrale, sur les problmes de
classification complexes.
La figure 2-25 prsente quelques extraits de la base
USPS, qui comprend en tout 9 000 caractres (ce qui
est encore relativement peu, eu gard la complexit
du problme). On observe immdiatement la diversit
des styles et les difficults auxquelles il faut faire face.
Considrons lexemple du code postal situ en haut
droite de limage ; on lit sans effort le code 68544,
mais on constate :
que le chiffre 6 est coup en deux morceaux ;
que le 8 et le 5 sont attachs ;
mais que le 5 est coup en deux, et sa partie droite
attache au 4 ! Figure 2-25. Quelques morceaux choisis de la base
Donc, si lon fonde la reconnaissance du code sur la de donnes USPS
reconnaissance de chacun de ses chiffres sparment,
il faut dabord rsoudre le problme de la segmentation : comment sparer les chiffres les uns des
autres ? Une fois ce difficile problme rsolu, il reste traiter la trs grande diversit des styles, des tailles,
des orientations, des chiffres isols : il faut pour cela rsoudre le problme crucial de la reprsentation
des formes classer, cest--dire du choix des descripteurs qui seront utiliss par un ou plusieurs classi-
fieurs, ventuellement neuronaux. Il est impossible de traiter ce problme de reprsentation de manire
gnrale, car il dpend compltement de lapplication mise en uvre : il est vident que lon ne peut pas
reprsenter, de la mme manire, des images de trait telles que des caractres manuscrits ou imprims, des
images issues de satellites mtorologiques, ou encore des radiographies mdicales.
En dpit de la grande diversit des traitements mis en uvre pour les images, il existe quelques oprations
de base que lon retrouve dans toutes les applications relles : dtection de contours, rehaussement de
contraste, etc. (certaines de ces oprations se trouvent galement dans le systme visuel humain). Dans le
cas de la reconnaissance de caractres, la normalisation est galement incontournable, pour que tous les
traitements portent sur des chiffres de mme taille. Lingnieur doit toujours raliser un compromis entre
Les rseaux de neurones
109
CHAPITRE 2

la complexit des prtraitements ncessaires pour aboutir la reprsentation choisie, et la complexit de


la classification : un prtraitement bien fait, qui extrait des caractristiques bien discriminantes et donc
pertinentes pour la classification, peut permettre lutilisation dun classifieur dune grande simplicit,
mais ce prtraitement ne doit pas tre trop gourmand en temps de calcul. En revanche, un prtraitement
primitif (par exemple, une simple normalisation) est extrmement rapide mais ne facilite pas la tche du
classifieur. Il faut donc trouver la solution qui prsente la meilleure performance compatible avec le temps
de calcul autoris par le cahier des charges de lapplication. Deux exemples vont tre prsents, qui
mettent en jeu des stratgies trs diffrentes pour rsoudre le mme problme.
Le premier exemple a t dvelopp au laboratoire AT&T Bell Labs. Il sagit dun rseau de neurones,
connu sous le nom de LeNet [LECUN 1989] ou rseau de convolution , qui utilise une reprsentation
par pixels (aprs normalisation). Les premires couches du rseau ralisent des traitements locaux
destins extraire automatiquement des caractristiques ; les dernires couches effectuent la classifica-
tion proprement dite. Ce rseau est reprsent sur la figure 2-26. Il a t utilis avec succs dans de
nombreuses applications, notamment en traitement dimages (voir par exemple [OSADCHY 2007]).
10 neurones de sortie

Connectivit complte

30 neurones cachs

Connectivit complte Figure 2-26. LeNet,


un rseau de neurones
qui effectue lextraction
12 x 16
des caractristiques
neurones cachs et la classification.

Connectivit partielle
(poids partags)

12 x 64
neurones cachs

Connectivit partielle
(poids partags)

256 variables

Lentre du rseau est une matrice de 16 16 pixels. Une premire couche de neurones cachs est
compose de 12 ensembles de 64 neurones cachs, chacun des 64 neurones cachs recevant des informa-
tions concernant un champ rceptif de 5 5 pixels. Ces ensembles de 64 neurones sont appels
cartes de caractristiques , car les variables de tous les neurones dune carte donne sont affectes des
mmes paramtres (technique des poids partags , dcrite dans la section valuation du gradient
sous contrainte dgalit des paramtres ). Ainsi, on fait agir le mme oprateur, localement, sur chaque
ensemble de 25 pixels, de sorte que lensemble des sorties dun groupe de 64 neurones constitue une carte
du rsultat de lapplication de loprateur limage. Si la technique des oprateurs locaux est classique en
traitement dimages, loriginalit de la prsente mthode rside dans le fait que ces derniers ne sont pas
conus par lingnieur : ils sont dtermins par apprentissage partir dexemples. Lopration est renou-
Lapprentissage statistique
110

vele dans une deuxime couche doprateurs qui traitent les rsultats de la premire couche. On obtient
ainsi 12 cartes de 16 neurones cachs, soit 192 neurones dont les sorties constituent le vecteur de descrip-
teurs utilis pour la classification. Celle-ci est effectue avec un rseau une couche de 30 neurones
cachs et 10 neurones de sortie. Les neurones de sortie utilisent un codage 1-parmi-C, qui a t dfini
plus haut : il y a autant de neurones dans la couche de sortie que de classes. La sortie du neurone i doit
tre gale 1 si la forme classer appartient la classe i, et doit tre sinon gale 0.
Ainsi, un tel rseau ralise automatiquement le prtraitement et la classification, oprations qui sont tradi-
tionnellement conues sparment. Le prix payer est videmment une certaine lourdeur dapprentissage
et, compte tenu du grand nombre de paramtres, la ncessit de faire preuve dune grande vigilance rela-
tivement au surajustement.
Pour traiter le mme problme, une approche trs diffrente [KNERR 1992] consiste raliser un prtrai-
tement plus labor de limage, afin dextraire des caractristiques discriminantes qui permettent
dutiliser un classifieur relativement simple. Le prtraitement est la dtection de contours suivie dune
normalisation, qui produit 4 cartes de caractristiques de 64 lments, soit un vecteur de 256 compo-
santes. Mettant en uvre la mthodologie de conception dun classifieur dcrite plus haut, les dix classes
ont t spares deux deux : 45 classifieurs diffrents ont t labors, dont lapprentissage a t effectu
sparment et qui sont trs simples puisque, dans lapplication considre, il se trouve que tous les exem-
ples de lensemble dapprentissage sont linairement sparables deux deux. Chacun des 45 classifieurs
est donc constitu dun seul neurone.
La figure 2-27 montre les 18 erreurs commises par ce classifieur sur les 9 000 caractres de la base de
donnes USPS. Pour chaque chiffre manuscrit, lindication en haut droite est la classe dappartenance
du chiffre indique dans la base, et le chiffre en bas droite est la classe affecte par le classifieur. On
remarquera notamment le cas du dernier chiffre (en bas droite de la figure) qui est reconnu comme un
chiffre 1 alors quil est class dans la base comme un chiffre 8, ce qui est videmment une erreur dtique-
tage.

Figure 2-27. Les 18 erreurs


de classification commises
par sparation linaire des classes
deux deux

Limportance du choix de la reprsentation pour ce type dapplications a t mentionne plusieurs


reprises, notamment dans la section Mthodologie de conception dun classifieur . On peut la mettre
en vidence dans ce cas. Pour les deux reprsentations mentionnes plus haut (reprsentations par pixels
dune part, cartes de caractristiques aprs dtection des contours dautre part), la distance entre les bary-
centres des classes a t calcule ; elle est reprsente sur la figure 2-28. On observe que les distances
entre classes sont toujours suprieures, pour la reprsentation par cartes de caractristiques, ce quelles
sont pour la reprsentation par pixels. Ainsi, la reprsentation par cartes loigne les classes les unes des
autres, ce qui facilite videmment la tche des classifieurs.
Les rseaux de neurones
111
CHAPITRE 2

Le tableau 2-1 met en vidence lamlioration de performances qui rsulte de la mise en uvre dune
meilleure reprsentation : aprs ajustement des seuils de dcision afin dobtenir, dans les deux cas, un taux
derreur de 1 %, le taux de rejet pour la reprsentation par pixels est beaucoup plus lev que pour la
reprsentation par caractristiques. Il faut noter que les deux reprsentations ont la mme dimension (dans
les deux cas, chaque chiffre est reprsent par un vecteur de 256 composantes) : lamlioration ne
provient pas de la compacit de la reprsentation, mais de sa bonne adquation au problme pos. Cest
la rflexion de lingnieur qui fait la diffrence.

1,2

1,0

0,8

0,6

0,4

0,2

0
1 5 9 13 17 21 25 29 33 37 41
Couple de classes

Pixels Caractristiques

Figure 2-28. Distances entre classes pour deux reprsentations : la reprsentation par cartes de caractristiques loigne
les classes les unes des autres, et donc facilite le travail ultrieur des classifieurs

Taux de chiffres bien classs Taux de rejet Taux dexemples mal classs
Reprsentation par pixels 70,9 % 28,1 % 1%
Reprsentation par caractristiques 90,3 % 8,7 % 1%
Tableau 2-1

Une application en contrle non destructif :


la dtection de dfauts dans des rails par courants de Foucault
Lexemple prcdent est relatif la reconnaissance automatique dimages. Bien entendu, les formes que
les rseaux de neurones peuvent classer ne sont pas ncessairement de cette nature : voici un exemple de
reconnaissance de signaux dans le domaine du contrle non destructif. Cette application consiste
dtecter les dfauts dans les rails du mtro parisien laide de courants de Foucault. Elle a t dveloppe
par lInstitut national de la recherche sur les transports et leur scurit (INRETS) pour la RATP
[OUKHELLOU 1997].
La dtection de dfauts dans les pices mtalliques laide de courants de Foucault est une technique clas-
sique dans le domaine du contrle non destructif. Son principe est simple : un bobinage cre un champ
magntique alternatif dans la pice contrler, ce qui engendre des courants de Foucault, dans une pais-
Lapprentissage statistique
112

seur qui dpend de la frquence du champ magntique. Ces courants sont dtects par un second
bobinage ; la prsence de dfauts dans le mtal modifie le signal recueilli, la fois en amplitude et en
phase. Ainsi, le signal induit constitue une signature des dfauts. Comme il existe toujours plusieurs cat-
gories de dfauts, qui peuvent tre plus ou moins graves, il est important de pouvoir non seulement
dtecter ces dfauts, mais encore les classer. Il faut aussi pouvoir faire une distinction entre des dfauts et
des phnomnes normaux qui peuvent galement avoir une influence sur le signal : la jointure entre deux
rails provoque une modification des courants de Foucault, analogue celle engendre par une fissure,
alors quil sagit dun vnement normal (mais sa position est connue, ce qui facilite la discrimination).
Dans lapplication considre, le systme de cration et de dtection des courants de Foucault est mont
sous la voiture, quelques dizaines de millimtres du rail, comme reprsent sur la figure 2-29.

Figure 2-29. Photographie du systme de cration et de dtection des courants de Foucault

Comme toujours, le choix des descripteurs du signal conditionne en grande partie lefficacit de la discri-
mination. Comme il sagit ici dimages mono-dimensionnelles (par opposition aux images
bidimensionnelles traites prcdemment), on peut utiliser un relativement petit nombre de descrip-
teurs qui sont fonds sur les composantes de Fourier du signal, condition que ces descripteurs soient
bien choisis. La mthode de la variable sonde, expose dans le chapitre 1, a t mise en uvre pour dve-
lopper cette application [OUKHELLOU 1998].

Fouille de donnes : le filtrage de documents


En raison de laugmentation constante du volume dinformations accessible lectroniquement, la concep-
tion et la mise en uvre doutils efficaces, permettant notamment lutilisateur de navoir accs qu
Les rseaux de neurones
113
CHAPITRE 2

linformation quil juge pertinente, devient une ncessit absolue. Comme la plupart de ces outils sont
destins tre utiliss dans un cadre professionnel, les exigences de fiabilit et de convivialit sont trs
importantes ; les problmes rsoudre pour satisfaire ces exigences sont nombreux et difficiles. Laccs
linformation pertinente peut tre ralise en fournissant un utilisateur des documents pertinents, ou
en lui proposant des passages de documents pertinents (ou des rponses des questions). Le premier cas
relve du domaine de la recherche de textes, le second du domaine de lextraction dinformations.
La catgorisation de textes, appele galement filtrage , consiste trouver, dans un ensemble de docu-
ments (comme un fil de dpches dagence de presse, ou un ensemble de pages Web), ceux relatifs un sujet
dfini par avance. On peut ainsi fournir un utilisateur, en temps rel, toutes les informations importantes
pour lexercice de son mtier. Dans ce cas, lutilisateur nexprime pas son intrt par une requte, mais par
un ensemble de documents pertinents qui dfinissent un thme ou une catgorie. Pour un thme donn, la
catgorisation consiste donc rsoudre un problme de classification supervise deux classes ; celui-ci
peut tre rsolu notamment par les mthodes dcrites dans cet ouvrage : les rseaux de neurones, les
machines vecteurs supports (chapitre 6) ou les modles de Markov cachs (chapitre 4).
Cest un problme trs difficile, qui va bien au-del de la recherche par mots-cls. En effet, supposons,
que lon cherche slectionner, dans le flot des dpches de lAFP, celles qui sont pertinentes pour le
thme prises de participations entre entreprises ; des textes qui contiennent les phrases : la socit A
a rachet la socit B ou bien A est entr dans le capital de B hauteur de 10 % , ou encore A vient
de franchir la hausse le cap des 20 % des parts sociales de B , sont tous pertinents, et pourtant ils ne
contiennent aucun des mots qui dfinissent le thme. En revanche, la phrase la participation des commu-
nistes au gouvernement inquite les chefs dentreprises nest pas pertinente, bien quelle contienne deux
des mots du thme.
Lapplication (extraite de [STRICKER 2000]) a t dveloppe pour la Caisse des dpts et consignations,
qui offre, sur lintranet du groupe, un service de filtrage de dpches de lAFP en temps rel. Les objectifs
sont doubles :
dveloppement dune application permettant un utilisateur dobtenir automatiquement un filtre
dinformation sur un thme de son choix, sous rserve de fournir des exemples de textes pertinents pour
le thme considr ;
dveloppement dun outil permettant de surveiller lobsolescence des filtres classiques, constitus de
systmes base de rgles.
Pour atteindre le second objectif, on fabrique une copie dun filtre base de rgles avec un filtre utilisant
un rseau de neurones. Comme le rseau de neurones fournit une probabilit de pertinence et non une
rponse binaire, il est possible danalyser les plus grandes divergences entre les deux filtres : les docu-
ments considrs comme pertinents par la mthode base de rgles, mais obtenant une probabilit proche
de zro avec le rseau de neurones, et les documents considrs comme non pertinents avec le premier et
obtenant une probabilit de pertinence proche de un avec le second [WOLINSKI 2000].
Le premier de ces objectifs consiste donc en la conception et la ralisation dun systme de cration auto-
matique de filtres, dont la caractristique majeure est labsence dintervention dun expert, par opposition
la mise en uvre dun systme base de rgles. Il sagit donc de concevoir un systme de discrimination
deux classes ; partir dune base de documents tiquets comme pertinents ou non pertinents pour le
thme considr, il faut :
trouver une reprsentation des textes par des nombres, reprsentation qui doit tre aussi compacte que
possible ;
concevoir et mettre en uvre un classifieur utilisant cette reprsentation.
Le problme de la reprsentation des textes, et donc de la slection des variables, est videmment central
dans cette application.
Lapprentissage statistique
114

Slection des variables


Lapproche la plus conventionnelle est la reprsentation en sac de mots , dans laquelle un texte est repr-
sent par un vecteur dont chaque composante est un nombre qui est li la prsence ou labsence dun mot
dans le texte, ou sa frquence dans le texte. Cette approche prsente un inconvnient : la dimension de ce
vecteur est gale au nombre de mots du vocabulaire, ce qui est videmment norme. On peut nanmoins
remarquer que tous les mots ne sont pas galement discriminants : les mots les plus frquents (de, la, et...)
sont inutiles pour la discrimination, de mme que les mots trs rares. Dans une premire tape, on cherche
donc, pour un thme donn, trouver les mots les plus pertinents pour le thme considr.
Codage des mots
Les mots sont cods de la manire suivante : soit FT(m, t) la frquence doccurrence du terme m dans le
texte t, et FT(t) la frquence moyenne des termes dans le texte t. Alors le mot m est dcrit par la quantit :
1 + log ( FT ( m, t ))
x (m) = ,
1 + log ( FT ( t ))
dont on trouvera la justification dans [SINGHAL1996].
La loi de Zipf
Pour slectionner les mots discriminants, on est aid par la loi de Zipf [ZIPF 1949] : soit un corpus de T textes,
appelons FC(m) la frquence doccurrence du mot m sur le corpus T ; la quantit FT(m, t), frquence du mot m
dans le texte t, a t dfinie dans le paragraphe prcdent. Construisons une liste de mots, classs par ordre de
FC(m) dcroissant ; soit r(m) le rang du mot m dans cette liste. La loi de Zipf snonce ainsi : FC(m) r(m) = K,
o K est une constante qui dpend du corpus considr. Il y a donc un petit nombre de mots trs frquents, et
un grand nombre de mots trs rares qui napparaissent quune fois ou deux sur le corpus ; entre ces extrmes,
il existe un ensemble de mots dans lesquels il faut chercher les mots discriminants.
Extraction du vocabulaire spcifique
6 Pour dterminer le vocabulaire spcifique un thme donn,
5 on dfinit, pour chaque mot m de chaque texte pertinent t, le
rapport R(m, t) = FT(m, t) / FC(m). On range les mots du texte
log FC(m)

3
par ordre de R(m, t) dcroissant, on supprime la seconde
moiti de la liste, et lon construit un vecteur boolen v(t) tel
2
que vi(t) = 1 si le mot i est prsent dans la liste, et 0 sinon. On
calcule enfin le vecteur v = v ( t ) , o la somme porte sur tous
1

0 t
0 1 2 3 4 5 les documents pertinents : le vocabulaire spcifique du thme
log r(m)
est lensemble des mots dont la composante dans v est non
Figure 2-30. Vrification exprimentale
de la loi de Zipf sur le corpus Reuters, nulle. La figure 2-30 montre que, sur le corpus des dpches
et reprsentation des mots du vocabulaire Reuters, la loi de Zipf est assez bien vrifie, et que les mots
spcifique au thme Falkland petroleum du vocabulaire spcifique du thme Falkland petroleum
exploration exploration sont bien au milieu de la distribution.

Slection finale
lintrieur du vocabulaire spcifique ainsi dfini, qui peut tre encore vaste (une quelques centaines
de mots), une slection finale est effectue par la mthode de la variable sonde, dcrite dans le chapitre 1.
la fin de cette tape, il apparat que, en moyenne sur 500 thmes tudis, le vocabulaire spcifique dun
thme comprend 25 mots, ce qui est tout fait raisonnable pour un vecteur de variables dun rseau de
Les rseaux de neurones
115
CHAPITRE 2

neurones. Nanmoins, cette reprsentation nest pas encore satisfaisante, mme si elle est compacte. En
effet, les mots seuls sont ambigus : dans une application comme celle-ci, il est indispensable de tenir
compte du contexte.

Dtermination du contexte
Pour introduire le contexte dans la reprsentation des textes, on cherche des mots de contexte dans une
fentre de 5 mots de part et dautre de chaque mot du vocabulaire spcifique. On dfinit :
des mots de contexte positifs, qui sont les mots que lon trouve dans le voisinage des mots du vocabu-
laire spcifique, dans les documents pertinents ;
des mots de contexte ngatifs, qui sont les mots que lon trouve dans le voisinage des mots du vocabu-
laire spcifique, dans les documents non pertinents.
Pour slectionner les mots de contexte, on utilise exactement la mme procdure que pour la dtermination
du vocabulaire spcifique. Typiquement, pour lexemple de prise de participation entre entreprises , on
constate que pour le mot capital , qui fait partie du vocabulaire spcifique, les mots dtient et
droits se trouvent dans les mots de contexte spcifique, et les mots risque et fonds dans le
contexte ngatif.
En moyenne sur 500 thmes diffrents, un thme est dfini par 25 mots de vocabulaire spcifique, chacun
de ces mots ayant 3 mots de contexte.

Conception et apprentissage des filtres


Filtres sans contexte
Si lon ne tient pas compte du contexte, le filtre a pour variables les mots du vocabulaire spcifique, cods
comme indiqu prcdemment. Conformment la mthodologie de conception de classifieurs prsente
dans la section consacre la discrimination, la structure du classifieur dpend de la complexit du
problme. Sur les corpus et les thmes tests, les ensembles dapprentissage sont gnralement linaire-
ment sparables, de sorte que lon utilise un rseau un seul neurone fonction dactivation sigmode.
Filtres avec contexte
Le contexte doit modifier le descripteur correspondant
Filtre sans contexte
chaque mot du vocabulaire spcifique. Le filtre repr-
sente donc chaque mot du vocabulaire par un neurone
fonction dactivation sigmode, dont les variables
sont le descripteur du mot considr et les descripteurs
des mots de contexte de celui-ci. Les sorties de
Filtre avec contexte
ces neurones sont spares linairement par un neurone
fonction dactivation sigmode. La figure 2-31 reprsente
un filtre avec contexte et un filtre sans contexte.
Lutilisation du contexte augmente videmment le
nombre de paramtres. Typiquement, pour un thme
avec 25 mots de vocabulaire spcifique et 3 mots de Figure 2-31. Un filtre sans contexte est un classifieur
contexte par mot du vocabulaire spcifique le filtre linaire qui reoit en entre le descripteur de chacun
comprend 151 paramtres. Compte tenu du fait que le des mots du vocabulaire spcifique (rectangles
nombre de paramtres peut tre du mme ordre de en traits gras) ; dans un filtre avec contexte,
grandeur que le nombre dexemples (voire infrieur les entres sont les descripteurs des mots
du vocabulaire spcifique (rectangles en traits gras)
celui-ci), il est impratif de mettre en uvre une et les mots de contexte (rectangles en traits fins).
mthode de rgularisation. La mthode de modration
Lapprentissage statistique
116

des poids a t mise en uvre dans cette application ; on en verra leffet dans la section consacre
lapprentissage avec rgularisation.

Validation des rsultats


Dans le domaine du traitement automatique du langage, la comptition organise chaque anne dans le
cadre de la confrence TREC (Text REtrieval Conference) constitue une rfrence. La mthodologie
prsente ci-dessus a t mise en uvre dans le cadre de la comptition TREC-9, pour lpreuve de
routing : celle-ci consiste classer un ensemble de textes par ordre de pertinence dcroissante pour des
thmes imposs. Lpreuve de TREC-9 portait sur deux ensembles de textes, se rapportant respectivement
63 et 500 thmes, et comprenant au total 294 000 documents. Il va de soi que le nombre de documents
analyser et le nombre de thmes rendent impossible tout traitement manuel ou semi-automatique
des donnes, dans le temps imparti la comptition. Lapproche dcrite ci-dessus a remport lpreuve
pour chacun des deux thmes ; la figure 2-32 reprsente les scores raliss par les participants [STRICKER
2001].

preuve OHSU (63 thmes) preuve MeSH (500 thmes)


1 1

0,8
0,8
Scor e

0,6

0,385 0,6
0,4 0,343 0,326 0,317
0,237 0,234
0,185 0,177
0,2 0,4 0,335
0,099 0,081
0,253
0
) 0,158
r2 r1
) ) ) r1
)
2) 2) 00
) 0) 0,2
N po po r 9r o0
2R R
N
rf2 fr2 U
N N er no rp
(S ( S2 k9 k 9r (K ( KU (M n trp a nt 0,0078
C ( o (o n IG a . (
D D
C ft ft eg
e en /S .( U 0
IC IC so so eg IT U s
ro ro ijm ijm IR rs er ICDC Microsoft Rutgers U Rutgers U (antrpms00)
ic ic .N N t ge u tg
M M U . u R (S2RNsamp) (ok9rfr2ps) (antrpnms00)
U R

Figure 2-32. Rsultats de lpreuve de routing de TREC-9 : en noir : rsultats obtenus par la mthode dcrite ci-dessus ;
en gris : rsultats obtenus par dautres mthodes

Aide la dcouverte de mdicaments : prdiction de proprits


chimiques et dactivits thrapeutiques de molcules
Ltude des relations structure-activit des molcules (QSAR pour Quantitative Structure-Activity Rela-
tions) et de leurs relations structure-proprit (QSPR pour Quantitative Structure-Property Relationships)
est un domaine en plein essor, en raison des progrs trs rapides de la simulation molculaire. Ces travaux
ont pour objectif de prdire les proprits physicochimiques ou thrapeutiques de molcules partir de
donnes structurales qui peuvent tre calcules a priori par ordinateur, sans quil soit ncessaire de synth-
tiser la molcule ; on peut donc viter une synthse coteuse si lon peut prdire que la molcule envi-
sage ne possde pas les proprits souhaitables [HANSCH 1995]. Cette approche est particulirement
utile dans le domaine de la bio-ingnierie, pour la prdiction de proprits pharmacologiques de mol-
cules, mais elle peut videmment tre transpose nimporte quel domaine (prdiction de proprits
mcaniques de matriaux complexes partir de leur formulation, prdiction de paramtres thermodyna-
miques de mlanges, etc.). Lobjectif est toujours de rduire les cots de dveloppement, particulirement
importants dans lindustrie pharmaceutique, en remplaant des synthses ou des ralisations coteuses
par des prdictions fiables.
Les rseaux de neurones
117
CHAPITRE 2

Pourquoi les mthodes dapprentissage statistique peuvent-elles tre mises en uvre avec profit dans ce
contexte ? Si lon admet quil existe une relation dterministe entre certains descripteurs de la molcule
et la proprit que lon veut prdire, alors on est ramen un problme de dtermination de la fonction de
rgression de la proprit envisage, en fonction des descripteurs choisis.
La premire question quil convient de se poser est celle des donnes utilisables pour lapprentissage et pour
lvaluation des performances du rseau. Compte tenu de limportance des enjeux, il existe de nombreuses
bases de donnes concernant des proprits telles que le point dbullition, la solubilit dans leau ou le coeffi-
cient de partage eau-octanol, ou encore des activits telles que laction anti-VIH, la toxicit, etc.
La deuxime question se poser est celle des variables pertinentes pour le modle envisag. Ici, les
connaissances du chimiste doivent ncessairement guider le choix de ces variables. On peut envisager
plusieurs catgories de descripteurs :
des descripteurs chimiques tels que la masse molculaire, le nombre datomes de carbone ;
des descripteurs gomtriques tels que le volume de la molcule, sa surface, son ovalit ;
des descripteurs lectriques tels que les charges portes par les diffrents atomes, le moment dipolaire ;
etc.
Pour chaque proprit que lon cherche prdire, il faut donc tablir un ensemble de descripteurs que lon
peut supposer pertinents, et utiliser une technique de slection de variables, comme celles dcrites dans le
premier chapitre, afin de dterminer les descripteurs qui sont rellement utiles pour les molcules et la
proprit considres. En raison de leur parcimonie, des rseaux de neurones de trs petite taille (5
7 neurones cachs) fournissent gnralement des rsultats de meilleure qualit que les techniques de
rgression multilinaire habituellement mises en uvre dans ce domaine [DUPRAT 1998].
Nanmoins, les proprits et activits des molcules dpendent en grande partie de la structure de celles-
ci ; cest pourquoi il est particulirement intressant dutiliser des mthodes de rgression ou de classifi-
cation de donnes structures telles que les graph machines dcrites prcdemment dans la section
Modlisation et classification de donnes structures . En effet, elles permettent de saffranchir
compltement de la dtermination, du calcul et de la slection des descripteurs, puisque la structure
chimique dtermine directement les prdictions du modle.
titre dexemple, considrons la prdiction des 9
Ensemble dapprentissage-validation
proprits anti-VIH de drivs de la ttrahydroimi-
8 Ensemble de test
dazobenzo-diazepinone (TIBO), qui agit en
bloquant lactivit de lenzyme qui permet la dupli-
Activit prdite

7
cation du rtrovirus. Lactivit est exprime quanti-
tativement par le rapport log(1/IC50), o IC50 est la 6
concentration en TIBO qui produit linhibition de
50 % de lenzyme responsable de la duplication. 5
Les rsultats sont prsents sur la figure 2-33 ; ils
4
sont de meilleure qualit que ceux obtenus par les
mthodes conventionnelles, y compris les rseaux 3
de neurones, avec le grand avantage de supprimer 3 4 5 6 7 8 9
Activit mesure
les phases de conception, calcul et slection des
descripteurs [GOULON 2006]. Figure 2-33. Prdiction dune activit anti-VIH

Comme mentionn dans la prsentation des graph


machines, celles-ci peuvent galement effectuer des tches de classification. Un ensemble de donnes de
321 molcules, possdant des groupements fonctionnels varis, a t divis en un ensemble dapprentis-
sage-validation de 274 exemples et un ensemble de test de 47 exemples. La slection de modles a t
effectue par validation croise laide de 10 sous-ensembles. La procdure a conduit au choix dune
Lapprentissage statistique
118

fonction de nud constitue dun rseau de neurones 3 neurones cachs, qui ne commet aucune erreur,
ni sur les donnes dapprentissage, ni sur les donnes de test.
De nombreux autres exemples dapplications sont dcrits dans [GOULON 2007].

Une application en formulation :


la prdiction de la temprature de liquidus de verres
Dans le mme esprit que lapplication prcdente, on peut prdire des paramtres thermodynamiques de
matriaux en fonction de la composition de ceux-ci. Cest le cas notamment pour la temprature de
liquidus de verres doxydes. Cette temprature est la temprature maximale laquelle des cristaux sont
en quilibre thermodynamique avec le liquide ; il est important, industriellement, de pouvoir prdire cette
temprature en fonction de la composition du verre, car la valeur de la viscosit la temprature de
liquidus est un lment important pour le choix des paramtres des procds de mise en forme des verres.
La prdiction de cette temprature en fonction de la composition du verre est difficile, car les diagrammes
prsentent des variations brutales dans le domaine dintrt ; compte tenu de cet enjeu industriel, de
nombreuses tudes ont t menes (voir par exemple [KIM 1991]) et des bases de donnes sont disponi-
bles. Lutilisation de modles non linaires obtenus par apprentissage sest montre avantageuse par
rapport aux mthodes traditionnelles, notamment pour les verres ayant plus de trois composantes.
La figure 2-34 illustre, sur un exemple concret, la parcimonie des rseaux de neurones. Les variables des
modles sont les teneurs en oxydes et le modle doit prdire la temprature de liquidus. La figure 2-34(a)
prsente le rsultat obtenu sur un verre de silice (compos, outre de SiO2, doxyde de potassium K2O et
dalumine Al2O3), obtenu avec un rseau 6 neurones cachs (25 paramtres), et la figure 2-34(b) le
rsultat obtenu avec un polynme de degr 3, dont le mme nombre de paramtres est trs voisin (19). Il
est clair que, nombre de paramtres peu prs quivalent, le rseau de neurones fournit un bien meilleur
rsultat. La figure 2-34(c) indique, pour mmoire, le rsultat obtenu avec un modle linaire.

Modlisation dun procd de fabrication : le soudage par points


Le soudage par points est le procd de soudage le plus utilis dans lindustrie automobile : des millions de
soudures sont effectues chaque jour. Le procd est schmatis sur la figure 2-11 : le soudage des deux tles
est effectu en faisant passer un courant trs intense (des kiloampres) pendant un temps trs court (quelques
centaines de millisecondes) entre deux lectrodes presses contre la surface des tles. Lchauffement
produit par effet Joule fait fondre une zone des tles. Aprs refroidissement, le diamtre de la zone fondue
(typiquement 5 mm) caractrise la qualit de la soudure ; si ce diamtre est infrieur 4 mm, la soudure est
considre comme dfectueuse. Le diamtre du point soud est donc un lment crucial de la scurit du
vhicule. lheure actuelle, il nexiste pas de mthode physique non destructive qui permette dvaluer rapi-
dement le diamtre de la soudure. En consquence, une stratgie industrielle typique consiste :
utiliser une intensit de courant excessive, ce qui produit un trs grand chauffement, donc ljection
de gouttelettes de mtal en fusion de la zone de soudage (cest lorigine des tincelles que lon
observe chaque soudure effectue par les robots de soudage sur une chane de fabrication) ;
raliser des soudures en surnombre afin que, avec une probabilit voisine de 1, on ait au moins une
soudure de bonne qualit.
Lexcs de courant et le trop grand nombre de soudures conduisent une dgradation rapide des lec-
trodes, qui doivent tre changes ou rusines frquemment.
Pour toutes ces raisons, la modlisation du processus en vue dobtenir une prdiction fiable du diamtre de
la soudure, en temps rel, partir de mesures effectues pendant le soudage, constitue un problme industriel
important. Il est trs difficile de modliser la dynamique du processus de soudage, pour plusieurs raisons :
Les rseaux de neurones
119
CHAPITRE 2

6 neurones
1600
cachs
1500

1400

1300

1200

1100

1000

900

800
700
800 900 1000 1100 1200 1300 1400 1500 1600 1700

(a)

1600

1500
Polynme de degr 3
1400

1300

1200

1100

1000

900

800
700
800 900 1000 1100 1200 1300 1400 1500 1600 1700

(b)

1600

1500
0 neurones cachs
1400 (modle linaire)
1300

1200

1100

1000

900

800
700
800 900 1000 1100 1200 1300 1400 1500 1600 1700

(c)

Figure 2-34. Diagrammes de dispersion (temprature prdite en fonction de la temprature observe) pour la prdiction
de la temprature de liquidus de verres doxydes en fonction de la composition, pour trois modles diffrents.
Lapprentissage statistique
120

le temps ncessaire pour intgrer numriquement les quations diffrentielles et les quations aux dri-
ves partielles du modle de connaissance est suprieur, de plusieurs ordres de grandeur, la dure
dune soudure : on ne peut donc pas utiliser un tel modle pour une prdiction en temps rel ;
certains paramtres physiques, qui interviennent dans les quations du modle de connaissance, sont
mal connus.
La modlisation par apprentissage est donc une alternative intressante un modle de connaissance. Le
procd tant non linaire et prsentant plusieurs variables, les rseaux de neurones sont de bons candi-
dats pour effectuer une prdiction, en temps rel, du diamtre du point fondu, et donc de la qualit de la
soudure, en fonction de mesures effectues pendant la soudure [MONARI 1999].
Les difficults sont, dune part, le choix des variables du modle et, dautre part, le fait que la constitution
dune base de donnes est onreuse : le nombre dexemples est donc limit.
Les grandeurs candidates pour constituer des variables du modle sont des grandeurs mcaniques et lec-
triques qui peuvent tre mesures durant le processus. La slection des variables a t effectue laide
des mthodes dcrites dans le chapitre 1, et le choix ainsi effectu a t valid par les experts impliqus
dans le dveloppement du modle de connaissance du procd.
Comme il nexiste pas de mthode non destructive simple pour prdire le diamtre du point fondu, la base
de donnes est construite de la manire suivante : un ensemble de soudures est effectu dans des condi-
tions bien contrles ; elles sont ensuite arraches ( dboutonnes ) et le diamtre du bouton fondu ,
qui reste solidaire dune des tles, est mesur. Cest un processus long et coteux, de sorte que lensemble
dapprentissage initial comprenait seulement 250 exemples. En utilisant lestimation des intervalles de
confiance qui sera expose dans la section Effet du retrait dun exemple sur lintervalle de confiance
pour sa prdiction , un plan dexpriences a t tabli, qui a permis denrichir progressivement la base
de donnes disponible. La moiti de ces donnes a t utilise pour lapprentissage, lautre pour le test ;
la slection de modle a t effectue par la procdure de leave-one-out virtuel, de sorte quil na pas t
ncessaire dutiliser un ensemble de validation.
La figure 2-35 prsente des diagrammes de dispersion typiques, o chaque prdiction figure avec son
intervalle de confiance. Lerreur de gnralisation estime (score de leave-one-out, voir chapitre 1 et
section Slection de modles du prsent chapitre) est de 0,27 mm, et lEQMT de lordre de 0,23 mm.
Ces quantits tant de lordre de grandeur de lincertitude de mesure, ces rsultats sont trs satisfaisants.

8 8
Diamtre prdit (mm)
Diamtre prdit (mm)

7 7

6 6
Figure 2-35.
5 5 Diagrammes
de dispersion
4 4 pour la prdiction
du diamtre
3 3 de soudures
par points,
2 2 et intervalles
2 3 4 5 6 7 8 2 3 4 5 6 7 8 de confiance sur
Diamtre mesur (mm) Diamtre mesur (mm) les prdictions
Les rseaux de neurones
121
CHAPITRE 2

Application en robotique :
modlisation de lactionneur hydraulique dun bras de robot
On cherche concevoir un modle dun bras de robot dont la position est commande par un actionneur
hydraulique. La position du bras dpend de la pression de liquide hydraulique dans lactionneur, pression
commande par louverture dune vanne. Il sagit dun processus dynamique, command en temps discret ;
comme indiqu dans la section quoi servent les rseaux de neurones boucls ? , on omet de mentionner
la priode dchantillonnage T afin dallger les notations. Les variations de louverture de la vanne, cest--
dire la squence de signaux de commande {u(k)}, et la pression dhuile correspondante, cest--dire la
squence de la grandeur modliser {yp(k)}, sont reprsentes sur la figure 2-36. Cet ensemble de donnes
contient 1 024 points de mesure : la premire moiti dentre eux est utilise pour lapprentissage, la seconde
pour lestimation de la performance (squence de test). On ne dispose daucune autre information sur le
processus : on a donc ncessairement recours une modlisation bote noire.

1,5
Commande
1

0,5

-0,5

-1

-1,5
0 200 400 (a) 600 800 1000

Squence d'apprentissage Squence de test


4
Sortie du processus
2

-2

-4
0 200 400 (b) 600 800 1000
Figure 2-36. Squences dapprentissage et de test pour la modlisation dun bras de robot

Lexamen des donnes montre que le processus nest certainement pas linaire et que, compte tenu des
oscillations observes en rponse des variations de u(k) qui sont presque des chelons, le processus est
au moins dordre 2. On observe aussi que les squences dapprentissage et de test nexplorent quapproxi-
mativement le mme domaine de fonctionnement (signaux de sortie et de commande de mme type et de
mme amplitude). On note quaux instants 600 et 850 environ de la squence de validation, lamplitude
Lapprentissage statistique
122

de la commande dpasse les amplitudes maximales atteintes sur la squence dapprentissage. On ne se


trouve donc pas dans les meilleures conditions possibles.
Cet exemple sera tudi en dtail dans la section Que faire en pratique ? Un exemple de modlisation
dynamique bote noire . Les meilleurs rsultats ont t obtenus [OUSSAR 1998] avec un modle dtat
du second ordre, dont lune des variables dtat est la sortie elle-mme, de la forme :

g ( k + 1) = x1 ( k + 1) = 1 ( x1 ( k ) , x2 ( k ) , u ( k ))
x2 ( k + 1) = 2 ( x1 ( k ) , x2 ( k ) , u ( k ))

avec deux neurones cachs. Il est reprsent sur la figure 2-37.

g(k+1) = x1(k+1)

x2(k+1)

q-1
5 yp
g

1 u(k) x2(k)
-5
g(k) = x1(k) 0 100 200 300 400 500
Figure 2-37. Modle neuronal dtat pour lactionneur Figure 2-38. Modlisation dtat de lactionneur hydraulique
hydraulique. La sortie est lune des variables dtat.

Lerreur quadratique moyenne obtenue avec le modle de la figure 2-37 est de 0,07 sur la squence
dapprentissage et de 0,12 sur la squence de validation, ce qui est une trs bonne performance compte
tenu de la reprsentativit des donnes disponibles. Les rsultats obtenus sur la squence de test sont
reprsents sur la figure 2-38. Les dfauts de modlisation rsultent du fait quil y ait des perturbations
non mesures, qui ne figurent pas dans les variables du rseau.

Modlisation semi-physique dun procd manufacturier


La mthode de modlisation semi-physique sera dcrite en dtail dans la section Modlisation dyna-
mique bote grise . Lapplication qui en est prsente ici porte sur la modlisation du schage du ruban
adhsif Scotch.
Un ruban adhsif est constitu dun film de matire plastique le substrat sur lequel est dpos un film
liquide le revtement constitu dun polymre adhsif dissout dans un solvant. Lensemble passe dans
un four, dans une atmosphre gazeuse o la pression partielle du solvant est trs infrieure la pression
partielle lquilibre la temprature du four ; en consquence, le solvant svapore, de sorte que la
Les rseaux de neurones
123
CHAPITRE 2

concentration du solvant dans le revtement au voisinage de la surface devient infrieure la concentra-


tion du solvant dans le volume du revtement. Le solvant diffuse alors du volume vers la surface pour
compenser ce gradient de concentration, ce qui alimente encore lvaporation. Le processus se poursuit
jusqu schage du revtement, de sorte que seul subsiste ladhsif la surface du substrat.
Traditionnellement, le solvant est un solvant organique. Pour des raisons de scurit et denvironnement,
il est souhaitable de remplacer les solvants organiques par de leau. Un modle physique prcis du
schage en prsence dun solvant organique existe [PRICE 1997] ; il est constitu de treize quations alg-
briques et diffrentielles non linaires couples ; lorsque le solvant organique est remplac par de leau,
certains lments de ce modle ne sont plus valables, de sorte que les prdictions du modle sont beau-
coup moins prcises.
La thorie de la dissolution du polymre dans leau est moins bien connue que celle du polymre dans un
solvant organique, de sorte que lon ne peut pas laborer un modle de connaissance satisfaisant ; dautre
part, des squences de mesure du poids de lchantillon en fonction du temps et de la temprature du four
sont disponibles : lutilisation dun modle semi-physique parat donc possible et opportune.
Les quations qui constituent le modle expriment :
la conservation de la masse dans le volume du solvant : cette quation ne peut tre remise en cause par
le changement du solvant ;
la loi qui rgit le courant de solvant vers la surface (loi de Fick). La validit de cette loi nest pas discu-
table, mais elle fait intervenir une grandeur (le coefficient de diffusion) dont la variation en fonction de
la concentration et de la temprature est donne par une thorie (thorie du volume libre) dont la vali-
dit, dans le cas o le solvant est de leau, est incertaine ;
la condition de conservation de la masse la surface : toute molcule qui arrive la surface, et
svapore, contribue la variation de la pression partielle du solvant dans le gaz cette loi ne peut tre
remise en cause ;
la condition linterface entre le revtement et le substrat : le substrat tant impermable au solvant, il
ny a aucun flux de solvant vers le substrat ;
la valeur de la pression partielle de solvant dans le gaz, qui constitue la force motrice du processus. Cette
grandeur est donne par une loi dont la validit nest pas remise en cause par les experts.
la lumire de cette analyse, il apparat que cest la variation du coefficient de diffusion qui doit tre
reprsente par un rseau de neurones bote noire au sein du modle semi-physique. Cest ce qui a t
effectu en suivant la mthode de conception esquisse plus haut ; elle est dcrite en dtail dans la section
Modlisation dynamique bote grise . Il faut noter que les quations du modle ne sont pas des qua-
tions diffrentielles, mais des quations aux drives partielles ; ceci nest pas un obstacle lutilisation
de la mthode. Un schma explicite de discrtisation a t utilis pour la variable de temps, et une discr-
tisation implicite a t utilise pour la variable despace.
Le lecteur intress par les dtails de la ralisation du modle et par les rsultats obtenus pourra les lire
dans [OUSSAR 2001]. On trouvera galement une autre application la dtection automatique de dysfonc-
tionnements dans une colonne distiller industrielle mettant en uvre la modlisation neuronale semi-
physique, dans [PLOIX 1997]. Mentionnons enfin que des applications sont oprationnelles dans un
groupe industriel franais majeur, pour la formulation de matriaux et de produits nouveaux.

Contrle de lenvironnement : hydrologie urbaine


La Direction de leau et de lassainissement du dpartement de Seine-Saint-Denis a dvelopp un systme
sophistiqu de mesure des niveaux deau dans le systme de collecte des eaux pluviales, et a procd des
mesures systmatiques des chutes de pluie et des niveaux deau correspondants. Lobjectif est une utilisa-
Lapprentissage statistique
124

tion optimale du rseau et une bonne anticipation des difficults qui peuvent rsulter de pluies impor-
tantes. La fiabilit du systme dpend donc largement de la fiabilit des capteurs des niveaux deau dans
les collecteurs : il est donc important de pouvoir dtecter automatiquement quun capteur est en panne
[ROUSSEL 2001].
La possibilit de crer, par apprentissage, des modles statiques ou dynamiques a permis la ralisation de
nombreux systmes de dtection de dysfonctionnements : si lon dispose dun modle prcis du fonction-
nement normal du processus que lon veut surveiller, et que lon observe une diffrence significative entre
les prdictions du modle et les mesures effectues, on peut en conclure que le systme est en fonction-
nement anormal ou, dans lexemple dcrit ici, que le capteur considr est en panne.
Deux types de pannes doivent tre considrs :
capteur bloqu (fournissant une mesure constante) ;
capteur subissant une drive lente.
Ces deux types de pannes peuvent tres dtects en utilisant des rseaux de neurones boucls, notamment
des modles NARMAX, qui seront dcrits en dtail dans la section Techniques et mthodologie de
conception de modles dynamiques de ce chapitre, ainsi que dans le chapitre 4. Ainsi, la figure 2-39
montre clairement la diffrence de comportement de lerreur de modlisation lorsque le capteur est en
fonctionnement normal et lorsquil drive.
0,04
Erreur moyenne de modlisation

0,02
0
1 3 5 7 9 11 13
-0,02
Drive Figure 2-39.
-0,04
Fonctionnement Dtection
-0,06 normal de panne
de capteur dans
-0,08 un collecteur
deau pluviale
-0,10
-0,12
Jour

Une application en robotique mobile :


le pilotage automatique dun vhicule autonome
Commander un processus, cest dterminer les commandes lui appliquer afin de lui assurer un compor-
tement donn (dfini par un cahier des charges) en dpit de perturbations.
Lexemple prsent ici est celui dun vhicule Mercedes 4 4 (baptis REMI), quip par la socit
SAGEM des capteurs et actionneurs ncessaires pour que le vhicule puisse tre autonome. Commander
ce processus, cest envoyer aux actionneurs du volant, de lacclrateur et du frein, les signaux de
commande ncessaires pour que le vhicule suive une trajectoire dfinie lavance, avec un profil de
vitesse dtermin au pralable, en dpit des perturbations telles que la pente de la route, son dvers, les
bourrasques de vent, des drapages ventuels, etc.
Les rseaux de neurones sont de bons candidats pour tre des lments de systmes de commande de
processus non linaires. En effet, on a vu leur capacit raliser des modles, botes noires ou aids de
connaissances physiques. Or, pour tre en mesure dlaborer un systme de commande pour un processus,
Les rseaux de neurones
125
CHAPITRE 2

il faut gnralement disposer dun modle de celui-ci ; les rseaux de neurones interviennent donc dans
les systmes de commande non linaires comme modles du processus, soit pendant la phase dappren-
tissage, soit en tant qulment du systme de commande lui-mme (commande avec modle interne).
Dautre part, llaboration du signal de commande (par exemple langle dont il faut faire tourner le volant,
et la vitesse angulaire avec laquelle il faut le faire tourner) partir de linformation de consigne (le cap
que doit suivre le vhicule) implique gnralement la ralisation dune fonction non linaire, donc les
rseaux de neurones peuvent avantageusement assurer cette fonction : celle du correcteur.
Le vhicule exprimental REMI est quip dactionneurs (moteur lectrique pour faire tourner le volant,
actionneur hydraulique pour le circuit de freinage, moteur lectrique pour le papillon dadmission dair)
et de capteurs de deux types :
des capteurs qui permettent de connatre ltat du vhicule (capteurs proprioceptifs) : odomtres sur les
roues, capteur angulaire sur le volant et le papillon dadmission dair, capteur hydraulique sur le circuit
de freinage ;
un capteur qui permet de connatre la position du vhicule par rapport au monde extrieur (capteur
extroceptif) : une centrale inertielle.
Le systme de navigation et de pilotage est constitu des lments suivants :
un module de planification qui, partir de lobjectif atteindre et des contraintes (routes), dtermine la
trajectoire que doit suivre le vhicule, et le profil de vitesse respecter durant le trajet ;
un module de guidage, qui labore les consignes de cap et de vitesse ;
un module de pilotage, qui dtermine les positions souhaites pour les actionneurs ;
un module de commande des actionneurs eux-mmes.
Dans cette structure, les rseaux de neurones interviennent au niveau du pilotage pour dterminer les
actions souhaitables en fonction des consignes de cap et de vitesse [RIVALS 1994] [RIVALS 1995].
Lapplication a ncessit la conception et la ralisation de deux systmes de commande destins raliser
deux tches :
la commande du volant, pour maintenir le vhicule sur sa trajectoire : un rgulateur neuronal de la posi-
tion a t ralis, qui permet une erreur latrale maximale de 40 cm, pour des courbures jusqu 0,1 m-1,
et des dvers jusqu 30 %, sur route et en tout-terrain ; cet asservissement a mis en uvre, en certains
de ses lments, une modlisation semi-physique ;
la commande de lacclrateur et du frein, pour respecter le profil de vitesse impos par le module de
guidage.
Il faut noter que les divers rseaux de neurones mis en jeu dans cette application, quils jouent le rle de
modles ou de correcteurs, sont tous de trs petite taille (moins dune dizaine de neurones cachs). Leur
mise en uvre en temps rel na ncessit aucun matriel spcialis : ils ont t raliss sous forme
uniquement logicielle, excuts sur une carte microprocesseur standard qui remplissait diverses autres
fonctions.

Techniques et mthodologie de conception de modles


statiques (rseaux non boucls)
Dans ce chapitre, on a dlibrment laiss de ct, jusqu cette section, un certain nombre de points tech-
niques dont la connaissance nest pas essentielle pour comprendre ce que peuvent apporter les modles
neuronaux lingnieur ou au chercheur, mais quil faut videmment connatre pour mettre en uvre une
application. Cest pourquoi cette section prsente plus en dtail les points qui nont t que survols
Lapprentissage statistique
126

jusqu prsent. On reprendra ici les lments de mthodologie exposs succinctement dans le premier
chapitre : slection de variables, apprentissage, slection de modles.

Slection des variables


Rappelons ce qui a t indiqu au chapitre 1, section Slection de variables : la slection des variables
dun modle est trs importante pour assurer la parcimonie de celui-ci. Cette tape de la conception de
modles peut comprendre deux tches, raliser successivement :
la rduction de la dimension du vecteur des variables par analyse en composantes principales, analyse
en composantes indpendantes ou analyse en composantes curvilignes ; cette tche est explique en
dtail dans le chapitre 3 ;
la slection des variables pertinentes, qui a t dcrite dans le chapitre 1.
Pour cette dernire tche, la mthode de la variable sonde sapplique entirement la slection
des variables dun rseau de neurones. En effet, une variable qui est pertinente lest indpendamment du
modle postul, condition que lon prenne en considration le fait que deux variables prises sparment
peuvent ne pas tre pertinentes, mais que la combinaison des deux peut ltre. On applique donc la
mthode de la variable sonde comme indiqu dans le chapitre 1, en nomettant pas de tenir compte
des variables primaires et des variables secondaires ; on recense les variables primaires slectionnes,
seules ou en combinaison, et on les utilise comme variables dun rseau de neurones. On bnficie ainsi
de la parcimonie de ce dernier, qui, rappelons-le, est trs avantageuse pour les problmes ncessitant une
modlisation non linaire avec plus de deux variables.

Estimation des paramtres (apprentissage) dun rseau de neurones


non boucl
Rappelons que lestimation des paramtres du modle se fait par minimisation dune fonction de cot qui
traduit la distance entre les mesures effectues ykp (k = 1 N), prsentes dans lensemble dapprentis-
sage, et les prdictions du modle g(xk, w) (k = 1 N) sur ces mmes mesures. Le plus souvent, on utilise
la fonction de cot des moindres carrs :
N

(
J ( w ) = ykp g ( x k , w ) . )
2

k =1

Les mthodes qui peuvent tre mises en uvre pour minimiser la fonction de cot sont de deux types :
des mthodes non adaptatives dapprentissage : elles consistent estimer les paramtres du modle par
minimisation de la fonction de cot des moindres carrs, qui tient compte simultanment de tous les
exemples de lensemble dapprentissage ; lutilisation dune telle mthode ncessite videmment que
les N exemples soient disponibles ds le dbut de lapprentissage ;
des mthodes adaptatives dapprentissage : elles consistent modifier les paramtres du modle,
successivement en utilisant la fonction de perte relative chaque exemple k : ( xk , w ) = ykp g ( xk , w ) . ( )
2

Cette technique est la seule qui soit applicable lorsquon dsire effectuer lapprentissage sans attendre
que tous les exemples soient disponibles ; elle permet galement de mettre jour un modle si le
processus quil modlise est soumis des drives lentes (usures, encrassements).
Terminologie
En anglais, on dsigne lapprentissage non adaptatif sous le terme de batch training ou off-line training, et lapprentissage adaptatif sous le
terme de on-line training.
Lapprentissage non adaptatif, le plus frquemment utilis, est dcrit dans la section suivante.
Les rseaux de neurones
127
CHAPITRE 2

Apprentissage non adaptatif des rseaux de neurones


Comme lapprentissage des systmes linaires, celui des systmes non linaires a pour objectif de mini-
miser la fonction de cot des moindres carrs. Comme expliqu dans le chapitre 1, cette minimisation se
fait aisment dans le cas des systmes linaires : la fonction de cot tant quadratique par rapport aux
paramtres, sa drive est linaire par rapport ceux-ci, de sorte que lon obtient un systme dquations
linaires. En revanche, si le modle nest pas linaire en ses paramtres, les quations obtenues en annu-
lant le gradient de la fonction de cot ne sont pas linaires, ce qui complique lestimation des paramtres.
Cest une des composantes du prix payer pour bnficier de la parcimonie caractristique des rseaux
de neurones. Lautre composante de ce prix est lexistence de plusieurs minima locaux de la fonction de
cot : celle-ci ntant pas quadratique, elle ne possde pas un minimum unique.
La minimisation de la fonction de cot ne pouvant tre effectue par inversion de matrice, comme cest le
cas pour les modles linaires, il faut avoir recours des techniques classiques doptimisation : ce sont
des mthodes itratives, qui modifient les paramtres du modle en fonction du gradient de la fonction de
cot par rapport ces paramtres.
Chaque itration du processus dapprentissage ncessite donc la mise en uvre de deux ingrdients bien
distincts :
lvaluation du gradient de la fonction de cot choisie ;
la modification des paramtres en fonction de ce gradient, afin dapprocher un minimum de la fonction
de cot.

Terminologie
Pour lapprentissage non adaptatif, on utilise aussi, au lieu du terme ditration, le terme dpoque.

Ces deux points vont tre abords successivement ; on rappelle tout dabord le pralable indispensable :
la normalisation des variables.
Normalisation des variables et de la grandeur modliser
Rappelons que, avant tout apprentissage, il est indispensable de normaliser et de centrer toutes
les variables, ainsi que la grandeur modliser. La procdure de normalisation a t dcrite dans le
chapitre 1, section Prtraitement des donnes .
valuation du gradient de la fonction de cot
Lorsque le modle postul est un rseau de neurones, lvaluation du gradient de la fonction de cot peut
tre effectue dune faon conomique laide dun algorithme appel algorithme de rtropropagation
[RUMELHART 1986] [WERBOS 1974], devenu tellement populaire quil apparat parfois comme synonyme
dapprentissage de rseaux de neurones. En ralit, lalgorithme de rtropropagation nest pas un algo-
rithme dapprentissage, mais un ingrdient dans une procdure dapprentissage. On montrera dailleurs
quil est possible dvaluer le gradient au moyen dune autre mthode que la rtropropagation.

proscrire
On trouve trop souvent lexpression rseau de neurones rtropropagation (quand ce nest pas rseau backprop ...) pour dsigner
un rseau de neurones non boucl. Cette expression est doublement absurde : dune part, il est parfaitement possible de faire lapprentis-
sage dun rseau non boucl sans utiliser la rtropropagation, comme on le verra dans le paragraphe intitul valuation du gradient de
la fonction de cot dans le sens direct ; dautre part, on utilise aussi la rtropropagation dans lapprentissage de rseaux boucls, comme
on le montrera dans les paragraphes consacrs lapprentissage de modles dynamiques. Il ny a donc aucun lien entre larchitecture du
rseau (boucl ou non boucl) et lutilisation, ou la non-utilisation, de la rtropropagation.
Lapprentissage statistique
128

valuation du gradient de la fonction de cot par rtropropagation


Considrons un rseau de neurones non boucl avec neurones cachs et un neurone de sortie. Lextension
un rseau qui possde plusieurs neurones de sortie est triviale. Rappelons que le neurone i calcule une
quantit yi qui est une fonction non linaire de son potentiel vi :

ni
yi = f ( vi ) = f wij x ij ,
j =1
o x ij dsigne la variable j du neurone i. Les ni variables du neurone i peuvent tre soit les sorties
dautres neurones, soit les variables du rseau. Dans toute la suite, x ij dsignera donc indiffremment soit
la sortie yj du neurone j, soit la variable j du rseau, lune ou lautre constituant une variable du neurone i.
La fonction de cot dont on cherche valuer le gradient est de la forme :
N N

(
J ( w ) = ykp g ( x k , w ) ) = ( x , w ),
2
k
k =1 k =1

o (xk,w) est la fonction de perte relative lexemple k. Pour valuer le gradient de la fonction de cot,
il suffit donc dvaluer le gradient de la fonction de perte relative lobservation k, et de faire ensuite la
somme sur tous les exemples.
Lalgorithme de rtropropagation consiste essentiellement en lapplication rpte de la rgle des drives
composes. On remarque tout dabord que la fonction de perte ne dpend du paramtre wij que par linter-
mdiaire de la valeur de la sortie du neurone i, qui est elle-mme fonction uniquement du potentiel du
neurone i ; on peut donc crire :

( x, w ) ( x, w ) vi
w = w = ik x ij ,k ,
ij vi x = xk
ij x = x
x = xk k

o
( x, w )
= ik dsigne la valeur du gradient de la fonction de perte par rapport au potentiel du
vi x = xk
neurone i lorsque les valeurs des variables du rseau sont celles qui correspondent lexemple k ;
v
i = x ij ,k dsigne la valeur de la drive partielle du potentiel du neurone i par rapport au para-
wij x = xk
mtre wij lorsque les variables du rseau sont celles qui correspondent lexemple k ;
x ij ,k est la valeur de la variable j du neurone i lorsque les variables du rseau sont celles qui correspon-
dent lexemple k.
Cette dernire quantit est entirement calculable si lon connat les valeurs des paramtres. Or celles-ci
sont connues tout moment pendant lapprentissage, puisquelles ont initialement des valeurs alatoires,
qui sont ensuite modifies selon les algorithmes qui seront prsents dans la section Modification des
paramtres en fonction du gradient de la fonction de cot ; les quantits x ij ,k sont donc connues. Il reste
donc valuer les quantits ik prsentes dans le membre de droite de lquation. On va dmontrer que ces
quantits peuvent tre avantageusement calcules dune manire rcursive en menant les calculs depuis la
(ou les) sortie(s) du rseau vers ses entres.
Les rseaux de neurones
129
CHAPITRE 2

En effet :
pour le neurone de sortie, de potentiel vs :
( x, w ) p 2 g ( x, w )
sk = =
vs x = xk vs ( yk g ( xk , w )) = 2e ( xk , w )
vs x = xk
,

o e ( xk , w ) = ykp g ( x k , w ) est lerreur de modlisation commise par le rseau, muni du vecteur de para-
mtres w, pour lexemple xk.
Or, la prdiction du modle est le rsultat du calcul du neurone de sortie ; cette relation scrit donc :
( ) ( )
sk = 2 e ( xk , w ) f vsk , o f vsk dsigne la drive de la fonction dactivation du neurone de sortie
lorsque les entres du rseau sont celles de lexemple k. Si, comme cest le cas lorsque le rseau est
utilis en modlisation, le neurone de sortie est linaire, lexpression se rduit : sk = 2 e ( xk ,w ) ;
pour un neurone cach i : la fonction de cot ne dpend du potentiel du neurone i que par lintermdiaire
des potentiels des neurones m dont une des variables est la valeur de la sortie du neurone i, cest--dire
de tous les neurones qui, dans le graphe des connexions du rseau, sont adjacents au neurone i, entre ce
neurone et la sortie :
( x, w ) ( x, w ) vm v
ik = = mk m .
vi x = xk m vm x = x vi x = x
k k
m vi x = xk

Dsignant par vmk le potentiel du neurone m lorsque les variables du rseau sont celles de lexemple k, on
v
( )
a : vmk = wmi xim,k = wmi f vik . Par consquent m
vi x = xk
( )
= wmi f vik .
i i

On obtient donc finalement la relation :

ik = mk wmi f ( vik ) = f ( vik ) mk wmi


m m

Ainsi, les quantits ik peuvent tre calcules rcursivement, en parcourant le graphe des connexions
dans le sens rtrograde , depuis la (les) sortie(s) vers les variables du rseau (ce qui explique le terme
de rtropropagation).
Une fois que les gradients des fonctions de perte ont t calculs, il suffit den faire la somme pour obtenir
le gradient de la fonction de cot.
Rsum de la rtropropagation
Lalgorithme de rtropropagation comporte deux phases pour chaque exemple k :
une phase de propagation, au cours de laquelle les variables correspondant lexemple k sont utilises
pour calculer les sorties et les potentiels de tous les neurones ;
une phase de rtropropagation, au cours de laquelle sont calcules les quantits ik .
Une fois que ces quantits sont disponibles, on calcule les gradients des fonctions de perte par les relations
( x, w ) J ( w ) N ( x k , w )
w = k i , puis le gradient du cot total
x = .
ij x = xk
i j ,k
wij k =1 wij

Lalgorithme de rtropropagation peut tre interprt sous une forme graphique, en introduisant le
rseau adjoint du rseau dont on veut estimer les paramtres. Cette approche, parfois utile, est
prsente dans le chapitre 4 traitant de lidentification de systmes dynamiques.
Lapprentissage statistique
130

Remarque importante
Lalgorithme de rtropropagation a t prsent ici dans le cadre de la minimisation de la fonction de cot des moindres carrs. Il est facile
de ladapter au calcul du gradient de nimporte quelle autre fonction de cot drivable, notamment, pour la classication, la fonction de
cot dentropie croise.

valuation du gradient de la fonction de cot dans le sens direct


Une mythologie sest dveloppe, selon laquelle lapprentissage des rseaux de neurones possdant
des neurones cachs a t rendu possible par linvention de la rtropropagation. En ralit, il est tout fait
possible dvaluer le gradient de la fonction de cot par un calcul plus simple dans son principe (quoique
plus coteux en temps de calcul), qui a dailleurs t largement utilis pour lestimation des coefficients
de filtres linaires en cascade. Ce calcul seffectue dans le sens direct, en valuant les gradients partir
des variables, vers les sorties.
En effet :
pour un neurone m qui a pour variable xj,k, valeur prise par la variable j du rseau pour lexemple k :
ym y vm
w = m ( )
= f vmk x j ,k ;
mj x = xk vm x = xk wmj x = xk
pour un neurone m dont la sortie dpend de xj,k, valeur prise par la variable j du rseau ou par la sortie
du neurone j pour lexemple k, par lintermdiaire dautres neurones du rseau, situs entre les entres
et le neurone m :
ym y vm yl yl
w = m = f vmk( ) vy m
w ( ) w
= f vmk w
ij x = xk vm x = xk wij x = xk
ml
l l x = xk
ij x = x
k
l ij x = xk
o lindice l dsigne tous les neurones qui sont adjacents au neurone m dans le graphe des connexions,
entre le neurone j (ou la variable j) et le neurone m.
Ces deux relations permettent de calculer rcursivement les drives de la sortie de chaque neurone par
rapport aux paramtres qui ont une influence sur cette sortie, partir des variables du rseau jusquaux
sorties de ce dernier.
Une fois toutes ces drives calcules, on peut calculer le gradient de la fonction de perte :

( x, w ) g ( x, w )
w

=

x = xk ijw k (
y p g ( x, w ) 2
)
x = xk
(
= 2 e x k , w ) .
wij x = xk
ij

Or, g(x, w) est la sortie dun neurone du rseau, donc la dernire drive peut tre calcule rcursivement
par le mme procd que toutes les autres. Une fois valu le gradient de la fonction de perte pour chaque
exemple, on fait la somme de ces gradients comme pour la rtropropagation.
Comparaison entre lvaluation du gradient de la fonction de cot par rtropropagation et par calcul
dans le sens direct
Les calculs qui viennent dtre exposs montrent que la rtropropagation ncessite lvaluation dun
gradient par neurone, alors que le calcul direct requiert lvaluation dun gradient par connexion. Comme
le nombre de connexions est peu prs proportionnel au carr du nombre de neurones, le nombre
dvaluations de gradient est plus important pour le calcul direct que pour la rtropropagation.
Donc, pour lapprentissage de rseaux non boucls, on utilisera avantageusement la rtropropagation pour
valuer le gradient de la fonction de cot.
Les rseaux de neurones
131
CHAPITRE 2

valuation du gradient sous contrainte dgalit des paramtres : les poids partags
On a vu dans la section Modlisation et classification de donnes structures , quil est ncessaire, pour
lapprentissage des graph machines, deffectuer lapprentissage sous la contrainte quun certain nombre
de paramtres doivent tre gaux entre eux la fin de lapprentissage. On retrouve la mme contrainte
pour lapprentissage des rseaux de convolution (section Reconnaissance des formes : la lecture auto-
matique de codes postaux ). Enfin, la mme contrainte est impose pour lapprentissage des rseaux
dynamiques, qui sera abord dans la section Techniques et mthodologie de conception de modles
dynamiques . Cette contrainte est appele contrainte des poids partags , introduite initialement dans
le contexte de la reconnaissance de la parole [WAIBEL 1989]). Or on verra, dans la section suivante, que
lvolution des paramtres, chaque itration de lalgorithme dapprentissage, dpend du gradient de la
fonction de cot ; pour que plusieurs paramtres restent gaux, il faut donc que le gradient de la fonction
de cot utilis pour leur mise jour soit le mme pour tous.
Supposons donc que, dans un mme rseau, v paramtres doivent tre gaux :
w1 = w2 = = wv = w
On peut crire le gradient de la fonction de cot sous la forme :
J J w1 J w2 J w ,
= + + ... +
w w1 w w2 w w w

w1 w2 w J J
or = = ... = = 1, donc = .
w w w w i =1 wi
Ainsi, lorsquun rseau contient des poids partags, il faut, chaque itration, effectuer la rtropropaga-
tion de la manire habituelle pour calculer les gradients par rapport ces paramtres, puis calculer la
somme de ces gradients, et affecter cette valeur chacun de ces gradients, avant de procder la modifi-
cation de ces paramtres.
Modification des paramtres en fonction du gradient de la fonction de cot
Dans la section prcdente, on a vu comment valuer le gradient de la fonction de cot par rapport aux
paramtres du modle, chaque itration du processus dapprentissage. Une fois que lon dispose de cette
valuation, on effectue une modification des paramtres, afin dapprocher dun minimum de la fonction
de cot. On examine prsent quelques algorithmes de minimisation itrative des paramtres du modle.
La mthode du gradient simple
La mthode du gradient simple consiste modifier les paramtres par la formule suivante, litration i
de lapprentissage :

w ( i ) = w ( i 1) i J ( w ( i 1)) , avec i > 0.


La direction de descente est donc simplement oppose celle du gradient : cest en effet la direction selon
laquelle la fonction de cot diminue le plus rapidement. La quantit i est appele pas du gradient ou pas
dapprentissage.
Cette mthode est simple, mais elle prsente de nombreux inconvnients :
Si le pas du gradient est trop petit, la dcroissance du cot est trs lente ; si le pas est trop grand, le cot
peut augmenter ou osciller ; cette situation est illustre sur la figure 2-40, qui reprsente les lignes de
niveau de la fonction de cot (fonction de deux variables w1 et w2) et lvolution du point reprsentatif
du vecteur w au cours du droulement de lalgorithme.
Lapprentissage statistique
132

Au voisinage dun minimum de la fonction de cot, le gradient de cette dernire tend vers zro : lvolu-
tion du vecteur des coefficients devient donc trs lente. Il en va de mme si la fonction de cot prsente
des plateaux o sa pente est trs faible ; ces plateaux peuvent tre trs loigns dun minimum, et,
dans la pratique, il est impossible de savoir si une volution trs lente du gradient est due au fait que lon
est au voisinage dun minimum, ou que lon se trouve sur un plateau de la fonction de cot.
Si la courbure de la surface de cot varie beaucoup, la direction du gradient peut tre trs diffrente de
la direction qui mnerait vers le minimum ; cest le cas si le minimum recherch se trouve dans une
valle longue et troite (les courbes de niveau sont des ellipsodes allongs au voisinage du
minimum), comme on le voit galement sur la figure 2-40.

Figure 2-40.
Minimisation
de la fonction
de cot par
la mthode
du gradient
simple

Pour porter remde au premier inconvnient, de trs nombreuses heuristiques ont t proposes, avec des
succs divers. Les mthodes de recherche unidimensionnelle (notamment celle qui est prsente dans les
complments thoriques et algorithmiques la fin de ce chapitre), fondes sur des principes solides, sont
recommandes.
Pour faire face aux deux autres problmes, on utilise des mthodes du second ordre qui, au lieu de modi-
fier les coefficients uniquement en fonction du gradient de la fonction de cot, utilisent les drives
secondes de cette dernire. Certaines de ces mthodes font galement intervenir un paramtre suscep-
tible dtre choisi laide de mthodes de recherche unidimensionnelle.
Les grandes lignes des mthodes du second ordre les plus frquemment utilises, ainsi que les mthodes
de recherche unidimensionnelle du pas, sont prsentes dans les sections suivantes.
Les mthodes de gradient du second ordre
Toutes les mthodes du second ordre sont drives de la mthode de Newton, dont on dcrit ici le principe.
Le dveloppement de Taylor dune fonction f(x) dune seule variable x au voisinage dun minimum x* est
donn par la relation :

d2 f
f ( x ) = f ( x *) +
1
2
( )
( x x *)2 2 + O x 3 ,
dx x = x*
car le gradient de la fonction de cot f(x) est nul au minimum. Une approximation du gradient de la fonc-
tion de cot au voisinage du minimum est obtenue aisment partir de la relation prcdente, en la dri-
vant par rapport w :

df d2 f
( x x *) 2 .
dx dx x = x*
Les rseaux de neurones
133
CHAPITRE 2

Par consquent, lorsque la variable x est au voisinage de x*, on pourrait atteindre ce minimum en une
seule itration si lon connaissait la drive seconde de la fonction son minimum : il suffirait pour cela
-----
df
-
dx
de modifier la variable w de la quantit x = ----------------------
2
-.
d--------f
d x2
x = x*

Le mme raisonnement sapplique une fonction de plusieurs variables, la drive seconde tant
2 f
remplace par la matrice hessienne H(w) de la fonction optimiser, de terme gnral : pour
xi x j
atteindre le minimum de la fonction de cot en une itration, il suffirait dappliquer au vecteur des poids
la modification suivante (sous rserve que la matrice hessienne soit inversible) :

x = H ( x *) f ( x ) .
1

Remarque
Ainsi, la diffrence de la mthode du gradient simple, les mthodes du second ordre adoptent une direction de dplacement, dans
lespace des variables, qui nest plus la direction du gradient, mais qui rsulte dune transformation linaire de celui-ci.

Cette dernire formule nest videmment pas applicable en pratique, puisque le vecteur x* nest pas
connu. Nanmoins, elle suggre plusieurs techniques qui mettent en uvre une approximation itrative de
la matrice hessienne (ou de son inverse). Deux dentre elles seront prsentes en annexe thorique et algo-
rithmique de ce chapitre : la mthode de Broyden-Fletcher-Goldfarb-Shanno (algorithme BFGS,
[BROYDEN 1970]) et lalgorithme de Levenberg-Marquardt ([LEVENBERG 1944] [MARQUARDT 1963]). Il
faut noter que ces mthodes ne sont pas spcifiques aux rseaux de neurones : ce sont des mthodes trs
gnrales doptimisation. On en trouvera des descriptions dtailles dans [PRESS 1992] ; cet ouvrage
prsente galement la technique du gradient conjugu , qui utilise la matrice hessienne de manire
implicite.
Pour lapprentissage des rseaux de neurones, la fonction optimiser f(x) en fonction des variables x nest
autre que la fonction de cot J(w), quil faut optimiser par rapport aux paramtres w du rseau. Le gradient
de J(w) est valu par lalgorithme de rtropropagation dcrit plus haut.
Que faire en pratique ?
En premier lieu, il ne faut pas utiliser la mthode du gradient simple et ses variantes, dont les temps de
convergence (en nombre ditrations) sont suprieurs de plusieurs ordres de grandeur ceux des
mthodes du second ordre (voir ci-aprs le paragraphe prsentant quelques problmes tests). Lutilisation
de la mthode du gradient simple ne peut se justifier que dans le cas o lon utilise de trs gros rseaux
(plusieurs milliers de paramtres), ce qui peut se produire pour des problmes de classification dans
lesquels les objets classer ont de trs nombreux descripteurs (typiquement, des images reprsentes par
des descripteurs de bas niveau). Dans ce cas, on arrte la descente avant datteindre un minimum de la
fonction de cot, afin dviter le surajustement ; cette technique, dite darrt prmatur (early stopping),
constitue une forme de rgularisation, sur laquelle on reviendra dans la section consacre lapprentis-
sage avec rgularisation.
Remarque
On mentionne souvent dans la littrature lheuristique du terme de moment (momentum term [PLAUT 1986]) qui consiste ajouter au
terme de gradient J un terme proportionnel la variation des coefcients litration prcdente [w(i 1) w (i 2)] ; on ralise ainsi
une sorte de ltre passe-bas qui peut viter les oscillations et augmenter un peu la vitesse de convergence si est bien choisi.
Lapprentissage statistique
134

Le choix entre les mthodes de BFGS et de Levenberg-Marquardt repose essentiellement sur des consi-
drations relatives au temps de calcul et la taille de la mmoire. La mthode de BFGS ncessite de
choisir le moment o lon passe du gradient simple BFGS ; il ny a pas, cet effet, de rgle fonde sur
des arguments thoriques. Quelques ttonnements sont parfois ncessaires pour trouver le bon
nombre ditrations (typiquement, une centaine), mais celui-ci nest pas critique. La mthode de Leven-
berg-Marquardt ne prsente pas cet inconvnient, mais elle devient lourde pour des gros rseaux (une
centaine de paramtres), en raison de linversion de matrice ncessaire chaque itration. Globalement,
on a donc intrt choisir la mthode de Levenberg-Marquardt si le rseau est petit , et celle de BFGS
dans le cas contraire. Si lon dispose du temps ncessaire, il est recommand dessayer les deux. La
mthode du gradient conjugu peut galement constituer une solution efficace au problme doptimisa-
tion de la fonction de cot.
Initialisation des paramtres
Quelle que soit la mthode mise en uvre, il est ncessaire de fixer les valeurs des paramtres du rseau
au dbut de lapprentissage. Les considrations suivantes doivent guider linitialisation de ces grandeurs :
les paramtres relatifs aux biais (entres constantes gales 1) doivent tre initialiss zro, pour
sassurer que les sigmodes des neurones sont initialement situes autour de zro ; alors, si les entres,
ainsi que les paramtres (autres que ceux des biais), ont t normaliss et centrs comme cela est recom-
mand plus haut, les valeurs des sorties des neurones cachs le sont galement ;
il reste sassurer que ces valeurs des sorties des neurones cachs ne sont pas trop voisines de +1 ou 1.
En effet, rappelons que le gradient de la fonction de cot, qui est le moteur de la minimisation,
dpend de la drive de la fonction dactivation des neurones cachs par rapport au potentiel. Or, au
voisinage de leurs saturations +1 et 1, les drives des sigmodes sont voisines de zro : dans ces
conditions, le processus de minimisation ne dmarre pas.
Soit n le nombre de variables du modle ; chaque neurone a donc n1 variables xi et un biais. Les param-
tres non nuls doivent tre suffisamment petits pour que les potentiels des neurones cachs aient une
variance de lordre de 1, afin que les sigmodes ne soient pas satures. Supposons que les xi puissent tre
considres comme des variables alatoires indpendantes Xi, tires de distributions identiques, centres
et normalises. On veut tirer les paramtres initiaux au hasard dans une distribution centre autour de
zro, dont on cherche la variance. Rappelons que le paramtre relatif au biais est initialis zro comme
n
indiqu lalina prcdent. Le potentiel v = wi xi de chaque neurone est donc la somme de n 1 varia-
i =1
bles alatoires qui sont les produits de variables alatoires indpendantes, centres, ayant toutes la mme
distribution. On dmontre facilement, partir des dfinitions et proprits indiques dans les notions
lmentaires de statistiques prsentes la fin du chapitre 1, que lon a :
varV = ( n 1) varWi varXi

avec varXi = 1 puisque les variables ont t normalises.


Ainsi, si lon veut que la variance du potentiel soit 1, on tirera les valeurs initiales des paramtres alatoi-
rement dans une distribution centre de variance 1/(n1). Si lon veut prendre une distribution uniforme
3
entre wmax et +wmax, on a : varWi = wmax
2
/ 3, donc il faut prendre wmax = .
n 1
Les points prcdents concernent les rseaux fonctions dactivation sigmode. Pour les rseaux de RBF
ou dondelettes, le problme est beaucoup plus critique, en raison du caractre localis de ces fonctions :
si, initialement, elles sont situes trs loin de lendroit o elles devraient tre, ou si leur extension spatiale
(cart-type ou dilatation) nest pas convenable, lapprentissage a peu de chances de russir. Le test des
Les rseaux de neurones
135
CHAPITRE 2

problmes matre-lve , qui sera introduit dans le paragraphe suivant, est beaucoup plus difficile
russir avec des RBF ou des ondelettes quavec des rseaux de sigmodes. Il faut mettre en uvre une stra-
tgie plus labore, dcrite en dtail dans [OUSSAR 2000] : on prpare une bibliothque dondelettes
ou de RBF, cest--dire un ensemble dun grand nombre de ces fonctions, et lon applique une mthode
de slection analogue aux mthodes de slection des variables dcrites plus haut. On effectue ensuite
lapprentissage en donnant aux paramtres les valeurs des paramtres des ondelettes, ou des RBF, qui ont
t slectionnes.

Comment tester un algorithme dapprentissage : le problme matre-lve

Lexprience dannes denseignement et de recherche montre quil est trs facile dcrire un algorithme
dapprentissage faux, ou un programme dapprentissage bogu , qui converge nanmoins, parfois trs
lentement, et aboutit un modle qui nest pas compltement ridicule. Les erreurs algorithmiques ou de
programmation peuvent alors passer inaperues si lon ne fait pas preuve de vigilance. Il est donc impor-
tant de tester la validit dune procdure dapprentissage que lon a crite soi-mme, ou tlcharge
gratuitement sur le Web.
cet effet, la mthode suivante (souvent appele problme matre-lve ) est commode et simple
mettre en uvre. On cre un rseau de neurones, le rseau matre , dont les paramtres sont arbitraires,
mais fixs et connus (par exemple, tirs au hasard, une fois pour toutes, dans une distribution uniforme
entre 4 et +4). On utilise ce rseau pour crer une base dapprentissage, aussi grande que lon veut, en
lui prsentant des variables alatoires (par exemple, tires dans une distribution uniforme entre 1 et +1)
et en calculant les sorties correspondantes. On utilise cette base pour faire lapprentissage dun second
rseau (le rseau lve ) qui a le mme nombre de variables et le mme nombre de neurones cachs
que le rseau matre. Si lalgorithme dapprentissage et le programme sont corrects, on doit retrouver les
paramtres du rseau matre avec une prcision correspondant aux seules erreurs darrondi (typiquement,
lerreur quadratique moyenne est de lordre de 1030, et chaque paramtre du rseau lve est gal au para-
mtre correspondant du rseau matre, aux erreurs darrondi prs). Si ce nest pas le cas, lalgorithme
dapprentissage, et/ou sa programmation, doivent gnralement tre mis en cause.

Remarque
La structure du rseau lve obtenu est identique celle du rseau matre une permutation prs pour les neurones cachs. Cest une
consquence du thorme dunicit [SONTAG 1993].

Deux problmes tests :


Problme 1 : un rseau 8 variables, 6 neurones cachs et une sortie est cr en tirant des paramtres
uniformment dans lintervalle [20, +20]. Un ensemble dapprentissage et un ensemble de test de
1 500 exemples chacun sont crs en tirant des entres uniformment dans [1, +1]. Un rseau de mme
structure est entran de la manire suivante : initialisation des paramtres uniformment dans [0,6,
+0,6], calcul du gradient par rtropropagation, minimisation de la fonction de cot par Levenberg-
Marquardt. Le rseau matre est retrouv exactement (EQMA et EQMT de lordre de1031) dans 96 %
des cas ( lissue de 48 apprentissages sur 50 effectus avec des initialisations diffrentes).
Problme 2 : un rseau 10 variables, 5 neurones cachs et une sortie est cr en tirant des paramtres
uniformment dans [1, +1] ; un ensemble dapprentissage et un ensemble de test sont crs en tirant
des variables alatoirement suivant une loi normale ; lapprentissage est effectu comme dans lexemple
prcdent. Le taux de russite est de 96 % pour un ensemble dapprentissage de 400 lments, de 100 %
pour un ensemble dapprentissage de 2000 exemples.
Lapprentissage statistique
136

Remarque
Pour les mmes problmes, le taux de russite est strictement nul si lon utilise lalgorithme du gradient simple ou du gradient stochastique
(dcrit dans la section suivante), avec ou sans terme de moment.

Il faut noter que le problme matre-lve est difficile pour certaines architectures en raison dun grand
nombre de minima locaux. Cest pourquoi il est recommand de tester tout algorithme ou procdure
dapprentissage sur les architectures que lon vient de mentionner.
En rsum
Rsumons ici la dmarche quil convient dadopter pour lapprentissage dun rseau non boucl, dont on
a fix le nombre de variables, ainsi que le nombre de neurones cachs :
initialiser les paramtres selon la mthode indique dans le paragraphe prcdent ;
calculer le gradient de la fonction de cot par lalgorithme de rtropropagation ;
modifier les paramtres par une mthode de minimisation (gradient simple, BFGS, Levenberg-
Marquardt, gradient conjugu...) ;
si un nombre maximal ditrations (ou poques) a t atteint, ou si la variation du module du vecteur des
poids est infrieure une limite fixe, ou si la variation du module du gradient est infrieure une limite
fixe (lalgorithme nvolue plus), ou encore si le module du gradient de la fonction de cot est infrieur
une valeur fixe (on est arriv un minimum ou dans un voisinage trs proche), arrter la procdure ;
sinon, reprendre le calcul du gradient et effectuer une nouvelle itration.

Apprentissage adaptatif de modles non linaires


par rapport leurs paramtres
Les mthodes qui ont t introduites au paragraphe prcdent cherchent optimiser la fonction de cot
des moindres carrs, en supposant que toutes les donnes dapprentissage soient disponibles au moment
de lentreprendre ; on peut donc valuer le gradient du cot total en effectuant la somme des fonctions de
perte pour chaque exemple.
Lapprentissage adaptatif, abord dans cette section, consiste effectuer les modifications des paramtres
en fonction du gradient de la fonction de perte relative chaque exemple (gradient qui est obtenu, comme
le cot total, par rtropropagation), de sorte quil soit possible deffectuer lapprentissage au fur et
mesure que les donnes deviennent disponibles. Une telle procdure est souvent utile pour affiner les
paramtres dun modle en cours dutilisation, aprs un apprentissage initial non adaptatif. Ces mthodes
sont traites en dtail au chapitre 4.
La technique de modification adaptative des paramtres la plus largement utilise est celle du gradient
stochastique, qui consiste modifier les paramtres proportionnellement au gradient de la fonction de
perte :

w k +1 = w k k J k w k( )
o wk dsigne la valeur du vecteur des paramtres aprs litration k, cest--dire aprs prsentation de
lexemple k et modification correspondante des coefficients. Pour lapprentissage adaptatif des modles
linaires, cet algorithme est appel algorithme LMS .
Certains rsultats empiriques suggrent que la mthode du gradient stochastique permet dviter les
minima locaux. Il ny a aucun lment thorique qui appuie cette affirmation.
Une autre technique, inspire notamment du filtrage adaptatif, a t utilise pour lapprentissage adaptatif des
rseaux de neurones : le filtre de Kalman tendu [PUSKORIUS 1994]. Elle est plus efficace que le gradient
Les rseaux de neurones
137
CHAPITRE 2

stochastique en termes de vitesse de convergence, mais elle est beaucoup plus lourde en termes de nombre
doprations par itration. Cette approche est prsente en dtail au chapitre 4 du prsent ouvrage.

Apprentissage avec rgularisation


Comme indiqu dans le chapitre 1, lobjectif recherch dans la modlisation bote noire est lobten-
tion dun modle qui soit suffisamment complexe pour apprendre les donnes, mais qui ne souffre pas de
surajustement, cest--dire qui ne sadapte pas au bruit. Deux grands types de mthodes sont utiliss pour
atteindre cet objectif :
des mthodes passives : on effectue lapprentissage de plusieurs modles de complexits diffrentes,
comme indiqu plus haut, et lon procde ensuite une slection parmi les modles ainsi conus, afin
dliminer ceux qui sont susceptibles dtre surajusts ; dans ce but, on utilise des techniques de valida-
tion croise ou des tests statistiques, qui feront lobjet de la section suivante ;
des mthodes actives : on effectue lapprentissage de manire viter de crer des modles surajusts,
sans chercher contrler la complexit du rseau, mais en sefforant de limiter lamplitude des
paramtres ; on utilise, pour ce faire, des mthodes de rgularisation [TIKHONOV 1977] [POGGIO 1985],
qui constituent lobjet de la prsente section.
Ces dernires mthodes sont importantes lorsquon est oblig dutiliser de grands rseaux, ce qui peut tre le
cas en classification : la reprsentation des objets peut comporter de nombreuses variables, notamment si lon
utilise une reprsentation de bas niveau pour une image (par exemple, lintensit de ses pixels) ; cest galement
le cas pour des problmes de classification en bio-informatique. En effet, le nombre de paramtres ne peut
videmment tre infrieur au nombre de variables du rseau : le nombre de paramtres est minimal lorsque le
rseau ne comprend quun neurone. La seule mthode qui permette de limiter le surajustement consiste alors
limiter lamplitude des paramtres du rseau. On montre mme dans [BARTLETT 1997] que, si un grand rseau
est utilis, et si lalgorithme dapprentissage trouve une erreur quadratique moyenne faible avec des poids de
valeurs absolues faibles, alors les performances en gnralisation dpendent de la norme des poids plutt que
de leur nombre. titre dillustration, la figure 2-41 montre lvolution du module du vecteur des paramtres w
en fonction de la complexit du modle polynomial, pour le problme de modlisation tudi dans le chapitre
1, section Un exemple de modlisation pour la prdiction : on observe une croissance exponentielle de la
norme du vecteur des paramtres, qui est corrle au surajustement.
On peut distinguer deux familles de mthodes de 4,5
rgularisation : 4
larrt prmatur (early stopping) qui consiste 3,5
arrter lapprentissage avant la convergence ; 4
les mthodes de pnalisation, qui consistent ajouter 2,5
( )

un terme la fonction de cot usuelle afin de favo-


log w

2
riser les fonctions rgulires. La fonction mini-
1,5
miser est alors de la forme : J = J +  , o J est,
1
par exemple, la fonction de cot des moindres carrs.
0,5
La fonction la plus largement utilise est celle qui
0
pnalise les modles ayant des paramtres levs :
= wi (mthode de modration des poids
2
-0,5
0 2 4 6 8 10 12 14
i Degr du polynme
ou weight decay ).
Figure 2-41. volution exponentielle du module
Notons galement que les machines vecteurs du vecteur des paramtres en fonction
supports, dcrites en dtail dans le chapitre 6, doivent de la complexit de modles polynomiaux
leur efficacit au fait quelles contiennent intrinsque-
ment un processus de rgularisation.
Lapprentissage statistique
138

Arrt prmatur
Principe
Comme dans la section prcdente, lapprentissage consiste minimiser, grce un algorithme itratif,
une fonction de cot calcule sur la base dapprentissage, par exemple la fonction de cot des moindres
carrs. La diffrence avec lapprentissage sans rgularisation rside dans le critre darrt de
lapprentissage : on arrte celui-ci prmaturment, cest--dire avant convergence complte de lalgo-
rithme. Ainsi, le modle ne sajuste pas trop finement aux donnes dapprentissage : le surajustement est
limit. La difficult rside alors videmment dans la dtermination du moment o arrter lapprentissage.
La mthode la plus classique consiste suivre lvolution de la fonction de cot sur une base de valida-
tion, et arrter les itrations lorsque le cot calcul sur cette base commence crotre.
Exemple (tir de [STRICKER 2000])
Il sagit dun problme de classification deux classes ; comme indiqu dans le chapitre 1, on dsire que
la sortie du rseau soit +1 pour tous les lments de lune des classes (classe A), et 0 pour tous les
lments de lautre classe (classe B). Aprs apprentissage, la sortie est une estimation de la probabilit
dappartenance de lobjet inconnu la classe A. Dans ce problme, lespace de description est un espace
deux dimensions, et les exemples sont tirs de deux distributions qui se recouvrent partiellement,
comme indiqu sur la figure 2-42.
Dans cet exemple acadmique, les distributions sont connues a priori : il est donc possible de calculer, par
la formule de Bayes, la probabilit dappartenance dun objet dcrit par les coordonnes (x, y) la classe
A, comme indiqu au chapitre 1 ; la figure 2-43 montre les probabilits a posteriori dappartenance la
classe A, calcules par la formule de Bayes.

1 1
0,8
)

0
Pr A x,y

-1
0,6
0,4
(

-2
0,2
-3
-4 -3 -2 -1 0 1 2 3 4 0
Figure 2-42. Les exemples de la classe A 5
5
(cercles) sont tirs dune distribution 0
de probabilit qui est le produit de deux 0
distributions gaussiennes selon x et y ;
y x
-5 -5
la distribution selon x est une gaussienne
centre en 1, dcart-type 1, et la distribu- Figure 2-43. Probabilit dappartenance la classe A calcule
tion selon y est une gaussienne centre en 1 et par la formule de Bayes
dcart-type 0,5. Les exemples de la classe B
(croix) sont tirs dune distribution
de probabilit qui est le produit de deux
distributions de probabilit selon x et y ;
la distribution selon x est la somme de deux
gaussiennes dcart-type 0,5, centres en 2
et 1.
Les rseaux de neurones
139
CHAPITRE 2

Lapprentissage est effectu laide de 500 points. La figure 2-44 montre les probabilits a posteriori esti-
mes par un rseau 2 neurones cachs et par un rseau 10 neurones cachs.

1 1
0,8 0,8

)
)

Pr A x,y
Pr A x,y

0,6 0,6
0,4 0,4

(
(

0,2 0,2
0 0
4
4 4
0 0 0
0
x -4 -4 y x y
-4 -4

Figure 2-44. Probabilits a posteriori estimes par un rseau 2 neurones cachs ( gauche) et par un rseau 10 neurones
cachs ( droite)

On constate que le rsultat obtenu avec un rseau 2 neurones cachs est trs proche de la surface tho-
rique reprsente sur la figure 2-43, alors que la surface obtenue avec 10 neurones cachs est quasi
binaire : dans la zone de recouvrement entre les classes, une trs petite variation de lun des descripteurs
x ou y entrane une brusque variation de la probabilit dappartenance. Le rseau 10 neurones cachs est
donc exagrment spcialis sur les exemples proches de la zone de recouvrement : il est surajust.
Ces variations sont trs caractristiques des rseaux dont les paramtres sont suffisamment grands pour
que les sigmodes des neurones cachs soient toujours dans leurs zones satures , comme illustr sur
la figure 2-45.

0,8

0,6

0,4
Erreur sur la base de validation

0,2
0,25
th(wx)

0 2 NC
0,20 5 NC
-0,2 10 NC
0,15
-0,4 0,10
-0,6 0,05

-0,8 w=1 w=5 w=100 0


0 50 100 150 200 250 300
-1 Nombre ditrations de lalgorithme dapprentissage
-3 -2 -1 0 1 2 3
x Figure 2-46. Erreur sur la base de validation
Figure 2-45. Sortie dun neurone une variable x durant lapprentissage

Lvolution de lerreur quadratique moyenne sur la base de validation de 300 exemples, en fonction du
nombre ditrations de lapprentissage, est reprsente sur la figure 2-46, pour divers nombres de
Lapprentissage statistique
140

neurones cachs. On voit quil est difficile de savoir exactement o il faut arrter lapprentissage, car
lerreur porte pour lessentiel sur les exemples qui sont proches de la surface de sparation entre les
classes, ce qui correspond un nombre relativement petit de points.
Cette mthode est donc malaise appliquer, notamment pour les problmes de classification. Cest pour-
quoi lon prfre souvent mettre en uvre des mthodes de rgularisation par pnalisation des paramtres
de fortes valeurs ; il a t prouv thoriquement [SJBERG 1995] que larrt prmatur est quivalent
lintroduction dun terme de pnalisation dans la fonction de cot.
Rgularisation par modration des poids (weight decay)
Pendant lapprentissage, certains paramtres des rseaux 5 et 10 neurones cachs augmentent et finis-
sent par atteindre des valeurs trs leves, exactement comme dans le cas de la rgression polynomiale
illustr par la figure 2-41. Ce nest pas le cas pour le rseau deux neurones cachs.
La mthode de rgularisation par modration des poids a prcisment pour objectif dempcher les para-
mtres de prendre des valeurs exagres, en minimisant, pendant lapprentissage, une fonction de cot J
qui est la somme de la fonction de cot des moindres carrs J (ou de tout autre fonction de cot, telle que
lentropie croise qui est introduite dans le chapitre 1) et dun terme de rgularisation proportionnel la
p
somme des carrs des paramtres : J = J + wi2, o p est le nombre de paramtres du rseau, et est
2 i =1
un hyperparamtre dont la valeur doit tre dtermine par un compromis : si est trop grand, la minimisa-
tion tend faire diminuer les valeurs des paramtres sans se proccuper de lerreur de modlisation ;
linverse, si est trop petit, le terme de rgularisation a trs peu deffet sur lapprentissage, donc le sura-
justement risque dapparatre.
Le principe de la mise en uvre de la mthode est trs simple. On calcule le gradient de la fonction de
cot J par rtropropagation, puis on lui ajoute la contribution du terme de rgularisation :
J = J + w .
Il faut noter nanmoins que tous les paramtres du rseau nont pas le mme effet :
les paramtres de la premire couche de connexions (matrice W1 de la figure 2-3) dterminent la vitesse
de variation des sigmodes des neurones cachs, sauf les lments de W1 relatifs au biais, qui dtermi-
nent une translation horizontale des sigmodes des neurones cachs ;
les paramtres de la deuxime couche de connexions (vecteur w2 de la figure 2-3) dterminent
linfluence de chaque neurone cach sur la sortie, sauf les lments de w2 relatifs au biais, qui dtermi-
nent une translation verticale de la sortie du rseau.
Il est donc naturel dintroduire des hyperparamtres diffrents pour ces diffrents types de paramtres
[MCKAY 1992]. La fonction de cot devient alors :

0
J = J + wi2 + 21 wi2 + 22 wi2,
2 W0 W1 W2

o W0 reprsente lensemble des paramtres des biais des neurones cachs, o W1 reprsente lensemble
des paramtres relatifs aux variables des neurones cachs lexception des biais, et W3 lensemble des
paramtres relatifs aux variables du neurone de sortie (y compris le biais de celui-ci). Il convient donc de
dterminer les valeurs des trois hyperparamtres 0, 1, 2. Dans ce but, [MCKAY 1992] propose une
dmarche fonde statistiquement dune manire solide, mais qui repose sur de nombreuses hypothses et
conduit des calculs lourds. En pratique, il apparat que les valeurs de ces hyperparamtres ne sont pas
critiques ; une dmarche heuristique, qui consiste effectuer plusieurs apprentissages avec des valeurs
Les rseaux de neurones
141
CHAPITRE 2

diffrentes des paramtres, tester les modles obtenus sur un ensemble de donnes de validation, et
choisir le meilleur, est gnralement suffisante.

Exemple (extrait de [STRICKER 2000])

Voici un exemple de classification deux classes ; il sagit de dterminer, dans un ensemble de textes (les
dpches de lagence France-Presse), celles qui sont pertinentes pour un sujet donn. Cest donc un
problme deux classes (une dpche est soit pertinente, soit non pertinente), pour lequel on dispose
dune base de donnes tiquetes. La base dapprentissage est constitue de 1 400 exemples de dpches
pertinentes et de 8 000 dpches non pertinentes. On mesure la qualit du classement laide dun indice
F qui est calcul partir de la prcision du classifieur (pourcentage de documents rellement pertinents
dans lensemble des documents considrs comme pertinents par le classifieur) et de son taux de rappel
(pourcentage de documents considrs comme pertinents par le classifieur parmi les documents pertinents
prsents dans la base de donnes). La performance du classifieur est dautant meilleure que F est grand.

On considre un classifieur zro neurone cach, et un neurone de sortie fonction dactivation sigmode,
cest--dire un sparateur linaire. Il nest videmment pas possible de rduire le nombre de ses param-
tres tout en maintenant constant le nombre de ses variables : seules les mthodes de rgularisation peuvent
viter le surajustement. La figure 2-47 montre lvolution de F sur la base de test, lorsque aucune mthode
de rgularisation nest mise en uvre, en fonction des proportions des exemples pertinents et non perti-
nents dans la base dapprentissage. La figure 2-48 montre la norme du vecteur des paramtres w des
rseaux correspondants. On observe que les performances se dgradent, et que, corrlativement, la norme
des paramtres augmente lorsque le nombre dlments de la base dapprentissage diminue.

F sur la Norme du vecteur


base des paramtres
de test 6000

0,95 5000

4000
0,90
3000
0,85
2000
0,80
1000

0,75 0
8000 8000
6000 1500 6000 1500
4000 1000 4000 1000
2000 500 2000 500
Nombre de textes non pertinents 0 Nombre de textes pertinents Nombre de textes non pertinents Nombre de textes pertinents
0 0
dans la base dapprentissage dans la base dapprentissage dans la base dapprentissage dans la base dapprentissage

Figure 2-47. Apprentissage sans rgularisation : Figure 2-48. Norme des paramtres en fonction
volution de lefficacit dun classifieur linaire du nombre de textes de la base dapprentissage
en fonction des proportions des exemples pertinents
et non pertinents dans la base dapprentissage

Avec les mmes bases dapprentissage et de test, on a effectu un apprentissage avec arrt prmatur. Les
rsultats (indice de performance F et norme des paramtres), prsents sur la figure 2-49, montrent que
les performances sont sensiblement amliores dans la zone o le nombre dexemples de la base
dapprentissage est faible, mais quelles sont dgrades dans la zone o les exemples sont nombreux
(F < 0,9), ce qui prouve que larrt de lapprentissage ne permet pas dexploiter au mieux les donnes
prsentes dans la base dapprentissage. La norme du vecteur des paramtres (non reprsente sur la
figure) est trs faible dans tout le domaine explor.
Lapprentissage statistique
142

F sur la
F sur la
base
base
de test
de test
1

0,95 0,95

0,90 0,90

0,85 0,85

0,80 0,80

0,75 0,75
8000 8000
6000 1500 6000 1500
4000 1000 4000 1000
2000 500 2000 500
Nombre de textes non pertinents 0 0 Nombre de textes pertinents Nombre de textes non pertinents 0 0 Nombre de textes pertinents
dans la base dapprentissage dans la base dapprentissage dans la base dapprentissage dans la base dapprentissage

Figure 2-49. Apprentissage avec rgularisation par arrt Figure 2-50. Apprentissage avec rgularisation
prmatur : volution de lefficacit dun classifieur par modration des poids : volution de la norme
linaire en fonction des proportions des exemples des poids en fonction des proportions des exemples
pertinents et non pertinents dans la base dapprentissage pertinents et non pertinents dans la base dapprentissage

La mthode de modration des poids a galement t mise en uvre sur cet exemple, en utilisant deux
hyperparamtres : un pour le biais (b = 0,001) et un pour les connexions entre les entres et le neurone
de sortie (1 = 1). Les rsultats sont prsents sur la figure 2-50 ; on observe que, cette fois, les perfor-
mances sont nettement amliores dans la zone o le nombre dexemples est faible, et que, contrairement
au cas de larrt prmatur, elles restent satisfaisantes dans la zone o les exemples sont nombreux. Il faut
noter quaucun effort particulier na t fourni pour optimiser les hyperparamtres. Comme prcdem-
ment, la norme du vecteur des paramtres reste uniformment faible.
Remarque
On peut galement pnaliser les modles dont les sorties varient trop vite, en pnalisant les valeurs leves des drives [BISHOP 1993].

Conclusion sur lapprentissage de modles statiques


Dans cette section, on a distingu
lapprentissage des modles linaires par rapport leurs paramtres (prsent dans le chapitre 1) de
celui des modles non linaires par rapport aux paramtres ;
lapprentissage adaptatif de lapprentissage non adaptatif ;
lapprentissage sans rgularisation de lapprentissage avec rgularisation.
On a montr :
que lapprentissage des modles non linaires par rapport aux paramtres (tels que les rseaux de neurones)
ncessite des mthodes plus lourdes, mais rapides et bien matrises, que lapprentissage des modles
linaires en leurs paramtres : cest le prix payer pour bnficier de la proprit de parcimonie ;
que lapprentissage est gnralement effectu dune manire non adaptative, avec des algorithmes de
minimisation du second ordre qui sont performants ; si ncessaire, on peut ensuite mettre en uvre un
apprentissage adaptatif pour recaler le modle en tenant compte dventuelles drives lentes du
processus ;
quil est possible de limiter le surajustement en limitant lamplitude des paramtres du modle laide
dune mthode de pnalisation, mise en uvre durant lapprentissage ; cest surtout ncessaire lorsque
le nombre dexemples est petit.
Dans la section suivante, le problme du surajustement est abord sous langle de la slection de modle.
Les rseaux de neurones
143
CHAPITRE 2

Slection de modles
Dans le chapitre 1, le dilemme biais-variance et les mthodes de slection de modles dont il ncessite la
mise en uvre ont t dcrits en dtail. Les trois mthodes principales qui ont t prsentes validation
simple, validation croise et leave-one-out peuvent tre appliques directement lapprentissage des
rseaux de neurones comme lapprentissage des modles linaires. Nanmoins, les modles non
linaires en leurs paramtres ont une particularit quil faut prendre en considration : la fonction de cot
des moindres carrs prsente des minima locaux, de sorte que des initialisations diffrentes des param-
tres peuvent produire, en fin dapprentissage, des modles dont les performances sont diffrentes bien
quils aient la mme complexit.
Pour un modle non linaire par rapport ses paramtres, la problmatique de la slection de modle est
donc double :
parmi les modles de mme complexit, trouver celui qui ralise le meilleur compromis biais-variance ;
parmi les meilleurs modles de complexits diffrentes, de trouver celui qui ralise le meilleur
compromis biais-variance.
Toutes les techniques qui sont prsentes dans cette section ont pour objet, dune part, dliminer les
modles manifestement surajusts, et, dautre part, destimer lerreur de gnralisation des autres
modles, afin de choisir celui qui commet la plus petite erreur de gnralisation. On commencera donc,
en prliminaire, par montrer comment il est possible dliminer les modles manifestement surajusts.
Deux techniques de slection seront ensuite abordes :
une mthode globale de slection par estimation de lerreur de gnralisation : la validation croise ;
une mthode locale de slection qui permet destimer linfluence de chaque exemple sur le modle : la
mthode LOCL (Local Overfitting Control via Leverages), fonde sur la mthode des moindres carrs
locaux, qui fait appel notamment lestimation dintervalles de confiance pour les prdictions du
rseau.
Ces deux approches seront combines pour construire une mthodologie complte de conception de
modles non linaires.

Prliminaire : limination de modles surajusts par calcul du rang


de la matrice jacobienne
Justification
Dans la section du premier chapitre consacre lestimation des paramtres dun modle linaire par rapport
ses paramtres, on a introduit la matrice des observations. Chaque colonne de cette matrice correspond
une variable du modle : elle possde N lments, qui sont les valeurs prises par cette entre pour chacun des
N exemples. Pour un modle p variables, la matrice des observations est une matrice (N, p). Pour un
modle non linaire possdant un vecteur de p paramtres wmc, lquivalent de la matrice des observations
est la matrice jacobienne Z ; chaque colonne zi de cette matrice correspond un paramtre du rseau : elle
possde N lments, qui sont les valeurs prises par la drive partielle de la sortie par rapport au paramtre
g ( x, w )
considr : z i = --------------------- . Il est ais de vrifier que, pour un modle linaire par rapport ses para-
wi
w = w mc

mtres, la matrice jacobienne est identique la matrice des observations.


Chaque colonne de la matrice jacobienne exprime leffet de la variation dun paramtre sur la prdiction
du modle. Si la matrice jacobienne nest pas de rang plein (cest--dire si son rang nest pas gal p),
cela signifie que deux paramtres (au moins) ont sur la sortie des effets qui ne sont pas indpendants. Il
Lapprentissage statistique
144

existe donc, dans le modle, des paramtres redondants : le modle considr possde trop de paramtres,
donc une variance certainement trop grande. Un tel modle doit donc tre limin de lensemble des
modles candidats la slection. De plus, cette dficience du rang a un effet ngatif sur le droulement de
lapprentissage [SAARINEN 1993] [ZHOU 1998].
Calcul de la matrice jacobienne
Dans la section consacre lestimation des paramtres dun modle non linaire, on a vu que lon peut
facilement calculer, par rtropropagation, le gradient de la fonction de cot :

(
J y g ( x, w ) )
2
g ( x, w )
p

=
w
wi
(
= 2 y p g ( x, w ) ) wi
.
i
Si lerreur de modlisation yp g(x, w) vaut 1/2, le gradient de la fonction de cot est gal au gradient
de la prdiction du modle. Ainsi, la matrice jacobienne est aisment calcule par rtropropagation dune
erreur gale 1/2. Le temps supplmentaire ncessit par le calcul de la matrice jacobienne est donc
marginal, puisquil sagit dun calcul de rtropropagation effectu une seule fois par modle, la fin de
lapprentissage, alors que la rtropropagation est effectue lors de chaque itration de lapprentissage.

Approche globale de la slection de modles :


validation simple, validation croise et leave-one-out
Rappelons tout dabord que, comme indiqu et justifi en dtail dans le chapitre 1, on ne doit jamais
utiliser lerreur quadratique sur lensemble dapprentissage comme critre de slection de modles.
Validation simple
Comme indiqu dans le chapitre 1, la validation simple consiste utiliser une partie des donnes, appele
ensemble de validation, pour estimer lerreur de gnralisation des modles aprs apprentissage. Cela
suppose videmment que les donnes prsentes dans lensemble de validation sont bien reprsentatives de
lensemble des donnes. Pour cela, on utilise la distance de Kullback-Leibler [KULLBACK 1951]
[KULLBACK 1959], dj dfinie dans le chapitre 1, entre deux distributions de probabilit p1 et p2 :
+
p ( x)
D ( p1 , p2 ) = p1 ( x ) Log 1 dx .
p2 ( x )
Comme cette expression nest pas symtrique, on prfre utiliser la quantit

( p1 , p2 ) =
1
2
(
D p1 , p2 + D ( p2 , p1 ) .
)
On effectue donc plusieurs partitions alatoires de la base de donnes, et lon choisit, parmi ces partitions,
celle pour laquelle la distance de Kullback-Leibler entre la base dapprentissage et la base de validation
est la plus petite. Le tirage dun grand nombre de partitions et le calcul de la distance de Kullback-Leibler
tant beaucoup plus rapide quun apprentissage, on divise ainsi le temps de calcul par un facteur de lordre
de 5 par rapport une validation croise avec D = 5. Si lon fait lhypothse que les distributions sont deux
gaussiennes p1(1, 1) et p2(2, 2), la distance de Kullback-Leibler scrit :

( 2
+ 22 )
=
1

4 12 22
( )
12 22 + ( 1 2 )2 .

Les rseaux de neurones
145
CHAPITRE 2

On trouvera la dmonstration de cette relation dans les complments thoriques et algorithmiques en fin
de chapitre.
Cette heuristique se rvle trs utile pour une mise au point rapide dun premier modle ; elle peut tre
affine ensuite par une validation croise conventionnelle, ou par un leave-one-out virtuel .
Validation croise
La validation croise a t dcrite dans le chapitre 1. La slection de modles seffectue en partant du
modle le plus simple (modle zro neurone cach, cest--dire modle linaire), et en augmentant
progressivement la complexit des modles (pour des modles neuronaux : en augmentant le nombre de
neurones cachs).
Remarque
On pourrait aussi augmenter le nombre de couches de neurones cachs. Pour les problmes de modlisation, cela ne peut tre envisag
que dans une deuxime tape : une fois que lon a obtenu un modle satisfaisant avec une couche de neurones cachs, on peut, si le
temps disponible le permet, essayer damliorer un peu les performances en augmentant le nombre de couches caches, tout en dimi-
nuant le nombre de neurones par couche. Cette procdure apporte parfois une amlioration, gnralement marginale. En revanche, si lon
na pas obtenu de rsultats satisfaisants avec une couche cache, il est illusoire desprer en obtenir en augmentant le nombre de couches
caches.

Pour chaque famille de modles, on calcule le score de validation croise. Le surajustement se traduit par
une augmentation significative du score de validation croise. On arrte la procdure lorsque cette
augmentation apparat, et lon slectionne la complexit pour laquelle la plus petite EQMV a t obtenue.
On effectue alors lapprentissage dun modle de cette complexit laide de lensemble des donnes
disponibles (tout en laissant de ct des donnes destines au test de ce modle).
Leave-one-out
Rappelons que lestimation de lerreur de gnralisation par leave-one-out est un cas particulier de la vali-
dation croise, pour lequel D = N : litration k, on extrait lexemple k de lensemble dapprentissage,
on effectue des apprentissages (avec des initialisations diffrentes des paramtres) avec les N-1 lments
de la base dapprentissage. Pour chacun des modles obtenus, on calcule lerreur de prdiction commise
sur lobservation k lorsque celle-ci est extraite de lensemble dapprentissage, et lon retient la plus petite
1 N k 2
de ces erreurs, note rk k . On dfinit le score de leave-one-out Et = rk . On utilise ce score,
N k =1
( )
comme dans le cas de la validation croise, en augmentant progressivement la complexit des modles.
Cette technique a linconvnient dtre trs lourde en temps de calcul, mais on dmontre que le score de
validation croise est un estimateur non biais de lerreur de gnralisation [VAPNIK 1995].
Dans les sections suivantes, on prsente une autre technique, trs avantageuse, qui permet de diviser le
temps de calcul par un facteur N (le nombre dobservations disponibles). Elle est fonde sur lide que le
retrait dun exemple de lensemble dapprentissage ne doit pas beaucoup perturber le modle ; on peut
alors construire un modle localement linaire dans lespace des paramtres, ce qui permet de bnficier
des rsultats thoriques connus, relatifs aux modles linaires.

Moindres carrs locaux :


effet du retrait dun exemple sur le modle et leave-one-out virtuel
Dans le chapitre 1, on a montr que, pour un modle linaire, il est possible de prdire, de manire exacte,
leffet, sur un modle, du retrait dun exemple de lensemble dapprentissage ; on en a dduit lexpression
Lapprentissage statistique
146

de la statistique PRESS, qui est exactement le score que lon obtiendrait si lon faisait un leave-one-out
sur les donnes disponibles. Dans ce paragraphe, on montre comment tendre ce rsultat aux modles non
linaires, et calculer le score de leave-one-out virtuel sans avoir raliser un vrai leave-one-out, cest-
-dire en faisant un apprentissage avec toutes les donnes disponibles (en gardant toujours un ensemble
de test). On introduit galement le calcul des leviers des observations pour un modle non linaire.
Approximation locale de la mthode des moindres carrs
Considrons un modle g(x, w*) obtenu par minimisation de la fonction de cot des moindres carrs. Un
dveloppement du modle au premier ordre, dans lespace des paramtres, au voisinage de w*, scrit

g ( x, w ) g ( x, w *) + Z ( w w *)

o Z est la matrice jacobienne du modle, dfinie plus haut. Ce modle est linaire par rapport ses para-
mtres w, et la matrice Z joue exactement le rle de la matrice des observations.
Pour tablir une approximation locale de la solution des moindres carrs wmc, il faut obtenir une approxi-
mation, au premier ordre en w wmc, du gradient de la fonction de cot des moindres carrs ; pour cela, il
faut partir dune approximation du second ordre de cette fonction de cot, donc, dune approximation du
second ordre du modle ([MONARI 2000] ; le mme rsultat est tabli dans [SEBER 1989], mais avec une
dmonstration incorrecte) On obtient alors une approximation de la solution des moindres carrs wmc :

( )
1
wmc w * + ZT Z ZT y p g ( x, w *) .
Ce rsultat est approch dans le cas dun modle non linaire, et il est exact dans le cas dun modle
linaire.
En effet, dans le cas dun modle linaire, Z est la matrice des observations, et g(x, w*) = Z w*. La rela-
tion prcdente devient alors

( ) ( )
1 1
wmc w * + ZT Z ZT y p ZT Z ZT g ( x, w *)

= w * + ( Z Z) ( Z Z) ( )
1 1 1
T
ZT y p T
ZT Zw* = ZT Z ZT y p

ce qui est le rsultat exact, dmontr dans le chapitre 1, section Apprentissage de modles linaires en
leurs paramtres .

Effet du retrait dun exemple sur le modle


Estimons prsent leffet, sur les prdictions dun modle, du retrait dun exemple de lensemble
dapprentissage. On utilise une convention de notation dj introduite dans le chapitre 1 : les quantits
relatives un modle qui a t construit en ayant extrait lexemple k de lensemble dapprentissage sont
dotes de lindice suprieur k ; les grandeurs qui nont pas dindice suprieur sont relatives un modle
dont lapprentissage a t effectu avec lensemble des donnes disponibles.
Effet du retrait dun exemple sur sa prdiction : le leave-one-out virtuel
Si lon suppose que le retrait de lexemple k produit un petit effet sur la solution des moindres carrs, on
peut utiliser la relation tablie au paragraphe prcdent pour dterminer lexpression du vecteur des para-
mtres du modle dont lapprentissage est effectu avec lensemble incomplet (priv de lexemple k), en
fonction du vecteur des paramtres du modle entran avec lensemble de toutes les donnes :
Les rseaux de neurones
147
CHAPITRE 2

( ) rk
k 1
wmc wmc ZT Z zk
1 hkk

o zk est le vecteur dont les composantes sont la k-ime ligne de la matrice jacobienne Z, rk est lerreur de
prdiction (ou rsidu) sur lexemple k lorsque celui-ci fait partie de lensemble dapprentissage :

rk = y p g ( xk , wmc ),

( )( )
T 1
et o hkk = z k ZT Z z k est le levier de lexemple k [LAWRANCE 1995]. Gomtriquement, hkk est la
composante k de la projection, sur le sous-espace des solutions, du vecteur unitaire port par laxe k.
Rappelons (voir chapitre 1) que les leviers sont compris entre 0 et 1, et que leur somme est gale au
nombre de paramtres du modle.
Une procdure numrique efficace de calcul des leviers est prsente dans les complments thoriques et
algorithmiques la fin de ce chapitre.
La mthode du leave-one-out virtuel est une consquence des rsultats prcdents : on dmontre que
lerreur de prdiction commise sur lexemple k, lorsque celui-ci est retir de lensemble dapprentissage,
peut tre estime simplement partir de lerreur de prdiction commise sur ce mme exemple, sil est
dans lensemble dapprentissage :

rk .
rk k =
1 hkk
Comme indiqu dans le chapitre 1, ce rsultat est exact pour un modle linaire, (PRESS, voir par
exemple [ANTONIADIS 1992]), et il est approch pour un modle non linaire.

Remarque
Une approche analogue a t propose dans [HANSEN 1996] pour les modles dont lapprentissage est effectu avec rgularisation.

Illustrons cette mthode sur un exemple acadmique : un ensemble de 50 points dapprentissage est cr
en ajoutant la fonction sinx/x un bruit gaussien de moyenne nulle et de variance 102.

Ensemble dapprentissage
0,3
1 Intervalle de confiance 95 %
Prdiction du modle
0,5
rk k

0 - 0,3 0 0,3

Figure 2-51. Ensemble dapprentissage, prdiction


dun modle 2 neurones cachs et intervalle de confiance
de celle-ci - 0,3

rk
Figure 2-52. Prcision de lestimation des rsidus
par leave-one-out virtuel 1 hkk
Lapprentissage statistique
148

La figure 2-51 reprsente les points de lensemble dapprentissage et la prdiction dun modle
deux neurones cachs. Une procdure conventionnelle de leave-one-out, dcrite au paragraphe prcdent,
a t effectue, fournissant ainsi les valeurs des quantits rk k prsentes en ordonne de la figure 2-52, et
la formule prcdente a t applique, fournissant les valeurs prsentes en abscisse. Le fait que tous les
points soient aligns sur la bissectrice du graphe montre que lapproximation est trs prcise.
On peut donc, dune faon trs avantageuse en temps de calcul, remplacer le score de leave-one-out Et,
qui a t dfini plus haut

(
1 N ( k )
rk )
2
Et =
N k =1

par le score de leave-one-out virtuel Ep


2
1 N rk
Ep =
N k =1 1 hkk

qui constitue une trs bonne approximation de lerreur de gnralisation. Cette quantit est un lment
essentiel de la procdure de slection de modles qui sera expose dans la section suivante : elle fournit
une estimation de lerreur de gnralisation, au prix dun temps de calcul qui est N fois plus petit que la
procdure traditionnelle de leave-one-out, puisque lapprentissage est effectu une seule fois, avec tous
les exemples disponibles, au lieu de ltre N fois avec N-1 exemples.
Effet du retrait dun exemple sur lintervalle de confiance pour sa prdiction
Dans [SEBER 1989], un intervalle de confiance approch est propos pour un modle non linaire, avec
une confiance 1 :

(
EY p ( x ) g ( x, wmc ) tN p s z T ZT Z )
1
z

o tN p est la valeur dune variable de Student N-p degrs de libert et un niveau de confiance 1 , et
s est une estimation de la variance de lerreur de prdiction du modle. La figure 2-51 reprsente linter-
valle de confiance calcul par cette formule, en tous points de lintervalle considr.

Remarque
Il est possible de dnir de nombreux intervalles de conance pour des modles non linaires [TIBSHIRANI 1996], que lon peut soit calculer
analytiquement, soit estimer laide de mthodes de r-chantillonnage, telles que celles qui sont dcrites dans le chapitre 3 de cet
ouvrage. Les intervalles de conance utiliss dans le prsent chapitre ont lavantage de mettre en uvre les mmes quantits que celles
qui permettent de prdire le score de leave-one-out.

Pour lobservation k de lensemble dapprentissage, cet intervalle de confiance peut scrire :

(
EY p ( x ) g ( x, wmc ) tN p s z T ZT Z ) z = g ( x, wmc ) tN p s hkk .
1

On voit ainsi que les intervalles de confiance sur les prdictions du modle font intervenir les mmes
quantits hkk que la prdiction du retrait dun exemple sur lerreur de prdiction du modle. Cela nest pas
surprenant car les deux groupes de relations proviennent du mme dveloppement de Taylor du modle
dans lespace des paramtres.
Les rseaux de neurones
149
CHAPITRE 2

Comme dans le cas prcdent, il est possible destimer lintervalle de confiance sur la prdiction dun
exemple extrait de lensemble dapprentissage : tant donn un vecteur de variables xk, lintervalle de
confiance approch sur la prdiction de cet exemple est donn par ([SEBER 1989])

hkk
EY pk ( x ) g ( x, wmc ) tN p s k .
1 hkk

On peut en gnral approcher s-k par s.

Interprtation des leviers


Rappelons (voir chapitre 1) que le levier dun exemple peut tre interprt comme la proportion des
degrs de libert du modle qui est mobilise pour sajuster cette observation.
Considrons quelques cas particuliers :
Si tous les leviers sont gaux, ils valent tous p/N, o p est le nombre de paramtres du modle et N le
nombre dexemples : chaque exemple mobilise une fraction p/N des paramtres du modle, et tous les
exemples ont la mme importance pour le modle ; un tel modle ne devrait pas prsenter de surajuste-
ment, puisquil ne sest spcialis sur aucun exemple particulier. On verra que cette remarque peut avan-
tageusement tre utilise pour la slection de modles.
Si un levier est nul, le modle ne consacre aucun degr de libert lexemple correspondant. Cela
sinterprte gomtriquement dune faon simple : rappelons que hkk est la composante k de la projec-
tion, sur le sous-espace des solutions, du vecteur unitaire port par laxe correspondant lexemple k
dans lespace des observations ; si cet axe est orthogonal au sous-espace des solutions, lexemple k na
aucune contribution la sortie du modle qui, rappelons-le, est dans le sous-espace des solutions; il na
donc aucune influence sur les paramtres du modle. Que cet exemple soit dans lensemble dappren-
tissage, ou quil en ait t extrait, la prdiction de cet exemple est donc entache de la mme erreur ;
rk
cest ce que lon vrifie sur la relation rk k = . Lintervalle de confiance sur cette prdiction est
1 hkk
nul. La prdiction du modle tant certainement gale lesprance mathmatique de la grandeur
modliser au point considr, le modle est parfait en ce point.

Remarque
Le fait que lintervalle de conance soit nul signie que lon est sr que la prdiction du modle en ce point est exacte. Ce nest pas contra-
dictoire avec le fait que lerreur de prdiction rk ne soit pas nulle. En effet, lerreur de prdiction est la diffrence entre la valeur mesure et
la valeur prdite : elle est due la fois lerreur de modlisation (diffrence entre la grandeur prdite et son esprance mathmatique
inconnue) et au bruit (diffrence entre la grandeur mesure et son esprance mathmatique inconnue). Si le modle est parfait, lerreur de
prdiction est due uniquement au bruit. On ne peut donc avoir un levier nul que si la famille de fonctions dans laquelle on cherche lapproxi-
mation de la rgression contient la fonction de rgression elle-mme.

Si un levier est trs proche de 1, le vecteur unitaire port par laxe correspondant lexemple k est trs
proche du sous-espace des solutions ; cet exemple est donc presque parfaitement appris, et il a une trs
grande influence sur les paramtres du modle. Lerreur de prdiction sur cet exemple est presque nulle
lorsque lexemple fait partie de lensemble dapprentissage, et elle est trs grande lorsque lexemple
nen fait pas partie. Le modle est donc exagrment ajust cet exemple. Lintervalle de confiance est
trs petit lorsque lexemple fait partie de lensemble dapprentissage, et il est trs grand lorsque
lexemple en est extrait.
Lapprentissage statistique
150

Mthodologie de slection de modle par combinaison de lapproche globale


et de lapproche locale
Supposons quun ensemble de variables pertinentes ait t dtermin selon les techniques dcrites dans la
section Slection des variables . Il faut prsent chercher le meilleur modle compte tenu des donnes
disponibles.
Rappelons que lon procde par augmentation progressive de la complexit du modle jusqu lappari-
tion du surajustement. Dans un souci de pdagogie, on spare ce processus de slection en deux tapes :
Pour une famille de fonctions de mme complexit, non linaires par rapport aux paramtres (par
exemple, des rseaux de neurones qui possdent le mme nombre de neurones cachs), on effectue
plusieurs apprentissages, utilisant la totalit des exemples disponibles ( lexception de lensemble de
test), avec des initialisations diffrentes des paramtres. On obtient ainsi plusieurs modles : il faut donc
effectuer un premier choix parmi ceux-ci, aprs avoir limin demble ceux pour lesquels la matrice
jacobienne nest pas de rang plein. Dans la section intitule Slection dun modle dans une famille de
modles de complexit donne , on indiquera comment effectuer ce choix.

Remarque
Pour un modle linaire par rapport aux paramtres, la premire tape est trs simple puisque la fonction de cot ne possde quun
minimum : on effectue un seul apprentissage.

Ayant effectu ce choix pour plusieurs familles de fonctions de complexits croissantes, on choisit le
meilleur modle, selon une procdure qui sera dcrite dans la section Choix de la complexit
optimale .
Slection dun modle dans une famille de modles de complexit donne : critres globaux
Pour une complexit de modle donne, plusieurs apprentissages sont effectus, et, lissue de chacun
deux, le rang de la matrice jacobienne du modle obtenu est valu. Si cette matrice nest pas de rang
plein, le modle doit tre limin, comme indiqu plus haut.
Il faut noter que, contrairement ce qui a parfois t publi, la valeur du nombre de conditionnement de
la matrice jacobienne ne doit pas tre utilis comme critre de comparaison entre modles. Ainsi, dans
[RIVALS 2000] [RIVALS 2004], les auteurs indiquent que les modles dont la matrice de conditionnement
est suprieure 108 doivent tre rejets. Dans [OUSSAR 2004], de nombreux contre-exemples montrent
quil ny a essentiellement aucun rapport entre le surajustement et le nombre de conditionnement de la
matrice jacobienne : des modles trs fortement surajusts peuvent avoir des nombres de conditionnement
infrieurs cette limite, et des modles dont le nombre de conditionnement est trs suprieur cette limite
peuvent ne pas prsenter de surajustement.

Remarque
Le fait de trouver, pour une complexit donne, que le minimum global de la fonction de cot correspond un modle dont la matrice jaco-
bienne nest pas de rang plein ne signie pas que tous les modles de mme complexit doivent tre limins : un minimum local peut fort
bien fournir un excellent modle mme si le minimum global fournit un modle surajust. On retrouve ici une ide analogue celle de larrt
prmatur, qui a t expose dans la section consacre la rgularisation : choisir un modle qui ne correspond pas au minimum global
de la fonction de cot peut constituer une forme de rgularisation.

Ayant effectu cette premire limination, il faut faire une slection parmi les modles restants. Dans ce
but, on met en uvre la technique du leave-one-out virtuel , dcrite plus haut. Rappelons la dfinition
du score de leave-one-out virtuel
Les rseaux de neurones
151
CHAPITRE 2

2
1 N rk .
Ep =
N k =1 1 hkk

Il doit tre compar lerreur quadratique moyenne sur lensemble dapprentissage (EQMA), dfinie plus
haut :

1 N
rk ( )
2
EA = .
N k =1

Rappelons galement que, dans la procdure de leave-one-out virtuel, lapprentissage est effectu partir
de tous les exemples disponibles, lexception des exemples de lensemble de test. Cest donc bien la
mme quantit N qui est prsente dans les relations prsentes ci-dessus pour Ep et EA.

Erreur de gnralisation et EQMA


Les leviers tant positifs et infrieurs 1, Ep est ncessairement plus grand que lEQMA ; plus un modle est surajust, cest--dire plus il
donne lieu des leviers voisins de 1, plus lestimation de lerreur de gnralisation est grande devant lEQMA, exactement comme prvu
par la thorie du dilemme biais-variance prsente dans le chapitre 1.

Cas des grands ensembles dapprentissage

N
Si tous les leviers sont gaux p/N, on a : E p = E . Ep et EA sont gaux dans la limite des grands ensembles dapprentissage pour
N p A
un modle sans surajustement, ce qui est normal puisque la diffrence entre lEQMA et lerreur de gnralisation est due au fait que le
nombre dlments de lensemble dapprentissage est ni : si lon disposait dun nombre inni dexemples, on pourrait connatre exacte-
ment la fonction de rgression.

Pour illustrer cela, considrons lexemple dun rseau 4 neurones cachs, dont lapprentissage est
effectu laide des exemples reprsents sur la figure 2-51. Cinq cents apprentissages ont t effectus,
avec des initialisations diffrentes des paramtres, en utilisant lalgorithme de Levenberg-Marquardt. La
figure 2-53 reprsente les rsultats obtenus, avec les conventions suivantes :
pour les modles dont la matrice jacobienne est de rang plein, chaque modle est reprsent par un point
dans un plan ; laxe des abscisses reprsente lEQMA, et laxe des ordonnes le score de leave-one-out
virtuel (estimation de lerreur de gnralisation du modle) ; notez lchelle logarithmique en
ordonnes ;
pour les modles dont la matrice jacobienne nest pas de rang plein, les points correspondants sont
reprsents en dessous du graphique prcdent, sur un axe figurant les EQMA de ces modles.
On remarque :
que la matrice jacobienne du modle dont lEQMA est la plus petite (modle qui a le mieux appris les
donnes ) nest pas de rang plein : ce modle est donc cart ;
que, dans cet exemple, 70 % des minima trouvs nont pas une matrice jacobienne de rang plein ;
que lestimation de lerreur de gnralisation varie de plusieurs ordres de grandeur, ce qui ncessite
lutilisation dune chelle logarithmique pour Ep. Les modles correspondant aux minima dont les
scores de leave-one-out virtuel sont levs sont trs spcialiss sur un ou quelques points, avec des
leviers trs voisins de 1.
Lapprentissage statistique
152

105
de leave-one-out virtuel Ep

104
(chelle logarithmique)

103
Score

102 Figure 2-53. Scores


de leave-one-out virtuels
10 de cinq cents modles diffrents

10-1
0,075 0,080 0,085 0,09 0,095 0,1 0,105 0,110
Rang(Z) < p

La figure 2-54 montre les prdictions des modles qui ont la plus petite valeur de EA et la plus petite valeur
de Ep (reprsentes respectivement par un cercle gris et par un triangle gris sur la figure 2-53). On
remarque que le modle correspondant au minimum de EA fournit une prdiction plus irrgulire que
le modle correspondant au minimum de Ep. Ce dernier est donc plus satisfaisant ; il faut noter cependant
quil est le modle le plus satisfaisant trouv dans la famille des rseaux 4 neurones cachs. Pour
terminer la slection, il reste comparer ce modle aux meilleurs modles trouvs pour des complexits
diffrentes.

1,5

0,5 Figure 2-54. Prdictions


de deux modles quatre
neurones cachs : modle
correspondant au minimum
0 de lEQMA (trait plein)
et modle correspondant
au minimum du score de leave-
-0,5 one-out virtuel (trait pointill)

La figure 2-55 reprsente les scores de leave-one-out virtuel et les EQMA des meilleurs rseaux, trouvs
par cette procdure, pour des complexits croissantes partir dun rseau 0 neurone cach (modle
linaire) jusqu un modle 5 neurones cachs. titre indicatif, on a port aussi, sur ce graphe, lcart-
type du bruit. On note que, comme attendu, lEQMA diminue lorsquon augmente le nombre de neurones
cachs, tandis que le score de leave-one-out virtuel passe par un minimum et augmente lorsque la
complexit du rseau crot. Nanmoins, le choix entre les architectures 2, 3 et 4 neurones cachs nest
pas vident, dans la mesure o les scores de leave-one-out virtuel sont peu diffrents. Le paragraphe
suivant est consacr ce problme : celui du choix de la complexit optimale.
Remarque
partir de 3 neurones cachs, lEQMA passe au-dessous de lcart-type du bruit ; on peut donc en dduire que les modles possdant
plus de 3 neurones cachs sont surajusts. Cela ne peut nanmoins pas tre considr comme un critre pratique de slection sauf si
lcart-type du bruit est connu.
Les rseaux de neurones
153
CHAPITRE 2

0,3

EQMA
0,25

Ep
0,20

cart-type du bruit
0,15

0,10

0,05
0 NC 1 NC 2 NC 3 NC 4 NC 5 NC
Nombre de neurones cachs
Figure 2-55. volution de lEQMA et du score de leave-one-out virtuel en fonction du nombre de neurones cachs

Choix de la complexit optimale : critres locaux (mthode LOCL)


On vient de voir comment, grce un critre global tel que le score de leave-one-out virtuel, on peut
choisir, pour une complexit donne, le modle le moins susceptible de prsenter un surajustement. On a
vu galement, par lexemple prcdent, que ce critre global ne permet pas toujours de diffrencier des
modles de complexits diffrentes. On met alors en uvre la mthode LOCL (Local Overfitting Control
via Leverages), fonde sur les valeurs locales des leviers [MONARI 2002].
En effet, on a indiqu plus haut quun modle qui est galement influenc par tous les exemples ne
comporte quun risque trs faible dtre surajust. Par ailleurs, on a vu que, dans ce cas, tous les leviers
sont gaux p/N. En consquence, pour des modles de complexits diffrentes ayant des scores de leave-
one-out virtuel quivalents, on prfrera le modle dont la distribution des leviers est la plus troite autour
de p/N, sauf si, pour des raisons spcifiques lies au processus tudi, on considre quil est important que
le modle soit bien ajust un ou plusieurs exemples particuliers.
Reprenons lexemple considr prcdemment : la figure 2-56 montre la prdiction obtenue avec les
meilleurs modles trouvs, respectivement 2 neurones cachs et 4 neurones cachs. On a port, sur les
mmes graphes, les intervalles de confiance 95 % pour les prdictions de ces modles.

Ensemble d apprentissage Ensemble d apprentissage


Intervalle de confiance 95 % Intervalle de confiance 95 %
Sortie du modle Prdiction du modle
0,5 (2 neurones cachs) 0,5 (4 neurones cachs)

0 0
3 8 3 8 13
-0,5 -0,5

Figure 2-56. Prdictions et intervalles de confiance : modles 2 et 4 neurones cachs


Lapprentissage statistique
154

On observe que lintervalle de confiance pour le modle 2 neurones cachs est peu prs uniforme sur
tout le domaine dapprentissage, alors que, pour le modle 4 neurones cachs, lintervalle de confiance
est important dans la rgion [8, 12], o une oscillation de la sortie du modle est observe, dont on nest
pas sr quelle soit significative. Si lon considre la distribution des leviers, reprsente sur la figure 2-
57, on observe une plus grande dispersion de ces derniers pour le modle 4 neurones cachs (traits
griss) que pour le modle 2 neurones cachs (traits noirs).

40
35 p/N
Nombre dexemples

30
25 2 neurones cachs
20 4 neurones cachs
15
10
5
0
0,1 0,3 0,5 0,7 0,9
Leviers
Figure 2-57. Histogramme des leviers pour des modles 2 et 4 neurones cachs

On peut caractriser commodment la distribution des leviers de deux manires diffrentes.


On peut utiliser considre la quantit dfinie par :

1 N N
= hkk .
N k =1 p
Cette quantit est toujours infrieure 1, et elle vaut 1 si et seulement si tous les leviers sont gaux
p/N.
Elle constitue donc un paramtre normalis qui caractrise la distribution des leviers : plus est proche
de 1, plus la distribution des leviers est troite autour de p/N. Ainsi, parmi les modles de complexits
diffrentes ayant des scores de leave-one-out virtuel du mme ordre de grandeur, on choisira celui qui
possde le paramtre le plus voisin de 1.
On peut galement caractriser la distribution des leviers par son cart-type normalis
2
p
N
N
n =
p ( N p ) k =1
hkk
N

qui vaut zro si tous les leviers sont gaux p/N, et qui vaut 1 dans le pire cas de surapprentissage, cest-
-dire si p leviers sont gaux 1 et les (p N) autres leviers sont gaux zro. Ainsi, un modle est
dautant plus satisfaisant que n est petit.
titre dillustration, la figure 2-58 prsente un modle une variable dont lapprentissage a t effectu
partir des points obtenus en ajoutant un bruit uniforme dcart-type gal 0,1 la courbe reprsente en
trait fin. On observe que les leviers ont une distribution assez peu disperse si lon fait abstraction des
points qui sont aux frontires du domaine, qui ont invitablement une grande importance dans un modle
une variable ; 3 leviers sont suprieurs 0,95 ; de plus, = 0,984 et n = 0,38.
Les rseaux de neurones
155
CHAPITRE 2

2 2
Modle et fonction de rgression

Modle et fonction de rgression


1,5 1,5

1 1

0,5 0,5

0 0

-0,5 -0,5

-1 -1

-1,5 -1,5
0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7
1 1
0,8 0,8
Leviers

0,6
Leviers

0,6
0,4 0,4
0,2 0,2
0 0
0 1 2 3 4 5 6 7
0 1 2 3 4 5 6 7
x x
Figure 2-58. Modle, fonction de rgression et leviers Figure 2-59. Modle, fonction de rgression et leviers
pour un modle non surajust pour un modle surajust

partir du mme ensemble dapprentissage, on a obtenu un autre modle, reprsent sur la figure 2-59.
Ce modle prsente clairement un fort surajustement pour 1 x 2. On observe que les leviers sont trs
levs pour ces valeurs de x, et que, pour ce modle, les leviers sont beaucoup plus disperss que dans
lexemple prcdent : on a en effet = 0,979 et n = 0,56.

14 14
12 12
p/N
/
10 10
p/N
8 8
6 6
4 4
2 2
0 0
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
Figure 2-60. Histogrammes des leviers : gauche, pour le modle non surajust (figure 2-58) ;
droite, pour un modle surajust (figure 2-59)
Lapprentissage statistique
156

La figure 2-60 montre lhistogramme des leviers pour chacun des deux modles : la distribution des
leviers du premier est clairement plus troite, avec un pic pour p/N, que la distribution des leviers du
second modle.
Ces exemples montrent clairement que les leviers permettent de reprer localement les risques de surajus-
tement, et doivent donc contribuer la slection du meilleur modle et/ou la planification dexpriences
supplmentaires.
Que faire en pratique ?
Rsumons la dmarche de slection de modle qui vient dtre dcrite.
Raliser les oprations suivantes pour une complexit donne (si les modles sont des rseaux de
neurones : pour un nombre de neurones cachs donn) :
effectuer des apprentissages, avec toutes les donnes disponibles, pour des initialisations diffrentes des
paramtres du rseau ;
valuer le rang de la matrice jacobienne des modles ainsi trouvs et liminer ceux dont la matrice jaco-
bienne est de rang infrieur au nombre de paramtres ajustables du modle ;
pour chaque modle dont la matrice jacobienne est de rang plein, calculer son score de leave-one-out
virtuel et son paramtre n (ou son paramtre ).
Raliser les oprations prcdentes pour des modles de complexits croissantes ; lorsque les scores de
leave-one-out virtuel deviennent trop grands, ou la distribution des leviers trop large, arrter la procdure
et choisir le modle. Deux stratgies sont envisageables :
si lensemble dapprentissage est dfinitivement fix et ne peut pas tre enrichi, il faut choisir, parmi les
modles qui ont de petits scores de leave-one-out virtuel, le modle avec le le plus lev ou le n le
plus faible ;
sil est possible denrichir lensemble dapprentissage en effectuant quelques expriences supplmen-
taires, il est prfrable de choisir un modle lgrement surajust, et deffectuer des expriences suppl-
mentaires dans les zones qui correspondent des leviers levs (ou des intervalles de confiance grands) ;
on choisira alors un modle qui a le score de leave-one-out le plus petit possible, mme sil ne corres-
pond pas la plus grande valeur de , ou la plus petite valeur de n.
laboration de plans dexpriences
Aprs avoir suivi la dmarche dlaboration et de slection de modles qui vient dtre dcrite, il peut
savrer ncessaire de complter la base de donnes utilise pour llaboration du modle. Il convient
alors de construire un plan dexpriences , en profitant des rsultats obtenus lors de llaboration du
modle, notamment des intervalles de confiance. En effet, un intervalle de confiance lev dans une
certaine zone de lespace peut tre d un nombre de points insuffisant. Il suffit donc de reprer les zones
de lespace des variables o les intervalles de confiance sont excessifs, et deffectuer ensuite les mesures
dans ces zones.

Techniques et mthodologie de conception de modles


dynamiques (rseaux boucls ou rcurrents)
La section prcdente traitait de la modlisation statique, cest--dire de modles qui ralisent une relation
algbrique entre leurs variables et leurs sorties. Ces modles sont utiles pour rendre compte des proprits
dun processus dans un tat stationnaire, ou pour tablir des relations entre des grandeurs qui sont ind-
pendantes du temps.
Les rseaux de neurones
157
CHAPITRE 2

On sintresse prsent aux modles dynamiques, dont les variables et les prdictions sont relies entre
elles par des quations diffrentielles, ou, pour des systmes temps discret, par des quations rcur-
rentes ou quations aux diffrences. Dans tout cet ouvrage, on se placera uniquement dans le cadre de
systmes temps discret, car les applications relles des rseaux de neurones dynamiques pour la mod-
lisation font appel des ordinateurs ou des circuits intgrs numriques, qui sont des systmes
chantillonns : les grandeurs ne sont mesures qu des instants discrets, multiples dune priode
dchantillonnage T.

Remarque
Pour allger les notations, on omettra systmatiquement T dans les quations : la valeur dune variable x linstant kT, k entier positif, sera
note x(k).

Le chapitre 4 de cet ouvrage propose une prsentation gnrale des systmes dynamiques non linaires.
Dans le prsent chapitre, on se contentera dune introduction mthodologique succincte de la modlisa-
tion stochastique tats continus, qui dcoule directement des considrations relatives la modlisation
statique dcrite dans les sections prcdentes. Les lments de modlisation dynamique prsents ici sont
suffisants pour aborder, dans la dernire partie de ce chapitre, la mthodologie de modlisation semi-
physique , trs importante en raison de ses applications industrielles.

Reprsentations dtat et reprsentations entre-sortie


La modlisation dynamique prsente, par rapport la modlisation statique, des particularits impor-
tantes.
La premire dentre elles rside en ce quil existe plusieurs reprsentations possibles pour un modle
dynamique dun mme processus (voir par exemple [KUO 1995] pour une introduction aux systmes
dynamiques, et [KUO 1992] pour une introduction aux systmes chantillonns). On considre ci-aprs la
modlisation dun processus une variable de sortie ; lextension un processus multi-sortie ne prsente
pas de difficult.

Reprsentation dtat
Un modle est sous la forme dune reprsentation dtat sil est constitu dun ensemble dquations de
la forme :

x ( k ) = f ( x ( k 1) , u ( k 1) , b1 ( k 1)) quation d'tat



y ( k ) = g ( x ( k ) , b2 ( k )) quation d'observation (ou quation de sortie)

o le vecteur x(k) est appel vecteur dtat (dont les composantes sont les variables dtat ), le
vecteur u(k) est le vecteur des variables de commande, b1(k) et b2(k) sont les vecteurs des perturbations,
et le scalaire y(k) est la prdiction fournie par le modle. f est une fonction vectorielle non linaire, et g
est une fonction scalaire non linaire. La dimension du vecteur dtat (cest--dire le nombre de variables
dtat) est appele ordre du modle. Les variables dtat peuvent tre mesures ou non mesures.

Remarque 1
Pour un processus mono-entre u(k), le vecteur u(k) peut tre constitu de u(k) et de valeurs de la commande plusieurs instants passs :
u(k) = [u(k), u(k 1), , u(k m)]T.
Lapprentissage statistique
158

Remarque 2
Les perturbations sont des facteurs qui affectent la sortie, ou ltat, ou les deux la fois, et qui, contrairement aux variables de commande,
ne sont pas mesures ; elles ne peuvent donc pas constituer des variables du modle, bien quelles aient un effet sur la grandeur mod-
liser. Par exemple, pour un four, lintensit qui passe dans la rsistance chauffante est une grandeur de commande ; la dgradation de
lisolant thermique du four et le bruit de mesure du thermocouple constituent des perturbations, que lon peut, si ncessaire, modliser par
des variables alatoires.

Remarque 3
Rien ne soppose ce que la sortie elle-mme soit une des variables dtat (on en verra un exemple dans le paragraphe intitul Que faire
en pratique ? )

Lobjectif du concepteur dun modle sous forme de reprsentation dtat est donc de trouver des approxi-
mations des deux fonctions f et g, par apprentissage, partir de squences des entres, des sorties, et,
ventuellement, des variables dtat si celles-ci sont mesures.

Reprsentation entre-sortie
Un modle est sous la forme dune reprsentation entre-sortie sil est constitu dquations de la forme :

y ( k ) = h ( y ( k 1) ,..., y ( k n ) , u ( k 1) ,..., u ( k m ) , b ( k - 1) ,..., b ( k p ))

o h est une fonction non linaire, n est lordre du modle, m et p sont deux constantes positives, u(k) est
le vecteur des signaux de commande, b(k) est le vecteur des perturbations. Remarquons que les reprsen-
tations entre-sortie constituent des formes particulires des reprsentations dtat, o le vecteur dtat a
pour composantes [y(k-1), y(k-2), y(k-n)].

Attention

Pour raliser un modle linaire, les reprsentations dtat et entre-sortie sont strictement
quivalentes : le choix de lune ou lautre repose sur des considrations qui ont trait leur commo-
dit, compte tenu des objectifs de la modlisation considre. En revanche, pour la ralisation dun
modle non linaire, une reprsentation dtat est plus gnrale et plus parcimonieuse quune repr-
sentation entre-sortie ([LEVIN 1993]), comme on le verra plus loin sur un exemple ; nanmoins, elle
peut tre plus dlicate mettre en uvre, puisque deux fonctions f et g doivent tre approches, alors
que les modles entre-sortie ncessitent lapproximation de la seule fonction h.

Une fois effectu le choix entre reprsentation entre-sortie et reprsentation dtat, il convient de faire
une hypothse sur la faon dont le bruit intervient dans le processus. Cette distinction fondamentale est
souvent nglige dans la littrature sur les rseaux de neurones, alors quelle est bien connue dans le cas
de la modlisation dynamique linaire, comme on le verra au chapitre 4. On va montrer que lhypothse
effectue sur le bruit conditionne la fois lalgorithme dapprentissage quil faut utiliser et la structure
du modle qui doit tre mis en uvre. On va donc passer en revue les principales hypothses relatives au
bruit, et en dduire, dans chaque cas, la structure du modle dont il faut estimer les paramtres.

Les hypothses concernant le bruit et leurs consquences


sur la structure, lapprentissage et lutilisation du modle
Dans cette section, on examinera les hypothses concernant la manire dont le bruit intervient dans le
processus. On indiquera, en premier lieu, les consquences de ces hypothses sur la structure, lapprentis-
Les rseaux de neurones
159
CHAPITRE 2

sage et lutilisation des modles entre-sortie, puis sur la structure, lapprentissage et lutilisation des
modles dtat.

Cas des reprsentations entre-sortie


Hypothse bruit dtat (reprsentation entre-sortie )
Faisons lhypothse que le processus peut tre correctement dcrit, dans le domaine de validit souhait,
par une reprsentation de la forme :

( )
y p ( k ) = y p ( k 1) ,..., y p ( k n ) , u ( k 1) ,..., u ( k m ) + b ( k )

o yp(k) est la valeur de la grandeur modliser,


yp(k)
mesure sur le processus linstant k ; b(k) modlise

lensemble des bruits et perturbations. On suppose .....
donc que le bruit est additif la sortie du processus yp(k-1) yp(k-n+1)
(voir figure 2-61), et que, linstant k, le bruit ninter- ....
vient pas seulement dans la sortie actuelle, mais gale-
ment dans les valeurs des n sorties passes. Dans le q-1
domaine de la modlisation non linaire, cette hypo-
thse est nomme NARX (Nonlinaire Auto-Rgressif ..... ..... ....
yp(k-n)
entres eXognes) (voir aussi chapitre 4) ou equation b(k) u(k-1) u(k-m)
yp(k-2)
error (voir par exemple [LJUNG 1987] [GOODWIN
1984]), ou encore srie-parallle [NARENDRA yp(k-1)
1989] en modlisation adaptative. Figure 2-61. Hypothse bruit dtat

Remarque
On emploie parfois, au lieu du vocable hypothse , lexpression modle hypothse , traduction de langlais postulated model. Pour viter
toute confusion entre hypothse et modle, et pour ne pas alourdir inutilement la nomenclature, nous nutiliserons pas ces derniers termes.

Par hypothse, le bruit agit donc sur la sortie, non seulement dune manire directe linstant k, mais
galement par lintermdiaire des sorties aux n instants prcdents ; puisque lon souhaite obtenir un
modle tel que lerreur de modlisation linstant k soit gale au bruit au mme instant, il faut quil tienne
compte des sorties du processus aux n instants prcdents. Considrons donc un rseau de neurones non
boucl, reprsent sur la figure 2-62, rgi par lquation

(
g ( k ) = RN y p ( k 1) ,..., y p ( k n ) , u ( k 1) ,...u ( k m ) ,w )
o w est un vecteur des paramtres, et o la fonction RN est ralise par un rseau de neurones (non
boucl). Supposons que lon ait effectu lapprentissage du rseau de neurones RN de telle manire quil
ralise exactement la fonction . On a alors yp(k) g(k) = b(k) pour tout k. Ainsi, ce modle est tel que
lerreur de modlisation soit gale au bruit : cest donc le modle idal, puisquil modlise parfaitement
tout ce qui est dterministe dans le processus, et ne modlise pas le bruit.
Il est important de remarquer que les variables du modle sont les variables de commande et les valeurs
de la grandeur modliser, mesures sur le processus : le modle (galement appel prdicteur ) idal,
reprsent sur la figure 2-62 nest donc pas un rseau de neurones boucl.
Apprentissage du modle : apprentissage dirig
Puisque le modle obtenu est un modle non boucl, son apprentissage seffectue en mettant en uvre les techniques prsentes dans
la section Apprentissage non adaptatif de modles entre-sortie non boucls : apprentissage dirig .
Lapprentissage statistique
160

g(k) g(k)

.....
yp(k-1) yp(k-n+1)

RN
....
RN
q-1

..... ..... .... ..... .....


yp(k-n)
p
y (k-2)
u(k-1) u(k-m) u(k-1) u(k-m) yp(k-1) yp(k-2) yp(k-n)
yp(k-1)
Figure 2-62. Modle idal pour une reprsentation entre-sortie avec lhypothse bruit dtat ; les deux dessins
sont quivalents, mais le fait que le rseau nest pas boucl apparat plus clairement sur celui de droite.

Utilisation du modle
Puisquune partie des variables du prdicteur sont les valeurs de la grandeur modliser, mesures du processus, on ne peut calculer la
sortie quau temps immdiatement suivant : on dit que lon ralise un prdicteur un pas . Si lon dsire utiliser le modle comme simula-
teur, cest--dire prvoir la rponse du processus sur un horizon suprieur un pas dchantillonnage, il faut ncessairement utiliser
comme variables les prdictions faites par le modle aux instants prcdents : le prdicteur nest plus utilis dans des conditions optimales.

Hypothse bruit de sortie (reprsentation entre-sortie )


Faisons prsent lhypothse que le processus peut tre correctement dcrit, dans le domaine de validit
souhait, par une reprsentation de la forme :

(
x p ( k ) = x p ( k 1) ,..., x p ( k n ) , u ( k 1) ,..., u ( k m ) )
p
y ( k ) = x p ( k ) + b ( k )
On suppose donc ici que le bruit est additif sur la sortie
yp(k)

uniquement (figure 2-63) : il intervient en dehors de la
boucle, donc il naffecte que la prdiction. Cette hypo-
thse est connue, en modlisation linaire adaptative,
..... sous les termes d output error ou observateur
xp(k-1) xp(k-n+1) parallle [NARENDRA 1989].
....
Puisque la sortie, linstant k, nest affecte que par le
q-1 bruit ce mme instant, le modle recherch ne doit
pas faire intervenir les valeurs passes de la grandeur
..... ..... .... modliser. Considrons donc un rseau de neurones
xp(k-n)
xp(k-2) boucl, reprsent sur la figure 2-64, rgi par lquation
b(k) u(k-1) u(k-m)
xp(k-1)
g ( k ) = RN ( g ( k 1) ,..., g ( k n ) , u ( k 1) ,..., u ( k m ) , w )
Figure 2-63. Hypothse bruit de sortie
Les rseaux de neurones
161
CHAPITRE 2

o w est un vecteur des paramtres, et o la fonction


RN est ralise par un rseau de neurones non boucl. g(k)
Supposons que lon ait effectu lapprentissage du
rseau de neurones RN de telle manire quil ralise
exactement la fonction . Supposons de plus que
.....
lerreur de prdiction soit gale au bruit aux n premiers
g(k-1) g(k-n+1)
instants : yp(k) g(k) = b(k) pour k = 0 n-1. On a alors ....
yp(k) g(k) = b(k) pour tout k. Ainsi, ce modle est tel
que lerreur de modlisation soit gale au bruit : cest

q-1
donc le modle idal, puisquil modlise parfaitement
tout ce qui est dterministe dans la reprsentation, et ne
..... ..... ....
modlise pas le bruit. g(k-n)
g(k-2)
u(k-1) u(k-m)
Remarque
Si la condition initiale nest pas ralise, mais que nanmoins g(k-1)
RN = , et si le modle est stable quelles que soient les conditions Figure 2-64. Modle idal pour une reprsentation
initiales, lerreur de modlisation tend vers zro lorsque k crot. entre-sortie avec lhypothse bruit de sortie

Il faut noter que, dans ce cas, le modle idal est un


modle boucl.
Apprentissage du modle : apprentissage semi-dirig
Lapprentissage dun modle boucl se ramne, moyennant une technique approprie, lapprentissage dun rseau de neurones non
boucl ( apprentissage semi-dirig ). La technique dapprentissage des rseaux de neurones boucls est dcrite dans la section
Apprentissage non adaptatif de modles entre-sortie boucls .

Utilisation du modle
Contrairement au cas prcdent, ce modle peut tre utilis comme simulateur dans des conditions optimales. Il peut aussi, bien sr, tre
utilis comme prdicteur un pas.

Illustration
Avant de continuer passer en revue les principales hypothses possibles, on va illustrer limportance du
choix du modle en fonction de la manire dont le bruit intervient dans le processus. Cette illustration est
tire de [NERRAND 1992] et de [NERRAND 1994].
Modlisation dun processus avec bruit de sortie
Considrons un processus, simul sur ordinateur, qui obit aux quations suivantes :
T c + dx p ( k 1)
x p ( k ) = 1 x p ( k 1) + T u ( k 1) ,
a + bx p ( k 1) a + bx p ( k 1)
p
y ( k ) = x p ( k ) + b ( k )

avec a = 0,139, b = 1,2, c = 5,633, d = 0,326, et une priode dchantillonnage T = 0,1 s. b(k) est un
bruit blanc damplitude maximale 0,5. Il sagit donc dun processus avec bruit de sortie. La figure 2-65
montre la rponse du processus simul une squence de crneaux pseudo-alatoires.
Lapprentissage statistique
162

Lors de la modlisation dun processus rel, la manire 10


dont le bruit intervient dans le processus nest pas 8 yp
connue. On fait donc successivement des hypothses sur

Amplitude
6
ce type de bruit ; on effectue lapprentissage en fonction
4
dune hypothse retenue, et lon compare les rsultats de u

cet apprentissage avec les rsultats obtenus avec 2

dautres hypothses. Cest donc ce qui va tre fait ici. 0

0 100 200 300 400 500 600 700


Hypothse bruit de sortie Temps (0,1 sec)
Considrons tout dabord lhypothse (exacte) selon Figure 2-65. Rponse du processus simul
laquelle le bruit serait un bruit de sortie. On a vu que le une squence de crneaux pseudo-alatoires.
modle idal est alors un modle boucl. La figure 2-66

Erreur de modlisation
montre lerreur de modlisation aprs apprentissage 0,4
dun rseau de neurones boucl 5 neurones cachs. 0,2
On observe que lerreur de modlisation est un bruit 0
blanc damplitude 0,5 : on vrifie que, ayant effectu
-0,2
lhypothse exacte et ayant choisi la structure du
-0,4
modle en consquence, lerreur de modlisation est
bien gale au bruit, ce qui constitue le meilleur rsultat 0 100 200 300 400 500 600 700
de modlisation que lon puisse obtenir. Temps (0,1 sec)
Figure 2-66. Erreur de modlisation dun processus
Hypothse bruit dtat avec bruit de sortie aprs apprentissage
Considrons prsent lhypothse (inexacte) avec hypothse bruit de sortie
selon laquelle le bruit serait un bruit dtat.
Conformment cette hypothse, effectuons
Erreur de modlisation

0,4
lapprentissage dun rseau de neurones non
boucl, 5 neurones cachs. La figure 2-67 0,2
reprsente lerreur de modlisation : on vrifie 0
que son amplitude est suprieure 0,5. Le
rsultat est donc moins bon quavec lhypo- -0,2
thse bruit de sortie , ce qui est normal -0,4
puisque cette hypothse est inexacte. Souli-
gnons quil ne sagit pas ici dun problme 0 100 200 300 400 500 600 700
Temps (0,1 sec)
technique (trop ou trop peu de neurones cachs,
algorithme doptimisation inefficace, erreur de Figure 2-67. Erreur de modlisation dun processus avec bruit
programmation), mais dun problme de sortie aprs apprentissage avec lhypothse bruit dtat
fondamental : mme avec le meilleur algo-
rithme dapprentissage possible, et une structure de rseau de neurones parfaitement adapte, on ne pour-
rait pas obtenir une erreur de modlisation gale au bruit, puisque lon a fait une hypothse errone sur le
bruit.
Modlisation dun processus avec bruit dtat
Considrons prsent un processus, simul sur ordinateur, qui obit lquation suivante :

T p c + dy p ( k 1)
y p ( k ) = 1 y ( k 1) + T u ( k 1) + b ( k )
a + bx p ( k 1) a + by ( k 1)
p
Les rseaux de neurones
163
CHAPITRE 2

Il sagit donc dun processus avec bruit dtat, dont la partie dterministe est la mme que dans le cas
prcdent : elle sera donc modlise par un rseau de neurones cinq neurones cachs, comme prcdem-
ment. Faisons nouveau successivement les deux hypothses bruit de sortie et bruit dtat .
Hypothse bruit de sortie 1,5

Erreur de modlisation
Considrons tout dabord lhypothse 1,0
(inexacte) selon laquelle le bruit serait un bruit
de sortie. On a vu que le modle idal est alors 0,5
un modle boucl. La figure 2-68 montre lerreur 0
de modlisation aprs apprentissage dun
rseau de neurones boucl 5 neurones cachs. -0,5
On observe que lerreur de modlisation ne se -1,5
prsente pas du tout comme un bruit blanc : il 0 100 200 300 400 500 600 700
est manifeste que lerreur de modlisation Temps (0,1 sec)
contient de linformation que lapprentissage
Figure 2-68. Erreur de modlisation dun processus avec bruit
du modle na pas permis dapprhender. L dtat aprs apprentissage avec lhypothse bruit
encore, cet chec nest pas d une raison tech- de sortie
nique (modle insuffisamment complexe,
apprentissage inefficace) : cest lhypothse sur le bruit, donc la structure du modle (ici, modle
boucl), qui est en cause.
Hypothse bruit dtat
Erreur de modlisation

0,4
Faisons enfin lhypothse (exacte) selon laquelle le 0,2
bruit serait un bruit dtat. Le modle idal est alors un
0
rseau non boucl. La figure 2-69 montre que lerreur
-0,2
de modlisation a bien toutes les caractristiques dun
bruit blanc damplitude 0,5 : on a bien obtenu un -0,4
prdicteur idal. 0 100 200 300 400 500 600 700

Hypothse bruit de sortie et bruit dtat Temps (0,1 sec)


Figure 2-69. Erreur de modlisation dun processus
(reprsentation entre-sortie ) avec bruit dtat aprs apprentissage
Ayant examin successivement les consquences des avec lhypothse bruit dtat
hypothses bruit de sortie et bruit dtat ,
faisons prsent lhypothse dun bruit additif qui affecte la fois la sortie et ltat : le processus peut tre
correctement dcrit par un modle de la forme :

(
x p ( k ) = x p ( k 1) ,..., x p ( k n ) , u ( k 1) ,..., u ( k m ) , b ( k 1) ,...b ( k p ) )
y (k ) = xp (k ) + b(k )
p

reprsent sur la figure 2-70. On nomme parfois cette hypothse NARMAX (Non linaire Auto-Rgressif
Moyenne Ajuste et entres eXognes).
Il faut cette fois que le modle tienne compte simultanment des valeurs passes de la sortie du processus et des
valeurs passes de la sortie du modle. Considrons donc un rseau de neurones boucl, rgi par lquation

(
g ( k ) = RN y p ( k 1) ,...y p ( k n ) , u ( k 1) ,..., u ( k m ) , r ( k 1) ,..., r ( k p ) , w )
o r(k) = yp(k) g(k) (figure 2-71). Supposons que lon ait effectu lapprentissage du rseau de neurones
RN de telle manire quil ralise exactement la fonction . Supposons de plus que lerreur de prdiction
Lapprentissage statistique
164

soit gale au bruit aux p premiers instants : yp(k) g(k) = b(k) pour k = 0 p 1. On a alors
yp(k) g(k) = b(k) pour tout k. Ainsi, ce modle est tel que lerreur de modlisation soit gale au bruit :
cest donc le modle idal, puisquil modlise parfaitement tout ce qui est dterministe dans la reprsen-
tation, et ne modlise pas le bruit.

yp(k)

g(k)
r(k)

+ ...... r(k-p+1)
xp(k) xp(k-1) xp(k-n+1) .... yp(k)
r(k-1)


q-1 RN q-1

..... ..... ..... x (k-n) .... ...... ...... r(k-1) r(k-2)


p
u(k-1) u(k-m) yp(k) yp(k-n) ...... r(k-p)
xp(k-2)
b(k) b(k-1) b(k-p) u(k-1) u(k-m)
xp(k-1)
Figure 2-70. Hypothse NARMAX Figure 2-71. Modle

Rsum sur la structure, lapprentissage et lutilisation des modles dynamiques entre-sortie


Le tableau 2-1 rsume les hypothses de bruit et leurs consquences sur lapprentissage des modles
entre-sortie.
Nom usuel en
quivalent en Utilisation
Hypothse modlisation non Apprentissage
modlisation linaire recommande
linaire
Bruit dtat NARX ARX Dirig Prdicteur
un pas
Bruit de sortie Output error Semi-dirig Simulateur
Bruit dtat et bruit de NARMAX ARMAX Semi-dirig Prdicteur
sortie un pas

Tableau 2-1. Hypothses de bruit et leurs consquences sur lapprentissage


des modles entre-sortie

Cas des reprsentations dtat


On reprend ici les mmes hypothses que dans le paragraphe prcdent, mais on considre prsent leurs
consquences sur les modles dtat.
Hypothse bruit de sortie
(reprsentation dtat)
Dans les paragraphes prcdents, on a considr diverses hypothses sur le bruit, et cherch des modles
idaux dans ces diffrents cas, sous la forme de reprsentations entre-sortie. Reprenons ces hypothses,
mais en cherchant prsent des modles sous la forme de reprsentations dtat, qui, rappelons-le, sont
gnralement plus parcimonieuses que les reprsentations entre-sortie.
Faisons tout dabord lhypothse bruit de sortie , selon laquelle le comportement du processus pourrait
tre correctement dcrit par des quations de la forme
Les rseaux de neurones
165
CHAPITRE 2

x ( k ) = ( x ( k 1) , u ( k 1)) yp(k)

y ( k ) = ( x ( k )) + b ( k )
comme reprsent sur la figure 2-72 pour un modle du
deuxime ordre.
Le bruit nintervenant que dans lquation dobserva-
tion, il na aucune influence sur la dynamique du
modle. Pour des raisons analogues celles qui ont t
dveloppes dans le cas des reprsentations entre- xp1(k)
sortie, le modle idal est un modle boucl, reprsent xp2(k)
sur la figure 2-73 :
x ( k ) = RN ( x ( k 1) , u ( k 1))

y ( k ) = RN ( x ( k )) q-1

o jRN ralise exactement la fonction j et RN ralise


exactement la fonction . b(k) u(k)
xp2(k-1)

Hypothse bruit dtat xp1(k-1)


(reprsentation dtat) Figure 2-72. Reprsentation dtat, hypothse
bruit de sortie .
Supposons que le processus puisse tre dcrit correcte-
ment par les quations :

x ( k ) = ( x ( k 1) , u ( k 1) , b ( k 1)) g(k)

y ( k ) = ( x ( k ))
Alors, par un argument analogue celui qui a t dve- RN
lopp pour les modles entre-sortie, le modle idal
devrait avoir pour entres, outre les entres de
commande u, les variables dtat du processus. Deux
cas peuvent alors se prsenter : x1(k)
ces variables sont mesures : on peut alors les consi-
x2(k)
drer comme des sorties, et lon est alors ramen un
modle entre-sortie ; le modle est un modle non
boucl, qui peut tre utilis essentiellement comme
prdicteur un pas ; RN
ces variables ne sont pas mesures : on ne peut pas
construire le modle idal ; il convient soit dutiliser q-1
une reprsentation entre-sortie (bien quelle soit
moins parcimonieuse quun modle dtat), soit
dutiliser un modle boucl, non optimal.
x2(k-1)
Hypothse bruit de sortie et bruit dtat u(k)
(reprsentation dtat) x1(k-1)
Supposons enfin que le processus puisse tre dcrit Figure 2-73. Modle idal pour une reprsentation
correctement par les quations : dtat avec lhypothse bruit de sortie
Lapprentissage statistique
166

x ( k ) = ( x ( k 1) , u ( k 1) , b1 ( k 1))

y ( k ) = ( x ( k ))
L encore, deux cas peuvent se prsenter :
si les variables dtat sont mesures, on peut les considrer comme des sorties, et lon est ramen au cas
dune reprsentation entre-sortie, considr prcdemment ;
si les variables dtat ne sont pas mesures, le modle idal doit faire intervenir la fois ltat et la sortie
mesure du processus ; il est donc de la forme :

(
x ( k ) = x ( k 1) , u ( k 1) , y p ( k 1) )

y ( k ) = ( x ( k ))

Rsum sur la structure, lapprentissage et lutilisation des modles dtat


dynamiques
Le tableau 2-2 rsume les hypothses de bruit et leurs consquences sur lapprentissage des modles
dtat dynamiques. Les termes apprentissage dirig et semi-dirig sont dfinis dans la section
suivante.
Utilisation
Hypothse Apprentissage
recommande
Bruit dtat Prdicteur
Dirig
(tat mesur) un pas
Bruit dtat Simulateur
Semi-dirig
(tat non mesur) (non optimal)
Bruit de sortie Semi-dirig Simulateur
Prdicteur
Bruit dtat et bruit de sortie Semi-dirig
un pas

Tableau 2-2. Consquences des hypothses de bruit sur lapprentissage des modles dtat dynamiques

Apprentissage non adaptatif des modles dynamiques


sous forme canonique
Dans les paragraphes prcdents, on a montr comment choisir la structure du modle dynamique, en
fonction de la manire dont le bruit est susceptible dintervenir dans le processus, afin davoir une chance,
si lapprentissage est bien fait, dobtenir le modle idal, cest--dire celui qui rend parfaitement compte
de tout ce qui est dterministe dans le processus. Abordons prsent le problme de lapprentissage de ce
modle. On suppose que des squences de mesures des entres et des sorties correspondantes sont
disponibles : on se place dans le cadre de lapprentissage non adaptatif.
Dans tout ce qui suit, on considrera que le prdicteur dont on dsire effectuer lapprentissage est sous sa
forme canonique (dfinie dans la section Forme canonique des rseaux de neurones boucls ), cest--
dire quil est sous la forme :

x ( k + 1) = ( x ( k ) , u ( k ))
g ( k + 1) = ( x ( k ) , u ( k ))
Les rseaux de neurones
167
CHAPITRE 2

o x(k) est lensemble minimal, compos de variables, qui permet de calculer compltement ltat du
modle linstant k+1, connaissant ltat du modle et ses variables externes linstant k, et o les fonc-
tions vectorielles F et y sont ralises par un ou plusieurs rseaux de neurones non boucls. est lordre
de la forme canonique. Cette forme est donc la reprsentation dtat minimale ; si le vecteur dtat est de
la forme

g(k )

g(k ) = g(k 1)
M

g(k v + 1)

la forme canonique constitue un modle entre-sortie : Prdictions du modle Variables dtat


seule la sortie intervient dans le vecteur dtat. Dans la linstant k+1 linstant k+1
suite, pour simplifier, on considrera que les fonctions
F et y sont ralises par un seul rseau plusieurs g(k+1) x(k+1)
sorties, que lon dsignera sous le terme de rseau
non boucl de la forme canonique (figure 2-74).
Deux cas doivent tre envisags : Rseau de neurones non boucl
on effectue une modlisation bote noire : il est de la forme canonique
naturel de choisir, ds la conception, un prdicteur
sous forme canonique, car il ny a aucune raison den
choisir un autre ;
on effectue une modlisation partir de connaissances u(k) x(k)
qui suggrent un prdicteur qui nest pas sous forme
canonique : il faut alors, pralablement lapprentis-
sage, trouver la forme canonique quivalente de ce Variables externes Variables dtat
linstant k linstant k
prdicteur, ce qui est toujours possible. La section inti-
tule Mise sous forme canonique des modles Figure 2-74. Rseau de neurones non boucl
dynamiques est consacre cette question. de la forme canonique

Dans les paragraphes qui suivent, on supposera donc


toujours que le modle dont on cherche raliser lapprentissage a t mis sous forme canonique.
On distinguera lapprentissage des modles non boucls et celui des modles boucls.

Apprentissage non adaptatif de modles entre-sortie non boucls :


apprentissage dirig
On a vu que, si lhypothse de la prsence dun bruit dtat seul permet de dcrire le comportement dun
processus, le modle idal est un modle non boucl, dont les variables sont les signaux de commande et
les valeurs de la grandeur modliser mesures sur le processus aux n instants prcdents. Lapprentis-
sage de ce modle est dit dirig par le processus, puisque ce sont les mesures issues du processus qui sont
utilises comme variables du prdicteur pendant lapprentissage, comme cela est indiqu sur la figure 2-75
(cet apprentissage est appel teacher forcing en anglais). Le modle est donc cal en permanence sur
les mesures de la grandeur modliser.
Lapprentissage de ce modle seffectue exactement comme celui dun rseau pour la modlisation
statique. Lensemble dapprentissage de ce rseau est constitu de N couples {xk, yk} (k = 1 N), o N est
la longueur de la squence dapprentissage, et o
Lapprentissage statistique
168

x = u ( k ) , u ( k 1) ,..., u ( k m + 1) , y p ( k ) , y p ( k 1) ,..., y p ( k n + 1) T
k

yk = y ( k + 1)
p

Lapprentissage se fait par minimisation de la fonction


de cot g(xk,w)
N

(
J (w ) = y p ( k ) g ( xk , w ) )
2

k =1

par rapport aux paramtres w du rseau non boucl de Rseau de neurones non boucl
la forme canonique. de la forme canonique
Le pige du prdicteur stupide
En apprentissage dirig, le modle prend en considration, chaque
pas de temps, les valeurs de la grandeur modliser mesures sur le ..... .....
processus. Il est donc trs facile dobtenir des rsultats qui peuvent
donner limpression dune grande qualit, surtout si lon se contente u(k-1) u(k-m) yp(k-1) yp(k-2) yp(k-n)
destimer graphiquement celle-ci en superposant la courbe relle et la Figure 2-75. Apprentissage dirig dun modle
courbe prdite. Cela peut tre trompeur : en effet, un prdicteur dynamique sous forme canonique
stupide constitu dun simple retard dune unit de temps, cest--
dire un prdicteur qui prdit que la sortie linstant k + 1 sera gale
la sortie mesure linstant k, peut galement donner dexcellents rsultats : il suft pour cela que la sortie du processus varie peu entre
deux instants dchantillonnage. Il est donc trs important, lorsque lon a effectu un apprentissage dirig, de comparer la prcision du
modle obtenu celle du prdicteur stupide . Les dsillusions sont frquentes...

Apprentissage non adaptatif de modles entre-sortie boucls :


apprentissage semi-dirig
On a vu que, si lhypothse de la prsence dun bruit de sortie seul, ou dun bruit de sortie et dun bruit
dtat, permet de dcrire le comportement dun processus, le modle idal est un modle boucl dont
les variables sont
les signaux de commande et les prdictions du modle aux n instants prcdents (si lon fait lhypothse
de lexistence dun bruit de sortie seul) ;
les signaux de commande, les prdictions du modle et les erreurs de modlisation sur un horizon
convenable p (si lon fait lhypothse NARMAX).
Hypothse bruit de sortie
Le modle tant boucl, son apprentissage, laide dune squence de mesures de longueur N, ncessite
de dplier le rseau boucl en un grand rseau non boucl, compos de N copies identiques (cest--
dire qui possdent toutes les mmes paramtres). Les variables de la copie k (reprsente sur la figure 2-76)
sont :
le vecteur u(k) = [u(k), ..., u(k-m+1)]T (pour simplifier, on suppose ici quil y a un seul signal de
commande ; sil y en a plusieurs, le vecteur des variables de commande est la concatnation des
vecteurs constitus des valeurs de chacun de ces signaux sur lhorizon m),
le vecteur des prdictions linstant k et aux n-1 instants prcdents [g(k), ..., g(k-n+1)]T.
Le vecteur de sortie de la copie k est le vecteur des prdictions linstant k+1 et aux n-1 instants prc-
dents [g(k), ..., g(k-n+2)]T. Le rseau ne calcule donc que g(k+1), les autres composantes du vecteur des
prdictions tant dduites de celles du prcdent vecteur des prdictions par dcalage dune unit de
Les rseaux de neurones
169
CHAPITRE 2

temps. Le vecteur des sorties de la copie k constitue le vecteur des variables de la copie suivante, corres-
pondant linstant k+1. Le dpliement temporel pour lapprentissage dun rseau dordre 2, avec m = 1,
laide dune squence de longueur N, est reprsent sur la figure 2-77.
Le concepteur doit choisir le vecteur des variables linstant initial. Si la grandeur modliser est connue
au cours des n premiers instants, il est naturel de prendre ces valeurs pour ltat initial. Les valeurs de la
grandeur modliser ninterviennent donc que pour linitialisation : cest la raison pour laquelle cet algo-
rithme est appel semi-dirig, par opposition aux algorithmes dirigs qui sont utiliss pour les rseaux non
boucls, dans lesquels les mesures effectues sur le processus interviennent tous les instants (figure 2-75).
Remarque trs importante
Toutes les copies tant identiques, il fautt utiliser la technique des poids partags, dcrite plus haut.
Vecteur des prdictions
linstant k +1 et aux n -1 instants prcdents

g(k+1) g(k) g(k-n+3) g(k-n+2)

Figure 2-76. Copie k


du rseau non boucl
de la forme canonique
Rseau non boucl pour un apprentissage
semi-dirig
de la forme canonique

...... ......
u(k) u(k-m+1) g(k) g(k-1) g(k-n+2) g(k-n+1)

u(k) Vecteur des prdictions


linstant k et aux n -1 instants prcdents

g(N)

Rseau non boucl


g(k+2) g(k+1)

u(N)
Rseau non boucl g(N-1) g(N-2) Figure 2-77.
Dpliement
g(2) g(1) temporel pour
u(k+1) g(k+1) g(k)
lapprentissage
semi-dirig
Rseau non boucl
Rseau non boucl dun rseau
dynamique
u(1) g(1) g(0) dordre 2
u(k)
g(k) g(k-1) sous forme
canonique,
Rseau non boucl avec m = 1

u(0)

g(0) g(0)
Lapprentissage statistique
170

Hypothse NARMAX
Le prdicteur tant boucl, son apprentissage ncessite, comme dans le cas prcdent, de dplier le
rseau en un grand rseau non boucl, compos de N copies identiques (cest--dire possdant toutes les
mmes paramtres). Les variables de la copie k (reprsente sur la figure 2-78) sont :
le vecteur [u(k), ..., u(k-m+1)]T (on suppose, pour simplifier le schma, que le processus a une
seule variable de commande) ;
le vecteur [yp(k), ..., yp(k-n+1)]T ;
le vecteur des erreurs linstant k et aux p instants prcdents [r(k), ...,
r(k-p+1)]T.
Le vecteur de sortie de la copie k est le vecteur des erreurs linstant k+1 et aux p instants prcdents
[r(k+1), ..., r(k-p+2)]T. Le rseau ne calcule donc que r(k+1), les autres composantes du vecteur des
erreurs linstant k+1 tant dduites de celles du vecteur des erreurs linstant k par dcalage dune unit
de temps. Le vecteur des erreurs linstant k+1 entre dans la constitution du vecteur des variables de la
copie suivante, correspondant linstant k+1.

Vecteur des erreurs


linstant k+1
r(k+1) r(k) ...... r(k-p+2)

+
Figure 2-78.
g(k+1) yp(k+1) Copie k du rseau non boucl
de la forme canonique
pour lapprentissage
dun modle NARMAX
Rseau non boucl
de la forme canonique

...... ...... ......


u(k) u(k-m+1) yp(k) yp(k-n+1) r(k) r(k-p+1)
Vecteur des erreurs
linstant k

Apprentissage non adaptatif de modles dtat boucls :


apprentissage semi-dirig
Comme dans le cas dun modle entre-sortie, lapprentissage ncessite de dplier le rseau de
manire raliser un grand rseau non boucl, compos de N copies identiques dun rseau non boucl
dont les variables sont, pour la copie k :
la variable de commande u(k) ;
le vecteur dtat linstant k [x1(k), ..., xn(k)]T ;
et dont les sorties sont :
la prdiction g(k+1) ;
le vecteur dtat linstant k+1 [x1(k+1), ..., xn(k+1)]T.
Les rseaux de neurones
171
CHAPITRE 2

Ce dernier vecteur constitue le vecteur des variables dtat de la copie suivante, correspondant linstant
k+1 (voir figure 2-79).
Pour linitialisation de la premire copie, le problme est plus dlicat que dans les cas prcdents, puisque
ltat initial nest pas connu. On peut, par exemple, prendre un vecteur nul.
Ltat ntant impos que pour la premire copie, il sagit encore dun algorithme semi-dirig.

Vecteur des variables dtat


linstant k +1

g(k+1) x1(k+1) x2(k+1) xn(k+1)


Figure 2-79.
Copie k du rseau non boucl
de la forme canonique
pour lapprentissage
semi-dirig dun modle dtat
Rseau non boucl
de la forme canonique

......
u(k) x1(k) x2(k) xn(k)

Vecteur des variables dtat


linstant k

Apprentissage non adaptatif de modles dtat non boucls :


apprentissage dirig
Il a t dmontr plus haut que, si lon fait lhypothse dun bruit dtat, et si les variables dtat sont
mesures, le modle idal est un modle non boucl qui prdit ltat et la grandeur modliser, soit
laide dun rseau unique, soit au moyen de deux rseaux distincts.
Le prdicteur de ltat est non boucl, ainsi que le prdicteur de la grandeur modliser. Pour la prdiction
de ltat, on peut soit utiliser n rseaux distincts (qui ont tous les mmes entres, mais qui prdisent
chacun une variable dtat diffrente), soit utiliser un rseau unique qui prdit toutes les variables dtat :
ltat linstant k+1 est calcul partir de ltat mesur linstant k et des entres de commande
linstant k ;
la sortie linstant k+1 est calcule partir de ltat calcul linstant k+1.
La figure 2-80 montre le modle mis en uvre si lon utilise deux rseaux de neurones distincts pour ltat
et la grandeur modliser.
Lapprentissage de ces rseaux est un apprentissage dirig : il seffectue donc exactement comme pour un
rseau non boucl.
Lapprentissage statistique
172

Remarque
La remarque concernant le prdicteur stupide , formule propos de lapprentissage dirig des modles entre-sortie, sapplique
galement lapprentissage dirig des modles dtat.

tat prdit
linstant k+1
g(k+1)
x1(k+1) xn(k+1)

Figure 2-80.
Rseau non boucl Rseau non boucl Copie k pour lapprentissage
dun rseau dtat
comprenant deux rseaux
distincts pour ltat et pour
x1p(k) xnp(k) u(k) x1(k+1) xn(k+1) la grandeur modliser

tat mesur tat prdit


linstant k linstant k+1

Implantation pratique des algorithmes dirigs et semi-dirigs

Le lecteur dsireux de programmer lui-mme des algorithmes dirigs ou semi-dirigs trouvera


lensemble des quations ncessaires dans le chapitre 3, pages 64 69 (modles entre-sortie) et 72
81 (modles dtat), [OUSSAR 1998]. Une discussion technique trs complte, quil serait trop long de
reproduire ici, y est prsente.

Apprentissage adaptatif de rseaux de neurones boucls


Dans la section consacre lapprentissage des modles statiques, la possibilit de raliser un apprentis-
sage adaptatif a t mentionne. La thorie et les conditions dapplication de ces algorithmes sont dve-
loppes au chapitre 4, dans le cadre de lapproximation stochastique. On retrouve les principes essentiels
dvelopps plus haut, notamment linfluence de la nature du bruit sur les choix du type dapprentissage.
On retrouve galement les algorithmes dirigs et semi-dirigs, et lon trouvera un troisime type
dapprentissage : lapprentissage non dirig.

Que faire en pratique ? Un exemple rel de modlisation


bote noire
On a prsent, dans les premiers paragraphes de ce chapitre, les problmes poss par la conception dun
modle statique bote noire :
prtraitement et choix des variables pertinentes ;
choix de la complexit du modle, cest--dire du nombre de neurones cachs.
La conception dun modle dynamique ncessite, en outre, les choix suivants :
choix de la reprsentation (entre-sortie ou dtat) ;
choix de lhypothse concernant le bruit (bruit dtat, bruit de sortie, bruit dtat et de sortie) ;
choix de lordre du modle.
En labsence de toute connaissance sur le processus, il faudrait en principe essayer toutes les combinai-
sons dhypothses et de reprsentations, et mettre en uvre des modles dordres croissants, jusqu
obtention dun modle satisfaisant. Nanmoins, les considrations suivantes doivent simplifier largement
la tche du concepteur :
Les rseaux de neurones
173
CHAPITRE 2

comme indiqu au dbut de la section sur la modlisation dynamique bote noire , les modles dtat
sont plus gnraux et plus parcimonieux, mais dapprentissage moins ais, que les modles entre-
sortie; il est donc recommand dessayer dabord des modles entre-sortie, puis, si ceux-ci ne sont pas
satisfaisants, dessayer des modles dtat ;
des connaissances, mme trs sommaires, sur le processus modliser, fournissent souvent des indica-
tions sur la nature du bruit qui agit sur le processus ;
de mme, lobservation de la rponse du processus fournit souvent des indications concernant lordre
souhaitable pour le modle.
Pour illustrer cette dmarche de conception, on prsente ici un exemple : la modlisation bote noire
de lactionneur hydraulique dun bras de robot utilis pour lexploitation forestire. Les donnes ont t
recueillies par lUniversit de Linkping (Sude)2, et ont fait lobjet de modlisations bote noire
effectues par plusieurs quipes (voir notamment [SJBERG 1995]).
1,5
1 Commande u

0,5
0
Figure 2-81.
-0,5 Squences
dapprentissage
-1 et de test pour
la modlisation
-1,5 de lactionneur
0 200 400 (a) 600 800 1000 dun bras
de robot
Squence d'apprentissage Squence de test
4
Grandeur modliser yp
2

-2

-4
0 200 400 (b) 600 800 1000
La variable de commande est louverture de la vanne dadmission du liquide dans le vrin, et la grandeur
modliser est la pression hydraulique dans lactionneur. Deux squences dobservations sont
disponibles ; chacune delles comprend 512 points. La premire de ces squences est destine lappren-
tissage, la seconde au test. La figure 2-81(a) montre la squence des signaux de commande, et la figure 2-81(b)
reprsente les rponses correspondantes.
Remarque
Aucun ensemble de validation ntant fourni, les performances indiques sont les meilleures performances obtenues sur lensemble de test.

2. Ces donnes proviennent de la Division of Oil Hydraulics and Pneumatics, Dept. of Mechanical Eng., Linkping University, et
nous ont t aimablement communiques par P.-Y. Glorennec (IRISA, Rennes).
Lapprentissage statistique
174

Tout dabord, on observe facilement que le modle doit tre non linaire pour rendre compte des
observations : par exemple, des commandes dont les amplitudes sont dans un rapport 2 (par exemple les
variations rapides prsentes aux instants 10 et 380 environ) nentranent pas des rponses dans un rapport 2.
On ne dispose ici daucune indication sur la physique du dispositif, et notamment sur les sources de
perturbation. Il faut donc tester les hypothses de bruit dtat et de bruit de sortie.
De plus, les rponses des variations brusques (par exemple au voisinage de linstant 220) suggrent que
le modle doit tre dordre suprieur 1.
Enfin, lapplication ne ncessitant pas un apprentissage adaptatif, seuls les apprentissages non adaptatifs
seront envisags.

Modlisation entre-sortie
Comme indiqu plus haut, la modlisation entre-sortie est plus simple mettre en uvre que la modli-
sation dtat : cest donc celle que lon essaie en priorit. En labsence de toute connaissance sur le
processus, il faut faire successivement les hypothses de bruit dtat (apprentissage dirig dun modle
non boucl, modle NARX), de bruit de sortie (apprentissage semi-dirig dun modle boucl), et de
prsence simultane des deux (apprentissage avec prsence simultane, en entre, des prdictions du
modle et des mesures de la sortie du processus).
Les hypothses faisant intervenir un bruit dtat donnent des rsultats de trs mauvaise qualit lorsquils
sont utiliss comme simulateurs, cest--dire si on leur demande une prdiction plus dun pas de temps ;
ils ne seront pas prsents ici. On ne prsente que les rsultats obtenus par modlisation par apprentissage
semi-dirig dun modle boucl. Le meilleur modle est un modle dordre 2, 3 neurones cachs avec
fonction dactivation sigmode, avec un horizon de 1 sur lentre. Son quation est donc :
g ( k ) = RN ( g ( k 1) , g ( k 2 ) , u ( k 1) ,w )

o w est le vecteur des paramtres, de dimension 19.


Son EQMA vaut 0,092 et son EQMT vaut 0,15. Pour chaque structure essaye, 50 apprentissages ont t
effectus avec des initialisations diffrentes. Lapport de neurones supplmentaires conduit du surajus-
tement, et lutilisation dun ordre plus lev namliore pas les performances. Lapprentissage est effectu
laide dun algorithme semi-dirig mettant en uvre lalgorithme de Levenberg-Marquardt.

Modlisation dtat
Compte tenu des rsultats obtenus avec les modles entre-sortie, on cherche concevoir des modles
dordre 2. Deux possibilits se prsentent :
modles deux variables dtat (non mesures dans cette application) ;
modles dont la prdiction constitue une des variables dtat (une des variables dtat est donc mesure).
L encore, les modles dont lapprentissage est effectu laide dun algorithme dirig (hypothse bruit
dtat ) donnent de trs mauvais rsultats lorsquils sont tests en simulateurs.
Le tableau 2-3 prsente les meilleurs rsultats obtenus aprs apprentissage semi-dirig mettant en uvre
lalgorithme de Levenberg-Marquardt, pour un rseau trois neurones cachs.
EQMA EQMT
Rseau sans variable dtat mesure 0,091 0,18
Rseau dont une des variables dtat est la sortie 0,071 0,12
Tableau 2-3. Rsultats obtenus aprs apprentissage semi-dirig avec optimisation par lalgorithme de Levenberg-Marquardt
(trois neurones cachs)
Les rseaux de neurones
175
CHAPITRE 2

Le meilleur modle est donc le rseau dont la sortie est une des variables dtat. Son quation est

x1 ( k ) = 1RN ( x1 ( k 1) , x2 ( k 1) , u ( k 1))

x2 ( k ) = RN ( x1 ( k 1) , x2 ( k 1) , u ( k 1))
2


g ( k ) = x2 ( k )

Ce rseau possde 26 paramtres ajustables, et il prsente nanmoins de meilleures performances que


celles dun rseau entre-sortie 19 paramtres ajustables. On vrifie bien ainsi, de manire exprimen-
tale, la plus grande gnralit et la parcimonie des rseaux dtat, qui ont permis de mettre en uvre un
plus grand nombre de paramtres sans dgradation des performances par surajustement.

Remarque
notre connaissance, ces rsultats sont les meilleurs rsultats publis sur cette application. On peut en trouver le dtail, ainsi que des
rsultats obtenus avec des rseaux dondelettes, dans [OUSSAR 1998].

Mise sous forme canonique des modles dynamiques


Dans tout ce qui prcde, on a suppos que le concepteur du modle ne possde aucune connaissance a
priori sur le processus quil veut modliser, et notamment quil na aucune ide de la forme des quations
algbro-diffrentielles qui pourraient dcrire le processus si une analyse physique de celui-ci tait
ralise : on tait dans le contexte dun modle dynamique bote noire .
Dans la section suivante, on montre quil peut tre trs avantageux de tenir compte, dans la conception du
modle, dquations issues dune analyse du processus, mme si elles sont approximatives. Il sagit alors
dune modlisation bote grise , ou semi-physique . La conception dun tel modle peut amener
une structure de rseau complexe, qui nest ni une reprsentation entre-sortie, ni une reprsentation
dtat ; or, les algorithmes dapprentissage prsents dans les paragraphes prcdents sappliquent des
rseaux sous forme de reprsentation entre-sortie ou sous forme de reprsentation dtat. Comment
raliser lapprentissage de rseaux qui, a priori, ne sont sous aucune de ces deux formes ?
De mme, on trouvera dans le chapitre 4 une srie de modles de rseaux (o modle ne doit pas
tre pris au sens scientifique du terme, mais au sens commercial comme modle de voiture ou
modle de tlviseur ), portant gnralement le nom de leur auteur (modles de Hopfield [HOPFIELD
1987], de Jordan, dElman, etc.), qui ont des structures diffrentes de celles qui ont t considres
jusqu prsent. L encore, il est lgitime de se demander comment on peut raliser lapprentissage de tels
rseaux.
Pour rpondre cette question, utilisons la proprit suivante.

Proprit

Tout rseau de neurones boucl, aussi complexe soit-il, peut tre mis sous une forme dtat minimale,
dite forme canonique , laquelle sappliquent directement les algorithmes dcrits dans les para-
graphes prcdents. Ces derniers sont donc compltement gnriques, en ce sens quils sappliquent
nimporte quelle structure de rseau boucl, sous rserve davoir pralablement ramen celle-ci
une forme canonique.
Lapprentissage statistique
176

On va donc montrer comment, tant donne une structure arbitraire de rseau, provenant, par exemple,
dune modlisation de connaissance, on peut trouver la forme canonique correspondante. Cette opration
peut se dcomposer en deux tapes :
dtermination de lordre du rseau ;
dtermination dun vecteur dtat et de la forme canonique correspondante.

Rappel
Lorsquon procde une modlisation purement bote noire , cest--dire que lon ne dispose daucun modle mathmatique, mme
approximatif, dont on dsire sinspirer pour concevoir le modle, on utilise directement la forme canonique : le problme de la mise sous
forme canonique ne se pose pas.

Dfinition

Forme canonique

On appelle forme canonique dun rseau de neurones boucl la forme dtat minimale
x ( k ) = ( x ( k 1) , u ( k 1))
g ( k ) = ( x ( k 1) , u ( k 1))
o x(k) est lensemble minimal, compos de variables, qui permet de calculer compltement ltat
du modle linstant k+1, connaissant ltat du modle et ses entres linstant k, et o les fonctions
F et Y sont des fonctions qui peuvent notamment tre ralises par des rseaux de neurones non
boucls.
est lordre de la forme canonique. Il savre commode, mais pas obligatoire, dutiliser un seul
rseau de neurones pour raliser le prdicteur, dont les variables sont les variables externes et
les variables dtat un instant donn, et les sorties sont les variables dtat et les prdictions
linstant suivant (voir figure 2-6).

On reconnat, dans cette structure, la forme gnrale dun modle dtat.


Une technique gnrale, compltement automatique, pour la mise sous forme canonique dun modle
quelconque, est dcrite en dtail dans [DREYFUS 1998]. Elle va tre illustre par un exemple, titre dillus-
tration.

Exemple de mise sous forme canonique


Lanalyse dun processus a permis dtablir un modle constitu par les quations suivantes :

x = ( x , x , x , u )
2 1 1 2 3
x 2 = 2 ( x 1, x 3 )

x3 = 3 ( x 1, x 2 )

g = x 3
Un quivalent, en temps discret, de ces quations, tabli laide de la mthode dEuler, est donn par des
relations de la forme :
Les rseaux de neurones
177
CHAPITRE 2

x1 ( k + 1)) = 1 ( x1 ( k ) , x1 ( k 1) , x2 ( k 1) , x3 ( k 1) , u ( k 1))

x2 ( k + 1) = 2 ( x2 ( k + 1) , x3 ( k + 1))

x3 ( k + 1) = 3 ( x3 ( k ) , x3 ( k 1) , x1 ( k 1) , x2 ( k ) , x2 ( k 1))

g ( k + 1) = x3 ( k + 1)

Rappel

La mthode de discrtisation dEuler consiste remplacer la drive f(t) dune fonction linstant kT (o T est la priode dchantillonnage
et k un entier positif) par lexpression approche [f(kT) f((k 1)T)] / T. Dans la section consacre la modlisation bote grise , on
reviendra en dtail sur les problmes de discrtisation des quations diffrentielles dun modle temps continu.

Il est clair que ces quations ne sont pas sous une forme canonique. Il est souhaitable, pour la clart de
lanalyse du rseau, et pour faciliter lapprentissage si les fonctions inconnues sont paramtres, de
connatre le nombre minimal de variables qui permettent de dcrire ce modle, et de le mettre sous forme
canonique. Il faut noter que cette forme canonique nest pas unique : pour un rseau donn, on peut gn-
ralement trouver plusieurs formes canoniques, qui, bien entendu, ont toutes le mme nombre de variables
dtat.

Il savre intressant de reprsenter cette structure par le graphe du rseau, dont les nuds sont
les neurones, et les artes les connexions entre neurones ; on attribue chaque arte une longueur qui est
le retard (exprim en multiple entier, ventuellement nul, de la priode dchantillonnage) associ celle-
ci, et une direction (qui est celle de la circulation de linformation dans la connexion considre). La
longueur dun chemin dans le graphe est gale la somme des longueurs des artes de ce chemin.

Attention

Pour quun rseau de neurones temps discret soit causal, il ne doit pas possder de cycle de
longueur nulle.

Remarque

Un cycle dans un graphe est un chemin qui va dun nud lui-mme, sans passer deux fois par un autre nud, en respectant la direction
des artes. La longueur dun cycle est la somme des longueurs de ses artes.

En effet, si un cycle tait de longueur nulle, cela signifierait que la valeur de la sortie dun neurone du
rseau un instant donn dpendrait de la valeur de cette mme sortie au mme instant.

La figure 2-82 montre une reprsentation des quations du modle sous forme du graphe dun rseau de
neurones boucl ; les nuds 1, 2 et 3 reprsentent des neurones de fonction dactivation 1, 2 et 3,
respectivement, si ces dernires sont connues ; si elles ne le sont pas, chacun de ces nuds reprsente un
rseau de neurones non boucl ralisant une de ces fonctions. Les nombres reprsents dans des carrs
sont les retards associs chacune des connexions, exprims en nombre de priodes dchantillonnage.
Lapprentissage statistique
178

g(k+1)
2

0 2 Figure 2-82
Graphe
1 2 1 2 3 2 1 dun modle
2 0 dynamique

2
2

u(k)

On peut choisir comme vecteur dtat le vecteur z(k) = [x1(k), x2(k-1), x3(k), x3(k-1)]T. La forme canonique
correspondante est reprsente sur la figure 2-83.

g(k+1)

z2(k+1) z1(k+1) z3(k+1) z4(k+1)


=x1(k) =x1(k+1) =x3(k+1) =x3(k) Figure 2-83.
Forme
1 3 canonique
du modle
de la figure 2-82

x3(k-1) x2(k)

q-1
2 2 q-1

k-1 k-1 k k k-1

u(k-1) z2(k+1) z1(k) z3(k) z4(k)


=x1(k-1) =x1(k) =x3(k) =x3(k-1)

Elle comprend un rseau non boucl avec trois neurones cachs (le neurone 1, et le neurone 2, qui est
dupliqu dans la forme canonique (avec des poids partags)), un neurone de sortie (le neurone 3), qui est
Les rseaux de neurones
179
CHAPITRE 2

un neurone dtat ; le neurone 1 est galement un neurone dtat. Le modle tant dordre quatre, il y a
quatre sorties dtat, relies aux entres dtat par des retards unit, reprsents par loprateur retard q1.
Remarque
Le rseau reprsent sur la gure 2-83 est strictement quivalent celui qui est reprsent sur la gure 2-82 : il sagit seulement dune
rcriture trs commode, qui permet, en premier lieu, de rendre la structure du modle plus lisible, et surtout dutiliser les algorithmes
dapprentissage conventionnels exposs plus haut, rendant ainsi inutile la conception dun algorithme dapprentissage spcique pour
chaque architecture de rseau.

Cette forme est bien une forme canonique du type reprsent sur la figure 2-6. Les dtails algorithmiques
de la mise sous forme canonique de ce modle sont donns dans [DREYFUS 1998].

Modlisation dynamique bote grise


Dans les premires sections de ce chapitre, on a mis laccent sur la mthodologie de conception de
modles non linaires botes noires , ce qui constitue la vue traditionnelle des rseaux de neurones,
boucls ou non : on labore un modle partir des mesures effectues sur le processus, et delles seules.
Une telle approche est trs utile lorsque lon est dans lincapacit de construire un modle de connais-
sance suffisamment prcis. Nanmoins, il arrive frquemment quun modle de connaissance existe, mais
quil ne soit pas satisfaisant, soit parce quil na pas la prcision requise, soit parce que sa mise en uvre
ncessite, pour obtenir la prcision requise, des temps de calcul excessifs (par exemple, incompatibles
avec un fonctionnement en temps rel pour la surveillance ou la commande dun processus). Il est alors
souhaitable de pouvoir mettre profit ces connaissances, exprimes par des quations algbriques ou
diffrentielles, pour llaboration dun modle plus prcis, ou plus rapide, mettant en uvre un apprentis-
sage partir de mesures : ainsi construit-on un modle bote grise ou modle semi-physique . On
peut ainsi obtenir un modle qui combine la lisibilit des modles de connaissance avec la souplesse et la
vitesse dexcution de modles botes noires.
Une mthodologie gnrale pour la conception de modles semi-physiques qui mettent en uvre
lapprentissage de rseaux de neurones est prsente dans la section suivante. Il convient dinsister sur
limportance du processus de discrtisation du modle de connaissance continu, qui conditionne en partie
la stabilit du modle temps discret obtenu. Une application industrielle de cette mthodologie a t
prsente dans la section Modlisation semi-physique dun procd manufacturier .

Principe de la modlisation semi-physique


Du modle bote noire au modle de connaissance
Un modle de connaissance est une description mathmatique des phnomnes qui se produisent dans un
processus ; il est construit partir dquations de la physique et de la chimie (ou de la biologie, de
lconomie, etc.) : typiquement, il peut sagir des quations de la thermodynamique, dquations de trans-
port, dquations de conservation de la masse, etc. Ces quations contiennent des paramtres qui ont un
sens physique (nergies dactivation, coefficients de diffusion, etc.), et elles peuvent contenir aussi des
paramtres phnomnologiques, en petit nombre, qui doivent tre estims partir des mesures.
Inversement, un modle bote noire est une description paramtre, dont tous les paramtres doivent tre
dtermins partir de mesures : il ne tient aucun compte des connaissances expertes ventuellement
disponibles.
Un modle semi-physique peut tre considr comme un compromis entre un modle de connaissance et
un modle bote noire. Il peut prendre en considration toutes les connaissances que lingnieur ou le
Lapprentissage statistique
180

chercheur possde sur le processus, condition que celles-ci puissent tre exprimes par des quations
algbriques ou diffrentielles. De surcrot, ce modle peut utiliser des fonctions paramtres, dont les
paramtres sont dtermins par apprentissage. Dans la mesure o lon met en uvre davantage de
connaissances expertes, les donnes exprimentales ncessaires pour estimer les paramtres dune
manire significative peuvent tre en quantit plus rduite.

Conception et apprentissage dun modle dynamique semi-physique


Principe de conception
La conception dun modle semi-physique exige que lon dispose dun modle de connaissance, qui se
prsente habituellement sous la forme dun ensemble dquations algbriques, diffrentielles, et aux dri-
ves partielles, non linaires couples. Pour simplifier, supposons que le modle soit sous la forme dtat
conventionnelle :

= f ( x ( t ) , u ( t ))
dx
dt
y ( t ) = g ( x ( t ))

o x est le vecteur des variables dtat, y est le vecteur des grandeurs modliser, u est le vecteur des
signaux de commande, et o f et g sont des fonctions connues. Comme indiqu plus haut, ce modle peut
ne pas tre satisfaisant pour des raisons diverses : les fonctions f et g peuvent tre trop imprcises compte
tenu de lobjectif dutilisation du modle, ou mettre en jeu un trop grand nombre de paramtres, ou encore
ncessiter un temps de calcul trop grand, etc. Dans un modle semi-physique, les fonctions qui ne sont pas
connues avec suffisamment de prcision sont ralises par des rseaux de neurones dont on effectue
lapprentissage partir de donnes exprimentales, tandis que les fonctions qui sont connues dune
manire fiable sont conserves sous forme analytique, ou encore mises sous la forme de neurones dont la
fonction dactivation est connue et ne fait pas intervenir de paramtres ajustables.
En gnral, la conception dun modle semi-physique comprend trois tapes :
tape 1 : obtention, partir du modle de connaissance, dun modle temps discret : cela ncessite le
choix dune mthode de discrtisation approprie ;
tape 2 : apprentissage du modle semi-physique, ou de parties de celui-ci, partir de donnes obtenues
par intgration numrique du modle de connaissance ; cette tape est en gnral ncessaire pour
obtenir de bonnes valeurs initiales des paramtres, qui sont utilises lors de ltape suivante ;
tape 3 : apprentissage du modle semi-physique partir de donnes exprimentales.
Cette stratgie de conception de modle semi-physique va tre illustre au moyen dun exemple simple.
Exemple illustratif
Un modle de connaissance est dcrit par les quations suivantes :

dx1 ( t )
= ( x1 ( t ) + 2 x2 ( t )) + u ( t )
2

dt
dx2 ( t )
= 8, 32 x1 ( t )
dt
y ( t ) = x2 ( t )
Les rseaux de neurones
181
CHAPITRE 2

Les variables dtat x1 et x2 sont mesurables. La figure 2-84 montre la rponse du processus deux
squences dentre ; dans tout ce paragraphe, la squence de gauche est utilise comme ensemble
dapprentissage, et la squence de droite comme ensemble de test.

5 5
y(t) y(t)
4,5 4,5
(ensemble dapprentissage)

4 4
Grandeur modliser

Grandeur modliser
(ensemble dde test)
3,5 3,5
3 3
2,5 2,5
2 2
1,5 1,5
1 u(t) 1 u(t)
0,5 0,5
0 0
0 1000 2000 3000 4000 0 1000 2000 3000 4000
Temps Temps
(a) (b)
Figure 2-84. Rponse du processus deux squences dentre : a) squence dapprentissage, b) squence de test

Les rsultats obtenus en intgrant numriquement le 1,5

modle de connaissance ne sont pas satisfaisants :


1
lerreur quadratique moyenne sur lensemble de test
Erreur de modlisation

vaut 0,17, ce qui est trs suprieur lcart-type du 0,5


bruit qui vaut 0,01 (voir figure 2-85).
Les experts indiquent que la premire quation dtat 0

ne peut pas tre mise en cause, mais plusieurs niveaux


-0,5
de critiques sont mis pour la seconde quation dtat :
le paramtre 8,32 peut tre imprcis ; -1
on nest pas sr que cette quation soit linaire ;
enfin, il y a des raisons de penser que le membre de -1,5
0 500 1000 1500 2000 2500 3000 3500 4000
droite devrait faire intervenir le facteur x2. Temps
Dans ces conditions, et en labsence dautres connais- Figure 2-85. Erreur de modlisation commise
sances physiques, il peut savrer avantageux de par le modle de connaissance.
concevoir un modle semi-physique. On va montrer
comment il est possible de concevoir trois modles neuronaux semi-physiques, de complexit croissante,
pour tenir compte des trois niveaux de critique qui viennent dtre mentionns.
Comme indiqu plus haut, la premire tape consiste en la discrtisation du modle de connaissance pour
obtenir un modle temps discret, partir duquel sera construit un rseau de neurones boucl temps discret.
Les donnes tant recueillies avec une priode dchantillonnage T, il est naturel de choisir cette priode
comme pas de discrtisation des quations. La mthode de discrtisation la plus simple est la mthode
dEuler explicite , dans laquelle on remplace la drive df ( kT ) par la quantit (
f ( k + 1) T ) f ( kT )
(o
dt T
k est un entier positif). On obtient ainsi le modle temps discret suivant (en remplaant kT par k pour allger
les critures) :
Lapprentissage statistique
182

x1 ( k + 1) = x1 ( k ) + T ( x1 ( k ) + 2 x2 ( k )) + u ( k )
2


x2 ( k + 1) = x2 ( k ) + T ( 8, 32 x1 ( k ))

Le rseau de neurones semi-physique le plus simple est alors dcrit par les quations suivantes :
x1 ( k + 1) = x1 ( k ) + T ( x1 ( k ) + 2 x2 ( k )) + u ( k )
2


x2 ( k + 1) = x2 ( k ) + T ( wx1 ( k ))

o w est un paramtre qui est estim par apprentissage partir des donnes exprimentales. Ces quations
sont sous la forme conventionnelle dun modle dtat : il nest donc pas ncessaire de les mettre sous
forme canonique ; si ce ntait pas le cas, il faudrait avoir recours la technique de mise sous forme cano-
nique dcrite prcdemment. Le rseau ainsi obtenu est reprsent sur la figure 2-86.
Pour simplifier les schmas, lentre constante (biais) ne y(k+1)
sera pas reprsente ; de plus, le temps discret kT sera
simplement not k. Sur la figure 2-86, le neurone 1 ralise x1(k+1) x2(k+1)
une somme pondre s de x1(kT) et x2(kT) avec les poids
3 4
indiqus sur la figure, puis la non-linarit s2, et ajoute
u(kT). Le neurone 2 multiplie son entre par le paramtre
1 T T 1
w. Les neurones 3 et 4 ralisent simplement des sommes
pondres. Si w valait 8,32, les rsultats du modle
1 q-1
seraient exactement les rsultats de lintgration num- 2
rique du modle de connaissance par la mthode dEuler
1 1 2 w
explicite, avec un pas dintgration gal T. Si w est un
paramtre ajustable, sa valeur peut tre estime partir de
donnes exprimentales par apprentissage, en utilisant un
des algorithmes vus plus haut (par exemple, un algo-
u(k) x1(k) x2(k)
rithme semi-dirig si lon suppose que le bruit qui inter-
vient dans le processus est un bruit de sortie). Le para- Figure 2-86. Forme canonique du modle
mtre w serait videmment initialis 8,32 avant de connaissance discrtis par la mthode dEuler
lapprentissage. On peut remarquer que, dans ce cas trs explicite
simple, ltape 2 de lalgorithme nest pas mise en uvre.
La figure 2-87 montre lerreur de modlisation, sur lensemble de test, pour ce modle semi-physique
lmentaire. Lerreur quadratique sur la squence de test vaut 0,08 (contre 0,17 pour le modle de
connaissance) ; dans la mesure o la variance du bruit est de 0,01, on peut penser que le modle peut tre
amlior.
Pour essayer damliorer le modle, on peut donc considrer le deuxime niveau de critique lgard du
modle de connaissance : le fait que le membre de droite de la seconde quation dtat pourrait tre une
fonction non linaire de x1. cet effet, on remplace donc le neurone 2 de la figure 2-86 par un rseau de
neurones statique dont lentre est x1. Le modle qui en rsulte est reprsent sur la figure 2-88, avec
trois neurones cachs (et donc, 6 paramtres ajustables reprsents sur la figure, et 4 paramtres ajustables
relatifs au biais, non reprsents).
Le rseau de neurones non boucl, constitu des neurones non numrots sur la figure 2-88, peut subir un
apprentissage partir de donnes engendres par intgration du modle de connaissance (tape 2 de la
procdure) : bien que ces valeurs ne soient pas trs prcises, les valeurs des paramtres ainsi obtenues
peuvent tre utilises avec profit pour initialiser lapprentissage du modle partir de valeurs exprimentales.
Les rseaux de neurones
183
CHAPITRE 2

y(k+1)
1,5
x1(k+1) x2(k+1)

1
3 44
Ereur de modlisation

0,5 T
1 T 1
0 w 4 w5 w6
1 q-1

-0,5
w1 w2 w3
1
-1
1 2

-1,5
0 500 1000 1500 2000 2500 3000 3500 4000
u(k) x1(k) x2(k)
Temps
Figure 2-87. Erreur de modlisation sur lensemble Figure 2-88. Forme canonique dun modle semi-
de test physique

La figure 2-89 montre lerreur de modlisation obtenue avec ce modle, en utilisant deux neurones dans
la couche cache du rseau bote noire non boucl. Lerreur quadratique moyenne sur lensemble de
test devient gale 0,02, ce qui constitue une amlioration importante par rapport au modle prcdent.

y(k+1)

1,5
x1(k+1) x2(k+1)

1 3 44
Erreur de modlisation

T
0,5
1 T 1

0
1 q-1

-0,5

-1
1 1 2
-1,5
0 1000 2000 3000 4000
Temps u(k) x1(k) x2(k)

Figure 2-89. Erreur de modlisation sur lensemble Figure 2-90. Forme canonique dun modle semi-
de test physique

Les rsultats ntant pas encore satisfaisants (lerreur quadratique sur lensemble de test est deux fois plus
grande que la variance du bruit), on peut mettre en uvre un rseau qui rponde au troisime niveau de
critique mise contre le modle de connaissance : la seconde quation dtat est non linaire par rapport
x1 et par rapport x2. Ce modle est reprsent sur la figure 2-90 (avec trois neurones cachs).
Lapprentissage statistique
184

Les tapes 2 et 3 de la conception du modle sont 1,5


effectues de la mme faon que pour le modle prc-

Erreur de modlisation
dent. La variance de lerreur de modlisation tant 1
gale la variance du bruit (voir figure 2-91), le
0,5
modle peut tre considr comme satisfaisant.
0
Discrtisation du modle
de connaissance -0,5

Rappelons que la premire tape de la conception dun -1


modle semi-physique consiste en la discrtisation du
modle de connaissance (qui est gnralement un -1,5
0 1000 2000 3000 4000
modle temps continu) afin dobtenir un modle Temps
temps discret dont la structure est utilise pour conce- Figure 2-91. Erreur de modlisation sur lensemble
voir larchitecture du modle neuronal boucl. Il est de test
utile de rappeler ici que le choix de la technique de
discrtisation a une consquence importante sur la stabilit du modle qui est construit lors des tapes
suivantes. La discrtisation des quations diffrentielles constitue gnralement un gros chapitre de tout
ouvrage danalyse numrique ; on en rappellera simplement ici quelques lments, qui sont importants
pour la conception dun modle semi-physique.
Schmas explicites et schmas implicites : dfinitions
Considrons une quation diffrentielle du premier ordre :
dx ( t )
= f ( x ( t ))
dt
Un schma de discrtisation explicite la transforme en une quation temps discret de la forme
suivante :

x ( k + 1) = ( x ( k ) , T )
o T est le pas de discrtisation qui est, le plus souvent, gal la priode dchantillonnage des donnes
exprimentales ;
o k est un entier positif ;
et o la fonction dpend de la technique de discrtisation choisie (on verra au paragraphe suivant des
exemples de techniques de discrtisation).
Un schma de discrtisation implicite transforme la mme quation diffrentielle en une quation
temps discret de la forme suivante :
x ( k + 1) = x ( k + 1) , x ( k ) , T .
La diffrence essentielle entre ces deux formes rside en ceci que la quantit x[(k+1)T] est prsente
uniquement dans le membre de gauche, si lon utilise un schma explicite, tandis que ce terme est prsent
dans les deux membres, si lon utilise un schma implicite. En consquence, si lon veut raliser un
prdicteur un pas, cest--dire un modle qui permette de calculer les quantits linstant (k+1)T,
connaissant les quantits linstant kT, il faut rsoudre une quation non linaire lorsquon utilise un
schma implicite, alors que le calcul est immdiat si lon utilise un schma explicite.
Les rseaux de neurones
185
CHAPITRE 2

De faon plus gnrale, considrons un ensemble dquations dtat crit sous la forme vectorielle :

dx ( t )
= f ( x ( t ) , u ( t ))
dt

Lutilisation dun schma explicite met ces quations sous la forme :

K x ( k ) x ( k + 1) + x ( k ) , u ( k ) , T = 0

o K est une matrice et Y est une fonction vectorielle qui dpendent de la technique de discrtisation
utilise, tandis que, si un schma implicite est mis en uvre, les quations discrtises peuvent tre mises
sous la forme gnrale :

K x ( k + 1) x ( k + 1) + x ( k + 1) , x ( k ) , u ( k + 1) , T = 0

L encore, on observe que le calcul du vecteur dtat x[(k+1)T] partir de ltat et des variables linstant
kT est immdiat si lon utilise un schma explicite (si la matrice K est inversible) :

x ( k + 1) = K 1 x ( k ) x ( k ) , u ( k ) , T

alors quil ncessite la rsolution dun systme dquations non linaires si lon utilise un schma impli-
cite.
Exemples
dx
Reprenons lexemple de lquation diffrentielle du premier ordre = f x ( t ) , u ( t ) .
dt
La mthode dEuler explicite consiste considrer que la fonction f est constante, gale f x ( kT ) entre
les instants kT et (k+1)T, de sorte que lintgration de lquation diffrentielle entre kT et (k+1)T donne
immdiatement :

x ( k + 1) = x ( k ) + Tf x ( k )

En revanche, le schma dEuler implicite consiste considrer que la fonction f est constante, gale
f x ( k + 1) T entre kT et (k+1)T, de sorte que lintgration de lquation diffrentielle entre kT et (k+1)T
donne immdiatement :

x ( k + 1) = x ( k ) + Tf x ( k + 1)

De mme, la mthode des trapzes (ou mthode de Tustin) consiste considrer que la fonction f varie
linairement entre kT et (k+1)T, de sorte que lintgration de lquation diffrentielle donne :

f ( x ( k + 1)) + f ( x ( k )) .
T
x ( k + 1) = x ( k ) +
2
Cette mthode est donc une mthode implicite, puisque des valeurs des grandeurs linstant (k+1)T appa-
raissent dans les deux membres de lquation : le calcul de x(k+1) ncessite la rsolution dune quation
algbrique non linaire.
Lapprentissage statistique
186

Application
Considrons le modle de connaissance trait plus haut, dcrit par les quations :

dx1 ( t )
= ( x1 ( t ) + 2 x2 ( t )) + u ( t )
2

dt
dx2 ( t )
= 8, 32 x1 ( t )
dt
y ( t ) = x2 ( t )

Il est facile de vrifier que sa discrtisation par la mthode dEuler explicite donne :

x1 ( k + 1) = x1 ( k ) + T ( x1 ( k ) + 2 x2 ( k )) + u ( k )
2


x2 ( k + 1) = x2 ( k ) + T ( 8, 32 x1 ( k ))

Sa discrtisation par la mthode dEuler implicite donne les relations suivantes :

1 + Tx1 ( k + 1) + 4Tx2 ( k + 1) x1 ( k + 1) + 4Tx2 ( k + 1) = x1 ( k ) + Tu ( k + 1)


2

x2 ( k + 1) T ( 8, 32 x1 ( k + 1)) = x2 ( k )

On vrifie que ces quations sont de la forme :

K x ( k + 1) x ( k + 1) + x ( k + 1) , x ( k ) , u ( k + 1) , T = 0

avec :

1 + Tx1 ( k + 1) + 4Tx2 ( k + 1) 4Tx2 ( k + 1)


K x ( k + 1) =
Tw 1

et :

x ( k ) + Tu ( k + 1)
x ( k + 1) , x ( k ) , u ( k + 1) , T = 1
x2 ( k )

Schmas explicites et schmas implicites : consquences sur la stabilit


On vient de montrer que la ralisation dun modle semi-physique temps discret est plus simple si lon
utilise un schma explicite que si lon met en uvre un schma implicite. Quel profit peut-on donc retirer
de la mise en uvre dun schma implicite ?
On va voir que les schmas implicites peuvent conduire des modles qui ont une plus grande stabilit
que ceux qui sont construits sur des schmas explicites. Prenons un exemple simple pour illustrer cette
ide ; soit lquation diffrentielle linaire du premier ordre :

du ( t )
= u ( t ) , > 0
dt
Les rseaux de neurones
187
CHAPITRE 2

La discrtisation par la mthode dEuler explicite donne :


u ( k + 1) u ( k )
= u ( k )
T
ou, dune manire quivalente :
u ( k + 1) = (1 T ) u ( k )

Ainsi, u(k + 1) se dduit de u(0) par une progression gomtrique de raison (1 T), qui converge si, et
seulement si, sa raison est infrieure 1, soit T < 2/. Le temps de calcul ncessaire pour intgrer num-
riquement cette quation est donc proportionnel 1/ : si la quantit est trs petite, le temps de calcul
peut tre prohibitif car le pas dchantillonnage doit tre trs fin.
Considrons prsent la discrtisation de la mme quation par la mthode dEuler implicite ; on obtient
alors :
u ( k + 1) u ( k )
= u ( k + 1),
T
soit encore :
1
u ( k + 1) = u(k)
1 + T
Comme le dnominateur du membre de droite est ncessairement suprieur 1, la raison de la progression
gomtrique est infrieure 1 : elle converge donc quelle que soit la valeur de . Ainsi, le choix du pas
dchantillonnage peut tre effectu indpendamment de la valeur de .
Nanmoins, cette proprit se paie, comme cela a t indiqu plus haut, par le fait que, en gnral (et
contrairement lexemple trs simple ci-dessus), on ne peut pas calculer directement les valeurs des quan-
tits linstant (k + 1)T : il faut rsoudre une quation algbrique non linaire. Cela a des consquences
sur la forme du modle neuronal qui en rsulte.
Schmas explicites et schmas implicites : consquences sur larchitecture du modle
neuronal
Un modle de connaissance discrtis par un schma Variables d'tat
explicite est trs simple mettre sous la forme dun linstant k+1
rseau de neurones boucl : comme cela a t vu plus x(k+1)
haut, on a
x ( k + 1) = K 1 x ( k ) x ( k ) , u ( k ) , T Rseau de neurones non boucl
q-1 q-1
ce qui est directement la forme canonique dun rseau
de neurones boucl comme cela est reprsent sur la
figure 2-92, o le rseau de neurones non boucl
x(k)
ralise une approximation de la fonction K1 . u(k-1)
Lexemple didactique prsent plus haut est un
Signaux de commande Variables d'tat
exemple de ralisation dun modle semi-physique linstant k-1 linstant k
partir dun modle physique discrtis par une Figure 2-92. Forme canonique du rseau obtenu
mthode explicite. par discrtisation avec un schma explicite
Lapprentissage statistique
188

Lorsque, pour des raisons de stabilit numrique voques plus haut, on met en uvre une mthode impli-
cite de discrtisation, la ralisation du modle semi-physique sous forme dun rseau de neurones boucl
est moins simple, mais elle est tout fait possible. La description de cette technique dpasse le cadre de
cet ouvrage. Le lecteur en trouvera une description dtaille dans [OUSSAR 2001].

Conclusion : quels outils ?


Dans ce chapitre, les concepts fondamentaux de la modlisation laide de rseaux de neurones ont t
prsents, et les algorithmes et mthodes qui permettent de mettre en uvre ces modles de manire
raisonne ont t dcrits en dtail. Les modles statiques et les modles dynamiques (ces derniers sont
dcrits dune manire plus dtaille, et placs dans un cadre plus gnral, au chapitre 4) ont t abords.
La modlisation semi-physique, et le traitement de donnes structures, dont lutilit en contexte indus-
triel nest pas dmontrer, ont t exposs.

Dans la pratique, lingnieur ou le chercheur, sil se doit davoir compris les fondements des outils quil
utilise ainsi que la mthodologie quil doit imprativement mettre en uvre sil veut obtenir des rsultats
fiables, na certainement ni le got ni le loisir de programmer lui-mme tous les algorithmes qui ont t
prsents. Il a donc le souci de choisir un bon outil pour atteindre ses objectifs.

lheure o ces lignes sont crites, deux types doutils de dveloppement sont disponibles :
des botes outils spcifiques aux rseaux de neurones, lintrieur doutils gnraux de calcul ;
typiquement, Matlab et SAS proposent des botes outils qui permettent un apprentissage et une mise
en uvre aise de rseaux de neurones non boucls ; leffort de programmation est trs rduit pour les
fonctions classiques, mais peut tre important, notamment pour la mise en uvre des lments de
mthodologie qui ne sont pas spcifiquement neuronaux (calcul des leviers, des intervalles de
confiance, du score de leave-one-out virtuel) ou pour celle des rseaux de neurones boucls ;
des outils de dveloppement spcifiques qui incluent une mthodologie complte, et pour lesquels
aucune programmation nest ncessaire ; cest le cas du logiciel franais NeuroOne3 ; ces logiciels
nautorisent pas linfinie varit de la programmation personnelle, mais ils permettent dobtenir rapide-
ment des rsultats dont la qualit dpend videmment de celle des algorithmes implants. Le CD-ROM
joint cet ouvrage propose une version dvaluation de ce logiciel.

Remarque
Il faut aussi mentionner des logiciels universitaires disponibles sur le Web, qui peuvent tre utiles pour une formation, mais qui ne sont pas
conseiller pour la ralisation dapplications ralistes, destines fonctionner en environnement industriel.

Lingnieur ou le chercheur choisira donc son outil en fonction de ses objectifs, de ses mthodes de
travail, des dlais et des obligations de rsultats auxquels il est soumis, et de lampleur de lapplication
raliser ; lidal est videmment de disposer des deux types doutils qui, dans bien des cas, se rvlent trs
complmentaires. En tout tat de cause, et quel que soit loutil mis en uvre, on ne saurait trop insister
sur limportance dune bonne comprhension des bases, et sur la ncessit absolue dune approche
mthodologique raisonne.

3. dit par NETRAL S.A. ; plusieurs illustrations et exemples dapplications de ce chapitre et du prcdent ont t raliss laide
de ce logiciel.
Les rseaux de neurones
189
CHAPITRE 2

Complments thoriques et algorithmiques


Cette section prsente quelques complments thoriques (dfinitions, dmonstrations), qui ne sont pas
indispensables la comprhension du propos principal de ce chapitre, mais qui peuvent tre utiles pour la
ralisation algorithmique de certaines mthodes importantes qui y sont dcrites.

Quelques types de neurones usuels


On peut distinguer deux types de neurones, en fonction de la manire dont interviennent leurs paramtres.

Neurones variables paramtres


Les neurones les plus frquemment utiliss sont des neurones variables paramtres. Pour cette cat-
gorie de neurones, un paramtre est associ chaque variable du neurone. Le rsultat du calcul dun
neurone n variables {xi}, i = 0 n-1, sexprime donc sous la forme
y = f ( x, w )

o x et w sont deux vecteurs de mme dimension n.


Le plus souvent, la fonction f est la composition de deux oprations :
le calcul du potentiel du neurone, qui est la somme des entres du neurone, pondres par les para-
mtres.
le calcul dune fonction non linaire du potentiel, dite fonction dactivation ; cette fonction est gn-
ralement en forme de s , do le nom gnrique de sigmode .
La figure 2-93 reprsente la sortie dun neurone 3 variables (x0 = 1, x1, x2) muni des paramtres w = 0,
w1 = 1, w2 = 1 : elle a donc pour quation : y = th(x1 x2).

Figure 2-93.
0,5 Sortie
dun neurone
3 variables
0 {x0=1, x1, x2}
y

munies
des paramtres
{w0=0, w1=+1,
-0,5 w2=-1}, dont
la fonction
dactivation
-1 est une tangente
hyperbolique :
5 y=th(x1-x2)

0 5
x2
0
x1
-5 -5
Lapprentissage statistique
190

Mentionnons deux variations sur ce type de neurones :


les neurones dordre suprieur , dont le potentiel nest pas une fonction affine des entres, mais une
fonction polynomiale ; ils sont les anctres des machines vecteurs supports (Support Vector
Machines ou SVM) utiliss pour la classification et dcrits dans le chapitre 6 ;
les neurones de Mac Culloch et Pitts , ou sparateurs linaires seuil , ou encore Perceptrons ,
qui sont les anctres des neurones utiliss actuellement ; leur utilisation pour la discrimination sera
largement dveloppe dans le chapitre 6.

Les neurones non-linarit paramtre


Les paramtres de ces neurones sont attachs la non-linarit de ceux-ci : ils interviennent directement
dans la fonction f. Ainsi, cette dernire peut tre une fonction radiale (RBF pour Radial Basis Func-
tion), ou encore une ondelette.
Exemple : fonction radiale (RBF gaussienne isotrope) :
n 2
( xi wi )
y = exp i =1
2 wn2+1


Les paramtres {wi, i = 1 n} sont les coordonnes du centre de la gaussienne dans lespace des variables,
et le paramtre wn+1 est son cart-type. La figure 2-94 reprsente une RBF gaussienne avec w1 = w2 = 0,
w3 = 1 / 2 ; elle a donc pour quation :
((
y = exp x12 x22 ))
Remarque
Les fonctions radiales de base tirent leur nom du fait que ces fonctions radiales, si elles sont convenablement choisies, forment une base
de fonctions. Dans la pratique des rseaux de neurones, les RBF ne sont jamais choisies de faon former une base.
1

0,8

0,6 Figure 2-94.


RBF gaussienne
isotrope
0,4

0,2

0
2
1 2
0 1
0
-1 -1
-2 -2
Les rseaux de neurones
191
CHAPITRE 2

Algorithme de Ho et Kashyap
Lalgorithme de Ho et Kashyap permet de dterminer, en un nombre fini ditrations, si deux ensembles
dexemples sont linairement sparables ; dans laffirmative, cet algorithme fournit une solution (parmi
une infinit de solutions possibles). Contrairement certains algorithmes dvelopps dans le chapitre 6, il
ne fournit pas une solution optimise. Son intrt essentiel est donc de dterminer si deux classes sont
linairement sparables, ou si elles ne le sont pas ; dans laffirmative, on utilisera, pour trouver une bonne
solution, un des algorithmes prsents dans le chapitre 6.
Considrons deux ensembles dexemples, appartenant deux classes A et B, en nombre na et nb ; si les
exemples sont dcrits par n descripteurs, chacun deux peut tre reprsent par un vecteur dans un espace
de dimension n. On dsigne par xkA le vecteur reprsentatif de lexemple k de la classe A (k = 1 na), et
par w le vecteur des paramtres du sparateur linaire ; si un tel sparateur existe, il doit obir aux
conditions :

xkA w > 0 pour tout lement de la classe A,


xkB w < 0 pour tout lment de la classe B.

Soit M la matrice dont les lignes sont les vecteurs reprsentatifs des exemples de A et les opposs des
vecteurs reprsentatifs des vecteurs de B. Un sparateur linaire existe si et seulement si il existe un
vecteur w tel que

Mw > 0
soit encore sil existe un vecteur y > 0 et un vecteur w tels que M w = y.
On a alors w = M* y, o M* est la matrice pseudo-inverse de la matrice M : M* = M T (M M T)1, qui peut
tre calcule par la mthode de Choleski [PRESS 1992].
Lalgorithme de Ho et Kashyap est le suivant :
Initialisation (itration 0) : w(0) = M* y(0) o y(0) est un vecteur positif quelconque
Itration i
(i) = M w(i) y(i)
y(i+1) = y(i) + ((i)+|(i)|) o est un scalaire positif infrieur 1
w(i+1) = w(i) + ((i)+|(i)|)
Si y(i) < 0 alors les exemples ne sont pas linairement sparables.
Si M w(i) >0 alors les exemples sont linairement sparables et w(i) est une solution.
Cet algorithme converge en un nombre fini ditrations.

Complment algorithmique : mthodes doptimisation


de Levenberg-Marquardt et de BFGS
Cette prsentation est extraite de [OUSSAR 1998]. On trouvera galement des descriptions de ces algo-
rithmes dans [PRESS 1992].
Lapprentissage statistique
192

Algorithme de BFGS
Lalgorithme de BFGS consiste modifier les paramtres, litration i de lalgorithme, par la relation

w ( i ) = w ( i 1) i Mi J ( w ( i 1))

o i est une constante positive, et o Mi est une approximation, calcule itrativement, de linverse de la
matrice hessienne ; elle est value chaque itration par la relation :

T M T T M + Mi 1 i 1 iT1
Mi = Mi 1 + 1 + i 1T i i 1 iT1 i 1 i 1 i 1 i 1T
i 1 i 1 i 1 i 1 i 1 i 1

o i 1 = J ( w ( i )) J ( w ( i 1)) et i 1 = w ( i ) w ( i 1). On prend pour valeur initiale M0 la matrice


identit. Si, lors dune itration, la matrice calcule nest pas dfinie positive, elle est rinitialise la
matrice identit.
Lapproximation nest exacte quau voisinage dun minimum. Il est donc recommand dutiliser la
mthode du gradient simple (ou la mthode du gradient stochastique, qui est expose dans le paragraphe
consacr lapprentissage adaptatif) au dbut de lapprentissage, puis de mettre en uvre la mthode de
BFGS lorsquon estime tre suffisamment proche dun minimum.

Algorithme de Levenberg-Marquardt
Lalgorithme de Levenberg-Marquardt consiste modifier les paramtres, litration i, par la relation :

w ( i ) = w ( i 1) H ( w ( i 1)) + i I J ( w ( i 1)).
1

Pour de petites valeurs du pas i, la mthode de Levenberg-Marquardt sapproche de celle de Newton.


Inversement, pour de grandes valeurs de i, lalgorithme de Levenberg-Marquardt est quivalent lappli-
cation de la rgle du gradient simple avec un pas de 1/i.
Lapplication de cet algorithme ncessite linversion de la matrice H ( w ( i 1)) + i I . Lexpression
exacte de la matrice hessienne de la fonction de cot totale J(w) est :

2 ek
T
e ek
N N
H ( w ( i )) = k + e,

k =1 w w = w( i )
w w=w(i ) k =1 wwT w=w(i ) k

avec ek = ykp g(xk, w).


Remarque
Ce qui vient dtre expos sapplique au cas dun modle une sortie ; lextension un modle plusieurs sorties ne prsente pas de
difcult.

Le second terme de cette expression tant proportionnel lerreur, on peut le ngliger en premire
approximation, ce qui fournit une expression approche :

g ( xk , w ) g ( xk , w )
T T
e ek
N N
H ( w ( i ) ) = k = .

k =1 w w = w( i )
w w=w(i ) k =1 w w = w( i )

w w=w(i )

Dans le cas dun modle linaire par rapport aux paramtres, g(xk, w) est une fonction linaire de w, donc
le second terme de lexpression de H est nul : lexpression qui t approche devient exacte.
Les rseaux de neurones
193
CHAPITRE 2

Plusieurs techniques sont envisageables pour linversion de la matrice H + i I .


Inversion indirecte
Un lemme dinversion permet de calculer rcursivement la matrice inverse. En effet, soient A, B, C et D,
quatre matrices. On a la relation suivante :

( A + BCD )1 = A1 A1 B ( C 1 + DA1 B)
1
DA1

g ( xk , w )
Par ailleurs, en posant k = , on peut construire rcursivement la matrice H en dfinis-
w w=w(i )
sant des matrices partielles H k , de dimension (k, k) par :

H k = H k 1 + Z k Z k , k = 1,, N
T

On a bien H = H N .
Si lon applique le lemme dinversion la relation prcdente en choisissant A = H , B = zk, C = I, et
D = kT , on obtient la relation suivante :
1 1
H k 1 k k H k 1
T
1 1
H k = H k 1 ----------------------------------
1
-
1 + k H k 1 k
T

1 1
En prenant, la premire tape (k = 1), H 0 = i I , on obtient, ltape N : H N = [ H + i I ] .
Inversion directe
Plusieurs mthodes directes dinversion existent. Comme lalgorithme est itratif, et que la procdure de
recherche du pas ncessite souvent plusieurs inversions de matrice, on a intrt utiliser une mthode
qui nengage pas trop de calculs. Comme lapproximation de la matrice hessienne augmente de i I
reste une matrice symtrique dfinie comme positive, il est avantageux dutiliser la mthode de
Cholesky [PRESS 1992].
Comme pour lalgorithme du gradient simple et celui de BFGS, le pas i doit tre ajust chaque itra-
tion. Une mthode de recherche unidimensionnelle peut tre utilise cet effet, comme indiqu dans la
section suivante.
Il faut noter que lexpression de la matrice hessienne de la fonction de cot ne sapplique que si la fonc-
tion optimiser est la fonction de cot des moindres carrs ; contrairement la mthode de BFGS, la
mthode de Levenberg-Marquardt ne peut donc pas sappliquer loptimisation de nimporte quelle fonc-
tion de cot, notamment la minimisation de la fonction de cot dentropie croise pour la classification.

Complment algorithmique : mthodes de recherche


unidimensionnelle pour le paramtre dapprentissage
litration i dune mthode doptimisation, une direction de dplacement est calcule ; par exemple,
dans la mthode de BFGS, on calcule di = Mi J ( w ( i 1)) en valuant le gradient par la mthode de
rtropropagation et en calculant la matrice Mi par la mthode indique plus haut ; dans la mthode du
gradient simple, la direction de dplacement est di = J ( w ( i 1)). Lamplitude du dplacement dans la
direction choisie est alors dtermine par la valeur de i : on voudrait trouver la valeur de i qui minimise
la valeur de la fonction de cot au point daboutissement du dplacement conscutif cette itration,
cest--dire qui minimise J(w) au point w = w(i-1) + i di de lespace des paramtres. Dans la mesure o
la seule inconnue est i, il sagit bien dun problme unidimensionnel de recherche dun minimum. Cette
recherche doit tre effectue chaque itration de lalgorithme dapprentissage : elle doit donc tre rapide
tout en tant efficace ; la valeur de i ntant pas cruciale lorsquon met en uvre une mthode du second
Lapprentissage statistique
194

ordre, on peut se contenter dune mthode assez rudimentaire. La mthode de Nash permet dobtenir des
rsultats satisfaisants : elle recherche un pas qui satisfasse une borne suprieure de la valeur de la fonction
de cot atteinte lissue de litration courante.
Plus prcisment, cette technique recherche un pas qui vrifie la condition de descente :

J ( w ( i 1)) + i di J ( w ( i 1)) + m i diT J ( w ( i 1)),


o m est trs infrieur 1 (par exemple, m = 103). La recherche se fait dune manire itrative : on initia-
lise i une valeur positive arbitraire. On teste la condition de borne suprieure. Si elle est vrifie, on
accepte lajustement des paramtres. Sinon, on multiplie le pas par un facteur infrieur 1 (par exemple
0,2) et lon teste nouveau la condition. On rpte cette procdure jusqu ce quune valeur satisfaisante
du pas soit trouve. Si le pas atteint une valeur trop petite, par exemple de lordre de 1016, sans que la
condition ne soit satisfaite, ou si le nombre de recherches successives excde une valeur fixe lavance,
on considre que lon ne peut pas trouver de pas satisfaisant et lon arrte la procdure.
Voici une stratgie plus simple, couramment utilise pour la mthode de Levenberg-Marquardt [BISHOP
1995] : soit r > 1 (gnralement gal 10) un facteur dchelle pour k. Au dbut de lalgorithme, on
choisit une grande valeur 0 ([BISHOP 1995] propose 0,1). litration i de lalgorithme :
1. Calculer J(w(i)) avec i dtermin ltape prcdente.
2. Si J(w(i)) < J(w(i 1)), alors accepter le changement de paramtres et diviser i par r.
3. Sinon, rcuprer w(i 1) et multiplier i par r. Rpter cette dernire tape jusqu ce quune valeur
de i correspondant une dcroissance de J soit trouve.
Cette procdure prsente lavantage de ncessiter peu dinversions de matrice chaque itration de lalgo-
rithme. En revanche, le choix du pas initial a une influence sur la vitesse de convergence de lalgorithme.
Cet inconvnient peut tre supprim, au prix dun nombre plus lev dinversions de matrice :
1. Initialiser 0 une valeur quelconque.
2. Calculer J(w(i)) avec i dtermin ltape prcdente.
3. Si J(w(i)) < J(w(i 1)), alors rcuprer w(i 1), diviser i par r et aller ltape 1.
4. Sinon rcuprer w(i 1) et multiplier i par r. Rpter cette dernire tape jusqu ce quune valeur de
i correspondant une dcroissance de J soit trouve.

Complment thorique :
distance de Kullback-Leibler entre deux distributions gaussiennes
On cherche la distance de Kullback-Leibler entre deux gaussiennes (1, 1) et (2, 2).
On rappelle les relations suivantes :
+
1 ( x )2
exp dx = 1
2 2 2

+
1 ( x )2


x exp dx =
2 2 2
+
1 ( x )2

( x ) exp
2
dx =
2

2 2 2
Les rseaux de neurones
195
CHAPITRE 2

La divergence de Kullback-Leibler scrit :


+ p1 ( x )
D ( p1 p2 ) = p1 ( x ) Log dx
p2 ( x )

Cette expression ntant pas symtrique par rapport aux indices, on prfre calculer la quantit :
D ( p1 , p2 ) + D ( p2 , p1 )
=
2

Or

+
1 ( x 1 )2 1 ( x 1 ) ( x 2 )
2 2

D ( p1 , p2 ) = exp Log + dx
1 2 2 12 2 2 12 2 22

1
=
1 2
+ +
+
exp ( x 1 ) Log 1 dx exp ( x 1 ) ( x 1 ) dx + exp ( x 1 ) ( x 2 ) dx
2
2
2
2
2

2 12 2 2 12 2 12 2 12 2 22

Les deux premiers termes valent Log(2/1) (1/2).


Pour le troisime terme on crit :

( x 2 )2 = ( x 1 + 1 2 )2 = ( x 1 )2 + ( 1 2 )2 + 2 ( x 1 )( x 2 )
Do :
+
1 ( x 1 )2 ( x 2 )2 12
exp dx =
2 2 12 2 22 2 22

+
1 ( x 1 )2 2 ( x 1 ) ( 1 2 )
exp dx = 0
2 2 12 2 22

On obtient donc finalement :

2 ( )
2
1
D ( p1 , p2 ) = Log 2 1 12 + 1 2 2
1 2 2 2 2

On peut alors calculer :

( 2
+ 22 )
=
1

4 12 22
( )
12 22 + ( 1 2 )2

Lapprentissage statistique
196

Complment algorithmique : calcul des leviers


Soit Z une matrice de dimensions (N, q) (avec N q), dont la colonne i est note zi. On cherche calculer
les termes diagonaux de la matrice de projection orthogonale H = Z (ZT Z)-1 ZT :

( )
1
hkk = zkT ZT Z zk

En tant qulments diagonaux dune matrice de projection orthogonale, les termes hkk, k = 1, , N ne
sont dfinis que dans le cas o Z est de rang plein, cest--dire si ZT Z est inversible. Dans ce cas, ils vri-
fient les proprits suivantes :

0 hkk 1 k

N

Trace ( H ) = hkk = rang ( Z )


k =1

Une premire mthode de calcul des leviers consiste calculer la matrice ZT Z, linverser par une
mthode classique (Cholesky, dcomposition LU...), puis la multiplier droite et gauche par les
vecteurs zk et zkT. Cette mthode ne donne cependant de bons rsultats que si la matrice ZT Z est suffisam-
ment bien conditionne pour que son inversion se droule sans problme. Dans le cas contraire, ce calcul
donne des valeurs suprieures 1, voire ngatives.
Une meilleure solution consiste dcomposer la matrice Z sous la forme :
Z = U W VT
avec :
U matrice (N, p) telle que UT U = I,
W matrice (p, p) diagonale, dont les termes diagonaux, appels valeurs singulires de Z, sont positifs ou
nuls, et classs par ordre dcroissant,
V matrice (p, p) telle que VT V = V VT = I.
Cette dcomposition, connue sous le nom de dcomposition en valeurs singulires ou dcomposition
SVD (Singular Value Decomposition), est prcise et trs robuste, mme si la matrice Z est mal condi-
tionne ou de rang infrieur q (voir [PRESS 1992], et chapitre 3 sur les complments de mthodologie)
On obtient donc :
ZT Z = V W UT U W VT = V W 2 VT
Puis :
(ZT Z)-1 = V W -2 VT
Cette dcomposition permet donc le calcul direct de la matrice (ZT Z)1, dont les lments scrivent :
p
VlkVjk
( Z Z)
1
T
=
lj
k =1 Wkk2

On peut alors calculer lexpression de hkk sous la forme :


p p

( ) ( )
1 1
hkk = zkT ZT Z z k = Z kl Z kj ZT Z lj
k =1 j =1
Les rseaux de neurones
197
CHAPITRE 2

soit, finalement :
2
p 1 p
hkk = Z kjVji
i =1 Wij j =1

Cette mthode permet de calculer les leviers sans devoir procder explicitement aux calculs des termes de
la matrice (ZT Z)1, ce qui est important pour la prcision du calcul, dans le cas de matrices mal condition-
nes. Dun point de vue numrique, tant donn que les valeurs singulires de Z sont classes par ordre
dcroissant, il est conseill de calculer les leviers en faisant varier i de q 1, et non pas de 1 q.
Cette mthode de calcul fournit des termes systmatiquement positifs ou nuls.

Bibliographie
ANTONIADIS A., BERRUYER J., CARMONA R. [1992], Rgression non linaire et applications, Economica.
BARRON A. [1993], Universal approximation bounds for superposition of a sigmoidal function, IEEE
Transactions on Information Theory, 39, p. 930-945.
BARTLETT P. L. [1997], For valid generalization, the size of the weights is more important than the size of
the network, Neural Information Processing Systems, 9, Morgan Kaufmann.
BAUM E. B., WILCZEK F. [1988], Supervised learning of probability distributions by neural networks,
Neural Information Processing Systems, p. 52-61.
BENVENISTE A., JUDITSKY A., DELYON B., ZHANG Q., GLORENNEC P.-Y. [1994], Wavelets in identifica-
tion, 10th IFAC Symposium on Identification, Copenhague.
BISHOP C. [1995], Neural networks for pattern recognition, Oxford University Press.
BISHOP C. [1993], Curvature-driven smoothing : a learning algorithm for feedforward networks, IEEE
Transactions on Neural Networks, 4, p. 882-884.
BRIDLE J. S. [1990], Probabilistic interpretation of feedforward classification network outputs, with rela-
tionship to statistical pattern recognition, Neurocomputing : algorithms, architectures and applications,
p. 227-236 Springer.
BROOMHEAD D. S., LOWE D. [1988], Multivariable functional interpolation and adaptive networks,
Complex Systems, 2, p. 321-355.
BROYDEN C. G. [1970], The convergence of a class of double-rank minimization algorithms 2 : the new
algorithm, Journal of the Institute of Mathematics and its Applications, 6, p. 222-231.
CHEN S., BILLINGS S. A., LUO W., Orthogonal least squares methods and their application to non-linear
system identification, International Journal of Control, 50, p. 1873-1896.
COVER T. M. [1965], Geometrical and statistical properties of systems of linear inequalities with applica-
tions in pattern recognition, IEEE Transactions on Electronic Computers, 14, p. 326-334.
DREYFUS G., IDAN Y. [1998], The canonical form of discrete-time nonlinear models, Neural Computa-
tion, 10, p. 133-164.
DUPRAT A., HUYNH T., DREYFUS G. [1998], Towards a principled methodology for neural network design
and performance evaluation in QSAR ; application to the prediction of LogP, Journal of Chemical Infor-
mation and Computer Sciences, 38, p. 586-594.
Lapprentissage statistique
198

FRASCONI P., GORI M., SPERDUTI A. [1998], A general framework for adapative processing of data struc-
tures, IEEE Transactions on Neural Networks, 9, 768-786.
GALLINARI P., CIBAS T. [1999], Practical complexity control in multilayer perceptrons. Signal
Processing, 74, p. 29-46.
GOODWIN G. C., SIN K. S. [1984], Adaptive Filtering Prediction and Control, Prentice-Hall, New Jersey.
GOULON-SIGWALT-ABRAM A., DUPRAT A., DREYFUS G. [2005], From Hopfied nets to recursive networks
to graph machines, Theoretical Computer Science, 344, p. 298-334.
GOULON-SIGWALT-ABRAM A., DUPRAT A., DREYFUS G. [2006], Graph Machines and Their Applications
to Computer-Aided Drug Design: a New Approach to Learning from Structured Data, Unconventional
Computing 2006, Lecture Notes in Computer Science, 4135, p. 1 19, Springer (2006).
GOULON-SIGWALT-ABRAM A., PICOT T., DUPRAT A., DREYFUS G. [2007], Predicting activities without
computing descriptors: graph machines for QSAR, SAR and QSAR in Environmental Resesarch, 18,
p. 141 - 153
HAMPSHIRE J. B., PEARLMUTTER B. [1990], Equivalence proofs for multilayer perceptron classifiers and
the Bayesian discriminant function, Proceedings of the 1990 connectionist models summer school,
p. 159-172, Morgan Kaufmann.
HANSCH C., LEO A. [1995], Exploring QSAR, Fundamentals and applications in chemistry and biology;
American Chemical Society.
HANSEN L.K., LARSEN J. [1996], Linear unlearning for cross-validation, Advances in Computational
Mathematics, 5, p. 269-280.
HAYKIN S. [1994], Neural Networks : a comprehensive approach, MacMillan.
HO E., KASHYAP R. L. [1965], An algorithm for linear inequalities and its applications, IEEE Transac-
tions on Electronic Computers, 14, p. 683-688.
HOPFIELD J. J. [1987], Learning algorithms and probability distributions in feedforward and feedback
neural networks, Proceedings of the National Academy of Sciences, 84, p. 8429-433.
HORNIK K., STINCHCOMBE M., WHITE H. [1989], Multilayer feedforward networks are universal
approoximators, Neural Networks, 2, p. 359-366.
HORNIK K., STINCHCOMBE M., WHITE H. [1990], Universal approximation of an unknown mapping and
its derivatives using multilayer feedforward networks, Neural Networks, 3, p. 551-560.
HORNIK K. [1991], Approximation capabilities of multilayer feedforward networks, Neural Networks, 4,
p. 251-257.
KIM S. S., SANDERS T. H. Jr [1991], Thermodynamic modeling of phase diagrams in binary alkali silicate
systems, Journal of the American Ceramic Society, 74, p. 1833-1840.
KNERR S., PERSONNAZ L., DREYFUS G. [1990], Single-layer learning revisited : a stepwise procedure for
building and training a neural network, Neurocomputing : algorithms, architectures and applications,
p. 41-50, Springer.
KNERR S. [1991], Un mthode nouvelle de cration automatique de rseaux de neurones pour la clas-
sification de donnes : application la reconnaissance de chiffres manuscrits, Thse de Doctorat de
l'Universit Pierre et Marie Curie, Paris.
KNERR S., PERSONNAZ L., DREYFUS G. [1992], Handwritten digit recognition by neural networks with
single-layer training, IEEE Transactions on Neural Networks, 3, p. 962-968.
Les rseaux de neurones
199
CHAPITRE 2

KULLBACK S., LEIBLER R. A. [1951], On information and sufficiency, Annals of mathematical Statistics,
22, p. 79-86.
KULLBACK S. [1959], Information Theory and Statistics, Dover Publications.
KUO B. C. [1992], Digital Control Systems, Saunders College Publishing.
KUO B. C. [1995], Automatic Control Systems, Prentice Hall.
LAWRANCE A. J. [1995], Deletion, influence and masking in regression, Journal of the Royal Statistical
Society, B 57, p. 181-189.
LECUN Y., BOSER B., DENKER J.S., HENDERSON D., HOWARD R.E., HUBBARD W., JACKEL L.D. [1989],
Backpropagation applied to handwritten zip code recognition, Neural Computation, 1, p. 541-551.
LEVENBERG K. [1944], A method for the solution of certain non-linear problems in least squares, Quar-
terly Journal of Applied Mathematics, 2, p. 164-168.
LEVIN A., NARENDRA K.S. [1993], Control of nonlinear dynamical systems using neural networks :
controllability and stabilization, IEEE Transaction on Neural Networks, 4, p. 1011-1020.
LJUNG L. [1987], System Identification; Theory for the User, Prentice Hall.
MCCULLOCH W. S., PITTS W. [1943], A logical calculus of the ideas immanent in nervous activity, Bulletin
of Mathematical Biophysics, 5, p. 115-133.
MCKAY D. J. C. [1992], A practical bayesian framework for backpropagation networks, Neural Compu-
tation, 4, p. 448-472.
MALLAT S. [1989], A theory for multiresolution signal decomposition : the wavelet transform, IEEE
Transactions on Pattern Analysis and Machine Intelligence, 11, p. 674-693.
MARCOS S., MACCHI O., VIGNAT C., DREYFUS G., PERSONNAZ L., ROUSSEL-RAGOT P. [1992], A unified
framework for gradient algorithms used for filter adaptation and neural network training, International
Journal of Circuit Theory and Applications, 20, p. 159-200.
MARQUARDT D. W. [1963], An algorithm for least-quares estimation of nonlinear parameters, Journal of
the Society of Industrial and Applied Mathematics, 11, p. 431-441.
MINSKY M., PAPERT S. [1969] Perceptrons. MIT Press.
MONARI G. [1999], Slection de modles non linaires par leave-one-out ; tude thorique et application
des rseaux de neurones au procd de soudage par points, Thse de Doctorat de l'Universit Pierre et
Marie Curie, Paris. Disponible sur le site http://www.neurones.espci.fr.
MONARI G., DREYFUS G. [2000], Withdrawing an example from the training set : an analytic estimation
of its effect on a non-linear parameterised model, Neurocomputing, 35, p. 195-201.
MONARI G., DREYFUS G. [2002], Local overfitting control via leverages, Neural Computation, 14,
p. 1481-1506.
MOODY J., DARKEN C. J. [1989], Fast learning in networks of locally-tuned processing units, Neural
Computation, 1, p. 281-294.
NARENDRA K. S, ANNASWAMY A. M. [1989], Stable Adaptative Systems, Prentice-Hall.
NERRAND O., ROUSSEL-RAGOT P., PERSONNAZ L., DREYFUS G., MARCOS S. [1993], Neural networks and
non-linear adaptive filtering : unifying concepts and new algorithms, Neural Computation, 5, p. 165-197.
NERRAND O. [1992], Rseaux de neurones pour le filtrage adaptatif, l'identification et la commande de
processus, thse de doctorat de lUniversit Pierre et Marie-Curie.
Lapprentissage statistique
200

NERRAND O., URBANI D., ROUSSEL-RAGOT P., PERSONNAZ L., DREYFUS G. [1994], Training recurrent
neural networks : why and how ? An illustration in process modeling, IEEE Transactions on Neural
Networks 5, p. 178-184.
OSADCHY M., LECUN Y., MILLER M. [2007], Synergistic Face Detection and Pose Estimation with
Energy-Based Models, Journal of Machine Learning Research, 8, p 1197-1215.
OUKHELLOU L [1997], Paramtrisation et Classification de Signaux en Contrle Non Destructif. Applica-
tion la Reconnaissance des Dfauts de Rails par Courants de Foucault, Thse de lUniversit de Paris
XI-Orsay.
OUKHELLOU L., AKNIN P., STOPPIGLIA H., DREYFUS G. [1998], A new decision criterion for feature selec-
tion: application to the classification of non destructive testing signatures, European SIgnal Processing
COnference (EUSIPCO'98).
OUSSAR Y. [1998], Rseaux dondelettes et rseaux de neurones pour la modlisation statique et dyna-
mique de processus, Thse de Doctorat de l'Universit Pierre et Marie Curie, Paris. Disponible sur le site
http://www.neurones.espci.fr.
OUSSAR Y., DREYFUS G. [2000], Initialization by selection for wavelet network training, Neurocompu-
ting, 34, p. 131-143.
OUSSAR Y., DREYFUS G. [2001], How to be a gray box : dynamic semi-physical modeling, Neural
Networks, 14, 1161-1172.
OUSSAR Y., MONARI G., DREYFUS G. [2004], Reply to the comments on Local Overfitting Control via
Leverages in Jacobian Conditioning Analysis for Model Validation by I. Rivals and L. Personnaz,
Neural Computation, 10, p. 419-443.
PLAUT D., NOWLAN S., HINTON G. E. [1986], Experiments on learning by back propagation, Technical
Report, Carnegie-Mellon University.
PLOIX J. L., G. DREYFUS [1997], Early fault detection in a distillation column: an industrial application of
knowledge-based neural modelling, Neural Networks: Best Practice in Europe, p. 21-31, World Scien-
tific.
POGGIO T., TORRE V., KOCH C. [1985], Computational vision and regularization theory, Nature, 317,
p. 314-319.
POLLACK J. B. [1990], Recursive distributed representations, Artificial Intelligence, 46, p. 77-105.
POWELL M. J. D. [1987], Radial basis functions for multivariable interpolation : a review, Algorithms for
approximation, p. 143-167.
PRESS W. H., TEUKOLSKY S. A., VETTERLING W. T., FLANNERY B. P. [1992], Numerical recipes in C : the
art of scientific computing, Cambridge University Press.
PRICE D., KNERR S., PERSONNAZ L., DREYFUS G. [1994], Pairwise neural network classifiers with proba-
bilistic outputs, Neural Information Processing Systems, 7 , p. 1109-1116, Morgan Kaufmann.
PRICE P.E., WANG S., ROMDHANE I.H. [1997], Extracting effective diffusion parameters from drying
experiments. AIChE Journal, 43, p. 1925-1934.
PUSKORIUS G. V., FELDKAMP L. A. [1994], Neurocontrol of nonlinear dynamical systems with Kalman
Filter trained recurrent networks, IEEE Trans. on Neural Networks, 5, p. 279-297.
RIVALS I., PERSONNAZ L. [2000], Construction of confidence intervals for neural networks based on least
squares estimation, Neural Networks, 13, p. 463-484.
Les rseaux de neurones
201
CHAPITRE 2

RIVALS I., PERSONNAZ L. [2004], Jacobian conditioning analysis for model validation, Neural Computa-
tion, 16, p. 401-418.
RIVALS I., CANAS D., PERSONNAZ L., DREYFUS G. [1994], Modeling and control of mobile robots and
intelligent vehicles by neural networks, Proceedings of the IEEE Conference on Intelligent Vehicles,
p. 137 142.
RIVALS I. [1995], Modlisation et commande de processus par rseaux de neurones : application au pilo-
tage dun vhicule autonome, Thse de doctorat de lUniversit Pierre et Marie Curie, Paris. Disponible
sur le site http://www.neurones.espci.fr.
ROUSSEL P., MONCET F., BARRIEU B., VIOLA A. [2001], Modlisation dun processus dynamique laide
de rseaux de neurones boucls. Application la modlisation de la relation pluie-hauteur deau dans un
rseau dassainissement et la dtection de dfaillances de capteurs, Innovative technologies in urban
drainage, 1, 919-926, G.R.A.I.E.
RUMELHART D. E., HINTON G. E., WILLIAMS R. J. [1986], Learning internal representations by error back-
propagation, Parallel Distributed Processing : Explorations in the Microstructure of Cognition, p. 318-
362, MIT Press.
SAARINEN S., BRAMLEY R., CYBENKO G. [1993], Ill-conditioning in neural network training problems,
SIAM J. Sci. Stat. Comp., 14, p. 693-714.
SEBER G.A.F., WILD C.J. [1989], Nonlinear regression, Wiley Series in Probability and Mathematical
Statistics, John Wiley & Sons.
SINGHAL A. [1996], Pivoted length normalization. Proceedings of the 19th Annual International Confer-
ence on Research and Development in Information Retrieval (SIGIR'96), p. 21-29.
SJBERG J., ZHANG Q., LJUNG L., BENVENISTE A., DELYON B. [1995], Nonlinear blackbox modeling in
system identification: a unified overview, Automatica, 31, p. 1691-1724.
SONTAG E. D. [1993], Neural networks for control, Essays on control : perspectives in the theory and its
applications, p. 339-380, Birkhuser.
STOPPIGLIA H. [1997], Mthodes statistiques de slection de modles neuronaux ; applications finan-
cires et bancaires, Thse de Doctorat de l'Universit Pierre et Marie Curie, Paris. Disponible sur le site
http://www.neurones.espci.fr.
STRICKER M. [2000], Rseaux de neurones pour le traitement automatique du langage : conception et
ralisation de filtres d'informations, Thse de Doctorat de l'Universit Pierre et Marie Curie, Paris. Dispo-
nible sur le site http://www.neurones.espci.fr.
STRICKER M., VICHOT F., DREYFUS G., WOLINSKI F. [2001], Training context-sensitive neural networks
with few relevant examples for the TREC-9 routing, Proceedings of the TREC-9 Conference.
TIBSHIRANI R. J. [1996], A comparison of some error estimates for neural models, Neural Computation,
8, p. 152-163.
TIKHONOV A. N., ARSENIN V. Y. [1977], Solutions of Ill-Posed Problems, Winston.
VAPNIK V. [1995], The nature of statistical learning theory, Springer.
WAIBEL, HANAZAWA T., HINTON G., SHIKANO K., and LANG K. [1989], Phoneme recognition using time-
delay neural networks, IEEE Transactions on Acoustics, Speech, and Signal Processing, 37, p. 328-339.
WERBOS P. J. [1974], Beyond regression : new tools for prediction and analysis in the behavioural
sciences, Ph. D. thesis, Harvard University.
Lapprentissage statistique
202

ZHOU G., SI J. [1998], A systematic and effective supervised learning mechanism based on jacobian rank
deficiency, Neural Computation, 10, p. 1031-1045.
WOLINSKI F., VICHOT F., STRICKER M. [2000], Using Learning-Based Filters to Detect Rule-based Filte-
ring Obsolescence, Confrence sur la Recherche dInformation Assiste par Ordinateur RIAO'2000,
Paris.
ZIPF G. K. [1949], Human Behavior and the Principle of Least Effort. Addison-Wesley.
3
Complments de mthodologie
pour la modlisation : rduction
de dimension et r-chantillonnage

Ce chapitre propose quelques complments la mthodologie de mise en uvre des rseaux de neurones.
Il apporte des lments de rponses des questions mthodologiques que le concepteur de modles se
pose lorsquil souhaite mettre en uvre un modle statistique utilisant des rseaux de neurones. En effet,
comme nous lavons soulign dans le chapitre prcdent, la conception dun modle neuronal ne se
rduit pas au choix du nombre de neurones dans la couche cache et la bonne excution dun algorithme
dapprentissage :
avant de mettre en uvre un rseau de neurones, ou tout autre modle statistique, il peut savrer nces-
saire de construire de nouvelles variables dentre afin de rduire leur nombre, tout en perdant le moins
dinformation possible sur leur rpartition ;
aprs lestimation des paramtres du modle (par lapprentissage si le modle est un rseau de
neurones), lutilisateur doit valuer le risque li lutilisation du modle construit, lequel est relatif
lerreur de gnralisation qui, par dfinition, nest pas calculable : elle doit donc tre estime. Nous
avons vu dans le chapitre prcdent une mthode destimation de lerreur de gnralisation par calcul du
score de leave-one-out virtuel ; nous prsentons ici une autre technique statistique rcente, fonde
sur le r-chantillonnage, qui permet destimer avec prcision les caractristiques statistiques de lerreur
de gnralisation.
Les lments de mthodologie prsents dans ce chapitre portent donc sur :
les pr-traitements effectuer sur les donnes,
les techniques de rduction du nombre dentres, fondes sur lanalyse en composantes principales et
lanalyse en composantes curvilignes,
lestimation de lerreur de gnralisation par les techniques statistiques de r-chantillonnage, notam-
ment le bootstrap.
La rduction de dimension ne vise pas seulement diminuer le nombre de variables dcrivant chaque
exemple : elle permet galement de construire des reprsentations plus synthtiques des donnes, en faci-
litant lanalyse. La mthode classique utilise dans le cadre linaire est lanalyse en composantes princi-
pales (ACP) : cette dernire, procdant par projection, est limite aux varits linaires. Pour traiter les
reprsentations non linaires, nous prsenterons une seconde mthode, lanalyse en composantes curvi-
lignes (ACC), qui peut tre vue comme une extension non linaire de lACP. Elle est similaire aux
cartes de Kohonen (voir chapitre 7), mais elle est plus souple, car la structure de lespace de projection
nest pas impose a priori.
Lapprentissage statistique
204

Les mthodes de r-chantillonnage sont utilises pour raliser des estimations lorsquon ne connat pas
les lois de probabilit des variables analyser. Dans les problmes poss par la rgression, notamment la
rgression par rseaux de neurones, elles permettent destimer lerreur de gnralisation, et dvaluer,
avec efficacit et robustesse, la variabilit du rseau par rapport aux donnes, lment cl du dilemme
biais-variance (prsent dans le chapitre 2) qui conditionne llaboration de tout modle statistique. Ces
techniques trs performantes sont gourmandes en temps de calcul, mais laccroissement de la vitesse des
calculateurs permet de plus en plus frquemment leur mise en uvre. Une nouvelle mthode sera
prsente, associant le bootstrap et larrt prmatur (early stopping, galement prsent dans le chapitre
prcdent), pour automatiser et contrler lapprentissage des rseaux de neurones.

Pr-traitements

Pr-traitements des entres


Nous avons mentionn, dans le chapitre prcdent, que les valeurs des variables du modle sont en
gnral exprimes dans des units diffrentes, et ont des ordres de grandeurs diffrents. Il est donc nces-
saire de pr-traiter ces valeurs pour quelles aient la mme influence sur la construction du modle. Afin
duniformiser limportance de chaque entre sur les paramtres du modle, il faut les centrer et les
rduire, ou au moins les normaliser. Le pr-traitement dcrit au paragraphe Normalisation des entres
du chapitre 2 transforme les composantes dentre en variables de moyenne nulle et dcart-type unitaire.
Normaliser ou rduire
Pour des distributions dentre uniforme et centre, le rapport entre une normalisation et une rduction nest que de 3 sur lcart-type.
En effet, lcart-type dune loi uniforme sur un intervalle l est de l ( 2 3 ) et une normalisation sur le mme intervalle divise la variable
par l2.
Variables boolennes
Les valeurs 0 et 1 des variables boolennes doivent tre respectivement transformes en 1 et +1 ; les variables qui rsultent dun codage
ou doivent subir un traitement analogue.

La figure 3-1 montre leffet du pr-traitement. Il correspond une translation du centre de gravit du
nuage des points, suivie dune normalisation de la dispersion des valeurs sur chacun des axes sans modi-
fication de la rpartition des points.
Ce pr-traitement simple, appliqu toutes les composantes, permet souvent de dtecter des
anomalies dans la base de donnes. Un cart-type trop faible peut signifier que la composante corres-
pondante varie trop peu pour influencer le modle. Les composantes dcart-type nul doivent videmment
tre cartes dans la mesure o elles napportent aucune information dans la construction du modle. Pour
un diagnostic plus profond de ces anomalies , il faut informer lexpert du domaine.

Pr-traitement des sorties pour la classification supervise


Pour les composantes de sortie, les pr-traitements sont lis au codage des sorties et leurs caractristi-
ques statistiques. En effet, en classification supervise (prsente en dtail dans le chapitre 6), compte
tenu du codage des sorties lies aux probabilits a posteriori, le problme du pr-traitement ne se pose
pas : le codage des probabilits a posteriori consiste reprsenter chacune des classes par un neurone de
sortie possdant une fonction dactivation logistique. Le cot adapt ce codage est celui de lentropie
croise plutt que le cot quadratique. Pour une discrimination deux classes, en notant y et y*, respecti-
vement, la sortie logistique calcule par le rseau et la valeur dsire, lentropie croise est dfinie par :
Complments de mthodologie pour la modlisation
205
CHAPITRE 3

J = y * ln y + (1 y * ) ln(1 y)

Il faut noter que le minimum


de cette fonction est obtenu
pour y = y*, comme dans le
cas du cot quadratique. Une
gnralisation est effectue
sans difficult dans les
problmes plusieurs classes.
Par exemple, pour n classes,
la fonction logistique est
remplace par la fonction
softmax :
zi
e
- avec
y i = -------------
n
zj
e
j=1

zi = k wik xk + wi0 .
Pour chaque exemple, len-
tropie croise sexprime alors
par :
n

yi ln yi + ( 1 yi ) ln ( 1 yi ).
* *
E = Figure 3-1. Centrage et rduction de donnes.
i=1

Rgles dapprentissage
Le lecteur curieux pourra sapercevoir que cette approche, malgr les apparences, ne complique pas les calculs : bien au contraire, elle les
simplie. En fait, cela revient ne pas tenir compte des non-linarits apportes par la fonction logistique dans le calcul des gradients :
E
---------- = ( y i y k* )x k
w ik
On retrouve la rgle du Perceptron de Rosenblatt et donc aussi celle de Widrow-Hoff, introduites dans le chapitre 2, propos de lappren-
tissage adaptatif.

Pr-traitement des sorties pour la rgression


Dans les problmes de rgression, les sorties reprsentent les moyennes conditionnelles. Les rsidus
autour de la valeur moyenne sont supposs suivre une loi normale centre. Pour optimiser la construction
du modle, les sorties sont donc centres et rduites, les moyennes et les variances des sorties tant esti-
mes partir de la base dexemples.
Lerreur quadratique moyenne EQMr, value dans lespace des sorties rduites, correspond lerreur
quadratique moyenne EQM calcule partir des donnes non pr-traites, divise par lestimation de la
variance.
Lapprentissage statistique
206

N
1
EQM r = ---- ( y k y k* ) EQM = EQM r y
2 2
N
k=1

Rduction du nombre de composantes


La construction du modle g(x,w) peut ncessiter une rduction du nombre de composantes du vecteur x.
Cest le cas notamment lorsque les composantes sont trop nombreuses pour tre exploites, ou bien
lorsquon suppose quelles ne sont pas mutuellement indpendantes. Sous cette hypothse, leur rduction
simplifie la construction du modle. On obtient ainsi une plus grande robustesse par rapport la variabilit
des donnes, et une moindre sensibilit au surajustement d un nombre excessif de paramtres (voir
chapitre 2).
Pour explorer la structure des donnes multidimensionnelles, lanalyse repose sur lobservation de la
rpartition des individus dans lespace des facteurs. Lorsque le nombre de facteurs est trop important pour
une analyse visuelle ou un traitement numrique, il est ncessaire de rduire leur nombre. En statistique,
lACP ( Analyse en composantes principales ) est utilise pour rduire le nombre de facteurs. La
mthode est fonde sur une combinaison linaire des facteurs par projection. Elle permet une reprsenta-
tion plus synthtique des donnes.
Dans cette partie, on rappellera les principes de lACP, puis on prsentera lACC ( Analyse en compo-
santes curvilignes ) qui peut tre vue comme une extension non linaire de lACP, adapte aux reprsen-
tations de structures de donnes plus complexes. Un parallle sera fait avec les cartes auto-organisatrices
de Kohonen, galement utilises dans les analyses non linaires de donnes.

Analyse en composantes principales


Lanalyse en composantes principales est une des plus anciennes techniques danalyse statistique. Elle a
t dveloppe pour ltude dchantillons dindividus caractriss par plusieurs facteurs. La mthode est
donc adapte lanalyse de donnes multidimensionnelles : en effet, ltude spare de chaque facteur ne
suffit pas en gnral, car elle ne permet pas de dtecter dventuelles dpendances entre facteurs.

Principe de lACP
Pour rduire le nombre de facteurs (composantes), lACP dtermine des sous-espaces vectoriels de
dimension plus rduite que le nombre de facteurs, dans lesquels la rpartition des observations (points) est
prserve au mieux. Le critre retenu sur la rpartition est linertie totale du nuage des points. LACP se
prsente donc comme une mthode de projection linaire qui maximise linertie du nuage des points.
Avant de prsenter les dveloppements thoriques, reprenons, titre dillustration simple, lexemple de la
distribution dun nuage de points dans R2 reprsent par la figure 3-1. LACP dtermine le premier axe
principal comme tant celui par rapport auquel linertie du nuage de points est maximale. Le deuxime
axe est, parmi les axes orthogonaux au prcdent, celui par rapport auquel linertie du nuage de points est
maximale. Les autres axes sont dfinis orthogonaux deux deux sur le mme critre de maximisation de
linertie.
Complments de mthodologie pour la modlisation
207
CHAPITRE 3

ACP et orthogonalisation de Gram-Schmidt


Cette procdure peut rappeler lorthogonalisation de Gram-Schmidt prsente dans le chapitre prcdent pour la slection des entres.
Cette analogie est trompeuse. LACP est une procdure qui seffectue dans lespace de reprsentation, o chaque observation est repr-
sente par un point dont les coordonnes sont les valeurs des facteurs correspondant cette observation ; en revanche, lorthogonalisa-
tion de Gram-Schmidt pour la slection des entres est effectue dans lespace des observations, o chaque facteur est reprsent par un
vecteur dont les composantes sont les observations de ce facteur contenues dans la base de donnes. La dimension de lespace de repr-
sentation est le nombre de facteurs du modle, alors que la dimension de lespace des observations est le nombre dobservations
prsentes dans la base de donnes.
La figure 3-2 montre les deux axes principaux dfinis respectivement par la 1re et la 2e bissectrice (lortho-
gonalit des axes est dforme par lchelle du graphique). Les composantes principales seront reprsen-
tes par les projections des points sur les axes principaux. La transformation linaire par ACP consiste
donc effectuer, sur les donnes centres, un changement de base dfini par les axes principaux.

Figure 3-2. Changement


de base par ACP.

Montrons que la notion mcanique dinertie totale du nuage de points est quivalente la notion
statistique de variance. Le calcul de linertie des points seffectue par rapport au centre de gravit du
nuage des points. En notant g le centre de gravit et In linertie du nuage des points dfinis dans Rn :
n n n
1
g i = ---- x ij I n = ( xij g j )
2
.
N
i=1 j=1 i=1

Linertie In est donc gale la trace de la matrice de variance-covariance des donnes X dfinie par :
V = (X Ig)T(X Ig) o I dsigne la matrice unit.
Linertie tant invariante par translation, on peut centrer les donnes par X = X Ig, et obtenir une relation
simple entre linertie et la matrice de variance-covariance sur les nouvelles donnes centres X :
Lapprentissage statistique
208

In = Trace(XT X).
Pour des donnes centres et rduites Trace(XT X) = n.
En considrant le sous-espace de dimension q < n et en notant Vnq la matrice associe au projecteur
sur Rq, le nuage des points projets sur Rq est reprsent par la matrice XV, dont linertie est :
Iq = Trace(VTXTXV).
LACP dfinit la projection linaire qui maximise Iq, valeur de linertie des points calcule dans Rq. Ce
problme est rsolu en recherchant un premier axe sur lequel linertie est maximale, puis un deuxime
orthogonal au premier pour poursuivre la maximisation de linertie, et ainsi de suite jusquau pime axe.
Les axes obtenus correspondent aux vecteurs propres de la matrice XTX, ordonns en fonction de leurs
valeurs propres, de la plus grande 1 la plus petite n. Les valeurs propres j, j = 1, , n sont positives
ou nulles, car la matrice XTX est une symtrique dfinie positive. En notant Vnq la matrice des vecteurs
propres, la transformation effectuer sur des donnes centres pour obtenir les composantes principales
sexprime par :
x Rn VTnq x Rq < n.
Les rgles utilises pour retenir les composantes principales (q parmi p) dpendent dune analyse qui
seffectue sur les valeurs propres. Avant de les prsenter, il nous semble utile de rappeler une technique
similaire lACP et largement utilise en algbre linaire, qui porte sur la dcomposition en valeurs
singulires, note SVD pour Singular Value Decomposition [CICHOKI 93]. Cette technique, trs utile dans
les problmes de rsolution de systmes linaires, a t mentionne dans le chapitre prcdent comme
outil de calcul des leviers pour des modles non linaires.

Thorme

Pour toute matrice A Rn p, il existe deux matrices orthogonales U Rn p et V Rn p telles que :


1 0  0
U T AV = S = 0 2  0
0
0  0 m
avec 1 2 m 0 ou m = min(p, n).

La matrice diagonale S est compose par les valeurs singulires j ordonnes par valeurs dcroissantes.
Les valeurs singulires j sont les racines carres des valeurs propres j de la matrice symtrique dfinie
positive ATA ou de la matrice AAT si m < n. La matrice V associe au changement de base est reprsente
par les vecteurs propres de la matrice ATA.
ACP et SVD
Sur des donnes centres, il y a donc quivalence entre une analyse en composantes principales et une dcomposition en valeurs singulires.
Contrairement aux techniques de diagonalisation des matrices carres, la dcomposition en valeurs singu-
lires sapplique tout type de matrice. Lindice de la 1re valeur singulire gale 0 dtermine le rang de
la matrice ; son conditionnement, au sens de la norme L2, est gal au rapport des valeurs singulires
extrmes 1p.
partir de lorthogonalit des matrices U et V, il vient :
UT AV = S A = USVT.
Complments de mthodologie pour la modlisation
209
CHAPITRE 3

Dans une application de modlisation, si A reprsente la matrice des observations (dfinie dans le chapitre
prcdent) centres, la matrice US = AV dcrit les mmes exemples dans une reprsentation
orthogonale : les nouvelles entres obtenues aprs transformation sont non corrles linairement. La
mme technique est utilise en traitement du signal pour blanchir les signaux [DAVAUD 91]. Pour
rduire les nouvelles entres, il suffit de retenir la matrice U comme nouvelle base dexemples. La trans-
formation linaire devient S-1VTx au lieu de VTx.
La dcomposition en valeurs singulires, applique aux donnes centres de la matrice X, permet
dexprimer linertie en fonction des valeurs singulires j ou en fonction des valeurs propres j de la
matrice XTX :
p p

j Ip = j .
2
Ip = Trace(XTT) Ip =
j=1 j=1

Ce rsultat est bien connu en algbre linaire puisque linertie du nuage de points correspond la norme
matricielle de Frobenius qui sexprime en fonction des valeurs singulires :

xij j .
2 2
X F = =
i, j j

La matrice de projection ppq associe aux q premiers axes est donc reprsente par les q premiers
vecteurs de la matrice Vpq. La contribution relative linertie de chaque axe principal est donne par le
rapport entre 2j et la somme 12 + 22 + + p2. La contribution relative des q premiers axes est :
qn

j
2
q

j Iq
2 j=1
Iq = = I n -------------
n
-.
j
j=1 2

j=1

La qualit de la rduction est directement lie la 17


valeur de q. Il ny a pas de rgle gnrale pour dter-
miner la meilleure valeur. On peut citer quelques 16
rgles utilises pour dterminer le nombre q de
composantes [SAPORTA 1990] : 15
% de la variance explique

La part de linertie explique pour reprsenter au


moins un pourcentage fix sur linertie, 14
La rgle de Kaiser qui retient les valeurs propres
suprieures la moyenne des valeurs propres (sur 13
des donnes centres rduites, cela revient
retenir celles qui sont suprieures 1, puisque la 12
somme des valeurs propres est gale n),
Le test de lboulis (scree-test) qui, partir de 11
la courbe Iq fonction de q = 1, 2, , n, retient la
valeur de q qui correspond la 1re rupture de 10
pente, comme le montre lexemple donn par la 0 1 2 3 4 5 6 7 8
Rang de la valeur propre
figure 3-3 avec une rupture de pente partir de la
4e valeur propre. Figure 3-3. Pourcentage de variance explique.
Avant dappliquer lACP de faon systmatique, il
faut se rappeler que la composante dite principale est dfinie par rapport au critre qui porte sur linertie
Lapprentissage statistique
210

du nuage de points. Dans certains problmes, la composante principale nest pas llment le plus infor-
matif, bien au contraire. Par exemple, sur une srie de visages provenant de diffrentes parties du monde,
la reconnaissance de leur origine portera davantage sur la seconde composante et les suivantes, la
premire composante reprsentant plutt les caractristiques moyennes des visages.

Analyse en composantes curvilignes


La rduction de dimension pour des distributions plus complexes peut ncessiter des traitements non
linaires. Lanalyse en composantes curvilignes a t propose par [DEMARTINES 1995] pour analyser les
distributions non linaires et en rduire les dimensions. Elle peut tre interprte comme une extension non
linaire de lanalyse en composantes principales. LACC utilise un critre plus local que lACP, qui lui
permet de prserver la topologie locale de la distribution des points dentres. Une analyse de cette mthode
ainsi que des exemples dapplications peuvent tre trouvs dans [HRAULT 1993] et [VIGNERON 1997].
La figure 3-4 illustre lapplication de lACC la rduction de dimension sur des structures de donnes non
linaires : on a reprsent, au-dessus, un ensemble de points dfinis dans R3, et, au-dessous, une reprsen-
tation plus rduite dans R2. La rduction de dimension peut donc tre vue comme une projection non
linaire qui prserve la proximit entre points, et donc la topologie locale de la distribution.

1 1
0.5
0.5 0
0.5
0 1
1 1
0.5 0.5
1 0 1 0
0.5 0.5 0.5
0 0 0.5
0.5 0.5
1 1 1 1
1 4

3.5
0.5 3

2.5
0
2

1.5
0.5
1

0.5
1
0

1.5 0.5
1 0.5 0 0.5 1 1 0.5 0 0.5 1 1.5 2 2.5
Figure 3-4. Projection par ACC dune demi- Figure 3-5. Projection par ACC dune
sphre. sphre.

Sur des structures fermes, telles quune sphre ou un cylindre, la rduction de dimension introduira
ncessairement des distorsions locales. Cest le cas illustr par la figure 3-4, qui montre une projection
Complments de mthodologie pour la modlisation
211
CHAPITRE 3

dune sphre sur le plan. Lide centrale de lACC est un contrle graduel de la distorsion locale, effectu
au cours de lapprentissage.
Ayant pour objectif une rduction de dimension qui prserve la topologie locale, lACC est adapte la
reprsentation de varits non linaires. Une varit dans Rp peut tre grosso modo dfinie comme un
ensemble de points dont la dimension locale est infrieure p. Lenveloppe dune sphre dfinie dans
R3 est un exemple : la varit est de dimension 2. De faon plus rigoureuse, une varit de dimension q
dans Rq est un sous-ensemble de Rn obtenu par application dune fonction dfinie de Rq dans Rq. En un
point, le rang de la diffrentielle de lapplication dtermine la dimension locale de la varit.
Par rapport lACP, la mthode permet donc de reprsenter des structures de donnes distribues dune
faon non linaire. Elle se rapproche des mthodes fondes sur les cartes auto-adaptatives de Kohonen,
mais son principe est diffrent. En effet, aucune contrainte nest impose sur les points dans lespace de
projection ; il ny a pas de voisinage dfini a priori entre les points dans lespace de projection. Cela
permet de reprsenter toutes sortes de varits.

Formalisation de lanalyse en composantes curvilignes


Les coordonnes des p points sont dfinies :
par xi Rn, i = {1, , p} dans lespace dorigine,
par yi Rn < n, i = {1, , p} dans lespace rduit.
Notons Xij et Yij les distances entre les points i et j, calcules respectivement dans lespace dorigine et
dans lespace rduit :
n

( xik x jk )
2
espace dorigine X ij = ;
k=1

( yik y jk )
2
espace rduit Y ij = .
k=1

La transformation des composantes engendre une distorsion sur la varit. En gardant la mme mtrique
(distance euclidienne), une mesure de la distorsion peut tre donne en comparant les distances Xij aux
distances Yij p n 2
distorsion due la rduction ( X ij Y ij ) .
i = 1 j = i+1

Un parallle peut tre fait avec lACP, qui dfinit la projection linaire en minimisant la fonction
X ij Y ij
2 2 2
objectif : = Cette fonction traduit lcart entre la moyenne des distances X ij calcules
i, j i, j
2
dans lespace dorigine et la moyenne des distances Y ij calcules dans lespace rduit. La fonction de
cot retenue par lACC prserve davantage les carts de distance Xij Yij, et permet donc de reprsenter
des varits non linaires avec un minimum de dformation.

Attention

Pour pouvoir dplier des varits, Demartines a introduit, dans la fonction de cot, un terme de pond-
ration F(Yij, ), fonction positive monotone dcroissante de la distance Yij.
Lapprentissage statistique
212

Le terme F(Yij) favorise les petites distances dans lespace de projection. Le paramtre joue le mme
rle que le paramtre rayon, dfini dans les cartes de Kohonen : dans lespace de sortie, les distances sup-
rieures ne seront plus prises en compte. La dcroissance du paramtre au cours de ladaptation
permet de dplier et mme de couper certaines varits non linaires. La projection dune sphre de R3
dans R2 (figure 3-4) montre lexemple dune varit pour laquelle la projection ncessite une coupure. La
fonction permet donc de dplier certaines varits en prservant au maximum la topologie locale.
La fonction objectif , vise par ACC, se prsente Figure 3-6. F(Yij)
alors sous la forme suivante : Fonction de
pondration
p n 2
des distances.
E= ( X ij Y ij ) F ( Y ij, ) . dcroissant
i = 1 j = i+1

Algorithme danalyse en
composantes curvilignes
Yij
Lalgorithme consiste minimiser la fonction de cot
par rapport aux coordonnes de chaque point de la base
dexemples dans lespace rduit. Comme il en va pour effectuer un apprentissage, on peut utiliser
nimporte lequel des algorithmes doptimisation prsents dans le chapitre 2. Nous prsentons ici la mini-
misation de la fonction de cot par lalgorithme du gradient stochastique.
On calcule donc les drives partielles de la fonction de cot par rapport chacun des paramtres ; en
notant yik la k-ime coordonne du point i, il vient :
E E Y
--------- = --------- --------ij-
y ik ji
Y ij y ik

E X Y
--------- = -----ij------------ij- [ 2 F ( Y ij ) ( X ij Y ij ) F ( y ij ) ] ( y ik y jk ) .
y ik ji
Y ij
La modification des paramtres scrit alors, en appelant le pas de gradient :
X Y
y i = -----ij------------ij- [ 2 F ( Y ij ) ( X ij Y ij ) F ( y ij ) ] ( y i y j ) .
ji
Y ij
Une condition doit tre assure afin dassurer la convergence de ladaptation. Il faut en effet que le terme
ij = 2F(Yij) (Xij Yij)F(Yij) soit positif. En effet, si Yij est trop grand par rapport au terme Xij, le point
j doit tre rapproch du point i. Les fonctions F(Yij) doivent tre choisies de faon assurer la condition
ij > 0. Cette condition est difficile remplir : par exemple, pour F(Yij) = e Y ij , la stabilit de ladapta-
tion implique > (Yij Xij)2. Cette condition ne peut pas tre toujours vrifie en raison de la dcrois-
sance du rayon au cours de lapprentissage. Une solution qui permet dassurer la condition, et qui
simplifie la rgle dadaptation, est la fonction chelon translate du rayon et vrifiant (presque partout)
la condition ij = 2 > 0. La rgle dadaptation se simplifie :
X Y
y i = -----ij------------ij- ( y i y j ) si Yij < et 0 sinon.
ji
Y ij
Complments de mthodologie pour la modlisation
213
CHAPITRE 3

La contribution des n 1 points j sur le point i entrane un effet de a b y1


moyenne. Dans certaines situations, cela peut mener des blocages.
La figure 3-7 prsente ci-aprs en donne un exemple. x2 x3
y2 y3
Dans lespace dentre (a), le point i = 1 se situe au milieu des trois
autres. Dans lespace de sortie (b), les conditions initiales lont plac x1
lextrieur des trois points. Avec la rgle exacte, le point 3 dans
lespace de sortie sera bloqu par les points 2 et 3. Le point 1 ne x4 y4
pourra donc pas atteindre la position optimale au milieu des trois
Figure 3-7. Exemple dun blocage.
autres.
Pour rsoudre ces problmes de blocage, Demartines a propos une
rgle empirique simple. Au lieu dadapter le point i en fonction des autres points, la nouvelle rgle
consiste adapter tous les autres points en fonction du point retenu i :
X Y
y j = -----ij------------ij- ( y j y i ) si Yij < et 0 sinon.
Y ij
Cette version stochastique du gradient permet, dans une certaine mesure, de pallier les problmes des
minima locaux, tout en assurant en moyenne une minimisation de la fonction de cot.

Mise en uvre de lanalyse en composantes curvilignes


La mise en uvre de la mthode requiert que lon choisisse
les pr-traitements sur les donnes xij,
les valeurs initiales des composantes yij,
une loi de dcroissance sur le paramtre .
Compte tenu de la mtrique utilise pour le calcul des distances, et pour les mmes raisons que dans le cas
de lACP, les pr-traitements adapts correspondent une rduction de chaque composante afin dunifor-
miser leur importance dans le calcul des distances. Bien que cela ne soit pas vraiment ncessaire, on
pourra galement centrer les donnes pour avoir des reprsentations graphiques autour de lorigine.
Comme dans les cartes de Kohonen, les composantes yij des units dans lespace de sortie sont initialises
alatoirement. Pour uniformiser leur rpartition, on utilise sur chaque composante une loi uniforme dans
lintervalle [-1,1]. Compte tenu du calcul comparatif des distances euclidiennes Xij et Yij values
respectivement dans des espaces de dimensions diffrentes, p et q, la comparaison des distances est
biaise. Pour pallier ce problme, notamment pour des taux de rduction de dimension importants, la
rgle prconise consiste valuer des distances moyennes par rapport la dimension de lespace :
p q

( xik x jk ) ( yik y jk )
2 2

X ij = k---------------------------------
=1 - Y ij = k---------------------------------
=1 - .
p q
Le choix du paramtre a une influence importante sur la qualit de la projection. Au cours des premires
itrations, tous les points yi dans lespace de sortie doivent contribuer au critre. La rgle consiste fixer
la valeur initiale du paramtre au maximum des distances Yij :
(0) = Max ij Y ij .
La valeur finale du rayon doit correspondre la plus petite valeur souhaite sur les Yij, cest--dire la plus
petite des valeurs Xij :
Lapprentissage statistique
214

(tmax) = Min ij X ij .
Le paramtre suit une loi dcroissante en fonction du nombre t ditrations de la valeur initiale (0) la
valeur finale (tmax) :
t t max
( t max )
(t) = (0) ---------------- .
(0)

Qualit de la projection
Un des points forts des travaux de Demartines porte sur le critre qui permet le contrle de la projection.
Ce critre est fond sur la comparaison des valeurs Xij et Yij correspondant aux distances entre points,
distances calcules respectivement dans lespace dorigine et dans lespace rduit. Les distances sont
reprsentes dans un plan dx-dy par un point dabscisse dx = Yij et dordonne dy = Xij. Les points proches
de la droite dx = dy correspondent des distances voisines. La dformation due la rduction est donc
proportionnelle la distance moyenne des points la droite dx = dy. La figure 3-8 montre la distribution
moyenne des distances pour lexemple de la demi-sphre et sur celui de la sphre.
Sur des varits non
linaires illustres par ces
exemples, la projection va
ncessairement loigner
certains points. Cest le cas
de la carte du globe terrestre
obtenue par la projection de
Mercator. La projection
occidentale spare les
ctes du dtroit de Bring.
Dans le plan dy dx, le
nuage des points a une
forme en cloche : des points
proches dans lespace Figure 3-8. Distribution des distances dans le plan (dy dx) pour la demi-sphre et la sphre.
dorigine (dx petit) vont se
trouver loigns (dy grand) dans lespace de projection. La forme en cloche apparat nettement dans le cas de
la projection de la sphre, o le dpliage a spar les points situs sur le grand diamtre (figure 3-5). Le contrle
de la projection consiste vrifier que cette forme en cloche prserve au maximum la topologie locale : si deux
points sont proches dans lespace rduit, ils le sont ncessairement dans lespace dorigine.

Difficults prsentes par lanalyse en composantes curvilignes


Avant de passer lapplication, notons nanmoins les problmes poss par lutilisation de lACC. Le
premier problme est celui du temps de calcul. Les distances entre points doivent tre calcules. Si le
nombre de points est trop important, lACC ne peut pas tre applique directement aux donnes. Une
tape de quantification pralable est ncessaire pour rduire le nombre dexemples.
Le second problme porte sur lutilisation en ligne de lACC. Contrairement lACP, les composantes
rduites ne peuvent pas tre calcules directement. Elles sont obtenues dune manire itrative par une
descente de gradient. Prcisons le mode opratoire de lACC. Notons x0 une nouvelle entre ; cherchons
dterminer les composantes y0 associes. Lalgorithme consiste initialiser les composantes y0 par le
Complments de mthodologie pour la modlisation
215
CHAPITRE 3

barycentre des 3 ou 4 points yk correspondant aux points xk les plus proches de x0. Le calcul de la projec-
tion y0 est obtenu par le mme algorithme :
X Y
y 0 = -----i--0------------i----0 ( y 0 y j ) si Yi0 < et 0 sinon.
ji
Yi 0
Cette mthode dinitialisation des composantes du point projet parat trs efficace ; la convergence est
obtenue en quelques itrations (moins dune dizaine) [PILATO 1998].

Application en spectromtrie
Lapplication prsente ci-aprs a t ralise au Centre dtudes de Saclay [PILATO 1998]. Elle porte sur
la mesure de la concentration de matires radioactives. Le contrle dinstallations nuclaires (centrales,
usines de retraitement) exige que lon mesure des concentrations de certaines matires radioactives. Des
mesures de concentration sont effectues sur des solutions issues des circuits deau des installations. Une
des techniques utilises est la fluorescence X, qui permet de raliser des analyses rapides et non destruc-
tives directement partir de cruchons de prlvement ou sur canalisations. La fluorescence X consiste
exciter la matire concerne, puis analyser les spectres des photons issus des dsactivations.
La figure 3-9 montre un exemple de 40000
spectre obtenu par fluorescence X sur un
cruchon contenant de luranium 235 et du 35000
thorium. Les pics caractrisent la prsence
30000
et la concentration de ces deux lments.
Dans notre application, chaque spectre est 25000
quantifi sur 4096 valeurs dnergie.
Chaque valeur en ordonne correspond au 20000
nombre de photons qui sont compts sur
15000
un niveau dnergie donn.
Les mthodes classiques danalyse de spec- 10000
tres reposent sur des modles physiques, qui
5000
tablissent des corrlations entre la propor-
tion dun lment et lintgrale autour des 0
pics correspondant certaines raies de 0 500 1000 1500 2000 2500 3000 3500 4000 4500
llment analyser. La physique ici est Figure 3-9. Exemple de spectre.
relativement complexe : chevauchement des
pics, effets parasites ou bruit de mesures. La mthode est fonde sur une analyse locale des phnomnes. Lesti-
mation des concentrations est effectue partir de calculs effectus sur des donnes du spectre centres autour
des raies.
Lapproche par ACC est diffrente. Elle repose sur une analyse globale de la courbe. Le spectre est consi-
dr en tant qulment dun espace 4096 composantes. Dans cet espace R4096, les surfaces de rparti-
tion des points spectres ont une dimension intrinsque gale 2. En effet, la varit des spectres est
obtenue en ne faisant varier que deux paramtres : la concentration duranium et celle du thorium. Une
rduction de dimension de R4096 R2 sest avre adapte au problme : linformation perdue par
projection nest pas discriminante pour la mesure des concentrations.
La base dexemples comprend 60 spectres. Chaque spectre comprend 4096 composantes. La matrice de
lchantillon des donnes est de dimension 60 4096. La rduction par ACC consiste donc transformer
cet chantillon en une matrice 60 2.
Lapprentissage statistique
216

La figure 3-10 visualise, dans lespace rduit deux dimensions, lensemble des exemples. Nous avons
volontairement maill la reprsentation en visualisant la topologie spatiale de la quantification ralise par
les exprimentateurs sur les valeurs des concentrations duranium et de thorium.
La projection obtenue par ACC a la mme topologie que la quantification exprimentale. Les concentra-
tions duranium et de thorium ont t quantifies sur le produit cartsien [(u1, u2, , u6) (t1, t2, , t10)].
En ralit, on constate, en y regardant de plus prs, quil manque un essai. En effet, la base ne comportait
que 59 spectres. On retrouve figure 3-10 la donne manquante dans la projection ACC.
Lexemple illustre lintrt de lACC : en dpit de
combinaisons non linaires de plusieurs effets sur
les spectres, la rduction permet de faire apparatre

Concentration Thorium
100
la dimension intrinsque des donnes, celle de la
variation par rapport la concentration du thorium
et celle relative luranium. partir des spectres
rduits, lestimation des concentrations en 10
uranium et en thorium nest plus un problme
difficile : une rgression laide dun petit rseau
de neurones, voire une simple interpolation
linaire, suffisent amplement. 1
1 10
Applique des problmes plus complexes, Concentration Uranium
lorsque la dimension intrinsque nest pas aussi 50
vidente, on peut procder dune manire itrative
40
en augmentant, si cest ncessaire, le nombre de
composantes de lespace de projection, tout en 30
contrlant la prservation de la topologie locale 20
sur la bissectrice pour les petites distances.
10

0
Le bootstrap et les rseaux -10
de neurones -20

-30
Cette dernire partie prsente une nouvelle approche -30 -20 -10 0 10 20 30 40
qui permet dautomatiser la construction et lappren-
tissage des rseaux de neurones. Elle sarticule Figure 3-10. Quantification exprimentale
autour de la mthode statistique du bootstrap et de la Reprsentation par ACC.
technique de larrt prmatur ou early stopping
(cette dernire technique est prsente dans le chapitre 2). Lorientation prise est donc celle qui consiste
utiliser des rseaux suffisamment complexes, puis les rgulariser par arrt de lapprentissage. Avec bootstrap,
il est possible dvaluer avec efficacit la variabilit du rseau, et de son erreur par rapport aux donnes. Associ
larrt prmatur, il permet le contrle de lapprentissage en optimisant automatiquement le nombre de cycles
ncessaire, tout en fournissant les caractristiques statistiques de lerreur de gnralisation.
Le bootstrap, propos par [EFRON 1993], est une technique aujourdhui trs tudie dans le cadre de
linfrence statistique, notamment pour les tests dhypothses et lestimation des intervalles de confiance.
Elle ne ncessite aucune hypothse a priori sur les lois de distribution. Appliqu la rgression, le boots-
trap permet destimer les caractristiques statistiques de lcart entre lerreur dapprentissage et celle de
gnralisation. Lapproche est particulirement adapte aux problmes pour lesquels les chantillons
dexemples sont de petite taille. Cest le cas notamment du calcul scientifique et de la simulation de
Complments de mthodologie pour la modlisation
217
CHAPITRE 3

systmes complexes. partir dune base de calculs, des fonctions analytiques sont construites par rgres-
sion ou interpolation, afin dtre utilises en lieu et place de modules plus coteux en temps de calcul.
Dans le chapitre prcdent, nous avons soulign limportance de la validation des modles (estimation de
lerreur de modlisation, dintervalles de confiance, etc.) dans le cadre gnral de la modlisation, notam-
ment non linaire. Dans le type dapplications susmentionnes (remplacement dun code de calcul complexe
par une rgression partir de donnes engendres par ce code), la problmatique est exactement la mme,
ceci prs que les donnes issues de calculs ne sont gnralement pas bruites. On va donc prsenter cette
approche qui peut tre substitue celles qui ont t dveloppes dans le chapitre prcdent.

Principe du bootstrap
Nous allons illustrer le principe du bootstrap sur lexemple du calcul de lintervalle de confiance de
lesprance dune variable alatoire. Lexemple tir de [WONNACOOT 1990] a simplement pour objet de
montrer clairement le principe du bootstrap. En effet, pour cet exemple, lintervalle de confiance de
lesprance dune variable alatoire est parfaitement dtermin partir de la moyenne et de la variance
calcules sur lchantillon (vu au chapitre 2). Ce rsultat dcoule du thorme de la limite centrale, selon
lequel la distribution de la moyenne dun chantillon converge assez rapidement vers une loi normale.
On considre un chantillon de la variable alatoire compos de n = 10 observations : x = (16, 12, 14, 6,
10
x
43, 7, 0, 54, 25, 13). La moyenne de lchantillon est X = ------i
i = 1 10
= 19.0 et son cart-type est
10

( xi 19.0 )  9
2
S= = 17.09 . Lintervalle de confiance de lesprance 95 % est :
i=1

s 17.09
= X t .025 ------- = 19.0 2.26 ------------ 19 12 7 < < 31
n 10

Lintervalle de confiance peut tre galement calcul par bootstrap. Il est alors obtenu par lalgorithme
suivant.
partir de lchantillon initial, on simule de nouveaux chantillons, appels rpliques , de taille n, par
tirages alatoires avec remise. Prenons par exemple lchantillon initial dfini prcdemment x = (16, 12,
14, 6, 43, 7, 0, 54, 25, 13). Par tirages alatoires avec remise, on obtient ainsi la rplique suivante x* = (54,
0, 16, 7, 43, 54, 0, 25, 25, 6), dans laquelle certaines valeurs de lchantillon initial ne figurent pas, et o
dautres apparaissent plusieurs fois. Plusieurs chantillons sont ainsi simuls. Pour chaque chantillon
simul, une moyenne est calcule. Lintervalle de confiance 95 % est dfini sur cet ensemble de
moyennes. La simulation donne :
9 < < 26

On note que lintervalle obtenu par bootstrap est pratiquement identique lintervalle de confiance 95 %
calcul prcdemment et issu du thorme central limite.

Gnralit du bootstrap

Le bootstrap ne fait appel aucune hypothse sur la distribution statistique sous-jacente ; do sa


gnralit et sa puissance.
Lapprentissage statistique
218

Le bootstrap peut donc tre appliqu tout estimateur autre que la moyenne, tel que la mdiane, le coeffi-
cient de corrlation entre deux variables alatoires ou la valeur propre principale dune matrice de variance-
covariance. Pour ces estimateurs, il nexiste pas de formule mathmatique qui dfinisse lerreur standard ou
lintervalle de confiance. Les seules mthodes applicables sont les mthodes dites de r-chantillonnage qui
procdent par simulation dchantillons comme le bootstrap ou le jackknife [EFRON 1993].

Algorithme du bootstrap pour calculer un cart-type


Soit une variable alatoire X obissant une loi de distribution F. On souhaite estimer un paramtre de
F. Le paramtre est estim partir dun n-chantillon x = (x1, x2, , xn). On note F la distribution
empirique, et = s(x) lestimation de ralise partir de lchantillon x. En voici lalgorithme :
Algorithme du bootstrap pour calculer un cart-type
1. Slectionner B n-chantillons bootstraps x*1, x*2, x*B, chacun tant obtenu partir de lchan-
tillon initial x par n tirages alatoires avec remise.
2. Calculer pour chaque n-chantillon bootstrap, une rplique de lestimation de par
( b ) = s (x*B) b = 1,2, , B.
3. Estimer lcart-type partir de lerreur standard calcule sur lensemble des rpliques :
B
(.) = *(b)B
*

b=1
B

( ( b ) ( . ) ) B 1.
2
B =
2 * *

b=1

Un des thormes dmontrs par Efron porte sur la consistance de lestimateur bootstrap. Lestimation
B converge vers lcart-type F ( ) du paramtre valu sur la distribution de lchantillon :
*

lim B = F
B

Cet algorithme peut sappliquer tout estimateur. Prenons lexemple du calcul de la valeur propre princi-
pale lors dune ACP. Elle correspond la plus grande valeur propre de la matrice de variance-covariance
XTX des observations Xnp. Le bootstrap consiste simuler des rpliques X*np obtenues par n tirages ala-
toires des lignes de la matrice Xnp. Puis la statistique (moyenne et cart-type) pourra tre tablie sans
difficult. On voit ici la puissance de la mthode et sa facilit de mise en uvre. On comprend aussi que
cette mthode nait pas t trs utilise par le pass, en raison du nombre de calculs ncessaires : 50 200
rpliques suffisent estimer une moyenne, mais plusieurs milliers de rpliques sont ncessaires si lon
souhaite dterminer des intervalles de confiance.

Lerreur de gnralisation estime par bootstrap


Nous avons insist, dans le chapitre prcdent, sur la ncessit destimer lerreur de gnralisation, et
nous avons prsent lestimation par leave-one-out. La technique du bootstrap autorise galement une
estimation de cette erreur. Le principe en est le mme : il consiste simuler B bases bootstrapes .
Chaque base simule peut contenir plusieurs fois le mme exemple, en raison du tirage avec remise.
Loi binomiale des bases bootstrapes
chaque tirage, tous les exemples ont la mme probabilit p=1/n, en notant n le nombre dexemples. Le nombre dapparitions dun
exemple dans une base bootstrape suit donc une loi binomiale B(n, p = 1n). La probabilit quun exemple apparaisse k fois est donne
par P(k) = Ckn pk (1 p)n k [SAPORTA 90].
Complments de mthodologie pour la modlisation
219
CHAPITRE 3

La probabilit quun lment napparaisse pas dans la base bootstrape est donc P(0) = (1 1n)n. Pour
n suffisamment grand P(0)n = e 1 0.368. En moyenne, 37 % des exemples ne seront pas utiliss en
apprentissage.

Statistique de lerreur de gnralisation

Lcart entre lerreur dapprentissage calcule sur la base bootstrape et lerreur de test value sur la
base initiale est considr comme une variable alatoire reprsentative de lcart entre lerreur
dapprentissage et lerreur de gnralisation.

Une statistique est faite sur lensemble de ces carts (un par base bootstrape) afin destimer la loi de
distribution de lcart entre lapprentissage et lerreur de gnralisation.

Soient B la base initiale des exemples et B*b, b = 1, , N lensemble des rpliques. Dsignons par *b
lerreur dapprentissage du rseau entran sur la rplique k, et par b lerreur du mme rseau calcule sur
la base initiale B. Lcart b = b *b entre les deux erreurs peut alors tre considr comme une variable
alatoire reprsentative du phnomne de surapprentissage. Cet cart peut tre considr comme le biais
qui apparat sur lestimation de lerreur de gnralisation par lerreur dapprentissage. Lesprance et
la variance du biais peuvent alors tre estimes sur lensemble des valeurs b :
B B
1 1
= --- b = ------------ ( b ) .
2 2
b = b b*
B B1
b=1 b=1

La mthode NeMo
Lalgorithme propos prcdemment a t programm dans le logiciel NeMo. Le bootstrap y est associ
larrt prmatur de lapprentissage early stopping) afin dautomatiser le contrle de lapprentissage du
rseau.

Outil NeMo
NeMo est un outil dvelopp au Centre dtudes de Saclay au dpartement de modlisation de systmes et structures partir du simula-
teur SNNS (Stuttgart Neural Network Simulator) disponible sur http://www-ra.informatik.uni-tuebingen.de/SNNS, visant simpli-
er les tches dapprentissage et de test des rseaux de neurones.

Lutilisateur fixe a priori le nombre de cycles dapprentissage Nc et le nombre B de rpliques. NeMo


effectue un nombre B dapprentissages en sauvegardant chaque cycle lerreur quadratique moyenne
dapprentissage et de test. Cet outil analyse ensuite les profils respectifs des erreurs dapprentissage et de
test pour choisir la valeur du nombre de cycles la plus approprie.

Lerreur quadratique moyenne EQMr est calcule sur les variables de sortie (estimes et dsires) centres
et rduites. Lanalyse de lerreur porte donc sur la part de la variance non explique par le modle ou coef-
ficient dindtermination introduit au chapitre sur les pr-traitements des sorties.

Avant de donner le dtail de la mthode, dsignons par j le rang de la rplique et par i litration sur le
nombre de cycles ; les erreurs quadratiques moyennes dapprentissage et de test sont reprsentes par les
deux tableaux suivants :
Lapprentissage statistique
220

1*1 1*2  1*B 11 12  1B


2*1 2*2  2*B 21 22  2B
     
Nc
*1 *2  *B
Nc Nc Nc
1 2  B
Nc Nc













erreur dapprentissage erreur de test

Aprs cette phase, NeMo dtermine le nombre de cycles selon une heuristique rappelant la thorie des
jeux. Un premier joueur pessimiste se place, pour chaque valeur du nombre de cycles, dans la pire des
situations sur lerreur de test :
Max b
i = Max b { i } .
Le second joueur dtermine alors le nombre de cycles de faon minimiser la pire des situations obte-
nues, cest--dire celle qui correspond lerreur de test maximale :
optimal b
Nc = Arg i { Min i } .
optimal
Cette stratgie sur le choix de N c peut tre assouplie en ne retenant quune fraction de lensemble
des B apprentissages. Pour la rendre plus robuste, il suffit en effet dexclure les cas extrmes ( outliers ),
cest--dire les situations dapprentissage trs diffrentes de la moyenne. Par dfaut, NeMo dtermine le
nombre de cycles optimal sur le 90e percentile de lerreur de test.

Percentile

Le me percentile correspond lintervalle constitu des valeurs pour lesquelles la fonction de rpar-
tition est infrieure : une fraction (1 ) des valeurs maximales est exclue.

Lestimation du nombre optimal de cycles peut galement tre faite par la mthode du tri mdian, plus
stable mais plus risque car rejetant a priori 25 % des cas : le dernier quartile correspond aux erreurs de
test les plus importantes.

Quartile

En notant F la fonction de rpartition, les 1er et 3e quartile Q1 et Q3 et la mdiane Q2 sont respective-


ment dfinis par F(Q1) = 0,25, F(Q2) = 0,5, F(Q3) = 0,75.

Tri mdian

Le tri mdian correspond 0,25 Q1 (1er quartile) + 0,5 Q2 (2e quartile ou mdiane) + 0,25 Q3 (3e quartile).

Aprs avoir dtermin le nombre de cycles optimal selon une des stratgies, NeMo lance un nouvel
apprentissage fond sur la totalit des exemples, avec, pour nombre de cycles, le nombre de cycles opti-
optimal
mis N c dfini ltape prcdente. Pour ce dernier apprentissage, les mmes paramtres dappren-
tissage sont utiliss : la valeur initiale et la loi de dcroissance du pas dadaptation. En notant a lerreur
moyenne calcule sur la base initiale, et la valeur moyenne du biais, lerreur de gnralisation est
estime par :
g = a + .
Complments de mthodologie pour la modlisation
221
CHAPITRE 3

Dune faon plus gnrale, la fonction de rpartition de lerreur de gnralisation est estime par la fonc-
tion empirique de rpartition du biais translate de la valeur a. On remarque lapport du bootstrap associ
au early stopping par rapport la validation croise :
une certaine automatisation dans la construction du rseau en adaptant le nombre de cycle du early stop-
ping,
une plus grande estimation de la variabilt du modle par rapport au jeu de donnes,
estimation des intervalles de confiance (marges, incertitudes),
lutilisation de lensemble des exemples pour construire le rseau.
Notons enfin que NeMo peut contrler ladquation du modle aux donnes : si le nombre de cycle opti-
mis est trop proche du nombre de cycle maximal fix par lutilisateur, lerreur de test ne passe pas par un
minimum ; lutilisateur devra alors accrotre la complexit du rseau (nombre de neurones cachs) ou
augmenter le nombre de cycles dapprentissage.

Test de la mthode NeMo


Dans ce qui suit, nous montrons les rsultats dune exprience visant valider la mthode. Le test consiste
comparer lerreur moyenne estime par NeMo lerreur relle. Lerreur relle est approche selon le
principe de la mthode de Monte-Carlo, cest--dire en effectuant un trs grand nombre de calculs de
lerreur quadratique moyenne, puis en effectuant sa moyenne. Nous avons mis en uvre NeMo sur
lapproximation de deux fonctions analytiques non linaires :
8(x) fonction de R8 R
12(x) fonction de R12 R
Nous avons choisi ces superviseurs de faon valuer la mthode sur des problmes dapproximations de
fonctions suffisamment complexes (grande dimension de lespace dentre). laide de ces deux super-
viseurs, nous avons cr plusieurs bases dexemples en faisant varier le nombre dexemples de 100 1500
par pas de 100. La loi de distribution retenue pour les entres a t la loi uniforme sur lintervalle [-1,1].
Les rseaux modles retenus sont des rseaux non boucls 1 couche cache. Les units dentre et de
sortie sont associes la fonction dactivation identit, et les units caches la fonction dactivation
logistique. Pour les bases cres par le premier superviseur 8, 5 rseaux modles ont t proposs
NeMo comprenant respectivement 4, 6, 8, 10 et 12 units cachs. Pour les bases engendres par le second
superviseur 12 (espace dentre plus complexe), 6 rseaux ont t tests comprenant respectivement 10,
14, 18, 22, 26 et 30 units en couche cache.
Grande dimension
noter la trs faible densit des points dans R12 ; 1500 points dans R12 correspondent un nombre moyen infrieur 2 par axe :
d 12 = 1 500 d 1,8.

Lerreur relle est obtenue partir de 106 tirages alatoires en utilisant la mme loi de gnration des
entres (loi uniforme) et en calculant lerreur moyenne quadratique rduite EQMr entre la sortie dsire
et la sortie estime.
Ci-aprs, les figures prsentent la comparaison (en chelle log-log) de lerreur EQMr vraie (en
abscisse) lerreur estime (en ordonne) par NeMo. Les points visualiss correspondent aux diffrents
rseaux lves construits sur lensemble des bases dexemples. Chaque rseau a t entran 15 fois sur
des bases dexemples comprenant respectivement 100, 200, , 1500 exemples.
Lanalyse de lensemble des rsultats illustrs par les figures 3-11 et 3-12 fait apparatre les proprits
essentielles de la mthode NeMo :
Lapprentissage statistique
222

lerreur de gnralisation est estime avec prcision, mme dans les cas complexes (grand nombre
dentres + faible nombre dexemples) ;
le bootstrap permet dautomatiser la rgularisation du rseau aux donnes par contrle de larrt de
lapprentissage.
Les figures 3-11 et 3-12 font en effet apparatre des estimations de lerreur de gnralisation trs proches
des valeurs exactes. Les faibles valeurs de lerreur correspondent aux apprentissages raliss avec les
bases dexemples qui en comportent suffisamment. Pour ces cas, lerreur estime en ordonne est quasi
gale lerreur vraie en abscisse.
Il faut noter une lgre surestimation sur 4 cas parmi 75 entre les valeurs 0,01 et 0,02 pour le cas 8 (figure
3-11) et une moindre prcision sur le cas plus complexe 12 (figure 3-12). Pour ce dernier cas, la rgres-
sion porte sur une relation de R12 R avec un maximum de 1500 points pour reprsenter la relation. Il
apparat une surestimation de lerreur pour les faibles valeurs et une sous-estimation pour les valeurs
suprieures 0,2. Nanmoins, malgr la grande dimension de lespace dentres, la relation de R12 dans
R est correctement modlise partir de quelques centaines dexemples.

1
Figure 3-11. R8_4_1
Gnrateur 8. R8_6_1
R8_8_1
R8_10_1
R8_12_1

0.1
Erreur estime par NeMo

0.01

0.001
0.001 0.01 0.1 1
Erreur fonctionnelle
Complments de mthodologie pour la modlisation
223
CHAPITRE 3

1
R12_10_1
Figure 3-12. R12_14_1
R12_18_1
Gnrateur 12. R12_22_1
R12_26_1
R12_30_1
Erreur estime par NeMo

0.1

0.01
0.01 0.1 1
Erreur fonctionnelle

Conclusions
Plusieurs points peuvent tre tirs de cette tude.
Les rseaux construits automatiquement sont suffisamment bien rgulariss, mme dans les cas les plus
difficiles lorsque le nombre dexemples est faible. La statistique apporte par le bootstrap permet le
contrle automatique de larrt prmatur de lapprentissage et fournit une statistique robuste de lerreur
de gnralisation.
Le deuxime point est li au problme de la dimension de lespace dentre. Mme dans lexemple de
la relation de R12 dans R, quelques centaines de points suffisent la reprsentation de la relation. Dans
de nombreux problmes, des relations non linaires peuvent ainsi tre facilement approches partir
dune densit dexemples faible. noter qu partir dun certain niveau de complexit, les rseaux cons-
truits et rgulariss sur un mme chantillon semblent quivalents. Des rseaux diffrents peuvent tre
adapts pour reprsenter la mme relation.

Dans le cadre de la thorie de lapprentissage statistique, la rgularisation des modles peut tre contrle
et donc optimise par bootstrap. Cette voie est approcher des mthodes plus formelles fondes sur la
thorie propose par [VAPNIK 1995], lenjeu tant ladaptation des capacits calculatoires (dimension VC)
du modle aux donnes. Dans ce cadre, les mthodes statistiques de r-chantillonnage apportent de
relles solutions par leur facilit de mise en uvre et surtout, reconnaissons-le, par les puissances de
calculs aujourdhui disponibles sur nos bureaux.
Lapprentissage statistique
224

Bibliographie
CICHOKI A., UNBEHAUEN R. [1993], Neural Networks for Optimization and Signal Processing, Wiley,
1993.
DEMARTINES P. [1995], Analyse de donnes par rseaux de neurones auto-organises, thse de lInstitut
national polytechnique de Grenoble.
DAVAUD Patrick [1991], Traitement du signal. Concepts et applications, Herms, 1991.
EFRON Bradley, TIBSHIRANI Robert J. [1993], An Introduction to the Bootstrap, Chapman & Hall, 1993.
HRAULT Jeanny, JUTTEN Christian [1993], Rseaux de neurones et traitement du signal, Herms, 1993.
PILATO Vincent [1998], Application des rseaux de neurones aux mthodes de mesure bases sur linte-
raction rayonnement matire, thse Universit Paris-Sud, 4.11.1998.
SAPORTA Gilbert [1990], Probabilits. Analyse des donnes et statistique, ditions Technip, 1990.
VAPNIK Vladimir N. [1995], The Nature of Statistical Learning Theory, Springer, 1995.
VIGNERON Vincent [1997], Mthodes dapprentissage statistiques et problmes inverses Applications
la spectrographie, thse Universit dvry-Val-dEssonne, 5.5.1997.
WONNACOOT Thomas H., WONNACOTT Ronald J. [1990], Statistique conomie-gestion-sciences-mde-
cine, Economica, 4e dition, 1990.
4
Identification neuronale de systmes
dynamiques commands et rseaux
boucls (rcurrents)

La modlisation de processus dynamiques commands, ou identification de processus , constitue une


des applications importantes des rseaux de neurones. Elle a t aborde dans le chapitre 2 ; elle est ici
dveloppe dune manire plus systmatique, et compare des mthodes similaires labores depuis de
nombreuses annes pour lidentification des processus, notamment linaires.
Nous commencerons par prsenter plusieurs exemples de systmes dynamiques commands. Nous
montrerons notamment comment ladjonction dun bruit dtat, pour modliser les incertitudes de la
modlisation, permet de considrer le modle dvolution de ltat comme une chane de Markov. Liden-
tification neuronale des processus non linaires est pour lessentiel une gnralisation non linaire de
la mthodologie bien connue de la rgression linaire. Cette dernire est dabord rappele dans la section
Identification de systmes dynamiques commands par rgressions , o nous montrons, sur des exem-
ples concrets, son application la dtermination des coefficients dun modle auto-rgressif. Lidentifica-
tion neuronale des systmes dynamiques commands apparat ainsi naturellement comme une technique
didentification par rgression non linaire. La section suivante est consacre lidentification adaptative
( en ligne ) des systmes dynamiques. partir de lidentification rcursive de modles linaires qui
constituent une gnralisation de la loi des grands nombres, nous dvelopperons la mthode de lerreur de
prdiction rcursive, qui en est la gnralisation non linaire. Les algorithmes adaptatifs didentification
seront ensuite exposs, et appliqus aux algorithmes didentification par rseaux de neurones.
Dans la plupart des applications, ltat du systme ne peut tre compltement connu, parce que certaines
variables dtats ne sont pas accessibles la mesure, et que dinvitables erreurs de mesure, ou bruit de
mesure, interviennent. Cest le rle du filtrage de reconstruire ltat dun processus dynamique partir
du rsultat des mesures. La technique du filtrage par innovation, et notamment du filtrage optimal de
Kalman, fait lobjet de la section Filtrage par innovation dans un modle dtat . Elle est employe pour
construire un algorithme dapprentissage neuronal qui peut tre utilis pour lidentification adaptative de
processus dynamiques. Enfin, les sections Rseaux neuronaux rcurrents ou boucls et Apprentissage
des rseaux de neurones rcurrents ou boucls sont consacres lutilisation et lapprentissage de
rseaux neuronaux rcurrents. Les principaux modles de rseaux boucls (Elman, Hopfield) sont cits, et
nous montrerons comment ils peuvent tre mis sous forme canonique. Nous verrons enfin comment ces
rseaux sont utiliss dans lidentification de systmes dynamiques commands.
Lapprentissage statistique
226

Formalisation et exemples de systmes dynamiques


commands temps discret

Formalisation dun systme dynamique command par lquation dtat


Le modle mathmatique dun systme dynamique est dfini par la donne dun ensemble E appel
lespace dtat du systme, et dune quation dvolution dcrivant compltement la trajectoire du
systme dans lespace dtat, une fois que ltat initial du systme est donn. Dans la plupart des
problmes qui nous intressent, lvolution est autonome, ce qui signifie que la loi de lvolution est
stationnaire. Nous nous en tiendrons ce point de vue pour simplifier les notations. Dans les problmes
de commande, la valeur de ltat au temps t + t dpend non seulement de celle de ltat au temps t mais
aussi de la valeur, au temps t, dun signal externe appel entre ou commande du systme. Dans
ce cas, nous ne dirons plus que le systme dynamique est autonome, mais quil est command.
Lensemble des commandes est not F. Conservant les notations classiques, nous noterons
ltat du systme au temps t par x(t)E
la valeur de la commande au temps t par u(t)F
Ainsi, pour dfinir compltement la trajectoire dun systme contrl du temps 0 au temps , il faut se
donner ltat initial du systme x(0) et la trajectoire de commande [u(t)]t [0, ]. Le systme de commande
a pour rle dlaborer une commande qui rapproche ltat du systme dun objectif atteindre, ou mini-
mise le cot dune trajectoire.
Remarquons que si lon adopte une loi de commande en boucle ferme, cest--dire si le contrleur
calcule la commande en fonction de ltat du systme (ou de lobservation qui en est faite), alors
lensemble (systme de commande-systme dynamique command) forme un systme dynamique auto-
nome. La synthse de lois de commande en boucle ferme et la mise au point de commandes neuronales
feront lobjet du chapitre suivant.
Dans la mesure o la majorit, voire la totalit, des applications des rseaux de neurones, met en uvre
des ordinateurs ou des circuits numriques, nous nous limiterons, dans tout cet ouvrage, aux systmes
dynamiques temps discret. Il est possible de transformer un systme dynamique temps continu en
systme dynamique temps discret en chantillonnant la trajectoire dtat du systme. Comme nous
lavons fait dans le chapitre 2, nous dsignerons par T la priode dchantillonnage, et, pour abrger, nous
noterons k le temps t = kT. Lvolution du systme dynamique command est donc dcrite par une qua-
tion dvolution du type suivant :
x(k + 1) = f[x(k), u(k)]
o f est lapplication de E F dans E permettant de passer de ltat au temps kT ltat au temps (k + 1)T.
Ce formalisme gnral englobe des problmes varis pour lesquels il existe des techniques spcifiques.
Le modle le plus classique est le modle linaire, dans lequel les espaces dtat et de commandes sont
des espaces vectoriels, A une application linaire de E dans E, B une application linaire de F dans E et
o lquation dvolution a la forme suivante :
x(k + 1) = Ax(k) + Bu(k).
Comme les modles mathmatiques ne sont quune approximation plus ou moins grossire de lvolution
physique, on peut tenir compte, dans le modle, de limperfection de cette approximation, en introduisant
dans lvolution un terme alatoire. Ce terme est souvent appel un bruit dtat.
Identification neuronale
227
CHAPITRE 4

Par exemple, dans le modle linaire stationnaire, on reprsente lerreur de modle par un bruit additif
gnralement blanc et gaussien, et lquation dvolution a la forme
x(k + 1) = Ax(k) + Bu(k) + v(k+1)
o les v(k) sont des vecteurs alatoires gaussiens indpendants normaux centrs (esprance 0) de matrice
de variance-covariance G.
Dans ce cas, la trajectoire dtat est alatoire et sappelle un processus stochastique. On va maintenant
donner quelques exemples de systmes dynamiques commands qui nous serviront dillustrations tout au
long de ce chapitre.

Exemple dun systme dynamique espace dtat discret


Considrons dabord lexemple dun systme dynamique espace 11 12 E 13 14 15
dtat discret. On a reprsent sur la figure 4-1 limage dun laby- S
rinthe 18 cases possibles. 21 22 23 24 25
Lespace dtat peut donc tre lespace 18 lments {12, 13, 14, 15,
21, 22, 24, 32, 33, 34, 35, 41, 42, 44, 52, 53, 54, 55}. Lensemble des 31 32 33 34 N 35
commandes peut tre lespace des quatre directions {N, O, S, E} et la O
dynamique donne par lapplication naturelle qui, la position et 41 42 43 44 45
une commande de cap, associe ltat correspondant sil est accessible,
et ltat initial sil ne lest pas : 51 52 53 54 55
f (12, N) = 12, f (13, N) = 13, , f (21, N) = 21, f (22, N) = 12,,
f (12, O) = 12, f (13, O) = 12,, f (21, O) = 21, f (22, O) = 21,,
Figure 4-1. Schma de labyrinthe.
f (12, S) = 22, f (13, S) = 13,, f (21, S) = 21, f (22, S) =32,,
f (12, E) = 13, f (13, E) = 14,, f (21, E) = 22, f (22, E) = 22,,
Dautres rgles peuvent tre choisies, auxquelles correspondent des reprsentations dtat diffrentes du
problme. Il peut tre raliste de considrer que ltat dun robot est caractrise non seulement par sa
position, mais aussi par son cap. Dans notre exemple, lespace dtat aurait alors 18 4 = 72 lments et
lon dfinirait un ensemble de commandes trois lments (A : Avance, G : Cap gauche, D : Cap
droite).
Les logiciels de recherche dans des bases de donnes et sur le rseau doivent rsoudre ainsi de plus en plus
de problmes que lon peut formaliser comme des problmes de navigation dans un graphe o lespace
dtat discret est constitu par lensemble des sommets du graphe.

Exemple dun oscillateur linaire


Considrons maintenant loscillateur harmonique classique, gouvern par lquation diffrentielle du
second ordre :
d2x
= x .
dt 2
On remarque dabord que lquation diffrentielle ne nous fournit pas une reprsentation dtat car elle
est du second ordre. La reprsentation dtat temps continu associe lquation prcdente est :
d x1 x 2
=
dt x 2 x1
Lapprentissage statistique
228

o ltat comporte la position du mobile x1 et sa vitesse x2. Pour obtenir une volution temps discret,
nous devons intgrer lquation diffrentielle sur la priode dchantillonnage T. Ici, lquation diffren-
tielle linaire sintgre exactement et la fonction f qui associe ltat au temps t ltat au temps t + T peut
tre crite analytiquement. Comme ce ne sera gnralement pas le cas dans les modles considrs ici ou
dans la plupart des applications, il faudra tendre vers lvolution en utilisant un algorithme approch de
rsolution de lquation diffrentielle (algorithme de Runge-Kutta par exemple [DEMAILLY 1991]).
Pour commander le systme, nous ajoutons une commande scalaire additive de vitesse u.
Par exemple, pour fixer les ides, dans le cas prcdent, on obtient facilement lexpression de la drive
seconde de ltat par :
d2 x1 x1
x = x
dt 2 2 2
cela permet dcrire lapproximation de Taylor au second ordre de lvolution de ltat :
x1 x1 d x1 T 2 d 2 x1 0
x (t + T ) = x (t ) + T (t ) + 2 (t ) +
2 2 dt x 2 2 dt x 2 u(t )

On obtient ainsi le systme dynamique linaire command temps discret :


T2
x1(k + 1) x1(k) x1(k) + Tx2(k) x (k)
2 1
=f =
x2(k + 1 x2(k) T2
x2(k) Tx1(k) x (k) + u (k)
2 2

dont les trajectoires approchent lchantillonnage de celles du systme dynamique temps continu.

Exemple du pendule invers


Considrons maintenant le systme dynamique non linaire que lon
appelle pendule invers car on considre sa position dquilibre instable
comme position de rfrence. Le schma du montage est reprsent sur la
figure 4-2.
Lquation diffrentielle de ce systme contrl est :
d 2 d
--------2 = g sin ( ) k ------ + u Figure 4-2.
dt dt Schma du
u pendule
Sa reprsentation dtat temps continu est : invers.
d x1 x2 0
= + .
dt x 2 g sin x1 kx 2 u
On remarque que lespace dtat nest pas vraiment un espace vectoriel puisque langle nest dfini qu
2 prs. En fait, le problme physique na de sens que dans un certain domaine de viabilit qui est un inter-
valle. On nexplicite pas le schma de discrtisation donn par un des solveurs dquation diffrentielle qui
sont largement disponibles. Les simulations de ce chapitre ont t effectues avec le logiciel Matlab.
Identification neuronale
229
CHAPITRE 4

Exemple dun oscillateur non linaire : loscillateur de Van der Pol


Un autre exemple doscillations indsirables dans les systmes physiques est celui doscillations stables
en rgime libre. Il sagit dun phnomne dynamique typiquement non linaire bien modlis par lqua-
tion de Van der Pol, qui est une quation diffrentielle non linaire :
d2x dx dx
2 z 0 + 0 2 x + 3kx 2 = u.
dt 2 dt dt
Le paramtre z mesure lamortissement du systme et 0 est la frquence propre de loscillateur. La repr-
sentation dtat de la dynamique est deux dimensions :
d x1 x2 0
= 2 z x 2 x + 3kx 2 x + .
dt x 2 0 2 0 1 1 2 u
On remarque que le systme est linaire par rapport la commande. La dynamique du systme libre
(u = 0) dans lespace dtat deux dimensions a pour attracteur un cycle limite : cela signifie que, quel
que soit ltat initial, la trajectoire senroule autour dune trajectoire priodique privilgie : le cycle
limite. Ce phnomne est illustr par la figure 4-3.
Cycle-limite de lquation de Van Der Pol Trajectoire de lquation de Van Der Pol
Figure 4-3.
non commande commande par une entre alatoire
Trajectoire
3 3
dun oscillateur
de Van der Pol.
Dans la figure 2 2
(a), on observe
un cycle limite. 1 1
Dans la figure
(b), la trajec- 0 0
toire est
perturbe par 1 1
une entre
alatoire. 2 2

3 3
2 1.5 1 0.5 0 0.5 1 1.5 2 2.5 2 1.5 1 0.5 0 0.5 1 1.5 2 2.5

Introduction dun bruit dtat dans un systme dynamique espace


dtat discret : notion de chane de Markov
Revenons sur les systmes dynamiques temps discret, et considrons dabord le systme dynamique
simple et non contrl de la marche sur un triangle. Lespace dtat a trois lments a, b et c, et la dyna-
mique est donne par la fonction f dfinie par :
f(a) = b, f(b) = c, f(c) = a.
Introduisons maintenant une incertitude dans le modle dynamique. Supposons que le systme de
commande ait une probabilit 0,1 de se tromper chaque tape, par exemple
P[f(a) = b] = 0,9, P[f(a) = c] = 0,1
et ainsi de suite.
Le schma de cette dynamique alatoire est reprsent la figure 4-4.
Lapprentissage statistique
230

La trajectoire dtat nest plus dterministe :


1
cest un processus stochastique appel chane a
de Markov . Le comportement aux temps a
longs dune chane de Markov est bien diffrent
de celui dun processus dterministe : ltat aux 0.9
temps longs ne dpend plus du tout ici de ltat 0.9 0.9
0.9
initial, et lon peut montrer que la probabilit de 0.1 0.9
ltat au temps k tend vers la loi de probabilit 0.1 0.1
uniforme sur {a, b, c} quand k tend vers linfini. b c b
Cette loi de probabilit est appele la 0.1 0.1
distribution stationnaire de la chane de Figure 4-4. Schmas de dynamiques alatoires sur les
Markov. Une reprsentation commode des sommets dun triangle. (a) Dynamique cyclique perturbe par
chanes de Markov espace dtat discret est la un bruit dtat. (b) Dynamique attracteur perturbe par un
bruit dtat.
reprsentation matricielle. On ordonne les tats,
et lon reprsente, sur chaque ligne dune matrice appele matrice de transition (note ici P), le vecteur
ligne des probabilits darriver au temps suivant sur ltat correspondant. Avec le formalisme des proba-
bilits conditionnelles, on crit
ij = P[ x ( k + 1) = j x ( k ) = i]

Par exemple, dans le cas de la marche alatoire sur le triangle, la matrice de transition est
0 0, 9 0,1
P = 0,1 0 0, 9

0, 9 0,1 0
On peut vrifier que la distribution stationnaire est invariante par la matrice de transition qui structurelle-
ment possde toujours une valeur propre de plus grand module gale 1 (dans le cas dun espace dtat
fini). Ainsi, dans lexemple prcdent, les valeurs propres de la matrice P sont (approximativement) 1,
0,5 + 0.6928i et 0,5 0,6928i. On vrifie facilement que la loi de probabilit uniforme qui attribue une
gale probabilit chaque tat est invariante :
0 0, 9 0,1
(1 / 3 1 / 3 1 / 3) 0,1 0 0, 9 = (1 / 3 1 / 3 1 / 3)
0, 9 0,1 0
La probabilit invariante est lobjet alatoire correspondant ltat dquilibre de la dynamique dtermi-
niste. Elle porte dailleurs ce nom dtat dquilibre dans la terminologie de la physique statistique
(tat de Gibbs).
Voici un autre exemple de dynamique sur le triangle qui brise la symtrie entre les sommets.
Ici, la dynamique de rfrence est :
f ( a) = a, f (b) = a, f (c) = a
La matrice de transition de la chane de Markov est alors
1 0 0
P = 0, 9 0 0,1

0, 9 0,1 0
ses valeurs propres sont 1 et 0,1 et sa distribution stationnaire est (1, 0, 0). Dans ce cas, ltat dquilibre
est dterministe mme si la dynamique est alatoire.
Identification neuronale
231
CHAPITRE 4

Comme prcdemment, on peut introduire un bruit dtat dans le systme dynamique command. Dans
ce cas, la probabilit de transition de ltat x(k) ltat x(k+1) dpend aussi du contrle u(k) appliqu au
temps k.
Par exemple, dans le cas du labyrinthe prsent au dbut de ce paragraphe, f(13, N) = 13. Si nous intro-
duisons un bruit dtat selon lequel le systme de commande peut se tromper avec la probabilit 0,1,
uniformment rpartie sur les autres commandes admissibles, f(13, N) est une variable alatoire prenant
les valeurs 13, 12 et 14 avec les probabilits respectives 0,9, 0,05, 0,05.

Introduction dun bruit dtat dans un systme dynamique tats


continus : modle linaire gaussien
Les ingnieurs sont plus habitus traiter des bruits dtat introduits dans des systmes dynamiques
tats continus. Dans ce cas, le calcul des probabilits est plus complexe et ne peut gnralement pas tre
rsolu sous une forme analytique, sauf dans le cas du modle linaire bruit dtat additif gaussien, dont
nous allons indiquer rapidement le comportement en raison de son importance ultrieure dans le filtrage
de Kalman.
Considrons le systme dynamique linaire command dont lquation dvolution est
x(k + 1) = Ax(k) + Bu(k) + Cv(k + 1)
o (v(k)) est un bruit blanc gaussien centr rduit (suite indpendante de vecteurs gaussiens de moyenne
0 et de matrice de covariance identit).
Si x(k) est un vecteur gaussien de moyenne m(k) et de variance P(k), alors les proprits lmentaires du
vecteur gaussien pour la transformation linaire entranent que x(k + 1) est un vecteur gaussien de
moyenne m(k + 1) = Am(k) + Bu(k)
et de matrice de covariance
P(k + 1) = AP(k)AT + CCT
o AT et CT sont les matrices respectivement transposes de A et de C.
On rappelle que, si P est la matrice de covariance du vecteur alatoire x valeurs dans un espace vectoriel
E et si A est une application linaire dfinie sur E dont nous confondons lcriture avec celle de sa matrice
dans une base de rfrence, alors la matrice de covariance du vecteur alatoire Ax est APAT. Ce point sera
particulirement important pour la section consacre au filtrage de Kalman.
Lquation prcdente sappelle quation de propagation de la covariance. On peut alors connatre le
comportement temps long du processus stochastique gaussien (x(k)). Si la matrice A est stable, cest--
dire si toutes ses valeurs propres sont de module infrieur 1, le processus gaussien converge aux temps
longs vers une distribution stationnaire gaussienne centre dont la matrice de covariance P est lunique
solution de lquation
P = AP AT+CCT.
En revanche, si la matrice A possde une valeur propre de module suprieure ou gale 1, il nexiste pas
de rgime stationnaire pour le processus qui diverge aux temps longs. Le modle linaire est dit instable.

Modles auto-rgressifs
Le fichier du nombre de taches solaires de Wolf est un exemple de donnes astronomiques qui est trs
utilis pour prouver les mthodes didentification et de prdiction ; il est maintenu depuis plus de deux
sicles ; ses variations sont reprsentes sur la figure 4-5.
Lapprentissage statistique
232

Cette courbe prsente une certaine rgu-


larit, avec des cycles manifestes den-
viron 11 ans. Il est donc naturel de
chercher une loi capable de prdire
lvolution du phnomne [TONG 1995].
De labondante littrature consacre
cette question, on peut extraire le
modle suivant, labor en 1984 par
Subba et Gabr sur les donnes pralable-
ment centres :
x(k+1) = 1,22x(k) 0,47x(k 1) 0,14
x(k 2) + 0,17 x(k-3) 0,15
x(k 4) + 0,05x(k 5) 0,05
x(k 6) 0,07 x(k 7)
+ 0,011 x(k 8) + v(k + 1)
o (v(k)) est une suite de variables ala-
toires gaussiennes indpendantes
centres, dcart-type 14.2. Ce modle
Figure 4-5. Fichier du nombre de taches solaires de Wolf de 1700
sappelle un modle auto-rgressif ou 1997.
modle AR.
Les modles auto-rgressifs AR(p) se dfinissent donc par
x(k + 1) = a1 x(k) ++ ap x(k p + 1) + v(k + 1)
o (v(k)) est un bruit blanc numrique (suite de variables alatoires centres indpendantes et de mme
loi). On voit que le signal dintrt peut tre considr comme la rponse dun filtre linaire rponse
impulsionnelle infinie un bruit blanc [DUVAUT 1994].
Remarque
Un ltre rponse impulsionnelle innie, ou ltre rcursif , est caractris par le fait que sa rponse linstant k + 1 dpend de sa
rponse linstant k et des instants prcdents, et du signal dentre (qui, ici, est un bruit) au mme instant. En revanche, un ltre
rponse impulsionnelle nie , ou ltre transverse , est caractris par le fait que sa rponse linstant k + 1 ne dpend pas de sa
rponse aux instants prcdents, mais ne dpend que du signal dentre au mme instant et des instants prcdents.
Par ailleurs, la modlisation des signaux comme rponse un bruit blanc des filtres rponse impul-
sionnelle finie du type :
x(k + 1) = b0 v(k + 1) + b1 v(k)+ bq v(k q + 1)
est aussi connue depuis longtemps sous le nom de processus moyenne mobile MA(q).
La synthse naturelle de ces deux modles est le modle linaire ARMA(p,q) ou modle auto-rgressif
moyenne mobile dordre (p, q) (ARMA est lacronyme de Auto-regressive Moving-Average)
x(k + 1) = a1x(k) + + apx(k p + 1) + b0v(k + 1) + b1v(k) + bq v(k q + 1).
Bien que les modles ARMA aient des proprits dapproximation universelle, il est plus explicatif et plus
conomique de modliser par des quations dvolution non linaires les phnomnes ou les signaux qui
sy prtent ([TONG 1995]). On introduit alors les modles NARMA, dont lquation dvolution est
x(k + 1) = f[x(k), , x(k p + 1), v(k + 1), v(k), v(k q + 1)].
On remarque que ces modles sont des cas particuliers des modles de systmes dynamiques dont il a t
question aux paragraphes prcdents ; ils admettent des reprsentations dtat videntes mais volumi-
neuses. Par exemple, dans le modle NARMA dordre (p, q) prcdent, ltat du systme au temps k est
Identification neuronale
233
CHAPITRE 4

le vecteur x(k), p + q dimensions, de composantes [x1(k) = x(k),, xp(k) = x(k p + 1), xp+1(k) = v(k),
xp+q(k) = v(k q + 1)], et lquation dtat est :
x1(k + 1) = f[x1(k),, xp(k), v(k + 1), xp+1(k), ), xp+q(k)]
x2(k + 1) = x1(k)
...
xp(k + 1) = xp-1(k)
xp+1(k + 1) = v(k + 1)
xp+2(k + 1) = xp+1(k)
...
xp+q(k + 1) = xp+q-1(k).
De mme que nous avons envisag, outre les systmes dynamiques autonomes, des systmes dynamiques
commands, de mme, la thorie des sries temporelles envisage des modles auto-rgressifs avec
variables exognes, ou modles ARMAX et NARMAX. Dans ces modles, lquation dvolution prend
en considration des variables exognes au temps courant ou dans le pass, qui sont connues et sont
lquivalent du signal de commande. On obtient ainsi les modles ARMAX (p, q, r)
x(k + 1) = a1x(k) + + apx(k p + 1) + b0v(k + 1) + b1v(k)+ bqv(k q + 1) + c1u(k) + + cru(k r + 1)
et NARMAX (p, q ,r)
x(k + 1) = f[x(k), , x(k p + 1), v(k + 1), v(k), v(k q + 1), u(k), , u(k r + 1)].

Limites des modlisations des incertitudes sur le modle par un bruit


dtat
On a vu ici intervenir le bruit dtat (v(k)), qui modlise les incertitudes sur les variables dtat du modle
par des variables alatoires. Cette modlisation na dintrt que si elle sert quelque chose, cest--dire si
les incertitudes de modles obissent des lois statistiques comme la loi des grands nombres, qui permettent
daccder une connaissance sur ces incertitudes et den tirer des procdures pour amliorer les prdictions
et les commandes effectues sur le processus. Or, ce nest pas toujours le cas, et lexistence dincertitudes et
dinconnues mal reprsentes par des variables alatoires est une limitation intrinsque de tout algorithme
statistique. Un bon exemple de cette situation est fourni par la poursuite dune cible non cooprative, quand
les commandes du mobile poursuivi sont modlises par un processus alatoire : lintention du pilote pour-
suivi est un lment de cette commande qui se prte videmment trs mal une modlisation statistique.
En labsence dinformations complmentaires, la modlisation alatoire nest donc quun pis-aller. Dans
ce cas, il importe de sattacher rduire la part de lalatoire, en introduisant la connaissance physique
dont on dispose dans le modle, plutt que de reprsenter ce qui est non identifi par un processus ala-
toire vectoriel de grande dimension. On rduit ainsi le nombre de paramtres identifier. Ces considra-
tions justifient lutilisation, parmi dautres modles, des rseaux neuronaux comme rgresseurs non
linaires parcimonieux, comme nous lavons vu dans le chapitre 2.

Identification de systmes dynamiques commands par rgression


Identification dun systme dynamique command par rgression linaire
Principe de lalgorithme
Nous avons vu, dans le chapitre 2, que le principe de la rgression linaire consiste trouver, partir
dune suite finie de N vecteurs dentre de Rn (vecteurs lignes (1,n) ) (x1, , xk, , xN) et dune suite finie
Lapprentissage statistique
234

de N variables scalaires de sortie (y1,, yk,, yN), le vecteur colonne (n, 1) w = (w1 ; ; wn) qui minimise
la fonction de cot des moindres carrs :
N
J = ( yk x k w ) 2
k =1
ou, dune manire quivalente, la moyenne quadratique des rsidus :
1 N
N (w) = ( yk x k w)2.
2 N k =1
On se limite ici au cas classique dune sortie scalaire : le cas des sorties vectorielles napporte aucun chan-
gement dans le principe. Comme il sagit dun problme doptimisation cot quadratique (le cot
minimiser est une fonction du second degr par rapport lensemble fini des variables), on sait que la
solution est unique et dtermine par la formule matricielle
1
w = ( X T X ) X T Y
o la matrice (N, n) X = (x1 ; ; xk ; ; xN) et le vecteur colonne (N,1) Y = (y1 ; ; yk ; ; yN) sont
obtenus par concatnation des donnes dentre et de sortie condition que le problme soit bien pos,
cest--dire que la matrice (XTX) soit inversible.
Cet algorithme sapplique pour identifier les modles auto-rgressifs de la section prcdente. Pour iden-
tifier le modle ARX :
x(k + 1) = a1x(k) + + apx(k p + 1) + b0v(k + 1) + c1u(k) + + cr u(k r + 1).
On a donc ici w = [a1, , ap, b0, c1, , cr]T.
Quand une trajectoire de commande [u(1), , u(k), , u(N)] et une trajectoire de sortie [x(1),, x(k), , x(N)]
sont notre disposition, nous pouvons construire les vecteurs dentre (1, p+r) xk = [x(k) ; ; x(k p+1) ;
u(k) ; ; u(k r + 1)] pour k variant de max(p, r)+1 (N 1) et nous prendrons comme sortie correspon-
dante yk = x(k + 1).
De trs bons rsultats peuvent tre obtenus pourvu que le modle sur lequel est construit lestimateur soit
bien reprsentatif des donnes exprimentales traites. Le cas suivant de simulation illustre cette affirma-
tion.

Application un cas type


Considrons le modle ARX dordre (2,2) :
x(k + 1) = a1x(k) + a2x(k 1) + b0v(k + 1) + c1u(k) + + c2u(k 1)
avec les valeurs suivantes des paramtres :
a1 = 1,2728, a2= 0,81, b0 = 0,5, c1 = 0,5, c2 = 0,5
o la trajectoire de commande (uk) cre par loprateur est un bruit blanc.
Construisons les vecteurs dentre x(k) = [x(k) ; x(k 1) ; u(k) ; u(k 1)] pour k variant de 2 N 1.
Lidentification faite sur une centaine de valeurs fournit les valeurs estimes suivantes des paramtres :
a 1 = 1,29, a 2 = 0,83, c 1 = 0,49, c 2 = 0,51.
Si les valeurs des commandes ne sont pas fournies lalgorithme, les vecteurs dentre de la rgression
sont deux dimensions x(k) = [x(k) ; x(k 1)]. Lidentification, qui est simplement celle dun modle AR,
fournit les estimations dgrades suivantes :
a 1 = 1,17, a 2 = 0,71.
Identification neuronale
235
CHAPITRE 4

Ces rsultats moins bons sexpliquent par une mauvaise modlisation : la trajectoire de commande tant,
dans cette exprience, un bruit blanc, lestimateur dun modle AR a t utilis pour traiter des donnes
produites, en ralit, par un modle ARMA bruit vectoriel (uk, vk).
Si, au lieu de simuler le modle prcdent, un bruit de mesure est introduit dans la simulation qui perturbe
lobservation de ltat sans entraner de consquences ultrieures sur la dynamique (ce point sera dve-
lopp au dbut de la section consacre au filtrage), les donnes sont produites par simulation du modle
suivant :
x ( k + 1) = a1 x ( k ) + a2 x ( k 1) + c1u( k ) + c2 u( k 1)
.
y( k ) = x ( k ) + b0 w( k )
Dans ce cas, lapplication de la procdure didentification ARX produit de mauvais rsultats malgr la
connaissance de la trajectoire de commande. On obtient :
a 1 = 0,61, a 2 = 0,36, c 1 = 0,49, c 2 = 0,11.
Cette exprience montre limportance dune modlisation correcte des bruits pour lestimation par rgres-
sion linaire. Nous avons dj trait ce problme dans le cadre de la modlisation dynamique par rseaux
de neurones (chapitre 2), et nous le retrouverons plus loin dans ce chapitre. Laddition dun bruit de
mesure ajoute un problme nouveau, celui du filtrage qui sera trait dans ce chapitre.

Justification mathmatique
Lanalyse statistique linaire des sries temporelles est bien connue et sort du cadre de cet ouvrage. Pour
un expos permettant daccder aux mthodes statistiques classiques didentification et de prvision, on
se reportera [CHATFIELD 1994] pour un expos pratique et [GOURIROUX 1995], [AZENCOTT 1984],
pour les justifications mathmatiques. Esquissons la justification de la procdure des moindres carrs dans
le cas le plus simple, celui dun modle auto-rgressif linaire stable, en rgime stationnaire, et dun bruit
gaussien centr. On note en majuscules les inconnues qui sont considres comme des variables ala-
toires.
Considrons le processus gaussien stationnaire du second ordre produit par le modle auto-rgressif
AR(p) :
X(k + 1) = a1X(k) + + apX(k p + 1) + b0V(k + 1)
o le modle est stable (cest--dire o le polynme P( z ) = 1 a1z ... a p z p a ses racines lextrieur
du disque unit) et o le bruit blanc (Vk) est gaussien centr. Dans ce cas, en notant rj = Cov(Xk, Xk-j), on
obtient les relations de Yule-Walker en prenant la covariance des deux membres de lquation prsente
ci-avant avec les variables (Xk-i)i = 0...p1 :
r1 = a1r0 + ... + a p rp

................................. .
r = a r + ... + a r
p 1 p 1 p 0

Les mmes relations relient approximativement (aux erreurs de troncatures prs, tendant vers 0 avec le
p
rapport ---- ) les estimateurs empiriques des moindres carrs de la covariance :
N
1 k=N
ri = x(k ) x(k i)
N p k =i +1

et les estimateurs des moindres carrs des coefficients de la rgression a i . Dautre part, les estimateurs r i
sont consistants, sans biais et asymptotiquement normaux avec une variance de lordre de 1/N. On peut
Lapprentissage statistique
236

alors en dduire que les estimateurs a i sont consistants, asymptotiquement sans biais et asymptotique-
ment normaux avec une variance de lordre de 1/N, ce qui permet de faire des tests dadquation du
modle.
Remarque
Un estimateur est dit consistant si sa variance tend vers zro lorsque le nombre dchantillons tend vers linni.
Notons que, dans le cas des systmes linaires, les mthodes prsentes ici sont tout fait lmentaires et
ont t considrablement amliores tant par les automaticiens que par les statisticiens. Les principales
amliorations portent sur lintroduction du point de vue spectral, cest--dire par lidentification de la
fonction de transfert des filtres sous-jacents aux modles ARMA. On trouvera facilement ces techniques
dans les livres de base, notamment ceux cits en rfrence. Leur expos dpasse le cadre de cet ouvrage,
puisque les rseaux de neurones se situent dans le cadre des modles non linaires.

Application un systme dynamique linaire : loscillateur harmonique


Appliquons la procdure prcdente lidentification de loscillateur harmonique dcrit dans la section
prcdente, en supposant que nous connaissions seulement la trajectoire de commande et la trajectoire des
angles indiquant la position de loscillateur. Sur une trajectoire dune centaine de pas, lidentification par
le modle ARX dordre (2, 2) donne des rsultats parfaits. En effet, le modle est bien linaire dordre 2
puisque ltat se reconstruit avec une trs bonne approximation par la donne de deux observations
successives de la position.
En revanche, lidentification par un modle ARX dordre (2, 1) dgrade sensiblement les rsultats de
lestimation. Cest facilement explicable : la commande seffectuant sur lincrment de vitesse, elle est
bien dordre 2.

Application au problme des taches solaires


(a) Prdiction un pas (b) Enfin, si nous appliquons
Prdiction sur un horizon
de 50 pas de temps la procdure prcdente,
200 200
Prdiction un pas Trajectoire mesure
sans pr-traitement des
150
Trajectoire estime Trajectoire estime donnes, la srie des
150
taches solaires (introduite
100 100
dans la section prc-
dente), avec une rgression
50 50
linaire fonde sur le
modle AR(9), on obtient,
0 0
sur un ensemble de test de
0 10 20 30 40 50 0 10 20 30 40 50 60 50 observations, les pr-
Figure 4-6. Prdiction des taches solaires par rgression linaire sur un modle AR(9) dictions reprsentes dans
(a) Prdiction un pas (b) Prdiction sur un horizon de 50 pas. la figure 4-6. Aprs avoir
effectu la rgression sur
un ensemble dapprentissage de 150 observations, on a reprsent en (a) la diffrence entre la srie
observe au temps k et la prdiction de la srie au temps k au vu des 9 dernires observations ayant
prcd. On voit que la prdiction est relativement bonne. On a reprsent en (b) la diffrence entre la
srie observe et la srie estime daprs le modle sur lhorizon total partir des seules donnes nces-
saires pour initialiser le modle. On observe, bien entendu, un amortissement des oscillations. Cet amor-
tissement est normal puisque le modle identifi est stable et que lestimation est effectue en labsence
de nouvelles mesures aprs les mesures dinitialisation. On voit que le modle estim a assez bien captur
la priodicit du phnomne.
Identification neuronale
237
CHAPITRE 4

Identification dun systme dynamique non linaire par rseaux


de neurones non boucls
Limites de la rgression linaire
Lidentification des systmes dynamiques commands par rgression linaire devient trs imprcise et
exige des modles beaucoup trop importants, comme le montre la figure 4-7.

Systme cible Systme cible


Rgression linaire Rgression linaire
Comparaison des positions Comparaison des positions
3 3
2 2
1 1
0 0
1 1
2 2
3 3
0 2 4 6 8 10 12 14 16 18 20 0 2 4 6 8 10 12 14 16 18 20
Time (sec) Time (sec)
Comparaison des vitesses Comparaison des vitesses
3 4
2
2
1
0 0
1
2 2
3 4
0 2 4 6 8 10 12 14 16 18 20
0 2 4 6 8 10 12 14 16 18 20
(a) Time (sec) (b) Time (sec)
Figure 4-7. Identification de loscillateur de Van der Pol par rgression linaire (prdiction mille pas)
(a) Initialisation sur le cycle limite (b) Initialisation loin du cycle limite.

Dans lexemple de loscillateur de Van der Pol dcrit dans la section prcdente (qui, rappelons-le, est un
oscillateur non linaire), aucun modle linaire doscillateur ne peut prsenter un quilibre instable et un
cycle limite stable. On voit que lalgorithme de rgression linaire a bien captur la frquence de loscilla-
teur. Le comportement non linaire ne peut tre dcrit par un modle linaire.

Rseau retard (modle NARX) Sortie du processus


linstant k +1
g (k + 1)
+
x (k + 1)
Lexemple le plus simple didentification neuronale
dun systme dynamique command sinspire directe-
Systme
ment des algorithmes de rgression. Le modle quon dynamique q -1
cherche identifier est un modle de rgression non command RN
linaire auto-rgressive avec entre exogne (la
u(k)
commande), en abrg NARX. Le modle stochas- ..... .....
tique NARX(p, r) scrit : u (k) u (k r + 1) x (k) x (k 1) x (k p +1)
Entre
X(k + 1) = f [X(k), , X(k p + 1), V(k + 1), u(k), , (Commande)
u(k r + 1)]
Figure 4-8. Apprentissage dun modle neuronal non
lordre de rgression tant p sur ltat et r sur la commande. boucl pour identifier un modle, fond sur lhypothse
Le schma de rseau le plus simple utilis pour lidentifica- NARX, dun systme dynamique command (voir aussi
tion du systme dynamique command par rgression non figure 2-31 du chapitre 2).
linaire est reprsent sur la figure 4-8.
Lapprentissage statistique
238

La fonction RN est ralise par un rseau de neurones non boucl. Lentre du rseau est constitue des
signaux que lon cherche identifier (cest--dire les sorties du processus) du temps k au temps k p + 1
(o p est lordre du modle) et des commandes du temps k au temps k r + 1 (o r est lhorizon sur la
commande). Lestimation des paramtres est ralise partir de lerreur de modlisation, cest--dire la
diffrence entre la sortie du processus x(k + 1) et la prdiction effectue par le modle g(k + 1). Cest donc
exactement le schma destimation des paramtres que nous avons prsent dans le paragraphe sur la
modlisation dynamique avec hypothse bruit dtat et reprsentation entre-sortie, dans le chapitre 2.
Comme nous lavons dj indiqu, une base dapprentissage est forme de lentre qui est un vecteur du
type xk = [x(k) ;; x(k p + 1) ; u(k) ;; u(k r + 1)] et de la sortie qui est la variable gk = x(k + 1). Cette
base dapprentissage peut tre ralise de deux manires.
Si lon utilise un simulateur du procd que lon cherche commander, on constituera la base en faisant
fonctionner le simulateur sur un chantillonnage reprsentatif de lespace des entres (maillage rgulier),
ou sur une distribution privilgiant les points les plus courants, ou au contraire les points limites au voisi-
nage desquels on veut scuriser la performance du rseau. Cette situation est frquente lorsquon cherche
raliser une modlisation semi-physique ou bote grise, comme nous lavons indiqu dans le chapitre 2.
Si, en revanche, la base est construite par utilisation en temps rel dun dispositif exprimental, on na
gnralement pas la possibilit de raliser un tel chantillonnage des entres : la base dapprentissage est
construite partir de lchantillonnage de trajectoires exprimentales des entres et des sorties du systme.
Il importe alors que la ou les trajectoires chantillonnes visitent avec une rgularit suffisante lespace des
entres du rseau (produit de lespace dtat par lespace des commandes). Dans le cas dun systme dyna-
mique command, ce rsultat est gnralement obtenu en excitant le systme par des commandes ala-
toires. La question du choix dune telle trajectoire de commande est une question dlicate, qui dpend
fortement du systme quon cherche identifier. Dans le cas dun systme linaire, les excitations sont, par
exemple, harmoniques, et lon cherche identifier ainsi la fonction de transfert du processus. Dans le cas
du systme non linaire, on choisit ordinairement une trajectoire alatoire. Il peut tre cependant judicieux
de choisir pour trajectoires de commandes des bruits filtrs dans des plages de frquence variable. Le
chapitre 2 fournit quelques lments qui permettent de construire des plans dexprience.

Systme cible
Modle neuronal Systme cible
Comparaison des positions Modle neuronal
3 Comparaison des positions
3
2
2
1
1
0
0
1 1
2 2
3
0 2 4 6 8 10 12 14 16 18 20 3 0 2 4 6 8 10 12 14 16 18 20
Time (sec) Time (sec)
Comparaison des vitesses Comparaison des vitesses
3 6
2 4
1 2
0 0
1
2
2
3 4
0 2 4 6 8 10 12 14 16 18 20 0 2 4 6 8 10 12 14 16 18 20
(a) Time (sec) (b) Time (sec)

Figure 4-9. Comparaison de loscillateur de Van der Pol command et de son identification par rgression non linaire :
(a) Trajectoire de commande nulle (b) Trajectoire de commande alatoire.
Identification neuronale
239
CHAPITRE 4

La figure 4-9 prsente un exemple didentification de loscillateur de Van der Pol, o lapprentissage a t
effectu sur une base de 153 = 3375 exemples, obtenus par lchantillonnage de la trajectoire de loscilla-
teur excit par une commande alatoire. Cette base a dj t utilise pour la rgression linaire dont les
rsultats sont reprsents sur la figure 4-7. Les rsultats sont ici bien meilleurs.
Ces rsultats sont obtenus avec une architecture trois entres, dix neurones cachs et deux neurones de
sortie. Si lon effectue lapprentissage avec une base dapprentissage de mme dimension, obtenue par un
maillage rgulier de lespace dtats et de lensemble des commandes admissibles, lapprentissage ne
peut se faire convenablement dans les mmes conditions (sans pr-traitement particulier de la base
dentre). Limportance du choix de la base dapprentissage est ainsi illustre. Comme nous lavons dj
indiqu dans le chapitre 2, il est important de constituer la base dapprentissage par un chantillonnage
reprsentatif de la densit avec laquelle le systme visite lespace dtats et lespace des commandes. Ce
point sera prcis dans la section suivante sur lapprentissage en ligne. On retiendra en particulier limpor-
tance, pour lapprentissage, dune commande alatoire permettant une visite effective de ce domaine
(politique dexploration), notamment dans le cas o le systme dynamique possde un attracteur stable
(oscillateur de Van der Pol). On reviendra, dans le chapitre suivant, sur limportance de la politique
dexploration dans le cadre de la programmation neuro-dynamique.
Le choix de lordre du systme est important puisquil conditionne le nombre de paramtres de configu-
ration du rseau identifier. Cest un paramtre plus sensible que dans le cas linaire. Le choix de lordre
des modles est une question en thorie mal rsolue en rgression non linaire. Pratiquement, on combine
une approche empirique et ladaptation de critres dinformation mis au point pour les modles linaires
[GOURIEROUX 1995], ou bien lon utilise une approche par test dhypothses [URBANI 1993]. Comme
nous lavons vu dans le chapitre 2, lidentification non adaptative par rseau de neurones partir dune
base dapprentissage reprsentative de tout le domaine des entres ne pose pas de problme particulier au
concepteur de modle neuronal, sous rserve de lutilisation dune mthodologie srieuse et dalgo-
rithmes dapprentissage efficaces.
Ces problmes se posent toujours dans le cas de lidentification adaptative, o lon veut traiter les
donnes obtenues par lobservation du systme dynamique en flux, cest--dire au fur et mesure de leur
production. En revanche, le caractre adaptatif de lalgorithme les situe dans un cadre nouveau que nous
allons aborder dans la section suivante.

Identification adaptative (en ligne) et mthode de lerreur


de prdiction rcursive
Estimateur rcursif de la moyenne empirique
Considrons dabord le problme lmentaire de calcul de moyenne, qui peut se formuler comme un
problme de rgression linaire dordre 0 : xk = a + vk
o (vk) est un bruit blanc numrique, et o le paramtre a appartient R. On cherche dterminer a. Il
sagit donc en fait de dterminer la moyenne inconnue dune suite de variables alatoires indpendantes
et de mme loi.
1 N
( x k a) a pour solution la moyenne
2
La minimisation par rapport a de la fonction de cot JN(a) =
N 2N k =1
xk
empirique a N = k =1 .
N
Lapprentissage statistique
240

Cet estimateur possde toutes les proprits gnrales des estimateurs de rgression linaire nonces
prcdemment : consistant, sans biais, et de variance minimale parmi les estimateurs sans biais. Sa
consistance, cest--dire sa convergence vers a, est appele la loi des grands nombres, exprimant intuiti-
vement que la moyenne arithmtique dune suite de rsultats dexpriences alatoires, indpendantes,
permet dapprocher lesprance mathmatique de la variable alatoire modlisant le rsultat de lexp-
rience.
Une simple rcriture de la formule de dfinition prcdente nous permet dobtenir une formulation
rcursive :
N
( N + 1)a N +1 = x k + x N +1 = Na N + x N +1
k =1
do
1
a N +1 = a N +
N +1
( x k +1 a N ) .
Lintrt de cette formulation rcursive est quelle permet
une estimation adaptative. Une seule observation est Signal
(a) 20
ncessaire pour initialiser lestimation. Par la suite, la mise
jour de lestimation ne demande pas la disposition de 15
lensemble des mesures : il suffit de disposer de lestima- 10
tion prcdente et de la mesure au temps courant. Le coef- 5
ficient + 1=1/(N + 1) sappelle le gain de lalgorithme ou 0
le taux dapprentissage. 5
10
Un autre avantage de lestimateur rcursif de moyenne
15
empirique est quil permet de poursuivre les variations
20
lentes du paramtre quon estime dans le cas dun modle 0 5 10 15
non stationnaire. Pour que lestimateur soit adaptatif, il
(b) Estimation du paramtre : gain constant
faut remplacer le gain en 1/N lentement dcroissant vers 0 8
de la formule prcdente par un petit gain constant. Dans Paramtre source
6 Estimation (gain = 0.007)
ce cas, lestimateur est identique un filtre (ici un filtre du
Estimation (gain = 0.025)
premier ordre). Pour comparer les filtres du premier ordre 4
et les estimateurs rcursifs de la moyenne, on a reprsent,
2
figure 4-10, le comportement dun tel estimateur pour
poursuivre des variations quasi priodiques de la moyenne 0
du signal avec un rapport signal/bruit de 1/5. Le signal
2
trait est reprsent dans le graphique (a). Dans le
graphique (b), on compare le rsultat pour diffrentes 4
0 5 10 15
valeurs du gain : on remarque que, gain bas, le bruit est
plus attnu, mais la capacit de poursuite du filtre plus (c) Estimation du paramtre : gain dcroissant
12
basse. Dans le graphique (c), on compare les perfor- 10
Paramtre source
mances destimateurs rcursifs dont les exposants de Estimation (exposant = 1)
8 Estimation (exposant = 0.55)
dcroissance des gains sont respectivement 1 (moyenne
6
empirique) et 0,55. On remarque que les capacits de
4
poursuite de lestimateur moyenne empirique ne sont pas
2
suffisantes dans cet exemple.
0
Figure 4-10. Comportement de lestimateur de moyenne empirique : 2
(a) Signal utilis, (b) Estimation du paramtre par filtrage IIR gain 4
constant, (c) Estimation du paramtre par filtrage gain dcroissant. 0 5 10 15
Identification neuronale
241
CHAPITRE 4

On peut remarquer que lestimateur de la moyenne empirique est un estimateur fond sur la minimisation
du critre quadratique par une descente de gradient. En effet, dans le cas du modle stationnaire, les
donnes sont un chantillon de la loi de probabilit de la variable alatoire X. On cherche minimiser la
1
[ ]
fonction de cot thorique J(a) = E ( X a) 2 ; notons quil nest pas possible de calculer cette fonction,
2
puisquelle fait intervenir lesprance mathmatique dune variable alatoire dont la loi de probabilit est
inconnue de lutilisateur. Le gradient de J (ici sa drive) est : J(a) = E(X-a). Un algorithme de descente
de gradient est
ak+1 = ak +1J(ak)
o k + 1 est une quantit positive.
Pour obtenir lestimateur moyenne empirique rcursive, on remplace dans lalgorithme J(ak) par
(Xk+1-ak) :
ak+1= ak +1(Xk+1 ak).
On reconnat ici lalgorithme de gradient stochastique, que nous avons mentionn dans le chapitre 2. On
peut remarquer que la grandeur alatoire (Xk+1 ak) a J(ak) pour esprance. Cest pour cette raison que
cet algorithme est dit de gradient stochastique : le vrai gradient de la fonction de cot des moindres carrs
a t remplac par un terme alatoire qui a pour moyenne ce gradient. Tandis que le gradient total J(ak)
dpend de la loi de X que lon ne connat pas, et quil faudrait pralablement estimer, le gradient stochas-
tique est, lui, connu chaque moment.
Ainsi, lalgorithme rcursif aborde directement loptimisation sans passer par ltape didentification du
modle : il effectue en mme temps les tapes destimation et doptimisation. En revanche, lalgorithme
destimation traditionnel commence par une phase destimation o le critre minimiser
[
J(a)= 1 E ( X a) 2
2
] est dabord estim par la fonction de cot empirique des moindres carrs

1 N
( x k a) avant deffectuer loptimisation sur le critre estim. Il se trouve que les deux
2
JN(a) =
2 N k =1
dmarches aboutissent au mme rsultat dans cet exemple, car le modle est linaire par rapport au para-
mtre estimer a. La programmation des deux algorithmes est pourtant diffrente : lalgorithme de
gradient stochastique est rcursif.

Estimateur rcursif de la rgression linaire


Les principes de base du gradient stochastique, que nous avons vus luvre dans le cas de lestimateur
de la moyenne empirique, se gnralisent la rgression linaire et non linaire. En ce qui concerne la
rgression linaire, on retrouve lalgorithme dit LMS (Least Mean Squares, galement appel algo-
rithme de Widrow-Hoff) bien connu en thorie du signal pour calculer de faon adaptative une rgression
linaire, et que nous avons introduit dans le chapitre 2.

[ ]
Considrons le problme de rgression consistant minimiser J(w) = 1 E (Y Xa b) 2 o X est un
2
vecteur alatoire (1, n) du second ordre (cest--dire possdant une esprance et une matrice de cova-
riance), o le vecteur w est la concatnation du vecteur (n,1) des paramtres a et du scalaire b, et o Y est
une variable alatoire relle du second ordre.
On a : J(a, b) = E[(Y Xa b)X,(Y Xa b)] .
Lapprentissage statistique
242

On dispose, pour rsoudre le problme, dchantillons (X1, Y1), , (Xk, Yk) fournis en ligne (cest--
dire pendant lestimation des paramtres), indpendants de la loi du vecteur alatoire des entres-sorties.
On peut alors mettre en uvre un algorithme de gradient stochastique pour estimer ces paramtres.
Lestimateur rcursif du gradient stochastique est donc dfini par lalgorithme
a k +1 = a k + k +1 (Yk +1 X k +1a k bk )X k +1 .

bk +1 = bk + k +1 (Yk +1 X k +1a k bk )
On a le rsultat de convergence suivant :

Sous les conditions suivantes sur le gain de lalgorithme k = , k 2 < , lalgorithme converge
k =1 k =1
(avec quasi-certitude) vers les coefficients de la rgression linaire de Y en X.
Les conditions sur le gain, nonces ci-dessus, sont gnrales ; nous les appellerons dans la suite
conditions de lapproximation stochastique relatives au gain .

Identification rcursive dun modle AR


Considrons le problme de lidentification du modle AR(p)
X(k + 1) = a1X(k) + + apX(k p + 1) + V(k + 1).
Nous supposons que les donnes sont recueillies en rgime stationnaire et nous cherchons un estimateur
rcursif du paramtre q = (a1 ; ; ap) qui minimise le critre des moindres carrs
J(w) = 1 [(X(k + 1) a1X(k) apX(k p + 1))2].
2
Le gradient de la fonction de cot est :
J(w) = {[X(k + 1) a X(k) a X(k p + 1)].[ X(k ; ; X(k p + 1)]}.
1 p
Lestimateur rcursif du gradient stochastique est donc dfini par lalgorithme
w (k+1)= w (k) + k+1(k + 1) [X(k) ;; X(k p + 1)]
avec (k + 1) = X(k + 1) a1X(k) apX(k p + 1).
On retrouve la rgle delta ou rgle de Widrow. Sous les conditions de lapproximation stochastique rela-
tives au gain, lestimateur est consistant.
Cette fois-ci, les entres-sorties ne sont plus indpendantes entre elles comme dans la loi des grands
nombres ou la rgression classique mais elles sont produites par le modle linaire markovien suivant :
X(k + 1) = A[w] X(k) + V(k + 1)
o A[w] dpend linairement de w et o (Vk) est un bruit blanc vectoriel en posant
a1 a2 . . ak
1 0 . . 0

X(k) = [X(k) ;; X(k-p+1)] et A[w] = 0 1 . . 0 .
. . . . 0

0 0 . 1 0
La thorie de lapproximation stochastique sapplique aussi dans ce cadre markovien plus gnral, et
fournit le rsultat dsir sur la convergence presque sre de lestimateur rcursif.
Identification neuronale
243
CHAPITRE 4

Les algorithmes doptimisation du second ordre (rgle de Newton) ont aussi des versions rcursives qui
fournissent des estimateurs consistants. Leur convergence se dmontre dans le cadre de lapproximation
stochastique. Ils sont particulirement employs dans les modles linaires o ils acclrent la conver-
gence. Rappelons (chapitre 2) que la formule de Newton peut scrire
1
w = w * HJ [ w * ] J [ w * ]
o HJ[w*] est la matrice hessienne de la fonction de cot, matrice symtrique forme par les drives
partielles secondes, relativement aux composantes de la variable vectorielle. Cette relation suggre la
relation rcursive suivante :
w (k + 1) = w (k) H[ w (k)]1 [ w (k)]. Dans le cas dune fonction strictement convexe et notam-
ment dun critre quadratique, cette matrice est dfinie positive et donc inversible. Dans lexemple du
modle AR(p), il sagit de la matrice de variance-covariance du vecteur alatoire stationnaire Xk. Lalgo-
rithme rcursif du second ordre enchane donc optimisation du second ordre du critre J et estimation
rcursive R (k)- de la matrice de variance-covariance :
w (k + 1) = w (k) + k+1(k + 1) R (k)-1X(k) R (k + 1) = R (k) + k+1X(k + 1)X(k + 1)t.
Cette mthode appele mthode de lerreur de prdiction rcursive est amplement dveloppe dans
[LJUNG 1983], qui insiste sur les applications lidentification de la mthode dapproximation stochas-
tique. Elle se gnralise au cas non linaire, et peut ainsi sappliquer lapprentissage adaptatif des
rseaux de neurones quand les donnes ncessaires lapprentissage sont fournies en ligne par un
processus ou une simulation.

Mthode gnrale de lerreur de prdiction rcursive


La mthode gnrale de lerreur de prdiction rcursive est une application algorithmique, pour lestima-
tion des paramtres dun modle, dune thorie probabiliste appele approximation stochastique .
Cette thorie a t dveloppe depuis 1950 notamment par Robins et Monroe, Kushner et Clarke
[KUSHNER 1978]. Elle a t rapidement utilise dans lapprentissage adaptatif de rseaux de neurones.
Elle prsente lavantage dtre rcursive, et donc de ne pas ncessiter le stockage dune base dapprentis-
sage de grande taille. Cet avantage est cependant compens par sa lenteur de convergence. Les hypothses
dapplication de la mthode dans le cadre non linaire sont complexes. Pour des noncs mathmatiques
plus prcis, on renvoie [LJUNG 1983], [BENVENISTE 1987], [DUFLO 1996]. On se place dans le cadre de
lidentification du modle NARX(p, r) prcdent X(k + 1) = f [X(k), , X(k p + 1), V(k + 1), u(k),,
u(k r + 1)]. Il sagit dun modle markovien quand on le met sous sa forme dtat X(k + 1) = f [X(k),
V(k + 1), u(k)]. On suppose que ce modle est stable et quil converge vers un rgime stationnaire. La
fonction f est bien sr inconnue, et le bruit dtat {V(k)} nest pas accessible. En revanche, on suppose que
ltat X(k) peut tre connu avec prcision au temps k. On cherche identifier ce modle en ligne par le
schma de prdiction non linaire paramtrique : X(k + 1) = g [X(k), u(k), w ]en minimisant lerreur
quadratique de prdiction. On dfinit lerreur de prdiction, pour un couple entre-sortie (x, u, y) et pour
une valeur w w
du vecteur des paramtres, par : J(y, x, u, ) = y g(x, u, w ).
Minimiser lerreur quadratique de prdiction signifie quon veut dterminer la valeur du paramtre w qui
minimise lerreur quadratique moyenne de prdiction
J(w) = 1
2 [
E f ( x, V , u) g( x, u, w)
2
]
o lesprance est prise pour la loi de probabilit du bruit dtat, puis est moyenne pour le rgime station-
naire du couple (tat-commande).
Lapprentissage statistique
244

w
Pour appliquer la mthode du gradient stochastique, on calcule le gradient, par rapport , de la fonction
1 ( x, y, w) 2 . Ce gradient est donc : g (y, x, u, ) J(y, x, u, ).
w w
(
2 w
w
On le notera dans la suite G(y, x, u, ). Nous noterons de mme G(k+1) = G[X(k+1), X(k), u(k), (k)]. w
On considre les algorithmes suivants.
Algorithme du gradient stochastique :
w(k + 1) = w(k) k+1 G(k + 1) = w(k) + k+1 wg [X(k + 1), X(k ), u(k ), w(k)]J(k + 1)
Algorithme de Gauss-Newton stochastique :
R(k+1) = R(k) + k+1 g [X( k + 1), X( k ), u( k ), w( k )] g [X( k + 1), X( k ), u( k ), w( k )]T
w w
w(k + 1) = w(k)-k+1 R(k + 1)-1G(k + 1)
Sous les conditions habituelles de lapproximation stochastique relatives au gain, et si lalgorithme reste born,
ces algorithmes convergent vers une valeur du paramtre qui est un minimum local du critre quadratique.
Lhypothse pour lalgorithme de rester born est impossible assurer a priori dans les cas pratiques.
Aussi, dans [LJUNG 1983], en suivant les thories antrieures de lapproximation stochastique, on impose
de plus lalgorithme une projection non linaire assurant quil reste dans un domaine born. Cette
projection respecte la proprit de convergence.
Comme nous lavons vu en dtail dans le chapitre 2, linversion de la matrice hessienne, ncessaire dans
lalgorithme de Gauss-Newton, peut tre approche par dautres algorithmes classiques du second ordre
(quasi-Newton, Gradient conjugu, Levenberg-Marquardt). Un bon expos empirique de la mthode de
lerreur de prdiction pour lapprentissage des rseaux de neurones pour lidentification est donn dans
[NORGAARD 2000].
Si le gain est constant et petit, les capacits de poursuite de lalgorithme sont analogues celles dune
technique particulire de commande appele rgime glissant [BENVENISTE 1987].

Application lidentification neuronale dun systme dynamique


command
La figure 4-11 prsente lapplica- q -1
tion de lalgorithme de lerreur de
prdiction rcursive, qui vient Bruit dtat
dtre expos dans le paragraphe
x(k)
prcdent, lidentification en Entre Bruit de mesure
volution Sortie
ligne. (Commande)
(Mesure)
x(k+1) y(k+1)
Ngligeons pour le moment le bruit u(k)
+
de mesure. Le systme dynamique
Apprentissage
est symbolis dans la figure 4-11
x(k)
par : Rseau de
le bloc dvolution dont lentre neurones non
boucl
est ltat au temps courant et la u(k)
commande, et dont la sortie est
ltat au temps suivant et,
Figure 4-11. Identification dun modle neuronal interne dun systme
le bouclage de loprateur retard dynamique command (apprentissage forc).
qui entretient la dynamique.
Identification neuronale
245
CHAPITRE 4

Ltat et la commande au temps courant sont envoys en entre au rseau de neurones dans sa configura-
tion courante.
Notons que ltat est suppos tre entirement mesur. Dans le cas dun modle auto-rgressif, le signal
courant et la commande courante sont utiliss pour reconstruire ltat courant par des lignes retard repr-
sentes dans la figure 4-8. Le rseau calcule sa prdiction de ltat au temps suivant qui est compar
ltat du processus. Lerreur de prdiction calcule par cette comparaison est renvoye au rseau pour
rtropropagation, calcul du gradient et mise en uvre de lalgorithme. Cet apprentissage est dirig (il est
appel en thorie de la commande teacher forcing ) car ltat compltement connu peut tre impos
comme sortie dsire au rseau aprs chaque pas de calcul. Rappelons que cet algorithme a t prsent
dans le cadre de lapprentissage des systmes dynamiques non linaires, au chapitre 2.

Problmes poss par la mesure


Si lon doit prendre en considration un bruit de mesure, comme on la vu dans le cas linaire, lidentifi-
cation par rgression en utilisant un rseau non rcurrent (en boucle ouverte) et un algorithme dappren-
tissage forc donne de mauvais rsultats. Une dmonstration exprimentale trs claire en a t prsente
au chapitre 2, dans le paragraphe consacr aux systmes dynamiques.
Quand ltat du systme ne peut tre considr comme compltement connu, on doit se poser le problme
de la reconstruction de cet tat. Ce nest pas un problme statistique ordinaire puisqu un instant donn,
on ne dispose que dune observation de ltat. Pour incorporer dans la connaissance quon a de ltat
prsent les mesures opres sur ltat pass du systme, on utilise des algorithmes de filtrage que nous
exposons dans la section suivante.

Filtrage par innovation dans un modle dtat


Lestimation de ltat dun systme dynamique command partir dune suite de mesures, quand les
modles dvolution et de mesure sont supposs connus, sappelle le filtrage. Prdire ltat dans le cas o
ces modles ne sont pas connus constitue un problme diffrent du prcdent, et plus difficile rsoudre.
Dans ce dernier cas, il sagit dun problme didentification, qui peut se rsoudre en particulier par des
techniques dapprentissage neuronal.
Nous exposons dans cette section la problmatique du filtrage et la technique de filtrage optimal, ou
filtrage de Kalman, pour les raisons suivantes :
on introduira cette occasion des concepts fondamentaux : quation de mesure, bruit dtat, bruit de
mesure, innovation ;
la technique du filtrage de Kalman tendu est la technique la plus employe actuellement dans les
problmes simples didentification paramtrique ;
le filtrage de Kalman fournit une technique efficace dapprentissage des rseaux neuronaux.

Introduction dune quation de mesure et problme du filtrage


Observation des systmes dynamiques linaires
On rappelle la forme de lquation dtat dun systme dynamique command, vue plus haut en section
Identification de systmes dynamiques commands par rgression sous sa forme dterministe :
x(k + 1) = f[x(k), u(k)].
Lapprentissage statistique
246

On suppose le systme stationnaire pour simplifier les notations. Dans le cas linaire, cette quation prend
la forme particulire :
x(k + 1) = Ax(k) + Bu(k).
On suppose maintenant que ltat nest plus compltement observ. On introduit alors une quation de
mesure (ou quation de sortie, ou quation dobservation) de la forme :
y(k) = h[x(k)]
ou, pour le modle linaire stationnaire :
y(k) = H x(k).
Pour identifier la trajectoire dtat partir des mesures, il faut donc trouver ltat initial x(0) dont la
connaissance dterminera toute la trajectoire dtats. partir des quations :
k 1
y(k) = HAk-1-j Bu(j) + HAkx(0)
j =0
o la squence des commandes u(k) est connue, on obtient le systme linaire dinconnue x(0) suivant
quand k varie de 0 n o n est la dimension de lespace dtat :
k 1
HAkx(0) = y(k) HAk-1-j Bu(j).
j =0

Ce systme linaire dtermine sans ambigut ltat initial x(0) pourvu que le rang de la matrice conca-
tne [H ; ; HAn] soit n . On dit dans ce cas que le couple (H, A) est compltement observable.
Cette notion peut stendre au cas des systmes dynamiques mesurs non linaires ([SONTAG 1990],
[SLOTINE 1991]) en introduisant des concepts de gomtrie diffrentielle (crochets de Lie) qui dpassent
le cadre de cet ouvrage.

Filtrage du bruit dtat et reconstruction de la trajectoire


En prsence dincertitude sur lvolution, cette dernire est modlise par un vecteur alatoire v(k)
valeurs dans lespace dtat que lon appelle bruit dtat. Le modle dtat a donc la forme
x(k + 1) = f[x(k), u(k), v(k + 1)].
Dans le cas linaire, cette quation prend la forme particulire :
x(k + 1) = Ax(k) + Bu(k) + v(k + 1).
On a vu dans la section Identification de systmes dynamiques commands par rgression que, dans
ce cas, le modle de lvolution de ltat du systme est un processus stochastique particulier : une chane
de Markov. On suppose maintenant que ltat nest plus parfaitement observ. On introduit alors une
quation de mesure de la forme :
y(k) = h[x(k)]
ou, pour le modle linaire stationnaire :
y(k) = H x(k).
Dans la suite de cette section, nous supposerons que le systme est linaire, jusquau moment o on envi-
sagera explicitement lextension au cas non linaire.
Pour identifier la trajectoire dtat, il faudrait rsoudre de proche en proche lquation linaire en v(k+1)
(ce qui nest pas possible de faon exacte)
Hv(k + 1) = y(k + 1) HAx(k) HBu(k).
Identification neuronale
247
CHAPITRE 4

Le second membre de cette quation


j (k + 1) = y(k + 1) HAx(k) HBu(k )
sappelle linnovation au temps k. Cest une erreur de prdiction de lobservation y(k + 1) qui nous
apporte une information nouvelle pour estimer a posteriori ltat x(k + 1).
Si le systme est compltement observable, on montre quon peut choisir une suite de gains matriciels
(Kk), appels gains dinnovation , telle que lestimation de ltat donne par la formule rcursive
suivante :
x (k + 1) = A x (k) + Bu(k) + Kk+1j(k + 1)
converge. Ce modle sappelle lobservateur dtat de Luenberger.
Le choix des gains dinnovation Kk+1 est soumis la contrainte de stabilit pour viter la divergence du
filtre. Par exemple, dans le cas o nous souhaitons prendre un gain dinnovation constant K pour obtenir un
filtre stationnaire, toutes les valeurs propres de la matrice A KHA doivent tre de module infrieur 1.

Approche variationnelle du filtrage optimal


La dtermination complte du gain dinnovation pourrait se faire en fixant un critre doptimalit qui
serait la somme quadratique des incertitudes du modle, cest--dire, pour chaque temps k, la grandeur
2
positive v k . Cependant, dans beaucoup de situations, il nest pas raliste de considrer que le processus
de mesure est lui-mme exempt derreurs. On choisit donc, chaque temps k + 1, de minimiser, par
rapport la variable vectorielle v(k + 1), la fonction de cot
j(vk + 1) = vk + 1 2 + yk + 1 HAx(k) HBu(k) Hv(k + 1) 2
.

Ce critre des moindres carrs ralise un quilibre ajustable entre lincertitude sur le modle, pondre par
le paramtre de pnalisation , et lincertitude sur la mesure, pondre par le paramtre de pnalisation .
On peut alors calculer chaque tape le gain dinnovation en rsolvant le problme doptimisation
quadratique, ce qui donne immdiatement, en annulant le gradient de la fonction de cot :
0 = 2 (I + HTH) vk+1 2HT[ y(k) HAx(k 1) HBu(k-1)].
On dtermine ainsi le gain dinnovation optimal :
Kk+1 = (I + HTH)-1 HT = HT(I + HTH)-1.
Notons que nous aurions pu faire dpendre les pnalisations et du temps k, ou choisir des pnalisations
matricielles. Mais le problme reste davoir une interprtation de ces pnalisations qui nous aide les
choisir dans les problmes pratiques. Par ailleurs, il faut sassurer que le choix du gain laisse stable le
processus destimation rcursive. Ces questions sont rsolues par linterprtation probabiliste de la
thorie du filtrage de Kalman, qui fait lobjet de la suite de cette section.

Filtrage de Kalman
Dfinition du filtre de Kalman dun systme linaire stationnaire
Les algorithmes partir desquels on peut identifier ltat partir des mesures sont appels des filtres.
Cette terminologie est justifie par lide que ces algorithmes permettent la restitution de ltat en limi-
nant les incertitudes et les bruits qui perturbent linformation que nous avons sur cet tat. Les filtres du
type prcdent sont fonds sur des schmas du type prdicteur-correcteur, utilisant linformation dinno-
Lapprentissage statistique
248

vation pour corriger la prdiction de ltat sur la base de lestimation antrieure. Ce fonctionnement est
illustr par la figure 4-12. On les appelle, pour cette raison, des filtres dinnovation.
Le principe du filtrage de Kalman q -1
[ANDERSON 1979], [HAYKIN 1996],
consiste se placer dans une modlisa-
tion probabiliste des incertitudes de
modlisation et des bruits de mesure volution
pour calculer le gain dinnovation. La Mesure
reconstruction de ltat au vu des
mesures est alors un problme destima-
Innovation
Contrleur
tion baysienne : on dtermine la loi de
probabilit de ltat a posteriori au vu des Gain
mesures disponibles, et lon choisit Mesure K dinnovation
quation
lestimateur des moindres carrs ou celui dvolution (Prdicteur)
du maximum de vraisemblance (estima- (prdicteur)
+
teur MAP). Il peut cependant tre trs
difficile rsoudre pratiquement dans le
q -1
cas gnral. Dans le cas du modle
linaire gaussien, il fournit simplement Figure 4-12. Schma dun filtre dinnovation. Le filtre dinnovation
un algorithme de filtrage rcursif qui est du type prdicteur-correcteur : la correction est apporte au filtre
concide avec celui du filtrage optimal du par linformation de mesure en provenance du dispositif rel. Le filtre
paragraphe prcdent. Cela provient de est rcursif et lestimation est rinjecte dans le filtre, ce qui pose le
problme de la stabilit du filtre.
la proprit fondamentale suivante, bien
connue en calcul des probabilits.

Proprit fondamentale

La loi conditionnelle dun vecteur gaussien par une statistique linaire est gaussienne. Donc, lestima-
teur MAP concide avec lestimateur des moindres carrs et avec la rgression linaire.

Plaons-nous dabord dans ce cadre avec le modle dtat stochastique markovien :


X(k + 1) = AX(k) + Bu(k) + V(k + 1)
et lquation de mesure :
Y(k) = HX(k) + W(k).
On note maintenant les grandeurs vectorielles dtat et de mesure en majuscules car ce sont des variables
alatoires dans ce modle. La suite de vecteurs alatoires [V(k)] est un bruit blanc vectoriel gaussien
temps discret, cest--dire une suite de vecteurs alatoires indpendants gaussiens centrs de matrice de
variance-covariance Q qui modlise le bruit dtat (cest--dire lincertitude sur le modle). La suite de
vecteurs alatoires [W(k)] est aussi un bruit blanc vectoriel gaussien temps discret de variance-cova-
riance R, et modlise le bruit de mesure. Les bruits dtat et de mesure sont indpendants.
Le problme du filtrage est de reconstruire ltat au vu des mesures prsentes ou antrieures linstant k + 1,
soit le vecteur y(k+1) = [y(1), , y(k+1)]. Le critre est la minimisation de lcart quadratique moyen
entre lestimateur X (k + 1) et ltat X(k + 1).
Cest un problme destimation classique dans un modle linaire gaussien. On a vu que, dans ce modle,
la solution optimale X (k + 1) est la rgression linaire de ltat alatoire X(k + 1) sur le vecteur alatoire
Y(k + 1) = [Y(1) ; ; Y(k + 1)] qui reprsente lensemble des mesures disponibles.
Identification neuronale
249
CHAPITRE 4

Pour obtenir cette rgression linaire, nous allons dcomposer le vecteur Y(k + 1) des mesures disponi-
bles au temps k + 1 en la somme de deux vecteurs alatoires dcorrls : le vecteur Y(k) des mesures
disponibles au temps k et le rsidu de la rgression de Y(k + 1) sur ce vecteur. La rgression linaire cher-
che est alors la somme des deux rgressions linaires sur les deux termes de cette somme (thorme de
la projection orthogonale). Calculons donc la rgression de la dernire mesure Y(k + 1) sur le vecteur Y(k)
des mesures prcdentes.
On a :
Y(k + 1) = HX(k + 1) + W(k + 1) = HAX(k) + HBu(k) + HV(k + 1) + W(k + 1).
Comme HAX(k) est le seul terme de la somme qui dpende du pass, la rgression cherche est HA X (k)
+ HBu(k) o lestimateur optimal X (k) est, par dfinition, la rgression linaire de ltat alatoire X(k)
sur le vecteur alatoire des mesures accumules jusqu linstant k : Y(k) =[Y(1) ; Y(k)].
Le rsidu de la rgression de Y(k + 1) sur Y(k) est donc :
Y(k + 1) HA X (k) HBu(k) = HA[X(k) X (k)] + HV(k + 1) + W(k + 1).
On retrouve prcisment lexpression de linnovation apparue au paragraphe prcdent dans la formula-
tion dterministe et variationnelle de la reconstruction de ltat en fonction des mesures. On notera dsor-
mais linnovation au temps k+1 par
J(k + 1) = Y(k+1) HA X (k) HBu(k)
linnovation au temps k + 1 est une variable alatoire indpendante de Y(k).
Lestimateur de ltat au temps k+1 peut donc se dcomposer en la somme de deux termes :
un terme de prdiction qui dpend des mesures disponibles linstant k
A X (k) + Bu(k) ;
un terme de correction qui est le terme (k + 1) dpendant linairement de linnovation au temps k + 1,
que lon peut donc crire
Kk+1(k + 1) = Kk+1 [Y(k + 1) HAX(k) HBu(k)]
o Kk+1 est appel le gain de Kalman du filtre au temps k + 1.La dfinition du filtre est donc rcursive et
scrit
X (k + 1) = A X (k) + Bu(k) + Kk+1(k + 1).
On retrouve la forme prcdente du filtrage optimal par innovation. Le gain de Kalman est le coefficient
matriciel de la rgression linaire de ltat X(k + 1) au temps k + 1 sur linnovation. Ce coefficient est
connu (la rgression linaire est rappele au chapitre 2) et sobtient partir des matrices de covariance et
de variance :
Kk+1 = Cov[X(k + 1), J(k + 1)] Var[J (k + 1)]-1.
Pour calculer le gain de Kalman, il est donc ncessaire de calculer la dynamique des erreurs. Ce calcul est
effectu en complment. On en expose ci-aprs les rsultats :
Si on note Pk la matrice de variance-covariance de lerreur destimation X(k) X (k) et Pk+1 la matrice de
variance-covariance de lerreur de prdiction X(k+1) A X (k) Bu(k), le gain de Kalman est donn par
la formule suivante
Kk+1 = Pk+1HT[HPk+1HT + R]-1
o la dynamique des matrices Pk et Pk+1 est dfinie par les quations suivantes, appeles quations de
propagation de la covariance :
Pk+1 = A Pk AT + Q
Pk+1 = (I - Kk+1H) (APkAT + Q) (I Kk+1H)T + Kk+1RKk+1T.
Lapprentissage statistique
250

Ainsi lvolution des matrices de variance-covariance de lerreur est-elle fixe une fois pour toutes par le
modle et lerreur initiale. Ces matrices peuvent tre prcalcules avant le droulement du processus,
ainsi que la suite des gains de Kalman. Cette proprit est fort intressante dans la pratique et elle est
utilise dans les applications embarques du filtrage de Kalman.

Proprits du filtre de Kalman


Les consquences des calculs du paragraphe prcdent sont fort importantes et certaines dentre elles
peuvent tre tendues des modles plus gnraux. Nous citerons les principales proprits du filtre de
Kalman :
En comparant les deux formules qui dterminent le gain dinnovation dans la formulation variationnelle
et dans le calcul de la rgression, nous constatons que le filtrage de Kalman est un filtrage optimal au
sens du principe variationnel prcdent. Les pnalisations sont variables avec le temps, matricielles, et
peuvent tre prcalcules. Ce sont les variances respectives des erreurs de mesure pour pnaliser lincer-
titude du modle et des erreurs de prdiction pour pnaliser lerreur de mesure.
On montre que le filtrage de Kalman est un algorithme inconditionnellement stable destimation de
ltat. La dynamique de lerreur converge vers un rgime stationnaire optimal mme quand le systme
dynamique lui-mme est instable (pour une dmonstration, voir [ANDERSON 1977] ou [HAYKIN 1996]).
Rsultant de rgressions linaires successives, la suite des innovations est dcorrle et indpendante
dans le modle gaussien. Le blanchiment de linnovation est une caractristique de loptimalit du filtre
qui peut tre observe et teste.

Filtrage de Kalman dun systme linaire non stationnaire


Le filtrage de Kalman sapplique au cas des systmes linaires non stationnaires avec les modles suivants
pour lvolution de ltat :
X(k + 1) = A(k)X(k) + B(k)u(k) + V(k + 1)
et pour la mesure :
Y(k) = H(k)X(k) + W(k)
o les bruits dtat V(k) et de mesure W(k) ont des matrices de variance-covariance qui peuvent varier avec
le temps, notes respectivement Q(k) et R(k).Lquation du filtre est :
X (k + 1) = A(k) X (k) + B(k)u(k) + Kk+1J(k + 1)
avec J(k + 1) = Y(k + 1) H(k + 1)A(k) X (k) H(k + 1)B(k)u(k).
Une itration de lalgorithme de mise jour des covariances et du gain de Kalman scrit ici :
Pk+1 = A(k) Pk A(k)T + Q(k+1)
Kk+1 = Pk+1H(k + 1)T[H(k + 1)Pk+1H(k + 1)T + R(k + 1)]-1
Pk+1 = [I Kk+1H(k + 1)][A(k)PkA(k)T + Q(k + 1)][I Kk+1H(k + 1)]T + Kk+1R(k + 1)Kk+1T.
La suite des innovations est toujours dcorrle. En revanche, il nexiste videmment pas de rgime
stationnaire, et la stabilit de lalgorithme nest plus ncessairement assure.
Nous avons donn ici le principe de lalgorithme. Dans la pratique, notamment dans le cas o la dimen-
sion du vecteur dtat est grande, des difficults peuvent surgir, dues la complexit du calcul et aux
phnomnes de propagation des erreurs dans le calcul de la covariance (inversion de matrice, contrainte
de positivit sur les matrices de variance-covariance). Ces problmes techniques calculatoires peuvent se
produire dans lapplication aux rseaux de neurones. On pourra se reporter pour plus de dtails
[ANDERSON 1977] ou [HAYKIN 1996]).
Identification neuronale
251
CHAPITRE 4

Extension du filtre de Kalman


Cas des systmes non linaires
Le filtrage des systmes dynamiques non linaires est un sujet difficile et qui fait lobjet de recherches
actives. Les rseaux neuronaux sont un moyen parmi dautres de rpondre certains problmes poss.
Pour une introduction au filtrage non linaire, rigoureuse et adapte aux problmes de lingnieur, nous
renvoyons par exemple au manuel dj ancien et antrieur au dveloppement du filtrage numrique
[JAZWINSKI 1970]. La contribution [LEVIN 1997] donne une introduction beaucoup plus courte et destine
justifier la mise en uvre neuronale. Nous nallons pas ici aborder le sujet dans sa gnralit, en parti-
culier la question de lobservabilit du modle, si importante en pratique, ne sera pas voque.
Ce paragraphe a pour objet de donner un cadre formel commode pour prsenter lapplication de la tech-
nique la plus couramment employe, le filtre de Kalman tendu, que nous appliquerons la fin de cette
section lapprentissage dun rseau neuronal. Considrons donc un modle non linaire stationnaire de
systme dynamique mesur dquation dtat avec bruit dtat additif :
X(k + 1) = f[X(k),u(k)] + V(k + 1)
et dquation de mesure :
Y(k) = h[X(k)] + W(k).
Les matrices de variance-covariance des bruits blancs gaussiens dtat et de mesure, notes respective-
ment Q(x) et R(x), sont ainsi les matrices de variance-covariance des lois gaussiennes de Xk+1 et de Yk
conditionnes par la donne de Xk. Ce modle est markovien.
Pour appliquer la technique du filtre de Kalman, on remplace le modle non linaire dvolution par son
approximation linaire au voisinage de lestimation X (k), et le modle non linaire de mesure par son
approximation linaire au voisinage de ltat prdit f[ X (k), u(k)] dans le but de calculer la propagation
des covariances.
On note donc A(k) le gradient de f par rapport x au point [ X (k), u(k)], et H(k + 1) le gradient de h au
point f[ X (k), u(k)].
Lquation du filtre scrit naturellement selon le schma usuel prdicteur-correcteur
X (k + 1) = f[ X (k), u(k)] + Kk+1(k + 1)
avec J(k+1) = Y(k) h{f[ X (k), u(k)]}.
Litration de lalgorithme de mise jour des covariances et du gain de Kalman scrit alors, en tenant
compte des linarisations pour la mise jour [ANDERSON 1977] :
Pk+1 = A(k)Pk A(k)T + Q(k + 1)
Kk+1 = Pk+1H(k + 1)T[H(k + 1)Pk+1H(k + 1)T + R(k + 1)]-1
Pk+1 = [I Kk+1H(k + 1)][A(k)PkA(k)T + Q(k + 1)][I Kk+1H(k + 1)]T + Kk+1R(k + 1)Kk+1T.
Le calcul du gain rsultant dune approximation, il nest plus question que le filtre de Kalman tendu
garantisse une quelconque optimalit. La validit de lapproximation peut nous assurer une sous-optima-
lit (cest--dire lobtention dune solution proche de la solution optimale). La stabilit du filtre de
Kalman linaris au voisinage de lestimation est beaucoup plus difficile garantir que celle du filtre de
Kalman linaire dpendant du temps. Par ailleurs, les calculs du gain doivent imprativement tres
excuts en ligne, ce qui limite leur emploi dans les calculateurs embarqus et les applications en temps
rel. Dans ce cas, la linarisation au voisinage dune trajectoire de rfrence prcalcule est prfre, et
lon est ramen lalgorithme de filtrage de Kalman dans les modles linaires non stationnaires de la
section prcdente. Nanmoins, le filtre de Kalman tendu est souvent utilis, notamment dans les
Lapprentissage statistique
252

problmes didentification. Dans le paragraphe suivant, nous allons aborder cette application laide
dune mthode dextension dtat.

Utilisation du filtre de Kalman tendu pour lidentification


Considrons le modle dtat suivant dun systme dynamique observ :
X(k +1) = A(q)X(k) + B(k)u(k) + V(k + 1)
Y(k) = H(q)X(k ) + W(k)
o le modle dpend dun paramtre inconnu q quil faut estimer. Selon les applications, q peut tre fixe
ou varier lentement. Plusieurs mthodes ont t proposes pour estimer en ligne la fois ltat X(k) et le
paramtre q. Dans la mthode du filtre de Kalman tendu, le paramtre q est incorpor dans ltat. Lqua-
tion dvolution de ltat tendu du modle devient :
X(k + 1) =A[q(k)]X(k) + B(k)u(k) + V1(k + 1)
q(k + 1) = q(k) + V2(k + 1)
Y(k) = H[q(k)]X(k) + W(k).
Le bruit dtat [V2(k)] attribu aux variations des paramtres est artificiel dans le cas dun modle
stationnaire ; il amliore cependant le fonctionnement du filtre en contribuant viter la divergence de
lalgorithme [HAYKIN 1999]. On suppose ici, pour simplifier, lindpendance et la stationnarit de [V1(k)]
et de [V2(k)], ce qui nest pas toujours justifi.Daprs le paragraphe prcdent, lapplication des techni-
ques de linarisation donne les quations suivantes pour le filtre de Kalman tendu :
X (k + 1) = A[ (k)] X (k ) + B(k)u(k) + K1,k+1J(k + 1) (k + 1) = (k) + K2,k+1J(k + 1)
avec la mme notation pour linnovation que dans le cas linaire :
J(k+1) = Y(k + 1) H[ (k)]{A[ (k)] X (k) + B(k)u(k)}.
On remarque que le paramtre et ltat sont mis jour simultanment en utilisant la mme innovation et
avec des gains de Kalman diffrents. Litration de lalgorithme de mise jour des covariances et du gain
de Kalman du paragraphe prcdent sapplique ici pour calculer le gain de Kalman.
Bien que sa mise en uvre sur un calculateur numrique soit relativement simple tant que la dimension
dtat nest pas trop grande, lutilisation du filtre de Kalman pour lidentification conjointement au filtrage
de ltat prsente des inconvnients (manque de stabilit, importance de linitialisation) qui lui font
prfrer des mthodes plus sophistiques mais en principe plus sres. Ces mthodes enchanent gnrale-
ment des techniques de filtrage de Kalman pour lestimation de ltat et des techniques destimation bay-
sienne ou par maximum de vraisemblance a posteriori pour lestimation du ou des paramtres du modle.

Apprentissage adaptatif dun rseau de neurones par la mthode


du filtrage de Kalman
La figure 4-13, que lon comparera la figure 4-12, donne le schma dapplication du filtrage de Kalman
lapprentissage dun rseau neuronal.
Il sagit dun algorithme type Kalman tendu, utilis pour lidentification. Ltat du systme que lon
cherche estimer est donc lensemble des paramtres du rseau de neurones, suppos tre un modle du
dispositif qui produit la base dapprentissage. Les entres-sorties du rseau neuronal fournissent le
processus de mesure qui permet destimer lvolution de la configuration. Ainsi, cet algorithme est bien
adapt la poursuite des variations lentes dun processus, ce qui, comme nous lavons dj mentionn, est
la meilleure justification de la mise en uvre dun apprentissage adaptatif.
Identification neuronale
253
CHAPITRE 4

Lapprentissage du rseau correspond lvolu- q -1


tion de lestimation de ltat. Le fonctionne-
ment du rseau correspond la simulation de la Dispositif
mesure. Lerreur dinnovation est lerreur faite (volution)
au moment de la prsentation dune entre. Dispositif
(fonctionnement)
Lquation dtat linaire X(k + 1) = AX(k) +
Bu(k) + V(k + 1) scrit, avec les notations
habituelles pour lapprentissage dun rseau de Innovation
Entres
neurones, sous la forme suivante :
w(k + 1) = w(k) + V(k + 1)
o w(k) est le vecteur des poids du rseau de Rseau de neurones
(fonctionnement) Gain
neurones au temps k. K dinnovation

Lquation de mesure non linaire Y(k) = h[X(k)]


Rseau de neurones
+ W(k) scrit, avec les notations habituelles pour (apprentissage)
+
lapprentissage dun rseau de neurones, sous la
forme implicite suivante : y(k) = g[x(k), w(k)] +
q -1
W(k). Linnovation de ce modle est : J(k + 1) =
y(k + 1) g[x(k + 1), w(k)]. Figure 4-13. Apprentissage dun rseau de neurones par un
Il sagit l de lerreur dapprentissage que nous algorithme du type Kalman tendu.
avons considre plusieurs reprises dans le
chapitre 2. Pour mettre jour les covariances et calculer rcursivement le gain de Kalman en appliquant
les quations du paragraphe prcdent, il suffit de linariser lquation de mesure. Compte tenu de lqua-
tion dvolution (marche alatoire) et du fait que les matrices de variance-covariance des bruits sont prises
constantes, ces quations se simplifient. Si H(k + 1) dsigne le gradient de la sortie du rseau g relative-
ment au vecteur des poids w au point [x(k + 1), w(k)], on obtient :
Pk+1 = Pk + Q
Kk+1 = Pk+1H(k + 1)T[H(k + 1)Pk+1H(k + 1)T + R]-1
Pk+1 = [I - Kk+1H(k+1)] Pk+1 [I - Kk+1H(k+1)]T + Kk+1RKk+1T
o Q et R sont les notations classiques en filtrage de Kalman pour les covariances de bruit dtat et de mesure.
Lquation du filtre est w (k + 1) = w (k) + Kk+1J(k +1) avec J(k + 1) = y(k + 1) g[x(k + 1), w (k)].
Il faut bien insister sur le fait que le rseau de neurones est un objet mathmatique, et que, en consquence,
la seule configuration existante est la configuration courante que lalgorithme construit : w (k). La confi-
guration idale que lon cherche identifier ou poursuivre nexiste pas physiquement : cest une reprsen-
tation approche du dispositif rel. On reconnat dans lquation du filtre un algorithme de type des algo-
rithmes doptimisation non adaptative du second ordre vus dans le chapitre 2, o la direction de descente
nest pas le gradient de lerreur quadratique qui est H(k + 1)TJ(k + 1). Le gradient peut tre calcul par la
mthode de rtropropagation. La technique dapprentissage par filtrage de Kalman tendu est elle-mme une
mthode du second ordre, mais, la diffrence des algorithmes vus dans le chapitre 2, cest une mthode
adaptative ; lestimation de la courbure de la surface derreur est faite par la mise jour des covariances. Les
difficults de mise en uvre sont celles des mthodes du second ordre (inversion dune grande matrice,
contrainte de positivit) et peuvent tre surmontes par des techniques algorithmiques analogues.
La mise jour de la matrice de variance-covariance pouvant tre trop complexe dans le cas dun rseau
de neurones, en raison de la dimension de lespace de configurations, on propose dans la littrature un
filtre de Kalman dcoupl (DEKF, Decoupled Extended Kalman Filter) o les paramtres sont regroups
Lapprentissage statistique
254

en ensembles supposs dcorrls (par exemple, les poids affrents un mme neurone). La matrice de
covariance garde alors une structure en blocs qui simplifie sa mise jour et son inversion approche
[PUSKORIUS 1994], [HAYKIN 1999].
La mthode du filtre de Kalman est encore peu utilise en pratique cause de la complexit relative de sa
mise en uvre. Elle ouvre nanmoins des perspectives trs intressantes, dans la mesure o il sagit dune
mthode du second ordre qui est naturellement adaptative, contrairement aux autres mthodes du second
ordre utilises communment pour acclrer lapprentissage. Le caractre qui semble arbitraire des
matrices de covariance, peut permettre dinjecter une forme de connaissance empirique sur les perturba-
tions et les bruits du systme quon cherche modliser, et ainsi de rgler les capacits de poursuite du
processus de modlisation. Cette mthode est applique la commande par rseaux de neurones, que
nous dcrirons plus prcisment la fin du chapitre suivant.

Rseaux neuronaux rcurrents ou boucls


Simulateur neuronal dun systme dynamique command en boucle
ouverte
Considrons un rseau neuronal construit par les mthodes du paragraphe sur lidentification neuronale dun
systme dynamique non linaire comme modle de prdiction un pas dune srie temporelle. Nous avons
prsent sur la figure 4-11 le schma dapprentissage pour un modle entre-sortie selon lhypothse NARX,
dont nous avons montr dans le chapitre 2 de cet ouvrage, au paragraphe concernant la modlisation dyna-
mique bote noire , section intitule Hypothse bruit dtat, reprsentation entre-sortie , quelle est
optimale en prsence dun bruit dtat : la sortie du modle linstant k est reconstruite partir des valeurs
passes de la sortie du processus et de valeurs passes de la commande. Si, une fois lapprentissage termin,
la sortie du rseau est boucle sur lentre dtat par le moyen dun oprateur retard dune unit de temps, on
obtient un rseau de neurones entre-sortie rcurrent, en ce sens que le graphe des connexions prsente un
circuit ferm. Ce rseau rcurrent ou boucl, construit en utilisant le rseau non boucl qui ralise la fonction
RN, peut tre utilis pour prdire la sortie du processus sur un horizon fini.
La figure 4-14 reprsente un rseau de neurones rcurrent g(k)
entre-sortie : lentre dtat du rseau est constitu de valeurs
passes de la sortie. Si les paramtres du rseau de neurones ..... g(k-n +1)
ont t estims en boucle ouverte selon le schma dapprentis- g(k-1) ....
sage de la figure 4-11, et si ce rseau est utilis pour prdire la RN
sortie du processus plus dun pas de temps dans le futur q -1
(cest--dire sil est utilis en simulateur), alors cette utilisa- ..... ..... g(k-n) ....
g(k -2)
tion nest pas optimale, comme nous lavons indiqu dans le u(k-1) u(k -m)
chapitre 2 : la qualit de prdiction se dtriore au fur et Entres de g(k-1) Entres dtat
commande
mesure que lhorizon se droule par suite de lintervention du
bruit dtat chaque pas de temps. En revanche, si le bruit qui Figure 4-14. Rseau neuronal rcurrent
intervient dans le processus est un bruit de sortie, et si le entre-sortie, modle dun systme
processus a t identifi laide dun algorithme semi-dirig, dynamique command en boucle ouverte.
dans lequel, pendant lapprentissage, les entres dtat du
modle sont ses propres sorties passes (et non celles du processus), la qualit de la prdiction est optimale,
comme nous lavons montr thoriquement et illustr pratiquement dans le chapitre 2.
Nous supposons ici que la commande u(k) ne dpend pas de ltat (qui est ici la sortie) du processus
command : cela revient donc implicitement supposer que le processus est command en boucle
Identification neuronale
255
CHAPITRE 4

ouverte. Nous allons voir dans le paragraphe suivant quil est galement possible de modliser, par une
combinaison de rseaux de neurones, un systme command en boucle ferme.

Simulateur neuronal dun systme dynamique command en boucle


ferme
De mme quon a considr le modle dun systme g(k)
dynamique command par un rseau de neurones non
boucl, admettant comme entre un couple tat- ..... g(k - n +1)
commande et comme sortie un tat, on peut considrer g(k-1) ....
un contrleur comme une application de lespace RN
dtat dans lensemble des commandes, qui associe q -1
ltat courant la commande calcule par ce contrleur. Entres de g(k-1) g(k -2)
Le schma de la figure 4-15 reprsente la mise en commande ..... g(k- n) ....
cascade de ces deux rseaux de neurones. u(k -1) u(k- m)
Entres dtat
Dans ce schma, ltat dentre alimente, dune part, le RN
modle du processus, et, dautre part, le contrleur qui
calcule la commande. La commande ainsi produite est g(k -2) ..... g(k-n)
la deuxime entre du modle. On a ainsi construit un g( k-1)
nouveau rseau neuronal qui reprsente la dynamique
du systme command en boucle ferme. Figure 4-15. Rseau neuronal rcurrent modle
Si nous bouclons ltat de sortie sur ltat dentre dun systme dynamique contrl en boucle ferme.
comme dans le cas prcdent, nous obtenons un simu- Lensemble du rseau RN et du rseau RN constitue
un modle du systme command en boucle ferme.
lateur neuronal du systme dynamique command en
boucle ferme. Comme dans le cas prcdent, cette
architecture peut tre utilise pour prdire le comportement du systme sur un horizon fini.
Ltude des systmes commands est dveloppe dans le chapitre 5 de cet ouvrage.

Quelques rseaux boucls particuliers


Dans les deux cas prcdents, on a vu des exemples de rseaux de neurones boucls de type entre-sortie,
constitus dun rseau de neurones non boucl, dont la sortie est ramene lentre avec un retard dune
unit de temps. Comme nous lavons vu au chapitre 2, les modles dtat sont plus gnraux et plus parci-
monieux que les modles entre-sortie : ils sont utiles, dune part, dans le cadre de la modlisation bote
noire et, dautre part, lorsquon dsire raliser une modlisation bote grise (dveloppe dans le
chapitre 2), dans laquelle on tient compte dquations algbro-diffrentielles, rsultant dune analyse
physique ou physico-chimique du processus, pour structurer le rseau.
Rappelons dabord que, dans un rseau de neurones rcurrent, des retards doivent tre obligatoirement
spcifis sous peine dentraner une ambigut dans le comportement du rseau. Limportance de la spci-
fication des retards est dveloppe laide dun exemple en complment de ce chapitre. Plus prcisment,
rappelons la rgle nonce dans le chapitre 2.

Rappel

Pour quun rseau de neurones boucl soit causal, il faut que tout cycle dans le graphe du rseau
possde un retard non nul.
Lapprentissage statistique
256

Nous avons vu galement, dans le chapitre 2, plusieurs exemples de rseaux de neurones boucls, de
structures plus ou moins complexes. Nous prsentons ici deux types de rseaux boucls particuliers,
dintrt plus historique que pratique.

Rseau de Elman
Le rseau de Elman est un rseau de Sorties g (k)
neurones couches, propos lori-
gine, comme beaucoup de structures
particulires de rseaux rcurrents la
fin des annes 1980, pour modliser
des phnomnes de contexte dans les
applications des rseaux de neurones x(k+1)
.....
lanalyse linguistique [ELMAN 1990].
La particularit dun contexte relative- q -1
ment la modlisation dtat dun
systme physique est que ce contexte .....
na aucune raison dtre connu, voire Entres externes u(k)
dtre dtermin par une loi physique
donne (quation diffrentielle, prin- Entres dtat x (k)
cipe variationnel) dont il faut identi- Figure 4-16. Rseau de Elman appliqu la modlisation dun systme
fier les paramtres. Les modles de dynamique.
Markov cachs se rvlaient efficaces
malgr leur complexit dans les
problmes danalyse de la parole. Le modle de rseau de Elman se rattache ces ides : il a comme parti-
cularit de proposer de reprsenter le contexte (ou ltat du systme) dans une couche cache du rseau.
En effet, il est inutile de le prsenter la sortie du rseau puisquon sera dans lincapacit de la comparer
une mesure. La figure 4-16 montre un schma du rseau rcurrent de Elman.

Dfinition

Le rseau de Elman est un rseau une couche de neurones cachs dont la sortie constitue ltat :
lordre du modle est donc gal au nombre de neurones cachs. Les entres dtat (appeles units
de contexte par Elman) sont donc les sorties des neurones cachs linstant prcdent. La sortie du
rseau un instant donn est donc une fonction non linaire de lentre externe et de la sortie des
neurones cachs linstant prcdent.

On distingue bien dans le rseau de Elman les composantes essentielles dun systme dynamique
observ : les entres qui sont associes la commande dun systme, les units de contexte associes
ltat du systme et les units de sortie associes la mesure de ltat. Lassociation effectue entre la
couche dentre et la couche cache correspond lquation dvolution dun systme dynamique
command qui associe ltat et aux entres du systme ltat au temps suivant.

Rseau de Hopfield
Les rseaux de Hopfield ont jou un rle historique important pendant quelques annes, partir de 1982.
Motivs par les progrs de la physique statistique des milieux dsordonns et leur application aux
systmes complexes, Hopfield propose en 1982 [HOPFIELD 1982] un rseau neuronal en rupture dlibre
avec le perceptron (qui est tudi en dtail dans le chapitre 6 de cet ouvrage). Il insiste sur le caractre
Identification neuronale
257
CHAPITRE 4

dynamique des rseaux de neurones naturels provoqu par la rcurrence des connexions. Un rseau
neuronal rcurrent est un systme dynamique ; il a donc des attracteurs qui sont des tats dquilibre.
Un rseau de Hopfield est constitu de neurones binaires, cest--dire de neurones dont la fonction dacti-
vation est un chelon : la sortie y dun neurone est donne par la relation :

y=H w x
j
ij j o H(x) = 1 si w x 0 et H(x) = 0 sinon,
j
ij j

et o les xj sont les entres du neurone i, cest--dire les sorties des autres neurones du rseau. Ainsi,
chaque neurone porte une information binaire, et ltat du rseau, cest--dire le vecteur constitu des
sorties des neurones, constitue un vecteur binaire qui peut tre considr comme le code dune informa-
tion.
Il faut noter tout dabord quun rseau de Hopfield est dpourvu
dentres externes : son comportement est autonome, dict unique-
ment par sa dynamique propre. Pour assurer quun tel rseau est
stable (cest--dire que, quel que soit son tat initial, il volue jusqu
ce quil ait atteint un tat dquilibre, indpendant du temps), et pour
calculer facilement ces tats dquilibre, Hopfield introduit une rgle
qui na rien de biologique : la symtrie des connexions. Les
connexions sont symtriques : le poids wji de la connexion reliant le
neurone i au neurone j est gal au poids wij de la connexion qui relie
le neurone j au neurone i ; de plus, chaque connexion est associ un
retard gal une unit de temps. La figure 4-17 est le schma dun
rseau de Hopfield six neurones binaires, avec des connexions
compltes et symtriques (les symboles q-1 reprsentant le retard unit Figure 4-17. Rseau de Hopfield
de chaque connexion ont t omis). Pour Hopfield, ces tats dqui- compltement connect connexions
libre correspondent des codes dinformation, et le processus dyna- symtriques (pour simplifier la figure,
mique allant dun tat initial un tat dquilibre est interprt comme les retards units associs chaque
le processus de rappel dune mmoire associative : ltat initial peut connexion ont t omis).
tre le code binaire dune information incomplte ou partiellement
errone, et ltat final est le code binaire de linformation exacte.
Lapprentissage du rseau consiste alors calculer les paramtres du rseau de telle manire que les codes
des informations que lon souhaite mmoriser soient des tats stables du rseau. Pour cela, Hopfield
propose que la matrice des connexions soit la matrice de corrlation du codage des mmoires. Plus prci-
sment, supposons que le rseau comporte N neurones. Les informations que lon veut coder sont au
nombre de p, reprsentes par des vecteurs xi = (ij). La matrice des poids est note w = (wjl) avec
1 p j l
wjl = i i si j l et wjj =0. On remarque que la matrice de connexion est bien symtrique. Cette
p i =1
rgle dapprentissage est une version trs simpliste de la rgle de Hebb, propose pour rendre compte de
certains phnomnes dapprentissage dans les systmes biologiques. Dautres rgles dapprentissage,
sans aucune vraisemblance biologique, ont permis de garantir que tout ensemble donn de vecteurs en
nombre infrieur N/2) (ou tout ensemble de squences dtats) peut tre mmoris comme un point fixe
(ou comme un cycle) de la dynamique du rseau.
En conclusion, vingt ans aprs leur invention, on peut faire un bilan actuel des rseaux de Hopfield :
En tant que modle du fonctionnement biologique, le modle de Hopfield a lavantage de mettre en
lumire, aprs dautres modles plus anciens mais moins connus, le rle de la dynamique dans les fonc-
Lapprentissage statistique
258

tions cognitives des rseaux de neurones et le lien tabli par la rgle de Hebb entre apprentissage et
corrlation. Des modles plus biologiquement plausibles lui ont succd, qui intgrent des
proprits nouvelles : codage temporel de linformation par les potentiels daction (spikes), carac-
tre dilu et htrogne des connexions qui excluent toute ide de symtrie des poids synaptiques
malgr la rgle de Hebb. Ces proprits nouvelles excluent tout prolongement direct des mthodes
employes par Hopfield malgr la richesse des innovations conceptuelles quon a cites.
En tant que prototype de mmoires associatives, et malgr le dveloppement, dans les annes 1980, de
nouvelles variantes (rseaux de Hopfield de champ moyen fonctions dactivation continues, rseaux
de Hopfield stochastiques et machines de Boltzmann), et la publication dune littrature considrable,
les performances faibles des rseaux de Hopfield ont entran, juste titre, labandon des recherches
leur sujet, notamment celles qui concernent leur applications potentielles en reconnaissance des formes
et la correction derreurs. Les rseaux de neurones qui font lobjet de lessentiel de ce livre sont beau-
coup plus efficaces, et ont une bien plus grande richesse de comportement, que les rseaux de Hopfield.
On a rapproch assez vite le modle de Hopfield de lalgorithme de recuit simul mis au point la mme
poque par Kirkpatrick, Gelatt et Vecchi [KIRKPATRICK 1983]. Ce rapprochement est lorigine dune
importante branche de recherche, lapplication des rseaux de neurones loptimisation, traite au
chapitre 8 de ce livre.

Mise sous forme canonique des rseaux boucls


Les exemples de rseaux de neurones rcurrents donns dans la section prcdente montrent que ces
rseaux sont des systmes dynamiques originaux. Considrs comme systme, les rseaux neuronaux
sont soumis des entres et dlivrent des signaux observs en sortie. Il est donc commode de leur donner
une reprsentation dtat. Cette reprsentation dtat pourra tre utilise pour donner un traitement unifi
qui ne soit pas tributaire de larchitecture de tel ou tel rseau rcurrent, ou non, retards ou non. Cette
forme, dite forme canonique, est dcrite dans le chapitre 2.

Rappel

Tout rseau de neurones boucl, aussi complexe soit-il, peut tre mis sous une forme dtat minimale,
dite forme canonique , laquelle les algorithmes dcrits dans les paragraphes prcdents sappli-
quent directement.

Le paragraphe intitul Mise sous forme canonique des modles dynamiques du chapitre 2, ainsi que les
complments de ce dernier sont consacrs ce problme ; plusieurs exemples illustratifs y sont prsents.

Apprentissage des rseaux de neurones rcurrents ou boucls


E. Sontag [SONTAG 1996] a prouv que les rseaux de neurones rcurrents constituent des approximateurs
universels pour les systmes dynamiques, contrls, mesurs, observables et dterministes. Remarquons
que, comme pour le thorme de Hornik dans le cas statique, ces thormes dapproximation universelle
ne sont pas constructifs, et ne donnent dindication ni sur le choix de larchitecture ni sur lalgorithme
dapprentissage.
La principale difficult de lapprentissage des rseaux neuronaux rcurrents (non linaires) par une
mthode de gradient, du premier ou du second ordre, provient de ce que linfluence de la valeur dun poids
sur la sortie du rseau, donc sur la fonction de cot minimiser durant lapprentissage, nest pas limite
une tape de temps : elle se rpercute sur toute une priode (horizon de calcul) qui thoriquement peut
Identification neuronale
259
CHAPITRE 4

tre infinie. En toute rigueur, pour effectuer le calcul du gradient de la fonction de cot, il faudrait, pour
chaque instance de la base dexemples et pour chaque tape dapprentissage, effectuer le calcul sur tout
lhorizon de prdiction, calculer la correction du rseau et recommencer. Lapprentissage des rseaux
boucls sans modification par rapport aux rseaux classiques serait donc une procdure trs lourde, trs
gourmande en temps de calcul et en espace mmoire ; de plus il serait impossible de la mettre en uvre
dans toutes les applications o le temps rel est requis, et o le retour en arrire et la reproduction de
conditions exprimentales exactes sont impossibles. Ds que les architectures neuronales rcurrentes ont
t appliques lidentification et au contrle de systmes dynamiques, le problme de lapprentissage a
reu plusieurs solutions approches, notamment dans larticle fondamental de [WILLIAMS 1989].
Dans le cas o ltat du systme que lon veut identifier est compltement connu par mesure chaque
instant, il ny a pas en ralit de difficult particulire : on peut mettre en uvre un algorithme dirig
(teacher forcing), dans lequel les entres dtat du rseau reoivent les sorties du processus. Rappelons
que, comme nous lavons indiqu dans le chapitre 2, cette technique ne doit tre mise en uvre que dans
le cas o le systme modliser prsente un bruit dtat ; nous avons montr thoriquement, et dmontr
exprimentalement, quelle peut donner de trs mauvais rsultats pour modliser un processus ayant un
bruit de sortie (ou bruit de mesure).
Dans le cas gnral o la connaissance que lon a de ltat rel du systme un instant donn est incom-
plte ou corrompue par un bruit de mesure, il faut en pratique choisir entre deux approximations :
soit calculer le gradient effectif par rapport aux poids courants mais en tronquant la priode de calcul et
en la limitant une fentre glissante de petite taille (rtro-propagation travers le temps) ;
soit approcher le gradient des tats antrieurs par rapport aux poids courants par la valeur de ces
gradients par rapport aux anciens poids (algorithme RTRL).
Nous allons maintenant exposer ces mthodes plus en dtail.

Apprentissage dirig (teacher forcing)


Figure 4-18. Processus Processus Processus Processus
Apprentissage + + +
dirig dun - - -
rseau boucl.
tat prdit

tat prdit

tat prdit
tat prdit
Entres d'tat
Entres d'tat

Entres d'tat

Entres d'tat
mesures
mesures

mesures

mesures
de la forme canonique

de la forme canonique

de la forme canonique

de la forme canonique
Rseau non boucl

Rseau non boucl

Rseau non boucl

Rseau non boucl


de commande

de commande

de commande

de commande
Entre

Entre

Entre

Entre

Instant initial Instant k Instant k +1 Instant N


k =0

Dans la mthode dite de lapprentissage dirig (teacher forcing), toutes les entres de la forme canonique
du rseau sont connues pendant lapprentissage, puisque ce sont les quantits (sorties ou variables dtat)
qui sont mesures sur le processus. La mtaphore lorigine de la dnomination de cet algorithme pitto-
resque est que le professeur rectifie le comportement de llve chaque instant au lieu dobserver son
comportement pendant une certaine dure avant de le rectifier . Lingnieur, quant lui, dit simplement
que le modle est cal chaque instant sur les donnes exprimentales. Lapprentissage du rseau se
rsume donc une rgression non linaire de la sortie du rseau sur son entre (NARX) comme on la vu
dans la section Identification de systmes dynamiques commands par rgression de ce chapitre, ainsi
que dans le chapitre 2. Le schma de cet apprentissage est prsent dans la figure 4-18.
Lapprentissage statistique
260

On utilise pour lapprentissage une trajectoire dans lespace des tats (ensemble de N couples entre-tat).
Les tats intermdiaires (temps k) sont utiliss la fois comme sortie pour valuer les performances du
rseau calculant lvolution du temps k 1 au temps k, et comme entre pour calculer lvolution du
temps k au temps k + 1. La pratique de cette mthode simple exige que lentre du rseau chaque tape
de temps soit connue et donc interdit son application directe dans le cas gnral de systme dynamique
mesur command.

Dpliement de la forme canonique et rtropropagation


travers le temps
Dans cette mthode pour prendre en considration le caractre rcurrent du rseau, on construit un rseau
non boucl qui reproduit lvolution du rseau sur sa trajectoire temporelle. Comme nous lavons vu au
chapitre 2, ce rseau est obtenu en reproduisant le rseau non boucl de la forme canonique en autant
dexemplaires, ou copies, que dinstants dans la squence utilise pour lapprentissage. Les entres dtat
de la copie correspondant linstant k sont les sorties dtat de la copie correspondant linstant k+1.
Contrairement au cas prcdent, les mesures effectues sur le processus ne sont pas utilises en entres du
rseau pendant lapprentissage : le rseau nest pas cal sur les donnes tout instant : il ne lest qu
linstant initial, si ltat du processus est mesur (sil ne lest pas, les entres dtat sont initialises des
valeurs vraisemblables compte tenu des connaissances que lon possde sur le processus, ou, si lon na
aucune connaissance sur le processus, elles sont initialises zro). Cest pour cette raison que lappren-
tissage est dit semi-dirig. Le dpliement de la forme canonique dun rseau boucl est reprsent sur la
figure 4-19. On obtient ainsi un rseau de neurones non boucl, dont lapprentissage peut se faire par
rtropropagation, sous la contrainte que les poids de toutes les copies soient identiques : on doit utiliser la
technique des poids partags expose dans le chapitre 2.

Figure 4-19.
Processus Processus
Dpliement Processus Processus
temporel de la Sortie Sortie Sortie Sortie
+ + mesure + mesure
forme cano- mesure mesure +

nique dun - - - -

rseau boucl
prdite

prdite
prdite

prdite

Sortie

Sortie
Sortie

Sortie

de la forme canonirque

de la forme canonirque
de la forme canonirque

de la forme canonirque

sur toute la
Rseau non boucl

Rseau non boucl


Rseau non boucl

Rseau non boucl

longueur de la
squence
commande

commande
commande
commande

Entre de

Entre de
Entre de
Entre de

dapprentissage.

Instant initial k =0 Instant k Instant k +1 Instant N

Si les squences dapprentissage sont longues, ou si lon dsire effectuer un apprentissage adaptatif
(cest--dire un apprentissage qui se poursuit continuellement durant le fonctionnement du rseau), on ne
peut pas utiliser lensemble des donnes partir de linstant initial, car le temps de calcul augmenterait
indfiniment. On est alors conduit tronquer les squences dapprentissage, cest--dire ne prendre en
considration, chaque tape de lapprentissage, quun horizon limit dans le pass un nombre fini p
dinstants. Ainsi, linstant n, on ne prend en considration que les instants n p + 1 n. Cela conduit
introduire un changement de notation : nous dsignerons dsormais par k le numro de la copie par
rapport lorigine de lhorizon considr ltape n ; k varie donc dornavant de 1 p. Le schma
dapprentissage est exactement le mme que celui qui est reprsent sur la figure 4-19, avec nanmoins
les diffrences suivantes :
la squence ne stend pas sur n instants, mais sur p instants ;
Identification neuronale
261
CHAPITRE 4

les entres dtat au premier de ces p instants peuvent tre fixes de deux manires diffrentes :
si ltat du processus est mesur, on peut affecter ces entres les valeurs mesures sur le processus :
lalgorithme est alors semi-dirig ;
si ltat du processus nest pas mesur, on doit affecter ces entres la dernire valeur calcule de la
copie correspondante (cest--dire celle qui a t calcule lors des calculs qui ont t effectus
ltape n 1 de lapprentissage) : lalgorithme est alors dit non dirig, puisque ltat mesur du pro-
cessus nest jamais pris en considration durant lapprentissage. Dans ce dernier cas, cette affectation
intgrant rcursivement les informations de tout le pass jusquau temps n p + 1 et ayant t rvise
par p tapes prcdentes peut tre considre comme fiable. Cependant, elle introduit la fois une
cause derreur et un risque dinstabilit. On peut montrer [LION 2000] en introduisant une projection
et en utilisant la thorie de lapproximation stochastique que cette approximation est contrle et
nentrave pas la convergence du systme vers un minimum (local puisquon est dans un cadre non
linaire et non ncessairement convexe).
Il y a donc ici deux indices temporels ne pas confondre, celui de ltape dapprentissage not n et celui
de ltape de temps dans le rseau dpli ltape n, not k avec 1 k p. Une copie du rseau est carac-
trise par les deux fonctions de transfert g et h qui dterminent respectivement ltat et la sortie du rseau
ltape k (voir mise sous forme canonique) en fonction de ltat du rseau, de son entre et de ses para-
mtres de configuration ltape prcdente. On va dtailler les oprations ncessaires pour calculer le
gradient par rtropropagation travers le temps pendant ltape dapprentissage n + 1. Tous les param-
tres de configuration du rseau pris leur valeur courante sont stocks dans le vecteur w.
Pour la n-ime tape dapprentissage, on va utiliser le vecteur des donnes dentre de composantes
k1
u n + 1 = unp+k, pour k variant de 1 p,
et celui des donnes de sortie de composantes
n + 1 = ynp+k+1, pour k variant de 1 p.
k

Si on est dans la situation o ltat du rseau nest pas mesur en apprentissage non dirig, on choisit
comme tat initial du rseau dpli ltape dapprentissage n + 1 lestimation de ltat obtenu ltape
prcdente
0 1
x n + 1 = x n p + 1 = x n .
ltape dapprentissage n + 1, on va effectuer travers le rseau dpli, configur ltape dapprentis-
sage prcdente, les oprations suivantes :
calcul de ltat et de la sortie pour k variant de 1 p,
k k1 k1
x n + 1 = g ( u n + 1, x n + 1, w )
k k1 k1
y n + 1 = h ( u n + 1, x n + 1, w )
comparaison avec les sorties dsires pour k variant de 1 p,
k k k
n + 1 = n + 1 yn + 1
calcul du rseau dpli adjoint obtenu en inversant le sens de propagation des signaux, en remplaant les
nuds par des additionneurs et les fonctions dactivation non linaires par leurs drives, rtropropaga-
tion de lerreur travers le rseau adjoint dpli, pour k variant de 1 p,
k1 k k
n + 1 = g * ( n + 1, n + 1, w )
Lapprentissage statistique
262

La figure 4-20 prsente la construction du rseau 2


adjoint dans un cas simple. (a) (b)
y2
Figure 4-20. Rseau adjoint dun rseau couche en boucle
ouverte. (a) Rseau initial, lindication f symbolise lopra- f 1
teur de passage travers la fonction dactivation non linaire, (b) y1
f
rseau adjoint, lindication f symbolise la multiplication
linaire par la drive de cette fonction au point de fonctionne-
ment du rseau direct prcdent.
f f
On a reprsent dans le schma (a) un rseau couches f f
avec trois entres, une premire couche avec deux
neurones dont un de sortie, et une seconde couche avec
un neurone de sortie. Le rseau reprsente donc une
application non linaire de R3 dans R2 . En (b), le rseau
adjoint reprsente une application linaire de R2 dans x
R3. Les entres du rseau adjoint sont les signaux
derreur associs aux sorties du rseau initial. La dfini-
tion mathmatique est simple : ladjoint de lapplication y = g(x) est lapplication linaire x = [Dg(x)]Te,
o [Dg(x)]T est la matrice transpose de la matrice jacobienne de g en x, cest--dire la matrice des dri-
ves partielles. Il sagit donc l simplement dune reprsentation graphique de lalgorithme de rtropro-
pagation utilis pour lvaluation du gradient de la fonction de cot par rapport aux paramtres.
Une fois obtenus les signaux derreur dans le rseau adjoint, le calcul du gradient de lerreur quadratique
seffectue par la rgle classique de rtropropagation. Il faut nanmoins tenir compte du fait que le rseau
est un rseau dpli et donc de ce que la mme valeur numrique du poids est partage par plusieurs
connexions gomtriquement situes dans des endroits diffrents du rseau dpli par la rplication du
rseau p fois (o p est la profondeur de la fentre temporelle).

Calcul du gradient

La composante du gradient de lerreur quadratique relative un poids de connexion du rseau rcur-


rent est en fait la somme des valeurs calcules des composantes du gradient relativement toutes les
connexions du rseau dpli qui partagent cette valeur.

Ce rsultat a t dmontr dans le chapitre 2, dans le paragraphe consacr la technique des poids
partags.
Remarque
Le lecteur qui dsirerait programmer lui-mme un des algorithmes sus mentionns trouvera, prsentes de manire synthtique, toutes les
formules ncessaires dans le chapitre 3 de la thse de Yacine Oussar Rseaux dondelettes et rseaux de neurones pour la modlisation
statique et dynamique de processus , pages 64 69 (modles entre-sortie) et 72 81 (modles dtat). Cette thse est disponible en version
pdf lURL http://www.neurones.espci.fr. Une discussion technique trs complte, quil serait trop long de reproduire ici, y est prsente.

Apprentissage en temps rel des rseaux boucls


La mthode dapprentissage en temps rel repose sur une autre approximation que la troncature tempo-
relle. Rcrivons lquation de lvolution du rseau rcurrent mis sous sa forme canonique de linstant n
linstant n + 1 :
x(n + 1) = g[u(n), x(n), w(n)]
y(n + 1) = h[u(n), x(n), w(n)].
Identification neuronale
263
CHAPITRE 4

On cherche calculer en w(n) le gradient de lapplication 1 qui w associe y = 1


n+1 n+1
(w) par la suite
de calculs ( partir dune donne initiale dtermine x(0)) :
Pour k variant de 0 n, x(k+1) = g[u(k), x(k), w]
et y = h[u(n), x(n), w]

On en dduit par drivation :


w 1
n+1 n
[w(n)] = wh[u(n), x(n), w(n)] + xh[u(n), x(n), w(n)].w 1 [w(n)]
n n
o lapplication 1 est dfinie comme lapplication qui w associe x = 1 (w) par la suite de calculs
suivante :
Pour k variant de 0 n-1, x(k+1)=g[u(k),x(k),w] et x=x(n)

n
La question est de dterminer w 1 [w(n)] alors que la valeur w(n) ntait pas disponible aux instants
antrieurs n et que, fonctionnant en temps rel, on ne veut pas revenir dans le pass comme dans la
mthode BPTT. Par exemple, ltape n 1, on a effectu le calcul :
x(n) = g[u(n-1), x(n-1), w(n-1)]

au lieu du calcul :
x(n) = g[u(n-1), x(n-1), w(n)]

et avec une trajectoire dtats diffrente qui est calcule en temps rel avec une trajectoire de poids w(k)
au lieu dtre recalcule avec une configuration constante w(n).
Lide est de mettre jour une approximation note w n1 de n1 [w(n)] par la formule rcursive
w

w n1 = [u(n 1), x(n 1), w(n 1)] .


w n1 1
g

Cette approximation peut tre justifie mathmatiquement par lapproximation stochastique dans le cadre
de la thorie des chanes de Markov contrles [BENVENISTE 1987] sous des hypothses que nous ne
dtaillerons pas.
Remarque
Sur le plan pratique de lenchanement des calculs, on remarquera que la mthode dapprentissage en temps rel nutilise pas le rseau
adjoint, en effet contrairement la rtropropagation, on ne se contente pas de calculer la sensibilit ou la part dans lerreur attribue
chaque variable, mais on doit calculer effectivement le gradient. Le calcul se fait donc dans le sens du temps et non pas dans le sens rtro-
grade.

Application des rseaux neuronaux boucls lidentification


de systmes dynamiques commands mesurs
Les applications des rseaux de neurones rcurrents lidentification par la pratique dalgorithmes
dapprentissage non dirigs ou hybrides sont souvent limites des exemples acadmiques, la stabilit
des algorithmes dapprentissage non dirigs tant plus difficile assurer que dans le cas des modles
linaires [LJUNG 1996].
En ce qui concerne lidentification par des modles non linaires, il est donc conseill dessayer en prio-
rit les algorithmes dapprentissage dirigs. Si, dans [HAYKIN 1999], on montre que lidentification par un
modle neuronal NARX de la srie temporelle sin(n + sin(n2)) est suprieure lidentification par un
Lapprentissage statistique
264

apprentissage semi-dirig avec une architecture de complexit comparable, on peut exhiber de nombreux
contre-exemples dans des applications relles : en effet, il est trs frquent, dans un processus bien conu,
que le bruit soit essentiellement du bruit de sortie, ce qui ncessite absolument lutilisation dun algo-
rithme semi-dirig ou non dirig, comme nous lavons montr sur des exemples dans le chapitre 2. De
plus, de nombreux rsultats dapprentissages dirigs mme publis dans la littrature internationale ne
rsistent pas la comparaison avec le prdicteur stupide , comme nous lavons indiqu dans le
chapitre 2.
Pour les rseaux non boucls, les questions qui constituent la mthodologie de conception sont
la slection des entres,
la slection du modle, cest--dire essentiellement la slection du nombre de neurones constituant la
couche cache.
Pour les rseaux boucls, trois questions supplmentaires se posent :
le choix de la reprsentation (reprsentation entre-sortie ou reprsentation dtat),
le choix de lordre du modle,
dans le cas dun apprentissage par rtropropagation tronque : lhorizon de troncature.
Pour le choix de lordre, une identification linaire pralable (o les tests structurels sont mieux matriss)
peut tre trs utile. La recherche de lhorizon de troncature dans la mthode BPTT est aussi un problme
dlicat : en thorie, un dpliement de lordre de lindice rendant observable le modle est suffisant ; en
pratique, les trop grands ordres de dpliement peuvent alourdir la rtropropagation.
Une des difficults dans lapprentissage de rseaux rcurrents est la difficult de capturer des dpendances
temporelles longue porte quand on remonte dans le temps. Cette difficult est tudie dans [BENGIO
1994]. Nanmoins, pour de vraies applications pratiques, on recherche rarement des dpendances tempo-
relles trs longues, car les processus que lon cherche modliser sont eux-mmes rarement stables sur de
trs longues priodes : il existe des drives lentes qui ncessitent de refaire un calage priodique du
modle laide des mthodes adaptatives dveloppes dans ce chapitre. En cas de grande difficult, lutili-
sation de procdures dapprentissage volutives et guides, augmentant progressivement la profondeur
temporelle de lapprentissage, et de mthodes doptimisation robustes, peuvent permettre de surmonter ces
problmes. La solution efficace pour des applications non acadmiques consiste mettre en uvre la tech-
nique de modlisation bote grise que nous avons prsente au chapitre 2, ce qui permet de mettre
profit toutes les connaissances disponibles sur le processus modliser, notamment la forme mathmatique
des quations du modle, son ordre, etc. On rduit ainsi le nombre de degrs de libert dont dispose le
concepteur, qui peut ainsi concentrer son attention sur un nombre rduit de problmes.
Bien entendu, les pr-traitements des donnes, lapprentissage par des mthodes non linaires des rsidus
danalyse par des mthodes linaires, permettent souvent, en dcouplant les difficults, damliorer la
prcision des mthodes non linaires didentification.
Les rseaux de neurones boucls peuvent aussi tre utiliss dans la synthse de contrleurs, comme nous
allons le voir dans le chapitre suivant.

Complments algorithmiques et thoriques

Calcul du gain de Kalman et propagation de la covariance


Plaons-nous dans le cadre du modle dtat stochastique markovien :
X(k + 1) = AX(k) + Bu(k) + V(k + 1)
Identification neuronale
265
CHAPITRE 4

munis de lquation de mesure :


Y(k) = HX(k) + W(k).
On note X ( k ) lestimateur optimal des moindres carrs, cest--dire, la rgression linaire de ltat ala-
toire X(k) sur le vecteur alatoire des mesures accumules jusqu linstant k : Y(k) = [Y(1) ; Y(k)] et
J(k + 1) linnovation au temps k+1 dfinie par
J(k + 1) = Y(k + 1) - HA X ( k ) HBu(k).
Lquation rcursive du filtre dinnovation est donne par
X ( k + 1 ) = A X ( k ) + Bu(k) + Kk+1J(k + 1)
o le gain dinnovation se dduit de la formule de calcul de la rgression linaire :
Kk+1 = Cov[X(k + 1), J(k+1)] Var[J(k + 1)]-1.
On note Pk la matrice de variance-covariance de lerreur destimation X(k) X ( k ) et Pk+1 la matrice de
variance-covariance de lerreur de prdiction X(k+1) - A X ( k ) - Bu(k) . Calculons la variance de lerreur
de prdiction. On a
X(k + 1) A X ( k ) Bu(k) = A[X(k) X ( k ) ] + V(k + 1).
Comme V(k+1) est dcorrl de X(k) - X ( k ) , on obtient simplement lquation de propagation de la
variance de lerreur de prdiction par dveloppement quadratique :
Pk+1 = A Pk AT + Q.
De lexpression de lerreur dinnovation
J(k + 1) = Y(k + 1) HA X ( k ) HBu(k) = H{A[X(k) X ( k ) ]+ V(k + 1)}+ W(k + 1)
on dduit de mme la valeur de sa matrice de variance-covariance en fonction de celle de lerreur de
prdiction au temps k
Var[J(k+1)] = HPk+1HT + R.
Calculons afin de conclure la covariance de ltat X(k+1) et de linnovation J(k+1) :
Cov[X(k + 1), Y(k+1) HA X ( k ) HBu(k)]
= Cov{AX(k) + V(k + 1), HA[X(k) X ( k ) ] + HV(k + 1) + W(k + 1)}
= Cov{AX(k), HA[X(k) X ( k ) ]} + Cov[V(k + 1), HV(k + 1) + W(k + 1)]
= ACov[X(k),X(k ) X ( k ) ]AT HT + Var[V(k + 1)] HT.
Or, daprs la dcorrlation de X ( k ) et de X(k) X ( k ) , on a :
Cov[X(k), X(k) X ( k ) ] = Var[X(k) X ( k ) ] = Pk.
Donc :
Cov[Y(k + 1) HA X ( k ) HBu(k), X(k + 1)] = (A PkAT + Q) HT = Pk+1HT.
Soit finalement :
Kk+1 = Pk+1HT[HPk+1HT + R]-1.
Pour itrer lalgorithme qui est rcursif, calculons enfin la matrice de covariance de lerreur destimation
au temps k+1. De lexpression de cette erreur :
X(k + 1) X ( k + 1 ) = A[X(k) X ( k ) ] + V(k+1) Kk+1[Y(k + 1) HA X ( k ) HBu(k)]
X(k + 1) X ( k + 1 ) = (I Kk+1H){A[X(k) X ( k ) ] + V(k + 1)} Kk+1 W(k + 1)
Lapprentissage statistique
266

soit pour la matrice de variance covariance :


Pk+1 = (I Kk+1H) (APkAT + Q) (I Kk+1H)T + Kk+1RKk+1T.

Importance de la distribution des retards dans un rseau rcurrent


Dans ce chapitre, on a vu des exemples de
rseaux de neurones boucls de type entre- (a) 3 (b) 3 (c) 3 (d) 3
sortie, constitus dun rseau de neurones
non boucl, dont la sortie est ramene z 1
lentre avec un retard dune unit de temps. 2
4
2
4
2 2 z 1
On peut concevoir des modles de rseaux
rcurrents plus gnraux, notamment
1 1 1 4 1 4
lorsquon dsire raliser une modlisation
bote grise (dveloppe dans le chapitre Figure 4-21. Importance du retard pour la mise jour dun
2), dans laquelle on tient compte dquations rseau de neurones.
algbro-diffrentielles, rsultant dune
analyse physique ou physico-chimique du processus, pour structurer le rseau. Observons dabord que,
dans un rseau de neurones rcurrent, des retards doivent tre obligatoirement spcifis sous peine
dentraner une ambigut dans le comportement du rseau. Plus prcisment, rappelons la rgle nonce
dans le chapitre 2 : pour quun rseau de neurones boucl soit causal, il faut que tout cycle dans le graphe
du rseau possde un retard non nul.
La figure 4-16 compare limportance de la spcification des retards pour un rseau dont le graphe orient
ne comporte pas de circuit ferm (rseau non boucl) et pour un rseau rcurrent ou boucl dont le graphe
comporte des circuits.
Dans les schmas (a) et (b) on a reprsent le graphe dun rseau lmentaire quatre units fonctionnant
en boucle ouverte. Dans les schmas (c) et (d), on a adjoint un bouclage qui ferme le rseau. Les architec-
tures statiques (connexions et poids des connexions) sont les mmes pour les rseaux (a) et (b) dune part,
(c) et (d) dautre part. Ces couples de rseaux diffrent par un oprateur retard introduit dans les graphes
des rseaux (b) et (d). tudions leffet de cet oprateur sur ltat du rseau dans les deux cas et en suppo-
sant que les entres des rseaux soient statiques.
Dans le cas (a), ltat de lunit 3 est dtermin au temps 1 par ltat initial des units 2 et 4, tandis que
ltat de lunit 4 est dtermin par ltat de lunit 1. Au temps 2, ltat de lunit 3 est dtermin par
ltat des units 2 et 4 donc en dfinitive par ltat des entres 1 et 2. Dans le cas (b) ltat de lunit 3
nest dtermin quau temps 2 et a le mme tat ce moment que dans le cas (a).
Remarque
En dnitive, dans les rseaux en boucle ouverte nourris par des entres statiques, ltat de toutes les units du rseau se stabilise sur un
tat nal qui ne dpend que de ltat initial des entres quelle que soit la distribution des retards et donc lordre de mise jour des units
(qui est suppos synchrone).
De plus, limportance de lordre de mise jour et des retards nest pas prise en compte dans un rseau
couche avec une propagation unilatrale de linformation et des connexions, qui concerne uniquement des
units dune couche vers les units des couches suivantes. Dans le schma de la figure 4-14, mme si le
rseau fonctionne en boucle ouverte avec connexion uniquement de ltat au temps k vers le contrleur et
le modle interne, on voit quune certaine ambigut existe quant lordre de mise jour. La rgle appli-
que dans ce cas est celle dune mise jour synchrone des units dune mme couche, et squentielle dans
le sens de la propagation de linformation. Ainsi les units de la premire couche cache du rseau du
modle interne attendront-elles, pour se mettre jour, que le rseau simulant le contrleur ait dlivr
Identification neuronale
267
CHAPITRE 4

lentre commande du modle interne. Cette rgle est dautant plus importante que, dans ce cas, les
entres sont destines voluer avec le temps.
Remarque
Il faudra dailleurs distinguer dans ce cas la reprsentation du temps (un pas de temps pour la simulation de lensemble du rseau
compos du modle de contrleur et du modle interne) de celle des tapes de mise jour des diffrentes couches du rseau total lint-
rieur dun pas de temps de lalgorithme.
Examinons maintenant les cas (c) et (d) de la figure 4-16. Les schmas reprsentent larchitecture dun
rseau rcurrent. Cette architecture est identique relativement aux caractristiques statiques, et diffrente
par ladjonction dun oprateur retard dans le cas (d). Au temps 2, ltat de lunit 3 est diffrent dans les
cas (c) et (d), dpendant dans le cas (c) des tats initiaux des units 2 et 4, et dans le cas (d) des units 2
et 1. Cette diffrence se propage au temps suivant ltat de lunit 4 puis ltat de lunit 1 et ainsi de
suite, en introduisant chaque cycle des diffrences supplmentaires.
Remarque
Ltat des units des rseaux rcurrents ne se stabilise pas en gnral mme si le rseau est soumis des entres statiques. La
dynamique de cet tat dpend fortement de la distribution des retards et de lordre de mise jour des units du rseau.

Bibliographie
Une bibliographie commune aux chapitres 4 et 5 est donne en fin de chapitre 5 (p. 255).
5
Apprentissage dune commande
en boucle ferme

Le chapitre prcdent tait consacr la modlisation, par apprentissage (notamment par apprentissage
de rseaux de neurones), des systmes dynamiques commands ; le prsent chapitre prolonge cet expos,
en abordant le problme de la synthse, par apprentissage, dun systme de commande en boucle ferme.
La commande non linaire est une discipline en plein essor depuis une vingtaine dannes, sans que lon
puisse dire quil existe un corpus unifi et synthtique des mthodes employes, comparable celui dont
on dispose pour la commande linaire. On compte au contraire plthore de mthodes ; certaines tudes
sont trs thoriques et tablissent des thormes de commandabilit, dexistence dune commande stabi-
lisante, de validit des techniques de linarisation, quil ne peut tre question dvoquer compltement
dans le cadre de cet ouvrage.
Nous rappellerons cependant certains lments de la thorie de la commande, en insistant sur le rapport entre
systme linaire et non linaire, dans la section suivante. En effet, comme cest souvent le cas pour lutilisa-
tion des rseaux de neurones dans les sciences de lingnieur, les techniques de commande neuronale
prolongent les techniques classiques de lautomatique non linaire en les appliquant un modle du systme
prcdemment identifi par apprentissage. Ces techniques sont exposes dans la section Synthse dune
commande neuronale par inversion du modle du processus , o lon aborde successivement linversion
directe simple mais souvent inefficace , la mthode du modle de rfrence la plus couramment
employe, et lutilisation des rseaux rcurrents dune pratique plus dlicate. Les sections suivantes sont
consacres lexpos des problmes de dcision optimale dans le cadre classique de la programmation
dynamique (section Programmation dynamique et commande optimale ), puis sa contrepartie en thorie
de lapprentissage (section Apprentissage par renforcement et programmation neuro-dynamique ). Les
techniques exposes ont t dcouvertes antrieurement lutilisation des rseaux de neurones, dans le cas
des espaces dtats discret, sous le nom dapprentissage par renforcement . Lutilisation de lapprentis-
sage neuronal pour trouver de bonnes approximations a permis dtendre le champ dapplication de ces
mthodes en vitant lexplosion combinatoire qui limite trop souvent lemploi de lapprentissage par renfor-
cement classique. Cet ensemble de techniques plus modernes, sur lexpos duquel sachve ce chapitre, a
reu rcemment le nom de programmation neuro-dynamique .

Gnralits sur la commande en boucle ferme


des systmes non linaires
Principe de la commande en boucle ferme
Le principe de la commande en boucle ferme ou par rtroaction (feedback) est dliminer les effets des
perturbations apportes au systme en fermant la boucle de commande, cest--dire en asservissant le
Lapprentissage statistique
270

signal de commande ltat du systme. Cette opration est effectue en construisant un systme de
commande, ou correcteur, ou encore contrleur, cest--dire un dispositif qui, prenant en entre ltat du
processus que lon cherche commander (ou plus gnralement la sortie du processus si ltat de celui-ci
nest pas compltement connu), lui associe la valeur du signal de commande appliquer au systme
linstant suivant. Considrons un systme dynamique command tel quil est dfini dans le chapitre 4 :
x(k + 1)=f[x(k), u(k)]
o x(k) est le vecteur dtat du modle linstant k, et u(k) est le vecteur des signaux de commande linstant
k. Le systme de commande calcule la valeur de la commande partir de ltat selon une fonction :
u(k) = [x(k)].
Cette fonction est appele la loi de commande.
Lobjectif le plus simple assign un systme de commande consiste maintenir le processus dans un tat
dsir en dpit des perturbations (on dit que la commande rejette les perturbations ) : on ralise alors
un asservissement . Un autre objectif possible est que la trajectoire dtat du systme commande soit
asservie une trajectoire dtats dsire : on ralise alors un systme de poursuite (tracking system).
Dans ces cas qui reviennent dans toutes les applications, ltat dsir au temps courant sappelle la
consigne et la forme naturelle de la loi de commande est celle dune fonction de la diffrence entre ltat
courant et la consigne.
Un tel dispositif de commande en boucle ferme est Consigne
schmatis dans la figure 5-1. (objectif dsir)

Dans le cas o ltat ne serait pas compltement +


Sortie
connu, la commande ne pourrait en gnral tre dter- Commande Processus
mine quen fonction de lobservation. Les quations Erreur
dun tel systme sont donc formes de lquation q -1
dtat, de celle de mesure et de la loi de commande :
x(k + 1) = f[x(k), u(k)] Figure 5-1. Principe de la commande en boucle ferme.
y(k) = g[x(k)]
u(k) = [ y(k)].
Il est clair que, dans tous les cas, un systme dynamique command muni dune commande en boucle
ferme se comporte comme un systme dynamique non command, et nous serons amen tudier sa
stabilit. Le fait quon introduise des bruits dans les quations sous la forme de processus stochastiques
ne change rien ce principe.
Nous avons dcrit, dans cette prsentation, une loi de commande qui ne dpend que de ltat ou de
lobservation au temps courant. On dit alors que cest une loi de commande statique. En fait, la loi de
commande peut exploiter toutes les informations passes disponibles : il sagit alors dune loi de
commande dynamique. Plus que dans dautres applications, la complexit de la loi de commande est
toutefois limite par les contraintes de temps de calcul : en effet, le calcul de la commande en boucle
ferme doit en principe tre excut pendant la priode dchantillonnage du contrleur pour permettre au
signal de commande dtre appliqu en temps rel.

Commandabilit
La commande du systme ne permet pas toujours datteindre lobjectif souhait. La proprit, pour le
systme command, de pouvoir atteindre lobjectif souhait sappelle la commandabilit. Mme les
modles les plus simples de systmes dynamiques commands, comme les modles linaires, ne
possdent pas ncessairement la proprit de commandabilit quand leur ordre est suprieur 1 (rappe-
lons que lordre est la dimension du vecteur dtat).
Apprentissage dune commande en boucle ferme
271
CHAPITRE 5

Considrons le systme suivant, qui est linaire, dordre 2, commande scalaire :



x(k + 1) = x(k) + 1 u(k).
0

Il nest pas commandable : aucune commande ne peut changer la deuxime composante de ltat. En
revanche, il est facile de montrer directement que le systme linaire suivant

x(k + 1) = 1 1 x(k) + 0 u(k)
01 1
est commandable.
Les proprits de commandabilit sont assez faciles crire pour un systme linaire, o, pour pouvoir
atteindre un objectif donn partir de nimporte quel tat, il suffit datteindre lobjectif 0 [KWAKERNAAK
et al. 1972].
Quand ltat nest pas compltement observ, il faut dabord reconstruire ltat par filtrage avant de le
commander. On montre que lobservabilit et la commandabilit du systme compltement observ est une
condition suffisante de commandabilit du systme partiellement observ [KWAKERNAAK et al. 1972]. Les
conditions de commandabilit sont plus difficiles formuler pour un systme non linaire ; elles font appel
des techniques algbriques plus complexes dont lnonc dpasse le cadre de cet ouvrage.
Dans les systmes rels, une commande damplitude arbitraire ne peut tre ralise. Des contraintes sont
formules sur lensemble des commandes effectivement ralisables et dfinissent lensemble des
commandes admissibles. De telles contraintes, imposes par des considrations techniques souvent
incontournables, bornent en gnral lensemble des commandes admissibles, si bien que, en pratique, les
lois de commande tablies par les mthodes linaires ne peuvent sappliquer directement sans
prcaution : des phnomnes de saturation des commandes peuvent apparatre.

Stabilit des systmes dynamiques commands


La premire proprit que doit possder une loi de commande, cest de garantir la stabilit du systme
command. Nous avons vu, au dbut du chapitre prcdent, quun systme dynamique command en
boucle ferme se comporte comme un systme dynamique non command. Donnons quelques dfinitions
relatives la stabilit des quilibres dans le cadre des systmes dynamiques non linaires temps discret.
On considre dans cette section le systme dynamique temps discret dquation dtat :
x(k + 1) = f[x(k)].

Dfinitions

On appelle quilibre de ce systme dynamique un tat x* tel que f(x*) = x*. On dit aussi que x* est un
point fixe de f.
Un quilibre x* est dit stable si "e, $h, x ( 0 ) x * "k, x ( k ) x *
Un quilibre x* est dit asymptotiquement stable, de bassin dattraction , si pour toute condition
initiale dans , la trajectoire dtat issue de cette condition initiale tend vers lquilibre x*.

La stabilit des systmes linaires x(k + 1) = A.x(k) se dduit facilement des proprits spectrales de la
matrice A. Le point 0 est un quilibre du systme linaire. Si les valeurs propres de A sont strictement
incluses dans le disque unit ouvert, lquilibre 0 est stable et asymptotiquement stable. Si une valeur
Lapprentissage statistique
272

propre est de module suprieur 1, lquilibre 0 nest ni stable ni asymptotiquement stable. Le cas
critique des valeurs propres de module 1 ncessite une analyse particulire.
Cette caractrisation simple des systmes dynamiques linaires est la base de la mthodologie de
synthse des lois de commande des systmes dynamiques linaires par placement des ples des fonctions
de transfert [KWAKERNAAK et al. 1972]. Cette mthodologie est, depuis le dbut de lautomatique, la
base de cette discipline dans ses applications les plus courantes. Popularise dabord dans le cadre des
systmes une variable par une utilisation intensive de la transformation de Laplace, elle a t tendue
aux systmes multivariables. Si ces techniques de lautomatique sont bonnes connatre, pour celui qui
veut mettre en uvre des systmes de commande base de rseaux de neurones, elles ne sont pas direc-
tement transposables aux systmes non linaires. Nous ne les mentionnons ici que pour mmoire.
Dans le cas asymptotiquement stable, la stabilit des quilibres des systmes non linaires se dduit de la
stabilit du systme dynamique linaris. Si x* est un quilibre du systme dynamique x(k + 1) = f[x(k)],
on appelle systme dynamique linaris en x* , le systme dynamique, linaire au point fixe x*,
dquation : x(k + 1) = f x * [x(k) x*] + x*, o f x * est la matrice des drives partielles de f en x*. On
a alors le rsultat fondamental suivant :

Thorme de linarisation

Si le systme linaris en x* est asymptotiquement stable, x* est un quilibre stable et asymptotique-


ment stable du systme dynamique non linaire.

Avec la linarisation, les fonctions de transfert du systme linaris deviennent un outil usuel danalyse et
de synthse des lois de commande des systmes non linaires [SLOTINE et al. 1991]. Plus prcisment, un
thorme de linarisation des systmes dynamiques commands permet daffirmer que, dans le cas o le
systme linaris est commandable, la loi de commande du systme linaris, introduite en boucle ferme
dans le systme non linaire, permet de stabiliser localement ce systme [SONTAG 1990].
La mthode de la fonction de Liapounov [SLOTINE et al. 1991], directement inspire de ltude de la stabi-
lit des systmes dissipatifs en physique, offre une mthode gnrale dtude de la stabilit des quilibres
des systmes dynamiques non linaires.
Malgr limportant thorme de linarisation que lon vient dnoncer, les difficults dtude de la stabi-
lit des systmes non linaires restent nombreuses :
il peut exister plusieurs quilibres dont les stabilits sont diffrentes : le thorme de linarisation est un tho-
rme local, qui ne dit rien sur la taille des bassins dattraction des quilibres asymptotiquement stables ;
il peut exister des attracteurs dynamiques, confrant au systme une stabilit globale mme sil nexiste
aucun quilibre stable : lexemple le plus simple de tels attracteurs est le cycle limite stable, tel quil
existe dans loscillateur de Van der Pol dcrit dans le chapitre prcdent.
Lintroduction de bruit dans les quations change la nature de ltude de la stabilit des systmes. On a vu,
dans la section du chapitre prcdent consacre la modlisation de systmes dynamiques, que lquivalent
stochastique dun systme dynamique dterministe mis sous forme dtat est un processus de Markov, et que
lquivalent stochastique dun quilibre est la mesure de probabilit invariante (dfinie dans le chapitre 4) de
ce processus. Dans le cas dun systme linaire stable perturb par un bruit dtat gaussien, cette probabilit
dcrit la statistique des fluctuations de ltat du processus autour de lquilibre 0 du systme non perturb.
Dans le cas dun systme non linaire avec plusieurs quilibres attracteurs, la situation est beaucoup plus
complexe : en effet, il se produit avec quasi-certitude , aux temps longs, des fluctuations qui font passer
ltat dun bassin dattraction dterministe lautre. La thorie dite des grandes dviations permet de
mesurer ces probabilits de passage ([BENVENISTE et al. 1987], [DUFLO 1996]).
Apprentissage dune commande en boucle ferme
273
CHAPITRE 5

Nanmoins, le but gnral des systmes de commande dvelopps dans ce chapitre (et dans la plupart des
applications) tant de ramener ltat sur un quilibre ou de poursuivre une trajectoire de rfrence, ltude
des systmes plusieurs attracteurs ne nous concerne pas directement.

Synthse dune commande neuronale par inversion


du modle du processus

Inversion directe
La mthode la plus simple pour construire un systme de commande neuronal partir dun modle du
systme dynamique command, identifi sous forme dun rseau de neurones en boucle ouverte, est
linversion directe du modle. Le systme de commande est alors simplement linverse du modle du
processus. Si ce modle est non linaire, son inverse lest gnralement : il peut donc tre constitu par un
rseau de neurones, dont lapprentissage et lutilisation sont schmatiss sur la figure 5-2.

tat mesur x
Sortie du
modle +
(a) sortie RN
(optionnelle)

CONTRLEUR Modle du
processus
Consigne RN Figure 5-2. Principe de
Commande u
lapprentissage (a) et de
lutilisation (b) dune
commande neuronale en
Apprentissage boucle ferme par inversion
du modle.

tat mesur x

(b)
CONTRLEUR Sortie du
Processus processus
Consigne RN Commande u
RN

Dans cette figure, on a adjoint au rseau de neurones qui constitue le modle du processus un rseau de
neurones qui calcule la loi de commande. Ce rseau est aussi un rseau non boucl qui a pour entre ltat
et, dune faon optionnelle, la consigne dsire (tat au temps suivant) dans le cas o lon souhaite que
cette consigne soit variable. Sinon, le contrleur admet pour entre unique ltat du systme au temps k.
La sortie du contrleur neuronal est la commande au temps k qui, lors de lapprentissage, est applique
lentre de commande du modle, et qui, lors de lutilisation, est applique lentre du processus.
Lensemble (contrleur + modle) constitue un rseau de neurones non boucl qui admet pour sortie ltat
au temps suivant. Lapprentissage seffectue en minimisant la diffrence entre ltat dsir ou consigne et
la sortie du rseau. Seuls les paramtres du contrleur (poids et biais) sont variables et modifis par le
Lapprentissage statistique
274

processus dapprentissage. Les paramtres du modle restent inchangs par le processus dapprentissage,
ce qui est traduit dans la figure par des hachures de style diffrent.
La fonction de cot est gnralement un cart quadratique entre la sortie dsire et la sortie mesure. Si
des contraintes sont imposes la commande, elles peuvent ltre directement dans le rseau contrleur.
Par exemple, si la commande admissible est borne, on peut exprimer ces contraintes dans les fonctions
dactivation de la couche de sortie du contrleur (sigmode). On peut aussi exprimer ces contraintes en
introduisant une sortie auxiliaire au niveau du contrleur, et en rtropropageant une pnalit qui dpend
de la commande produite.
Cette dmarche directe ne donne de bons rsultats que pour les problmes simples o lobjectif peut
sexprimer instantanment en fonction de ltat. Si lobjectif porte sur ltat final ou lensemble dune
trajectoire dtats, la mthode directe ne peut tre mise en uvre. On pourra utiliser le dpliement
temporel de lensemble contrleur + modle, et lapprentissage du contrleur par rtropropagation
travers le temps. Cette stratgie sera dveloppe dans la suite de cette section. Mme dans le cas o lon
peut construire un objectif portant sur ltat courant, lapprentissage nest pas toujours efficace : pendant
lapprentissage, la rtropropagation travers le modle peut fournir au contrleur un signal derreur trs
affaibli, insuffisant pour permettre datteindre les objectifs assigns au contrleur.
Par ailleurs, cette mthode nest videmment pas robuste par rapport aux erreurs de modlisation : la
commande tant calcule partir du modle, elle ne peut pas tre prcise si le modle lui-mme ne lest
pas. Lutilisation de la commande avec modle interne qui sera dveloppe dans la suite de cette section
peut permettre de surmonter limprcision de la modlisation.

Exemple illustratif : le pendule invers


Les simulations suivantes montrent, sur un exemple pourtant trs simple, la pratique et les limites de la synthse
dune commande neuronale par inversion directe du modle du processus. Il sagit de la commande du pendule
invers. Ce systme dynamique command a t introduit au chapitre prcdent dans la section Exemple de
pendule invers , et le modle neuronal a t aisment identifi, et avec une bonne prcision, partir de lqua-
tion dtat. Le domaine dangle choisi pour lapprentissage correspond lintervalle [ /5,/5], soit une zone
de non-linarit modre. La frquence dchantillonnage est de 50 Hz.
Lapprentissage du contrleur a t effectu par inversion directe du modle interne. La procdure dopti-
misation choisie est une mthode du second ordre (algorithme de BFGS, introduit dans le chapitre 2). On
suppose que ltat est compltement observ. Le but est de stabiliser ltat sur la position dquilibre
instable. La fonction de cot prend donc en considration lcart de langle par rapport cette position
dquilibre, et lcart de la vitesse angulaire par rapport zro. On remarque que loprateur effectue donc
un choix en fixant les coefficients de pondration des deux carts quadratiques. On va voir que ce choix a
une influence sur lefficacit du contrleur.
Le contrleur ainsi calcul est test pour la stabilisation du systme partir dune position angulaire
initiale, gale la moiti de lcart maximal utilis pour lapprentissage. Dans tous les cas, le contrleur
a un bon fonctionnement nominal et stabilise sans difficult le systme. On teste maintenant la robustesse
de ce contrleur en perturbant la commande par un bruit multiplicatif de la forme (1+), o est un bruit
blanc numrique normalis, et le facteur de bruit de commande. Outre les tudes classiques et impor-
tantes de robustesse du contrleur face aux perturbations externes et aux imprcisions de la modlisation
(bruits dtat et de mesure), il est en effet important, en pratique, de sassurer de la robustesse du contrle
par rapport la loi de commande elle-mme qui nest mise en uvre quavec des erreurs (erreurs num-
riques darrondi, erreurs lectro-mcaniques des moteurs de commande). Lefficacit du contrleur
synthtis dpend de la fonction de cot choisie, comme le montrent les figures suivantes.
Apprentissage dune commande en boucle ferme
275
CHAPITRE 5

Dans la premire exprience, dont la Variations de langle command


0.6
figure 5-3 reprsente une trajectoire
typique, la pondration de lcart de 0.4

Angle (rad)
vitesse prise dans la fonction de cot est
suprieure celle de lcart dangle. Le 0.2
systme nest stabilis que pour un 0
facteur de bruit de commande infrieur
0,5. Un facteur de bruit suprieur entrane 0.2
0 2 4 6 8 10 12 14 16 18 20
gnralement une sortie du domaine de Temps (sec)
viabilit dans une dure infrieure celle
choisie pour lexprience (20 secondes). Variations de la vitesse commande
0.4
La vitesse est stabilise autour de la
0.2
Angle (rad/s)

consigne comme le montre la figure 5-3.


La stabilisation de la position est beau- 0
coup plus lente que celle de la vitesse, et
la position de rfrence nest pas atteinte 0.2
pendant la priode de lexprience.
0.4
Dans la seconde exprience, la pond- 0 2 4 6 8 10 12 14 16 18 20
Temps (sec)
ration de lcart quadratique des
vitesses est infrieure celle de lcart Figure 5-3. Trajectoire du systme stabilis avec un facteur de bruit de
quadratique de position. Le contrleur commande de 0,5. (Mthode dinversion directe avec pondration sup-
est plus robuste au bruit de commande rieure de lcart des vitesses dans lobjectif.)
( = 3) comme le montre la figure 5-4
prsente ci-aprs. Variations de langle command
0.4
Si lon choisit une pondration de 0.3
lcart quadratique de position inf-
Angle (rad)

rieure celle de lcart quadratique des 0.2


vitesses, le systme est mal stabilis 0.1
ds que lon introduit un bruit de 0
commande. Ainsi, dans le cas dune
-0.1
optimisation multi-critre, la mthode 0 2 4 6 8 10 12 14 16 18 20
dinversion directe suppose une Temps (sec)
connaissance empirique du systme Variations de la vitesse commande
1
qui sintroduit implicitement dans le
choix de lobjectif instantan. La 0.5
Angle (rad/s)

robustesse du contrleur dpend forte- 0


ment de cette fonction. -0.5
En conclusion, la mthode dinversion -1
directe est une solution simple dans
-1.5
son principe mais dont la mise en 0 2 4 6 8 10 12 14 16 18 20
uvre peut ncessiter une connais- Temps (sec)
sance du fonctionnement du systme Figure 5-4. Trajectoire du systme stabilis avec un facteur de bruit de
plus approfondie quil ny parat. Sa commande de 3. (Mthode dinversion directe avec pondration sup-
robustesse face aux perturbations rieure de lcart de position.)
varies et aux erreurs de modlisation
doit tre vrifie et souvent des amliorations de cette mthode sont ncessaires. Nous allons examiner
maintenant quelques-unes de ces amliorations, slectionnes pour leur caractre pratique.
Lapprentissage statistique
276

Utilisation dun modle de rfrence


Lutilisation dun modle de rfrence, notamment mais non exclusivement en commande adaptative
(appele mthode MRAC, pour Model Reference Adaptive Control dans la littrature anglo-saxonne),
permet de bnficier plus rationnellement, quand cest possible, de la connaissance a priori du systme
pour synthtiser la commande [RIVALS et al. 2000]. Dans cette mthode, la fonction de cot instantane
nest pas choisie pour se rapprocher le plus possible, chaque pas de temps, de lobjectif souhait, mais
pour asservir le systme command en boucle ferme une trajectoire de rfrence, choisie en fonction
de la connaissance du systme contrl et des capacits des actionneurs.

Remarque

On utilise toujours implicitement un modle de rfrence : dans la commande simple dcrite dans le
paragraphe prcdent, le modle de rfrence se rduit un simple retard.

La figure 5-5 prsente ci- tat mesur x


Sortie
aprs donne le schma du modle +
gnral de lapprentissage RN
dun contrleur neuronal
avec un modle de rfrence. CONTRLEUR Modle du
processus
La mthode du modle de Consigne RN
Commande u
rfrence a fait ses preuves
dans de nombreuses applica-
tions des problmes rels, Apprentissage
o elle est utilise pour Modle de rfrence
amliorer les performances
de systmes dynamiques Figure 5-5. Apprentissage dun contrleur avec modle de rfrence.
commands par des moyens Variations de langle command
0.6
classiques. Quand on le
peut, on choisit pour trajec- 0.4
Angle (rad)

toire de rfrence celle dun


systme linaire avec un 0.2
amortissement critique qui 0
est calcul sur une constante
de temps souhaitable. Sur -0.2
0 2 4 6 8 10 12 14 16 18 20
notre exemple du pendule Temps (sec)
invers, cette mthode donne Variations de la vitesse commande
des rsultats bien meilleurs 1
au voisinage de lquilibre, 0.5
Angle (rad/s)

avec le mme modle que 0


prcdemment, comme le -0.5
montre la figure 5-6, typique -1
des trajectoires du systme -1.5
contrl en boucle ferme -2
avec un facteur de bruit de 0 2 4 6 8 10 12 14 16 18 20
Temps (sec)
commande de 3.
Figure 5-6. Trajectoire du systme stabilis avec un facteur de bruit de commande de 3.
(Mthode du modle de rfrence.)
Apprentissage dune commande en boucle ferme
277
CHAPITRE 5

Une autre mthode de synthse q -1


de commande neuronale, pro- tat du
pose dans [LEVINE 1993] et modle du
processus
sapparentant la mthode du
modle de rfrence, consiste
choisir pour rfrence le RN Changement
systme dynamique command, des variables
Changement Modle du dtat
linaris au voisinage du point de variable processus
de stabilisation. Lapprentissage de commande
neuronal est alors utilis pour
calculer les changements de Commande Apprentissage des +
changements de variables
variables non linaires sur ltat
et la commande afin de ramener Commande
linarise
le systme non linaire son +
linaris comme le montre le Modle
tat du linaris +
schma de la figure 5-7. modle
linaris
On notera que, si le changement q -1
de variables sur ltat ne met en
jeu que ltat courant, le change- Figure 5-7. Linarisation du systme command par apprentissage des change-
ments de variables.
ment de variable sur la
commande met pour sa part en
jeu la commande et ltat courant.

Commande avec modle interne


Comme nous lavons mentionn plusieurs reprises dans cet ouvrage, il est en gnral trs fructueux de
chercher tendre, au domaine non linaire, des mthodes connues et prouves dans le domaine linaire.
La commande neuronale avec modle interne en est un exemple. La figure 5-8 donne le schma
gnral dune commande avec modle interne (et un modle de rfrence explicite). Comme son nom
lindique, la commande avec modle interne met en jeu, outre un contrleur, un modle du processus, dit
modle interne ; lerreur de modlisation est utilise pour modifier la consigne, si bien que le systme
est robuste aux erreurs de modlisation, ce qui nest pas le cas pour la commande par modle inverse.

CONTRLEUR

Commande u
Consigne RN Figure 5-8.
Sortie du
modle interne + Commande avec
+ RN modle interne.

Modle du
processsus,
appel modle
interne
Sortie
du processus
Processus
Lapprentissage statistique
278

Lapprentissage du contrleur se fait selon le schma de la figure 5-5 ; nanmoins, il faut remarquer que
le contrleur na pas pour entre ltat du processus, mais celui du modle interne. Il faut donc que
lapprentissage soit effectu partir de squences qui soient bien reprsentatives du domaine de variation
des variables dtat de ce modle.
Cette stratgie de commande a permis de nombreuses applications pratiques ; on trouvera une description
dtaille de lutilisation de cette technique pour le pilotage autonome dun vhicule dans [RIVALS 1995].

Commande prdictive et utilisation des rseaux rcurrents


Nous avons vu que la synthse dune commande neuronale par inversion du modle interne ne fournit pas
de rsultats trs satisfaisants par inversion du modle dvolution sur un pas de temps. La mthode du
modle de rfrence permet, dans certains cas, dutiliser la connaissance heuristique ou analytique que
lon possde sur la dynamique du systme. Quand on nen dispose pas, il faut prendre en considration
directement, dans lapprentissage, la dynamique du modle interne. Dans le domaine linaire, la
commande prdictive offre galement une stratgie de commande trs utilise [MORARI, LEE 1999].
Elle consiste calculer chaque pas de temps une commande optimale horizon fini (lhorizon de prdic-
tion) sous contrainte en fonction de ltat courant puis mettre en uvre le contrle calcul la premire
tape avant de passer ltape suivante. On utilise ainsi la puissance algorithmique des logiciels de
programmation sous contrainte utilise pour les mmes raisons de robustesse dans les machines vecteurs
supports voques au chapitre 6. On obtient en dfinitive une loi de contrle en boucle ferme calcule
partir dune optimisation dune commande en boucle ouverte. Il faut alors introduire des contraintes de
stabilit supplmentaires. Cette mthodologie trs tudie depuis une quinzaine dannes donne dexcel-
lents rsultats dans lindustrie des procds.
Dans le domaine non-linaire, la mise en uvre dune mthodologie similaire exige quon construise des
modles non-linaires capables de prdiction correcte sur un certain horizon [LEE 2000].
On le fera en utilisant des rseaux de neurones boucls et en mettant en uvre la rtropropagation dyna-
mique qui a t prsente dans les chapitres 2 et 4. Le schma de la figure 5-9 montre comment construire
un tel rseau rcurrent, dans le cas o lon utilise une rcurrence externe.

Figure 5-9. Synthse dune


q -1
tat prdit x commande neuronale en
sortie
+ boucle ferme par inversion
(optionnelle) du modle interne en rtropro-
RN Sortie
du pagation rcurrente.
modle
CONTRLEUR Modle du
processus
Consigne RN
Commande u

Apprentissage

Modle de rfrence

Dans ce cas, le rseau total, constitu de la concatnation du contrleur neuronal et du modle interne
admettant comme entre ltat du systme et comme sortie ltat du systme au temps suivant, est rendu
rcurrent par une boucle de retour dtat. On trouvera des applications concrtes de contrle prdictif
utilisant des modles neuronaux dans [GRONDIN 1994], [HENRIQUES et al. 2002], [GIL et al. 2002].
Apprentissage dune commande en boucle ferme
279
CHAPITRE 5

Commande dun systme dynamique mesur par rseau de neurones rcurrent


Nous allons conclure cette section sur la synthse dune commande neuronale par lvocation dun impor-
tant travail men par des chercheurs en milieu industriel, que nous avons dj cit dans les sections du
chapitre prcdent consacres au filtrage de Kalman et aux rseaux boucls [PUSKORIUS et al. 1994]. Les
auteurs tudient plusieurs exemples de stabilisation de systme dynamique command non linaire, o
ltat nest pas connu (mesure incomplte et bruite). Outre ltude de plusieurs systmes provenant de
problmes industriels rels (racteur biochimique prsentant des cycles limites, commande de la vitesse
de rotation du moteur dun vhicule larrt), ce travail dtaille ltude de la commande dune variante
difficile du problme du pendule invers le problme de la stabilisation du pendule invers mont sur un
chariot (pole-cart problem). Ce problme est un banc dessai classique des mthodes de stabilisation des
systmes dynamiques non linaires. Le systme est schmatis dans la figure 5-10.
La commande est une force applique au chariot. Cette force agit sur ltat
du chariot, et, par inertie, sur ltat du pendule invers coupl au chariot. Le
couplage est non linaire. Il y a quatre variables dtat : la position du chariot
x, langle du pendule q et les vitesses associes. Les observables choisies
sont gnralement les deux variables de position. Lobjectif consiste stabi- u
liser le pendule tout en gardant le chariot au plus prs de sa position centrale.
Ltat ntant pas connu, les auteurs utilisent un rseau rcurrent de Elman x
(dcrit au chapitre 4 dans la section consacre aux rseaux boucls) pour identi-
fier le systme. Le schma de ce type de rseau est montr sur la figure 5-11. Figure 5-10. Problme du
pendule invers mont sur
Le rseau total form du contrleur et du modle interne comporte deux le chariot.
types de bouclages : une rcurrence externe exprimant le retour de la mesure
sur le contrleur, et une rcurrence interne de la couche cache exprimant pour sa part la dynamique de
ltat inconnu. Le contrleur neuronal est lui-mme un rseau rcurrent dont lentre comprend la
consigne et les deux variables mesures, dont la couche cache est constitue de six units rcurrentes, et
dont la sortie exprimant la commande est constitue par un neurone auto-rcurrent. Lapprentissage des
rseaux rcurrents est effectu par lalgorithme adaptatif du filtre de Kalman tendu dcoupl DEKF,
dcrit au chapitre prcdent dans la section consacre au filtrage.

Mesure q -1 Figure 5-11. Synthse


dune commande
q -1 neuronale en boucle
ferme par rtropro-
+ pagation rcurrente
travers un rseau de
RN RN Elman.

CONTRLEUR Modle du Mesure


processus
Consigne RN Commande u

Apprentissage

Modle de rfrence

Le problme est rendu plus difficile par ladjonction dun bruit de commande analogue celui qui a t
dcrit plus haut dans ltude sur la robustesse du contrleur neuronal du pendule invers. Cette technique
Lapprentissage statistique
280

permet de rsoudre le problme de stabilisation du systme de faon satisfaisante dans diverses conditions
exprimentales.

Programmation dynamique et commande optimale


Exemple de problme dterministe espace dtats discret
Reprenons lexemple de systme dynamique command simple, espace dtats discret, reprsent sur la
figure 4-1, et dcrit au dbut de la section du chapitre 4, Formalisation et exemples de systmes dyna-
miques commands temps discret . Pour dfinir un problme de commande, nous devons dfinir le
critre sous la forme dune fonction de cot minimiser. On peut, par exemple, se fixer pour objectif de
rejoindre une case du labyrinthe (la sortie 35), le plus vite possible. Dans ce cas, nous donnerons chaque
triplet (tat initial, action, tat final) un cot unit, except un triplet dtat final 35 permettant la sortie,
auquel nous attribuons un fort cot ngatif A (rcompense).
Le problme de la commande optimale consiste dterminer une commande en boucle ferme (dans le
contexte dun espace dtats discret, on parle plutt de politique ou de stratgie), cest--dire une fonction
de lespace dtats E dans lespace des commandes ou des actions A qui, tout tat, associe une
commande (dans ce contexte, on parlera plutt daction) ralisable dans cet tat. Un couple form par un
tat et une action ralisable dans cet tat sera appel un couple tat-action admissible.
En fait, pour les problmes horizon fini, on conoit que la politique optimale ne soit pas stationnaire : si
nous parcourons une fort en dbut de journe, nous cherchons avancer le plus rapidement possible ; en
revanche, en fin de journe, nous cherchons plutt rejoindre un refuge pour y passer la nuit. Dans un lieu
donn, les deux directions ne sont gnralement pas les mmes. On devra donc considrer, dans les
problmes horizon fini, des politiques non stationnaires, cest--dire des fonctions de ltat et du temps
valeurs dans lespace des actions.
Dans notre exemple simple, les quatre actions possibles N, S, E, O 11 12 13 14 15
(nord, sud, est, ouest) sont ralisables dans tous les tats. une
politique donne est associ un systme dynamique. Si cette poli-
tique est stationnaire, le systme dynamique est autonome. Ainsi, 21 22 23 24 25
dans notre exemple, la politique stationnaire et constante qui,
tout tat, associe laction E, correspond le systme dynamique dont 31 32 33 34 35
des exemples de trajectoires dtat-action sont :
w1 = ((12, E), (13, E), (14, E), (15, E), (15, E)) trajectoire issue
41 42 43 44 45
de ltat initial 12,
w2 = ((21, E), (22, E), (22, E)) trajectoire issue de ltat initial 21,
w3 = ((24, E), (24, E)) trajectoire issue de ltat initial 24, 51 52 53 54 55
w4 = ((32, E), (33, E), (34, E), (35, E),(35)) trajectoire issue de
ltat initial 32
Figure 5-12. Schma du labyrinthe de la
Ces trajectoires sont reprsentes dans la figure 5-12.
figure 4-1, avec reprsentation des
chaque trajectoire dtat-action est associ un cot total J qui, trajectoires associes la politique de
en principe, est la somme des cots de chaque tape de la trajec- commande constante E.
toire. Il faut distinguer les problmes horizon fini des problmes
horizon infini. Si le nombre de transitions tudi est fix lavance, par exemple N, il suffit de prendre
comme critre la somme effective des cots de chaque tape, laquelle sajoute ventuellement un cot
terminal. Par exemple, la politique constante consistant choisir laction E, et lhorizon fini N = 10,
Apprentissage dune commande en boucle ferme
281
CHAPITRE 5

est associe la fonction de cot JN qui vaut, sur les trajectoires prcdentes, dans le cas o lon ne prend
pas en considration un cot terminal :
JN(w1) = 10, JN(w2) = 10, JN (w3) = 10, JN (w4) = 3 7A ...
Dans la modlisation de cet exemple, on peut aussi, plus naturellement, attribuer chaque couple tat-
action le cot unit, et choisir un cot terminal gal A sur ltat-cible 35, et gal A sur tout autre tat.
On obtient alors comme cot total sur les trajectoires prcdentes :
JN(w1) = 10 + , JN(w2) = 10 + , JN(w3) = 10 + , JN(w4) = 10 ...
Hlas, on ne connat gnralement pas lhorizon lissue duquel on peut atteindre son objectif mme si
on le souhaite le plus court possible et, dans ce cas, il nest pas possible de restreindre son horizon. On
est alors conduit considrer des problmes horizon infini. Pour ces problmes, on ne peut pas toujours
dfinir le cot total comme la somme effective des cots des transitions. En effet, la somme de la srie
reprsentant le cot total dune trajectoire peut diverger. On dispose alors de plusieurs solutions pour
dfinir le cot dune trajectoire infinie.
On peut le dfinir comme la limite quand N tend vers linfini quand elle existe du cot moyen sur les N
premires transitions de la trajectoire. Dans notre problme simple, cette solution serait peu efficace. Elle
reviendrait attribuer toute trajectoire dtat-action se terminant sur lquilibre souhait (35) le cot A,
et toute autre trajectoire le cot 1. On ne peut pas discriminer, parmi les trajectoires menant ltat
souhait, celles qui y mnent plus rapidement.
Quand le problme consiste rejoindre un tat spcifi ou tat terminal en un nombre fini de transitions, on
peut prendre comme fonction de cot total la somme du cot des transitions. Cest le cas dans notre exemple.
Dans le cas gnral, on choisit de prendre comme critre, pour les problmes horizon infini, la minimi-
sation du cot actualis J, inspir des calculs financiers o les cots futurs sont escompts dun taux
dactualisation . Ainsi, dans notre exemple, pour un modle horizon infini, nous aurions
1
J(w1) = J(w2) = J(w3) = 1 + + 2 + = ------------
1
A 3
J(w4) = 1 + + 2 A3 A4 = 1 + + 2 ------------
1
ce qui valorise bien les trajectoires qui atteignent la sortie et, parmi elles, les trajectoires les plus rapides.
Le problme consiste donc trouver une politique optimale * telle que le cot total de la trajectoire
dtat-action associe cette politique soit minimal pour chaque tat initial.

Exemple de problme de dcision markovienne


Un problme de dcision markovienne est la gnralisation, un contexte probabiliste, dun problme du
type prcdent. On introduit un ala dans le modle dtat et dans les cots. Le cot total devient alors une
variable alatoire J dont on cherche minimiser une fonctionnelle que nous prendrons gale lesprance
mathmatique1 de cette variable alatoire J = E(J).
Par exemple, dans le problme prcdent, comme nous lavons dj remarqu, nous pouvons considrer
qu chaque couple tat-action est associe, non pas un tat, mais une variable alatoire qui prend ses
valeurs dans lespace des tats, en choisissant la valeur nominale avec la probabilit 0,8, et les deux
valeurs voisines chaque fois avec la probabilit 0,1. Les variables alatoires correspondant chaque tran-
sition sont indpendantes.

1. On rappelle que lesprance mathmatique est la moyenne dune variable alatoire pour sa loi de probabilit. Comme il
sagit dun phnomne dynamique, la probabilit est dfinie sur lespace des trajectoires.
Lapprentissage statistique
282

Ainsi, la politique constante E est associe


maintenant une chane de Markov dont les 24
trajectoires lhorizon 2, issues par exemple S
E 0,8
N
de ltat 24, peuvent tre dcrites par larbre 0,1 0,1
ternaire reprsent dans la figure 5-13. 34 24 14
Cet arbre comporte 32 = 9 sections de trajec- S E N S E N S E N
toires. Le rsultat de la premire transition, 0,1 0,8 0,1 0,1 0,8 0,1 0,1 0,8 0,1
associe au couple tat-action (24, E), est une 44 35 24 34 24 14 24 15 14
variable alatoire valeurs dans lespace des
tats, qui prend les valeurs 14, 24, 34 avec les Figure 5-13. Arbre des trajectoires 2 pas, issues de ltat 24
probabilits respectives 0,1, 0,8 et 0,1. dans le labyrinthe de la figure 4-1.
ltape suivante, selon ltat o lon est, on
opre une transition lie aux couples tat-action (14, E), (24, E) ou (34, E). Le rsultat de la transition asso-
cie par exemple au couple (14, E) est une variable alatoire indpendante de la prcdente, prenant les
valeurs 24, 15, 14 avec les probabilits respectives 0,1, 0,8 et 0,1. La probabilit dune trajectoire
lhorizon N, cest--dire comportant N transitions, se calcule en effectuant le produit des probabilits de
chaque rsultat de transition. Par exemple, la probabilit de la trajectoire ((24, E), (14, E), (24)) vaut
0,1*0,1 = 0,01. La probabilit de la trajectoire intressante ((24, E), (34, E) (35)) vaut 0,1*0,8 = 0,08. Or,
lvaluation du cot dune politique requiert celle des probabilits de toutes les trajectoires possibles pour
calculer le cot moyen.
Nous voyons, encore mieux que sur le problme dterministe, limpossibilit de recourir une mthode directe
numrative pour calculer le cot associ une politique, et la ncessit de mthodes de rsolution appropries,
qui seront dveloppes dans la section consacre lapprentissage par renforcement et la programmation
neuro-dynamique. En clair, nous cherchons un algorithme qui nous permette dnumrer et de calculer les
cots relatifs chaque couple tat-action admissible, et non chaque trajectoire de couples tat-action admis-
sibles, ce qui augmenterait la taille du problme dune faon exponentielle avec lhorizon.
On peut aussi choisir de modliser les cots lmentaires associs chaque transition par une variable
alatoire. Cette gnralisation est minime car on remplace immdiatement cette variable alatoire par sa
moyenne dans le cas o le critre est le cot moyen.

Dfinition dun problme de dcision markovienne


Chane de Markov commande
On formalise lexemple prcdent avec la dfinition suivante, que nous limitons sans inconvnient au cas o
lespace dtats et lensemble des actions sont finis. Un problme de dcision markovienne est constitu par
la donne dune chane de Markov commande, dune fonction de cot lmentaire, dun horizon si le
problme est horizon fini, et ventuellement dun taux dactualisation si le problme est horizon infini.
Nous avons dj rencontr plusieurs reprises la notion de processus markovien command, qui est
lanalogue stochastique dun systme dynamique command. Prcisons sa dfinition.

Dfinition

Une chane de Markov commande est dfinie par la donne dun espace dtats E, dun ensemble
dactions A, dun sous-ensemble A E A des couples dtat-action admissibles, et dune application
p de A dans lensemble des lois de probabilits sur E qui, au couple tat-action admissible (x, u), associe
la probabilit note Pu(x, y) de se trouver dans ltat y quand on effectue laction u dans ltat x.
Apprentissage dune commande en boucle ferme
283
CHAPITRE 5

Remarque
Pu est bien une probabilit et non une densit de probabilit ; il sagit dune probabilit de transition.
Ainsi, partant dun couple initial (x0, a0), la probabilit de la trajectoire lhorizon N
w = ((x0, a0), (x1, a1),, (xN-1, aN-1), (xN))
est dfinie par :
P ( ) = P a0 ( x 0, x 1 )P a1 ( x 1, x 2 )P a N 1 ( x N 1, x N ) .

Dfinition

On appelle politique de la chane de Markov commande une application de E N dans A telle que,
pour tout tat x et pour tout instant k, le couple tat-action (x, (x, k)) soit admissible.

Si la politique ne dpend pas du temps, on dit que cest une politique stationnaire. Pour simplifier les
notations, on notera aussi une politique stationnaire comme fonction de ltat. toute politique station-
naire est associe une chane de Markov de probabilit de transition P dfinie par :
P(x, y) = P(x)(x, y).

Dfinition

On appelle cot lmentaire une application c de A E dans R, et cot terminal une application C de
E dans R.

Problme de dcision markovienne horizon fini


On se fixe un entier strictement positif N appel horizon, qui reprsente le nombre de transitions autoris.
Le problme est de trouver une trajectoire de cot minimal entre les temps 0 et N.
toute politique et tout horizon N est associe la fonction de cot J 0, N de E dans R, associant elle-
mme x lesprance du cot de la trajectoire dhorizon N issue de ltat initial x pour la loi de la chane
de Markov commande. La fonction J 0, N est dfinie par :

J 0, N (x) P ( x, 0 ) ( x, x 1 )P ( x1, 1 ) ( x 1, x 2 )P ( x N 1, N 1 ) ( x N 1, x N ) c ( x, ( x, 0 )x 1 )
( x 1, , x n ) E N

N1
+ c ( xk, ( xk, k )xk + 1 ) + C ( x N ) .
k=1
Lapprentissage statistique
284

Plus gnralement, on dfinit le cot J k, N partir du temps k par :

J k, N (x) P ( x, k ) ( x, x k + 1 )P ( xk + 1, k + 1 ) ( x k + 1, x k + 2 )P ( x N 1, N 1 ) ( x N 1, x N )
( x k + 1, , x n ) E N k

N1
c ( x, ( x, k )x k + 1 ) + c ( x k, ( x k, k )x k + 1 ) + C ( x N ) .
kk = k + 1

Dfinition du problme de dcision markovienne horizon fini

Le problme de dcision markovienne lhorizon N est de trouver la politique optimale * minimi-


sant la fonction de cot J 0, N .

Problme du plus court chemin stochastique

Le problme qui consiste rejoindre un tat particulier not x* est appel problme du plus court chemin
stochastique [BERTSEKAS et al. 1996]. Dans ce type de problme, il existe ncessairement un tat unique
appel tat terminal et not x* tel que, pour toute action admissible, la seule transition possible partir de
cet tat terminal soit la transition triviale x* x*. On suppose, par ailleurs, quil existe au moins une poli-
tique stationnaire telle que son application donne une probabilit non nulle de rejoindre, partir de tout
tat, ltat terminal. De telles politiques stationnaires sont appeles des politiques stationnaires propres.
Ainsi, ltat terminal est ltat dquilibre (dterministe) de la chane de Markov dfinie par une politique
stationnaire propre.

En ce qui concerne les problmes horizon infini, les cots lmentaires tant stationnaires et le cot
terminal nexistant pas, il est inutile de rechercher une politique optimale non stationnaire. Pour un tat
donn, laction optimale ne dpend pas du temps.

On convient que le cot lmentaire de la transition triviale partir de ltat terminal est nul, et que le cot
lmentaire de toute autre transition est strictement positif, et donc born infrieurement par une cons-
tante positive puisque lensemble des tats est fini.

On dfinit le cot moyen total dune politique stationnaire par :


N1
J (x) = lim
N
P ( x, x 1 ) P ( x 1, x 2 ) P ( x N 1, x N ) c ( x, ( x ), x 1 ) + c ( xk, ( xk ), xk + 1 )
( x 1, , x N ) E N k=1

que lon peut aussi crire, dune faon plus formelle, en utilisant le formalisme des variables alatoires

J (x) = E P, x c ( x, ( x ), X 1 ) + c ( X k, ( X k ), X k + 1 )
k=1

o P, x est la loi de probabilit de la chane de Markov associe la politique stationnaire et dtat


initial x.
Apprentissage dune commande en boucle ferme
285
CHAPITRE 5

On en dduit que, pour toute politique stationnaire impropre, il existe au moins un tat initial tel que le
cot moyen total soit infini.

Dfinition du problme du plus court chemin stochastique

Le problme du plus court chemin stochastique consiste trouver la politique stationnaire propre opti-
male *, minimisant la fonction de cot J.

Problme horizon infini et cot actualis


On se donne un nombre rel strictement compris entre 0 et 1 appel taux dactualisation.
toute politique stationnaire et tout taux dactualisation est associe la fonction de cot J de E
dans R qui associe x le cot moyen de la trajectoire issue de ltat initial x pour la loi de la chane de
Markov de matrice de transition P.
N1
J(x) = lim
N
P ( x, x 1 ) P ( x 1, x 2 ) P ( x N 1, x N ) c ( x, ( x ), x 1 ) + k c ( xk, ( xk ), xk + 1 )
( x 1, , x N ) EN k=1

que lon peut aussi crire, comme dans le cas du problme du plus court chemin stochastique :

J(x) = E P, x c ( x, ( x ), X 1 ) + k c ( X k, ( X k ), X k + 1 ) .
k=1

Dfinition du problme horizon infini et cot actualis

Le problme de dcision markovienne lhorizon infini pour le taux dactualisation consiste trou-
ver la politique stationnaire optimale * minimisant la fonction de cot J .

Dans la suite, chaque fois que le contexte indiquera clairement la nature du problme, horizon fini ou
infini actualis, nous noterons lhorizon fini N dans le premier cas et le taux dactualisation dans le
second cas, et nous omettrons lindice suprieur de la fonction de cot pour allger les notations.
On peut transformer un problme horizon infini et cot actualis en un problme de plus court chemin
stochastique de la faon suivante. On ramne par translation les cots lmentaires des quantits stric-
tement positives. On ajoute ensuite artificiellement un tat terminal x*, et lon modifie les transitions du
problme de dcision markovienne, quel que soit le couple tat-action admissible, en les faisant prcder
dun tirage alatoire pralable qui peut interrompre le processus avec la probabilit 1 pour lenvoyer
dans ltat terminal ( tat cimetire ). Toutes les politiques stationnaires du problme primitif sont des
politiques stationnaires propres pour le problme de plus court chemin stochastique (au sens du para-
graphe prcdent), et il y a galit entre le cot total moyen du problme transform et le cot total moyen
actualis du problme primitif. Cette transformation est formelle et vise montrer que les mthodes utili-
ses pour les problmes de plus court chemin stochastique se transposent facilement aux problmes
horizon infini et cot actualis.
Rciproquement, tant donn un problme de plus court chemin stochastique, on peut, dans la pratique
des simulations, le transformer en un problme horizon infini et cot moyen actualis, en faisant suivre
latteinte de ltat terminal, non pas de la transition triviale, mais de la rinitialisation dans un tat initial
choisi alatoirement.
Lapprentissage statistique
286

Programmation dynamique horizon fini


Principe doptimalit de Bellman
Si nous considrons la dfinition prcdente de J 0, N , nous pouvons la mettre sous la forme suivante :
J 0, N (x) =
x1 E
P ( x, 0 ) ( x, x 1 ) c ( x, ( x, 0 ), x 1 ) + P x ( x1, 1 ) ( x 1, x 2 )P x ( x N 1, N 1 ) ( x N 1, x N )
( x 2, x n ) E N

N1
c ( xk, ( xk, k )xk + 1 ) + C ( x N )
k=1

soit
J 0, N (x) =
x1 E
P ( x, 0 ) ( x, x 1 ) [ c ( x, ( x, 0 ), x 1 ) + J 1, N ( x 1 ) ] = E p ( x, 0 ) [ c ( x, ( x, 0 )X 1 ) + J 1, N ( X 1 ) ]

une consquence trs simple de ladditivit du cot dune trajectoire tape par tape.
Cette criture montre que la politique optimale * qui minimise J 0, N minimise aussi les cots J k, N . On
peut donc crire
J 0,* N ( x ) = min u ( x, u ) A E pu ( x ) [ c ( ( x, u ), X 1 ) + J 1,* N ( X 1 ) ] .
1

Cette quation, vrifie par la politique optimale, sappelle le principe doptimalit de Bellman.

Algorithme de la programmation dynamique horizon fini


Le principe doptimalit de Bellman nous permet de dduire une procdure de rsolution du problme de
dcision markovienne horizon fini : le clbre algorithme de programmation dynamique . Son prin-
cipe est de dterminer la politique optimale partir de la dernire action, puis de remonter le temps en
optimisant successivement J N 1, N , , J k, k + 1, J 0, 1 .
On rsout donc successivement, pour k variant de N 1 1, le problme
k + 1, N
* ( x, k ) = Arg min u ( x, u ) A P u ( x, y ) [ c ( x, u, y ) + J ( y)] ,
y E

puis on met jour le cot optimal


k + 1, N
J k, N ( x ) = P ( x, k ) ( x, y ) [ c ( x, * ( x, k ), y ) + J
yE
( y)] ,

Il est commode dintroduire un intermdiaire de calcul : la fonction de valeur Qk, N sur lensemble des
couples tat-action admissibles :
k + 1, N
Qk, N (x, u) = Pu ( x, y ) [ c ( x, u, y ) + J
yE
( y)] .

Lalgorithme de la programmation dynamique scrit alors :


k + 1, N
Qk, N (x, u) = Pu ( x, y ) [ c ( x, u, y ) + J
yE
*
( y)]

* ( x, k ) = Arg min u ( x, u ) A { Q k, N ( x, u ) }
k + 1, N
J * ( x ) = Q k , N ( x, * ( x, k ) ) .
Apprentissage dune commande en boucle ferme
287
CHAPITRE 5

Programmation dynamique horizon infini et cot actualis


Principe doptimalit de Bellman
Comme dans le cas du problme horizon fini, nous pouvons transformer la dfinition de J pour obtenir
la relation suivante :
J ( x ) = E p, x [ c ( x, ( x ), X 1 ) + J ( X 1 ) ] .
Cette formule peut tre applique la politique optimale . crivons que celle-ci est meilleure que la
politique non stationnaire consistant appliquer laction a dans ltat x, puis la politique stationnaire opti-
male partir du premier instant. On obtient ainsi lquation :
J * ( x ) = min u ( x, u ) A E pu ( x ) [ c ( ( x, u ), X 1 ) + J * ( X 1 ) ]
1

qui exprime le principe doptimalit de Bellman horizon infini. Comme dans les problmes horizon
fini, on peut associer une fonction de cot donne J, dfinie sur lespace dtats, une fonction de valeur
Q, dfinie sur lensemble des couples tat-action admissibles par :

Q J ( x, u ) = Pu ( x, y ) [ c ( x, u, y ) + J ( y ) ] .
yE

Avec cette dfinition de la fonction valeur, lquation doptimalit de Bellman scrit :



J * ( x ) = min u ( x, u ) A Q J * ( x, u ) .

Cette quation est une quation de point fixe sur la fonction de cot optimale J * . Contrairement au
problme horizon fini, elle ne fournit pas directement un algorithme pour calculer, en un nombre fini
ditrations, la fonction de cot optimale et la politique optimale. En revanche, on peut montrer le tho-
rme de caractrisation suivant [BERTSEKAS et al. 1996].

Thorme

La solution unique de lquation de Bellman est la fonction de cot optimale J * .

Ce thorme se prouve selon une technique dite de la contraction. Lintrt de cette technique est que,
outre lobtention dun thorme mathmatique dexistence et dunicit, elle permet de fournir les preuves
de convergence dalgorithmes qui aboutissent la solution. Ces algorithmes sont des algorithmes itratifs
que nous allons dcrire dans les paragraphes suivants. Pour allger les notations, nous omettons de
rcrire en indice.

Mthode ditration de la politique


Cet algorithme passe par la dfinition dune suite de politiques stationnaires qui samliorent chaque
itration. Nous allons dcrire une itration de lalgorithme partir de la politique n obtenue litration
n:
Jn est calcul comme la fonction de cot moyen de la politique n
Qn est calcul comme la fonction valeur associe Jn
n + 1(x)= Arg minu/(x,u) A Qn (x,u).

Lintrt de cet algorithme est quil permet dobtenir explicitement une suite de politiques samliorant
dune faon monotone, et dont on peut contrler le cot. Cette itration nous permet dintroduire les
mthodes acteur-critique . On nomme ainsi ces mthodes o une politique est dabord applique
Lapprentissage statistique
288

(calcul de Jn), puis critique (ici par minimisation), pour obtenir une nouvelle politique. videmment,
lapplication de la politique est ici thorique (simulation), et assez lourde puisquelle demande chaque
tape de calculer Jn.
Ce calcul se fait par la rsolution du systme linaire suivant :
"x E, Jn(x) = P ( x ) ( x, y ) [ c ( x, ( x ), y ) + J n ( y ) ] .
yE
n

On montre que cet algorithme converge linairement (cest--dire vitesse gomtrique ) vers la politique
optimale *, autrement dit que lcart entre le cot de la politique courante et celui de la politique optimale tend
vers 0, en tant major en valeur absolue par une progression gomtrique de raison infrieure 1. Dans
certains cas qui relvent de problmes classiques, lalgorithme se termine en un nombre fini ditrations.

Mthode ditration de la fonction de valeur


Cet algorithme passe par la dfinition dune suite de fonctions de cot moyen et fonctions de valeur non
ncessairement associes une politique, qui convergent vers la fonction de cot optimale. Nous allons
dcrire une itration de lalgorithme partir de la fonction Jn obtenue litration n :
Qn est calcul comme la fonction valeur associe Jn
J n + 1(x ) = min u ( x , u ) A Q Jn ( x , u )

On montre que cet algorithme converge linairement (cest--dire vitesse gomtrique) en montrant
que la fonction de valeur Qn converge vitesse gomtrique vers la fonction de valeur Q* associe la
politique optimale. Cette dernire sobtient ensuite par la minimisation classique :
* ( x ) = Arg min u ( x, u ) A Q * ( x, u )

Problmes de dcision markovienne partiellement observs


Les conditions dans lesquelles se posent nombre dapplications pratiques, et la parent vidente entre la
programmation dynamique dans un espace dtats discret et la commande optimale dans un espace dtats
continu, conduisent se poser le problme de dcision markovienne dans le cas o ltat ne serait que
partiellement observ, en raison soit de composantes de ltat qui ne sont pas directement observables,
soit de perturbations ou bruit de mesure.
Les principes de base de la programmation dynamique peuvent encore sappliquer, mais dans un cadre
bien plus complexe. En effet, les politiques ne sont plus dfinies sur lespace dtat, mais sur celui des
tats de croyance qui est un espace dtats continu : lespace des probabilits sur lespace dtats.
partir dune trajectoire dobservations, on peut dfinir ltat de croyance comme la probabilit sur
lespace dtats, conditionne par la trajectoire des observations effectues pendant le mouvement. Cette
probabilit est mise jour par la rgle de Bayes. On peut donc appliquer une politique optimale qui soit
fonction de ltat de croyance.
Hlas, cette approche, qui exige que le modle soit connu pour mettre jour ltat de croyance, ne peut
pas tre exploite par les stratgies dapprentissage que nous exposerons dans la suite de ce chapitre. Cest
la raison pour laquelle nous napprofondirons pas ce type de problme, qui fait actuellement lobjet de
recherches actives ; nous nous contenterons de signaler les stratgies empiriques mises en uvre pour
lapprentissage de modles markoviens partiellement observs.
Apprentissage dune commande en boucle ferme
289
CHAPITRE 5

Apprentissage par renforcement


et programmation neuro-dynamique
valuation dune politique par la mthode de Monte-Carlo
et apprentissage par renforcement
Les mthodes de la programmation dynamique, exposes dans la section prcdente, rencontrent des
difficults dapplication dans les problmes rels, notamment dans ltape dvaluation du cot dune
politique par rsolution dun systme linaire :
cette rsolution se donne pour objectif dvaluer exactement le cot moyen dune politique, simultan-
ment pour chaque tat du systme ; si le nombre dtats est trs grand, la rsolution de ce systme
chaque tape de lalgorithme itratif a un cot prohibitif ;
lcriture du systme linaire suppose que soient exactement connues toutes les probabilits de transi-
tion dun tat un autre selon les diffrentes actions excutes ; or, dans les problmes pratiques,
complexes, modernes, mme dans les cas o le processus rel est suffisamment connu, cette connais-
sance est rsume dans un simulateur informatique dont le programme suit le droulement et les vne-
ments du processus rel ;. ainsi, la connaissance des probabilits de transition correspondant chaque
couple tat-action admissible nest pas directe, et ncessite, pour son estimation, un premier jeu de
simulations.
Ces considrations ont conduit les chercheurs utiliser directement la simulation dans la dtermination de la
politique optimale, sans passer par lidentification du modle par dtermination des probabilits de transition.
Pour valuer le cot dune politique par une mthode de Monte-Carlo, lide la plus simple consiste
simuler un grand nombre de trajectoires pour chaque tat initial, et calculer la moyenne des diffrents
cots des trajectoires obtenues. On peut de mme valuer la fonction de valeur associe une trajectoire,
en faisant la moyenne dun grand nombre de trajectoires pour chaque couple initial tat-action admissible,
en appliquant la politique courante aprs la premire transition.
Lavantage de la mthode de Monte-Carlo est quelle sapplique aussi quand le modle nest pas connu, et que
lon a la possibilit deffectuer des expriences ou des simulations sur une grande chelle. On ne dtermine
pas la politique optimale partir du modle, mais partir de lexprimentation et de la rponse de lenviron-
nement que lon appelle le signal de renforcement . Quand ce signal est positif, il renforce les changements
que lon prouve dans la politique courante ; quand il est ngatif, il les infirme. Ce type dapprentissage est
nomm apprentissage par renforcement ; cette terminologie met en valeur les mmes concepts que la
mthode acteur-critique mentionne plus haut. Lapprentissage par renforcement a toujours intress les cher-
cheurs, notamment en intelligence artificielle, car on considre que ladaptation du comportement des
systmes vivants (et notamment de lanimal) est rgle gnralement par ce type de mcanisme (voir les
travaux bien connus des psychologues des annes 1920, notamment de Pavlov). Lapprentissage par renfor-
cement a dabord t dvelopp paralllement lapprentissage neuronal, notamment par Barto depuis le
dbut des annes 1980 [BARTO et al. 1983]. Dans ce paragraphe, nous allons en exposer les mthodes les plus
usuelles, qui dpassent largement la mthode de Monte-Carlo directe que lon vient dexposer.
En effet, la complexit de la mthode de Monte-Carlo directe qui a t expose peut tre trs grande : elle
peut dpasser celle de la rsolution du systme linaire quand le modle est connu, et se rvler imprati-
cable quand le modle nest pas connu. Par ailleurs, cette mthode gaspille linformation obtenue par les
simulations. En effet, les cots des transitions dune trajectoire donnent des informations, non seulement
sur le cot moyen en ltat initial, mais sur le cot moyen en chacun des tats parcourus par la trajectoire :
la mise jour doit donc concerner aussi les valeurs de la fonction de cot en chacun de ces tats. La
Lapprentissage statistique
290

mthode que nous allons prsenter dans le paragraphe suivant essaie dutiliser toute linformation obtenue
par la simulation ou lexprimentation dune trajectoire dtats, associe une politique stationnaire.
Nous allons la prsenter dans le cadre des problmes de dcision markovienne horizon infini et cot actua-
lis, cadre dans lequel les algorithmes de cette mthode sont le plus ncessaires et le plus employs ; nan-
moins, elle sadapte aussi aux problmes horizon fini. Nous prsentons les algorithmes avec un taux dactua-
lisation , qui sappliquent aussi trs bien des rsolutions de problmes du plus court chemin stochastique.

Prsentation de lalgorithme TD dvaluation dune politique


Algorithme TD(1) et dfinition des diffrences temporelles
La mthode des diffrences temporelles , ou mthode TD (pour temporal differences), sappuie sur
lquation dadditivit du cot nonce au paragraphe prcdent (rcrite en omettant les indices sup-
rieurs mentionnant le taux dactualisation , fix une fois pour toutes dans la suite de ce paragraphe) :
J ( x ) = E P, x [ c ( x, ( x ), X 1 ) + J ( X 1 ) ] .
Quand nous effectuons une transition (x y) conscutive au couple tat-action admissible (x, a), le cot
correspondant cette transition c (x, (x), y) doit tre utilis pour mettre jour lestimation de J(x).
Cette mise jour est effectue par le calcul rcursif de la moyenne par une technique de filtrage gain
(ou taux dapprentissage) , qui incorpore, dune part, la nouvelle information sur le cot moyen total
c ( x, ( x ), y ) + J ( y ) , et, dautre part, lancienne information J ( x ) , selon la relation suivante :
J + ( x ) = J ( x ) + [ c ( x, ( x ), y ) + J ( y ) J ( x ) ] .
Nous avons vu les proprits des filtrages gain variable et gain constant dans le chapitre 4. Un filtre
gain dcroissant linairement avec le nombre de mises jour converge (lentement) vers la valeur
souhaite (estimateur consistant). Un filtre petit gain constant exhibe, en rgime stationnaire, des fluc-
tuations de petite amplitude autour de la valeur souhaite, mais, en revanche, il sera capable, moyennant
un rglage convenable du gain, de poursuivre des variations lentes de lenvironnement. Dans la pratique,
on met souvent en uvre, successivement, un filtre gain dcroissant pour se rapprocher plus vite du
rgime stationnaire, puis un filtre petit gain constant pour le calcul en rgime stationnaire. Il faut noter
que la dcroissance du gain est ici plus dlicate raliser, car elle est spcifique chaque tat.
Cependant, les mises jour des valeurs de J ne sont pas dcouples. En effet, la mise jour conscutive
une transition dtat final x incorporera la nouvelle estimation de J(x). Cette mthode sappelle une mthode
de diffrences temporelles (TD) et peut stendre lutilisation dune trajectoire de longueur N.
tant donn une politique, une estimation courante J de J, et une trajectoire dtats dtat initial x0 et
comportant N transitions, note (x0, , xN), obtenue par application de cette politique, on appelle diff-
rence temporelle dordre k, la quantit dk dfinie par : dk = c ( x k, ( x k ), x k + 1 ) + J ( x k + 1 ) J ( x ) .
On procde alors la mise jour de lestimation de J en chaque tat de la trajectoire par la formule :
"k {0N 1], J + ( x k ) = J ( x k ) + [ d k + d k + 1 + + N k 1 d N 1 ] .
On remarquera que la mise en uvre incrmentale de cette mise jour se ramne la rgle prcdente
condition de faire les mises jour en remontant le temps le long de la trajectoire.

Algorithme TD() et mthode des traces dligibilit


Dans la section prcdente, nous avons prsent un algorithme qui incorpore dans la mise jour du cot en
x, soit la transition le suivant immdiatement, soit des transitions ultrieures jusqu un certain horizon N.
Tous ces algorithmes convergent. Cependant, leur vitesse de convergence dpend de la prise en considra-
tion judicieuse de linformation apporte par la trajectoire. Il peut sembler injustifi de donner le mme
Apprentissage dune commande en boucle ferme
291
CHAPITRE 5

poids dans la mise jour de lestimation J (x) aux diffrences temporelles qui rsultent de la transition
immdiate partir de ltat x et des transitions moins probables qui interviennent dans un horizon plus loin-
tain. Il a donc t propos, dans larticle de base sur lapprentissage par renforcement [BARTO et al. 1983],
descompter, par un taux dactualisation not ]0, 1[, les cots des transitions selon leur loignement
temporel ; on obtient ainsi lalgorithme suivant appel TD() :
"k {1N 1], J + ( x k ) = J ( x k ) + [ d k + d k + 1 + + ( ) N k 1 d N 1 ] .
On notera que, historiquement, lide dactualisation par est dabord intervenue dans des problmes horizon
fini ou infini, o le critre ntait pas actualis par , et o lintroduction dun taux dactualisation apportait plus
de nouveaut quun simple changement de paramtres comme dans le problme qui est envisag ici.
Les algorithmes TD() convergent avec les hypothses habituelles de lapproximation stochastique
[SUTTON 1988]. En particulier, il est indispensable que tous les tats soient visits une infinit de fois ,
cest--dire, en pratique, un rythme suffisant ; cest notamment important pour les tats qui sont intres-
sants pour la politique optimale, ce que lon ne peut gnralement pas prvoir avant lavancement du
calcul. Dans les paragraphes suivants, nous reviendrons sur limportance de la politique dexploration
dans les algorithmes dapprentissage par renforcement. Si lon utilise un simulateur, il est indispensable
dassurer cette hypothse en ne se contentant pas de suivre une trajectoire, mais en relanant priodique-
ment ou alatoirement une trajectoire, par un choix au hasard dun nouvel tat initial. Dans le cas dune
exprience sur le processus rel, il faut veiller une exploration correcte de lespace dtat compatible
avec les contraintes exprimentales. Si ces conditions sont ralises, lalgorithme dapproximation
stochastique converge sans que ce rsultat soit pollu par lexistence de minima locaux sous-optimaux.
Des algorithmes varis ont t engendrs par lapplication de la mthode des diffrences temporelles
divers problmes de jeux, de planification optimale et doptimisation combinatoire. La convergence de
ces algorithmes a pu tre prouve, et lon a montr [BERTSEKAS et al. 1996] quils entrent tous dans le
cadre gnral suivant, dit des traces dligibilit .
Dans cette formulation gnrale, k est un entier qui indexe les tapes de lalgorithme. ltape k, on choisit,
selon une rgle qui dpend de lhistoire passe de lalgorithme et assure globalement une infinit de visites de
chaque tat, un tat initial x 0 , et, par application de la politique que lon cherche valuer, on engendre une
k
k k k k
trajectoire k = ( x 0, x 1, , x m, x N ) et lon observe les cots associs. On calcule alors les diffrences
k
temporelles associes d m .
k
On choisit une suite finie de fonctions dtat positives z m , indexe par la longueur de la trajectoire,
appele trace dligibilit et vrifiant les proprits suivantes :
k k
z 0 ( x ) = x k ( x ) , de plus z m (x) = 1 quand m est le temps de premire atteinte de ltat x pour la trajec-
0
toire wk ,
k k
z m + 1 ( x ) z m ( x ) x k ( x ) .
m+1

Considrons par ailleurs une suite de fonctions dtat (k) dcroissante valeurs dans ]0, 1[, suite des gains
ou taux dapprentissage vrifiant les hypothses classiques de la thorie de lapproximation stochastique :
k k ( x ) = ;

k k ( x )
2
<.

On montre alors que lalgorithme TD gnralis de mise jour de lestimation du cot par la formule :
N1
J k + 1 ( x ) = J k ( x ) + k ( x ) zmk ( x )d mk
m=0
Lapprentissage statistique
292

converge presque srement vers J.


Par exemple, lalgorithme TD(), qui a t expos dans le paragraphe prcdent, est un cas particulier de
lalgorithme des traces dligibilit, avec la dcroissance des traces fixe au moyen de la multiplication
par le taux .

Retour sur la mthodologie acteur-critique et itration optimiste de la politique


Lvaluation dune politique donne peut tre une fin en soi dans de nombreux problmes pratiques. Dans
ce cas, les algorithmes que nous venons dtudier sappliquent sans restriction. En revanche, nous avons
introduit lvaluation du cot dune politique comme une tape dans une boucle de calcul visant dter-
miner la politique optimale. Il apparat que ces algorithmes eux-mmes itratifs sont trop longs pour
entrer dans des boucles de calcul qui peuvent converger lentement. Il est naturel de chercher amliorer
la politique courante sans attendre la convergence de lalgorithme et sur la base des rsultats partiels
fournis par une ou quelques itrations de lalgorithme.
Nous avons expos plus haut, dans le paragraphe Mthode ditration de la fonction de valeur de la
section prcdente, un algorithme o la politique tait mise jour sur la base dun calcul intermdiaire
dune approximation de la fonction de cot. Il sagit de la mthode acteur-critique ou encore de la
mthode dite de litration optimiste de la politique puisque la politique est calcule sur la base dune
fonction dont on fait lhypothse optimiste que cest le cot optimal.
Plus prcisment, comme dans le paragraphe cit, partir dune fonction de cot Jn, on effectue les tapes
suivantes dans la n-ime itration :
QN est calcule comme la fonction valeur associe Jn par la formule

Qn(x, u) = pu ( x , y )c ( x , u, y ) + J n ( y )
y E

La politique n est dfinie par minimisation de la fonction valeur Qn par le calcul


n ( x ) = Arg min u ( x , u ) A Q n ( x , u )

Une ou plusieurs itrations dun algorithme dvaluation par une mthode de diffrences tem-
porelles utilisant les rsultats dune simulation ou dun processus exprimental rel sont
pratiques sur la base de la politique n pour obtenir une nouvelle approximation Jn + 1 de la
fonction de cot optimale.

Apprentissage par renforcement : mthode du Q-learning


Description de lalgorithme de Q-learning
Les diffrentes variantes des algorithmes prcdents mettent en vidence la fonction valeur Q comme une
tape incontournable de la dtermination approche dune politique optimale. Une version adaptative de
lalgorithme ditration de la fonction de valeur a t propose par Watkins et Dayan dans [WATKINS et
al. 1992] sous le nom dalgorithme de Q-learning (pour apprentissage de la fonction Q), lequel sest
impos rapidement comme un des algorithmes les plus usuels dapprentissage par renforcement de la
politique optimale, notamment dans le cas dun problme horizon infini.
Lalgorithme prcdent ditration de la fonction de valeur tait dfini par :
Qn est calcule comme la fonction valeur associe Jn

J n + 1 ( x ) = min u ( x , u ) A Q n ( x , u )
Apprentissage dune commande en boucle ferme
293
CHAPITRE 5

Dans sa version adaptative, une modification importante intervient :


La mise jour de Qn fait intervenir les rsultats dune exprience ou dune simulation engendre par une
politique dexploration des couples tat-action admissibles.
On obtient ainsi lalgorithme suivant, dfini partir dune politique dexploration alatoire qui attribue
chaque tat x une probabilit sur lensemble des actions u, telles que le couple (x, u) soit admissible.
Cette politique dexploration engendre une chane de Markov sur lespace des couples tat-action admis-
sibles. En fait, la preuve mathmatique du thorme de convergence de lalgorithme exige simplement
que chaque couple admissible soit visit une infinit de fois. Nous discuterons ultrieurement les cons-
quences pratiques du choix dune politique dexploration. Une tape de lalgorithme de Q-learning suit
chaque transition obtenue par application de la politique dexploration selon la procdure :
Q ( x, u ) = Q k ( x, u ) si ( x, u ) ( x k, k + 1 ( x k ) )
k+1 ;
Q k + 1 ( x k, k + 1 ( x k ) ) = ( 1 k + 1 ) Q k ( x k, k + 1 ( x k ) ) + k + 1 [ c ( x k, k + 1 ( x k ), x k + 1 ) + J k ( x k + 1 ) ]
J k + 1 ( x k + 1 ) = min u ( x, u ) A Q k + 1 ( x k + 1, u ) .

Thorme de convergence de lalgorithme de Q-learning

Cet algorithme converge vers la fonction de valeur Q* associe la politique optimale * ds lors que
tous les couples tat-action sont visits une infinit de fois et que la suite des taux dapprentissage qui
leur sont appliqus vrifie, pour chaque couple tat-action, les hypothses de lapproximation stochas-
tique (par exemple, convergence linairement dcroissante par rapport au numro dordre de la visite).

Aprs convergence vers une estimation accepte de la fonction valeur optimale Q*, considre comme
apprise, la politique optimale * est dtermine par minimisation, comme dans lalgorithme ditration de
la fonction valeur :
* ( x ) = Arg min u ( x, u ) A Q * ( x, u ) .
Il ny a aucun lien ncessaire entre la politique dexploration et la politique optimale. Une politique
dexploration aveugle est hlas trs coteuse et, dans la pratique, on essaie de suivre, dans lexploration,
des politiques sous-optimales qui se rapprochent graduellement de la politique optimale ; cest ce que
nous allons voir dans le paragraphe suivant.

Choix dune politique dexploration


Le choix de la politique dexploration est un problme que lon rencontre frquemment en application
pratique des mthodes de statistique squentielle [THRUN 1992]. Si beaucoup de temps est pass
lexploration, notamment de politiques non optimales, par une politique aveugle (choix alatoire dune
action admissible), lestimation qui en rsulte est prcise mais lexploration est coteuse
en temps de calcul si lon utilise un simulateur,
en cots directs exprimentaux si lon fait des expriences relles.
Si, au contraire, on adopte une politique dexploration optimiste en agissant selon la politique optimale
dtermine par lestimation courante, lestimation de la fonction de valeur peut tre fortement biaise.
Pour cette raison, aucune des deux stratgies extrmes politique dexploration aveugle ou politique
compltement optimiste (cette dernire est galement qualifie de gloutonne , traduction de langlais
greedy policy) nest retenir.
Plusieurs schmas dexploration hybrides ont t proposs ; ils ont tous comme particularit de proposer
une politique alatoire qui suit la politique gloutonne la plupart du temps, tout en comportant des phases
Lapprentissage statistique
294

dexploration qui permettent dexplorer des couples tat-action nouveaux ou peu frquents, et de satis-
faire ainsi aux exigences du thorme de convergence cit dans le paragraphe prcdent.
Le schma itratif exploration-optimisation rserve dans lalgorithme, alternativement, des squences de k1
itrations pour la politique gloutonne optimiste et de k2 itrations pour la politique aveugle dexploration.
Le schma randomis prvoit, pour chaque itration, un tirage alatoire qui dtermine si la politique
applique est une politique dexploration aveugle (probabilit ) ou une politique gloutonne optimiste
(probabilit 1 ).
Le schma de type recuit simul, inspir de lalgorithme de recuit en optimisation combinatoire
(prsent en dtail dans le chapitre 8), prconise dappliquer une politique alatoire suivant une loi de
Gibbs du type
Q ( x , u)
-----k--------k---------
Tk
e
P ( k ( x k ) = u ) = -----------------------------------------
Q ( x , u)
-
-----k-----------------
k
-
Tk

u ( x, u ) A
e

o la suite des tempratures (Tk) suit une loi de refroidissement rgler selon le problme. Plusieurs lois
de refroidissement sont prsentes dans le chapitre 8.

Application du Q-learning aux problmes partiellement observs


On remarque que le Q-learning peut sappliquer aux problmes partiellement observs en se limitant aux
politiques ralisables, cest--dire fonction de lobservation et non pas de ltat. Il a t effectivement
pratiqu, notamment dans des problmes de robotique mobile, o lobservation est gnralement limite
aux capteurs du robot qui ne permettent pas de dterminer sans ambigut ltat courant. La procdure de
Q-learning peut donner des politiques sous-optimales convenables. Hlas, le succs nest pas garanti. On
a montr [SINGH et al. 1995] que, si lalgorithme de Q-learning converge sous les hypothses habituelles,
sa limite dpend de la politique dexploration adopte, contrairement la situation que lon rencontre
dans les problmes totalement observs. Par ailleurs, dans les problmes partiellement observs, la poli-
tique ralisable optimale nest pas ncessairement dterministe ni markovienne.
Une autre voie consiste chercher reconstruire ltat partir dobservations passes. Dans le contexte
de lapprentissage dun modle inconnu, cette tape de reconstruction de ltat peut tre longue et doit
donner lieu des vrifications statistiques [DUTECH, SAMUELIDES, 2003]. Si des recherches rcentes ont
permis de dgager des heuristiques intressantes pour certains problmes, il nexiste pas actuellement
dalgorithme gnral susceptible de dterminer une solution optimale aux problmes dapprentissage par
renforcement de modles markoviens partiellement observs.

Apprentissage par renforcement et approximation neuronale


Apprentissage par renforcement approch
Il est souvent difficile dappliquer les algorithmes dapprentissage par renforcement des problmes de
grande taille en raison de la complexit des algorithmes. Ceux que nous avons exposs jusqu prsent
sont tous fonds sur la mise jour itrative dune table de valeurs. Lamlioration apporte par lapproxi-
mation stochastique consiste ne pas mettre jour simultanment toutes les valeurs de la table, et
utiliser linformation de cot apporte par une transition le plus efficacement possible dans toutes les
mises jour de valeurs des fonctions de cot qui suivent. Nanmoins, lorsque le cardinal de lespace
dtats ou de lensemble des couples tat-action admissibles dans lalgorithme de Q-learning est trs
Apprentissage dune commande en boucle ferme
295
CHAPITRE 5

grand, la visite dun couple donn est rare : en consquence, les mises jour se succdent un rythme
tir qui provoque des difficults de convergence de lalgorithme en un temps raisonnable.
Une solution de substitution consiste utiliser les mthodes dapprentissage supervis pour produire une
approximation de la fonction que lon cherche mettre jour. On peut utiliser une approximation linaire
ou un rseau de neurones qui code en entre ltat (mthode dvaluation-itration de la politique opti-
miste) ou la fonction de valeur (Q-learning), et dlivre en sortie une approximation de la mise jour de la
fonction que lon veut apprendre.
Plus prcisment, il existe nombre dalgorithmes possibles, selon que lon utilise un simulateur qui
permet dexplorer lespace des tats dune faon complte, ou un dispositif exprimental qui commande
de suivre une trajectoire suffisamment longtemps, selon que lon utilise un schma de mise jour compl-
tement adaptatif ou hybride, et encore selon la politique dexploration utilise.
Voici la description de la boucle de calcul dune famille dalgorithmes de Q-learning approch frquem-
ment utiliss :

On dispose dune fonction de valeur Qn qui dtermine une politique dexploration n.


On slectionne alatoirement un sous-ensemble dtats En.
Pour chaque tat xk de ce sous-ensemble, on effectue laction admissible n(xk) slectionne
par lapplication de la politique dexploration n qui conduit ltat yk.
Le cot c(xk,n(xk), yk) est retenu.
On dispose alors de la base dapprentissage qui, aux entres respectives qui sont les couples
tat-action (xk,n(xk)), associe les sorties respectives
n
Q k = c ( x k, n ( x k ), y k ) + min u ( y Q n ( y k, u ) .
k, u ) A

Un cycle dapprentissage supervis est alors mis en uvre pour modifier la fonction de valeur
approche Qn et lui substitue une nouvelle approximation Qn+1.
Aprs modification de la fonction de valeur et de la politique dexploration courante asso-
cie, on reprend le processus, soit en prenant pour nouvel ensemble dtats En + 1={yk} (conti-
nuant ainsi les trajectoires utilises ltape prcdente), soit en slectionnant
alatoirement un nouvel ensemble dtats En + 1.

Le principe de ces algorithmes est reprsent Nouvel


tat Cot +
figure 5-14.
Cot Algorithme
Notons dabord que contrairement lapproxima- approch dapprentissage
tion stochastique utilise pour le Q-learning qui
est finalement trs proche, il nexiste pas de Simulateur RN
preuve gnrale de convergence de cet algorithme.
q-1 Action
Sur le plan pratique, la compression des calculs est associe
dautant plus efficace, et lutilit de lapproxima- Contrleur
tion dautant plus justifie, quil existe une topo- (Acteur)
tat
logie naturelle sur lensemble des couples tat- courant
action admissibles, qui permette un codage num-
Figure 5-14. Utilisation dun rseau neuronal pour
rique efficace de lentre. lvaluation approche dune politique.
En rsum, une bonne connaissance de lapplication
est indispensable pour suppler au manque de gnralit de lalgorithme et permettre un usage efficace des
approximations qui rduisent la complexit de lapprentissage en exploitant la rgularit de la fonction valeur.
Ces algorithmes ont t appliqus efficacement des problmes difficiles et de grande taille comme le jeu de
jacquet ( backgammon ), la planification des ascenseurs et lallocation dynamique de frquences.
Lapprentissage statistique
296

Apprentissage par renforcement dans un espace dtats continu discrtis


Lapplication de lapprentissage par renforcement approch, dans des contextes o les fonctions en jeu
sont rgulires, suggre son application au difficile problme dapprentissage dune commande optimale
dun systme non linaire, dj abord dans ce chapitre. En fait, lquation de Bellman nest autre que la
version discrtise de lquation de Hamilton-Bellman-Jacobi qui est lquation variationnelle des
problmes de commande optimale temps et espace continus. Des tudes thoriques prcises compa-
rant les discrtisations des quations de Hamilton-Bellmann-Jacobi et lapprentissage par renforcement et
montrant les difficults dutilisation dans ce cadre de lapproximation neuronale ont t publies dans
[MUNOS, BAIRD, MOORE 1999] et [MUNOS 2000]
Comme on a vu que lalgorithmique de lapprentissage par renforcement des problmes discrets souffre
de temps de calcul importants, lapplication de la mthodologie pour discrtiser des problmes continus
se heurte au dilemme suivant :
Une discrtisation grossire de lespace dtats ou de lensemble des couples tat-action admissibles
conduit une mauvaise approximation des fonctions valeurs, la perte du caractre markovien du
problme, et la dtermination dune mauvaise politique daction.
Une discrtisation fine entrane une explosion de la complexit du calcul qui ne pourra tre men bout.
Pour chapper ce dilemme, des schmas de discrtisation adapts diffrents problmes ont t
proposs. On peut ainsi avoir une discrtisation de pas variable. Par exemple, dans un problme de robo-
tique mobile, on discrtisera avec soin les rgions de lespace dtats ambigus, o des changements
qualitatifs peuvent se produire (apparition soudaine dobstacles) et qui doivent entraner des ractions
prcises, et lon tirera profit des modles locaux plus grossiers dans les rgions o la politique optimale
est facile dterminer sans ambigut.
Si le problme sy prte, on peut aussi le dcomposer hirarchiquement en
actions de base qui prennent en considration des rgions plus grossires de lespace dtats pour plani-
fier des actions plus long terme,
actions plus court terme qui utilisent des maillages plus fins mais locaux.

Algorithme de Q-learning dans un espace dtats continu


Considrons le systme dynamique command temps continu dans un espace dtats continu (on consi-
dre pour simplifier un systme dynamique dterministe).
dx
------ = f ( x, u ) .
dt
Au couple admissible (x, u) est associ le taux de cot lmentaire c(x, u) ; cette fonction permet de dfinir
une intgrale de cot total actualis sur une trajectoire de couple tat-action par :

t
J = e c [ x ( t ), u ( t ) ] dt .
0

Une politique stationnaire dfinit un systme dynamique autonome dx ------ = f ( x, ( x ) ) .


dt
Lvaluation de la politique consiste donc calculer la fonction dtat

t
J ( x) = e c [ x ( t ), ( x ( t ) ) ] dt intgrale calcule sur la trajectoire t x(t) du systme dynamique
0
dtat initial x.
Apprentissage dune commande en boucle ferme
297
CHAPITRE 5

Une politique stationnaire optimale * vrifie donc le principe doptimalit suivant :


dx
* ( x ) = Arg min u ( x, u ) A c ( x, u ) + x ( J * ) ----- = Arg min u ( x, u ) A [ c ( x, u ) + x ( J * ) f ( x, t ) ] .
dt
Cette quation nest autre que lquation de Hamilton-Bellman-Jacobi. Dans le cas o le cot total dune
politique est approch par un rseau de neurones, celui-ci peut tre utilis pour calculer le gradient
x ( J * ) et linjecter dans la formule prcdente. On en dduit un algorithme dapprentissage dune
approximation de la fonction de valeur Q dfinie sur A par :
Q(x, u) = c(x, u) + x ( J * ) f(x, t)
qui peut tre utilise dans un algorithme de Q-learning gnralis un espace dtats continu.
Des publications rcentes tudient systmatiquement lexploitation des algorithmes dapprentissage par
renforcement pour la dtermination dune commande optimale quand le modle nest pas connu. On pourra
consulter par exemple [BERTSEKAS et al. 1996] pour une introduction gnrale ces techniques, et plus
rcemment [DOYA 2000] qui formule une drivation concise de ladaptation de plusieurs algorithmes
dapprentissage par renforcement au cadre continu, et les applique au modle du pendule invers non linaire.

Bibliographie
ANDERSON B. D. O., MOORE J. B. [1979], Optimal Filtering, Prentice Hall.
AZENCOTT R., DACUNHA-CASTELLE D. [1984], Sries dobservations irrgulires. Modlisation et prvi-
sion, Masson.
BARTO A. G., SUTTON R. S., ANDERSON C. W. [1983], Neuron-like elements than can solve difficult lear-
ning control problemes, IEEE Trans. On Systems, Man and Cybernetics, 13, p. 835-846.
BENVENISTE A., MTIVIER M., PRIOURET P. [1987], Algorithmes adaptatifs et approximations stochastiques.
Thorie et application lidentification, au traitement du signal et la reconnaissance des formes, Masson.
BENGIO Y., SIMARD P, FRASCONI F. [1994], Learning long term dependencies with gradient descent is
difficult, IEEE Trans. on Neural Networks, 5, p. 157-166.
BERTSEKAS D. P., TSITSIKLIS J. N. [1996], Neuro-dynamic programming, Athena Scientific, Belmont, MA.
CHATFIELD C. [1994], The Analysis of Time series, an Introduction, Chapman&Hall.
DEMAILLY J.-P. [1991], Analyse numrique et quations diffrentielles, Presses universitaires de Grenoble.
DOYA K. [2000], Reinforcement learning in continuous time and space, Neural computation, p. 219-244.
DUFLO M. [1996], Algorithmes stochastiques, Springer.
DUTECH A., SAMUELIDES M. [2003], Un algorithme dapprentissage par renforcement pour les processus
de Markov partiellement observs : apprendre une extension slective du pass, Revue dIntelligence Arti-
ficielle, 17-4, p. 559-589.
DUVAUT P. [1994], Traitement du signal : concepts et applications, Herms.
ELMAN J. L. [1990], Finding structure in time, Cognitive Science, 14, p. 1179-211.
GIL P., DOURADO A., HENRIQUES J.O., CARVALHO P. [2002], Adaptive Neural Model Based Predictive
Control Of A Solar Power Plant, IJCNN, International Joint Conference on Neural Networks,
GOURIROUX C., MONFORT A. [1995], Sries temporelles et modles dynamiques, Economica.
Lapprentissage statistique
298

GRONDIN B. [1994], Les rseaux de neurones pour la modlisation et la conduite des racteurs
chimiques : simulations et exprimentations, thse de doctorat de lUniversit de Bordeaux I.
HAYKIN S. [1996], Adaptive Filter Theory, Prentice Hall.
HAYKIN S. [1999], Neural Networks: a comprehensive foundation, Prentice Hall.
HENRIQUES J.O., GIL P., DOURADO A. [2002], Non-linear Multivariable Predictive Control: Neural versus
First Principle Modelling Approach, IASTED, Control and Applications.
HOPFIELD J. J. [1982], Neural networks and physical systems with emergent collective computational
abilities, Proceedings of the National Academy of Sciences, tats-Unis, 79, p. 2554-2558.
ISERMANN R., LACHMANN K. H., MATKO D. [1992], Adaptive Control Systems, Prentice Hall.
JAZWINSKY A H. [1970], Stochastic Processes and Filtering Theory, Academic Press.
KIRKPATRICK S., GELATT C. D., VECCHI M. P. [1983], Optimization by simulated annealing, Science, 220,
p. 671-680.
KUSHNER K. H. J., CLARK D. S. [1978] Stochastic Approximation Method for constrained and uncons-
trained Systems, Applied Mathematical Sciences, 26, Springer-Verlag.
KWAKERNAAK H., SIVAN R. [1972], Linear Optimal Control Systems, Wiley.
LANDAU I. D., DUGARD L. [1986], Commande adaptative, aspects pratiques et thoriques, Masson.
LANDAU I. D. [1993], Identification et commande des systmes, Herms.
LEE, J. H. [2000], Modeling for Nonlinear Model Predictive Control: Requirements, Current Status and
Future Research Needs, in Nonlinear Model Predictive Control, F. Allgower and A. Zheng (Eds.),
Progress in systems and Control Theory Series, vol. 26 Birkhauser.
LEVIN A. U., NARENDRA K. S. [1993], Control of non linear dynamical systems using neural networks,
IEEE Transactions on neural networks, 4.2, p. 192-207.
LEVIN A. U., NARENDRA K. S. [1997], Identification of non linear dynamical systems using neural
networks in Neural Systems for Control, O. Omivar, D. L. Elliott, d., Academic Press, p. 129-160.
LION M. [2000], Filtrage adaptatif par rseaux neuronaux, application la trajectographie, thse de
doctorat de lcole nationale suprieure de laronautique et de lespace.
LJUNG L., SDERSTROM T. [1983], Theory and Practice of Recursive Identification, MIT Press.
LJUNG L., SJOBERG J., HJALMARSSON H. [1996], On neural network model structures in system identifi-
cation, in Identification, Adaptation, Learning. The science of learning models from data, S. Bittanti, G.
Pici, d., NATO ASI Series, Springer.
MORARI M., LEE J.H. [1999], Model predictive control: Past, present and future. Computers and
Chemical Engineering, 23, p. 667-682.
MUNOS R., BAIRD L.C., MOORE A.W. [1999], Descent Approaches to Neural-Net-Based Solutions of the
Hamilton-Jacobi-Bellman Equation, International Joint Conference on Neural Networks.
MUNOS R. [2000], A study of reinforcement learning in the continuous case by the means of viscosity
solutions, Machine Learning Journal, 40, p. 265-299.
NERRAND O., ROUSSEL-RAGOT P., PERSONNAZ L., DREYFUS G. [1993], Neural networks and nonlinear
adaptive filtering: unifying concepts and new algorithms, Neural Computation, 5, p. 165-199.
Apprentissage dune commande en boucle ferme
299
CHAPITRE 5

NERRAND O., ROUSSEL-RAGOT P., URBANI D., PERSONNAZ L., DREYFUS G. [1994], Training recurrent
neural networks: why and how ? An illustration in dynamical processes modeling, IEEE Transactions on
neural networks, 5.2, p. 178-184.
NORGAARD M., RAVN O., POULSEN N. K., HANSEN L. K. [2000], Neural Networks for Modelling and
Control of Dynamical Systems, Springer.
PUSKORIUS G. V., FELDKAMP L. A. [1994], Neurocontrol of non linear dynamical systems with Kalman
filter-trained recurrent networks, IEEE Transactions on Neural Networks, vol. 5, p. 279-297.
RIVALS I. [1995], Modlisation et commande de processus par rseaux de neurones; application au pilo-
tage dun vhicule autonome, thse de doctorat de lUniversit Pierre et Marie-Curie, Paris VI.
RIVALS I., PERSONNAZ L. [2000], Nonlinear Internal Model Control Using Neural Networks, IEEE Tran-
sactions on Neural Networks, vol. 11, p. 80-90.
SINGH S. P., JAAKKOLA T., JORDAN M. [1995], Learning without state estimation in a partially observable
Markov decision problems, Proceedings of the 11th Machine Learning conference.
SLOTINE J. J. E., LI W. [1991], Applied Non Linear Control, Prentice Hall.
SLOTINE J. J. E., SANNER R. M. [1993], Neural Networks for Adaptive Control and Recursive Identification: A
Theoretical Framework, in Essays on Control, H. L. Trentelman, J. C. Willems, d., Birkhauser, p. 381-435.
SONTAG E. D. [1990], Mathematic Control Theory. Deterministic finite dimensional systems, Springer Verlag.
SONTAG E. D. [1996], Recurrent Neural Networks: Some Systems-Theoretic Aspects, Dept. of Mathema-
tics, Rutgers University, NB, tats-Unis.
SUTTON R. S. [1988], Learning to predict by the method of temporal differences, Machine Learning, 3, p. 9-44.
THRUN S. B. [1992], The role of exploration in learning control, in Handbook of intelligent control, D. A.
White, D. A. Sofge, d., p. 527-559, Van Nostrand.
TONG H. [1995], Non-Linear Time Series, a dynamical system approach, Clarendon Press.
URBANI D., ROUSSEL-RAGOT P., PERSONNAZ L., DREYFUS G. [1993], The selection of non-linear dyna-
mical systems by statistical tests, Neural Netwworks for Signal Processing, 4, p. 229-237.
WATKINS C. J. C. H., DAYAN P. [1992] Q-learning, Machine Learning, 8, p. 279-292.
6
La discrimination

On entend par discrimination la tche qui consiste sparer des donnes en classes distinctes, partir de
leurs caractristiques. Par exemple, le diagnostic mdical, la reconnaissance de caractres manuscrits ou
les tests non destructifs de dfauts, sont des cas particuliers de tches de discrimination.
Dans le chapitre 1, nous avons prsent une introduction gnrale au problme de la discrimination, avons
prconis une mthodologie gnrale de conception de classifieurs statistiques qui fait appel notamment
aux considrations dveloppes dans le prsent chapitre, et avons prsent en dtail quelques applications
relles qui illustrent cette dmarche. Nous avons soulign que lon peut considrer le problme de la clas-
sification automatique sous deux angles complmentaires, en fonction de lapplication considre :
dans certains cas, on dsire estimer les probabilits dappartenance des objets aux classes : on peut
alors, soit ramener le problme de la classification un problme de rgression non linaire, soit mettre
en uvre les techniques que nous exposons dans ce chapitre et appliquer linterprtation probabiliste
dcrite dans la section intitule Interprtation probabiliste des fonctions de cot du perceptron ;
pour dautres applications, on peut se contenter de dterminer directement les frontires entre les classes
ou surfaces discriminantes avec des neurones binaires mettant en oeuvre les techniques exposes dans le
prsent chapitre ; historiquement, cette approche a t tudie ds les annes 1960, et a connu un regain
dintrt partir des annes 1980.
Cest ce dernier point de vue qui est largement dtaill dans le prsent chapitre : il prsente en dtail les
techniques modernes permettant de dterminer des sparations linaires entre classes, et ventuellement
des sparations plus complexes.
Ce chapitre est orient vers des justifications thoriques solides inspires essentiellement, comme en
tmoigne la bibliographie, des travaux de physiciens. Il est nanmoins indispensable de rappeler limpor-
tance des considrations pratiques suivantes :
la dtermination de la reprsentation des formes classer est une question quil faut, dans la conception
dun projet de dveloppement, mettre en plus haute priorit, car la rponse quon lui apporte dtermine, de
manire cruciale, la qualit des rsultats ; cest trs souvent la reprsentation des donnes, et elle seule, qui
fait la diffrence entre un systme qui devient oprationnel et un systme qui reste ltat de projet ;
la dtermination des classes de rejet, qui permet doptimiser le classifieur, est galement cruciale.
Nous allons considrer le cas o les donnes discriminer sont des vecteurs. Leurs composantes sont des
caractristiques que lon suppose pertinentes pour la discrimination : par exemple, des donnes concer-
nant un patient (son ge, sa tension artrielle, etc.) dans le cas du diagnostic mdical, ou la forme recon-
natre (les pixels dune image) dans le cas de la reconnaissance de formes. On peut coder les classes par
des nombres entiers, qui reprsentent soit la maladie du patient, soit le type dimage dont il sagit, etc.,
selon lapplication. Dans ce chapitre, nous aborderons essentiellement les problmes de classification o
les donnes classer ne peuvent appartenir qu deux classes. Si lon se trouve face un problme plus
de deux classes, on peut toujours le rduire un ensemble de problmes deux classes, comme cela sera
dmontr dans la section qui traite des problmes plusieurs classes.
Lapprentissage statistique
302

Le chapitre est divis en cinq parties. Aprs une prsentation gnrale du problme, nous abordons
lapprentissage de classifieurs destins sparer linairement les classes. Ensuite, nous avanons diff-
rentes solutions qui ont t proposes pour lapprentissage de discriminations plus complexes. Nous
prsentons en particulier les machines vecteurs supports. Dans la quatrime partie, nous abordons le cas
o le nombre de classes discriminer est suprieur deux. la fin du chapitre, nous introduisons des
notions thoriques, telles que la dimension de Vapnik-Chervonenkis ou la capacit dun classifieur, qui
peuvent tre utiles dans les applications.

Apprentissage de la discrimination
Le problme pos est le suivant : peut-on apprendre discriminer de nouvelles donnes, partir de
linformation contenue dans un ensemble dexemples classs par un expert ? On retrouve ici la problma-
tique gnrale rencontre dans les chapitres prcdents, dans lesquels on sefforait de prvoir le compor-
tement dun processus dans de nouvelles situations, non contenues dans lensemble des donnes utilises
pour ajuster les paramtres du modle. Comme nous lavons soulign dans le chapitre 1, la recherche
dune rgression, comme la discrimination, entre dans la catgorie des problmes mal poss .
Remarque
Certains auteurs rservent le nom de discrimination la classication de donnes lorsque les classes parmi lesquelles on doit discriminer
sont donnes lavance. Lapprentissage est dit dans ce cas supervis, par opposition lapprentissage non supervis, o lon cherche
organiser les donnes en classes, inconnues au dpart, exclusivement partir dun ensemble dentres non pralablement classes.
Dans ce chapitre, nous considrons lapprentissage supervis de la classication, que nous appellerons indiffremment classication ou
discrimination.

Comme dans dautres problmes o lon a recours un apprentissage, nous cherchons dterminer les
paramtres dun classifieur partir dun ensemble dapprentissage LM de M exemples, chaque exemple
tant un couple form dun vecteur de variables, appel vecteur dentre, et de sa classe :

LM = {( x , y ),( x , y ),...,( x
1 1 2 2 M
, yM )} (1)
o lentre
T
x k = x1k x2k x Nk (2)
est un vecteur de N composantes, qui peuvent prendre des valeurs relles, discrtes, ou binaires, dcrivant
lexemple k (k = 1, 2, ..., M), et o yk {1, +1} reprsente la classe1 de xk.
Remarque
On peut coder les deux classes par z {0, 1}. Les codages {1, +1} et {0, 1} sont formellement quivalents. En effet, la transformation
y = 2z 1 permet de passer de lun lautre. Le codage 1 adopt dans ce chapitre autorise une criture lgante des quations, et
prsente des avantages pour la programmation. En revanche, dans les implantations en lectronique numrique, il peut tre plus convena-
ble dutiliser le codage en {0, 1}.
La sortie du classifieur, rseau de neurones ou autres, dpend de son entre x, et de ses paramtres (que
lon notera w en gnral, mme si le classifieur nest pas neuronal) ; pour rappeler que cette sortie est
binaire, on utilise la notation ( x, w ), de prfrence la notation g ( x, w ) utilise pour la prdiction dun
modle dans le chapitre 1. La sortie du classifieur en rponse lentre xk LM sera note k ( x, w ) , ou

1. Dans le chapitre 1, ltiquette (+1 ou 1) indiquant la classe de lexemple k tait note ykp . Dans ce chapitre, elle est note yk dans
un souci de simplification des formules.
La discrimination
303
CHAPITRE 6

simplement k (k {-1, +1}). Le classifieur est en mesure de classer correctement lexemple xk si


k = yk, autrement dit, si la condition suivante est satisfaite :
Condition de classification correcte :

kyk > 0 (3)

En effet, si lexemple est mal class, on a k y k , et alors k y k < 0.

Erreurs dapprentissage et de gnralisation


On peut caractriser la qualit de lapprentissage par lerreur dapprentissage t(w), qui est la fraction
dexemples de LM mal classs par le rseau. Compte tenu de (3),
M

( y ( x, w ))
1
t (w ) = k k (4)
M k =1

o Q (u) est la fonction de Heaviside, qui prend la valeur 1 si son argument u est positif ou nul, et 0 sil
est ngatif :
1 si u 0
(u ) = . (5)
0 si u < 0
Or, lapprentissage na pas forcment pour objet dapprendre bien classer les exemples de LM, mais
plutt de dterminer les paramtres du classifieur qui permettent, avec une forte probabilit, de classer
correctement des entres nouvelles. Si tel est le cas, on dit que le classifieur gnralise correctement. En
gnral, on ne connat pas les donnes que lon sera amen classer aprs lapprentissage. Si lon consi-
dre que le vecteur des entres x est une ralisation dun vecteur alatoire valeurs relles X, et que la
sortie y (qui est le code de la classe) est la ralisation dune variable alatoire discrte Y, on peut faire
lhypothse quil existe une densit de probabilit pX ,Y ( x, y ) pX ( x ) PY ( y x ) que lon ignore, do sont
tires :
les entres et les classes de lensemble dapprentissage ;
les nouvelles entres, dont la classe, ralisation dune variable alatoire discrte de probabilit PY ( y x ),
est inconnue.
Thoriquement, la quantit que lon aimerait minimiser lors de lapprentissage est lerreur de gnralisa-
tion eg(w), dfinie par :

g (w ) = ( y ( x, w ))p ( x, y ) dx
X ,y
(6)
y{1}

o ( x, w ) est la classe attribue lentre x par le classifieur. Lerreur de gnralisation est la probabilit
que le classifieur, de paramtres w, commette une erreur de classification sur une entre x, tire avec la
densit de probabilit pX(x), dont la classe y a la probabilit PY(y|x) (probabilit a posteriori de la classe
dtiquette y pour lobjet dcrit par le vecteur x). Lexpression (6) ne peut pas tre calcule dans les appli-
cations, car pX , y ( x, y ) est inconnue. Dans la pratique, on estime eg par des mthodes statistiques, notam-
ment par validation croise, comme indiqu dans le chapitre 1. Dans la dernire partie de ce chapitre, nous
reviendrons plus en dtail sur cette formulation probabiliste. Elle permet dinterprter les notions
dapprentissage et de gnralisation dans un cadre formel, qui est utilis dans les approches thoriques de
lapprentissage pour borner ou prdire la valeur typique de lerreur de gnralisation. Plus gnralement,
du point de vue fondamental, on se pose les questions suivantes :
Lapprentissage statistique
304

1. Quelles sont les proprits du classifieur


dtermin par apprentissage, et, en particu- ?
lier, quelle est son erreur de gnralisation ?
2. Quel est le nombre minimal dexemples
dont on doit disposer pour que les rgulari-
ts des donnes puissent tre
apprhendes ? (a) (b)
3. Quelles sont les proprits des diffrents Figure 6-1. Exemples appartenant deux classes en dimension
algorithmes dapprentissage ? N = 2. Les lignes reprsentent des surfaces discriminantes.
4. Les valeurs des poids w sont-elles uniques ? (a) Ensemble dexemples linairement sparables,
Dans le cas o plusieurs solutions seraient avec deux sparations sans erreurs dapprentissage
qui classent diffremment la nouvelle entre (cercle blanc).
possibles, y a-t-il une solution optimale ? (b) Un cas gnral.

Surfaces discriminantes
Supposons que les entres soient des vecteurs x RN (lhypo-
thse selon laquelle les valeurs prises par les composantes des
entres sont relles nest pas essentielle : les rsultats de ce
chapitre sont valables quelles que soient ces valeurs, relles ou
discrtes). On peut les reprsenter comme des points colors
dans un espace N dimensions, chaque couleur indiquant la x2
classe du point correspondant. La surface qui spare les points
de classes diffrentes sappelle surface discriminante. Comme
on le voit sur la figure 6-1, cette surface nest pas ncessaire- x1
ment unique, et, de plus, elle peut tre constitue de plusieurs
parties. Le but de lapprentissage est de dterminer lquation
Figure 6-2. Exemples en dimension 2,
dune surface discriminante qui soit la plus adquate possible,
en noir ceux de classe +1, en blanc ceux
cest--dire qui permette la meilleure gnralisation. de classe 1. La surface ombre correspond
Comme nous lavons indiqu dans le chapitre 1, on peut consi- la rgression ; la surface discriminante
drer lapprentissage dun classifieur comme un cas particulier (une ligne dans ce cas) est reprsente
en traits pointills.
de rgression. Dans ce cadre, on cherche une surface continue
g(x, w), qui soit proche de la sortie voulue, +1 pour tous les
points xk de la classe code par yk = 1, et proche de 1 pour tous les exemples de la classe code par yk = 1,
comme cela est reprsent sur la figure 6-2. Il suffit alors dutiliser les techniques prsentes dans les chapi-
tres 1 et 2. On appelle surface discriminante le lieu des points o g(x, w) change de signe.
Rappelons (voir chapitre 1) que deux situations peuvent se prsenter dans une application :
si lon cherche raliser un classifieur qui fournit directement la classe dappartenance de lobjet repr-
sent par x, seule la surface discriminante revt un intrt, puisque le classifieur ralise une fonction
binaire de ses entres ; nous verrons plus loin quil est alors possible de dterminer lquation de la
surface discriminante avec des neurones exclusivement binaires, ce que lon ne peut pas faire si lon
transforme le problme en une rgression;
si lon cherche raliser un classifieur qui dtermine la probabilit dappartenance de la donne
inconnue lune des classes, en vue dune prise de dcision ultrieure (qui peut, par exemple, tenir
compte des rsultats de plusieurs classifieurs en fonction de plusieurs types de donnes), la seule
connaissance de la surface discriminante est insuffisante. Dans ce cas, on peut utiliser des neurones
sortie continue, notamment sigmode, ou des neurones binaires, et faire appel linterprtation proba-
biliste (baysienne) prsente plus loin dans ce chapitre.
La discrimination
305
CHAPITRE 6

Les conditions de ralisation de lapplication envisage constituent galement un lment de


dcision dans le choix entre neurones binaires ou neurones sortie continue : si lapplication fonctionne
sur un ordinateur conventionnel, lestimation des probabilits dappartenance ne pose pas de problme.
En revanche, dans le cas o le classifieur neuronal doit faire lobjet dune implantation matrielle dans un
circuit spcialis, lutilisation de neurones binaires permet de diminuer significativement les temps de
calcul et la complexit de ralisation. Par exemple, on peut trouver une valuation comparative dimplan-
tations matrielles de rseaux de neurones continus et binaires pour une application la reconnaissance
de signaux radar en milieux radiatifs dans la thse de Christelle Godin [GODIN 2000].

Sparation linaire : le perceptron


Le rseau le plus simple pour classer des donnes en deux classes est x1 x2 xN-1 xN
constitu dun seul neurone binaire. Introduit par Rosenblatt [ROSEN-
BLATT 1958], qui la nomm perceptron, il est reprsent sur la figure 6-3. w2
x0 w1 w N-1
La sortie du perceptron dpend de la somme des composantes xi du wN
vecteur dentre, pondres par des poids wi R. Conformment aux w0
notations utilises dans cet ouvrage, nous appellerons potentiel cette
somme pondre. Notons que cette quantit est dsigne sous le terme
de champ linaire dans les articles crits par les physiciens, qui ont
tudi le perceptron en grand dtail, en sappuyant notamment sur les
Figure 6-3. Schma
analogies formelles entre les assembles de neurones binaires et les du perceptron
assembles de spins (ou aimants lmentaires) en interaction ; dans ce
cadre, la somme pondre, qui est lanalogue du potentiel de membrane
des neurones biologiques, reprsente un champ magntique.
Le potentiel tant une fonction affine des entres, on appelle aussi le perceptron sparateur linaire .
Cependant, comme nous lavons indiqu dans le chapitre 1, on peut gnraliser et considrer des poten-
tiels non linaires, par exemple polynomiaux (neurones dordre suprieur ).
Si le potentiel dpasse le seuil du neurone, s0, la sortie du perceptron est = +1. Autrement, elle est
s = 1. Le perceptron est donc un neurone dont la fonction dactivation est une fonction seuil. Sur la
figure 6-3, conformment aux conventions utilises dans les chapitres prcdents, nous avons inclus une
entre constante x0 = 1 dans lensemble des entres du perceptron, affecte dun poids w0 = s0. Chaque
vecteur dentre ayant une composante supplmentaire x0 = 1, cela quivaut considrer un espace des
entres largi, de dimension N + 1 dans lequel on na pas de seuil. Dans cet espace, le potentiel se note :

Dfinition : potentiel

vL = w x i i = wx (7)
i=0

La sortie est donne par :

Dfinition : sortie du perceptron

L = sgn ( vL ) (8)
Lapprentissage statistique
306

Lorsque lon contraint les entres tre des grandeurs 2 2


binaires, un perceptron ralise une fonction boolenne 1 1

de ses entres, cest--dire une application de {0, 1}N+1


dans {0, 1} (ou de {1, +1}N+1 dans {1, +1}). Il 1
spare les entres x en deux sous-ensembles, suivant la 1 1 1 1

sortie qui leur est associe. Daprs les quations (7)


et (8), le vecteur des poids du perceptron, w, est normal 1 1
un hyperplan dans RN+1 (dfini par une quation
linaire, un hyperplan est la gnralisation, en dimen- (a) (b)
sion N, du plan de lespace tridimensionnel) qui passe
par lorigine, et qui spare les exemples pour lesquels Figure 6-4. Deux fonctions boolennes. Les cercles
= +1 de ceux pour lesquels = 1. En effet, les pleins correspondent des entres de classe +1,
premiers satisfont w x > 0, les seconds w x < 0. Le les cercles creux des entres de classe 1.
gauche la fonction OU ralisable par un perceptron,
perceptron ralise des sparations linaires de ses droite la fonction OU-EXCLUSIF, non ralisable
entres. En termes de fonctions boolennes, on par un perceptron.
remarque quil ne peut pas raliser certaines fonctions
telles que le OU-EXCLUSIF (en anglais XOR) repr-
sente sur la figure 6-4.b, car les quatre exemples ne sont pas linairement sparables.
tant donnes les entres xk de lensemble dapprentissage, qui constituent M points dans un espace de
dimension N, il existe 2M fonctions boolennes possibles de ces points. Ce nombre crot exponentielle-
ment avec M, et il devient intraitable numriquement ds que M dpasse la dizaine. Or, bien quon ne
sache pas calculer combien, parmi ces fonctions boolennes, sont linairement sparables, on sait que leur
nombre varie selon une loi de puissances ( Mn, o n > 1) qui crot bien plus lentement quune exponen-
tielle. Ainsi, quand M est grand, elles ne reprsentent quune fraction ngligeable des fonctions
boolennes possibles. Le perceptron peut donc raliser un nombre trs rduit de fonctions boolennes de
ses entres. Du point de vue de la classification, cela implique quil ne pourra apprendre classer correc-
tement quune fraction des possibles ensembles dapprentissages : ceux linairement sparables.

Gomtrie de la classification
Nous allons analyser quelques aspects gomtriques de la classification. On vient de voir quil y a 2M
faons diffrentes dattribuer des classes aux M vecteurs xk LM , 1 k M. Chacune correspond :
une fonction boolenne (application de {1, +1}N+1 dans {1, +1}) particulire des entres si ces
dernires sont binaires (une fonction est dfinie par les valeurs quelle prend pour chaque point de son
domaine de dfinition) ;
une fonction valeurs binaires (application de RN dans {1, +1}) lorsque les entres sont des rels (ce
qui est le cas dans la trs grande majorit des applications en classification).
Quand on dtermine les valeurs des poids, on slectionne une fonction particulire qui, si lapprentissage
aboutit une solution sans erreurs, prend exactement les valeurs yk pour les M lments de LM. Par
lapprentissage, on slectionne donc une seule fonction, dtermine par les poids du rseau. Mme si lon
se restreint des poids qui discriminent correctement les exemples, les fonctions quils reprsentent
peuvent diffrer sur des points x nappartenant pas LM. En consquence, chacune de ces fonctions
produit des gnralisations diffrentes.
Comme le montre lquation (7), le potentiel (linaire) est le produit scalaire du vecteur des poids w et du
vecteur dentre x.
La discrimination
307
CHAPITRE 6

Dfinition : Hyperplan sparateur

Les points xH qui satisfont lquation


w xH = 0 (9)
appartiennent lhyperplan sparateur H, normal au vecteur w dans lespace des entres largi, de
dimension N + 1. Dans lespace largi, lhyperplan dfini par (9) passe par lorigine.

Remarque
Si les exemples de lensemble dapprentissage sont linairement sparables, il existe un continuum, cest--dire un nombre inni, dhyper-
plans qui classent correctement ces exemples.

Considrons une entre quelconque x. Nous avons vu que si w x > 0, alors le perceptron lui attribue la
classe +1 ; si w x < 0, la classe est 1. Dans les deux cas, le vecteur x se trouve une distance |d| de
lhyperplan, o d est donne par :
wx
d= (10)
w
et o
N
w = w 2
j ww (11)
j =0

est la norme du vecteur des poids. x0


Figure 6-5. Exemples (cercles gris) en deux dimensions, reprsents
dans lespace largi tridimensionnel. Un hyperplan sparateur, normal
w, ainsi que la droite sparatrice correspondante, normale w, ~
w
dans lespace des entres, sont reprsents.

Remarque
w x2
H
Il peut tre utile de revenir lespace original, de dimension N. Les points x R qui
N

satisfont

N
H
x1
w j x j = w 0 (12)
j =1
T
se trouvent sur un hyperplan normal au vecteur w = w 1 w 2 L w N , dont la distance lorigine est la valeur absolue de
w0 . (13)
d 0H =
N

w 2
j
j =1

En particulier, sur la gure 6-5, on peut voir la relation entre w et w. Lhyperplan sparateur dans lespace N dimensions est lintersection
de lhyperplan dans lespace largi avec le sous-espace x0 = 1. Il est clair que les distances des exemples lhyperplan sont diffrentes
selon quon les mesure dans lun ou lautre espace.

Pour rsumer, chaque ensemble de poids w dtermine un hyperplan dquation (9) qui spare lespace des
entres en deux rgions. Ces poids attribuent des sorties +1 aux entres x dont la projection sur w est posi-
tive, et des sorties 1 aux autres. Un perceptron fait donc des sparations (ou discriminations) linaires,
car lquation de la surface sparatrice (discriminante) est une fonction linaire (hyperplan) des entres.
Lapprentissage statistique
308

Comme nous le verrons plus loin dans ce chapitre, pour faire des sparations plus complexes avec des
neurones binaires, il faut utiliser soit des potentiels plus complexes, comme cest le cas du perceptron
sphrique ou des machines vecteurs support, soit des rseaux avec des units caches, dcrits dans la
section consacre aux heuristiques constructives.
Considrons un lment xk de LM , de classe yk. Une quantit utile par la suite est son champ align zk par
rapport un perceptron de poids w, dfini par :

Dfinition : Champ align

z k = yk w x k (14)
Daprs les relations (3) et (8), on voit que la sortie du perceptron de poids w est correcte si
zk > 0 (15)

Les proprits de la sparation linaire ne dpendent pas de la norme du vecteur w, mais seulement de son
orientation. Si lon change la norme des poids sans modifier la direction de w, en multipliant toutes les
composantes wi (y compris w0) par une mme constante positive, la sortie du perceptron sera la mme.
Seule lorientation de lhyperplan, dfinie par le vecteur unitaire w/||w||, est pertinente pour la classifica-
tion. Pour ltude des proprits dapprentissage des neurones binaires, il est utile dintroduire le concept
de stabilit dun exemple, qui est ainsi dfini :

Dfinition : stabilit dun exemple

yk w x k zk
k = = (16)
w w

Par comparaison avec (10), et tant donn que y k = 1, la valeur


absolue de la stabilit, k , nest autre que la distance de lexemple k
lhyperplan sparateur. Cela est illustr sur la figure 6-6 pour des y =+ 1
entres relles. En termes de stabilit, la condition de classification w y= 1
x1
correcte (3) scrit
k > 0 1> 0
2 2
x <0
Remarque
Les stabilits des exemples donnent une ide de la conance que lon peut avoir dans la Figure 6-6. Espace des exemples.
classication. Nous verrons dans la dernire partie de ce chapitre que ces stabilits sont Sont reprsents lhyperplan corres-
lies linterprtation probabiliste de la classication. pondant au perceptron
de poids w (avec w = 1)
Certains exemples ont des proprits particulires. Le plus proche de et les stabilits 1 et 2 de deux
lhyperplan permet de dfinir la marge du perceptron. exemples x1 et x2, de classe +1.

Dfinition de la marge

La distance lhyperplan sparateur de lexemple de LM le plus proche de lhyperplan sappelle


marge. La rgion de lespace des deux cts de lhyperplan, centre sur ce dernier et dpaisseur 2,
ne contient aucun exemple.
La discrimination
309
CHAPITRE 6

Dfinition : perceptron de marge maximale

Parmi tous les hyperplans sparateurs possibles, celui de marge maximale, aussi appel perceptron de
stabilit optimale, a des proprits intressantes : il est le plus robuste par rapport des perturbations
des entres ou une dtrioration des poids. Les machines vecteurs supports , que nous introdui-
rons plus loin, sont fondes sur le concept de marge maximale.

Algorithmes dapprentissage pour le perceptron


Plusieurs algorithmes dapprentissage permettent de dterminer
les poids du perceptron partir de lensemble dapprentissage w(t = 5)
LM = {xk, yk}k=1, , M. Historiquement, le premier qui a t propos
est l algorithme du perceptron . Bien que, dans la pratique, il
soit rarement utilis, ltude de ses proprits est trs instructive,
et nous verrons que dautres algorithmes peuvent tre vus comme 5 w*
des gnralisations de celui-ci.

Algorithme du perceptron 1
3
Nous avons vu quun perceptron est capable de raliser nimporte
quelle sparation linaire, condition que ses poids soient ajusts
correctement.
2,4
Remarque
Si les exemples de lensemble dapprentissage sont linairement sparables, un Figure 6-7. Vecteur w aprs 5 itrations
perceptron devrait donc, en principe, pouvoir apprendre les classer sans erreurs. de lalgorithme du perceptron :
les exemples utiliss pour lapprentissage
Lalgorithme du perceptron procde de la manire suivante : (cercles noirs : classe 1, cercles blancs :
Algorithme classe +1) sont numrots dans lordre
dutilisation. w* est un vecteur solution.
initialisation : Le vecteur w(t = 5) permet de sparer
1. t = 0 (compteur des mises jour) ; tous les exemples.
2. w(0) = 0 (initialisation tabula rasa), ou bien chaque
composante de w(0) est tire au hasard.
apprentissage :
1. on choisit un exemple k de lensemble dapprentissage LM, soit en le tirant au hasard, soit en
suivant un ordre pr-tabli ;
2. si z k y k w ( t ) x k 0 , cest--dire si lexemple k est mal class, on modifie les poids selon la
relation wi ( t + 1) = wi ( t ) + y k xik pour tout i (0 i N) ;
3. on incrmente le compteur des mises jour : t = t + 1.
test :
1. si z k y k w ( t ) x k > 0, pour tous les exemples k = 1, 2, ..., M, alors ils sont tous bien appris ;
lalgorithme sarrte ;
2. sinon, on va apprentissage.
Lalgorithme du perceptron itre donc les modifications des poids tant quil reste des exemples dont le
champ align zk est ngatif, cest--dire des exemples qui sont mal classs. La figure 6-7 illustre lappli-
Lapprentissage statistique
310

cation de lalgorithme du perceptron. Il est vident que si lensemble dapprentissage nest pas linaire-
ment sparable, lalgorithme ne sarrte jamais (contrairement lalgorithme de Ho et Kashyap prsent
dans le chapitre 2). Si les exemples sont linairement sparables, lalgorithme du perceptron converge,
comme le dmontre le thorme ci-dessous.
Remarque
On ne peut donc pas utiliser lalgorithme du perceptron pour dterminer si un ensemble dexemples est, ou nest pas, linairement spara-
bles. En effet, on ne peut pas, en un temps de calcul raisonnable , distinguer un algorithme du perceptron qui ne converge pas (parce
que les exemples ne sont pas linairement sparables) et un algorithme du perceptron qui converge trs lentement (bien que les exemples
soient linairement sparables). Comme nous lavons indiqu dans le chapitre 2, il faut utiliser lalgorithme de Ho et Kashyap [HO 1965], qui
fournit la rponse en un nombre ni ditrations : si les exemples sont linairement sparables, il trouve une solution (qui nest pas du tout
optimale) ; si les exemples ne sont pas linairement sparables, lalgorithme lindique aprs un nombre ni ditrations.

Thorme de convergence du perceptron

Thorme

Si les exemples de lensemble dapprentissage sont linairement sparables, lalgorithme du percep-


tron trouve un hyperplan sparateur en un nombre fini ditrations.

Pour la dmonstration, on supposera que lon a initialis les poids zro, suivant loption tabula rasa.
Cette hypothse nest pas ncessaire, car on peut tout aussi bien commencer avec des poids quelconques,
mais elle rend la dmonstration plus simple.
Puisque, par hypothse, les exemples de lensemble dapprentissage LM sont linairement sparables, il
existe un vecteur de poids w*, quon appellera perceptron de rfrence, qui classe correctement les exem-
ples. Sans perte de gnralit, nous supposerons que w* est unitaire. Si ce ntait pas le cas, il suffirait de
le diviser par sa norme. Les stabilits des exemples dans LM par rapport lhyperplan de rfrence sont
positives. Puisque w* est unitaire, elles sont gales aux champs aligns correspondants :
*k = y k x k w* = z*k . (17)
15 Pour dmontrer le thorme, on dtermine des bornes, sup-
rieure et infrieure, de la norme du vecteur de poids engendr
inf
par lalgorithme du perceptron. On peut dmontrer (voir nos
Bornes | w (t + 1) |

sup
Complments en fin de ce chapitre) que ces bornes sont
10
des fonctions croissantes du nombre t ditrations, mais elles
augmentent une allure diffrente. En effet, la borne inf-
rieure crot linairement avec le nombre ditrations t, tandis
5 que la borne suprieure le fait plus lentement, comme t
(voir figure 6-8). Ces bornes se croisent, ce qui est absurde,
au-del dun certain nombre ditrations T, donn par
0 2
0 10 T 20 x max
t T = min (18)
Figure 6-8. Comportement des bornes *
suprieure et infrieure au cours
des itrations, pour un cas o *min = 0.5 o x max est la norme de lexemple de LM dont la norme est
et ||xmax|| = 2. maximale, et *min est la plus petite stabilit par rapport
lhyperplan de rfrence parmi celles des exemples de LM.
La discrimination
311
CHAPITRE 6

Lalgorithme du perceptron converge donc ncessairement, car le nombre ditrations ne peut pas
dpasser T. Sil y a des exemples trs proches (avec petit relativement x max ) de lhyperplan de rf-
rence, le temps de convergence peut tre trs long. Cependant, lalgorithme peut converger en un temps
bien plus court que celui qui est donn par la relation (18), pour deux raisons :
dune part, parce que lhyperplan de rfrence w* est arbitraire et que la valeur de *min correspondante
peut tre particulirement petite,
dautre part, parce que le temps de convergence dpend de la squence particulire dexemples qui est
utilise pour les mises jour successives. De ce fait, il est une variable alatoire.
Remarque 1
Le rsultat (18) a une interprtation intuitive simple. La correction des poids lors de chaque itration de lalgorithme est borne, car sa
norme ne peut tre suprieure celle de lexemple appris cette itration-l, ||xk||. En revanche, lapprentissage des exemples successifs
augmente la norme des poids. La correction quun mme exemple produit chaque itration o il est appris perturbe donc de moins en
moins w : les ajustements successifs orientent lhyperplan par des modications relativement dcroissantes. Sil existe des exemples trs
proches de lhyperplan sparateur, il faut que les corrections deviennent sufsamment faibles pour atteindre la prcision ncessaire. Cest
ce qui explique que le temps de convergence soit inversement proportionnel * .
min

Remarque 2
Puisque, par hypothse, les exemples de lensemble dapprentissage sont linairement sparables, au lieu de considrer les entres xk de
classes yk, on peut les remplacer par des entres x k y k x k de classes y k = +1. En effet, si w classe correctement lensemble des xk,
il procde de mme avec les x k , car y k w x k y k w x k > 0.

Apprentissage par minimisation dun cot


La plupart des algorithmes dapprentissage du perceptron permettent dobtenir w par la minimisation
dune fonction de cot drivable, somme de cots partiels par exemple. Nous avons vu que la condition
dun bon apprentissage peut se formuler en termes des seuls champs aligns des exemples, qui doivent
tre positifs (quation (15)). Il est donc raisonnable de considrer pour chaque exemple k un cot partiel
fonction de zk : V(zk). Ce cot partiel reprsente la contribution de lexemple k au cot total. Alors, la fonc-
tion de cot est
M

V ( z ) .
1
C (w ) = k
(19)
M k =1

Elle dpend des poids w par lintermdiaire des champs aligns des exemples. Nous verrons plus loin que
le fait que (19) soit une somme sur les exemples est cohrent avec lhypothse que les exemples sont des
variables alatoires indpendantes.
Remarque
Le facteur 1/M devant la somme dans (19) ne joue aucun rle dans la minimisation du cot. Il permet de dnir le cot moyen unitaire,
cst--dire le cot moyen de chaque exemple, quantit qui peut tre utile si lon veut comparer des rsultats sur des bases dapprentissage
de tailles diffrentes.

La fonction V qui entre dans la dfinition (19) doit satisfaire certaines contraintes pour que la minimisa-
tion du cot permette de trouver des poids adquats. Les poids w qui produisent des champs aligns nga-
tifs sur un grand nombre dexemples doivent avoir un cot plus fort que ceux qui produisent une majorit
de champs aligns positifs. V(z) doit donc tre une fonction non croissante de son argument. Remarquons
que, si les exemples de lensemble dapprentissage LM sont linairement sparables par w*, alors tout
vecteur de la forme aw* avec a > 1 produit la mme sparation que w*, mais avec un cot infrieur. En
consquence, si V est une fonction non croissante du champ align, un algorithme de minimisation peut
ne pas converger, car, quand lensemble LM est linairement sparable, on peut toujours diminuer le cot
en augmentant la norme de w sans modification de lorientation de lhyperplan. Pour viter cela, on peut
Lapprentissage statistique
312

imposer la contrainte ||w|| = cte. Les normalisations ||w|| = 1 et ||w|| = N + 1 dans lespace largi (ou
||w|| = N, si lon travaille dans lespace des entres de dimension N), sont celles qui sont les plus utilises.

Si V(z) est drivable, alors V(z) 0. Dans ce cas, la mthode la plus simple pour procder une minimi-
sation de (19) est la mthode du gradient simple, dcrite au chapitre 2. Rappelons quelle consiste modi-
fier les poids itrativement, suivant

w ( t + 1) = w ( t ) + w ( t ) (20)

avec

C ( w ) 1 N
( ) (t ) y x
V z k
w ( t ) =
w
(t ) =
M
z k
k k
(21)
k =1

M
= ck (t ) yk x k (22)
k =1

o est le pas dapprentissage. Dans (22) on a utilis la relation zk/w = yk xk (cf. (14)) et lon a intro-
duit des coefficients ck(t), dfinis par c k ( t )
V z
k

. Comme
( )
V z k ( )
0, ck(t) 0. Il convient de
M z k z k
normaliser les poids aprs chaque itration (20).

Le rsultat (22) montre que, dune manire gnrale, les poids obtenus avec des algorithmes dapprentis-
sage peuvent scrire comme suit :

M
w = ck yk x k (23)
k =1

o les coefficients ck, qui sont la somme des ck(t) sur toutes les itrations, sont positifs ou nuls. Leurs
valeurs dpendent de lalgorithme dapprentissage. Nous verrons plus bas comment les proprits des
machines vecteurs supports se dduisent de celles des coefficients ck. Lexpression (23) avec ck = c > 0
(o c est une constante quelconque) est connue sous le nom de rgle de Hebb. Elle exprime mathmati-
quement (quoique de faon non rigoureuse) un modle dapprentissage neuronal propos par D. Hebb
pour expliquer la capacit de mmoire du systme nerveux (voir le livre de P. Peretto pour une discussion
plus approfondie de cette rgle). Remarquons tout de suite que la rgle de Hebb a de trs mauvaises
performances pour faire des discriminations de donnes. Mme si, dans le contexte de lapprentissage
automatique, son intrt est plutt historique, on verra que lon peut acclrer la convergence de certains
algorithmes en initialisant les poids avec la rgle de Hebb.

Remarque
Si lon ne normalisait pas les poids aprs chaque itration de lalgorithme pour satisfaire la contrainte ||w|| = cte, on pourrait contrler la
convergence en arrtant les itrations ds que les corrections aux poids deviennent parallles aux poids eux-mmes, cest--dire, si
w ( t + 1 ) w ( t ) = w ( t + 1 ) w ( t ) (dans les limites de la prcision requise par lapplication).

Dans la suite de ce paragraphe, nous prsentons quelques cots partiels V(z) proposs dans la littrature.
La discrimination
313
CHAPITRE 6

Fonctions de cot pour le perceptron


Nombre d'erreurs La fonction de cot qui semble la plus approprie intuiti-
V(z)=(-z ) vement est le nombre derreurs dapprentissage. Le cot
1.00
partiel correspondant, reprsent sur la figure 6-9, est :

0.75 V ( z) = (z) (24)


V(z)
o (x) est la fonction de Heaviside dfinie par la rela-
0.50 tion (5). Elle vaut 1 si lexemple est mal class, et 0
autrement. son minimum, le cot total est donc
0.25 proportionnel au plus petit nombre dexemples mal
classs. Cette fonction ntant pas diffrentiable, on ne
peut pas la minimiser par une mthode de gradient. Il
0.00
faut faire appel des techniques doptimisation combi-
6 4 2 0 2 4 6 natoire, comme, par exemple, le recuit simul.
z
Considrons maintenant des cots drivables. Le cot
Figure 6-9. Cot partiel correspondant
au nombre derreurs dapprentissage
partiel suivant, reprsent sur la figure 6-10,
V (z) = z (25)
6
V(z) est la fonction monotone dcroissante la plus simple.
Rgle de Hebb
4 V(z)=- z Aprs introduction de sa drive dans (22), on trouve
M
1
2 w =
M
y x k k
(26)
k =1

0
qui nest autre que la rgle de Hebb. Comme cela a t
discut plus haut, le cot partiel tant monotone dcrois-
2 sant, il faut, pour que lalgorithme sarrte, introduire la
contrainte de normalisation des poids. Une seule itra-
4 tion suffit alors pour trouver le minimum du cot. Dans
la suite de cette section, nous utiliserons ce rsultat pour
6 initialiser lalgorithme Minimerror.
6 4 2 0 2 4 6
z Lalgorithme du perceptron correspond lutilisation du
Figure 6-10. Cot partiel correspondant cot partiel suivant :
la rgle de Hebb
V ( z ) = z ( z ) (27)
reprsent sur la figure 6-11. Les corrections des poids chaque itration lors de la minimisation du cot
correspondant sont :
M

( z ) y x
1
w = k k k
(28)
M k =1

ce qui quivaut une version non adaptative ( batch ) de lalgorithme du perceptron car ici, chaque
itration, les poids sont mis jour avec tous les exemples mal classs (grce la fonction dans (30)),
alors que, dans lalgorithme du perceptron, on ne prend en considration quun seul exemple chaque
mise jour des poids.
Lapprentissage statistique
314

V(z)
Algorithme du perceptron
V(z)= z(z)
4

Figure 6-11. Cot partiel correspondant une version non adaptative


( batch ) de lalgorithme du perceptron
2

4 2 0 2 4 6
z

Lalgorithme Adaline , aussi appel rgle Delta , algorithme de Widrow-Hoff, ou encore


algorithme de relaxation , drive du cot partiel suivant :

1 2
V (z) = z (z) , (29)
2
reprsent sur la figure 6-12.

30
V(z) Rgle Delta
V(z)=z 2 (z)/ 2

20

Figure 6-12. Cot partiel correspondant la rgle Delta

10

0
6 4 2 0 2 4 6
z

Les modifications des poids lors des itrations successives sont donnes par :
M

z (z ) y x .
1
w = k k k k (30)
M k =1

Remarque
Si les exemples de lensemble dapprentissage sont linairement sparables les algorithmes que lon vient de prsenter trouveront gn-
ralement une solution w sans erreurs dapprentissage, avec plus ou moins ditrations suivant lalgorithme. Pour cela, rappelons que , le
pas dapprentissage, doit tre sufsamment petit.
La discrimination
315
CHAPITRE 6

Les algorithmes prcdents pnalisent les poids qui donnent des erreurs dapprentissage, car les cots
partiels correspondant des champs aligns ngatifs ont des valeurs positives. Les exemples bien classs
ont un cot nul (sauf pour la rgle de Hebb), o quils se trouvent. Or, lintuition nous dit quon est plus
sr de la classification des exemples trs loigns de lhyperplan que de ceux qui en sont tout prs. On
devrait donc pnaliser les hyperplans qui se placent trop prs des exemples, mme sils les classent bien.
Cest le but des algorithmes qui cherchent lhyperplan de marge , cest--dire, les poids w() tels que,
pour tous les exemples k,

zk
k . (31)
w
Afin de pnaliser les poids qui, mme sils classent bien tous les exemples, prsentent des exemples plus
proches de lhyperplan que la marge , il suffit de modifier les cots (24), (25), (27) et (29) en remplaant
partout le champ align zk par z k w . Dans ce cas, les solutions de cot nul vrifient (31) pour tous les
exemples. La plus grande valeur de pour laquelle il existe une solution de cot nul correspond au
perceptron de marge maximale. Il faut remarquer que, dans la pratique, le procd qui consiste maxi-
miser peut tre assez complexe et coteux en temps de calcul.
Dautres fonctions de cot ont un paramtre ajustable, plus ou moins quivalent , que lon appelle
hyperparamtre. Elles permettent de trouver des solutions qui ont de meilleures proprits de gnralisa-
tion que celles que lon vient de prsenter [3, 4, 5, 6].
En gnral, quand les exemples de lensemble dapprentissage ne sont pas linairement sparables, on
peut reprsenter la surface discriminante laide de neurones cachs. Lhyperplan dfini par chaque
neurone doit sparer correctement les exemples de classes diffrentes, au moins dans un voisinage limit
de lhyperplan. Or, lorsque les exemples ne sont pas sparables, les fonctions de cot prsentes dans ce
paragraphe ont plusieurs minima locaux, et, gnralement, la solution vers laquelle convergent les algo-
rithmes ne possde pas cette proprit de sparation locale. Une fonction qui permet de trouver une telle
solution est le cot partiel suivant (utilis par lalgorithme Minimerror qui est dcrit plus bas), lequel est
fonction de la stabilit , dfinie par (16), et non pas du champ align z :
1
V ( ) = --- [ 1 th ( ) ] (32)
2
o est un hyperparamtre. Le cot partiel (32) est reprsent en fonction de sur la figure 6-13 (
gauche), pour deux valeurs de diffrentes.
Faisant lapprentissage par la mthode du gradient, la contribution de chaque exemple est proportion-
nelle
V ( ) - yx -------- .
w
----------------
- ------------------------------------ (33)
w 2 w cosh ( )
2 w
Elle est le produit de deux termes. Un prfacteur qui dpend de la stabilit de lexemple, et la quantit
yx w w . Le prfacteur cosh2() dans (33), est reprsent sur la figure 6-13 ( droite) en fonction de
, pour deux valeurs de . Lhyperparamtre a une signification intuitive trs simple : rappelons que k
est la distance de lexemple k lhyperplan dfini par les poids w. Si k >> 1 , le prfacteur cosh ( )
2 k

a des valeurs ngligeables, et la contribution de lexemple correspondant w dans (21) est faible. Seuls
les exemples suffisamment proches de lhyperplan, ceux ayant < 1 , contribuent significativement
la modification des poids. Tout se passe comme si lon avait une fentre de largeur proportionnelle 1/
centre sur lhyperplan, et au travers de laquelle on ne verrait que les exemples effectivement utiliss pour
lapprentissage. Plus est grand, plus cette fentre est troite, comme le montre la figure 6-13 ( droite).
Lapprentissage statistique
316

V() cosh-2()
Cot de Minimerror
1.0 1.0 =0.5
=0.5
=5 =5
0.8 0.8 Figure 6-13.
gauche : cot
partiel
0.6 0.6
correspondant
Minimerror ;
0.4 0.4 droite :
prfacteur de la
modification des
0.2 0.2
poids (quation
(35)), pour deux
0.0 0.0 valeurs de
6 4 2 0 2 4 6 6 4 2 0 2 4 6 lhyperparamtre
.

Remarque 1
Par rapport aux algorithmes dont le cot partiel est fonction du champ align, la drive de (32) par rapport aux poids fait apparatre un
terme supplmentaire, w/||w||, qui provient de la norme des poids au dnominateur de la stabilit (dnie par lquation (16)). La quantit
w/||w|| est la composante de lexemple parallle w. Dans le terme entre parenthses de lquation (33), yx w w est la compo-
sante de yx (le terme hebbien qui apparat dans tous les algorithmes dapprentissage) orthogonale w. Seule cette composante contribue
effectivement lapprentissage ; la composante parallle w nest pas utile pour lapprentissage car elle ne peut pas contribuer changer
lorientation de w. Si lon normalise les poids aprs chaque itration de lalgorithme, le terme w/||w|| peut tre nglig.

Remarque 2
Mme les exemples bien classs, avec > 0, contribuent lapprentissage ; ils le font dautant plus quils sont proches de lhyperplan.

Remarque 3
Si est sufsamment petit (k << 1 pour tout k), alors tous les exemples contribuent lapprentissage avec pratiquement le mme prfac-
teur, comme dans la rgle de Hebb discute plus haut. En effet, dans la limite 0, les stabilits de tous les exemples se trouvent dans
la rgion o le cot dcrot linairement (autour de = 0), et le prfacteur dans (33) est le mme pour tous les exemples.

Remarque 4
Pour des valeurs intermdiaires de , les exemples sufsamment loigns de lhyperplan pour satisfaire >> 1, cest--dire ceux dont
les stabilits sont grandes par rapport 1/, contribuent peu lapprentissage, car leur prfacteur dans (35) est exponentiellement faible
1
- < 4 exp ( 2 ) . Par exemple, si > 5, le prfacteur est de lordre de 10-4.
(dans la limite >> 1, on a ----------------------------
2
cosh ( )

Les remarques prcdentes sont la base de lalgorithme Minimerror, qui permet non seulement
dobtenir une sparation linaire de grande marge si elle existe, mais, dans les cas o la sparation linaire
nexiste pas, trouve une surface localement discriminante grce lhyperparamtre , quil ajuste pour
optimiser la solution. Pour cela, on initialise les poids avec la rgle de Hebb (donne par (23) avec
ck = cte). On commence les itrations avec une valeur initiale de , ini, suffisamment petite pour que tous
les exemples figurent lintrieur de la fentre dapprentissage. Si ||xmax|| correspond la plus grande
norme parmi les vecteurs de LM, il suffit de prendre, par exemple, ini = 0,01/||xmax||. Ensuite, chaque pas
dapprentissage, on modifie les poids et lon augmente dune petite quantit . Ce procd est connu
dans la littrature comme tant celui du recuit dterministe ; il est conceptuellement proche du recuit
simul, utilis en particulier pour des problmes doptimisation. En effet, lhyperparamtre peut tre
La discrimination
317
CHAPITRE 6

interprt comme linverse dun bruit, ou dune temprature, T = 1/ [GORDON 1995]. Nous reviendrons
sur cette interprtation. Lexprience a montr que, dans de nombreuses applications, il est convenable
dutiliser deux valeurs de diffrentes, + pour les exemples de stabilit positive (bien appris), et pour
ceux de stabilit ngative. Pour ne pas introduire trop de paramtres, on garde le rapport +/ constant
pendant tout lapprentissage. Lalgorithme Minimerror a donc trois paramtres : le pas dapprentissage ,
le pas de recuit et lasymtrie +/. Il procde comme suit :

Algorithme Minimerror
Choisir :
1. , le pas dapprentissage (valeur conseille : 102),
2. +, lhyperparamtre (valeur conseille + = 102/||xmax||),
3. , le rapport +/ (valeur conseille : 6),
4. +, le pas du recuit (valeur conseille : 102).
Initialisation :
1. compteur de mises jour : t = 0,
2. poids : w(0) (initialisation conseille : appliquer la rgle de Hebb et normaliser les poids
||w|| = N + 1).
Apprentissage :
1. chaque itration, on modifie et lon normalise les poids selon :

w ( t ) + w
w ( t + 1) = avec w = ( w+ + w ) (34)
w ( t ) + w M

et

w = -k k x k
----------------------- (35)
k k cosh
2

o reprsente les sous-ensembles dexemples de stabilit positive (+) et ngative (),


respectivement,
2. on met jour le compteur et les diffrents paramtres :
t t + 1,
+ + + +, = +/.
Condition darrt :
1. si + et sont suffisamment grands pour quaucun exemple ne puisse contribuer significati-
vement aux poids (dans la limite de la prcision requise), lalgorithme sarrte ;
2. autrement, on va apprentissage.
On peut, et cest souvent utile, modifier le pas dapprentissage et ladapter au fur et mesure des itra-
tions, comme cela a t discut au chapitre 2.
Lapprentissage statistique
318

Remarque
Lalgorithme Minimerror combine une descente de gradient avec une modication de lhyperparamtre . Il converge vers un minimum
local. On a dmontr [GORDON 1995] que, si les exemples de lensemble dapprentissage sont linairement sparables, la minimisation de
(19), avec V donn par (32), pour des valeurs croissantes de permet de trouver lhyperplan de marge maximale. Si les exemples ne sont
pas linairement sparables, lalgorithme converge vers des poids qui minimisent le nombre derreurs dapprentissage et maximisent la
marge localement (au voisinage de lhyperplan). Ces proprits sont trs utiles pour les algorithmes dapprentissage constructifs, prsen-
ts plus bas dans ce chapitre.

On trouvera plus de dtails, ainsi que des exemples dutilisation de Minimerror, dans [TORRES
MORENO 1997] et [GODIN 2000].
Remarque
Un cot partiel assez intressant est celui des moindres carrs appliqu un rseau sans neurones cachs, et dont le neurone de sortie
a une fonction dactivation sigmodale. Puisque yk = 1, on a :
k 1 k k 2
V ( z ) = --- ( y th ( w x ) )
2
1 k k 2
= --- ( 1 y th ( w x ) ) (36)
2
1 k 2
= --- ( 1 th ( z ) )
2
car th(z) = th(z). Remarquons que largument de V nest pas la stabilit, mais le champ align. La modication des poids par lalgorithme
du gradient simple prend la forme (22), avec :
k
k 1 th ( z )-
c ( t ) ---- ----------------------
M cosh 2 ( z k )
k . (37)
1 th ( w )-
---- -------------------------------
M cosh 2 ( w k )
Lexpression (37) est similaire celle de lalgorithme Minimerror. Ici, ||w|| joue le mme rle que . La diffrence essentielle entre les deux
algorithmes est que est un paramtre contrlable par Minimerror, tandis que ||w|| ne peut pas tre contrl lors de la minimisation de
(36) .

Exemple dapplication : la classification de signaux de sonar


Cette application historique a t propose [GORMAN ET SEJNOWSKI 1988] pour tester les performances
des rseaux de neurones. Les donnes sont disponibles ladresse Internet suivante :
http://mlearn.ics.uci.edu/databases/undocumented/connectionist-bench/sonar/ [Blake 1998].
Il sagit de discriminer entre des signaux de sonar provenant de mines cylindriques et des signaux qui
manent de roches de mme forme. Pour cela, on dispose dun ensemble de 208 spectres de sonar
prtraits, dfinis par N = 60 valeurs relles xi [0, 1] (i = 1, , N), avec leurs classes. Conventionnelle-
ment, on utilise les 104 premiers exemples pour lapprentissage, et les 104 derniers pour estimer lerreur
de gnralisation. Bien que ce problme ait t utilis pour tester de nombreux algorithmes de classifica-
tion, avec diffrentes architectures de rseaux de neurones, nous avons montr avec Minimerror que, non
seulement les ensembles dapprentissage et de test taient chacun linairement sparable, mais que
lensemble des 208 donnes sont aussi linairement sparables [TORRES MORENO et al. 1998], ce qui est
conforme au rsultat, mentionn dans le chapitre 2, obtenu avec lalgorithme de Ho et Kashyap. gauche
de la figure 6-14, nous avons reprsent les distances des donnes lhyperplan sparateur qui est trouv
avec Minimerror, avec un signe correspondant la classe qui leur est attribue par le perceptron, lorsque
lon apprend avec les 104 premiers exemples de la base. La solution a une marge = 0,1226 : aucun
exemple dapprentissage ne se trouve une distance de lhyperplan plus petite que . En revanche, parmi
La discrimination
319
CHAPITRE 6

les 104 exemples de test, on en trouve 23 qui sont mal classs par cet hyperplan. droite de la figure 6-
14, on a reprsent les distances des donnes lhyperplan (avec le signe donn par le classifieur) lorsque
lapprentissage est effectu avec lensemble des 208 signaux. La marge dans ce cas est plus petite
( = 0,0028). Nous avons reprsent sur la figure 6-15 lhistogramme des stabilits de toutes les donnes
par rapport ce dernier hyperplan. Nous verrons quen faisant lhypothse que les donnes sont des
mesures bruites de grandeurs physiques, ces distances permettent dattribuer un degr de plausibilit (ou
une densit de probabilit) la classe que le perceptron attribue aux entres.

2 Figure 6-14. Distance des donnes


(a) (b) lhyperplan sparateur, avec des
1 couleurs correspondant leurs classes.
k

Le signe de sur la figure reprsente


stabilit

0 la classe attribue par le perceptron


aprs apprentissage. gauche :
-1
apprentissage avec les M = 104 premiers
exemples de la base. Les derniers
g=0.22 exemples G = 104 exemples appartiennent
-2
exemples
k
y =+1 k
y =+1 la base de test. droite : distances
k k
y =-1 y =-1 par rapport lhyperplan dtermin
-3
0 40 80 120 160 200 0 40 80 120 160 200 avec toutes les donnes, montrant
k k quelles sont linairement sparables.

50 Histogramme de stabilit
SONAR Benchmark
N = 60 M = 208
40

Figure 6-15. Histogramme des stabilits


30
des exemples correspondant lhyperplan
k
( ) qui spare toute la base.
20

10

0
0.0 0.5 1.0 1.5 2.0 2.5
k

Remarque 1

Le fait que lon ait trouv que les 208 donnes de ce problme sont linairement sparables nest pas tonnant, comme le dmontre le
thorme de Cover (et sa gnralisation par Gardner au cas de donnes corrles [ENGEL et al. 2001]) mentionn au dernier paragraphe
du chapitre, et dont la grande importance a dj t mentionne dans le chapitre 2. Ils ont tabli que la probabilit quun ensemble de
donnes (en position gnrale, cest--dire tel quil ny ait pas N points dans un mme hyperplan) soit linairement sparable ne dpend
que du rapport M/N, o M est le nombre de donnes et N la dimension de lespace des entres. En particulier, si N = 60 et M = 208, et si
les donnes prsentent des corrlations, ce qui est le cas dans ce problme du sonar, cette probabilit nest pas ngligeable.
Lapprentissage statistique
320

Remarque 2
On peut se demander pourquoi on na pas dcouvert plus tt que les donnes taient linairement sparables, alors que lalgorithme de
Ho et Kashyap [HO 1965] fournit le rsultat en quelques minutes. Ceci rsulte du caractre fondamentalement pluridisciplinaire du domaine
des rseaux de neurones, qui amne ignorer, voire redcouvrir, des rsultats importants tablis dans dautres disciplines ; les auteurs
de cet ouvrage esprent que celui-ci contribuera surmonter cette difcult.

Algorithmes dapprentissage adaptatifs ( en ligne )


Rappelons que sont ainsi nomms les algorithmes qui modifient les poids juste aprs la prsentation de
chaque exemple, comme le fait lalgorithme du perceptron. Nous avons soulign, dans les chapitres prc-
dents, que ce type dapprentissage est utile lorsque lensemble dapprentissage est trop important pour
quil puisse tre gard en mmoire dans sa totalit, ainsi que lexigent les algorithmes de minimisation
que lon vient de voir, ou dans des problmes o les exemples arrivent un par un, comme dans le cas dun
robot qui explore un domaine.
Comme nous lavons vu dans les chapitres 2 et 4, il est possible de raliser des apprentissages en ligne en
modifiant les poids proportionnellement la drive des cots partiels dcrits dans la section prcdente.
On parle alors de mthodes de gradient stochastique. La stochasticit est due lordre, plus ou moins arbi-
traire, selon lequel les exemples sont prsents.
Parmi les algorithmes dapprentissage en ligne pour le perceptron, on peut citer Minover [KRAUTH 1987]
et Adatron [ANLAUF 1989], qui sont plus performants que lalgorithme du perceptron. Lalgorithme
Adatron peut tre considr comme une version en ligne de lalgorithme de relaxation .

Interprtation de lapprentissage en termes de forces


hyperplan (t + 1) xk Dans ce paragraphe, nous introduisons une interprtation de
lapprentissage en termes de forces produites par les exem-
classe + 1 ples sur lhyperplan ; nous percevrons mieux pourquoi
w (t) classe 1
certains algorithmes ne convergent pas si lensemble nest
pas linairement sparable.
w (t + 1) En effet, tant donn lhyperplan litration t, la contribu-
hyperplan (t)
tion dun exemple k la modification des poids peut tre
ck (t)ykxk interprte comme une force

V ( z )
k

F k (t ) = (t ) (38)
M w
V ( z )
k
Figure 6-16. Forces sur lhyperplan.
litration t, lexemple k, mal class, = (t ) y k x k
produit une force attractive sur lhyperplan.
M z k
Sa contribution la correction des poids = c k (t ) yk x k
est indique par le vecteur ck(t)ykxk,
qui est ajout w(t) pour donner w(t + 1). qui agit sur lhyperplan. On peut remarquer que cette force est
la drive dun potentiel qui nest autre que le cot partiel V
(cest pourquoi ce dernier est appel potentiel dans la littrature des chercheurs physiciens qui tudient ces
problmes ; pour viter toute confusion avec le potentiel du neurone, nous nutiliserons pas ce terme). Si V(z)
est une fonction non croissante de son argument, alors ck 0. On peut voir, sur la figure 6-16, que si la stabi-
lit de lexemple k est ngative, alors la force attire lhyperplan vers lexemple, lequel voudrait passer de
lautre ct de lhyperplan. Si la stabilit de lexemple k est positive, lexemple repousse lhyperplan.
Puisque lhyperplan passe ncessairement par lorigine de lespace largi, ces forces le font pivoter.
La discrimination
321
CHAPITRE 6

Remarque
Langle de rotation est proportionnel au pas dapprentissage . Sil est grand, leffet de la force peut tre excessif, et risque dintroduire des
oscillations au cours des itrations successives.

Lorientation de lhyperplan se stabilise, et donc lalgorithme converge, quand les forces dues aux exem-
ples des deux cts squilibrent. Si le cot partiel V est nul pour les stabilits positives, seuls les exemples
non appris exercent des forces, qui sont attractives, sur lhyperplan. Si V > 0 pour les stabilits positives,
comme cest le cas de lalgorithme Minimerror, les exemples bien classs exercent aussi des forces (rpul-
sives) sur lhyperplan.
Si lensemble dapprentissage nest pas linairement sparable, les algorithmes dont le cot partiel
diverge pour les stabilits ngatives peuvent avoir des problmes de convergence. En effet, sil y a des
exemples de la mme classe des deux cts de lhyperplan, comme cela arrive dans les cas non sparables,
les exemples mal classs exercent des forces attractives, dautant plus grandes quils sont loigns de
lhyperplan. Lorientation de ce dernier peut alors osciller au cours des itrations successives, sans jamais
se stabiliser. Pour viter ce problme, on diminue le pas dapprentissage au fur et mesure que lappren-
tissage progresse. La mme remarque sapplique lapprentissage adaptatif ( en ligne ) : la solution
que lon trouve dpend non seulement de la vitesse laquelle a t modifi, mais aussi de lordre de
prsentation des exemples.

Au-del de la sparation linaire


Nous avons vu que le perceptron ne peut raliser que des sparations linaires des entres. Nous avons
indiqu, dans le chapitre 2, que, pour surmonter cette limitation, on introduit habituellement des rseaux
multicouches. Cependant, il existe dautres possibilits, dont la plus facile mettre en uvre consiste
utiliser des potentiels (ou activits) non linaires. Dans la section suivante, nous dfinirons une nouvelle
activit, qui permet de raliser des sparations sphriques des donnes avec le mme nombre de param-
tres quun perceptron linaire. Bien videmment, cette solution est encore trop restrictive. Cest pourquoi
nous prsentons ensuite deux approches trs diffrentes, permettant toutes les deux de produire des
surfaces discriminantes de formes arbitraires, ce qui ncessite lapprentissage dun plus grand nombre de
paramtres. On peut, soit rendre le rseau plus complexe par la construction dune couche cache avec des
mthodes incrmentales, soit augmenter le nombre de paramtres du perceptron, comme le font les
machines vecteurs support .

Perceptron sphrique
On peut produire des surfaces discriminantes hypersphriques partir dune gnralisation trs simple du
perceptron. En effet, au lieu du potentiel linaire (7) on dfinit un potentiel ou activit sphrique
N

(x w i ) w 0
2 2
vS = i (39)
i=1

o la somme sur i est le carr de la distance entre lentre x et le vecteur des poids dans lespace non largi
w = w 1 w 2 L w N . Le vecteur w est le centre dune hypersphre de rayon w0. La sortie du perceptron
sphrique est :
S = sgn ( v S ) . (40)
Lapprentissage statistique
322

Puisque le vecteur w est le centre dune hypersphre


de rayon w0, alors sS = +1 si le point x se trouve
lextrieur de lhypersphre, et sS = 1 sil se trouve
lintrieur (voir figure 6-17). Remarquons que le
perceptron sphrique a le mme nombre de paramtres
que le perceptron linaire. Seule lexpression du poten-
tiel est diffrente. Tous les algorithmes dapprentissage
pour le perceptron linaire se transposent facilement
() au perceptron sphrique, en introduisant pour le champ
align dun exemple k lexpression suivante :

zSk = y k vS . (41)
Remarquons que, dans ce cas, il ne faut pas normaliser
les poids, car cela reviendrait imposer que le centre
de lhypersphre se trouve une distance de lorigine
qui serait fixe par la constante de normalisation.

Heuristiques constructives
Comme cela a dj t mentionn, on peut transformer
la classification en un problme de rgression et appli-
( ) quer les techniques dapprentissage et de slection de
modle dcrites aux chapitres 1 et 2. Notons que, dans
ce cadre, tous les neurones du rseau doivent avoir des
fonctions dactivation drivables ; comme nous
Figure 6-17. Deux surfaces discriminantes lavons indiqu au dbut de ce chapitre, des units
sphriques en dimension N = 2. La premire caches binaires peuvent suffire si lon cherche dter-
(en haut) a un rayon w0(1) et son centre se trouve miner directement les surfaces discriminantes. Si la
(1) (2)
au point w . La deuxime, de rayon w0 ,
(2)
est centre sur w . On peut remarquer que surface discriminante nest ni linaire ni sphrique, on
le centre de la surface discriminante peut se trouver peut la dcomposer en morceaux (linaires ou sphri-
lextrieur de la rgion occupe par les exemples. ques) laide de neurones cachs. Alors, les probabi-
lits dappartenance chaque classe se dterminent
partir des stabilits, utilisant les rsultats prsents dans la section Questions Thoriques, plus loin dans
ce chapitre.
Dfinition : reprsentation interne
Ltat des neurones cachs associ un exemple sappelle reprsentation interne de lexemple. Remarquons que plusieurs exemples
peuvent avoir la mme reprsentation. Cela est souhaitable, pourvu quils appartiennent la mme classe, car ainsi on comprime linfor-
mation contenue dans LM.
En gnral, on incorpore les units caches au rseau les unes aprs les autres, suivant des heuristiques
constructives qui utilisent diffrents critres pour associer une reprsentation interne binaire chaque
lment de lensemble dapprentissage. Si ces reprsentations internes sont linairement sparables, un
perceptron de sortie, connect aux units caches, peut apprendre les discriminer.
Remarque
On dit que les reprsentations internes de lensemble dapprentissage sont dles si les exemples de classes diffrentes ont des reprsen-
tations diffrentes. Si deux exemples de classes diffrentes ont la mme reprsentation interne, la reprsentation nest pas dle. Dans ce
cas, comme le neurone de sortie est connect seulement aux neurones cachs, il attribuera la mme classe aux deux exemples, faisant
donc ncessairement une erreur de classication.
La discrimination
323
CHAPITRE 6

Les diffrents algorithmes constructifs ou incrmentaux qui existent dans la littrature permettent
dengendrer les reprsentations internes par des ajouts successifs dunits caches. Ces algorithmes cons-
tituent donc une approche de lapprentissage avec des rseaux de neurones spcialement adapts aux
problmes de discrimination. Ils diffrent les uns des autres par lheuristique qui est propose (ce quil
faut apprendre aux units ajoutes), par larchitecture du rseau obtenu (en arbre, en couches, etc.) et par
lalgorithme dapprentissage qui est utilis pour dterminer les poids de chaque neurone. En particulier,
le nombre dunits caches, qui dtermine la dimension des reprsentations internes, dpend, de faon
cruciale, de lefficacit de lalgorithme dapprentissage utilis.

2
+
+++
++
++ +++
3 Figure 6-18. (a) Surfaces discriminantes
1 dtermines avec lalgorithme NetLS.
(b) Reprsentations internes correspondant
++
+ aux rgions de la figure (a). La surface indique
classe + correspond prcisment la sparation linaire
+ classe des reprsentations internes, qui est effectue
(a) (b) par le neurone de sortie.

Dans la suite, nous dcrivons brivement lalgorithme constructif NetLS, qui permet de raliser des spa-
rations comme celle qui est montre sur la figure 6-18(a). Dans cet exemple, le premier neurone cach
(dont lhyperplan est indiqu par le chiffre 1 sur la figure) fait une sparation linaire des entres. Le
deuxime effectue une sparation sphrique, et le troisime une sparation linaire. Ils dcoupent lespace
des entres en rgions auxquelles ils attribuent des reprsentations internes fidles, reprsentes sur la
figure 6-18(b). Ces derniers sont des vecteurs binaires (de dimension 3 car dans notre exemple il y a 3
neurones cachs). Ils se situent des sommets de lhypercube en dimension 3. Sur la mme figure est
reprsent un hyperplan sparateur : ces reprsentations internes sont linairement sparables. Un percep-
tron de sortie, connect aux units caches, peut faire la discrimination correctement. Remarquons que,
pour obtenir des reprsentations internes binaires, il faut que les neurones cachs soient des perceptrons.
Or, comme leur fonction dactivation nest pas drivable, il est impossible dentraner le rseau avec un
algorithme de gradient. La seule faon dobtenir un rseau dont les neurones cachs sont binaires est de
le construire par ajouts successifs de neurones.

Algorithme constructif NetLS


Lalgorithme NetLS ajoute des neurones cachs, successivement, jusqu ce que le nombre derreurs
dapprentissage soit infrieur une valeur choisie par lutilisateur. Pour lapprentissage de chaque
neurone, on utilise Minimerror, avec un potentiel linaire (7), et un potentiel sphrique (39), et lon garde
celui des deux neurones, linaire ou sphrique, qui fait le moins derreurs.
Le premier neurone cach apprend lensemble dapprentissage LM . Si tous les exemples sont bien classs,
le problme est linairement ou sphriquement sparable, et, dans les deux cas, lalgorithme sarrte.
Autrement, ce neurone devient le premier de la couche cache, h = 1. Sa sortie 1k, pour chaque exemple
k de LM, est la premire composante de la reprsentation interne de xk, comme nous le verrons par la suite.
On augmente h dune unit (h = 2), et lon procde comme suit :
1. On dfinit de nouvelles cibles apprendre : yhk = +1 si lexemple k a t bien class, yhk = 1
autrement, en constituant ainsi un nouvel ensemble dapprentissage LM,h de paires {xk, yhk}.
Lapprentissage statistique
324

2. On entrane deux perceptrons, linaire et sphrique, avec LM,h, et lon garde celui des deux qui fait le
moins derreurs dapprentissage.
3. On connecte un neurone de sortie aux h neurones cachs, et on lui fait apprendre les cibles originales
yk avec, comme entres, les reprsentations internes apprises, sk = (1k,..., hk). Sil le fait sans
erreurs, lalgorithme sarrte. Autrement, on supprime le neurone de sortie, on augmente le compteur
de neurones cachs, h h + 1, et lon revient 1.

t=1 t=2 t=3


x1 x2 xi xN x1 x2 xi xN x1 x2 xi xN

w1N w2N w3N


w11 w21
w31
2 3
Figure 6-19. Schma de droulement
x1 x2 xi xN x1 x2 xi xN de lapprentissage avec NetLS (pour la clart
de la figure, on na pas reprsent les entres
associes aux seuils, x0 et 0)
w2
w1 w2 w1 w3

La figure 6-19 prsente schmatiquement le droulement de lalgorithme. litration t = 1, on entrane


deux perceptrons (un linaire et un autre sphrique) avec lensemble dapprentissage original, LM. Si lon
trouve une solution sans erreurs dapprentissage, lalgorithme sarrte. Autrement, on modifie les cibles
dapprentissage comme cela est indiqu dans lalgorithme, ce qui dfinit LM,2, lensemble dapprentissage
pour le neurone cach suivant. t = 2, on entrane deux perceptrons (un linaire et un sphrique) avec
lensemble LM,2, afin de ne garder que celui qui fait le moins derreurs. On connecte un neurone de sortie
aux perceptrons cachs, et lon apprend discriminer les classes des exemples en utilisant comme entres
leurs reprsentations internes. Si lon trouve une solution sans erreurs, lalgorithme sarrte. Autrement,
on modifie les cibles dapprentissage suivant que le perceptron de sortie a bien ou mal class les exemples,
dfinissant ainsi lensemble dapprentissage LM,3 pour le neurone cach suivant . On supprime le neurone
de sortie, avec ses poids. t = 3, on entrane deux perceptrons (un linaire et un sphrique) avec
lensemble LM,3, pour ne garder que celui qui fait le moins derreurs. Ensuite, on connecte un nouveau
neurone de sortie, etc.
Il y a plusieurs variantes de NetLS qui permettent dacclrer lalgorithme. Le lecteur intress peut
consulter les thses de Juan Manuel Torres Moreno et de Christelle Godin (dj cites), qui dtaillent des
applications de lalgorithme plusieurs problmes.
Il faut toutefois rappeler que notre objectif nest pas de minimiser lerreur dapprentissage mais lerreur
de gnralisation. Il convient donc dinsister sur le fait, dj mentionn dans le chapitre 1, que les techni-
ques de construction de modles ne dispensent donc aucunement de mettre en uvre les techniques de
slection par validation croise dcrites dans les chapitres 1 et 2.
Remarque 1
Un des intrts des algorithmes constructifs est leur rapidit dapprentissage. chaque tape, on dtermine les poids dun seul neurone.
Les poids des units caches introduites prcdemment sont inchangs.

Remarque 2
On construit un rseau avec une seule couche cache parce que lon a dmontr [CYBENKO 1989] quune seule couche cache est suf-
sante pour reprsenter nimporte quelle fonction des entres.
La discrimination
325
CHAPITRE 6

Remarque 3
Un des principaux dfauts que prsentent les algorithmes constructifs tient ce que le rsultat dpend beaucoup de la sparation qui est
faite par le premier neurone cach introduit. Dans certains cas, garder le neurone qui fait le moins derreurs peut ne pas tre la meilleure
stratgie. Puisque les neurones suivants apprennent corriger les reprsentations internes an de les rendre dles, un mauvais choix
pour la premire sparation (cest--dire, du premier neurone) a des consquences importantes sur la qualit du classieur. Pour surmon-
ter cette difcult, il convient donc de raliser plusieurs sparations initiales, et dutiliser des techniques de slection de modles, selon une
dmarche analogue celle que nous avons dcrite dans les chapitres 1 et 2, pour surmonter le problme des minima locaux de la fonction
de cot.

Machines vecteurs supports (Support Vector Machines)


Ces dernires annes, les applications des machines vecteurs supports (SVM pour Support Vector
Machines, que certains auteurs franais appellent sous le nom plus vocateur de Sparateurs Vaste
Marge, pour respecter lacronyme) se sont considrablement dveloppes ; elles permettent de trouver
des surfaces discriminantes de nimporte quelle forme, avec un algorithme dont nous allons prsenter le
principe. Un des intrts des SVM est que la fonction de cot que lon minimise durant lapprentissage
est convexe. Elle prsente donc un seul minimum, alors que la fonction de cot des moindres carrs
utilise pour la rgression avec des modles non linaires par rapport aux paramtres, ou la fonction de
cot dentropie croise utilise pour la classification (voir chapitre 2), prsentent des minima locaux, et
que les algorithmes constructifs trouvent des solutions diffrentes suivant lheuristique employe. Il faut
cependant remarquer que le fait que la solution soit unique ne garantit pas quelle ait de bonnes proprits
de gnralisation.
Lide la base des SVM est assez ancienne [COVER 1965] : au lieu dutiliser un rseau de neurones
multicouche, Cover proposait de faire une application de lespace des entres x RN vers un espace
F(x) RN de plus grande dimension N > N, appel espace des caractristiques ou encore espace des
reprsentations, o la tche serait linairement sparable. Nous verrons plus loin comment on rsout le
problme pos par ce choix. Ainsi, lapplication quadratique

x = ( x1 x2 L x N x1 x1 x2 L x1 x N x2 x2 x3 L x N 1 x N x N )
2 2 2 (42)

est un exemple o le vecteur F a N = N + N(N + 1)/2 composantes : les N composantes de x plus les
N(N + 1)/2 monmes forms par les produits de paires de composantes de x.
Remarque
Comme pour le perceptron, nous travaillerons dans lespace largi, qui inclut une composante constante 0 = x0 pour pouvoir traiter le
seuil w0 comme un poids supplmentaire dans lespace des caractristiques. Cette convention nest pas utilise par tous les auteurs.
Certains explicitent le seuil, gnralement dnot b. Cela oblige ajouter des quations dans la relation (48) (voir plus loin), compliquant
inutilement la formulation du problme.
Un ensemble dapprentissage qui serait sparable par une fonction quadratique dans lespace des entres
x RN devient linairement sparable dans lespace des caractristiques quadratiques RN. Alors, un
simple perceptron dans lespace des vecteurs F peut rsoudre le problme de discrimination. Remarquons
que le perceptron sphrique prsent plus haut dans ce chapitre est une application particulire de la
mme ide : le potentiel sphrique est une fonction quadratique des variables.
Par exemple, supposons que N = 2, et que lon ait choisi lespace des caractristiques quadratiques dfini
par (42). On aura :

( )
T
x = x1 x2 x12 x1 x2 x22 (43)
Lapprentissage statistique
326

qui a N = 5. Si lon tient compte du seuil, les poids dun perceptron dans cet espace aura 6 composantes.
Le potentiel (7) dans cet espace scrit :

w ( x ) = w0 + w1 x1 + w2 x2 + w11 x12 + w12 x1 x2 + w22 x22

o les indices de chaque poids rappellent la forme du monme quil pondre. Lensemble dapprentissage
est bien class par ce perceptron dans lespace F si les poids w satisfont, pour tous les exemples, la condi-
( )
tion (15) quon rcrit ici : y k x k w > 0 .
Un autre exemple simple, qui a lavantage dtre facile
visualiser car les entres sont unidimensionelles, est repr-
sent sur la figure 6-20. Pour sparer ces exemples, il faut
deux hyperplans sparateurs, reprsents sur la figure 6-20
(a). Comme nous lavons vu avec les mthodes construc-
tives, il faudrait un rseau avec au moins deux units
caches pour apprendre cette sparation. Par contre, si lon
reprsente les points dans un espace de caractristiques
( )
quadratiques ( x ) = x x 2 deux dimensions (voir
T

figure 6-20 (b)), o, mis part le seuil x0 (non repr-


sent), la premire coordonne de chaque point est x et
lautre est son carr x2, lensemble est linairement spa-
rable. Dans lespace F, les poids w = ( w0 w1 w2 ) qui
T

dfinissent lhyperplan sparateur (la droite reprsente


( )
sur la figure) satisfont y k x k w > 0, cest--dire, Figure 6-20. (a) Exemples appartenant deux

(
y k w0 + w1 x k + w2 x k ( ))
2
> 0 , pour tous les exemples.
classes en dimension 1, avec deux hyperplans
sparateurs. (b) Reprsentation dans lespace
des caractristiques quadratiques
Or, nous avons dj vu que, en gnral, si un problme
( )
( x ) = x0 x x 2 o lensemble
T
est linairement sparable, il existe une infinit dhyper-
plans sparateurs. La solution SVM consiste choisir, est linairement sparable (par souci de clart,
nous avons reprsent la sparation dans le sous-
dans lespace F, lhyperplan de marge maximale. Mais espace x0=1 ; voir aussi la figure 6-5).
au lieu dutiliser un des algorithmes prsents plus haut
dans ce chapitre, on utilise une formulation qui ouvre
dautres possibilits.
Les poids w qui dfinissent lhyperplan sparateur des SVM dans lespace F doivent satisfaire les condi-
tions suivantes, pour tous les exemples :

( )
y k x k w 1 ; 1 k M (44)

Remarque
Les contraintes (44) sont plus fortes que les conditions (15). Ces dernires assurent simplement que tous les exemples sont bien classs.
Si lon divise les deux membres de (44) par la norme des poids, ces conditions scrivent :

yk w x k( ) 1 . (45)
w w
Le membre de gauche nest autre que la stabilit de lexemple k dans lespace F. Comme nous lavons vu
dans la gomtrie de la classification, la valeur absolue de cette quantit est la distance de lexemple
lhyperplan sparateur. Si (44) est vrifie, les exemples qui satisfont lgalit sont une distance 1/||w||
La discrimination
327
CHAPITRE 6

de lhyperplan sparateur, tous les autres se trouvent plus loin. Autrement dit, 1/||w|| est la marge de
lhyperplan dfini par les poids w. Donc, la marge est maximale si ||w|| est le plus petit possible, compa-
tible avec les conditions (44). Remarquons que ces conditions ne sont pas triviales : si ||w|| est trop petit,
certains exemples, mme bien classs, pourraient ne pas les satisfaire.

Ainsi pose, la recherche dune SVM devient un problme de minimisation quadratique sous contraintes.
En effet, il faut minimiser ||w|| (ou, ce qui est quivalent, son carr) :

1
E= w w (46)
2

sous les M contraintes (44). On introduit le facteur 1/2 dans (46) pour des raisons purement pratiques
(quand on drive par rapport w, le 2 au dnominateur se simplifie).

Si lensemble dapprentissage est linairement sparable dans lespace F, alors le domaine de minimisa-
tion est convexe, dfini par les contraintes (44). Dans le cadre de la thorie de la programmation non
linaire, que nous ne prsenterons pas ici mais dont nous utiliserons certains rsultats, on dmontre que,
dans ce cas, le minimum de (46) est unique ; on lappelle SVM marge dure. Par contre, si lensemble
dapprentissage nest pas linairement sparable dans lespace des caractristiques choisi, les contraintes
(44) sont incompatibles. Alors, le problme de minimisation na pas de solution. Dans ce cas, quand on
applique lalgorithme que nous dtaillons par la suite, on reoit des messages derreur. Il y a alors deux
possibilits : soit on change dapplication F, soit on accepte des solutions avec des erreurs dapprentis-
sage. Mais alors, il faut reformuler le problme, comme nous le verrons plus loin.

SVM marge dure


Comme on le fait habituellement pour minimiser une fonction sous contraintes, pour minimiser (46) sous
les contraintes (44), on met en oeuvre la mthode des multiplicateurs de Lagrange. On crit les M
( )
contraintes sous la forme 1 y k x k w 0, on multiplie chacun des termes de gauche par un multipli-
cateur de Lagrange diffrent ck, et on les additionne E (relation (46)) pour dfinir le Lagrangien :

( { }) = 12 w w + c
M
L w, c k k
( )
1 y k w x k

(47)
k =1

qui est une fonction de N + M +1 variables (les N + 1 poids plus les M coefficients ck).

La thorie de la programmation non linaire tablit que la solution recherche sobtient au point col de
(47) : cest un minimum par rapport aux w, mais un maximum par rapport aux multiplicateurs de
Lagrange.

Remarque

Pour tenir compte du fait que les contraintes (44) sont des ingalits et non pas des galits, il faut modier un peu la mthode des multi-
plicateurs de Lagrange habituelle. En particulier, il faut faire attention aux signes des diffrents termes dans (47). Avec la convention utili-
se, il faut imposer une condition sur les coefcients ck qui nexiste pas dans la mthode des multiplicateurs de Lagrange habituelle : les ck
doivent tre non ngatifs, pour assurer que lextremum de (47) minimise (46).
Lapprentissage statistique
328

La solution recherche doit satisfaire les conditions suivantes, quon appelle de Karush-Kuhn-Tucker :


c 0
k


L
-------k = 1 y w ( x ) 0
k k

c k = 1, K, M
(48)
k L
c -------k = c [ 1 y w ( x ) ] = 0
k k k

c
M
L
-------k = w i c y i ( x ) = 0 i = 0,1, K, N.
k k k

c k=1

La premire ligne de (48) est la condition mentionne dans la remarque. Les autres correspondent
lannulation des drives partielles de L(w, {ck}) par rapport chacune des variables. En particulier la
deuxime ligne nest autre que lensemble des contraintes (44).
La quatrime ligne nous dit que, tout comme dans le cas gnral du perceptron (voir quation (23)), les
poids de la SVM sont une combinaison linaire des exemples (dans lespace F) avec coefficients positifs
ck. La troisime ligne nous indique que certains de ces coefficients sont strictement nuls. Dans lensemble
dapprentissage il y a donc deux types dexemples, ceux pour lesquels ck > 0, et alors ncessairement
( ) ( )
y k w x k = 1, et ceux qui ont ck = 0, qui peuvent avoir y k w x k > 1 . Les exemples qui ont ck > 0
sont essentiels : ce sont les seuls qui contribuent la valeur des poids. On les appelle vecteurs supports.
Pour la suite on dnotera SV lensemble des vecteurs supports, et MSV leur nombre. La relation (45)
montre que tous les vecteurs supports se trouvent une distance 1/||w|| de lhyperplan sparateur : ils sont
exactement sur la marge. Les vecteurs supports sont finalement les seuls exemples importants. Si
lensemble dapprentissage ne contenait que ces exemples, la solution SVM serait la mme. Mais,
videmment, on ne les connat pas a priori.

Remarque 1
Il est tout fait possible dutiliser une minimisation quadratique sous contraintes, comme celle que lon vient de prsenter, pour trouver le
perceptron de marge maximale dans lespace des entres. Cependant, si les exemples de lensemble dapprentissage ne sont pas linai-
rement sparables, lalgorithme ne converge pas, et, par consquent, il ne fournit mme pas une approximation de la solution cherche.

Remarque 2
Lespace des caractristiques ncessaire pour la sparation (et donc, pour que lalgorithme dapprentissage converge) peut tre de trs
grande dimension.

Remarque 3
Si lapprentissage se fait par minimisation dun cot, comme nous lavons prsent au paragraphe correspondant, on dduit que les coef-
cients ck sont non ngatifs. Dans le cadre des SVM, on limpose.

Formulation duale
En pratique, on ne fait pas la minimisation de (47) par rapport aux N + M + 1 variables. Il est bien plus
convenable daller un peu plus loin dans la formulation thorique avant daborder laspect algorithmique.
La discrimination
329
CHAPITRE 6

Introduisons la dernire des quations (48)


M
wi = c k y ki x k ( ) (49)
k =1

dans lexpression du lagrangien (47), pour liminer les poids. On obtient alors le lagrangien dual, qui est
une fonction des seuls multiplicateurs de Lagrange :
M

{ }
LD ( c k ) = c k
1
c k D kk ' c k '
2 k ,k '
(50)
k =1

( ) ( )
D kk ' y k y k ' x k x k ' (51)
est llment dindices k et k de la matrice D qui ne dpend que des produits scalaires des paires dexem-
ples. Maintenant il faut maximiser (50) par rapport aux ck, sous les contraintes ck 0. Cette maximisation
sappelle problme dual, le primal tant la minimisation de (46) sous les contraintes (44).
Le problme dual a des caractristiques intressantes. Dabord, comme il ne dpend que des ck, le nombre
dinconnues est M, indpendamment de la dimension de lespace des caractristiques. Ceci est intressant
si N >> M, comme cest souvent le cas. On peut dmontrer que la solution qui maximise (50) est unique
( condition quelle existe !). Et, ce qui est trs important, il y a des algorithmes trs performants pour
maximiser une fonction quadratique sous contraintes. On peut en obtenir quelques-uns lURL
http://www.kernel-machines.org.

Consquences
Une fois obtenus les ck par maximisation de (50), on peut calculer les poids en utilisant (49). Cependant,
il nest pas ncessaire de garder en mmoire les poids (dont le nombre N+1 peut tre trs grand). Il peut
tre avantageux de ne garder que les vecteurs support xk avec leurs classes yk et les MSV multiplicateurs de
Lagrange ck correspondants, dont le nombre est au plus gal M car, dans le pire des cas, tous les exem-
ples sont supports.
La sortie de la SVM, qui est un perceptron dans lespace F, est donne par y = sgn ( w ( x )). En prin-
cipe, pour classer un nouveau vecteur x, il faut le transformer en F(x) utilisant lapplication choisie, et
remplacer les valeurs des wi par leurs expressions (49). On obtient :


k SV
( )
y = signe c k y k x k ( x ) .

(52)

Machines noyaux (Kernel machines)


Une des consquence de la formulation duale est quelle a permis une gnralisation trs intressante des
SVM. En effet, on peut remarquer que le lagrangien dual, comme la classe attribue tout nouveau
vecteur, ne dpendent que de produits scalaires de vecteurs dans lespace des caractristiques F. Or, on
peut dmontrer (nous ne le ferons pas ici) quun produit scalaire entre deux vecteurs dans cet espace peut
toujours scrire sous la forme

( x ) ( y ) = K ( x, y ) (53)
Lapprentissage statistique
330

o la fonction K(x, y) sappelle fonction noyau (kernel en anglais). Par exemple, il est facile de vrifier
que le noyau correspondant aux transformations quadratiques (42) et (43) scrit :
K ( x, y ) = x y (1 + x y ). (54)

Remarque
En ralit, avec (54) on ne retrouve pas exactement les produits scalaires des caractristiques (42) et (43), mais des expressions qui ont
dautres coefcients. Par exemple, considrons le cas dimension 2. On a ( x ) ( y ) = x 1y 1 + x 2 y 2 + x 12 y 12 + x 1x 2 y 1y 2 + x 22 y 22 tandis
que, si lon utilise lexpression (54), on a K ( x , y ) = x 1y 1 + x 2 y 2 + x 12 y 12 + 2 x 1x 2 y 1y 2 + x 22 y 22, qui correspond en fait lapplication
x1( x2 x 12 2x 1x 2 )
x 22 . La quatrime composante de cette dernire diffre, dun facteur 2 , de lapplication (45).

La proprit (54) permet dexprimer les SVM en termes de fonctions noyaux. Introduisant lexpression
(53) dans (51) et (52), on obtient :

(
D kk ' = y k y k ' K x k , x k ' ) (55)

y = sgn c k y k K x k , x . ( ) (56)
k SV

On peut donc rsoudre le problme dual et classer toute entre nouvelle en ne faisant des calculs que dans
lespace des entres, au moyen du noyau K. Il nest pas ncessaire dexpliciter lapplication F : il suffit
de connatre le noyau correspondant. Mieux encore, tout noyau ayant les proprits dun produit scalaire
peut tre utilis par une SVM, mme si lon ne sait pas expliciter lapplication F correspondante. Cest
pour cela que les SVM sont aussi appeles machines noyaux, ou en anglais, kernel machines.
Les noyaux acceptables, qui possdent les proprits des produits scalaires, sont symtriques et semi-
dfinis positifs. Autrement dit, ils doivent satisfaire les conditions suivantes (thorme de Mercer) :
K ( x, y ) = K ( y, x )
(57)
K ( x, y ) g ( x ) g ( y ) dx dy 0 g ( x ) tel quue g ( x ) dx < .
2

Lapplication correspondante peut tre dtermine partir des vecteurs propres et des valeurs propres du
noyau. Cependant, nous avons vu que cela nest pas ncessaire.
Le noyau gaussien est un des plus utiliss :
x y 2
K ( x, y ) = exp (58)
2
2

qui correspond un espace de caractristiques de dimension infinie. Les classifieurs qui les utilisent sont
appels SVM fonctions de base radiales. Pour comprendre le sens de ce noyau, on peut lintroduire dans
(56), ce qui donne :

x xk 2

y = sgn c y exp k k
. (59)
k SV 2 2

La classe dune nouvelle entre x est donne par une somme pondre de gaussiennes centres sur les
vecteurs supports. Comme les gaussiennes ont une dcroissance rapide, il y a, en gnral, un seul terme
dominant dans la somme : celui du vecteur support le plus proche de x. Les ck tant positifs, la classe sera
La discrimination
331
CHAPITRE 6

celle de ce SV. Bien que cette conclusion ne soit pas rigoureuse, car il peut y avoir des contributions de
plusieurs gaussiennes, elle permet de se faire une ide intuitive sur ces noyaux. La figure 6-21 illustre le
fonctionnement des SVM fonctions de base radiales.

Figure 6-21. Une surface discriminante avec


un noyau gaussien. Les vecteurs supports,
la marge de la surface discriminante,
sont indiqus avec des halos griss
qui reprsentent ltendue des gaussiennes.
La nouvelle entre sera classe
comme le vecteur support le plus proche.

SVM marge floue (Soft margin SVM)


Le problme des SVM marge dure est quelles sont compltement inutiles si les exemples ne sont pas
linairement sparables dans lespace des caractristiques choisi. Elles sont incapables de fournir ne
serait-ce quune approximation de la discrimination apprendre, car, sil ny a pas de solution, les algo-
rithmes de minimisation quadratique sous contraintes ne convergent pas. Pour rmdier cela, on relche
les contraintes de marge dure (44), afin daccepter des solutions avec des exemples plus proches de la
surface de sparation, ou mme mal classs. On introduit M variables supplmentaires k dites de relaxa-
tion (slack variables en anglais), et lon remplace (44) par les 2M conditions suivantes :

( )
y k w x k 1 k pour 1 k M (60)

k 0. (61)
Rappelons que si lon divise par ||w|| le membre de gauche de (60) on obtient la distance des exemples
lhyperplan sparateur dans lespace . Donc, les exemples qui sont tels que 0 < k < 1 sont une distance
de lhyperplan infrieure 1/||w||, mais sont bien classs. En revanche, ceux pour lesquels k > 1 sont mal
classs. Pour minimiser le nombre dexemples mal classs, il faut les pnaliser. Alors, au lieu de mini-
miser (46), on cherche minimiser
M
(C ) =
1
( )
w w + C k
n
(62)
2 k =1

o C est un hyperparamtre positif (C > 0) quil faudra ajuster, et n est un exposant positif (n 1). La solu-
tion pour laquelle (C) est minimum sappelle SVM marge floue (Soft margin SVM en anglais).
La valeur de C dans (62) permet de contrler le rapport entre le nombre dexemples mal classs et la gran-
deur de la marge. Des tudes thoriques ont montr que sa valeur a une grande influence dans les
Lapprentissage statistique
332

proprits de gnralisation des machines marge floue. Une grande valeur de C donne plus dimportance
aux variables de relaxation qu la norme des poids. Elle induit des solutions ayant plutt peu dexemples
mal classs quitte avoir une marge faible. Inversement, une petite valeur de C induit des solutions ayant
une grande marge, avec ventuellement plus dexemples mal classs. Gnralement, on cherche un
compromis par ttonnements, ce qui impose une exploration coteuse, car il faut rsoudre le problme
plusieurs fois avec des valeurs de C diffrentes.
Lexposant n permet de contrler linfluence des exemples mal classs. Plus il est grand, plus on pnalise
les exemples mal classs, qui ont k > 1, et plus on sapproche alors dune solution qui minimise le
nombre dexemples mal classs. Cependant, pour rester dans le cadre de la minimisation quadratique
sous contraintes, et pouvoir gnraliser ce qui a t dvelopp pour les machines marge dure, on est
limit aux valeurs n = 1 ou n = 2. Dans ces conditions, la solution de marge floue est unique, et on peut la
trouver avec des algorithmes de minimisation quadratique sous contraintes. Elle sexprime, comme (49),
en termes des seuls vecteurs supports, dont maintenant les exemples qui ont des k 0 font partie.
Introduisant les contraintes (60) et (61) dans (62), on dfinit le lagrangien des SVM marge floue :

( { }) = 12 w w + C ( ) + c
M M M
Lsoft w, c k k n k
( )
1 k y k w x k d k k .

(63)
k =1 k =1 k =1

Les conditions Karush-Kuhn-Tucker sont maintenant un peu plus complexes :

c 0; d 0
k k

d =0
k k


c [1 y w ( x )] = 0
k k k k


L soft
= 0
k
------------
d
k k = 1, K, M
(64)
L soft
( )
k k k
------------ = 1 y w x 0
c
k

L soft
= nC ( ) c d = 0
k n1 k k
------------

k

M
L soft
------------ = w i c y i ( x ) = 0 i = 0,1, K, N.
k k k

w i k=1

Introduisant ces quations dans (63), on obtient, aprs quelques manipulations, le lagrangien dual. Nous
considrons dans la suite les cas n = 1 et n = 2 sparment.

Cas n = 1
Pour n = 1, le lagrangien dual a exactement la mme expression que dans le cas de marge dure (quation
(50)), mais les coefficients ck doivent satisfaire 0 ck C. Comme pour le cas de marge dure, on appelle
vecteurs supports les exemples pour lesquels ck > 0. Mais maintenant, il y a deux sortes de vecteurs
supports :
ceux qui satisfont ck < C : ils sont tels que k = 0, donc ils se trouvent exactement sur la marge, comme
dans le cas des SVM marge dure ;
La discrimination
333
CHAPITRE 6

ceux qui satisfont ck = C : ils sont tels que k > 0. On peut remarquer que, parmi ces derniers, il y a tous
les exemples bien classs qui se trouvent lintrieur de la marge, mais aussi tous les exemples mal
classs (pour lesquels k > 1).

Cas n = 2
Pour n = 2, le lagrangien dual est

({c }) = c
M
1 M k kk ' k ' 1 M k
( )
c
2
LDf k k
c D c (65)
k =1 2 k ,k ' 4 C k =1
qui peut scrire comme (50) si lon redfinit la matrice D comme suit :
1
D kk ' D kk ' + k ,k ' . (66)
2C
On peut dmontrer, partir des quations (64), que les contraintes sur les ck pour n = 2 sont les mmes
que pour les SVM marge dure, ck 0. La constante C nest pas une borne comme pour n = 1. Mais,
prsent, seuls sont vecteurs supports les exemples pour lesquels k > 0. Les exemples qui se trouvent sur
la marge, et pour lesquels k = 0, ne sont pas vecteurs supports.

SVM pratique
Pour rsumer cette introduction aux SVM, nous prsentons la dmarche suivre dans les applications.
Dans la pratique, lapprentissage avec des SVM comporte les tapes suivantes :
1. choisir un noyau K ( x, y ) ;
2. choisir la valeur de C : si C = 0, on cherche une SVM marge dure ; si C > 0, on cherche une SVM
marge floue. Dans ce dernier cas il faut choisir n (n = 1 ou n = 2) ;
3. calculer la matrice Dkk o les indices k, k parcourent toutes les paires dexemples (si C = 0, ou si
C > 0 et n = 1, on utilise la dfinition (55) ; si C > 0 et n = 2, on utilise la dfinition (66) ;
4. minimiser le lagrangien dual pour trouver les coefficients ck, laide dun des algorithmes disponibles
(voir sur le site http://www.kernel-machines.org)
5. garder en mmoire les exemples (entres et classes) qui sont vecteurs supports (pour lesquels ck > 0)
et les coefficients ck correspondants.
Ensuite, pour classer une entre quelconque, on utilise lquation (56), que nous rcrivons ici :

y = sgn c k y k K x k , x . ( )
k SV

Remarque
Les SVM constituent une approche lgante pour lapprentissage de la discrimination. Cependant, leurs proprits de gnralisation ne
sont pas ncessairement suprieures celles que lon peut obtenir avec dautres mthodes et algorithmes, comme par exemple avec des
rseaux de neurones. La popularit des SVM est, en grand partie, due leur simplicit dapplication et au fait satisfaisant que leur solution
est unique. Il faut quand mme garder lesprit quunicit nest pas synonyme de qualit. Dans tous les cas, de bonnes performances ne
sont atteintes que par une application judicieuse et rchie des mthodes.

Nous avons vu dans le chapitre 1, et nous verrons nouveau la fin du prsent chapitre, que lerreur de
gnralisation dun classifieur obtenu par apprentissage est une fonction dcroissante du rapport entre le
nombre dexemples M et le nombre de paramtres du classifieur. Dans le cas dun perceptron, ce nombre
Lapprentissage statistique
334

est la dimension de lespace o il effectue la sparation, lequel, dans le cas des SVM, est lespace des
caractristiques. Si la dimension de ce dernier augmente mais que M reste constant, on peut se demander
si les SVM sont capables de gnralisation [BUHOT et al. 2000]. Une premire rponse cette question
rside dans le fait que lerreur de gnralisation des SVM est borne par la fraction dexemples qui sont
vecteurs supports (cette fraction est donc infrieure 1). Bien quelle soit quantifiable lors des applica-
tions (il suffit de dterminer la fraction de vecteurs supports), cette borne a souvent des valeurs trop
grandes : elle surestime la probabilit de faire des erreurs de classification. Ce problme, ainsi que
dautres proprits des SVM, fait lobjet de nombreuses tudes thoriques (voir par exemple [RISAU-
GUSMAN et al. 2000a], [RISAU-GUSMAN et al. 2000b], [RISAU-GUSMAN et al. 2001], [DIETRICH et al.
1999], [RISAU-GUSMAN et al. 2002]). Le lecteur intress peut consulter la thse de [RISAU-GUSMAN
2001]

Problmes plusieurs classes


Pour effectuer des discriminations lorsquon a plusieurs classes avec des classifieurs binaires, lide la
plus naturelle consiste sparer chaque classe de toutes les autres. Ainsi, un problme K classes y1, y2,
..., yK est rduit K problmes deux classes. Cependant, lors de lapprentissage de ces K classifieurs, il
peut arriver quun mme exemple soit reconnu par plus dun classifieur. Dans ce cas, pour les dpar-
tager, on peut utiliser un vote, fond sur la valeur du potentiel du neurone de sortie. La philosophie sous-
jacente ce procd, appel winner takes all (WTA) et que lon peut traduire par le gagnant prend
tout , est la suivante : plus le potentiel du perceptron de sortie est grand, plus on est sr de sa classifica-
tion. Nous verrons quil est possible de donner une interprtation probabiliste de la classification fonde
sur la distance des exemples aux surfaces discriminantes, qui est gale la valeur absolue du potentiel
divise par la norme des poids. Il semble donc quil vaudrait mieux fonder la discrimination sur des consi-
drations par rapport aux distances et non aux valeurs des potentiels. Mais un problme plus profond
soulev par le procd du WTA est le suivant : ce qui importe pour tre sr de la classification, ce sont les
distances des exemples aux surfaces discriminantes dans lespace des entres. Or, celles-ci sont les
distances des exemples aux surfaces dfinies par les units caches. En effet, la stabilit la sortie ne
reflte que les proprits des reprsentations internes. Or, des exemples trs proches des surfaces discri-
minantes des neurones cachs, et dont la classification pourrait tre douteuse, peuvent avoir des reprsen-
tations internes qui produisent des grands potentiels normaliss sur le neurone de sortie (voir figure 6-18).

Il y a une autre faon daborder le problme des classes multiples : on peut construire des arbres de
rseaux. On choisit une squence de classes dans un ordre quelconque. Par exemple yK, y2, , y1 et lon
apprend sparer la premire des K 1 autres. Dans notre exemple, on prend comme cibles y = 1 pour les
exemples de la premire classe (en loccurrence, yK), et y = 1 pour tous les autres. Ensuite, on restreint
lensemble dapprentissage aux exemples des classes encore non discrimines (y2, ..., y1 dans notre
exemple), et lon spare y2 des autres, et ainsi de suite, jusqu ce quil ne reste que les deux dernires
classes. Lintrt de cette heuristique rside dans le fait que les ensembles dapprentissage des rseaux
successifs sont de taille dcroissante. Le rseau qui en rsulte est un arbre, en ce sens que, pour classer
une entre nouvelle, il faut dabord la classer avec le premier rseau. Sil lui attribue la sortie = +1, la
classe est yK. Mais si la sortie est = 1, cela veut dire que lentre nest pas de la classe yK, et quil faut
alors la faire classer par le deuxime rseau. On sarrte ds quun rseau reconnat lentre.

Puisque la squence des classes choisie est arbitraire, en principe il faudrait comparer les sorties de
plusieurs arbres, chacun correspondant une squence diffrente de classes. Les arbres de rseaux ont t
appliqus au problme des ondes de Breiman dans [TORRES MORENO 1997].
La discrimination
335
CHAPITRE 6

Enfin, comme nous lavons prconis dans le chapitre 2, section Mthodologie de conception dun
classifieur , on peut, si chaque classe nest pas linairement sparable de toutes les autres, sparer les
classes deux deux, ce qui, pour un problme K classes, conduit la construction de K(K1)/2 petits
classifieurs, souvent linaires. Contrairement lapproche par arbres, on ne choisit pas de squence arbi-
trairement, donc il nest pas ncessaire de comparer les rsultats obtenus avec les K! squences possibles ;
de plus, il nest pas ncessaire dutiliser les mmes ensembles de descripteurs pour les diffrentes spara-
tions, ce qui peut simplifier considrablement le problme. Nous avons galement montr, dans le
chapitre 2, quil est trs facile destimer les probabilits dappartenance de lobjet chaque classe, partir
des rsultats obtenus par chacun des classifieurs deux deux . Le lecteur trouvera, dans le chapitre 2,
plusieurs applications relles mettant en uvre cette dmarche, et les rfrences bibliographiques corres-
pondantes.

Questions thoriques
Dans la premire partie de ce chapitre nous avons prsent une liste de questions conceptuelles poses par
lapprentissage automatique. La thorie de lapprentissage tente de rpondre ces questions dans un cadre
statistique, en supposant que lensemble dapprentissage, ainsi que les nouvelles entres quon doit
classer, sont indpendants, tirs au hasard partir dune densit de probabilit inconnue. Cette formula-
tion, que nous prsentons dans le prochain paragraphe, permet dinterprter les hypothses sous-jacentes
aux applications algorithmiques, et constitue un cadre cohrent pour la thorie. Bien que ce chapitre nait
pas pour objet dentrer dans les dtails thoriques, nous dcrivons quelques rsultats intressants qui,
tant donn la nature probabiliste de la thorie, sont des rsultats statistiques. Le premier permet destimer
lesprance derreur de classification dun perceptron binaire. Ensuite nous prsentons : lapproche bay-
sienne de la discrimination ; une borne infrieure de lerreur de gnralisation, qui ne dpend que des
caractristiques du classifieur, du nombre dexemples et de la dimension de lespace des entres ; la capa-
cit du perceptron, qui est lesprance mathmatique du nombre dexemples linairement sparables dans
un espace dentre de grande dimension, quelles que soient leurs classes.

Avertissement
Les sections qui suivent ne peuvent tre abordes avec prot que par les lecteurs qui ont bien assimil les bases des statistiques et proba-
bilits.

Formulation probabiliste de lapprentissage et infrence baysienne


Rappelons la formulation probabiliste de lapprentissage, indique dans le chapitre 1 : on suppose que les
exemples de lensemble LM sont des couples {classe, entre} tirs au hasard, indpendamment, partir
dune distribution p(x, y) inconnue (dans cette partie, pour allger la notation, nous omettrons les indices
X, Y et nous crirons, par exemple, p(x,y) la place de pX,Y(x,y)) :

( ) ( )
M M

( )
p ( LM ) = p x k , y k = p x k P y k x k . (67)
k =1 k =1

Le deuxime terme de (67) correspond au processus suivant : on tire dabord lentre xk avec la densit de
probabilit p(xk), puis on tire la classe yk, tant donne lentre xk, avec une probabilit conditionnelle
( ) ( )
P y k x k . Un cas particulier de probabilit conditionnelle P y k x k est le cas dterministe.
Lapprentissage statistique
336

Remarque

Le paradigme matre-lve , suggr au chapitre 2 pour tester des programmes, est souvent utilis pour formuler, dans ce cadre proba-
biliste, les questions thoriques. Ainsi, on suppose souvent que chaque composante des entres est tire alatoirement avec une densit
( )
xk 2
( )
( )
qui est soit gaussienne p x ik =
1
2
exp

i

2
, soit uniforme dans un certain intervalle [0, a], avec p x ik = 1/ a . On demande

ensuite au rseau matre , de poids w*, la sortie quil attribue lentre xk. Par exemple, si le matre est un perceptron dterministe de
( ) ( )
poids w*, on a P y k x k = y k w * x k . Le but de lapprentissage est de trouver les poids w dun rseau dit lve. En principe, il doit
classer correctement les exemples de LM , mais surtout des entres nouvelles, tires avec probabilit p(x).

Puisque LM suit une loi probabiliste, suivant la ralisation particulire de LM, les poids appris w seront
diffrents (dans cette section, on notera w les poids appris, quil sagisse dun perceptron ou dun rseau
plus complexe). Donc, w est une variable alatoire, de distribution de probabilit p(w|LM), dont la dter-
mination pose un problme dinfrence statistique. Dans ce paragraphe, nous prsentons la mthode
dinfrence baysienne. Elle part du thorme de Bayes, introduit dans le chapitre 1, que lon peut crire
formellement comme suit :

p ( w LM ) pB ( LM ) = p ( LM w ) p0 ( w ) (68)

o pB(LM) est dfini ci-aprs (quation (70)) ; p0(w) est la probabilit a priori des paramtres du classifieur
(les poids dans le cas dun rseau de neurones) avant de commencer lapprentissage, et p(LM|w), appele
vidence, est la probabilit de lensemble dapprentissage LM prdite par un lve qui aurait des param-
tres w. Pour raliser linfrence, on doit faire des hypothses sur la priori et lvidence, qui apparaissent
dans le membre de droite de lquation (68) de linfrence baysienne. On peut alors dduire la densit de
probabilit a posteriori des poids:

p ( LM w ) p0 ( w )
p ( w LM ) = (69)
pB ( L M )

( ) p(L
p B LM = M ) ( )
w p0 w dw (70)

est la probabilit marginale des exemples dans la classe des lves (des rseaux) correspondant notre a
priori p0. Suivant les hypothses implicites dans la probabilit a priori p0(w) et lvidence p(LM |w), on
obtiendra des rsultats diffrents.

Remarque
La relation (69) est la formule de Bayes applique aux paramtres du classifieur qui sont considrs comme des variables alatoires
dpendant de lensemble dapprentissage. Il faut noter que, dans le chapitre 1, nous avons appliqu la formule de Bayes aux classes que
nous avons considres comme des ralisations de variables alatoires dpendant du vecteur des descripteurs x. Ce sont donc l deux
utilisations entirement diffrentes de la formule de Bayes, applique deux problmes distincts dans le cadre de la classication.
La discrimination
337
CHAPITRE 6

Les a priori les plus usuels, au niveau de chaque neurone du rseau, sont la priori gaussien,

1 w 2
p0 ( w ) = exp (71)
( 2 )N 2

ou la loi uniforme sur une hypersphre dont le rayon est la norme du vecteur des poids. Par exemple,

(
p0 ( w ) = w 1
2
) (72)

impose que la norme soit unitaire. Dans le cas dun lve perceptron qui fait de la discrimination avec des
hyperplans, (72) est un choix judicieux, car nous avons vu que seule lorientation de w est pertinente et
doit tre apprise. Il faut remarquer que les a priori (71) et (72) nintroduisent aucune information. Ils attri-
buent une probabilit non nulle, et uniforme dans le cas (72), tous les poids possibles. Si lon a des infor-
mations supplmentaires sur le problme traiter, par exemple, si lon possde des connaissances sur
lorientation la plus probable de lhyperplan, ou sur un modle des donnes, il faut les inclure dans la
priori par un choix judicieux de p0(w). Lautre terme de (69) quil faut expliciter est lvidence, qui
contient toute linformation sur les performances du classifieur par rapport lensemble dapprentissage
(sil classe correctement ou non les exemples). Si les exemples sont indpendants, on peut crire :

( ) ( )
M
p ( LM w ) = P y k x k , w p x k (73)
k =1

o p(xk) est la densit de probabilit des entres. P(yk|xk, w) est la probabilit que le rseau, muni des poids
w, attribue la classe correcte, yk, lentre xk de LM.

Remarque 1
Tous les choix faits avant lapprentissage, quelle que soit larchitecture du rseau (rseau multicouche, fonction dactivation binaire ou
relle, espace des caractristiques des SVM, etc.), correspondent des a priori diffrents ; ils sont inclus dans p0(w).

Remarque 2
Rappelons que si lvidence est multiplicative, comme on la suppos, lesprance mathmatique de toute fonction additive des exemples
est la somme des esprances. Cette remarque, dveloppe dans le paragraphe suivant, permet de justier le fait que les fonctions de cot
que lon utilise soient des sommes des cots partiels des exemples.

Interprtation probabiliste des fonctions de cot du perceptron


Choisir comme lve un perceptron quivaut faire lhypothse que le problme de discrimination est
linairement sparable (ou que nous cherchons une sparation linaire mme si le problme est plus
complexe, comme dans le cas des neurones cachs des algorithmes constructifs). Si, en outre, nous suppo-
sons que la tche apprendre est dterministe, lvidence dun exemple k scrit :

( )
P yk x k , w = z k ( ) (74)

o z k = y k x k w est le champ align (14). Notons que lesprance mathmatique que llve de poids w
fasse une erreur de classification sur lexemple k est :

tk = 0 ( z k ) + 1 ( z k ) . (75)
Lapprentissage statistique
338

Lesprance mathmatique du nombre derreurs dapprentissage est donc :


M
E = z k ( ) (76)
k =1

qui est, un facteur 1/M prs, la fonction de cot (24).


Remarque
Lquation prcdente montre que les poids qui minimisent (24) sont ceux qui minimisent lesprance mathmatique du nombre derreurs
dapprentissage, si la classication est dterministe.

Si lon suppose que les entres sont perturbes par un P( h)


gauss(2 =1)
bruit additif, on a x k = x k + xk , o x R N est un 0,5
0 .5 / cosh2(h)
vecteur de composantes alatoires de moyenne nulle,
0,4
satisfaisant xk,i << xik. La stabilit dun kexemple k
x w
scrit alors k = k + k , o k y k , et o 0,3

xk w w
=
k
est une variable alatoire de moyenne 0,2
w
nulle et de densit de probabilit p(k). Alors, la proba- 0,1
bilit de faire une erreur de classification sur lexemple
k de lensemble dapprentissage scrit : 0,0

6 4 2 0 2 4 6
h
( ) ( )= ( ) d .
k
P + < 0 = P <
k k k k
p k k
(77) Figure 6-22. Comparaison entre une gaussienne

et la distribution de bruit propose dans le texte
Suivant la forme du terme de bruit p(), la probabilit
derreur de classification a des expressions diffrentes. Supposons que p() soit de la forme

p ( ) = ---------------------------
- (78)
2cosh ( )
2

qui est une distribution en forme de cloche, similaire une gaussienne, comme le montre la figure 6-22.
Dans (78), le paramtre joue le mme rle que linverse de la variance de la gaussienne : plus est
grand, plus la distribution (78) est troite. En introduisant (78) dans (77), on obtient lesprance math-
matique de lerreur dapprentissage sur lexemple k en prsence de bruit additif sur les entres :

tk =
1
2
(
1 th k .
) (79)

Cette expression est le cot partiel de lalgorithme Minimerror.


Remarque 1
Le cot partiel de Minimerror sinterprte, dans la formulation probabiliste de lapprentissage, comme lesprance derreur dapprentissage
dun perceptron en prsence dun bruit additif de la forme (78) sur lexemple xk .

Remarque 2
2
1
Si lon suppose que le bruit est gaussien, p ( ) = exp 2 , on trouve que lerreur dapprentissage est proportionnelle la fonc-
2 2
tion Erreur. Cette dernire est moins aise traiter numriquement que la tangente hyperbolique, ce qui justie de faire lhypothse (78)
dans les algorithmes dapprentissage.
La discrimination
339
CHAPITRE 6

Le classifieur baysien optimal


Dans le cadre baysien, la probabilit que la classe dune entre nouvelle soit , conditionne par le fait
que lon a appris avec lensemble dapprentissage LM, scrit :

P ( x, LM ) = P ( x, w ) p ( w LM ) dw (80)

o p(w|LM ) est la probabilit a posteriori (69), qui dpend de lvidence p(LM |w) et de la priori p0(w).

Remarque
Si le classieur lve est dterministe, et si ses poids ont des valeurs wappris, apprises par la minimisation dun cot, comme cest le cas des
( ) ( ) ( )
classieurs considrs dans tout ce chapitre, alors p w LM = w w appris , et P x ,w appris dans (80) est soit 1, soit 0. Pour un lve

( ) ( ) ( ) ( )
perceptron, P x ,w appris = x w appris . Donc, si x w appris > 0 , on a P = +1 x ,w appris = 1 et P = 1 x ,w appris = 0, et symtri-
quement pour x w appris < 0 . La sortie dun perceptron dterministe baysien nest en consquence rien dautre que la sortie du perceptron
simple. Il dpend de lalgorithme dapprentissage par lintermdiaire de lvidence.

Certains classifieurs ne sont pas dterministes. Il en est ainsi si la sortie suit une loi de probabilit P( | x, w)
qui nest pas une fonction Theta, comme nous lavons suppos dans ce chapitre, ou parce quil existe un
ensemble de poids acceptables, dont la distribution p(w|LM) nest pas un pic delta. Ainsi, la sortie dun
perceptron linaire avec lhypothse de bruit additif sur le champ (d des entres bruites) a une
probabilit :

( (
P ( x, LM ) = P x wappris + > 0 ) )
(
= P > x wappris ) (81)
+
= p ( ) d
xwappris

o la dernire galit nest vraie que si p() est symtrique.


Un autre cas de sortie probabiliste est celui prsent par un perceptron qui apprend une classification
linaire sur un ensemble dexemples linairement sparables. Dans ce cas, il existe un continuum de poids
qui permettent un apprentissage sans erreurs (plus gnralement, ce continuum existe dans tous les cas o
le problme est ralisable sans erreurs par le classifieur lve). On peut les chantillonner en
apprenant LM avec lalgorithme du perceptron, commenant chaque fois avec une initialisation diff-
rente. Cela permet destimer la densit p(w|LM). On a alors :

P ( x, L M ) = { wappris ( LM ) }
( )
x wappris dwappris (82)

o lintgrale doit tre calcule sur tous les poids correspondant une erreur dapprentissage nulle.
Comme nous lavons vu dans le chapitre 1 (rgle de dcision de Bayes), le classifieur baysien optimal
classe les entres de faon maximiser la probabilit a posteriori de la classe, P(|x, LM), quation (80).
Dans le cas du perceptron, il attribue chaque nouvel exemple x la classe qui maximise (81), ou (82),
suivant les hypothses faites. Si P(+1|x, LM) > P(1|x, LM), la dcision baysienne optimale est que la
classe de x est = +1, autrement elle est = 1.

Remarque
Dans le cas dun perceptron qui apprend une classication linaire, la dcision baysienne optimale est celle qui classe les nouvelles
entres comme la majorit des vecteurs wappris(LM ).
Lapprentissage statistique
340

Thorie statistique de lapprentissage


Dans ce paragraphe, nous allons prsenter et commenter quelques rsultats de la thorie statistique de
lapprentissage, dveloppe par V. Vapnik, qui a t introduite brivement dans le chapitre 1. Nous ne
donnerons pas les dmonstrations (voir [VAPNIK 1998]). Ce mathmaticien a tabli sous quelles condi-
tions la minimisation de lerreur dapprentissage permet dobtenir une machine apprentissage (lear-
ning machine), de nature quelconque (polynme, rseau de neurones, machine vecteurs supports)
avec une faible erreur de gnralisation, lorsque la distribution p(x, y) nest pas connue. Il sagit de condi-
tions qui assurent que, quel que soit lensemble dapprentissage et quelle que soit sa distribution de proba-
bilits, minimiser lerreur dapprentissage et produit des solutions qui minimisent aussi lerreur de gn-
ralisation g, dfinie par lquation (6) de ce chapitre pour la classification, et dont la dfinition gnrale
est donne dans le chapitre 1, section Fonction de perte, erreur de prdiction thorique . Cela nest
possible que si le minimum de lerreur dapprentissage ou risque empirique (ce que lon minimise effec-
tivement) tend vers lerreur de gnralisation ou risque fonctionnel (ce que lon voudrait minimiser)
lorsque le nombre dexemples augmente. Plus prcisment, si :

( )
lim M t wappris , LM = infw g ( w ) (83)

o wappris est le vecteur des poids du classifieur, par exemple ceux qui minimisent le cot. Si la relation
(83) est vrifie, lerreur dapprentissage est un bon estimateur de lerreur de gnralisation. Dans ce cas,
minimiser la premire est une bonne manire de minimiser la seconde. On peut remarquer que si llve
a une architecture bien adapte la tche, le membre de droite de (83) sannule. Cest en particulier le cas
dun perceptron qui apprend des exemples linairement sparables. Nous avons vu quil y a alors une infi-
nit de poids qui annulent et. On peut dire quil y a un volume fini de solutions wappris dans lespace w.
Dans ce cas, la relation (83) est vrifie par tout algorithme dapprentissage capable de trouver la spara-
tion linaire. Cependant, dans le cas gnral, larchitecture de llve nest pas ncessairement adapte au
problme ; alors infw g(w) 0 et il est difficile dassurer quun algorithme trouvera les poids qui vrifient
(83), surtout sil existe des minima locaux. Puisque lensemble dapprentissage est alatoire, il faut tablir
les conditions gnrales qui assurent la convergence (83) quel que soit LM. Vapnik a tabli que la relation
(83) est vrifie si et seulement si la probabilit du plus grand cart entre les deux membres de (83)
sannule uniformment :

{ }
lim M P sup w, LM g ( w ) t ( w, LM ) > = 0 . (84)

Voici le sens de (84) : supposons que lon dispose de tous les ensembles de M exemples dapprentissage
LM possibles, tirs au hasard avec une probabilit inconnue. Largument entre crochets dans (84) signifie
que lon dtermine, pour chaque LM, la valeur des poids qui correspondent au plus grand cart entre
lerreur t (la fraction dexemples mal classs) et lerreur de gnralisation g. La probabilit P dans (84)
reprsente alors la fraction des ensembles dapprentissage pour lesquels cet cart est suprieur . Il faut
noter que, de cette manire, P est la probabilit du pire cas possible : cest la fraction des ensembles
dapprentissage pour lesquels on peut trouver des poids tels que lerreur dapprentissage soit trs diff-
rente de lerreur de gnralisation. Or, pour avoir confiance dans la qualit de lapprentissage, on veut
sassurer que ces deux quantits soient proches dans tous les cas (cest la raison pour laquelle on consi-
dre le pire des cas). Si la condition (84) de convergence uniforme est vrifie, alors t est une bonne esti-
mation de g quel que soit LM et quel que soit lalgorithme dapprentissage. Elle garantit que lon ne
pourra pas avoir de classifieur pour lequel t est minimum, mais qui, nanmoins, gnralise trs mal, au
moins si le nombre dexemples M est suprieur un certain seuil, car (84) est une loi asymptotique
(valable pour M suffisamment grand). Plus prcisment, Vapnik a tabli lingalit suivante, quel que soit :
La discrimination
341
CHAPITRE 6

{ } ( )
lim M P sup w, LM g ( w ) t ( w, LM ) > 4 exp M 2 G ( 2M ) (85)

o G(2M), appele fonction de croissance (growth function), permet de donner une borne suprieure au
nombre N de dichotomies (sparations en deux sous-ensembles) que le rseau lve peut faire des M
points x1, ..., xM de lensemble dapprentissage. G(2M) est une fonction croissante de son argument, ind-
pendante de la tche raliser ; elle ne dpend que des caractristiques de la machine : le nombre de para-
mtres, le nombre de neurones cachs, etc. Remarquons que, pour que le membre de droite de lquation
(85) soit une borne utile ( 1), il est ncessaire que G(2M)/M < 2. (85) a donc un sens seulement si G
augmente avec M plus lentement quune fonction linaire.
Ainsi, le problme de la convergence uniforme (84), qui garantit gnralisation partir de lapprentissage
de M exemples, est ramen celui qui consiste dterminer la fonction de croissance de la machine,
G(2M). La borne (85) tablit que, si G augmente plus lentement quune fonction linaire du nombre
dexemples M, lerreur de gnralisation est infrieure 1.
La consquence de ces considrations thoriques est quil suffit de connatre la fonction G pour tous les
types de classifieurs. La borne (85) tablit alors le degr de confiance dans la classification de nouvelles
donnes, car comme t et M sont des quantits connues, elle nous permet de borner g.

Dimension de Vapnik-Chervonenkis
tant donn un classifieur, la question qui se pose est celle de savoir comment varie G avec M. Plus prci-
sment, exp G ( M ) est un majorant du nombre de dichotomies N(LM) ralisables par llve. Autrement
dit,

G ( M ) = ln sup LM N ( LM ) . (86)

Il faut donc calculer le nombre de dichotomies de M points que le rseau est capable de faire. Une dicho-
tomie dun ensemble LM de M points est une sparation de LM en deux sous-ensembles. Par exemple, il y
a 2M dichotomies possibles de M points dans lespace des entres. Elles correspondent toutes les
manires possibles dattribuer des classes 1 aux exemples. Si le rseau est capable de les raliser toutes,
alors G(M) = M ln 2 M (o signifie proportionnel), et la borne est compltement inutile. Or, il est
clair que si le nombre de points M est suffisamment petit, mme un perceptron pourra raliser toutes les
dichotomies. Ainsi, comme nous lavons vu dans le chapitre 1, deux exemples dans lespace deux
dimensions sont toujours sparables par un perceptron. Si les exemples sont au nombre de trois, ils sont
sparables, condition quils soient en position gnrale (ce qui signifie quaucun sous-ensemble de plus
de N points ne se trouve sur un mme hyperplan). Au-del de trois points, seule une fraction de toutes les
dichotomies possibles est linairement sparable. Tant que toutes les 2M dichotomies sont ralisables, on
peut dire que le rseau apprend par cur , que G(M) M, et que la borne est inutile.
En gnral, quelle que soit la complexit du rseau lve, il y a un nombre dexemples maximal, MVC,
appel dimension de Vapnik-Chervonenkis, au-del duquel le rseau ne peut raliser quun sous-ensemble
de toutes les dichotomies possibles. Pour M > MVC, G(M) augmente plus lentement avec M, et (85) est
une vraie borne. Voici le comportement de G :

M si M < M VC

G(M ) M . (87)
M VC ln M si M > M VC
VC

Si M < MVC, les donnes de lensemble dapprentissage ne constituent pas une contrainte suffisamment
forte pour apprhender les rgularits de la tche avec le rseau utilis : celui-ci est sur-dimensionn. Il
Lapprentissage statistique
342

est donc trs important de connatre la dimension MVC des rseaux. Pour le perceptron de N entres et un
seuil, on a :
M VC = N + 1 . (88)
En effet, si lon a M exemples apprendre, il faut trouver des poids w qui vrifient les M ingalits
k(w) > 0 (k = 1, ..., M). Or, le nombre maximal dinquations indpendantes compatibles (cest--dire,
qui admettent une solution non triviale) est N + 1. Si lon en compte davantage, le systme dinquations
peut tre incompatible. Donc, pour M > N + 1, on nest pas certain quil y ait une solution quel que soit
lensemble dapprentissage. En fait, il en existe seulement si lensemble dapprentissage est linairement
sparable. Pour des rseaux plus complexes, MVC est en gnral difficile dterminer, et lon nen connat
que des estimations pour certaines architectures de rseaux particulires. Ainsi, pour un rseau une
couche cache de H neurones comportant Nw = (N + 1)H + (H + 1) poids (biais inclus), on a [BAUM
1989]

H
2 N M VC 2 N w log 2 ( eH ) (89)
2
o reprsente la partie entire et e la base du logarithme nprien. Puisquil faut que M << MVC pour
avoir une bonne gnralisation, bien des efforts thoriques ont t consacrs la dtermination de la
dimension de Vapnik-Chervonenkis des rseaux de neurones. Le terme de gauche dans (89) nous dit que,
si lon a M exemples, on doit utiliser un nombre dunits caches H << M/N. Ce rsultat confirme simple-
ment quil faut que le nombre de paramtres du rseau (qui est de lordre de NH) soit trs infrieur au
nombre de donnes.

Prdiction du comportement typique des classifieurs


Une autre approche thorique essaie de caractriser les systmes par leurs proprits typiques. On appelle
ainsi les proprits qui se vrifient avec une probabilit 1, ce qui signifie que, parmi tous les systmes que
lon considre, ceux qui ne possdent pas ces proprits typiques constituent une fraction ngligeable.
Autrement dit, la fraction de systmes qui se comportent autrement que ce qui est prdit dans le cas
typique a une mesure nulle. Par exemple, la loi des grands nombres tablit que, lorsquon prend la
moyenne de N ralisations indpendantes dune variable alatoire, le rsultat est gal lesprance de la
variable alatoire si N , avec une probabilit 1. Dans le mme ordre dides, la thorie de Vapnik
tablit les conditions pour que lcart typique entre t et g soit arbitrairement petit dans la limite asymp-
totique o M . Les proprits typiques sont donc des proprits asymptotiques, dans la limite des trs
grands ensembles dapprentissage : plus prcisment, lorsque le nombre dexemples tend vers linfini.
Une limite asymptotique qui permet de dterminer les proprits dapprentissage typiques consiste
prendre N , M , N est le nombre de variables et M le nombre dexemples, avec M/N
constant. La quantit est appele taille relative de lensemble dapprentissage. Dans cette limite, la
quantit dexemples compare la dimension de lespace des entres est constante. Cette limite, souvent
appele limite thermodynamique, est tudie notamment, mais non exclusivement, avec des mthodes de
la physique statistique [ENGEL 2001]. Ce qui est intressant, cest que les rsultats ainsi obtenus restent
valables pour M et N grands, mais finis. Il faut remarquer que dans la pratique, lorsquon apprend les para-
mtres du rseau, N et M sont fixs et finis. Le rapport M/N est donc bien dfini. Les rsultats thori-
ques (calculs dans la limite thermodynamique pour des raisons techniques) sont valables pour les
systmes M et N finis, dautant plus que ces deux quantits sont grandes.
Il y a une autre limite intressante : celle o la quantit constante, lors du passage la limite, est le rapport
du nombre dexemples au nombre de paramtres du rseau. Dans le cas du perceptron, auquel nous nous
La discrimination
343
CHAPITRE 6

restreignons dans la suite, ces deux limites concident puisque le nombre de paramtres du rseau est gal
la dimension de lespace des entres.

Capacit typique du perceptron


On appelle capacit dun rseau le plus grand nombre de P( )
donnes que le perceptron peut sparer avec probabilit 1, 1,0 N = 10
quelle que soit la tche de classification, cest--dire, N = 20
quelles que soient les tiquettes yk des exemples. Par 0,8
N = 40
N = 100
exemple, la dimension de Vapnik-Chervonenkis du
perceptron est N + 1 ; autrement dit, si M < N + 1, M
exemples en position gnrale seront toujours linairement 0,6
sparables. Cependant, la probabilit que plus de MVC
points soient sparables nest pas nulle. La capacit 0,4
typique du perceptron a t dtermine par Cover en 1965
avec un raisonnement gomtrique par induction. Pour
0,2
cela, on compte le nombre de dichotomies de m points
quun perceptron peut raliser dans un espace de n dimen-
sions, pour n et m croissants. Le perceptron peut faire les 0,0
1,0 1,5 2,0 2,5 3,0
dichotomies par des hyperplans orients ; les deux orienta-
tions de lhyperplan sont considres comme des dichoto- Figure 6-23. Probabilit de sparation linaire
mies diffrentes. Gnralement, une mme dichotomie de de M points en N dimensions
Lm (la mme attribution des classes aux m points) peut tre
ralise par plusieurs hyperplans diffrents, mais il ne faut la compter quune seule fois.
Voici le rsultat que lon obtient dans le cas particulier o le perceptron na pas de seuil. Pour M < N, le
nombre de dichotomies linairement sparables de M points en dimension N est D(M, N) = 2M. Pour
M > N, on trouve :
N 1
M 1
D( M , N ) = 2 . (90)
m=0 m
Le rsultat (90) est une proprit gomtrique des points dans lespace de N dimensions ; il est indpen-
dant de lalgorithme dapprentissage.
Puisque le nombre total de dichotomies possibles de M points est 2M, la probabilit PLS(LM) quun
ensemble de M points dans lespace de N dimensions soit linairement sparable est :
D(M , N )
PLS ( LM ) = (91)
2M
que lon peut crire comme la somme des N 1 premiers termes du dveloppement du binme (1/2 + 1/2)M-1.
Cette somme vaut 1/2 lorsque N 1 = M/2. La figure 6-21 montre la probabilit (91) pour diffrentes
valeurs de M et N. On voit que, lorsque la dimension de lespace est grande, la probabilit de sparation
linaire est pratiquement gale 1 pour M 2N. Cette probabilit tombe abruptement zro au voisinage
de M/N ~ 2. En consquence, bien que lon ne puisse pas assurer que tout ensemble dapprentissage de
M = 2N exemples soit linairement sparable, la probabilit quil le soit est trs grande ; elle est dautant
plus grande que N et M sont grands. Dans la limite thermodynamique N , M , avec M/
N = cte, la capacit typique (ou plus probable) du perceptron correspond c = 2. Strictement, cette
valeur marque la transition entre la probabilit 1 et la probabilit 0 de sparation linaire, dans la limite
thermodynamique considre. Il est nanmoins important de remarquer que, pour des valeurs de N de
Lapprentissage statistique
344

lordre de 100, le comportement de (91) est dj proche du comportement asymptotique. Cela montre
bien que le calcul des proprits typiques dapprentissage fournit des rsultats utiles dimension N
grande mais finie.

Complments
Bornes du nombre ditrations de lalgorithme du perceptron
Nous allons dtailler le calcul des bornes qui permettent de dmontrer le thorme du perceptron. Pour
tablir une borne infrieure la norme des poids, on tient compte de ce que w* est unitaire, pour crire :

w ( t + 1) = w ( t + 1) w *
(92)
w ( t + 1) w * .
Supposons que lexemple qui a t appris litration t soit k(t). la fin de litration t, le vecteur des
poids w(t + 1) scrit :
k (t) k (t)
w(t + 1) = w(t ) + y x
k (t) k (t) k (t 1) k (t 1)
= w(t 1) + y x +y x
=L (93)
t

y
k (i) k (i)
= x
i=1

o lon a tenu compte de linitialisation w(0) = 0. En prenant le produit scalaire de (93) avec le vecteur
unitaire w*, compte tenu de (92), on dduit la borne infrieure suivante :
t
w ( t + 1) k(i )w *
i =1 (94)
t min ( w *)
o min(w*) est la plus petite stabilit parmi les exemples de LM. Puisque w* est un hyperplan sparateur,
min(w*) > 0.
Par ailleurs, on peut tablir une borne suprieure de ||w(t + 1)||2, partir de lexpression suivante :

(
w ( t + 1) = w ( t ) + y k(t ) x k(t ) w ( t ) + y k(t ) x k(t )
2
)( ) (95)
= w ( t ) + 2 y k(t ) x k(t ) w ( t ) + y k(t ) x k(t ) .
2 2

Le produit crois dans (95) est ngatif. En adoptant la mme dmarche que pour la projection, on a :
w ( t + 1) w ( t ) + x k(t )
2 2 2

L
t (96)
y k(i ) x k(i )
2

i =1
2
t x maax
La discrimination
345
CHAPITRE 6

o lon a utilis le fait que |yk| = 1. ||xmax|| correspond lexemple de LM dont la norme est maximale. La
figure 6-7 illustre la croissance du module du vecteur w au cours de lapprentissage. De (94) et (96) on
dduit
t min ( w *) w ( t + 1) t x max . (97)

Nombre de dichotomies linairement sparables


Considrons un ensemble Lm de m points dans un espace de dimension n. Comme nous lavons dj
mentionn, si m n, toutes les dichotomies sont linairement sparables. Le calcul qui suit est intressant
lorsque m > n.
Soit D(m, n) le nombre de dichotomies de Lm induites par des hyperplans dans lespace de n dimensions.
Ce nombre ne dpend que de m et n, condition quaucun sous-ensemble de k < n parmi les m points ne
soit linairement dpendant, cest--dire, ne se trouve sur un mme hyperplan. On dit alors que les m
points se trouvent en position gnrale. Si les composantes xi des entres prennent des valeurs relles, la
probabilit que cela arrive est nulle, car un hyperplan est de mesure nulle dans lespace n-dimensionnel.
En revanche, si les entres sont binaires, la probabilit que k > n points soient linairement dpendants
nest pas nulle. Nous nous limitons donc au cas o les composantes sont relles. On a :

D ( m + 1) = 2 ; D (1, n ) = 2 pour tout m, n (98)


car il y a deux faons de sparer m points (attribuer des classes 1) en une dimension avec un plan qui
passe par lorigine, ou de sparer un seul point en dimension n quelconque. Si lon ajoute un nouveau
point lensemble dapprentissage Lm +1 = Lm x m +1 , il peut arriver que deux hyperplans qui induisaient
la mme dichotomie de Lm attribuent xm+1 des classes diffrentes. Dans ce cas, il existe un hyperplan H0
qui contient xm+1, et qui induit la mme dichotomie de Lm. On dit que H0 est ambigu par rapport xm+1.
Projetons les points de Lm dans le sous-espace de dimension n 1 orthogonal xm+1. H0 induit une dicho-
tomie de Lm dans le sous-espace de dimension n 1. Il y a donc une correspondance biunivoque entre les
D(m, n 1) dichotomies dans lespace projet et les dichotomies ambigus par rapport au nouveau point
dans lespace de n dimensions. Puisquil y a D(m, n) dichotomies de Lm, et que chaque dichotomie
ambigu donne lieu deux dichotomies de Lm+1, on a la formule de rcurrence suivante

D ( m + 1, n ) = D ( m, n ) + D ( m, n 1) . (99)
Compte tenu de (98), on trouve (90).

Bibliographie non commente


ANLAUF J. K., BIEHL, M. [1989], The AdaTron : An adaptive perceptron algorithm, Europhys. Lett. 10,
p. 687-692.
BAUM E. B., HAUSSLER D. [1989], What size net gives valid generalization ?, Neural Computation 1,
p. 151-160.
BUHOT A., GORDON M. B. [1997], Cost function and pattern distribution of the Bayesian Perceptron,
Phys. Lett. A 228, p. 73-78.BLAKE, C. L., MERZ C. J. [1998], UCI Repository of machine learning data-
bases, disponible sur le site Web ladresse http://mlearn.ics.uci.edu/databases/undocumented/connec-
tionist-bench/sonar/
Lapprentissage statistique
346

BUHOT A., TORRES MORENO J. M., GORDON M. B. [1997], Finite size scaling of the Bayesian Perceptron,
Phys. Rev. E 55, p. 7434-7440.
BUHOT A., TORRES MORENO J. M., GORDON M. B. [1997], Numerical simulations of an optimal algorithm
for supervised learning, European Symposium on Artificial Neural Networks, Proceedings, M. Verleysen
d., p. 151-156.
BUHOT A., GORDON M. B. [2000], Storage capacity of a constructive learning algorithm, J. Phys. A 33,
p. 1713-1727.
COVER T. M. [1965], IEEE Trans. Elect. Comp., 14, p. 326-334.
COVER T. M., THOMAS J. A. [1991], Elements of Information Theory, John Wiley.
CYBENKO G. [1989], Approximation by superpositions of a sigmoidal function, Mathematics of Control,
Signals and Sytems 2, p. 303-314.
DIETRICH R., OPPER M., SOMPOLINSKY H. [1999], Statistical Mechanics of Support Vectors Networks,
Phys. Rev. Lett. 82, p. 2975-2978.
DUDA R. O., HART P. E, STORK D. G. [2000], Pattern Classification (Wiley-Interscience)
ENGEL A., BROECK C. [2001], Statistical Mechanics of Learning, Cambridge University Press, ISBN
0521774799, 9780521774796, 329 pages.
GODIN Ch. [2000], Contributions lembarquabilit et la robustesse des rseaux de neurones en envi-
ronnement radiatif, thse de lcole nationale suprieure de laronautique et de lespace.
GORDON M. B., GREMPEL D. [1995], Learning with a temperature dependant algorithm. Europhys. Lett.
29, p. 257-262.
GORMAN, R.P., SEJNOWSKI T.J. [1998], Analysis of hidden units in a layered network trained to clasiffy
sonar targets, Neural Networks 1.
HOPFIELD J. J. [1982], Proc. Natl. Acad. Sci. USA, 79, p. 2554.
KRAUTH W., MZARD M. [1987], Learning algorithms with optimal stability in neural networks, J. Phys.
A 20, L745-L752.
MCCULLOCH W. S., PITTS W. [1943], A logical calculus of ideas immanent in nervous activity, Bull. Math.
Biophys 5, p. 115.
MEIR R., FONTANARI J. F. [1992], Learning from examples in weight-constrained neural networks,
J. Phys. A : Math. Gen. 25, p. 1149-1168.
MINSKY M., PAPERT S. [1969], Perceptrons, MIT Press, Cambridge, MA, tats-Unis.
RISAU-GUSMN S., GORDON M. B. [2000a], Understanding stepwise generalization of Support Vector
Machines : a toy model, Advances in Neural Information Processing Systems 12, S. A. Solla, T. K. Leen,
K.-R. Miller (d.), MIT Press, p. 321-327.
RISAU-GUSMN S., GORDON M. B. [2000b], Generalization properties of finite size polynomial Support
Vector Machines, Phys Rev E 62, p. 7092-7099.
RISAU-GUSMN S., GORDON M. B. [2001], Statistical Mechanics of Soft Margin Classifiers, Phys. Rev.
E 64, 031907.
RISAU-GUSMN S. [2001], tude de proprits dapprentissage des machines exemples supports (SVM)
par des mthodes de physique statistique, thse de lUniversit de Grenoble I Joseph-Fourier.
La discrimination
347
CHAPITRE 6

RISAU-GUSMN S., GORDON M. B. [2002], Hierarchical learning in polynomial support vector machines,
paratre dans Machine Learning.
ROSENBLATT F. [1958], The Perceptron : A probabilistic model for information storage and organization
in the brain, Phys. Rev. 65, p. 386.
TORRES MORENO J. M. [1997], Apprentissage et gnralisation par des rseaux de neurones : tude de
nouveaux algorithmes constructifs, thse de lInstitut national polytechnique de Grenoble, disponible sur
le site Web ladresse http://www.professeurs.polymtl.ca/juan-manuel.torres-moreno/homepage/publica-
ciones/doctorado/index.html.
TORRES MORENO J. M., GORDON M. B. [1998], Characterization of the Sonar Signals Benchmark, Neural
Processing Letters 7, p. 1-4.
VAPNIK V. [1998], The nature of statistical learning theory, Springer.
7
Cartes auto-organisatrices
et classification automatique

Ce chapitre est consacr la seconde grande famille de rseaux de neurones : les cartes topologiques auto-
organisatrices. Ces dernires font partie de la famille des modles dits apprentissage non supervis ;
par opposition avec les perceptrons multicouches qui ont t prsents prcdemment. Cela signifie que,
dans une premire approche, ces modles seront utiliss dans un but descriptif. Les donnes analyser
sont maintenant constitues dobservations dont on cherche comprendre la structure : il ny a pas de but
prcis atteindre, ni de rponse souhaite.
Les mthodes, dites dapprentissage non supervis , utilises par les modles de cartes topologiques
auto-organisatrices, proviennent des techniques initialement mises au point pour lapprentissage comp-
titif. Parmi les premiers travaux dans le domaine, on peut citer ceux de Didday [DIDDAY 1970] et de von
der Malsburg [VON DER MALSBURG 1973]. Les modles proposs cette poque dfinissent des ensem-
bles de filtres qui effectuent en parallle lanalyse dune mme observation. Pour cette observation, la
rponse produite par chaque filtre est diffrente, et lun des filtres (le gagnant ) produit une rponse
suprieure aux autres. Lapprentissage comptitif favorise alors ce filtre, et cherche le rendre plus
sensible encore lobservation quil vient de gagner . La mme opration est itre pour toutes les
observations de lensemble dapprentissage jusqu stabilisation des valeurs attribues aux diffrents
filtres. Chacun des filtres est, ce stade, rendu sensible un ensemble de caractristiques communes une
partie des observations tudies : il se transforme en dtecteur de caractristiques.
Les cartes topologiques ou cartes auto-organisatrices ont t introduites pour la premire fois par T.
Kohonen en 1981. Les premiers modles cherchaient tout particulirement reprsenter des donnes
multidimensionnelles. Les applications vises devaient pouvoir concerner de trs grands ensembles de
donnes, pour lesquelles les observations traites pouvaient atteindre de grandes dimensions. Afin de
rpondre ces critres, la visualisation par cartes topologiques envisage par Kohonen cherche, par
apprentissage partir des donnes, partitionner lensemble des observations disponibles en groupe-
ments similaires. Les groupements proposs possdent la particularit caractristique davoir une struc-
ture de voisinage qui peut tre matrialise laide dun espace discret que lon appelle carte
topologique . Il sagit le plus souvent dun treillis de faible dimension (grille 1D, 2D ou 3D) sur lequel
les structures de voisinages sont prises en considration par le modle.
La particularit la plus importante des cartes auto-organisatrices est quelles rendent possible la compa-
raison des groupements qui ont t raliss directement partir des donnes. Une observation est affecte
un groupe qui est projet en un nud de la carte. La comparaison des projections lies deux observa-
tions distinctes permet dapprcier la proximit des groupes dont elles sont issues. Les observations
semblables ont la mme projection ; si les projections sont diffrentes, la dissemblance grandit avec
la distance qui existe entre les projections ; cette distance est calcule sur la carte. Ainsi, lespace des
Lapprentissage statistique
350

sous-ensembles sidentifie la carte, et il est possible, dune certaine manire, de regarder simultanment
lespace des sous-ensembles et celui des observations.
Classification automatique et cartes auto-organisatrices sont proches, puisque la plupart des mthodes de
classification automatiques cherchent regrouper les donnes similaires , ce dernier mot signifiant
dans ce cas proche pour le domaine dapplication dont les donnes sont issues et pour la mtrique utilise.
La notion dordre topologique constitue lapport des rseaux de neurones apprentissage non supervis
au domaine de la classification automatique, qui est un des grands thmes abords en analyse des donnes
[DUDA et al. 1973], [JAIN et al. 1988], [SAPORTA 1990].
Toutes les mthodes de classification automatique, si lon considre les systmes de dcision actuels,
permettent daborder aussi des tches de type supervis. Une grande partie des applications qui ont t
dveloppes laide des cartes auto-organisatrices sont des classifieurs, certaines effectuent mme des
tches de rgression. Cela peut sexpliquer de plusieurs manires :
des modifications simples de lalgorithme de base permettent de lutiliser en tant qualgorithme super-
vis [CERKASSKY et al. 1991] ;
les rsultats des algorithmes non superviss peuvent facilement tre intgrs dans des chanes de
traitement concernant les mmes domaines applicatifs que ceux qui sont abords par les perceptrons
multicouches. Les cartes auto-organisatrices sont utilises pour effectuer un prtraitement des donnes.
Les informations extraites par les cartes peuvent alors tre facilement employes par dautres algo-
rithmes (rgression, classification) dune manire spcifique.
La discrimination (ou classification supervise ), prsente au chapitre 6, et la classification non
supervise sont en fait complmentaires. On peut considrer, dans un certain sens, que toutes les appli-
cations que lon cherche rsoudre utilisent une proportion dinformation supervise . Avant dutiliser
un systme, il faut le valider, ce qui sous-entend que lon a recours un expert capable de juger des rsul-
tats. Il existe donc toujours un certain nombre de donnes expertises pour lesquelles la rponse
dsire est connue. Ces donnes peuvent tre utilises pour faire progresser les modles non super-
viss. Si lon possde beaucoup dexpertise on peut lintroduire ds le dbut de lanalyse en recourant aux
formes supervises des cartes auto-organisatrices. En revanche, si lexpertise nest disponible quen petite
quantit, elle ne peut servir qu linterprtation des rsultats. Cette seconde possibilit conduit se servir
du groupement produit par les cartes auto-organisatrices et le faire suivre dune phase dintroduction
dexpertise. Lapproche est alors squentielle : on cherche dabord une partition de lespace des donnes,
la reconnaissance nintervenant que dans une seconde phase.
La suite de ce chapitre prsente les cartes topologiques auto-organisatrices et leurs fondements tho-
riques. Ces algorithmes sont prsents en utilisant un formalisme unifi qui permet de faire le lien avec
les mthodes danalyse des donnes dont elles dcoulent. Les algorithmes de cartes auto-organisatrices
peuvent tre vus comme des extensions dalgorithmes trs connus du domaine de la reconnaissance des
formes et de la classification automatique. Ce formalisme est lgrement diffrent de celui qui est
employ dans les premiers modles proposs par Kohonen. Tous les liens qui permettent de situer les
diffrentes versions de lalgorithme initial seront prsents. Un paragraphe dtaille les mthodologies
possibles dintroduction dexpertise qui font suite lapprentissage non supervis .
Ce chapitre a galement un but pratique : il prsente donc deux tudes dtailles de cas rels. Les domaines
dapplication qui comptent des ralisations fondes en grande partie sur les mthodes de cartes auto-organi-
satrices sont trs nombreux. Plusieurs livres rcents prsentent ces applications [OJA et al. 1999], [KOHONEN
2001]. Un article prsente une bibliographie complte de tous les articles parus entre 1981 et 1997 ([KASKI
et al. 1998] www.icsi.berkeley.edu/ jagota/NCS/). Le site de lUniversit de Helsinki (http://www.cis.hut.fi/research/
som-research/) aborde des thmes trs divers : vision, analyse dimage, compression dimage, imagerie mdi-
cale, reconnaissance de lcriture, reconnaissance de la parole continue, analyse du signal, de la musique,
commande de processus, robotique, recherche sur le Web, etc.
Cartes auto-organisatrices et classification automatique
351
CHAPITRE 7

La premire application prsente dans ce chapitre appartient au domaine de la tldtection. Cela


permet, en entrant dans les dtails de la modlisation, de comprendre comment il est possible de mener
une analyse des donnes en utilisant les cartes auto-organisatrices. La seconde application a t ralise
par le groupe de recherche initi par Kohonen. Il sagit du systme Websom qui permet deffectuer des
recherches documentaires sur le Web. Cette application est intressante cause des dimensions mmes
mises en jeu. Il sagit dun exemple frappant, qui montre la puissance de calcul que lon peut attendre des
modlisations par cartes auto-organisatrices.
Le dernier paragraphe montre comment le formalisme des cartes topologiques peut tre tendu au traite-
ment de donnes qualitatives ou catgorielles. De manire conserver le caractre appliqu de ce livre,
nous donnons des exemples dapplications des mthodes prsentes. Ces exemples permettent de bien
comprendre les possibilits quoffrent ces mthodes en termes de visualisation et de comprhension des
donnes multidimensionnelles.

Notations et dfinitions
Ce paragraphe introduit les notations utilises dans lensemble de ce chapitre. Lensemble  reprsente
lespace des observations ; les observations sont supposes relles et de dimension multiple ; on suppose
que lespace des observations est de dimension n et que   Rn. Chaque vecteur de  correspond un
codage particulier des individus issus dune population donne. On suppose, par la suite, que lon dispose
dobservations correspondant N individus, reprsentes par le sous-ensemble  = {zi; i = 1, ..., N} de
. On fait, bien entendu, lhypothse que  est reprsentatif de la population en cours dtude, et quil
constituera lensemble dapprentissage permettant destimer les paramtres des diffrents modles.
Lensemble de toutes les mthodes prsentes cherchent, dans un premier temps, rduire linformation
contenue dans  ; elles le font :
en la rsumant sous la forme dun ensemble  = {wc; c = 1, ..., p} de p vecteurs de  ; ces vecteurs de
dimension n seront appels les rfrents dans toute la suite du chapitre ;
en dfinissant une fonction daffectation qui est une application de  dans lensemble des indices
{1, ..., p} ; cette fonction permet de raliser une partition P = {P1, ..., Pc, ..., Pp} de  en p sous-ensem-
bles, Pc = {z /(z) = c}.
La figure 7-1 montre le principe gnral de la Ensemble
modlisation : une observation z est associe un des indices
indice c choisi parmi p laide de la fonction ; cet
indice permet de dfinir le rfrent wc. On peut donc Observation z 1 2 . . . c . . . p
considrer que le vecteur rfrent wc est un reprsentant Rfrent w (z)= w
c
de lensemble Pc dont il rsume lensemble des obser-
vations. Dans la suite de lexpos, on utilisera selon le
cas wc ou son indice c pour reprsenter le sous-
ensemble des observations de Pc. Les paramtres des Espace des observations
et des rfrents
diffrents modles tant estims partir des observa-
tions de lensemble dapprentissage , on note nc le Figure 7-1. Principe gnral de la modlisation :
une observation z est associe un indice c choisi
nombre dobservations de  qui appartiennent Pc. parmi p laide de la fonction ; cet indice permet
La connaissance de lensemble des vecteurs rfrents de dfinir le rfrent wc.
 et de la fonction daffectation dtermine ce que
lon appelle une quantification vectorielle. Pour lensemble des mthodes prsentes, la dtermination de
 et de se fait par minimisation dune fonction de cot. Celle-ci est diffrente pour chaque mthode :
elle traduit les caractristiques propres de la quantification que lon va obtenir. La quantification vecto-
rielle est utilise pour affecter une observation z  son rfrent w(z) ; (z) reprsente lindice du
Lapprentissage statistique
352

rfrent auquel est associe lobservation z. La connaissance de la fonction permet donc, au-del de la
quantification vectorielle, de dfinir la partition P de  en p sous-ensembles.
Bien que la fonction de cot change pour chaque mthode, les diffrentes mthodes partagent un certain
nombre de caractristiques communes. Dans la suite de ce chapitre, on utilisera le plus souvent le forma-
lisme des nues dynamiques qui procde par itrations successives. Chaque itration est constitue de
deux tapes : une tape de minimisation qui permet de dterminer les rfrents, une tape daffectation
qui redfinit la fonction daffectation. Dans le cas o les deux tapes rpondent certains critres, ce
formalisme assure que la fonction de cot dcrot et converge vers un minimum local. Celui-ci dpend
fortement des vecteurs rfrents que lon a choisis pour initialiser la procdure de minimisation.
Lalgorithme des k-moyennes est un algorithme de classification automatique trs ancien qui est lorigine
des cartes auto-organisatrices. La section qui suit prsente cet algorithme sous sa forme la plus classique,
ainsi que diffrentes variantes permettant dexpliquer les liens avec les cartes auto-organisatrices.
Pour toutes les mthodes, nous commencerons par dcrire la version la plus classique des algorithmes.
Nous prsenterons ensuite les formes drives les plus connues (stochastiques ou probabilistes).

Mthode des k-moyennes

Prsentation de lalgorithme
La mthode des k-moyennes, qui est la mthode de quantification vectorielle la plus connue, dtermine
lensemble des vecteurs rfrents  ; et la fonction daffectation , en minimisant la fonction de cot :
. (1)

Lexpression :

reprsente linertie locale, par rapport au rfrent wc, des observations de lensemble dapprentissage 
qui lui sont affectes ; ces observations appartiennent donc au sous-ensemble Pc. Linertie Ic reprsente
lerreur de quantification obtenue quand on dcide de remplacer les observations de Pc par le rfrent wc
qui les reprsente. La quantit I(, ) que lon cherche minimiser reprsente la somme des inerties
locales Ic. Pour procder la minimisation de I(, ), il faut faire apparatre la fonction daffectation ;
la quantit que lon cherche minimiser scrit alors :
. (2)

Lalgorithme prsent procde dune manire itrative, chaque itration comportant deux phases. La
premire phase minimise I(, ) : en supposant les valeurs des rfrents fixes aux valeurs calcules
prcdemment, elle calcule une valeur de la fonction . La seconde phase suppose que la fonction daffec-
tation est fixe la valeur qui vient dtre calcule ; elle minimise alors la fonction I(, ) par rapport
aux paramtres . En procdant ainsi en deux phases, on fait dcrotre la valeur de I(, ) chaque
itration.
Cartes auto-organisatrices et classification automatique
353
CHAPITRE 7

Une itration se rsume donc de la manire suivante :


Phase daffectation. Il sagit, dans cette phase, de minimiser la fonction I(, ) par rapport la fonc-
tion daffectation ; cette tape, lensemble  des rfrents est fix : il est gal la valeur calcule
prcdemment. La minimisation sobtient en affectant chaque observation zi au rfrent wc laide de
la fonction daffectation :
. (3)
Dans cette expression, r varie de 1 p (nombre de rfrents). En affectant chaque observation zi au rf-
rent le plus proche wc, on rduit le terme correspondant zi dans la fonction de cot I(, ). La
nouvelle fonction daffectation dfinit une nouvelle partition P de lensemble , chaque observation z
tant affecte au rfrent le plus proche au sens de la distance euclidienne. Par la suite, nc reprsente le
nombre dlments de  Pc.
Phase de minimisation. La seconde phase de litration fait dcrotre nouveau I(, ) en fonction de
lensemble des rfrents  ; la fonction daffectation utilise la phase prcdente est fixe. La fonction
I(, ) est alors une fonction quadratique convexe par rapport , dont le minimum global est atteint pour
I z I I T
-------- = ---------, ---------, --------- = 0 .
W w 1 w 2 w p
Le calcul du vecteur gradient associ tout rfrent wc permet dobtenir un ensemble dquations vectorielles :
2 z i A ( zi ) = c ( z i w c ) = 0 .
qui dfinissent les p nouveaux rfrents :

(4)

Il existe pour cet algorithme une preuve de convergence. Si lon applique la fonction daffectation
calcule durant la premire phase, une observation z ne change de sous-ensemble que si sa contribution
linertie totale, calcule en fonction du systme de rfrents , diminue. Cette inertie totale est donc inf-
rieure la valeur courante de I(, ). La seconde phase redfinit lensemble  des valeurs des rfrents.
Chaque rfrent wc calcul partir de lquation (4) dfinit le centre de gravit de lensemble des obser-
vations de Pc , ce qui entrane la dcroissance de I(, ) qui reprsente linertie par rapport aux
centres de gravit de la partition P. Lalternance des deux phases fait dcrotre chaque itration la fonc-
tion I(, ). Lexpression (1) montre que I(, ) sexprime en fonction de la trace de la partition P sur
lensemble  ; cette trace correspond une partition de . Le nombre de partitions de  tant fini, le
processus itratif se stabilise vers un minimum local de la fonction I(, ) par rapport lensemble des
vecteurs rfrents et la fonction daffectation.
Sur le plan algorithmique, lalgorithme des k-moyennes se rsume de la manire suivante :

Algorithme des k-moyennes

1. Phase dinitialisation : t = 0, choisir les p rfrents initiaux (en gnral dune manire alatoire),
fixer le nombre maximal ditrations Niter.
2. tape itrative : litration t, lensemble des rfrents t-1 de ltape prcdente sont connus :
Phase daffectation : mise jour de la fonction daffectation t associe t-1 : on affecte chaque
observation z au rfrent dfini partir de lexpression (3).
Phase de minimisation : calcul des nouveaux rfrents t en appliquant lquation (4).
3. Rpter ltape itrative jusqu ce que lon atteigne k > Niter itrations ou une stabilisation de I.
Lapprentissage statistique
354

Lalgorithme des k-moyennes peut tre considr comme tant un algorithme de type nue dynamique
qui est une mthode gnrale permettant dobtenir un minimum local dun critre optimiser. Cette
mthode repose sur lutilisation de deux entits : lensemble des partitions, en p sous-ensembles, de
lespace des donnes, et lespace  des reprsentations (qui peut tre diffrent de lespace de donnes).
Ainsi, un sous-ensemble Pk sera reprsent par un lment wk qui sera son reprsentant dans .
Ladquation dune donne x un reprsentant donn wk sera quantifie par une fonction positive d, ainsi
plus d(x, wk) est petite, plus x est en adquation avec le reprsentant wk. Il sagit donc de dfinir une parti-
tion en p sous-ensembles P = {Pk/k = 1...p} de lespace de donnes et un ensemble de p reprsentants
W = {wk/k = 1...p} qui minimisent un critre donn. Ce dernier sera dfini par lintermdiaire dun
ensemble dapprentissage  de la manire suivante :

. (5)

Lalgorithme des nues dynamiques minimise cette fonction dune manire itrative en commenant par
un choix des p reprsentants initiaux. Chaque itration est dcompose en deux phases : en premier lieu,
une phase daffectation, qui consiste minimiser  par rapport la partition et en supposant que les repr-
sentants courants (dtermins litration prcdente) sont constants ; en second lieu, une phase de mini-
misation, qui consiste minimiser  par rapport aux p reprsentants et en supposant que la partition est
fixe celle qui est obtenue litration prcdente. Il est alors facile de voir que cet algorithme dcrot
la valeur de  chaque itration et que lalgorithme converge vers un minimum local. Ainsi, dans le cas
des k-moyennes, les rfrents constituent les reprsentants et la distance euclidienne correspond la fonc-
tion d.

Version stochastique des k-moyennes


Lalgorithme dcrit au paragraphe prcdent prsente les dfauts des algorithmes dterministes doptimi-
sation. Ces algorithmes dpendent des conditions initiales et peuvent mener la fonction de cot vers un
minimum local : le mcanisme de loptimisation ne permet pas dexplorer les diffrents minima de la
fonction I(, ). Comme nous lavons vu au chapitre 2 pour lapprentissage supervis, il est possible
deffectuer plusieurs minimisations qui partent de conditions initiales diffrentes, et de choisir, aprs
coup, la partition et lensemble des rfrents les meilleurs. Dans le cas de lapprentissage non supervis,
on choisit le plus souvent, parmi toutes les solutions trouves, celles qui rduisent au mieux I(, ).
Au cours de la phase de minimisation de chaque itration t, lalgorithme dtermine lensemble des rf-
rents  qui donnent, pour cette itration et pour une fonction daffectation fixe, le minimum global de
I(, ). Or, le minimum global nest pas ncessaire pour assurer la dcroissance de I(, ) chaque
itration. Il suffit de trouver un ensemble de rfrents t tel que pour t fixe :
.
Pour obtenir cette dcroissance, on peut utiliser une simple mthode de gradient qui permet la dcrois-
sance de I(, ) chaque itration. Le calcul du gradient ncessite celui des drives partielles de
I(, t) par rapport chaque composante de chaque vecteur rfrent wc :
. (6)

Dans cette version de lalgorithme des k-moyennes, la fonction de cot que lon minimise est toujours
donne par la relation (1) ; le calcul des vecteurs rfrents effectu chaque itration (quation 4) est
remplac par :
Cartes auto-organisatrices et classification automatique
355
CHAPITRE 7

(7)

On reconnat ici la minimisation par mthode du gradient simple, prsente au chapitre 2. La fonction
daffectation t qui apparat dans lexpression du gradient est celle qui est dfinie dans la phase daffecta-
tion de litration t, la quantit t reprsente le pas de la correction pour litration t, le rfrent wct - 1 est
celui qui a t calcul litration prcdente. Cette mthode de minimisation nest pas adaptative, car
elle fait intervenir la fonction I(, ), et donc la globalit de la base dapprentissage .
La version adaptative, ou stochastique, de lalgorithme des k-moyennes est une adaptation de la minimi-
sation non adaptative qui vient dtre prsente. La minimisation de I(, ) seffectue maintenant dune
manire stochastique : on envisage sparment les diffrents termes de la somme qui apparaissent dans
lexpression (1). chaque itration, une seule observation zi de la base dexemples est prsente ; elle
entrane la correction du vecteur rfrent w(zi) le plus proche. Cela revient faire dcrotre le seul terme
||zi wt(zi)||2 de la fonction I(, ) par une mthode de gradient ; la sommation disparat de lexpression
de la drive partielle du gradient (7). On utilise maintenant le gradient partiel 2(w(zi)t - zi) et lon modifie
le rfrent de w(zi) en appliquant la rgle :
. (8)

Un bon minimum sobtient en prsentant chacune des observations de  un grand nombre de fois (Niter
suffisamment grand). Dans la formule de modification des vecteurs rfrents, le pas de gradient t dcrot
avec les itrations. Au dbut de lalgorithme, la valeur de t est relativement grande et la dcroissance de
la fonction I(, ) nest pas strictement assure. Par la suite, le pas de gradient t devient suffisamment
petit : la modification des rfrents chaque itration est petite. ce stade, il faut un cumul de plusieurs
modifications avant de faire apparatre une modification apprciable de la fonction I : dans ce cas, il ny a
plus de diffrence entre le gradient total et le gradient partiel. Lalgorithme stochastique (8) prsente alors
le mme comportement que la version classique de lalgorithme des k-moyennes. Lalgorithme stochas-
tique montre que la mthode des k-moyennes peut tre prsente comme une mthode comptitive, o
chaque observation de lensemble dapprentissage attire vers lui le rfrent le plus proche. Le fait de
prsenter un grand nombre de fois chacune des observations, joint la dcroissance du pas de gradient t,
permet de trouver une bonne partition P et de placer les vecteurs rfrents aux centres de gravit des sous-
ensembles de cette partition.
Sur le plan algorithmique, lalgorithme stochastique des k-moyennes se rsume de la faon suivante :

Algorithme stochastique des k-moyennes

1. Phase dinitialisation : t = 0,
choisir les p rfrents initiaux (en gnral, dune manire alatoire),
fixer le nombre de passage de la base dexemples Niter, la valeur initiale et la loi de dcroissance du pas
de correction t.
2. tape itrative t : lensemble des rfrents t-1 de ltape prcdente tant connus, choisir une
observation zi (de manire alatoire ou squentielle), calculer le pas du gradient t.
Phase daffectation : on suppose t-1 connu. On affecte zi au rfrent le plus proche parmi ceux de
t 1, ce qui dfinit la nouvelle fonction daffectation t.
Phase de minimisation : calcul du nouveau rfrent de wt(zi) en appliquant lquation (8).
3. Rpter ltape itrative jusqu atteindre k > Niter N itrations ou une stabilisation de I.
Lapprentissage statistique
356

Le pas du gradient t doit tre une fonction dcroissante du nombre ditration t. Elle peut tre constante
par morceau, gale 1 ( t ) ou prendre dautres formes.

1 (b)
40 itrations
1
0.8
0.8
0.6

0.6
0.4

0.2 0.4

0 0.2

-0.2
1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 0
(a)
-0.2
1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8

1 000 itrations 1 000 itrations


1 1

0.8 0.8

0.6 0.6

0.4 0.4

0.2 0.2

0 0

0.2 -0.2
1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8

(c) (d)
Figure 7-2. Exemple dapplication de lalgorithme des k-moyennes : sensibilit aux conditions initiales et au nombre de rf-
rents. On a reprsent sur la mme figure les observations et les vecteurs rfrents. (a) Ensemble dapprentissage A, les
donnes sont engendres, dune manire quiprobable, partir de quatre gaussiennes. (b) volution de deux rfrents initia-
liss en bas et droite de la figure. Chaque rfrent capte les observations issues de deux gaussiennes. Les figures (c) et (d)
reprsentent lvolution de quatre rfrents initialiss de deux manires diffrentes. (c)Les rfrents sont initialiss au centre
de la figure ; ils captent chacun les observations issues dune gaussienne. (d) Les quatre rfrents sont initialiss en bas et
droite de la figure ; trois rfrents se partagent les observations lies deux gaussiennes ; le dernier rfrent capte celles qui
sont issues des deux autres gaussiennes.

Les trois expriences qui suivent, et qui sont prsentes sur la figure 7-2, permettent de comprendre
lvolution de lalgorithme des k-moyennes, quil sagisse de lalgorithme classique ou de sa version
stochastique. Elles illustrent en particulier la sensibilit de la solution trouve par rapport aux paramtres
de lalgorithme qui sont le nombre de rfrents et leur initialisation. Pour ces expriences, les observa-
tions ont t engendres partir de distributions gaussiennes, sphriques, dcart-type = 0.1. La
Cartes auto-organisatrices et classification automatique
357
CHAPITRE 7

premire exprience recherche une partition deux classes et montre lvolution des rfrents qui vont
capter les observations issues des quatre distributions gaussiennes. Durant lapprentissage, les deux rf-
rents sont attirs par les deux blocs constitus par les deux gaussiennes de gauche et de droite. Ils se stabi-
lisent au centre des observations qui forment les deux blocs. La deuxime exprience utilise les mmes
observations, et cherche localiser quatre rfrents initialiss de deux manires diffrentes : au centre, la
premire fois, en bas et droite, la seconde. La position, symtrique par rapport au problme, permet de
retrouver les quatre classes formes par les quatre gaussiennes, la seconde initialisation conduisant trois
rfrents recouvrir les deux gaussiennes de droite et le dernier dentre eux regrouper les deux autres.

Interprtation probabiliste des k-moyennes


Lalgorithme des k-moyennes minimise la fonction de cot I(, ) (1) qui est la somme des inerties
partielles Ic. Cette fonction de cot est dfinie dune manire gomtrique. Il est possible daborder le
problme sous une autre forme et de donner cette fonction une interprtation probabiliste. Dans le but
dobtenir le modle probabiliste, il importe de dfinir un modle probabiliste du gnrateur des observa-
tions. On fait alors lhypothse que les observations de lensemble dapprentissage  sont les ralisations
dune variable alatoire dont la fonction densit est un mlange de p lois normales :

. (9)

Chaque fonction densit normale fc admet wc comme vecteur moyenne et c comme matrice de variance-
covariance ; elle est donc dfinie par :
. (10)

Le modle de mlange de lois normales est un formalisme gnral qui permet de modliser des lois de
probabilits complexes [DUDA et al. 1973]. Lhypothse du mlange suppose implicitement que chaque
observation est issue de lun des p phnomnes alatoires cachs, reprsents par les densits normales fc
et pouvant se raliser avec la probabilit a priori c. Ce modle suppose donc que les donnes soient
engendres en procdant dabord au tirage de lune des p densits normales suivant les probabilits
discrtes c, et en tirant ensuite lobservation suivant la densit choisie. Ce modle donne une reprsenta-
tion des observations de  sous la forme de p sous-ensembles, o le sous-ensemble dindice c contient un
nombre de lordre de cN observations. Les observations sont rparties autour du vecteur moyenne wc et
ont une forme ellipsodale dfinie par les vecteurs propres et les valeurs propres de la matrice de variance-
covariance c. Ce modle de mlange est gnral puisquil permet, en choisissant convenablement le
nombre p et les diffrents paramtres des gaussiennes, dapprocher nimporte quelle fonction densit. En
utilisant cette modlisation, on peut donner une expression analytique de la rpartition gomtrique des
donnes de lensemble .
En plus de ce formalisme, le passage linterprtation probabiliste de lalgorithme des k-moyennes
demande dintroduire des hypothses supplmentaires :
1
Les probabilits a priori c (dfinition 9) sont toutes gales ---
P
Les p fonctions normales fc ont des matrices de variance-covariance identiques, gales 2I, o I repr-
sente la matrice unit et est lcart-type considr constant pour toutes ces lois normales. Dans ce cas,
les densits ont pour expression :

. (11)
Lapprentissage statistique
358

Lensemble  est un chantillon dont toutes les observations sont tires de manire indpendante ; elles
proviennent dune variable alatoire de densit p(z).
Lintroduction de ces hypothses restreint le domaine de validit de linterprtation. Elle suppose que les obser-
vations de  soient regroupes autour de leurs moyennes en p groupes. Ces groupes sont supposs avoir
chacun une enveloppe sphrique ayant approximativement un mme nombre dlments et une mme rparti-
tion.
La version probabiliste de lalgorithme des k-moyennes cherche estimer les vecteurs moyens wc et
lcart-type commun ces fonctions densits en essayant de rendre la ralisation de lchantillon de
lensemble  le plus probable possible. Cette mthode, dite du maximum de vraisemblance, consiste
maximiser la probabilit p(z1, z2, ..., zN ) de ces observations (elle est appele aussi la vraisemblance). Si
lon tient compte de lindpendance des observations, on obtient :

. (12)

Comme dans le paragraphe prcdent, lutilisation dune fonction daffectation note permet daffecter
lobservation zi son gnrateur alatoire (lune des composantes du mlange). La fonction dfinit donc
une partition de lensemble dapprentissage . Si lon dfinit la vraisemblance classifiante par
lexpression :
(13)

maximiser la vraisemblance classifiante revient minimiser :

. (14)

La minimisation de V(, , ) peut se faire en deux tapes :


Dans la premire tape, on minimise le terme I(, ) de lexpression (14), qui correspond la fonction
dinertie totale du paragraphe prcdent. On applique pour cela lalgorithme des k-moyennes (deux
phases) qui permet de dterminer un minimum local de I(, ) ; il est not Imin.
Dans la seconde tape, on minimise lexpression

par rapport . Cette expression est minimale lorsque la drive est nulle, ce qui donne :

On voit donc que lalgorithme des k-moyennes peut sinterprter conjointement la version probabiliste qui
vient dtre prsente. La minimisation de la fonction I(, ), qui correspond lalgorithme des k-moyennes,
contient implicitement la recherche dun modle probabiliste dont les hypothses sont trs restrictives. Linter-
prtation probabiliste de lalgorithme peut tre donne partir des paramtres qui sont dtermins au moment
de la convergence. Comme cela a t soulign plus haut, la densit des donnes est suppose avoir la forme
dun mlange trs particulier de densits normales. Les hypothses probabilistes sous jacentes sont trs contrai-
gnantes puisquelles supposent que les matrices de variance-covariance soient toutes identiques, diagonales et
gales 2I. Dun point de vue gomtrique, cet algorithme donne donc une reprsentation particulire des
observations : il suppose que les donnes sont rparties dune manire quiprobable en p groupes ayant comme
Cartes auto-organisatrices et classification automatique
359
CHAPITRE 7

centre les vecteurs de  et quils ont tous une forme sphrique de mme rayon. Cette interprtation ne corres-
pond pas ncessairement la ralit, ce qui constitue une limitation de lalgorithme des k-moyennes.
Figure 7-3. Exemple
(a) (b) dapplication de lalgo-
0.8 0.8 rithme des k-moyennes
sur des observations
0.6 0.6 distribues selon deux
lois normales de
matrice de variance-
0.4 0.4 covariance diffrentes
et non sphriques. Les
0.2 0.2 croix reprsentent la
position des rfrents.
(a) Ensemble dappren-
0 0 tissage . (b) Repr-
sentation des deux
0.2 0.2 rfrents et des deux
sous-ensembles obtenus
aprs convergence de
0.4 0.4 lalgorithme ; ces deux
sous-ensembles sont
0.6 0.6 spars par la droite
oblique. Les deux
classes sous-jacentes
0.8 0.8 nont pas t trouves.

0.6 0.4 0.2 0 0.2 0.4 0.6 0.4 0.2 0 0.2 0.4

Figure 7-4. Application de lalgorithme des k-moyennes avec cinq rf-


rents sur les distributions de lexemple de la figure 7-3 ; observations
distribues selon deux lois normales de matrice de variance-covariance 0.8
diffrentes et non sphriques. Les croix reprsentent les positions des
cinq rfrents. Lensemble des observations gnres par la gaussienne 0.6
de gauche a t retrouve avec laide de quatre rfrents, le dernier rf-
rent permettant de retrouver la seconde distribution.
0.4
Lexprience qui suit permet de comprendre le comporte-
ment de lalgorithme des k-moyennes lorsque la distribution 0.2
des observations sloigne franchement des hypothses du
modle probabiliste. Les observations qui sont prsentes sur 0
la figure 7-3 sloignent dune manire significative de
lhypothse qui impose aux distributions dtre sphrique et 0.2
de mme cart-type. Lapplication de lalgorithme avec deux
rfrents favorise les solutions pour lesquelles les observa-
0.4
tions sont rparties de la manire qui soit la plus
sphrique possible ; les partitions proposes repr-sentent
0.6
alors mal les deux sous-ensembles de la partition (figure 7-
3b). Une manire de lutter contre ce phnomne peut
consister chercher placer un plus grand nombre de 0.8
rfrents : la figure 7-4 montre les partitions et les rfrents
0.6 0.4 0.2 0 0.2 0.4
obtenus si lon choisit, pour la mme distribution des obser-
vations, cinq rfrents. Les observations engendres par la
Lapprentissage statistique
360

gaussienne de gauche appartiennent aux sous-ensembles attachs aux quatre rfrents reprsents sur la
figure 7-4, et le dernier sous-ensemble (et son rfrent) permet de retrouver les observations issues de la
seconde gaussienne. Le problme qui se pose alors est de retrouver les deux classes en regroupant les cinq
sous-ensembles de la partition qui a t propose par lalgorithme des k-moyennes. Cela peut se faire en
utilisant dautres mthodes danalyse des donnes comme la classification hirarchique. Cette mthodologie
sera aborde dans la section Classification et carte topologique consacre lintroduction dexpertise.
Pour retrouver directement les deux distributions, il faut lever la contrainte sur lisotropie des matrices de
variance-covariance, impose par la modlisation prcdente. Cela peut se faire en supposant que les
diffrentes matrices de variance-covariance c des diffrentes gaussiennes fc sont quelconques (sym-
triques dfinies positives). Il faut alors estimer les ( n ( n 1 ) ) 2 coefficients de chaque matrice c ainsi
que les vecteurs moyens wc. Ce modle plus complexe contient bien plus de paramtres ; ces derniers
peuvent tre estims en minimisant la vraisemblance au moyen de lalgorithme EM (Expectation Maxi-
misation), voir [DEMPSTER et al. 1977].

Carte topologique auto-organisatrice


(a) voisinage dordre 3 de c (b)
voisinage dordre 2 de c

voisinage dordre 1 de c
c1 c4
c c2
c3

c
Figure 7-5. Reprsentation de la topologie discrte dune carte topolo-
gique deux dimensions constitue de 10 10 neurones ; chaque point de
la figure reprsente un neurone c. La distance entre deux neurones est
dfinie sur le maillage. (a) reprsente V c(1),V c(2), V c(3) qui sont les
voisinages du neurone c dordre 1, 2 et 3, (b) prsente quelques distances
entre les neurones : (c, c1) = 4, (c, c2) = 1, (c, c3) = 2, (c, c4) = 3.

Les cartes auto-organisatrices


Lalgorithme propos par Kohonen est un algorithme dauto-organisation qui projette lespace des
donnes  sur un espace discret de faible dimension (en gnral 1, 2 ou 3) ; cet espace, quon appelle la
carte , sera not dans la suite de lexpos. Lensemble est constitu par un ensemble de neurones
interconnects, les liens entre neurones se faisant par lintermdiaire dune structure de graphe non
orient ; dans la suite de ce chapitre, lensemble des neurones et le graphe sous-jacent seront nots de
la mme manire ( ). La structure de graphe induit une distance discrte sur : pour toute paire de
neurones (c, r) de cette carte , (c, r) est dfinie comme tant la longueur du plus court chemin entre c
et r sur le graphe . Pour chaque neurone c, cette distance discrte permet de dfinir la notion de voisi-
nage dordre d de c :
.
Cartes auto-organisatrices et classification automatique
361
CHAPITRE 7

Les cartes utilises dans la pratique sont le plus souvent des treillis rguliers dont chaque nud est occup
par un neurone ; la notion de distance entre neurones ou de voisinage dcoule alors directement de cette
structure graphique, et dfinit la topologie discrte de la carte. La figure 7-5 prsente lensemble de ces
notions de distance et de voisinage pour une carte topologique constitue par un treillis deux dimensions.
Pour les cartes auto-organisatrices, comme pour les k-moyennes, on veut associer chaque neurone de
un vecteur rfrent wc de lespace des donnes . Lapprentissage effectu par les cartes auto-organisa-
trices fait en sorte que ces vecteurs rfrents captent au mieux la densit de probabilit sous-jacente aux
observations. Il introduit une contrainte supplmentaire lie la conservation de la topologie de la carte,
et impose que deux neurones c et r, voisins par rapport la topologie discrte de la carte, soient asso-
cis deux vecteurs rfrents wc et wr, proches par rapport la distance euclidienne sur .
On voit dans cette brve description que lalgorithme des cartes auto-organisatrices est une extension de
lalgorithme des k-moyennes : comme lui, il minimise une fonction de cot convenablement choisie.
Cette fonction de cot doit tenir compte, dune part, de linertie interne de la partition dans lespace , et
chercher, dautre part, assurer la conservation de la topologie. Une manire de raliser ce double objectif
consiste gnraliser la fonction dinertie utilise par lalgorithme des k-moyennes en introduisant dans
lexpression de cette fonction des termes spcifiques qui sont dfinies partir de la carte. Cela est ralis
par lintermdiaire de la distance dfinie sur la carte et de la notion de voisinage qui lui est attache.
La notion de voisinage peut tre introduite laide de fonctions noyaux positives et symtriques
K ( lim k ( x ) = 0). Ces fonctions permettent dintroduire des zones dinfluence autour de chaque neurone c.
x
Les distances (c, r) qui lient le neurone c aux autres neurones (r) de la carte permettent de faire varier
linfluence relative des diffrents neurones : cette importance est quantifie par K((c, r)).
Afin de grer la taille du voisinage, on utilise la famille de fonction KT paramtre par T :
. (15)

k( (i,j)) k( (i,j)) Figure 7-6. Fonction de voisi-


nage seuil ( gauche) et
fonction de voisinage de type
gaussien ( droite). Dans la
Interaction avec les
fonction de voisinage seuil,
cellules de la carte
les neurones du voisinage ont
la mme influence, en dehors
Temprature ils nen ont aucune. Dans la
Interaction avec les
T cellules de la carte fonction de voisinage de type
gaussien, linfluence entre
T(2)
i deux neurones dpend de la
T(1)
distance entre ces neurones.
(i,j) T(0)
Position de la cellule i

i
Position de la cellule i (i,j)
La figure 7-6 prsente les fonctions noyaux qui sont le plus utilises dans la pratique :

K() = 1 si < 1 Ainsi KT () = 1 si < T ;
0 sinon 0 sinon

K() = exp( ) do KT () = exp --------- ;
T
Lapprentissage statistique
362

2
K() = exp(2) do KT () = exp ---------2 .
T
La figure 7-7 prsente les courbes associes diffrentes fonctions noyaux K pour diffrentes valeurs du
paramtre T. Il est clairement possible, en choisissant une valeur en dessous de laquelle on considre que
linfluence dun neurone sur un autre est nulle (KT () < ), de dterminer, pour chaque valeur de T, la taille
du voisinage significatif, associ un neurone. Pour un neurone c, cette zone dinfluence est dfinie par V cT
= {r /KT ((c, r)) > }. La figure 7-7 montre que la taille du voisinage dcrot avec la valeur de : plus
le paramtre T est petit, plus le nombre de neurones inclus dans le voisinage VcT est rduit.

1
1 (b)
(a) 0.9
0.9
0.8
0.8
0.7
degr de voisinage

0.7
degr de voisinage

0.6
0.6
0.5 0.5

0.4 0.4

0.3 0.3

0.2 0.2

0.1 0.1
0 0
0 2 4 6 8 10 12 14 16 18 20 0 2 4 6 8 10 12 14 16 18 20
distance distance

Figure 7-7. Familles de fonctions noyaux utilises pour grer le voisinage de la carte ; laxe des abscisses reprsente la
distance sur la carte (longueur du plus court chemin sur le graphe entre les neurones). Les diffrentes courbes reprsentent
la fonction pour des valeurs diffrentes du paramtre T : du haut vers le bas, T prend les valeurs de 10 1 ; (a) KT ((c1, c2))
= exp(-0.5 * (c1, c2T) (b) KT ((c1, c2)) = exp(-0.5 * 2(c1, c2T2).

Les algorithmes des cartes auto-organisatrices minimisent une fonction de cot dont le minimum fournit
une partition forme de sous-ensembles qui sont suffisamment compacts, mais pour lesquels on est capable de
dfinir un ordre induit partir de la topologie de la carte. Cette fonction, que nous noterons JTsom dans la
suite du chapitre, remplace la fonction I introduite dans le paragraphe prcdent. La fonction JTsom que lon
considre ici est celle qui a t propose pour le modle le plus classique de cartes auto-organisatrices ;
elle a pour expression :
. (16)

Dans cette expression, reprsente une fonction daffectation, et  lensemble des p vecteurs rfrents
qui forment la carte. Lexpression (zi) reprsente le neurone particulier de la carte C qui est affect
lobservation zi, et (c, (zi)) reprsente la distance sur la carte C entre un neurone c quelconque et le
neurone (zi) affect lobservation zi. De la mme manire que pour lalgorithme des k-moyennes, on
peut reprsenter dune faon schmatique les liens existant entre la carte et lespace des observations. La
figure 7-8 montre que les principes des deux algorithmes sont trs proches ; la grande diffrence vient de
ce que lensemble des indices prsents la figure 7-1 est remplac par les indices ordonns de la carte.
Lexpression (16) est une extension de la fonction de cot des k-moyennes (1), dans laquelle la distance
euclidienne dune observation zi son rfrent w(zi) est remplace par une distance gnralise, note dT,
qui fait intervenir tous les neurones de la carte :
Cartes auto-organisatrices et classification automatique
363
CHAPITRE 7

. (17)

On observe que la distance entre z et w(z), relativement la carte



distance dT, est une somme pondre de la distance euclidienne
de z tous les vecteurs rfrents wc du voisinage du neurone z
(z). La fonction JTsom concide avec la fonction I(, ) observation
c
lorsque la valeur de T est suffisamment petite. Dans ce cas, la w
rfrent
distance dT concide avec la distance euclidienne.
La minimisation de la fonction JTsom(, ) peut se faire de
espace des observations
diffrentes manires, selon que lon cherche loptimiser et des rfrents
dune manire adaptative ou non. chacune de ces approches
Figure 7-8. Principe gnral de la modlisa-
correspond une version diffrente de lalgorithme. Par ailleurs, tion par carte auto-organisatrice : une
lintroduction dun formalisme probabiliste permet de observation z est associe un indice c
proposer une troisime version, qui estime explicitement des choisi sur la carte (parmi p neurones)
densits de probabilit. Ces trois versions des cartes topolo- laide de la fonction ((zi = c) ; cet indice
giques sont prsentes dans la suite de ce chapitre. permet de dfinir le rfrent wc.

Lalgorithme doptimisation non adaptative des cartes topologiques


Ce paragraphe prsente la mthode utilise pour minimiser la fonction JTsom(, ). La diffrence entre
lalgorithme des k-moyennes et celui des cartes auto-organisatrices rside en ceci que ces dernires mini-
misent des fonctions de cot diffrentes. T fix, la minimisation de JTsom peut tre reformule laide du
formalisme des nues dynamiques (voir plus haut section Mthode des k-moyennes ). Comme pour
lalgorithme des k-moyennes, cette formulation permet de dmontrer la convergence vers un minimum
local de la fonction de cot.
La minimisation dune fonction JTsom, pour une valeur de T fixe, est donc ralise par itrations succes-
sives, chacune se dcomposant en deux phases. La premire phase affecte lensemble des observations, la
seconde minimise la valeur de la fonction de cot associe la partition :
Phase daffectation. Cette phase minimise la fonction JTsom(, ) par rapport la fonction daffectation
. On suppose que lensemble  des rfrents est constant et gal la valeur calcule prcdemment.
Les relations (16) et (17) montrent que laffectation qui minimise JTsom pour  fix est celle qui est
dfinie pour chaque observation z par :
T (z) = argmin
r C c C

KT (c, r) z wc 2 = argmin d T (z, wr) .
r C
(18)

Cette phase permet de dfinir une fonction daffectation et une partition de lensemble des donnes .
Chaque observation z est affecte au rfrent le plus proche au sens de la distance pondre dT (17).
Phase de minimisation. Il sagit maintenant de minimiser la quantit JTsom par rapport lensemble des rf-
rents . Cette minimisation est effectue en gardant la fonction daffectation fixe et gale la fonction
calcule durant la phase prcdente. La fonction JTsom tant convexe par rapport aux paramtres , la mini-
misation est obtenue pour la valeur qui annule la drive, ce qui dfinit lensemble des nouveaux rfrents :

(19)

o Zr = z
z i  A ;  (z i) = r i
reprsente la somme de toutes les observations de lensemble dapprentissage 
Lapprentissage statistique
364

qui ont t affectes au neurone r. On remarque que chaque rfrent wc ainsi recalcul est le barycentre
des vecteurs moyens Z r n r des sous ensembles Pr  et que chaque barycentre est pondr par la
valeur K((c, r))nr.
Sur le plan algorithmique, la version nue dynamique des cartes topologiques pour une valeur de T
fixe se rsume de la manire suivante :

Algorithme nues dynamiques des cartes topologiques : T fix

1. Phase dinitialisation : t = 0 Choisir les p rfrents initiaux (en gnral, dune manire alatoire),
la structure et la taille de la carte, le nombre ditrations Niter.
2. tape itrative t. Lensemble des rfrents t-1 de ltape prcdente est connu,
phase daffectation : mise jour de la fonction daffectation t associ Wt-1. On affecte chaque
observation zi au rfrent dfini partir de lexpression (18) ;
tape de minimisation : appliquer lquation (19) afin de dterminer lensemble des nouveaux rfrents t .
3. Rpter ltape itrative jusqu ce que lon atteigne Niter itrations ou une stabilisation de JTsom.

1 1 0 itrations
Figure 7-9.
Ensemble des
observations et
0.8 0.8
ordre initial
alatoire induit
sur la carte entre
0.6 0.6 les rfrents.

0.4 0.4

0.2 0.2

0 0

0.2 0.2
1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8

Comme dans le cas de lalgorithme des k-moyennes, ltude du comportement de lalgorithme des cartes
auto-organisatrices sur des exemples simples permet de comprendre les difficults de mise en uvre qui
peuvent survenir. Lexprience qui suit illustre le rle de la valeur du paramtre T dans la minimisation. Les
donnes utilises sont celles de la figure 7-2 prsentes plus haut au paragraphe ddi lalgorithme des k-
moyennes : les observations sont qui-rparties entre quatre distributions normales qui se recouvrent
partiellement deux deux. Dans la figure 7-9, les rsultats (ordre topologique et quantifications) sont
montrs dans lespace des observations, en utilisant les reprsentations introduites par Kohonen. On a
reprsent simultanment sur la mme figure les observations et les rfrents ; on peut voir galement
lordre induit par la carte sur les rfrents : les rfrents qui reprsentent des neurones voisins directs sur le
graphe de la carte sont relis sur la figure. La figure 7-9 prsente lensemble des observations, et lordre
initial induit par la carte. Les rfrents ont t initialiss dune manire alatoire au centre du nuage
dobservations selon une gaussienne dcart-type 0,01 : on ne peut observer aucun ordre entre les rfrents.
Cartes auto-organisatrices et classification automatique
365
CHAPITRE 7

1 000 itrations 1 000 itrations


1 1

0.8 0.8

0.6 0.6

0.4 0.4

0.2 0.2

0 0

0.2 0.2
1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8

1 1 000 itrations 1 1 000 itrations

0.8 0.8

0.6 0.6

0.4 0.4

0.2 0.2

0 0

0.2 0.2
1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8

Figure 7-10. Droulement de lalgorithme nues dynamiques T fix


(de haut en bas et de gauche droite T = 10, T = 5, T = 3 et T = 1).
Lapprentissage statistique
366

La figure 7-10 montre la carte obtenue pour quatre valeurs distinctes de T :


T = 10, T = 5, T = 3 et T = 1.
Pour une grande valeur de T lensemble des rfrents lis la carte se regroupent dune manire trs dense
au centre de gravit du nuage de points. Pour une petite valeur de T les relations de voisinages inter-
viennent moins et la carte se dplie partir de la mme initialisation.
La procdure qui vient dtre prsente permet donc datteindre, pour une valeur fixe du paramtre T, un
minimum local de la fonction de cot JTsom (16) par rapport et . La procdure propose par Kohonen
rpte cette minimisation un certain nombre de fois en faisant dcrotre la valeur de T. Dans cette
approche, on passe donc progressivement par toutes les tapes prsentes la figure 7-10. Les rfrents
tant initialiss dune manire alatoire, lordre apparat au moment o la valeur de T est grande : la carte
se dplie alors peu peu de manire recouvrir la distribution relle des observations. Les proprits du
modle que lon obtient lors de la dernire itration, les qualits de la partition et de la quantification qui
lui sont associes, ainsi que celles de lordre topologique, dpendent des diffrents paramtres utiliss
durant la procdure de minimisation. Les paramtres dterminants de cette minimisation sont :
lintervalle de variation de T, la valeur initiale utilise (Tmax) et la valeur finale atteinte (Tmin) ;
le nombre de fois Niter o ltape itrative est effectue ;
la manire dont le paramtre T dcrot dans lintervalle [Tmin, Tmax].

1 000 itrations 1 000 itrations


1 1

0.8 0.8

0.6 0.6

0.4 0.4

0.2 0.2

0 0

0.2 0.2
1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8
Figure 7-11. Reprsentation de lordre induit par la carte topologique pour deux dcroissances diffrentes de T, une mme
initialisation alatoire au centre du nuage et un mme intervalle de croissance.

La figure 7-11 met en vidence limportance de la loi de dcroissance sur la carte obtenue. Sur cette
figure, on observe lordre induit sur les rfrents pour un mme ensemble dobservations, une mme
initialisation alatoire au centre du nuage dobservations, et un mme intervalle de dcroissance. On
Cartes auto-organisatrices et classification automatique
367
CHAPITRE 7

observe que si la dcroissance est rapide lordre se forme mal et les relations de voisinage ne reprsentent
pas lordre des sous-ensembles. Lordre topologique est trs sensible lensemble des paramtres qui
interviennent dans lalgorithme ; il nexiste pas de loi permettant de sassurer de cet ordre. Il faut donc,
avant dutiliser les rsultats proposs par cette loi l, tester lordre (voir dans la dernire section de ce
chapitre le paragraphe consacr lapplication qui peut en tre faite en ocanographie) afin de sassurer
que lalgorithme a bien fonctionn.
Sur le plan algorithmique, lalgorithme global des cartes topologiques pour une fonction particulire de
dcroissance de T (utilise dans la pratique) se prsente de la manire suivante :

Optimisation globale des cartes topologiques

1. Phase dinitialisation. Effectuer lalgorithme nues dynamiques des cartes auto-organisatrices


pour la valeur T = Tmax, t = 0
2. tape itrative t. Lensemble des rfrents t-1 de ltape prcdente sont connus. Calculer la
nouvelle valeur de T en appliquant la formule :

. (20)

Pour cette valeur du paramtre T, effectuer les deux phases suivantes :


phase daffectation : mise jour de la fonction daffectation t associe t-1. On affecte chaque
observation zi au rfrent dfini partir de lexpression (18) ;
phase de minimisation : appliquer lquation (19) afin de dterminer lensemble des nouveaux rf-
rents t.
3. Rpter ltape itrative jusqu que lon atteigne T = Tmin.

La formule (19) montre que les cartes auto-organisatrices utilisent la fonction voisinage KT () paramtre
par T pour introduire lordre topologique. Pour des grandes valeurs de T, une observation zi permet de
modifier un grand nombre de vecteurs rfrents. loppos, pour des petites valeurs de T, KT ((c, r)) est
ngligeable si c r : une observation intervient uniquement dans le calcul du rfrent wc qui lui est le plus
proche. Les diffrentes valeurs de T utilises pendant le droulement de lalgorithme permettent aux
vecteurs rfrents de la carte de se localiser. Plus prcisment, la formule (19) montre que, pour un para-
mtre T donn, le calcul du rfrent wc dpend des observations de  qui appartiennent, dune part, au
sous-ensemble Pc, et, dautre part, aux observations de Pr qui sont dans un voisinage significatif ;
.
Plus T est petit, moins le voisinage VcT contient de neurones, et le nombre dobservations de  qui inter-
viennent pour calculer wc diminue. Pour des valeurs de T suffisamment petites, VcT se restreint au seul
neurone c, et JTsom reprsente exactement lexpression (1) ; dans ce cas, il ny a plus aucune diffrence
entre lalgorithme des cartes auto-organisatrices et celui des k-moyennes.
Puisque lapprentissage des cartes auto-organisatrices propos par Kohonen fait dcrotre le paramtre T
dans lintervalle [Tmin, Tmax], la convergence vers la solution peut se dcomposer en deux tapes. La
premire tape correspond aux grandes valeurs de T ; lutilisation rpte de lalgorithme des nues dyna-
miques T fix a tendance assurer la conservation de lordre topologique. La seconde tape a lieu pour
les petites valeurs de T ; lalgorithme commence se rapprocher de lalgorithme des k-moyennes et se
confond avec ce dernier lorsque T devient trs petit et que K((c, r)) 0 pour deux neurones distincts. On
peut donc considrer que la premire tape initialise la seconde (k-moyennes) par des rfrents qui ont
comme proprits de respecter lordre topologique.
Lapprentissage statistique
368

20 itrations 200 itrations 1 000 itrations


1 1 1

0.8 0.8 0.8

0.6 0.6 0.6

0.4 0.4 0.4

0.2 0.2 0.2

0 0 0

0.2 0.2 0.2


1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8

(a)

500 itrations 1 000 itrations


1 1

0.8 0.8

0.6 0.6

0.4 (b) 0.4

0.2 0.2

0 0

0.2 0.2
1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8

5 000 itrations
1
Figure 7-12. volution de lapprentissage doptimisation
globale appliqu lexemple des quatre gaussiennes
0.8 (figures a et b pour deux topologies diffrentes : 1-D avec
50 neurones et 2-D avec 10 10 neurones). Les figures du
0.6
haut montrent le dploiement de la carte 1-D au bout de
20, 200, 1000 itrations. La mme exprience est effectue
pour la carte 2-D ; les figures du bas montrent lvolution
0.4 au bout de 500, 1000 et 5000 itrations. Dans les deux cas,
au moment de la convergence, la carte recouvre la distri-
0.2
bution des observations.

0.2
1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8
Cartes auto-organisatrices et classification automatique
369
CHAPITRE 7

Les expriences qui suivent permettent de comprendre de quelle manire, pendant le droulement de
lalgorithme doptimisation globale, les cartes se dplient et recouvrent la varit engendre par les obser-
vations. La figure 7-12 montre, pour deux topologies diffrentes (1-D, 2-D) et pour lexemple des quatre
gaussiennes (figures 12 [a] et 12 [b]), lvolution de lapprentissage. La carte 1-D contient 50 neurones,
celle 2-D est constitue de 10 10 neurones. Pour les deux cartes, on peut observer le comportement
suivant, les rfrents ayant t initialiss dune manire alatoire au centre de la carte :
Durant la premire phase, quand la valeur de
T est grande, la carte se replie vers le centre 5 000 itrations
1
de gravit et lordre topologique se forme.
Plus la valeur de T diminue, plus la carte se 0.8
dploie et minimise linertie totale (2) de la
partition propose par lalgorithme. la fin
0.6
de lalgorithme, une partie des neurones
(rfrents) se positionnent au milieu des
0.4
observations. Certains neurones, qui ne repr-
sentent aucune observation, indiquent une
zone de faible densit ou de vide. 0.2
Une inspection des partitions trouves peut
permettre dinterprter la disposition cache 0
des observations. La figure 7-13 prsente la
carte, les neurones en noir tant ceux qui 0.2
nont rien captur. On voit que lon peut 1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8
sparer de cette manire les quatre gaus- Figure 7-13. Visualisation des frontires naturelles qui
siennes en deux groupes distincts, ce qui sparent lensemble des observations en deux sous-
permet de mettre en vidence des frontires ensembles. Les neurones qui nont capt aucune observation
sont marqus par des points noirs.
naturelles.

Lalgorithme de Kohonen
Lalgorithme prsent initialement par Kohonen dcoule de la version nues dynamiques dont on vient de
traiter. Il prsente quelques particularits que nous allons maintenant exposer. Comme pour lalgorithme
des k-moyennes, on peut proposer une version stochastique de lalgorithme des cartes topologiques. Il
suffit de remarquer que, lors de la phase de minimisation, il nest pas obligatoire de trouver le minimum
global de JTsom(, ) pour fixe : il suffit de faire dcrotre sa valeur. Il est donc possible de remplacer
la relation (19) par une mthode de gradient simple. Ainsi, litration t et pour un neurone c, on a :
,

o t est le pas du gradient de litration t et :

. (21)

Cette mthode non adaptative suppose que lon dispose de toutes les observations de lensemble
dapprentissage . La contribution dune seule observation zi la correction de wc est reprsente par le
terme de la somme 2KT ((c, (zi))(zi wct 1). De mme que pour lalgorithme des k-moyennes, on peut
utiliser la mthode du gradient stochastique, qui recalcule les rfrents chaque fois quune observation zi
est prsente. Cest cette version qui a t initialement prsente par Kohonen : la diffrence avec la
version doptimisation globale de lalgorithme prsente plus haut intervient en ceci que lon utilise une
Lapprentissage statistique
370

seule observation par itration et aussi dans le choix de la fonction daffectation. La fonction est, dans
lalgorithme de Kohonen, celle qui est utilise pour lalgorithme des k-moyennes (relation [3]) :
(zi) = arg min c||zi wc||2.
chaque prsentation dune observation zi les nouveaux rfrents sont alors calculs pour tous les
neurones de la carte C en fonction du neurone slectionn :
. (22)
Lalgorithme de Kohonen se rsume donc de la manire suivante :

Algorithme de Kohonen

1. Phase dinitialisation
choisir la structure et la taille de la carte et les p rfrents initiaux (en gnral, dune manire
alatoire) ;
fixer les valeurs de Tmax, Tmin et le nombre ditrations Niter ; prendre t = 0.
2. tape itrative t : lensemble des rfrents t-1 de ltape prcdente tant connus :
choisir une observation zi (en gnral, dune manire alatoire) ;
calculer la nouvelle valeur de T en appliquant la formule :

. (23)

Pour cette valeur du paramtre T effectuer les deux phases suivantes :


phase daffectation : on suppose t-1 connu ; on affecte lobservation zi au neurone t(zi) dfini
partir de la fonction daffectation (3) ;
phase de minimisation : calcul de lensemble des nouveaux rfrents t ; les vecteurs rfrents sont
modifis selon la formule (22) en fonction de leur distance au neurone slectionn ltape daffecta-
tion.
3. Rpter ltape itrative en faisant dcrotre la valeur du paramtre T jusqu ce que lon atteigne
t = Niter.

Discussion
Une analyse fine du comportement de cet algorithme permet de comprendre loriginalit de lalgorithme
propos par Kohonen.
Dans la formule de modification des vecteurs rfrents, le pas de gradient t dcrot avec les itrations.
Au dbut de lalgorithme, la valeur de t est grande et la dcroissance de la fonction JTsom nest pas stric-
tement assure. Par la suite, le pas de gradient t devient suffisamment petit : la modification des rf-
rents chaque itration est petite. Dans ce cas, lalgorithme prsente le mme comportement que la
version nues dynamiques des cartes topologiques.
Si lon suppose que KT () devient ngligeable pour une distance dT , la valeur KT ((c, r)) nest signi-
ficative que pour les neurones r situs dans un voisinage dordre dT du neurone c ; ce voisinage sera not
V c(dT ) par la suite. De cette manire, la prsentation dun exemple particulier zi modifie le rfrent qui
est associ au neurone (zi), ainsi que tous les rfrents des neurones du voisinage V (zi)(dT ).
Du point de vue de la reprsentation neuronale, il est possible dinterprter cela en imaginant des
connexions latrales entre les neurones : chaque neurone c est connect tous les neurones r de son
voisinage V c(dT ), et toute modification de wc entrane des modifications de tous les neurones apparte-
nant V c(dT ) avec une intensit KT ((c, r)) qui dcrot lorsque la distance (c, r) crot.
Cartes auto-organisatrices et classification automatique
371
CHAPITRE 7

Si lon choisit comme fonction KT () une fonction seuil (voir figure 7-6) qui est constante sur linter-
valle [-dT , dT ] et nulle ailleurs, on fait clairement apparatre la diffrence entre lalgorithme de Kohonen
et lalgorithme des k-moyennes : la modification des poids est identique pour les deux algorithmes ; la
diffrence rside dans le fait que lalgorithme de Kohonen modifie le rfrent le plus proche mais
aussi ceux de son voisinage V c(dT ) au sens de la distance euclidienne. Cest ainsi que sintroduit peu
peu lordre topologique, des neurones proches sur la carte reprsentant des observations proches dans
lespace des donnes.
Lorsque le paramtre T est petit, les modifications de la relation (22) ne concernent quun ensemble
rduit de neurones et lon peut remarquer que, lorsque dT < 1, lalgorithme de Kohonen est similaire
la version stochastique de lalgorithme des k-moyennes. En effet, dans ce cas, seul le neurone slec-
tionn par la fonction va modifier ses paramtres.
Lappartenance des cartes auto-organisatrices la famille des mthodes neuronales sexpliquent en ceci
que le formalisme neuronal permet une prsentation claire et compacte des diffrents phnomnes mis en
jeu. Le paragraphe suivant prsente ce formalisme appliqu aux cartes auto-organisatrices.

Architecture neuronale et carte topologique


Les algorithmes qui viennent
dtre prsents permettent de Voisinage de la cellule c
dterminer par apprentissage
lensemble de tous les rf-
rents  = {wc; c C} dune
c

carte auto-organisatrice. On
peut reprsenter lensemble
constitu par la carte et les
rfrents sous la forme dun
rseau de neurones constitu wc
de deux couches (figure 7-14) :
La couche dentre sert la
prsentation des observa- Vecteur dentre z = ( z , ... ,z ) 1 n
tions classer ; les tats de
tous ses neurones sont forcs Figure 7-14. Carte topologique en 2-D. Le rseau est constitu de deux couches :
aux valeurs des observations. une couche dentre qui sert la prsentation des observations et une couche
Cette couche contient donc dadaptation pour laquelle il faut dfinir un systme de voisinages (distance
entre les neurones et fonction de voisinage). Chaque neurone c reprsente un rf-
exactement n neurones (n rent wc ; il est entirement connect la couche dentre. Le vecteur des
tant la dimension de les- connexions (ou vecteur de poids) du neurone, cest le vecteur rfrent wc.
pace des observations).
La couche dadaptation est forme du treillis des neurones qui forme la carte. La structure du rseau
employ peut soit tre fixe a priori, soit voluer lors de lapprentissage (voir section Architecture et
carte topologique volutive ). Les neurones utiliss ce niveau sont de simples neurones distances ,
chacun dentre eux tant connect tous les lments de la couche dentre. Le vecteur rfrent
wc = (w1, w2, ..., wn) associ un neurone c de la carte nest autre que le vecteur des connexions (ou
vecteur de poids) qui arrive au neurone c. Puisque le rseau est totalement connect la couche dentre,
chaque neurone possde n connexions (poids). En rponse une observation z, un neurone distance c de
C dtermine son tat en calculant z wc 2.
Afin de permettre que le processus dauto-organisation seffectue, les poids qui lient les deux couches du
rseau sont adaptatifs : ils sont modifis laide des diffrentes rgles de modification des rfrents qui ont
t prsentes. Dans ce rseau, les neurones de la carte calculent leur tat (distance), en parallle, partir des
Lapprentissage statistique
372

mmes informations fournies par lobservation qui figure en entre. La principale caractristique du
processus dauto-organisation est de ne permettre une adaptation des paramtres du rseau que sur la rgion
de la carte la plus active . Lalgorithme le plus simple (celui de Kohonen) dtermine ce centre dactivit
comme tant le voisinage de la carte associ au neurone dont ltat (z wc 2) est le plus petit. Cest lutili-
sation de ce voisinage qui introduit les contraintes topologiques dans la reprsentation finale. Comme cela a
t signal dans le paragraphe prcdent, cela modlise de faon simplifie un couplage latral entre un
neurone slectionn et ses voisins dans la structure graphique de la carte. De cette faon, en fin dapprentis-
sage, les poids de chaque neurone convergent vers des valeurs telles quun neurone ne sera plus actif que
pour un sous-ensemble bien dtermin dobservations de la base dapprentissage. Un neurone c qui est
reprsent par son vecteur rfrent wc peut tre considr comme une observation moyenne qui rsume
le sous-ensemble Pc des observations qui lui sont affectes. Lensemble des neurones de la carte reprsente
donc une quantification vectorielle de lensemble , obtenue par lanalyse de lensemble dapprentissage
. La qualit de la quantification dpend donc de celle de lensemble dapprentissage.

Architecture et carte topologique volutive


Les cartes auto-organisatrices permettent de faire une reprsentation simplifie des donnes dcrites dans
un espace de grande dimension . Cette reprsentation se fait dans un espace discret de petite dimen-
sion qui est dfini par une structure de graphe. Le problme est donc de choisir une structure de carte bien
adapte au problme particulier qui est trait ; pour ce faire, il faut dfinir les critres qui permettent de
juger de ladquation dune carte un problme donn. Lespace des donnes et la carte sont lis par deux
applications : une application de dans  qui permet daffecter un neurone c de la carte un rfrent wc
qui est une observation moyenne , et une fonction daffectation qui permet dassocier, tout vecteur
de , un neurone c de la carte qui est son reprsentant. Ces deux applications doivent vrifier la proprit
de conservation de topologie :
deux neurones voisins dans lespace de la carte doivent tre reprsents par deux rfrents voisins dans
lespace des donnes ;
rciproquement, des donnes similaires doivent tre affectes des neurones voisins.
Si la dimension de la carte nest pas en adquation avec la dimension sous-jacente aux donnes (dimen-
sion de la varit engendre par les observations), deux observations proches dans lespace  peuvent
slectionner des neurones loigns de la carte. Or, la proprit de conservation de la topologie est intres-
sante, car elle permet de raliser une rduction de la dimension des donnes en les reprsentant dans un
espace plus petit, tout en conservant la notion de similitude. Dans les paragraphes prcdents, on a
suppos que la carte tait choisie a priori, indpendamment de la structure des donnes. Or, cette faon de
procder prsente des inconvnients vidents, puisquun choix a priori de la carte peut tre insuffisant
pour capter la structure interne des donnes.
En gnral, dans les applications, les observations noccupent pas tout lespace des donnes : elles sont
rparties dans des rgions dont les concentrations sont variables. Une manire de dcrire cette rpartition
consiste utiliser une fonction densit de probabilit qui permette de donner une description analytique
de cette rpartition. La carte doit modliser cette densit, en permettant une rpartition des rfrents qui
reflte au mieux la rpartition des observations. Les rfrents doivent tre concentrs dans les rgions de
forte densit, et viter les rgions ayant une densit nulle. Le choix de la structure graphique de la carte
est trs important, car cest lui qui permet dassurer une conservation de la topologie et de capturer la
densit de probabilit sous-jacente aux donnes.
Une manire de procder est de considrer une carte (par exemple, une grille) surdimensionne par
rapport au problme trait, et dappliquer lalgorithme de Kohonen cette carte. la fin de lapprentis-
sage, on considre la partition {Pr; r } et lon supprime de la carte les neurones r pour lesquels
Cartes auto-organisatrices et classification automatique
373
CHAPITRE 7

Pr  = . Llimination de ces neurones se justifie par le fait que les rfrents associs sont placs dans
des rgions de  o la densit de probabilit des donnes est nulle. On peut alors appliquer lalgorithme
de Kohonen la carte obtenue afin de radapter la nouvelle carte aux donnes, et itrer cette procdure
autant quil est ncessaire.
Une seconde technique consiste dfinir la carte (nombre de neurones et structure graphique) lors de
lapprentissage, en mme temps que la mise au point des rfrents. Il sagit donc de construire la carte
dune manire volutive, en permettant lajout de certains neurones et la suppression dautres. Plusieurs
mthodes ont t proposes dans la littrature ; on peut globalement les classer en deux catgories :
La premire catgorie fixe a priori la dimension k de la carte, et construit la carte dune manire volu-
tive par adjonction et suppression de neurones. Afin dimplmenter simplement ces deux oprations,
cette mthode propose de manipuler des structures graphiques ayant comme lments de base les hyper-
ttradres (les segments pour k = 1, les triangles pour k = 2 et les ttradres pour k = 3) [OJA et al. 1999].
Une seconde catgorie de mthodes laisse aux donnes elles-mmes le choix de la dimension de la
carte, qui peut varier dune rgion une autre. Lalgorithme neural gas [OJA et al. 1999] construit le
graphe en introduisant les connexions directement dans lespace des donnes. Ainsi, chaque fois quune
observation est prsente, on retient les deux rfrents les plus proches ; sils sont dj relis par une
connexion, alors cette dernire est ractive, sinon elle est cre. Lalgorithme supprime les connexions
qui restent inactives aprs un nombre fix ditrations.

Interprtation de lordre topologique


Une tude dtaille de la fonction JTsom permet de comprendre dune manire plus intuitive comment se
forme lordre topologique durant lapprentissage. Les sous-ensembles {Pr } ralisant une partition de
lensemble dapprentissage , JTsom (16) peut sexprimer sous la forme :
. (24)

Une dcomposition de cette expression permet de faire apparatre la double fonctionnalit attache la
fonction JTsom : obtenir une quantification vectorielle et assurer la conservation de la topologie.

JTsom = +

(25)

+KT ((c, c)) c z i Pc ||zi wc||2 .


Cette dcomposition fait apparatre deux termes dont il faut minimiser la somme :
Le second terme de lexpression correspond la fonction I, utilise par lalgorithme des k-moyennes,
pondre par KT ((c, c)) = K(0). Son importance relative dpend du paramtre T : plus T est petit, plus
ce terme est pris en considration durant la minimisation. Ce terme a tendance faire une partition dont
les sous-ensembles sont compacts, et pour laquelle les vecteurs rfrents deviennent les centres de
gravit des diffrents sous-ensembles de la partition.
Le premier terme introduit la contrainte de conservation de la topologie. En effet, si deux neurones c et
r sont proches sur la carte, KT ((c, r)) est grand, car (c, r) est petit ; la minimisation de ce terme
rapproche les deux sous-ensembles Pc et Pr lis c et r. Les proximits sur la carte entranent des proxi-
mits dans lespace des donnes .
Lapprentissage statistique
374

La prsentation de lalgorithme en deux tapes successives, qui dpendent de la valeur de T (voir section
lalgorithme doptimisation non adaptative des cartes topologiques ), se comprend bien mieux grce
la dcomposition qui vient dtre faite de lexpression JTsom. La premire tape correspond aux grandes
valeurs de T ; dans ce cas, le premier terme de la somme, qui dfinit JTsom, est prpondrant, et lalgorithme
a tendance assurer la conservation de lordre topologique. La seconde tape a lieu pour les petites
valeurs de T ; dans ce cas, cest le second terme de JTsom qui devient prpondrant ; lalgorithme minimise
alors la partie de lexpression lie linertie. La valeur de T permet de raliser un compromis entre les
deux termes de JTsom. Lordre topologique ayant t obtenu pendant la premire partie de lalgorithme, la
minimisation semploie par la suite obtenir des sous-ensembles aussi compacts que possible. Il sagit de
la phase k-moyennes de lalgorithme, qui consiste sadapter localement aux diffrentes densits des
donnes. On peut donc rsumer lalgorithme comme le calcul dune solution des k-moyennes sous une
contrainte dordre sur les rfrents.
Lexprience qui suit permet de comprendre la diffrence entre lalgorithme des cartes topologiques et celui
des k-moyennes ; elle reprend lexemple prsent la figure 7-2[d] pour lalgorithme des k-moyennes. On
utilise dans ce cas une carte topologique 1-D de quatre neurones et on estime les paramtres de la carte avec
les observations de lexemple de la figure 7-2 (observations issues de quatre gaussiennes).
Les quatre rfrents ont t initialiss en bas et droite de la figure, comme lors de lexprience relative
lalgorithme des k-moyennes. Les deux solutions obtenues la convergence, pour lalgorithme des k-
moyennes et pour les cartes auto-organisatrices, sont montres sur la figure 7-15. La topologie qui existe au
niveau de la carte permet aux quatre rfrents de se localiser au centre des quatre gaussiennes. Lalgorithme
des cartes topologique a trouv une solution des k-moyennes sous la contrainte dordre topologique (figure
7-15 [b]) ; cette solution est diffrente de celle trouve par lalgorithme des k-moyennes (figure 7-15 [a]).
Lutilisation de la carte permet une reprsentation plus rpartie de lespace des observations.
1 1 000 itrations 1
(a) (b) Figure 7-15.
Comparaison k-
moyennes (a) et
0.8 0.8 SOM (b) pour la
mme initialisa-
tion. Les rf-
0.6 0.6 rents sont
initialiss en bas
et droite.
0.4 0.4

0.2 0.2

0 0

0.2 0.2
1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8
Cartes auto-organisatrices et classification automatique
375
CHAPITRE 7

Carte topologique probabiliste Fonction voisinage K(.)

Comme pour lalgorithme des k-moyennes, il est C2


possible de modifier lalgorithme des cartes topolo-
giques afin den donner une version probabiliste. Nous
appellerons PRSOM ce nouveau modle [ANOUAR et
al. 1997], [GAUL et al. 2000]. La diffrence entre les
algorithmes de cartes auto-organisatrices prsents C1
prcdemment et le modle PRSOM rside en ceci que Gaussiennes
ce dernier associe chaque neurone c de la carte une
fonction densit normale fc, la notion de voisinage
permettant dintroduire un ensemble de mlanges de W,
gaussiennes. Chaque fonction densit est complte-
ment dfinie par son vecteur moyen (vecteur rfrent) Z
qui est un vecteur de dimension n: wc = (wc1, wc2, ...,
wcn), ainsi que par sa matrice de variance-covariance c Figure 7-16. Modlisation de la carte auto-organisa-
qui est une matrice carre de dimension n dfinie posi- trice sous forme dun modle de mlange de
tive. Dans le cadre du modle PRSOM, on se limite densits. La carte est reprsente selon le forma-
lisme neuronal Architecture trois couches : une
la famille de matrices diagonales, dfinie par c = c2I, couche dentre et deux couches C1 et C2 qui sont
o I est la matrice unit. Ces fonctions ont pour deux cartes de mme taille, munies de la mme topo-
expression : logie. Un neurone de C1 reprsente une gaussienne
de vecteur moyen wc et de matrice de variance-cova-
. (26) riance cI ; un neurone de C2 reprsente un mlange
de gaussiennes dont la densit est reprsente par
les expressions (28) (27).
Ainsi, dans le modle PRSOM, on attribue chaque
neurone c de la carte le vecteur moyen wc et le nombre
positif c. Comme pour les cartes auto-organisatrices, lensemble  est partitionn par la famille {Pc/c
}. Le sous-ensemble Pc est dcrit par la fonction densit fc : wc reprsente son rfrent et c dcrit la
dispersion des observations de Pc  autour de wc. Les deux ensembles  = {wc; c } et = {c; c
} dfinissent compltement le modle PRSOM ; lensemble des valeurs de leurs lments doivent tre
estimes durant la phase dapprentissage en utilisant lensemble .
Si lon fait lhypothse que la distribution sous-jacente aux donnes est un mlange de lois gaussiennes,
le modle PRSOM permet destimer les paramtres de ce mlange. Il est possible de donner une reprsen-
tation neuronale du modle. Le rseau correspondant au modle PRSOM possde une architecture trois
couches :
La couche dentre sert la prsentation des observations classer.
La carte est duplique et donne naissance aux deux cartes semblables 1 and 2 qui ont la mme topo-
logie que la carte prsente pour le modle des cartes auto-organisatrices. Sur ces deux couches, on
notera par c1 (ou c2) un neurone de la couche 1 (ou 2).
Ce modle a t introduit par Luttrel [LUTTREL 1994] ; il suppose quun phnomne de propagation
probabiliste, dans les deux sens, se ralise travers les trois couches du rseau. Ainsi, dans le sens qui va
de la carte vers lespace des donnes, cette propagation est dcrite par les probabilits : p(c1|c2) et p(z|c1,
c2). On suppose en outre que ce modle vrifie la proprit (dite de Markov) : p(z|c1, c2) = p(z|c1). Il
devient possible dexprimer la probabilit de chaque observation z sous la forme :
(27)
Lapprentissage statistique
376

. (28)

La densit de probabilit est entirement dtermine par larchitecture du rseau qui permet de donner
une expression la densit conditionnelle p(c1|c2) en utilisant les relations de voisinages sur la carte et la
densit conditionnelle des observations p(z|c1). Chaque neurone reprsente en effet une loi normale qui
permet dexprimer la densit conditionnelle des observations p(z|c1) = fc1(z, wc1, c1). Si lon fait lhypo-
thse que les relations de voisinage permettent de dfinir :

(29)

les densits de probabilits a posteriori (relation 28) des observations peuvent sexprimer en fonction des
distributions gaussiennes des diffrents neurones.
. (30)

Ainsi, p c2 (z) apparat comme un mlange local de densits gaussiennes qui fait intervenir tous les
neurones de la carte. Lensemble des vecteurs moyens  = {wc; c } et les carts-types = {c; c
} sont les paramtres quil faut estimer laide de lensemble dapprentissage  pendant la phase
dapprentissage. Grce au formalisme probabiliste, il est maintenant possible, comme pour la version
probabiliste des k-moyennes (voir plus haut la section Interprtation probabiliste des k-moyennes ), de
maximiser la vraisemblance classifiante de lensemble . Si lon fait lhypothse que les observations de
lensemble  sont indpendantes, que chaque observation zi est engendre par le gnrateur p(zi) qui est
associ au neurone (zi), et si en plus on suppose que les neurones c2 de 2 ont des probabilits a priori
gales, la vraisemblance classifiante devient alors :

(31)

expression quil sagit de maximiser par rapport aux paramtres du modle , et de la fonction daffec-
tation . Dune manire classique, on ralise cet objectif en minimisant loppos de la vraisemblance
classifiante :

(32)

et en utilisant le formalisme des nues dynamiques. Les deux phases daffectation et de minimisation sont
effectues alternativement jusqu convergence :
Phase daffectation. On suppose que lensemble des paramtres  et celui des carts-types sont
constants et quils prennent les valeurs courantes. Il faut minimiser E par rapport la fonction daffec-
tation . Il sagit donc de trouver une nouvelle fonction daffectation, qui affecte prcisment chaque
observation z un neurone de la carte. Cette tape permet dobtenir une nouvelle partition de lensemble
des donnes . Il est facile de voir que la fonction daffectation qui permet de minimiser E est celle qui
consiste affecter chaque observation zi au neurone le plus probable selon la densite p c2 (30) :
; (33)
Phase de minimisation. Au cours de cette phase, on suppose que la fonction daffectation est constante
et gale la fonction daffectation courante. On cherche alors minimiser E(, , ) par rapport 
et .
Cartes auto-organisatrices et classification automatique
377
CHAPITRE 7

Les paramtres  et sont adapts comme il en va pour la version globale de lalgorithme des cartes
topologiques, en annulant les drives partielles de la fonction E(t, t, t). Pour rsoudre lquation, on
utilise, comme dans [DUDA et al. 1973], une procdure itrative qui suppose que, pour la ime itration, la
valeur initiale des paramtres est assez proche des vraies valeurs. On obtient alors les formules de mise
jour suivantes :

(34)

. (35)

Dans ces deux expressions, les paramtres litration t sexpriment en fonction de ceux de litration
t 1.
La complexit du modle suppose que la minimisation est effectue partir de bonnes conditions initiales.
Le modle PRSOM, qui peut tre considr comme une extension des modles de cartes auto-organisa-
trices SOM, peut utiliser les paramtres estims par ces modles pour linitialisation de lensemble des
rfrents .
Lalgorithme PRSOM se rsume donc de la manire suivante.

Algorithme PRSOM avec un paramtre T constant

1. Phase dinitialisation : t = 0. Les paramtres dinitialisation 0 sont calculs en effectuant


lapprentissage avec un algorithme de cartes auto-organisatrices. La fonction daffectation 0 est dfi-
nie laide de lquation (34) et 0 est calcul en appliquant (35). Le nombre maximal ditrations
Niter est choisi.
2. tape itrative t : t-1 et t-1 sont connus et calculs litration prcdente.
phase de minimisation : calcul des nouveaux paramtres t et t en appliquant les quation (34) et (35) ;
phase daffectation : mise jour de la fonction daffectation t associe t et t selon lquation (33).
3. Rpter ltape itrative jusqu ce que lon atteigne t > Niter itrations ou une stabilisation de la
fonction E(, , ).

Comme il en va pour lalgorithme classique des cartes topologiques, PRSOM utilise un systme de voisi-
nages dont la taille, contrle par T, dcrot durant lapprentissage. la fin de la phase dapprentissage, la
carte donne lordre topologique ; la partition associe la carte est dfinie partir de la dernire fonction
daffectation Niter. De mme que pour les autres algorithmes de cartes auto-organisatrices, lensemble  est
divis en M sous-ensembles : chaque neurone c de la carte reprsente un sous-ensemble Pc = {z/Niter(z) = c}.
Cette carte et cette partition ont t dtermines en tenant compte des distributions de probabilits. Voil
pourquoi les rsultats proposs par PRSOM sont diffrents de ceux proposs par lalgorithme classique des
cartes auto-organisatrices qui utilise la distance euclidienne. Lestimation des probabilits permet dobtenir
des informations supplmentaires qui peuvent tre utilises avec profit dans des applications. Ces informa-
Lapprentissage statistique
378

tions sont en effet primordiales si lon cherche traiter des problmes de classifications. Il nexiste pas, pour
lalgorithme PRSOM, de version stochastique : lestimation de la variance demande de prendre en consid-
ration toute la base dexemples avant de modifier les diffrentes valeurs des paramtres.
Lalgorithme PRSOM permet dobtenir un grand nombre dinformations supplmentaires sur lensemble
des observations tudi (recherche des donnes aberrantes, calcul de probabilit...). Cependant, ce modle
ne peut tre utilis que si le nombre dobservations est assez grand pour permettre une estimation suffi-
samment prcise des variances attaches aux gaussiennes. La tldtection, qui peut disposer dun
nombre gigantesque de donnes, est un domaine privilgi pour lutilisation de PRSOM. Un exemple de
mthodologie possible pour la dtection de la couleur de locan est expos dans la prochaine section.

Classification et carte topologique


Parmi les diffrentes applications ralises laide des cartes auto-organisatrices, un assez grand nombre
sont des tches de classification. Lauto-organisation, telle que nous venons de la dcrire, ne permet pas
de rsoudre directement ce type de problmes : le rsultat de lapprentissage non supervis permet
daffecter une observation un sous-ensemble dune partition, indpendamment de toute notion de classe.
On considre que lon dispose dun trs grand nombre dobservations bruites dont on ne connat pas
exactement la classe. La partition propose dpend de la densit de probabilit qui est sous-jacente
lensemble des observations de lensemble dapprentissage. Les rgions ayant une forte densit dobser-
vations vont tre dcrites par une sous-partition fine, celles de faible densit par une sous-partition plus
grossire. La grande quantit de donnes disponibles dans les rgions de fortes densits permet dobtenir
une information plus prcise pour ces rgions. Par ailleurs, la partition propose est de nature gomtrique
et dpend du codage choisi pour reprsenter les observations. Ainsi, pour un mme problme, diffrents
codages peuvent tre lorigine de diffrentes partitions de lespace des observations. Avec lalgorithme
des cartes auto-organisatrices, le choix du codage introduit dune manire implicite des informations sur
le problme traiter. Lide principale de lalgorithme est de faire apparatre des groupements cohrents
(les sous-ensembles de la partition) en relation avec lapplication traite. Si lapplication envisage
consiste en un problme de classification en S classes, les diffrents sous-ensembles doivent sintgrer au
mieux avec celles-ci. On cherche alors affecter chaque sous-ensemble de la partition lune des S
classes. Puisque chaque sous-ensemble est associ un neurone de la carte, le problme de classification
se rsume celui de ltiquetage de chaque neurone de la carte au moyen de lune des S classes du
problme. Ltiquetage peut se faire de deux manires diffrentes :
1. Puisque chaque sous-ensemble de la partition P est reprsent par un rfrent et que celui-ci est une
observation moyenne, il est possible de demander un expert du domaine dapplication de
reconnatre, grce aux caractristiques de cette observation, la classe laquelle elle appartient.
2. En utilisant des donnes expertises.
3. En regroupant les neurones de la carte dune manire statistique, le recours lexpertise ne se faisant
qu lissue de cette phase.

tiquetage de la carte par donnes expertises


On suppose ensuite que lon cherche effectuer une classification en S classes et que les tiquettes de ces
classes sont prises dans lensemble des tiquettes
= {li, i = 1, ..., S}. En fin dapprentissage, quand tous
les paramtres de la carte ont t estims, chaque observation z peut tre affecte un neurone c = (z) de
la carte, et prendre comme tiquette celle de ce neurone ( lc). Le problme est donc de rpartir les diff-
rentes tiquettes de
sur tous les neurones de la carte.
Cartes auto-organisatrices et classification automatique
379
CHAPITRE 7

Ltiquetage des neurones de la carte reprsente la premire phase mettre en uvre si lon veut obtenir
un classifieur ; si le nombre de donnes expertises est trs grand, ltiquetage peut se faire laide dun
vote majoritaire (voir ci-aprs figure 7-17) :
Affecter lensemble des donnes experti-
ses aux diffrents neurones de la carte en
utilisant la rgle daffectation de lalgo- Classe 1
rithme dapprentissage considr. Classe 2
Classe 3
Parmi lensemble des donnes affectes au Classe 4
neurone c, choisir ltiquette li qui est Classe 5

apparue le plus souvent : le neurone c


devient un reprsentant de la classe li. Z labels
Le sous-ensemble affect au neurone c est
considr comme un sous-ensemble de la
classe li ; toutes les observations de ce sous-
ensemble prennent alors ltiquette li. Base
dapprentissage
la fin de la phase dtiquetage, lensemble
des neurones i qui ont la mme tiquette li
correspondent aux diffrentes fonctions
densits qui approchent la rpartition des
Figure 7-17. Principe de ltiquetage de la carte partir des
donnes de la classe li. Le grand nombre de donnes expertes. Les donnes expertises sont affectes leur
donnes expertes garantit dans ce cas la neurone par la carte. Les neurones prennent une tiquette parmi
qualit du classifieur. Bien entendu, les S, selon le vote majoritaire obtenu en utilisant des donnes
neurones qui reprsentent des observations expertes de chaque neurone.
situes aux frontires de diffrentes classes
peuvent tre mal tiquets. Il se peut galement que des neurones naient capt aucune donne experte :
les zones de lespace des observations relatives ces neurones sont alors mal connues.

Recherche dune partition adapte aux classes recherches


Si le nombre dobservations tiquetes par
lexpert est trop restreint, la mthode CAH sur
dtiquetage que lon vient dexposer est mal les neurones
adapte. Le vote majoritaire peut introduire
nombre derreurs ; la prsence dune seule
observation tiquete, si celle-ci est errone,
entrane ltiquetage du neurone. Si cette
observation a t mal identifie par lexpert,
ou si elle nest pas reprsentative du neurone
auquel elle a t affecte, une rgion tout
entire de lespace des observations est elle-
mme mal tiquete. Cette rgion, qui peut Z
tre importante, va entraner par la suite des
Figure 7-18. Recherche dune partition adapte aux classes
erreurs de classification. Par ailleurs, tant recherches. La mthode consiste regrouper les neurones de la
donn le nombre rduit des donnes tique- carte par classification ascendante hirarchique (CAH) et
tes, un nombre consquent de sous- tester les diffrentes partitions obtenues en fonction des donnes
ensembles de la partition peuvent se retrouver expertises.
sans aucune observation expertise : les
neurones correspondants ne se voient attribuer aucune tiquette.
Lapprentissage statistique
380

Il est possible, dans ce cas, denvisager une autre approche en regroupant au mieux les diffrents sous-
ensembles dobservations. On cherche alors obtenir une partition plus grossire, ltiquetage ninterve-
nant quaprs cette premire phase de regroupement des neurones. Le fait de regrouper plusieurs neurones
permet de fusionner plusieurs sous-ensembles de la partition, et dutiliser un nombre plus grand de
donnes expertes pour ltiquetage du regroupement. Bien entendu, la mme restriction subsiste sur la
qualit de la reprsentation : les ambiguts ne disparaissent que si les groupements sont cohrents avec
la classification recherche, et si le vote majoritaire permet de choisir la bonne classe.
Si lon considre que la carte et la partition obtenues la fin de lauto-organisation sont de bonne qualit,
la prise en considration des proprits des algorithmes de carte auto-organisatrice autorise que lon
mette les deux hypothses suivantes :
La quantification des donnes est de bonne qualit : chaque vecteur rfrent reprsente bien lensemble
des observations qui lui sont affectes.
Lordre topologique est bon, deux sous-ensembles relatifs des neurones proches sur la carte sont cons-
titus dobservations proches dans lespace des observations.
La seconde hypothse suppose en outre quil existe une structure dans les donnes qui est sous-jacente au
problme de classification, et il est possible avec lordre topologique de la carte dexhiber cette structure :
deux sous-ensembles reprsents par des neurones voisins ont donc une forte probabilit de reprsenter
des observations appartenant la mme classe.
Bien entendu, les hypothses que nous venons de considrer sont trs fortes, et sous-entendent de plus que
le bon codage des donnes a t identifi pour effectuer la classification. Cela suppose quune tude pra-
lable a t faite dans le but dobtenir une bonne reprsentation des observations, et donc une slection
adquate des variables et un codage pertinent pour le problme de classification trait. Un exemple de
leffet des diffrents codages sur la classification sera donn dans le paragraphe consacr aux applica-
tions.
La classification ascendante hirarchique [JAIN et al. indice de
1988], qui est une mthode de classification automa- dissimilarit
(11)
tique, permet deffectuer la seconde phase ncessaire
llaboration du classifieur en regroupant au mieux
les neurones (voir figures 7-18 et 7-19).
Figure 7-19. Regroupement des neurones de la carte par classifica-
tion ascendante hirarchique : les feuilles de larborescence
reprsentent les neurones (ici six neurones) ; laxe des ordonnes (10)
donne, pour chaque regroupement ou palier agrgatif, lindice (9)
dagrgation pour la similarit choisie.
(8)
Il sagit dune mthode qui calcule une hirarchie de (7)
partitions, chaque partition permettant de regrouper
dune manire diffrente les neurones de la carte. Les (1) (4) (3) (6) (2) (5)
diffrentes partitions de la hirarchie sont dtermines
dune manire itrative, en commenant par la partition la plus fine qui est compose de lensemble des
singletons (les neurones). La classification hirarchique utilise cette partition initiale et procde des
regroupements successifs en fusionnant chaque itration deux sous-ensembles de neurones. Le choix
des deux sous-ensembles qui vont fusionner une tape donne est effectu laide dune mesure de
similitude, dfinie entre deux sous-ensembles. On choisit, parmi tous les couples de sous-ensembles qui
constituent la partition cette tape, les deux sous-ensembles de neurones les plus semblables, au sens de
la mesure choisie.
Cartes auto-organisatrices et classification automatique
381
CHAPITRE 7

Lalgorithme de classification hirarchique se rsume de la manire suivante :

Algorithme de classification hirarchique

1. Initialisation. Considrer la partition forme par les singletons ; chaque neurone est alors affect
un sous-ensemble distinct. Choisir le nombre K de groupement que lon souhaite former.
2. Pour une partition donne, trouver les deux sous-ensembles les plus proches au sens du critre de
similitude choisi, et les fusionner de manire former un seul sous-ensemble.
3. Si le nombre de groupement de la partition courante est infrieur K, revenir ltape (2), sinon
lalgorithme se termine.

Diffrentes mesures de similitude sont proposes dans la littrature [JAIN et al. 1988]. La mesure de similitude
la plus connue est celle de Ward, qui consiste oprer des regroupements de sorte que la somme des inerties
des groupements obtenus reste la plus petite possible : cela revient favoriser des groupements les plus
compacts possible dans lespace (euclidien) des donnes. En retenant le critre de Ward pour effectuer des
groupements de neurones de la carte, on se place dans lespace des observations ; le regroupement se fait alors
par lintermdiaire des vecteurs poids wc. Mais les neurones appartiennent la carte qui a une structure topolo-
gique discrte dfinie par le graphe : il est alors possible de favoriser des groupements en tenant compte de cette
structure discrte. On sera amen favoriser des groupements de neurones reprsentant des rgions connexes
sur la carte [MURTAGH 1985], [YACOUB et al. 2001]. Le choix de lune de ces reprsentations, ou dune stra-
tgie mixte en combinant les deux, a une influence fondamentale sur les regroupements obtenus.
La classification hirarchique permet dengendrer un nombre variable de sous-ensembles, car le processus de
regroupement peut tre arrt tout moment. Pour une mesure de similarit donne, le nombre dlments de
la partition que lon choisit dpend du nombre S de classes recherches. Ce nombre dpend aussi de la consis-
tance entre la partition (qui est calcule dune manire exclusivement statistique) et les S classes du problme
trait que lon cherche dterminer. Ce nombre peut tre plus grand que S si, statistiquement, une classe nest
pas trs homogne. On considre alors que lexpert a regroup en une mme classe des cas qui, du point de vue
de lespace des observations, sont assez diffrents. Lanalyse de la partition la plus cohrente obtenue laide
de la mthode de classification hirarchique permet de voir sil y a homognit ou pas des classes proposes
par lexpert. Elle peut donc amener proposer une classification plus fine en S classes (S > S).

tiquetage et classification
Une fois que ltiquetage de la carte est effectu, lutilisation de la version probabiliste de lalgorithme des
cartes auto-organisatrices (PRSOM), qui dfinit pour chaque neurone une loi normale, permet de raliser
une classification probabiliste. Une observation z peut tre affecte chaque neurone c avec la probabilit
p(c|z) qui est dfinie par la relation (38). On obtient ainsi une procdure daffectation probabiliste. La carte
tant tiquete par lune des procdures dcrites au paragraphe prcdent, il est alors possible de calculer la
probabilit a posteriori dappartenance la classe li. Lalgorithme PRSOM provient dune modlisation
probabiliste qui fait lhypothse que les observations sont engendres suivant la loi de mlange :
, (36)

o pc(z) est elle-mme un mlange local de lois normales :


, (37)

o Tc = cKT ((c, r)) et fr est une loi normale de moyenne wr et de matrice de variance-covariance r2I.
Les quantits pc(z) sont calcules partir des neurones de la carte et les quantits p(c) partir de la parti-
Lapprentissage statistique
382

tion propose par PRSOM. Si lon note N le nombre dobservations de la base dapprentissage  et nc le
nombre dobservations de  affectes au neurone c par la rgle daffectation (z) = ARGMAXc p(z|c), il
est classique destimer la probabilit a priori p(c) du neurone c par n c N . La rgle de Bayes permet de
calculer les probabilits a posteriori du neurone c, connaissant lobservation z :
. (38)

En fin dapprentissage, la carte topologique propose par lalgorithme PRSOM dtermine les paramtres
des lois normales qui caractrisent les diffrents neurones. Pour chaque observation z, il devient possible
de calculer les probabilits a posteriori dappartenance chaque neurone en appliquant la relation (38).
Une classe tant la runion dun ensemble de neurones, la probabilit a posteriori que lobservation z
appartienne la classe li se fait en considrant tous les neurones tiquets par li. Si lon note i lensemble
de tous ces neurones on obtient :

, (39)

o pc(z) est dfinie par la relation (37). On remarque que cette probabilit est conditionne par le systme
dtiquetage de la carte qui reprsente une phase importante pour le calcul des probabilits a posteriori.
Ces probabilits a posteriori dpendent de ltiquetage de la carte, et leur consistance est fonction de la
qualit de cette carte. Les performances du classifieur ainsi dtermin dpendent donc tout la fois du
nombre de donnes expertises, de la prcision avec laquelle la densit des observations est approche, et
de lordre topologique tabli par lauto-organisation.
La connaissance des S probabilits a posteriori dappartenance permet de proposer un classifieur fond sur
lestimation des probabilits. Au moyen de ces formules, il est possible de calculer, pour chaque observation z,
les probabilits dappartenances chaque classe. Laffectation peut se faire en appliquant la rgle de dcision
baysienne et en choisissant la classe pour laquelle la probabilit dappartenance est la plus grande.

Applications
Les cartes auto-organisatrices ont permis lmergence dun grand nombre dapplications ; leur mise en uvre
a demand des dveloppements spcifiques assez longs, mais ces ralisations sont maintenant oprationnelles.
lheure actuelle, le centre de recherche le plus important impliqu dans ce domaine est situ lUniversit de
technologie de Helsinki (UTH). En effet, la plus grande partie des activits menes dans son laboratoire
dinformatique (Laboratory of Computer and Information Science) est guide par le centre de recherche sur les
rseaux de neurones (Neural Network Research Center) cr par T. Kohonen en 1994 et dirig maintenant par
E Oja. Une grande partie des tudes qui y sont dveloppes sont accessibles sur le site Web de NNR (http://
www.cis.hut.fi/research/). Les grands thmes de recherche et les applications en cours aujourdhui sont presque
tous centrs autour des cartes auto-organisatrices. Un grand nombre de ces applications sont maintenant au
stade de lexploitation industrielle ; elles ont donn naissance des recherches originales largement pluri-disci-
plinaires qui ont amen la constitution dquipes de recherche spcialises dans des domaines comme la bio-
informatique, lanalyse et la reconnaissance du langage (crit, parl) et lanalyse dimages.
Dune manire gnrale, utiliser les cartes auto-organisatrices lintrieur de systmes plus vastes fait
intervenir part entire les spcificits des domaines dapplications concerns. Le codage de linforma-
tion, lorganisation des bases de donnes, la prsentation et la visualisation des rsultats, donnent lieu
Cartes auto-organisatrices et classification automatique
383
CHAPITRE 7

des recherches pluridisciplinaires. Ce sont les solutions spcifiques, apportes en rponse aux problmes
poss, qui conditionnent la qualit des rsultats obtenus par les cartes auto-organisatrices.
La suite de ce chapitre est consacre la prsentation de plusieurs applications des cartes auto-organisa-
trices. Deux domaines, particulirement bien adapts ces mthodes ont t choisis : la tldtection et la
recherche documentaire.
La tldtection satellitaire est un domaine en pleine expansion qui pose aux physiciens et aux modlisa-
teurs un grand nombre de problmes qui sont de nature statistique. Le fait que les mesures concernes
soient numriques et disponibles en quantits gigantesques rend ce domaine particulirement adapt la
modlisation neuronale. Cependant, malgr le nombre des donnes acquises par les satellites, les mesures
qui permettraient de faire appel aux mthodes dapprentissage supervis sont en nombre trs limit. Il
sagit en gnral de mesures effectues sur le terrain qui ncessitent un quipement complexe et des
analyses trs longues effectuer. Lenjeu est donc bien danalyser les mesures de tldtection dune
manire non supervise et de reconnatre les groupements effectus laide de toute linformation que
lon peut recueillir par ailleurs. Nous prsentons deux exemples sur le problme de la dtection des aro-
sols partir des mesures satellitaires. Le premier, qui prsente le domaine de la couleur de locan, a un
but pdagogique et permet dillustrer lensemble des notions thoriques prsentes dans le chapitre. Le
second exemple, dtaille les dveloppements mthodologiques ncessaires la rsolution dune applica-
tion oprationnelle : la typologie des arosols et ltablissement de cartes dpaisseur optique. On
montrera cette occasion :
Comment faire cooprer modles thoriques et observations, ce qui permet de prendre en compte une
vritable introduction dexpertise.
Lintrt des cartes probabilistes (PRSOM).
Le second paragraphe dcrit rapidement une des applications les plus connues lheure actuelle, qui a t
ralise lUniversit de technologie de Helsinki (UTH) : le systme WEBSOM. Il sagit dune application
ddie la recherche dinformation sur le Web. Les premires versions remontent lanne 1995. La principale
caractristique de cette application est de traiter dun problme o la dimension des variables prises en compte
est particulirement grande. Les diffrentes recherches menes au centre UTH ont permis de rsoudre les
problmes de dimensionnement de la carte topologique (prise en compte dun nombre trs important de
neurones) et ceux de la mise au point de lalgorithme (temps et prcision de convergence). La ralisation de
WEBSOM a permis galement lemergence de recherches ayant pour but de rduire au mieux la dure de
lapprentissage, et, pendant lexploitation, le temps ncessaire la recherche documentaire.

Une application en tldtection satellitaire


Lobservation de la Terre par le biais des capteurs embarqus permet de recueillir des donnes qui sont
utilises pour ltude de phnomnes physiques. Toutes les mthodes neuronales prsentes dans ce livre
sont dune grande aide pour le traitement de ces donnes puisquelles permettent daborder les problmes
de la statistique multidimensionnelle. Parmi elles, les mthodes non supervises sont particulirement
adaptes car elles autorisent lextraction dinformation concernant des observations pour lesquelles peu
dexpertise existe. Le recueil dobservations expertises requiert le plus souvent que lon effectue des
analyses coteuses (mission sur le terrain, analyse biologique, chimique...) ; le nombre de donnes dispo-
nibles est pour ces raisons toujours trs faible si on le compare celles fournies par les satellites.
Les caractristiques des cartes auto-organisatrices les rendent prcieuses dans lanalyse des observations
satellitaires. En effet, la connaissance de la densit de probabilit des observations, leur quantification et
la constitution de partitions reprsentatives, autrement dit les informations que lon peut extraire, sont
susceptibles dapporter une connaissance nouvelle sur le phnomne physique tudi :
Lutilisation des cartes topologiques probabilistes (PRSOM) permet, laide du calcul de la variance,
destimer des incertitudes locales pour les observations.
Lapprentissage statistique
384

Les partitions que lon peut obtenir sont utiles aux experts des diffrents domaines dapplication
concerns (physiciens, chimistes) puisquelles peuvent constituer un rsum prcis de lensemble des
phnomnes observables. Ce rsum peut tre dune grande importance au cours de ltude du phno-
mne.
Dans tous les domaines qui relvent des sciences exprimentales, des expriences difficiles mettre en
uvre, longues dvelopper et lourdes financirement, sont menes rgulirement par des experts du
domaine dtude. Par comparaison avec le nombre dobservations satellitaires, le nombre de donnes
expertes est faible, mais linformation quelles contiennent est de la plus grande importance. Les
quelques observations expertises permettent lidentification de sous-ensembles de la partition qui est
obtenue partir de la carte topologique. La mthodologie de classification prsente plus bas la
section Classification et PRSCOM permet cette identification.
De manire faire apparatre les diffrentes possibilits des modles de cartes auto-organisatrices, la
prsentation de lapplication qui va suivre est organise de la faon suivante :
prsentation du domaine dapplication, des diffrents problmes qui se posent et des donnes dispo-
nibles pour les diffrentes expriences ;
prsentation des expriences permettant de comprendre limpact du codage sur les partitions et sur
lordre topologique obtenu ;
prsentation des expriences permettant de juger de limpact de lintroduction dexpertise.

La couleur de locan visible


Lactivit biologique de locan joue
un rle important dans lconomie 412 443 490 510 555 670 765 865
naturelle de la plante, car elle ESPACE SeaWiFS
proche
contrle les ressources halieutiques et Rayonnement infrarouge
solaire incident
participe dune manire active aux Rayonnement sortant
cycles biogochimiques, avec les
impacts climatiques qui en rsultent.
Plusieurs capteurs mesurant la diffusion par
couleur de locan ont t rcem- absorption par les nuages
ment lancs (MOS, POLDER-1, H20, aerosols,
O3,O2 ...
OCTS, SEAWIFS, MODIS), ou vont
tre lancs (MERIS, POLDER-2, ATMOSPHRE
GLI), bord de divers satellites. Ces reflexion
par le sol
capteurs multi-spectraux permettent
destimer la teneur en chlorophylle absorption par
les nuages
dans la couche superficielle de locan,
den dduire (via des modles de TERRE-OCAN
lumire photosynthse) la production absorbe
de matire organique, et dapprhender
sa variabilit spatiale et temporelle. Figure 7-20. Prsentation des phnomnes physiques tudis sous-jacents
lobservation. Les observations sont constitues par lensemble des spectres
La restitution des champs de pigments de rflectances recueillis par le radar de SeaWifs, qui analyse la surface
partir des donnes satellitaires de partir de huit longueurs dondes diffrentes.
couleur de locan ncessite deux
tapes distinctes, lune prenant en considration la traverse de latmosphre (qui contribue pour plus de
80 % au signal reu par le satellite), lautre linteraction avec locan (figure 7-20). Lalgorithme de
correction atmosphrique calcule les rflectances au niveau de la mer en corrigeant les effets atmosphri-
ques (molcules de lair et arosols). La seconde tape cherche inverser ces rflectances marines pour
fournir la concentration en pigments chlorophylliens. Le problme est dlicat car linversion des rflec-
Cartes auto-organisatrices et classification automatique
385
CHAPITRE 7

tances marines doit prendre en considration, dune part, les incertitudes dues aux corrections atmosph-
riques, et, dautre part, celles qui sont lies la variabilit des peuplements biologiques et leurs cons-
quences bio-optiques. Une bonne connaissance du milieu travers ou plus prcisment lidentification
des principaux arosols et des diffrentes classes deau qui sont sur le trajet du signal est donc fonda-
mentale. Les expriences qui vont suivre ont pour objet de retrouver diffrentes classes darosols et
deaux, en utilisant directement les spectres enregistrs au sommet de latmosphre par les capteurs.

Cartes auto-organisatrices et couleur de locan

Les donnes

Longueurs dondes
Bandes k (nanomtres) k
200
1 412
2 443 400
3 490
600
4 510
5 555 800
6 670
7 765 1000

8 865
1200
Tableau 7-1. Bandes spectrales
de SeaWifs.
1400

1600

Figure 7-21. Image SeaWifs prise au-dessus


lAfrique de lOuest et des les Canaries le 1800
5 janvier 1999 (LAC 2141 793).
2000

200 400 600


Les donnes utilises dans les diffrentes expriences qui vont suivre proviennent du radiomtre amri-
cain SeaWifs embarqu bord du satellite SeaStar. Ce capteur comporte huit bandes spectrales qui
mesurent dans le visible et dans le proche infrarouge (voir tableau 7-1).
Les observations consistent, pour chaque point mesur la surface de locan, en un vecteur de dimension 8
dont les composantes sont les huit radiances mesures au sommet de latmosphre. Lensemble des rsultats
qui vont suivre constituent un prototype de traitement des donnes de couleurs de locan ; ce prototype a
t mis au point partir dune image SeaWifs prise au-dessus lAfrique de lOuest et des les Canaries le 5
janvier 1999. Pour cette journe, il existe deux images avec des rsolutions diffrentes : une image LAC
(Local Area Coverage) de dimension 2141 793 = 1 697 813 pixels (figure 7-21), et une image de rsolu-
tion dgrade GAC (Global Area Coverage) de dimension 536 199 = 106 664 pixels. La mise au point des
diffrentes cartes topologiques a t ralise partir dun chantillonnage de limage LAC qui faisait inter-
venir une ligne de limage sur 10. Lensemble dapprentissage est donc constitu de 238 793 = 188 734
pixels. Les tests qui ont t raliss pour juger de la qualit de la quantification vectorielle obtenue ont t
raliss sur limage LAC dans son entier. tant donn que 9/10 des pixels nont pas particip lapprentis-
Lapprentissage statistique
386

sage des cartes topologiques, et vu la grande quantit de donnes impliques, les performances obtenues
peuvent tre considres comme reprsentatives de performances en test.
Lexpertise a t introduite en utilisant limage GAC, pour laquelle des
informations supplmentaires existaient. Lexpertise dont on dispose
pour cette image se prsente sous deux formes distinctes :
On trouve diffrentes informations distribues par SeaWifs : masque
de terre, indications de nuage.
Une classification des pixels de limage GAC obtenue partir de
diffrents modles optiques mis au point par les spcialistes de
latmosphre. La figure 7-22 prsente limage GAC expertise ; dans
cette image, lexpert a identifi cinq classes : les arosols dsertiques,
les eaux dites du cas 2 qui sont des eaux trs troubles charges de
matires organiques, les arosols marins, les nuages, la Terre. La
classe attribue la Terre contient tous les pixels pour lesquels
lexpert na pas voulu ou pas pu donner dtiquette.
Les informations fournies par SeaWifs, tout comme les classifica-
tions proposes par lexpert, peuvent prsenter des erreurs qui sont
dues la grande complexit des phnomnes tudis. En particulier,
lexpert a recherch cinq classes : il a pu regrouper sous un mme
nom les diffrents types darosols sil ne possdait pas les modles
physiques appropris.
Figure 7-22. Image GAC expertise ; limage reprsente les cinq zones dtermines
par lexpert : les arosols dsertiques (en noir), les eaux du cas 2 (en gris clair), les
arosols marins (en gris fonc), les nuages (en gris moyen), la Terre (en blanc).

Rle du codage
Diffrentes expriences ont t menes en codant de deux manires
diffrentes les spectres de SeaWifs.
Le premier codage utilise directement les rflectances au sommet de latmosphre. Afin de donner la
mme importance chaque longueur donde, les valeurs des spectres de rflectance ont t rduites par
longueur donde, de sorte quelles appartiennent lintervalle [1, +1]. Si lon note (k) la rflectance
pour la longueur donde k, la normalisation a t calcule sur chaque longueur donde (k = 1 8)
partir de lensemble dapprentissage. Chaque observation (un spectre) est donc reprsente par un vecteur
de dimension 8 : chaque composante de ce vecteur est constitue par une rflectance normalise, ddie
une longueur donde. Comme les valeurs des rflectances sont des rels compris entre 0 et 1, les valeurs
ont t ramenes entre 1 et 1 laide de la formule (2 (k)) 1.
La partie de limage LAC rserve lapprentissage (1 ligne sur 10), et code selon ce procd, sera iden-
tifie sous le nom de Appcod1. Le second codage a permis de faire ressortir la forme des spectres tudis.
Dans ce but, on a introduit les pentes des spectres, calcules en chaque longueur donde. La kime compo-
sante du vecteur est alors dtermine partir des rflectances :
.

On calcule de cette manire sept pentes k = 1 7. Afin de conserver une information sur lintensit du
spectre, une composante du vecteur dobservation a t affecte la norme du spectre (|| ||). Pour ce
codage, les vecteurs de dimension 8 utiliss en entre de la carte sont de la forme :
((1), , (7), || ||).
Cartes auto-organisatrices et classification automatique
387
CHAPITRE 7

On appellera Appcod2 la partie de limage LAC rserve lapprentissage cod selon ce deuxime
procd. De mme que prcdemment, les vecteurs ainsi constitus ont t normaliss entre 1 et +1,
composante par composante, sur la partie de limage LAC rserve lapprentissage. Comme les pentes
des spectres et la norme ne sont pas de mme ordre de grandeur, elles ont t normalises sparment. La
normalisation est effectue partir de la formule suivante : ( 2) 1. Dans cette formule, si x
reprsente une drive ((k) k = 1 7) min (respectivement max) reprsente le minimum (respective-
ment le maximum), sur lensemble de toutes les valeurs rencontres pour les drives dans Appcod2.
Pour tous les tests effectus, les donnes ont t transformes en utilisant les codages dfinis sur
lensemble dapprentissage. Les expriences qui vont suivre vont permettre dillustrer la mthodologie de
classification expose dans la section Classification et PRSOM . Celles-ci utilisent des quantifications
suivies de classifications ; les quantifications sont obtenues partir de cartes probabilistes (algorithme
PRSOM), et les regroupements sont effectus par classification hirarchique. Les diffrentes cartes auto-
organisatrices ont toutes la mme architecture :
La couche dentre est compose de 8 entres.
La carte est en 2D et contient (10 10) neurones ; les voisinages sont dfinis partir de la famille de
fonctions: K() = exp(2).
Quantification par PRSOM 696 863 638 551 685 305 418 408 1 041 495

La premire partie de ltude a


1 553 546 264 409 718 953 1 035 940 745 533
consist utiliser le modle
PRSOM pour dterminer les rf-
1 053 1 036 1 578 839 167 512 1 035 940 1 041 495
rents qui reprsentent un rsum
de lensemble des spectres obser-
1 098 792 142 738 168 514 686 434 671 1 191
vables ; on cherche dans ce cas une
quantification fine de lensemble
1 004 1 206 657 550 397 401 452 506 402 361
dapprentissage. En fait, le rsum
obtenu est celui de lensemble
dapprentissage ; si cet ensemble est 1 755 576 1 441 933 292 459 471 521 1 301 475
statistiquement reprsentatif, il
rsume lensemble des observations 1 706 889 1 406 391 569 480 512 4 556 584
possibles. Dans le cas contraire, la
gnralisation peut tre imparfaite, 3 372 1 506 458 510 567 512 314 651 495 608
des zones de lensemble dobserva-
tion ayant t ngliges. Les deux 2 016 619 365 472 616 644 339 655 442 419
codages introduits prcdemment
(valeurs des radiances au sommet 2 873 877 697 487 643 620 592 750 718 932
de latmosphre pour le codage 1,
pentes et norme du spectre pour le Figure 7-23. Carte PRSOM (10 10) obtenue aprs apprentissage de Appcod1. La
codage 2) ont mis au jour deux reprsentation de la carte montre lordre topologique (2D) ; chaque carr porte un
cartes diffrentes ; ces cartes nombre lintrieur qui reprsente le numro du neurone, et un au-dessus qui
montreront limportance du codage reprsente le nombre de pixels de lensemble dapprentissage affects au neurone.
pour la quantification et lordre
topologique. Chaque carte permet la quantification de lespace des observations en cent sous-ensembles. La
figure 7-23 reprsente la carte obtenue avec Appcod1 ; sur cette figure, le nombre situ au-dessus du neurone
indique le nombre de pixels de lensemble dapprentissage affects, en fin dapprentissage, chaque neurone. La
figure 7-24 prsente sur la mme carte et pour chaque neurone, la variance de la gaussienne qui lui est attache.
Clairement, la zone en haut et droite de la carte correspond des zones pour lesquelles les rflectances sont
Lapprentissage statistique
388

disperses, et celle en bas et gauche des zones de R8 pour lesquelles les diffrents spectres sont trs sembla-
bles. La physique de la mesure permet dinterprter les diffrentes zones de la carte :
les spectres sont beaucoup plus stables si le ciel est
dgag et si le signal permet danalyser la mer ; 1 2 3 4 5 6 7 8 9 10
les zones de forte variabilit peuvent correspondre la
traverse de latmosphre en prsence darosols, ou
bien la rflexion sur les nuages. 11 12 13 14 15 16 17 18 19 20

Figure 7-24. Variance estime par PRSOM, carte (10 10) (voir
figure prcdente). La surface du disque situ au-dessus du neurone 21 22 23 24 25 26 27 28 29 30
est proportionnelle la variance estime pour la gaussienne du
neurone.
31 32 33 34 35 36 37 38 39 40

1 2 3 4 5 6 7 8 9 10 41 42 43 44 45 46 47 48 49 50

11 12 13 14 15 16 17 18 19 20
51 52 53 54 55 56 57 58 59 60

21 22 23 24 25 26 27 28 29 30
61 62 63 64 65 66 67 68 69 70

31 32 33 34 35 36 37 38 39 40
71 72 73 74 75 76 77 78 79 80

41 42 43 44 45 46 47 48 49 50

81 82 83 84 85 86 87 88 89 90

51 52 53 54 55 56 57 58 59 60

91 92 93 94 95 96 97 98 99 100
61 62 63 64 65 66 67 68 69 70

71 72 73 74 75 76 77 78 79 80

Figure 7-25. Quantification vectorielle associe


81 82 83 84 85 86 87 88 89 90 la carte PRSOM (10 10) dtermine partir de
Appcod1. Le numro du neurone se situe au-dessus
du cadre, le spectre du rfrent wc est reprsent
91 92 93 94 95 96 97 98 99 100 lintrieur de chaque cadre.
Les 100 rfrents reprsentant les 100 neurones sont des spectres de mme nature que les observations
(spectres de R8) ; la figure 7-25 prsente, pour le codage 1, lensemble des rfrents et lordre topologique
qui les lie. Il sagit de la mme carte que pour les figures 7-23 et 7-24, chaque neurone tant maintenant
reprsent par son rfrent. Chaque rfrent est un spectre moyen reprsentant le sous-ensemble des
rflectances qui lui sont affectes. Les rfrents sont organiss selon un ordre qui apparat visuellement
sur la carte. Les rfrents qui correspondent aux zones de faible variance ont des formes proches :
lensemble dobservation est ici trs finement chantillonn. Les rfrents qui appartiennent aux zones de
Cartes auto-organisatrices et classification automatique
389
CHAPITRE 7

forte variance (en haut droite) chantillonnent plus grossirement lespace des observations. Le procd
de visualisation permet de choisir certains spectres et de procder une tude de lensemble des rflec-
tances captes par le neurone, ou leur localisation sur limage SeaWifs.
Une premire inspection permet de neurone 17 neurone 17
1 1
procder un contrle de qualit (figure 7-
25) : il est possible didentifier les spectres 0.9 0.9
pour lesquels des erreurs de mesure ont d
se produire. En effet, sur cette carte, les 0.8 0.8
neurones 17, 28, 35, 39 ont des rfrents 0.7 0.7
pour lesquels une longueur donde est
nulle. Si lon recherche toutes les observa- 0.6 0.6
tions captes par ces neurones, on observe
0.5 0.5
quelles prsentent la mme anomalie. Il
est possible den conclure que, dans 0.4 0.4
certains cas, un canal de transmission na
pas fonctionn, et que certains neurones se 0.3 0.3
(a) (b)
sont spcialiss dans la dtection de cette 0.2 0.2
anomalie.
0.1 0.1
La figure 7-26 montre les spectres qui
reprsentent les rfrents des neurones 0 0
c1 c2 c3 c4 c5 c6 c7 c8 c1 c2 c3 c4 c5 c6 c7 c8
17 et 35, ainsi que leurs variances.
neurone 35 neurone 35
Une analyse semblable peut tre faite pour 0.8 0.8
chacun des 100 neurones de la carte. La
figure 7-27 montre, pour un neurone situ 0.7 0.7
dans la zone de forte densit (neurone 51),
le spectre qui est associ au rfrent de ce
0.6
neurone, lensemble des spectres de 0.6
radiance capts par ce neurone, et la zone
gographique correspondante sur limage 0.5 0.5
SeaWifs. Par comparaison avec limage
SeaWifs (voir figure 7-21), on peut remar- 0.4 0.4
quer que le neurone 51 identifie une zone
claire de limage situe sur la mer et sur
0.3
laquelle il ne semble pas y avoir darosol 0.3
dsertique ou de nuages. En examinant (c) (d)
lordre des spectres propos dans la figure 0.2 0.2
7-25, on observe que le codage qui vient
dtre tudi est organis en fonction de 0.1 0.1
c1 c2 c3 c4 c5 c6 c7 c8 c1 c2 c3 c4 c5 c6 c7 c8
lintensit des spectres. Lordre obtenu fait
en priorit ressortir les proprits physiques Figure 7-26. Les figures (a) et (c) reprsentent les spectres lis aux
sous-jacentes cette intensit. Les mmes neurones 17 et 35 ; les barres verticales reprsentent la variance asso-
cie chaque longueur donde. Les figures (b) et (d) reprsentent les
expriences ont t ralises laide dun sous-ensembles de radiance captes respectivement par les neurones
deuxime codage des spectres qui prend en 17 et 35 (carte PRSOM 10 10 entrane partir de Appcod1).
compte la fois lintensit et la forme des
spectres (Appcod2). La figure 7-28 montre le nouvel ordre obtenu sur les rfrents (sur cette figure, les rfrents
des neurones ont t dcods afin de les reprsenter sous la forme de spectres). Les rfrents des neurones sont
maintenant organiss en fonction de lintensit, mais galement selon les diffrentes formes.
Lapprentissage statistique
390

neurone 51 neurone 51 neurone 51 card = 1 1162 neurone 51 card = 1 1162


0.18 0.18

0.16 0.16 200 200

0.14 0.14 400 400

0.12 0.12 600 600

800 800
0.1 0.1
1000 1000
0.08 0.08
1200 1200
0.06 0.06
1400 1400
0.04 0.04
1600 1600
0.02 0.02
1800 1800
0 0
(a) c1 c2 c3 c4 c5 c6 c7 c8 (b) c1 c2 c3 c4 c5 c6 c7 c8
2000 2000
Figure 7-27. Reprsentation du spectre du neurone 51(a) des spectres de
200 400 600 200 400 600
Appcod1 associs au neurone 51 (b) de la zone gographique associe (c) (d)
limage (c) et (d), et de la zone gographique associs au rfrent w51 zone
noire (c) et (d) (carte PRSOM 10 10 entrane partir de Appcod1).

1 2 3 4 5 6 7 8 9 10

11 12 13 14 15 16 17 18 19 20

21 22 23 24 25 26 27 28 29 30

31 32 33 34 35 36 37 38 39 40

41 42 43 44 45 46 47 48 49 50

51 52 53 54 55 56 57 58 59 60

61 62 63 64 65 66 67 68 69 70

Figure 7-28. Reprsentation de la 71 72 73 74 75 76 77 78 79 80


quantification vectorielle associe la
carte PRSOM (10 10), dtermine
partir de Appcod2. Le numro du 81 82 83 84 85 86 87 88 89 90
neurone se situe au-dessus du cadre ;
le spectre du rfrent wc est reprsent
lintrieur de chaque cadre.
91 92 93 94 95 96 97 98 99 100
Cartes auto-organisatrices et classification automatique
391
CHAPITRE 7

Classification et PRSOM
La premire srie dexpriences a permis de juger de la qualit des quantifications vectorielles obtenues
laide de PRSOM. Ces quantifications vont maintenant tre utilises des fins de classification.
Une premire possibilit consiste effectuer, comme cela a t prsent au paragraphe prcdent, ltude
physique de chaque rfrent. Cette tude doit tre mene par un expert qui reconnat chaque rfrent
partir des proprits de son spectre et en dduit le type darosol concern. Si lensemble des neurones est
identifi, la partition propose par la carte permet de lutiliser en tant que classifieur pour tiqueter
limage SeaWifs dans son entier. Par ailleurs, si lensemble dapprentissage est reprsentatif du problme
trait, il peut tre utilis pour tiqueter dautres cartes qui refltent la mme physique.

Figure 7-29. Prsentation sur la carte des deux classes proposes par PRSM + CAH : PRSOM a t dtermin partir de
Appcod1, la CAH utilise lindice de Ward. Le numro qui figure droite du neurone reprsente le numro de la classe obtenue
par classification hirarchique. Lensemble des neurones gris fonc reprsentent les neurones de la classe 1 et ceux en gris
clair sont ceux de la classe 2.

Si la procdure didentification nest pas possible, cest--dire si lexpert ne peut pas avec certitude attri-
buer une tiquette chaque neurone, il est possible de mettre en uvre une approche non supervise de
regroupements des neurones. On procde alors, comme cela a t montr la section Classification et
carte topologique , en regroupant les neurones de la carte, et lon cherche identifier les classes qui ont
t obtenues laide de la classification hirarchique. Afin dillustrer, dans la mesure du possible, la
qualit des performances obtenues par lenchanement des algorithmes PRSOM et CAH (classification
ascendante hirarchique), deux sortes dexpriences dune complexit diffrente sont prsentes :
La premire exprience porte sur la dtermination dun masque qui reconnat les nuages forts et les
distingue de lensemble des autres spectres. On sait que les nuages rflchissent davantage le signal : les
Lapprentissage statistique
392

spectres enregistrs au niveau du satellite prsentent des intensits plus fortes et plus variables que celles
qui sont relatives la mer ou aux arosols. Sparer les nuages forts des autres constituants de latmos-
phre revient dfinir un classifieur deux classes. Puisque, physiquement, le problme prsente deux
sries dobservations trs distinctes, les deux classes recherches doivent tre bien spares.
La seconde exprience cherche reconnatre les cinq classes identifies par lexpert ; ces classes ont t
dtermines par comparaison avec des modles physiques darosols. Le nombre de classes tant plus
grand, et lexpert ayant pu introduire un grand nombre derreurs, ce problme est bien plus complexe.

Figure 7-30. Prsentation


200 200 sur limage SeaWifs des
deux classes proposes par
400 400 PRSM + CAH : limage de
gauche reprsente la
600 600 composition colore
SeaWifs ; limage centrale
800 800 correspond au masque de
terre SeaWifs (zone
1000 1000 blanche sur limage)
et celle de droite la
1200 1200 classification en deux
PRSOM + CAH (la zone
1400 1400 gris clair correspond la
classe 2 de la carte, figure
1600 1600 7-29, et reprsente les
nuages forts, la zone fonce
1800 1800 contient les diffrents
arosols) ; PRSOM a t
2000 2000 dtermin partir de
Appcod1, la CAH utilise
200 400 600 200 400 600 lindice de Ward.

Les deux quantifications vectorielles obtenues au moyen de PRSOM vont maintenant tre utilises pour
reconnatre les classes proposes par un expert. La dtermination des classes va se faire par classification
ascendante hirarchique en utilisant lindice de Ward dfini plus haut au paragraphe Recherche dune
partition adapte aux classes recherches .
Dans la premire exprience, la classification ascendante PRSOM + CAH
hirarchique est applique sur la carte 10 10 obtenue
Nuages Mer visible
aprs lapprentissage de Appcod1. Comme il sagit de dter-
miner les nuages forts, les regroupements ont t pour- Nuages SeaWiFS 0.91 0.09
suivis jusqu lobtention de deux classes. Les figures 7-29 Tableau 7-2. Matrice de confusion comparant le
et 7-30 montrent la classification obtenue sur la carte topo- produit distribu par SeaWifs et celui propos par
logique et sur limage. La visualisation de la carte permet PRSM + CAH ; PRSOM a t dtermin partir
dobserver les neurones de chaque classe : clairement, les de Appcod1, la CAH utilise lindice de Ward.
deux classes de neurones constituent des zones contigus
de la carte. Afin de montrer que les deux classes obtenues reprsentent les nuages forts de lensemble de
limage, on a compar cette classification celle propose par lexpert en calculant la matrice de confu-
sion. Lexpertise est obtenue ici en utilisant le masque de nuage distribu aux utilisateurs par SeaWifs. La
matrice de confusion est prsente dans le tableau 7-2 ; elle permet de comparer les deux classifications,
celle propose par le satellite et celle propose par PRSOM.
Cartes auto-organisatrices et classification automatique
393
CHAPITRE 7

La division en deux zones gographiques (voir figure 7-30) qui correspondent bien celles observes sur
limage SeaWifs montre que les deux classes ont t trouves par lapplication de lalgorithme PRSOM,
suivie dun regroupement par classification ascendante hirarchique, sans quaucune information experte
nait t introduite dans le classifieur. La bonne cohrence de la classification hirarchique au plus haut
niveau de larbre peut laisser esprer un regroupement physiquement cohrent des observations pour tous
les niveaux de la hirarchie.
La deuxime exprience, qui va confirmer la qualit de la quantification vectorielle, cherche retrouver
une des classes proposes par lexpert : les eaux du cas 2. Dans la figure 7-22, cette zone, aux proprits
optiques particulires, est reprsente en jaune. Linspection des diffrentes zones gographiques atta-
ches aux 100 neurones de la carte propose par PRSOM permet de slectionner trois neurones dont les
sous-ensembles de spectres ont une reprsentation gographique superposable celle propose par
lexpert. La figure 7-31 montre les trois rfrents (w33, w82, w93) et les zones gographiques, attachs
ces neurones.

0.25 0.21 0.21


S1999005131513 0.2 S1999005131513 0.2 S1999005131513
HCAN S2 GAC 0.19 HCAN S2 GAC 0.19 HCAN S2 GAC
0.2 Neurone = 33 0.18 Neurone = 82 0.18 Neurone = 93
0.17 0.17
0.16 0.16
0.15 0.15 0.15
0.14 0.14
0.13 0.13
0.1 0.12 0.12
(a) (b) (c)

Figure 7-31.
Reprsentation des
rfrents, des sous-
neurone 33
ensembles
dobservations et des
zones gographiques
associs aux neurones
33, 82 et 93 (carte
PRSOM 10 10
entrane partir de
(d) Appcod2).
Les figures (a), (b), (c)
reprsentent les spec-
tres des neurones 33,
neurone 82 82, 93 ; les figures (d)
et (e) reprsentent les
spectres de Appcod2
associs aux neurones
33 et 82. Les zones
correspondantes aux
neurones 33 et 93 de
(e)
la figure sont repr-
sentes en noir.

Si lon inspecte la hirarchie complte qui a t dfinie partir de CAH, on saperoit que les trois
neurones concerns (33, 82, 93) forment un sous-ensemble qui se situe au niveau 35 de la hirarchie. Il
Lapprentissage statistique
394

est donc possible, partir de ce rsultat, de proposer un classifieur permettant lidentification automatique
des eaux du cas 2. Les neurones (33, 82, 93) vont tre tiquets cas 2, tous les autres neurones prenant une
mme tiquette indiquant leur non-appartenance au cas 2. On voit que lutilisation du regroupement sans
introduction dexpertise peut, ce stade, permettre de retrouver une information qui provient de la
physique de la mesure.
La dernire exprience utilise PRSOM + vote majoritaire
directement lexpertise. Cette
dernire est introduite au Classe1 Classe2 Classe3 Classe4
niveau des neurones en utili- Arosols marins 0.8 0.04 0 0.16
sant la mthode prsente dans nuages 0.03 0.91 0.01 0.05
la section qui traite de classi- Expert Cas 2 0.03 0.22 0.71 0.03
fication et de topologie.
Lensemble de test utilis est Arosols dser-
0.1 0.04 0 0.86
tiques
celui qui est propos par
lexpert (image GAC). Les Tableau 7-3. Matrice de confusion permettant de comparer la classification
observations de cet ensemble propose par lexpert (image GAC) et celle propose par la carte. Sur cette carte,
sont projetes sur la carte. les 100 neurones ont t tiquets par vote majoritaire en utilisant les donnes
expertises.
Chaque neurone capte ainsi un
certain nombre de pixels de
limage GAC qui lui sont
affects. Chaque observation ayant une des tiquettes proposes par lexpert, on effectue, au niveau du
sous-ensemble relatif chaque neurone, un vote majoritaire ; le neurone prend alors le nom de ltiquette
majoritaire. On compare alors, laide dune matrice de confusion, les deux classifications (tableau 7-3).
Clairement, les neurones reproduisent bien lexpertise propose par lexpert.
Lensemble des rsultats obtenus pour cette application montre le bon fonctionnement des algorithmes de
cartes topologiques lorsquelles sont employes pour traiter des donnes numriques. Lapplication
suivante due Kohonen va montrer son bon fonctionnement quand elle est utilise sur des donnes
textuelles.

Typologie des arosols et carte dpaisseur optique


Le problme que lon cherche rsoudre dans ce paragraphe fait suite celui qui vient dtre prsent, il
est cependant plus complexe. Il sagit maintenant de rsoudre un problme inverse pour lequel on possde
beaucoup dobservations, mais quasiment pas de donnes pour superviser lapprentissage. On va donc
effectuer la rsolution du problme inverse en deux phases : une phase de classification non supervise
pour trouver les groupements cohrents suivie dune introduction dexpertise pour achever linversion
recherche. Loriginalit de lapproche employe ici tient la manire dont lexpertise qui est contenue
dans les modles thoriques darosols proposs par les physiciens est utilise pour effectuer linversion.
Dautre part, les dimensions de lapplication traite (taille des bases de donnes, dimension des observa-
tions, dimension des cartes auto-organisatrices) permettent de juger de la puissance de calcul mise la
disposition des modlisateurs par les cartes auto-organisatrices.
Dans la suite du chapitre, les cartes auto-organisatrices vont tre utilises pour mettre au point un procd
automatique pour analyser les images de spectre de rflectance (vecteur de dimension 8) du satellite
SeaWifs. On veut maintenant un procd valable pour toute la dure de vie du satellite ; il sagit de
produire pour chaque jour de lanne deux cartes : une typologie des arosols (problme de classification)
et une carte dpaisseur optique (problme de rgression). On voit donc quil sagit dune application de
type oprationnel : lapprentissage va porter sur un nombre limit (mais important) dobservations satel-
litaires, la gnralisation, elle, doit tre trs bonne (toutes les annes venir).
Cartes auto-organisatrices et classification automatique
395
CHAPITRE 7

Les donnes
Les rsultats prsents ci-aprs reprsentent une phase de faisabilit, pour cette raison, la zone gogra-
phique tudie a t limite la mer Mditerrane. Traiter lensemble du globe ncessite simplement
dappliquer aux images SeaWifs, sur locan global, la mme mthodologie que celle qui va tre
prsente. Pour la mme raison le nombre de modles darosols que lon veut reconnatre a t limit ;
on a choisi 5 types darosols. Quatre sont utiliss de manire oprationnelle par la chane oprationnelle
de SeaWifs dont les produits sont distribus par la NASA, la cinquime famille est celle des arosols
dsertiques pour laquelle lalgorithme mis au point pour le dcodage des donnes SeaWifs choue.
Augmenter le nombre de types darosols ne ncessite aucune modification de la mthodologie, seule
importe la qualit des modles thoriques que lon introduit. Plus les spectres thoriques sont proches de
lobservation, meilleure sera llaboration des cartes darosols.
Les donnes utilises pour mettre au point le prototype neuronal qui permettra le dcodage des images
SeaWifs sont de trois sortes en fonction des observations (spectre de rflectance SeaWifs), des modles
darosols (spectres de rflectance thoriques) ou des mesures de terrain utilises pour la validation. Pour
chaque spectre observ on a la connaissance de la gomtrie de vise et pour chaque spectre thorique on
a, en plus de la gomtrie de vise, la connaissance de lpaisseur optique et du type darosol concern.
Lensemble des observations disponibles est constitu par une anne dimages SeaWifs prises sur la
Mditerrane en 1999. De cet ensemble, on a extrait un ensemble dapprentissage, constitu partir de
lensemble des images utilisables (certains jours les capteurs fonctionnent mal) :
en appliquant un masque de terre et de nuages afin de retirer les pixels de terre et ceux contamins par
les nuages ;
en conservant pour chaque image une ligne de pixels sur 10.
Lensemble dapprentissage contient alors 2 346 147 pixels qui vont servir estimer, laide de lalgo-
rithme PRSOM, les paramtres dune carte auto-organisatrice des spectres de rflectance observs
(dimension 8). Si lon se reporte lapplication qui a t prsente en premire partie, on peut constater
que lchantillonnage permet maintenant de reprsenter la variabilit saisonnire et la variabilit lie la
gomtrie de vise.
Les calculs de transfert radiatif permettent, partir des paramtres optiques des diffrents types daro-
sols, de calculer dune manire thorique les spectres de rflectance auxquels ils sont associs [5]. Il sagit
de calculs qui sont longs effectuer, aussi pour conserver la connaissance thorique disponible ncessaire
la reconnaissance des arosols, on gnre de grandes bases de donnes (Look Up Table : LUT). Ces
LUTs permettent de conserver sous forme de fichiers, les paramtres optiques, la gomtrie de vise ainsi
que le spectre de rflectance qui correspond au calcul de transfert radiatif effectu. Le prototype dont les
performances sont prsents ci-aprs ici prend en compte :
Les arosols Ctier, Maritime, Troposphrique, Ocanique utiliss pour les corrections atmosphriques
de SeaWifs [GORDON, WANG 1994].
La famille dsertique provient dun travail effectu sur lAtlantique par Moulin [MOULIN et al. 2001]
qui est une volution du modle de Shettle [SHETTLE 1984].
La LUT disponible pour la mise au point du prototype neuronal est compose de 9.278.362 spectres de
rflectance chantillonns aux longueurs donde de SeaWifs. tant donn que le prototype recherch est
spcialis sur la Mditerrane, les spectres thoriques qui constituent la LUT ont t limits ceux dont
la gomtrie de vise correspond la Mditerrane .
Les donnes de terrain sont issues des bases de donnes du rseau AERONET (AErosol RObotic
NETwork) [http://www.aeronet.gsfc.nasa.gov]. Ce programme a pour but dtablir les proprits optiques des
arosols et de valider les algorithmes de restitutions de ces proprits par les satellites. La mesure de
Lapprentissage statistique
396

lpaisseur optique des arosols seffectue en un point de la terre ou de locan laide de photomtres
solaires CIMEL (http://www.cimel.fr) [HOLBEN et al. 1998]. Ces donnes terrain sont extrmement impor-
tantes, elles reprsentent la seule connaissance observe des quantits physiques que lon veut retrouver.
Dans les expriences prsentes, on utilisera, pour valider lapproche neuronale, les mesures de lpais-
seur optique mesure par le photomtre celle estime par le prototype neuronal. Cependant juger les
rsultats de la comparaison est une opration dlicate, les mesures AERONET sont effectues en un point
alors que les mesures satellitaires accessibles intgrent la mesure sur une grille spatiale. Dautre part, le
CIMEL mesure lpaisseur optique partir du sol, et le satellite partir du ciel ; la couverture nuageuse
peut faire que le phnomne mesur ne soit pas le mme dans les deux cas. On a choisi pour valider le
prototype une station situe en Mditerrane, il sagit de la station de Lampedusa (35.52 N 12.62 E) pour
lanne 2000. tant donn que pour valider la mthodologie, il faut disposer pour chaque point de mesure
des spectres de rflectance correspondant, le nombre de points disponibles pour cette validation dpend
des images disponibles (capteur en fonctionnement et sans nuage) : on a donc pour cette raison unique-
ment 46 points permettant deffectuer la comparaison.
Dmontrer le bien-fond de la mthodologie propose est, comme souvent dans les applications qui utili-
sent lapprentissage non supervis, un exercice dlicat. Le problme principal provient, de ce que la vrit
(ici le type darosol ou son paisseur optique) nest pratiquement jamais observe. On voit donc que pour
juger des performances, il va falloir dcider dun certain nombre de tests qualitatifs et quantitatifs : cest
la cohrence de tous les tests qui va permettre de conclure lefficacit de la mthode propose. Dans la
suite, on validera les performances du prototype qualitativement et quantitativement partir des images
SeaWifs de 1999 pour lesquelles 9/10e des donnes nont pas particip lapprentissage. Pour complter
sa validation, les mesures dpaisseur optique estimes par le prototype seront compares, pour
lanne 2000, aux valeurs mesures pendant des campagnes de mesure AERONET. Pour les mesures de
lanne 2000, les performances qui sont prsentes dmontrent le pouvoir prdictif du prototype
neuronal, puisque aucune observation de lanne 2000 ne participe lapprentissage.
Mthodologie
Lensemble de la mthodologie propose pour mettre au point le prototype neuronal est complexe et
requiert un grand nombre de traitements. Ces traitements vont tre dtaills et justifis dans les paragra-
phes suivants. Afin daider la comprhension du procd, les traitements dtaills dans les paragraphes b
et c ci-aprs sont rsums sous forme dorganigramme la figure 7-36.
a) laboration de la carte PRSOM des rflectances
Comme dans lapplication prcdente, lensemble des vecteurs rfrents (spectres de rflectance synth-
tiques de dimension 8) dune carte auto-organisatrice en 2D de 20 20 neurones sont estims partir
dun ensemble dapprentissage. tant donn le grand nombre de spectres utiliss pour la base dappren-
tissage et le grand nombre de neurones, lensemble des rfrents peut tre considr comme un rsum
trs complet de lensemble des spectres observables par satellite sur la Mditerrane. On dnote par la
suite cette carte : carte PRSOM des rflectances ou PRSOM-R.
Les algorithmes de corrections atmosphriques utiliss par la chane oprationnelle SeaWifs dterminent
lpaisseur optique en calculant les rapports des rflectances mesures 765 nm et 865 nm. Lobjectif
final des corrections atmosphriques est dobtenir des valeurs de rflectance marine qui permettent
dinverser le signal pour calculer la concentration en chlorophylle, les matires dissoutes et les matires
en suspension. Les algorithmes dinversion [A IKEN et al. 1995], [MITCHELL, KAHRU 1998], [FROUIN et
al. 1998] utilisent des rapports de rflectance dans le visible pour retrouver les concentrations en
chlorophylle : par exemple les rapports 490 nm et 555 nm, ceux 510 nm et 555 nm [MITCHELL,
KAHRU 1998]. Il est clair, si lon prend en compte la connaissance quont les physiciens de la mesure des
Cartes auto-organisatrices et classification automatique
397
CHAPITRE 7

spectres de rflectance, que la valeur du rapport de rflectance pour certaines longueurs donde est carac-
tristique des paramtres que lon veut retrouver. Une organisation des rfrents de la carte qui exhibent
une structure en fonction des rapports de rflectance indique que lorganisation des neurones sest bien
effectue en fonction des proprits physiques des paramtres atmosphriques et ocaniques.
Afin de montrer lorganisation obtenue par la carte PRSOM-R , on a calcul (figure 7-32), partir des
spectres des rfrents, les rapports de rflectance de trois longueurs donde la valeur obtenue pour la
longueur donde 555 nm et le rapport de rflectance dans linfrarouge. On voit clairement si lon regarde
les quatre figures obtenues pour les quatre rapports, quune organisation spatiale apparat au niveau de la
carte pour chaque rapport. On en dduit que dcoder linformation physique contenue par lensemble des
rfrents doit permettre destimer les paramtres physiques recherchs.

Figure 7-32. Visualisation des rapports de rflectance 443, 490, 510 nm la valeur obtenue pour la longueur donde
555 nm et le rapport de rflectance dans linfrarouge. Chaque petit carr dune imagette reprsente la valeur du rapport
calcul pour un neurone.

Le problme rsoudre est donc dutiliser la connaissance contenue dans la carte PRSOM-R des rflec-
tances afin de retrouver les paramtres physiques qui caractrisent les arosols. Linversion que lon veut
rsoudre est multivalue, le grand nombre de paramtres qui interviennent pour former un spectre de
Lapprentissage statistique
398

rflectance fait quun mme spectre peut correspondre des configurations de paramtres physiques
diffrentes. Une manire de rsoudre le problme est davoir recours des informations extrieures. Pour
le problme expos ici, cela se fera de deux manires distinctes :
en prenant en compte la gomtrie de vise ;
en introduisant de lexpertise.

b) Prise en compte de la gomtrie de vise

Afin de reconnatre le type darosol et son paisseur optique, lalgorithme de la chane oprationnelle de
SeaWifs effectue une recherche dans la LUT et utilise la valeur exacte de 4 angles (la position du soleil :
angle znithal s et angle azimutal o ; les conditions de vise du satellite (v et v) qui constituent la
gomtrie de vise. Un autre angle peut tre calcul partir des angles prcdents, il sagit de langle de
diffusion ( angle entre la direction de la lumire incidente sur un point et sa direction mergente) calcul
laide de la formule = arccos ( cos v cos s + sin v sin s cos )

avec = o v .

Utiliser permet de rduire le systme de coordonnes. Dans la suite, afin de limiter la complexit du
prototype neuronal, seuls deux angles seront pris en compte : langle znithal solaire et langle de diffu-
sion.

Retrouver les cartes de typologie des arosols et dpaisseur optique consiste reprer dans la LUT, le
spectre (ou les spectres) thoriques le plus ressemblant au spectre observ. Lalgorithme utilis par la
chane oprationnelle SeaWifs recherche directement dans la LUT et prend en compte les 4 angles de
vise. La taille de la LUT fait quune recherche exacte est longue et couteuse et des mthodes heuristiques
permettent alors dobtenir une solution sub-optimale. Au contraire, lapproche neuronale permet dorga-
niser la recherche et de prendre en compte laspect statistique de la recherche. Comme leffet de la gom-
trie de vise sur le spectre de rflectance est continu, le prototype neuronal va prendre en compte cette
gomtrie, mais dune manire moins fine en regroupant les gomtries en classes. Une telle approche
permettra dintroduire une marge dincertitude sur les spectres thoriques et de slectionner le spectre
thorique le plus ressemblant dune manire statistique. Pour cela, on va organiser les gomtries de vise
laide dune seconde carte auto-organisatrice : la carte PRSOM-A des angles.

tant donn que lon a limit la prise en compte de la gomtrie aux deux angles s et , lespace des
donnes classer est deux dimensions. Le regroupement des gomtries est effectu par une carte auto-
organisatrice de 10 10 neurones dont lapprentissage est effectu partir de lensemble des gomtries
(2D) qui caractrisent les observations de lensemble dapprentissage (voir les donnes). Comme le proto-
type neuronal est mis au point pour la Mditerrane, lensemble dapprentissage se restreint aux angles de
diffusion compris entre 113,67 et 180, et aux angles solaire s compris entre 7,5 et 74 qui sont ceux
recouvrant la rgion tudie. la fin de lapprentissage, les neurones sont regroups par CAH en utilisant
lindice de Ward). La meilleure partition a t slectionne en appliquant le critre du coude qui indique
10 classes de gomtrie.

La figure 7-33 montre, dans le plan (s,), la partition en 10 classes obtenue aprs classification hirar-
chique. Le dcoupage propos par la carte PRSOM-A est non linaire et prend en compte la distribution
de (s, ). Les critres statistiques utiliss font que les frontires entre deux classes se situent dans les
zones de plus faible densit. Un tel dcoupage permet, au moment du dcodage dune image sur la Mdi-
terrane, davoir un minimum de pixels situs aux frontires des diffrentes classes, et de limiter de cette
manire les effets de bords, invitables si lon prend en compte la gomtrie de vise par classes.
Cartes auto-organisatrices et classification automatique
399
CHAPITRE 7

Figure 7-33. Reprsentation dans le plan des deux angles du dcoupage effectu par la carte PRSOM des angles sur les
gomtrie de vise qui apparaissent au niveau de la mer Mditerrane.

Cette classification va permettre de spcialiser lintroduction dexpertise et donc le dcodage des spectres
de rflectance en fonction de la classe de gomtrie laquelle ils appartiennent. Pour cette raison,
lensemble des spectres observs et lensemble des spectres de la LUT vont tre classs partir de la carte
des gomtries. Chaque spectre, quil soit observ ou thorique, va conserver linformation de la classe
de gomtrie laquelle il appartient. On dcoupe alors la LUT en dix bases de donnes en fonction des
10 classes de gomtrie. On notera LUTi, la base de donne qui contient lensemble des spectres thori-
ques de la gomtrie i.
c) Introduction de lexpertise
Afin de dcoder les informations satellitaires on utilise:
lindication de la gomtrie ;
les informations sur les arosols contenues dans les LUTi, cest--dire le type T et lpaisseur optique
t(865 nm) des spectres thoriques.
Lapprentissage statistique
400

Dans notre cas, les observations sont reprsentes par lensemble des rfrents de la carte PRSOM-R.
Chaque LUTi va permettre par introduction dexpertise, partir de la carte PRSOM-R, de gnrer une
nouvelle carte expertise, elle est appele par la suite carte de rflectance, et celle ddie la classe de
gomtrie i est note PRSOM-Ri. Ce transfert de connaissance de la LUTi vers PRSOM-R va se faire en
faisant concider les spectres thoriques de la LUTi et ceux de la carte PRSOM-R . Cette mise en conci-
dence sopre en projetant les spectres thoriques de LUTi sur la carte de rflectance PRSOM-R. On
obtient alors la carte PRSOM-Ri. Chaque neurone de PRSOM-Ri va de cette manire capter un certain
nombre de spectres thoriques de LUTi dont la forme et la norme vont tre proches du rfrent du neurone
capteur. Les modles thoriques ne peuvent pas reprsenter exactement la multitude des interactions qui
apparaissent durant la traverse de latmosphre et de locan. Lensemble des spectres thoriques capts
par un neurone peut donc avoir une variance forte, indiquant une certaine dissimilarit entre lobservation
et les modles thoriques.
Lalgorithme dapprentissage PRSOM permet destimer, pendant lapprentissage, pour chacun des
neurones les carts-types des neurones. Ces carts-types reprsentent la variabilit de lobservation autour
des rfrents attachs aux neurones. Pour affiner lexpertise, on va restreindre lensemble des spectres
thoriques affects un neurone, ceux dont les proprits physiques sont en accord avec lobservation.
Dans notre cas, les canaux les plus informatifs sur les arosols sont les 3 longueurs donde 510 nm,
670 m, 865 nm ; on dcide donc de naffecter un neurone que les spectres thoriques qui, pour ces
longueurs donde, sont compris dans un intervalle de largeur 2 carts-types autour de la valeur du rfrent.
La figure 7-34 montre, pour une carte de gomtrie PRSOM-Ri, lopration de filtrage des spectres de
LUTi capts par un des neurones de cette carte. Cette opration est rpte pour les 20 20 neurones des
10 cartes de gomtrie PRSOM-Ri, dfinissant 10 cartes de rflectance qui chacune a retenu lexpertise
lie une gomtrie.
Le problme qui reste rsoudre est celui du dcodage de linformation extraite laide des LUT, cette
tape va se faire successivement pour chaque carte PRSOM-Ri. la fin de la phase de labellisation de
lexpertise, diffrents cas peuvent se produire selon les spectres thoriques de la LUTi retenus par le
neurone :
Certains neurones, appels neurones purs nont capt que des spectres thoriques dun mme type,
type que lon a dfini prcdemment selon ses proprits physiques ; on peut dans ce cas infrer le type
du neurone. Un neurone pur prend comme tiquette celle du type darosol commun aux spectres
thoriques capts et comme paisseur optique (865 nm) la moyenne des paisseurs optiques de ces
spectres. Pour le prototype neuronal, on a introduit une marge dincertitude en appliquant la rgle du
neurone pur si le nombre de spectres dun mme type dpasse 95 % du nombre total de LUTi
gagns. De mme font partie des neurones purs tous les neurones dont la moyenne des paisseurs
optiques 865 nm des spectres thoriques capts par un neurone est infrieur 0,1. Lpaisseur optique
tant trs faible, on dcide alors de lui attribuer le type Maritime, et on affecte ces neurones la
moyenne des paisseurs optiques de lensemble des spectres thoriques capts par le neurone tous types
confondus. En effet, dans ce cas, les proprits physiques des arosols ninflueront quasiment pas la
correction atmosphrique.
lissue de cette premire opration, un certain nombre de neurones nont pas dtiquette, ce qui
sexplique par limperfection des modles darosols reproduire lobservation et la prise en compte
partielle de la gomtrie de vise. Deux cas vont se prsenter : un neurone peut avoir capt des spectres
thoriques de plusieurs types ( neurone mixte ) ou, tant vraiment diffrent de tous les spectres de la
LUT, navoir capt aucun spectre thorique ( neurone blanc ).
Pour un neurone mixte , on poursuit la prise en compte de lexpertise en sparant lensemble des
spectres thoriques capts selon leur type. On estime alors pour chaque type un spectre thorique et une
paisseur optique en moyennant les spectres de la LUT qui ont t slectionns. Un neurone mixte
Cartes auto-organisatrices et classification automatique
401
CHAPITRE 7

est maintenant reprsent par son rfrent et lensemble des spectres moyens calculs et lpaisseur
optique moyenne (il peut y avoir jusqu 5 spectres moyens reprsentant les 5 types possibles). La
figure 7-35 montre un neurone mixte auxquel sont associs 4 types darosols (donc 4 spectres
moyens). On effectue cette opration pour chaque neurone mixte et pour chaque carte PRSOM-Ri.

Figure 7-34. Reprsentation dune opration de filtrage des Figure 7-35. Reprsentation dun neurone avec les barres
Luts pour le neurone 62. derreurs deux carts-types calculs au cours de lappren-
tissage par lalgorithme PRSOM ; et spectres thoriques
moyens attachs ce neurone. Ce neurone est un neurone
mixte .

La dtermination du type et de lpaisseur optique dun neurone mixte , ainsi que lpaisseur optique
dun neurone blanc se feront lors de la phase danalyse (et non plus de labellisation) de chaque image.
Cette dtermination pourra donc varier dune image lautre selon ses proprits physiques et va se faire
en prenant en compte lensemble des informations contenues dans limage satellitaire. Mis part les
neurones purs dont le type est fix, un neurone prendra son type et son paisseur optique aprs une
premire phase danalyse de limage SeaWifs tout entire. Cette premire phase permet de pendre en
compte les informations de contexte contenues dans limage et dans la topologie de la carte.

d) Dcodage dune image


Le dcodage dune image se fait en prsentant deux fois limage la carte. La premire prsentation
permet de dterminer le type de chaque neurone mixte et lpaisseur optique de tous les neurones. La
seconde prsentation utilise les rsultats que lon vient de trouver afin de traiter chaque pixel de limage.
Pour la premire prsentation, lensemble des pixels de limage SeaWifs est projet sur les cartes
PRSOM-Ri en fonction de leur gomtrie.
Chaque pixel affect un neurone pur prend son type et son paisseur optique.
Chaque pixel affect un neurone mixte , slectionne le type dont le spectre moyen est le plus proche
de lui au sens de la distance euclidienne pour les 3 longueurs donde 510 nm, 670 nm, 865 nm. On
affecte chaque neurone mixte un compteur qui indique le nombre de pixels de chaque type qui lui
est affect. On attribue alors, en fin de traitement, chaque pixel du neurone mixte le type du comp-
teur majoritaire et la moyenne de lpaisseur optique du type qui a t slectionn.
Lapprentissage statistique
402

la fin de ltiquetage les neurones mixtes et les neurones purs ont chacun un type et une pais-
seur optique. Les neurones blancs nont en fait capt aucune expertise. Utilisant les proprits de
voisinage des cartes auto-organisatrices ils peuvent dduire leur paisseur optique de ceux des neurones
voisins. Un neurone blanc calcule son paisseur optique en effectuant la moyenne des paisseurs opti-
ques des neurones purs et neurones mixtes de sa classe dtermine par CAH. Dans le prototype
neuronal de la Mditerrane , on a effectu pour chaque carte PRSOM-Ri une CAH en 30 classes (chiffre
optimis laide du critre du coude). Dans ltat actuel du prototype neuronal on ne prend pas de dci-
sion sur le type des neurones blancs .
Dautre part, chaque neurone peut tre considr comme reprsentant les 5 types darosols avec des
probabilits diffrentes. Les cartes auto-organisatrice utilises ici (algorithme PRSOM) sont issues dun
formalisme probabiliste qui permet de calculer pour chaque pixel de limage SeaWifs analyse, en fonc-
tion de lensemble des 20 20 neurones de la carte, les probabilits a posteriori des 5 types possibles.
Ceci va permettre, dans les images prsentes ci-aprs, destimer la confiance que lon a de la typologie
des arosols proposs.
Le deuxime passage de limage consiste simplement projeter chaque pixel de limage SeaWifs sur les
cartes PRSOM-Ri en fonction de sa gomtrie. Le pixel reoit alors le type et lpaisseur optique du
neurone auquel il est affect.
Le processus peut se rsumer dune manire schmatique (voir figure 7-36) et par lalgorithme encadr.
Phase de prise en compte de la gomtrie
LUT

Prsom des angles + can (10 classes)


Phase dintroduction dexpertise
Lut1 Luti Lut10

Prsom des spectres


Phase danalyse
Prsom 1 Prsom i Prsom10

Un neurone c a capt Un neurone c a capt Un neurone c na Un neurone c a gagn des Luts


95 % des LUTs de des LUTs dont la capt aucune de diffrents types
type T moyenne des LUTs
(865)nm < 0,1 Calculer les moyennes des
Attribuer le Label T Pas de label spectres thoriques gagns
au neurone c Attribuer le Label Calculer pour chaque type
Label Dfinitif maritime au lpaisseur optique moyenne
Neurone Pur neurone c Neurone blanc
Label Dfinitif Le neurone possde 5 compteurs :
un pour chaque type darosol

Neurone mixte ; Labellisation


adaptive selon limage traite
Figure 7-36. Schma de lalgorithme gnral de dcodage dune image.
Cartes auto-organisatrices et classification automatique
403
CHAPITRE 7

Algorithme de dcodage dune image.

Algorithme de dcodage dune image

1. Pour chaque pixel p de limage analyse


1.1 Projeter les angles de gomtrie sur la carte PRSOM-A.
1.2 Rcuprer la classe de gomtrie k de p.
1.3 Projeter le spectre du pixel p sur la carte PRSOM-Rk, soit N le neurone slectionn.
Si N est un Neurone mixte
ALORS
Parmi les 5 spectres thoriques moyens affects au neurone N, dterminer
le spectre le plus proche de p. Soit T son type.
Incrmenter de 1 le compteur du neurone N relatif au type T.
Retour ltape 1.
2. Calculer lpaisseur optique des neurones mixtes .
3. Calculer lpaisseur optique des neurones blancs .
4. tiqueter limage.

Rsultats
Le paragraphe qui suit prsente le dcodage dimages fournies par le radiomtre SeaWifs pour une
semaine daot 1999 (du 6 au 11 aot). Un intense nuage de poussire dsertique originaire du nord de
lAfrique, samplifiant puis stalant vers le Nord-Est a t observ cette date. Les cartes mtorologi-
ques, prsentes dans la figure 7-37, nous montrent que le sens du vent est du Sud-Ouest vers le Nord-Est
(en raison de leffet de Coriolis, le vent se dirige droite de la ligne allant des hautes pressions vers les
basses pressions). On sattend donc ce que les images fournies par le prototype rvlent bien le passage
de ces poussires allant dans le mme sens que la trajectoire du vent. La figure 7-38 illustre les rsultats
de la typologie et des paisseurs optiques fournies par le prototype pour les journes du 7, 8, 9 aot. En
analysant les images, on constate effectivement llargissement et le dplacement du panache darosols,
douest en est, partir de la cte tunisienne.
Afin dobtenir plus dinformations sur les nuages darosols retrouvs, on calcule en utilisant les formules
du paragraphe tiquetage et probabilit la probabilit a posteriori de chaque type pour chacun des
pixels de limage. La figure 7-39 donne pour le 28 juin 2000 la typologie des arosols propose par le
prototype neuronal et la figure 7-40 prsente pour le type poussire les diffrentes probabilits esti-
mes par le calcul. On remarque la bonne adquation entre la carte des typologies et celle des probabilits.
Les pixels ont des probabilits proches de 1 au centre du nuage et des probabilits faibles sur les bords.
On a compar les paisseurs optiques donnes par le prototype neuronal aux 46 mesures de lanne 2000
obtenues avec lexprience AERONET la station de Lampedusa ; comparaison qui ne doit pas omettre
le nombre important dincertitudes pesant sur les observations (satellitaire ou in situ) :
Pour les paisseurs optiques calcules partir des donnes satellitaires on considre les paisseurs opti-
ques sur un pav de 3 3 pixels autour de la position du photomtre au sol. On effectue alors un test
dhomognit spatiale en ne gardant que les mesures (parmi les 9) qui sont comprises entre +/ un
cart-type autour de leur moyenne. La valeur finale qui sera compare est la valeur moyenne des
mesures rpondant au test.
Les paisseurs optiques du rseau AERONET utilises pour la validation sont les moyennes des
mesures effectues entre 10 h et 13 h. En effet, les mesures SeaWifs au-dessus de la Mditerrane sont
acquises vers 11 h (+/ 1 h) tous les jours.
Lapprentissage statistique
404

Figure 7-37. Carte mtorologique pour la


journe du 8 aot 1999 fournie par Mto
France. Le vent se dirige droite de la
ligne allant des hautes pressions vers les
basses pressions.

Figure 7-38. Typologie des arosols (


gauche) propose par le prototype
neuronal pour les images du 7 au
9 aot 1999 (de haut en bas) et cartes
dpaisseur optique ( droite) pour les
mmes jours.
Cartes auto-organisatrices et classification automatique
405
CHAPITRE 7

Figure 7-39. Typologie des arosols proposs par le prototype neuronal pour la journe du 28 juin 2000.

Figure 7-40. Image du 28 juin 2000. Probabilit a posteriori pour les pixels de limage du 8 aot dappartenir au type
poussire . Les valeurs ngatives sur lchelle de couleur sont imposes par la reprsentation graphique pour introduire
le masque de terre. Sur la mer, les niveaux de gris correspondent bien aux probabilits calcules partir du prototype .
Lapprentissage statistique
406

On utilisera pour la comparaison des paisseurs optiques les performances obtenues sur deux indices :
lerreur quadratique;
lerreur relative moyenne.
Le tableau 7-4 donne les erreurs quadratiques et les erreurs
Prototype SeaWiFS
relatives obtenues en comparant les mesures AERONET
aux estimations du prototype et celles produites par la RMS 0.0364 0.0381
chane oprationnelle de SeaWifs. Seuls 34 points sont Erreur relative 0.3085 0.3282
utiliss dans cette comparaison, la chane oprationnelle Tableau 7-4. Comparaisons des indices de perfor-
de SeaWifs cartant les 12 points restant qui ont t mances obtenues par le prototype neuronal et
limins par le masque de nuage. La figure 7-41 compare lalgorithme de la chane oprationnelle SeaWifs
pour ces mmes mesures les diagrammes de dispersion sur les 34 points de mesure de la station
obtenus pour le prototype neuronal et par la chane opra- AERONET de Lampedusa.
tionnelle de SeaWifs. On constate une amlioration des
performances si lon utilise le prototype neuronal. Dautre Prototype
part, le prototype neuronal donne une estimation de RMS 0.0410
lpaisseur optique pour lensemble des 46 points de Erreur relative 0.2774
mesure disponibles en 2000. Une comparaison entre les
mesures AERONET et les estimations du prototype est Tableau 7-5. Comparaisons des indices de perfor-
donne la figure 7-42 avec les barres derreur attaches mances obtenues par le prototype neuronal sur
les 46 points de mesure de la station AERONET
chaque mesure. Sur la figure, il est facile de voir que les de Lampedusa.
variations temporelles observes par le radiomtre sont
reproduites par les estimations donnes par le prototype, les valeurs tant plutt surestimes. Les deux
indices ont t calculs sur lensemble des 46 points (tableau 7-5) ; o lon observe une amlioration des
performances. Il est clair que le prototype ralis peut dcoder avec succs des situations pour lesquelles
les paisseurs optiques sont fortes, ces situations tant cartes par la chane oprationnelle de SeaWifs.

Figure7-41. Comparaison des deux diagrammes de disper- Figure 7-42. Comparaison des paisseurs optique obtenues par
sion obtenus par le prototype neuronal et la chane opra- le prototype neuronal et des mesures effectus par le radiomtre
tionnelle de SeaWifs pour lanalyse des 34 mesures de CIME. La comparaison est effectue sur les 46 points disponi-
lanne 2000 de lexprience AERONET. bles pour lanne 2000 dans la station de Lampedusa. Chaque
point est reprsent avec lincertitude qui a t calcule.
Cartes auto-organisatrices et classification automatique
407
CHAPITRE 7

Conclusion
Les performances obtenues prouvent la validit du prototype neuronal. Lapproche statistique que lon
vient de dcrire prsente un caractre de gnralit qui permet denvisager le dcodage dautres mesures
satellitales en ayant recours la mme mthodologie. On peut, par classification puis introduction
dexpertise, mettre laccent sur des cartographies spcifiques (sol, culture).

Carte topologique et recherche documentaire


Ce dernier paragraphe prsente une application oprationnelle dans un domaine tout fait diffrent : la
recherche documentaire. Dune manire gnrale, le systme Websom, cr par Kohonen et son quipe,
cherche ranger un ensemble de textes selon leur contenu. Le systme propos actuellement permet
dorganiser 7 millions de textes en une seule base de donnes documentaire. Des documents dont les
significations sont proches sont ainsi classs dune manire proche les uns des autres dans la base de
donns. En procdant une reprsentation visuelle dune telle base, une fois quelle est organise, il est
possible davoir une impression globale du contenu des documents affects une zone particulire de la
base. La vision de lensemble des mots-cls de la zone, des thmes abords par les diffrents documents,
permet, par les rapprochements quelle suggre et la synthse quelle autorise, de procder une
recherche documentaire originale. Cette description trs brve des caractristiques principales du systme
Websom permet cependant de comprendre pourquoi la modlisation propose pour ce systme est base
sur les cartes auto-organisatrices : des observations proches (les textes) doivent se retrouver proches
visuellement (donc sur des cartes en dimension 2). Rendre oprationnelle lapplication ncessite de
rpondre diffrents critres supplmentaires :
Comme il en va pour lapplication sur les donnes satellitaires, la qualit du systme obtenu dpend du
codage des donnes. Dans une recherche documentaire, il faut pouvoir extraire une information perti-
nente sur la signification des documents tudis.
La recherche documentaire na de sens que si le nombre de documents que lon peut consulter est suffi-
samment lev et si la visualisation est assez fine. La dimension de la carte doit tre trs grande.
Comme le systme doit permettre deffectuer des recherches documentaires en ligne, la rapidit
dexcution est une de ses spcifications.
Les algorithmes de base qui ont t prsents dans les paragraphes prcdents ont t modifis de
manire quil soit possible :
dintroduire une connaissance linguistique qui permette la manipulation de textes,
dentraner des cartes de grande dimension afin de rendre aussi vaste que possible lensemble des
documents qui seront pris en compte pendant la recherche documentaire,
de raliser un systme de visualisation performant qui soit un vritable guide de la recherche,
de rduire le temps ncessaire la recherche documentaire.

Le codage de linformation
Le prtraitement effectu sur un texte doit permettre den extraire une information significative qui est
directement conditionne par les particularits du domaine dtude. Bien entendu, ce codage doit gale-
ment prendre en considration les particularits attaches au formalisme des cartes topologiques : lalgo-
rithme de Kohonen traite des donnes quantitatives multidimensionnelles ; chaque texte doit, pour cette
raison, tre reprsent par un vecteur de Rn. La dernire version du systme Websom traite dun corpus de
6 840 568 rsums de langue anglaise, dans lequel en moyenne chaque abstract est reprsent par un
ensemble de 132 mots. Pour effectuer le codage de lensemble des chiffres et des symboles spciaux, les
mots apparaissant moins de 50 fois ainsi que 1335 mots trop communs ont t supprims. On considre
finalement, pour le corpus dans son entier, un ensemble de 43 222 mots. Plusieurs versions de Websom
Lapprentissage statistique
408

existent ; la premire codait directement lhistogramme du texte laide dun vecteur dont la dimension
tait gale au nombre de mots. Dans ce codage, chaque composante de ce vecteur correspond la
frquence doccurrence dun mot particulier, affect dun poids qui reprsente limportance du mot pour
la signification du texte. Diffrentes mthodes de compression de linformation pour diminuer cette
dimension prohibitive ont t proposes : rduction par projection (analyse en composantes principales)
ou utilisation dune des mthodes de projections alatoires. Cest la mthode des projections alatoires
qui est actuellement implmente : chaque texte est reprsent par un vecteur de dimension 500 qui
rsume le texte en analysant son vocabulaire dune manire statistique. La complexit du codage est
O(NL) + (n), o N reprsente le nombre de documents. Le nombre moyen de mots diffrents contenu dans
un texte, et n la dimension initiale des histogrammes. Pour comparaison, la mthode la plus simple qui
compresse les histogrammes par projection est en O(NLd). Ces amliorations substantielles ont permis
denvisager une utilisation oprationnelle de Websom sur le corpus tout entier.

Les particularits de lapprentissage


Lutilisation dune carte deux dimensions permet une reprsentation visuelle de lorganisation recher-
che, ce qui constitue une aide la recherche documentaire. En fin dapprentissage, la phase daffectation,
qui met en correspondance un document et un neurone, permet de situer chaque document par rapport
lensemble du corpus mmoris : des textes aux significations proches se trouvent dans des zones conti-
gus de la carte. Dans la dernire version de Websom (Websom2), le corpus est divis en vingt et un types
(agriculture, transport, chimie, lectricit). Pour faire apparatre cette information, on associe chaque
neurone un type de textes et un ensemble de mots-cls qui sont dtermins partir du sous-ensemble des
textes dont il est le rfrent. On attribue un neurone le type qui reprsente les textes majoritairement
affects ce neurone, et lon dtermine les mots-cls partir de lintersection des ensembles de mots-cls
de chaque texte. Au moment de lutilisation de Websom, des textes dont les significations sont proches se
projettent dans des zones contigus dune carte topologique deux dimensions. De cette manire, la
projection dun texte permet de situer son contenu par rapport lensemble des textes ayant servi
lapprentissage, et donc par rapport la base de donnes. Au moyen de ltiquetage ralis sur la carte, on
peut interprter le contenu dun texte qui na pas particip lapprentissage dune manire automatique,
les classes des neurones voisins permettant den affiner la comprhension.
tant donn le grand nombre de documents qui constituent la base, une analyse documentaire fine requiert
que lon utilise un trs grand nombre de neurones. La principale modification apporte lalgorithme de
Kohonen permet dentraner rapidement des cartes de grande dimension. La carte topologique utilise
pour Websom est constitue de 1 002 240 neurones. Cette carte ne peut tre entrane directement en
raison du nombre de paramtres estimer, qui slve dans ce cas 1 002 240 500 connexions. La
modification introduite repose sur lide quune bonne initialisation des paramtres permet damliorer
dune manire trs importante la vitesse de convergence. Cette bonne initialisation est trouve de
proche en proche de manire guider la convergence. Dans le cas de Websom, les 1 002 240 paramtres
de la carte sont initialiss de proche en proche partir dune premire carte rectangulaire de
435 neurones ; cette premire carte est mise au point laide du corpus dapprentissage. Une seconde
carte utilisant un maillage plus fin est initialise laide de la premire : les neurones de la carte la plus
fine sont initialiss partir des 435 premiers neurones. Les valeurs initiales dun nouveau neurone sont
obtenues par interpolation linaire en fonction des trois neurones de la carte initiale les plus proches. Le
nombre de neurones de la premire carte est augment jusqu ce quil atteigne 1 002 240 neurones ;
chaque augmentation du nombre de neurones est suivie dun r-apprentissage du corpus tout entier
laide de lalgorithme de Kohonen. Pour lapprentissage de la premire carte, lalgorithme de Kohonen
effectue 300 000 itrations ; chaque augmentation de la carte ne demande que cinq itrations de la version
nues dynamiques de lalgorithme. Procder de cette manire permet dobtenir la convergence et
Cartes auto-organisatrices et classification automatique
409
CHAPITRE 7

lordre topologique pour de trs grandes cartes. De plus, une amlioration de la rapidit de convergence
est obtenue en utilisant une recherche rapide du plus proche voisin, qui se sert explicitement de lordre
topologique trouv par les cartes successives.

Les performances de Websom


Lintrt des diffrentes amliorations introduites dans Websom est vident si lon considre la
complexit du nombre doprations traites. La mthodologie qui vient dtre expose permet de dimi-
nuer le nombre doprations de O(dN2) pour lalgorithme de Kohonen O(dM2) + O(dN) + O(M2) pour
Websom ; dans cette expression, N reprsente le nombre de neurones de la carte finale, M le nombre de
neurones de la carte initiale et d la dimension de la couche dentre (d = 500 pour Websom). Les compa-
raisons effectues avec lalgorithme de Kohonen montrent que limplmentation choisie permet de
conserver les mmes performances (erreur de quantification, erreur de classification) quavec lalgo-
rithme classique. La version finale a t obtenue aprs six semaines dapprentissage sur une machine six
processeurs (SGI O2000). Les performances obtenues sur la base des 7 millions de texte atteignent 64 %
de bonne classification. Comme pour toutes les applications en fouille de donnes, laspect de visualisa-
tion a t trs soign ; la carte est prsente sous la forme dune suite de pages HTML qui permettent de
lexplorer laide de la souris : cliquer sur un endroit de la carte permet datteindre les documents, de les
visualiser et de les lire.

Extension des cartes topologiques aux donnes


catgorielles
Lensemble des algorithmes prsents dans les paragraphes prcdents fait appel des traitements num-
riques de linformation : celle-ci est prsente sous la forme de nombres (en gnral des rels), qui sont
traits numriquement. Ceci peut tre peu appropri quand on traite des informations symboliques, dont
la signification nest pas compltement traduite par des nombres, et encore moins par des oprations sur
ceux-ci. Les modles et les algorithmes prsents dans les paragraphes prcdents ne sont donc pas direc-
tement applicables ces donnes. Cependant, les principes gnraux des modles des cartes topologiques
peuvent tre repris dans leur ensemble, et adapts la spcificit des donnes catgorielles.
Le choix de codages et de mtriques appropries peut permettre de conserver les proprits des mthodes
qui ont t mises au point sur des donnes numriques, les adaptant ainsi au traitement des donnes cat-
gorielles.
Le paragraphe suivant prsente quelques rappels classiques concernant le codage et la reprsentation des
donnes catgorielles. On prsentera ensuite les modifications des cartes topologiques qui permettent :
Le traitement des donnes binaires : un premier modle de cartes topologiques binaires (Binary Topolo-
gical Map ou BTM), et lalgorithme dapprentissage associ seront prsents.
Le traitement de donnes catgorielles : un second modle de cartes topologiques Categorical Topolo-
gical Map (CTM) reprendra le formalisme probabiliste de PRSOM.
Comme pour la partie numrique, un paragraphe sera consacr aux applications de ces nouvelles appro-
ches en classification et en visualisation.

Codage et analyse des donnes catgorielles


De nombreuses variables ne peuvent prendre quun nombre restreint de modalits. Citons par exemple les
variables associes aux caractristiques physiques telles que la taille (grande, moyenne, petite), ou encore
Lapprentissage statistique
410

la situation familiale (clibataire, veuf, divorc, mari). Les variables ainsi dfinies sont appeles varia-
bles catgorielles ; elles sont classes en deux groupes : les variables catgorielles ordinales, qui se carac-
trisent par lexistence dun ordre implicite entre les modalits (comme la taille), et les variables catgo-
rielles nominales (comme la situation familiale). Si lon utilise un codage adapt, les donnes
catgorielles peuvent devenir des donnes binaires. Les codages utiliss le plus souvent sont :
Le codage binaire additif : sappliquant aux variables ordinales, il permet essentiellement de conserver
lordre implicite entre les modalits dune variable.
Le codage disjonctif complet : ce codage sapplique aux variables nominales.
Le tableau 7-6 prsente ces deux types de codage Modalits Codage additif Codage disjonctif
binaire dune variable catgorielle trois modalits.
1 100 100
La statistique descriptive permet de rsumer un
2 110 010
ensemble dobservations par des grandeurs caractristi-
ques. Dans le cas des donnes numriques, si lon 3 1 1 1 001
utilise la distance euclidienne, il est possible de rsumer Tableau 7-6. Codage des modalits
un ensemble dobservations dans lespace des donnes
par sa moyenne et son cart-type. Si les observations sont en dimensions multiples, on peut utiliser le
centre de gravit et linertie. Des caractristiques quivalentes ont t dfinies pour le traitement des
donnes binaires si lon utilise la distance de Hamming [GOVAERT 1990, CELEUX 1991, GIROLAMI 2001,
PATRIKAINEN 2004, BISHOP 1998, VERBEEK 2005] ; lensemble des donnes est dcrit laide dun centre
mdian, lui-mme binaire. Pour des donnes formes de vecteurs dont les composantes sont catgorielles,
le rsum peut tre effectu par le calcul de tables de probabilits lies chaque modalit de chaque
variable.
Comme indiqu plus haut, les cartes topologiques numriques minimisent une fonction de cot qui
dpend des inerties intra-classe dfinies partir de la distance euclidienne, ou bien maximisent une fonc-
tion de vraisemblance (cas de PRSOM). Pour proposer une classification de la mme manire, les cartes
topologiques binaires et probabilistes minimisent :
une fonction dinertie dfinie partir de la distance de Hamming pour le modle BTM (donnes
binaires) ;
une fonction de vraisemblance pour le modle CTM (donnes catgorielles).
Les deux sections suivantes prsentent les modles BTM et CTM.

Cartes topologiques et donnes binaires


Comme nous lavons vu, les donnes binaires proviennent souvent dun codage binaire de donnes cat-
( ) (
gorielles. La distance de Hamming entre deux observations z1 = z11 ;...; z1n et z2 = z21 ;...; z2n de )
n = {0,1} est gale au nombre de composantes diffrentes entre ces deux vecteurs. Elle est dfinie par
n

la relation suivante :
n
H ( z1 ; z2 ) = z1j z2j . (40)
j =1

Comme pour le modle classique des cartes topologiques, on utilise, pour le modle BTM, un rseau de
neurones avec une couche dentre pour les variables et une carte C possdant une structure de graphe
rgulier [LEBBAH 2000], [LEBBAH 2003]. On dtermine les rfrents en minimisant une fonction de cot
T
J bin ( ;W ) (formule 41) en utilisant la distance de Hamming, semblable J Som T
( ;WT ) (relation 16).
chaque neurone c de C est associe un rfrent wc et W = {wc / c C }. Comme pour J Som , la minimisation
T
de J bin par rapport et W permet de raliser la conservation de la topologie de la carte C, et de fournir une
Cartes auto-organisatrices et classification automatique
411
CHAPITRE 7

partition de lensemble dapprentissage A en sous-ensembles homognes. La fonction de cot qui dter-


mine le modle BTM a pour expression :
T
J bin ( ;W ) = K ( ( ( z ); r )) H ( z ; w ) .
T
i i r (41)
zi A r C

T
Lexpression (41) est semblable la fonction de cot J som (relation 16), dans laquelle la distance eucli-
dienne entre lobservation z et un rfrent wr est remplace par la distance de Hamming. Si lon dfinit
T
une distance de Hamming pondre, note dbin , qui fait intervenir lensemble de tous les rfrents
T
dbin ( z; w ( zi ) ) = K T ( ( ( zi ); r )) H ( zi ; wr ) (42)
r C

la fonction de cot (41), peut se mettre sous forme :


T
J bin ( ;W ) = d ( z ;w ) .
T
bin i ( zi )
zi A

Algorithme doptimisation T fix


On peut dfinir un algorithme itratif, de type nues dynamiques, qui permet dassurer une convergence
T
vers un minimum local de J bin . La minimisation seffectue en deux phases qui sont ralises alternative-
ment au cours ditrations successives.
La phase daffectation : on suppose, lors de cette phase, que lensemble des rfrents W dtermins
T
ltape prcdente est fix et reste constant ; il sagit donc de minimiser J bin ( ;W ) par rapport . Il est
facile de voir que ce minimum est atteint pour une fonction daffectation : n C dfinie par :

z n ( z ) = arg min c dbin


T
( z; wc ). (43)
T
Cette fonction affecte une observation z au neurone le plus proche au sens de la distance dbin .
La phase de minimisation consiste minimiser la fonction de cot par rapport W en fixant la fonction
daffectation celle dtermine ltape prcdente. En intervertissant les deux sommations dans la
formule (41), on obtient :
T
J bin ( ;W ) = K ( ( ( z ); r ))H ( z ; w ) = I
T
i i r r
(44)
r C zi A r C

avec

Ir = K ( ( ( z ); r )) H ( z ; w ).
T
i i r
(45)
zi A

La formule (45) fait apparatre une expression qui correspond linertie relativement la distance de
Hamming des observations de A par rapport au vecteur rfrent wr, chaque observation zi tant pondre
((
par ir = K T ( zi ) ; r . ) )
Pour fix, la minimisation de J bin
T
( ;W ) par rapport W revient minimiser chaque inertie par rapport
au rfrent wr. Le minimum de Ir dans n = {0;1}n nest autre que le centre mdian de A lorsque chaque
(( ))
observation zi est pondre par ir = K T ( zi ); r . Le rfrent trouv est toujours de mme type que
celui des observations zi et possde une interprtation symbolique. La dfinition du centre mdian et la
dmonstration du rsultat sont donnes dans la remarque qui suit.
Lapprentissage statistique
412

Remarque
Si lon considre linertie par rapport w = (w 1 ;w 2 ;...;w n ) n de lensemble A dont les observation zi sont pondres par les coefcients
I :
n
I (w ) = i H ( z i ;w ) = i | z ij w j |
z i A z i A j =1

( )
qui scrit : I (w ) = I w j o I (w j ) = i (1 z ij )w j + i z ij (1 w j ).
j =1 z i A z i A

z i A
(
En posant 0j = i 1 z ij et j =
1
) z , on a I (w
zi A
i i
j j
( )
) = w j 0j + 1 w j 1j

o 0j reprsente la somme des pondrations des observations de A dont la valeur de la j composante j est gale 0, et 1j reprsente la
somme des pondrations des observations de A dont la valeur de la composante j est gale 1. Il est facile de voir que cette expression

0 si 0 1
j j

est minimise par la mdiane dnie par w j = .


1 si 1 0
j j

Le vecteur w qui minimise I(w ) est form par lensemble des mdianes relatives toutes les composantes ; ce vecteur est appel le centre
mdian de A relativement aux pondrations choisies.
Ce rsultat montre que le rfrent r nest autre que le centre mdian des observations de A lorsque celles-ci sont pondres par les
(
ir = K T ( ( z i ) ; r ) .)
Algorithme des cartes topologiques binaires T fix

tape dinitialisation t = 0
Choisir la structure et la taille p de la carte. Choisir les p rfrents initiaux, en gnral dune manire ala-
toire, et le nombre ditrations Niter.

tape itrative t
Lensemble des rfrents Wt-1 de ltape prcdente tant connu :
Phase daffectation : mise jour de la fonction daffectation . On affecte chaque observation zi
t

lindice du rfrent dfini partir de lexpression (43).


Phase de minimisation : tant fix, pour chaque neurone r prendre comme rfrent wrt le centre
t

mdian des observations de A lorsque chaque observation zi est pondre par ir = K T t ( zi ); r . (( ))


Rpter ltape itrative jusqu t = Niter
Ainsi, lalgorithme dapprentissage de BTM reprend les caractristiques principales des cartes topologi-
ques prsentes dans les sections prcdentes. Les mmes notions de topologie sur la carte et doptimisa-
tion par algorithme de nues dynamiques sont utilises. La minimisation de J bin T
( ;WT ) seffectue par
itrations successives jusqu un nombre ditrations dfinies lavance. La fonction J bin ( ;W ) (comme
T
J som ( ;W )) se prsente comme un compromis entre deux termes : un terme reprsentant lordre sur la
carte, et un terme reprsentant linertie intra-classe. Ce compromis est ralis par le paramtre T. Lalgo-
rithme dapprentissage de BTM reprend la mme dmarche que celle des cartes topologiques classiques :
le paramtre T varie entre deux valeurs Tmax et Tmin avec (Tmax > Tmin).
Cartes auto-organisatrices et classification automatique
413
CHAPITRE 7

Algorithme dapprentissage de BTM


tape dinitialisation
Effectuer quelques itrations de lalgorithme prcdent avec T constante gal Tmax. Prendre t = 0 et
choisir le nombre ditrations Niter.
tape itrative (t 1)
Lensemble des rfrents W t 1 de ltape prcdente tant connu, calculer la nouvelle valeur de T par la
relation :
t
T Niter 1
T = Tmax min .
T max

Pour cette valeur du paramtre T, effectuer les deux phases suivantes :


Phase daffectation : mise jour de la fonction daffectation ct associe Wt1. On affecte chaque obser-
vation zi au rfrent dfini partir de lexpression (43).
Phase de minimisation : la fonction ct tant fixe, pour chaque neurone r, dterminer le nouveau rfrent
en calculant le centre mdian des observations pondres par ir . Lensemble des nouveaux rfrents
constitue Wt.
Rpter ltape itrative jusqu t = N iter .

Cartes topologiques probabilistes et donnes catgorielles (CTM)


Cette section est consacre au modle de carte topologique CTM ddi aux donnes catgorielles qui
permet de travailler sur ces donnes sans faire intervenir un codage binaire [LEBBAH 2003], [LEBBAH
2004)]. Ce modle repose sur un formalisme probabiliste prcdemment introduit pour le modle de
cartes topologiques probabilistes. Il suppose que les donnes observes sont engendres par la loi de
mlange dfinie ci-dessous :

p( z ) = p ( c ) p ( z ) avec p ( z ) = p ( c c ) p ( z c ).
2 c2 c2 1 2 1
(46)
c2 C2 c1 C1

o les probabilits conditionnelles p ( c1 c2 ) =


(
K T ( c1 , c2 ) )
sont supposes connues (Tc2 tant un terme
T c2
de normalisation). Elles dpendent dun paramtre T, et permettent lintroduction du voisinage, donc de
lordre topologique. Les coefficients estimer sont les paramtres des probabilits a priori p ( c2 ), et les
tables de probabilits relatives chaque lment du mlange qui sont donnes par p ( z c1 ).
Nous supposons, pour la suite, que les n composantes catgorielles du vecteur multidimensionnel
z = ( z1 ; z 2 ;...; z k ;...; z n ) sont indpendantes. Chaque composante z k appartient un ensemble fini M k form
de mk modalits { x1 ; x2 ;...; xmk } : dans ce cas, z D = M 1 M 2 .... n M n . Si lon fait lhypothse de
k k k

( ) ( )
lindpendance des composantes de z, on peut alors crire : p ( z c1 ) = p z k c1 , o p z k c1 reprsente
k =1
une table unidimensionnelle de probabilits (de dimension mk ) contenant les probabilits des mk moda-
{
lits de la composante z k . Cette table de probabilits sera note par la suite k ;c1 = kj ;c1 ; j = 1...mk . }
Lensemble des paramtres permettant de dfinir les diffrentes probabilits p ( z c1 ) dun neurone c1 de la
carte est constitu de lunion de toutes les tables de probabilits des variables composantes :
( )
c1 = nk =1 k ;c1 . On note par la suite p z c1 ; c1 lorsquon a fix les valeurs des paramtres 1. On
c
Lapprentissage statistique
414

dsigne lensemble des tables de probabilits par 1 = cp=1 c1, et lensemble des probabilits a priori par
{ }
2 = c2 ; c2 = 1.. p o c2 = p(c2 ).
Le modle CTM ncessite la dfinition de lensemble des coefficients du mlange = 1 2.
Lestimation des paramtres est obtenue en maximisant la vraisemblance des observations :
N
V T ( A; ) = p ( zi ), o T reprsente le paramtre dfinissant les probabilits conditionnelles p ( c1 c2 ).
i =1

Estimation des paramtres du modle


La maximisation de V ( A; ) par rapport nest pas simple. Cependant, on peut remarquer que le modle
gnrateur des donnes, dfini par la formule (46), suppose quune observation z est engendre de la
manire suivante :
Choisir un neurone not c2 en utilisant la probabilit a priori p ( c2 ).
Connaissant c2, choisir un neurone not c1 en utilisant les probabilits conditionnelles p ( c1 c2 ) .
Gnrer lobservation z en utilisant les tables de probabilits p ( z c1 ).
Ainsi, cette observation z est associe une variable non observe (cache) note . Cette variable cache
est constitue par le couple de neurones c1 et c2, = (c1 ; c2 ), responsable de la cration de lobservation z.
On a alors :

p ( z ) = p ( z; ) = p ( z c ) p ( c c ) p ( c ),
1 1 2 2
= ( c1 ;c2 )

car p ( z; c1 , c2 ) = p ( c2 ) p ( c1 c2 ) p ( z c2 ).
Ainsi, chaque donne rellement observe zi correspond une donne catgorielle disjonctive non
observe xi qui appartient C1 C2 ; on dfinit = {i , i = 1..N }. Si lon code la variable i par le codage
binaire disjonctif, on obtient un vecteur binaire y i , de dimension p p, dont les composantes
1 si i = (c1 , c2 )
y(ic1 ;c2 ) sont dfinies par : y(ic1 ;c2 ) = .
0 sinon
Avec cette notation, la vraisemblance des donnes compltes par les variables caches correspondantes
scrit :

( )
y(i c1 ; c2 )
c K T ( c2 ; c1 )
( )
N N
V ( A; ; ) = p ( zi ; i ) = 2
T
p zi c1 ; c1
i =1 i =1 c2 C2 c1 C1
Tc2

o Tc2 est un facteur de normalisation. Le logarithme de la vraisemblance scrit :

(
K T ( c2 ; c1 ) )
ln V T ( A; ; ) = y i
( c1 ;c2 ) ( )
ln c2 + ln (
+ ln p zi / c1 ; c1 ) . (47)
zi A c2 C2 c1 C1 Tc2

Le terme entre crochets est calculable, et dpend des paramtres estimer. En revanche, les y(ic1 ;c2 ) sont
des variables alatoires de Bernoulli ; il est possible de les estimer par leur valeur moyenne. Ainsi, une
itration t, on fixe la valeur des paramtres t, on calcule alors la moyenne :
Cartes auto-organisatrices et classification automatique
415
CHAPITRE 7

p ( c 1, c 2 z i ; ) p ( c 2 ) p ( c 1 c 2 ) p ( z i c 1, )
t t t
E t ( y c1, c2 ) = p ( y c1, c2 = 1 ) = p ( c 1, c 2 z i ; ) = ---------------------------------
i i t t
= -------------------------------------------------------------------
-
p ( zi ) p ( zi )
t t
(48)
t, c t, c
2 p ( c 1 c 2 ) p ( z i c 1, 1 )
= --------------------------------------------------------------.
p ( zi )
t

Lexpression (48) dpend des paramtres t .


En remplaant y(ic1 ;c2 ) par la moyenne (48) dans lexpression (47) on obtient :

( )
QT , t = E t ln V T ( A; ; ) A, t =
K T ( c2 ; c1 ) ( ) (49)
E (y t
i
( c1 ;c2 ) ) ( )
ln c2 + ln
Tc2
+ ln p zi / c1 ; 1
c
( ) .

zi A c2 C2 c1 C1

Rsultat
On dmontre alors que si les paramtres t sont xs et si t +1 maximise Q T (q ; q t ) par rapport , alors on a V T ( A; t +1 ) V T ( A; t ).
Autrement dit, t +1 amliore la vraisemblance des observations V T ( A; ) par rapport la vraisemblance calcule en t .

Ce rsultat suggre un algorithme itratif, o chaque itration recalcule des paramtres qui amliorent la
valeur de la fonction de vraisemblance des observations par rapport aux paramtres calculs litration
prcdente. Ainsi, partant des paramtres t calculs litration t, litration t+1 recalcule les paramtres
t +1. Pour cela, on doit dabord estimer QT ( ; t ) par la formule (48) et ensuite estimer t +1 qui maximise
QT ( ; t )par rapport et pour t fix.
Nous ne prsentons pas ici les dtails des calculs des paramtres qui maximisent QT ( ; t ). Ces calculs
donnent les formules suivantes :

= c2
zi A (
p c2 zi , t ) (50)
(
p c2 zi , t
)
zi k , j (
p c1 zi , t )
k ,c1
= (51)
p(c z , )
j t
zi A 1 i

(
avec p c1 zi ; t = ) p(c ; c
c2 C2
1 2 z i ; t .)
{ }
Dans ces formules, k ; j = zi A ; zik = x kj correspond lensemble des individus zi qui ont rpondu par
la modalit j leur composante k.
Il est alors possible de proposer lalgorithme suivant :
Algorithme pour T fix
Initialisation.
Choisir les paramtres initiaux 0 et un nombre ditrations N iter .
Itration de base (t 1).
Lapprentissage statistique
416

Ayant estim les paramtres t litration prcdente, litration en cours estime les nouveaux param-
tres t+1 en appliquant les formules (50) et (51).
Rpter litration de base jusqu t = Niter.

Remarque 2
Le rsultat prcdent, et lalgorithme qui en rsulte, constituent des cas particuliers dun rsultat plus gnral, duquel dcoule lalgorithme
E-M (Expectation-Maximization) [DEMPSTER 1977].

Algorithme dapprentissage CTM


Lalgorithme prcdent permet destimer les coefficients du modle de mlange, en supposant que les
probabilits p(c2 c1 ) sont fixes pour une valeur donne de T. Lalgorithme gnral dapprentissage CTM
consiste faire dcrotre la valeur de T au cours des itrations. Pour une fonction particulire de dcrois-
sance de T, lalgorithme se prsente de la manire suivante :
tape dinitialisation.
Prendre t = 0. Choisir Tmax, Tmin (Tmax > Tmin). Choisir les paramtres initiaux 0 et le nombre ditrations
N iter .

tape itrative (t 1)

Lensemble des paramtres t de ltape prcdente tant connu, calculer la nouvelle valeur de T par la
t
T Niter 1
relation : T = Tmax min .
T max

Pour cette valeur du paramtre T, calculer t +1 laide des relations (50) et (51).
Rpter ltape itrative jusqu t = Niter.

Discussion
On note que lalgorithme dapprentissage CTM dpend de linitialisation des paramtres. Les rsultats
obtenus en dpendent galement. Dans tous les exemples qui vont suivre, les paramtres sont pris gaux
1 et les paramtres 01 sont initialiss laide de la partition trouve par lalgorithme BTM en appli-
p
quant un codage (binaire) adquat aux donnes catgorielles. Les tables de probabilits p ( z c1 ) sont donc
initialises par comptage sur cette partition. On estime la probabilit dapparition de chaque modalit x kj
(modalit j de composante k) par sa frquence relative dans le sous-ensemble des observations affectes
{ }
au neurone c1. Ainsi, si lon dsigne par kc1; j = zi Pc1 ; zik = x kj lensemble des individus zi du sous-
ensemble Pc1 de la partition qui ont rpondu par la modalit j la composante k, les probabilits initiales
card ( kc1; ;j0 )
seront donnes par 0k;;cj 1 = o nc1 est la cardinalit du sous-ensemble Pc1.
nc1
Cartes auto-organisatrices et classification automatique
417
CHAPITRE 7

Exemples dapplication
Le modle BTM
Pour illustrer le comportement du modle BTM, on considre un exemple pris dans [TENENHAUS 1998].
Il sagit dune petite base de donnes symbolique qui reprsente les qualits attribues 27 races de
chiens. Chacune delles est reprsente par 7 variables catgorielles. Pour le modle BTM, chaque obser-
vation z est ici une race de chiens dont les caractristiques sont spcifies laide des variables et des
modalits suivantes : Taille (Petite, Moyenne, Grande), Poids (Petit, Moyen, Grand), Vlocit (Petite,
Moyenne, Grande), Intelligence (Petite, Moyenne, Grande), Affectation (Affectueux, Non Affectueux),
Agressivit (Agressif, Non Agressif), Fonction (Utile, Chasse, Compagnie).
Pour prsenter les diffrents rsultats de lapprentissage et effectuer les analyses nous utiliserons les nota-
tions suivantes :
PT = Petite Taille, MT = Moyenne Taille, GT = Grande Taille.
PP = Petit Poids, MP = Moyen Poids, GP = Grand Poids.
PV = Petite Vlocit, MV = Moyenne Vlocit, GV = Grande Vlocit.
PI = Petite Intelligence, MI = Moyenne Intelligence, GI = Grande intelligence.
AF = Affectueux, NAF = Non Affectueux.
AG = Agressif, NAG = Non Agressif.
U = Utile, CH = Chasse, CM = Compagnie.
La base des races de chiens est donc constitue dun tableau binaire de 27 lignes et 19 colonnes qui repr-
sentent lensemble des modalits des 7 variables catgorielles.
PT MT GT PP MP GP PV MV GV PI MI GI NAF AF NAG AG CM CH U
Beauceron 0 0 1 0 1 0 0 0 1 0 0 1 0 1 0 1 0 0 1
Basset 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 1 0
Berger allemand 0 0 1 0 1 0 0 0 1 0 0 1 0 1 0 1 0 0 1
Boxer 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 1 1 0 0
Bulldog 0 1 0 1 0 0 1 0 0 0 1 0 0 1 0 1 1 0 0
Bullmastiff 0 0 1 0 0 1 1 0 0 0 0 1 1 0 0 1 0 0 1
Caniche 1 0 0 1 0 0 0 1 0 0 0 1 0 1 1 0 1 0 0
Chihuahua 1 0 0 1 0 0 1 0 0 1 0 0 0 1 1 0 1 0 0
Cocker 0 1 0 1 0 0 1 0 0 0 1 0 0 1 0 1 1 0 0
Colley 0 0 1 0 1 0 0 0 1 0 1 0 0 1 1 0 1 0 0
Dalmatien 0 1 0 0 1 0 0 1 0 0 1 0 0 1 1 0 1 0 0
Doberman 0 0 1 0 1 0 0 0 1 0 0 1 1 0 0 1 0 0 1
Dogue allemand 0 0 1 0 0 1 0 0 1 1 0 0 1 0 0 1 0 0 1
pagneul breton 0 1 0 0 1 0 0 1 0 0 0 1 0 1 1 0 0 1 0
pagneul franais 0 0 1 0 1 0 0 1 0 0 1 0 1 0 1 0 0 1 0
Foxhound 0 0 1 0 1 0 0 0 1 1 0 0 1 0 0 1 0 1 0
Fox terrier 1 0 0 1 0 0 0 1 0 0 1 0 0 1 0 1 1 0 0
Grand bleu de Gascogne 0 0 1 0 1 0 0 1 0 1 0 0 1 0 0 1 0 1 0
Labrador 0 1 0 0 1 0 0 1 0 0 1 0 0 1 1 0 0 1 0
Lvrier 0 0 1 0 1 0 0 0 1 1 0 0 1 0 1 0 0 1 0
Mastiff 0 0 1 0 0 1 1 0 0 1 0 0 1 0 0 1 0 0 1
Pkinois 1 0 0 1 0 0 1 0 0 1 0 0 0 1 1 0 1 0 0
Pointer 0 0 1 0 1 0 0 0 1 0 0 1 1 0 1 0 0 1 0
St Bernard 0 0 1 0 0 1 1 0 0 0 1 0 1 0 0 1 0 0 1
Setter 0 0 1 0 1 0 0 0 1 0 1 0 1 0 1 0 0 1 0
Teckel 1 0 0 1 0 0 1 0 0 0 1 0 0 1 1 0 1 0 0
Terre-Neuve 0 0 1 0 0 1 1 0 0 0 1 0 1 0 1 0 0 0 1
Tableau 7-7. Les caractristiques canines
Lapprentissage statistique
418

tant donne la petite taille de la base, nous avons utilis une carte de 5 5 neurones, et lensemble des
donnes a t utilis pour lapprentissage. Il sagit ici deffectuer une analyse descriptive. Les classifica-
tions paramtres ont t obtenues avec les valeurs des paramtres suivants : Tmax = 5, Tmin = 1, N iter = 50.
Aprs 50 itrations, on obtient la grille reprsente par la figure 7-43. Cette carte illustre les races de
chiens captes par chaque neurone, ainsi que la caractristique de ce groupement qui est le rfrent repr-
sentant le centre mdian du sous-ensemble. La carte fait apparatre un ordre topologique : on retrouve les
chiens de petite taille, petit poids, petite vlocit, affectueux et de compagnie autour de nuds voisins
dans le coin gauche en haut de la carte. La diffrence rside dans le fait que les chiens capts par le
neurone contenant (Bull-Dog, Cocker, Fox-Terrier) sont agressifs par rapport ceux du neurone voisin
(Caniche, Chihuahua, Pkinois, Teckel) qui ne le sont pas. Dans le coin infrieur gauche de la carte se
trouvent les chiens utiles, non affectueux et de grand poids avec une grande taille. On observe les mmes
caractristiques chez les chiens des neurones voisins (Terre Neuve, Bull Mastiff, Saint Bernard, Mastiff,
Dogue Allemand). On peut faire la mme analyse pour les classes restantes.

PT, PP, PV, AF, PT, PP, PV, MI, AF, MT, MP, MV, MI, AF, MT, MP, MV, MI, AF, MT, MP, MV, GI,AF,
NAG, CM AG, CM NAG, CM NAG, CH NAG, CH
Caniche, Chihuahua, Bull Dog, Cocker, Boxer, Colley, Dalmatien Labrador pagneul Breton
Pkinois, Teckel Fox-Terrier
0 1 2 3 4
GT, MP, PI, NAF, AG, CH
Fox Hound,
Gr bleu de Gascogne
5 6 7 8 9
GT, GP, PV, MI, NAF, GT, MP, GV, GI, AF, PT, PP, PV, PI, NAF,
NAG, U AG, U AG, CH
Terre Neuve Beauceron, Berger Basset
Allemand, Doberman
10 11 12 13 14
GT, GP, PV, NAF, AG, U GT, MP, GV, NAF,
Bull Mastiff, NAG, CH
Saint Bernard Lvrier, Pointer, Setter
15 16 17 18 19
GT, GP, PV, PI, NAF, AG, GT, GP, GV, PI, NAF, GT, MP, MV, MI, NAF,
U AG, U NAG, CH
Mastiff Dogue allemand pagneul franais
20 21 22 23 24
Figure 7-43. Carte topologique engendre par lalgorithme BTM ; dans chaque case se trouve linterprtation du rfrent,
ainsi que les chiens capts par le neurone dont le numro est indiqu (25 neurones). Les cases vides sont celles qui nont
capt aucun chien.

Analyse des correspondances multiples


Le mme exemple a t trait par lanalyse des correspondances multiples (ACM) [TENENHAUS 1998] ;
ltude qui est prsente cherche relier la fonction dune race canine ses caractristiques physiques et
psychiques. Une analyse des correspondances multiples des variables physiques et psychiques (les six
premires variables catgorielles) est effectue ; la projection obtenue ne tient pas compte de la dernire
variable catgorielle, qui est la fonction (Utile, Chasse, Compagnie). Celle-ci nest utilise que comme
variable explicative afin de voir si la fonction est une consquence directe des 6 variables catgorielles. La
figure 7-44, qui reprsente la projection des 27 races de chiens sur les deux premiers axes principaux de
lACM, montre quil existe une sparation grossire entre les 3 modalits de la variable qualit. droite,
on trouve les chiens de compagnie, lexception des chiens de chasse Basset, pagneul breton et
Cartes auto-organisatrices et classification automatique
419
CHAPITRE 7

Labrador. Les chiens du quadrant infrieur gauche sont tous des chiens dutilit. Le quadrant suprieur
gauche mlange les chiens de chasse et dutilit restants. Si lon compare ces rsultats avec ceux de la
figure 7-43, on remarque, sur la carte topologique, que les chiens capts par les neurones voisins 0, 1 et 2
correspondent aux chiens de compagnie, et les chiens des neurones 3, 4 et 9 sont des chiens de chasse. Les
chiens du quadrant gauche correspondent aux chiens capts par les neurones voisins 10, 15, 20 et 21.
Finalement, le mlange de chiens qui se trouve sur la carte issue de lACM peut sexpliquer par le lien de
voisinage qui se cre entre les chiens capts par des neurones voisins. On voit donc que le modle BTM
permet une classification plus fine des diffrents groupes. Le fait de travailler directement dans lespace
des donnes permet dviter la projection sur un plan qui peut permettre un mlange de certains groupes.

1,5
pagneul breton
Labrador
Dalmatien
1,0 Boxer
pagneul franais

0,5 Pointer Berger allemand Colley


Setter Beauceron
Dobermann
Lvrier Caniche
Axe 2

Fox-hound Grd beau de Gascogne Cocker


0,0
Fox-terrier
Terre-Neuve
Dogue allemand Teckel
0,5
Bull mastiff Bulldog Fonction
Saint Bernard Pkinois
Mastiff Chihuahua
-1,0 Basset Utilit

Chasse
-1,5 Compagnie
-1,5 1,0 -0,5 0,0 0,5 1,0 1,5
Axe 1

Figure 7-44. Prise de [TENENHAUS 1998], page 226, figure 88. Analyse des correspondances multiples.

Le modle CTM
Le deuxime exemple traite un problme rel [SAPORTA 1990], mettant en uvre des donnes provenant
dune compagnie dassurance. Les 1 106 observations prsentes dans la base caractrisent diffrents
conducteurs, classs en deux groupes suivant les accidents quils ont provoqu. Chaque individu est
caractris par 9 variables catgorielles deux ou trois modalits : Utilit (Prive, Professionnelle), Sexe
(Homme, Femme, Vhicule de Socit), Langue (Franais, Autre), ge (Vieux, Moyen, Jeune) Locali-
sation (Capitale, Province), Bonus (Oui, Non), Police (86, Autre), Puissance (Grande, Petite), ge
Vhicule (Ancien, Nouveau). On distingue deux types de conducteurs, ceux qui nont jamais subi dacci-
dents (Classe 1) et ceux qui sont responsables dau moins un accident (Classe 2).
La prsentation qui suit permet dillustrer le comportement de CTM selon plusieurs axes :
introduction de lordre topologique : analyse exploratoire ;
utilisation de variables explicatives : discrimination entre bon conducteur (1) et mauvais conducteur (2)
Lapprentissage statistique
420

Ici encore, on a choisi, pour la clart de lexpos, une carte de petite dimension (5 5 neurones) et lon a
effectu lapprentissage sur lensemble des 1 106 individus. Chacun des 25 neurones est donc reprsent
par un rfrent constitu de 9 tables de probabilits de dimension deux ou trois selon le nombre de compo-
santes de la variable catgorielle.
Chaque observation reprsentant un assur est affecte au neurone c1 ayant la plus forte probabilit a
posteriori p ( c1 z ). La figure 7-45 montre les 25 probabilits a posteriori calcules sur toute la carte 5 5
pour une observation de la base :
z = (Pf, H, Fr, V, Pr, 1, 86, Pt, Nou).
On constate sur la figure 7-45 que la distribution de
probabilits p ( c1 z ) est une rgion connexe autour du
neurone le plus probable (couleur noire).
Afin de montrer les facilits de reprsentation quoffre
la mise en ordre de la partition obtenue aprs appren-
tissage sur la carte CTM, prsentons quelques exem-
ples simples de visualisation. Le tableau 7-8 prsente
la table de probabilits estimes par lalgorithme
dapprentissage CTM pour le premier neurone situ en
haut et gauche de la carte. On remarque que certaines
modalits sont trs probables. Lanalyse de limpor-
tance des probabilits nous permet dinterprter ce
neurone comme reprsentant les individus qui sont
Professionnels avec une probabilit de 0,99, qui vivent Figure 7-45. Reprsentation sur la carte CTM
en Province avec la probabilit de 0,85 et qui ont un des probabilits posteriori p ( c1 z ) ,
pour lobservation z = (Pf, H, Fr, V, Pr, 1, 86. Pt. Nou)
Ancien vhicule avec la probabilit 0,81. On constate
que ces individus ont le bonus avec une probabilit
de 0,98.

Variable k
c1;k

Utilit P : 0,01 Pf : 0,99


Sexe H : 0,67 F : 0,32 VS : 0,01
Langue Fr : 0.68 Au : 0.32
ge V : 0,63 M : 0,13 J : 0,24
Localisation C : 0,15 Pr : 0,85
Bonus O : 0,98 N : 0,02
Police 86 : 0,75 A : 0,25
Puissance Gr : 0,43 Pt : 0,57
ge du Vhicule An : 0,81 Nou : 0,19
Tableau 7-8. Les 9 tables de probabilits associes au neurone situ en haut gauche de la carte.

La visualisation sur la carte des probabilits lies tous les neurones permet de vrifier quun ordre est
bien apparu pendant lapprentissage. Comme dans les exemples prcdents, la prise en considration
simultane des cartes associes aux diffrentes variables permet une interprtation des diffrentes direc-
tions, et dune manire plus gnrale, de la carte. La figure 7-46 qui reprsente la distribution de probabi-
Cartes auto-organisatrices et classification automatique
421
CHAPITRE 7

lits des deux modalits (Prive et Professionnelle) de la variable Utilit du vhicule permet dobserver
la cohrence entre lamplitude des 2 modalits et la structure topologique de la carte.

Figure 7-46. Distribution de la probabilit de la variable Utilit du vhicule. Chaque neurone de la carte est reprsent par
un histogramme ; la premire barre indique la modalit Prive ; la deuxime barre indique la modalit Professionnel.

La figure 7-47 montre la distribution des trois modalits (Vieux, Moyen et Jeune) de la variables ge. La
reprsentation simultane des 3 cartes en niveaux de gris, fait apparatre la disposition des diffrents
groupes : gauche, les personnes ges (V), les conducteurs jeunes (J) sont groups avec une forte proba-
bilit dans le coin suprieur droit, et la tranche dge moyen (M) est plutt situe dans le coin infrieur
droit. Certaines zones sont franchement ddies une modalit, alors que les deux premires colonnes de
la carte montrent clairement quune partie des conducteurs se ressemble du point de vue des caractristi-
ques, quel que soit leur ge.
Lapprentissage statistique
422

(V) (J)

(M)

Figure 7-47. Carte topologique reprsentant la distribution des trois modalits de la variable ge
(V : Vieux, M : ge Moyen, J : Jeune)

Si lon poursuit ces visualisations variable par variable, il devient possible de caractriser les diffrents
groupements qui apparaissent. Cependant, rechercher des visualisations plus complexes, qui font inter-
venir plusieurs variables, et utiliser les tables de probabilits pour trier linformation, permettent de faire
une meilleure interprtation des groupements proposs par la classification CTM.

Visualisation multidimensionnelle : la figure 7-48 prsente les 4 histogrammes des 4 variables


catgorielles : Sexe, ge, Puissance, ge Vhicule. Les formes qui apparaissent au niveau de chaque
neurone mettent en vidence, comme dans la figure 7-46, des neurones ayant des caractristiques
communes, et lon peut apprcier la dose de mlange qui apparat au niveau des diffrentes variables
(nombre de modalits significativement positives). Afin de faire apparatre les groupements les plus
importants, nous avons choisi de ne reprsenter sur la figure 7-49, que la modalit la plus forte, condi-
tion quelle soit suprieure 0,8 pour les variables deux modalits et 0,6 pour celles qui en ont trois.
On considre alors que la modalit est significativement majoritaire, et la carte devient plus explicable en
termes symboliques. Les neurones situs en haut droite de la carte reprsentent des jeunes conducteurs
ayant majoritairement des vhicules neufs ; les conducteurs gs sont localiss dans la partie gauche de la
carte ; les conducteurs ayant un ge moyen se trouvent en bas de la carte.
Cartes auto-organisatrices et classification automatique
423
CHAPITRE 7

1 1 1 2

1 1 1 2 2

1 2 2

2 2 2

2 2 2 2

Figure 7-48. Distribution de la probabilit des quatre variables ; chaque neurone de la carte est reprsent par 4 histogrammes ;
dans chaque neurone, la ligne du haut prsente la variable Sexe qui correspond au premier histogramme ; sur la mme ligne, on
a la variable ge ; sur la deuxime ligne, on a la variable Puissance, suivie de la variable ge Vhicule. La mention 1 et 2
indique ltiquette obtenue aprs avoir effectu un vote majoritaire dans chaque sous-ensemble de la partition obtenue.

HV -J HJ FJ -J
- |An - |An - |An Pt Nou Gr-
H - -J HJ FJ VS J
-- - |An Gr |An Pt Nou Gr Nou
HV H- VS J VS J VS J
Gr - Gr - Pt Nou Pt Nou Gr Nou
-- H- VS J VS J VS J
Gr - Gr - Pt An Pt |An Gr Nou
HM -M FM FM FM
Gr - -- Pt - Pt Nou Pt Nou
Figure 7-49. Carte 5 5, pour chaque neurone on affiche pour chaque variable la modalit ayant la plus forte probabilit.
H : Homme, F : Femme, J : Jeune, M : ge Moyen, V : Vieux, VS : Vhicule de Service, An : Ancien vhicule, Nou : Nouveau
vhicule. Gr : Grande puissance, Pt : Petite puissance.
Lapprentissage statistique
424

Ces visualisations peuvent maintenant servir caractriser les bons et les mauvais conducteurs ; elles
peuvent galement servir la prdiction.
Dans un but de classification, on utilise prsent la carte 5 5
pour discriminer les bons des mauvais conducteurs. La figure 7-50
montre ltiquetage de la carte, aprs avoir effectu un vote majo-
ritaire dans chaque sous-ensemble de la partition obtenue, partir
des neurones, aprs lapprentissage. On distingue deux rgions sur
la carte, qui sont ddies aux deux types dassurs. Les neurones
en haut gauche de la carte sont ddis aux assurs nayant jamais
eu daccident (tiquets par 1) ; les neurones tiquets par 2 sont
ddis aux assurs ayant eu au moins un accident. Les neurones
sans tiquette prsentent des neurones vides, nayant capt aucune
observation de lensemble dapprentissage.
Il est alors possible, en observant la fois la figure 7-49 et la figure
7-50, de constater que les bons conducteurs (qui nont jamais eu Figure 7-50. Carte tiquete aprs
daccident) sont majoritairement des jeunes (modalit J) avec des application du vote majoritaire ;
vhicules anciens (modalit An). On peut voir aussi que les les neurones sans tiquette reprsentent
mauvais conducteurs ont eu des accidents avec des vhicules puis- des sous-ensembles vides. 1 : bon
conducteur, 2 : mauvais conducteur.
sants (modalit Gr). Les mauvais conducteurs sont constitus
majoritairement par des personnes jeunes et des personnes ayant
un ge moyen (modalit M).

Bibliographie
AIKEN J., MOORE G.F., TREES C.C., HOOKER S.B., CLARK D.K. [1995], The SeaWifs CZCS-pigment algo-
rithm, NASA tech. Memo 104566, vol.29, 34 p.
ANOUAR F., BADRAN F., THIRIA S. [1997], Self Organized Map, A Probabilistic Approach, Proceedings
of the Workshop on Self-Organized Maps, Helsinki University of Technology, Espoo, Finlande, 4-6 juin
1997.
BISHOP C. M., SVENSN M., WILLIAMS C K I. [1998], GTM : The Generative Topographic Mapping,
Neural Computation, 10, p215-234.
BOCK H. H. [1996], Probabilistic Models in Data Analysis, Computational Statistics and Data Analysis,
23, p. 5-28.
BOCK H. H. [1998], Clustering and neural networks, in Rizzi et al. (d.), Advances in data science and
classification, Springer verlag, p. 265-278.
CELEUX G., GOVAERT G. [1991], Clustering criteria for discrete data and latent class Models, Journal of
classification 8, p. 157-176.
CERKASSKY Y., LARMNAJAFIH [1991], Constrained topological mapping for non parametric regression
analysis, Neural Network, vol. 4, p. 27-40.
DEMPSTER A. P., LAIRD N. M., RUBIN D. [1977], Maximum Likelihood from incomplete data via the E.M
algorithm (with discussion), Journal of the Royal Statistical Society, series B 39, p.1-38.
DIDDAY E., SIMON J. C. [1976], Clustering Analysis, in Digital Pattern Recognition, K. S. Fu, Springer
verlag.
Cartes auto-organisatrices et classification automatique
425
CHAPITRE 7

DUDA R. O., HART P. E. [1973], Pattern Classification and Scene Analysis, John Wiley.
FROUIN R., DESCHAMPS P. Y., MITCHELL B. G., KAHRU M. [1998], The normalized difference phyto-
plankton index for satellite ocean color applications, EOS Transactions, vol. 79, no. 1, p. 191.
GAUL W., OPITZ O., SCHADER M. (d.) [2000], Data Analysis Scientific Modeling and Practical Applica-
tion, Springer.
GIROLAMI, M. [2001], The Topographic Organisation and Visualisation of Binary Data using Mutivariate-
Bernoulli Latent Variable Models, IEEE Transactions on Neural Networks 12, p. 1367 - 1374.
GORDON H. R., WANG M. [1994], Retrieval of water-leaving radiances and aerosol optical thickness over
the oceans with SeaWifs: a preliminary algorithm, App. Opt. vol. 33, no. 3, p. 443-453.
GOVAERT G [1990], Classification binaire et modles, Revue de Statistique Applique 38, p. 67-81.
HOLBEN B., ECK T., SLUTSKER I., TANR D., BUIS J. P., SETZER E., VERMOTE E., REAGAN J., KAUFMAN
Y., NAKAJIMA T., LAVENU F., JANKOWIAK, SMIRNOV A. [1998], AERONET - A federate instrument
network and data archive for aerosol characterization, Remote Sens. Environ., 66, p. 1-16.
JAIN A. K., DUBES R. C. [1988], Algorithms for Clustering Data, Prentice Hall.
KASKI S, HONKELA T, LAGUS K, KOHONEN T [1998], WEBSOM-self-organizing maps of document
collections, Neurocomputing, vol. 21, p.101-117.
KASKI S, KANGAS J., KOHONEN T. [1998], Bibliography of self organizing map (SOM) papers 1981-1997,
Neural Computing Survey, vol. 1, p. 102-350. On peut trouver cet article ladresse :
http://www.icsi.berkeley.edu/~JAGOTA/ncs/.
KOHONEN T. [1984], Self organization and associative memory, Springer Series in Information Sciences,
8, Springer Verlag, Berlin (2nd d. 1988).
KOHONEN T, KASKI S, LAGUS K, SALOJRVI J, HONKELA J, PAATERO V, SAARELA A [2000], Self organi-
zation of a massive document collection, IEEE transaction on neural networks, vol. 11, no 3.
KOHONEN T. [2001], Self Organizing Maps, Springer, 3e dition.
LEBBAH M, THIRIA S., BADRAN F. [2000], Topological Map for Binary Data, Proceedings of the Euro-
pean Symposium on Artificial Neural Networks.
LEBBAH M., THIRIA S., BADRAN F. [2004], Visualization and classification with categorical topological
map, Proceedings of the European Symposium on Artificial Neural Networks.
LEBBAH M. [2003], Carte topologique pour donnes catgorielles : application la reconnaissance auto-
matique de la densit du trafic routier. Thse de lUniversit de Versailles Saint-Quentin en Yvelines.
LUTTREL S. P. [1994], A bayesian analysis of self-organizing maps, Neural Comput, 6.
MITCHELL B.G., KAHRU M. [1998], Algorithms for SeaWifs developed with the CalCOFI data set,
CalCOFI, report 39, Calif. Coop. Oceanic Fish. Invest. Rep., Lajolla, Calif., 26 p.
MOULIN C., GORDON H. R., CHOMKO R., BANZO V. F., EVANS R. H. [2001], Atmospheric correction of
ocean color imagery through thick layers of Saharan dust, Geophys. Res. Lett., 28, p. 5-8.
MURTAGH F. [1985], A survey of algorithms for contiguity-constrained clustering and related problems,
The Computer Journal, vol. 28, p. 82-88.
OJA E., KASKI S. [1999], Kohonen Maps, Elsevier.
PATRIKAINEN A., MANNILA H. [2004], Subspace clustering of high-dimensional binary data a probabi-
listic approach, , SIAM International Conference on Data Mining.
Lapprentissage statistique
426

SAPORTA G. [1990], Probabilits, analyse des donnes et statistiques, ditions Technip.


SHETTLE E.P. [1984], Optical and radiative properties of a desert aerosol model, in Proc. Symposium on
Radiation in the Atmosphere, ed. G. Fiocco, Hampton, Va.: A.Deepak.
TENENHAUS M. [1998], La rgression PLS, thorie et pratique, Edition Technip,
THIRIA S., LECHEVALLIER Y., GASCUEL O., CANU S. [1997], Statistique et mthodes neuronales, Dunod.
VERBEEK J., VLASSIS N., KRSE B. [2005], Self-organizing mixture models, Neurocomputing 63, p. 99-
123.
VICHI M., BOCK H. H. [1998], Advances in Data Science and Classification, Springer, Heidelberg, p. 397-
402.
VON DER MALSBURG C. [1973], Kybernetik 14, 85.
YACOUB M., BADRAN F., THIRIA S. [2001], Topological Hierarchical Clustering : Application to Ocean
Color Classification, ICANN2001, Springer 2001, Proceedings, p. 492-499.
Bibliographie commente

Le lecteur notera que chacune des rfrences est suivie du ou des numros de chapitre pour lesquels elle est
pertinente.
AARTS E., KORST J. [1989], Simulated Annealing and Boltzmann Machines a Stochastic Approach to
Combinatorial Optimization and Neural Computing, Wiley.
Cet ouvrage prsente, de manire dtaille, les principaux rsultats thoriques concernant le recuit simul et les machines de
Boltzmann. Destin des lecteurs avertis, il illustre bien les dmarches permettant dtudier nement la convergence des algorithmes
stochastiques. Chapitre 8.

AARTS E., LENSTRA J. K. [1997], Local Search in Combinatorial Optimization, Wiley.


Cet ouvrage constitue une excellente introduction aux mtaheuristiques, cest--dire au recuit simul, la recherche tabou, aux algo-
rithmes gntiques et aux rseaux de neurones rcurrents. Chapitre 8.

ANDERSON B. D. O., MOORE J. B. [1979], Optimal Filtering, Prentice Hall.


Le ltrage optimal est un sujet qui peut tre abord de beaucoup de points de vue diffrents : adaptatif ou non, stationnaire ou non,
probabiliste ou non, linaire ou non. Ces points de vue diffrents conduisent des formulations calculatoires diffrentes dont lquiva-
lence nest pas vidente. Le mrite de ce livre est de reprendre tous ces aspects et de les articuler entre eux, avec une prsentation
soigne et pdagogique des calculs parfois fastidieux qui tablissent les liens entre diffrentes approches. Les rappels mathmatiques
ncessaires gurent en appendice dans un style clair et concis. Chapitre 4.

ANTONIADIS A., BERRUYER J., CARMONA R. [1992], Rgression non linaire et applications, Economica.
Moins fouill que louvrage de Seber et Wild comment plus loin, cet ouvrage a des qualits didactiques incontestables. Destin cons-
tituer un support de cours de 3me cycle, il est clair mais rigoureux, et peut tre recommand comme ouvrage de rfrence dans le
domaine. Chapitre 2.

BALDI P., BRUNAK S. [1998], Bioinformatics, the Machine Learning Approach, Bradford Books.
Cet ouvrage prsente les fondements de lapplication des techniques dapprentissage automatique, et notamment de rseaux de
neurones, dans le domaine de la bioinformatique. La problmatique de la bioinformatique est prsente de manire trs claire, et la
mise en uvre de lapprentissage dans ce contexte applicatif spcique est clairement dcrite. Chapitre 1.

BERTSEKAS D. P., TSITSIKLIS J. N. [1996], Neuro-dynamic Programming, Athena Scientific.


Ce livre se situe au carrefour des deux disciplines, rseaux de neurones et programmation dynamique, apprentissage par
renforcement , que les auteurs ont contribu rapprocher. Bien que proche des algorithmes et des applications, ce livre est crit dans
un style mathmatique : les noncs sont distingus et classs, les hypothses sont prcises, les dmonstrations identies. Le dbut
du livre constitue des introductions la programmation dynamique et aux rseaux de neurones. La thorie de lapproximation stochas-
tique est ensuite expose le plus clairement possible, pour en dduire les algorithmes classiques dapprentissage par renforcement. Le
livre se conclut par des tudes de cas. Chapitre 4.

BISHOP C. M. [1995], Neural Networks for Pattern Recognition, Oxford University Press.
Ce livre est louvrage de rfrence incontournable sur les rseaux de neurones pour la classication automatique, notamment en recon-
naissance des formes ; il contient aussi beaucoup dinformations utiles pour la rgression non linaire, et sur les techniques dappren-
tissage en gnral. Il contient de nombreux petits exemples illustratifs, mais peu dapplications relles. Lecture indispensable pour tout
tudiant dbutant une recherche sur les rseaux de neurones pour la classication, cet ouvrage, en revanche, ignore compltement les
rseaux rcurrents et leurs applications la modlisation dynamique et la commande. Chapitres 2 et 6.

CICHOCKI A., UNBEHAUEN R. [1993], Neural Networks for Optimization and Signal Processing, Wiley.
Ce livre prsente dune manire simple mais trs complte de nombreux problmes doptimisation combinatoire, de programmation
linaire, quadratique, etc. et de traitement du signal, ainsi que la manire dont ils peuvent tre rsolus au moyen de rseaux de neu-
rones. Des architectures lectroniques pour mettre en uvre les rseaux de neurones y sont dcrites. Chapitre 8.
Lapprentissage statistique
428

DEMAILLY J.-P. [1991], Analyse numrique et quations diffrentielles, Presses Universitaires de Grenoble.
Cet ouvrage mathmatique trs accessible (n de premier cycle) est utile qui souhaite comprendre lintrt des algorithmes dordre
suprieur implants dans les logiciels commerciaux, intgrant les trajectoires des systmes dynamiques temps continus. Il prsente
lintrt de ne pas se limiter au seul aspect numrique, mais de lintroduire par les rsultats fondamentaux sur les solutions des
systmes avec condition initiale et des systmes linaires. Lanalyse des diffrents algorithmes qui suit cette introduction permet au
lecteur une utilisation claire des logiciels. Chapitre 4.

DEMARTINES P. [1995], Analyse de donnes par rseaux de neurones auto-organiss, thse de lInstitut
National Polytechnique de Grenoble.
Un mmoire excellent, trs pdagogique, sur lapprentissage non supervis. Aprs avoir prsent et illustr la quantication vectorielle,
les cartes de Kohonen et lalgorithme neural gas , lauteur propose une nouvelle technique, lanalyse en composantes curvilignes
(vector quantization and projection) adapte la rduction de dimension. Les applications portent sur la fusion multicapteur, le contrle
de procd, la fabrication de mtrique et lappariement de graphes. Chapitres 3 et 7.

DRAPER N. R., SMITH H. [1998], Applied Regression Analysis, Wiley


Trs bien prsent, enrichi de nombreux exercices et applications, cet ouvrage de 600 pages est incontestablement une remarquable
rfrence pour son introduction lensemble de la problmatique de la rgression. Consacr essentiellement (500 pages) la rgres-
sion linaire, il en prsente tous les aspects de manire lucide et agrable. Chapitre 2.

DUDA R. O., HART P. E., STORCK D. [2001], Pattern Classification and Scene Analysis, Wiley.
La bible de la reconnaissance de formes depuis la parution de la premire dition (1973), qui dcrit notamment les fondements de
la classication automatique classique (algorithme des k-moyennes, quantication vectorielle, classication hirarchique) et de la discri-
mination (sparateurs linaires). Trs mathmatique, il prsente de manire rigoureuse les diffrents algorithmes, et en fournit de
nombreuses illustrations. Chapitres 1, 6, 7.

DUFLO M. [1996], Algorithmes stochastiques, Springer.


Ce livre reprend les cours de DESS et de DEA de lauteur, et dveloppe lensemble des notions mathmatiques la base des algo-
rithmes stochastiques (approximation stochastique, recuit simul, algorithmes gntiques). Les noncs mathmatiquement corrects
des thormes de convergence sont dtaills avec de nombreux exemples et contre-exemples, sans que les grands thormes utiliss
soient compltement dmontrs. Ainsi, ce livre conu pour des tudiants probabilistes ou statisticiens peut tre consult avec fruit par
lutilisateur curieux de connatre les hypothses de validit rigoureuses des algorithmes usuels, ainsi que la nature des thories math-
matiques permettant de les valider. Chapitre 4.

DUVAUT P. [1994], Traitement du signal : concepts et applications, Herms.


Cet ouvrage est considr comme lun des ouvrages de rfrence franais de traitement du signal. Il est conu pour la formation des
ingnieurs : il contient donc des rappels simples des outils mathmatiques usuels (Transformes de Fourier et de Laplace, Probabilits
et Processus alatoires, algbre linaire). Lauteur sattache dgager de diverses applications usuelles une mthodologie commune
qui lui permet de caractriser les fonctions de base du traitement du signal (estimation, dtection, classication, codage) puis dexpo-
ser les algorithmes permettant de les mettre en uvre. Cet ouvrage qui veut rester initiatique privilgie le modle linaire gaussien
et naborde qu la n la problmatique du ltrage adaptatif. Chapitre 4.

EFRON B., TIBSHIRANI R. J. [1993], An Introduction to the Bootstrap, Chapman et Hall.


Ce livre est une introduction gnrale au bootstrap, mthode qui connat un succs grandissant de par ses nombreux domaines dappli-
cation en statistique : estimation, tests dhypothses, intervalles de conance. De nombreux exemples illustrent la mthode, et plusieurs
exercices permettent au lecteur dapprofondir et de contrler ses connaissances. Chapitre 3.

ENGEL A., VAN DEN BROECK C. P. L. [2001] Statistical Mechanics of Learning, Cambridge University Press.
Ce livre prsente les fondements de ce que lon appelle mcanique statistique de lapprentissage. Il sagit de la thorie qui permet
de dduire les comportements typiques des rseaux de neurones. Les auteurs prsentent le sujet de manire trs pdagogique, avec
beaucoup dexemples et dexercices. Cest une lecture conseille ceux qui dsirent approfondir cette approche thorique de lappren-
tissage. Chapitre 6.
Bibliographie commente
429

GAREY M. R., JOHNSON D. S. [1979], Computers and Intractability. A Guide to the Theory of NP-complete-
ness, W. H. Freeman.
Cet ouvrage recense des problmes doptimisation combinatoire et analyse leur complexit. Il est difcile daccs, mais constitue une
rfrence pour ltude de la complexit des problmes. Chapitre 8.

GOODWIN, G. C., PAYNE R. L. [1977], Dynamic System Identification : Experiment Design and Data
Analysis, Academic Press.
Comme louvrage de L. Ljung comment plus loin, ce livre traite, en profondeur, de lidentication des paramtres de systmes dyna-
miques linaires. Partant des bases des statistiques, il traite de la mthode des moindres carrs classique, puis des estimateurs du
maximum de vraisemblance, et applique ces concepts lestimation des paramtres de modles linaires, de manire rcursive ou non
rcursive. Lauteur traite avec soin le problme important de la conception des expriences. Cest donc un ouvrage fondamental pour la
modlisation linaire. Chapitre 2 et 4.

GLOVER F., LAGUNA M. [1997], Tabu Search, Kluwer.


Cet ouvrage dtaille les principes de la recherche tabou , son application des problmes doptimisation combinatoire tels que la
programmation linaire en nombres entiers, ainsi qu un grand nombre de problmes doptimisation rencontrs dans lindustrie des
transports, des tlcommunications, etc. Chapitre 8.

HAYKIN S. [1999], Neural Networks, a Comprehensive Foundation, Prentice Hall.


Ce livre couvre lensemble des techniques neuronales ayant fait lobjet de recherches ces quinze dernires annes, ainsi que
lensemble des thories y conduisant (thorie de lapprentissage, apprentissage supervis et non supervis, machines stochastiques,
rseaux dynamiques). Il est destin des ingnieurs et est accessible tout lecteur ayant les connaissances mathmatiques usuelles
des formations dingnieur. Les notations sont clairement introduites et les indications sont gnralement assez claires pour que les
algorithmes puissent tre dvelopps. Les exemples donns sont bien choisis mais uniquement destins des illustrations pdago-
giques. Les applications relles sont trs peu traites bien que lauteur du livre soit connu pour avoir dvelopp des applications des
techniques neuronales notamment en traitement du signal. Chapitres 2, 4, 6 et 7.

HERTZ J., KROGH A., PALMER R. G. [1991], Introduction to the Theory of Neural Computation, Addison-
Wesley Publishing Company.
Pendant plusieurs annes, ce livre a t lunique ouvrage de rfrence sur les rseaux de neurones. Il prsente maintenant un intrt
essentiellement historique, notamment pour clairer les motivations qui ont amen les physiciens thoriciens sinvestir dans ce
domaine. Il contient nanmoins une grande quantit dinformations et rexions intressantes et encore actuelles. Chapitres 2, 6, 8.

KOHONEN T. [1984], Self Organization and Associative Memory, Springer Series in Information Sciences.
Premier livre crit par T. Kohonen, il prsente les liens existants entre les algorithmes adaptatifs et la modlisation de phnomnes
biologiques. Notons en particulier que les expriences et les simulations qui y sont prsentes illustrent fort bien les phnomnes
dauto-organisation. Chapitre 7.

KOHONEN T. [2001], Self Organizing Maps, Springer.


Dernire dition de louvrage de T. Kohonen, il comporte de nombreuses applications. Chapitre 7.

LANDAU I. D., DUGARD L. [1986], Commande adaptative, aspects pratiques et thoriques, Masson.
Cet ouvrage, dit par un des spcialistes franais de commande adaptative, est avant tout un ouvrage pratique o sont recenses,
dans des chapitres indpendants, des applications industrielles diffrents domaines. Le chapitre initial est une introduction la
commande adaptative. Dautres chapitres gnraux abordent la mise en uvre, les systmes multivariables et ltude de robustesse.
Louvrage est limit aux modles linaires. Chapitre 5.

LJUNG L. [1987], System Identification, Theory for the User, Prentice Hall.
Ouvrage de rfrence pour la modlisation de systmes dynamiques linaires, ce livre est remarquable de clart et de prcision. On y
trouve lessentiel de la thorie de lestimation des paramtres dun systme linaire dynamique, avec une prsentation rigoureuse mais
nanmoins, comme lindique le titre de louvrage, oriente vers lutilisateur. Cet ouvrage est ndispensable pour tout praticien qui veut
acqurir des bases solides. Chapitre 2 et 4.
Lapprentissage statistique
430

MCQUARRRIE A. D. R., TSAI C. [1998], Regression and Time Series Model Selection, World Scientific.
Malgr un effort de pdagogie limit, cet ouvrage prsente, sous une forme compacte, une multitude de critres de slection de
modles qui peuvent tre utiliss en complment de ceux qui sont dcrits dans le prsent ouvrage. Une lecture utile pour qui a acquis
les bases de la modlisation et dsire approfondir les techniques de slection de modles. Chapitres 2 et 4.
MOOD A. M., GRAYBILL F. A., BOES D. [1974], Introduction to the Theory of Statistics, McGraw Hill.
Cet ouvrage est un bon livre dintroduction aux statistiques, clair, avec des notations cohrentes, et sufsamment pdagogique pour
pouvoir tre utile des dbutants. Il part de la thorie des probabilits et introduit les concepts de base de statistiques partir de cette
thorie. Cest un ouvrage didactique, ni livre de recettes, ni trait de mathmatiques. Chapitre 2.
PERETTO P. [1992], An Introduction to the Modeling of Neural Networks, Cambridge University Press,
Cambridge (Royaume-Uni), collection Ala-Saclay.
Ce livre prsente les rseaux de neurones articiels, en montrant comment ils ont t inspirs par les systmes biologiques. Il est utile
pour ceux qui sintressent la modlisation en neurobiologie. Cest un livre qui sort des chemins baliss. Chapitres 2 et 6.
REINELT G. [1994], The Travelling Salesman. Computational Solutions for TSP Applications, Lecture Notes
in Computer Science, Springer.
Cet ouvrage prsente le problme du voyageur de commerce et ses variantes. De nombreuses heuristiques non neuronales sont
dcrites, ainsi que des problmes typiques. Chapitre 8.
SEBER G. A. F. [1977], Linear Regression Analysis, Wiley.
Complment de louvrage suivant, ce livre prsente une introduction rigoureuse et trs complte la rgression linaire et lanalyse
des rsultats obtenus par cette technique, notamment par rgression linaire multiple, et par rgression polynomiale. Il est plus austre
que louvrage de Draper et Smith comment plus haut. Chapitre 2.
SEBER G. A. F., WILD C. J. [1989], Nonlinear Regression, Wiley.
Ouvrage de rfrence sur la rgression non linaire, ce livre aborde de manire rigoureuse et complte la problmatique de la rgression
non linaire. Partant de la rgression linaire, les auteurs prsentent lestimation des paramtres des modles non linaires et les
problmes associs cette estimation ; linuence de la courbure, qui nest pas aborde dans le prsent ouvrage, y est tudie en dtail.
Ce livre est un complment de lecture indispensable pour qui veut aller trs loin dans loptimisation dun modle non linaire. Chapitre 2.
TAKEFUJI Y. [1992], Neural Network Parallel Computing, Kluwer Academic Publishers, 1992.
Cet ouvrage prsente de nombreux problmes combinatoires formuls comme des problmes de thorie des graphes. Ils sont particu-
lirement intressants pour illustrer la manire de coder certains problmes de grande complexit sous la forme dun rseau de
neurones rcurrent. Chapitre 8.
THIRIA S., LECHEVALIER Y., GASCUEL O., CANU S. [1997], Statistique et mthodes neuronales, Dunod.
Ouvrage crit conjointement par des statisticiens et par des spcialistes de modlisation neuronale, il prsente le point de vue des deux
communauts. Chapitres 2 et 6.
VAPNIK V. N. [1995], The Nature of Statistical Learning Theory, Springer.
Ce livre est la rfrence en thorie de lapprentissage statistique. Dun niveau mathmatique et statistique lev, il sadresse ceux qui
souhaitent approfondir leurs connaissances autour des nouveaux concepts proposs par lauteur sur la dimension de Vapnik-
Cervonenkis, et les machines vecteurs supports dont il est, avec Isabelle Guyon, un des inventeurs. Chapitre 6.
VAPNIK V. N. [1998], Statistical Learning Theory, John Wiley & Sons.
Dans ce livre, qui prsente les fondements de la thorie statistique de lapprentissage, lauteur dveloppe les concepts et donne toutes
les dmonstrations des noncs prsents dans louvrage comment du mme auteur (ci-dessus), dont celui-ci peut tre considr
comme la version longue. Chapitre 6.
WONNACOTT T. H., WONNACOTT R. J. [1990], Statistique conomie-gestion-sciences-mdecine, Economica.
Manuel de statistique par excellence, le livre prsente de faon trs pdagogique la statistique descriptive et lensemble des mthodes
de la statistique inductive : estimation, tests, mthodes baysiennes, analyse de la variance, rgression, etc. Les mthodes y sont
prsentes partir de nombreux exemples. Des exercices avec lments de rponses permettent au lecteur de contrler ses acquisi-
tions. Chapitres 2 et 3.
Outils pour les rseaux de neurones
et contenu du CD-Rom

Depuis le dveloppement thorique des rseaux de neurones la fin des annes 1980-1990, plusieurs outils ont
t mis la disposition des utilisateurs. Les fonctionnalits et les statuts de ces outils sont trs variables. On
consultera avec intrt le site www.aiaccess.net/f_ww.htm, pour un large panorama des produits disponibles.
Dans la catgorie des outils libres, fournis avec une licence de type GNU, ou analogue, on trouve princi-
palement le travail de chercheurs de lUniversit de Stuttgart, SNNS, disponible sous forme de code
compilable sur le site www-ra.informatik.uni-tuebingen.de/SNNS/.
La plupart des autres outils disponibles relvent du monde commercial. Les grands diteurs de logiciels de
statistiques, comme SAS Institute ou SPSS, incluent des modules de rseaux de neurones dans leur offre.
Les diteurs de logiciels de calcul scientifique ou de Data Mining usage gnral proposent, la plupart du
temps, une bote outils Rseaux de neurones. Dans ce cas, lintrt du logiciel rside dans laccumula-
tion des nombreuses possibilits. Mais chacune de ces possibilits prises sparment nest pas optimise.
Les logiciels ddis, tel Neuro One propos ici en version dvaluation, sont spcialiss et offrent des
fonctionnalits beaucoup plus proches des derniers rsultats thoriques. Consultez ce propos le site
www.netral.com/.
Le contenu du CD-Rom de cet ouvrage est le suivant :
une version dvaluation de Neuro One, valide 30 jours ;
cinq exemples de modles, avec donnes et codes source ;
une bibliothque de modlisation non linaire NDK_0 libre ;
un compilateur C pour Windows.
Parmi les logiciels ddis, Neuro One, dit par Netral, est lun des plus anciens, et celui qui a le plus
volu pour rester au fait des derniers dveloppements. Cest aussi, notre connaissance, le seul qui offre
un calcul des intervalles de confiance et des leviers sur les modles dvelopps.
Neuro One fournit un produit annexe, Neuro Code, qui permet de convertir un modle neuronal en code
source C. Avec ce code, il devient possible dutiliser le modle neuronal sous tout systme dexploitation
qui admet un compilateur C. Ce code permet galement lapprentissage dans le nouvel environnement.
Les exemples de codes source prsents dans le CD-Rom ont t raliss avec Neuro Code.

Installer Neuro One


La configuration minimale requise pour linstallation de Neuro One est la suivante :
processeur Pentium 2, quivalent ou suprieur ;
frquence suprieure 400 MHz ;
Windows NT4, 2000, XP ou plus rcent ;
espace disque disponible : 40 Mo ;
mmoire vive disponible : 100 Mo.
Neuro One 6.10.7 est un outil fonctionnant sous Windows (Windows NT, Windows 2000, Windows XP).
Lapprentissage statistique
432

Dans le rpertoire NeuroOne, lancez le fichier SetUp.exe. Vous pouvez galement cliquer sur Installer
Neuro One la page daccueil du CD-Rom. Cliquez ensuite sur Ouvrir.
La bote de dialogue dintroduction suivante apparat alors, elle vous permet de choisir la langue du
programme dinstallation.

Figure A-1

Cliquez sur Suivant pour afficher la fentre dintroduction.

Figure A-2
Annexe : Outils pour les rseaux de neurones et contenu du CD-Rom
433

Cliquez nouveau sur Suivant et la bote de dialogue du contrat de licence de Neuro One saffiche.

Figure A-3

Lisez attentivement ce contrat. Si vous ntes pas daccord avec les termes de ce contrat, cliquez sur
Annuler. Dans ce cas, vous ne pouvez pas utiliser Neuro One. Si vous tes daccord avec les termes de ce
contrat, cliquez sur Accepter.
Lorsque la bote de dialogue suivante apparat, entrez votre nom, votre organisation, et le chiffre 0 (zro),
puis cliquez sur le bouton Pour une valuation 30 jours.

Figure A-4
Lapprentissage statistique
434

Puis, cliquez sur Suivant, la bote de dialogue suivante apparat.

Figure A-5

Choisissez prsent le rpertoire o seront enregistrs tous les fichiers de travail de Neuro One et cliquez
sur Suivant pour accder la prochaine fentre.

Figure A-6

Slectionnez Par dfaut, et cliquez sur Suivant pour passer la fentre qui suit.
Annexe : Outils pour les rseaux de neurones et contenu du CD-Rom
435

Figure A-7

Slectionnez un rpertoire de programme, et cliquez sur Suivant.

Figure A-8

Cette fentre prsente un rsum de vos demandes. Si vous tes satisfait, cliquez sur Suivant. Sinon,
revenez en arrire en cliquant sur Prcdent, corrigez lerreur, et revenez en cliquant autant que ncessaire
sur Suivant.
Lapprentissage statistique
436

Le processus dinstallation est alors engag et se poursuit.

Figure A-9

Cliquez alors sur Terminer.


En cas de problme lors de linstallation, ou ds le premier dmarrage de Neuro One, reportez-vous au
site web de NETRAL www.netral.com/index-fr.html, la page support technique.

Prsentation des exemples


Exemple 1
Voici un exemple acadmique, avec une
entre et une sortie :
Une entre X varie de 1 +1.
Une sortie Y et une sortie Yb bruites sont
disponibles.
Le modle cherche retrouver Y en utili-
sant les donnes X et Yb.
Les modles prsents comportent 0, 1, 2,
3, 5 et 10 neurones cachs.
Figure A-10
Exemple 2
Il sagit de la construction dun modle du LogP de molcules chimiques en fonction de quelques descrip-
teurs de la molcule.
Annexe : Outils pour les rseaux de neurones et contenu du CD-Rom
437

Cet exemple est tir de la publication :


Toward a Principled Methodology for Neural Network Design and Performance Evaluation in QSAR.
Application to the Prediction of LogP. A. F. Duprat, T. Huynh et G. Dreyfus. J. Chem. Inf. Comput. Sci.
1998, 38, 586-594.
Elle est utilise ici avec laimable autorisation de A. F. Duprat.
Les entres sont des caractristiques des molcules qui sont au nombre de 7. La sortie reprsente le LogP.
Les modles prsents comportent 2, 4, 6 et 7 neurones cachs.

Exemple 3
Cet exemple modlise la temprature de
liquidus de verres binaires Lithium/Sili-
cium.
Lentre est la fraction molaire de LiO2. La
sortie est la temprature de liquidus.
Les modles prsents comportent 2, 4, 5 et
6 neurones cachs.

Exemple 4
Cet exemple modlise la temprature de Figure A-11
liquidus de verres ternaires Aluminium/
Potassium/Silicium.
Les entres sont les fractions molaires de Al2O3 et K2O. La sortie est la temprature de liquidus.
Les modles prsents comportent 2, 4, 6, 8 et 10 neurones cachs.

Exemple 5
Cet exemple modlise la temprature de liquidus de verres quaternaires Sodium/Calcium/Aluminium/
Silicium.
Les entres sont les fractions molaires de CaO, Na2O, Al2O3. La sortie est la temprature de liquidus.
Les modles prsents comportent 2, 4, 6, 8 et 10 neurones cachs.

Installation des exemples


Les exemples fournis peuvent tre copis dans un rpertoire quelconque de votre machine, en respectant
les termes de la licence rappele la fin de cette annexe la section Licence. Pour effectuer linstallation,
copiez le rpertoire ncode, avec la totalit de son contenu et ses sous-rpertoires sur votre machine.
Attention
Le rpertoire ncode du CD-Rom doit tre entirement copi, avec son arborescence, sous peine de dysfonctionnements des compilations.
Certaines inclusions de chiers, ncessaires lors de la compilation, ont des adresses relatives. Larborescence doit donc tre conserve.
Lapprentissage statistique
438

Compiler le code source


Pour chaque projet, il existe deux fichiers nomms makefileuse et makefiletrain. Ces fichiers sont des
fichiers Makefile destins la compilation des deux applications disponibles, dont les fichiers principaux
sont : xxxmainuse.c1 et xxxmaintrain.c1.
La compilation pourra tre diffrente en fonction du compilateur C que vous utilisez. Si le compilateur
GCC est disponible sur votre machine, le nom de la commande make est : mingw32-make.
Placez-vous dans le rpertoire o sont situes les sources.
Pour compiler lapplication dutilisation, lancez la commande :

mingw32-make f makefileuse

Lexcutable cr porte le nom de xxxuse.exe1.


Pour compiler lapplication dapprentissage, lancez la commande :

mingw32-make f makefiletrain

Lexcutable cr porte le nom de xxxtrain.exe1.

Excuter le code source


Les excutables compils peuvent tre produits. Chacun ncessite un fichier de description nomm ndesc.txt.
Lisez attentivement le fichier daide concernant les fichiers : lisezmoidesc.txt, dans le rpertoire doc.
Ces fichiers permettent dindiquer au programme comment lire les donnes, insrer les rsultats ou ce
quil faut calculer. Pour chaque exemple, un fichier de description a t propos dans le rpertoire des
sources. Un exemple de lancement dun programme dapprentissage est donn ci-aprs :

Figure A-12

1. Les mentions xxx sont remplaces par le nom du modle Neuro One qui est lorigine du code.
Annexe : Outils pour les rseaux de neurones et contenu du CD-Rom
439

Loption v permet un affichage dtaill. Lanalyse du fichier de description donne deux champs de
donnes : X et Yb. Le nombre total de lignes slve 199 dans le fichier ..\data\static.csv . Il y a
deux apprentissages, chacun contenant 10 poques.
Pour chaque poque, les deux valeurs affiches sont respectivement lcart-type dapprentissage, et
lcart-type de gnralisation obtenu par la mthode du Leave-One Out virtuel. Le dernier chiffre entier
est le nombre de secondes coul depuis le dbut de lapprentissage.
Vous pouvez consulter les fichiers crs dans le rpertoire de rsultat pour obtenir tous les dtails de
lapprentissage :
les fichiers xxxhistoryy.txt 1,2 retracent lhistoire de lapprentissage ;
les fichiers xxxresy.txt 1,2 donnent les cots dapprentissage et de gnralisation, les poids et la
matrice de dispersion ;
le fichier xxxweights.txt 1,2 donne les poids et la matrice de dispersion de lapprentissage qui
prsente le cot dapprentissage le plus faible.
Le lancement du programme dutilisation donne une fentre qui ressemble la fentre suivante.

Figure A-13

Les fichiers de description et de donnes sont analyss. Les champs X et Yb sont trouvs. Le modle est
appliqu toutes les donnes lisibles et compltes du fichier de donnes, et lcart-type obtenu est affich.
Vous pouvez consulter les fichiers crs dans le rpertoire de rsultat :
les fichiers xxxusehisty.txt 1,2 retracent lhistorique de lutilisation ;
les fichiers xxxusey.csv 1,2 donnent, pour chaque ligne du fichier de donnes, le rsultat de lapplica-
tion du modle neuronal aux donnes prsentes.

Excuter le code source Visual Basic


Pour les exemples proposs, un code Visual Basic est galement fourni.
Pour compiler et excuter ce code, il faut effectuer les oprations suivantes :
ouvrir Excel, et lditeur Visual Basic dExcel ;
ouvrir un nouveau module ;
copier le contenu du fichier xxx.bas 1 dans le code du nouveau module ;
compiler la macro ;

2. Les mentions y sont remplaces par une valeur entire reprsentant le numro de lapprentissage ou de lutilisation.
Lapprentissage statistique
440

retourner Excel.
La macro xxx1 est alors disponible, sous forme de fonction Excel.

Visualiser les modles


Pour chacun des exemples, le modle est fourni sous forme de fichier xxx.nml1. Ces fichiers utilisent le
langage XML, avec le fichier de schma sur le site www.netral.com/public/xml/xsd/model.xsd.
Ces fichiers sont prvus pour tre visualiss par un navigateur Internet sous forme de dessin SVG, en utili-
sant le fichier de transformation XSLT neuronnethtm.xsl, tlcharg depuis le site de NETRAL.
Si votre navigateur est capable de lire les fichiers dimages SVG, ouvrez le fichier de modle NML, et
vous obtiendrez le dessin du rseau de neurones du modle. Sur ce dessin, les traits noirs reprsentent les
synapses normales, susceptibles dapprentissage. Les traits rouges reprsentent des synapses fixes, inva-
riables pendant lapprentissage. Ces synapses assurent la normalisation et le centrage des donnes, de
faon ce que le rseau de neurones puisse voir des donnes correctement calibres.

La librairie NDK (Neuro Developer Kit)


La librairie NDK est disponible en quatre niveaux de licences :
niveau 0, MonaEx70_0.dll : rseaux de neurones pour rgression et classification, rseaux de Kohonen,
cration de modles neuronaux, chargement de donnes, apprentissage ;
niveau 1, MonaEx70_1.dll : niveau 1 plus sauvegarde et chargement des rsultats ;
niveau 2, MonaEx70_2.dll : niveau 2 plus leviers, intervalles de confiance, analyse de donnes, analyse
de rseaux, mode inverse, information dtaille, apprentissages multiples, calculs des gradients et
hessiens directs et par diffrences finies ;
niveau 3, MonaEx70.dll : niveau 2 plus modlisation de processus dynamiques, modification quel-
conque de modles, modles de connaissance, modles compils, gnration de code.
Une version spciale de ndk est capable de traiter les graph machines (modlisation structure et modles
multiples paramtres partags).
Ce CD-Rom propose la librairie MonaEx70_0.dll de niveau 0. Cette librairie est gratuite et son utilisation
ne peut en aucun cas engager la responsabilit de NETRAL. La documentation de la librairie MonaEx70
peut tre consulte dans le fichier MonaEx70.chm.

Programme de dmonstration de la librairie


La librairie NDK est fournie avec un programme de dmonstration crit en Python. Ce programme a t
dvelopp et test avec Python 2.4. Il ncessite la prsence des modules Pylab et Numeric.
Pour le lancer, ouvrez une invite de commande sous Windows. Placez-vous dans le rpertoire ou se trouve
le NDK, et lancez la commande :

python.exe demo.py

Ce programme cre un modle neuronal une entre, une sortie et deux neurones cachs, charge un jeu
de donnes, lance un apprentissage, et affiche le rsultat.
Annexe : Outils pour les rseaux de neurones et contenu du CD-Rom
441

Figure A-14

Les points rouges reprsentent les exemples prsents, et les deux courbes pleines, la rponse du modle
neuronal avant et aprs apprentissage.

Les compilateurs C
La compilation des exemples fournis ncessite la prsence dun compilateur C. Les utilisateurs de
Windows trouveront ici deux exemples de compilateurs gratuits :
GCC, disponible sous licence GNU, dans le rpertoire gcc ;
Turbo C, mis disposition par Borland, sur le site http://community.borland.com/museum.
Pour linstallation dun compilateur C, il est recommand de disposer des droits dadministrateur. Pour
installer GCC, cliquez sur MinGW-2.0.0-3-gnuwin.exe dans le rpertoire gcc. Vous pouvez galement
cliquer sur Installer GCC dans la page daccueil, puis sur Ouvrir.
Lapprentissage statistique
442

la fin de linstallation du compilateur, assurez-vous que celui-ci peut tre appel depuis tous les rper-
toires de votre machine. Pour cela, il peut tre ncessaire de modifier la variable denvironnement PATH de
votre machine en y incluant le chemin du binaire du compilateur.

Licence
La licence de Neuro One est lisible pendant linstallation du logiciel, et doit tre accepte avant linstal-
lation complte de celui-ci. Les codes source fournis en langage C relvent de la licence suivante.
Les prsents codes source gnrs par le progiciel NEURO CODE sont fournis titre gracieux par
la socit NETRAL. Ces codes sont protgs tant par les dispositions nationales quinternationales
en matire de droits de la proprit intellectuelle, dont les droits sont dtenus, titre exclusif, par la
socit NETRAL.
Lutilisation et la modification de ces codes source sont soumises un contrat de licence dutilisation.
Ces codes sont utiliss sous la responsabilit pleine et entire de lutilisateur. La socit NETRAL ne
saurait en aucun cas tre tenue pour responsable des rsultats de cette utilisation, tant sur les machines qui
les utilisent que sur les donnes incluses dans ces machines.
La modification ou la copie mme partielle de ce code, est strictement interdite, lexception des parties
de commentaire et des fichiers de description. Lutilisateur possesseur du CD-Rom est autoris faire une
unique copie de ce code des fins de compilation. Toute autre copie de ce code est strictement interdite.
Lutilisation de ce code des fins commerciales est strictement interdite. On entend, par fin commerciale,
toute cession titre onreux du code lui-mme, ou toute cession, titre onreux ou titre gratuit, des
rsultats obtenus par lutilisation de ce code une fois compil.
TOUTE EXTENSION DU DROIT DUTILISATION NON PRVUE DANS CE CONTRAT DE
LICENCE EST INTERDITE ET SERA CONSTITUTIVE DUN ACTE DE CONTREFAON.
La contrefaon est un dlit pnal, puni de 2 ans demprisonnement et de 150 000 damende.
Le fait de copier le code en vue de sa compilation ou de le compiler sans le copier signifie que vous avez
donn votre accord sur les termes de cette licence.
Pour les fichiers principaux des programmes fournis, dont le nom se termine par maintrain et
mainuse , avec les extensions .h et .c , et pour ceux-l seulement, la modification des codes
est autorise.
Index

A approximation neuronale 294


a priori gaussien 337 espace d'tat continu discrtis 296
ACC Voir analyse en composantes curvilignes Q-learning 292
ACP Voir analyse en composantes principales semi-dirig 164, 166, 168, 170, 174, 260
actionneur 173 supervis 7, 302
activit architecture neuronale et carte topologique 371
non linaire 321 arrt prmatur 133, 137, 138, 141, 150
sphrique 321 auto-rgressif 232
Adaline 314
algorithme B
constructif 323 batch 126
NetLS 323 Bayes 95, 97, 138
doptimisation non adaptative des cartes Bellman
topologiques 363 principe doptimalit 286
de Kohonen 369 BFGS 133, 136, 191, 193
de Relaxation 314 biais 74
de Widrow-Hoff 314 bootstrap 217
des k-moyennes 353 estimation de lcart-type 218
du perceptron 309 estimation de lerreur de gnralisation 218
incrmental 323 boucl (rseau) Voir rseau boucl
Minimerror 316, 317 bruit 93, 137, 149, 152, 173
stochastique des k-moyennes 355 additif 338
analyse dtat 159, 162, 164, 166, 167, 172, 174, 226
en composantes curvilignes 32, 126, 210 dtat et de sortie 163, 164, 166, 168
algorithme 212 de mesure 91, 158
application l'analyse de spectres 215 de sortie 160, 161, 164, 166, 168, 172, 174, 182
mise en uvre 213
en composantes indpendantes 32, 126 C
en composantes principales 32, 126, 206 capacit 343
apprentissage 303 du perceptron 343
actif 30 carte
adaptatif 126, 136, 142, 260 auto-organisatrice 87, 349
dirig 164, 166, 167, 174, 259 topologique
en ligne 320 auto-organisatrice 360
en temps rel 262 volutive 372
mthode des diffrences temporelles 290 probabiliste 375
mthode des traces dligibilit 290 chane de Markov 230
non adaptatif 126, 142 commande 282
non dirig 172, 261 champ
non supervis 7, 87, 349 align 308, 311
par renforcement 292 linaire 305
Lapprentissage statistique
444

sphrique 321 dcomposition


classe de rejet 93 en valeurs singulires 208
classification 11, 86, 93, 95, 96, 103, 107, 113, densit de probabilit 60, 61
117, 130, 137, 138, 190, 193 dpliement de la forme canonique 260
ascendante hirarchique 380 descripteur 31, 85, 86, 90, 93, 102, 108, 112, 115,
automatique 349 117, 139, 191
discrimination 302 diagramme de dispersion 53
et carte topologique 378 dilemme biais-variance 10, 12, 14, 16, 22, 24, 54,
classifieur 84, 100, 143, 151
baysien dimension de Vapnik-Chervonenkis 27, 31, 82, 84,
optimal 339 91, 341
de Bayes 11, 14, 20, 21 discrimination 301
k plus proches voisins 12 discrimination Voir classification
linaire 14 distance de Kullback-Leibler 36, 144, 194
polynomial 14 distribution
classifieur Voir classification des retards 266
codage gaussienne 61
1-parmi-C 110 stationnaire 230
grand-mre 99 uniforme 61, 64
codes postaux 108 divergence de Kullback-Leibler Voir distance
coefficient de corrlation 39, 52 donnes structures 103, 117, 188
commande
avec modle interne 277 E
en boucle ferme 269 early stopping Voir arrt prmatur
par inversion directe 273 cart-type 31, 61
par modle de rfrence 276 Elman (rseau de) 256
par rtropropagation dynamique 278 ensemble
complexit 8, 30, 34, 47 dapprentissage 8, 26, 302
connexionnisme 76 de test 8, 47
consigne 270 de validation 33
correcteur 125 entropie croise 99, 130, 193, 204
cot poque 127
actualis 281 EQMA 9, 27, 32, 93, 135, 151, 174
partiel 311 EQMr Voir prtraitements des sorties en
covariance 52, 65 rgression
quation de propagation 231 EQMT 10, 33, 93, 120, 135, 174
Cover (thorme) 102 EQMV 33, 145
critre de pertinence 36 quations
cross-validation 33 aux diffrences 79, 87, 157
cycle 76, 79, 105, 106, 177 canoniques 49
limite 229 rcurrentes 79, 80, 87, 157
quilibre
D asymptotiquement stable 271
data mining Voir fouille de donnes stable 271
dcision markovienne Voir problme de dcision erreur
markovienne dapprentissage
Index
445

esprance mathmatique 338 de rgression 18, 22, 85


de prdiction 243 de rpartition 61
empirique 26, 28 indicatrice 15, 28
rcursive 243 radiale 75, 78, 190
thorique 17, 22, 26, 28 de base 75, 190
de type 1 69 forces
quadratique moyenne sur lhyperplan 320
sur lensemble de test 27 formalisme des nues dynamiques 363
erreur quadratique moyenne forme canonique 80, 81, 87, 166, 169, 171, 176,
sur lensemble dapprentissage Voir EQMA 182
sur lensemble de test Voir EQMT formulation 118
de validation Voir EQMV fouille de donnes 86
espace Frobenius (norme matricielle) 209
dtat 226
des caractristiques 325 G
des entres largi 307 gnralisation 303
des observations 39, 59 gradient 127, 131, 136, 146
des reprsentations 325 calcul du 91, 105, 109, 127, 130, 144, 193
esprance mathmatique 4, 62 mthodes de 83, 91, 131, 132, 136, 192
du produit de deux variables indpendantes 62
stochastique 241, 320
estimateur 63
Gram-Schmidt 40, 47, 59
non biais 4, 26, 51, 63
grand-mre Voir codage grand-mre
tape de minimisation 355
graph machine 103, 117, 131
tiquetage et classification 381
graphe
vidence 336
acyclique 76
cyclique 79, 105
F des connexions 76, 79
facteur 31 du rseau 79, 177
faux ngatif 37, 44
faux positif 37, 44
FDR 44
H
filtrage dinformations 86 hessienne Voir matrice hessienne
filtre de Kalman 247, 250 heuristique constructive 322
dcoupl 253 Ho et Kashyap (algorithme) 101, 102, 191
tendu 251 hold-out 32
flou 89 Hopfield (rseau de) 256
fonction hyperparamtre 315
boolenne 306 hypothse nulle 46, 68
dactivation 75, 189, 305
de cot 3, 26, 105, 127, 130, 131, 132, 135, I
144, 150, 168, 192, 311 ICA Voir Analyse en composantes indpendantes
des moindres carrs 27, 45, 49, 83, 85, 91, identification adaptative 239
99, 126, 137, 140, 143, 146 indice de pertinence 37
de croissance 341 infrence baysienne 336
de Heaviside 303 information mutuelle 37
de perte 17, 49, 85, 126, 128, 130, 136 initialisation 169, 171
Lapprentissage statistique
446

des paramtres 83, 134, 135, 145, 150, 156, machine marge dure 327
174 marge 308
innovation 247 Markov (chane de) 230
interprtation probabiliste des k-moyennes 357 matrice
intervalle de confiance 5, 66, 120, 143, 148, 149, chapeau 54, 58
153, 156, 188 de transition 230
pour la moyenne 66 des observations 46, 49
itration hessienne 133, 192
de la fonction de valeur 288 jacobienne 143, 146, 147, 150, 156
de la politique 287 maximum de vraisemblance 358
optimiste de la politique 292 mesure de similitude 381
mthode
J des k-moyennes 352
jackknife 34 Minimerror 315, 323, 338
jacobienne Voir matrice jacobienne minimisation par mthode du gradient simple 355
MLP Voir Perceptron multicouche
K modle
temps continu 6
Kalman (filtre de) 247
temps discret 6
proprits 250
affine 5, 8, 50
Kullback-Leibler Voir distance de Kullback-
ARMAX 164
Leibler
ARX 164
auto-rgressif 232, 235
L bote grise 175
leave-one-out 34, 47, 56, 91, 102, 107, 143, 145, bote grise Voir modle semi-physique
148 bote noire 85, 88, 172, 179
virtuel 35, 56, 57, 107, 120, 145, 146, 150, 153, complet 45
156, 188 dtat 80, 122, 157, 164, 165, 166, 170, 171,
LeNet 109 173, 174, 176, 182
Levenberg-Marquardt 83, 133, 135, 151, 174, 191, de connaissance 85, 88, 120, 123, 180, 181,
192, 194 182
levier 57, 146, 147, 149, 151, 153, 156, 188, 196 de mlange de lois normales 357
LMS 136 dynamique 6, 75, 80, 81, 87, 121, 124, 131,
loi 157, 166, 167, 175, 180
de 2 46 entre-sortie 158, 159, 161, 164, 165, 167, 168,
de chi2 65 170, 172, 173, 174
de Fisher 46, 66 linaire 5, 48, 73, 77, 80, 89, 90, 91, 143, 145,
de Pearson 65, 67 147, 158
de Student 65, 67, 69 NARMAX 124, 163, 164, 168, 170
gaussienne 7, 62 NARX 159, 164, 174
normale 7, 61, 67 non linaire 6, 73, 74, 80, 82, 89, 90, 91, 127,
136, 146, 147, 158
M polynomial 7, 83, 137
Mac Culloch et Pitts, neurones 190 semi-physique 85, 87, 122, 123, 175, 179, 187
machine vecteurs supports 30, 103, 113, 137, statique 5, 73, 75, 81, 85, 125
190, 325 modration des poids 102, 116, 137, 140
Index
447

moindres carrs 3 stationnaire 283


moment 133 polynmes 5
moyenne 4, 31, 61, 63 potentiel 74, 128, 134, 189, 305
non linaire 321
N prdicteur 87
NARMAX Voir modle NARMAX un pas 166
NARX Voir modle NARX stupide 168, 172
NetLS 323 un pas 164
normalisation 108, 110, 127, 134 PRESS 35, 56
norme matricielle de Frobenius 209 prtraitement 31, 89, 95, 105, 106, 109, 110, 127,
nue dynamique 352, 354, 376 172
des entres 204
O des sorties
off-line 126 en classification 204
ondelette 75, 78, 83, 89, 134, 175, 190 en rgression 205
on-line 126 principe doptimalit de Bellman 286
ordre 121, 157, 158, 167, 172, 173, 174, 176, 179 probabilit
topologique 373 a posteriori 19, 95, 96, 98, 99, 102, 138, 336
orthogonalisation de Gram-Schmidt Voir Gram- a priori 20, 95, 336
Schmidt conditionnelle 62
oscillateur de Van der Pol 229, 239 conjointe 17, 62
OU-EXCLUSIF 41 cumule 61, 68
output error 164 dappartenance 86, 138
de pertinence 113
P invariante 230
parallle 160 problme
parcimonie 82, 83, 84, 117, 118, 126, 127, 142, de dcision markovienne 281
158, 164, 165, 173, 175 horizon fini 283
pnalisation 137 horizon infini 285
pendule invers 228
partiellement observ 288
percentile 220
plus court chemin stochastique 284
Perceptron
matre-lve 135
multicouche 91, 99
processus stochastique 227
perceptron 101, 190, 305
programmation dynamique 280
de marge maximale 309, 315
multicouche 77, 102 propagation de la covariance 231, 264
sphrique 321 p-valeur 69
priode dchantillonnage 6
phase daffectation 355 Q
plan dexpriences 59, 90, 120, 156 Q-learning 292
planification exprimentale 30 problme partiellement observ 294
poids partags 109, 131, 178 QSAR 116
poids synaptiques 74 QSPR 116
politique 283 quantification vectorielle 351
dexploration 293 quartile 220
Lapprentissage statistique
448

R sigmode 75, 189


Radial Basis Function Voir fonction radiale signaux de sonar 318
RBF Voir fonction radiale simulateur 87, 164, 166, 174
reconnaissance de caractres 107 singular value decomposition Voir dcomposition
rduction en valeurs singulires
de dimension Voir ACP et ACC 208 slack variables 331
rgle sous-modle 46
de Bayes 19, 20, 21 stochastique 227
de Hebb 312, 313 surajustement 8, 10, 12, 25, 58, 137, 139, 175
de Kaiser 209 surface discriminante 304, 321
Delta 314 hypersphrique 321
rgularisation 102, 105, 115, 133, 137, 138, 140, SVD Voir dcomposition en valeurs singulires
142, 147, 150 SVM Voir machine vecteurs supports
rgulation 88 systme
rejet Voir classe de rejet de commande 87
reprsentation interne 322 de poursuite 88
fidle 322 observable 246
rseau
adjoint 261 T
boucl 266 taux
de Elman 256 dactualisation 285
de Hopfield 256 de fausse dcouverte 44
rtropropagation 92, 127, 128, 129, 130, 131, 135, termes directs 78
136, 140, 144, 193 test
travers le temps 260 dhypothse 44, 68
tronque 260 de Fisher 45, 46
risque empirique Voir erreur de prdiction de lboulis 209
empirique thorie de lapprentissage 335
risque structurel 30 proprits typiques 342
thorie statistique 340
S topologie discrte de la carte 361
score tri mdian 220
de leave-one-out 34, 56, 120, 145, 148
virtuel 146, 148, 150, 151 V
de validation croise 34 validation
scree-test Voir test de lboulis 209 croise 33, 47, 56, 91, 102, 107, 117, 145
segmentation 108 simple 32, 56, 91, 107, 144
slection 148 Van der Pol (oscillateur de) 229, 239
de modles 32, 47, 73, 89, 91, 93, 100, 102, variable
107, 117, 120, 137, 143, 144, 145, 148, alatoire 60
149, 150, 156 alatoires indpendantes 62
de variables 32, 35, 37, 47, 73, 90, 93, 101, certaine 61
102, 113, 114, 117, 120, 126, 135 dtat 80, 122, 157, 158, 165, 171, 174, 176,
sparateurs linaires seuil 190 180
sparations linaires 306 de commande 173
srie-parallle 159 de relaxation 331
Index
449

primaire 38, 41, 126 voisinage 360


secondaire 38, 41, 126 vraisemblance 20
sonde 36, 37, 41, 60, 112, 114, 126
variance 64
dun vecteur alatoire, dfinition 65 W
dune variable alatoire, dfinition 64 weight decay Voir modration des poids
vecteurs supports 328
version stochastique
de lalgorithme des cartes topologiques 369
X
des k-moyennes 354 XOR Voir OU-EXCLUSIF
dreyfus2008 8/09/08 17:19 Page 1

Algorithmes
Apprentissage

Apprentissage statistique
statistique G. Dreyfus, J.-M. Martinez, M. Samuelides
M. B. Gordon, F. Badran, S. Thiria

Apprentissage
Grard Dreyfus dirige le Lapprentissage statistique permet la mise au point de modles de donnes Sous la direction de Grard Dreyfus
laboratoire dlectronique de
lcole suprieure de physique et de processus lorsque la formalisation de rgles explicites serait impossible :
et de chimie industrielles reconnaissance de formes ou de signaux, prvision, fouille de donnes,
(ESPCI-ParisTech) o il prise de dcision en environnement complexe et volutif. Ses applications
enseigne notamment les sont multiples dans le monde de la production industrielle (robotique,
mthodes de modlisation par
apprentissage. Il dispense des maintenance prventive, dveloppement de capteurs virtuels, planification
formations continues dexpriences, aide la conception de produits), dans le domaine de la
lusage des ingnieurs dans ce biologie et de la sant (aide au diagnostic, aide la dcouverte de
domaine.

statistique
mdicaments, bio-informatique), en tlcommunications, en marketing et
Manuel Samuelides dirige le finance, et dans bien dautres domaines.
dpartement de
mathmatiques appliques de Sans omettre de rappeler les fondements thoriques de lapprentissage
lENSAE (Suparo) ; statistique, cet ouvrage offre de solides bases mthodologiques tout
il y enseigne les probabilits,
loptimisation et les ingnieur ou chercheur soucieux dexploiter ses donnes. Il en prsente les
techniques probabilistes de algorithmes les plus couramment utiliss rseaux de neurones, cartes
lapprentissage. topologiques, machines vecteurs supports, modles de Markov cachs
Il effectue des recherches au
dpartement de traitement de laide dexemples et dtudes de cas industriels, financiers ou bancaires.
linformation et modlisation Cet ouvrage est la mise jour du livre Rseaux de neurones Mthodologie et
de lONERA.
applications .
Jean-Marc Martinez est
expert senior et enseignant- qui sadresse ce livre ?
chercheur au Commissariat
lnergie Atomique dans le
domaine de lapprentissage
Aux ingnieurs, chercheurs et dcideurs ayant rsoudre des problmes
de modlisation, de reconnaissance, de prvision, de commande, etc.
Rseaux de neurones Cartes topologiques
statistique et de la
modlisation des incertitudes Aux tudiants et lves ingnieurs des disciplines scientifiques et Machines vecteurs supports
en simulation numrique. conomiques, et leurs enseignants. CD-R
Il dveloppe et applique ces Sommaire r le

om
Su
mthodes au CEA et les
enseigne dans diverses Lapprentissage statistique et ses applications Exemples dapplications :

li v r e
offe
universits et coles. Cinq exemples de modles,
reconnaissance de formes, fouille de donnes, prvision, prdiction de proprits chimiques et

G. Dreyfus J.-M. Martinez


M. Samuelides M. B. Gordon
F. Badran S. Thiria
avec donnes et code source t a
Mirta B. Gordon, physicienne,
physiques, modlisation et commande de procds industriels, robotique Mthodologie vec ce

r
directrice de recherches au Neuro One 6.10.7*, outil
CNRS, est responsable de de conception de modles : notions de statistiques Modlisation statique et de cration de modles neuronaux
l'quipe Apprentissage :
modles et algorithmes dynamique Modlisation semi-physique Rduction de dimension et rchantillonnage. Compilateur C pour Windows.
(AMA) au sein du laboratoire Bootstrap, ACP, NeMo Simulation et commande de processus : rseaux
TIMC-IMAG (Grenoble). Elle
boucls (rcurrents) Apprentissage par renforcement. Monte-Carlo. Rseaux de Markov. Bibliothque non linaire
effectue des recherches sur la
modlisation des systmes MonaEx70.dll, niveau 0.
complexes adaptatifs, et sur
Discrimination : rseaux classifieurs Machines vecteurs supports Infrence baysienne * Version dvaluation de 6 semaines
la thorie et les algorithmes Classification automatique et visualisation de donnes : cartes de Kohonen pour MS-Windows NT, 2000, 2003, XP
d'apprentissage. Elle enseigne
ces sujets dans diffrentes
Bibliographie commente. Annexe : Contenu du CD-Rom et installation de Neuro One.
coles doctorales. Sur le CD-Rom offert avec ce livre
Fouad Badran, professeur au Cinq exemples de modles avec donnes et codes source. Version dvaluation Prvision
CNAM, y enseigne les rseaux (6 semaines) de Neuro One 6.10.7 pour Windows NT4, 2000, 2003 et XP : un
de neurones. outil ddi convivial pour la cration de modles de rseaux de neurones. Un
compilateur C pour MS-Windows. Bibliothque non linaire MonaEx70.dll,
Data mining
Sylvie Thiria, professeur
luniversit de Versailles
Saint-Quentin-en-Yvelynes,
niveau 0.
Configuration minimale requise :
Bio-ingnierie
effectue des recherches sur la
modlisation neuronale et sur
ses applications, notamment
PC avec processeur Pentium 2 (ou quivalent) MS-Windows 98/NT, 2000 ou XP
Frquence suprieure 100 MHz 25 Mo despace disque disponible 64 Mo de RAM. Reconnaissance de formes
la gophysique, au
laboratoire docanographie Robotique et commande de processus
dynamique et de climatologie
(LODYC).

You might also like