You are on page 1of 97

Universit de Droit, dEconomie et des Sciences dAix-Marseille III Facult des Sciences et Techniques de Saint-Jrme

Mmoire
prsent par

Claude TOUZET
pour lHabilitation Diriger des Recherches

DES RESEAUX DE NEURONES ARTIFICIELS A LA ROBOTIQUE COOPERATIVE

Soutenance le 28 Septembre 1998 devant le Jury compos de : Jacob Jean-Claude Eugne Norbert Christian Jean-Arcady Claude-Charles BARHEN (rapporteur) BERTRAND CHOURAQUI GIAMBIASI JUTTEN (rapporteur) MEYER (rapporteur) THIRION

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

Des rseaux de neurones artificiels la robotique cooprative


Claude TOUZET

Rsum de lHabilitation Diriger des Recherches Les travaux dcrits dans ce mmoire rapportent une trajectoire scientifique dune dizaine dannes constamment guide par le dsir dtudier et de dvelopper des modles de rseaux de neurones artificiels en prise directe avec le monde rel. La premire partie de nos recherches sest intresse lapprentissage au sein de systmes connexionnistes multi-rseaux. En droite ligne depuis le modle de la Machine Squentielle Connexionniste (MSC, dveloppe durant la thse de doctorat), qui met en jeu 2 rseaux multicouches, 6 MSCs sont mises en oeuvre qui permettent lacquisition et le contrle de la marche chez un robot hexapode. Le paradigme utilis pour la distribution des informations ncessaires chacun des modules connexionnistes est lapprentissage par pnalit-rcompense. Un robot hexapode a t construit qui valide les rsulats pralablement obtenus en simulation. Lapprentissage par pnalit-rcompense appartient la classe des apprentissage par renforcement. La seconde partie de nos recherches sest intresse tudier les interactions entre les rseaux de neurones artificiels et lapprentissage par renforcement. Une implantation sur rseaux multicouches, puis sur cartes auto-organisatrices du Q-learning a t propose. Nous obtenons ainsi des rductions de la taille mmoire requise et du nombre ditrations dapprentissage ncessaires qui autorisent une utilisation pratique. Nous avons ensuite dvelopp des mcanismes de distribution de lapprentissage par renforcement, soit au sein dun seul robot dot de plusieurs comportements, soit au sein dun groupe de robots dans une tche impliquant la coopration. A la diffrence des courant de recherches actuels, qui pronent lutilisation da priori face la combinatoire leve de lespace de recherche, nous proposons lemploi da posteriori, lutilisation du lazy learning pour construire un modle non explicite et le dveloppement doutils et mthodes daide la conception des fonctions de renforcement. A moyen terme, lobjectif de nos recherches est dautomatiser la dcomposition dun comportement robotique complexe en une succession de comportements lmentaires. Lutilisation de marqueurs temporel et spatial est envisage pour permettre le squencement des cartes auto-organisatrices implantant les comportements lmentaires. Dans ce cas, la simple dfinition de lobjectif atteindre suffirait alors gnrer le comportement solution.

Mots clefs : Rseaux de neurones artificiels, Connexionnisme, Systmes multi-rseaux, Apprentissage par renforcement, Q-learning, Behavior based robotique, Robotique cooprative.

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

SOMMAIRE

tat Civil Formation et situations successives 1. ACTIVITS SCIENTIFIQUES 1.1 Rseaux de neurones squentiels 1.2 Apprentissage par renforcement sur structure neuronale 1.3 Synthse neuronale de comportement adaptatifs 2. PROGRAMME DE RECHERCHE 2.1 Sujet propos 3. DIFFUSION DES CONNAISSANCES 3.1 Thse 3.2 Ouvrages scientifiques 3.3 Brevet 3.4 Revues scientifiques avec comit de lecture 3.5 Confrences avec actes et comit de lecture 3.6 Colloques nationaux et internationaux avec actes diffusion restreinte 3.7 Rapports de contrats 3.8 Tutoriaux 4. ENCADREMENT DE TRAVAUX DE RECHERCHE 4.1 Co-Encadrement de thses 4.2 Encadrement de DEA 4.3 Participation des contrats d'tudes 4.4 Participation des comits de programme et d'organisation 5. ACTIVITS D'ENSEIGNEMENTS 6. ANNEXES JOINTES A - Exemples et rsums de quelques travaux contractuels B- Publications

i ii 1 4 10 15 21 22 24 25 25 26 26 26 29 30 31 33 34 35 36 38 39 44 44 81

1 - C. TOUZET, N. GIAMBIASI, "The Connectionist Sequential Machine: a General Model of Sequential Networks", Australian Conf. on Neural Networks, in Canberra, P. Leong & M. Jabri Eds. Sydney University Electrical Engineering, NSW 2006, Australia, February 1992. 2 - C. TOUZET, N. GIAMBIASI, "Application of Connectionist Models to Fuzzy Inference Systems", in Parallelization in Inference Systems, Lectures Notes in Artificial Intelligence 590, B. Fronhfer & G. Wrightson Eds., Springer Verlag, April 1992. 3 - C. TOUZET, N. KIEFFER and M. LE GOC, "Artificial Neural Networks Forecasting and Monitoring Scaffold and Scaffolding Phenomena in Blast Furnaces," IEEE International Conference on SMC, Vancouver, Canada, October 1995. 4 - C. TOUZET, "Neural Reinforcement Learning for Behaviour Synthesis," Robotics and Autonomous Systems, Special issue on Learning Robot: the new wave, N. Sharkey Guest Editor, Vol. 22, Nb. 3-4, pp. 251-281, December 1997.

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

TAT CIVIL

Nom : Prnoms : Date et lieu de naissance : Nationalit : Situation de famille : Situation militaire : Adresse personnelle : Adresse professionnelle :

TOUZET Claude Frdric Maria 16 novembre 1963, Neuilly sur Seine, France. Franaise. mari, deux enfants exempt 2 Alle Montvert, 13013 Marseille, Tl. : 04 91 66 30 59 Oak Ridge National Laboratory Computer Science and Mathematical Division Center for Engineering Science Advanced Research P.O.Box 2008 Oak Ridge, TN 37831-6355, USA Tl.: + 1 423 241 2985, Fax: + 1 423 241 0381 Email: touzetc@mars.epm.ornl.gov http://avalon.epm.ornl.gov/~touzetc

-i-

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

FORMATIONS ET SITUATIONS SUCCESSIVES

Lorsquen provenance dun DEUG A (Physique-Chimie), je suis admis en 1983 suivre les enseignements de la Licence, puis de la Matrise de Neurosciences du Comportement, je bnficie des avantages de la (rcente) politique douverture vers la multidisciplinarit. Et, lorsque j'achve ce cycle de formation, cest au mme tat desprit que je dois de pouvoir suivre les cours du DESS Informatique et puis de m'inscrire l'anne suivante en DEA XIAO, avec un sujet en Robotique. 1987 est une anne importante pour les rseaux de neurones artificiels1 et aussi pour le Laboratoire d'tude et Recherche en Informatique (LERI) qui ouvre ses portes Nmes. Le LERI accueille l'quipe marseillaise du Professeur Norbert Giambiasi, qui s'accrot pour loccasion dun nouveau sujet de recherche: je viens de faire mes dbuts en recherche (doctorale) sur thme des rseaux de neurones squentiels. Du fait des liens conservs avec Jean-Claude Gilhodes (Matre de Confrences, intervenant en Licence et Matrise de Neurosciences), nous tablissons quelques contacts avec le TIRF, un laboratoire ayant une longue histoire et une importante notorit en RNA (rseaux de neurones artificiels). Grce lappui scientifique de son directeur, le Professeur Jeanny Hrault, le congrs NEURO-NIMES (les rseaux neuro-mimtiques et leurs applications) voit le jour en 1988. Cette manifestation sera dune aide considrable pour promouvoir l'quipe RNA naissante du LERI. Un autre aspect de notre travail aura t dobtenir ds 1988 laide de lANVAR pour notre projet de simulateur de RNA. Cette aide permettra entre autres choses dassurer ma participation au titre d'ingnieur de recherche pay sur contrat durant ma thse. Lorsque je soutiens celle-ci en dcembre 1990, une autre thse dmarre en RNA, et il y a quantit de stages de DEA, pratiquement tous dans un cadre contractuel avec une entreprise ou un organisme de recherche. En particulier, l'quipe RNA du LERI participe au dveloppement du systme de reconnaissance de caractres manuscrits ralis par ITECA (1990), systme qui deviendra au fil des ans, lun des piliers de son dveloppement (- de 10 personnes en 1990, + de 50 en 1997).

Dcouverte fin 1985 de lalgorithme de la rtro-propagation du gradient derreur qui permet lapprentissage sur des rseaux multicouche de perceptrons. Les premires applications, comme par exemple Nettalk en 1986 aux USA, sont rsolument mdiatiques. 1987 est lanne premier congrs international (IEEE) sur les rseaux de neurones artificiels. - ii -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

Entre 1991 et 1994, je suis chercheur-enseignant lEERIE (cole d'Ingnieur cre en 1988, dont fait partie le LERI). En particulier, jassure un enseignement en RNA denviron 60 heures. Le support de cours, TD et TP sera dit sous la forme dun livre par EC22 en novembre 1992. Grce Franois Blayo venu renforcer l'quipe RNA du LERI en 1992, jai la possibilit de participer aux dveloppements du robot Khepera3 lors d'un sjour (Professeur Invit) l'cole Polytechnique Fdrale de Lausanne (Suisse), dans le laboratoire de MicroInformatique du Professeur Jean-Daniel Nicoud. Ce robot miniature, dune fiabilit totale, sera dune grande aide pour tester nos RNA face au monde rel. Le dveloppement dun support de type carte auto-organisatrice pour lapprentissage par renforcement, qui constitue le sujet dune troisime thse faite au LERI, utilisera Khepera de manire intensive. L'ide dassocier une carte auto-organisatrice un robot nous avait t fourni quelques annes plus tt (1989-1990) par Yves Coiton, l'poque doctorant au Laboratoire de Neurobiologie Humaine sous la direction de Jean-Claude Gilhodes. A cette mme poque (1989), nous avions fond avec Yves Coiton une association qui a pour but de rassembler et faire se rencontrer les tudiants en thse dans le connexionnisme : lACTH4. Lors du rattachement de lEERIE l'cole des Mines d'Ales (EMA), le LGI2P5 devient le nouveau laboratoire de recherche en informatique de lEMA, avec une vocation affirme vers le transfert de technologie. Je rejoins donc la mme poque (fin 1994), le Dpartement de Recherche en Informatique, Automatique et Mecatronique (DIAM) de lIUSPIM (Univ. dAix-Marseille III) o je suis, toujours6, dans l'quipe de Norbert Giambiasi. Notre installation Marseille reoit lappui de la Rgion, la fois sous la forme de subventions d'quipements qui nous permettent de disposer de plusieurs robots Khepera et de stations de travail, et aussi sous la forme de participation dans un projet de recherche men avec la SOLLAC (Fos-sur-Mer). Durant mon sjour au DIAM, mon statut sera celui dATER et d'ingnieur de recherche pay sur contrat. La recherche contractuelle en RNA se fera principalement avec le projet Sachem-SOLLAC (avec qui nous collaborons depuis 1993). Un brevet est dailleurs en cours de dpt sur le thme des RNA pour la perception dans Sachem (conjointement avec Claude-Charles Thirion, directeur du projet Sachem, et Marc Le Goc7). Notre second important contractant sera la DCA-DCAN (Le Brusc, Var) : une quatrime thse ayant pour thme lapplication des RNA aux antennes

Suite la faillite de lditeur, et limpossibilit de faire rimprimer louvrage, celui-ci est maintenant accessible sur Internet (http://avalon.epm.ornl.gov/~touzetc/Book/Bouquin.htm). 3 Depuis, lequipe qui a developp Khepera au sein du LAMI-EPFL a cre la socit K-Team S.A. et emploie environ 4 personnes a temps plein (http://www.k-team.com/). 4 LACTH (Association des Connexionnistes en These) existe toujours (http://www.supelec-rennes.fr/acth/). Elle est forte de plus de 80 membres et, comme ses debuts, se runit chaque anne. Nous avions organis les journes Valgo 90 Port-Camargue (Gard). 5 Le LGI2P rassemble les effectifs du LERI et ceux du prcdent laboratoire de lEMA. 6 Le Professeur Norbert Giambiasi mayant propos de le suivre dans cette nouvelle affectation. 7 Ingnieur SOLLAC et, depuis, aussi professeur associ lIUSPIM. - iii -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

dhydrophones a t soutenue en 1997. Le doctorant, embauch par la socit Vibria, doit sous peu participer lindustrialisation des travaux RNA mens pour Sachem.

En aot 1997, je suis invit par le Dr. Jacob Bahren, directeur du Center for Engineering Science Advanced Research (CESAR) Oak Ridge National Laboratory (ORNL) dans le Tennessee (USA) venir effectuer un sjour de recherche post-doctorale. Je travaille dans l'quipe Robotique Collective dirige par Lynne Parker, au sein dun environnement matriel exceptionnel8. Je nen continue pas moins assurer un certain nombre de missions dans le cadre du DIAM, comme de participer l'organisation du congrs NEURAP (le successeur de NEURO-NIMES, qui se tient Marseille depuis 1994), et assurer la co-direction de la thse de Juan-Miguel Santos, inscrit en co-tutelle avec l'Universit de Buenos Aires (Argentine).

Par exemple, nous disposons de 4 robots Nomad 200 pour nos exprimentations. - iv -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

GRADES ET TITRES UNIVERSITAIRES

Baccalaurat section C (1981). DEUG A (Physique-Chimie), Univ. d'Aix-Marseille I (1983). Licence Neurosciences du Comportement, Univ. d'Aix-Marseille III (1984). Matrise Neurosciences du Comportement, Univ. d'Aix-Marseille III, mention AB (1985). DESS Informatique double comptence, Universit d'Aix-Marseille II, mention B (1986). DEA XIAO (Systmes Intelligemment Assists par Ordinateur), Univ. d'Aix-Marseille III, mention TB (1987).

Thse de doctorat Spcialit : Composants, Signaux et Systmes. Formation doctorale : Conception assiste des systmes informatiques, automatiques et micro-lectronique. Universit des Sciences et Techniques du Languedoc, Montpellier II, mention TH, soutenue le 14 dcembre 1990, directeur de thse : Prof. Norbert Giambiasi.

Qualification postuler sur les postes de Matre de Confrences (1993).

SITUATIONS SUCCESSIVES

1987-1990 : Ingnieur de recherche au LERI (laboratoire d'tude et Recherche en Informatique) de l'EERIE (cole pour les tudes et la Recherche en Informatique et lectronique, Nmes).

1991-1994 : Chercheur-enseignant au LERI-EERIE (Nmes). 1994-1996 : ATER l'IUSPIM (Institut Universitaire des Sciences Pour l'Ingnieur de Marseille). 1996-1997 : Ingnieur de recherche au DIAM (pay sur contrat), charg de cours l'IUSPIM. 1997-1998 : Chercheur invit dans le cadre des sjours de recherche post-doctorale au CESAR (Center for Engineering Science Advanced Research) ORNL (Oak Ridge National Laboratory, Tennessee, USA).

-v-

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

1. ACTIVITS SCIENTIFIQUES

La Vie nest pas un accident, elle est la consquence invitable de proprits de la matire et des interactions entre molcules aide par une absence complte de dlais respecter. Le dveloppement de la Conscience semble tout le moins plus hasardeux ; celui de lIntelligence (humaine) est, dans lopinion actuelle, un effet de bord dans lequel, bien sur, la nature humaine se plat.

Lhomme a entam trs tt la conqute de son environnement matriel, mais ce serait une erreur de croire quil na accord que trs rcemment une quelconque attention son ego cognitif. Ainsi, il est difiant de constater la qualit des travaux philosophiques de l'Antiquit (grecque) et, consquemment, le peu de progrs raliss depuis. En fer de lance de cette volont de se comprendre, nous trouvons aujourdhui les Sciences Cognitives (en direct continuation des Neurosciences, ou Sciences du Cerveau). LIntelligence Artificielle (IA) occupe une place importante au sein des Sciences Cognitives pour au moins deux raisons :

- Notre actuelle domination sur notre environnement matriel dcoule bien certainement de notre intelligence. Des recherches visant accrotre celle-ci dun artefact matriel (ou artificiel) semblent donc dsirables.

- La dmarche scientifique, hrite des sicles passs, impose d'exprimenter pour valider. La validation indiscutable dune notable comprhension de notre intellect se doit d'tre de recrer lIntelligence.

LIA est ne il y a dj quelques dcennies, cependant un regard quelque peu objectif se doit de constater que les rsultats ou retombes, mmes si elles sont loin d'tre ngligeables en termes conomiques, ne sont pas remarquables. Un tel constat ne doit cependant pas nous alarmer. Dans lintervalle de temps (100 ans au maximum), un certain nombre d'ides toutes faites9, de fausses analogies, da priori non explicites, etc., ont t
9

Ainsi, la solution aux problmes de lIA nest pas uniquement lie la puissance de calculs des ordinateurs. -1-

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

identifis. Des concepts nouveaux ont vu le jour et ont t explicit. Ils font sans aucun doute partie des prrequis indispensables une vritable comprhension de lIntelligence10. Paralllisme massif, calcul subsymbolique, auto-organisation sont des notions qui nous apparaissent non-naturelles (sic), qui vont lencontre du sens commun et des rsultats de notre introspection11. Plus grave, 4000 ans de tradition denseignement (une vingtaine d'anne a l'chelle individuelle) singnient dvelopper les12 capacits cognitives de lindividu en le dotant de Logique. Hors sil est une chose dont nous sommes srs, cest que lIntelligence nest pas logique13. Le chercheur en IA se doit donc de russir le difficile exercice de remettre en question ses mcanismes intellectuels, pour les adapter aux nouveaux paradigmes, tout en continuant respecter lorthodoxie logique dans la communication de ses travaux. Les Mathmatiques, confrontes ce mme type de problme il y a dj longtemps, ont dvelopp un langage adapt dans lequel la communaut mathmatique communique naturellement14 . Le progrs en IA est peut tre a ce prix : se doter desprits neufs et entrans penser avec ces concepts. Dans lattente, nous pouvons certainement prparer le terrain.

Les efforts mens avec les systmes base de connaissance ont permis de mettre en vidence leurs inadquations avec le monde rel, du fait de la question toujours ouverte relative au passage du numrique (capteur) au symbolique (symbols grounding problem). L'absence de rponse adquate a permis la rapide diffusion dune approche sub-symbolique (numrique) connue sous le nom de rseaux de neurones artificiels (ou connexionnisme).

Dfinition : Les rseaux de neurones artificiels (RNA) sont des rseaux fortement connects de processeurs lmentaires fonctionnant en parallle. Chaque processeur lmentaire calcule une sortie unique sur la base des informations qu'il reoit. Toute structure hirarchique de rseaux est videmment un rseau.

Bien entendu, les premiers travaux autours des RNA se sont cantonns quelques rgions de lespace des possibles. En particulier, les aspects temporels ont t ignor, le nombre mme d'lments (neurones et synapses) en jeu reste faible, la dynamique de fonctionnement du processeur lmentaire est ventuellement nonlineaire15 mais certainement pas chaotique, etc. Pourtant, mme simples, les travaux en RNA ont permis d'exprimenter et de comprendre les notions importantes de traitements parallles massifs,

dapprentissage sub-symbolique, dauto-organisation. Ils ont permis de plus, pour la premire fois,

10 11

Tout le monde saccorde reconnaitre sa multiplicit : il serait plus exact de parler des Intelligences. Il ny a, bien sur, pour personne meilleure Intelligence que la sienne. 12 Un nombre limite dentre elles. 13 A lexception de lIntelligence logique. 14 La place accorde aux Mathmatiques par lEnseignement en fait la priorit. Je nen veux pour preuve que le systme de notation du bac americain (1600 points maxi : 800 en Maths, 800 en Anglais). 15 Sigmode, gausienne, etc. -2-

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

de nous confronter avec des outils aux performances intressantes, mais non aisment dmontrables. Si lon saccorde penser que quelque chose que lon comprend ne peut pas tre intelligent, il est instructif de remarquer les efforts qui sont raliser : par les chercheurs pour expliciter autant que possible le comportement des RNA et par lindustrie pour valider aussi extensivement que possible leurs applications connexionnistes avant emploi.

Bien sur, quelques pionniers ont rsolument effectu leurs travaux de recherches en mettant directement en contact RNA et monde rel. Le choix dun systme sensori-moteur dans lequel embarquer le RNA avait dj un nom : robot. La Robotique na pas attendu les RNA, ni mme lIA pour faire ses dbuts. Cependant, elle aussi est bien loin des ses objectifs initiaux. Le robot industriel d'aujourdhui tient plus de lautomate que du Cyborg hollywoodien. Il pche principalement par son (manque) dIntelligence16. Ce manque de performance est d la volont de programmer le comportement du robot ; d'o lemploi de la programmation algorithmique en robotique, directement issue de la Logique. Ds le dbut des annes 1980, un certain nombre de chercheurs ont plaid pour une robotique diffrente, sans reprsentation de haut-niveau (i.e., symbolique). Le paradigme propos est de considrer un comportement comme lactivation squentielle de comportements lmentaires (simples). LIntelligence sexprime alors au niveau des mcanismes de slection et dactivation des comportements lmentaires. L encore, des mcanismes figs ou rigides ne permettent pas de prendre en compte la diversit et la nouveaut des situations rencontres. Si la Robotique tient raliser certains de ses objectifs, alors les mcanismes de slection, de mme que lacquisition des comportements lmentaires, doivent tre acquis automatiquement, en situation, selon les besoins ; cad par apprentissage.

Dfinition : Lapprentissage en robotique a pour objectif la modification automatique du comportement du robot pour amliorer son comportement dans son environnement.

Malheureusement, il nest pas facile de directement utiliser lapprentissage tel quil est mis en oeuvre dans les RNA (supervis ou auto-organisation) pour lapprentissage en robotique. En effet, lapprentissage supervis ncessite la pralable dfinition dun ensemble dexemples reprsentatifs du comportement recherch, tache difficilement conciliable avec les caractristiques de lapprentissage. Comment savoir lavance le comportement dsir (pour la gnration de la base dexemples) et dans le mme temps assurer l'amlioration automatique des performances comportementales ? Un compromis a t propose des les annes 1990, qui prne lutilisation dune fonction d'valuation gnrique17 des performances, appele fonction de renforcement. Cette fonction de renforcement permet une description qualitative18 (par opposition quantitative) du comportement recherch. La correcte description de cette fonction de renforcement est au coeur des questions poses par lapprentissage par
16 17 18

et aussi de capteurs et deffecteurs. Relativement indpendante de larchitecture du robot et de son environnement. Par exemple, ternaire : bon (+1), mauvais (-1), sans opinion (0). -3-

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

renforcement, avec celles relatives au traitement de nouvelles situations par rapport celles dj connues (gnralisation) et au transfert dinformation dans le temps (programmation dynamique). Aujourdhui, limplantation de lapprentissage par renforcement sur carte auto-organisatrices est une solution lgante et efficace au problme de la gnralisation, tandis que des algorithmes, tel que celui de la Bucket Brigade, le TD() ou le Q-learning, permettent de tenir compte des renforcements retards dans le temps. Les algorithmes gntiques sont aussi des algorithmes dapprentissage par renforcement, bien que ses tenants prfrent appeler fonction d'valuation19 la fonction de renforcement.

Les exemples dapprentissage par renforcement en robotique restent pour linstant modestes : vitement dobstacles, suivi de murs, retour au nid, exploration, ramassage, balayage, etc. Ils nen dmontrent pas moins la possibilit de synthtiser des comportements partir de la simple dfinition dune mesure de performance, dans un certain nombre de cas, plus simples crire que lalgorithme solution et dune plus grande gnricit. En particulier lorsque le monde rel est difficile modliser pralablement la mission, comme pour lexploration des autres plantes du systme solaire, le fond des ocans, ou, plus simplement, hors de l'atmosphre contrle de latelier de production.

Lacquisition et la dmonstration de comportements (intelligents) par un robot autonome est certainement un noble but. Pourtant, au mme titre que lon loue la notion du travail d'quipe face celle du travail individuel, il semble quun groupe de robots est dou de plus de possibilits quun seul individu. L encore, notre nature (humaine) et notre formation (scolaire) ne nous prparent pas au challenge de construire des systmes multi-robots. Nous avons bon espoir d'obtenir, au fil des exprimentations en robotique cooprative, des donnes importantes sur les notions de coopratif/collectif, apprentissage du groupe, rpartition/distribution automatique des taches et gnration automatique de plans daction.

La robotique cooprative est un sujet ardu, mais les gains sont la hauteur de la tache. Une meilleure comprhension des mcanismes qui permettent l'mergence dun comportement coopratif au sein dun groupe de robots doit ncessairement fournir des informations importantes, susceptibles d'clairer dun jour nouveau le comportement collectif dhommes et femmes travaillant en quipes. A court terme, il est ais de prvoir des gains de productivit pour lentreprise, ventuellement une diminution du stress individuel li un meilleur positionnement de chacun dans le groupe. A plus long terme, lon peut imaginer progresser ainsi sur le chemin qui nous mne a l'tape suivante de notre volution20 telle que celle revendique par certains auteurs de sciencefiction21: le groupe comme individualit.
19 20 21

Fitness rule (en anglais). Si tout va bien. T. Sturgeon en particulier. -4-

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

1.1 Rseaux de neurones squentiels (Thse 1987-1990)

L'histoire du domaine des rseaux de neurones artificiels appliqus aux Sciences Pour l'Ingnieur (SPI), aussi appel connexionnisme, est rcente. L'intrt gnral pour cette thmatique de recherche a t relanc en 1986, suite la dcouverte de l'algorithme d'apprentissage par rtropropagation du gradient d'erreur pour les rseaux multicouches. Cette avance a permis d'envisager l'application des techniques connexionnistes de rels problmes (par exemple industriels). Aujourd'hui, il est beaucoup plus difficile de recenser, in extenso, les domaines o le connexionnisme s'applique, que l'inverse. Toute application qui doit montrer des capacits d'apprentissage, de gnralisation et o l'on dispose d'exemples du comportement souhait est ligible. Les trois premiers grands domaines d'application sont : la vision (identification, classification, contrle qualit, etc...), le traitement du signal (reconnaissance de la parole, sparation de sources, contrle, etc...) et l'aide la dcision (prdiction, diagnostic, estimation, etc...).

La ralisation d'une application selon une approche connexionniste implique la synthse d'une fonction de mise en correspondance des exemples d'entre-sortie au cours de la phase d'apprentissage. L'apprentissage permet d'viter la gnration, coteuse, par un oprateur humain d'un algorithme solution, dont la validit est limite par des conditions d'utilisation prcises (contraintes environnementales en particulier).

Les travaux menes autour du dveloppement d'applications utilisant une approche IA ont permis de dgager trois problmes fondamentaux : - Le passage de valeurs numriques (donnes capteurs) des valeurs symboliques reste le point d'tranglement que n'arrivent pas franchir les systmes base de connaissances. Une approche qui vite le problme par un traitement numrique des informations est souhaitable. - La tendance au niveau applicatif est la prise en compte, dans le cahier des charges lui mme, de l'htrognit des capteurs, du vieillissement et d'une ncessaire adaptabilit de l'application aux conditions locales d'utilisation. - Toutes les connaissances expertes ne sont pas formalisables par une approche base de rgles. Il existe des connaissances expertes, qualifies d'intuitives, qui font partie du savoir-faire des entreprises, et qu'il faut capitaliser (stockage et utilisation).

L'approche connexionniste rpond, au moins en partie, ces conditions. Aussi, une communaut de chercheurs connexionnistes s'est rapidement constitue. Les modles neuronaux proposs aujourd'hui sont particulirement reprsentatifs de la grande varit des domaines d'origine des chercheurs impliqus. Il manque une unit dans la dmarche scientifique qui a pour objet la gnration, la comprhension et l'utilisation de ces modles. -5-

HABILITATION DIRIGER DES R ECHERCHES Dfinition du contexte

C LAUDE TOUZET

La trs grande majorit des modles de rseaux de neurones artificiels sont dots d'un fonctionnement combinatoire : la sortie du rseau est uniquement dpendante de l'entre actuelle. Il existe cependant un grand nombre d'applications o la rponse doit tre fonction des entres actuelle et passes. Ainsi, les modles connexionnistes montrent de grande aptitude la reconnaissance de formes, mais la reconnaissance de mouvements vus comme une succession de formes est un domaine d'applications peu explor, bien que trs demandeur. D'autres implications importantes sont attendues dans les domaines de la prdiction d'lments de squences (mtorologiques par exemple) et la gnration de squences (musicales par exemple). Quelques modles connexionnistes ont t proposs pour traiter des problmes de nature squentielle. Cependant, aucun n'a t prsent dans un cadre formel permettant de connatre a priori ses proprits et donc ses performances. De fait, une dmarche guide par le cahier des charges de l'application, dfinissant les proprits et performances du modles de rseaux de neurones artificiels utiliser, est impossible.

Les approches proposes pour tendre le domaine d'application des rseaux neuronaux aux problmes squentiels se regroupent en trois classes. La premire utilise un recodage spatial des entres temporelles. Les limitations dcoulent videment du nombre restreint d'entres pouvant tre prise en compte. Le fonctionnement du rseau est combinatoire. La seconde approche fait appel un codage de l'information temporelle localement sur le neurone. En fait, il y a ajout d'une boucle de rtroaction sur le neurone. Le comportement du rseau reste combinatoire, moyennant quelques amnagements des algorithmes d'apprentissage. La dernire classe regroupe les rseaux boucls. Ces modles sont les plus efficaces. Nous distinguons au sein de ceux-ci les rseaux squentiels, qui utilisent le concept d'tat interne. Cette approche au vu des rsultats dj obtenus et des concepts manipuls, apparat la plus prometteuse pour rsoudre des applications squentielles. Les modles les plus performants et les plus connus sont, dans un ordre chronologique, celui de Jordan et celui d'Elman.

L'architecture du modle de Jordan est multicouche. La dernire couche est reboucle sur la premire (fig. 1). Les cellules d'entre se rpartissent en deux groupes : les cellules de plan et les cellules d'tat. Les cellules de sortie sont reboucles sur les cellules d'tat par des connexions de poids fixes, de mme pour les cellules d'tat qui rebouclent sur elle-mme par des connexions de poids fixes. L'tat interne est dfini par l'ensemble des cellules de sortie et des cellules de plan.

-6-

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

i o(t) o(t+1)

retard

Figure 1. Rseau propos par Jordan

L'architecture du modle d'Elman est lgrement diffrente de la prcdente. Il sagit dune structure multicouche (fig. 2.) o les boucles de rtroaction relient la couche cache avec les cellules dentre. La couche d'entre consiste en deux ensembles de cellules, les cellules de contexte et les cellules d'entre. Il y a autant de cellules caches que de cellules de contexte. Chaque cellule cache est relie une seule cellule de contexte par une connexion fixe, de poids gal 1. L'tat interne est dfini par l'ensemble des cellules de la couche cache.
c(t+1) i(t) c(t) o(t+1)

retard

Figure 2. Rseau propos par Elman

Pour ces deux modles, l'algorithme d'apprentissage est la rtropropagation de gradient. Les performances de chacun de ces deux modles sont dtermines par l'exprimentation. Leurs spcificits applicatives ne peuvent qu'tre dduites d'exprimentations que l'on espre reprsentatives et exhaustives.

-7-

HABILITATION DIRIGER DES R ECHERCHES Dfinition de l'tude - Rsultats

C LAUDE TOUZET

i(t) s(t+1) Retard s(t) d l s(t) o(t)

Figure 3. Machine squentielle connexionniste

Le modle de la machine squentielle connexionniste que nous avons dvelopp (fig. 3) constitue une volution logique des approches connexionnistes du squentiel. Inspir par le modle de machine squentielle tel que le dfinit la thorie des Automates, il reprsente une gnralisation d'une classe de modles : les rseaux squentiels. Il y a dcoupage en deux blocs fonctionnels, la fonction de transition et la fonction de sortie. Chaque fonction est ralise par un rseau multicouche, permettant ainsi d'apprendre des fonctions de mise en correspondance non-linaires. L'apprentissage est bas sur l'algorithme de la rtropropagation de gradient modifi. Trois algorithmes d'apprentissage diffrents ont t dvelopp selon les informations disponibles au niveau du cahier des charges de l'application rsoudre.

La machine squentielle connexionniste permet non seulement de dcrire les diffrentes approches dans un cadre plus gnral, mais aussi de prdire et d'expliquer les applications possibles de chacune : les fonctions de transition et de sortie y sont plus explicites. Ainsi, le modle de Jordan est une machine d'tats connexionniste, il n'y a pas de fonction de sortie. La fonction de transition est ralise par un rseau multicouche (3 couches). Il y a une connexion rcurrente de chacun des neurones d'tats internes sur lui-mme. Ce modle se comporte comme une machine d'tat asynchrone. Pour un vecteur d'entre donn, on observe l'volution de la machine, qui passe par plusieurs tats transitoires pour ventuellement aboutir dans un tat stable.

Pour sa part, le modle d'Elman correspond une machine squentielle connexionniste o les rseaux ralisant les fonctions de transition et de sortie sont des rseaux de neurones deux couches. Il n'y a pas d'entre primaire sur la fonction de sortie, c'est donc un modle de type machine de Moore. La fonction de transition et la

-8-

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

fonction de sortie sont apprises. Cependant, comme il n'y a qu'une seule couche de poids modifiables pour chaque fonction, seules peuvent tre ralises des fonctions linairement sparables. Par rapport la machine squentielle connexionniste, ce modle ne peut pas raliser dassociations non-linaires au niveau de la fonction de transition.

Le modle de Jordan et celui d'Elman prsentent certaines limitations que nous avons explicites. Lapproche suivie par leurs auteurs est empirique : ayant imagin une structure de rseau, ils vrifient quelle rpond, ou non, au problme. La dmarche qui a procd au dveloppement de la machine squentielle connexionniste est inverse. Une structure gnrale pour la rsolution de problmes de nature squentielle est propose, structure que lon adapte pour des applications particulires. De fait, la machine squentielle connexionniste est une gnralisation des rseaux de neurones squentiels. Les travaux exprimentaux que nous avons ralis l'aide du logiciel SACREN 22 montre des proprits nouvelles par rapport la machine squentielle (logique) :

- Gnralisation de la reconnaissance des squences de valeurs discrtes alors que l'apprentissage a t ralis sur des valeurs binaires. - Rduction automatique de la table des tats. - Possibilit de retracer l'histoire des squences soumises. - Synthse de l'automate sans connaissance priori du graphe des tats. - Dtermination automatique de la nature squentielle ou combinatoire d'un problme.

22

SACREN : Systme d'Aide au Choix d'un REseau de Neurones a t dvelopp en Pascal sur station de travail Unix. Il permet de pallier au manque d'informations thoriques dans le domaine des rseaux connexionnistes en faisant appel de faon exhaustive l'exprimentation. SACREN est bas sur la simulation vnementielle, qui permet un gain de place mmoire important dans le stockage des architectures de rseaux connexions non compltes (multicouches par exemple), une vitesse d'excution leve car seuls les lments qui ont chang d'tat sont remis jour (nombre minimal de calculs), possibilits de grer des dlais au niveau des connexions (et donc tous types d'architectures est possible, en particulier boucles). Le dveloppement de SACREN a t l'objet d'un contrat avec l'ANVAR. Un certain nombre de modles sont disponibles en bibliothques comme les mmoires associatives, les cartes auto-organisatrices, les rseaux multicouches rtropropagation de gradient et les modles de rseaux squentiels (dont la Machine Squentielle Connexionniste). -9-

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

1.2 Apprentissage par renforcement sur structure neuronale (1991-1993)

Dans le cadre de mes activits post-doctorales, je me suis intress la coopration de plusieurs rseaux de neurones artificiels pour deux raisons. D'une part, dans le cadre des travaux prvus sur la comprhension et les possibilits d'utilisation du connexionnisme, il tait ncessaire d'envisager l'implication au sein d'une application de plusieurs rseaux et non plus d'un seul, autant pour des raisons de modularit (dveloppement, rutilisabilit) que pour des raisons de rduction de la complexit par une approche en dcomposition de sousproblmes. D'autre part, l'utilisation de la Machine Squentielle Connexionniste mise au point durant mes travaux antrieurs m'avait dj permis de mettre en oeuvre deux rseaux de neurones coopratifs, l'un pour la fonction de d'tat, l'autre pour la fonction de sortie, au sein d'une application unique de reconnaissance de squences. L'exprience acquise au cours du dveloppement d'algorithmes d'apprentissage pour la Machine Squentielle Connexionniste tait un atout important pour la russite de ce projet. Il tait donc tout naturel que je poursuive mon activit scientifique dans ce sens.

S'il est vrai que de nombreux modles de rseaux de neurones artificiels et de nombreux algorithmes d'apprentissage existent dans la littrature, peu de travaux ont t mens autour d'une coopration de rseaux pour raliser une application. Ceci dcoule de l'impossibilit de raliser sur les diffrents rseaux impliqus une distribution des informations quantitatives (gradient d'erreur par exemple) qui permette l'apprentissage supervis. L'apprentissage par pnalit/rcompense, aussi appel apprentissage par essais et erreurs, manipule, non pas des grandeurs quantitatives pour raliser l'apprentissage, mais des grandeurs qualitatives. Il s'agit, le plus souvent, d'un critre binaire qualifiant le bon ou mauvais comportement du systme. Il nous est apparu que l'apprentissage par essais et erreurs permettait de rsoudre le problme de la rpartition de l'information critique entre les diffrents rseaux impliqus. Je me suis donc attach dmontrer l'intrt de cet apprentissage qualitatif pour une structure multi-rseaux. C'est le dveloppement et la mise au point d'une implantation neuronale de l'apprentissage par essais et erreurs pour structures multi-rseaux qui ont constitu l'essentiel de mon activit scientifique post-doctorale.

- 10 -

HABILITATION DIRIGER DES R ECHERCHES Dfinition de l'tude - Rsultats

C LAUDE TOUZET

La rsolution d'un problme par un rseau de neurones peut se concevoir comme la dcouverte par apprentissage de la "bonne" relation d'entre/sortie. Lorsque cette relation est complexe, le problme doit tre dcompos en sous-problmes terminaux. Chacun des comportements des sous-problmes terminaux est alors ralis par un rseau de neurones, que nous appelons rseau de base. Il faut donc dterminer, pour un problme complexe donn, d'une part la structure d'interconnexions des rseaux de base et d'autre part, les comportements que doivent raliser chacun de ces rseaux. L'apprentissage peut tre ralis hors contexte si l'on connat pour chacun des rseaux le comportement raliser, ou en contexte, partir de la seule relation globale d'entre/sortie23. Nos travaux relatifs au dveloppement de structures multi-rseaux se sont drouls en quatre tapes : 1- tude des proprits applicatives des diffrents modles de rseaux aujourd'hui disponibles, 2- dfinition de critres permettant d'associer ces diffrents modles les uns aux autres, 3- recensement des types de structures permettant les associations, 4- dveloppement d'une technique d'apprentissage sur ces nouvelles structures.

l - Cette tape est relative aux spcificits applicatives des divers modles de rseaux de neurones disponibles. Nous avons tudi (1987-1993) les modles suivants : les rseaux multicouches, les cartes auto-organisatrices, les mmoires associatives, les rseaux de type ART. La bonne comprhension, et donc la bonne utilisation des modles connexionnistes, passe par une exprimentation exhaustive, telle que celle requise par des dveloppements applicatifs. Dans tous les cas cits, l'tude de ces modles a t ralis au cours de recherches contractuelles (cf. contrats).

2 - Dans cette tape, nous avons cherch caractriser le fonctionnement des modles connexionnistes. L'objectif est de pouvoir spcifier les caractristiques associatives des modles neuronaux. Nous avons retenu huit critres de la thorie de la modlisation/simulation :

temps discret / continu dterministe / stochastique invariance / non invariance par rapport au temps modle instantan / non instantan

variables discrtes / continues modle autonome / non autonome combinatoire / squentiel synchrone / asynchrone

23 Dans

l'approche lie au dveloppement de la Machine Squentielle Connexionniste que, la structure est fixe volontairement comme celle d'une machine squentielle et nous avons tudi les possibilits d'apprentissage hors contexte lorsque l'on connat pour le rseau de transition et le rseau de sortie les comportements raliser, et les possibilits d'apprentissage en contexte, lorsque le graphe d'tats de l'automate synthtiser est inconnu. - 11 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

Ces critres nous ont permis de faire les constatations suivantes :

- La plupart des rseaux de neurones sont, aujourd'hui, des modles temps discret. L'unique raison semble tre la facilit de programmation et de simulation.

- Les variables descriptives du modle peuvent tre soit discrtes, soit continues. Il ne s'agit pas l d'un critre trs utile. Les rseaux neuronaux contiennent souvent des variables continues : les poids des connexions. Notons cependant qu'un rseau dont les variables de sortie sont continues peut fournir une infinit de rponses. Inversement un rseau dont les sorties sont discrtes ne peut fournir qu'un nombre fini de rponses.

- Certains modles, tel que les rseaux apprentissage par pnalits/rcompenses, sont stochastiques. La phase d'apprentissage rend le fonctionnement de ces rseaux dterministe.

- Un modle autonome, dans le cas des rseaux de neurones, est un rseau sans entre. Les variations de la sortie rsultent de phnomnes internes gnrs par des neurones oscillatoires par exemple.

- La plupart des rseaux utiliss par les SPI sont des modles invariants par rapport au temps, sauf dans le domaine de la modlisation de rseaux de neurones biologiques.

- Les rseaux combinatoires avec retards sur les connexions, tels ceux ncessits par les boucles, sont non instantans.

- La plupart des rseaux sont considrs, implicitement, comme synchrones : toutes les variables d'tat voluent la mme date.

Remarquons que l'on peut utiliser un neuvime critre selon la nature implicite ou explicite du temps dans les modles. Souvent le temps est implicitement confondu avec la notion d'itration. Cependant, cette classe de modles temps implicite regroupe la fois les modles combinatoires instantans et les modles squentiels synchrones temps discret, ce qui la rend peu prcise.

Ces huit critres nous ont permis de dfinir plus prcisment chacun des modles de rseaux de neurones artificiels. Leur utilit est vidente lorsqu'il s'agit d'envisager les possibilits de liaisons srie ou parallle entre rseaux. Ils ont de plus permis de recenser un certain nombre de fonctionnement "manquants", dont l'absence

- 12 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

semble uniquement lie au fait que la proposition des modles et de leur fonctionnement est le reflet d'une mthode de conception au coup par coup. Ce constat confirme le besoin d'une dmarche mthodologique scientifique pour le domaine du connexionnisme.

Le travail ralis dans cette tape est partie intgrante d'une thse co-encadre (1990-1993, O. Sarzeaud) sur l'tude et le dveloppement de rseaux de neurones artificiels modulaires.

3 - Notre tude des diffrentes structures d'interconnexions de rseaux a dbute par une analyse bibliographique visant regrouper et rpertorier toutes les possibilits d'interconnexions, depuis les plus classiques (srieparallle) jusqu'aux structures intgrant des mcanismes de contrle (champs de potentiels, addition vectorielle, hirarchique, etc. ...). Nous avons port un intrt tout particulier ces dernires car nous pensons qu'il est possible de remplacer la fonctionnalit de la structure de contrle centrale (superviseur) par un algorithme d'apprentissage adquat : l'apprentissage par pnalit/rcompense, objet de l'tape suivante. Un exemple dcrit plus loin illustre la possibilit d'viter la prsence d'un gnrateur central de formes locomotrices pour l'apprentissage de la marche hexapode (cf. 1.3).

4 - L'apprentissage par pnalit/rcompense nous est apparu comme une solution technique permettant de rpartir l'information critique entre les diffrents rseaux de la structure d'interconnexion. Originellement propos en 1985, il s'applique toute architecture de rseau, la seule contrainte est de disposer de neurones de sortie stochastiques binaires. Une fonction de renforcement analyse le comportement du systme et fournit chaque itration un signal de renforcement binaire qualifiant le comportement. Il ne s'agit plus, comme dans le cas de l'apprentissage supervis, de diriger l'apprentissage par des grandeurs quantitatives significatives de l'erreur, mais plutt de piloter l'apprentissage au moyen d'une information qualitative. Cette information qualitative est la disposition du systme dans son ensemble. Dans notre cas, ce systme est une interconnexion de rseaux. Chaque rseau reoit la mme information qualitative dans le cas d'une unique fonction de renforcement commune. Il peut aussi exister une fonction de renforcement spcifique par rseau, nous retrouvons ici une dclinaison de l'apprentissage hors-contexte. L'avantage d'une rpartition d'information qualitative rside dans l'absence de dilution d'information, l'inverse de celle observe avec l'apprentissage supervis. La modification des poids est ralise par la classique mthode du gradient. La figure 4 rsume le fonctionnement de l'algorithme.

L'tape 4 de ce travail est l'origine d'une thse co-encadre (1992-1996, S. Sehad) sur l'tude et le dveloppement de modles connexionnistes apprentissage par renforcement.

- 13 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

Sortie

Simulateur retour +/d'environnement

Entres

Figure 4. Algorithme d'apprentissage par pnalit/rcompense

Le problme considr pour illustrer nos travaux sur la coopration de rseaux de neurones est l'acquisition de la marche pour un robot hexapode. La marche tant un processus squentiel, chacune des pattes du robot est pilote par une machine squentielle connexionniste. La structure comporte donc six machines squentielles en parallle, soit douze rseaux de neurones. Lentre de chacune des machines est un ordre du type marche ou stoppe. La fonction de renforcement analyse le comportement du robot et dtermine s'il y a chute ou avance. Dans le premier cas, un retour ngatif est renvoy vers tous les rseaux de neurones. Dans le second cas, un retour positif est envoy. En quelques centaines ditrations, les six machines squentielles se coordonnent de faon produire une marche tripode classique (une itration correspond une configuration des pattes). Il y a dix marches possibles, qui sont toutes dcouvertes. L'espace de recherche contient 46656 successions de trois mouvements.

Une dmonstration logicielle de cette application en C, sur station de travail Silicon Graphics, permet une visualisation 3D de la dcouverte de la marche. Ce logiciel d'animation a t retenu par le Ministre de la Recherche et de l'Espace pour tre prsent dans ses jardins parisiens lors des journes de la Science 1993. Une collaboration avec l'cole des Mines d'Ales a permis de raliser un robot mobile dot de six pattes, des capteurs et de l'algorithme prcdemment cit, qui valide nos rsultats face au monde rel. Une seconde version pour Macintosh, ralis avec un groupe d'lves de l'cole, a remport le concours organis par Apple France : Programmer un comportement intelligent (1993).

- 14 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

1.3 Synthse neuronale de comportement adaptatifs (1994-1997)

La poursuite de mes activits scientifiques sur le thme de la synthse neuronale de comportement adaptatifs est justifie par les lments suivants. Tout d'abord, la communaut scientifique a entrin l'intrt port aux systmes multi-rseaux et aux systmes hybrides face aux problmes soulevs dans l'introduction gnrale, c'est dire passage du numrique au symbolique, htrognit du monde rel, adaptabilit, capitalisation de savoir-faire, etc... D'autre part, pour concluant que soient nos rsultats, ceux-ci n'ont t vrifi qu'en simulation. La simulation est une tape normale du dveloppement d'une application industrielle, cependant elle ne possde pas le mme degr de validation qu'une exprience mene dans le monde rel. Une tape importante de notre travail implique donc le dveloppement et la mise au point de systmes multi-rseaux en prise directe avec le monde rel.

Durant un sjour de deux mois (1993) comme professeur invit l'EPFL (Lausanne, Suisse), j'ai dcouvert avec le robot Khepera une plate-forme d'exprimentation idale. J'ai particip aux dveloppements logiciels qui accompagnent Khepera et j'ai pu vrifier que l'implantation de nos algorithmes d'apprentissage par renforcement sur structures neuronales est aise. L'utilisation de ce robot permet de vrifier l'intgration par les rseaux de neurones de l'htrognit des capteurs, des imperfections de fonctionnement des effecteurs et de l'extrme diversit (situations, bruit) rencontres dans le monde rel.

Un second intrt de l'utilisation d'un robot est li son caractre pdagogique. Le transfert de nos rsultats de recherche vers la communaut scientifique, le monde industriel et le public24, est facilit par ce mdia.

Il est important de noter que notre domaine de recherche n'est pas la Robotique, et que nos rsultats ne se comparent pas. Notre objectif initial est de dvelopper et de tester nos rsultats de recherche au sein d'un environnement htrogne, imprvisible et changeant comme, par exemple, le monde rel. Par dfinition, un robot est aujourd'hui l'outil idal pour intgrer et tester nos dveloppements. Le nombre d'exprimentations aujourd'hui possibles avec un robot est rduit, ce qui nous conduit souvent effectuer des exprimentations similaires celles des roboticiens. Cependant, nos motivations et l'interprtation de nos rsultats sont diffrents. Pour notre part, il s'agit de valider des capacits d'apprentissage et de gnralisation dmontrs par les rseaux de neurones artificiels impliqus et non de trouver des solutions des problmes de robotique.

24 Ainsi

que le dmontre notre victoire au concours national Apple (Nunc Est Programmandum, 1993) sur le thme de la programmation d'un comportement intelligent. Ce logiciel, baptis ANTROID, montre un robot hexapode munis d'un rseau de neurones artificiels apprenant marcher par renforcement. - 15 -

HABILITATION DIRIGER DES R ECHERCHES Dfinition de l'tude - Rsultats

C LAUDE TOUZET

En continuit de nos travaux sur l'apprentissage par pnalit/rcompense, nous nous sommes intress l'apprentissage par renforcement. L'apprentissage par renforcement ralise la synthse d'une fonction de mise en correspondance entre les situations et les actions qui maximise un signal de renforcement (positif). Au mme titre que l'apprentissage par pnalit/rcompense, l'apprentissage par renforcement fait appel des critres qualitatifs pour raliser l'apprentissage.

Historique L'apprentissage par renforcement est tout la fois un sujet nouveau et ancien pour lIntelligence Artificielle. Le renouveau date des annes 1980, avec dans la foule la proposition dune version neuronale par Barto et al. en 1985. En 1989, Watkins propose le Q-learning qui est vraissemblablement lalgorithme le plus tudi. Il existe plusieures autres mthodes d'apprentissage par renforcement telles que le TD() et le AHC.

Objectif Lapprentissage par renforcement est lapprentissage dune fonction de mise en correspondance entre des situations et des actions maximisant un signal de renforcement. C'est un apprentissage par essai et erreur. En effet, une fonction habituellement alatoire permet de parcourir les diffrentes situations (essais). Des heuristiques, cres par loprateur humain, permettent de qualifier chaque action entreprise par rapport chaque situation (erreur). L'objectif est d'obtenir un comportement acquis par lagent qui soit le plus rcompensant possible. Le signal de renforcement est un critre qualitatif (par exemple binaire par opposition un signal quantitatif). La qualification des combinaisons nest pas toujours immdiate. Elle peut tre retarde dans le temps car dpendante des tats futurs. Lorsque le signal de renforcement n'est disponible quaprs une longue squence d'actions, comment noter individuellement chacune des actions ? L'un des apports de l'apprentissage par renforcement rside dans la possibilit de mmoriser une information squentielle au sein d'une implantation combinatoire.

Algorithme : le Q-learning Le Q-learning associe chaque paire de situation-action une valeur dutilit. Trois fonctions diffrentes sont impliques : mmorisation, exploration et mise jour (Fig. 5). En rponse la situation actuelle, une action est propose par la mmoire de lagent. Cette action est celle qui prsente la meilleure probabilit de renforcement positif (rcompense). Cette proposition est cependant modifie pour permettre une exploration extensive de l'espace des paires de situation-action. Aprs l'excution de l'action par le robot dans le monde rel, une fonction de renforcement, imagine par un oprateur humain, fournit une valeur de renforcement. Cette valeur, un simple critre qualitatif (+1, -1 ou 0), est utilise par l'algorithme d'apprentissage pour ajuster la valeur (Q) dutilit associe chaque paire de situation-action. L'apprentissage est incrmental car l'acquisition des exemples est

- 16 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

ralise squentiellement dans le monde rel. La qualification des paires de situation-action nest pas toujours immdiate: seul un petit nombre de cas sont suffisamment signifiants pour la fonction de renforcement (+1 ou -1).

(situation, action, Q value) Internal state

Evaluation function

Update function Reinforcement Reinforcement function

Action

Situation

World

Figure 5. Modle gnral pour les algorithmes de renforcement (Q-learning)

Rsultats thoriques Il a t dmontr que lapplication de lquation suivante, de mise jour des valeurs dutilit (Q), permet la synthse dun comportement optimal : Q(st , at )= Q(st , at ) + (r + .max aQ(st +1 , a ) - Q(st , at )) Q(st , at ) est l'utilit d'une action particulire at dans une situation donne st, r le signal de renforcement envoy par la fonction de renforcement, et des constantes positives (1) Le dernier terme de cette expression est une estimation de l'erreur ralise entre la prdiction de la valeur d'utilit attendue et la valeur courante Q(st , at ). La prdiction comprend le retour instantan r plus la valeur maximale dutilit que lon peut esprer du futur, reprsente par la valeur dutilit maximale pour la situation suivante (quelquesoit laction a ) max aQ(st +1 , a ). La valeur Q maximale suivante est donc considre comme la valeur dutilit maximale possible pour le futur. Cette rgle de mise jour a pour effet de propager le renforcement reu pour une paire de situation-action particulire (st +1 , argmaxa Q(st +1 , a )) d'autres paires (ici, Q(st , at )). Il s'agit donc d'une rtropropagation des renforcements reus dans le temps (les valeurs t +1 influent sur le calcul des valeurs la date t ). A lavenir, si lagent se retrouve dans la mme situation st, la remise jour de la valeur dutilit qui vient davoir lieu pour laccomplissement de laction at laidera certainement dans la slection de laction la plus rcompensante.

- 17 -

HABILITATION DIRIGER DES R ECHERCHES Convergence

C LAUDE TOUZET

Laptitude de lapprentissage construire le comportement optimal a t dmontr dans le cas dune implantation sous forme de tableau (autant de lignes que de situations, autant de colonnes que dactions, les cases de la matrice sont les valeurs Q), pour peu que chaque paire de situation-action soit vu un nombre infini de fois.

Les difficults rencontres dans la mise en oeuvre de ce type d'apprentissage rsultent du fait que l'espace des situations possibles combin avec celui des actions potentielles est si grand, qu'une exploration exhaustive de toutes les paires de situation-action est impossible, de mme qu'une mmorisation exhaustive. Cest sur ces points que nous avons port nos efforts.

MISE EN OEUVRE EN ROBOTIQUE

Mme un robot dt dun petit nombre de capteurs (N_capteurs) de rsolution (D) est capable de percevoir un grand nombre de situations diffrentes N_situations = ((2) D)N_capteurs . Celles-ci se combinent avec les actions potentielles (N_actions) pour dfinir le cardinal du extrmement grand espace de recherche des comportements potentiels : (N_actions) N_situations . Dautre part, un robot est par dfinition un artifact matriel dont les contraintes mcaniques ne permettent pas plus de quelques mouvements par seconde (moins dune dizaine habituellement). Cette contrainte ajoute la dure de vie des batteries (habituellement quelques heures) ne permet pas denvisager plus de quelques milliers de mouvements par exprience. Il faut donc obligatoirement gnraliser partir des informations acquises, et essayer dacqurir les informations les plus pertinentes. Nos travaux ont port en particulier sur la dveloppement dune implantation neuronale du Q-learning qui autorise une bonne gnralisation. Durant la mme priode, des algorithmes ont t propos par ailleurs pour optimiser lexploration (par exemple Queue-Dyna).

Mmorisation/Gnralisation Plusieurs amliorations des implantations du Q-learning ont t propos pour rpondre au problme pos par la gnralisation. Mahadevan et al. utilisent une distance de Hamming pour gnraliser entre des situations similaires. Les mmes auteurs utilisent aussi des clusters pour gnraliser entre paires de situation-action similaires. Sutton propose l'architecture Dyna qui amliore la remise jour de la mmoire par la rutilisation des expriences dj rencontres. Pour toutes ces amliorations, la gnralisation est limite des critres syntaxiques (entre situations) ou semi-smantiques (clusters de situation-action).

Les implantations neuronales du Q-learning sont peu nombreuses et impliquent uniquement des rseaux multicouches (en 1994). Dans ce cas, l'algorithme de remise jour est un algorithme de descente de gradient

- 18 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

d'erreur. Un signal d'erreur sur les neurones de sortie doit donc tre dfini. La dfinition de cette erreur est limite aux cas simples o seules deux actions sont possibles. De fait, Lin propose le modle QCON : une implantation sur perceptron multicouche de l'algorithme du Q-learning qui prsente pour particularit de n'avoir qu'un unique neurone de sortie. Il y a donc autant de rseaux QCON qu'il y a d'actions potentielles. Ce faisant, la gnralisation entre paires de situation-action est impossible. D'autres implantations sur rseaux multicouches ont t propos, notamment par notre quipe, mais elles ne sont pas encore satisfaisantes. De plus, il est impossible d'interprter explicitement les connaissances acquises par un rseau multicouche. Ce qui, lorsque l'apprentissage s'est correctement droul, est une limitation l'emploi de la solution trouve par le rseau.

Nous avons tent d'viter ce problme de gnralisation et d'interprtation par l'utilisation de carte autoorganisatrice pour l'implantation du renforcement. Ce dveloppement constitue le coeur du travail prsent dans la thse de S. Sehad (soutenue en 1996).

Une carte auto-organisatrice est utilise pour stocker les valeurs Q. La phase d'apprentissage associe chaque neurone de la carte une paire de situation-action et sa valeur Q. C'est une mthode de regroupement des tats qui implique des critres de similarit syntaxique et de localit. Le nombre de paires mmorises est gal au nombre de neurones. La proprit de voisinage de la carte de Kohonen permet de gnraliser entre paires de situation-action similaires. A la diffrence de l'implantation sur perceptron multicouche, l'interprtation des poids est ici possible. De plus, si un comportement correct est synthtis (cad. seuls des renforcement positifs ou nuls sont reus), alors tous les neurones codent des valeurs Q positives. Cette dernire proprit permet l'optimisation des connaissances mmorises. La carte auto-organisatrice est utilise de la manire suivante : la meilleure action entreprendre dans une situation donne est fournie par le neurone qui montre la distance la plus courte avec la situation d'entre et une valeur de renforcement Q gale +1. Le neurone slectionn correspond un triplet (situation, action, valeur Q). C'est cette action particulire qui devrait offrir la meilleure rcompense dans la situation actuelle.

L'algorithme d'apprentissage remet jour le poids correspondant la valeur Q et aussi les poids relatifs la situation et l'action. C'est le neurone reprsentant la situation et l'action effectivement ralise qui est slectionn. La mesure de distance utilise est diffrente de celle utilise par de la fonction d'exploration. Elle inclut les vecteurs de situation et d'action, mais pas la valeur de renforcement Q. En mme temps que le neurone slectionn, ses quatre voisins sont aussi remis jour. Durant l'apprentissage, l'influence sur les voisins dcrot proportionnellement l'inverse du nombre d'itrations.

- 19 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

La fonction de mmorisation agit sur les poids du rseau de neurones artificiels. La taille mmoire requise par le systme pour stocker les connaissances est dfinie, a priori, par le nombre de connexions dans le rseau. Elle est indpendante du nombre de paires de situation-action explores, la diffrence dune implantation matricielle.

Comparaison entre implantations non-neuronales et neuronales Les exprimentations menes avec le robot Khepera se dplaant dans un environnement rel montrent que l'implantation sur carte auto-organisatrice du Q-learning requiert moins de mmoire (nombre de rels) et apprend plus vite que toutes les autres25. Le comportement synthtiser dans ce cas prcis est un comportement d'vitement d'obstacles. Les rsultats de la table 1 dmontre que cette implantation du renforcement est simple, rapide et efficace.

Q-learning Mmoire Nbre d'it. Dure 6400 7500 55 mn

+ Hamming 6400 3500 25 mn

+ clusterisation 1.6 10 6 4000 30 mn

Dyna-Q 6400 6000 45 mn

Multicouche 56 2000 8 mn

carte 176 500 2 mn

Table 1. Comparaison de plusieurs implantations du Q-learning lors de la synthse d'un comportement d'vitement d'obstacle.

Devant le succs rencontr par l'implantation l'aide de carte auto-organisatrice, nous avons dmarr en 1995 une thse co-encadre en co-tutelle avec l'Universit de Buenos-Aires (Argentine) sur l'implantation du renforcement sur des rseaux fonctions radiales de base (RBF). Les rseaux RBF prsentent des proprits intressantes de couverture de l'espace de sortie par des valeurs relles (les fonctions de transition sont des gaussiennes) alors que les cartes auto-organisatrices utilisent des valeurs discrtes. La dfinition de la fonction de mise en correspondance entre situations et actions pourrait tre plus fine, plus rapide et plus efficace. Dans le cadre de ce travail de thse, une automatisation de la dfinition des valeurs de seuils de la fonction de renforcement est aussi recherche (cf. p. 24).

25

Il faut noter que pour cet exemple, les dimensions de l'espace des situations et des actions sont respectivement de 10238 situations (approximativement 1024 ) et, chaque moteur pouvant prendre 20 valeurs, 400 actions possibles par situation. La mme fonction de renforcement a t utilis pour toutes les implantations (+1 s'il vite, ou -1 s'il y a collision, ou 0 sinon). Les capteurs infra-rouges ont une porte utile de 5 2 cm ([0 .. 1]). Nous considrons que le robot vite lorsque la somme actuelle des valeurs sur les capteurs est infrieure la somme prcdente, la diffrence tant suprieure 0.06. Il y a collision lorsque la somme des six capteurs frontaux est suprieure 2.90 ou la somme des deux capteurs arrire est suprieure 1.95. Les valeurs de seuil (0.06, 2.90, 1.95) ont t dtermin aprs de nombreuses exprimentations. - 20 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

En parallle de ce travail sur l'apprentissage par renforcement mettant en oeuvre pour sa partie exprimentale un bras de robot, nous avons co-encadr une thse soutenue en 1997 ayant pour objectif l'tude de la reconfiguration d'une antenne de capteurs hydrophoniques l'aide d'une approche neuronale26. Une partie de ce travail utilise une carte auto-organisatrice avec un apprentissage par renforcement : il s'agit d'amliorer par l'utilisation de critres de continuit locaux de la fonction de cot, la dfinition des pondrations ncessaires la formation de voies. La fonction de renforcement est alors dfinit comme une fonction de cot impliquant la largeur du lobe principal et le niveau des lobes secondaires.

26 en

collaboration avec la DGA/DCE-DLSM (Le Brusc, 83). - 21 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

- 22 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

2. PROGRAMME DE RECHERCHE

1998-

Aujourd'hui, le connexionnisme a dmontr suffisamment de qualits pour pntrer l'industrie. Cependant, la quasi totalit des applications font appel au modle du perceptron multicouche et l'apprentissage supervis (rtropropagation du gradient d'erreur). L'usage des mthodes connexionnistes peut tre qualifi de pragmatique : les rseaux de neurones sont utiliss conjointement d'autres techniques, chacune dans sa spcialit.

Les rseaux de neurones superviss ont ouverts de nouveaux domaines d'applications aux ingnieurs en leur fournissant un outil simple et efficace pour l'apprentissage par l'exemple et la gnralisation. Il est de ce fait possible d'abandonner la dfinition d'un algorithme solution pour une programmation l'aide de exemples reprsentatifs du comportement souhait. De la mme manire, l'apprentissage par renforcement sur support d'implantation neuronal (de type carte auto-organisatrice) nous semble tre dot d'excellentes potentialits du fait de l'association de la gnralisation avec la synthse de la solution partir de la simple dfinition d'une fonction de renforcement : une mesure qualitative de la performance de solution souhaite. L'apprentissage par renforcement apparat comme une autre alternative la programmation algorithmique.

Cependant, bien que l'intrt et les mcanismes fondamentaux soient aujourd'hui explicits dans le cas d'un seul rseau et d'une seule fonction de renforcement, un vritable dveloppement applicatif au sein d'une relle application ncessite certainement la mise en oeuvre conjointe de plusieurs comportements lmentaires au sein d'une approche par dcomposition en sous-problmes. C'est ce niveau que, capitalisant sur nos rsultats antrieurs, nous envisageons notre travail de recherche pour les annes venir.

Ce programme de recherche sera men dans le cadre de l'quipe Modlisation et Simulation des Systmes dirige par le Professeur Norbert Giambiasi au DIAM-IUSPIM ainsi que durant mon sjour au CESAR-ORNL dirig par le Dr. Jacob Barhen au sein du Computational Intelligence Group du Dr. L. E. Parker.

- 23 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

2.1 Sujet propos

Il est considr comme un fait tabli (au sein de la communaut robot learning) que lacquisition dun comportement par apprentissage par renforcement ncessite lintroduction de biais, cest dire da priori. Lobjectif est soit de rduire la taille de lespace de recherche, soit de rduire la complexit du comportement solution. A notre avis, lintroduction de biais implique de fait un certain nombre de restrictions qui ne sont pas correctement values :

1- Les a priori rduisent la taille de lespace de recherche jusqu une taille pour laquelle le nombre dexemples disponibles autorisent lapprentissage. Cependant, cette rduction de la taille de lespace de recherche est du mme coup une rduction de la varit des comportements qui pourraient tre solution. Mme si nous sommes garantis de trouver le comportement optimal sur lespace de recherche rduit, il ny a aucune garanti que ce comportement soit optimal relativement lespace de recherche initial.

2- Lutilisation des techniques dapprentissage est seulement considre quand la dfinition de lalgorithme correspondant au comportement souhait est trop difficile ou trop coteuse. Ceci dcoule de notre incapacit correctement modliser lenvironnement (y compris le robot). Cest pourquoi, la validit des a priori doit tre questionn. Il ny a pas de raison de penser que les a priori sont plus aiss dfinir que lalgorithme solution.

A notre avis, il existe dautres moyens dintroduire des connaissances qui sont moins sujettes caution (et pourtant pas encore explores), comme lintroduction de connaissance a posteriori, la mise au point automatique de la fonction de renforcement et laugmentation du nombre dexemples disponibles. Cest sur ces trois points que nous avons commen travailler

Ajout de biais a posteriori Lajout de connaissance a posteriori permet de profiter dun espace de recherche complet pour lapprentissage (et donc sans a priori), puis de contraindre le comportement appris pour obtenir une solution finale optimale. Ainsi, au lieu de rduire lespace des solutions possibles puis de trouver la solution optimale restante, on recherche une solution dans lespace des solutions complet que lon va ensuite optimiser manuellement. Parmi les diffrentes contraintes a posteriori figure en particulier la possibilit dexprimer des squences comportementales (squences dactions), difficilement prises en compte par limplantation (combinatoire le plus souvent). Ces contraintes constituent des modules externes l'algorithme d'apprentissage qui permettent une dfinition plus

- 24 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

explicite du comportement squentiel du systme, aussi bien pour interdire que pour faciliter l'expression de certaines squences comportementales.

Construction de la fonction de renforcement Les fonctions de renforcement aujourd'hui utilises sont toutes le rsultat d'une grande part d'intuition complte par une fastidieuse mise au point exprimentale sous forme d'essais et erreurs. La promotion vers des problmes industriels des mthodes de renforcement ne peut se concevoir qu'avec la mise au point de concepts, outils et mthodes d'aide la conception des fonctions de renforcement. Nous envisageons donc de dfinir des paramtres reprsentatifs de l'expression statique des fonctions de renforcement qui permettent d'infrer leurs comportements avant la phase d'apprentissage. Dans ses travaux de thse que nous co-encadrons, J.M. Santos tudie le calcul automatique des valeurs de seuils pour lexpression de la fonction de renforcement suivante (un seuil par rcompense positive ou ngative) :

+1 if g1 (s1 ,..., su) > + RF(s1,..., su ) = 1 if g2 (s1,..., su ) < otherwise 0


o

(s1 ,..., su ) est la situation telle que perue par les capteurs, g1( ) et g 2( ) sont des fonctions quelconques.
Lide permettant le calcul des valeurs seuil est base sur la ncessit de respecter un certain nombre de ratios si

lon veut obtenir convergence de lapprentissage. Par exemple, du fait des caractristiques de limplantation par cartes auto-organisatrices, un ratio de 1 doit tre respect entre les renforcements positifs et les renforcements ngatifs (au moins au dbut). De la mme manire, un nombre minimal de renforcements non nuls est ncessaire pour permettre lapprentissage.

Une version dynamique de cet algorithme devrait permettre une optimisation des valeurs de seuils de la fonction de renforcement tout au long de lapprentissage. Aujourdhui les seuils ne sont optimaux que par rapport aux conditions initiales de lapprentissage.

Accrotre le nombre dexemples disponibles Plutt que de sappliquer rduire la taille de lespace de recherche pour le rendre compatible avec le faible nombre dexemples dapprentissage disponibles, il nous semble intressant denvisager lapproche baptise lazy learning. Cette approche nest ce jour pratiquement pas utilise dans le contexte de lapprentissage par renforcement. Lors dune phase exploratoire conduite alatoirement, une mmoire squentielle des couples de

- 25 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

situation-action est constitue indpendamment de toute utilisation. Dans un cadre applicatif prcis, cette mmoire questionne avec soin est alors utilise pour gnrer le comportement dsir. La mme mmoire peut tre utilise pour diffrentes applications.

Lapproche lazy learning ne permet pas de rsoudre le problme pos par les limites mcanique et nergtique du robot, mais elle permet de rduire la dure dexprimentation pour toutes les expriences suivantes. Il ne sagit pas non plus dune incorporation de connaissance a priori car il ny a pas da priori durant la phase exploratoire (alatoire). Il ne sagit pas dun modle de lenvironnement car il ny a pas de phase de modlisation. Cependant, la mmoire construite est utilise comme un modle (modle non explicite) au sens o elle fournit le rsultat de lexcution dune action sans requrir deffectivement raliser cette action. A lextrme, lexprience effective est uniquement une phase de test, validant (ou non) la fonction de renforcement utilise ici pour interroger la mmoire.

Bien entendu, nous rencontrons l encore les mmes problmes de place mmoire et gnralisation, cest pourquoi nous envisageons une implantation sur cartes auto-organisatrices (utilises ici comme mmoires associatives).

Robotique cooprative Lun des intrts majeurs de lapprentissage par renforcement sa relative indpendance par rapport la plateforme dexprimentation. Nous avons pu vrifier cette assertion en portant aisemment nos dveloppements initiallement obtenus avec Khepera (un robot de 80 gr.) sur Nomad 200 (100 kg.). Dans le mme ordre dide, la robotique cooprative o plusieurs robots, dots chacun d'un certain nombre de comportements lmentaires, agissent conjointement pour raliser une tche (qu'un seul ne peut pas accomplir) est une plate-forme exprimentale qui semble bien se prter nos recherches.

Lapprentissage en robotique cooprative prsente au minimum toutes les contraintes associes lapprentissage pour le robot individuel. Nous pouvons donc l nous appuyer sur nos travaux passs et prsents: le paradigme dapprentissage doit tre sub-symbolique, lapprentissage doit se faire par renforcement (il requiert moins de contraintes que lapprentissage supervis) et la gnralisation doit tre partie intgrante des caractristiques. Mais, lapprentissage en robotique cooprative implique en sus une communication explicite entre les robots dont le principal effet est daugmenter la taille de lespace de recherche. Il semble que, parmi les diverses possibilits, lutilisation dun ensemble fixe de dimensions pour reprsenter la connaissance relative aux autres membres du groupe offre lavantage de ne pas lier la taille de lespace de recherche au nombre dindividus.

- 26 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

Une cadre applicatif pour nos recherche en robotique cooprative est lobservation par un groupe de robots de plusieurs cibles en mouvement. Chaque robot ne dispose bien sur que dun champ de vision limit et doit se coordonner avec dautres pour optimiser lobservation. Une mesure de la performance est le nombre de cibles observes par le groupe.

A PLUS LONG TERME

Distribution des rcompenses aux membres du groupe La mesure de performance que nous venons de dcrire sapplique au groupe de robots dans son ensemble. La question importante est Comment distribuer individuellement les signaux de renforcement reus par le groupe ? La plupart des chercheurs sattachent une description manuelle de fonctions de renforcement locales chaque robot. Pourtant, cette mthode ne peut pas toujours tre employe. Linformation locale un robot peut ne pas suffire produire des rcompenses locales cohrentes avec la tche assigne au groupe. Ce problme est souvent appel le perceptual aliasing problem. Pour ce type de problme, les approches bases sur les chaines de Markov caches sont prometteuses lorsquelles sont appliques un unique robot. Cependant, les spcificits de la robotique cooprative imposent un certain nombre de modifications du fait quune meilleure connaissance de la situation observe est impossible.

Pourtant, il faut obligatoirement rsoudre cette question pour autoriser linscription du renforcement au registre des apprentissages disponibles pour la robotique cooprative. Les mcanismes de distribution qui seront dvelopps dans ce but dpassent le simple cadre de la robotique cooprative27.

Rduction de la taille de lespace de recherche La ncessit de rduire la taille de lespace de recherche fait suite au calcul de sa taille selon la rgle suivante: (N_actions)
N_situations

. Ceci dcoule du fait que le comportement est vu comme une fonction mise en

correspondance capteurs-moteurs. Le cardinal de lensemble capteurs est exponentiel relativement au nombre de capteurs. Pourtant, il est possible dimaginer un comportement complexe comme une succession de comportements lmentaires, chacun nutilisant quun nombre restreint de capteurs et moteurs. Dans ce cas, la taille de lespace de recherche global (incluant tous les comportements lmentaires) nest que polynomial relativement au nombre de capteurs.

La mise en pratique de cette ide ncessite cependant la proposition de mcanismes (critres d'enchanement) permettant l'activation successive des diffrentes mmoires associatives implantant chacune un comportement
27 Cette

question est aussi au coeur des recherches sur les systmes multi-agents. - 27 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

lmentaire. L'utilisation de marqueurs temporel et spatial des vnements mmoriss au sein des diffrentes mmoires associatives est envisage. Chaque mmoire est dfinie naturellement par une modalit sensorielle. Les travaux de Gallistel en thologie tendent prouver lexistence de cartes de modalits sensorielles varies, mise en relation par ces deux aspects prdominants du rel que sont lespace et le temps.

Il est important de noter quici aussi la mise en squence des comportements lmentaires est effectue postrieurement la construction des cartes sensori-motrices. Nous retrouvons donc l une composante forte de nos travaux, savoir le lazy learning.

Les coordonnes spatiale et temporelle semblent jouer un rle pivot en permettant le passage dun comportement lmentaire au suivant, par contre rien quel peut tre le mcanisme qui permette la slection du comportement lmentaire suivant ? Nous pensons quune activation automatique des slections est possible partir du moment o lobjectif final t dfinit comme une position atteindre sur une des cartes sensorimotrices. Si cel est possible, nous aurions alors notre disposition un mcanisme dapprentissage dun niveau dabstraction plus lev lapprentissage par renforcement (bien que toujours sub-symbolique) : au lieu de ncessiter la dfinition dune mesure de la performance du comportement recherch, il suffirait de spcifier le but satisfaire.

- 28 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

3. DIFFUSION DES CONNAISSANCES

3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8

Thse de doctorat Ouvrages scientifiques (2) Brevet (1 en cours de dpt) Revues scientifiques avec comit de lecture (2) (+ 2 soumis) Confrences avec actes et comit de lecture (21) (+ 2 soumis) Colloques nationaux et internationaux avec actes diffusion restreinte (9) Rapports de contrats (14) Tutoriaux (11)

- 29 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

3.1 Thse Thse de doctorat *

[1]

"Contribution l'tude et au dveloppement de modles connexionnistes squentiels"

soutenue le 14 dcembre 1990, l'Universit des Sciences et Techniques du Languedoc, Montpellier, devant le jury compos de :

M. C. Durante,

Professeur l'Universit de Montpellier II (Directeur du LAMM)

M. N. Giambiasi, Professeur l'Universit d'Aix-Marseille III (Directeur du LERI) M. J. Hrault, M. C. Jutten, M. F. Prunet, M. O. Sbilleau, Professeur l'INP de Grenoble (Directeur du TIRF) Professeur l'Universit J. Fourrier (LTIRF, Grenoble) Professeur l'Universit de Montpellier II (LAMM) Ingnieur (Directeur Gnral de DIGILOG, Aix-les-Milles)

3.2 Ouvrages scientifiques

[2]

C. TOUZET, Les rseaux de neurones artificiels, Introduction au connexionnisme, 150 pages, Prface de

J. Hrault, EC2 diteur, Paris, 1992 (cet ouvrage est aussi accessible sur Internet l'adresse : http://avalon.epm.ornl.gov/~touzetc/Book/Bouquin.htm ) *

[3]

C. TOUZET & N. GIAMBIASI, "Application of Connectionist Models to Fuzzy Inference Systems", in


*

Parallelization in Inference Systems, Lectures Notes in Artificial Intelligence 590, B. Fronhfer & G. Wrightson Eds., Springer Verlag, April 1992.

Disponible sur Internet: http://avalon.epm.ornl.gov/~touzetc/publications.html - 30 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

3.3 Brevets

Un brevet est en cours de dpt par la SOLLAC relativement lutilisation des RNA pour la validation de donnes capteurs dans SACHEM (avec Marc Le Goc et Claude-Charles Thirion).

3.4 Revues scientifiques avec comit de lecture

C. TOUZET, "Communication in Cooperative Mobile Robot Learning," Soumis la revue Autonomous Robots, 1998.

C. TOUZET, "Robot Autonomy: Tabula Rasa Learning vs. Bias Incorporation," Soumis la revue IEEE Trans. on Systems, Man and Cybernetics, 1998.

[4] P. DROUOT, C. TOUZET & F. BRIOLLE, "Approche connexionniste pour le dtection de pannes des antennes SONAR passif," Soumis la revue Traitement du Signal, 1997.

[5] J.-M. SANTOS & C. TOUZET, "Automatic Tuning of the Reinforcement Function," to appear in Neurocomputing, 1998.

[6] C. TOUZET, "Neural Reinforcement Learning for Behaviour Synthesis, " Robotics and Autonomous Systems, Special issue on Learning Robot: the New Wave, N. Sharkey Guest Editor, vol. 22, Nb 3-4, December 1997, pp 251-281.
*

[7] A. BRONS, G. RABATEL, F. ROS, F. SEVILA & C. TOUZET, "Plant grading by vision using neural networks and statistics", Computers and Electronics in Agriculture, N 9, 1993.

3.5 Confrences avec actes et comit de lecture

Disponible sur Internet: http://avalon.epm.ornl.gov/~touzetc/publications.html - 31 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

[C2] C. TOUZET, "Learning Approaches in Cooperative Robotics: A Few Facts," CONALD Workshop on Robot Exploration and Learning Pittsburgh, PA, June 11-13, 1998.

[C3] C. TOUZET & J. M. SANTOS, "Reinforcement Function Design and Bias for Efficient Learning in Mobile Robots," WCCI-FUZZ-IEEE'98, Anchorage, Alaska, May 4-9, 1998. *

[C4] J. M. SANTOS & C. TOUZET, "Automatic Tuning of the Reinforcement Function," NEURAP'98, Marseilles, France, March 11-13, 1998. *

[C5] M. LE GOC, C. TOUZET & C.-C. THIRON, "The SACHEM Experience on Artificial Neural Networks Application," NEURAP'98, Marseilles, France, March 11-13, 1998.

[C6] C. TOUZET, "Neural reinforcement learning for behavior synthesis," CESA'96 (Computational Engineering in Sytems Applications), IMACS Multiconference, Lille, France, 9-12 July 1996, pp 734-739.
*

[C7] P. DROUOT, C. TOUZET & M. LE GOC, "Artificial Neural Networks for Data Validation in Blast Furnaces Monitoring," NEURAP'96, Marseille, France, March 1996.

[C8] S. SEHAD & C. TOUZET, "Neural Reinforcement Path Planning for the Miniature Robot Khepera," WCNN'95, Washington D.C., USA, 17-21 July 1995. *

[C9] C. TOUZET, S. SEHAD & N. GIAMBIASI, "Improving Reinforcement Learning of Obstacle Avoidance Behavior with Forbidden Sequences of Actions," International Conference on Robotics and Manufacturing," Cancun, Mexico, 14-16 June 1995. *

[C10]C. TOUZET, N. KIEFFER & M. LE GOC, "Artificial Neural Networks Forecasting and Monitoring Scaffold and Scaffolding Phenomena in Blast Furnaces," IEEE International Conference on SMC, Vancouver, Canada, 22-25 October 1995.

[C11]C. TOUZET, F. BLAYO, C. LEHMANN & N. GIAMBIASI, "Neural Networks in Simulation," European Simulation Symposium, Istanbul, Turkey, October 1994.

Disponible sur Internet: http://avalon.epm.ornl.gov/~touzetc/publications.html - 32 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

[C12] C. TOUZET, "Extending Immediate Reinforcement Learning on Neural Networks to Multiple Actions," ESANN 94, Bruxelles, April 1994. *

[C13] S. SEHAD & C. TOUZET, "Reinforcement Learning and Neural Reinforcement Learning," ESANN 94, Bruxelles, April 1994. *

[C14] C. TOUZET, "Apprentissage par renforcement neuronal : avantages et limitations", Second European Congress on Systems Sciences, Prague, October 1993.

[C15] A. BRONS, G. RABATEL, F. ROS, F. SEVILA & C. TOUZET, "Multi-layer neural networks and statistical methods for quality control", Neuro-Nmes 93, Nmes.

[C16]C. TOUZET & N. GIAMBIASI, "The Connectionist Sequential Machine: a General Model of Sequential Networks", Australian Conf. on Neural Networks, in Canberra, P. Leong & M. Jabri Eds. Sydney University Electrical Engineering, NSW 2006, Australia, February 1992.

[C17]A. BRONS, G. RABATEL, F. SEVILLA & C. TOUZET, "Evaluation de la qualit des plantes en pots par un rseau multicouche, assist par des mthodes statistiques," Neuro-Nmes 91, Nmes, France, novembre 1991.

[C18]O. SARZEAUD, Y. STEPHAN & C. TOUZET, "Finite Element Meshing using Kohonen's SelfOrganizing Maps", ICANN91, Helsinki, Finland, juin 1991.

[C19]O. SARZEAUD, Y. STEPHAN & C. TOUZET, "Application des cartes auto-organisatrices la gnration de maillage aux lments finis", Neuro-Nmes 90, Nmes, France, novembre 1990.

[C20]C. TOUZET & N. GIAMBIASI, "Connectionist finite-state machines", IJCNN 1990, Washington DC, 15-19 janvier 1990.

[C21]N. GIAMBIASI, R. LBATH & C. TOUZET, "Une approche connexionniste pour calculer l'implication floue dans les systmes base de rgles", Neuro-Nmes 89, Nmes, novembre 1989.

[C22]C. TOUZET & N. GIAMBIASI, "Neuromimetic Sequential Machines" IASTED expert systems, Zurich, Suisse, June 1989.

- 33 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

[C23]C. TOUZET & N. GIAMBIASI, "Reconnaissance de squences par des rseaux de neurones", NeuroNmes 88, Nmes, France, novembre 1988.

3.6 Colloques nationaux et internationaux avec actes diffusion restreinte

[30] C. TOUZET & S. SEHAD, "Apprentissage par renforcement neuronal pour l'acquisition d'un comportement d'vitement d'obstacle," NSI'96, Marly-le-Roi, mai 1996.

[31] C. TOUZET, "KHEPERA : un outil pour l'tude du hasard et des contraintes dan la gense des formes collectives," Journes de Rochebrune, AFCET Cognition, Janvier 1995.

[32] S. SEHAD & C. TOUZET, "Apprentissage par renforcement pour l'acquisition de comportements en robotique," NSI'94, Chamonix, mai 1994.

[33] P. COUTURIER, A. JOHANNET, I. SARDA & C. TOUZET, "Robot hexapode : ralisation et apprentissage de la marche," NSI'94, Chamonix, mai 1994.

[34]

C. TOUZET, "Apprentissage par renforcement neuronal d'un comportement d'vitement d'obstacles

pour le mini-robot Khepera", Journes de Rochebrune, AFCET Cognition, Janvier 1994.

[35]

C. TOUZET & F. MONDADA, "Quelques comportements adaptatifs pour le robot miniature

Khepera", Annales du Groupe CARNAC, n 6, EPFL (Suisse), Dcembre 1993.

[36] C. TOUZET & N. GIAMBIASI, "L'mergence de comportements intelligents dans le domaine du connexionnisme : rflexion sur la taille", mergence dans les modles de la cognition, ENST, Paris, 15-16 avril 1992.

[37] C. TOUZET & O. SARZEAUD, "Application d'un algorithme d'apprentissage par pnalit/rcompense la gnration de formes locomotrices hexapodes", Journes de Rochebrune, AFCET Intelligence Artificielle, 20-24 janvier 1992.

[38] C. TOUZET & N. GIAMBIASI, "Quelques approches neuromimtiques pour le traitement des squences", NSI 90, Centre Paul Langevin, Aussois, 7-10 mai 1990.

- 34 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

3.7 Rapports de contrats

[R1]

Validation de la validation des donnes HF par rseaux de neurones artificiels,

contrat avec la SOLLAC (Fos), 1996-1997 (en collaboration avec N. Giambiasi et M. Le Goc).

[R2]

tude et dveloppement d'une modalit de communication sonore pour le robot Khepera,

contrat avec l'ANVAR, 1997 (en collaboration avec P. Drouot).

[R3]

tude d'une approche par rseaux de neurones pour le dveloppement d'antennes sous-marines

intelligentes, contrat avec la DGA, 1996 (en collaboration avec P. Drouot et N. Giambiasi).

[R4]

Prdiction par rseaux de neurones du March Toutes Marques,

contrat avec la rgie RENAULT 1994-1995 (en collaboration avec F. Blayo, P. Drouot et B. Girard).

[R5]

Apport d'une approche connexionniste la conduite de HF,

contrat avec la Rgion PACA (Fos), 1994-1995 (en collaboration avec N. Kieffer).

[R6]

Approche connexionniste pour la conduite d'un four de cuisson de biscuits,

contrat MRE avec le CEMAGREF, 1992-1995 (en collaboration avec E. Rannou).

[R7]

Application des rseaux de neurones artificiels l'analyse de la cohrence des donnes au centre d'un HF,

contrat avec la SOLLAC (Fos), 1994 (en collaboration avec P. Drouot).

[R8]

Aide la conduite d'un haut-fourneau par rseaux de neurones artificiels,

contrat avec la SOLLAC (Fos), 1993 (en collaboration avec N. Kieffer).

[R9]

Connexionnisme et mcanisme de l'infrence,

contrat avec l'ANRT : projet PROCOPE avec le FKI (Forschungsgruppe Kunstliche Intelligentz) de l'Institt fr Informatik (Tech. Univ. Munich, Allemagne) en 1990-1992.

[R10]

Dveloppement d'un simulateur de structures arborescentes de rseaux de neurones (sur Sun),

contrat ANVAR-NEUROSYSTEMES , 1991-1992 (en collaboration avec N. Giambiasi et O. Sarzeaud).

[R11]

Mirage de l'albumine par rseaux de neurones, - 35 -

HABILITATION DIRIGER DES R ECHERCHES contrat FEDER-CRTS, 1990-1991(en collaboration avec N. Giambiasi et P. Montesinos).

C LAUDE TOUZET

[R12]

tude de faisabilit de la compression d'images par cartes auto-organisatrices,

contrat FEDER-GENESYS, 1990-1991 (en collaboration avec N. Giambiasi et S. Dellaporta).

[R13]

Un rseau multicouche pour la reconnaissance de caractres manuscrits,

contrat avec la socit BEC Frres, 1990 (en collaboration avec N. Giambiasi).

[R14] SACREN : Systme d'Aide au Choix d'un Rseaux de Neurones, contrat ANVAR, 1988-1989 (en collaboration avec N. Giambiasi).

3.8 Tutoriaux

[T1] C. TOUZET, "Learning Robot," Dept. of Computer Science, University of North Dakota, Grand Forks, ND, USA, October 1997 (1h 30).

[T2] C. TOUZET, "Neural reinforcement learning for behaviour synthesis," Robotique 2000, CogniSud, Marseille, June 1997. (30')

[T3] C. TOUZET, "Application des rseaux de neurones artificiels la conduite de HF", sminaire MacSim, Toulon, Mars 1997. (30')

[T4] C. TOUZET, "Carte auto-organisatrice et apprentissage par renforcement", Universit des AntillesGuyane, Pointe--Pitre, Guadeloupe, Fvrier 1997. (4h)

[T5] C. TOUZET, "Learning agents," Autonomous Agents'97, Marina del Rey, CA, USA, in collaboration with S. Sen, February 1997 (1 full day).

[T6] C. TOUZET, "Neural reinforcement learning for obstacle avoidance," Neuroscience and Mobile Robotics, CNRS Workshop, Marseille, March 1996. (30')

- 36 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

[T7] C. TOUZET, "Neural reinforcement learning for behavior synthesis," IEE seminar on Self-Learning Robots, London, England, February 1996 (45').
*

[T8] C. TOUZET, "Neural reinforcement learning for robot control," CESAR, Oak Ridge National Laboratory, TN, USA, November 1995 (1h)

[T9] C. TOUZET, "Rseaux de neurones squentiels et renforcement," Neuro-Nmes 93, Nmes, Novembre 1993 (3h).

[T10]C. TOUZET, "Neuromimtique," Sminaire Intelligence Artificielle, Haut Commissariat la Recherche, CDTA, Alger, Algrie, mai 1991, (1h30).

[T11]C. TOUZET, "Introduction au connexionnisme," Journes IA2 (Ple Informatique avance et Intelligence Artificielle du Languedoc-Roussillon), Novembre 1990 et Novembre 1991 (1h30).

Disponible sur Internet: http://avalon.epm.ornl.gov/~touzetc/publications.html - 37 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

- 38 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

4. ENCADREMENT DE TRAVAUX DE RECHERCHE

4.1 4.2 4.3 4.4

Co-Encadrement de thses Encadrement de DEA Participation des contrats d'tudes Participation des comits de programme et d'organisation

- 39 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

4.1 Co-Encadrement de thses

Participation l'encadrement de la thse de M. O. Sarzeaud (50%), Thse de Doctorat : "Contribution l'tude et au dveloppement de systmes connexionnistes modulaires" Soutenue en dcembre 1993 l'USTL (Montpellier).

Participation l'encadrement de la thse de Mlle S. Sehad (85%), Thse de Doctorat : "Contribution l'tude et au dveloppement de modles connexionnistes apprentissage par renforcement : Application l'acquisition de comportements adaptatifs" Soutenue en dcembre 1995 l'USTL (Montpellier).

Participation l'encadrement de la thse de M. P. Drouot (75%), Thse de doctorat : "Reconfiguration de SONAR passif comportant des hydrophones en panne : approche connexionniste" Soutenue en juillet 1997 l'Universit d'Aix-Marseille III.

Participation l'encadrement de la thse de M. J. Santos (co-tutorat avec l'Universit de Buenos-Aires, Argentine) (90%) Thse de doctorat : "Contribution to the study and development of the design of reinforcement functions" Soutenance prvue en dcembre 1998 l'Universit d'Aix-Marseille III.

NB : Co-encadrement des travaux de thse avec le Professeur Norbert Giambiasi

Membre de Jury de thse de :

- M. A. Brons, Universit de Montpellier II, dcembre 1992. - M. M. Crucianu, LIMSI, Orsay, juin 1994. - Mme C. Escazut, I3S, Sophia-Antipolis, mai 1995. - M. O. Michel, I3S, Sophia-Antipolis, novembre 1996. - Mme C. Toffano-Nioche, LIMSI, Orsay, dcembre 1996. - M. P. Zhang, UTC, Compigne, fvrier 1997.

- 40 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

4.2 Encadrement de stages de DEA

Encadrement du stage de M. S. Sorrentino, 1989-1990 Modles connexionnistes squentiels bass sur l'algorithme de la rtropropagation de gradient, DEA Conception Assiste des Systmes Informatiques, Automatiques et Micro-lectroniques, U.S.T.L., Montpellier.

Encadrement des stages de M. Y. Stphan et O. Sarzeaud, 1989-1990 Application des cartes auto-organisatrices la gnration de maillage aux lments finis, DEA Gnie lectrique, INPG, Grenoble.

Encadrement du stage de Mlle. S. Dellaporta, 1990-1991 Compression d'images par carte auto-organisatrice, DEA Conception Assiste des Systmes Informatiques, Automatiques et Micro-lectroniques, U.S.T.L., Montpellier.

Encadrement du stage de M. S. Benyacoub, 1991-1992 Coopration de rseaux de neurones travers une dcomposition structurelle, DEA Intelligence Artificielle et Algorithmique, Universit de Caen.

Encadrement du stage de M. E. Kotter, 1991-1992 tude de l'algorithme ARP et application l'apprentissage de la marche hexapode, DESS double comptence Informatique et Applications aux sciences de la vie, EHEI, Paris.

Encadrement du stage de M. M. Pollizzi, 1991-1992 Rseaux de neurones squentiels : comparaison de l'apprentissage sur la Machine Squentielle Connexionniste et de l'algorithme Real-Time Recurrent-Learning, DEA Conception Assiste des Systmes Informatiques, Automatiques et Micro-lectroniques, U.S.T.L., Montpellier.

Encadrement du stage de Mlle S. Sehad, 1991-1992 Rseaux neuronaux "ART", application la coalescence de donnes gntiques, DEA Conception Assiste des Systmes Informatiques, Automatiques et Micro-lectroniques, U.S.T.L., Montpellier. - 41 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

Encadrement du stage de M. E. Rannou, 1993-1994 Application des mthodes de minimisation l'apprentissage connexionniste pour la classification en agroalimentaire, DEA Conception Assiste des Systmes Informatiques, Automatiques et Micro-lectroniques, U.S.T.L., Montpellier.

Encadrement du stage de M. P. Drouot, 1993-1994 Application de l'apprentissage par renforcement sur rseaux de neurones artificiels la validation de donnes, DEA Conception Assiste des Systmes Informatiques, Automatiques et Micro-lectroniques, U.S.T.L., Montpellier.

Encadrement du stage de M. R. Bernhard, 1994-1995 Application de l'apprentissage de type Hopfield au test des circuits, DEA Productique et Informatique, Aix-Marseille III.

Encadrement du stage de M. C. Rubini, 1995-1996 Les cartes auto-organisatrices de trs grande dimension : application la supervision de procds, DEA Productique et Informatique, Aix-Marseille III.

Encadrement du stage de Mlle S. Meyer, 1995-1996 Analyse de performances de rseaux multicouches sur des bases d'apprentissage de plusieurs milliers d'exemples, DEA Productique et Informatique, Aix-Marseille III.

4.3 Participation des contrats d'tudes

Contrat avec la SOLLAC (Fos), 1996-1997 : validation de la validation des donnes capteurs d'un haut-

fourneau par rseaux de neurones artificiels. (200 KF) (supervision 100% et dveloppement 100%)

Contrat avec l'ANVAR, 1997 : tude et dveloppement d'une modalit de communication sonore pour le

robot Khepera. (25 KF) (supervision 100%)

Contrat avec la DGA (le Brusc, 83), 1995-1996 : tude d'une approche par rseaux de neurones pour le

dveloppement d'antennes sous-marines intelligentes. (400 KF) (supervision 75%) - 42 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

Contrat avec la Rgion PACA (et Sollac), 1994-1995 : apport des rseaux de neurones la perception dans

SACHEM. (200 KF) (supervision 90% et dveloppement 25%)

Contrat avec la rgie RENAULT pour la prdiction par rseaux de neurones du March Toutes Marques,

1994-1995. (100 KF dont 66 KF pour notre labo) (supervision 30% et dveloppement 30%)

Contrat avec la SOLLAC (Fos), 1994-1995-1996 : validation des donnes capteurs d'un haut-fourneau par

rseaux de neurones artificiels. (200 KF) (supervision 75% et dveloppement 25%)

Projet Capital Humain et Mobilit en Rseaux de neurones artificiels, 1994. Notre laboratoire a reu la

visite pendant 1 an d'un chercheur belge (A. Terao) en 1993 et durant 3 mois celle d'un chercheur suisse (C. Lehmann).

Contrat avec l'ANRT 1990-1992 : projet PROCOPE avec le FKI (Forschungsgruppe Kunstliche

Intelligentz) de l'Institt fr Informatik (Tech. Univ. Munich, Allemagne) sur le sujet : Connexionnisme et mcanisme de l'infrence. (70 KF) (supervision 100% et dveloppement 100%)

Contrat avec la SOLLAC (Fos), 1993 : aide la conduite d'un haut-fourneau par rseaux de neurones

artificiels. (50 KF) (supervision 100%)

Contrat ANVAR-NEUROSYSTEMES , 1991-1992 : dveloppement d'un simulateur de structures

arborescentes de rseaux de neurones (sur Sun). (200 KF) (supervision 10% et dveloppement 25%)

Contrat FEDER-CRTS, 1990-1991 : mirage de l'albumine par rseaux de neurones. (100 KF) (supervision

50%)

Contrat FEDER-GENESYS, 1990-1991 : tude de faisabilit de la compression d'images par cartes auto-

organisatrices. (100 KF) (supervision 75% et dveloppement 25%)

Contrat avec BEC Frres, 1990 : dveloppement en collaboration avec la socit ITECA d'un rseau

multicouche pour la reconnaissance de caractres manuscrits. (30 KF) (supervision 100% et dveloppement 25%)

Contrat ANVAR, 1988-1989 : dveloppement d'un simulateur de rseau de neurones : SACREN. (500 KF)

(supervision 50% et dveloppement 100%)

- 43 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

4.4 Participation des comits programme et d'organisation

diteurs invits (avec I. Cloete) d'un numro spcial de la revue Neurocomputing (Elsevier) paraitre1998.

diteurs invits (avec N. Giambiasi) d'un numro spcial de la revue Journal of Intelligent and Robotic Systems (Kluwer) sur le thme : Applications of Artificial Neural Networks, February 1998.

Participation au comit programme et au comit d'organisation du congrs international NEURAP (Marseille, 1994-1998).

Participation au comit programme du congrs international Neuro-Nmes (les rseaux de neurones artificiels et leurs applications, Nmes) 1990 - 1993.

Participation au comit programme du congrs ESANN (European Symposium on Artificial Neural Networks, Bruxelles, 1993-1998).

Participation au comit programme du congrs PERAC (From Perception to Action, Lausanne, septembre 1994).

Participation au comit programme du congrs CES (Systems Science European Congress, Prague, 1993 et Rome, 1996).

Participation au comit d'organisation de l'cole de printemps NSI (Neurosciences et Sciences de l'Ingnieur, St Jean du Gard, mai 1993).

Participation la cration de l'Association des Connexionnistes en THse, organisation de Valgo90 (ACTH) Port-Camargue (avril 1990).

- 44 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

5. ACTIVITS D'ENSEIGNEMENTS

Ds ma premire anne de thse, j'ai t charg d'encadrer des TP (classe de Math Sup et 2me anne d'ingnieur). Puis j'ai t charg d'enseignement ds la cration de l'cole EERIE en septembre 1988. En complment de mon activit de recherche, j'ai assur un demi-service d'enseignement. A l'issue de ma thse en 1990, j'ai obtenu un poste d'ingnieur charg de cours l'EERIE. J'ai occup ce poste jusqu'en aot 1994 (en 1993, j'ai t durant deux mois professeur invit du cours postgrade sur les rseaux de neurones artificiels l'EPFL, Suisse). En septembre 1994, j'ai rejoint l'IUSPIM en tant qu'ATER. J'ai t ATER pendant deux annes, puis ingnieur de recherche charg de cours pendant l'anne scolaire 1996-1997.

- 45 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

5.1 Tableau rcapitulatif

Matire

Type

Public

Anne

Total horaire (eq. TD)

Informatique

TP

Math Sup

87-88

20

Systme Temps Rel

TP

IUSPIM, 2me anne

87-88

42

Logique

TD, TP

EERIE 1re anne

88-89-90

60

Cours, TD, TP

EMA (3me anne)

89-90

21

Cours, TD, TP

EERIE 3me anne

90-91-92-9394-95

60

Rseaux de neurones artificiels

Cours, TD, TP

IUSPIM 2me anne

94-95-96-97

36 (50 en 96-97)

Cours

DEA CASIAM (USTL)

91-92-93-9495

24

Cours

DEA Gnie Productique

95-96-97

18

Cours, TP

IMERIR 3me anne

92-93-94-9596-97

20

Base de donnes

Cours

DU Informatique

94-95

30

Simulation

Cours, TD, TP

IUSPIM 2me anne

95-96

36

- 46 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

5.2

Stages

Pour complter mon demi-service d'enseignement, j'ai encadrer des projets de fin d'tudes en 1991, 1992, 1993 1994, 1995 (60 h. eq. TD/anne) et 1996 (40 h. eq. TD). Il est noter que le logiciel d'animation 3D dvelopp durant le stage 1993 a t retenu par le Ministre pour tre prsent dans ses jardins lors des journes de la Science 1993. D'autre part, le logiciel ralis durant le stage de 1994 a gagn le concours national de la socit Apple "Programmer un comportement intelligent" dot de 200 000 F pour le vainqueur.

J'ai aussi assur des actions de formation permanente destination des industriels dans le domaine des rseaux de neurones artificiels (chaque anne depuis 1989).

5.3

Matires

Systme Temps Rel En 1987, dans le cadre de la troisime anne d'ingnieur de l'IUSPIM (Facult Saint Jrme, Marseille), j'ai assur un encadrement de travaux pratiques en systmes temps rel. Cet encadrement reprsentait un volume de 42 heures. Il s'agissait de guider les tudiants dans la manipulation des smaphores, tches, coordinations et interruptions au sein de l'environnement de dveloppement temps rel iRMX 86 (INTEL).

Logique En 1988 et 1989, dans le cadre de la premire anne d'ingnieur l'EERIE, j'ai assur la cration et l'encadrement de travaux dirigs et travaux pratiques en logique. Cet encadrement reprsentait un volume horaire de 60 heures. Il s'agissait d'aborder les techniques de synthse des circuits digitaux (combinatoires et squentiels). Les travaux pratiques, avec l'aide des pupitres de simulation, permettent de raliser des circuits logiques arithmtiques (additionneurs par exemple) et des circuits logiques squentiels (bascules, registres, compteurs). Enfin, l'aide de pupitres de simulation ddis, l'architecture des machines tait aborde avec notamment la ralisation incrmentale d'une unit centrale (unit arithmtique et logique, adressage, mmoire, programme).

Base de donnes A destination d'tudiants en formation continue pour la plupart, j'ai particulirement ax ce cours sur les SGBD relationnels afin d'en faire un outil utile dans leurs activits. - 47 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

Simulation Dans le cadre de l'aide la dcision, j'ai bti cet ensemble cours, TD, TP autour du logiciel SIMULINK (Matlab). Le modle du systme simuler est un couplage mcanique entre un moteur et une charge. Le problme que l'on cherche rsoudre est celui de la dtermination des plages optimales d'utilisation, comme des plages viter (c.a.d., caractristiques du moteur pour une charge donne et inversement, pour un moteur donn, les charges utilisables et les contraintes).

Rseaux de neurones En 1989, j'ai eu la tche de concevoir un cours de 60 heures "rseaux de neurones artificiels : introduction et spcialisation", pour la troisime anne d'ingnieur. Ce cours a t propos aux lves de l'option Intelligence Artificielle ds 1990. Il se dcoupe en 30 heures de cours thoriques et 30 heures de travaux pratiques.

Le support de cours de la partie thorique s'est affin au cours des deux annes d'enseignement qui ont suivi. Il a donn lieu la publication d'un livre introductif au domaine du connexionnisme de 150 pages dit par EC2 (sortie le 2 novembre 1992). Il fournit l'tudiant, ou l'ingnieur, une connaissance thorique et pratique des modles de rseaux de neurones artificiels. L'objectif de cet ouvrage n'est pas de dcrire in extenso tous les modles de rseaux de neurones artificiels existant, mais plutt d'tudier les plus reprsentatifs, avec le souci pdagogique de conserver le mme formalisme. Les modles dtaills incluent : Perceptron, Mmoires associatives, Cartes auto-organisatrices, Adaptive Resonance Theory, Apprentissage par pnalit-rcompense et Rseaux multicouches. Nous montrons, au travers d'exemples d'applications, l'intrt de ces modles aux composants fortement connects pour l'ingnieur dans des domaines tels que : la vision, le traitement du signal ou l'aide la dcision. La capacit d'apprentissage par l'exemple des rseaux neuronaux autorise le dveloppement d'applications sans ncessiter une connaissance trs exhaustive du domaine par l'ingnieur. Par contre, une grande aisance dans la manipulation des modles et de leurs paramtres, dans la constitution des bases d'apprentissage et d'autres facteurs moins identifis, est indispensable. L'acquisition de cette connaissance ncessite actuellement une exprience personnelle de la mise en oeuvre des techniques neuronales. Travaux dirigs et pratiques maillent le texte afin de rpondre cette attente. Afin de conserver un langage clair et concis, tout le formalisme mathmatique a t report en annexe. D'autre part, questions rcapitulatives, rfrences, informations pratiques et glossaire permettent au lecteur de poursuivre son instruction .

- 48 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

Les travaux pratiques ont ncessit la mise au point de simulateurs de rseaux neuronaux. Certains d'entre eux sont drivs du projet SACREN, que j'ai conduit entre 1987 et 1989 (cf. contrats). D'autres sont des simulateurs disponibles dans le commerce, mais qui ont ncessit un important investissement personnel : une semaine de stage de formation au produit ExploreNet chez Hecht-Nielsen Co. San Diego (USA), une semaine de stage au produit Nestor development System (NDS 1000) Montpellier chez Europixels. Enfin, les rsultats de nos travaux contractuels (cf. contrats) sont souvent repris pour finaliser le thme de l'exercice (compression d'images et reconnaissance de caractres manuscrits, par exemple). Initialement crit en langage Pascal sur station de travail Apollo, les simulateurs sont aujourd'hui disponibles en C sur station de travail Sun. L'un des principaux avantages lis l'utilisation de simulateurs dvelopps en interne rside dans la possibilit de fournir l'tudiant le programme source. A partir de celui-ci, il lui est beaucoup plus facile de comprendre et d'exprimenter individuellement en temps rel.

- 49 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

- 50 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

6. ANNEXES

A - Exemples et rsums de quelques travaux contractuels

Contrat ANVAR, 1988-1989 Dveloppement d'un simulateur de rseau de neurones (SACREN). Contrat avec BEC Frres, 1990 (collaboration avec la socit ITECA) Dveloppement en d'un rseau multicouche pour la reconnaissance de caractres manuscrits. Contrat avec l'ANRT 1990-1992 (Projet PROCOPE avec Tech. Univ. Munich, Allemagne) Connexionnisme et mcanisme de l'infrence. Collaboration avec le LEG-ENSIEG, 1990 Application de cartes auto-organisatrices la gnration de maillages aux lments finis. Contrat FEDER-GENESYS, 1990-1991 Compression d'images visiophoniques par RNA. Collaboration avec le CIRAD, 1991 Etude et dveloppement d'une mthode d'analyse par coalescence pour la dtermination des espces gntiques base sur les RNA. Contrat NEUROSYSTEMES, 1991-1992 Maquette de dmonstration de l'apprentissage par RNA, application la locomotion hexapode. Contrats avec la SOLLAC (Fos), 1993-1997 Apport des rseaux de neurones la perception dans SACHEM. Contrat avec l'ANVAR, 1997 Etude et dveloppement d'une modalit de communication sonore pour le robot Khepera.

45 52 56 57 60

67 72 75 76

- 51 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

SACREN (Systme d'Aide au Choix d'un Rseau de Neurones)


(Contrat ANVAR n A8801006JAL)

SACREN : Systme d'Aide au Choix d'un Rseau de Neurones est n du recours obligatoire l'exprimentation dans le domaine des rseaux de neurones artificiels pour le choix du modle connexionniste le plus adapt une application particulire. Sous la dnomination gnrale de systme connexionniste, modle neuromimtique ou plus communment rseau de neurones artificiels se regroupe un grand nombre de modles de rseaux diffrents. Les spcifications applicatives de chaque architecture de rseau ne reposent pas sur des rsultats thoriques (sauf pour les plus simples : Perceptron). Le recours l'exprimentation s'avre tre le moyen le plus appropri pour choisir le type de rseau adopter pour une application dtermine. SACREN fourni un environnement permettant l'utilisateur/dveloppeur de tester facilement les diverses possibilits neuromimtiques pour une application donne. SACREN offre ainsi la possibilit de slectionner une structure de rseau de neurones plus adapte au problme industriel. Dans ce but, SACREN permet de simuler tous les types de rseaux neuronaux, certains d'entre eux ont fait l'objet d'une implantation informatique : les rseaux multi-couches et la rtro-propagation de gradient, les mmoires associatives linaires et les cartes autoorganisatrices de Kohonen.

Le principal critre guidant le dveloppement de SACREN a t la flexibilit. SACREN offre les possibilits suivantes (que l'on ne retrouve pas totalement au niveau des produits commercialiss) : Facilits pour la conceptualisation : - Une description informatique pour chaque neurone et chaque synapse (structure de donnes). - Simulation vnementielle (comportement dynamique). Facilits pour la modification : - Toutes topologies de rseaux autorises. - Chacun des neurones et des synapses pouvant tre dot d'un comportement particulier.

SACREN a t dvelopp sur station de travail graphique APOLLO en Pascal sous UNIX. Il a aussi t transport sur SUN. Depuis sa cration en 1989, un certain nombre de modles ont t transcrits en C : les rseaux multicouches et la rtropropagation de gradient, les mmoires associatives linaires, les cartes autoorganisatrices et la machine squentielle connexionniste.

L'utilisation de la simulation vnementielle prsente des avantages par rapport aux techniques classiquement utilises (calcul matriciel). Les neurones et les synapses sont effectivement reprsents comme des entits au sein du modle simul, ce qui facilite la conceptualisation par l'oprateur. Le nombre de calculs est rduit et - 52 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

l'espace mmoire ncessaire est minimal. Enfin, il est possible de manipuler des retards au niveau des connexions, ce qui permet d'envisager la simulation de rseaux dotes d'un comportement asynchrone.

SACREN permet la construction et la simulation d'une grande varit de rseaux. Le principal critre guidant son dveloppement a t la flexibilit (chaque cellule possde son comportement propre, tout type de schma de connexions peut tre spcifi), ainsi que le montre la figure 1.

Bases d'apprentissage et de test

Bilbliothque d'algorithmes Rtro ART ARP

interface Description structurelle du rseau interface

Description comportementale de neurones (fonction de transfert)

Rseau

Simulateur

Figure 1. Structure gnrale du simulateur

Le module dsign sous le terme de description structurelle de neurones regroupe les utilitaires permettant de construire l'architecture du rseau de neurones : les donnes (schma des connexions) utilises pour la simulation. Le second module de description comportementale de neurones a pour objet la spcification du comportement de chacune des cellules. La bibliothque des algorithmes regroupe diffrentes procdures

- 53 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

d'apprentissage pour le rseau de neurones : la rtropropagation de gradient, etc. La procdure d'apprentissage travaille partir d'une base d'exemples d'apprentissage. Le module simulateur est compos d'un simulateur vnementiel vnements discrets qui gnre, classe et traite les vnements conscutifs l'application sur le rseau d'une forme en entre. Les interfaces sont des procdures proposant l'utilisateur, sous forme de menu, toutes les actions impliques dans le droulement d'une session. Chacun de ces modules est repris plus en dtail dans les paragraphes suivants.

Description structurelle de neurones Il s'agit d'un module volutif destin dcrire l'architecture de chacun des modles implants. On entend par modle implant, tout modle dont l'algorithme d'apprentissage a t dcrit et ajout la bibliothque des algorithmes. Ce module permet la date actuelle la construction de rseaux une ou plusieurs couches, sans connexion intracouche et connexion complte intercouches, avec des options pour dcrire des rseaux boucls (boucles depuis la couche de sortie ou la couche cache), des cartes topologiques de Kohonen et des mmoires auto ou htro-associative. De plus, le stockage de l'architecture du rseau dans des fichiers aux normes ASCII permet l'utilisateur une modification aise des caractristiques, l'ajout ou l'annulation de certaines synapses, la spcification de valeurs particulires certains poids, ... En fait tous les composants relatifs la description structurelle d'un rseau sont accessibles et modifiables par l'utilisateur.

Description comportementale de neurones Il existe plusieurs fonctions diffrentes pour le calcul de la valeur de l'tat du neurone: fonction signe, fonction sigmode avec prise en compte du pass : l'tat prcdent du neurone intervient dans le calcul, fonction sigmode classique.

Il est possible de rajouter de nouvelles fonctions. Chaque neurone peut avoir une fonction de transfert diffrente de celle des autres neurones. Nous proposons aussi plusieurs variantes au niveau des informations transmises depuis le neurone vers les autres neurones. Ceci dcrit le comportement du rseau. Toutes les cellules du rseau transmettent la mme information : propagation de l'tat du neurone, propagation de la variation d'tat (tat prcdent - tat prsent).

Bibliothque des algorithmes Parmi les algorithmes d'apprentissage implant, nous recensons les cartes auto-organisatrices, les mmoires associatives et plusieurs versions de la rtropropagation de gradient. Chacune relve de la mme philosophie

- 54 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

gnrale, mais se distingue soit par le comportement des cellules (fonction de transfert ), soit par l'architecture du rseau (rseaux boucls).

Saisie des formes apprendre Le passage de la forme brute (pixels de l'image par exemple) sa reprsentation sur la couche d'entre du rseau dpend principalement des caractristiques architecturales du rseau. L'apprentissage supervis impose que l'on dispose, pour chaque forme d'entre, de la forme de sortie dsire. Il est ncessaire d'avoir une procdure de codage qui permette le passage de la forme dsire au codage sur la couche de sortie du rseau. D'autre part, la base de donnes est fonction de l'application envisage. Ainsi, une application de reconnaissance des formes ne requiert comme exemples d'apprentissage et de test que des images (ensemble de pixels), tandis qu'une application de diagnostic impose que cette mme base de donnes soit compose d'un grand nombre de couples (symptmes, diagnostic associ). La structure de donnes informatique pour mmoriser les bases d'exemples de ces deux types d'application est incompatible, bien que le rseau de neurones reste identique tous points de vue. Le type d'application envisage engage une certaine spcificit des outils de saisie de la base d'exemples.

Interfaces L'interface permet, en slectionnant au sein d'un menu gnral d'une vingtaine d'options, de raliser toutes les fonctions de base du systme : apprentissage, simulation, affichage de la table des cellules, affichage de la table des synapses, quitter le systme, sauvegarde de l'tat du rseau, affichage des formes d'entre/sortie, acquisition des formes d'entre et de sortie, saisie interactive de forme d'entre, construction d'un architecture de rseau, acquisition d'un rseau existant, changement de valeurs des paramtres de la rtropropagation. Les fonctions lies la vrification du bon fonctionnement du simulateur (debug) sont incluses dans chacune des procdures. Il existe aussi des procdures d'affichage des valeurs des tables des neurones et des synapses. Les fonctions lies au test des performances des rseaux simuls (test) rpondent l'objectif de notre logiciel : "destiner aux laboratoires et l'industrie, il doit principalement permettre de tester diffrents algorithmes d'apprentissage afin de dterminer exprimentalement celui qui est le mieux adapt leur problme". Les outils de test sont regroups dans une procdure qui calcule l'cart entre la rponse fournie par le rseau et celle dsire. Cet cart est en fait une mesure des performances du systme. Il est possible de mesurer les performances du systme n'importe quel instant de la phase d'utilisation ou de la phase d'apprentissage.

Structure de donnes La principale structure de donnes est un tableau des cellules (neurones) comprenant une listes des connexions (synapses) au dpart de celle-ci. Un second tableau regroupe les synapses avec le dlai qui leur est attach ainsi que le numro du neurone destination. Les neurones et les synapses contiennent de plus diverses

- 55 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

informations comme, pour les neurones, le potentiel, le type de la fonction de transfert, la somme pondre des entres et quelques valeurs relatives au pass de la cellule.

SACREN fait appel la simulation dirige par les vnements. La simulation vnementielle prsente de multiples avantages par rapport au calcul matriciel (matrice des poids) classiquement utilise. Rappelons brivement ici, les trois principaux avantages lis son emploi : - Gain en facilit de conceptualisation : les neurones et synapses sont effectivement reprsents comme des entits au sein du modle simul.

- Gain de temps de calcul : seules les cellules ayant chang d'tats vont crer un vnement, ainsi le minimum de calcul est effectu. Rappelons que le calcul matriciel oblige de recalculer chaque interaction la valeur de tous les neurones du rseau. Ceci est particulirement pnalisant dans le cadre des rseaux multicouches sans boucle o les couches sont actives les unes aprs les autres (et une seule la fois).

- Gain de place mmoire : la structure de donnes dcrivant le rseau est minimale, en effet seules les cellules et les connexions existantes sont dcrites. La technique classique (matricielle) impose de manipuler des matrices de connexions trs creuses. Ainsi dans le cas d'un rseau de neurones multicouches connexions complte intercouches sans boucles comprenant n cellules, la taille de la matrice est n2 alors qu'il existe environ n2/10 connexions effectives. Pour des rseaux de grandes dimensions, le gain de taille mmoire est considrable.

vnements : la simulation du fonctionnement des rseaux de neurones ncessite trois types diffrents d'vnements que nous avons baptiss : vnement_synapse, vnement_neurone, vnement_zro. Nous dcrivons les actions ralises par chacun de ces vnements.

- L'vnement_synapse est charg de transmettre depuis un neurone source jusqu' un neurone destination, la valeur de l'tat du neurone source pondre par le poids de la connexion. De plus, cet vnement permet l'introduction explicite au niveau de la synapse du concept de temps. Il est possible d'attribuer un retard la transmission entre deux neurones. Cet apport de la simulation vnementielle n'est pas encore exploit au sein des modles neuromimtiques dvelopps actuellement. Chaque vnement_synapse cre un vnement_neurone.

- L'vnement_neurone assure la mise jour de la somme pondre du neurone.

- L'vnement_zro assure le synchronisme de la mise jour du traitement des neurones.

- 56 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

chancier : c'est la structure dans laquelle sont stocks les vnements. Du fait de la manipulation explicite du temps dans notre modle de rseau de neurones, chaque vnement est associ une date. L'chancier doit assurer le classement des vnements en fonction de leur date afin que soit trait en premier l'vnement le plus proche dans le temps. La structure informatique de l'chancier est prsente figure 2.

Date Pointeur sur la date suivante Pointeur sur la liste des vnements Racine Numero Variation Pointeur sur vnement suivant

Date 1

Numero 1

Date 2

Numero 9

Numero 2

Date 3

Numero 5

Figure 2. chancier utilis dans SACREN : Structure informatique de l'chancier. Le numro de l'vnement permet de connatre son type (vnement_zro, vnement_neurone, vnement_synapse).

L'utilisation du simulateur est schmatise figure 3. Le travail dbute par le choix de la structure de rseau (modle, nombre de neurones, comportement de la fonction de transfert) et l'algorithme d'apprentissage (nombre d'itration d'apprentissage, pas de modification des poids, constitution des bases d'exemples). Puis, la phase d'apprentissage sur la base d'exemples est excute. L'tape suivante est l'utilisation du rseau qui permet de valider ou d'invalider les diffrents choix effectus dans les phases prcdentes.

- 57 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

choix de l'algorithme d'apprentissage et ses paramtres

choix de la structure du rseau de neurones et ses paramtres

entre d'une forme d'apprentissage

processus d'apprentissage

non

fin de l' apprentissage ? oui Simulation

entre d'une forme reconnatre

oui

ajout d'une forme d'apprentissage ? non non fin de la session ? oui

Figure 3. Organigramme d'une session

Bibliographie

C. Touzet, N. Giambiasi, "SACREN : Systme d'Aide au Choix d'un Rseau de Neurones," Rapport de contrat ANVAR n A8801006JAL, Nmes, France, juillet 1989.

D'autre part, les travaux de recherche que nous avons mens ont utiliss ce logiciel et ont t dcrits dans plusieurs publications notamment au congrs Neuro-Nmes en 1988 et 1989.

- 58 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

Reconnaissance de caractres manuscrits par rseaux de neurones artificiels


(Contrat ITECA-BEC Frres; 1990-91)

Dveloppement d'un module connexionniste pour la reconnaissance de caractres manuscrits. Le projet global est un systme automatique de saisie de formulaires de chantier. L'apprentissage des critures est ralis sur site d'exploitation. La reconnaissance de forme est un domaine d'application privilgi pour les techniques

connexionnistes du fait de leurs proprits d'apprentissage partir d'exemples, de gnralisation, de rsistance au bruit et de traitement en parallle. Les rseaux multicouches avec la rtropropagation de gradient sont les plus utiliss aujourd'hui. De bonnes performances sont obtenues du fait notamment au nombre restreint (2 3) d'crivains possibles. Un logiciel de saisi automatique de formulaire (FORMSCAN) a t ralis par ITECA. Il est depuis 1991 install sur site (socit BEC Frres). Les performances mesures sont excellentes (98 %).

Les diffrentes tapes de notre projet : 1/ Dfinition du cahier des charges : quelle doit tre la vitesse de traitement, quel est le nombre d'crivains, quelles sont les performances attendues (taux de rejet, taux de mal classs) ? 2/ Construction des bases d'apprentissage et de test. Comment rpartir les exemples entre ces deux bases, quel nombre est suffisant, lesquels sont les plus reprsentatifs ? 3/ Slection d'un modle de rseau. Il s'agit de raliser la mise en correspondance de l'image "pixel" avec le caractre. 4/ Dfinition des prtraitements : squelettisation, seuillage, dtection de contours, normalisation, ... Dfinition du traitement : nombre de rseaux de neurones, association avec traitement classique (vrification, contrle de vraisemblance). Codage des informations d'entre et de sortie (type thermomtre, pixel, ASCII, ...). 5/ Dfinition : nombre de couches caches, nombre de neurones par couche (entre, cache(s), sortie), constante d'apprentissage (), nombre d'itrations d'apprentissage. Retour l'tape 4 pour ajustement. 6/ Mise au point sur la base de test Quelles sont les lettres qui posent problme, pourquoi ? Sur quels critres peut-on autoriser l'apprentissage en cours d'utilisation, avec quels valeurs de paramtres ? - 59 -

HABILITATION DIRIGER DES R ECHERCHES Vrification du respect des performances prcises dans le cahier des charges. 7/ Essais sur site. 8/ En parallle, rdaction de la documentation, de la conclusion, etc.

C LAUDE TOUZET

Cahier des charges performances attendues Constitution de la base d'apprentissage et de test

Slection de la structure et de l'algorithme d'apprentissage Prtraitement, traitement et codage Modifications des paramtres : nombre de couches, de neurones, d'itrations

Test, analyse des perfomances Essais sur site

Figure 1. Les tapes du dveloppement de lapplication (connexionniste)

La figure suivante montre quelques exemples de chiffres manuscrits constituant la base dapprentissage. Un codage de chaque image est ralis en entre du RNA. Il s'agit de dcouper l'image ".tif" en 15 cases (3 X 5), de compter le nombre de pixels noir dans chaque case. Chaque chiffre manuscrit est donc cod sous la forme d'un vecteur de dimension 15. On ajoute aprs chaque vecteur la classe de sortie (composante no. 16).

- 60 -

HABILITATION DIRIGER DES R ECHERCHES


NUMRO DU DIGIT AFFICHE: 0 _____________XXXXXX____ __________XXXXXXXXXXX__ ________XXXXXXXXXXXXXX_ _______XXXXXXXX_XXXXXX_ ______XXXXX________XXXX _____XXXX___XXXX____XXX _____XXX____XXXXX____X_ ____XXXX____XXXXX_X____ ___XXXX______XXXXX_____ ___XXXX______XXXXX_____ ___XXX_______XXXXX_____ ___XXX________XXXX_____ __XXXX________XXXX_____ __XXX_________XXXXX____ __XXX__________XXXXX___ _XXXX__________XXXXX___ _XXXX__________XXXXX___ _XXXX___________XXXX___ _XXX____________XXXX___ _XXX____________XXXXX__ _XXX____________XXXXX__ XXXX____________XXXXX__ XXXX_____________XXXX__ _XXX_____________XXXXX_ _XXX_____________XXXXX_ _XXX_____________XXXX__ _XXX_____________XXXX__ _XXX_____________XXXX__ _XXX_____________XXXX__ _XXX_____________XXXX__ _XXXX____________XXXX__ _XXXX____________XXXX__ _XXXX____________XXXX__ __XXXX___________XXXX__ __XXXX___________XXXX__ ___XXXX__________XXX___ ___XXXX_________XXXX___ ___XXXX_________XXXX___ ____XXXX________XXXX___ ____XXXX_______XXXX____ ____XXXX_______XXXX____ ____XXXXX_____XXXXX____ ____XXXXXX____XXXXX____ _____XXXXXXX_XXXXX_____ ______XXXXXXXXXXX______ _______XXXXXXXXX_______ ________XXXXXXX________ ____________X__________ NUMERO DU DIGIT AFFICHE: 1 _______________XX__________ ______________XXX__________ _____________XXXXX_________ _____________XXXX__________ _____________XXXX__________ ____________XXXXX__________ ____________XXXXX__________ ___________XXXXXX__________ ___________XXXXXXX_________ __________XXXXXXXX_________ __________XXXXXXXX_________ ________XXXXXXXXXX_________ ___X___XXXXXXXXXXX_________ _XXXXXXXXXXX_XXXXX_________ XXXXXXXXXX___XXXXX_________ XXXXXXXX_____XXXXX_________ XXXXXXX______XXXXX_________ XXXXX________XXXXX_________ _____________XXXXX_________ _____________XXXXX_________ _____________XXXXX_________ _____________XXXXX_________ _____________XXXXX_________ _____________XXXXX_________ _____________XXXXX_________ _____________XXXXX_________ _____________XXXXX_________ _____________XXXXX_________ _____________XXXXX_________ _____________XXXXX_________ _____________XXXXX_________ ________XXXXXXXXXX_________ ______XXXXXXXXXXXXXXXXXXXXX ______XXXXXXXXXXXXXXXXXXXXX _______XXXXXXXXXXXXXXXXXXXX ________XXXXXXXXXXXXXXXXXX_ ___________XXXXXXXXXXXXXX__ NUMERO DU DIGIT AFFICHE: 2 _____XXXX_______________ ____XXXXXXX_____________ __XXXXXXXXXXX___________ _XXXXXXXXXXXX___________ _XXXXXXXXXXXXX__________ _XXXX____XXXXX__________ XXXXX____XXXXX__________ XXXXX_____XXXXX_________ XXXXXX____XXXXX_________ _XXXXXX____XXXX_________ __XXXXX____XXXX_________ ___XX______XXXX_________ ___________XXXX_________ ___________XXXX_________ ___________XXXX_________ __________XXXXX_________ __________XXXX__________ __________XXXX__________ _________XXXXX__________ _________XXXX___________ ________XXXXX___________ ________XXXXX___________ _______XXXXX____________ ______XXXXXX____________ ______XXXXX_____________ ______XXXXX_____________ _____XXXXX______________ _____XXXXX______________ ____XXXXX_______________ ___XXXXX________________ __XXXXX_________________ _XXXXXX_________________ _XXXXX__________________ XXXXX___________________ XXXXX___________________ XXXXXX__________________ XXXXXXXX___XXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXX _XXXXXXXXXXXXXXXXXXXXXXX __XXXXXXXXXXXXXXXXXXXXX_ ____XXXXXXXXXXX_________ NUMERO DU DIGIT AFFICHE: 3 ______XXX_______ ____XXXXXXX_____ __XXXXXXXXXX____ _XXXXXXXXXXX____ XXXXXXXXXXXX____ XXXXX___XXXX____ _XXX____XXXX____ ________XXXX____ ________XXXX____ ________XXXX____ _______XXXX_____ _______XXXX_____ ______XXXX______ _____XXXXX______ _____XXXX_______ ____XXXXX_______ ____XXXXXX______ ___XXXXXXXXX____ ___XXXXXXXXXX___ ___XXXXXXXXXXX__ ________XXXXXXX_ _________XXXXXXX __________XXXXXX ___________XXXXX ___________XXXXX ___________XXXXX ___________XXXXX ___________XXXXX ___________XXXX_ ___________XXXX_ __________XXXXX_ __________XXXXX_ __________XXXX__ _________XXXXX__ ____XXXXXXXXX___ ___XXXXXXXXXX___ ___XXXXXXXXX____ ____XXXXXXX_____

C LAUDE TOUZET
NUMERO DU DIGIT AFFICHE: 4 ______XX_________ ____XXXX_________ ___XXXXX_________ ___XXXXX_________ ___XXXX__________ __XXXXX__________ __XXXXX__________ __XXXXX__________ _XXXXX___________ _XXXXX___________ _XXXXX___________ _XXXXX___________ _XXXXX___________ _XXXXX___________ _XXXXX___________ _XXXXX___________ _XXXXX___________ _XXXXX______XXXX_ XXXXX______XXXXXX XXXXX______XXXXXX XXXXX______XXXXX_ XXXXXX____XXXXXX_ XXXXXX____XXXXXX_ _XXXXX___XXXXXX__ _XXXXXXXXXXXXXX__ _XXXXXXXXXXXXXXX_ __XXXXXXXXXXXXX__ ___XXXXXXXXXXXX__ ______XX_XXXXXX__ __________XXXXX__ __________XXXXX__ __________XXXXX__ __________XXXXX__ __________XXXXX__ __________XXXXX__ __________XXXXX__ __________XXXXX__ __________XXXXX__ __________XXXXX__ _________XXXXXX__ _________XXXXX___ _________XXXXX___ __________XXXX___ ___________X_____ NUMERO DU DIGIT AFFICHE: 5 __________________XXX ________________XXXXX ___________XXXXXXXXX_ ______XXXXXXXXXXXXX__ ____XXXXXXXXXXXXX____ ____XXXXXXXXXXX______ ___XXXXXXXXXXX_______ ____XXXXX____________ ___XXXXX_____________ ___XXXX______________ __XXXXX______________ __XXXXX______________ __XXXX_______________ _XXXXX_______________ _XXXXX_______________ _XXXXX_______________ _XXXXX_______________ _XXXXX_______________ _XXXXX_______________ _XXXXX_______________ _XXXXXXX_____________ _XXXXXXXXXXX_________ __XXXXXXXXXXX________ ____XXXXXXXXXX_______ ________XXXXXXXX_____ _________XXXXXXX_____ __________XXXXXXX____ ___________XXXXXX____ ____________XXXXXX___ _____________XXXXX___ _____________XXXXX___ _____________XXXXX___ _____________XXXXX___ _____________XXXXX___ ____________XXXXXX___ ____________XXXXXX___ ___________XXXXXX____ ___________XXXXX_____ __________XXXXXX_____ ________XXXXXXX______ ______XXXXXXXXX______ ____XXXXXXXXX________ __XXXXXXXXX__________ XXXXXXXX_____________ XXXXXX_______________ XXXX_________________

- 61 -

HABILITATION DIRIGER DES R ECHERCHES




C LAUDE TOUZET


- 62 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

tude des apports des rseaux de neurones squentiels pour la rduction des arbres de recherche d'un dmonstrateur de thorme
(Projet PROCOPE financ par l'ANRT)

Les recherches actuelles concernant l'utilisation de rseaux connexionnistes pour guider la recherche d'un dmonstrateur de thormes montrent que l'emploi de ces techniques permet d'amliorer les performances sans accrotre le temps de calcul. Cependant, la gnration de ces heuristiques est ralis hors-contexte : les informations qu'elles fournissent sont indpendantes de la partie de la dmonstration dj ralise. De meilleures performances doivent tre possibles par l'utilisation d'heuristiques dynamiques gnres par des rseaux de neurones squentiels. Ce sont des tapes prliminaires au dveloppement de techniques connexionniste de raisonnement. Les rseaux de neurones squentiels participent la rduction dynamique des arbres de recherches d'un dmonstrateur de thorme. La machine squentielle connexionniste apprend sur une base d'exemples constitue de squences de dmonstrations. En phase d'utilisation, le rseau de neurones, par rfrences l'exprience acquise et l'arbre de recherche dj parcouru, rsout les embranchements non dterministes. Le modle que nous utilisons est celui de la machine squentielle connexionniste, issu du concept de machine squentielle. C'est un modle gnral de rseau squentiel qui inclut tous les autres et est dot de possibilits suprieures.

quipes impliques FKI (Forschungsgruppe Kunstliche Intelligentz) de l'Institt fr Informatik de l'Universit Technique de Munich (R.F.A.). 15 jours de mission au FKI (Munich, R.F.A.) en 1990 (C. Touzet), trois semaines de mission en 1991 (C. Touzet). Pour 1992, deux semaines de mission (C. Touzet, M. Polizzi). Visites rciproques au LERI pour une semaine de W. Ertel (FKI) en novembre 1990, Ilko Michler en novembre 1991 (2 semaines) et Bertram Fronhfer en mai 1992.

Publications C. TOUZET , N. GIAMBIASI, "Application of Connectionist Models to Fuzzy Inference Systems", in Parallelization in Inference Systems, Lectures Notes in Artificial Intelligence 590, B. Fronhfer & G. Wrightson Eds., Springer Verlag, April 1992. C. TOUZET, N. GIAMBIASI, "The Connectionist Sequential Machine: a General Model of Sequential Networks", ACNN'92, in Canberra, P. Leong & M. Jabri Eds. Sydney University Electrical Engineering, NSW 2006, Australia, February 1992.

- 63 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

Application des cartes auto-organisatrices la gnration de maillage aux lments finis


(collaboration avec le LEG- ENSIEG)

L'ide essentielle est d'interprter gomtriquement la rpartition des neurones des cartes auto-organisatrices dans l'espace synaptique. On utilise les cartes auto-organisatrices de Kohonen pour leur proprit d'arrangement spatial optimal. La rpartition des neurones dans l'espace synaptique se superpose la gomtrie d'tude pour constituer le maillage. Il ne s'agit pas ici d'une application classique au sens mise en correspondance de deux espaces. Dans de nombreuses disciplines (lectrotechnique, mcanique, thermique...), les techniques de rsolution numrique font appel un maillage de la gomtrie d'tude. La prcision des rsultats et le temps de calcul dpendent fortement du maillage qui constitue une tape-cl de la rsolution. Les cartes auto-organisatrices du fait de leurs proprits d'auto-organisation et d'arrangement optimal satisfont aux critres usuels de maillage. Pour le maillage en lectrotechnique, les critres gomtriques sont les suivants : aucun " trou " ni recouvrement n'est tolr, les lments doivent tre le plus rgulier possible (triangles quilatraux, quadrilatres proches de rectangles pas trop plats, ...). Les critres physiques sont fonction du problme. En rgle gnrale, le maillage doit tre plus fin (lments plus petits) dans les zones critiques o peuvent se produire des phnomnes tels que : effet de pointe, frontires entre rgions, proprits des matriaux (saturation), ...

Pour mailler une pice avec une carte auto-organisatrice, la premire approche qui vient l'esprit montre que le rseau ne respecte pas la concavit. Certains neurones sont en dehors de la gomtrie. Si on essaye alors de supprimer les neurones en dehors de la pice et de reprendre l'apprentissage en ayant une forme de rseau plus adapte la pice, les rsultats ne sont pas satisfaisants. Il faut raliser une dcoupe pralable de la gomtrie mailler en sous-parties convexes et fixer les neurones sur la priphries (Figure 1).

Dans le but d'amliorer les performances des cartes auto-organisatrices, nous avons introduit deux nouveaux paramtres d'action comparables au phnomne biologique d'accoutumance. Certains neurones peuvent rpondre de moins en moins activement un stimulus lorsque celui-ci se prsente frquemment. Une frquence de slection est introduite, qui s'incrmente ou se dcrmente selon que le neurone est le foyer d'activation (cluster) ou non. Ensuite, la corrlation des neurones aux entres est pondre par un facteur dpendant de la frquence d'activation. Le choix du rseau est purement li des critres gomtriques de la pice pour la structure et des critres physiques du problme pour le nombre de neurones (dont va dpendre le nombre de mailles). La forme - 64 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

des mailles est donne par les relations de voisinage entre neurones. Par exemple, un voisinage de 6 donne des mailles triangulaires.

Figure 1. Maillage d'une gomtrie concave par une carte auto-organisatrice

Algorithme

A Prparation au maillage ralise par l'utilisateur : A.1 Dcoupe de la gomtrie en sous-domaines convexes. A.2 Discrtisation des contours. B Pour chaque sous-domaine : B.1 choix du rseau (architecture, type de mailles). B.2 dtermination des poids des neurones priphriques. B.3 choix du nombre d'itrations d'auto-organisation. B.4 auto-organisation du rseau (maillage). C Assemblage des sous-domaines.

Rsultats exprimentaux

Les rsultats obtenus (figure 2) montrent la validit d'une telle approche. La qualit gomtrique du maillage est satisfaisante. La matrise du nombre de mailles est possible. La souplesse au niveau de la non-uniformit du maillage est accrue par rapport aux mailleurs automatiques classiques. La combinaison des lments (triangles et quadrilatres) est possible. Enfin, cette approche permet une numrotation optimale des noeuds. Le nombre

- 65 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

d'lments singuliers est rduit, le mixage des lments triangulaires et carrs est possible et les proprits d'arrangement spatial des cartes permettent de respecter simplement les critres physiques.

Figure 2. Maillage d'un huitime d'alternateur dcoup en trois sous-domaines. L'encoche est maille par un rseau carr 5 x 5, la partie extrieure du rotor par un rseau rectangulaire 7 x 8. Enfin, le triangle intrieur est maill par un rseau triangulaire de 12 neurones de ct, les mailles tant triangulaires. Le maillage se compose de 187 lments. La discrtisation du contour est gomtrique aux alentours de l'encoche. On a de plus dfini une zone critique maille plus finement dans le coin suprieur droit du triangle. Le maillage ncessite 500 itrations pour l'encoche, 2000 pour la partie extrieure et 5000 pour le triangle intrieur.

Publications

O. SARZEAUD, Y. STEPHAN, C. TOUZET, "Finite Element Meshing using Kohonen's Self-Organizing Maps", ICANN91, Helsinki, Finland, juin 1991.

O. SARZEAUD, Y. STEPHAN, C. TOUZET, "Application des cartes auto-organisatrices la gnration de maillage aux lments finis", Neuro-Nmes 90, Nmes, France, novembre 1990.

- 66 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

Compression dimages visiophoniques par RNA


(Contrat FEDER-GENESYS, Montpellier)

Les images qui proviennent de la tlvision, de visioconfrence, de satellite, ou dapplications mdicales ... quelles quelles soient, reprsentent une quantit norme de donnes aprs digitalisation. Diminuer les cots de transmission ou de stockage est dun intrt trs ancien (par exemple, le code Morse). En ce qui concerne les applications aux communications, le but recherch est alors de minimiser la dure de transmission dun certain volume dinformations. Ceci apporte la fois une conomie sur le cot, une diminution des risques derreurs, une plus grande ergonomie et une plus grande performance, puisque les donnes sont achemines en un temps plus court. Les diverses mthodes de compression sont bases sur les techniques de prdiction, de transformation, ou de quantification vectorielle, avec des possibilits de combinaisons entre elles. Elles sont de deux types. Si la transformation ralise est rversible, la rduction utilise la redondance dinformations et aucune information nest perdue. Dans l'autre cas, la transformation est irrversible. Cest une rduction d'entropie et il y a perte dinformations. Nous avons tudi l'utilisation des techniques connexionnistes pour la compression d'images visiophoniques : utilisation des cartes auto-organisatrices pour la quantification vectorielle dimages.

L'image transmettre est dcoupe en blocs ou matrices de pixels. Chaque pixel peut tre cod par les poids de composantes RVB ou par une composante de luminance et deux composantes diffrentielles de couleur (Y, Cb, Cr). La technique de codage fait appel la capacit du rseau de neurones diffrencier et classer les blocs en considrant : - qu'au sein d'une mme image, de nombreux blocs sont identiques, - qu'une image est compose pour une part importante de blocs dj prsents dans l'image.

Les cartes auto-organisatrices permettent de projeter, en respectant la densit des exemples, les donns d'entres sur l'espace du rseau. Dans le cas de la quantification vectorielle, il y a autant de neurones que de mots dans le dictionnaire. Les exemples d'apprentissage sont constitus de tous les blocs de l'image. La quantification vectorielle ralise la mise en correspondance dun ensemble de vecteurs dentre avec un ensemble de vecteurs de sortie, selon une mesure de distorsion. Tous les chantillons dune rgion (de lespace des blocs) sont reprsents par un seul code. Ce code est un index du dictionnaire. Le dictionnaire est compos des vecteurs les plus occurrents de limage (en terme de frquence), ce sont les mots du dictionnaire. Sur la ligne de transmission, les codes correspondant chaque bloc de limage initiale sont envoys squentiellement. A la rception, on utilise le dictionnaire pour reconstruire limage, qui est donc tablie seulement partir des mots du dictionnaire. - 67 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

Les essais raliss, laide dune image test de 172 x 128 (22 016 pixels), comparent les performances obtenues pour les diffrents paramtres suivants : dictionnaires de tailles diffrentes (lies la taille de la carte, cest--dire le nombre de neurones qui

coderont les blocs), dictionnaires de dimensions diffrentes (lespace sera projet sur un rseau 1 dimension, 2

dimensions et 3 dimensions), longueur de la squence dapprentissage (nombre ditrations). On cherche optimiser la dure

dapprentissage), taille des blocs , cest--dire la dimension des vecteurs dentre, les variations du voisinage (par a et b qui sont les paramtres de changement de poids:

Les performances de la compression sont mesures par : MSE (Mean Square Error) qui reprsente la diffrence entre limage initiale et limage reconstitue : erreurs2 ou bien, erreurs2 / pixel. Le taux de transmission (Bit Rate) = Nombre de bits / pixel (bpp) = (log2 nbre de vecteurs / nbre de pixels par bloc).

La quantification vectorielle Une image est un objet analogique. Sa reprsentation spatiale est continue de mme que la valeur de la couleur en chacun de ses points. Pour modliser une image, il faut transformer limage analogique par une fonction dchantillonnage S, en une fonction discrte f(x,y) (x et y tant les coordonnes des pixels) dont lamplitude reprsente lintensit lumineuse. Ce processus est dcrit par la figure 1. Dans le cas particulier des images nayant quune seule couleur, lintensit en chaque point est appele niveau de gris. Le nombre plus ou moins lev de niveaux de gris spcifie la qualit de limage (par exemple : 256 niveaux de gris sont un critre de qualit).

F (x,y)
i

S (x,y) fonction d' chantillonnage


Figure 1. chantillonnage

fp(x,y) fonction chantillonne

image initiale continue

Pour rsumer, lchantillonnage est une numrisation : - en espace : discrtiser les coordonnes (x,y), cest chantillonner limage. - en frquence : discrtiser la couleur dun point, cest quantifier les niveaux de gris. - 68 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

Lors de la quantification vectorielle, l'image transmettre est dcoupe en blocs de pixels. Chaque pixel peut tre cod par les poids des composantes RVB (Rouge, Vert, Bleu) ou par une composante de luminance et deux composantes diffrentielles de couleur (Y, Cb, Cr). La technique de codage est base sur le fait, qu'au sein d'une mme image de nombreux blocs sont identiques ou peu diffrents.

La quantification vectorielle ralise une mise en correspondance dun ensemble de vecteurs dentre avec un ensemble de vecteurs de sortie, selon une mesure de distorsion. Tous les chantillons dune rgion (en fait les blocs semblables) sont reprsents par un seul code. Ce code est un index du dictionnaire. Le dictionnaire est compos des blocs les plus frquents de limage, ce sont les mots du dictionnaire. Sur la ligne de transmission, les codes correspondant chaque bloc de limage initiale sont envoys squentiellement. A la rception, on utilise le dictionnaire pour reconstruire limage, qui est donc tablie seulement partir des mots du dictionnaire.

Le principal problme de la quantification vectorielle ralise par l'algorithme classique (Linde-Buzo-Gray ou LBG) est la non-invariance du dictionnaire par rapport aux conditions initiales. En effet, on est oblig de fixer des valeurs initiales pour les mots du dictionnaire, valeurs qui influencent la solution finale. De fait, cette solution nest pas toujours optimale. Dautre part, pour construire un dictionnaire optimal, on utilise une mesure de distorsion entre lensemble dentranement et le dictionnaire. Lalgorithme est sous-optimal puisquil tend sur-coder les rgions denses de points alors que les rgions clairsemes sont sous-codes. Les blocs peu reprsents (et ventuellement trs significatifs pour l'oeil) sont rejets au profit de blocs plus courants (codant le fond par exemple).

3/ Principe de la quantification vectorielle par carte auto-organisatrice (fig. 2) Le nombre de mots du dictionnaire est gal la taille du rseau (nombre de neurones). Le dictionnaire est donc compos des blocs les plus reprsentatifs de limage.

- 69 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

Blocs de l'image (72 bits) 4 entres sur la carte

image reconstitue (32 bits)

canal de transmission carte auto-organisatrice (1) dictionnaire 1 2 3 4 1 2 3 4 (2) dictionnaire (3) rception

(4)

Figure 2. Principe de la quantification vectorielle par carte auto-organisatrice (1) Construction du dictionnaire : la carte slectionne les mots du dictionnaire partir des blocs les plus reprsentatifs de limage. (2) Codage de limage (par le dictionnaire) : la carte slectionne pour le bloc de limage qui lui est prsent le numro du mot du dictionnaire le plus proche. (3) Transmission : le numro des vecteurs est transmis par le canal. (4) Dcodage (reconstitution).

Exprimentations 28

1/ Variation de la taille de la carte La dimension des vecteurs est de 2 x 2 = 4 pixels. Il y a 20 itrations dapprentissage (= 0.8 et = 0.7). Plus le nombre de neurones est important, meilleure est limage restitue ; mais le taux de compression varie linverse. Il faut trouver un compromis entre la qualit de limage et le taux de compression (fig. 3). Nous avons choisi pour le suite de lexprimentation 30 neurones (6 x 5) et des blocs de 2 x 2.
28 Nos

exprimentations utilisent une image de 172 x 128 (22 016 pixels) sur 8 niveaux de gris. - 70 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

MSE

294.1

86.8 43.3 29.7 7 15 30 60 125 nombre de neurones

Fig. 3 Variation de la taille de la carte auto-organisatrice

2/ Variation des dimensions du rseau : rseau 1D, 2D, 3D Nous choisissons deffectuer seulement 10 itrations et les valeurs suivantes : = 0.5 et = 0.1, les blocs sont de 2 x 2. La dimension de lespace dentre est gale la taille des blocs. Lhypothse que nous testons est : la projection faite sur lespace de ce rseau est-elle dautant meilleure que les dimensions du rseau et des entres sont plus proches.

Rseau 1D : ligne de 64 neurones

....
Rseau 2D : carte de 8 x 8 = 64 neurones

Rseau 3D : cube de 4 x 4 x 4 = 64 neurones - 71 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

Le meilleur rsultat est obtenu pour le rseau ligne (1D). Le voisinage est rduit et tend vers 0 (cf. variation du voisinage). Notre objectif est de tester la carte auto-organisatrice pour la compression dimage, nous conservons donc le rseau 2D pour la suite des tests.

3/ Variation de la taille des blocs (dimension des vecteurs) Carte de 30 neurones (6 x 5), 20 itrations, = 0.8 et = 0.7. Plus les blocs sont gros, plus le taux de compression est important. Le problme est quil existe une taille limite pour ces blocs dterminer. Les blocs 4 x 4 sont trs grands, mais ils offrent un bon taux de compression (12.8). Les blocs 2 x 2 donnent un meilleur rsultat visuel que les blocs 4 x 1 car dans ce cas, les lignes horizontales sont trop visibles bien quayant le mme taux de compression et une erreur sensiblement identique.

4/ Variation du nombre ditrations Carte de 30 neurones (6 x 5), blocs de 2 x 2 pixels, = 0.8 et = 0.7. Plus la dure dapprentissage est rduite, plus une intgration dans un systme rel devient envisageable. Nous choisissons de nous limiter 15 itrations (fig. 4) pour la suite de nos exprimentations, cest le nombre pour lequel la distorsion est minimale.

MSE

95 86.8

15

30

50

nombre de neurones

Figure 4. Variation de la squence dentranement

- 72 -

HABILITATION DIRIGER DES R ECHERCHES 5/ Variation du voisinage

C LAUDE TOUZET

Le meilleur rsultat (en terme de minimisation de la distorsion) est atteint pour les valeurs ( = 1 ; = 0), cest-dire sans voisinage. Cependant, bien que lerreur soit suprieure en prsence dun voisinage, loeil l'image semble meilleure. Ce phnomne se reproduit sur plusieurs autres images. Nous constatons ici le fait bien connu que la mesure de la distorsion nest pas un critre de mesure de la qualit visuelle dune image compresse.

Conclusion La variation de la taille de la carte montre que plus celle-ci est de taille importante, plus la qualit de limage restitue est bonne. Toutefois, plus il y a de neurones, moins le taux de compression est important. Il faut donc rechercher un compromis entre un taux de compression satisfaisant et une bonne qualit dimage. Concernant la dimension du rseau, plus la dimension est faible, meilleure est la MSE. Cependant, le rseau 2D est celui que nous avons choisi pour toute la suite de nos travaux, car bien que de qualit absolue infrieure (MSE), il est dune qualit visuelle meilleure. Cest un constat de mme type que pour la variation du voisinage. La variation de la taille des blocs donne un bon rsultat pour 2 x 1 pixels (mais le taux de compression serait alors seulement de 1,6), alors qu loppos les blocs 4 x 4 pixels donnent un mauvais rsultat visuel mais la compression est de 12,8. Le nombre ditrations de lapprentissage fait varier lerreur totale. Pour 15 itrations, on obtient une distorsion minimale. Au del de 15 itrations, cest le phnomne du par coeur qui prend la place de la gnralisation. Enfin, les paramtres et font eux aussi varier la distorsion : les meilleurs rsultats en valeur de distorsion, sont obtenus pour = 1 et = 0, cest--dire un rseau sans voisinage. Dans ce cas, on ne peut plus parler de rseau (il ny a plus de voisinage), le comportement observ est identique celui de lalgorithme de Linde-Buzo-Gray. Notons cependant que dans ce cas aussi, l'apprciation subjective fournie par la vision humaine ne suit pas toujours les critres quantitatifs. Enfin, lutilisation de la carte de Kohonen permet de palier lun des problmes majeurs rencontrs par lalgorithme LBG : la non-invariance par rapport aux conditions initiales. Dans notre cas, le dictionnaire initial est choisi alatoirement et ninfluence pas le rsultat final. Rappelons que dans les autres mthodes de quantification vectorielle, ce choix met en oeuvre de nombreux calculs et constitue un facteur dterminant pour la qualit du quantificateur final.

Publications S. Dellaporta et C. Touzet, "tude de faisabilit de la compression d'images visiophoniques par rseaux neuronaux," rapport de contrat FEDER - GENESYS, juillet 1991. S. Dellaporta, "Compression d'images par cartes auto-organisatrices," rapport de DEA, Universit des Sciences et Techniques du Languedoc, juillet 1991.

- 73 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

tude et dveloppement dune mthode danalyse par coalescence pour la dtermination des espces gntiques base sur les RNA
(Collaboration avec le Centre de Coopration Internationale en Recherche Agronomique pour le Dveloppement Montpellier, CIRAD)

Nous tudions le problme du regroupement (coalescence) des distances de migrations des fragments d'ADN (donnes RFLP) l'aide d'une approche base sur les rseaux de neurones. Cette approche nous permet de stabiliser le comportement de l'expert dans sa tache d'analyse. Il sagit de trouver un moyen de classification des bandes rvles sur un autoradiogramme, qui soit base sur des critres connus, objectifs mais modifiables, et qui permette diffrents experts humains d'arriver une mme classification. Une premire approche a t propose qui utilise des algorithmes de classification hirarchique base sur un seuil dtermin exprimentalement, pour obtenir des classifications plus fiables que par simple comparaison de poids molculaires calculs par interpolation. Cette mthode perd rapidement sa robustesse ds qu'il s'agit de classifier des sries de trois bandes ou plus dont la taille augmente successivement d'une valeur proche du seuil d'agrgation. Nous proposons de constituer une base d'exemples de coalescences raliss par un expert humain afin de raliser l'apprentissage dun rseau neuronal ART. Suite l'apprentissage, le rseau ralise en fonction d'une valeur de seuil l'association des mesures. Le comportement du rseau et ses performances sont influencs par de nombreux paramtres tels que le codage des informations d'entres sur la couche d'entre, l'interprtation des informations de la couche de sortie, les valeurs de gains, etc. Ces paramtres ne peuvent tre dtermins que par une exprimentation extensive.

La RFLP (Restriction Fragment Length Polymorphism) est une des mthodes les plus puissantes de comparaison entre diffrents individus. Elle consiste en la mesure des variations de poids molculaire de fragments de leur matriel gntique, l'ADN, aprs digestion de celui-ci par des enzymes dits de "restriction". Pour cela, on s'attache dterminer les distances de migration de ces fragments d'ADN aprs sparation par lectrophorse. Les variations de taille et donc de migration des fragments entre deux individus sont appeles "polymorphisme de la taille de fragments de restriction" ou donnes "RFLP", et sont lisibles sur un autoradiogramme.

ART (Adaptive Resonance Theory) est un modle de rseau apprentissage comptitif, particulirement bien adapt car il permet de dduire des valeurs de seuil pour l'agrgation des donnes partir d'un algorithme d'apprentissage par l'exemple et il n'est pas restreint un nombre de classes prdfinies. Dans la plupart des rseaux de neurones, deux tapes sont considres. La premire est la phase d'apprentissage : les poids des - 74 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

connexions sont modifis selon une rgle d'apprentissage La deuxime est la phase d'excution o les poids ne sont plus modifis. Avec le rseau ART, ces deux tapes sont ralises simultanment. Le rseau en phase de test, s'adapte des entres inconnues en construisant de nouvelles classes (ajout de neurones) tout en dgradant au minimum les informations dj mmorises. Il existe plusieurs versions de rseaux (ART1, ART2, ART3). Le rseau ART1 est un rseau entres binaires.

Le rseau ART1 est form d'une couche d'entre qui est aussi la couche de sortie et d'une couche cache (fig. 1). Le terme de couche cache est emprunt au rseau multicouche, il souligne le fait que cette couche n'est pas directement observable par l'utilisateur la diffrence de l'entre ou de la sortie. Il n'y a pas de connexion entre les neurones d'entres. Par contre, la couche cache est une couche d'activation comptitive, tous les neurones sont relis les uns aux autres par des connexions inhibitrices de poids fixes. Chaque neurone de la couche d'entre est reli tous les neurones de la couche cache et, rciproquement, chaque neurone de la couche cache est reli tous les neurones de la couche de sortie. A chaque connexion est associ un poids.

Couche cache activation comptitive

S Couche d'entre et de sortie

Figure 1. Architecture du rseau ART 1. La couche d'entre est aussi celle de sortie. Tous les neurones de la couche d'entre sont relis tous les neurones de la couche cache et tous les neurones de la couche cache chacun de ceux de la couche de sortie. Il n'y a pas de relation entre les neurones d'entre alors que la couche cache est activation comptitive.

La figure 2 montre un vecteur d'entre E soumis au rseau. A cette entre correspond, aprs comptition entre les neurones de la couche cache, un unique neurone j gagnant. Ce gagnant est considr par le rseau comme le plus reprsentatif du vecteur d'entre E. Le neurone j gnre en retour sur la couche de sortie un vecteur S binaire (seuillage). S est ensuite compar au vecteur d'entre E. Si la diffrence est infrieure un seuil fix pour le rseau, le neurone gagnant est considr comme reprsentant de la classe du vecteur d'entre. Dans ce cas, la modification des poids des connexions du neurone gagnant a pour effet de consolider ses liens d'activation avec l'entre E ; en fait l'adquation entre ce vecteur d'entre et cette classe est amliore. Dans le cas contraire, le

- 75 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

processus reprend avec les neurones de la couche cache moins le neurone gagnant de l'tape prcdente. Si tous les neurones cachs sont passs en revue sans qu'aucun ne corresponde E, un nouveau neurone cach est ajout, qui est initialis comme reprsentant de la classe du vecteur d'entre E.

0 a

0 b

0 c

0 d

Figure 2. Fonctionnement du rseau ART1. a) Prsentation du vecteur d'entre E, un neurone gagnant j est slectionn. b) Tentative d'unification entre S (retour du neurone j) et E. c) chec : suppression du neurone gagnant, prsentation de E. d) Unification : le neurone i est un reprsentant de la classe du vecteur d'entre E.

- 76 -

HABILITATION DIRIGER DES R ECHERCHES Algorithme

C LAUDE TOUZET

L'apprentissage consiste tout autant dans la dtermination des poids que de la valeur du seuil d'unification .

1/ Initialisation des poids alatoirement entre 0 et 1 et choix d'un seuil d'unification . 2/ Prsentation d'un vecteur d'entre El appartenant la base d'apprentissage 3/ Calcul du neurone gagnant sur la couche cache Nj. 4/ Gnration en retour d'un vecteur de sortie Sj issu de ce seul neurone Nj. S j a t seuill afin de le rendre binaire. 5/ Tentative d'unification entre Sj et E l. Soit |S| est la norme de S j gale au nombre de composantes 1, par exemple |(1, 0, 1, 1)| = 3. Si |S j| / |El| , l'unification est ralise. Il faut modifier les poids : tape 7. 6/ Sinon |Sj| / |El| < , le neurone gagnant Nj est inhib. S'il y a encore des neurones non inihibs sur la couche cache alors retour l'tape 3. Sinon un nouveau neurone cache est cr, initialis comme reprsentant de la classe correspondant la forme d'entre El en utilisant la loi de modification des poids de l'tape 7. 7/ Modification des poids Couche des poids montants : (h neurone de la couche d'entre, j neurone gagnant de la couche cache) wjh = 1 / |Sj| wjh = 0 wkj = 1 wkj = 0 si le neurone h est actif (valeur 1), sinon (valeur 0).

Couche des poids descendants: (j neurone gagnant de la couche cache, k neurone de la couche de sortie) si le neurone k est actif, sinon.

Retour l'tape 2. 8/ Quand le passage de tous les exemples de la base d'apprentissage n'occasionne plus aucun ajout de neurone, il faut mesurer les performances : contrler le nombre et la qualit des classes construites. Si le nombre est trop faible, retour l'tape 1 avec une augmentation de la valeur de . Si ce nombre est trop lev, retour l'tape 1 en diminuant la valeur de .

La valeur du seuil contrle le degr d'unification recherch entre les formes classer et les prototypes des classes. Plus la valeur du seuil est grande, meilleure est l'adquation recherche. La valeur du seuil doit tre choisie entre 0 et 1. Le neurone i est rattach une classe dont le prototype gnrique priori ne correspond prcisment aucune des formes de la base d'apprentissage. L'unification est ralise lorsque le nombre d'entres 1 est comparable avec le nombre de retours 1 (coactivation statistique).

- 77 -

HABILITATION DIRIGER DES R ECHERCHES Rsultats

C LAUDE TOUZET

Un exemple de coalescence de donnes issues d'une distribution parabolique est ralis (fig. 3). Les coordonnes d'un ensemble de point pris sur la parabole sont soumis en donnes d'entre au rseau ART1 (fig. 2a). Aprs quelques itrations de l'ensemble de la base d'exemple, les classes construites par le rseau sont prsentes sur la figure 2b. Ici quatre classes correspondants aux lettres a, b, c et d sont reprsentes, la valeur du seuil de vigilance est de 0.7. Plus la valeur de seuil est proche de 1, plus le nombre de classes cres est grand et rciproquement.

x x xx x x x x x x x x x x

x x x x

a a aa a a b b b c c b c c c

d d d

a
a) Base d'apprentissage (points extraits sur une parabole). b) Coalescence ralise avec un seuil = 0.7 (4 classes).

Figure 3. Exemple de traitement ralis par le rseau ART1

Les applications majeures du rseau ART ont t ralis en reconnaissance de la parole, reconnaissance des formes visuelles, en dtection d'image radar ainsi qu'en classification et en coalescence.

Conclusion Le rseau ART1 a une architecture en deux couches qui interagissent entre elles. Le rseau se distingue aussi par deux caractristiques: sa flexibilit et sa stabilit pour des entres arbitraires. Il est capable de s'adapter des entres non familires en construisant de nouvelles catgories ou classes ( flexibilit, plasticit) mais aussi d'adapter les classes dj apprises tout en dgradant peu les informations dj mmorises (stabilit). Le problme pos par ces deux notions antagonistes (flexibilit-stabilit) est rsolu par le principe de l'architecture volutive.

Rfrences S. SEHAD, Rseaux neuronaux "ART" : application la coalescence de donnes gntiques, DEA Conception Assiste des Systmes Informatiques, Automatiques et Micro-lectroniques, U.S.T.L., Montpellier, 1992. - 78 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

Maquette de dmonstration de l'apprentissage par RNA, application la locomotion hexapode


(Contrat avec Neurosystmes; 1991-92)

Avec lobjectif de raliser une dmonstration des capacits d'apprentissage des RNA et en particulier de lapprentissage par renforcement, nous avons ralis une simulation de l'apprentissage de la marche chez les insectes (figure 1). Chez la plupart des insectes, six pattes permettent la locomotion, chacune est dote de son propre gnrateur de mouvement, reli par des connexions intra et inter-segments. On postule souvent l'existence d'un gnrateur central de formes locomotrices. Nous montrons qu'un gnrateur central de formes locomotrices n'est pas ncessaire, son rle peut tre tenu par l'algorithme d'apprentissage : le systme de locomotion est compos de six rseaux neuronaux compltement interconnects, sans gnrateur central d'activit. Les entres du systme sont les informations sensorielles relatives la position des pattes. Sur la base de ces entres, le systme gnre une nouvelle position des pattes. Ainsi, chaque patte a la possibilit de rester inactive, d'avancer ou de reculer. Seule l'action de recul est motrice. L'effet sur l'environnement peut tre de trois types : aucun dplacement, avance ou chute. A partir de cette information, l'apprentissage permet d'duquer chacun des rseaux pour dcouvrir une marche. En fait, l'algorithme d'apprentissage explore de manire alatoire l'espace des mouvements des six pattes. Chaque avance dans la "bonne" direction est encourage et on s'loigne des tats conduisants la chute.

L'algorithme d'apprentissage par pnalit/rcompense (ARP) s'applique toute architecture de rseau, la seule contrainte tant d'avoir des neurones de sortie stochastiques. On introduit donc ce niveau une part d'alatoire dans le comportement du systme. Si la rponse fournie par le systme est considre comme bonne, l'algorithme tend favoriser l'apparition de ce comportement en rduisant l'alatoire. Dans le cas ou la rponse du systme globale est considre comme mauvaise, on cherche viter l'apparition ultrieure de ce comportement. Ce processus est itr jusqu' l'obtention du comportement dsir pour l'ensemble du systme.

- 79 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

Figure 1. Une marche en deux temps.

Prolongements

Nous avons ralis une dmonstration logiciel de ce systme, sur une Silicon Graphics, qui permet une visualisation 3D de la dcouverte de la marche qui a t expos au congrs Informatique92, Interfaces des mondes rel et virtuel, Montpellier, mars 1992.

L'cole des Mines d'Ales a ralis un robot mobile dot de six pattes, de capteurs, deffecteurs et de l'algorithme prcdemment cit, qui valide nos rsultats face au monde rel.

Publications

Claude TOUZET

et

Olivier

SARZEAUD,

"Application

d'un

algorithme

d'apprentissage

par

pnalit/rcompense la gnration de formes locomotrices hexapodes," Journes de Rochebrune, AFCET IA. et Cognition, 20-24 janvier 1992.

Rcompenses

Il est noter que le logiciel d'animation 3-D dvelopp sur Silicon Graphics en 1993 a t retenu par le Ministre pour tre prsent dans ses jardins parisiens lors des Journes de la Science 1993.

- 80 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

D'autre part, la version logicielle ralise en 1994 a gagn le concours national Apple "Programmer un comportement intelligent" dot de 200 000 F pour le vainqueur (fig. 2).

Figure 2. ANTROID, version Mac ralise en 1994; qui a gagn le concours national Apple.

- 81 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

Aide la conduite d'un haut-fourneau par rseaux de neurones artificiels


(Contrat avec SOLLAC-Sachem 1993-1997)

material introduction ( ores + coke ) hot gas exhaust (9 millions m3 per day) probe of temperature and gas analysis measure point n1 measure point n8 41 meters

hot air injection (1250C, 250 m.s-1, 3.5 bar) coke block 11.2 meters

Fig. 1 Coupe schmatique dun haut fourneau. Du fait de la taille et de la complexit du procd, seules des information capteurs sont utilises pour le pilotage.
monotony and non

continuity defaults %CO C 0.60 1000 0.55 900 0.50 800 0.45 700 0.40 600 0.35 500 0.30 400 0.25 300 0.20 200 0.15 100 0.10 0 1234 5 678 876 5 43211234 5 678 876 5 4321 probe 1 probe 3 probe 2 probe 4 temperature curves non monototy default measure points

R.E. curves

Fig. 2 Un exemple (2 poutres) des mesures ralises sur le haut fourneau. Il y a 4 mesures poutre toutes les 16 minutes. Le problme est de dterminer les points de mesures invalides avant la mise en oeuvre des procdures base de connaissance. La description de la mise en oeuvre des RNAs est confidentielle. Elle fait lobjet dun dpt de brevet (en cours). - 82 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

R alisation

d'une modalit de communication sonore pour le robot Khepera


(Contrat ANVAR)

L'objectif est de raliser une maquette permettant la communication sonore entre plusieurs robots mobiles (en loccurrence des Khepera ). La communication sonore est tout fait adapts pour transmettre des messages dordres gnraux sans prsupposer de lorientation ou de la position des agents, ce qui nest pas le cas avec une communication lectromagntique (infrarouge ou lumire visible), et sans poser les problmes de rglages dlicats entre deux sources radio. De plus avec un tel systme, loprateur sait tout de suite si les robots sont en communication ou non. Par contre, il sera difficile de localiser la source de lappel, et impossible de laisser un message durable dans le temps. La communication sonore convient donc pour les messages dalarme et de regroupement, mais ne pourra tre efficacement utilise comme signal de marquage.

Du plus en plus de chercheurs veulent utiliser des robots mobiles, non seulement en robotique, mais aussi en intelligence artificielle, biologie, sciences cognitives et autres domaines. De fait de nouveaux robots doivent tre dvelopp pour satisfaire les caractristiques suivantes : * Facile installer (plug and play) * Bonne puissance de calcul embarque * Modulable(configuration flexible) * Pratique utiliser et sans danger * Faible prix La famille des K-robots (Khepera (Fig. 1) et Koala) est le rsultat de cette motivation et satisfait les contraintes qui viennent dtre numres. Le grand nombre d'utilisateurs (plus de 400 vendus travers le monde) et la diversit de leurs activits (des biologistes jusqu'aux mathmaticiens) tendent prouver que l'effort qui a t fait allait dans le bon sens, donnant la possibilit toutes ces personnes de travailler avec un robot rel sans pour autant tre roboticien. Les K-robots constituent une transition entre la simulation et les applications industrielles.

- 83 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

Fig. 1 Le robot miniature Khepera, avec module de vision et pinces

Avec un diamtre d'environ 55 mm., Khepera est un robot mobile trs intressant pour l'exprimentation. Il peut tre utilis sur une table, connect une station de travail par le biais d'une liaison srie. Cette configuration est optimale pour l'exprimentation, avec tout port de main: le robot, lenvironnement, et l'ordinateur de contrle (fig. 2). Pour suivre le robot et afficher sa trajectoire, un scanner laser rend possible l'affichage des cordonnes x,y et l'orientation de chaque robot dans l'espace de travail.

Le module processeur est un microcontrleur Motorola 68331 (il possde des performances similaires au processeur Motorola 68020 cadence 16 Mhz) avec 256 kilo-octet de RAM, 256 Kilo-octet de ROM, six canaux - 84 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

analogiques/numriques avec une rsolution de 10 bits, et une liaison srie. Le CPU prsent sur le robot offre de multiples avantages : facilit de programmation ( on peut utiliser tous les langages compatibles avec les processeurs de la famille 68000) et une bonne puissance de calcul. La base motrice est constitue de deux roues, quatre accumulateurs autorisants une autonomie de 30 40 minutes, et 8 capteurs de proximit par dtection de lumire infrarouge. Ces capteurs sont suffisants pour la dtection de lumire et d'obstacles simples.

Fig. 2 Exemple de poste de travail avec Khepera

Le robot mobile Khepera a t dvelopp pour tester les algorithmes de contrle dans des environnements rels. Dans cette optique un soin particulier t port sur les aspects suivants : * Facilit dutilisation: exprimentation et visualisation. * Flexibilit dans le choix des algorithmes grce la puissance de calcul embarque * Facilit pour des modifications matrielles * Exprimentation avec plusieurs robots.

La taille du Khepera permet de rsoudre les premier et dernier points. La structure du matriel rsout en partie les second et troisime points mentionns ci-dessus. Un bus dextension donne la possibilit d'ajouter des modules additionnels tels que des pinces ou des cameras.

- 85 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

La solution prconise pour raliser une modalit de communication sonore repose sur lemplois de codeurs et dcodeurs DTMF (Dual Tone Mixed Frequency), utiliss couramment pour la numrotation tlphonique ainsi que sur lutilisation de la tourelle dextension du Khepera. Cet lment (fig. 3) est indispensable pour adapter un module additionnel sur le Khepera sans avoir passer par une lectronique complexe. De plus toutes les entre/sortie prsentes sur cette tourelle dextension sont directement contrlable par le programme de supervision fourni avec Khepera.

Fig. 3 Tourelle d'extension I/O

Le codage DTMF repose sur le mixage de deux frquences parmi 8, Pour former 16 combinaisons comme cela est visible dans la table 1 ci-dessous :

1209 Hz 697 Hz 770 Hz 852 Hz 941 Hz 0 4 8 12

1336 Hz 1 5 9 13 - 86 -

1477 Hz 2 6 10 14

1633 Hz 3 7 11 15 Table 1. Frquences utilisables

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

Conclusion A l'issue de notre projet, nous disposons d'une maquette ralisant la communication sonore entre deux robots KHEPERA. La communication sonore est parfaitement adapte la transmission de messages gnraux entre agents sans qu'il soit ncessaire de connatre leur orientation ou leur position. Nous nous affranchissons ainsi des deux conditions qui font obstacle la transmission lectromagntique (infrarouge ou lumire visible). Par rapport la communication radio, qui est elle aussi indpendant de la position et de l'orientation, la communication sonore ne pose sans doute pas autant de problmes dlicats de rglage entre les sources. De plus, il est tout a fait possible d'imaginer des lieux et des situations ou les ondes radio sont perturbes, absorbes alors que les ondes sonores ne sont pas affectes (et rciproquement). Enfin, la communication radio ncessite un traitement du signal important et complexe, alors que la communication sonore est beaucoup moins gourmande en puissance de calcul. La principale raison que nous pouvons envisager pour expliquer l'absence l'heure actuelle de ce type de communication pour la robotique est due la difficult d'envisager pour l'ingnieur roboticien la possibilit de communiquer avec un rpertoire limit (dans notre maquette, seulement 16 signaux possibles). Pourtant, les exemples pris dans la nature ne peuvent que confirmer le fait que disposer d'un vocabulaire rduit ne limite pas pour autant la communication et l'expression des comportements collectifs (alarme, recherche de nourriture, chasse collective, retour au nid, etc...). En dotant Khepera, qui est un outil de recherche et dveloppement la disposition de la nouvelle gnration de roboticiens, d'une modalit de communication sonore, nous esprons gnrer de nouvelles habitudes de programmation robotique, moins gourmande en puissance de calculs. Offrir une palette d'outils et fonctionnalits toujours plus vaste autour de sa gamme de robots est une caractristique essentielle de K-TEAM S.A. (le fabricant du KHEPERA) et PREFIGURE (son distributeur en France). C'est ce qui motive leurs intrts pour notre projet.

Il est bien vident que les travaux mens pour doter Khepera d'une modalit de communication sonore peuvent facilement tre tendus d'autres robots, plus orients vers l'industrie ou des applications trs prcises. C'est ce qui motive l'intrt de la Scurit Civile pour notre projet. Aujourd'hui, les applications faisant intervenir de multiples robots au sein la mme et unique application (surveillance d'entrepts, ramassage divers, guidage, etc.) sont en cours de dveloppement. La communication sonore trouve l un trs vaste champ d'applications.

- 87 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

- 88 -

HABILITATION DIRIGER DES R ECHERCHES

C LAUDE TOUZET

B - Publications jointes

1 - C. TOUZET, N. GIAMBIASI, "The Connectionist Sequential Machine: a General Model of Sequential Networks", Australian Conf. on Neural Networks, in Canberra, P. Leong & M. Jabri Eds. Sydney University Electrical Engineering, NSW 2006, Australia, February 1992.

2 - C. TOUZET, N. GIAMBIASI, "Application of Connectionist Models to Fuzzy Inference Systems", in Parallelization in Inference Systems, Lectures Notes in Artificial Intelligence 590, B. Fronhfer & G. Wrightson Eds., Springer Verlag, April 1992.

3 - C. TOUZET, N. KIEFFER and M. LE GOC, "Artificial Neural Networks Forecasting and Monitoring Scaffold and Scaffolding Phenomena in Blast Furnaces," IEEE International Conference on SMC, Vancouver, Canada, October 1995.

4 - C. TOUZET, "Neural Reinforcement Learning for Behaviour Synthesis," Robotics and Autonomous Systems, Special issue on Learning Robot: the new wave, N. Sharkey Guest Editor, Vol. 22, Nb. 3-4, pp. 251-281, December 1997.

- 89 -

You might also like