You are on page 1of 11

Reconnaissance des formes et classication

Introduction

Olivier Morel Master 3i

Introduction

R ole de la reconnaissance des formes La reconnaissance des formes (RdF) vise la perception et linterpr etation de lenvironnement ` num l Une phase pr eliminaire consiste a eriser des e ements du monde r eel (acquisition des donn ees) Etant donn ee une information riche et non structur ee (par exemple une image), la RdF a pour but de lui associer tiquette) une signication symbolique (par exemple une e tre perc La RdF peut e ue comme un proc ed e m ethodique de r eduction dinformation, pour ne conserver que linterpr etation pertinente Domaines dapplication La RdF est utilis e dans de nombreux domaines dapplications : lanalyse de signaux sismiques, lanalyse d electrocardiogrammes, la reconnaissance de la parole, la reconnaissance de l ecriture, lanalyse de documents, imagerie m edicales (microscope, radiographie, RMN, ...), imagerie satellitaire, applications militaires (observation, guidage, ...) la biom etrie (reconnaissance dempreintes, de faces, ...), la vision par ordinateur (analyse de sc` enes 3D) Fondements th eoriques Les m ethodes mises en oeuvre dans les syst` emes de RdF sappuient sur de nombreux domaines : lanalyse num erique, les statistiques, loptimisation combinatoire, la recherche op erationnelle, lanalyse syntaxique, la th eorie des graphes, lintelligence articielle, ... Origine des difcult es ` la combinatoire Le probl` eme de la RdF est li ea probl` eme de sur-information La difcult e de la RdF provient de la variabilit e des formes de la distorsion (d eformation, bruit) des donn ees

Etapes de la reconnaissance tapes : En g en eral, lop eration de reconnaissance comprend 2 e lextraction de caract eristiques (ou de primitives) dont le but est de r eduire la quantit e de donn ees et d eviter lexplosion combinatoire ; ` associer une description symbolique a ` lobjet, sur la base de ses la d ecision (ou le classement) qui consiste a caract eristiques. ` ce quelles soient : Les caract eristiques sont choisies de mani` ere a semblables pour les formes dune m eme classe dissemblables pour des formes de classes diff erentes tapes peut e tre plus ou moins importante et sophistiqu Selon lapplication, chacune des e ee. Espaces impliqu es dans un syst` eme de RdF Linformation originale (par exemple une image num erique) fait partie de lespace dobservation (ou espace des donn ees) il contient beaucoup dinformation redondante Lespace de repr esentation (ou espace des caract eristiques)permet de repr esenter les caract eristiques il contient linformation jug ee pertinente Lespace dinterpr etation (ou espace des cat egories) est le domaine qui permet de repr esenter le r esultat de la RdF il est en g en eral tr` es petit (souvent un ensemble ni d etiquettes) Sch ema dun syst` eme de RdF

Illustration de la r eduction dinformation Espace dobservation image binaire 50 x 50 pixels 300 octets

Espace de repr esentation 3 segments 24 octets

Espace dinterpr etation code ascii 1 octet

Extraction des caract eristiques Le but est dextraire les informations pertinentes qui discriminent les classes qui sont suppos ees stables pour les objets dune m eme classe liminent les distorsions, le bruit, etc. qui e Linformation pertinente se trouve souvent dans les corr elations des diff erentes caract eristiques ! D ecision ` lui associer z Etant donn e un objet, lidentication ou le classement consiste a ero, une ou plusieurs classes de lespace dinterpr etation ; on distingue : le classement univoque (une classe) quivoque (plusieurs classes) le classement e le rejet (aucune classe) Le classement peut constituer une liste de classes ordonn ees selon une valeur de conance ` un r Une d ecision qui revient a esultat binaire (hypoth` ese accept ee ou refus ee) est appel ee v erication Classication des m ethodes On distingue principalement deux approches de la reconnaissance des formes : les m ethodes statistiques : lextraction des caract eristiques produit des valeurs num eriques qui sont confront ees aux mod` eles statistiques caract erisant chaque classe les m ethodes structurelles (ou syntaxiques) : lextraction des primitives produit des valeurs symboliques et des relations qui font lobjet dune analyse structurelle ou syntaxique tre combin Les deux approches sont compl ementaires et peuvent e ees Exemple de m ethode statistique Dans une image il sagit de reconna tre deux types de bois (ch ene et sapin) en utilisant la moyenne et l ecart-type des intensit es de pixels

La discrimination est faite par une fonction lin eaire Exemple de m ethode structurelle Des images de chromosomes sont pr etrait ees par un d etecteur de contours Les contours sont d ecompos es en segments de droites et de courbes encod es par a , b , c , d , e

chromosome submedian (ab*(b|d)b*ab ?c)2

chromosome t elocentrique ab*eb*ab*cb*

` analyser la conformit ` une expression r La d ecision revient a e dune cha ne par rapport a eguli` ere Principes de lapprentissage En g en eral, un syst` eme de RdF est conc u de mani` ere g en erique Il poss` ede de nombreux param` etres quil faut adapter : en fonction de la sp ecicit e des donn ees en fonction des conditions externes tre x ` Les syst` emes de RdF sont conc us pour que les param` etres puissent e es lors dune phase dapprentissage a partir de donn ees dapprentissage Sch ema de lapprentissage

Types dapprentissage On distingue : chantillons lapprentissage supervis e (avec professeur) o` u le syst` eme conna t les classes auxquelles appartiennent les e dapprentissage lapprentissage non supervis e (sans professeur) o` u le syst` eme ne conna t pas ces classes ; Parfois, le syst` eme ne conna t m eme pas le nombre de classes ! On parle alors de classication automatique Evaluation des syst` emes de RdF L evaluation est une composante essentielle de la RdF Il existe des mesures qui permettent de comparer les performances des syst` emes entre eux, pour autant que : les donn ees soient les m emes (dou limportance de bases de donn ees publiques) les hypoth` eses de travail soient les m emes L evaluation ne doit pas porter sur les donn ees dapprentissage : il faut s eparer les donn ees dapprentissage et les donn ees de test par exemple 50% pour lapprentissage, 50% pour les tests, valuer les performances sur les 20% ou de mani` ere cyclique, utiliser 80% des donn ees pour lapprentissage e restants Mesures de performance (1) Pour mesurer lefcacit e dun syst` eme de reconnaissance univoque on utilise : le taux de reconnaissance : le nombre de d ecisions correctes divis e par le nombre de d ecisions total. le taux de rejet : le nombre de d ecisions non univoques divis e par le nombre de d ecisions total ; le taux derreur : le nombre de d ecisions univoques erron ees divis e par le nombre de d ecisions total. taux de reconnaissance = 1 - taux de rejet - taux derreur Mesures de performance (2) ` une classe) on distingue deux types derreurs Dans le cas dune d ecision binaire (appartenance ou non a fausses acceptations faux rejets d ecision classe / classe accept e acceptation fausse acc. rejet e faux rejet rejet La d ecision optimale est une affaire de compromis On peut utiliser deux mesures antagonistes 4

le rappel mesure le nombre dobjets correctement reconnus par rapport au nombre dobjets existant dans cette classe la pr ecision mesure le nombre dobjets correctement reconnu par rapport au nombre total dobjets reconnus

K-Means

Contexte Technique dite de clustering Objectif Structuration des donn ees Plusieurs type de clustering : hierarchique, par partionnement, par mod elisation, bas e sur la densit e, par grille , etc. ` regrouper les points proches en classes ... On cherche a tre assez bien d Les classes peuvent e enies

tre imbriqu Les classes peuvent e ees Avoir des formes bizarres, ou pire :

Notion de proximit e Vocabulaire Mesure de dissimilarit e DM : plus la mesure est faible plus les points sont similaires ( distance) Mesure de similarit e SM : plus la mesure est grande, plus les points sont similaires DM = borne - SM Mesure de distance entre 2 points Comment mesurer la distance entre 2 points d (x1 , x2 ) ? distance euclidienne : d 2 (x1 , x2 ) = i (x1 x2 )2 = (x1 x2 )(x1 x2 ) distance de Manhattan : d (x1 , x2 ) = i |x1 x2 | distance de Sebestyen : d 2 (x1 , x2 ) = (x1 x2 )W (x1 x2 ) (W = matrice diagonale de pond eration) distance de Mahalanobis : d 2 (x1 , x2 ) = (x1 x2 )C1 (x1 x2 ) (C=covariance) ... Mesure de distance entre 2 classes Comment mesurer la distance entre 2 classes D(C1 , C2 ) ? plus proche voisin : min(d (i, j), i C1 , j C2 ) diam` etre maximum : max(d (i, j), i C1 , j C2 ) distance moyenne : i,nj1 n2 distance des centres de gravit e : d (1 , 2 ) 1 n2 distance de Ward : nn d ( 1 , 2 ) 1 +n2 ...
d (i, j)

Bonne partition Comment savoir si un regroupement est correct ? inertie (intra) dun cluster = variance des points dun m eme cluster Jw = inertie (inter) = variance des centres des clusters Jb = Ng d 2 (g , x )
c

g iCg

d 2 (xi , g )

il faut minimiser linertie intra-cluster et maximiser linertie inter-cluster

Illustrations du partitionnement Exemple (Bisson 2001) :

Illustrations du partitionnement Exemple (Bisson 2001) :

Inertie totale des points = inertie intra +inter Principe des K-Means (Forgy 1965, MacQueen 1967) r epartir les N points en K ensembles disjoints regrouper les points proches probl` eme de minimisation :
2 J = K g=1 iCg d (xi , g )

On peut juste trouver un minimum local Algorithme des K-Means Initialiser 1 , ..., K , R ep eter ` son cluster le plus proche affectation de chaque point a C(xi ) = ming d (xi , g ) recalculer le centre i de chaque cluster 1 g = N iCg xi g Tant que > Complexit e : O (KnI ) (I : it erations) Exercice Soient 8 individus ayant les attributs num eriques suivants : Attribut n 1 Attribut n2 A 1 3 B 2 2 C 2 3 D 2 5 E 4 2 F 5 2 G 6 2 H 7 3 Appliquez lalgorithme des nu ees dynamiques en partant par exemple des graines B et D et en utilisant la distance euclidienne

Exemple 1

Exemple 1

Exemple 2

Initialisation des K-Means Initialisation des i : al eatoirement dans lintervalle de d enition des xi al eatoirement dans lensemble des xi ` des clusters diff Des initialisations diff erentes de peuvent mener a erents (probl` emes de minima locaux) M ethode g en erale pour obtenir des clusters stables = formes fortes : on r ep` ete lalgo r fois on regroupe ensemble les xi qui se retrouvent toujours dans les m emes clusters.

k-nn

M ethode des k-nn k nearest neighbours (k plus proche voisins) Faire une classication sans faire dhypoth` ese sur la fonction y = f (x1 , x2 , ..., x p ) qui relie la variable d ependante y aux variables ind ependantes x1 , x2 , ..., x p M ethode de classication non-param etrique puisquaucune estimation de param` etres nest n ecessaire comme pour la r egression lin eaire. On dispose de donn ees dapprentissage (training data) pour lesquelles chaque observation dispose dune classe y. ` 2 classes, y est binaire. Si le probl` eme est a Lid ee de lalgorithme des k-nn est : tant les plus similaires dans les pour une nouvelle observation (u1 , u2 , ..., u p ), pr edire les k observations lui e donn ees dapprentissage utiliser ces observations pour classer lobservation dans une classe v 1-nn Quand on parle de voisin cela implique la notion de distance ou de dissimilarit e. La distance la plus populaire est la distance euclidienne Dans le cas le plus simple o` u k = 1, on cherche lobservation la plus proche et on xe v =y On peut montrer que si on disposait dun tr` es gros volume de donn ees dapprentissage, et en utilisant une r` egle de classication arbitrairement sophistiqu ee, on ne diminuerait lerreur de mauvaise classication que dun facteur 2 par ` une m rapport a ethode 1-nn. k-nn ` k-nn se fait comme suit : Lextension de 1-nn a 1. Trouver les k plus proches observations ` la majorit 2. Utiliser une r` egle de d ecision a e pour classer une nouvelle observation

Lavantage est que de grandes valeurs de k produisent un lissage qui r eduit le risque de surapprentissage d u au bruit dans les donn ees dapprentissage. chelles de quelques unit ` quelques dizaines plut Typiquement les valeurs de k sont choisies dans des e es a ot que quelques milliers. Si on choisit k = n (nombre dobservations dans lensemble dapprentissage) la classe retenue sera celle qui a la majorit e dans les donn ees dapprentissage, ind ependamment de lobservation inconnue (u1 , u2 , ..., u p ) Exemple Un fabricant de moisseuneuse aimerait trouver une fac on de classer les familles dans une ville selon quelles sont capables ou pas dacqu erir une moisseuneuse.

Exemple Comment choisir k ? Tout dabord partitionner l echantillon en : ensemble dapprentissage (18 cas sont choisis al eatoirement pour constituer lensemble dapprentissage) ensemble de validation (cas 6, 7, 12, 14, 19, 20) Si k = 1 on classiera dune mani` ere suj` ete aux caract eristiques locales de nos variables. Si k = 18 on pr edira juste la classe la plus fr equente dans les donn ees. La pr ediction est stable mais ne tient pas compte des informations des variables ind ependantes Exemple ` cultiver (lot size) et niveau de revenu (income) Distribution des donn ees en fonction de 2 attributs : surface a

Exemple Calcul de lerreur de classication en fonction de k :

Choix probable : k = 13 ` une faible valeur de k contre un oversmoothing ou surlissage (i.e. Compromis entre la variabilit e associ ee a gommage des d etails) pour une forte valeur de k. Conclusion sur les k-nn Gros d efaut : temps de calcul des distances prohibitifs Solutions : diminuer le co ut en calcul de la distance en travaillant sur un espace de dimension plus petit (en utilisant une m ethode de r eduction de dimension du type analyse en composante principale) utiliser une technique de repr esentation sophistiqu ee de type arbre de recherche pour acc elerer le processus didenticaiton dun voisin. Ces m ethodes permettent de tomber sur un presque voisin pour aller plus vite. liminer les observations redondantes. Parfois autour dune observation Editer les donn ees dapprentissage pour e ` la m on trouve des observations ressemblantes qui appartiennent a eme classe.

Classieur Bayesien na f

Rappels p(a/b) =
p(b/a) p(b) p(a)

p posteriori =

Densit eProba Ppriori pmelange

Exercice : tang, il y a 3 fois plus de cygnes que doies Sur un e Sans jumelle, on ne voit que des oiseaux sombres ou clairs Pr ecision : les cygnes sombres sont des jeunes de moins de 1 an (esp erance de vie dun cygne = 20 ans) les oies sauvages sont sombres mais parfois des oies domestiques blanches viennent sur l etang : 1 sur 10 est blanche. Question : si nous voyons un oiseau sombre : sagit-il plus vraissemblement dune oie ou dun cygne ? Classieur Bayesien na f Cette m ethode suppose que le probl` eme de repr esentation des formes admet un mod` ele probabiliste ` une classe avec un minimum derreur et e value le risque Elle d enit lappartenance dune forme x a Notations : Rd lespace de repr esentation ` affecter a ` une classe x(x1 , x2 , ..., xd ) la forme a = {w1 , .., wm } la partition des m classes possibles p(x/wi ) la loi connue de probabilit e multidimenionnelle du vecteur x dans la classe wi P(wi ) les probabilit es a priori connues de chaque classe wi avec i=1,m P(wi ) = 1 ` une classe i de 1 a `m d (x) la d ecision qui associe le vecteur x a Classieur Bayesien na f ` la classe dont la probabilit Pour que la probabilit e globale derreur soit minimale, il suft dassocier x a e a posteriori p(wi , x) soit la plus forte sachant que : p(wi , x) = p(x/wi )P(w j )/ p(x) avec la probabilit e m elange v eriant : p(x) = i=1,m p(x/wi )P(W j ) ` prendre la d La d ecision bay esienne consiste donc a ecision i qui maximise p(x/wi )P(wi ) 10

Exemple ` une dimension (d = 1) et 2 classes = {w1 , w2 } Probl` eme a Nous supposons connues les fonctions de densit es de probabilit es p(x/w1 ) et p(x/w2 )
Densite de probabilite p(x/w2) w1=hauttalons w2=baskettes p(x/w1)

x=pointure

Exemple (suite) ` partir des probabilit Nous pouvons d eterminer les probabilit es p(x/wi )P(wi ) a es a priori P(w1 ) et P(w2 ) 30% de hauts talons 70% de baskettes
Densite de probabilite p(x/w2) w1=hauttalons w2=baskettes p(x/w1)

x=pointure

Exemple (n) En appliquant la r` egle de Bayes nous pouvons donc d ecider de la classe C1 ou C2
Densite de probabilite p(x/w2) w1=hauttalons w2=baskettes p(x/w1)

x=pointure
decider c1 decider c2

R ef erences
[1] Rolf Ingold, University of Fribourg. Lecture notes. 1990. [2] Philippe Leray, INSA Rouen. Lecture notes. [3] Nicolas Turenne, P ole Universitaire L eonard de Vinci. Lecture notes. [4] Data Clustering and Pattern Recognition Toolbox,http ://neural.cs.nthu.edu.tw/jang/matlab/toolbox/DCPR/

11

You might also like