Professional Documents
Culture Documents
Projet informatique
Prliminaires
Lalgorithme des k-plus-proches-voisins est lun des algorithmes les plus simple dapprentissage automatique supervis. En supposant quune base dapprentissage correctement tiquete soit disposition,
cette mthode permet dobtenir de trs bon rsultats de classification.
2.1
Par classification supervise, on entend le problme suivant : partir dun chantillon fini dobjets
tiquets/classs, on dsire construire une fonction capable dtiqueter/classer au mieux de nouveau
objets (ne faisant pas partie de lchantillon initial). Cela correspond parfaitement la situation dun
lve de CP qui apprend lire : sa matresse lui dessine au tableau des symboles reprsentant des lettres
(les classes) et lide dun apprentissage russi est que llve arrive lire nimporte quels caractres, quels
que soient les scripteurs. . .le concept-cl de lapprentissage est donc la gnralisation. Cest galement
le cas en apprentissage automatique, o de multiples algorithmes ont t proposs pour la tche de
classification. Les meilleurs algorithmes dapprentissage reposent sur des rsultats de statistique thorique
extrmement forts.
Pour la dtection de visage, les objets que nous allons considrer sont simplement des images, ou
des portions dimage, et les classes utilises sont simplement visage/non visage.
2.2
Lalgorithme k-ppv est un algorithme de la famille des algorithmes dits paresseux : linverse de
beaucoup dautres mthodes dapprentissage automatique (tels que la rgression logistique, les rseaux de
neurones artificiels, les mthodes noyaux, etc.) aucun apprentissage ne prend rellement place, cest-dire quil ny a pas de phase de dtermination de paramtres dune fonction par le biais dune optimisation
mathmatique (cf. les prochains TD sur la rgression logistique). Le principe est le suivant : tant donne
une base dapprentissage dimages tiquets correctement et un entier k, le classifieur k-ppv dtermine
la classe dun nouvel objet en lui attribuant la classe majoritaire des k objets lui ressemblant le plus dans
la base dapprentissage. Les figures suivantes illustrent le principe de fonctionnement de ce classifieur
(sources : http://www.vias.org/tmdatanaleng/cc_classif_knn.html et http://www.
nysaes.cornell.edu/fst/faculty/siebert/FS608/syllabus.html).
L. Ralaivola
L2/L3 Tl-enseignement
06 fvrier 2007
Projet informatique
On note deux aspects importants de lalgorithme k-ppv : dune part, chaque nouvelle classification
il est ncessaire de parcourir lensemble de la base dapprentissage, ce qui en fait un algorithmes qui
nest pas ncessairement trs efficaces (surtout que, habituellement, on cherche avoir la base dapprentissage la plus grande possible afin davoir un meilleur classifieur), et dautre part, un point crucial
de cet algorithme est la fonction de distance utilise pour mesurer la proximit des objets. Il nexiste
pas de distance/similarit universellement optimale et une bonne connaissance du problme trait guide
gnralement le choix de cette distance/similarit.
Travail faire
Le travail faire concernant lalgorithme k-ppv stalera sur deux sances car il comporte plusieurs
phases plus ou moins consquentes :
1. rcupration dun base dimages reprsentant des visages et dautres des non visages : ces bases
constitueront lensemble dapprentissage ;
2. calcul des histogrammes dune image en reprsentation RGB et HSV ;
3. programmation de lalgorithme k-ppv ;
4. utilisation de la distance euclidienne et du cosinus dans le k-ppv pour mesurer lefficacit de la
classification effectue par laglorithme ;
5. connexion du module des k-ppv linterface graphique et encadrement des rgions des images
reprsentant des visages ;
6. (partie difficile) r-tiquetage la souris des rgions dimage mal classes pour lenrichissement de
la base daprpentissage.
L. Ralaivola
L2/L3 Tl-enseignement