Algorithmeknn 121213175830 Phpapp02

(k narres neighbours, ou k plus proches
voisins)
Réalisé par :
Wassim
Lahbibi
2012-2013
plan 1 Introduction
2 Généralités
3 Domaine d’activité
4 Principe de
fonctionnement
5 Mesures de distance
6 Notations et Algorithme
7 Avantage et inconvénient
8 conclusion
Introduction
 Le data mining emploie des techniques et des
algorithme issus de disciplines scientifiques
diverses telles que
les statistiques, l‘intelligence artificielle ou
l‘informatique, pour construire des modèles à
partir des données
 Parmi les techniques utilisées, il ya la méthode
de k plus proche voisin.
Généralités
• la méthode des k plus proches voisins est une méthode de
d’apprentissage supervisé.
• dédiée à la classification.
• En abrégé k-NN ou KNN, de l'anglais k-nearest neighbor.
• L’algorithme KNN figure parmi les plus simples algorithmes

d’apprentissage artificiel.
• L’objectif de l’algorithme est de classé les exemples non

étiquetés sur la base de leur similarité avec les exemples
de la base d’apprentissage .
Domaine d’activité
 L’algorithme kNN est utilisée dans de
nombreux domaines :
• La reconnaissance de formes.
• La recherche de nouveaux biomarqueurs pour
le diagnostic.
• Algorithmes de compression.
• Analyse d’image satellite
• Marketing ciblé
Principe de fonctionnement
 Le principe de cet algorithme de classification est
très simple. On lui fournit:
• un ensemble de données d’apprentissage D
• une fonction de distance d
• et un entier k
 Pour tout nouveau point de test x, pour lequel il

doit prendre une décision, l’algorithme recherche
dans D les k points les plus proches de x au sens
de la distance d , et attribue x à la classe qui est
la plus fréquente parmi ces k voisins.
Exemple
•Dans l’exemple suivant, on a 3 classes

et le but est de trouver la valeur de la classe de l’exemple
inconnu x.
•On prend la distance Euclidienne et k=5 voisins
•Des 5 plus proches voisins, 4 appartiennent à ω1 et 1
appartient à ω3, donc x est affecté à ω1, la classe majoritaire
Comment choisir la valeur de K
?
 K=1 : frontières des classes très complexes
 très sensible aux fluctuations des données
(variance élevée).
 risque de sur-ajustement.
 résiste mal aux données bruitées.
 K=n : frontière rigide

 moins sensible au bruit
 plus la valeur de k est grande plus la

résultat d’affectation est bien réalisée
Mesures de distance
 Mesures souvent utilisées pour la distance dist(xi, xj)
• la distance Euclidienne: qui calcule la racine carrée de la
somme des différences carrées entre les coordonnées de
deux points :
 la distance de Manhattan: qui calcule la somme des valeur

absolue des différences entre les coordonnées de deux
points :
• la distance de Minkowski: qui est une métrique de distance

générale.
Notations et Algorithme
 Soit D = {(x′, c), c ∈ C} l’ensemble d’apprentissage
 Soit x l’exemple dont on souhaite déterminer la classe
Algorithme
Début
pour chaque ( (x′, c) ∈ D) faire
Calculer la distance dist(x, x′)
fin
pour chaque {x′ ∈ kppv(x)} faire

compter le nombre d’occurrence de chaque classe
fin
Attribuer à x la classe la plus fréquente;
fin
Avantages
 Apprentissage rapide
 Méthode facile à comprendre
 Adapté aux domaines où chaque classe est
représentée par plusieurs prototypes et où
les frontières sont irrégulières (ex.
Reconnaissance de chiffre manuscrits ou
d'images satellites)
Inconvénients
 prédiction lente car il faut revoir tous les

exemples à chaque fois.
 méthode gourmande en place mémoire
 sensible aux attributs non pertinents et
corrélés
 particulièrement vulnérable au fléau de la
dimensionnalité
Conclusion
 dans cette présentation nous avons vue le
principe de k plus proche voisin mais il y a
d’autres algorithmes utilisés par le data mining
comme :
 Arbres de décision
 Réseaux de neurones
 Classification bayésienne…
Merci pour votre
attention

Algorithmeknn 121213175830 Phpapp02

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Algorithmeknn 121213175830 Phpapp02

Uploaded by

Copyright:

Available Formats

(k narres neighbours, ou k plus proches

• En abrégé k-NN ou KNN, de l'anglais k-nearest neighbor.

• L’algorithme KNN figure parmi les plus simples algorithmes

• L’objectif de l’algorithme est de classé les exemples non

 Pour tout nouveau point de test x, pour lequel il

•Dans l’exemple suivant, on a 3 classes

 résiste mal aux données bruitées.

 K=n : frontière rigide

 plus la valeur de k est grande plus la

 la distance de Manhattan: qui calcule la somme des valeur

• la distance de Minkowski: qui est une métrique de distance

pour chaque {x′ ∈ kppv(x)} faire

 prédiction lente car il faut revoir tous les

You might also like