Professional Documents
Culture Documents
Classification supervise
Arnaud Liefooghe
arnaud.liefooghe@univ-lille1.fr
Classification supervise
vs. non-supervise
Clustering
Problmes Vocabulaire
Mthode dinduction du classifieur ?
Comment utiliser le classifieur obtenu ?
Comment valuer la qualit du classifieur obtenu : Classification : prvoir une classe discrte
taux derreur (ou de succs) ?
Comment traiter les attributs manquants dans le
jeu dapprentissage ? dans une donne classer ? Prdiction : prvoir une valeur continue
(degr de confiance)
Comment estimer la tolrance au bruit ?
Le bruit concerne ici la valeur des attributs de
lexemple avec lequel on construit le classifieur
Principe Principe
Une instance = une suite de valeurs
dattributs et une classe (a1, a2, ..., an, c) Modle : dcouvrir la structure des
donnes
laide dun ensemble dexemples, on veut
construire un modle des donnes
(classifieur, prdicteur, ...)
Quels sont les attributs importants pour
On demande ce classifieur de trouver la deviner une classe ?
classe de nouveaux exemples
Mode opratoire Schma
1 - Construction du 2 - valuation du
modle modle
Chaque instance est suppose appartenir une
classe prdfinie
La classe dune instance est dtermine par Estimer le taux derreur
lattribut classe La classe connue dune instance test est
Lensemble des instances dapprentissage est compare avec le rsultat du modle
utilis dans la construction du modle
Taux derreur = pourcentage de tests
Le modle est reprsent par des rgles de incorrectement classs par le modle
classification, arbres de dcision, formules
mathmatiques, ...
3 - Utilisation du
Domaines dapplication
modle
Dlivrance de crdit
Diagnostic mdical
Classification de nouvelles instances Prdiction du cours dune action
(inconnues)
Optimisation dun envoi de courrier
...
La classification dans le
Apprentissage
processus du data-mining
On manipule :
Collecte, prparation des donnes Des donnes
Donnes dapprentissage Des hypothses
valuation, validation On veut trouver la meilleure hypothse
en fonction des donnes disponibles
C
B = tous positifs
Classification
tp-rate
baysienne
D C = k% positifs
E
D = conservateur
E < alatoire
0
A F = class. idal
0 1
fp-rate
Classification
Principe
baysienne
chaque hypothse :
On doit infrer (deviner) des quantits On associe une probabilit
gouvernes (dcrites) par des probabilits : (probabilit dtre la solution)
on veut se servir de ces probabilits pour
guider linfrence Lobservation dune (ou de plusieurs)
instances peut modifier cette probabilit
Cadre plus gnral que la classification On peut parler de lhypothse la plus
probable, au vu des instances
Classification
Buts (possibles)
baysienne
Approche probabiliste
Formaliser les mthodes et les intuitions
Base sur les probabilits conditionnelles
Prciser la notion de plus probable (et la rgle de Bayes)
Nouveaux algorithmes dapprentissage Connaissances a priori
Analyse dautres algorithmes ne manipulant Prvision du futur partir du pass
pas explicitement des probabilits
Suppose l'indpendance des attributs
Classification
Probabilits
baysienne
Diffrente de lapproche base sur les La probabilit dun vnement A est note P(A)
frquences ! Elle est comprise entre 0 et 1
Frquences : on estime la probabilit La probabilit dun vnement certain vaut 1
d'occurrence dun vnement
La probabilit dun vnement impossible vaut 0
Baysienne : on estime la probabilit
Si A et B sont indpendants
d'occurrence dun vnement sachant
quune hypothse prliminaire est vrifie P(AB)= P(A)+P(B)
(connaissance) P(non A)=1-P(A)
Probabilits Probabilits
conditionnelles conditionnelles
P(A|B) = Probabilit que l'vnement A
survienne si l'vnement B survient
Exemple Indpendance
99% des sujets atteint dune maladie M sont Deux vnements sont indpendants si la
positifs un test de dpistage connaissance de lun ne modifie pas la
probabilit de lautre
La maladie M touche 10% de la population
Quelle est la fraction de la population des Si A et B sont indpendants, alors :
sujets malades positifs au test de dpistage ? P(A|B) = P(A)
Classifieur baysien
Problmatique
optimal
Quelle est lhypothse la plus probable, au Classification optimale si les probabilits de
chaque hypothse sont connues
vu de lensemble dapprentissage ?
Pour une instance donne, au vu de Pas souvent le cas :
lensemble dapprentissage, quelle sera la Trop dhypothses, trop de calculs, trop
classification la plus probable de cet destimations
exemple ?
Simplification ?
Application la Application la
classification classification
P(ck|a1,...,an) = P(a1,...,an|ck)P(ck) / P(a1,...,an)
P(ck|a1,...,an) = P(a1,...,an|ck)P(ck) / P(a1,...,an)
P(ck) proportion dinstances de la classe ck
P(ck|a1,...,an) crot quand P(a1,...,an|ck) crot : si Retourner la classe ayant la probabilit la plus
(a1,...,an) arrive souvent quand ck est la classe, forte aprs lobservation de (a1,...,an)
alors il y a des chances que ck soit la classe
Hypothse Maximale A Posteriori : hMAP
P(ck|a1,...,an) dcrot quand P(a1,...,an) crot : si
hMAP = argmaxckC P(a1,...,an|ck)P(ck)/P(a1,...,an)
(a1,...,an) est courant, il nous apprend peu sur ck
Pluie,Frais,Normale,Fort,Non
Couvert,Frais,Normale,Fort,Oui Quelle classe attribuer :
Soleil,Doux,Forte,faible,Non (Soleil,Frais,Forte,Fort) ?
Soleil,Frais,Normale,faible,Oui
Pluie,Doux,Normale,faible,Oui
Soleil,Doux,Normale,Fort,Oui
Couvert,Doux,Forte,Fort,Oui
Couvert,Chaud,Normale,faible,Oui
Pluie,Doux,Forte,Fort,Non
Exemple: tennis Exemple: tennis
X = (Soleil,Frais,Forte,Fort)
P(X|oui)P(oui)
oui non
= 2/93/93/93/99/14 P(h) 9/14 5/14 Confiance accorde la classification
= 0.00529
Soleil 2/9
Frais 3/9
3/5
1/5 P(non|X) = 0.02057 / (0.02057+0.00529)
P(X|non)P(non) Forte 3/9
Fort 3/9
4/5
3/5
= 0.795
= 3/51/54/53/55/14
= 0.02057
Qualits du classifieur
Remarques
baysien naf
Prdiction : comparable aux autres algorithmes
Lisibilit : nulle
P(ck)P(a1=il|ck)P(a2=tait|ck) ...
Premire possibilit Premire possibilit
Remarques Quel sens donner P(ck|A) ? Impossible !