Professional Documents
Culture Documents
Christel Vrain
{Christel.Vrain@lifo.univ-orleans.fr}.
Contraintes et Apprentissage LIFO (FRE 2490) dOrleans Universite
Plan de lexpos
1. Prsentation de la fouille de donnes 2. Les travaux mens au LIFO (a) (b) (c) (d) (e) Programmation Logique Inductive et Classication Recherche de rgles dassociation Recherche de rgles de caractrisation Dcouverte de classes Fouille de textes
Extraction de Connaissances dans les Bases de Donnes (ECD) Knowledge Discovery in Databases (KDD)
ECD
extraction non triviale de connaissances implicites, inconnues au pralable, intressantes, utiles partir dinformations stockes dans des bases de donnes
ECD
extraction non triviale de connaissances implicites, inconnues au pralable, intressantes, utiles partir dinformations stockes dans des bases de donnes Quels types de connaissances ? lois numriques rgles dassociation rgles de classication ... dpend de la tche rsoudre
ECD
extraction non triviale de connaissances implicites, inconnues au pralable, intressantes, utiles partir dinformations stockes dans des bases de donnes Quels types de connaissances ? Champ de recherche multidisciplinaire Bases de Donnes (BD) Statistiques Apprentissage Statistique / Symbolique Visualisation
Diffrentes tches
Apprentissage supervis Description de classes ou concepts caractrisation discrimination
apprentissage partir dexemples positifs
Diffrentes tches
Apprentissage supervis Description de classes ou concepts Classication
apprentissage partir dexemples positifs et ngatifs
Diffrentes tches
Apprentissage supervis Description de classes ou concepts Classication Rgression
Diffrentes tches
Apprentissage supervis Description de classes ou concepts Classication Rgression Prdiction
Diffrentes tches
Apprentissage supervis Description de classes ou concepts Classication Rgression Prdiction Apprentissage non supervis Analyse dassociations
Diffrentes tches
Apprentissage supervis Description de classes ou concepts Classication Rgression Prdiction Apprentissage non supervis Analyse dassociations Dcouverte de classes
Diffrentes tches
Apprentissage supervis Description de classes ou concepts Classication Rgression Prdiction Apprentissage non supervis Analyse dassociations Dcouverte de classes Organisation en hirarchies
exp 25/03/04 p.6
Diffrentes tches
Apprentissage supervis Description de classes ou concepts Classication Rgression Prdiction Apprentissage non supervis Analyse dassociations Dcouverte de classes Organisation en hirarchies Recherche des anomalies
exp 25/03/04 p.6
Le processus dECD
Prtraitement des donnes Nettoyage Slection des attributs pertinents Construction dattributs synthtiss Aplatissement de la base de donnes / Prise en compte du caractre relationnel de la base Fouille de donnes Apprentissage Automatique Apprentissage Statistique Analyse de Donnes Interprtation et Validation des rsultats
exp 25/03/04 p.8
Induction de programmes logiques / Apprentissage de connaissances expertes traitement de donnes numriques et bruites v volume de donnes
P ersonne Id N om 1 2 3 4 P re nom
trouver un programme logique P dnissant pair et impair programme correct pair(X ) succ(X, Y ), impair(Y ) impair(X ) pair(X )
2
exp 25/03/04 p.13
Principe
recherche dune bonne hypothse dans lespace des hypothses relation de gnralit Stratgies de recherche exploration dterministe : critres statistiques ICN, MULT ICN [Martin, Vrain] exploration stochastique programmation gntique [Martin, Moal, Vrain] algorithme gntique GRIL [Braud, Vrain]
Limitations et extensions
Limitation des programmes Datalog traduction des symboles de fonction en symboles de prdicats fonction successeur reprsente par succ(X, Y ) spcication dun ensemble ni de constantes, Les domaines numriques doivent tre bornes. Si D = {0, 1, 2, 3}, que vaut succ(3, ?) Les expressions ne sont pas values. pair(s(s(X )) pair(X )
Limitations et extensions
Limitation des programmes Datalog Extensions
Programmation Logique avec Contraintes [Martin,
Vrain]
Limitations et extensions
Limitation des programmes Datalog Extensions
Programmation Logique avec Contraintes [Martin,
Vrain]
Limitations et extensions
Limitation des programmes Datalog Extensions
Programmation Logique avec Contraintes [Martin,
Vrain]
Applications la Fouille de Donnes capacit traiter plusieurs relations mta-informations disponibles : types, contraintes dintgrit, . . . taille importante des donnes : place mmoire, cot du test de couverture, . . .
Limitations et extensions
Limitation des programmes Datalog Extensions
Programmation Logique avec Contraintes [Martin,
Vrain]
Travaux Actuels
Personnes
Matre de confrences - Sylvie Billot - Matthieu Exbrayat - Lionel Martin - Frdric Moal ATER - Agns Braud - Ansaf Salleb Doctorants - Andrei Letchnenko - Guillaume Cleuziou - Teddy Turmeaux
exp 25/03/04 p.17
Travaux actuels
apprentissage et BD relationnelle : complexit [Exbrayat, Braud, Turmeaux] approche base de distances [Martin, Moal]
Apprentissage supervis Rgles de classication Rgles de caractrisation [Turmeaux, Salleb, Vrain] Apprentissage non supervis Rgles dassociation [Salleb, Vrain] Regroupement (Clustering) [Cleuziou, Martin, Vrain] recherche de classes non disjointes BD transactionnelles et chargement en mmoire
[Maazouzi, Salleb, Vrain]
exp 25/03/04 p.18
Applications
collaboration avec le BRGM [D. Cassard] donnes athrosclrose (PKDD challenge) apprentissage de solveurs [Letchnenko & al.] applications aux textes [Billot, Cleuziou, Martin, Vrain]
rechercher des rgles dassociation entre les dpts de minerais, les mines, les failles, les volcans . . . caractriser des dpts de minerais 2
exp 25/03/04 p.20
Fouille de textes
ACI BIOTIM : IRD, INRIA ( ATOLL ET IMEDIA ), CEDRIC , INRA
mthodes gnriques dexploration de masses de donnes contenant textes et images pour acqurir la sur-couche smantique commune dvelopper des mthodes gnriques dinterrogation pluri-modale des donnes.
Conclusion
Travaux formels : compltude, correction, complexit des algorithmes ECD Tches : Classication Caractrisation Recherche de rgles dassociations Dcouverte de classes non disjointes Types de bases de donnes : relationnelles, gographiques textes transactionnelles Applications : BRGM , IRD, . . .
exp 25/03/04 p.22
x + 3y 37 3x + 4y 46
x y 3
x6 y0
2x 6y 17
3x 4y 2
2x 19
Rocquencourt
Orsay
2x 2y 13
2x + 2y 17
x8
3877
2x 6y 17
2x 4y 5 15000 9x y 85 x9
2y 11
2x + 2y 17
2x 1
x y 10
2
exp 25/03/04 p.23
Oprations algbriques
jointure naturelle de deux relations R1 et R2 : Exemple : V ille
F ore t
Exemple dapprentissage
N om Classe Orsay (+) P aris (+) Rocquencourt () De f initions possibles N ame (V ille F ore t) N ame (P opulation>3877 (V ille)
Intrts
un cadre uni pour reprsenter les domaines numriques et symboliques permet de reprsenter des relations avec des tuples innis permet de reprsenter des ensembles innis dexemples
extension de lILP
implmentation ouverte : dnition de nouvelles stratgies (modle, stochastiaue ...) Problmes : donnes tests ?
2
exp 25/03/04 p.26
Rgles dassociation
Recherche des proprits frquentes
tape coteuse en temps de calcul et en espace mmoire lagage
Rgles dassociation
Rgles statistiques
M ine(x) Gitologie(x, A) Gitologie(x, A1 )(92, 12%)
Rgles de contrle
M ine(x) Gitologie(x, H 12) Substance_principale(x, Au)(89, 32%)
Nouvelles rgles
M ine(x) F aille(z ) Gitologie(x, C 5) P roche_de(x, z ) Structure(x, Strike_slip)(43, 75%)
exp 25/03/04 p.28
Caractrisation
tche descriptive de fouille de donnes cibl sur un ensemble dexemples positifs ne ncessite pas dexemples ngatifs
un cadre gnral pour la caractrisation dun ensemble dobjets, ensemble cible, partir
des proprits des objets cibles des proprits des objets lis Applications bases de donnes gographiques bases de donnes relationnelles
exp 25/03/04 p.29
Rgle caractristique
Rgle caractristique :: p : conjonction dun schma caractristique et dune proprit p
M P rof ondeur_Beniof f (M ) [75..150] M G M ine(M ) Geologie(G) Age(G, tertiaire)
Utilisation dagrgats : Agre gatproche (V, count) 2 Recherche pour chaque type de schmas des proprits p vries par au moins , seuil donn
Elagage
Rgle caractristique intressante
caractre contrastant de p entre Etarget et E Etarget
Proprit :
couverture(2 , p, Etarget ) couverture(1 , p, Etarget )
Application
Entres : mines, gologie, volcans, failles, sismes relations de distance entre objets But : caractriser les mines dor
Rsultat
Un exemple de rgle obtenue couvrant prs de 60% des mines dor et rejetant la majeure partie des autres mines. M 10km G :: M ine(M ) Geologie(G) Substance(M, or) P rof ondeur_Beniof f (M ) [75..150] Distance_Beniof f (M ) [170..275] P ente(M ) [8 ..16 ] Age(G, tertiaire) Lithologie(M, volcanique) Gitologie(M, e pithermale) M orphologie(M, veines)