DM Prez PWT

Convergence de produits logiciels et
d’information en Fouille de Données (Data

Mining) et Extraction de Connaissance à
partir de Bases de Données (Knowledge
Discovery in Databases)
Xavier Polanco
URI-INIST-CNRS
polanco@inist.fr
Séminaire ADEST - 15 février 2000

X. Polanco Séminaire ADEST - 15/02/2000 1
Plan
● Distinction et concept: Fouille de données (DM) et

Extraction de Connaissance à partir de BD (KDD)
● Fouille de textes (Text Mining)
– Données factuelles versus bibliographiques et
textuelles
● Applications et produits
● Références utiles

Emergence du domaine
● Workshops
– 1991, 1993, 1994
● International Conf. on KDD and DM
– 1995, 1996, 1997, 1998, 1999
● European Symposiums
– 1997, 1998, 1999
● Data Mining and Knowledge Discovery Journal
(1997)
SIGKDD est créé en 1999
● Special Interest Group Knowledge Discovery in

Databases (1999) de l’Association for Computing
Machinery (ACM)
● SIGMOD (Database Research), SIGIR
(Information Retrieval), and SIGART (artificial
intelligence)
● http://www.acm.org/sigkdd/charter.html

Distinction et concept

Expressions synonymes
● «Knowledge Discovery in Databases

(KDD), also known as Data Mining, has
emerged in the last decade
● «in reponse to the challenge of turning large
and ubiquitous databases into knowledge
that can be used in practice»
– (Second European Symposium, PKDD’98)
Tâche commune
● A partir de données brutes (raw data), il
s’agit de produire de la connaissance utile
(useful knowledge)
– «The notion of finding useful patterns (or nuggest of
knowledge) in raw data has been given various names,
including knowledge discovery in data bases, data
mining, knowledge extraction, information discovery,
information harvesting, data archaeology, and data
pattern processing»
● (Fayyad et al., 1996, p. 3)

Extraction de Connaissances à
partir de Bases de Données
(KDD)
● Le terme knowledge discovery in databases,
(KDD), est utilisé depuis 1989
● pour signifier le processus d’extraire de la
connaissance à partir des données, et
● pour souligner le «high-level» dans l’application
de méthodes de fouille de données (data mining)
– (Fayyad et al., 1996, p. 1-34)

Distinction
● Le terme «data mining», ou «fouille de données»,

a été habituellement utilisé par les statisticiens, les
analystes de données, et la communauté de
systèmes de gestion de l’information
● Tandis que KDD a été principalement utilisé par
les chercheurs en intelligence artificielle et
apprentissage automatique

Pour signifier l’ensemble du
processus
● Le point de vue adopté (en Fayyad et al., 1996) est que
«KDD» désigne l’ensemble du processus d’extraction de
connaissances utiles à partir des données
● Tandis que «data mining» se réfère
– à l’application d’algorithmes pour l’extraction de
formes à partir des données,
– sans considérer les étapes où il est question
d’incorporer la connaissance du domaine et
– de l’interprétation des résultats

Concept
● Le processus total de trouver et d’interpréter des
formes (patterns) à partir des données, est reconnu
sous le nom de ECBD (KDD)
– un processus homme-machine interactif et
itératif, basé sur des algorithmes de «data
mining»,
– et qui suppose l’interprétation des formes
générées par ces algorithmes

Convergence de domaines
● ECBD est le résultat de la ● Les systèmes de ECBD
convergence de sont donc basés sur de
recherches en : – méthodes
– apprentissage automatique – algorithmes
– reconnaissance de formes – techniques
– bases de données ● provenant de ces
– statistique
différents domaines
– intelligence artificielle
– visualisation de données

Etapes du processus
● 1. Compréhension du domaine d’application
● 2. Création du fichier cible (target data set)
● 3. Traitement des données brutes (data cleaning and preprocessing)
● 4. Réduction des données (data reduction and projection)
● 5. Définition des tâches de fouille de données
● 6. Choix des algorithmes appropriés de fouille de données
● 7. Fouille de données (data mining)
● 8. Interprétation des formes extraites (mined patterns)
● 9. Validation des connaissances extraites
– (source : Fayyat et al., 1996, p. 1-34)

Text-Mining : Fouille de textes
et/ou données textuelles

«Data Mining» et «Text
Mining»
● L’expression «Data Mining» est en général
utilisée quand on travaille sur des données
structurées dans des bases relationnelles
● On parle de «Text Mining» lorsqu’il s’agit de
données textuelles (textual data)
● «Text Mining» est l’extraction d’information utile
à partir des formes non manifestes (hidden
patterns) dans des grands corpus de textes
– (Feldman et al. 1998)
Fouille de données textuelles
● «Text Mining» est un nouveau domaine de recherche qui
essaye de résoudre le problème de la surabondance
d’information textuelle
● utilisant des techniques de :«data mining», «machine
learning», «information retrieval», «natural-language
understanding», «case-based reasoning», «statistics», and
«knowledge management»
● le but est d’aider les personnes à gagner de la connaissance
à partir de grandes quantités de textes semi-structurés ou
non-structurés
– (source : IJCAI’99 - Text Mining Workshop)
Processus de la fouille de textes
(IJCAI’99 Text Mining Workshop)
Les processus que la fouille de textes implique sont :

● Pré-traitements de la collection de documents
– (p. ex. catégorisation des textes ou extraction de termes)
● Stockage et Indexation des documents
● Analyse des représentations intermédiaires
– (via p. ex. analyse de distribution, classification
automatique (clustering), analyse de tendances,
découverte de règles d’association)
● Visualisation des résultats.

Etapes de la fouille de textes
● 1. Sélection du corpus (data selection)
● 2. Extraction terminologique
– extraction des termes
– filtrage des termes extraits
● 3. Classification
– automatique (clustering)
– taxonomie (classement)
● 4. Visualisation des données : cartographie (graphes, ...)
● 5. Interprétation des résultats

Au niveau inter-document
● Les opérations de «Text mining» ont pour

objet la distribution de concepts au niveau
inter-document
● Le but est de découvrir les concepts et leurs
rapports tels qu’ils se trouvent dans la
collection considérée comme un tout
– (Feldman et al. 1998)

Relations conceptuelles
● Un instrument central de la fouille de

données textuelles est l’analyse des
relations conceptuelles (concept
relationships)
– Une collection d’éléments séparés (documents)
– Chaque document représente un ensemble de
concepts (termes)

Analyse des relations
conceptuelles
● L’analyse des relations conceptuelles

cherche à découvrir les rapports entre
concepts, tels que nous pouvons les dégager
de la totalité du corpus disponible

Exemple
● Un nombre croissant de documents
(articles, brevets) à propos de la société Y et
le produit Z peut indiquer un changement
d’orientation concernant les intérêts de la
firme
● Il faut voir que l’information n’est pas
fournie par un seul document isolé, mais par
l’ensemble de la collection
Marché et Produits

Evaluation de l’ACM (1)
● Le domaine de l’Extraction de Connaissances et
de la Fouille de Données se trouve aujourd’hui au
niveau où était 15 ans auparavant le domaine des
bases de données
● Il y a plus d’une centaine de sociétés fournissant
des outils de fouille de données, des applications,
de conseil (consulting), de la formation et des
séminaires, et même de «hardware» spécialisé

Evaluation de l’ACM (2)
● Le domaine se trouve au début de la phase
d’adoption par le marché, et l’on prévoit que dans
3 à 5 ans, la phase de produits commerciaux
passera à l’état de maturité
● Dans les prochains 10 ans, la technologie de la
Fouille de Données et de l’Extraction de
Connaissance à partir de Données deviendra une
partie intégrante des technologies de l’information
dans le monde des entreprises
Produits et Sociétés
● 109 produits logiciels (12 européens)

– http://www.kdnuggets.com/companies/products.html
● 67 sociétés consultant et formation
– http://www.kdnuggets.com/companies/consulting.html
– voir aussi «Yahoo List of Data Mining Companies»

Exemples de produits
d’information
● IST
– space : sur des données de l’observatoire Palomar
(SKICAT), et sur des images des volcans de Venus
(clustering)
– chimie : fouille de données sur des articles et des
brevets en chimie (CLARIT, IBM)
– biologie : sur la séquence des protéines

Exemples de produits
d’information
● Santé
– sur des données de santé (KEFIR), pour la détection de
fraudes dans l’assurance maladie (arbres de décisions)
● Marchés financiers
– prédiction de risques en crédit (arbres de décisions)
● Marketing
– pour l’analyse de consommateurs (facturation, code
barre)

Références utiles

Sites dans la Toile
● Knowledge Discovery Nuggets Directory: Data Mining
and Knowledge Discovery Ressources
– http://www.kdnuggets.com/index_kdm.htm
● ACM Special Interest Group (SIGKDD) home page
– http://www.acm.org/sigkdd
● Data Mining and Knowledge Discovery Journal
– http://www.wkap.nl/jrnltoc.htm
● Pour les deux derniers symposiums européens
– http://www.sciences.univ-nantes.fr/pkdd98/
– http://lisp.vse.cz/pkdd99/

Définitions et Terminologie
● Data Mining Glossary
– http://www.twocrows.com/glossary.htm
● Glossary of Data Mining Terms
– http://www.pilotsw.com/r_and_t/whtpaper/datamine/dmglos.htm
● Glossary of Machine Learning and KDD Terms
– http://orgwis.gmd.de/projects/explora/terms.html
● Data Warehouse Terminology
– http://www.credata.com/research/terminology.html

Bibliographie
● Fayyad et al., Advances in Knowledge Discovery and Data
Maning. Menlo Park, Calif., AAAI Press / The MIT Press,
1996 (611 p.)
● IEEE Expert, 1996, vol. 11, n° 5, numéro consacré au
«data mining»
● Y. Kodratoff «L’Extraction de Connaissances à partir de
Données», Reveu Electronique sur l’Apprentissage par les
Données, vol. 1, n° 1, juin 1997, p. 1-28
– http://chirouble.univ-lyon2.fr/gtra/numero1/Kodratoff_Mai97_fr.htm

Bibliographie (suite)
● Principles of Data Mining and Knowledge Discovery (J.M.
Zytkow et M. Quafafou, eds). Berlin, Springer Verlag,
1998 (482 p.)
– Sur «text mining», voir Feldman et al. in Principles (ci-
dessus)
– Sur «visualisation», voir Polanco et al. in Principles
(ci-dessus)
● Carla E. Brodley et al. «Knowledge Discovery and Data
Mining», American Scientist, vol. 87, January-February
1999, p. 54-61

Bibliographie (suite)
● IEEE Computer, Special Issue on Data Mining, vol. 32, n°
8, 1999

DM Prez PWT

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

DM Prez PWT

Uploaded by

Copyright:

Available Formats

Convergence de produits logiciels et

d’information en Fouille de Données (Data

Séminaire ADEST - 15 février 2000

● Distinction et concept: Fouille de données (DM) et

X. Polanco Séminaire ADEST - 15/02/2000 2

● Special Interest Group Knowledge Discovery in

X. Polanco Séminaire ADEST - 15/02/2000 4

X. Polanco Séminaire ADEST - 15/02/2000 5

● «Knowledge Discovery in Databases

X. Polanco Séminaire ADEST - 15/02/2000 7

X. Polanco Séminaire ADEST - 15/02/2000 8

● Le terme «data mining», ou «fouille de données»,

X. Polanco Séminaire ADEST - 15/02/2000 9

X. Polanco Séminaire ADEST - 15/02/2000 10

X. Polanco Séminaire ADEST - 15/02/2000 11

X. Polanco Séminaire ADEST - 15/02/2000 12

X. Polanco Séminaire ADEST - 15/02/2000 13

X. Polanco Séminaire ADEST - 15/02/2000 14

Les processus que la fouille de textes implique sont :

X. Polanco Séminaire ADEST - 15/02/2000 17

X. Polanco Séminaire ADEST - 15/02/2000 18

● Les opérations de «Text mining» ont pour

X. Polanco Séminaire ADEST - 15/02/2000 19

● Un instrument central de la fouille de

X. Polanco Séminaire ADEST - 15/02/2000 20

● L’analyse des relations conceptuelles

X. Polanco Séminaire ADEST - 15/02/2000 21

X. Polanco Séminaire ADEST - 15/02/2000 23

X. Polanco Séminaire ADEST - 15/02/2000 24

● 109 produits logiciels (12 européens)

X. Polanco Séminaire ADEST - 15/02/2000 26

X. Polanco Séminaire ADEST - 15/02/2000 27

X. Polanco Séminaire ADEST - 15/02/2000 28

X. Polanco Séminaire ADEST - 15/02/2000 29

X. Polanco Séminaire ADEST - 15/02/2000 30

X. Polanco Séminaire ADEST - 15/02/2000 31

X. Polanco Séminaire ADEST - 15/02/2000 32

X. Polanco Séminaire ADEST - 15/02/2000 33

X. Polanco Séminaire ADEST - 15/02/2000 34

You might also like