RC1034 PDF

Chapitre 4.
2

DATA MINING ou FOUILLE DE DONNES

Gilbert Saporta

1. Dfinitions et historique

Le data mining que lon peut traduire par fouille de donnes apparat au milieu
des annes 1990 aux tats-Unis comme une nouvelle discipline linterface de la
statistique et des technologies de linformation : bases de donnes, intelligence
artificielle, apprentissage automatique ( machine learning ).

David Hand (1998) en donne la dfinition suivante: Data Mining consists in the
discovery of interesting, unexpected, or valuable structures in large data sets. Voir
galement Fayyad & al (1996) et Friedman (1997).
La mtaphore qui consiste considrer les grandes bases de donnes comme des
gisements do lon peut extraire des ppites laide doutils spcifiques nest certes
pas nouvelle. Ds les annes 1970 J ean-Paul Benzcri nassignait-il pas le mme
objectif lanalyse des donnes ? : Lanalyse des donnes est un outil pour dgager
de la gangue des donnes le pur diamant de la vridique nature .
On a pu donc considrer que bien des praticiens faisaient du data mining sans le
savoir.
On confondra ici le data mining , au sens troit qui dsigne la phase dextraction
des connaissances, avec la dcouverte de connaissances dans les bases de donnes
(KDD ou Knowledge Discovery in Databases) (cf Hbrail & Lechevallier, 2003).
Comme lcrivent ces derniers auteurs :
La naissance du data mining est essentiellement due la conjonction des deux
facteurs suivants :
- laccroissement exponentiel dans les entreprises, de donnes lis leur activit
(donnes sur la clientle , les stocks, la fabrication, la comptabilit ) quil serait
dommage de jeter car elles contiennent des informations-cl sur leur
fonctionnement (...) stratgiques pour la prise de dcision.
- Les progrs trs rapides des matriels et des logiciels ()
Lobjectif poursuivi par le data mining est donc celui de la valorisation des donnes
contenues dans les systmes dinformation des entreprises.

Les premires applications se sont faites dans le domaine de la gestion de la relation
client qui consiste analyser le comportement de la clientle pour mieux la fidliser et
lui proposer des produits adapts. Ce qui caractrise la fouille de donnes (et choque
souvent certains statisticiens) est quil sagit dune analyse dite secondaire de donnes
recueillies dautres fins (souvent de gestion) sans quun protocole exprimental ou
une mthode de sondage ait t mis en uvre.

RST Epidmiologie , 4.2 Data Mining 5/12/04

1
Quand elle est bien mene, la fouille de donnes a apport des succs certains, tel
point que lengouement quelle suscite a pu entraner la transformation (au moins
nominale) de services statistiques de grandes entreprises en services de data mining.

La recherche dinformation dans les grandes bases de donnes mdicales ou de sant
(enqutes, donnes hospitalires etc.) par des techniques de data mining est encore
relativement peu dveloppe, mais devrait se dvelopper trs vite partir du moment
o les outils existent. Quels sont les outils du data mining et que peut-on trouver et
prouver ?

2. Les outils

On y retrouve des mthodes statistiques bien tablies, mais aussi des dveloppements
rcents issus directement de linformatique. Sans prtendre lexhaustivit, on
distinguera les mthodes exploratoires o il sagit de dcouvrir des structures ou des
comportement inattendus, de la recherche de modles prdictifs o une rponse est
prdire, mais on verra plus loin que lacception du terme modle diffre
fondamentalement de son sens habituel.

2.1 Exploration non supervise

2.1.1 Analyse des donnes : visualisation, classification

Les techniques de projection orthogonale sur des sous-espaces : analyse en
composantes principales, analyse des correspondances, permettent de rduire
efficacement la dimension du point de vue du nombre de variables. Les mthodes
de classification visent former des groupes homognes dunits en maximisant
des critres lis la dispersion (k-means). Des extensions non-linaires (splines,
noyaux, etc.) tendent le champ de ces mthodes classiques.

2.1.2 Recherche de rgles dassociation

Cette mthode est une des innovations du data mining : introduite en 1993 par des
chercheurs en base de donnes dIBM, elle a pour but de rechercher des
conjonctions significatives dvnements. Typiquement une rgle de dcision
sexprime sous la forme : si (A et B) alors C mais il sagit dune rgle probabiliste
et non dterministe. On dfinit le support de la rgle comme la probabilit
dobserver la fois la prmisse X et la conclusion Y : P(XY) et la confiance
comme P(Y/X). Parmi les rgles ayant un support et une confiance minimale on
sintressera celles o P(Y/X) est trs suprieur P(Y). Les premires
applications ont concern les achats dans les grandes surfaces : parmi les milliers
de rfrences disponibles et les millions de croisements, identifier les achats
concomitants qui correspondent des frquences importantes. Cette mthode
stend bien au del de ce type dapplication. Loriginalit tient essentiellement
la complexit algorithmique du problme.

2

2.2 Prdiction ou apprentissage supervis

Inutile dvoquer ici les techniques de rgression bien connues. La mthode la
plus typique du data mining est certainement celle des arbres de dcision : pour
prdire une rponse Y, quelle soit numrique ou qualitative, on cherche tout dabord
la meilleure partition de lensemble des donnes (en gnral en deux sous-ensembles)
issue dune partition effectues sur les prdicteurs et on itre dans chacun des sous-
ensembles : la croissance exponentielle de larbre est contrle par des critres darrt
de type cot-complexit ainsi que par lusage de donnes de validation qui permettent
dliminer les branches non pertinentes.
Cette technique conduit des rgles de dcision trs lisibles, do son succs,
et hirarchise les facteurs explicatifs. A loppos en termes de lisibilit, les logiciels de
data mining proposent souvent des mthodes hautement non-linaires comme les
rseaux de neurones, les machines vecteurs de support (SVM). Mme si les rgles
de dcision ont une forme mathmatique explicite, celle-ci est en gnral trs
complexe et ces mthodes sont utilises comme des botes noires.
Une autre approche consiste complexifier des mthodes simples : les arbres
de dcision tant souvent instables, on va en utiliser plusieurs obtenus sur des donnes
rchantillonnes par bootstrap : la dcision finale sobtient par une procdure de vote
sil sagit dun problme de classification, ou de moyenne pour un problme de
rgression : cest le bagging. Citons galement le boosting, qui consiste amliorer
des procdures de dcision en surpondrant les units mal classes, et en itrant le
processus.

3. Quelques applications en pidmiologie et sant publique

Lutilisation des mthodes de data mining en pidmiologie et sant
publique est en forte croissance. Comme dans dautres domaines, cest la disponibilit
de vastes bases de donnes historiques (on parle maintenant dentrepts de donnes)
qui incite les valoriser, alors quau dire de beaucoup de spcialistes elles sont
actuellement sous-utilises.
Pour nen citer que deux, la revue Artificial Intelligence in Medicine et le
Journal of the American Medical Informatics Association y consacrent de plus en plus
darticles.
La plupart des publications portent sur les arbres de dcision et les rgles
dassociation (Lavrac 1999). Parmi les domaines traits, mentionnons la recherche de
facteurs de risque pour les accidents domestiques, le diabte, les suicides, les
infections nosocomiales (Brossette & al.1998), la dtection de la fraude (Medicare,
Australie). Ces publications mentionnent souvent la dcouverte de rgles inattendues
et efficaces.


3

Figure 1 prvision de la complication de Saint Vincent
(Projet Data Diab, A.Duhamel, Lille 2)

La recherche en gnomique et la protomique fait galement de plus en plus appel
des techniques de data mining.

4. Data Mining versus modlisation statistique

4.1 Le rle des modles

La notion de modle en fouille de donnes prend un sens particulier : un
modle est une relation entre des variables exprimable sous une forme analytique ou
algorithmique qui ne provient pas dune thorie mais ralise un bon ajustement aux
donnes. Ainsi il est courant dexplorer diffrents modles (linaires, non-linaires) en
faisant varier les paramtres (nombre de couches dans un rseau de neurones, noyau
pour des SVM etc.) jusqu obtenir les meilleures prdictions. On est trs loin de la
dmarche usuelle de modlisation, mais plutt dans une optique pragmatique o il ne
sagit pas forcment de comprendre mais simplement de prvoir. Rappelons quand
mme quun modle au sens classique, nest quune simplification de la ralit et
comme le disait George Box : Tous les modles sont faux, certains sont utiles .
Cette dmarche nest pas pour autant du pur empirisme et se fonde sur une
thorie solide, celle de lapprentissage statistique : un modle ralise un compromis
entre sa capacit rendre compte des donnes dapprentissage et sa capacit de
gnralisation de nouvelles donnes. Plutt que des indices statistiques de type
vraisemblance pnalise (critres dAkak ou de Schwarz) reposant sur des
hypothses distributionnelles, le choix dun modle en data mining se fait en fonction
de ses performances sur dautres donnes que celles qui ont servi le choisir et le
caler, do lemploi de mthodes de validation croise (les donnes sont divises en
plusieurs parties, chacune tant prdite laide du reste des donnes) ou de mesures de
capacit de type dimension de Vapnik-Cervonenkis.

4.2 Problmes spcifiques dinfrence et de validation dans les grandes bases de
donnes.

Linfrence statistique classique a t dveloppe pour traiter des petits
chantillons. En prsence de trs grandes bases de donnes le paradoxe est que tout

4
devient significatif : par exemple, pour un million dindividus, lhypothse
dindpendance entre deux variables sera rejete au risque 5% si le coefficient de
corrlation linaire est suprieur en valeur absolue 0.002, ce qui est sans intrt
pratique. Linfrence classique ne fonctionne plus et la fouille des grandes bases de
donnes amne repenser la notion de test et conduit ainsi des recherches nouvelles.
Lchantillonnage ne perd cependant pas ses droits car il est souvent prfrable
de travailler sur une partie de la base que sur la totalit. Lexhaustivit des traitements
nest souvent quun argument commercial des diteurs de logiciel. Un problme
demeure cependant, celui de la reprsentativit de la base : mme trs grande on ne
peut garantir que les futures observations se comporteront comme les passes, dautant
plus que la base na pas t constitue des fins de traitement statistique. Des
recherches originales portent sur ce point.
Lalimentation continuelle des bases de donnes de faon quasi automatique
pose galement des problmes nouveaux connus sous le nom de flots de donnes (data
streams) quil faut traiter la vole sans devoir reprendre chaque fois lensemble
des donnes disponibles (Domingos & Hulten, 2000).
Quand en fouille de donnes, on a exhib une structure ou une association
intressante et inattendue, on nest pas certain de sa validit. En effet avec une
exploration combinatoire il est invitable de trouver toujours quelque chose ! Ce
problme est proche de celui bien connu des comparaisons multiples, mais une toute
autre chelle. On trouve ce genre de situations dans la recherche de rgles
dassociations ou dans lanalyse des puces ADN o on ralise des milliers de tests
simultanment. La thorie pertinente est celle du contrle du taux de fausses
dcouvertes de Benjamini et Hochberg (1995) qui fait lobjet de recherches en plein
essor, voir larticle de Ge & al.. (2003).
La dcouverte de rgles intressantes par la fouille de donnes doit donc
tre considre comme une phase exploratoire, ncessitant une validation ultrieure,
mais avec des outils diffrents. Mme en cas de validation, le problme de la causalit
reste pos.

4.3 Penser la complexit

Il est illusoire de croire que des modles simples peuvent toujours convenir
des situations complexes. Les modles de rgression (linaire ou logistique) ont
lavantage de linterprtabilit, mais cela ne suffit plus en prsence de phnomnes
fortement non-linaires. Il faut alors souvent plonger les donnes dans des espaces de
grande dimension en utilisant des oprateurs de rgularisation.
Le traitement dimages mdicales ou de puces ADN, en est une illustration
frappante : il pose un dfi d la fois la complexit des donnes et au rapport
inhabituel entre le nombre de variables et le nombre dobservations. Le nombre de
variables est souvent considrablement plus grand que celui des observations : une
image dun megapixels en couleur correspond trois millions de variables La
thorie de lapprentissage dj voque (Hastie & al., 2001) fournit le cadre thorique
adapt tout en faisant le lien avec des aspects bien connus des statisticiens: estimation
fonctionnelle (splines de lissage, estimateurs noyaux) et rgression non-
paramtrique.

5

5. Conclusions et recommandations

La disponibilit accrue de bases de donnes mdicales de plus en plus vastes
(carte Vitale, donnes hospitalires, grandes enqutes, etc.) sera un domaine de
prdilection pour les mthodes de fouille de donnes, et des dcouvertes pourront
certainement en tre tires. Ces dcouvertes doivent tre valides par des techniques
diffrentes des tests de la statistique classique.
Une nouvelle forme dinfrence pour les grands ensembles de donnes est en
train dmerger et le data mining est aussi une source de recherches thoriques et
pas seulement un ensemble de techniques empiriques. Le data mining nest
certainement pas une mode phmre, mais une dmarche et des outils appropris
lanalyse des trs grandes bases de donnes. Il serait dommageable de laisser ce
champ aux seuls informaticiens, car de par leur formation lalatoire et la
comprhension de la variabilit, statisticiens et pidmiologistes sont les plus mme
den tirer profit et den djouer les piges.

Quelques recommandations :
Associer dans les formations universitaires pidmiologie et bioinformatique.
Enseigner aux pidmiologistes les techniques et les outils de la fouille de
donnes, ainsi que les bases de donnes
Organiser des groupes de travail interdisciplinaires linstar du DIMACS
Working Group on Data Mining and Epidemiology de Rutgers.

Rfrences :

Benjamini, Y., Hochberg, Y. (1995). Controlling the false discovery rate: a practical and
powerful approach to multiple testing. JRSSB 57, 289-300.
Brossette, S.E., & al. (1998) Association rules and data mining in hospital infection control
and public health surveillance, J Am Med Inform Assoc. 5(4):373-81.
Domingos P., Hulten G. (2000) Mining high-speed data streams. ACM SIGKDD; Fayyad
U.M., Piatetsky-Shapiro G., Smyth P., Uthurusamy R. (eds.) (1996) Advances in
Knowledge Discovery and Data Mining. Menlo Park, California: AAAI Press
Friedman, J .H. (1997) Data mining and statistics : whats the connection ?
http://www-stat.stanford.edu/~jhf/ftp/dm-stat.ps
Ge,Y., Dudoit,S., Speed, T.P. (2003). Resampling-based multiple testing for DNA microarray
data analysis. Test, 12, 1-77.
Hand, D.J . (1998) Data mining: statistics and more ?, The American Statistician, 52, 112-118
Hastie,T. Tibshirani, R., Friedman J . (2001) The Elements of Statistical Learning, Springer.
Hbrail, G., Lechevallier, Y. (2003) Data Mining et Analyse des donnes in Analyse des
donnes, G.Govaert diteur, Hermes, 323-355
Lavrac N. (1999) Selected techniques for data mining in medicine, Artificial Intelligence in
Medicine, 16, 3 - 33
Saporta, G. (2000) Data Mining and Official Statistics, Quinta Conferenza Nationale di
Statistica, ISTAT, Rome
J ournal de la SFdS 142,1, (2001) : nspcial sur le data mining

6

RC1034 PDF

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

RC1034 PDF

Uploaded by

Copyright:

Available Formats

Chapitre 4.

You might also like