Professional Documents
Culture Documents
LE DATA MINING
Par :
PERIGNON Xavier
SOH KAMLA Rodrigue
Elves Ingnieur en 2eme anne. Groupe 2
Anne 2008
3ilA2
Sommaire
Introduction................................................................................................................. 3
I. Datamining : dfinition ............................................................................................. 4
II.Pratique du data mining........................................................................................... 7
A Le processus de data mining............................................................................... 7
1.Poser le problme ............................................................................................ 7
2.La recherche des donnes ............................................................................... 8
3.La slection des donnes pertinentes .............................................................. 8
4.Le nettoyage des donnes ............................................................................... 8
5.Les actions sur les variables ............................................................................ 9
6.La recherche du modle................................................................................... 9
7.Lvaluation du rsultat................................................................................... 10
8.Lintgration de la connaissance .................................................................... 10
B Techniques de data mining................................................................................ 11
1.Le raisonnement base de cas ..................................................................... 12
2.Les Knowbots ou agents intelligents .............................................................. 12
II. Exploitation du data mining................................................................................... 14
a. Utilisations concrtes ........................................................................................ 14
b. Principaux avantages du Data mining............................................................... 16
c) les dfauts du data mining ................................................................................ 16
IV . Cas pratique....................................................................................................... 17
Conclusion................................................................................................................ 23
Glossaire .................................................................................................................. 24
Bibliographie............................................................................................................. 25
Introduction
Dans le cadre de notre deuxime anne dtudes lcole 3il, nous avons eu
comme mission de dvelopper un sujet en rapport avec linformatique dans un
dossier appel Travaux de recherches . La ralisation dun tel dossier permet de
nous sensibiliser une nouvelle technique ou technologie, et de dvelopper notre
capacit dapprentissage dune nouvelle notion.
Pour ce travail de recherche de deuxime anne, nous avons choisi
dapprofondir la notion de data mining. Le data mining est aussi connu sous le nom
dexploration de donnes . Jusquici nous savons que le data mining est souvent
utilis pour dfinir le comportement type dun consommateur en supermarch, par
exemple. Mais quest-ce que cest exactement ? Comment la met-on en uvre ?
Afin de prsenter au mieux la notion de data mining, nous avons divis ce
dossier en quatre grandes parties ; la premire partie approfondira la notion de data
mining, travers quelques petits exemples et schmas. Sen suivra une liste
explicative des diffrentes mthodes exploites en data mining, avec lutilit et les
difficults de chacune. Ensuite, nous prsenterons concrtement quelles sont les
utilisations possibles du data mining, avant enfin de prsenter en dtail un cas
dtude concret.
I. Datamining : dfinition
Le Data mining est un sujet brulant . Il dpasse aujourdhui le cercle
restreint de la communaut scientifique pour susciter un vif intrt dans le monde
des affaires. La littrature spcialise et la presse ont pris le relais de cet intrt et
proposent de fait une plthore de dfinitions. Parmi celles-ci, Dimitri Chorafas pale
dun processus permettant de torturer linformation disponible jusqu ce quelle
avoue . Nous avons fait une synthse de ces dfinitions, pour permettre den tirer
une comprhension globale.
Le terme datamining (littralement, minage ou extractions de donnes )
dsigne lensemble des algorithmes et mthodes destins lexploration et lanalyse
de (souvent) grandes bases de donnes informatiques en vue de dtecter dans ces
donnes, des rgles, des associations, des tendances inconnues (non fixes a
priori), des structures particulires, restituant de faon concise, lessentiel de
linformation utile pour laide la dcision.
Lanalyse utilise des mthodes statistiques avances, comme le partitionnement
de donnes (rassemblement de donnes en paquets homognes), et emploie
rgulirement des mcanismes dintelligence artificielle ou des rseaux neuronaux.
Le but du datamining est de dcouvrir des relations inconnues dans les
donnes, spcialement quand les donnes proviennent de bases de donnes
diffrentes. La dcouverte de ces relations peut permettre par exemple de raliser
des campagnes de publicit cibles, ou de prdire comment la production se
vendra Les gouvernements utilisent aussi ces mthodes pour mettre jour des
activits illgales des particuliers, associations, ou autres gouvernements.
Ainsi, partir de donnes stockes (le plus souvent stockes dans de grand
entrepts de donnes encore appels Datawarehouse), et grce aux algorithmes
issus de domaines divers (bases de donnes, intelligence artificielle, statistiques),
on peut tirer des solutions des problmes dorigines diverses. Ces donnes sont
Aprs avoir dfini le datamining, il convient de prciser ce qui le diffre des
domaines danalyse connexes avec lesquels ont pourrait quelques fois le confondre.
Datamining vs statistiques
Contrairement la mthode statistique, le Datamining ne ncessite jamais que
l'on tablisse une hypothse de dpart qu'il s'agira de vrifier. C'est des donnes
elles-mmes que se dgageront les corrlations intressantes, le logiciel n'tant l
que pour les dcouvrir (le Datamining se situe la croise des statistiques, de
l'intelligence artificielle, des bases de donnes). Les programmes danalyses sont
lancs sur la base de donnes, sans objectifs du genre trouver la corrlation entre
telle et telle donnes .
Business Intelligence
transforme
en
quelques
sortes,
les
donnes
en
Au dire dexperts (Michel Bruley), ceux qui ont su voir plus loin y ont gagn un
formidable avantage concurrentiel en utilisant le data mining pour rsoudre des
problmes d'entreprise complexes et voir augmenter leur rentabilit. . Citons en
exemple dutilisation de datamining, la mise en vidence par les magasins Wal-Mart
dune corrlation trs forte entre lachat de couches pour bbs et de bire le samedi
aprs-midi. Les analystes s'aperurent alors qu'il s'agissait des messieurs envoys
au magasin par leur dame pour acheter les volumineux paquets de couches pour
bb. Les rayons furent donc rorganiss pour prsenter cte cte les couches et
les packs de bire ... dont les ventes grimprent en flche.
1.Poser le problme
Dans premire phase, on expose le problme et on dfinit les objectifs. Pour ce
faire, on recueille les intuitions et les connaissances existantes des experts du
domaine concern, et on formule le problme rsoudre, tel quil sera possible de lui
appliquer les techniques et outils de modlisation.
En suite, il faut connatre la typologie du problme (affectation ou structuration).
Si priori, on reconnat lappartenance des lments une ou plusieurs classes, il
PERIGNON Xavier SOH KAMLA Rodrigue
3il A2 Le data mining
Page 7 sur 25
La transformation multivariable :
Elle concerne la combinaison de plusieurs variables lmentaires en une
nouvelle variable agrge. En effet, les donnes brutes sont parfois insuffisantes
pour apporter un pouvoir prdictif un modle. Les types de transformation sont
multiples. On peut utiliser les ratios, la frquence, des tendances, les combinaisons
linaires, les combinaisons non linaires,
Quelque soit la prcision du modle, sa prcision devra tre xvrifi par une
valuation.
7.Lvaluation du rsultat
Lvaluation du rsultat permet destimer la qualit du modle, c'est--dire sa
capacit dterminer correctement les valeurs quil est cens avoir apprises sur des
cas nouveaux. Cette valuation prend gnralement une forme qualitative et une
forme quantitative.
Lvaluation qualitative : permet dillustrer le poids ou linfluence dun facteur. Elle
peut se faire sous une forme graphique. Dans se cas, elle amliore la
comprhension des rsultats.
8.Lintgration de la connaissance
La connaissance nest rien tant quelle nest pas convertie en dcision, puis en
action. Il est essentiel dimplanter le modle et ses rsultats dans et systmes
informatiques ou dans les processus de lentreprise. Cette intgration peut se faire
soit sous la forme de donnes (rsultat du modle) ou sous la forme dun traitement
(algorithme du modle).
Cest dans cette dernire phase quil faut dresser un bilan du droulement des
tapes prcdentes. Ce bilan sert amliorer lexistant en termes de donnes et de
collecte de donnes.
PERIGNON Xavier SOH KAMLA Rodrigue
3il A2 Le data mining
Page 10 sur 25
Les tapes prcdentes illustrent, les tapes suivies pour faire du Data Mining.
Ce pendant, comme nous lavons vu ltape 6, pour construire un modle, des
techniques propres la discipline de Data Mining sont utiliss.
Expriences passes
Recherche des
cas similaires
Situation
Solution
et
explication
Nouvelle
Situation
Adaptation
Solution
Il existe dautres techniques que nous navons pas pu aborder ici. Notamment
les techniques dassociation et darbres de dcisions.
toutes les plateformes. A savoir que la version UNIX cote dix fois plus
cher que la version Windows.
Knowledge Seeker, de Angoss : il est bas sur des techniques
dinduction : il btit des arbres automatiquement, selon ses besoins. Il
est bien adapt une utilisation couple au langage SQL. Il cote
8000.
Rseaux de neurones
- Predict , de NeuralWare : plusieurs niveaux dutilisation (dbutant,
avanc ou expert), il permet de toucher un grand nombre dutilisateurs.
Il sutilise facilement avec Excel. 10000.
- 4Thought, de Cognos : Extrmement paramtrable, il se prsente sous
forme de tableur, et peut gnrer un programme C partir de ses
paramtres pour une utilisation future. 20000
- Strata, de Complex Systems : ce logiciel assemble des rseaux de
neurones avec des algorithmes gntiques pour arriver ses rsultats.
Il peut valider ses rsultats avec des donnes sensiblement diffrentes,
ce qui le rend particulirement efficace. 5000.
On saperoit donc que le data mining est utile et utilis dans un grand nombre
de domaines, pour des problmes varis, et que les outils pour lexploiter sont
nombreux.
Nous allons essayer de dterminer si cest une bonne ou une mauvaise
chose, travers la prsentation des avantages et inconvnients de cette mthode.
IV . Cas pratique
Nous allons dans cette partie vous prsenter une tude complte qui utilise le
data mining. Une telle tude cote cher, cest pour cela quil est difficile den trouver
le compte-rendu complet, avec les dtails des calculs et autres informations
complmentaires.
Nous avons choisi de prsenter une tude ralise par Cisia Ceresta, pour le
compte du ministre des transports franais. Cette tude a pour but de mettre en
vidence les modes de transports des franais dans et hors agglomrations, avec
toute une panoplie de paramtres.
Objectif de ltude : Etudier les dplacements courtes distances ( <80km vol
doiseau) des Franais, partir de chiffres relevs par lINSEE entre 1982 et 1994.
Mthode : La base de donnes utilise pour ltude est dcompose en deux
grandes parties.
La base de donnes qui contient les dplacements des personnes. Elle
contient la dure et la distance de dplacement, le lieu (hors ou en
agglomration), le type de vhicule emprunt, covoiturage ou non
La base de donnes des personnes, qui contient le sexe, le travail, lge, la
situation familiale
Les annes dtude sont analyses sparment, puis on recoupe les rsultats en
comparant les boucles de dplacement et le type de personnes qui les effectuent.
Les pratiques de dplacements tant assez diverses, on ralise des typologies sur
l'ensemble de la population mais aussi sur diffrentes sous-populations :
Dans une telle tude, il est essentiel de bien dfinir les lments sur lesquels
vont porter les analyses. Par exemple, quand on parlera de dplacement , celui-ci
devra pouvoir tre reprsent comme ceci :
domicile
Mode de transport
Train et mtro
travail
de
Nombre
par d'individus
la concerns
Pourcentage
d'individus
concerns
Temps
Distance
Dure
moyen
de
moyenne par
d'absence du
transport par
boucle
(en
domicile
par
boucle
km)
boucle
(en mn)
Une boucle
22 001 620
54%
35
63
6 h 23
Deux boucles
13 327 242
33%
15
37
3 h 46
Trois boucles
3 624 053
9%
12
29
2 h 40
Quatre boucles et
1 431 063
plus
4%
23
1 h 25
Ensemble
40 383 977
100%
21
44
4 h 17
Rsultats :
A la suite des analyses, les individus ont pu tre diviss en six groupes :
1. LES INCONDITIONNELS DE LA VOITURE (42%)
Ce sont en majorit des hommes ayant une activit professionnelle qui
utilisent la voiture en tant que conducteur. Les motifs de dplacements
caractristiques sont le lieu de travail, fixe ou non (on appelle "lieu de travail non fixe"
le cas de tourne, de dplacements pour le travail, etc.), l'accompagnement (ex : le
pre qui dpose ses enfants l'cole avant de se rendre sur son lieu de travail) et
les achats. Ce sont les personnes parcourant les plus grandes distances que l'on
retrouve dans cette classe : 45,5 km en moyenne. Cette classe est la plus
importante : 42% de la population utilise principalement sa voiture en tant que
conducteur pour se dplacer.
2. LES UTILISATEURS DES TRANSPORTS EN COMMUN (10%)
56% des individus de cette classe rsident en Ile-de-France. Les tudiants (ou
lves) et les personnes qui travaillent sont trs prsents, les motifs de dplacement
caractristiques sont le lieu d'tudes et le lieu de travail fixe. Ce sont des individus
qui restent absents relativement longtemps de leur domicile (prs de 9h en moyenne)
et dont le temps de dplacement est long (1 h 46).
3. LES "SPORTIFS" A VELO (4%)
PERIGNON Xavier SOH KAMLA Rodrigue
3il A2 Le data mining
Page 19 sur 25
Une telle tude permet de connatre qui utilise quel transport, et quel sont les
stratgies adopter pour orienter un certain type de personnes vers un certain type
de transport. Par exemple, on pourrait sensibiliser les hommes, qui utilisent
majoritairement la voiture, et les encourager se dplacer pied pour des
dplacements courts
Conclusion
La ralisation de ce dossier nous a permis de comprendre ce que cest que le
data mining, et surtout dexplorer des utilisations possibles. Nous nous sommes
rendu compte que cette discipline est presque omniprsente dans la vie de tous les
jours. Les cas les plus flagrants restent dans la grande distribution, o via les cartes
de fidlits, les consommateurs sont proprement parler fichs et suivis. Les
habitudes sont tellement rpertories et mises sous formes statistiques, puis utilises
pour amener le consommateur toujours plus consommer, quil est permis de se
demander si la spontanit est encore de mise
Glossaire
Datawarehouse : Forme de systme d'information conu pour l'aide la dcision.
Les donnes, issues des applications transactionnelles ou d'origine externe, sont
mises sous une forme homogne et stockes sur des supports de grande capacit;
elles sont organises par sujet et s'accumulent continuellement (ce sont des
donnes historiques). Le magasin de donnes joue le rle d'une vritable mmoire
de l'entreprise o les informations relatives aux vnements significatifs sont
conserves sous forme structure. Diffrents outils d'extraction et de traitement
permettent ensuite d'utiliser ces informations pour l'aide la prise de dcision. SYN.:
entrept de donnes.
Michel Bruley est un expert en marketing B2B et a particip linstallation de
nombreux systmes de CRM. Il a travaill comme consultant pour plus dune
cinquantaine de groupes importants. Il a publi divers articles et livres blancs. Michel
Bruley est le directeur marketing de Teradata France, division de NCR Corporation.
Depuis 1975 il a travaill comme consultant chez Bossard Consultants ou Ciba Geigy.
Il est entr chez NCR en 1993 et dirige le Marketing de Teradata depuis 1997.
Taxinomie : mthodes de classification des donnes
Score : cest une note calculable partir dune quation : la formule de score. La
dtermination de lquation se fait en utilisant des techniques statistiques dites de
scoring.
La normalisation : Elle permet davoir des ordres de grandeur comparables pour
chaque variable. Elle consiste soustraire chaque valeur la moyenne sur
lchantillon et
diviser cette diffrence par lcart-type constat sur chaque
chantillon.
Gocodage : Cest une technique de gomarketing qui transforme les adresses ou
des lments dadresse en coordonnes gographiques. Ces coordonnes peuvent
servir positionner des points sur une carte, mais aussi en Data mining, calculer
les distances relatives entre des points comme un magasin et un porteur de carte de
fidlit.
Brassage : mlange des donnes de manire alatoire de faon faire perdre toute
signification lordre dans lequel elles sont prsentes aux outils dapprentissage.
Capacit dapprentissage : cest une mesure de performance du modle. Elle est
calcule en comparant le modle des donnes nouvelles et en comparant les
rsultats du modle aux valeurs relles.
Bibliographie
Web :
http://web-datamining.net
http://www.wikipedia.org
http://data.mining.free.fr/
http://www.poste.ch/fr/
http://spadsoft.com
http://eric.univ-lyon2.fr/~ricco/data-mining/
http://creg.ac-versailles.fr/
http://www.zdnet.fr/blogs/2005/11/27/data mining/
http://britannica.com
http://www.guideinformatique.com/
http://www.commentcamarche.net/
Livres:
Le Data mining, de Ren Lefbure et Gilles Venturi, Editions Eyrolles