You are on page 1of 25

Travaux de recherches:

LE DATA MINING

Par :
PERIGNON Xavier
SOH KAMLA Rodrigue
Elves Ingnieur en 2eme anne. Groupe 2

Anne 2008
3ilA2

PERIGNON Xavier SOH KAMLA Rodrigue


3il A2 Le data mining
Page 1 sur 25

Sommaire

Introduction................................................................................................................. 3
I. Datamining : dfinition ............................................................................................. 4
II.Pratique du data mining........................................................................................... 7
A Le processus de data mining............................................................................... 7
1.Poser le problme ............................................................................................ 7
2.La recherche des donnes ............................................................................... 8
3.La slection des donnes pertinentes .............................................................. 8
4.Le nettoyage des donnes ............................................................................... 8
5.Les actions sur les variables ............................................................................ 9
6.La recherche du modle................................................................................... 9
7.Lvaluation du rsultat................................................................................... 10
8.Lintgration de la connaissance .................................................................... 10
B Techniques de data mining................................................................................ 11
1.Le raisonnement base de cas ..................................................................... 12
2.Les Knowbots ou agents intelligents .............................................................. 12
II. Exploitation du data mining................................................................................... 14
a. Utilisations concrtes ........................................................................................ 14
b. Principaux avantages du Data mining............................................................... 16
c) les dfauts du data mining ................................................................................ 16
IV . Cas pratique....................................................................................................... 17
Conclusion................................................................................................................ 23
Glossaire .................................................................................................................. 24
Bibliographie............................................................................................................. 25

PERIGNON Xavier SOH KAMLA Rodrigue


3il A2 Le data mining
Page 2 sur 25

Introduction
Dans le cadre de notre deuxime anne dtudes lcole 3il, nous avons eu
comme mission de dvelopper un sujet en rapport avec linformatique dans un
dossier appel Travaux de recherches . La ralisation dun tel dossier permet de
nous sensibiliser une nouvelle technique ou technologie, et de dvelopper notre
capacit dapprentissage dune nouvelle notion.
Pour ce travail de recherche de deuxime anne, nous avons choisi
dapprofondir la notion de data mining. Le data mining est aussi connu sous le nom
dexploration de donnes . Jusquici nous savons que le data mining est souvent
utilis pour dfinir le comportement type dun consommateur en supermarch, par
exemple. Mais quest-ce que cest exactement ? Comment la met-on en uvre ?
Afin de prsenter au mieux la notion de data mining, nous avons divis ce
dossier en quatre grandes parties ; la premire partie approfondira la notion de data
mining, travers quelques petits exemples et schmas. Sen suivra une liste
explicative des diffrentes mthodes exploites en data mining, avec lutilit et les
difficults de chacune. Ensuite, nous prsenterons concrtement quelles sont les
utilisations possibles du data mining, avant enfin de prsenter en dtail un cas
dtude concret.

PERIGNON Xavier SOH KAMLA Rodrigue


3il A2 Le data mining
Page 3 sur 25

I. Datamining : dfinition
Le Data mining est un sujet brulant . Il dpasse aujourdhui le cercle
restreint de la communaut scientifique pour susciter un vif intrt dans le monde
des affaires. La littrature spcialise et la presse ont pris le relais de cet intrt et
proposent de fait une plthore de dfinitions. Parmi celles-ci, Dimitri Chorafas pale
dun processus permettant de torturer linformation disponible jusqu ce quelle
avoue . Nous avons fait une synthse de ces dfinitions, pour permettre den tirer
une comprhension globale.
Le terme datamining (littralement, minage ou extractions de donnes )
dsigne lensemble des algorithmes et mthodes destins lexploration et lanalyse
de (souvent) grandes bases de donnes informatiques en vue de dtecter dans ces
donnes, des rgles, des associations, des tendances inconnues (non fixes a
priori), des structures particulires, restituant de faon concise, lessentiel de
linformation utile pour laide la dcision.
Lanalyse utilise des mthodes statistiques avances, comme le partitionnement
de donnes (rassemblement de donnes en paquets homognes), et emploie
rgulirement des mcanismes dintelligence artificielle ou des rseaux neuronaux.
Le but du datamining est de dcouvrir des relations inconnues dans les
donnes, spcialement quand les donnes proviennent de bases de donnes
diffrentes. La dcouverte de ces relations peut permettre par exemple de raliser
des campagnes de publicit cibles, ou de prdire comment la production se
vendra Les gouvernements utilisent aussi ces mthodes pour mettre jour des
activits illgales des particuliers, associations, ou autres gouvernements.
Ainsi, partir de donnes stockes (le plus souvent stockes dans de grand
entrepts de donnes encore appels Datawarehouse), et grce aux algorithmes
issus de domaines divers (bases de donnes, intelligence artificielle, statistiques),
on peut tirer des solutions des problmes dorigines diverses. Ces donnes sont
Aprs avoir dfini le datamining, il convient de prciser ce qui le diffre des
domaines danalyse connexes avec lesquels ont pourrait quelques fois le confondre.

Datamining vs statistiques
Contrairement la mthode statistique, le Datamining ne ncessite jamais que
l'on tablisse une hypothse de dpart qu'il s'agira de vrifier. C'est des donnes
elles-mmes que se dgageront les corrlations intressantes, le logiciel n'tant l
que pour les dcouvrir (le Datamining se situe la croise des statistiques, de
l'intelligence artificielle, des bases de donnes). Les programmes danalyses sont
lancs sur la base de donnes, sans objectifs du genre trouver la corrlation entre
telle et telle donnes .

PERIGNON Xavier SOH KAMLA Rodrigue


3il A2 Le data mining
Page 4 sur 25

Datamining vs. Informatique Dcisionnelle (Business Intelligence)

Linformatique dcisionnelle ( BI pour Business Intelligence) dsigne les


moyens, les outils et les mthodes qui permettent de collecter, consolider, modliser
et restituer les donnes d'une entreprise en vue d'offrir une aide la dcision, et de
permettre aux responsables de la stratgie d'une entreprise davoir une vue
densemble de lactivit traite :
Slectionner les donnes (par rapport un sujet et/ou une priode)
Trier, regrouper ou rpartir ces donnes selon certains critres
laborer des calculs rcapitulatifs simples (totaux, moyennes conditionnelles,
etc.)
Prsenter les rsultats de manire synthtique (graphique et/ou tableaux de bord)

Business Intelligence

Le Datamining est proche de ce cadre, mais introduit une dimension


supplmentaire qui est la modlisation exploratoire (dtection des liens de cause
effet, validation de leur reproductibilit)
Le datamining
connaissances .

transforme

en

quelques

sortes,

les

donnes

en

Au dire dexperts (Michel Bruley), ceux qui ont su voir plus loin y ont gagn un
formidable avantage concurrentiel en utilisant le data mining pour rsoudre des
problmes d'entreprise complexes et voir augmenter leur rentabilit. . Citons en
exemple dutilisation de datamining, la mise en vidence par les magasins Wal-Mart
dune corrlation trs forte entre lachat de couches pour bbs et de bire le samedi
aprs-midi. Les analystes s'aperurent alors qu'il s'agissait des messieurs envoys
au magasin par leur dame pour acheter les volumineux paquets de couches pour

PERIGNON Xavier SOH KAMLA Rodrigue


3il A2 Le data mining
Page 5 sur 25

bb. Les rayons furent donc rorganiss pour prsenter cte cte les couches et
les packs de bire ... dont les ventes grimprent en flche.

Comme lillustre la figure suivante, Le data mining utilise des techniques


provenant de disciplines diverses.

Nous dtaillerons dans la suite de ce dossier ce quest vraiment ce processus


dextractions de donnes.

PERIGNON Xavier SOH KAMLA Rodrigue


3il A2 Le data mining
Page 6 sur 25

II.Pratique du data mining


Le data mining utilise plusieurs autres disciplines. A la fin de tout le processus,
le but est de prendre des dcisions, aprs une analyse rationnelle. Plusieurs flux de
donnes sont utilises, et diverses techniques sont appliques dans le but dapporter
au dcideur, en partant de simples donnes pas trs parlantes, des connaissances
suffisantes pour effectuer des choix techniques, commerciaux, de gestions,

A Le processus de data mining

Nous avons regroup les taches effectuer en plusieurs tapes, de la position


du problme lintgration des connaissances.

1.Poser le problme
Dans premire phase, on expose le problme et on dfinit les objectifs. Pour ce
faire, on recueille les intuitions et les connaissances existantes des experts du
domaine concern, et on formule le problme rsoudre, tel quil sera possible de lui
appliquer les techniques et outils de modlisation.
En suite, il faut connatre la typologie du problme (affectation ou structuration).
Si priori, on reconnat lappartenance des lments une ou plusieurs classes, il
PERIGNON Xavier SOH KAMLA Rodrigue
3il A2 Le data mining
Page 7 sur 25

sagira de dfinir des facteurs daffectation. Si lobjectif est plutt de mettre en


vidence des classes ou des facteurs de diffrenciation, on cherchera identifier des
facteurs de structuration.
Ayant dfini le type de problme, on doit bien savoir ce quon attend comme
rsultat et ce lexploitation quon en fera. Ces dernires connaissances faciliteront les
choix effectuer dans les tapes suivantes

2.La recherche des donnes


Il sagit dans cette phase de dterminer la structure gnrale des donnes ainsi
que les rgles utilises pour les constituer. La slection des donnes doit tre
optimale et peut ncessiter la consultation dexperts, afin de dterminer les attributs
les aptes dcrire la problmatique.
En suite, grce des taxinomies, il faudra rduire le nombre des variables
obtenues pour faciliter une gnralisation du problme. Cette tape peut fortement
conditionner la qualit des rsultats du processus de datamining.

3.La slection des donnes pertinentes


On effectue une collecte et une slection de donnes. Il faut constituer une
base dinformations qui permet de construire lapprentissage, cest dire la
construction de modles en recherchant dans le pass des vnements similaires.
Ce travail peut ncessiter lintervention de toute une quipe et sera plus ou moins
facilit selon les technologies en place dans lentreprise (base de donnes ouverte,
entrept de donnes exhaustif, ). La slection des donnes peut aboutir sur un
chantillon ou une exhaustivit de donnes qui seront ensuite nettoyes.

4.Le nettoyage des donnes


Pour pourvoir dfinir la taille de la base dexemples, et choisir la manire de la
constituer, il faut effectuer un diagnostic de qualit potentielle des donnes. La phase
de nettoyage des donnes permet damliorer la qualit des donnes afin de
minimiser leffet danomalies telles que des erreurs de saisie, des champs nuls, des
valeurs aberrantes.
Les modalits de contrle de lorigine des donnes dpend de la taille de la base
dexemples (importante ou restreinte) et de son type dalimentation (automatique ou
manuelle).
 La recherche des valeurs aberrantes peut tre effectue en isolant les pics
de certaines valeurs dans une distribution statistique, ou en utilisant
dautres mthodes comme la dtermination de score.
 Les valeurs manquantes sont gres, soit en excluant les enregistrements
incomplets, en remplaant les donnes manquantes, ou en les grant via
des algorithmes prcis.
 Une analyse est effectue pour dceler lexistence denregistrements
totalement nuls. Elle permet den identifier les causes externes possibles
panne de capteurs, saut de lignes par lagent de saisie, )
PERIGNON Xavier SOH KAMLA Rodrigue
3il A2 Le data mining
Page 8 sur 25

Pour obtenir un modle performant et faciliter lapprentissage, il faut amliorer


la qualit des donnes par lutilisation de bruits ou de processus flous. Ces
oprations, tout comme les prcdentes permettent dobtenir des donnes fiables.

5.Les actions sur les variables


Maintenant que les variables sont pertinentes, et que les donnes sont fiables,
il faut les transformer pour prparer le travail danalyse. Il sagit dintervenir sur des
variables pour quelles soient mieux exploitables par des outils de modlisation. Ces
transformations peuvent tre de plusieurs types :
La transformation monovarialble
Lorsquon veut amliorer une seule variable, on peut tre emmen modifier
une unit de mesure, par normalisation ou transformation logarithmique. Il est aussi
important de changer les dates en dures pour faciliter le travail de modlisation. Si
on a affaire des coordonnes gographiques, lutilisation de gocodage ou de
logiciels dinformation gographique peut tre ncessaire afin de rendre des
coordonnes plus significatives.

La transformation multivariable :
Elle concerne la combinaison de plusieurs variables lmentaires en une
nouvelle variable agrge. En effet, les donnes brutes sont parfois insuffisantes
pour apporter un pouvoir prdictif un modle. Les types de transformation sont
multiples. On peut utiliser les ratios, la frquence, des tendances, les combinaisons
linaires, les combinaisons non linaires,

6.La recherche du modle


Aprs avoir obtenu des variables, on passe la phase de modlisation. Elle
consiste extraire des donnes partir dun volume de donnes bruites et la
prsenter sous une forme synthtique. Elle est parfois dcrie sous le terme de data
mining. Elle repose sur une recherche exploratoire, c'est--dire dpourvue de
prjugs concernant les relations entre les donnes.
La recherche du modle se fait dans la phase dapprentissage sur une base
dapprentissage qui doit tre distincte de la base de tests (dont nous plus loin). La
construction de ce modle peut se faire de manire automatique et interactive. Sa
performance dpend du choix dalgorithmes de calculs.
Parmis les techniques de modlisation utilisables, citons trois groupes :
 La recherche des modles base dquations, o le dcideur sappuie sur
une fonction plus ou moins complexe qui combine les variables ;
 Lanalyse logique o la dcomposition du problme en sous-ensembles
successifs permet de construire un raisonnement structur ;
 Les techniques de projection o la complexit initiale du problme est
rduite grce la mise en vidence des facteurs principaux dexplication.
PERIGNON Xavier SOH KAMLA Rodrigue
3il A2 Le data mining
Page 9 sur 25

Quelque soit la prcision du modle, sa prcision devra tre xvrifi par une
valuation.

7.Lvaluation du rsultat
Lvaluation du rsultat permet destimer la qualit du modle, c'est--dire sa
capacit dterminer correctement les valeurs quil est cens avoir apprises sur des
cas nouveaux. Cette valuation prend gnralement une forme qualitative et une
forme quantitative.
Lvaluation qualitative : permet dillustrer le poids ou linfluence dun facteur. Elle
peut se faire sous une forme graphique. Dans se cas, elle amliore la
comprhension des rsultats.

Lvaluation quantitative : utilise des techniques et notions telles que lintervalle de


confiance, pour fiabiliser les conclusions apportes sur des donnes futures.

La validation par des tests


Aprs avoir construit un modle, il est possible den tester la pertinence sur la
base dapprentissage. Cela tant, il faut viter d apprendre les donnes plutt
que le modle. Par exemple, le fait doublier de brasser les donnes peut conduire
obtenir un modle qui a appris que les 1000 premiers enregistrements appartiennent
la classe A et les 300 suivants la classe B. Il faut donc brasser alatoirement les
donnes avant tout apprentissage, et prvoir une base de test distincte.
Pour valider le modle, il vaudra mieux constituer une base de test ne servant
quau test. De cette manire on vrifiera que le modle est capable classer
convenablement les donnes quil na jamais rencontr. La stabilit entre les
rsultats observs sur le fichier dapprentissage et le fichier test constitue la capacit
dapprentissage.

8.Lintgration de la connaissance
La connaissance nest rien tant quelle nest pas convertie en dcision, puis en
action. Il est essentiel dimplanter le modle et ses rsultats dans et systmes
informatiques ou dans les processus de lentreprise. Cette intgration peut se faire
soit sous la forme de donnes (rsultat du modle) ou sous la forme dun traitement
(algorithme du modle).
Cest dans cette dernire phase quil faut dresser un bilan du droulement des
tapes prcdentes. Ce bilan sert amliorer lexistant en termes de donnes et de
collecte de donnes.
PERIGNON Xavier SOH KAMLA Rodrigue
3il A2 Le data mining
Page 10 sur 25

Les tapes prcdentes illustrent, les tapes suivies pour faire du Data Mining.
Ce pendant, comme nous lavons vu ltape 6, pour construire un modle, des
techniques propres la discipline de Data Mining sont utiliss.

B Techniques de data mining


Les outils de Data Mining utilisent les mmes fondements thoriques que les
techniques statistiques traditionneles. Ils sappuies sur des techniques relativement
similaires, mais reprsente une remarquable volution par rapport ces dernires.
En effet, les outils de datamining bnficient en outre de lavance des logiciels de
bases de donnes, et des algorithmes dapprentissage automatique ( intelligence
artificielle)

Les outils de construction de modles varieront selon la dose utilise de


chacune des disciplines ci-dessus. En tant quinformaticiens, nous nous sommes
intresss des outils qui sappuient sur des donnes stockes.

PERIGNON Xavier SOH KAMLA Rodrigue


3il A2 Le data mining
Page 11 sur 25

1.Le raisonnement base de cas


Les systmes de raisonnement base de cas (RBC ou CBR pour Case Based
Reasoning, en anglais) rsolvent des problmes par comparaison dexemples
proches puiss dans un ensemble de cas stocks pralablement. Avec cette
mthode de rsolution, si une exprience passe et une nouvelle situation sont
suffisamment similaires, toutes les conclusions appliques lexprience passe
restent valides et peuvent tre appliques la nouvelle situation.
Nouvelles expriences

Expriences passes
Recherche des
cas similaires

Situation

Solution
et
explication

Nouvelle
Situation

Adaptation
Solution

Amlioration de lexprience du RBC


Les applications des systmes RBC sont multiples ; la plupart des succs de
cette technique concernent le service aprs vente ou le diagnostic de pannes,
notemment sur les centres dappel et les applications dites embarques .

2.Les Knowbots ou agents intelligents


Le terme de Knowbot est une contraction de Knowledge et Robot. Ils dsignent
ce qui est connu en franais sous le terme dagents intelligents. Un agent est une
entit abstraite qui est capable dagir sur elle-mme et sur son environnement. Il
dispose dune reprsentation partielle de cet environnement et peut communiquer
avec dautres agents. Avec le principe des agents, il est possible de raliser des
applications distribus (sur plusieurs agents) afin de rpartir un problme de Data
Mining complexe en plusieurs objectifs. Pour assurer son fonctionnement, la
structure centrale dun agent contrle son comportement gnral. Pour cela elle
comporte une zone de contrle, dune zone de connaissance, et dune zone de
communication. Les Knowbots sont trs utiliss pour la vente et le marketing sur
Internet.
PERIGNON Xavier SOH KAMLA Rodrigue
3il A2 Le data mining
Page 12 sur 25

Il existe dautres techniques que nous navons pas pu aborder ici. Notamment
les techniques dassociation et darbres de dcisions.

PERIGNON Xavier SOH KAMLA Rodrigue


3il A2 Le data mining
Page 13 sur 25

II. Exploitation du data mining


a. Utilisations concrtes
Dans cette partie nous allons vous prsenter quelques cas dutilisation du data
mining, car il est intressant de bien comprendre dans quels cas le data mining est
rellement utile, dans quels cas il peut tre appliqu, et dans quels cas il sera
inefficace.
- Etude du comportement des consommateurs
Afin de maximiser les ventes, beaucoup dentreprises utilisent des solutions
de data mining, afin de dterminer les habitudes des clients pour ensuite mieux cibler
leur envies , et surtout en tirer le meilleur profit.
On peut citer lexemple dUNILEVER, qui suit laide dune solution data
mining lutilisation de carnets de coupons de rductions envoys aux clients. Aprs
cette tude, lentreprise saura grande chelle ce qui marche le mieux et le moins
bien, et sadaptera en consquence.
Les Editions Atlas ont aussi fait appel une solution de data mining pour
analyser le taux dadhsion suite une offre du type 60 fiches 1,50 . En
fonction des relances ou des autres offres envoyes aux personnes dj intresses
par ces fiches, lentreprise a pu diter une mthode type permettant de maximiser le
nombre de nouveaux abonns.
- Etude de processus et de qualit
Le data mining est utilis dautres fins que de faire du bnfice, il est parfois
utilis pour tudier certains paramtres sociaux ou mdicaux.
Une tude a t ralise sur une population de femmes de 60 82 ans sur le
vieillissement de la peau en fonction de plusieurs paramtres : exposition au soleil,
tabagisme) pour mettre en vidence les facteurs principaux de vieillissement et
ainsi rendre plus efficace la prvention de ce vieillissement.
Sur le plan mdical et psychologique, une tude a t ralise dans des
hpitaux pour dterminer limpact de lacharnement thrapeutique comme de
larrt thrapeutique sur le personnel et ainsi anticiper la raction de ce mme
personnel lors dun cas similaire lavenir.
-

Principaux logiciels de data mining

Nous prsentons quelques logiciels daide lanalyse data mining.


Arbres de dcision :
- AC2, de Isoft : ce logiciel possde une interface conviviale, idale pour
dbuter en data mining. Il intgre aussi des librairies de programmation
pour intgrer son utilisation dans un programme informatique. Une
variante plus simple dAC2 existe : Alice. Prix : environ 4000.
- Datamind, de Datamind : ce logiciel existe en plusieurs version,
diffrentes pour un usage personnel, professionnel ou serveur. Il utilise
un algorithme dvaluation de probabilits propritaire. Il existe sur
PERIGNON Xavier SOH KAMLA Rodrigue
3il A2 Le data mining
Page 14 sur 25

toutes les plateformes. A savoir que la version UNIX cote dix fois plus
cher que la version Windows.
Knowledge Seeker, de Angoss : il est bas sur des techniques
dinduction : il btit des arbres automatiquement, selon ses besoins. Il
est bien adapt une utilisation couple au langage SQL. Il cote
8000.

Rseaux de neurones
- Predict , de NeuralWare : plusieurs niveaux dutilisation (dbutant,
avanc ou expert), il permet de toucher un grand nombre dutilisateurs.
Il sutilise facilement avec Excel. 10000.
- 4Thought, de Cognos : Extrmement paramtrable, il se prsente sous
forme de tableur, et peut gnrer un programme C partir de ses
paramtres pour une utilisation future. 20000
- Strata, de Complex Systems : ce logiciel assemble des rseaux de
neurones avec des algorithmes gntiques pour arriver ses rsultats.
Il peut valider ses rsultats avec des donnes sensiblement diffrentes,
ce qui le rend particulirement efficace. 5000.
On saperoit donc que le data mining est utile et utilis dans un grand nombre
de domaines, pour des problmes varis, et que les outils pour lexploiter sont
nombreux.
Nous allons essayer de dterminer si cest une bonne ou une mauvaise
chose, travers la prsentation des avantages et inconvnients de cette mthode.

PERIGNON Xavier SOH KAMLA Rodrigue


3il A2 Le data mining
Page 15 sur 25

b. Principaux avantages du Data mining


Nous allons ici prsenter quels sont les principaux avantages du data mining, et
ainsi mieux cerner lutilit de cette mthode.
-

Le data mining aide la prise de dcision des dirigeants. Par lanalyse


des donnes, la mthode peut rsumer la situation et alors
acclrer la prise de dcision des dirigeants un problme donn. Par
contre, le data mining ne remplace pas ces dirigeants.
Le data mining permet de faire des liens pertinents entre des donnes
qui, premire vue, nont aucune corrlation.
Cette mthode peut amliorer la satisfaction des clients en analysant
leur besoins et en proposant des amliorations en fonction des
vnements passs.
Permet deffectuer des profils type : des profils de clients comme
demploys en fonction dun test, pour prvoir lvolution de ceux-ci aux
cots de lentreprise.
Le data mining facilite le dveloppement de nouveaux produits
Acclre la gestion des stocks, des inventaires, de la logistique
Peut augmenter les revenus tout en diminuant les cots.

Cest vident, le data mining a t tudi pour augmenter et optimiser le


rendement dune entreprise ou lamlioration dun critre. Cependant cette mthode
souffre de quelques dfauts qui seront dtaills ci-aprs.

c) les dfauts du data mining

Taille de la base : le data mining est totalement dpendant de la base de


donnes quil analyse et donc des mthodes et technologies qui permettent
dy accder ;
o le stockage des donnes requiert de trs grands espaces. Il doit
souvent se faire sur une machine spcifique.
o le temps de transfert des donnes entre la base de donnes et le poste
de travail augmente la dure des traitements.
Sujets danalyse
o Dans lexemple danalyse dun site web, la structure de celui-ci est
rgulirement modifie et rend donc une analyse prcise difficile.
Lexcs de confiance
o Nous avons dit dans ce rapport que le data mining permettait de
prvoir lavenir , danticiper la raction des clients par rapport une
modification, une nouvelle campagne de publicit cest vrai, mais il
ne faut pas pour autant suivre aveuglment le rsultat dune analyse
data mining. Cest pour cela quil est prudent de recouper les
informations obtenues avec dautres tudes, statistiques et autres, et
PERIGNON Xavier SOH KAMLA Rodrigue
3il A2 Le data mining
Page 16 sur 25

de disposer dun statisticien et dun commercial pour lanalyse des


rsultats.
La ncessit de disposer de personnel qualifi
o Le data mining reste un processus complexe qui ncessite du
personnel habitu lutiliser. Dans le cas minimum, il faudrait disposer
dun informaticien, dun commercial connaissant bien la clientle ainsi
que dun statisticien.

IV . Cas pratique
Nous allons dans cette partie vous prsenter une tude complte qui utilise le
data mining. Une telle tude cote cher, cest pour cela quil est difficile den trouver
le compte-rendu complet, avec les dtails des calculs et autres informations
complmentaires.
Nous avons choisi de prsenter une tude ralise par Cisia Ceresta, pour le
compte du ministre des transports franais. Cette tude a pour but de mettre en
vidence les modes de transports des franais dans et hors agglomrations, avec
toute une panoplie de paramtres.
Objectif de ltude : Etudier les dplacements courtes distances ( <80km vol
doiseau) des Franais, partir de chiffres relevs par lINSEE entre 1982 et 1994.
Mthode : La base de donnes utilise pour ltude est dcompose en deux
grandes parties.
La base de donnes qui contient les dplacements des personnes. Elle
contient la dure et la distance de dplacement, le lieu (hors ou en
agglomration), le type de vhicule emprunt, covoiturage ou non
La base de donnes des personnes, qui contient le sexe, le travail, lge, la
situation familiale

Les annes dtude sont analyses sparment, puis on recoupe les rsultats en
comparant les boucles de dplacement et le type de personnes qui les effectuent.
Les pratiques de dplacements tant assez diverses, on ralise des typologies sur
l'ensemble de la population mais aussi sur diffrentes sous-populations :

les individus ralisant au moins trois boucles


les individus trs mobiles en terme de distance (+ de 55 km en 82 et + de 70
km en 94)
les individus ralisant une ou deux boucles
les individus "peu" mobiles en terme de distance (- de 55 km en 82 et - de 70
km en 94)

PERIGNON Xavier SOH KAMLA Rodrigue


3il A2 Le data mining
Page 17 sur 25

Dans une telle tude, il est essentiel de bien dfinir les lments sur lesquels
vont porter les analyses. Par exemple, quand on parlera de dplacement , celui-ci
devra pouvoir tre reprsent comme ceci :

Domicile, salle de sport


(lieu de dpart)

domicile

Mode de transport

Train et mtro

travail

De la mme faon, on dfinit une boucle de dplacement comme ceci :

En gros, une boucle de dplacement est une srie de dplacements ayant


pour dpart et fin le domicile. Les informations de la boucle sont : la distance
moyenne, le temps moyen de transport, la dure d'absence du domicile, le nombre
de fois o chaque mode de transport est utilis dans la boucle, le nombre de fois o
chaque motif de dplacement est utilis dans la boucle, le nombre de modes
diffrents utiliss, le nombre de motifs diffrents utiliss, etc....

Exemple de statistiques traiter :


Nombre
boucles
effectues
jour
par
personne

de
Nombre
par d'individus
la concerns

Pourcentage
d'individus
concerns

Temps
Distance
Dure
moyen
de
moyenne par
d'absence du
transport par
boucle
(en
domicile
par
boucle
km)
boucle
(en mn)

Une boucle

22 001 620

54%

35

63

6 h 23

Deux boucles

13 327 242

33%

15

37

3 h 46

Trois boucles

3 624 053

9%

12

29

2 h 40

Quatre boucles et
1 431 063
plus

4%

23

1 h 25

PERIGNON Xavier SOH KAMLA Rodrigue


3il A2 Le data mining
Page 18 sur 25

Ensemble

40 383 977

100%

21

44

4 h 17

Voici une reprsentation tabulaire de statistiques traiter. On peut noter, dans


le cadre de cette tude prcise, limportant nombre de personnes prises en compte.
A partir de ces donnes, on tablit les pr-rsultats suivants :

Rsultats :
A la suite des analyses, les individus ont pu tre diviss en six groupes :
1. LES INCONDITIONNELS DE LA VOITURE (42%)
Ce sont en majorit des hommes ayant une activit professionnelle qui
utilisent la voiture en tant que conducteur. Les motifs de dplacements
caractristiques sont le lieu de travail, fixe ou non (on appelle "lieu de travail non fixe"
le cas de tourne, de dplacements pour le travail, etc.), l'accompagnement (ex : le
pre qui dpose ses enfants l'cole avant de se rendre sur son lieu de travail) et
les achats. Ce sont les personnes parcourant les plus grandes distances que l'on
retrouve dans cette classe : 45,5 km en moyenne. Cette classe est la plus
importante : 42% de la population utilise principalement sa voiture en tant que
conducteur pour se dplacer.
2. LES UTILISATEURS DES TRANSPORTS EN COMMUN (10%)
56% des individus de cette classe rsident en Ile-de-France. Les tudiants (ou
lves) et les personnes qui travaillent sont trs prsents, les motifs de dplacement
caractristiques sont le lieu d'tudes et le lieu de travail fixe. Ce sont des individus
qui restent absents relativement longtemps de leur domicile (prs de 9h en moyenne)
et dont le temps de dplacement est long (1 h 46).
3. LES "SPORTIFS" A VELO (4%)
PERIGNON Xavier SOH KAMLA Rodrigue
3il A2 Le data mining
Page 19 sur 25

Les personnes se dplaant en vlo sont en majorit des hommes, ce sont


plutt des tudiants (ou des lves). Les motifs de dplacements principaux sont les
visites, les loisirs ou le lieu d'tudes.

4. LES ADEPTES DU DEUX-ROUES MOTORISE (1%)


On trouve principalement dans cette classe des jeunes tudiants ou lves
(plutt des hommes), les motifs de dplacements dominants sont le lieu d'tudes et
les visites. Seul 1% de la population se trouve dans cette classe.
5. LES "COURAGEUX" A PIED (21%)
La marche pied est un mode de dplacement caractristique pour 21% de la
population : ce sont principalement des retraits, inactifs ou chmeurs et plutt des
femmes et/ou des citadins. La marche pied est surtout utilise pour se rendre sur
un lieu d'tudes, faire des achats ou des dmarches personnelles. La distance
moyenne de l'ensemble des boucles de la journe est plus faible que dans les autres
classes (5,2 km) et la dure moyenne d'absence du domicile est galement la plus
courte (moins de 5 heures).
6. LES INDIVIDUS A DOMINANTE "VOITURE PASSAGER" ET/OU "TRAIN" (23%)
Ce sont principalement des femmes, plutt des tudiants (ou lves) ou des
inactifs. Les motifs de dplacements dominants sont le lieu d'tudes, les loisirs et les
visites.

Nous pouvons prsenter aussi les graphiques correspondant cette tude.

PERIGNON Xavier SOH KAMLA Rodrigue


3il A2 Le data mining
Page 20 sur 25

Sources : web-data mining.net

PERIGNON Xavier SOH KAMLA Rodrigue


3il A2 Le data mining
Page 21 sur 25

Nous pouvons conclure de cette tude quune majorit de personnes prfrent


encore se dplacer en voiture, bien que la distance parcourue soit la plus importante
(et donc le cot aussi).
Il ressort aussi que la marche pied est aussi un des meilleurs moyens de
transports : labsence du domicile est la plus courte, ainsi que le temps de
dplacement et la distance parcourue. Il est aussi noter que cest le mode de
dplacement le plus fatiguant

Une telle tude permet de connatre qui utilise quel transport, et quel sont les
stratgies adopter pour orienter un certain type de personnes vers un certain type
de transport. Par exemple, on pourrait sensibiliser les hommes, qui utilisent
majoritairement la voiture, et les encourager se dplacer pied pour des
dplacements courts

PERIGNON Xavier SOH KAMLA Rodrigue


3il A2 Le data mining
Page 22 sur 25

Conclusion
La ralisation de ce dossier nous a permis de comprendre ce que cest que le
data mining, et surtout dexplorer des utilisations possibles. Nous nous sommes
rendu compte que cette discipline est presque omniprsente dans la vie de tous les
jours. Les cas les plus flagrants restent dans la grande distribution, o via les cartes
de fidlits, les consommateurs sont proprement parler fichs et suivis. Les
habitudes sont tellement rpertories et mises sous formes statistiques, puis utilises
pour amener le consommateur toujours plus consommer, quil est permis de se
demander si la spontanit est encore de mise

PERIGNON Xavier SOH KAMLA Rodrigue


3il A2 Le data mining
Page 23 sur 25

Glossaire
Datawarehouse : Forme de systme d'information conu pour l'aide la dcision.
Les donnes, issues des applications transactionnelles ou d'origine externe, sont
mises sous une forme homogne et stockes sur des supports de grande capacit;
elles sont organises par sujet et s'accumulent continuellement (ce sont des
donnes historiques). Le magasin de donnes joue le rle d'une vritable mmoire
de l'entreprise o les informations relatives aux vnements significatifs sont
conserves sous forme structure. Diffrents outils d'extraction et de traitement
permettent ensuite d'utiliser ces informations pour l'aide la prise de dcision. SYN.:
entrept de donnes.
Michel Bruley est un expert en marketing B2B et a particip linstallation de
nombreux systmes de CRM. Il a travaill comme consultant pour plus dune
cinquantaine de groupes importants. Il a publi divers articles et livres blancs. Michel
Bruley est le directeur marketing de Teradata France, division de NCR Corporation.
Depuis 1975 il a travaill comme consultant chez Bossard Consultants ou Ciba Geigy.
Il est entr chez NCR en 1993 et dirige le Marketing de Teradata depuis 1997.
Taxinomie : mthodes de classification des donnes
Score : cest une note calculable partir dune quation : la formule de score. La
dtermination de lquation se fait en utilisant des techniques statistiques dites de
scoring.
La normalisation : Elle permet davoir des ordres de grandeur comparables pour
chaque variable. Elle consiste soustraire chaque valeur la moyenne sur
lchantillon et
diviser cette diffrence par lcart-type constat sur chaque
chantillon.
Gocodage : Cest une technique de gomarketing qui transforme les adresses ou
des lments dadresse en coordonnes gographiques. Ces coordonnes peuvent
servir positionner des points sur une carte, mais aussi en Data mining, calculer
les distances relatives entre des points comme un magasin et un porteur de carte de
fidlit.
Brassage : mlange des donnes de manire alatoire de faon faire perdre toute
signification lordre dans lequel elles sont prsentes aux outils dapprentissage.
Capacit dapprentissage : cest une mesure de performance du modle. Elle est
calcule en comparant le modle des donnes nouvelles et en comparant les
rsultats du modle aux valeurs relles.

PERIGNON Xavier SOH KAMLA Rodrigue


3il A2 Le data mining
Page 24 sur 25

Bibliographie
Web :
http://web-datamining.net
http://www.wikipedia.org
http://data.mining.free.fr/
http://www.poste.ch/fr/
http://spadsoft.com
http://eric.univ-lyon2.fr/~ricco/data-mining/
http://creg.ac-versailles.fr/
http://www.zdnet.fr/blogs/2005/11/27/data mining/
http://britannica.com
http://www.guideinformatique.com/
http://www.commentcamarche.net/

Livres:
Le Data mining, de Ren Lefbure et Gilles Venturi, Editions Eyrolles

PERIGNON Xavier SOH KAMLA Rodrigue


3il A2 Le data mining
Page 25 sur 25

You might also like