Professional Documents
Culture Documents
3 : MODELISATION
PRESENTATION GENERALE
EPF 4/ 5me anne - Option Ingnierie dAffaires et de Projets - Finance
Bertrand LIAUDET
Phase 4 : Modelisation 1
Classement des techniques du data mining ....................................................................2
Les six grands types de technique du data mining .........................................................6
Historique des techniques de statistique et de data mining ...........................................9
Fonctionnement gnral des mthodes de classification ..............................................10
Fonctionnement gnral des mthodes supervises......................................................11
PHASE 4 : MODELISATION
EPF - 4me anne - IAP - Cours de Data mining 4 :Modlisation - page 1/16- Bertrand LIAUDET
Classement des techniques du data mining
Le data mining met en uvre un ensemble de techniques issues des statistiques, de lanalyse
de donnes et de linformatique pour explorer les donnes.
EPF - 4me anne - IAP - Cours de Data mining 4 :Modlisation - page 2/16- Bertrand LIAUDET
Dans labsolu, tous les modles sont faux. Un modle nest pas une loi scientifique.
Cependant, certains sont utiles.
Dcrire.
Rsumer, synthtiser, rduire, classer.
Mettre en vidence des informations prsentes mais caches par le volume des donnes.
Pas de variable cible prdire.
On les appelle aussi : technique non supervises.
Elles produisent des modles de classement : typologie, mta-typologie.
Prdire.
Extrapoler de nouvelles informations partir des informations prsentes.
Les techniques prdictives prsentent une variable cible prdire.
Lobjectif est de prvoir la variable cible mais aussi de classer partir de la variable cible.
On les appelle aussi : techniques supervises.
Elles sont plus dlicates mettre en uvre que les techniques descriptives.
Elles demandent plus dhistorique que les techniques descriptives.
Elles produisent des modles de prdiction.
EPF - 4me anne - IAP - Cours de Data mining 4 :Modlisation - page 3/16- Bertrand LIAUDET
Techniques descriptives Techniques prdictives
Corrlation Corrlation Prsent Futur
simple complexe Variable cible Variable cible
numrique catgorielle
1 : Description 2 : Classification 4 : Estimation 5 : Segmentation 6 : Prvision
3 : Association
Traduction
Anglais Franais
Clustering segmentation ou classification
Classification classification ou classement
Decision trees arbres de dcision ou segmentation
Le vocabulaire soulign est celui quon utilise dans ce cours.
Dans un classement, on sait lavance quelle classe lindividu appartient car on connat
lavance les classes. Le classement est un tri pour les variables numrique, un group by
SQL pour les variables catgorielles.
Dans une classification, on ne sait pas lavance quelle classe un individu appartient car on
ne connat pas lavance les classes. La classification se fait en fonction de la population
entire.
Exemple :
On peut classer les personnes par choix de loption internationale et de loption messagerie.
Ca dfinit a priori 4 classes. Cest un classement.
On peut prendre tous les attributs des clients et chercher des classes de clients en fonction de
tous ces attributs : a donnera un nouvel attribut avec ses valeurs possibles.
Classement Classification
Ne cre pas ncessairement de nouvel attribut Cre ncessairement un nouvel attribut
Les classes sont dfinies partir dun attribut Les classes sont dfinies partir dun grand
unique ou dun petit nombre dattributs. nombre dattributs
Une classe est connue partir dun individu Les classes sont connues partir de la
population
Les classes et leur nombre sont connus a Les classes et leur nombre sont connus a
priori. posteriori.
La classe dappartenance dun individu est La classe dappartenance dun individu est
dfinie par lindividu lui-mme. dfini par ses relations avec la population.
EPF - 4me anne - IAP - Cours de Data mining 4 :Modlisation - page 4/16- Bertrand LIAUDET
Classement Classification
Plutt prdictif. Les donnes des attributs de Plutt descriptif. Le classification cre un
classement sont utiliss pour prdire une attribut de classification qui est la variable
variable cible. cible de la classification elle-mme.
Exemple : superposition du churn en
fonction du choix de loption internationale.
Le data mining utlise des techniques concrtes qui peuvent tre limites un type de
technique spcifique ou tre tre partages par plusieurs types de techniques.
Exemple de mthodes descriptives : la classification hirarchique, la classification des K
moyennes, les rseaux de Kohonen, les rgles dassociation.
Exemples de mthodes prdictives : les mthodes de rgression, les arbres de dcision, les
rseaux de neurones, les K plus proches voisins.
EPF - 4me anne - IAP - Cours de Data mining 4 :Modlisation - page 5/16- Bertrand LIAUDET
Les six grands types de technique du data mining
Principe :
La description consiste mettre au jour
Pour une variable donne : la rpartition de ses valeurs (tri, histogramme, moyenne,
minimum, maximum, etc.).
Pour deux ou trois variables donnes : des liens entre les rpartitions des valeurs des
variables. Ces liens sappellent des tendances .
Intrt :
Favoriser la connaissance et la comprhension des donnes.
Mthode :
Mthodes graphiques pour la clart : analyse exploratoire des donnes.
Exemples :
Rpartition des votes par ge (lien entre les variables vote et ge ).
Principe :
La classification (ou clustering ou segmentation) consiste crer des classes (cest--dire
des sous-ensembles) de donnes similaires entre elles et diffrentes des donnes dune autre
classe (autrement dit, lintersection des classes entre elles doit toujours tre vide).
Autrement dit, il sagit pour n variables de crer des sous-ensembles disjoints de donnes. On
dit aussi segmenter lensemble entier des donnes.
La classification dfinit les grands types de regroupement et de distinction : on parle de
mtatypologie (type de type).
Elle permet une vision gnrale de lensemble (de la clientle, par exemple).
Intrt :
Favoriser, grce la mtatypologie, la comprhension et la prdiction.
Fixer des segments qui serviront densemble de dpart pour des analyses approfondies.
Rduire les dimensions, cest--dire le nombre dattributs, quand il y en a trop au dpart.
Mthodes :
Classification hirarchique
Classification des K moyennes
Rseaux de Kohonen.
Rgles dassociation.
Exemples :
Mtatypologie dune clientle en fonction de lge, les revenus, le caractre urbain ou
rural, la taille des villes, etc.
EPF - 4me anne - IAP - Cours de Data mining 4 :Modlisation - page 6/16- Bertrand LIAUDET
Pour un audit comptable, classer un comportement financier en catgorie normale et
suspecte.
Principe :
Lassociation consiste trouver quelles valeurs des variables vont ensemble. Par exemple,
telle valeur dune variable va avec telle valeur dune autre variable.
Les rgles dassociation sont de la forme : si antcdent, alors consquence.
Lassociation ne fixe pas de variable cible. Toute les variables peuvent la fois tre
prdicteurs et variable cible.
On appelle aussi ce type danalyse une analyse daffinit .
Intrt :
Mieux connatre les comportements.
Mthodes :
Algorithme a priori.
Algorithme du GRI (induction de rgles gnralise).
Exemples :
Analyse du panier de la mnagre (si jachte des fraises, alors jachte des cerises).
tudier quelle configuration contractuelle dun abonn dune compagnie de tlphone
portable conduit plus facilement un changement doprateur.
Principe :
Lestimation consiste dfinir le lien entre un ensemble de prdicteurs et une variable cible.
Ce lien est dfini partir de donnes compltes , cest--dire dont les valeurs sont connues
tant pour les prdicteurs que pour la variable cible. Ensuite, on peut dduire une variable cible
inconnue de la connaissance des prdicteurs.
la diffrence de la segmentation (technique prdictive suivante) qui travaille sur une
variable cible catgorielle, lestimation travaille sur une variable cible numrique.
Intrt :
Permettre lestimation de valeurs inconnues.
Mthodes :
Analyse statistique classique : rgression linaire simple, corrlation, rgression multiple,
intervalle de confiance, estimation de points.
Rseaux de neurones
Exemples :
Estimer la pression sanguine partir de lge, le sexe, le poids et le niveau de sodium dans
le sang.
Estimer les rsultats dans les tudes suprieures en fonction de critres sociaux.
1
Reprise du 1er cours.
EPF - 4me anne - IAP - Cours de Data mining 4 :Modlisation - page 7/16- Bertrand LIAUDET
5 : la segmentation (technique prdictive)
Principe :
La segmentation est une estimation qui travaille sur une variable cible catgorielle.
On parle de segmentation car chaque valeur possible pour la variable cible va dfinir un
segment (ou type, ou classe, ou catgorie) de donnes.
La segmentation peut tre vue comme une classification supervise.
Intrt :
Permettre lestimation de valeurs inconnues.
Mthodes :
Graphiques et nuages de points.
Mthode des k plus proches voisins.
Arbres de dcision.
Rseau de neurones.
Exemples :
Segmentation par tranche de revenus : lev, moyen et faible (3 segments). On cherche les
caractristiques qui conduisent ces segments.
Dterminer si un mode de remboursement prsente un bon ou un mauvais niveau de
risque crdit (deux segments).
Principe :
La prvision est similaire lestimation et la segmentation mise part que pour la prvision,
les rsultats portent sur le futur.
Intrt :
Permettre lestimation de valeurs inconnues.
Mthodes :
Celles de lestimation ou de la segmentation.
Exemples :
Prvoir le prix daction trois mois dans le futur.
Prvoir le temps quil va faire.
Prvoir le gagnant du championnat de football, par rapport une comparaison des
rsultats des quipes.
EPF - 4me anne - IAP - Cours de Data mining 4 :Modlisation - page 8/16- Bertrand LIAUDET
Historique des techniques de statistique et de data mining
2
Karl Pearson, (1857-1936), mathmaticien et philosophe britannique qui a mis au point les principales
techniques statistiques modernes et les a appliques aux questions de lhrdit.
EPF - 4me anne - IAP - Cours de Data mining 4 :Modlisation - page 9/16- Bertrand LIAUDET
Fonctionnement gnral des mthodes de classification
Principe de la classification
Une classe est un ensemble dlments qui sont semblables entre eux et qui sont
dissemblables ceux dautres classes.
Classifier consistera maximiser les similarits des lments qui sont dans la mme classe et
minimiser les similarits de ces lments avec ceux des autres classes. Inversement, on peut
dire que classifier consiste minimiser la variation intra-classe et maximiser la variation
inter-classe.
Quand on part dun volume de donnes trs important, on a intrt faire une classification
pralable pour rduire lespace de recherche des algorithmes superviss.
EPF - 4me anne - IAP - Cours de Data mining 4 :Modlisation - page 10/16- Bertrand LIAUDET
Fonctionnement gnral des mthodes supervises
Variable cible
Variables explicatives
Les variables explicatives sont les variables utilises pour fabriquer le modle.
On parle aussi de variables prdictives ou de prdicteurs.
Ce sont les variables en entre .
Encore appel discrimination , le classement est une technique prdictive dont la variable
cible est une variable catgorielle, le plus souvent boolenne.
EPF - 4me anne - IAP - Cours de Data mining 4 :Modlisation - page 11/16- Bertrand LIAUDET
Le classement permet de placer chaque individu dans une classe correspondant une
catgorie de la variable cible.
A noter que le classement est aussi le nom donn une technique de modlisation descriptive,
par opposition la classification. Il sagit bien du mme classement dans le sens o on
connat a priori les catgories de classement. Quand il soppose la classification, le
classement est descriptif, sans variable cible. Quand il soppose la prdiction, le classement
est prdictif, avec variable cible.
Lexemple type sera le classement prdictif par arbre de dcision.
Encore appel rgression , la prdiction est une technique prdictive dont la variable cible
est une variable continue.
Lexemple type sera la prdiction par rgression linaire.
Exemple : le scoring
La banque est le principal utilisateur de mesure de score. Ces mesures utilisent les donnes
conomiques, sociales et gographiques du client, mais aussi les donnes sur le
fonctionnement de ses comptes.
Principaux types de scores utiliss dans la banque (tous binaires) :
Score dapptence ou de propension consommer. Pour savoir quel produit proposer
quel client.
Score de risque, de comportement risque. Pour accepter ou pas une demande de prt, de
dcouvert, de carte bancaire, etc.
Score doctroi. Cest la mme chose quun score de risque, mais pour un nouveau client,
donc sans historique du fonctionnement des comptes.
Score de recouvrement. Evalue le montant susceptible dtre rcupr sur un compte en
cas de contentieux.
Sore dattrition. Evalue la probabilit de quitter la banque.
EPF - 4me anne - IAP - Cours de Data mining 4 :Modlisation - page 12/16- Bertrand LIAUDET
une phase de test pour vrifier le modle obtenu (et ventuellement une phase de
validation en plus).
une phase de prdiction ou de classement qui consiste appliquer le modle de
nouvelles donnes. Cest la phase dductive.
Les phases dapprentissage, de test et de validation sont effectues sur des chantillons
distincts de la population.
Le taux derreur doit tre le plus bas possible (courbe de ROC et indice de Gini).
Il doit tre aussi peu sensible que possible aux fluctuations alatoires de lchantillon
dapprentissage.
Il doit se maintenir le plus possible avec lvolution dans le temps de la population. Cette
caractristique est fonction des domaines dapplication : un score peut durer deux ans
dans la banque et six mois en tlphonie mobile.
Les rgles doivent tre aussi simples et aussi peu nombreuses que possibles.
Elles doivent autant que possible tre accessibles et comprhensibles.
EPF - 4me anne - IAP - Cours de Data mining 4 :Modlisation - page 13/16- Bertrand LIAUDET
Taille de lchantillon dapprentissage
Taux
derreur chantillon de test
taux
stable
chantillon dapprentissage
Taille de lchantillon
taille suffisante
Le principe est que le taux derreur dans lchantillon dapprentissage croit avec le nombre
dlments de lchantillon jusqu stabilisation. En effet, si on a deux points, on peut faire
une droite et le taux derreur est nul ; idem avec 3 points et une courbe ; avec 4 points et plus,
on va commencer avoir un taux derreur croissant.
Inversement, le taux derreur de lchantillon de test dcrot avec le nombre dlments de
lchantillon, jusqu stabilisation un peu au-dessus du taux derreur de la population
dapprentissage. En effet, si on a deux points dans lchantillon dapprentissage, les deux
points de lchantillon de test seront (probablement) trs loigns de la droite trouve dans
lchantillon. La progression du modle par augmentation de la taille de lchantillon
dapprentissage verra donc une diminution du taux derreur dans lchantillon de test.
Il y a donc une taille critique de lchantillon dapprentissage. Celle-ci dpend de la
complexit du problme trait.
Il est recommand de disposer de 300 500 individus dans chaque classe prdire.
Sur-apprentissage
EPF - 4me anne - IAP - Cours de Data mining 4 :Modlisation - page 14/16- Bertrand LIAUDET
On parle de sur-apprentissage quand une liaison entre la variable cible et les variables
explicatives apparat dans les donnes dapprentissage alors quelle nexiste pas dans la
population entire.
Le sur-apprentissage peut survenir lorsque lune des variables cibles est mathmatiquement
corrle la variable cible.
Var. cible
Var. explicatives
Bon modle
EPF - 4me anne - IAP - Cours de Data mining 4 :Modlisation - page 15/16- Bertrand LIAUDET
Taux derreur
Sous-apprentissage Sur-apprentissage
EPF - 4me anne - IAP - Cours de Data mining 4 :Modlisation - page 16/16- Bertrand LIAUDET