Cours de Data Mining 3-Modelisation-EPF

COURS DE DATA MINING
3 : MODELISATION
PRESENTATION GENERALE
EPF 4/ 5me anne - Option Ingnierie dAffaires et de Projets - Finance
Bertrand LIAUDET
Phase 4 : Modelisation 1
Classement des techniques du data mining ....................................................................2
Les six grands types de technique du data mining .........................................................6
Historique des techniques de statistique et de data mining ...........................................9
Fonctionnement gnral des mthodes de classification ..............................................10
Fonctionnement gnral des mthodes supervises......................................................11
PHASE 4 : MODELISATION
PROCESSUS du DATA MINING

Acteurs tapes Phases
Matre Objectifs 1 : Comprhension du mtier
duvre
2 : Comprhension des donnes
Donnes
3 : Prparation des donnes
4 : Modlisation
Traitements
5 : valuation de la modlisation
Matre Dploiement des rsultats de ltude
douvrage
EPF - 4me anne - IAP - Cours de Data mining 4 :Modlisation - page 1/16- Bertrand LIAUDET
Classement des techniques du data mining
Les techniques du data mining
Le data mining met en uvre un ensemble de techniques issues des statistiques, de lanalyse
de donnes et de linformatique pour explorer les donnes.
Rappels de vocabulaire : concept, donne, variable, type, modle
On travaille sur des tableaux de donnes.

Le nom du tableau, cest ce dont on parle , cest--dire le concept dont on parle.
Cest une abstraction. Par exemple, un tableau de clients, de malades, etc.
Rappelons quun concept (ou notion, ou ide) est une reprsentation mentale gnrale et
abstraite dun objet. Le concept est le rsultat de lopration de lesprit qui fait quon
place tel objet dans telle catgorie et non dans telle autre.
Chaque colonne du tableau a un nom qui est un attribut du concept. On parle aussi de
proprit ou de champ . Le nom de la colonne est une abstraction (un concept).
Pour un objet concret, la colonne a une valeur particulire qui est la valeur particulire de
lattribut pour lobjet concret.
En data mining (et en statistique), les attributs des objets sont appels : variables .
Chaque ligne du tableau est un lment du tableau, cest--dire un objet concret
correspondant au concept abstrait dont on parle.
En data mining, un objet concret est appel : individu .
En data mining, la valeur dun attribut pour un individu est appel : donne .
En data mining, lensemble des individus est appel : population . Un tableau de
donnes est une population.
Un sous-ensemble de valeurs pour un ou plusieurs attributs donns peut tre appel :
type , classe , catgorie , segment ou encore modalit
Par exemple, grand et petit sont deux types (ou classe, ou catgorie, ou segment)
de lattribut taille .
On parle de variable catgorielle par opposition aux variables numriques . Par
exemple, si la variable (attribut) taille peut prendre deux valeurs possibles : grand
et petit , cest une variable catgorielle. Si les valeurs de la variable taille sont
donnes en cm, cest une variable numrique.
Quand on fait de la prvision, on travaille sur une variable particulire appele :
variable cible et sur un ensemble dautres variables utiles pour la prdiction
appeles : prdicteurs .
Le principe gnral de la prdiction sera : si le ou les prdicteurs valent tant, alors la
variable cible vaut tant.
Les statisticiens et les data miners construisent des modles. Un modle est un rsum
global des relations entre variables permettant de comprendre des phnomnes
(description, jugement) et dmettre des prvisions (prdiction, raisonnement).
Dans labsolu, tous les modles sont faux. Un modle nest pas une loi scientifique.
Cependant, certains sont utiles.
Premire distinction : techniques descriptives et techniques prdictives
On distingue dabord entre deux grandes catgories de techniques : les techniques

descriptives et les techniques prdictives.
Les techniques descriptives (archtype : la classification)
Dcrire.
Rsumer, synthtiser, rduire, classer.
Mettre en vidence des informations prsentes mais caches par le volume des donnes.
Pas de variable cible prdire.
On les appelle aussi : technique non supervises.
Elles produisent des modles de classement : typologie, mta-typologie.
Les techniques prdictives (archtype : le scoring)
Prdire.
Extrapoler de nouvelles informations partir des informations prsentes.
Les techniques prdictives prsentent une variable cible prdire.
Lobjectif est de prvoir la variable cible mais aussi de classer partir de la variable cible.
On les appelle aussi : techniques supervises.
Elles sont plus dlicates mettre en uvre que les techniques descriptives.
Elles demandent plus dhistorique que les techniques descriptives.
Elles produisent des modles de prdiction.
Deuxime distinction : variable numrique et variable catgorielle
Cette distinction est essentielle en statistique et en data mining.

Les variables numriques permettent de faire des rsums, des synthses : moyenne,
minimum, maximum, cart type, etc.
Les variables catgorielles permettent de faire des regroupement par catgories, cest--dire
des classements.
Les 6 grands types de techniques du data mining
Le data mining permet daccomplir les six types danalyse suivants :
1 : Description - 2 : Classification - 3 : Association

4 : Estimation - 5 : Segmentation - 6 : Prvision.
Ces types danalyse se rpartissent dans les techniques descriptives et prdictives :
Techniques descriptives Techniques prdictives
Corrlation Corrlation Prsent Futur
simple complexe Variable cible Variable cible
numrique catgorielle
1 : Description 2 : Classification 4 : Estimation 5 : Segmentation 6 : Prvision
3 : Association
Problmes de vocabulaire et de traduction
Traduction
Anglais Franais
Clustering segmentation ou classification
Classification classification ou classement
Decision trees arbres de dcision ou segmentation
Le vocabulaire soulign est celui quon utilise dans ce cours.
Distinction entre classification et classement
Dans un classement, on sait lavance quelle classe lindividu appartient car on connat
lavance les classes. Le classement est un tri pour les variables numrique, un group by
SQL pour les variables catgorielles.
Dans une classification, on ne sait pas lavance quelle classe un individu appartient car on
ne connat pas lavance les classes. La classification se fait en fonction de la population
entire.
Exemple :
On peut classer les personnes par choix de loption internationale et de loption messagerie.
Ca dfinit a priori 4 classes. Cest un classement.
On peut prendre tous les attributs des clients et chercher des classes de clients en fonction de
tous ces attributs : a donnera un nouvel attribut avec ses valeurs possibles.
Classement Classification
Ne cre pas ncessairement de nouvel attribut Cre ncessairement un nouvel attribut
Les classes sont dfinies partir dun attribut Les classes sont dfinies partir dun grand
unique ou dun petit nombre dattributs. nombre dattributs
Une classe est connue partir dun individu Les classes sont connues partir de la
population
Les classes et leur nombre sont connus a Les classes et leur nombre sont connus a
priori. posteriori.
La classe dappartenance dun individu est La classe dappartenance dun individu est
dfinie par lindividu lui-mme. dfini par ses relations avec la population.
Classement Classification
Plutt prdictif. Les donnes des attributs de Plutt descriptif. Le classification cre un
classement sont utiliss pour prdire une attribut de classification qui est la variable
variable cible. cible de la classification elle-mme.
Exemple : superposition du churn en
fonction du choix de loption internationale.
Les techniques concrtes
Le data mining utlise des techniques concrtes qui peuvent tre limites un type de
technique spcifique ou tre tre partages par plusieurs types de techniques.
Exemple de mthodes descriptives : la classification hirarchique, la classification des K
moyennes, les rseaux de Kohonen, les rgles dassociation.
Exemples de mthodes prdictives : les mthodes de rgression, les arbres de dcision, les
rseaux de neurones, les K plus proches voisins.
Les six grands types de technique du data mining
1 : la description (technique descriptive)
Principe :
La description consiste mettre au jour
Pour une variable donne : la rpartition de ses valeurs (tri, histogramme, moyenne,
minimum, maximum, etc.).
Pour deux ou trois variables donnes : des liens entre les rpartitions des valeurs des
variables. Ces liens sappellent des tendances .
Intrt :
Favoriser la connaissance et la comprhension des donnes.
Mthode :
Mthodes graphiques pour la clart : analyse exploratoire des donnes.
Exemples :
Rpartition des votes par ge (lien entre les variables vote et ge ).
2 : la classification (technique descriptive)
Principe :
La classification (ou clustering ou segmentation) consiste crer des classes (cest--dire
des sous-ensembles) de donnes similaires entre elles et diffrentes des donnes dune autre
classe (autrement dit, lintersection des classes entre elles doit toujours tre vide).
Autrement dit, il sagit pour n variables de crer des sous-ensembles disjoints de donnes. On
dit aussi segmenter lensemble entier des donnes.
La classification dfinit les grands types de regroupement et de distinction : on parle de
mtatypologie (type de type).
Elle permet une vision gnrale de lensemble (de la clientle, par exemple).
Intrt :
Favoriser, grce la mtatypologie, la comprhension et la prdiction.
Fixer des segments qui serviront densemble de dpart pour des analyses approfondies.
Rduire les dimensions, cest--dire le nombre dattributs, quand il y en a trop au dpart.
Mthodes :
Classification hirarchique
Classification des K moyennes
Rseaux de Kohonen.
Rgles dassociation.
Exemples :
Mtatypologie dune clientle en fonction de lge, les revenus, le caractre urbain ou
rural, la taille des villes, etc.
Pour un audit comptable, classer un comportement financier en catgorie normale et
suspecte.
3 : lassociation (technique descriptive)
Principe :
Lassociation consiste trouver quelles valeurs des variables vont ensemble. Par exemple,
telle valeur dune variable va avec telle valeur dune autre variable.
Les rgles dassociation sont de la forme : si antcdent, alors consquence.
Lassociation ne fixe pas de variable cible. Toute les variables peuvent la fois tre
prdicteurs et variable cible.
On appelle aussi ce type danalyse une analyse daffinit .
Intrt :
Mieux connatre les comportements.
Mthodes :
Algorithme a priori.
Algorithme du GRI (induction de rgles gnralise).
Exemples :
Analyse du panier de la mnagre (si jachte des fraises, alors jachte des cerises).
tudier quelle configuration contractuelle dun abonn dune compagnie de tlphone
portable conduit plus facilement un changement doprateur.
4 : lestimation1 (technique prdictive)
Principe :
Lestimation consiste dfinir le lien entre un ensemble de prdicteurs et une variable cible.
Ce lien est dfini partir de donnes compltes , cest--dire dont les valeurs sont connues
tant pour les prdicteurs que pour la variable cible. Ensuite, on peut dduire une variable cible
inconnue de la connaissance des prdicteurs.
la diffrence de la segmentation (technique prdictive suivante) qui travaille sur une
variable cible catgorielle, lestimation travaille sur une variable cible numrique.
Intrt :
Permettre lestimation de valeurs inconnues.
Mthodes :
Analyse statistique classique : rgression linaire simple, corrlation, rgression multiple,
intervalle de confiance, estimation de points.
Rseaux de neurones
Exemples :
Estimer la pression sanguine partir de lge, le sexe, le poids et le niveau de sodium dans
le sang.
Estimer les rsultats dans les tudes suprieures en fonction de critres sociaux.
1
Reprise du 1er cours.
5 : la segmentation (technique prdictive)
Principe :
La segmentation est une estimation qui travaille sur une variable cible catgorielle.
On parle de segmentation car chaque valeur possible pour la variable cible va dfinir un
segment (ou type, ou classe, ou catgorie) de donnes.
La segmentation peut tre vue comme une classification supervise.
Intrt :
Mthodes :
Graphiques et nuages de points.
Mthode des k plus proches voisins.
Arbres de dcision.
Rseau de neurones.
Exemples :
Segmentation par tranche de revenus : lev, moyen et faible (3 segments). On cherche les
caractristiques qui conduisent ces segments.
Dterminer si un mode de remboursement prsente un bon ou un mauvais niveau de
risque crdit (deux segments).
6 : la prvision (technique prdictive)
Principe :
La prvision est similaire lestimation et la segmentation mise part que pour la prvision,
les rsultats portent sur le futur.
Intrt :
Mthodes :
Celles de lestimation ou de la segmentation.
Exemples :
Prvoir le prix daction trois mois dans le futur.
Prvoir le temps quil va faire.
Prvoir le gagnant du championnat de football, par rapport une comparaison des
rsultats des quipes.
Historique des techniques de statistique et de data mining
1875 Rgression linaire de Francis Galton.

1896 Formule du coefficient de corrlation de Karl Pearson2.
1900 Distribution du X de Karl Pearson.
1936 Analyse discriminante de Fischer et Mahalanobis
1941 Analyse factorielle des correspondances de Guttman
1943 Rseaux de neurones de Mac Culloch et Pitts
1944 Rgression logistique de Joseph Berkson
1958 Perceptron de Rosenblatt
1962 Analyse des correspondances de J.-P. Benzcri
1962 Rgression logistique de J. Cornfield
1964 Arbre de dcision AID de J.-P. Sonquist et J.-A. Morgan
1965 Mthode des centres mobiles de E. W. Forgy
1967 Mthode des k means (k moyennes) de Mac Queen
1971 Mthode des nues dynamiques de Diday
1972 Modle linaire gnralis de Nelder et Wedderburn
1975 Algorithme gntique de Holland
1977 Mthode de classement DISQUAL de Gilbert Saporta
1980 Arbre de dcision CHAID de KASS
1983 Rgression PLS de Herman et Svante Wold
1984 Arbre CART de Breichman, Friedman, Olshen, Stone
1986 Perceptron multicouches de Rumelhart et Mac Clelland
1989 Rseaux de T. Kohonen (cartes auto-adaptatives)
1990 Apparition du concept de Data Mining
1993 Arbre C4.5 de J. Ross Quinlan
1996 Bagging (Breiman) et boosting (Freund-Shapire)
1998 Support vector machine de Vladimir Vapnik
2001 Rgression logistique PLS de Tenenhaus
2
Karl Pearson, (1857-1936), mathmaticien et philosophe britannique qui a mis au point les principales
techniques statistiques modernes et les a appliques aux questions de lhrdit.
Fonctionnement gnral des mthodes de classification
Principe de la classification
Une classe est un ensemble dlments qui sont semblables entre eux et qui sont
dissemblables ceux dautres classes.
Classifier consistera maximiser les similarits des lments qui sont dans la mme classe et
minimiser les similarits de ces lments avec ceux des autres classes. Inversement, on peut
dire que classifier consiste minimiser la variation intra-classe et maximiser la variation
inter-classe.
Classification et techniques supervises
Quand on part dun volume de donnes trs important, on a intrt faire une classification
pralable pour rduire lespace de recherche des algorithmes superviss.
Comment mesurer la similarit ? Notion de distance entre les enregistrements
Cest le premier problme inhrent la classification.

La distance euclidienne entre deux enregistrements x et y est la suivante :
d(x,y)= i (xi-yi)
x = x1, x2 xn reprsentent les valeurs des variables de x . De mme pour y .
Il existe dautres calculs de distance.
Pour que les distances soient comparables dune variable une autre, on va utiliser la
technique des normalisations : normalisation min-max ou normalisation par le test Z
Normalisation min - max : x = ( x-min(x) ) / amplitude(x)
Normalisation test Z : x= ( x - moy(x) ) / cart type(x)
Comment mesurer les variables catgorielles ?
Cest le second problme inhrent la classification.

Quand on a une variable boolenne, a ne pose pas de difficult. Faux vaut 0 et vrai vaut 1.
Pour des variables numres, on considrera que Si xi = yi alors xi-yi = 0 sinon xi-yi = 1
(cest une sorte de gnralisation du cas prcdent).
Fonctionnement gnral des mthodes supervises
Rappels : variable cible et variables prdictives
Variable cible
La variable cible est la variable dont on cherche connatre la valeur.

On parle aussi de :variable expliquer, rponse, variable dpendante, variable endogne.
Cest la variable en sortie .
Variables explicatives
Les variables explicatives sont les variables utilises pour fabriquer le modle.
On parle aussi de variables prdictives ou de prdicteurs.
Ce sont les variables en entre .
Dfinition gnrale dun modle prdictif
Un modle prdictif est un ensemble de rgles de dcoupage et dassociation des variables

explicatives. En appliquant ces rgles nimporte quel nouvel individu de la population, on
pourra dterminer la valeur de lindividu pour la variable cible.
Les techniques prdictives sont nombreuses et leur domaine dapplication tout autant. Elles
servent aussi bien calculer lefficacit dun traitement mdical, prvoir le temps en
mtorologie, qu prvoir le rendement dune culture en agriculture.
Ces techniques ont un cadre thorique prcis quil faut connatre pour les appliquer
correctement.
Description intuitive dun modle prdictif
Le but est de connatre une information quon ne connat pas.

Par exemple, on veut savoir si un client va rembourser le prt quon lui fait.
Pour calculer cette information, on va sintresser aux clients qui ont dj eu des prts. Et on
va chercher une corrlation gnrale entre les donnes conomiques, sociales, gographiques
et comportementales (le comportement des comptes) et le fait que ces clients aient ou naient
pas rembours leurs prts. Cette corrlation, cest le modle prdictif. Une fois trouve, on
peut lappliquer au client qui demande un prt : cest ce quon appelle une mesure de score de
risque.
Distinction entre les mthodes supervises : classement et prdiction
Le classement : variable cible catgorielle
Encore appel discrimination , le classement est une technique prdictive dont la variable
cible est une variable catgorielle, le plus souvent boolenne.
Le classement permet de placer chaque individu dans une classe correspondant une
catgorie de la variable cible.
A noter que le classement est aussi le nom donn une technique de modlisation descriptive,
par opposition la classification. Il sagit bien du mme classement dans le sens o on
connat a priori les catgories de classement. Quand il soppose la classification, le
classement est descriptif, sans variable cible. Quand il soppose la prdiction, le classement
est prdictif, avec variable cible.
Lexemple type sera le classement prdictif par arbre de dcision.
La prdiction : variable cible continue
Encore appel rgression , la prdiction est une technique prdictive dont la variable cible
est une variable continue.
Lexemple type sera la prdiction par rgression linaire.
Exemple : le scoring
La banque est le principal utilisateur de mesure de score. Ces mesures utilisent les donnes
conomiques, sociales et gographiques du client, mais aussi les donnes sur le
fonctionnement de ses comptes.
Principaux types de scores utiliss dans la banque (tous binaires) :
Score dapptence ou de propension consommer. Pour savoir quel produit proposer
quel client.
Score de risque, de comportement risque. Pour accepter ou pas une demande de prt, de
dcouvert, de carte bancaire, etc.
Score doctroi. Cest la mme chose quun score de risque, mais pour un nouveau client,
donc sans historique du fonctionnement des comptes.
Score de recouvrement. Evalue le montant susceptible dtre rcupr sur un compte en
cas de contentieux.
Sore dattrition. Evalue la probabilit de quitter la banque.
Deux grands types de technique : inductive et transductive
Les techniques transductives
Elles ne prsentent quune seule phase.

Elles ne produisent pas de modle.
Cest pendant la classification des individus connus que se fait la prdiction des donnes
inconnues. Toute prdiction demande donc un accs la population complte (ou un
chantillon) et demande une grande puissance de calcul et peut donc tre assez longue.
Les techniques inductives
1 : Elles prsentent trois phases (parfois quatre) :

une phase dapprentissage qui permet dlaborer un modle. Cest la phase inductive.
une phase de test pour vrifier le modle obtenu (et ventuellement une phase de
validation en plus).
une phase de prdiction ou de classement qui consiste appliquer le modle de
nouvelles donnes. Cest la phase dductive.
Les phases dapprentissage, de test et de validation sont effectues sur des chantillons
distincts de la population.
2 : Elles produisent un modle.

Les techniques inductives sont plus rpandues car le modle produit permet un contrle
du modle (courbe de ROC et indice de Gini) et une application facilite : une prdiction
se fait partir du modle, sans retour la population ou un chantillon dorigine. Cest
rapide et demande peu de puissance de calcul.
Ce sont uniquement ces techniques quon va aborder dans ce cours.
Echantillons dapprentissage et de test
Les techniques inductives travaillent sur deux chantillons de la population :

Lchantillon dapprentissage
Lchantillon de test
Lchantillon dapprentissage est celui avec lequel le modle est construit.
Lchantillon de test est celui avec lequel le modle est test.
Ces chantillons doivent tre reprsentatifs pour que garantir la qualit du modle.
Concrtement, on prend une partie de la population de dpart (les x premiers, 1 sur n, tel
pourcentage alatoire), puis on vrifie que les principales caractristiques statistiques
(tendance centrale, dispersion, corrlations) sont maintenues.
Si des exemples manquent systmatiquement dans lensemble dapprentissage concernant une
catgorie particulire de donnes, la modlisation donnera de mauvais rsultats.
Qualits attendues dun modle supervis
Le taux derreur doit tre le plus bas possible (courbe de ROC et indice de Gini).
Il doit tre aussi peu sensible que possible aux fluctuations alatoires de lchantillon
dapprentissage.
Il doit se maintenir le plus possible avec lvolution dans le temps de la population. Cette
caractristique est fonction des domaines dapplication : un score peut durer deux ans
dans la banque et six mois en tlphonie mobile.
Les rgles doivent tre aussi simples et aussi peu nombreuses que possibles.
Elles doivent autant que possible tre accessibles et comprhensibles.
Taille de lchantillon dapprentissage
Le schma ci-dessous montre lvolution du taux derreur dans les chantillons

dapprentissage et de test en fonction de la taille de ces chantillons (les deux chantillons
aillant la mme taille).
Taux
derreur chantillon de test
taux
stable
chantillon dapprentissage
Taille de lchantillon
taille suffisante
Le principe est que le taux derreur dans lchantillon dapprentissage croit avec le nombre
dlments de lchantillon jusqu stabilisation. En effet, si on a deux points, on peut faire
une droite et le taux derreur est nul ; idem avec 3 points et une courbe ; avec 4 points et plus,
on va commencer avoir un taux derreur croissant.
Inversement, le taux derreur de lchantillon de test dcrot avec le nombre dlments de
lchantillon, jusqu stabilisation un peu au-dessus du taux derreur de la population
dapprentissage. En effet, si on a deux points dans lchantillon dapprentissage, les deux
points de lchantillon de test seront (probablement) trs loigns de la droite trouve dans
lchantillon. La progression du modle par augmentation de la taille de lchantillon
dapprentissage verra donc une diminution du taux derreur dans lchantillon de test.
Il y a donc une taille critique de lchantillon dapprentissage. Celle-ci dpend de la
complexit du problme trait.
Il est recommand de disposer de 300 500 individus dans chaque classe prdire.
Sur-apprentissage
On parle aussi de sur-ajustement (overfitting ou overtraining).

Un modle trop simple est tel le taux derreur sur les donnes dapprentissage est lev. De ce
fait, le taux derreur sur les donnes de test et dapplication sera aussi lev.
Un modle trop complexe est tel que le taux derreur sur les donnes dapprentissage est trs
faible. De ce fait aussi, le taux derreur sur les donnes de test et dapplication sera trs lev.
En effet, un modle trop complexe, tant particulirement bien adapt aux donnes
dapprentissage, se trouve tre inadapt pour les donnes de test et dapplication. En quelque
sorte, il ne prend pas son compte de taux derreur global des populations dapprentissage, de
test et dapplication, surchargeant du mme coup le taux des populations de test et
dapplication.
On parle de sur-apprentissage quand une liaison entre la variable cible et les variables
explicatives apparat dans les donnes dapprentissage alors quelle nexiste pas dans la
population entire.
Le sur-apprentissage peut survenir lorsque lune des variables cibles est mathmatiquement
corrle la variable cible.
Var. cible Var. cible
Var. explicatives Var. explicatives
Modle trop simple Modle trop complexe
Var. cible
Var. explicatives
Bon modle
Il sagit de trouver un compromis entre la fiabilit du modle sur lensemble dapprentissage

et la gnralisation du modle :
Taux derreur
Taux derreur sur lensemble de validation
Taux derreur min
Taux derreur sur lensemble dapprentissage
Sous-apprentissage Sur-apprentissage
Complexit optimale Complexit du modle
Le but est de trouver le juste milieu entre sous et sur apprentissage.

Cours de Data Mining 3-Modelisation-EPF

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Cours de Data Mining 3-Modelisation-EPF

Uploaded by

Copyright:

Available Formats

COURS DE DATA MINING

PROCESSUS du DATA MINING

Les techniques du data mining

Rappels de vocabulaire : concept, donne, variable, type, modle

On travaille sur des tableaux de donnes.

Premire distinction : techniques descriptives et techniques prdictives

On distingue dabord entre deux grandes catgories de techniques : les techniques

Les techniques descriptives (archtype : la classification)

Les techniques prdictives (archtype : le scoring)

Deuxime distinction : variable numrique et variable catgorielle

Cette distinction est essentielle en statistique et en data mining.

Les 6 grands types de techniques du data mining

Le data mining permet daccomplir les six types danalyse suivants :

1 : Description - 2 : Classification - 3 : Association

Ces types danalyse se rpartissent dans les techniques descriptives et prdictives :

Problmes de vocabulaire et de traduction

Distinction entre classification et classement

Les techniques concrtes

1 : la description (technique descriptive)

2 : la classification (technique descriptive)

3 : lassociation (technique descriptive)

4 : lestimation1 (technique prdictive)

6 : la prvision (technique prdictive)

1875 Rgression linaire de Francis Galton.

Classification et techniques supervises

Comment mesurer la similarit ? Notion de distance entre les enregistrements

Cest le premier problme inhrent la classification.

Comment mesurer les variables catgorielles ?

Cest le second problme inhrent la classification.

Rappels : variable cible et variables prdictives

La variable cible est la variable dont on cherche connatre la valeur.

Dfinition gnrale dun modle prdictif

Un modle prdictif est un ensemble de rgles de dcoupage et dassociation des variables

Description intuitive dun modle prdictif

Le but est de connatre une information quon ne connat pas.

Distinction entre les mthodes supervises : classement et prdiction

Le classement : variable cible catgorielle

La prdiction : variable cible continue

Deux grands types de technique : inductive et transductive

Les techniques transductives

Elles ne prsentent quune seule phase.

Les techniques inductives

1 : Elles prsentent trois phases (parfois quatre) :

2 : Elles produisent un modle.

Ce sont uniquement ces techniques quon va aborder dans ce cours.

Echantillons dapprentissage et de test

Les techniques inductives travaillent sur deux chantillons de la population :

Qualits attendues dun modle supervis

Le schma ci-dessous montre lvolution du taux derreur dans les chantillons

On parle aussi de sur-ajustement (overfitting ou overtraining).

Var. cible Var. cible

Var. explicatives Var. explicatives

Modle trop simple Modle trop complexe

Il sagit de trouver un compromis entre la fiabilit du modle sur lensemble dapprentissage

Taux derreur sur lensemble de validation

Taux derreur min

Taux derreur sur lensemble dapprentissage

Complexit optimale Complexit du modle

Le but est de trouver le juste milieu entre sous et sur apprentissage.

You might also like