Professional Documents
Culture Documents
4 3 2 1 0 1 2 3
4 3 2 1 0 1 2 3
4 3 2 1 0 1 2 3
Plan du cours
1 2 3 4 5 6 7 8
Introduction Principe et mthodes du Data Mining Mthodes descriptives Mthodes exploratoires Mthodes prdictives Evaluation des rsultats et des algorithmes Logiciels de Data Mining Data Mining et liberts
Plan du cours
1 2 3 4 5 6 7 8
Introduction Principe et mthodes du Data Mining Mthodes descriptives Mthodes exploratoires Mthodes prdictives Evaluation des rsultats et des algorithmes Logiciels de Data Mining Data Mining et liberts
Exemples dapplications
Analyse de comportements (des consommateurs), similarits de comportements (anecdote de Wal-Mart) cartes de dlit. Prdiction : prdire la rponse un mailing (pour en optimiser les cots), prdire lattrition des clients (banque, oprateur de tlphonie mobile, ...). Dtection : dtecter des comportements anormaux (NSA, CSE, ...), dtecter des comportements frauduleux (banques, assurances, nergie, ...). Suggestion: suggrer des produits similaires (vente en ligne), suggrer une tarication adapte (banques, compagnies dassurance, ...).
tlphonie mobile :
dliser les clients.
Pourquoi le Data Mining sest dvelopp ? interet conomique : du produit aux clients, technologie de linformation : faible cot de stockage de donnes, saisie automatique de transaction (code barre, clic, donnes de localisation GPS, internet), augmentation de la puissance de calcul des ordinateurs (loi de Moore). En rsum : extraire de la connaissance partir de grandes bases de donnes est devenu possible et (surtout) peu coteux !
Web Mining : mise en uvre de certaines mthodes de Data Mining aux enregistrements du comportement des utilisateurs sur le web, applications :
optimisation des sites web, adapter les pubs sur les sites en fonction de lutilisateur.
Plan du cours
1 2 3 4 5 6 7 8
Introduction Principe et mthodes du Data Mining Mthodes descriptives Mthodes exploratoires Mthodes prdictives Evaluation des rsultats et des algorithmes Logiciels de Data Mining Data Mining et liberts
On ne veut plus seulement savoir : Combien de clients ont achet tel produit pendant telle priode ? A quelle priode les clients achtent le plus tel produit ? Mais on veut savoir: Quel est leur prol ? Quels autres produits les intresseront ? Quand seront-ils intresss ?
Le Data Mining est : un processus qui contient plusieurs tapes faisant appel des techniques :
dexploration (visualisation), danalyse, dapprentissage.
Pour cela, le Data Miner a besoin davoir : des bases de Statistique, des bases dInformatique, et des bases danalyste dans le domaine de la socit.
2 3
5 6
rcuprer (ou crer) une base de donnes pour la mise au point de lapplication, prtraitement et nettoyage des donnes, analyse statistique des donnes (rduction de la dimension, projection, ...), identier le type de problme (discrimination, clustering, ...) et choisir un algorithme, valuer les performances de lalgorithme, ritrer les tapes prcdentes si necessaire.
Dployer lapplication grande chelle dans lentreprise. Le cours couvre les tapes 2 5.
Rcuprer (ou crer) la base de donnes : on souhaite le plus souvent exploiter des donnes existantes (tickets de caisse, log de serveur web, ...), mais parfois il faut crer des donnes spciques au problme. Prtraitement des donnes : recherche et traitement des valeurs manquantes, transformation des donnes, ventuellement, chantillonage de la base de donnes.
Analyse statistique des donnes : rsums numriques, distribution des donnes, dtection des valeurs extrmes et des valeurs aberrantes. Identier le type de problme : mthodes descriptives : clustering, ... mthodes prdictives : discrimination, rgression, ... Evaluer les performances de lalgorithme : valuation des rsultats sur un chantillon test, comparer les performances de direntes mthodes.
Les donnes quantitatives : numrique continue : x = (1.2, 2.5, 2.2, 10.3) numrique discrte : x = (1, 2, 2, 10) Les donnes qualitatives : numrique binaire : x = (0, 1, 1, 0) catgorielles : x = (rouge, vert, bleu, rouge) Les donnes structures : graphes, tableaux de similitudes.
d12 .. .
d13 .. .
d14
...
d1n
..
xnp
..
. dnn
Ltape de pr-traitement des donnes : est essentielle car les donnes arrivent rarement formates, peut prendre beaucoup de temps en fonction de la taille des donnes, nest pas triviale car cela peut beaucoup inuencer les rsultats ! Trois types de pr-traitement : le traitement des valeurs manquantes, le traitement des valeurs abbrantes, le traitement des valeurs extrmes.
Le problme : il surgit dans les enqutes contenant des entres facultatives, une variable peut ne contenir que 1% de valeurs manquantes, mais lchantillon peut avoir jusqu 10% dindividus ayant une valeur manquante ! Les solutions : ne pas utiliser la variable / lindividu concern, remplacer les valeurs manquantes par une valeur moyenne, ... traiter les valeurs manquantes comme une valeur part entire.
le but est de rduire, rsumer et synthtiser les donnes, il ny a pas de variable cible prdire. Les mthodes prdictives : elles expliquent les donnes par rapport une connaissance :
ge des individus, catgorie socio-professionnelle, niveau de formation.
elles permettront de prendre des dcisions lors de larrive de nouvelles donnes, il y a une variable cible prdire.
Objectifs des mthode dapprentissage non supervis : seules les observations X = {x1 , x2 , ..., xn } X p sont disponibles, lobjectif est de dcrire comment les donnes sont organises et den extraire des sous-ensemble homognes, par exemple, on cherche tudier le panier de la mnagre dans une certaine zone dmographique en fonction de certains critres sociaux :
x reprsente un individu au travers de ses caractristiques sociales et de ses habitudes lors des courses.
2
2 2
1
1 1
0
0 0
1
1 1
2
2 2
4 3
4 3
Observations X
Algorithme EM
Clustering nal
Exemples de mthodes : classication hierarchique, k -means, algorithme EM (Esprance - Maximisation) Exemples dapplications : identication de segments de marchs, identication de comportements similaires, identication de documents similaires,
on cherche estimer les dpendances entre les ensembles X et Y . par exemple, on cherche estimer les liens entre les habitudes alimentaires et le risque dinfarctus :
xi est un patient dcrit par p caractristiques concernant son rgime, yi est une catgorie ( risque ou pas risque).
1
1
0
0
1
1
2
2
3
3
4
4 4 3 2 1 0 1 2 3 4
4 3 2 1 0 1 2 3 3 2 1 0 1 2 3
Observations X et Y
Mthode LDA
Nouvelles dones
mthodes discriminatives :
SVM, rgression logistique, arbres de dcision.
Partie 1 - Vue densemble du Data Mining : analyse exploratoire des donnes, mthodes de clustering (CAH, k -means et EM), mthodes prdictives (AD, rgression), valuation des rsultats, slection dalgorithmes. Partie 2 - technique spcique dAnalyse de donnes : techniques exploratoires (ACP, AC simple et multiple), technique danalyse discriminante.
Plan du cours
1 2 3 4 5 6 7 8
Introduction Principe et mthodes du Data Mining Mthodes descriptives Mthodes exploratoires Mthodes prdictives Evaluation des rsultats et des algorithmes Logiciels de Data Mining Data Mining et liberts
Rsum statistique : rsum numrique : moyenne, mdiane, variance (ou cart-type), frquence, min, max, ... camembert, histogramme, bote moustaches (boxplot), tests de normalit, ... Visualisation : plot 2D ou 3D, graphique matriciel, plot avec information de classe.
Les donnes
La plupart du temps : les donnes sont formes de n individus reprsentes sur p variables numriques, quand n et p sont grands, linformation contenue dans les donnes nest pas accessible directement. Il faut donc : synthtiser linformation contenue dans les donnes, grce des tableaux, graphiques et rsums numriques, cest la statistique descriptive.
Description unidimensionnelle
Les tableaux statistiques : eectif, frquence ou pourcentage, eectif, frquence ou pourcentage cumuls. Les reprsentations graphiques : le diagramme en btons ou un camembert pour les variables discrtes, lhistogramme pour les variables continues, lestimation de densit par la mthode des noyaux.
dcouper lintervalle [min, max] en tranches disjointes dessiner un rectangle daire proportionnelle au nombre dindividus prenant leur valeur dans la tranche.
K(
i=1
x xi ), h
ce qui est un histogramme fentre glissante si K = 1[1/2,1/2] , ce qui est encore une meilleure approximation si K (x) = 1 exp(x2 /2). 2
la moyenne arithmtique x =
1 n
n i=1 xi
indicateur sensible aux valeurs extrmes, mais qui a de bonnes proprits algbriques, et qui est universellement utilis !
le mode :
valeur la plus frquente pour un chantillon discret, tranche correspondant au pic de lhistogramme pour une variable continue, permet de dtecter la prsence de plusieurs groupes dans un chantillon.
( xi x )2 ,
i=1
lcart-type s est la racine carre de la variance, s lavantage de sexprimer dans la mme unit que la variable tudie.
lintervale interquartile :
Q1 est tel que 25% de lchantillon est en dessous, Q2 est tel que 50% de lchantillon est en dessous, Q3 est tel que 75% de lchantillon est en dessous, |Q3 Q1 | est parfois utilis pour reprsenter la dispersion.
les valeurs extrieures, reprsentes par des , sont celles qui sortent des moustaches. Le box-plot permet : dobserver la distribution des donnes, de reprer les valeurs extrmes, de comparer plusieurs distributions.
Le QQ-plot
Description multidimensionnelle
Matrice de covariance :
s2 1 . . . sp1
s12 s2 2 .. .
s1p
s2 p
o sk =
1 n
n k i=1 xi xi
x k i . ix
Matrice de corrlation :
1 . . . rp1
r12 1 .. .
r1p
o rk =
skl sk s
Description multidimensionnelle
Au-del de la dimension 3 : il est videmment trs dicile de visualiser les donnes, sans perdre dinformation danger de la projection, Le graphique matriciel : matrice symtrique de plot 2D Var. 1 P12 P13 P21 Var. 2 P23 P31 P32 Var. 3
qui permet de visualiser lensemble des interactions entre dimensions, mais qui reste dicile interprter (surtout quand p est grand).
Sepal.Length
Sepal.Width
Petal.Length
Petal.Width
4.5
5.5
6.5
7.5
4.5
5.5
6.5
Introduction la visualisation
prilleuse :
les donnes sont souvent de grande dimension, do une perte dinformation lors de la projection (ACP), dicult de conjecturer ce qui se passe dans les espace de grande dimension.
Introduction la visualisation
Mthode dextraction de caractristiques : crer d nouvelles variables partir de p variables originelles, ACP, analyse de correspondances simples et multiples. Mthode de slection de caractristiques : slectionner d variables parmi les p variables originelles, sur la base dun critre de pertinence des variables.
0.8
0.6
0.4
0.2
10
12
0.2
14
0.4
16
0.6
18 12
0.8 1.5
0.5
0.5
Plan du cours
1 2 3 4 5 6 7 8
Introduction Principe et mthodes du Data Mining Mthodes descriptives Mthodes exploratoires Mthodes prdictives Evaluation des rsultats et des algorithmes Logiciels de Data Mining Data Mining et liberts
classes hirarchiques :
une classe peut en contenir une autre, li aux mthodes hirarchique.
classes empitantes :
analyse probabiliste dicilement interprtable.
Complexit du problme
On pourrait penser quil sut : dexplorer toutes les combinaisons possibles de partition et de choisir la partition optimale au sens dun critre. Oui, mais ! Cette tche est insurmontable : un ordinateur traitant 1 million doprations / sec mettra 126 000 annes pour partitionner un ensemble 25 lments ! En eet, le nombre de partitions Bn , dit nombre de Bell, vaut : Bn = 1 e kn , k!
Applications du clustering
Marketing : dcouper la clientle en segments dots chacun dune ore et dune communication spcique rpartir lensemble des magasins dune enseigne en tablissements homognes du point de vue :
du type de clientle, du CA global ou par rayon (selon type darticle), de la taille du magasin
Mdical : dterminer des groupes de patients susceptibles dtre soumis des protocoles thrapeutiques dtermins, chaque groupe regroupant tous les patients ragissant identiquement Sociologie : dcouper la population en groupes homognes du point de vue sociodmographique, style de vie, opinions ou attentes.
Applications du clustering
Il faut tout dabord : choisir une distance entre individus (distance euclidienne, ...), standardiser les variables si elles ne sont pas toutes mesures dans la mme unit, isoler les outliers (individus hors-norme). Quand on a des variables qualitatives : se ramener une classication de variables continues, en utilisant une ACM, ...
Nous allons tudier les 3 principales mthodes : le clustering hirarchique, la mthode des k -means, lalgorithme EM.
Notion dinertie
Inertie (ou variance) dun nuage dindividus : inertie totale S : S= inertie intraclasse W : W = inertie interclasse B : B= Thorme de Huygens : S = W + B. 1 K nk ( xk x )2 , n k=1 1 K (xi x k )2 , n k=1 x C
i k
1 n
(xi x )2 ,
i=1
Notion dinertie
Qualit dune classication : une classe est homogne son inertie est faible. Deux critres de bonne classication : grande inertie interclasse B (les groupes sont loigns), ou petite inertie intraclasse W (les classes sont homognes). Remarque : ces deux critres sont quivalents puisque, daprs la formule de Huygens, on a : S =W +B
Le clustering hirarchique
Deux principaux types de mthodes : clustering ascendant hirarchique (CAH) :
construit un arbre de classication (dendogramme), montrant la succession des regroupements, depuis les n individus jusquau groupe total.
Remarques : la CAH est une mthode de rfrence, trs utilise et ecace, la CDH nest que trs peu utilis en pratique car peu ecace.
les classes initiales sont les observations, on calcule les distances entre les classes, les 2 classes les plus proches sont fusionnes et remplaces par une seule, on reprend en (2) jusqu navoir plus quune seule classe qui contient toutes les observations.
Rsultats : sous forme dun arbre appel dendrogramme, le niveau o lon coupe larbre dtermine le nb de classes, la hauteur dune branche est proportionnelle la perte dinertie interclasse (R semi-partiel).
Elment cl de lalgorithme : la distance entre 2 classes, qui peut tre dnie de direntes manires. Les direntes stratgies dagrgation : le lien minimum, le lien maximum, la distance moyenne, la distance entre les barycentres, le critre de Ward.
produit des classes de variance gale, intermdiaire entre les deux critres prcdents, appele aussi saut moyen ou average linkage. La distance entre les barycentres : dnie par : d(A, B ) = d( xA , x B ), simple calculer mais moins prcis, appele aussi mthode des centrodes.
Dans tous les cas : visualiser le rsultat de la classication, pour dceler dventuelles anomalies de classication, ou un nombre de groupes inadapt (trop ou pas assez). La CAH en rsum : sadapte direntes formes de classes (par la distance), possde des indicateurs de qualit de la classication, facilit dinterprtation de la classication (dendrogramme), mais, complexit algorithmique trs grande (O(n2 ), O(n2 log(n), ...))
Q1 : eectuez la CAH suivant le critre dagrgation du saut minimum. Q2 : eectuez la CAH suivant le critre dagrgation du saut maximum. Q1 : eectuez la CAH suivant le critre dagrgation du saut moyen.
on calcule les distances entre chaque individu et les k centres, on aecte chaque individu au centre le plus proche, on recalcule les nouveaux centres gi . qand les groupes sont stables, quand la variance intraclasse cesse de dcrotre, quand le nombe max. ditrations est atteint.
Arrt :
1 2 3
Avantage des k -means : rapidit (complexit en n) et simplicit algorithmique, trs utilis et souvent prsent dans les logiciels danalyse des donnes. Dsavantage des k -means : ncessite de connatre le nombre k de groupes, dpendance aux centres initiaux, ne dtecte bien que les formes convexes.
Q1 : eectuez le clustering en utilisant les points x2 et x5 comme centres initiaux. Q2 : eectuez le clustering en utilisant les points x4 et x5 comme centres initiaux. Q3 : eectuez le clustering en utilisant les points x1 et x2 comme centres initiaux.
0.5
0.025
0.02
0.4
f(x)
0.3
0.2
0.1
0 10 0 5 0 5 10 10 5 5
10
0 2
Le modle de mlange : ayant un chantillon de n individus {x1 , ..., xn }Rp , et supposant que la population est forme de k groupes de densit f (x; i ) et de proportion i , i = 1, ..., k , les n individus sont alors considres comme des ralisations indpendantes dun vecteur alatoire X Rp de densit :
k
f (x) =
i=1
i f (x; i ).
1 1 ( x i ) 2 exp{ }, 2 2 i 2i
0 , ..., 0 } Initialisation : choix dune solution initiale { 1 k caractrisant les k groupes, Boucle :
1
Etape E : on calcule la probabilit a posteriori des points dappartenir aux groupes tq ij = P (xj Gi |x, i ) = i f (xj ; i ) , f ( xj )
0 , ..., 0 } Initialisation : choix dune solution initiale { 1 k caractrisant les k groupes, Boucle :
1
Etape E : on calcule la probabilit a posteriori des points dappartenir aux groupes tq ij = P (xj Gi |x, i ) = i f (xj ; i ) , f ( xj )
Etape C : on aecte chaque point la classe la plus proche en utilisant les tq i. q , ..., q } des nouvelles Etape M : on estime les paramtres { 1 k classes.
Etape 1
Etape 6
Etape 11
Etape 16
Etape 21
Etape nale
18
16
14
L()
12
10
10
15
20
25
Iteration
Evolution de la vraisemblance
3.2
3.4
BIC value
3.6
3.8
4.2
6 Nb of groups
10
Les limites de lalgorithme EM : pas forcment implant par dfaut dans tous les logiciels, ncessite dutiliser des variantes pour les donnes de grande dimension.
Plan du cours
1 2 3 4 5 6 7 8
Introduction Principe et mthodes du Data Mining Mthodes descriptives Mthodes exploratoires Mthodes prdictives Evaluation des rsultats et des algorithmes Logiciels de Data Mining Data Mining et liberts
La procdure gnrale des mthodes prdictives comporte 3 tapes qui sont : lapprentissage, la validation, la prdiction. Les mthodes de discrimination et de rgression utilisent cette mme procdure.
Les qualits attendues des mthodes prdictives : la prcision : le taux derreur doit tre le plus bas possible, la robustesse : la mthode ne doit pas tre trop sensible des uctuations sur lchantillon et doit bien se gnraliser dautres donnes, la parcimonie : le modle ne doit pas tre plus compliqu quil ne faut, des rsultats explicites : les rsultats doivent tre interprtables par lutilisateur.
Lanalyse discriminante
Lanalyse discriminante (AD) : galement appele classication supervise, est une technique qui vise prdire une variable cible discrte ou catgorielle. Le principe : lAD utilise un jeu dapprentissage pour apprendre le classieur, qui pourra tre ensuite utilis pour classer de nouveaux individus, un jeu de validation est souvent utilis pour vrier la validit du classieur.
Lanalyse discriminante
Il existe deux types de mthodes danalyse discriminante : les mthodes gnratives : la phase dapprentissage permet dlaborer un modle qui rsume les caractristiques des groupes, la rgle de dcision du classieur sera ensuite dduite du modle avant dtre applique de nouvelles donnes. les mthodes discriminatives : la phase dapprentissage labore directement la rgle de dcision du classieur, qui sera ensuite applique de nouvelles donnes.
Les mthodes gnratives : lanalyse discriminante quadratique (QDA), lanalyse discriminante linaire (LDA), lanalyse discriminante de Fisher (FDA). Les mthodes discriminatives : les k plus proches voisins, les arbres de dcision, la rgression logistique, les Support Vector Machines (SVM).
Les Support Vector Machines : appels galement machines vecteurs supports, ou encore sparateur vaste marge, mthodes rcentes (1996) dues V. Vapnik. Lide des SVM : projeter les donnes dans un espace de trs grande dimension, an de pouvoir les sparer linairement dans cet espace, alors que cela ntait pas possible dans lespace initial.
la recherche du sparateur :
dans lespace darrive, on cherche un sparateur linaire (hyperplan), qui spare au mieux les groupes, et qui soit le plus loign possible de toutes les observations.
Q1 : reprsentez les donnes dans R et vriez quil nexiste pas un sparateur linaire. Q2 : cherchez une transformation non linaire telle quil soit possible de sparer linairement les 2 groupes dans lespace darrive.
x^2[,2] 1 0 3 2 1 0 x[,1] 1 2 3 0 0 5
x[,2]
10
15
4 x^2[,1]
Lastuce noyau
Les SVM reposent en partie sur : une astuce de calcul appele kernel trick qui permet de travailler dans lespace darrive, mais en faisant les calculs dans lespace de dpart ! Lastuce noyau : est de dire que le produit scalaire de deux points de lespace darrive peut sexprimer sous la forme : < (x1 ), (x2 ) >= K (x1 , x2 ), x1 , x2 X .
(u) (v ) Exercice :
La recherche du sparateur
Le problme : tant donn un jeu de donnes {(x1 , y1 ), ..., (xn , yn )} o :
les observations xi Rp , et les labels associs yi {1, 1}.
La solution : crire ce problme en utilisant lastuce noyau, utilis des algorithmes doptimisation.
Les Support Vector Machines : sont des classieurs performants, qui sont en particulier robustes (qualit de gnralisation) qui apparaissent petit petit dans les logiciels de Data Mining. Cependant : les rgles de dcision fournies sont dicilement interprtables, le cot algorithmique des SVM est important, et le choix du bon noyau nest pas trivial.
La rgression linaire
La rgression linaire : est une technique qui vise prdire une variable continue Y sur la connaissance de la variable continue X , pour apprendre le rgresseur, on dispose dun chantillon dapprentissage {(x1 , y1 ), ..., (x2 , y2 )}. Exemples : X peut reprsenter le temps et Y une grandeur mesure direntes dates, X peut reprsenter la taille dun individu et Y sont poids, ...
N (0, 2 ),
La rgression linaire simple : se gnralise au cas de plusieurs variables explicatives, on recherche alors lhyperplan de Rp approchant au mieux les donnes, cette mthode sappelle la rgression linaire multiple. La rgression linaire multiple : le modle est alors : Y = 0 + 1 X1 + ... + p Xp + , en ajoutant une hypothse importante : lindpendance des varaibles Xi .
La rgression linaire
Lexistence de la composante stochastique
i
correspond au fait que des individus avec mme valeur xi peuvent avoir des rponses Y direntes (variation synchronique) ou quun mme individu mesur plusieurs reprises avec la mme valeur xi peut avoir des rponses Y direntes (variation diachronique) Remarques : on a quivalence entre les relations Y |X = xi N ( + x, 2 ),
i
N (0, 2 ) et
lhypothse de normalit classe la rgression linaire dans la famille des modles linaires gnraux dans le modle linaire gnralis, la loi de Y |X = xi nest plus ncessairement normale.
La rgression linaire
Mise en uvre de la mthode : Aprs avoir postul lexistence dune relation E (Y ) = + X , de et en utilisant on recherche des estimateurs et lchantillon dapprentissage. Que signie la variance des estimateurs ? On natteint jamais les vritables coecients et car :
le modle linaire nest le plus souvent quune approximation de la ralit, on ne travaille que sur des chantillons et non sur la population entire, on commet des erreurs de mesure.
Des modles sur des chantillons dirents donneront des estimateurs a et b dirents . do une variance des estimateurs et
= (yi y i )2 ,
x )(yi y ) , 2 ) i (xi x
Remarques : une estimation des paramtres sur un autre chantillon, donnerait des estimateurs lgrement dirents Cependant : on montre que la mthode de moindres carrs est optimale, car elle fournit des estimateurs sans biais : ) = E ( ) = , E ( et de variance minimale.
Dans certains cas, la variance des estimateurs est grande : lchantillon est de petite taille (peu dobservations), ltendue des valeurs observes X est limite, lerreur de mesure est importante. Les moyens pour diminuer (encore) la variance des estimateurs : augmenter la taille du jeu dapprentissage, augmenter ltendue des valeurs observes X , utiliser une mthode de rgularisation de type ridge (biais).
Il est bien sr important de vrier la qualit dajustement du modle aux donnes : un R2 proche de 1 indique un bon ajustement : R2 = SCR = SCT y )2 , )2 i (yi y yi i (
mais il est souvent trop optimiste (surtout si n est grand), alors on utilise le R2 ajust :
2 Rajust e =1
(1 R2 )(n 1) . np1
La rgression linaire : se base sur des hypothses qui doivent savrer pas trop fausses si on veut que les rsultats de la rgression aient du sens. Les moyens de validation : des outils graphiques :
normalit des rsidus QQ-plot, galit des variances.
La rgression linaire
Exercice : nous disposons des donnes suivantes (m /prix en k dappartements):
X = {28, 50, 196, 110, 90, 35, 65, 100, 70, 52}, Y = {130, 280, 800, 500, 378, 250, 300, 495, 325, 245}.
Q1 : utilisez la mthode des moindres carrs pour estimer les paramtres de rgression linaire. Q2 : analysez la qualit dajustement. Q3 : vrier la validit des hyopthses. Q4 : une personne envisage dacheter un appartement de 35m au prix de 235 k. Est-ce une bonne aaire ? Q5 : auriez-vous des outils pour donner une fourchette de prix acceptables pour cette surface ?
Les donnes utilises en Data Mining : sont le plus souvent de grande dimension, et les variables explicatives peuvent tre fortement corrles, Cela a pour consquences : des coecients de rgression trs sensibles aux uctuations mme faibles des donnes, des carts-types levs pour les coecients de rgression, une dgradation de la prcision des prvisions. Moyen de dtection : conditionnement de la matrice de corrlation.
La rgression PLS
Algorithme de la rgression PLS : on cherche une combinaison T1 des Xi : T1 =
i
1i Xi ,
qui maximise la variance de T1 et la corrlation entre T1 et Y , la solution est : 1i = cov (Y, Xi ), on a donc la relation : T1 =
i
La rgression PLS
Algorithme (suite) : la rgression de Y sur T1 donne un rsidu Y1 : Y = c1 T1 + Y1 , la rgression des Xi sur T1 donne aussi des rsidusX1i : Xi = c1i T1 + X1i , on ritre en remplaant Y par Y1 et les Xi par les X1i , et ce jusqu lobtention dun nombre de composantes donnant un rgresseur satisfaisant.
La rgression PLS
La slection des composantes : le plus souvent par validation croise, permet de choisir assez de composantes pour expliquer correctement Y par rapport aux Xi , tout en vitant le sur-apprentissage. En pratique : le nombre de composantes dpasse rarement 3 ou 4, la rgression PLS sur d composantes est toujours plus prdictives que la rgression sur d composantes principales.
La rgression logistique
La rgression logistique : est une technique de discrimination base sur un modle de rgression, qui est napparue en pratique que rcemment dans le Data Mining, dont une extension value D. McFadden le prix Nobel dconomie en 2000. Le principe : une variable cible binaire Y {0, 1}, p variables explicatives continues Xi binaires ou qualitatives :
p = 1 rgression logistique simple, p 2 rgression logistique multiple.
La rgression logistique
Problme de rgression : modliser lesprance conditionnelle E (Y /X = x) : E (Y /X = x) = P (Y = 1/X = x), sous la forme suivante : E (Y /X = x) = 0 + 1 X1 + 1 X2 + ... + p Xp . Dicult : les Xi sont continues (termes non borns), alors que la variable cible Y {0, 1} ! il faut donc la transformer ! en rgression linaire, E (Y /X = x) nest pas borne.
La rgression logistique
La rgression logistique
Exemple : Age et Coronary Heart Disease (CHD)
La rgression logistique
Possibilit de transformation : regrouper en groupes les ages Xi , et calculer pour chaque groupe la frquence de Y = 1.
La rgression logistique
La forme de cette courbe : appele courbe logistique, on peut crire : P (Y = 1|X = x) = exp (0 + 1 X1 + ... + p Xp ) , 1 + exp (0 + 1 X1 + ... + p Xp )
p , 1)
est une fonction de lien. il existe dautres fonctions de lien : probit, log-log, ...
La rgression logistique
La rgression logistique
Estimation des paramtres : par maximisation de la vraisemblance du modle, ncessite lutilisation dune mthode itrative doptimisation (Newton-Raphson), Avantages : traite dirents types de variables explicatives (discrtes, qualitatives et continues), hypothse du modles peu contraignantes, modlise directement une probabilit. Dsavantages : suppose la non colinarit des variables, approximation numrique, sensible aux outliers.
Exercice : on dispose des donnes suivantes (score dune population) : X = {8, 10, 15, 13, 16, 4, 9, 12}, et lon souhaite estimer le score moyen de la population . Q1 : calculez le score moyen de lchantillon x . Q2 : construisez n chantillons jacknife et calculer les moyennes x i associes. Q3 : faites lanalyse statistique des x i ainsi obtenues (moyenne, variance, histogramme, ...).
des prdicteurs de type dirents sont appris sur lchantillon entier, on combine les dirents prdicteurs par vote, moyennage ou pondration, cela permet gnralement de combiner les qalits des direntes mthodes.
Plan du cours
1 2 3 4 5 6 7 8
Introduction Principe et mthodes du Data Mining Mthodes descriptives Mthodes exploratoires Mthodes prdictives Evaluation des rsultats et des algorithmes Logiciels de Data Mining Data Mining et liberts
Les mthodes prdictives peuvent : donner de faux rsultats (donnes non ables), mal se gnraliser dans lespace (autre chantillon) ou le temps (chantillon postrieur), tre victime du sur-apprentissage, tre peu comprhensibles par les utilisateurs. Les pricipaux outils de comparaison : le taux derreur de classement et la matrice de confusion, les courbes ROC (Receiver Operating Characteristic) et de lift, lindices associs aux courbes ROC et de lift.
Les indicateurs numriques : taux derreur, matrice de confusion, aire sous la courbe ROC ou de lift. Les outils graphiques : dessin des rgles de dcision, la courbe ROC, la courbe de lift
Le sur-apprentissage
Le phnomne du sur-apprentissage : est d au fait dutiliser un modle trop complexe, qui modlise parfaitement les donnes dapprentissage, mais les donnes dapprentissage ne sont quun chantillon dune population plus grande, et donc ne reprsentent pas parfaitement la population. Il faut donc : trouver un compromis entre la complexit du modle, et son pouvoir de gnralisation.
Le sur-apprentissage
Le phnomne du sur-apprentissage
Le dilemme biais-variance
Dun point de vue statistique : le phnomne du sur-apprentissage est li au dilemme biais-variance puisque, un modle trs simple prsente le plus souvent du biais mais peu de variabilit, un modle trs complexe est souvent sans biais mais prsente beaucoup de de variabilit. Il faut donc choisir entre : peu de biais modle complexe, peu de variance modle simple.
Le dilemme biais-variance
Le phnomne du sur-apprentissage
La taille de lchantillon dapprentissage : joue galement un rle important dans ltape dapprentissage, puisquun petit chantillon (n < 102 ) reprsentera beaucoup moins bien la population, quun chantillon de taille plus consquente (n > 106 ). Cela inue videmment sur : la qualit de prdiction, la qualit de gnralisation.
Les solutions
Cas du sur-apprentissage : diviser en jeu dapprentissage et de validation (simple), utiliser la validation croise (leave-one leave-out, ...), comparer les modles / les mthodes. Cas du petit chantillon dapprentissage : il faut augmenter articiellement la taille du jeu dapprentissage, grce aux techniques de rchantillonage (bootstrap, jacknife, ...).
La validation croise
La validation croise : technique destimation du taux derreur par rchantillonage, se base sur les mthodes du bootstrap, du jacknife, ... le paramtre estimer est le taux derreur ! Processus gnral : on cre b chantillons apprentissage / validation, on apprend le prdicteur sur les b chantillons dapprentissage, et on calcule le taux derreur sur les b chantillons de validation associs, on obtient ainsi une estimation able du taux derreur.
La validation croise
Le leave one leave out : est la limite suprieure de la validation croise, car lchantillon de validation est rduit un seul point ! La mthode : pour i = 1, ..., n
apprendre le prdicteur sur X priv de xi , puis classer xi avec ce prdicteur, calculer lerreur ei {0, 1}.
Quand on dispose de plusieurs mthodes de discrimination : il est intressant de savoir laquelle est la meilleure, mais, certaines ont des qualits spciques :
sensibilit, spcicit,
qui peuvent tre intressantes dans certaines applications. Les outils : les courbes ROC les courbes de lift, les indicateurs associs.
Sensibilit et spcicit
Considrons le cas de deux classes : la classe des positifs (P), la classe des ngatifs (N), un classieur muni dun seuil de classication s. Sensibilit et spcicit : la sensibilit (s) est la probabilit de bien dtecter un positif, la spcicit (s) est la probabilit de bien dtecter un ngatif. Pour un classieur : on cherche s qui maximise (s) et qui minimise 1 (s), le meilleur modle est celui qui fait le plus de vrais positifs avec le moins de faux positifs.
il sagit du taux de vrais positifs, sur laxe des X : 1 - la spcicit 1 (s) = il sagit du taux de faux positifs. #F P , N
il sagit du taux de vrais positifs, sur laxe des X : le pourcentage dindividus en dessous du seuil.
Une mesure globale : laire sous la courbe (AUC) cette mesure prsente lintrt de rsumer linformation, permet de comparer deux mthodes entre elles, possde des proprits thoriques intressantes. Cependant : lAUC nest pas aussi indicatrice quune tude prcise de la courbe, doit tre utilis avec prudence !
Q1 : construisez la courbe ROC associe. Q2 : calculez laire sous la courbe ROC ainsi construite.
Plan du cours
1 2 3 4 5 6 7 8
Introduction Principe et mthodes du Data Mining Mthodes descriptives Mthodes exploratoires Mthodes prdictives Evaluation des rsultats et des algorithmes Logiciels de Data Mining Data Mining et liberts
Fonctions de prparation des donnes : manipulation de chiers (fusion, agrgation, transposition. . . ), visualisation des individus, coloriage selon critre, dtection, ltrage et winsorisation des extrmes, analyse et imputation des valeurs manquantes, transformation de variables (recodage, standardisation, normalisation automatique, discrtisation. . . ), cration de nouvelles variables (fonctions logiques, chanes, statistiques, mathmatiques. . . ), slection des discrtisations, des interactions et des variables les plus explicatives.
visualisation des rsultats, manipulation des tableaux, bibliothque de graphiques (2D, 3D, interactifs. . . ), navigation dans les arbres de dcision, achage des courbes de performances (ROC, lift, gain. . . ), indice de Gini, aire sous la courbe ROC, facilit dincorporation de ces lments dans un rapport. variables dnies identiquement pour tous les chiers du projet (identiant, cible, exclusions. . . ), dnition de groupes de variables.
Plan du cours
1 2 3 4 5 6 7 8
Introduction Principe et mthodes du Data Mining Mthodes descriptives Mthodes exploratoires Mthodes prdictives Evaluation des rsultats et des algorithmes Logiciels de Data Mining Data Mining et liberts
Donnes illgales ?
Ne doivent tre, sauf cas particulier, ni traites ni mme collectes, les informations sur : les origines raciales, les opinions politiques, philosophiques ou religieuses, les appartenances syndicales, les murs, la sant, les condamnations pnales, NIR : n dinscription au rpertoire national didentication des personnes physiques.
Les personnes physiques ont le droit que les informations nominatives les concernant soient : lgalement utilisables, loyalement collectes, stockes en scurit, communiques aux seuls tiers autoriss, recties si besoin est, enregistres pour des nalits dtermines et lgitimes par rapport auxquelles elles sont pertinentes et non excessives, eaces au bout dun certain dlai (correspondant la nalit du traitement dclar).
De faon gnrale, les personnes physiques : doivent avoir connaissance des destinataires des informations nominatives quelles fournissent, de leur droit daccs et de rectication, et, le cas chant, de la possibilit de ne pas rpondre aux questions facultatives (droit dinformation), doivent avoir connaissance de la cessibilit dinformations nominatives les concernant avec une nalit identique celle dorigine, doivent avoir connaissance de la cessibilit dinformations nominatives les concernant avec une nalit dirente de celle dorigine (prospection commerciale par exemple) et doivent les accepter expressment.
De faon gnrale, les personnes physiques : peuvent avoir connaissance ( leur demande) des informations nominatives mmorises les concernant, de lexistence et de la nalit dun traitement informatique les concernant (articles 22 et 34) (droit daccs), peuvent sopposer, pour des raisons lgitimes, un traitement informatique dinformations nominatives les concernant (article 26) (droit dopposition), ne peuvent pas exiger davoir connaissance du dtail du traitement, moins (article 3) que ces traitements fondent une dcision quelles contestent.
La loi 2004-801
Abolit la distinction entre secteurs public et priv : hormis les traitements publics lis la scurit, le secteur public nest plus le seul devoir requrir lautorisation pralable de la CNIL dans certains cas. Instaure une distinction entre traitements sensibles ou non : traitements sensibles : demande dautorisation pralable, autres traitements : dclaration simple certains cas : exonration de dclaration (paie du personnel, ...). Un traitement peut tre dit sensible en raison de : la nature des donnes (NIR, donnes biomtriques, gntiques, sensibles, relatives aux condamnations...), lampleur des traitements (totalit de la population franaise), la nalit des traitements (scoring, exclusion du bnce dun droit, listes noires , interconnexion de chiers...).
La loi 2004-801
Cre les correspondants la protection des donnes (CPO) dans les entreprises (article 22): chargs de tenir le registre des traitements mis en uvre et dassurer le respect des obligations lgales, non obligatoires pour lentreprise, dispensent lentreprise des dclarations mais non des autorisations pralables de traitements sensibles, nomms par lentreprise sans accrditation de la CNIL, pourront tre choisis au sein ou lextrieur de lentreprise, devront jouir dune certaine indpendance dans lentreprise.
Pouvoirs de la CNIL
Avec la loi 2004-801, la CNIL dispose des droits suivants : accder tout local professionnel servant lexploitation dun chier, rendre publics ses avertissements, iniger des amendes jusqu 150 000 (300 000 en cas de rcidive), au lieu de se limiter dnoncer les infractions au Parquet, retirer une autorisation dj donne, interdire un traitement pendant une dure max de 3 mois.
Cas du scoring
Un score de risque : doit faire lobjet dune dclaration ordinaire et pas seulement dune dclaration simplie. Cette dclaration doit indiquer : les variables utilises, les paramtres du score, et les grilles de pondration. Aucune dcision accordant ou refusant un crdit ne peut avoir pour seul fondement un traitement automatis dinformations donnant une dnition du prol ou de la personnalit de lintress. Toute personne laquelle un refus de crdit est oppos : bncie du droit daccs aux informations utilises lors de lexamen de sa demande (y compris sa note de score), et peut, le cas chant, en exiger la rectication.