You are on page 1of 235

Data Mining et Analyse de Donnes

Apprendre et dcider partir de donnes

4 3 2 1 0 1 2 3

4 3 2 1 0 1 2 3

4 3 2 1 0 1 2 3

B. LE GRAND & P. LATOUCHE


Master M2 Miage Anne 2013-2014 Universit Paris 1 Panthon-Sorbonne

Supports crs par C. BOUVEYRON

Plan du cours
1 2 3 4 5 6 7 8

Introduction Principe et mthodes du Data Mining Mthodes descriptives Mthodes exploratoires Mthodes prdictives Evaluation des rsultats et des algorithmes Logiciels de Data Mining Data Mining et liberts

Plan du cours
1 2 3 4 5 6 7 8

Introduction Principe et mthodes du Data Mining Mthodes descriptives Mthodes exploratoires Mthodes prdictives Evaluation des rsultats et des algorithmes Logiciels de Data Mining Data Mining et liberts

Data Mining : tentative de dnition


Traduction du terme Data Mining : traduction littrale ( la qubecoise) forage de donnes mais on prfre fouille de donnes en franais, Le Data Mining est connu galement sous les noms : exploration de donnes, extraction des connaissances. Le Data Mining est fortement li : la Statistique (en particulier lanalyse de donnes et lapprentissage statistique) lIntelligence Articielle (IA)

Data Mining : tentative de dnition


Tentative de dnition : le Data Mining est un processus ayant pour objet lextraction dun savoir ou dune connaissance partir de grandes quantits de donnes, pour ce faire, le Data Mining repose sur un ensemble de techniques automatiques ou semi-automatiques permettant de traiter des donnes, le Data Mining a vocation tre utilis dans un environnement professionnel pour rsoudre des problmatiques trs diverses :
gestion de relation client, maintenance prventive, dtection de fraudes, optimisation de sites web.

Data Mining = statistiques descriptives


Les techniques de data mining sont bien sr plus complexes que de simples statistiques descriptives. Le Data Mining utilise gnralement : des outils dintelligence articielle (rseaux de neurones), des algorithmes sophistiqus (algorithmes gntiques, analyse relationnelle) , la thorie de linformation (arbres de dcision), et beaucoup danalyse des donnes traditionnelle :
analyse factorielle, classication non-supervise, analyse discriminante.

Exemples dapplications
Analyse de comportements (des consommateurs), similarits de comportements (anecdote de Wal-Mart) cartes de dlit. Prdiction : prdire la rponse un mailing (pour en optimiser les cots), prdire lattrition des clients (banque, oprateur de tlphonie mobile, ...). Dtection : dtecter des comportements anormaux (NSA, CSE, ...), dtecter des comportements frauduleux (banques, assurances, nergie, ...). Suggestion: suggrer des produits similaires (vente en ligne), suggrer une tarication adapte (banques, compagnies dassurance, ...).

Historique des applications


Historique de lusage du Data Mining : tout dabord, dans le secteur bancaire :
scoring, classication.

ensuite dans la grande distribution :


tickets de caisse, carte de dlit -> scoring et classication.

dans les assurances :


plus dicile que dans le secteur bancaire, utilisation de donnes gographiques.

vente par correspondance :


proposer des produits adapts.

tlphonie mobile :
dliser les clients.

Exemples dapplications : E-commerce


Dell : Problme : 50% des clients de Dell achtent leurs machines travers le site Web. Mais seulement 0.5% des visiteurs du site deviennent clients. Solution : stocker les squences de clicks des visiteurs, analyser les caractristiques des acheteurs et lors de la visite dun client potentiel, adapter le contenu du site pour maximiser la probabilit dun achat. Amazon Opportunit : lAchats des clients sont stocks en mmoire et par ailleurs, les utilisateurs du site notent les produits ! Comment tirer prot des choix dun utilisateur pour proposer des produits un client similaire ? Solution : technique dit de ltrage collaboratif permettant de regrouper des clients ayant les mmes gots.

Domaines dapplication du Data Mining

Domaines dapplication du Data Mining en 2002 (source www.kdnuggets.com)

Domaines dapplication du Data Mining

Domaines dapplication du Data Mining en 2005 (source www.kdnuggets.com)

(Pr)-histoire du Data Mining


1875 : rgression linaire de Francis Galton 1900 : distribution du 2 de Karl Pearson 1936 : analyse discriminante de Fisher et Mahalanobis 1941 : analyse factorielle des correspondances de Guttman 1943 : rseaux de neurones de Mc Culloch et Pitts 1944 : rgression logistique de Joseph Berkson 1958 : perceptron de Rosenblatt 1962 : analyse des correspondances de J.-P. Benzcri 1964 : arbre de dcision AID de J.P.Sonquist et J.-A.Morgan 1965 : mthode des centres mobiles de E. W. Forgy 1967 : mthode des k-means de Mac Queen 1972 : modle linaire gnralis de Nelder et Wedderburn

Histoire du Data Mining


1975 : algorithmes gntiques de Holland 1975 : mthode de classement DISQUAL de Gilbert Saporta 1980 : arbre de dcision CHAID de KASS 1983 : rgression PLS de Herman et Svante Wold 1984 : arbre CART de Breiman, Friedman, Olshen, Stone 1986 : perceptron multicouches de Rumelhart et McClelland 1989 : rseaux de T. Kohonen (cartes auto-adaptatives) 1990 : apparition du concept de Data Mining 1993 : arbre C4.5 de J. Ross Quinlan 1996 : bagging (Breiman) et boosting (Freund-Shapire) 1998 : Support Vector Machines (SVM) de Vladimir Vapnik 2000 : rgression logistique PLS de Michel Tenenhaus

De la Statistique au Data Mining


Statistique : quelques centaines dindividus, quelques variables recueillies avec un protocole spcial (chantillonnage, plan dexprience, ...), fortes hypothses sur les lois statistiques suivies, les modles sont issus de la thorie et confronts aux donnes, utilisation le plus souvent en laboratoire Analyse des donnes : quelques milliers dindividus, plusieurs dizaines ou centaines de variables, construction des tableaux Individus x Variables, importance du calcul et de la reprsentation visuelle.

De la Statistique au Data Mining


Data mining : plusieurs milliers ou millions dindividus, plusieurs centaines de variables, nombreuses variables non numriques, parfois textuelles, donnes recueillies avant ltude, et souvent dautres ns donnes imparfaites, avec des erreurs de saisie, de codication, des valeurs manquantes, aberrantes, population constamment volutive (dicult dchantillonner), ncessit de calculs rapides, parfois en temps rel, on ne recherche pas toujours loptimum mathmatique, mais le modle le plus facile apprhender par des utilisateurs nonstatisticiens, faibles hypothses sur les lois statistiques suivies, les modles sont issus des donnes et on en tire des lments thoriques, utilisation en entreprise.

Data Mining vs. Analyse de Donnes


Lanalyse de donnes : les donnes sont gnralement recueillies pour une tude prcise, donnes de taille moyenne grande (Mo-Go), centre sur le couple modle donnes, utilis en laboratoire de recherche ou de RD, utilis en recherche fondamentale qui sera souvent suivi dapplications plus grande chelle (Data Mining). Le Data Mining : les donnes nont pas t necessairement recueillies pour une tude spcique, donnes de trs grande taille (Go-To), centr sur les donnes, command et utilis par une entreprise, application directe dans lentreprise dans le but daugmenter les bnces de lentreprise.

Les raisons du dveloppement du Data Mining

Pourquoi le Data Mining sest dvelopp ? interet conomique : du produit aux clients, technologie de linformation : faible cot de stockage de donnes, saisie automatique de transaction (code barre, clic, donnes de localisation GPS, internet), augmentation de la puissance de calcul des ordinateurs (loi de Moore). En rsum : extraire de la connaissance partir de grandes bases de donnes est devenu possible et (surtout) peu coteux !

Extensions du Data Mining


Text Mining : mise en uvre de certaines mthodes de Data Mining des donnes textuelles (documents composs de mots), applications :
indexation de textes, recherche dinformation (Google, Yahoo, ...), ltrage des communications (ltres anti-spam).

Web Mining : mise en uvre de certaines mthodes de Data Mining aux enregistrements du comportement des utilisateurs sur le web, applications :
optimisation des sites web, adapter les pubs sur les sites en fonction de lutilisateur.

Plan du cours
1 2 3 4 5 6 7 8

Introduction Principe et mthodes du Data Mining Mthodes descriptives Mthodes exploratoires Mthodes prdictives Evaluation des rsultats et des algorithmes Logiciels de Data Mining Data Mining et liberts

Principe du Data Mining

On ne veut plus seulement savoir : Combien de clients ont achet tel produit pendant telle priode ? A quelle priode les clients achtent le plus tel produit ? Mais on veut savoir: Quel est leur prol ? Quels autres produits les intresseront ? Quand seront-ils intresss ?

Principe du Data Mining

Le Data Mining est : un processus qui contient plusieurs tapes faisant appel des techniques :
dexploration (visualisation), danalyse, dapprentissage.

Pour cela, le Data Miner a besoin davoir : des bases de Statistique, des bases dInformatique, et des bases danalyste dans le domaine de la socit.

Les tapes dun projet de Data Mining


Un projet de Data Mining comprend les tapes suivantes : Comprendre et analyser les objectifs de lapplication. Traitement des donnes par le Data Miner :
1

2 3

5 6

rcuprer (ou crer) une base de donnes pour la mise au point de lapplication, prtraitement et nettoyage des donnes, analyse statistique des donnes (rduction de la dimension, projection, ...), identier le type de problme (discrimination, clustering, ...) et choisir un algorithme, valuer les performances de lalgorithme, ritrer les tapes prcdentes si necessaire.

Dployer lapplication grande chelle dans lentreprise. Le cours couvre les tapes 2 5.

Les tapes dun projet de Data Mining

Rcuprer (ou crer) la base de donnes : on souhaite le plus souvent exploiter des donnes existantes (tickets de caisse, log de serveur web, ...), mais parfois il faut crer des donnes spciques au problme. Prtraitement des donnes : recherche et traitement des valeurs manquantes, transformation des donnes, ventuellement, chantillonage de la base de donnes.

Les tapes dun projet de Data Mining

Analyse statistique des donnes : rsums numriques, distribution des donnes, dtection des valeurs extrmes et des valeurs aberrantes. Identier le type de problme : mthodes descriptives : clustering, ... mthodes prdictives : discrimination, rgression, ... Evaluer les performances de lalgorithme : valuation des rsultats sur un chantillon test, comparer les performances de direntes mthodes.

Vocabulaire du Data Miner


Vocabulaire spcique au Data Mining : Datawarehouse (entrept de donnes) : base de donnes non spciquement prpare pour une tude spcique, Datamart : base de donne prpare pour une tude spcique (issu du DWH), les DWH et DM sont souvent reprsents sous forme dhypercubes. Vocabulaire commun avec lanalyse des donnes : variable explicative : les p variables sur lesquelles les observations sont mesures, variable prdictive : la variable prdire, et, plus gnralement, tous les termes danalyse de donnes !

Les difrents types de donnes

Les donnes quantitatives : numrique continue : x = (1.2, 2.5, 2.2, 10.3) numrique discrte : x = (1, 2, 2, 10) Les donnes qualitatives : numrique binaire : x = (0, 1, 1, 0) catgorielles : x = (rouge, vert, bleu, rouge) Les donnes structures : graphes, tableaux de similitudes.

Reprsentation matricielle des donnes


Deux types de rprsentations : matrice rectangulaire individus x variables (donnes quantitatives ou qualitatives), matrice carre de similarits ou de relations (donnes structures). x11 x21 x31 x41 . . . xn1 x12 ... x1p d11 d21 d31 d41 . . . dn1
Matrice de similarits

d12 .. .

d13 .. .

d14

...

d1n

..

xnp

..

. dnn

Matrice individus x variables

La pr-traitement des donnes

Ltape de pr-traitement des donnes : est essentielle car les donnes arrivent rarement formates, peut prendre beaucoup de temps en fonction de la taille des donnes, nest pas triviale car cela peut beaucoup inuencer les rsultats ! Trois types de pr-traitement : le traitement des valeurs manquantes, le traitement des valeurs abbrantes, le traitement des valeurs extrmes.

Le traitement des valeurs manquantes

Le problme : il surgit dans les enqutes contenant des entres facultatives, une variable peut ne contenir que 1% de valeurs manquantes, mais lchantillon peut avoir jusqu 10% dindividus ayant une valeur manquante ! Les solutions : ne pas utiliser la variable / lindividu concern, remplacer les valeurs manquantes par une valeur moyenne, ... traiter les valeurs manquantes comme une valeur part entire.

Le traitement des valeurs abbrantes


Le problme : d une erreur de mesure de calcul ou de saisie, ou d une fausse dclaration, il peut y avoir un lien entre valeur extrme et aberrante, mais une valeur aberrante nest pas forcment extrme ! La solution : techniques de tri plat (dates incohrentes, ...) pour les reconnatre, ne pas utiliser la variable / lindividu concern, remplacer les valeurs manquantes par une valeur moyenne, ... traiter les valeurs manquantes comme une valeur part entire

Le traitement des valeurs extrmes


Le problme : certaines valeurs extrmes sont des valeurs aberrantes et doivent tre traites comme telles, mais dautres sont relles et correspondent un prol rare et intressant dtecter, mais elles risquent davoir un poids trop important dans les rsultats dune analyse. La solution : carter ces valeurs durant lapprentissage du modle, crer une classe de valeurs extrmes, on peut aussi winsoriser ces valeurs ...

Les difrentes mthodes du Data Mining


Les mthodes descriptives : elles visent mettre en vidence des informations prsentes mais caches par le volume des donnes :
segmentation de clientle, recherche dassociations de produits sur les tickets de caisse.

le but est de rduire, rsumer et synthtiser les donnes, il ny a pas de variable cible prdire. Les mthodes prdictives : elles expliquent les donnes par rapport une connaissance :
ge des individus, catgorie socio-professionnelle, niveau de formation.

elles permettront de prendre des dcisions lors de larrive de nouvelles donnes, il y a une variable cible prdire.

Les difrentes mthodes du Data Mining


Les mthodes descriptives : visualisation, ACP, analyse factorielle et des correspondances, classication non supervise (clustering). Les mthodes prdictives : Classication supervise (variable cible qualitative)
Linear Discriminant Analysis (LDA), base sur le modle de mlange gaussien, Support Vector Machines (SVM), qui est une mthode discriminative. arbres de dcision (decision trees), rseaux de neurones.

Prdiction (variable cible quantitative) :


rgression linaire (simple et multiple), ANOVA, modle linaire gnralis.

Mthodes dapprentissage non supervis

Objectifs des mthode dapprentissage non supervis : seules les observations X = {x1 , x2 , ..., xn } X p sont disponibles, lobjectif est de dcrire comment les donnes sont organises et den extraire des sous-ensemble homognes, par exemple, on cherche tudier le panier de la mnagre dans une certaine zone dmographique en fonction de certains critres sociaux :
x reprsente un individu au travers de ses caractristiques sociales et de ses habitudes lors des courses.

Mthodes dapprentissage non supervis

2
2 2

1
1 1

0
0 0

1
1 1

2
2 2

4 3

4 3

Observations X

Algorithme EM

Clustering nal

Mthodes dapprentissage non supervis

Exemples de mthodes : classication hierarchique, k -means, algorithme EM (Esprance - Maximisation) Exemples dapplications : identication de segments de marchs, identication de comportements similaires, identication de documents similaires,

Mthodes dapprentissage supervis


Objectif des mthode dapprentissage supervis : partir dun ensemble :
de n observations X = {x1 , x2 , ..., xn } X p et de n mesures Y = {y1 , y2 , ..., yn } Y ,

on cherche estimer les dpendances entre les ensembles X et Y . par exemple, on cherche estimer les liens entre les habitudes alimentaires et le risque dinfarctus :
xi est un patient dcrit par p caractristiques concernant son rgime, yi est une catgorie ( risque ou pas risque).

on parle dapprentissage supervis car les yi permettent de guider le processus.

Mthodes dapprentissage supervis

1
1

0
0

1
1

2
2

3
3

4
4 4 3 2 1 0 1 2 3 4

4 3 2 1 0 1 2 3 3 2 1 0 1 2 3

Observations X et Y

Mthode LDA

Nouvelles dones

Mthodes dapprentissage supervis


Exemples de mthodes : mthodes gnratives (base sur un modle probabiliste) :
QDA, LDA.

mthodes discriminatives :
SVM, rgression logistique, arbres de dcision.

Exemples dapplications : dtection de fraude, marketing telphonique.

Ce qui va tre abord dans ce cours

Partie 1 - Vue densemble du Data Mining : analyse exploratoire des donnes, mthodes de clustering (CAH, k -means et EM), mthodes prdictives (AD, rgression), valuation des rsultats, slection dalgorithmes. Partie 2 - technique spcique dAnalyse de donnes : techniques exploratoires (ACP, AC simple et multiple), technique danalyse discriminante.

Plan du cours
1 2 3 4 5 6 7 8

Introduction Principe et mthodes du Data Mining Mthodes descriptives Mthodes exploratoires Mthodes prdictives Evaluation des rsultats et des algorithmes Logiciels de Data Mining Data Mining et liberts

Analyse exploratoire des donnes

Rsum statistique : rsum numrique : moyenne, mdiane, variance (ou cart-type), frquence, min, max, ... camembert, histogramme, bote moustaches (boxplot), tests de normalit, ... Visualisation : plot 2D ou 3D, graphique matriciel, plot avec information de classe.

Les donnes

La plupart du temps : les donnes sont formes de n individus reprsentes sur p variables numriques, quand n et p sont grands, linformation contenue dans les donnes nest pas accessible directement. Il faut donc : synthtiser linformation contenue dans les donnes, grce des tableaux, graphiques et rsums numriques, cest la statistique descriptive.

Exemple dapplication : les Iris de Fisher


Un exemple classique : propos par Fisher en 1936 (dj !) pour illustrer les mthodes de discrimination le jeu de donnes est constitu de :
150 individus (150 iris) 3 familles direntes (Virginia, Versicolor et Setosa), individus dcrits par 4 variables continues (longueur et largeur du spale et du ptale ).

Description unidimensionnelle

Les tableaux statistiques : eectif, frquence ou pourcentage, eectif, frquence ou pourcentage cumuls. Les reprsentations graphiques : le diagramme en btons ou un camembert pour les variables discrtes, lhistogramme pour les variables continues, lestimation de densit par la mthode des noyaux.

Lhistogramme et lestimation de densit


Lhistogramme : il reprsente une estimation de la fonction de densit, pour le tracer :
1 2

dcouper lintervalle [min, max] en tranches disjointes dessiner un rectangle daire proportionnelle au nombre dindividus prenant leur valeur dans la tranche.

La dtermination du nombre de tranches : cest un choix dlicat :


trop peu de tranches : gomme les variations et nextrait que peu dinformation, trop de tranches : aboutit une histogramme incohrent.

il existe des critres empiriques implants dans les logiciels.

Exemple dapplication : les Iris de Fisher

Histogramme des donnes Iris

Lhistogramme et lestimation de densit


Lestimation de densit : peut-tre vue comme une amlioration de lhistogramme, la mthode dite du noyau est frquemment utilise. Lestimation par noyau : la fonction de densit f est estime par : (x) = 1 f nh
n

K(
i=1

x xi ), h

ce qui est un histogramme fentre glissante si K = 1[1/2,1/2] , ce qui est encore une meilleure approximation si K (x) = 1 exp(x2 /2). 2

Exemple dapplication : les Iris de Fisher

Histogramme et estimation de densit sur les donnes Iris

Les rsums numriques


Caractristique de la tendance centrale : la mdiane :
est telle que 50% de lchantillon est en dessous et les 50 autres % sont au dessus, indicateur peu sensible aux valeurs extrmes, mais qui na que peu de proprits algbriques.

la moyenne arithmtique x =

1 n

n i=1 xi

indicateur sensible aux valeurs extrmes, mais qui a de bonnes proprits algbriques, et qui est universellement utilis !

le mode :
valeur la plus frquente pour un chantillon discret, tranche correspondant au pic de lhistogramme pour une variable continue, permet de dtecter la prsence de plusieurs groupes dans un chantillon.

Les rsums numriques

Exercice : On considre les donnes suivantes : x = {0, 1, 1, 5, 8, 10, 17}


calculez la moyenne x de cet chantillon, (6) calculez la medianne de cet chantillon, (5) calculez enn le mode de cet chantillon. (1)

Les rsums numriques


Caractristique de la dispersion : la variance et lcart-type :
la variance s2 est dnie par : s2 = 1 n
n

( xi x )2 ,
i=1

lcart-type s est la racine carre de la variance, s lavantage de sexprimer dans la mme unit que la variable tudie.

lintervale interquartile :
Q1 est tel que 25% de lchantillon est en dessous, Q2 est tel que 50% de lchantillon est en dessous, Q3 est tel que 75% de lchantillon est en dessous, |Q3 Q1 | est parfois utilis pour reprsenter la dispersion.

Exemple dapplication : les Iris de Fisher

Statistiques lmentaires des donnes Iris

Les rsums numriques


Reprsentation de la dispersion : le box-plot bote de largeur arbitraire et de longueur gale |Q3 Q1 |, complte par des moustaches correspondant aux valeurs adjacentes :
val. adj. sup. : Q3 + 1.5|Q3 Q1 |, val. adj. inf. : Q3 1.5|Q3 Q1 |,

les valeurs extrieures, reprsentes par des , sont celles qui sortent des moustaches. Le box-plot permet : dobserver la distribution des donnes, de reprer les valeurs extrmes, de comparer plusieurs distributions.

Les rsums numriques

Exemple dapplication : les Iris de Fisher

Diagramme en bote des donnes Iris

Les tests de normalit


La loi normale (ou de Laplace-Gauss) : loi intervenant dans de nombreux phnomnes naturels, loi limite de nombreuses autres lois de probabilit, cadres de nombreuses mthodes danalyse des donnes. Les tests statistiques : Shapiro-Wilk (le meilleur), Kolmogorov-Smirnov (le plus gnral), et dautres ... Le QQ-plot : vient de Quantile-Quantile plot, permet de visualiser la normalit de donnes, en les comparant la distribution thorique.

Les tests de normalit

Le QQ-plot

Description multidimensionnelle
Matrice de covariance :

s2 1 . . . sp1

s12 s2 2 .. .

s1p

s2 p

o sk =

1 n

n k i=1 xi xi

x k i . ix

Matrice de corrlation :

1 . . . rp1

r12 1 .. .

r1p

o rk =

skl sk s

Exemple dapplication : les Iris de Fisher

Matrices de variance et de corrlation des donnes Iris

Description multidimensionnelle
Au-del de la dimension 3 : il est videmment trs dicile de visualiser les donnes, sans perdre dinformation danger de la projection, Le graphique matriciel : matrice symtrique de plot 2D Var. 1 P12 P13 P21 Var. 2 P23 P31 P32 Var. 3

qui permet de visualiser lensemble des interactions entre dimensions, mais qui reste dicile interprter (surtout quand p est grand).

Exemple dapplication : les Iris de Fisher


Edgar Andersons Iris Data
2.0 2.5 3.0 3.5 4.0 0.5 1.0 1.5 2.0 2.5 7.5

Sepal.Length

2.0 2.5 3.0 3.5 4.0

Sepal.Width

Petal.Length

0.5 1.0 1.5 2.0 2.5

Petal.Width

4.5

5.5

6.5

7.5

Graphique matricielle des donnes Iris

4.5

5.5

6.5

Introduction la visualisation

La visualisation est la fois : essentielle :


permet une premire approche des donnes, met en vidence la dicult ventuelle du problme, oriente ltude vers telle ou telle technique dtude.

prilleuse :
les donnes sont souvent de grande dimension, do une perte dinformation lors de la projection (ACP), dicult de conjecturer ce qui se passe dans les espace de grande dimension.

Introduction la visualisation

La visualisation est le plus souvent la combinaison : dune mthode de rduction de dimension :


extraction de caractristiques, slection de caractristiques.

dune mthode de reprsentation :


histogramme, plot 2D ou 3D, boxplot, reprsentation multi-dimensionelle (Ggobi).

Les techniques de rduction de dimension

Mthode dextraction de caractristiques : crer d nouvelles variables partir de p variables originelles, ACP, analyse de correspondances simples et multiples. Mthode de slection de caractristiques : slectionner d variables parmi les p variables originelles, sur la base dun critre de pertinence des variables.

Les techniques de rduction de dimension


Remarques sur lextraction de caractristiques : permet de conserver une plus grande partie de linformation totale, du coup, la visualisation et les performances des algorithmes sont souvent bonnes, mais, les nouvelles variables nont plus de sens conomique ! Remarques sur la slection de caractristiques : les variables slectionnes gardent leur sens conomique original, ce qui permet une interprtation humaine des rsultats, mais, les performances sont souvent un peu moins bonnes.

Les techniques de rduction de dimension


Les techniques linaires : analyse en composantes principales (ACP), projection sur les axes discriminants de Fisher, techniques de slection de variables. Les techniques non-linaires : cartes de Kohonen, LLE et Isomap, kernel PCA, principal curves, ...

Les techniques de rduction de dimension

0.8

0.6

2me axe discriminant


10 8 6 4 2 0 2 4

0.4

2me axe principal

0.2

10

12

0.2

14

0.4

16

0.6

18 12

0.8 1.5

0.5

0.5

1er axe principal

1er axe discriminant

Projection des donnes USPS sur les axes principaux et discriminants.

Les techniques de rduction de dimension

Rduction de dimension linaire vs non linaire.

Plan du cours
1 2 3 4 5 6 7 8

Introduction Principe et mthodes du Data Mining Mthodes descriptives Mthodes exploratoires Mthodes prdictives Evaluation des rsultats et des algorithmes Logiciels de Data Mining Data Mining et liberts

La classication non supervise


Quest-ce que le clustering ? regrouper des objets en groupes, ou classes, ou clusters, de sorte que : 2 objets dun mme groupe se ressemblent le + possible 2 objets de groupes distincts dirent le + possible le nombre des groupes est parfois x Mthodes descriptives : pas de variable cible privilgie dcrire de faon simple une ralit complexe en la rsumant utilisation en marketing, mdecine, sciences humaines Les objets classer sont : des individus des variables

La classication non supervise

La classication non supervise


Les synonymes de la classication non supervise : clustering : terme anglo-saxon le plus courant classication automatique : terme gnralement employ par les auteurs franais segmentation : terme employ en marketing (les segments de clientle ) et qui est assez explicite typologie ou analyse typologique : employ en sciences sociales taxinomie ou taxonomie : utilis en biologie et zoologie, nosologie : utilis en mdecine (classication des maladies), reconnaissance de forme : utilis dans le domaine de limage et du son.

La classication non supervise


Structures des classes : classes disjointes :
nombre de classes dnir a priori, le plus utilis !

classes hirarchiques :
une classe peut en contenir une autre, li aux mthodes hirarchique.

classes empitantes :
analyse probabiliste dicilement interprtable.

Dans le cours, on ne considrera que les classes disjointes et hirarchiques.

Complexit du problme
On pourrait penser quil sut : dexplorer toutes les combinaisons possibles de partition et de choisir la partition optimale au sens dun critre. Oui, mais ! Cette tche est insurmontable : un ordinateur traitant 1 million doprations / sec mettra 126 000 annes pour partitionner un ensemble 25 lments ! En eet, le nombre de partitions Bn , dit nombre de Bell, vaut : Bn = 1 e kn , k!

pour n = 30, Bn = 8.47 1023 !

Applications du clustering
Marketing : dcouper la clientle en segments dots chacun dune ore et dune communication spcique rpartir lensemble des magasins dune enseigne en tablissements homognes du point de vue :
du type de clientle, du CA global ou par rayon (selon type darticle), de la taille du magasin

Mdical : dterminer des groupes de patients susceptibles dtre soumis des protocoles thrapeutiques dtermins, chaque groupe regroupant tous les patients ragissant identiquement Sociologie : dcouper la population en groupes homognes du point de vue sociodmographique, style de vie, opinions ou attentes.

Applications du clustering

Critres des bons algorithmes


Etre capable de : dtecter les structures prsentes dans les donnes dterminer le nombre optimal de classes fournir des classes bien direncies fournir des classes stables vis--vis de lgres modications des donnes traiter ecacement les grands volumes de donnes traiter tous les types de variables (quantitatives et qualitatives) Mais, de toutes faons : pas de critre universel de qualit cependant, des techniques existent

Clustering de variables continues

Il faut tout dabord : choisir une distance entre individus (distance euclidienne, ...), standardiser les variables si elles ne sont pas toutes mesures dans la mme unit, isoler les outliers (individus hors-norme). Quand on a des variables qualitatives : se ramener une classication de variables continues, en utilisant une ACM, ...

Les dirents types de mthodes

Nous allons tudier les 3 principales mthodes : le clustering hirarchique, la mthode des k -means, lalgorithme EM.

Notion dinertie
Inertie (ou variance) dun nuage dindividus : inertie totale S : S= inertie intraclasse W : W = inertie interclasse B : B= Thorme de Huygens : S = W + B. 1 K nk ( xk x )2 , n k=1 1 K (xi x k )2 , n k=1 x C
i k

1 n

(xi x )2 ,
i=1

Notion dinertie

Inertie et qualit de classication

Qualit dune classication : une classe est homogne son inertie est faible. Deux critres de bonne classication : grande inertie interclasse B (les groupes sont loigns), ou petite inertie intraclasse W (les classes sont homognes). Remarque : ces deux critres sont quivalents puisque, daprs la formule de Huygens, on a : S =W +B

Le clustering hirarchique
Deux principaux types de mthodes : clustering ascendant hirarchique (CAH) :
construit un arbre de classication (dendogramme), montrant la succession des regroupements, depuis les n individus jusquau groupe total.

clustering descendant hirarchique (CDH) :


procde linverse de la CAH, par subdivisions successives du groupe total.

Remarques : la CAH est une mthode de rfrence, trs utilise et ecace, la CDH nest que trs peu utilis en pratique car peu ecace.

Le clustering ascendant hirarchique


Schma de lalgorithme :
1 2 3

les classes initiales sont les observations, on calcule les distances entre les classes, les 2 classes les plus proches sont fusionnes et remplaces par une seule, on reprend en (2) jusqu navoir plus quune seule classe qui contient toutes les observations.

Rsultats : sous forme dun arbre appel dendrogramme, le niveau o lon coupe larbre dtermine le nb de classes, la hauteur dune branche est proportionnelle la perte dinertie interclasse (R semi-partiel).

Le clustering ascendant hirarchique

Le clustering ascendant hirarchique

Elment cl de lalgorithme : la distance entre 2 classes, qui peut tre dnie de direntes manires. Les direntes stratgies dagrgation : le lien minimum, le lien maximum, la distance moyenne, la distance entre les barycentres, le critre de Ward.

Le clustering ascendant hirarchique


Le lien minimum : dni par : d(A, B ) = min{d(a, b), a A, b B } sait dtecter les classes allonges voir sinueuses, frquemment utilis car bonnes proprits thoriques, appel aussi saut minimum ou single linkage. Le lien maximum : dni par : d(A, B ) = max{d(a, b), a A, b B }, produit des classes de mme diamtre, peu utilis car trs sensible aux outliers, appele aussi saut maximum ou complete linkage.

Le clustering ascendant hirarchique


La distance moyenne : dnie par : d(A, B ) = 1 nA nB d(a, b),
aA bB

produit des classes de variance gale, intermdiaire entre les deux critres prcdents, appele aussi saut moyen ou average linkage. La distance entre les barycentres : dnie par : d(A, B ) = d( xA , x B ), simple calculer mais moins prcis, appele aussi mthode des centrodes.

Le clustering ascendant hirarchique


Le critre de Ward : dni par : d(A, B ) = fonction des barycentres, produit des classes de forme sphrique et de mmes eectifs, peu ecace sur les classes allonges et sensible aux outliers. Le critre de Ward est la mthode la plus utilise : base sur laugmentation de linertie intraclasse (utilise comme indice de niveau), fonctionne bien sur les problmes rels car les classes sont souvent de forme sphrique. d( xA , x B ) 1 1 , nA + nB

Le clustering ascendant hirarchique

Le clustering ascendant hirarchique

Le clustering ascendant hirarchique


Comment chosir le nombre de groupes ? utiliser lindice de niveau:
la distance entre les groupes, le R2 = W/S ou le R2 semi-partiel qui reprsente la baisse de R2 .

Le clustering ascendant hirarchique

Le clustering ascendant hirarchique

Le clustering ascendant hirarchique

Dans tous les cas : visualiser le rsultat de la classication, pour dceler dventuelles anomalies de classication, ou un nombre de groupes inadapt (trop ou pas assez). La CAH en rsum : sadapte direntes formes de classes (par la distance), possde des indicateurs de qualit de la classication, facilit dinterprtation de la classication (dendrogramme), mais, complexit algorithmique trs grande (O(n2 ), O(n2 log(n), ...))

Le clustering ascendant hirarchique


Exercice : On considre 5 points de R, spars par les distances 2, 5, 4 et 3, que lon souhaite rpartir en k = 2 groupes en utilisant comme distance la distance euclidienne :
x1 x2 x3 x4 x5

Q1 : eectuez la CAH suivant le critre dagrgation du saut minimum. Q2 : eectuez la CAH suivant le critre dagrgation du saut maximum. Q1 : eectuez la CAH suivant le critre dagrgation du saut moyen.

La mthode des k -means


La mthode des k -means : galement appele mthode des centres mobiles, cest une mthode non hirarchique. Lalgorithme :
1 2

Initialisation : on choisit alatoirement k centres gi , Boucle :


1 2 3

on calcule les distances entre chaque individu et les k centres, on aecte chaque individu au centre le plus proche, on recalcule les nouveaux centres gi . qand les groupes sont stables, quand la variance intraclasse cesse de dcrotre, quand le nombe max. ditrations est atteint.

Arrt :
1 2 3

La mthode des k -means


Exemple : regroupement en k = 2 classes Etape 1 : initialisation alatoire

Etape 2 : aectation aux 2 premires classes

La mthode des k -means


Etape 3 : calcul des nouveaux centres des classes

Etape 4 : aectation aux 2 nouvelles classes

La mthode des k -means


Etape 5 : calcul des nouveaux centres des classes

Etape 6 : aectation aux 2 nouvelles classes (et n !)

La mthode des k -means

Avantage des k -means : rapidit (complexit en n) et simplicit algorithmique, trs utilis et souvent prsent dans les logiciels danalyse des donnes. Dsavantage des k -means : ncessite de connatre le nombre k de groupes, dpendance aux centres initiaux, ne dtecte bien que les formes convexes.

La mthode des k -means


Exercice : On considre 5 points de R, spars par les distances 2, 5, 4 et 3, que lon souhaite rpartir en k = 2 groupes en utilisant comme distance la distance euclidienne :
x1 x2 x3 x4 x5

Q1 : eectuez le clustering en utilisant les points x2 et x5 comme centres initiaux. Q2 : eectuez le clustering en utilisant les points x4 et x5 comme centres initiaux. Q3 : eectuez le clustering en utilisant les points x1 et x2 comme centres initiaux.

Le modle de mlange et lalgorithme EM


Une approche probabiliste du clustering : on modlise chaque classe par une loi de probabilit, an davoir une estimation du risque de classication, la loi utilise est gnralement la loi normale (ou loi de Gauss), on parle alors de mlange gaussien.
0.7 Densit du mlange Densit de la 1re comp. Densit de la 2nde comp. 0.6

0.5

0.025

0.02

0.4

f(x)

0.015 f(x) 0.01 0.005

0.3

0.2

0.1
0 10 0 5 0 5 10 10 5 5

10

0 2

Le modle de mlange et lalgorithme EM

Le modle de mlange : ayant un chantillon de n individus {x1 , ..., xn }Rp , et supposant que la population est forme de k groupes de densit f (x; i ) et de proportion i , i = 1, ..., k , les n individus sont alors considres comme des ralisations indpendantes dun vecteur alatoire X Rp de densit :
k

f (x) =
i=1

i f (x; i ).

Le modle de mlange et lalgorithme EM

Le modle de mlange gaussien : f est la densit de la loi normale monodimensionnelle:


2 f (x; i , i )=

1 1 ( x i ) 2 exp{ }, 2 2 i 2i

f est la densit de la loi normale multidimensionnelle: f ( x ; i , i ) = 1 1 1 exp{ (x i )t i (x i )}. 2 (2 )p/2 |i |1/2

Le modle de mlange et lalgorithme EM


Avec le modle de mlange (gaussien ou non) : chaque groupe est reprsent par son paramtre i , dans le cas gaussien, i = (i , i ), ce qui permet de calculer la probabilit pour un point dappartenir un groupe : P (x Gi |x, i ) = Lestimation des paramtres : par maximisation de la vraisemblance L(), en utilisant un algorithme itratif (le calcul direct ntant pas possible), qui fait crotre la vraisemblance chaque tape. i f (x; i ) . f (x)

Le modle de mlange et lalgorithme EM


Lalgorithme EM :
1

0 , ..., 0 } Initialisation : choix dune solution initiale { 1 k caractrisant les k groupes, Boucle :
1

Etape E : on calcule la probabilit a posteriori des points dappartenir aux groupes tq ij = P (xj Gi |x, i ) = i f (xj ; i ) , f ( xj )

q , ..., q } des nouvelles Etape M : on estime les paramtres { 1 k classes oues.

Arrt : quand la vraisemblance cesse de crotre.

Le modle de mlange et lalgorithme EM


Une variante : lalgorithme CEM
1

0 , ..., 0 } Initialisation : choix dune solution initiale { 1 k caractrisant les k groupes, Boucle :
1

Etape E : on calcule la probabilit a posteriori des points dappartenir aux groupes tq ij = P (xj Gi |x, i ) = i f (xj ; i ) , f ( xj )

Etape C : on aecte chaque point la classe la plus proche en utilisant les tq i. q , ..., q } des nouvelles Etape M : on estime les paramtres { 1 k classes.

Arrt : quand la vraisemblance cesse de crotre.

Le modle de mlange et lalgorithme EM

Etape 1

Le modle de mlange et lalgorithme EM

Etape 6

Le modle de mlange et lalgorithme EM

Etape 11

Le modle de mlange et lalgorithme EM

Etape 16

Le modle de mlange et lalgorithme EM

Etape 21

Le modle de mlange et lalgorithme EM

Etape nale

Le modle de mlange et lalgorithme EM


20

18

16

14

L()

12

10

10

15

20

25

Iteration

Evolution de la vraisemblance

Le modle de mlange et lalgorithme EM


Dtermination du nombre de groupes : on prote du cadre probabiliste et des outils associs :
le critre AIC (Akaike Information Criterion) : AIC = 2 log(L()) + 2 log(n), le critre BIC (Bayesian Information Criterion) : BIC = 2 log(L()) + log(n),

on appelle cela aussi de la slection de modles. Exemple :


3 x 10
7

3.2

3.4

BIC value

3.6

3.8

4.2

6 Nb of groups

10

Le modle de mlange et lalgorithme EM


Les avantages de lalgorithme EM : sadapte de trs nombreux types de donnes, la loi normale rgit de nombreux phnomnes naturels, fournit une approche probabiliste du clustering :
estimation du risque de classication mdecine, modlisation probabiliste des groupes, outils adapts pour choisir le nombre de groupes.

Les limites de lalgorithme EM : pas forcment implant par dfaut dans tous les logiciels, ncessite dutiliser des variantes pour les donnes de grande dimension.

Plan du cours
1 2 3 4 5 6 7 8

Introduction Principe et mthodes du Data Mining Mthodes descriptives Mthodes exploratoires Mthodes prdictives Evaluation des rsultats et des algorithmes Logiciels de Data Mining Data Mining et liberts

Les mthodes prdictives


Les objectifs : prdire la valeur ou la classe dune nouvelle observation, connaissant les valeurs ou les classes dun ensemble dobservations, cet ensemble est appel ensemble dapprentissage. La discrimination : vise prdire la classe Y dun nouvel individu sachant les valeurs prises par les p variables explicatives, cas binaire : Y [0, 1] ou Y [1, 1], cas multi-classes : Y [1, ..., k ]. La rgression : vise prdire une valeur Y R dune nouvelle observation, sachant les valeurs prises par les p variables explicatives.

Les applications des mthodes prdictives

Les mthodes prdictives

La procdure gnrale des mthodes prdictives comporte 3 tapes qui sont : lapprentissage, la validation, la prdiction. Les mthodes de discrimination et de rgression utilisent cette mme procdure.

Les qualits des mthodes prdictives

Les qualits attendues des mthodes prdictives : la prcision : le taux derreur doit tre le plus bas possible, la robustesse : la mthode ne doit pas tre trop sensible des uctuations sur lchantillon et doit bien se gnraliser dautres donnes, la parcimonie : le modle ne doit pas tre plus compliqu quil ne faut, des rsultats explicites : les rsultats doivent tre interprtables par lutilisateur.

Lanalyse discriminante
Lanalyse discriminante (AD) : galement appele classication supervise, est une technique qui vise prdire une variable cible discrte ou catgorielle. Le principe : lAD utilise un jeu dapprentissage pour apprendre le classieur, qui pourra tre ensuite utilis pour classer de nouveaux individus, un jeu de validation est souvent utilis pour vrier la validit du classieur.

Lanalyse discriminante
Il existe deux types de mthodes danalyse discriminante : les mthodes gnratives : la phase dapprentissage permet dlaborer un modle qui rsume les caractristiques des groupes, la rgle de dcision du classieur sera ensuite dduite du modle avant dtre applique de nouvelles donnes. les mthodes discriminatives : la phase dapprentissage labore directement la rgle de dcision du classieur, qui sera ensuite applique de nouvelles donnes.

Les mthodes danalyse discriminante

Les mthodes gnratives : lanalyse discriminante quadratique (QDA), lanalyse discriminante linaire (LDA), lanalyse discriminante de Fisher (FDA). Les mthodes discriminatives : les k plus proches voisins, les arbres de dcision, la rgression logistique, les Support Vector Machines (SVM).

Les Support Vector Machines

Les Support Vector Machines : appels galement machines vecteurs supports, ou encore sparateur vaste marge, mthodes rcentes (1996) dues V. Vapnik. Lide des SVM : projeter les donnes dans un espace de trs grande dimension, an de pouvoir les sparer linairement dans cet espace, alors que cela ntait pas possible dans lespace initial.

Les Support Vector Machines

Le processus des SVM comporte 2 tapes :


1

la transformation des donnes :


une transformation non linaire fait passer de lespace dorigine, un espace de dimension plus grande mais dot galement dun produit scalaire.

la recherche du sparateur :
dans lespace darrive, on cherche un sparateur linaire (hyperplan), qui spare au mieux les groupes, et qui soit le plus loign possible de toutes les observations.

Les Support Vector Machines

Exercice : on a les donnes suivantes dans R :


les observations : x = {3, 2, 1, 1, 3} les labels associs : y = {1, 1, 2, 2, 1}

Q1 : reprsentez les donnes dans R et vriez quil nexiste pas un sparateur linaire. Q2 : cherchez une transformation non linaire telle quil soit possible de sparer linairement les 2 groupes dans lespace darrive.

Les Support Vector Machines

x^2[,2] 1 0 3 2 1 0 x[,1] 1 2 3 0 0 5

x[,2]

10

15

4 x^2[,1]

2 Eet de la transformation non linaire (x) = (x2 1 , x 2 ).

Les Support Vector Machines

Distance dun point lhyperplan ax + b / a .

Lastuce noyau

Les SVM reposent en partie sur : une astuce de calcul appele kernel trick qui permet de travailler dans lespace darrive, mais en faisant les calculs dans lespace de dpart ! Lastuce noyau : est de dire que le produit scalaire de deux points de lespace darrive peut sexprimer sous la forme : < (x1 ), (x2 ) >= K (x1 , x2 ), x1 , x2 X .

Application de lastuce noyau


Application au calcul de distance :

(u) (v ) Exercice :

= K (u, u) + K (v, v ) 2K (u, v )

Q1 : dmontrez la relation ci-dessus. Q2 : dterminez le noyau associ la transformation de lexercice prcdent.

La recherche du sparateur
Le problme : tant donn un jeu de donnes {(x1 , y1 ), ..., (xn , yn )} o :
les observations xi Rp , et les labels associs yi {1, 1}.

il faut trouver un sparateur f ((x)) = a(x) + b sous les contraintes :


i, yi (a(xi ) + b) 1 (bonne sparation), la norme a 2 soit minimale (marge maximale).

La solution : crire ce problme en utilisant lastuce noyau, utilis des algorithmes doptimisation.

Quelques exemples de noyaux


Quelques noyaux courants : le noyau linaire : K (u, v ) =< u, v >, le noyau polynmial : K (u, v ) =< u, v >d , le noyau gaussien : K (u, v ) = exp Exercice : Q1 : dterminer la transformation associe au noyau polynmial de degr d = 2. uv 2 2
2

Les Support Vector Machines

Les Support Vector Machines : sont des classieurs performants, qui sont en particulier robustes (qualit de gnralisation) qui apparaissent petit petit dans les logiciels de Data Mining. Cependant : les rgles de dcision fournies sont dicilement interprtables, le cot algorithmique des SVM est important, et le choix du bon noyau nest pas trivial.

La rgression linaire

La rgression linaire : est une technique qui vise prdire une variable continue Y sur la connaissance de la variable continue X , pour apprendre le rgresseur, on dispose dun chantillon dapprentissage {(x1 , y1 ), ..., (x2 , y2 )}. Exemples : X peut reprsenter le temps et Y une grandeur mesure direntes dates, X peut reprsenter la taille dun individu et Y sont poids, ...

La rgression linaire simple


Lhypothse de base : X et Y ne sont pas indpendantes, et la connaissance de X permet damliorer la connaissance de Y . Dun point de vue thorique : lesprance conditionnelle E (Y |X = x) est une fonction linaire de x, ce qui se traduit par la formulation : E (Y = yi |X = xi ) = + xi , i = 1, ..., n, ce qui peut aussi scrire : yi = + xi + i , i = 1, ..., n, avec E ( i ).

La rgression linaire simple


Les autres hypothses du modle : la variance des rsidus est la mme i, les rsidus
i

N (0, 2 ),

les rsidus sont indpendants.

La rgression linaire multiple

La rgression linaire simple : se gnralise au cas de plusieurs variables explicatives, on recherche alors lhyperplan de Rp approchant au mieux les donnes, cette mthode sappelle la rgression linaire multiple. La rgression linaire multiple : le modle est alors : Y = 0 + 1 X1 + ... + p Xp + , en ajoutant une hypothse importante : lindpendance des varaibles Xi .

La rgression linaire multiple

La rgression linaire multiple

La rgression linaire
Lexistence de la composante stochastique
i

correspond au fait que des individus avec mme valeur xi peuvent avoir des rponses Y direntes (variation synchronique) ou quun mme individu mesur plusieurs reprises avec la mme valeur xi peut avoir des rponses Y direntes (variation diachronique) Remarques : on a quivalence entre les relations Y |X = xi N ( + x, 2 ),
i

N (0, 2 ) et

lhypothse de normalit classe la rgression linaire dans la famille des modles linaires gnraux dans le modle linaire gnralis, la loi de Y |X = xi nest plus ncessairement normale.

La rgression linaire
Mise en uvre de la mthode : Aprs avoir postul lexistence dune relation E (Y ) = + X , de et en utilisant on recherche des estimateurs et lchantillon dapprentissage. Que signie la variance des estimateurs ? On natteint jamais les vritables coecients et car :
le modle linaire nest le plus souvent quune approximation de la ralit, on ne travaille que sur des chantillons et non sur la population entire, on commet des erreurs de mesure.

Des modles sur des chantillons dirents donneront des estimateurs a et b dirents . do une variance des estimateurs et

La mthode des moindres carrs


La formulation du problme : de et on recherche des estimateurs et qui minimisent les rsidus :
i 2

= (yi y i )2 ,

i. o y i est prdit par la droite y i = + x La solution : de la pente est : lestimateur =


i (xi

x )(yi y ) , 2 ) i (xi x

et lestimateur de la constante vaut : i = yi x ajuste alors le nuage de points. la droite Y = + X

La mthode des moindres carrs

Proprits des estimateurs

Remarques : une estimation des paramtres sur un autre chantillon, donnerait des estimateurs lgrement dirents Cependant : on montre que la mthode de moindres carrs est optimale, car elle fournit des estimateurs sans biais : ) = E ( ) = , E ( et de variance minimale.

Les moyens de rgularisation

Dans certains cas, la variance des estimateurs est grande : lchantillon est de petite taille (peu dobservations), ltendue des valeurs observes X est limite, lerreur de mesure est importante. Les moyens pour diminuer (encore) la variance des estimateurs : augmenter la taille du jeu dapprentissage, augmenter ltendue des valeurs observes X , utiliser une mthode de rgularisation de type ridge (biais).

Vrier la qualit dajustement

Il est bien sr important de vrier la qualit dajustement du modle aux donnes : un R2 proche de 1 indique un bon ajustement : R2 = SCR = SCT y )2 , )2 i (yi y yi i (

mais il est souvent trop optimiste (surtout si n est grand), alors on utilise le R2 ajust :
2 Rajust e =1

(1 R2 )(n 1) . np1

Vrier la qualit dajustement

Vrier la validit des hypothses

La rgression linaire : se base sur des hypothses qui doivent savrer pas trop fausses si on veut que les rsultats de la rgression aient du sens. Les moyens de validation : des outils graphiques :
normalit des rsidus QQ-plot, galit des variances.

des test statistiques.

Vrier la validit des hypothses

Validit de lhypothse de normalit des rsidus

Vrier la validit des hypothses

Validit de lhypothse dgalit des variances

La rgression linaire
Exercice : nous disposons des donnes suivantes (m /prix en k dappartements):
X = {28, 50, 196, 110, 90, 35, 65, 100, 70, 52}, Y = {130, 280, 800, 500, 378, 250, 300, 495, 325, 245}.

Q1 : utilisez la mthode des moindres carrs pour estimer les paramtres de rgression linaire. Q2 : analysez la qualit dajustement. Q3 : vrier la validit des hyopthses. Q4 : une personne envisage dacheter un appartement de 35m au prix de 235 k. Est-ce une bonne aaire ? Q5 : auriez-vous des outils pour donner une fourchette de prix acceptables pour cette surface ?

Rgression linaire et data mining

Les donnes utilises en Data Mining : sont le plus souvent de grande dimension, et les variables explicatives peuvent tre fortement corrles, Cela a pour consquences : des coecients de rgression trs sensibles aux uctuations mme faibles des donnes, des carts-types levs pour les coecients de rgression, une dgradation de la prcision des prvisions. Moyen de dtection : conditionnement de la matrice de corrlation.

Rgression linaire et data mining


Eet de la multicolinarit : X1 et X2 presque colinaires : coecients de rgression trs sensibles de petites variations de Y .

Rgression linaire et data mining


Solutions la multicolinarit : suppression des variables concernes accepter de baisser un peu R pour baisser la multicolinarit, transformation (logarithme, . . . ) des variables concernes, rgression biaise (ridge) :
lerreur quadratique de lestimation de la pente de la rgression = variance de lestimateur + (biais de lestimateur) , do une erreur quadratique avec biais < erreur sans biais si le biais est compens par une faible variance.

rgression sur composantes principales, rgression PLS (Partial Least Squares) :


utilisable mme si : nb observations << nb variables, De Jong (1993) a montr que la rgression PLS sur k composantes est toujours plus prdictive que la rgression sur les k premires composantes principales.

La rgression PLS (Partial Least Square)


La rgression Partial Least Squares : mthode qui se juxtapose dautres mthodes de rgression, utile en prsence dun grand nombre de variables prsentant de la colinarit ou des valeurs manquantes, algorithme simple (suite de rgressions simples, sans inversion ni diagonalisation de matrices) ecace sur de grands volumes de donnes. Utilisation en chimie, industrie ptrolifre, cosmtique, biologie, mdecine, agroalimentaire : en cosmtique : conserver tous les ingrdients dun produit trs nombreuses variables explicatives, en agroalimentaire (analyse sensorielle) : expliquer le classement dun produit par plusieurs dgustateurs (variable Y), en fonction de ses proprits (jusqu plusieurs centaines) physico-chimiques et de saveurs.

Principe de la rgression PLS


Rgression PLS : invente par Herman et Svante Wold (1983), on a Y qui est la variable expliquer, et p variables explicatives Xi . Le choix des variables transformes rsulte dun compromis entre : maximisation de la variance des Xi (ide de lACP), maximisation de la corrlation entre Xi et Y (rgression). La rgression PLS cherche donc : les combinaisons linaires Tj des Xi maximisant : cov 2 (Tj , Y ) = r2 (Tj , Y ) var(Tj ) var(Y ).

La rgression PLS
Algorithme de la rgression PLS : on cherche une combinaison T1 des Xi : T1 =
i

1i Xi ,

qui maximise la variance de T1 et la corrlation entre T1 et Y , la solution est : 1i = cov (Y, Xi ), on a donc la relation : T1 =
i

cov (Y, Xi )Xi .

La rgression PLS

Algorithme (suite) : la rgression de Y sur T1 donne un rsidu Y1 : Y = c1 T1 + Y1 , la rgression des Xi sur T1 donne aussi des rsidusX1i : Xi = c1i T1 + X1i , on ritre en remplaant Y par Y1 et les Xi par les X1i , et ce jusqu lobtention dun nombre de composantes donnant un rgresseur satisfaisant.

La rgression PLS

La slection des composantes : le plus souvent par validation croise, permet de choisir assez de composantes pour expliquer correctement Y par rapport aux Xi , tout en vitant le sur-apprentissage. En pratique : le nombre de composantes dpasse rarement 3 ou 4, la rgression PLS sur d composantes est toujours plus prdictives que la rgression sur d composantes principales.

La rgression logistique
La rgression logistique : est une technique de discrimination base sur un modle de rgression, qui est napparue en pratique que rcemment dans le Data Mining, dont une extension value D. McFadden le prix Nobel dconomie en 2000. Le principe : une variable cible binaire Y {0, 1}, p variables explicatives continues Xi binaires ou qualitatives :
p = 1 rgression logistique simple, p 2 rgression logistique multiple.

La rgression logistique
Problme de rgression : modliser lesprance conditionnelle E (Y /X = x) : E (Y /X = x) = P (Y = 1/X = x), sous la forme suivante : E (Y /X = x) = 0 + 1 X1 + 1 X2 + ... + p Xp . Dicult : les Xi sont continues (termes non borns), alors que la variable cible Y {0, 1} ! il faut donc la transformer ! en rgression linaire, E (Y /X = x) nest pas borne.

La rgression logistique

Comparaison entre rgression logistique et linaire.

Prdiction dune variable binaire


Prdiction dune variable binaire : visiblement, la rgression linaire ne convient pas (distribution des rsidus), la gure fait pressentir que ce nest pas une fonction linaire de 0 + 1 X1 + 1 X2 + ... + p Xp quil faut appliquer, mais une courbe en S.

La rgression logistique
Exemple : Age et Coronary Heart Disease (CHD)

La rgression logistique
Possibilit de transformation : regrouper en groupes les ages Xi , et calculer pour chaque groupe la frquence de Y = 1.

La rgression logistique
La forme de cette courbe : appele courbe logistique, on peut crire : P (Y = 1|X = x) = exp (0 + 1 X1 + ... + p Xp ) , 1 + exp (0 + 1 X1 + ... + p Xp )

et de faon quivalente : log P (Y = 1|X = x) 1 P (Y = 1|X = x) = 0 + 1 X1 + ... + p Xp ,

La fonction logit : est dnie par : f (p) = log

p , 1)

est une fonction de lien. il existe dautres fonctions de lien : probit, log-log, ...

La rgression logistique

Comparaison des direntes fonctions de lien.

La rgression logistique
Estimation des paramtres : par maximisation de la vraisemblance du modle, ncessite lutilisation dune mthode itrative doptimisation (Newton-Raphson), Avantages : traite dirents types de variables explicatives (discrtes, qualitatives et continues), hypothse du modles peu contraignantes, modlise directement une probabilit. Dsavantages : suppose la non colinarit des variables, approximation numrique, sensible aux outliers.

Amliorer les rsultats


Deux approches : le rchantillonage, la combinaison de modles. Le rchantillonage : si le nombre dindividus n est limit ou petit devant la complxit du modle estimer, permet damliorer la robustesse des mthodes de classement. La combinaison de modles : lide est de combiner les qualits de direntes mthodes, pour obtenir un prdicteur plus performant et plus robuste.

Amliorer les rsultats


Le mthodes de rchantillonage : le bootstrap (Efron, 1979), le bagging (Breiman, 1996), le boosting (Freund et Shapire, 1996). Le bootstrap : permet dapprocher la distribution dune statistique dont on ne connait pas la loi, en construisant b chantillons bootstrap par tirage alatoire de n individus avec remise et en estimant la statistque sur ces b chantillons, un estimateur robuste de cette statistique pourra tre la moyenne des b estimateurs, le jacknife est trs proche : n chantillons obtenus en retirant chaque fois un individu dirent.

Amliorer les rsultats

Amliorer les rsultats


Le bagging : des prdicteurs de mme type sont construits sur m chantillons bootstrap, et les m prdicteurs sont agrgs par un systme de vote ou par moyennage, cela fournit un prdicteur plus robuste. Le boosting : approche adaptative qui travaille sur lchantillon entier, chaque itration, on augmente le poids des individus mal classs, cela fournit un prdicteur plus robuste mais aussi plus performant.

Amliorer les rsultats

Exercice : on dispose des donnes suivantes (score dune population) : X = {8, 10, 15, 13, 16, 4, 9, 12}, et lon souhaite estimer le score moyen de la population . Q1 : calculez le score moyen de lchantillon x . Q2 : construisez n chantillons jacknife et calculer les moyennes x i associes. Q3 : faites lanalyse statistique des x i ainsi obtenues (moyenne, variance, histogramme, ...).

Amliorer les rsultats

La combinaison de modles : lide est la mme que celle du bagging mais :


avec des prdicteurs de types dirents, et sur lchantillon entier.

des prdicteurs de type dirents sont appris sur lchantillon entier, on combine les dirents prdicteurs par vote, moyennage ou pondration, cela permet gnralement de combiner les qalits des direntes mthodes.

Plan du cours
1 2 3 4 5 6 7 8

Introduction Principe et mthodes du Data Mining Mthodes descriptives Mthodes exploratoires Mthodes prdictives Evaluation des rsultats et des algorithmes Logiciels de Data Mining Data Mining et liberts

Importance dvaluer les mthodes

Les mthodes prdictives peuvent : donner de faux rsultats (donnes non ables), mal se gnraliser dans lespace (autre chantillon) ou le temps (chantillon postrieur), tre victime du sur-apprentissage, tre peu comprhensibles par les utilisateurs. Les pricipaux outils de comparaison : le taux derreur de classement et la matrice de confusion, les courbes ROC (Receiver Operating Characteristic) et de lift, lindices associs aux courbes ROC et de lift.

Les direntes mthodes dvaluation

Les indicateurs numriques : taux derreur, matrice de confusion, aire sous la courbe ROC ou de lift. Les outils graphiques : dessin des rgles de dcision, la courbe ROC, la courbe de lift

Taux derreur et matrice de confusion


Le taux derreur : calcul simple qui donne une information globale. La matrice de confusion : donne plus dindication sur la qualit de la classication que le taux derreur, dans le cas binaire, donne le pourcentage de faux positifs et de faux ngatifs, dans le cas multi-classes, elle montre quelles classes sont diciles discriminer. Rel/Pred. Positif Ngatif Positif VP FP Ngatif FN VN Rel/Pred. C1 C2 C3 C1 95 1 0 C2 3 80 1 C3 2 19 99

Le taux derreur en apprentissage


Le taux derreur sur le jeu dapprentissage : V P +#V N se calcule simplement par etrain = ## P +#N , cette valeur indique la capacit de prcision du prdicteur, mais cette valeur est trop optimiste.

Le taux derreur en validation


Le taux derreur sur le jeu de test : V P +#V N se calcule de la mme faon par etest = ## P +#N , cette valeur indique la robustesse du modle (i.e. sa capacit de gnralisation, sa capacit relle de prdiction), cette valeur est celle retenir !

Le sur-apprentissage

Le phnomne du sur-apprentissage : est d au fait dutiliser un modle trop complexe, qui modlise parfaitement les donnes dapprentissage, mais les donnes dapprentissage ne sont quun chantillon dune population plus grande, et donc ne reprsentent pas parfaitement la population. Il faut donc : trouver un compromis entre la complexit du modle, et son pouvoir de gnralisation.

Le sur-apprentissage

Le phnomne du sur-apprentissage

Le dilemme biais-variance

Dun point de vue statistique : le phnomne du sur-apprentissage est li au dilemme biais-variance puisque, un modle trs simple prsente le plus souvent du biais mais peu de variabilit, un modle trs complexe est souvent sans biais mais prsente beaucoup de de variabilit. Il faut donc choisir entre : peu de biais modle complexe, peu de variance modle simple.

Le dilemme biais-variance

Le phnomne du sur-apprentissage

La taille de lchantillon dapprentissage

La taille de lchantillon dapprentissage : joue galement un rle important dans ltape dapprentissage, puisquun petit chantillon (n < 102 ) reprsentera beaucoup moins bien la population, quun chantillon de taille plus consquente (n > 106 ). Cela inue videmment sur : la qualit de prdiction, la qualit de gnralisation.

La taille de lchantillon dapprentissage

Inuence de la taille de lchantillon dapprentissage

Les solutions

Cas du sur-apprentissage : diviser en jeu dapprentissage et de validation (simple), utiliser la validation croise (leave-one leave-out, ...), comparer les modles / les mthodes. Cas du petit chantillon dapprentissage : il faut augmenter articiellement la taille du jeu dapprentissage, grce aux techniques de rchantillonage (bootstrap, jacknife, ...).

La validation croise

La validation croise : technique destimation du taux derreur par rchantillonage, se base sur les mthodes du bootstrap, du jacknife, ... le paramtre estimer est le taux derreur ! Processus gnral : on cre b chantillons apprentissage / validation, on apprend le prdicteur sur les b chantillons dapprentissage, et on calcule le taux derreur sur les b chantillons de validation associs, on obtient ainsi une estimation able du taux derreur.

La validation croise

La technique leave one leave out

Le leave one leave out : est la limite suprieure de la validation croise, car lchantillon de validation est rduit un seul point ! La mthode : pour i = 1, ..., n
apprendre le prdicteur sur X priv de xi , puis classer xi avec ce prdicteur, calculer lerreur ei {0, 1}.

lestimation de lerreur e est la moyenne des ei .

Les outils pour comparer des mthodes

Quand on dispose de plusieurs mthodes de discrimination : il est intressant de savoir laquelle est la meilleure, mais, certaines ont des qualits spciques :
sensibilit, spcicit,

qui peuvent tre intressantes dans certaines applications. Les outils : les courbes ROC les courbes de lift, les indicateurs associs.

Sensibilit et spcicit
Considrons le cas de deux classes : la classe des positifs (P), la classe des ngatifs (N), un classieur muni dun seuil de classication s. Sensibilit et spcicit : la sensibilit (s) est la probabilit de bien dtecter un positif, la spcicit (s) est la probabilit de bien dtecter un ngatif. Pour un classieur : on cherche s qui maximise (s) et qui minimise 1 (s), le meilleur modle est celui qui fait le plus de vrais positifs avec le moins de faux positifs.

Les courbes ROC


La courbe Receiver Operating Characteristic (ROC) : invente durant la seconde guerre mondiale pour dtecter sur les radars les avions amis des avions ennemis, de nos jours, trs utilise dans les secteurs risques. Tracer la courbe ROC : sur laxe des Y : la sensibilit (s ) = #V P , P

il sagit du taux de vrais positifs, sur laxe des X : 1 - la spcicit 1 (s) = il sagit du taux de faux positifs. #F P , N

Les courbes ROC

Les courbes ROC

Les courbes de lift


La courbe de lift : courbe qui a un lien fort avec la courbe ROC, mais qui est plus utilise dans certains domaines (marketing). Tracer une courbe de lift : sur laxe des Y : la sensibilit (s ) = #V P , P

il sagit du taux de vrais positifs, sur laxe des X : le pourcentage dindividus en dessous du seuil.

Les courbes ROC et de lift

Une mesure globale : laire sous la courbe (AUC) cette mesure prsente lintrt de rsumer linformation, permet de comparer deux mthodes entre elles, possde des proprits thoriques intressantes. Cependant : lAUC nest pas aussi indicatrice quune tude prcise de la courbe, doit tre utilis avec prudence !

Les courbes ROC et de lift

Exercice : on les rsultats suivants : Ind. Vrit Score 1 P .1 2 P .2 3 N .3 4 P .4 5 N .5 6 P .6 7 N .7 8 P .8 9 N .9 10 N 1

Q1 : construisez la courbe ROC associe. Q2 : calculez laire sous la courbe ROC ainsi construite.

Plan du cours
1 2 3 4 5 6 7 8

Introduction Principe et mthodes du Data Mining Mthodes descriptives Mthodes exploratoires Mthodes prdictives Evaluation des rsultats et des algorithmes Logiciels de Data Mining Data Mining et liberts

Logiciels de Data Mining


Il existe de nombreux logiciels de Statistique/Data Mining sur PC : faciles installer et pas trs chers, avec des algorithmes de bonne qualit, gnralement conviviaux, bons pour des PME car pouvant grer plusieurs dizaines de milliers voire plusieurs centaines de milliers dindividus S-PLUS de Insight, Alice de Isoft, Predict de Neuralware, R (version libre de S-PLUS) et les freewares Weka et TANAGRA . . . Cependant : ils ne permettent pas de traiter exhaustivement de trs grandes bases de donnes, ils ne mettent souvent en uvre quune ou deux techniques, sauf quelques produits tels S-PLUS, R, Tanagra et Weka.

Les gros logiciels de Data Mining


Certains gros logiciels sont conus : pour exploiter de grands volumes de donnes, pour couvrir une large palette de techniques, ils existent parfois en version statistique ou data mining (le 2nd tant parfois une sur-couche du 1er), ils peuvent fonctionner en mode client-serveur Il sagit de : SPSS et Clementine de SPSS, SAS/STAT et Enterprise Miner de SAS, Statistica Data Miner de StatSoft, S-PLUS et Insightful Miner de Insightful.

Statistique vs. Data Mining

Logiciels de Data Mining

Logiciels de Data Mining

Logiciels de Data Mining

Logiciels de Data Mining

Logiciels de Data Mining

Logiciels de Data Mining

Logiciels de Data Mining

Logiciels de Data Mining

Les OS du Data Mining

Les types de donnes utiliss

Les logiciels de prtraitement utiliss

Comment choisir un logiciel de Data Mining ?


Varit des algorithmes de data mining, de statistique et de prparation des donnes : il est plus simple davoir tout dans un seul outil, les outils de visualiation sont un plus non ngligeable. Qualit des algorithmes implments : algorithmes ecaces et facilement paramtrables, documentation solide. Capacit de traitement des donnes : peut tre cruciale partir de plusieurs centaines de milliers dindividus traiter, la capacit de traiter des donnes htrognes est apprciable. Autres points importants : existence dun langage de programmation volu, convivialit du logiciel et facilit produire des rapports, et bien sr ... le prix !

Quest-ce quun bon logiciel de Data Mining ?


Algorithmes de statistique et de data mining : classement : analyse discriminante linaire, rgression logistique binaire ou polytomique, modle linaire gnralis, rgression logistique PLS, arbres de dcision, rseaux de neurones, k-plus proches voisins, ... prdiction : rgression linaire, modle linaire gnral, rgression robuste, rgression non-linaire, rgression PLS, arbres de dcision, rseaux de neurones, + proches voisins, . . . clustering : centres mobiles, nues dynamiques, k-means, classication hirarchique, mthode mixte, rseaux de Kohonen, ... analyse des sries temporelles, analyse de survie, dtection des associations.

Quest-ce quun bon logiciel de Data Mining ?

Fonctions de prparation des donnes : manipulation de chiers (fusion, agrgation, transposition. . . ), visualisation des individus, coloriage selon critre, dtection, ltrage et winsorisation des extrmes, analyse et imputation des valeurs manquantes, transformation de variables (recodage, standardisation, normalisation automatique, discrtisation. . . ), cration de nouvelles variables (fonctions logiques, chanes, statistiques, mathmatiques. . . ), slection des discrtisations, des interactions et des variables les plus explicatives.

Quest-ce quun bon logiciel de Data Mining ?


Fonctions statistiques : dtermination des caractristiques de tendance centrale, de dispersion, de forme, . . . tests statistiques de moyenne, de variance, de distribution, dindpendance, dhtroscdasticit, de multicolinarit. . . Fonctions dchantillonnage et de partition des donnes : pour crer des chantillons dapprentissage, de test et de validation, bootstrap, jackknife (validation croise). Fonctions danalyse exploratoire des donnes : ACP, ACP avec rotation, AFC, ACM. Langage avanc de programmation : macros, calcul matriciel.

Quest-ce quun bon logiciel de Data Mining ?


Prsentation des rsultats :
1 2 3 4 5 6 7

visualisation des rsultats, manipulation des tableaux, bibliothque de graphiques (2D, 3D, interactifs. . . ), navigation dans les arbres de dcision, achage des courbes de performances (ROC, lift, gain. . . ), indice de Gini, aire sous la courbe ROC, facilit dincorporation de ces lments dans un rapport. variables dnies identiquement pour tous les chiers du projet (identiant, cible, exclusions. . . ), dnition de groupes de variables.

Gestion des mtadonnes :

Quest-ce quun bon logiciel de Data Mining ?


Plates-formes supportes : Windows, Mac, Linux, Unix, Sun, ... Formats dentre/sortie des donnes grs : tables Oracle, Sybase, DB2, SAS, chiers Excel, plat, ... Pour plus de puissance : architecture client-serveur : calculs sur le serveur et visualisation des rsultats sur le client, algorithmes parallliss, Autres points : excution en mode interactif ou dir, portabilit des modles construits (C, XML, Java, SQL...)

Comment bien travailler avec un logiciel ?


Travailler sur des chiers structurs : chiers SAS, SPSS, DB2, ... plutt que des chiers plat. Travailler avec un OS qui sache grer ecacement les processus : Linux, Mac, Unix et Sun, et pas Windows ! Travailler uniquement avec ce qui est utile : limiter le chier analys aux variables utiles au traitement en cours par des slections judicieuses, recoder les variables pour diminuer leur taille, bien dnir la longueur des variables utilises en la limitant au strict minimum, pr-allouer la taille mmoire des variables, tables et matrices. Attention si on accde un rseau distant pour le chier analys ou pour lespace temporaire de travail !

Plan du cours
1 2 3 4 5 6 7 8

Introduction Principe et mthodes du Data Mining Mthodes descriptives Mthodes exploratoires Mthodes prdictives Evaluation des rsultats et des algorithmes Logiciels de Data Mining Data Mining et liberts

Data Mining et liberts


Comme tout traitement informatique de donnes sur des personnes physiques, le Data Mining obit en France un certain nombre de rgles, dictes dans ces textes : la loi n 78-17 du 6 janvier 1978 relative linformatique, aux chiers et aux liberts, les dlibrations de la Commission Nationale de lInformatique et des Liberts (CNIL), la Convention n 108 du Conseil de lEurope du 28/1/1981, la loi n 2004-801 du 6 aot 2004 relative la protection des personnes physiques lgard des traitements de donnes caractre personnel, transposant en droit franais la directive europenne 95/46/CE, en modiant la loi n 78-17. On trouve ces rgles sur le site de la CNIL : www.cnil.fr

Champs dapplications des textes


Informations nominatives : dites galement donnes caractre personnel, cest--dire les donnes concernant les personnes physiques identies ou identiables, ne sont pas concerns les chiers de personnes physiques rendues anonymes par la suppression de tout identiant, sont concerns les chiers dentreprises unipersonnelles. Traitements informatiques de ces informations : mme ceux qui se bornent les collecter et les enregistrer, en dehors de toute mise en uvre ou de toute exploitation (article 5 de la loi 78-17).

Donnes illgales ?

Ne doivent tre, sauf cas particulier, ni traites ni mme collectes, les informations sur : les origines raciales, les opinions politiques, philosophiques ou religieuses, les appartenances syndicales, les murs, la sant, les condamnations pnales, NIR : n dinscription au rpertoire national didentication des personnes physiques.

Droits des personnes

Les personnes physiques ont le droit que les informations nominatives les concernant soient : lgalement utilisables, loyalement collectes, stockes en scurit, communiques aux seuls tiers autoriss, recties si besoin est, enregistres pour des nalits dtermines et lgitimes par rapport auxquelles elles sont pertinentes et non excessives, eaces au bout dun certain dlai (correspondant la nalit du traitement dclar).

Droits des personnes

De faon gnrale, les personnes physiques : doivent avoir connaissance des destinataires des informations nominatives quelles fournissent, de leur droit daccs et de rectication, et, le cas chant, de la possibilit de ne pas rpondre aux questions facultatives (droit dinformation), doivent avoir connaissance de la cessibilit dinformations nominatives les concernant avec une nalit identique celle dorigine, doivent avoir connaissance de la cessibilit dinformations nominatives les concernant avec une nalit dirente de celle dorigine (prospection commerciale par exemple) et doivent les accepter expressment.

Droits des personnes

De faon gnrale, les personnes physiques : peuvent avoir connaissance ( leur demande) des informations nominatives mmorises les concernant, de lexistence et de la nalit dun traitement informatique les concernant (articles 22 et 34) (droit daccs), peuvent sopposer, pour des raisons lgitimes, un traitement informatique dinformations nominatives les concernant (article 26) (droit dopposition), ne peuvent pas exiger davoir connaissance du dtail du traitement, moins (article 3) que ces traitements fondent une dcision quelles contestent.

Dclaration pour une tude de Data Mining


La dclaration faire la CNIL pralablement la mise en uvre dun nouveau traitement automatis de donnes caractre personnel est : soit une dclaration simplie, qui nexige quun minimum dinformations, mais lengagement que la dclaration soit strictement conforme lune des normes simplies en vigueur, soit une dclaration ordinaire, dans les autres cas. Les dclarations de sites Web peuvent tre faites en ligne. La CNIL : a reu 69 352 dclarations de traitement en 2003, son chier des chiers recensait 941 076 traitements n 2003.

La loi 2004-801
Abolit la distinction entre secteurs public et priv : hormis les traitements publics lis la scurit, le secteur public nest plus le seul devoir requrir lautorisation pralable de la CNIL dans certains cas. Instaure une distinction entre traitements sensibles ou non : traitements sensibles : demande dautorisation pralable, autres traitements : dclaration simple certains cas : exonration de dclaration (paie du personnel, ...). Un traitement peut tre dit sensible en raison de : la nature des donnes (NIR, donnes biomtriques, gntiques, sensibles, relatives aux condamnations...), lampleur des traitements (totalit de la population franaise), la nalit des traitements (scoring, exclusion du bnce dun droit, listes noires , interconnexion de chiers...).

La loi 2004-801

Cre les correspondants la protection des donnes (CPO) dans les entreprises (article 22): chargs de tenir le registre des traitements mis en uvre et dassurer le respect des obligations lgales, non obligatoires pour lentreprise, dispensent lentreprise des dclarations mais non des autorisations pralables de traitements sensibles, nomms par lentreprise sans accrditation de la CNIL, pourront tre choisis au sein ou lextrieur de lentreprise, devront jouir dune certaine indpendance dans lentreprise.

Pouvoirs de la CNIL

Avec la loi 2004-801, la CNIL dispose des droits suivants : accder tout local professionnel servant lexploitation dun chier, rendre publics ses avertissements, iniger des amendes jusqu 150 000 (300 000 en cas de rcidive), au lieu de se limiter dnoncer les infractions au Parquet, retirer une autorisation dj donne, interdire un traitement pendant une dure max de 3 mois.

Cas du scoring
Un score de risque : doit faire lobjet dune dclaration ordinaire et pas seulement dune dclaration simplie. Cette dclaration doit indiquer : les variables utilises, les paramtres du score, et les grilles de pondration. Aucune dcision accordant ou refusant un crdit ne peut avoir pour seul fondement un traitement automatis dinformations donnant une dnition du prol ou de la personnalit de lintress. Toute personne laquelle un refus de crdit est oppos : bncie du droit daccs aux informations utilises lors de lexamen de sa demande (y compris sa note de score), et peut, le cas chant, en exiger la rectication.

Cas de la segmentation de clientle


La CNIL admet laectation des clients en segments de clientle, sous les rserves suivantes : informations collectes adquates, pertinentes et non excessives , droit daccs aux informations, mise jour priodique de laectation un segment, non-automaticit et non-inluctabilit des dcisions en dcoulant, non-cession de ces informations des tiers non autoriss. Les segments ne doivent pas comporter : de qualicatifs pjoratifs, dfavorables ou subjectifs sur les catgories dindividus, sont en revanche admises les catgories : vivant crdit , clients aiss et gs , petits pargnants .

You might also like