You are on page 1of 104

(c) 2009 Giorgio Pauletto

1
Mthodes statistiques et data mining
Giorgio Pauletto
pauletto[at]stanfordalumni[dot]org
Haute cole de Gestion
19 fvrier 2009
(c) 2009 Giorgio Pauletto
2
Plan

Introduction, motivation,
statistiques descriptives
18:1520:00

Pause
20:0020:20

Aperu de mthodes statistiques:


classification, clustering, rgression
20:2021:30
(c) 2009 Giorgio Pauletto
3
Bibliographie

Hand D., Mannila H., Smyth P. (2001) Principles of Data Mining.


MIT Press.

Tan P., Steinbach M., Kumar V. (2005) Introduction to Data


Mining. Addison-Wesley.

Wikipedia

Tukey, J.W. (1977) Exploratory Data Analysis. Addison-Wesley.

Berry M.J.A., Linoff G.S. (2004) Data Mining Techniques. Wiley.

Berthold M., Hand D. (eds) (2003) Intelligent Data Analysis.


Springer.

Hastie T., Tibshirani R., Friedman J. (2001) The Elements of


Statistical Learning. Springer.
(c) 2009 Giorgio Pauletto
4
Software

R Development Core Team. R: A language and environment


for statistical computing. R Foundation for Statistical
Computing, Vienna, Austria.
http://www.r-project.org/

RapidMiner (formerly YALE). Includes Weka operators.


http://rapid-i.com/

Weka Machine Learning Project. Weka: Data Mining Software


in Java. The University of Waikato, New Zealand.
http://www.cs.waikato.ac.nz/~ml/
Free/Open Source software, Multi-platform (Linux, Windows, Mac)
(c) 2009 Giorgio Pauletto
5
Partie 1: Introduction, motivation
(c) 2009 Giorgio Pauletto
6
Motivation

Croissance de la capacit de stockage

Croissance de la puissance de calcul

Croissance de la bande passante

Amlioration des algorithmes et de la


recherche

Besoins accrus d'avoir une vue globale


synthtique en temps rel

Demandes des entreprises, des gouvernements


et bientt aussi des individus
(c) 2009 Giorgio Pauletto
7
Pourquoi utiliser le data mining?

Croissance des bases de donnes


http://www.filetek.com/papers/perfect_storm/wp_PS_02.htm
(c) 2009 Giorgio Pauletto
8
Ordres de grandeur

Kilobyte = 1'000 bytes, O(10


3
)

2 KB = une page de texte dactylographi

100 KB = une image basse rsolution

Megabyte = 1'000'000 bytes, O(10


6
)

1 MB = une disquette 3.5pouces; un roman de 500 pages

2 MB = une photo haute rsolution 1000 1000 8 bits couleur

5 MB = oeuvres compltes de Shakespeare; une chanson MP3 128 kb/s

100 MB = 1 mtre de livres poss sur une tagre

800 MB = un CD-ROM
http://www2.sims.berkeley.edu/research/projects/how-much-info-2003/index.htm
(c) 2009 Giorgio Pauletto
9
Ordres de grandeur

Gigabyte = 1'000'000'000 bytes, O(10


9
)

2 GB une camionnette remplie de livres

5 GB un DVD simple couche

20 GB une collection des oeuvres de Beethoven, DVD Blue Ray

100 GB un tage de bibliothque de journaux scientifiques

200 - 500 GB un disque dur

Terabyte = 1'000'000'000'000 bytes, O(10


12
)

1 TB 50'000 arbres transforms en papier et imprims

2 TB une bibliothque universitaire moyenne

20 TB librairie du Congrs US

400 TB ensemble donnes climatiques NCDC / NOAA


(c) 2009 Giorgio Pauletto
10
Ordres de grandeur

Petabyte = 1'000'000'000'000'000 bytes, O(10


15
)

1 PB 3 ans d'observations satellitaires de la Terre (EOS 2001)

2 PB toutes le bibliothques acadmiques amricaines

15 PB donnes par an issues du LHC du CERN

20 PB production mondiale de disques durs 1995

200 PB tous les documents imprims dans le monde

Exabyte = 1'000'000'000'000'000'000 b, O(10


18
)

2 EB volume total de l'information mondialement gnre en 1999

5 10
18


nombre total de mots prononcs par
les tres humains
(c) 2009 Giorgio Pauletto
11
Ordres de grandeur

Zettabyte = O(10
21
)

70 10
21
nombre d'toiles de l'univers observable

100 10
21
nombre de grains de sable sur Terre

Yottabyte O(10
24
)
(c) 2009 Giorgio Pauletto
12
Puissance de calcul
Courtesy of Ray Kurzweil
and Kurzweil
Technologies, Inc.
http://en.wikipedia.org/wik
i/Image:PPTMooresLawai
.jpg
(c) 2009 Giorgio Pauletto
13
Une spirale de croissance

Loi de Moore: le nombre de


transistors sur un processeur
double tous les 2 ans
Gordon Moore, ex CEO de Intel

Loi de Kryder: la densit des


supports magntiques double
chaque anne
Mark Kryder, ex CTO Seagate

Loi de Butter: la bande


passante des fibres optiques
double tous les 9 mois
Gerald Butter, ex dir Lab Opt Lucent
(c) 2009 Giorgio Pauletto
14
Interactif

Parmi les bases de donnes des organisations


suivantes, choisissez les trois les plus grandes
ainsi que la moins grande

Expliquez votre rponse

Estimez la taille des bases de donnes

Google, Librairie du congrs amricain, Sprint,


CIA, YouTube, ChoicePoint, AT&T, Centre
mondial du climat, Internet Archive, Amazon

NB: Rponses estimes en 2007


(c) 2009 Giorgio Pauletto
15
#10 Library of Congress

130 million items (books, photos, maps, etc)

29 million books

10,000 new items added each day

530 miles of shelves

5 million digital documents

20 terabytes of text data


Top 10 source
http://www.businessintelligencelowdown.com/2007/02/top_10_largest_.html
(c) 2009 Giorgio Pauletto
16
#9 Central Intelligence Agency

100 Freedom of Information Act items added


each month

Comprehensive statistics on more than 250


countries and entities

Unknown number of classified information


(c) 2009 Giorgio Pauletto
17
#8 Amazon

59 million active customers

250,000 full text books

Users comments, forums, wishlists, etc.

Food, clothing, electronics, home furniture,


toys, tools, ...

More than 42 terabytes of data


(c) 2009 Giorgio Pauletto
18
#7 YouTube

100 million videos watched per day

65,000 videos added each day

60% of all videos watched online

At least 45 terabytes of video

Recently bought by Google


(c) 2009 Giorgio Pauletto
19
#6 Choicepoint

250 terabytes of personal data

Information on 250 million people mainly US

Addresses, phone numbers, driving records,


criminal histories, etc.

Data sold to the highest bidders

Able to identify 9/11 victims by matching DNA


in bone fragments to information provided by
victim's family members in conjunction to data
found in their databases
(c) 2009 Giorgio Pauletto
20
#5 Sprint

One of the world's largest telecommunication


companies as it offers mobile services to more
than 53 million subscribers

2.85 trillion database rows

365 million call detail records processed per


day

At peak, 70,000 call detail record insertions


per second
(c) 2009 Giorgio Pauletto
21
#4 Google

91 million searches per day

50% of all internet searches

33 trillion database entries estimated

Cache copies of pages, images, documents

Virtual profiles of countless number of users

Growing services: Gmail (2.5 GB/user),


Blogger, Documents and spreadsheets, Ads,
Calendar, Video, Maps, etc.
(c) 2009 Giorgio Pauletto
22
#3 AT&T

Oldest US telecommunication company

323 terabytes of information

1.9 trillion phone call records

Largest volume of data in one unique database


and the second largest number of rows in a
unique database

If you ever made a call via AT&T less than 10


years ago, chances are they still got your
information somewhere.
(c) 2009 Giorgio Pauletto
23
#2 NERSC
#2 Internet Archive

National Energy
Research Scientific
Computing Center

2.8 petabytes of data

Operated by 2,000
computational
scientists

Wayback machine

2 petabytes of data

Growing at 20
terabytes per month
(c) 2009 Giorgio Pauletto
24
#1 World Data Centre for Climate

220 terabytes of web data

6 petabytes of additional data


(c) 2009 Giorgio Pauletto
25
Qu'est-ce que le data mining ?

C'est un processus automatis d'analyse


exploratoire et de modlisation prdictive sur
des grands ensembles de donnes.

Le data mining est l'analyse de grands


ensembles de donnes observes afin de
dcouvrir et de rsumer des relations de faon
nouvelle qui soient comprhensibles et utiles
leur propritaire.
Hand, Mannila, Smyth (2001)
(c) 2009 Giorgio Pauletto
26
Qu'est-ce que le data mining ?

Intersection de plusieurs disciplines


Analyse donnes
Statistiques
Gestion bases donnes
Calcul scientifique
Intelligence artificielle
Apprentissage automatique
Visualisation de donnes
Reconnaissance de formes
Gestion des systmes d'information
Gestion des connaissances
Business intelligence
Data mining
(c) 2009 Giorgio Pauletto
27
Terminologie

Data Mining

Knowledge Discovery in Databases (KDD)

Business Intelligence (BI)

Fouille de donnes

Extraction de connaissances

Exploration de donnes

...
(c) 2009 Giorgio Pauletto
28
Donne
Information
Connaissance
Intelligence
Savoir
Humain
Machine
Contexte
Sens
Appropriation
Utilisation
Partage
(c) 2009 Giorgio Pauletto
29
A quoi a sert ?

Gestion de la relation client (GRC)


Customer Relationship Management (CRM)

Vision unifie du client de l'entreprise pour mieux le servir

Marketing direct, Vente croise

A quels clients dois-je offrir un nouveau service ?

Quels autres produits puis-je offrir mon client avec le plus de


succs ?

Rtention de clientle (churn, attrition)

Quels clients sont prts fuir chez un concurrent ?


(c) 2009 Giorgio Pauletto
30
A quoi a sert ?

Dtection de fraudes

Quels comportements d'achat par carte de crdit sont suspects ?

Peut-on reprer les cas de fraude fiscale ?

Quels messages emails sont des spams ?

Dtection d'intrusions (ou de tentatives) sur un site Web ou un


systme informatique

Scoring

Quelle est la tarification adapte pour un certain type


d'acheteur ?
(c) 2009 Giorgio Pauletto
31
A quoi a sert ?

Aide la dcision

Quels diagnostics mdicaux sont les plus probables avec tels


symptmes ?

Fourniture de meilleurs services

Demandes de subsides pour les chmeurs qui sont les plus


susceptibles d'avoir des difficults retrouver un emploi
(c) 2009 Giorgio Pauletto
32
Aspects lgaux

La sphre prive et la personnalit sont


protges en Suisse

Prpos fdral la protection des donnes et


la transparence

Constitution Art. 13 et Code Civil Art. 28 :


toute personne a le droit dtre protge
contre lemploi abusif des donnes qui la
concernent
(c) 2009 Giorgio Pauletto
33
Aspects lgaux

Loi sur la protection des donnes (LPD) et


ordonnance relative

Art. 3 a : donnes personnelles (donnes),


toutes les informations qui se rapportent
une personne identifie ou identifiable

Pratiquement toutes les donnes personnelles


peuvent tre considres comme sensibles

Droit d'tre renseign sur ses propres donnes

Aspects thiques !
(c) 2009 Giorgio Pauletto
34
Processus de data mining
CRoss-Industry Standard Process for
Data Mining
Adapt de CRISP-DM 1.0
http://www.crisp-dm.org/
(c) 2009 Giorgio Pauletto
35
Processus de data mining
Comprhension du mtier
Cette premire phase est essentielle et doit permettre de comprendre les
objectifs et les besoins mtiers afin de les intgrer dans la dfinition du
projet DM et de dcliner un plan permettant de les atteindre et les
satisfaire.
Comprhension des donnes
Il sagit de collecter et de se familiariser avec les donnes disposition. Il
faut galement identifier le plus tt possible les problmes de qualit des
donnes, dvelopper les premires intuitions, dtecter les premiers
ensembles et hypothses analyser.
(c) 2009 Giorgio Pauletto
36
Prparation des donnes
Cette phase comprend toutes les tapes permettant de construire le jeu de
donnes qui sera utilis par le(s) modle(s). Ces tapes sont souvent
excutes plusieurs fois, en fonction du modle propos et du retour des
analyses dj effectues. Il sagit entre autres dextraire, transformer,
mettre en forme, nettoyer et de stocker de faon pertinente les
donnes. La prparation des donnes peut constituer environ 60 70% du
travail total.
Modlisation
Cest ici quentrent en jeu les mthodologies de modlisation issues
notamment de la statistique. Les modles sont souvent valids et
construits avec laide danalystes du ct mtier et dexperts en
mthodes quantitatives. Il y a dans la plupart des cas plusieurs faons de
modliser le mme problme de DM et plusieurs techniques pour arriver
ajuster au mieux un modle aux donnes. La boucle de feedback vers les
points prcdents est frquemment utilise pour amliorer le modle.
(c) 2009 Giorgio Pauletto
37
valuation du modle
Une fois arrivs cette phase, un ou plusieurs modles sont construits. Il faut
sassurer que les rsultats sont jugs satisfaisants et sont cohrents
notamment vis--vis des objectifs mtier.
Utilisation du modle
La mise au point du modle nest pas la fin du processus de DM. Une fois les
connaissances extraites des donnes, elles doivent encore tre
organises et prsentes de faon les rendre utilisables par les
destinataires. Cela peut tre aussi simple que de fournir une synthse
descriptive des donnes ou aussi complexe que de mettre en oeuvre un
processus complet de fouille de donnes pour lutilisateur mtier final. Il
est nanmoins toujours important que lutilisateur comprenne les limites
des donnes et de lanalyse pour que ses interprtations et ses
dcisions soient judicieuses.
(c) 2009 Giorgio Pauletto
38
Questions ?
(c) 2009 Giorgio Pauletto
39
Statistiques descriptives
(c) 2009 Giorgio Pauletto
40

D'aprs John W. Tukey on passe constamment


entre deux approches en statistiques:
les statistiques exploratoires et
les statistiques confirmatoires
Far better an approximate answer to the right question,
which is often vague, than the exact answer to the
wrong question, which can always be made precise.
(c) 2009 Giorgio Pauletto
41
Donnes

Les donnes sont un ensemble de mesures


fournies par un processus qui les gnre

En gnral, on observe n individus sur un


certain nombre de variables p

On range souvent ces donnes sous forme d'un


tableau avec n lignes et p colonnes
(c) 2009 Giorgio Pauletto
42
ID Age Sexe Etat civil Education Revenu
248 54 M Mari Post oblig 100000
249 ?? F Mari Post oblig 12000
250 29 M Mari Universit 23000
251 9 M Clibataire Scolaris 0
252 85 F Clibataire Post oblig 19798
253 40 M Mari Post oblig 40100
254 38 F Clibataire Obligatoire 2691
255 7 M ?? Scolaris 0
256 49 M Mari Post oblig 30000
257 76 M Mari Universit 30686
Variable, attribut
Individu, observation, objet
Valeur manquante
Donne suspecte
(c) 2009 Giorgio Pauletto
43
Nature des donnes

Variables quantitatives

Valeurs numriques et sommables, discrtes ou


continues
Ex: 18, 7654.43, -0.762, 0, 9999

Variables qualitatives

Ordinales
Ex: petit, moyen, grand, trs grand

Nominales (catgories ou modalits)


Ex: fminin, masculin
clibataire, mari, divorc, veuf
(c) 2009 Giorgio Pauletto
44
Nature des donnes

Textes

Corpus documentaires, bases de connaissances,


sites web (blogs, forums), etc.

Ex: PageRank de Google

Transactions

Liste d'achats, visites de sites web, mouvements


de fonds, etc.

Ex: Amazon, cartes de fidlit

Multimdia: images, sons, vidos


(c) 2009 Giorgio Pauletto
45
Nature des donnes

Donnes exprimentales vs donnes observes

Contrle, plans d'expriences

Donnes non reproductibles

Population vs chantillon
(c) 2009 Giorgio Pauletto
46
Statistiques descriptives

Caractristiques de tendance centrale

Moyenne: somme des valeurs divise par leur nombre

Mdiane: valeur qui partage l'effectif en deux

(Mode: valeur la plus frquente, utile pour les donnes nominales)

Caractristiques de dispersion

Variance et cart-type:

x =
1
n

i =1
n
x
i
s
2
=
1
( n1)

i =1
n
( x
i

x)
2
s =
.
s
2
(c) 2009 Giorgio Pauletto
47
Exemple

Donnes: 2, 3, 4, 5, 2

Moyenne: (2 + 3 + 4 + 5 + 2) / 5 = 16/5 = 3.2

Mdiane: ordre croissant 2, 2, 3, 4, 5

Mode: valeur la plus frquente 2

Variance:
((2 - 3.2)
2
+ (3 - 3.2)
2
+ (4 - 3.2)
2
+ (5 - 3.2)
2
+ (2 - 3.2)
2
)/(5-1) =
((-1.2)
2
+ (-0.2)
2
+ (0.8)
2
+ (1.8)
2
+ (-1.2)
2
) / 4 =
(1.44 + 0.04 + 0.64 + 3.24 + 1.44) / 4 = 6.8 / 4 = 1.7

cart-type: 1.7 = 1.3038


(c) 2009 Giorgio Pauletto
48
Exemple

Pour pouvoir comparer des variables qui sont


dans des chelles diffrentes et qui ont des
moyennes diffrentes on standardise les
variables.
(2 3 4 5 2)

Centrer: Enlever la moyenne


(-1.2 -0.2 0.8 1.8 -1.2)

Rduire: Diviser par l'cart-type


(-0.920358 -0.153393 0.613572 1.380537 -0.920358)
x
c
= x

x
x
r
=
x
c
s
(c) 2009 Giorgio Pauletto
49
Autre exemple
[1] 4.74279234 8.90074709 7.06175647 2.80194483 4.19497661 4.30344155
[7] 5.58483474 2.30323484 5.66284107 4.40083221 3.36392437 3.99950448
[13] 3.84358469 4.08730476 8.99779318 4.72991012 4.25692068 4.57993247
[19] 6.50889816 2.92288236 9.20517739 4.29231163 3.39349137 8.87978777
[25] 5.21750942 1.23355214 3.56117390 3.06277902 5.16581773 6.51331144
[31] 7.65417446 3.06673214 6.85696290 6.23328467 4.65693313 3.89305573
[37] 6.25453751 5.52968492 5.93383069 1.20633128 8.16230204 3.58200150
[43] 4.32520576 3.71162361 6.43827240 5.93904064 3.17376193 3.91862340
[49] 6.38859032 7.02370090 7.64838419 6.65913238 2.23316516 4.86409606
...
[991] 3.26833660 3.10757379 3.68926328 6.29135011 2.90976308 3.93447886
[997] 2.36438509 7.11194721 8.43741944 2.98630325
(c) 2009 Giorgio Pauletto
50
Comment dcrire ces donnes ?

Moyenne: 4.9859

Mdiane: 4.9915

cart-type: 2.01114

?
(c) 2009 Giorgio Pauletto
51
-2 0 2 4 6 8 10 12
0
.
0
0
0
.
0
5
0
.
1
0
0
.
1
5
0
.
2
0
x
| | | | || | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | || | | | | | | | | | | | | | | || | | | | | | | | | | | | | | | | | | | | | || | | | | | | | | | | | | | | | | | | | | | | | | | | | | | || | | | | | | | || | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | || | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | || | | | | | | | | | | || | | | | | | | | | | | | | | || | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | || | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | || | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | || | | | | || | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | || | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | || | | | | | | | | | | | | | | | | | | | | | | | | | | | || | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | || | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | || | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | || | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | || | | | | | | | | | | | | |
| | | | | | | | |
Min q1 Mdiane Moyenne q3 Max
-1.477 3.724 5.014 5.006 6.323 11.110
(c) 2009 Giorgio Pauletto
52
Reprsentations graphiques

Box plot

Histogramme

Diagramme en btons

Diagramme de dispersion
(c) 2009 Giorgio Pauletto
53
Box plot

Rsum 5 valeurs

Mdiane

1er et 3e quartiles
q1, q3

Min et Max

1.5 fois intervalle


interquartile
(q3 q1)
X1 ~ N(0,1)
X2 ~ N(1,1)
X3 ~ N(0,0.5)
X4 ~ Chi2(1) 1 2 3 4
-
4
-
2
0
2
4
6
8
(c) 2009 Giorgio Pauletto
54
Histogramme

Surface
proportionnelle
aux frquences

Pas d'espace
entre les
rectangles

Nombre de
classes
choisir
Histogram of x1
x1
F
r
e
q
u
e
n
c
y
-4 -2 0 2
0
5
0
1
0
0
2
0
0
Histogram of x2
x2
F
r
e
q
u
e
n
c
y
-2 0 2 4
0
5
0
1
0
0
2
0
0
Histogram of x3
x3
F
r
e
q
u
e
n
c
y
-2 -1 0 1 2
0
1
0
0
2
0
0
3
0
0
Histogram of x4
x4
F
r
e
q
u
e
n
c
y
0 2 4 6 8
0
2
0
0
4
0
0
6
0
0
(c) 2009 Giorgio Pauletto
55
Diagramme en btons

Utile pour les


variables
discrtes ou
catgorielles
A B C D E
0
1
2
3
4
5
(c) 2009 Giorgio Pauletto
56
Cleveland Dot Plots

Aussi appel
Dot Chart
A
B
C
D
E
2.0 2.5 3.0 3.5 4.0 4.5 5.0
(c) 2009 Giorgio Pauletto
57
Diagramme de dispersion
-2 -1 0 1 2 3 4
-
3
-
2
-
1
0
1
2
3
x2
x
3
-3 -2 -1 0 1 2 3
-
2
0
2
4
6
8
x1
3

+

1
.
5

*

x
1

+

r
n
o
r
m
(
1
0
0
0
)
Problme de surimpression
(c) 2009 Giorgio Pauletto
58
(c) 2009 Giorgio Pauletto
59
Corrlation

Mesure de l'association linaire entre deux


variables

Covariance:

Corrlation:
cov( x , y) =
1
( n1)

i =1
n
( x
i

x)( y
i

y)
j( x , y) =
cov( x , y)
s
x
s
y
(c) 2009 Giorgio Pauletto
60
Matrice de diagrammes
(c) 2009 Giorgio Pauletto
61
http://en.wikipedia.org/wiki/Image:Corr-example.png
(c) 2009 Giorgio Pauletto
62
Exemple de Anscombe, corrlation = 0.81
(c) 2009 Giorgio Pauletto
63
Coordonnes parallles

Utile pour
reprsenter plus
de 3 variables

Influence de
l'ordre

Influence de
l'chelle
(c) 2009 Giorgio Pauletto
64
Incertitude

Variable alatoire
X comportement inconnu, x sa ralisation

Densit
f(x) dcrit la densit de probabilit de X
F(x) est appele distribution de probabilit de X
P( X a) =

a
f ( x)dx = F(a)
f ( x)0 , P(aX b)=

a
b
f ( x) dx ,

+
f ( x)dx=1
(c) 2009 Giorgio Pauletto
65
Infrence
Modle
Donnes
Probabilit
Infrence
Population
E
chantillon
(c) 2009 Giorgio Pauletto
66
Modle

Un modle est une reprsentation simplifie


de la ralit

Donnes : matrice individus variables

Processus inconnu ayant gnr ces donnes

Modle M : probabilit P d'observer les


donnes D en ayant le modle M

On explicite le modle M en lui donnant une


forme paramtrique
P( D

M)
M=M (0) P( D

M , 0)
(c) 2009 Giorgio Pauletto
67
Estimation

Maximum de vraisemblance

Processus de gnration des donnes

Valeurs des paramtres du modle qui donnent


la plus grande probabilit d'observer les
donnes existantes

Estimation:
P( D

M , 0) =

i=1
n
f ( x
i
0)
L(0

M , D) =

i=1
n
f ( x
i
0)

0 - 0
(c) 2009 Giorgio Pauletto
68
Esprance et variance

Esprance

Variance

Biais

Erreur quadratique moyenne


E( X ) =

+
x f ( x)dx
V ( X )=

+
( xE( X ))
2
f ( x)dx
Biais(

0) = E(

00)
E|(

00)
2
=( Biais(

0))
2
+V (

0)
(c) 2009 Giorgio Pauletto
69
Questions ?
(c) 2009 Giorgio Pauletto
70
Aperu de mthodes statistiques
(c) 2009 Giorgio Pauletto
71
Techniques statistiques

Classification

Arbres de dcision / rule-based, nearest


neighbors, bayesian, neural nets, support vector
machines, etc.

Clustering

K-moyennes / DBScan

Rgression

linaire, non linaire, logistique, simple, multiple


(c) 2009 Giorgio Pauletto
72
Type d'apprentissage

Supervis : finalit explicative, modlisation,


une variable suppose influence par les
autres.
Ex : classification, rgression

Non supervis : finalit prdictive,


interprtation moins importante, recherche
d'une typologie entre les variables.
Ex : clustering
(c) 2009 Giorgio Pauletto
73
Piges

Acharnement : data snooping, data dredging,


overfitting, surapprentissage

On favorise trop la diminution de biais par rapport


la variance. Ex : introduire trop de variables

Maldiction de la dimensionnalit : curse of


dimensionality

La complexit du calcul crot de faon


combinatoire avec le nombre de donnes

Plus un espace est de grande dimension,


plus il est creux
(c) 2009 Giorgio Pauletto
74
Surapprentissage
Thorme de Stone-Weierstrass :
Toute fonction continue dfinie sur un compact peut tre
approche aussi prs que l'on veut par une fonction polynomiale
(c) 2009 Giorgio Pauletto
75
Maldiction de la dimensionnalit
d = 1
10 chantillons
10%
d = 2
10 chantillons
1%
d = 3
10 chantillons
0.1%
Pour couvrir 10% d'un espace de dimension d, il faut 10
d
chantillons
(c) 2009 Giorgio Pauletto
76
Classification

Ranger les individus dans des classes


prdfinies en fonction de leurs variables

Apprentissage supervis

Ex : Modliser une variable catgorielle en


fonction de variables quantitatives

Analyse discriminante Classification de Bayes

Rgression logistique ...

Arbres
P(classe

x) = f ( x , 0)
(c) 2009 Giorgio Pauletto
77
Arbres
(c) 2009 Giorgio Pauletto
78
Arbres
(c) 2009 Giorgio Pauletto
79
Clustering

Trouver quels groupes ressortent des donnes


sans les connatre a priori

Apprentissage non supervis

Mthodes dpendent du type de donnes

Exemples :

k-means (k-moyennes)

DBSCAN (Density-Based Spatial Clustering of Applications


with Noise)
(c) 2009 Giorgio Pauletto
80
k-means
1. Placer les k centres initiaux
2. Assigner chaque individu au groupe qui est le
plus proche du centre
3. Lorsque tous les individus sont assigns,
recalculer les position des k centres
4. Rpter les tapes 2 et 3 jusqu' convergence
des centres
Produit une partition des individus dpendant de
la distance utilise
(c) 2009 Giorgio Pauletto
81
Exemple
(c) 2009 Giorgio Pauletto
82
k-means
(c) 2009 Giorgio Pauletto
83
k-means
(c) 2009 Giorgio Pauletto
84
(c) 2009 Giorgio Pauletto
85
k-means
(c) 2009 Giorgio Pauletto
86
k-means
(c) 2009 Giorgio Pauletto
87
DBSCAN
1. Initialiser les paramtres et minP
2. Pour chaque point non visit P
1. Compter le nombre de points N dans le
voisinage de P dfini par
2. Si N < minP , alors le P est marqu comme bruit
3. Sinon P est ajout au cluster C
4. Continuer la visite des points du voisinage
3. Fin
(c) 2009 Giorgio Pauletto
88
DBSCAN
(c) 2009 Giorgio Pauletto
89
Avantages de DBSCAN

Pas d'initialisation du nombre de clusters a


priori

Pas de biais quant la forme ou la taille des


clusters

Robuste au bruit, perturbations


(c) 2009 Giorgio Pauletto
90
Inconvnients de DBSCAN

Ncessite une bonne dfinition de la distance


utilise pour le voisinage

Complexit de temps quadratique O(N


2
),
N tant le nombre de points du cluster

Pas adapt aux ensembles de points


hirarchiques, avec densit variable
(c) 2009 Giorgio Pauletto
91
Extensions

Distances

Autres distances: Mahalanobis, Manhattan, ...

Score minimiser:

Distance maximum d'un individu au centre

Somme des moyennes des distances aux centres

Somme des variances des distances aux centres

Frontires non linaires


d
p
( x , y) =
(

i=1
n
x
i
y
i

p
)
1/ p
p = 1 p = 2 p = 3 p = 4 p =
(c) 2009 Giorgio Pauletto
92
Rgression

Apprentissage supervis, modle descriptif,


explicatif et prdictif

Trs largement utilise pour les donnes


quantitatives

Une variable est explique par les autres

Exemples :

Quel est la dpense moyenne attendue en fonction


du revenu ?

Nombre de personnes cliquant sur une publicit sur


le Web en fonction du placement ?
(c) 2009 Giorgio Pauletto
93
Rgression linaire simple
(c) 2009 Giorgio Pauletto
94
Rgression linaire
-3 -2 -1 0 1 2 3
-
2
0
2
4
6
8
x1
3

+

1
.
5

*

x
1

+

r
n
o
r
m
(
1
0
0
0
)

y = f(x)

y = + x

Estimer et
(c) 2009 Giorgio Pauletto
95
Rgression linaire multiple

Variable explique y et variables explicatives x

Modle choisi

Minimiser la somme des carts verticaux au


carr entre les donnes et le modle
(principe des moindres carrs)

Estimation des paramtres

Tester la qualit des rsultats, la sensibilit


y =
0
+
1
x
1
+
2
x
2
++
p
x
p

-
(c) 2009 Giorgio Pauletto
96
Rgression linaire

Diagnostics:

Forme du graphique des rsidus

Indicateur R
2

Tests de significativit statistique des paramtres

etc.
(c) 2009 Giorgio Pauletto
97
(c) 2009 Giorgio Pauletto
98
(c) 2009 Giorgio Pauletto
99
(c) 2009 Giorgio Pauletto
100
(c) 2009 Giorgio Pauletto
101
Algorithmes de data mining
1. But : visualisation, classification, description,
prdiction, etc.
2. Forme du modle : linaire, non linaire,
hirarchique, arbre, etc.
3. Fonction de score : moindres carrs, fonction
de perte robuste, etc.
4. Mthode d'optimisation : locale, globale,
combinatoire, alatoire, etc.
5. Gestion des donnes
(c) 2009 Giorgio Pauletto
102
Directions et dfis futurs

Analyse d'images, sons, vidos, etc.

Analyse de rseaux sociaux

Analyse bio-informatique, gntique, pharma

Traitement de flux plutt que de bases de


donnes stockes

Prouver un retour sur investissement

Protection de la sphre prive


(c) 2009 Giorgio Pauletto
103
Questions ?
(c) 2009 Giorgio Pauletto
104
Exemple

Choisir un secteur d'activit

Sant, bien-tre

Alimentation, grande distribution

Mdias, communication

ducation

Infrastructures, construction

...

Dcrire un scnario d'analyse de data mining

You might also like