Professional Documents
Culture Documents
1
Mthodes statistiques et data mining
Giorgio Pauletto
pauletto[at]stanfordalumni[dot]org
Haute cole de Gestion
19 fvrier 2009
(c) 2009 Giorgio Pauletto
2
Plan
Introduction, motivation,
statistiques descriptives
18:1520:00
Pause
20:0020:20
Wikipedia
800 MB = un CD-ROM
http://www2.sims.berkeley.edu/research/projects/how-much-info-2003/index.htm
(c) 2009 Giorgio Pauletto
9
Ordres de grandeur
20 TB librairie du Congrs US
5 10
18
nombre total de mots prononcs par
les tres humains
(c) 2009 Giorgio Pauletto
11
Ordres de grandeur
Zettabyte = O(10
21
)
70 10
21
nombre d'toiles de l'univers observable
100 10
21
nombre de grains de sable sur Terre
Yottabyte O(10
24
)
(c) 2009 Giorgio Pauletto
12
Puissance de calcul
Courtesy of Ray Kurzweil
and Kurzweil
Technologies, Inc.
http://en.wikipedia.org/wik
i/Image:PPTMooresLawai
.jpg
(c) 2009 Giorgio Pauletto
13
Une spirale de croissance
29 million books
National Energy
Research Scientific
Computing Center
Operated by 2,000
computational
scientists
Wayback machine
2 petabytes of data
Growing at 20
terabytes per month
(c) 2009 Giorgio Pauletto
24
#1 World Data Centre for Climate
Data Mining
Fouille de donnes
Extraction de connaissances
Exploration de donnes
...
(c) 2009 Giorgio Pauletto
28
Donne
Information
Connaissance
Intelligence
Savoir
Humain
Machine
Contexte
Sens
Appropriation
Utilisation
Partage
(c) 2009 Giorgio Pauletto
29
A quoi a sert ?
Dtection de fraudes
Scoring
Aide la dcision
Aspects thiques !
(c) 2009 Giorgio Pauletto
34
Processus de data mining
CRoss-Industry Standard Process for
Data Mining
Adapt de CRISP-DM 1.0
http://www.crisp-dm.org/
(c) 2009 Giorgio Pauletto
35
Processus de data mining
Comprhension du mtier
Cette premire phase est essentielle et doit permettre de comprendre les
objectifs et les besoins mtiers afin de les intgrer dans la dfinition du
projet DM et de dcliner un plan permettant de les atteindre et les
satisfaire.
Comprhension des donnes
Il sagit de collecter et de se familiariser avec les donnes disposition. Il
faut galement identifier le plus tt possible les problmes de qualit des
donnes, dvelopper les premires intuitions, dtecter les premiers
ensembles et hypothses analyser.
(c) 2009 Giorgio Pauletto
36
Prparation des donnes
Cette phase comprend toutes les tapes permettant de construire le jeu de
donnes qui sera utilis par le(s) modle(s). Ces tapes sont souvent
excutes plusieurs fois, en fonction du modle propos et du retour des
analyses dj effectues. Il sagit entre autres dextraire, transformer,
mettre en forme, nettoyer et de stocker de faon pertinente les
donnes. La prparation des donnes peut constituer environ 60 70% du
travail total.
Modlisation
Cest ici quentrent en jeu les mthodologies de modlisation issues
notamment de la statistique. Les modles sont souvent valids et
construits avec laide danalystes du ct mtier et dexperts en
mthodes quantitatives. Il y a dans la plupart des cas plusieurs faons de
modliser le mme problme de DM et plusieurs techniques pour arriver
ajuster au mieux un modle aux donnes. La boucle de feedback vers les
points prcdents est frquemment utilise pour amliorer le modle.
(c) 2009 Giorgio Pauletto
37
valuation du modle
Une fois arrivs cette phase, un ou plusieurs modles sont construits. Il faut
sassurer que les rsultats sont jugs satisfaisants et sont cohrents
notamment vis--vis des objectifs mtier.
Utilisation du modle
La mise au point du modle nest pas la fin du processus de DM. Une fois les
connaissances extraites des donnes, elles doivent encore tre
organises et prsentes de faon les rendre utilisables par les
destinataires. Cela peut tre aussi simple que de fournir une synthse
descriptive des donnes ou aussi complexe que de mettre en oeuvre un
processus complet de fouille de donnes pour lutilisateur mtier final. Il
est nanmoins toujours important que lutilisateur comprenne les limites
des donnes et de lanalyse pour que ses interprtations et ses
dcisions soient judicieuses.
(c) 2009 Giorgio Pauletto
38
Questions ?
(c) 2009 Giorgio Pauletto
39
Statistiques descriptives
(c) 2009 Giorgio Pauletto
40
Variables quantitatives
Variables qualitatives
Ordinales
Ex: petit, moyen, grand, trs grand
Textes
Transactions
Population vs chantillon
(c) 2009 Giorgio Pauletto
46
Statistiques descriptives
Caractristiques de dispersion
Variance et cart-type:
x =
1
n
i =1
n
x
i
s
2
=
1
( n1)
i =1
n
( x
i
x)
2
s =
.
s
2
(c) 2009 Giorgio Pauletto
47
Exemple
Donnes: 2, 3, 4, 5, 2
Variance:
((2 - 3.2)
2
+ (3 - 3.2)
2
+ (4 - 3.2)
2
+ (5 - 3.2)
2
+ (2 - 3.2)
2
)/(5-1) =
((-1.2)
2
+ (-0.2)
2
+ (0.8)
2
+ (1.8)
2
+ (-1.2)
2
) / 4 =
(1.44 + 0.04 + 0.64 + 3.24 + 1.44) / 4 = 6.8 / 4 = 1.7
x
x
r
=
x
c
s
(c) 2009 Giorgio Pauletto
49
Autre exemple
[1] 4.74279234 8.90074709 7.06175647 2.80194483 4.19497661 4.30344155
[7] 5.58483474 2.30323484 5.66284107 4.40083221 3.36392437 3.99950448
[13] 3.84358469 4.08730476 8.99779318 4.72991012 4.25692068 4.57993247
[19] 6.50889816 2.92288236 9.20517739 4.29231163 3.39349137 8.87978777
[25] 5.21750942 1.23355214 3.56117390 3.06277902 5.16581773 6.51331144
[31] 7.65417446 3.06673214 6.85696290 6.23328467 4.65693313 3.89305573
[37] 6.25453751 5.52968492 5.93383069 1.20633128 8.16230204 3.58200150
[43] 4.32520576 3.71162361 6.43827240 5.93904064 3.17376193 3.91862340
[49] 6.38859032 7.02370090 7.64838419 6.65913238 2.23316516 4.86409606
...
[991] 3.26833660 3.10757379 3.68926328 6.29135011 2.90976308 3.93447886
[997] 2.36438509 7.11194721 8.43741944 2.98630325
(c) 2009 Giorgio Pauletto
50
Comment dcrire ces donnes ?
Moyenne: 4.9859
Mdiane: 4.9915
cart-type: 2.01114
?
(c) 2009 Giorgio Pauletto
51
-2 0 2 4 6 8 10 12
0
.
0
0
0
.
0
5
0
.
1
0
0
.
1
5
0
.
2
0
x
| | | | || | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | || | | | | | | | | | | | | | | || | | | | | | | | | | | | | | | | | | | | | || | | | | | | | | | | | | | | | | | | | | | | | | | | | | | || | | | | | | | || | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | || | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | || | | | | | | | | | | || | | | | | | | | | | | | | | || | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | || | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | || | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | || | | | | || | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | || | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | || | | | | | | | | | | | | | | | | | | | | | | | | | | | || | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | || | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | || | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | || | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | || | | | | | | | | | | | | |
| | | | | | | | |
Min q1 Mdiane Moyenne q3 Max
-1.477 3.724 5.014 5.006 6.323 11.110
(c) 2009 Giorgio Pauletto
52
Reprsentations graphiques
Box plot
Histogramme
Diagramme en btons
Diagramme de dispersion
(c) 2009 Giorgio Pauletto
53
Box plot
Rsum 5 valeurs
Mdiane
1er et 3e quartiles
q1, q3
Min et Max
Surface
proportionnelle
aux frquences
Pas d'espace
entre les
rectangles
Nombre de
classes
choisir
Histogram of x1
x1
F
r
e
q
u
e
n
c
y
-4 -2 0 2
0
5
0
1
0
0
2
0
0
Histogram of x2
x2
F
r
e
q
u
e
n
c
y
-2 0 2 4
0
5
0
1
0
0
2
0
0
Histogram of x3
x3
F
r
e
q
u
e
n
c
y
-2 -1 0 1 2
0
1
0
0
2
0
0
3
0
0
Histogram of x4
x4
F
r
e
q
u
e
n
c
y
0 2 4 6 8
0
2
0
0
4
0
0
6
0
0
(c) 2009 Giorgio Pauletto
55
Diagramme en btons
Aussi appel
Dot Chart
A
B
C
D
E
2.0 2.5 3.0 3.5 4.0 4.5 5.0
(c) 2009 Giorgio Pauletto
57
Diagramme de dispersion
-2 -1 0 1 2 3 4
-
3
-
2
-
1
0
1
2
3
x2
x
3
-3 -2 -1 0 1 2 3
-
2
0
2
4
6
8
x1
3
+
1
.
5
*
x
1
+
r
n
o
r
m
(
1
0
0
0
)
Problme de surimpression
(c) 2009 Giorgio Pauletto
58
(c) 2009 Giorgio Pauletto
59
Corrlation
Covariance:
Corrlation:
cov( x , y) =
1
( n1)
i =1
n
( x
i
x)( y
i
y)
j( x , y) =
cov( x , y)
s
x
s
y
(c) 2009 Giorgio Pauletto
60
Matrice de diagrammes
(c) 2009 Giorgio Pauletto
61
http://en.wikipedia.org/wiki/Image:Corr-example.png
(c) 2009 Giorgio Pauletto
62
Exemple de Anscombe, corrlation = 0.81
(c) 2009 Giorgio Pauletto
63
Coordonnes parallles
Utile pour
reprsenter plus
de 3 variables
Influence de
l'ordre
Influence de
l'chelle
(c) 2009 Giorgio Pauletto
64
Incertitude
Variable alatoire
X comportement inconnu, x sa ralisation
Densit
f(x) dcrit la densit de probabilit de X
F(x) est appele distribution de probabilit de X
P( X a) =
a
f ( x)dx = F(a)
f ( x)0 , P(aX b)=
a
b
f ( x) dx ,
+
f ( x)dx=1
(c) 2009 Giorgio Pauletto
65
Infrence
Modle
Donnes
Probabilit
Infrence
Population
E
chantillon
(c) 2009 Giorgio Pauletto
66
Modle
M)
M=M (0) P( D
M , 0)
(c) 2009 Giorgio Pauletto
67
Estimation
Maximum de vraisemblance
Estimation:
P( D
M , 0) =
i=1
n
f ( x
i
0)
L(0
M , D) =
i=1
n
f ( x
i
0)
0 - 0
(c) 2009 Giorgio Pauletto
68
Esprance et variance
Esprance
Variance
Biais
+
x f ( x)dx
V ( X )=
+
( xE( X ))
2
f ( x)dx
Biais(
0) = E(
00)
E|(
00)
2
=( Biais(
0))
2
+V (
0)
(c) 2009 Giorgio Pauletto
69
Questions ?
(c) 2009 Giorgio Pauletto
70
Aperu de mthodes statistiques
(c) 2009 Giorgio Pauletto
71
Techniques statistiques
Classification
Clustering
K-moyennes / DBScan
Rgression
Apprentissage supervis
Arbres
P(classe
x) = f ( x , 0)
(c) 2009 Giorgio Pauletto
77
Arbres
(c) 2009 Giorgio Pauletto
78
Arbres
(c) 2009 Giorgio Pauletto
79
Clustering
Exemples :
k-means (k-moyennes)
Distances
Score minimiser:
i=1
n
x
i
y
i
p
)
1/ p
p = 1 p = 2 p = 3 p = 4 p =
(c) 2009 Giorgio Pauletto
92
Rgression
Exemples :
y = f(x)
y = + x
Estimer et
(c) 2009 Giorgio Pauletto
95
Rgression linaire multiple
Modle choisi
-
(c) 2009 Giorgio Pauletto
96
Rgression linaire
Diagnostics:
Indicateur R
2
etc.
(c) 2009 Giorgio Pauletto
97
(c) 2009 Giorgio Pauletto
98
(c) 2009 Giorgio Pauletto
99
(c) 2009 Giorgio Pauletto
100
(c) 2009 Giorgio Pauletto
101
Algorithmes de data mining
1. But : visualisation, classification, description,
prdiction, etc.
2. Forme du modle : linaire, non linaire,
hirarchique, arbre, etc.
3. Fonction de score : moindres carrs, fonction
de perte robuste, etc.
4. Mthode d'optimisation : locale, globale,
combinatoire, alatoire, etc.
5. Gestion des donnes
(c) 2009 Giorgio Pauletto
102
Directions et dfis futurs
Sant, bien-tre
Mdias, communication
ducation
Infrastructures, construction
...