Pauletto 2009

(c) 2009 Giorgio Pauletto
1
Mthodes statistiques et data mining
Giorgio Pauletto
pauletto[at]stanfordalumni[dot]org
Haute cole de Gestion
19 fvrier 2009
2
Plan
Introduction, motivation,
statistiques descriptives
18:1520:00
Pause
20:0020:20
Aperu de mthodes statistiques:

classification, clustering, rgression
20:2021:30
3
Bibliographie
Hand D., Mannila H., Smyth P. (2001) Principles of Data Mining.

MIT Press.
Tan P., Steinbach M., Kumar V. (2005) Introduction to Data

Mining. Addison-Wesley.
Wikipedia
Tukey, J.W. (1977) Exploratory Data Analysis. Addison-Wesley.
Berry M.J.A., Linoff G.S. (2004) Data Mining Techniques. Wiley.
Berthold M., Hand D. (eds) (2003) Intelligent Data Analysis.

Springer.
Hastie T., Tibshirani R., Friedman J. (2001) The Elements of

Statistical Learning. Springer.
4
Software
R Development Core Team. R: A language and environment

for statistical computing. R Foundation for Statistical
Computing, Vienna, Austria.
http://www.r-project.org/
RapidMiner (formerly YALE). Includes Weka operators.

http://rapid-i.com/
Weka Machine Learning Project. Weka: Data Mining Software

in Java. The University of Waikato, New Zealand.
http://www.cs.waikato.ac.nz/~ml/
Free/Open Source software, Multi-platform (Linux, Windows, Mac)
5
Partie 1: Introduction, motivation
6
Motivation
Croissance de la capacit de stockage
Croissance de la puissance de calcul
Croissance de la bande passante
Amlioration des algorithmes et de la

recherche
Besoins accrus d'avoir une vue globale

synthtique en temps rel
Demandes des entreprises, des gouvernements

et bientt aussi des individus
7
Pourquoi utiliser le data mining?
Croissance des bases de donnes

http://www.filetek.com/papers/perfect_storm/wp_PS_02.htm
8
Ordres de grandeur
Kilobyte = 1'000 bytes, O(10

3
)
2 KB = une page de texte dactylographi
100 KB = une image basse rsolution
Megabyte = 1'000'000 bytes, O(10

6
)
1 MB = une disquette 3.5pouces; un roman de 500 pages
2 MB = une photo haute rsolution 1000 1000 8 bits couleur
5 MB = oeuvres compltes de Shakespeare; une chanson MP3 128 kb/s
100 MB = 1 mtre de livres poss sur une tagre
800 MB = un CD-ROM
http://www2.sims.berkeley.edu/research/projects/how-much-info-2003/index.htm
9
Ordres de grandeur
Gigabyte = 1'000'000'000 bytes, O(10

9
)
2 GB une camionnette remplie de livres
5 GB un DVD simple couche
20 GB une collection des oeuvres de Beethoven, DVD Blue Ray
100 GB un tage de bibliothque de journaux scientifiques
200 - 500 GB un disque dur
Terabyte = 1'000'000'000'000 bytes, O(10

12
)
1 TB 50'000 arbres transforms en papier et imprims
2 TB une bibliothque universitaire moyenne
20 TB librairie du Congrs US
400 TB ensemble donnes climatiques NCDC / NOAA

10
Ordres de grandeur
Petabyte = 1'000'000'000'000'000 bytes, O(10

15
)
1 PB 3 ans d'observations satellitaires de la Terre (EOS 2001)
2 PB toutes le bibliothques acadmiques amricaines
15 PB donnes par an issues du LHC du CERN
20 PB production mondiale de disques durs 1995
200 PB tous les documents imprims dans le monde
Exabyte = 1'000'000'000'000'000'000 b, O(10

18
)
2 EB volume total de l'information mondialement gnre en 1999
5 10
18

nombre total de mots prononcs par
les tres humains
11
Ordres de grandeur
Zettabyte = O(10
21
)
70 10
21
nombre d'toiles de l'univers observable
100 10
21
nombre de grains de sable sur Terre
Yottabyte O(10
24
)
12
Puissance de calcul
Courtesy of Ray Kurzweil
and Kurzweil
Technologies, Inc.
http://en.wikipedia.org/wik
i/Image:PPTMooresLawai
.jpg
13
Une spirale de croissance
Loi de Moore: le nombre de

transistors sur un processeur
double tous les 2 ans
Gordon Moore, ex CEO de Intel
Loi de Kryder: la densit des

supports magntiques double
chaque anne
Mark Kryder, ex CTO Seagate
Loi de Butter: la bande

passante des fibres optiques
double tous les 9 mois
Gerald Butter, ex dir Lab Opt Lucent
14
Interactif
Parmi les bases de donnes des organisations

suivantes, choisissez les trois les plus grandes
ainsi que la moins grande
Expliquez votre rponse
Estimez la taille des bases de donnes
Google, Librairie du congrs amricain, Sprint,

CIA, YouTube, ChoicePoint, AT&T, Centre
mondial du climat, Internet Archive, Amazon
NB: Rponses estimes en 2007

15
#10 Library of Congress
130 million items (books, photos, maps, etc)
29 million books
10,000 new items added each day
530 miles of shelves
5 million digital documents
20 terabytes of text data

Top 10 source
http://www.businessintelligencelowdown.com/2007/02/top_10_largest_.html
16
#9 Central Intelligence Agency
100 Freedom of Information Act items added

each month
Comprehensive statistics on more than 250

countries and entities
Unknown number of classified information

17
#8 Amazon
59 million active customers
250,000 full text books
Users comments, forums, wishlists, etc.
Food, clothing, electronics, home furniture,

toys, tools, ...
More than 42 terabytes of data

18
#7 YouTube
100 million videos watched per day
65,000 videos added each day
60% of all videos watched online
At least 45 terabytes of video
Recently bought by Google

19
#6 Choicepoint
250 terabytes of personal data
Information on 250 million people mainly US
Addresses, phone numbers, driving records,

criminal histories, etc.
Data sold to the highest bidders
Able to identify 9/11 victims by matching DNA

in bone fragments to information provided by
victim's family members in conjunction to data
found in their databases
20
#5 Sprint
One of the world's largest telecommunication

companies as it offers mobile services to more
than 53 million subscribers
2.85 trillion database rows
365 million call detail records processed per

day
At peak, 70,000 call detail record insertions

per second
21
#4 Google
91 million searches per day
50% of all internet searches
33 trillion database entries estimated
Cache copies of pages, images, documents
Virtual profiles of countless number of users
Growing services: Gmail (2.5 GB/user),

Blogger, Documents and spreadsheets, Ads,
Calendar, Video, Maps, etc.
22
#3 AT&T
Oldest US telecommunication company
323 terabytes of information
1.9 trillion phone call records
Largest volume of data in one unique database

and the second largest number of rows in a
unique database
If you ever made a call via AT&T less than 10

years ago, chances are they still got your
information somewhere.
23
#2 NERSC
#2 Internet Archive
National Energy
Research Scientific
Computing Center
2.8 petabytes of data
Operated by 2,000
computational
scientists
Wayback machine
2 petabytes of data
Growing at 20
terabytes per month
24
#1 World Data Centre for Climate
220 terabytes of web data
6 petabytes of additional data

25
Qu'est-ce que le data mining ?
C'est un processus automatis d'analyse

exploratoire et de modlisation prdictive sur
des grands ensembles de donnes.
Le data mining est l'analyse de grands

ensembles de donnes observes afin de
dcouvrir et de rsumer des relations de faon
nouvelle qui soient comprhensibles et utiles
leur propritaire.
Hand, Mannila, Smyth (2001)
26
Qu'est-ce que le data mining ?
Intersection de plusieurs disciplines

Analyse donnes
Statistiques
Gestion bases donnes
Calcul scientifique
Intelligence artificielle
Apprentissage automatique
Visualisation de donnes
Reconnaissance de formes
Gestion des systmes d'information
Gestion des connaissances
Business intelligence
Data mining
27
Terminologie
Data Mining
Knowledge Discovery in Databases (KDD)
Business Intelligence (BI)
Fouille de donnes
Extraction de connaissances
Exploration de donnes
...
28
Donne
Information
Connaissance
Intelligence
Savoir
Humain
Machine
Contexte
Sens
Appropriation
Utilisation
Partage
29
A quoi a sert ?
Gestion de la relation client (GRC)

Customer Relationship Management (CRM)
Vision unifie du client de l'entreprise pour mieux le servir
Marketing direct, Vente croise
A quels clients dois-je offrir un nouveau service ?
Quels autres produits puis-je offrir mon client avec le plus de

succs ?
Rtention de clientle (churn, attrition)
Quels clients sont prts fuir chez un concurrent ?

30
A quoi a sert ?
Dtection de fraudes
Quels comportements d'achat par carte de crdit sont suspects ?
Peut-on reprer les cas de fraude fiscale ?
Quels messages emails sont des spams ?
Dtection d'intrusions (ou de tentatives) sur un site Web ou un

systme informatique
Scoring
Quelle est la tarification adapte pour un certain type

d'acheteur ?
31
A quoi a sert ?
Aide la dcision
Quels diagnostics mdicaux sont les plus probables avec tels

symptmes ?
Fourniture de meilleurs services
Demandes de subsides pour les chmeurs qui sont les plus

susceptibles d'avoir des difficults retrouver un emploi
32
Aspects lgaux
La sphre prive et la personnalit sont

protges en Suisse
Prpos fdral la protection des donnes et

la transparence
Constitution Art. 13 et Code Civil Art. 28 :

toute personne a le droit dtre protge
contre lemploi abusif des donnes qui la
concernent
33
Aspects lgaux
Loi sur la protection des donnes (LPD) et

ordonnance relative
Art. 3 a : donnes personnelles (donnes),

toutes les informations qui se rapportent
une personne identifie ou identifiable
Pratiquement toutes les donnes personnelles

peuvent tre considres comme sensibles
Droit d'tre renseign sur ses propres donnes
Aspects thiques !
34
Processus de data mining
CRoss-Industry Standard Process for
Data Mining
Adapt de CRISP-DM 1.0
http://www.crisp-dm.org/
35
Processus de data mining
Comprhension du mtier
Cette premire phase est essentielle et doit permettre de comprendre les
objectifs et les besoins mtiers afin de les intgrer dans la dfinition du
projet DM et de dcliner un plan permettant de les atteindre et les
satisfaire.
Comprhension des donnes
Il sagit de collecter et de se familiariser avec les donnes disposition. Il
faut galement identifier le plus tt possible les problmes de qualit des
donnes, dvelopper les premires intuitions, dtecter les premiers
ensembles et hypothses analyser.
36
Prparation des donnes
Cette phase comprend toutes les tapes permettant de construire le jeu de
donnes qui sera utilis par le(s) modle(s). Ces tapes sont souvent
excutes plusieurs fois, en fonction du modle propos et du retour des
analyses dj effectues. Il sagit entre autres dextraire, transformer,
mettre en forme, nettoyer et de stocker de faon pertinente les
donnes. La prparation des donnes peut constituer environ 60 70% du
travail total.
Modlisation
Cest ici quentrent en jeu les mthodologies de modlisation issues
notamment de la statistique. Les modles sont souvent valids et
construits avec laide danalystes du ct mtier et dexperts en
mthodes quantitatives. Il y a dans la plupart des cas plusieurs faons de
modliser le mme problme de DM et plusieurs techniques pour arriver
ajuster au mieux un modle aux donnes. La boucle de feedback vers les
points prcdents est frquemment utilise pour amliorer le modle.
37
valuation du modle
Une fois arrivs cette phase, un ou plusieurs modles sont construits. Il faut
sassurer que les rsultats sont jugs satisfaisants et sont cohrents
notamment vis--vis des objectifs mtier.
Utilisation du modle
La mise au point du modle nest pas la fin du processus de DM. Une fois les
connaissances extraites des donnes, elles doivent encore tre
organises et prsentes de faon les rendre utilisables par les
destinataires. Cela peut tre aussi simple que de fournir une synthse
descriptive des donnes ou aussi complexe que de mettre en oeuvre un
processus complet de fouille de donnes pour lutilisateur mtier final. Il
est nanmoins toujours important que lutilisateur comprenne les limites
des donnes et de lanalyse pour que ses interprtations et ses
dcisions soient judicieuses.
38
Questions ?
39
Statistiques descriptives
40
D'aprs John W. Tukey on passe constamment

entre deux approches en statistiques:
les statistiques exploratoires et
les statistiques confirmatoires
Far better an approximate answer to the right question,
which is often vague, than the exact answer to the
wrong question, which can always be made precise.
41
Donnes
Les donnes sont un ensemble de mesures

fournies par un processus qui les gnre
En gnral, on observe n individus sur un

certain nombre de variables p
On range souvent ces donnes sous forme d'un

tableau avec n lignes et p colonnes
42
ID Age Sexe Etat civil Education Revenu
248 54 M Mari Post oblig 100000
249 ?? F Mari Post oblig 12000
250 29 M Mari Universit 23000
251 9 M Clibataire Scolaris 0
252 85 F Clibataire Post oblig 19798
254 38 F Clibataire Obligatoire 2691
255 7 M ?? Scolaris 0
257 76 M Mari Universit 30686
Variable, attribut
Individu, observation, objet
Valeur manquante
Donne suspecte
43
Nature des donnes
Variables quantitatives
Valeurs numriques et sommables, discrtes ou

continues
Ex: 18, 7654.43, -0.762, 0, 9999
Variables qualitatives
Ordinales
Ex: petit, moyen, grand, trs grand
Nominales (catgories ou modalits)

Ex: fminin, masculin
clibataire, mari, divorc, veuf
44
Nature des donnes
Textes
Corpus documentaires, bases de connaissances,

sites web (blogs, forums), etc.
Ex: PageRank de Google
Transactions
Liste d'achats, visites de sites web, mouvements

de fonds, etc.
Ex: Amazon, cartes de fidlit
Multimdia: images, sons, vidos

45
Nature des donnes
Donnes exprimentales vs donnes observes
Contrle, plans d'expriences
Donnes non reproductibles
Population vs chantillon
46
Statistiques descriptives
Caractristiques de tendance centrale
Moyenne: somme des valeurs divise par leur nombre
Mdiane: valeur qui partage l'effectif en deux
(Mode: valeur la plus frquente, utile pour les donnes nominales)
Caractristiques de dispersion
Variance et cart-type:
x =
1
n
i =1
n
x
i
s
2
=
1
( n1)
i =1
n
( x
i
x)
2
s =
.
s
2
47
Exemple
Donnes: 2, 3, 4, 5, 2
Moyenne: (2 + 3 + 4 + 5 + 2) / 5 = 16/5 = 3.2
Mdiane: ordre croissant 2, 2, 3, 4, 5
Mode: valeur la plus frquente 2
Variance:
((2 - 3.2)
2
+ (3 - 3.2)
2
+ (4 - 3.2)
2
+ (5 - 3.2)
2
+ (2 - 3.2)
2
)/(5-1) =
((-1.2)
2
+ (-0.2)
2
+ (0.8)
2
+ (1.8)
2
+ (-1.2)
2
) / 4 =
(1.44 + 0.04 + 0.64 + 3.24 + 1.44) / 4 = 6.8 / 4 = 1.7
cart-type: 1.7 = 1.3038

48
Exemple
Pour pouvoir comparer des variables qui sont

dans des chelles diffrentes et qui ont des
moyennes diffrentes on standardise les
variables.
(2 3 4 5 2)
Centrer: Enlever la moyenne

(-1.2 -0.2 0.8 1.8 -1.2)
Rduire: Diviser par l'cart-type

(-0.920358 -0.153393 0.613572 1.380537 -0.920358)
x
c
= x
x
x
r
=
x
c
s
49
Autre exemple
[1] 4.74279234 8.90074709 7.06175647 2.80194483 4.19497661 4.30344155
[7] 5.58483474 2.30323484 5.66284107 4.40083221 3.36392437 3.99950448
[13] 3.84358469 4.08730476 8.99779318 4.72991012 4.25692068 4.57993247
[19] 6.50889816 2.92288236 9.20517739 4.29231163 3.39349137 8.87978777
[25] 5.21750942 1.23355214 3.56117390 3.06277902 5.16581773 6.51331144
[31] 7.65417446 3.06673214 6.85696290 6.23328467 4.65693313 3.89305573
[37] 6.25453751 5.52968492 5.93383069 1.20633128 8.16230204 3.58200150
[43] 4.32520576 3.71162361 6.43827240 5.93904064 3.17376193 3.91862340
[49] 6.38859032 7.02370090 7.64838419 6.65913238 2.23316516 4.86409606
...
[991] 3.26833660 3.10757379 3.68926328 6.29135011 2.90976308 3.93447886
[997] 2.36438509 7.11194721 8.43741944 2.98630325
50
Comment dcrire ces donnes ?
Moyenne: 4.9859
Mdiane: 4.9915
cart-type: 2.01114
?
51
-2 0 2 4 6 8 10 12
0
.
0
0
0
.
0
5
0
.
1
0
0
.
1
5
0
.
2
0
x
| | | | || | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | || | | | | | | | | | | | | | | || | | | | | | | | | | | | | | | | | | | | | || | | | | | | | | | | | | | | | | | | | | | | | | | | | | | || | | | | | | | || | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | || | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | || | | | | | | | | | | || | | | | | | | | | | | | | | || | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | || | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | || | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | || | | | | || | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | || | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | || | | | | | | | | | | | | | | | | | | | | | | | | | | | || | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | || | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | || | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | || | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | || | | | | | | | | | | | | |
| | | | | | | | |
Min q1 Mdiane Moyenne q3 Max
-1.477 3.724 5.014 5.006 6.323 11.110
52
Reprsentations graphiques
Box plot
Histogramme
Diagramme en btons
Diagramme de dispersion
53
Box plot
Rsum 5 valeurs
Mdiane
1er et 3e quartiles
q1, q3
Min et Max
1.5 fois intervalle

interquartile
(q3 q1)
X1 ~ N(0,1)
X2 ~ N(1,1)
X3 ~ N(0,0.5)
X4 ~ Chi2(1) 1 2 3 4
-
4
-
2
0
2
4
6
8
54
Histogramme
Surface
proportionnelle
aux frquences
Pas d'espace
entre les
rectangles
Nombre de
classes
choisir
Histogram of x1
x1
F
r
e
q
u
e
n
c
y
-4 -2 0 2
0
5
0
1
0
0
2
0
0
Histogram of x2
x2
F
r
e
q
u
e
n
c
y
-2 0 2 4
0
5
0
1
0
0
2
0
0
Histogram of x3
x3
F
r
e
q
u
e
n
c
y
-2 -1 0 1 2
0
1
0
0
2
0
0
3
0
0
Histogram of x4
x4
F
r
e
q
u
e
n
c
y
0 2 4 6 8
0
2
0
0
4
0
0
6
0
0
55
Diagramme en btons
Utile pour les

variables
discrtes ou
catgorielles
A B C D E
0
1
2
3
4
5
56
Cleveland Dot Plots
Aussi appel
Dot Chart
A
B
C
D
E
2.0 2.5 3.0 3.5 4.0 4.5 5.0
57
Diagramme de dispersion
-2 -1 0 1 2 3 4
-
3
-
2
-
1
0
1
2
3
x2
x
3
-3 -2 -1 0 1 2 3
-
2
0
2
4
6
8
x1
3

+

1
.
5

*

x
1

+

r
n
o
r
m
(
1
0
0
0
)
Problme de surimpression
58
59
Corrlation
Mesure de l'association linaire entre deux

variables
Covariance:
Corrlation:
cov( x , y) =
1
( n1)
i =1
n
( x
i
x)( y
i
y)
j( x , y) =
cov( x , y)
s
x
s
y
60
Matrice de diagrammes
61
http://en.wikipedia.org/wiki/Image:Corr-example.png
62
Exemple de Anscombe, corrlation = 0.81
63
Coordonnes parallles
Utile pour
reprsenter plus
de 3 variables
Influence de
l'ordre
Influence de
l'chelle
64
Incertitude
Variable alatoire
X comportement inconnu, x sa ralisation
Densit
f(x) dcrit la densit de probabilit de X
F(x) est appele distribution de probabilit de X
P( X a) =
a
f ( x)dx = F(a)
f ( x)0 , P(aX b)=
a
b
f ( x) dx ,

+
f ( x)dx=1
65
Infrence
Modle
Donnes
Probabilit
Infrence
Population
E
chantillon
66
Modle
Un modle est une reprsentation simplifie

de la ralit
Donnes : matrice individus variables
Processus inconnu ayant gnr ces donnes
Modle M : probabilit P d'observer les

donnes D en ayant le modle M
On explicite le modle M en lui donnant une

forme paramtrique
P( D
M)
M=M (0) P( D
M , 0)
67
Estimation
Maximum de vraisemblance
Processus de gnration des donnes
Valeurs des paramtres du modle qui donnent

la plus grande probabilit d'observer les
donnes existantes
Estimation:
P( D
M , 0) =
i=1
n
f ( x
i
0)
L(0
M , D) =
i=1
n
f ( x
i
0)
0 - 0
68
Esprance et variance
Esprance
Variance
Biais
Erreur quadratique moyenne

E( X ) =
+
x f ( x)dx
V ( X )=
+
( xE( X ))
2
f ( x)dx
Biais(
0) = E(
00)
E|(
00)
2
=( Biais(
0))
2
+V (
0)
69
Questions ?
70
Aperu de mthodes statistiques
71
Techniques statistiques
Classification
Arbres de dcision / rule-based, nearest

neighbors, bayesian, neural nets, support vector
machines, etc.
Clustering
K-moyennes / DBScan
Rgression
linaire, non linaire, logistique, simple, multiple

72
Type d'apprentissage
Supervis : finalit explicative, modlisation,

une variable suppose influence par les
autres.
Ex : classification, rgression
Non supervis : finalit prdictive,

interprtation moins importante, recherche
d'une typologie entre les variables.
Ex : clustering
73
Piges
Acharnement : data snooping, data dredging,

overfitting, surapprentissage
On favorise trop la diminution de biais par rapport

la variance. Ex : introduire trop de variables
Maldiction de la dimensionnalit : curse of

dimensionality
La complexit du calcul crot de faon

combinatoire avec le nombre de donnes
Plus un espace est de grande dimension,

plus il est creux
74
Surapprentissage
Thorme de Stone-Weierstrass :
Toute fonction continue dfinie sur un compact peut tre
approche aussi prs que l'on veut par une fonction polynomiale
75
Maldiction de la dimensionnalit
d = 1
10 chantillons
10%
d = 2
10 chantillons
1%
d = 3
10 chantillons
0.1%
Pour couvrir 10% d'un espace de dimension d, il faut 10
d
chantillons
76
Classification
Ranger les individus dans des classes

prdfinies en fonction de leurs variables
Apprentissage supervis
Ex : Modliser une variable catgorielle en

fonction de variables quantitatives
Analyse discriminante Classification de Bayes
Rgression logistique ...
Arbres
P(classe
x) = f ( x , 0)
77
Arbres
78
Arbres
79
Clustering
Trouver quels groupes ressortent des donnes

sans les connatre a priori
Apprentissage non supervis
Mthodes dpendent du type de donnes
Exemples :
k-means (k-moyennes)
DBSCAN (Density-Based Spatial Clustering of Applications

with Noise)
80
k-means
1. Placer les k centres initiaux
2. Assigner chaque individu au groupe qui est le
plus proche du centre
3. Lorsque tous les individus sont assigns,
recalculer les position des k centres
4. Rpter les tapes 2 et 3 jusqu' convergence
des centres
Produit une partition des individus dpendant de
la distance utilise
81
Exemple
82
k-means
83
k-means
84
85
k-means
86
k-means
87
DBSCAN
1. Initialiser les paramtres et minP
2. Pour chaque point non visit P
1. Compter le nombre de points N dans le
voisinage de P dfini par
2. Si N < minP , alors le P est marqu comme bruit
3. Sinon P est ajout au cluster C
4. Continuer la visite des points du voisinage
3. Fin
88
DBSCAN
89
Avantages de DBSCAN
Pas d'initialisation du nombre de clusters a

priori
Pas de biais quant la forme ou la taille des

clusters
Robuste au bruit, perturbations

90
Inconvnients de DBSCAN
Ncessite une bonne dfinition de la distance

utilise pour le voisinage
Complexit de temps quadratique O(N

2
),
N tant le nombre de points du cluster
Pas adapt aux ensembles de points

hirarchiques, avec densit variable
91
Extensions
Distances
Autres distances: Mahalanobis, Manhattan, ...
Score minimiser:
Distance maximum d'un individu au centre
Somme des moyennes des distances aux centres
Somme des variances des distances aux centres
Frontires non linaires

d
p
( x , y) =
(
i=1
n
x
i
y
i
p
)
1/ p
p = 1 p = 2 p = 3 p = 4 p =
92
Rgression
Apprentissage supervis, modle descriptif,

explicatif et prdictif
Trs largement utilise pour les donnes

quantitatives
Une variable est explique par les autres
Exemples :
Quel est la dpense moyenne attendue en fonction

du revenu ?
Nombre de personnes cliquant sur une publicit sur

le Web en fonction du placement ?
93
Rgression linaire simple
94
Rgression linaire
-3 -2 -1 0 1 2 3
-
2
0
2
4
6
8
x1
3

+

1
.
5

*

x
1

+

r
n
o
r
m
(
1
0
0
0
)
y = f(x)
y = + x
Estimer et
95
Rgression linaire multiple
Variable explique y et variables explicatives x
Modle choisi
Minimiser la somme des carts verticaux au

carr entre les donnes et le modle
(principe des moindres carrs)
Estimation des paramtres
Tester la qualit des rsultats, la sensibilit

y =
0
+
1
x
1
+
2
x
2
++
p
x
p
-
96
Rgression linaire
Diagnostics:
Forme du graphique des rsidus
Indicateur R
2
Tests de significativit statistique des paramtres
etc.
97
98
99
100
101
Algorithmes de data mining
1. But : visualisation, classification, description,
prdiction, etc.
2. Forme du modle : linaire, non linaire,
hirarchique, arbre, etc.
3. Fonction de score : moindres carrs, fonction
de perte robuste, etc.
4. Mthode d'optimisation : locale, globale,
combinatoire, alatoire, etc.
5. Gestion des donnes
102
Directions et dfis futurs
Analyse d'images, sons, vidos, etc.
Analyse de rseaux sociaux
Analyse bio-informatique, gntique, pharma
Traitement de flux plutt que de bases de

donnes stockes
Prouver un retour sur investissement
Protection de la sphre prive

103
Questions ?
104
Exemple
Choisir un secteur d'activit
Sant, bien-tre
Alimentation, grande distribution
Mdias, communication
ducation
Infrastructures, construction
...
Dcrire un scnario d'analyse de data mining

Pauletto 2009

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Pauletto 2009

Uploaded by

Copyright:

Available Formats

(c) 2009 Giorgio Pauletto

Aperu de mthodes statistiques:

Hand D., Mannila H., Smyth P. (2001) Principles of Data Mining.

Tan P., Steinbach M., Kumar V. (2005) Introduction to Data

Tukey, J.W. (1977) Exploratory Data Analysis. Addison-Wesley.

Berry M.J.A., Linoff G.S. (2004) Data Mining Techniques. Wiley.

Berthold M., Hand D. (eds) (2003) Intelligent Data Analysis.

Hastie T., Tibshirani R., Friedman J. (2001) The Elements of

R Development Core Team. R: A language and environment

RapidMiner (formerly YALE). Includes Weka operators.

Weka Machine Learning Project. Weka: Data Mining Software

Croissance de la capacit de stockage

Croissance de la puissance de calcul

Croissance de la bande passante

Amlioration des algorithmes et de la

Besoins accrus d'avoir une vue globale

Demandes des entreprises, des gouvernements

Croissance des bases de donnes

Kilobyte = 1'000 bytes, O(10

2 KB = une page de texte dactylographi

100 KB = une image basse rsolution

Megabyte = 1'000'000 bytes, O(10

1 MB = une disquette 3.5pouces; un roman de 500 pages

2 MB = une photo haute rsolution 1000 1000 8 bits couleur

5 MB = oeuvres compltes de Shakespeare; une chanson MP3 128 kb/s

100 MB = 1 mtre de livres poss sur une tagre

Gigabyte = 1'000'000'000 bytes, O(10

2 GB une camionnette remplie de livres

5 GB un DVD simple couche

20 GB une collection des oeuvres de Beethoven, DVD Blue Ray

100 GB un tage de bibliothque de journaux scientifiques

200 - 500 GB un disque dur

Terabyte = 1'000'000'000'000 bytes, O(10

1 TB 50'000 arbres transforms en papier et imprims

2 TB une bibliothque universitaire moyenne

400 TB ensemble donnes climatiques NCDC / NOAA

Petabyte = 1'000'000'000'000'000 bytes, O(10

1 PB 3 ans d'observations satellitaires de la Terre (EOS 2001)

2 PB toutes le bibliothques acadmiques amricaines

15 PB donnes par an issues du LHC du CERN

20 PB production mondiale de disques durs 1995

200 PB tous les documents imprims dans le monde

Exabyte = 1'000'000'000'000'000'000 b, O(10

2 EB volume total de l'information mondialement gnre en 1999

Loi de Moore: le nombre de

Loi de Kryder: la densit des

Loi de Butter: la bande

Parmi les bases de donnes des organisations

Expliquez votre rponse

Estimez la taille des bases de donnes

Google, Librairie du congrs amricain, Sprint,

NB: Rponses estimes en 2007

130 million items (books, photos, maps, etc)

10,000 new items added each day

530 miles of shelves

5 million digital documents

20 terabytes of text data

100 Freedom of Information Act items added

Comprehensive statistics on more than 250

Unknown number of classified information

59 million active customers

250,000 full text books

Users comments, forums, wishlists, etc.