Saporta

Quelle statistique
pour les Big Data?

Gilbert Saporta
CEDRIC- CNAM,
292 rue Saint Martin, F-75003 Paris
gilbert.saporta@cnam.fr
http://cedric.cnam.fr/~saporta
Journe Big Data, SFdS, 13 mars 2015
Plan
1.
2.
3.
4.
5.
6.
7.
Too big ?
Vous avez dit modles
Comment valider
La bote outils
Choix de modles
Big Data et statistique officielle
La fin de la science?
1. Too big ?
Estimation, tests, modles classiques
inadapts
Tout est significatif!
si n=106 un coefficient de corrlation gal 0,002 est
significativement diffrent de 0 mais bien inutile
Un modle de rgression pourri aura un R2
significatif mais la plupart des modles classiques
sont rejets puisque le moindre cart devient
significatif
Intervalles de confiance rduits nant
2. Vous avez dit modles

Vision classique (modles pour comprendre)
Fournir une certaine comprhension des donnes
et du mcanisme qui les a engendres travers
une reprsentation parcimonieuse dun
phnomne alatoire. Ncessite en gnral la
collaboration dun statisticien et dun expert du
domaine.
un modle doit tre simple, et ses paramtres
interprtables en termes du domaine
dapplication : elasticit, odds-ratio, etc.
Paradoxe n 1
Un bon modle statistique ne donne pas
ncessairement des prdictions prcises au
niveau individuel. eg: facteurs de risque en
pidmiologie
Paradoxe n2
On peut prvoir sans comprendre:
pas besoin dune thorie du consommateur pour faire
du ciblage
un modle nest quun algorithme
Vision Big Data Analytics : modle pour

prvoir
capacit prdictive sur de nouvelles observations
gnralisation
diffrent de lajustement aux donnes (prdire le
pass)
Un modle trop prcis sur les donnes se comporte de
manire instable sur de nouvelles donnes :
phnomne de surapprentissage
Un modle trop robuste (rigide) ne donnera pas un bon
ajustement sur les donnes
modles issus des donnes

3. Comment valider
Ncessit de marier Machine Learning et
statistique
Un bon modle est celui qui prdit bien
Diffrence entre ajustement et prvision
Ensembles dapprentissage et de validation
Guillaume dOckham 1320
Norbert Wiener 1948
Frank Rosenblatt 1962
Vladimir Vapnik 1982

Le dilemme biais-variance
=
y f ( x) +
)
+ ( E ( f ( x ) ) f ( x ) ) + V ( f ( x ) )
E ( y0 y 0 )
= + E f ( x0 ) f ( x0 ) =
2
biais
variance
variance
Adapted from Hastie et al.
Une dmarche avec 3 chantillons pour

choisir entre plusieurs familles de modles:
Apprentissage: pour estimer les paramtres des
modles
Test : pour choisir le meilleur modle
Restimation du modle final: avec toutes les donnes
disponibles
Validation : pour estimer la performance sur des

donnes futures
Estimer les paramtres estimer la performance
10
Sparer (une fois) les donnes en apprentissage,

test et validation ne suffit pas
11
Elmentaire?
Pas si sur
Voir publications en conomtrie, actuariat,
pidmiologie
12
4. La bote outils
Exploratoire ou non supervis
Analyses factorielles, k-means
Rgles dassociation
Prdictif ou supervis
Modles explicites de type rgression, avec
rgularisation, arbres ..
Modles de type bote noire (neurones, SVM
13
Journe Big Data, SFdS, 13 mars

2015
14
5. Choix de modles
5.1 La vision classique
Quand l "expert" hsite entre plusieurs
formulations
Dans une famille paramtre
Utilisation la plus frquente: slection de
variables
Parcimonie
Le rasoir dOckham : un principe scientifique pour
viter les hypothses inutiles
15
Guillaume dOccam (1285? 1349?), dit le docteur invincible

franciscain philosophe logicien et thologien scolastique.
Etudes Oxford, puis Paris. Enseigne quelques annes Oxford.
Accus d'hrsie, convoqu pour sexpliquer Avignon,
excommuni pour avoir fui Munich la cour de Louis IV de
Bavire. Meurt vraisemblablement de l'pidmie de peste noire.
Principe de raisonnement attribu Occam : Les multiples ne
doivent pas tre utiliss sans ncessit (pluralitas non est
ponenda sine necessitate).
A inspir le personnage du moine franciscain Guillaume de
Baskerville dans le Nom de la rose d'Umberto Eco. Premier
jour, vpres : il ne faut pas multiplier les explications et les

causes sans qu'on en ait une stricte ncessit.
16
Le principe de vraisemblance (Fisher, 1920)

chantillon de n observations iid :
n
L ( x1 ,.., xn ; ) = f ( xi ; )
i =1
Pour une famille f, la meilleure estimation de est

celle qui maximise la vraisemblance, ie la
probabilit davoir obtenu les donnes observes.
Le meilleur modle devrait galement avoir une
vraisemblance maximale.
Mais la vraisemblance crot avec le nombre de
paramtres..
17
Choix de modles par vraisemblance pnalise

Comparer des modles ayant des nombres de
paramtres diffrents: K nombre de paramtres
estimer.
Critre dAkaike :
AIC = -2 ln(L) + 2K
Critre de Schwartz :
BIC = -2 ln(L) + K ln(n)
On prfrera le modle pour lequel ces critres ont la
valeur la plus faible.
18
AIC et BIC ne sont semblables quen apparence:

Thories diffrentes
AIC : approximation de la divergence de
Kullback-Leibler entre la vraie distribution f et le
meilleur choix dans une famille paramtre
BIC : choix bayesien de modles parmi m
modles Mi paramtrs par i de probabilits a
priori galesP(Mi). Distribution a posteriori du
modle sachant les donnes
Illogisme utiliser les deux simultanment
19
Comparaison AIC BIC

Si n tend vers linfini la probabilit que le BIC
choisisse le vrai modle tend vers 1, ce qui est faux
pour lAIC.
Pour n fini: rsultats contradictoires. BIC ne choisit
pas toujours le vrai modle: il a tendance choisir
des modles trop simples en raison de sa plus forte
pnalisation
20
AIC BIC ralistes?

Vraisemblance pas toujours calculable.
Nombre de paramtres non plus (arbres, ..)
Vrai modle?
Essentially, all models are wrong, but some are useful
(G.Box,1987)
"The Truth Is Out There" (X-Files, 1993)

* Box, G.E.P. and Draper, N.R.: Empirical Model-Building and Response Surfaces, p. 424, Wiley, 1987
21
21
5.2 Lapport de la thorie de lapprentissage

La complexit ne se limite pas au nombre de
paramtres
Hastie et al. 2001
f(x,w) = sign (sin (w.x) ) c < x < 1, c>0

Un seul paramtre, VC dimension infinie
22
22 septembre 2014
23
Ingalit de Vapnik Chervonenkis

avec la probabilit 1- :
R < Remp +
h ( ln ( 2n h ) + 1) ln ( 4)
n
24
n fix, modle de complexit optimale
25
La borne dpend de n/h

Si n augmente on peut augmenter la complexit
du modle
Si h augmente moins vite que n, la capacit de
gnralisation samliore!
Contradiction avec le choix de modle par BIC

modle pour comprendre
versus
modle pour prvoir
26
5.3 Agrgation de modles

Pourquoi choisir?
27
Stacking
Combinaison non baysienne de m prdictions
obtenues par des modles diffrents
Premire ide : rgression linaire
f1 (x), f2 (x),..., fm (x)
min yi w j f j (x)
=i 1 =
j 1
Favorise les modles les plus complexes:

surapprentissage
28
Solution: utiliser les valeurs prdites en otant

chaque fois lunit i
i
min yi w j fj (x)
=i 1 =
j 1
Amliorations:
Combinaisons linaires coefficients positifs (et
de somme 1)
Rgression PLS ou autre mthode rgularise car
les m prvisions sont trs corrles
29
Avantages
Prvision meilleures quavec le meilleur modle
Possibilit de mlanger des modles de toutes
natures: arbres , ppv, rseaux de neurones etc.
alors que le Bayesian Model Averaging utilise des
modles paramtrs de la mme famille
30
31
The Netflix dataset contains more than 100 million

datestamped movie ratings performed by
anonymous Netflix customers between Dec 31, 1999
and Dec 31, 2005. This dataset gives ratings about
m = 480 189 users and n = 17 770 movies
The contest was designed in a training-test set
format. A hold-out set of about 4.2 million ratings
was created consisting of the last nine movies rated
by each user (or fewer if a user had not rated at least
18 movies over the entire period).The remaining
data made up the training set.
32
The winner : BellKor's Pragmatic Chaos

team. A blend of hundreds of different models
Test RMSE for Bellkor's Pragmatic Chaos: 0.856704
(10.06%)
The Ensemble Team. Blend of 24 predictions

Test RMSE for The Ensemble: 0.856714 (10.06%)
Bellkor's Pragmatic Chaos defeated The

Ensemble by submitting just 20 minutes
earlier!
33
Le stacking: un cas particulier des mthodes

densemble
Bagging, Boosting, Random Forests
Encore mieux (?):

Modles locaux: approches clusterwise
34
6.Statistique officielle et Big Data
35
La statistique officielle bouge!

UN global working group on Big Data for Official
Statistics
http://www1.unece.org/stat/platform/display/big
data/Big+Data+in+Official+Statistics#
ESS Big Data task Force
W.Radermacher (DG Eurostat):
passer dun monde denqutes un monde de donnes
multisources et multimode
Change the factory
Vers le iStatisticien
36
Quelques exemples
Donnes de tlphonie mobile (tourisme,
mobilit, pauvret, crime)
Collecte de prix sur le web
Offres demploi et taux de chomage
Compteurs lectriques et occupation des
logements
Avantages:
Rapidit
conomies
37
38
Inconvnients
Absence de contrle sur la production des donnes
Manque de vrit de terrain
qualit et prcision variables
Capteurs, camras, tlphonie
Rseaux sociaux, e-commerce
Prennit; public-priv
Risque de dgradation de limage des INS
Ncessit de protger la confidentialit

Risque de ridentification
thique
39
7. La fin de la science?
Petabytes allow us to say: "Correlation is enough." We can stop looking

for models. We can analyze the data without hypotheses about what it
might show. We can throw the numbers into the biggest computing
clusters the world has ever seen and let statistical algorithms find
patterns where science cannot.
40
Systmes de recommandation, filtrage

collaboratif sont efficaces
xi1..xip
xn1..xnp
0101...
...........
100....
z11...zq1
z1r ...zqr
n clients choisissent parmi q

produits. On connait les
caracteristiques des produits et
ou des clients
Corrlation nest pas causalit
41
Linfluence dun prdicteur ne se mesure pas

par son coefficient de rgression (P.Bhlmann)
Le toutes choses gales par ailleurs est
absurde
Faire varier un prdicteur entraine des variations
des autres prdicteurs (intervention vs
corrlation)
Ncessit dun schma causal
42
Stress au travail (M.Hocine, G.Russolillo, GS, 2014)

Item 1
.
.
.
Item 14
Item 15
.
.
.
Item 28
Item 29
.
.
.
Item 40
Work Context
Item 1
Job control
Stress
Relationship
Item 2
.
.
.
.
.
.
.
.
Item 24
Item 25
Item 41
.
.
Item 52
Tasks
Item 53
.
.
Item 58
Recognition
43
Conclusion
Les donnes massives ncessitent une
approche spcifique
Les vieilles mthodes restent efficaces, surtout
en non supervis
Quels statisticiens pour les Big Data?
44
45
Merci pour votre attention
46

Saporta

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Saporta

Uploaded by

Copyright:

Available Formats

Quelle statistique

pour les Big Data?

Journe Big Data, SFdS, 13 mars 2015

2. Vous avez dit modles

Journe Big Data, SFdS, 13 mars 2015

Vision Big Data Analytics : modle pour

modles issus des donnes

Journe Big Data, SFdS, 13 mars 2015

Guillaume dOckham 1320

Norbert Wiener 1948

Frank Rosenblatt 1962

Vladimir Vapnik 1982

Journe Big Data, SFdS, 13 mars 2015

Adapted from Hastie et al.

Une dmarche avec 3 chantillons pour

Validation : pour estimer la performance sur des

Journe Big Data, SFdS, 13 mars 2015

Sparer (une fois) les donnes en apprentissage,

Journe Big Data, SFdS, 13 mars 2015

Journe Big Data, SFdS, 13 mars 2015

Journe Big Data, SFdS, 13 mars 2015

Journe Big Data, SFdS, 13 mars

Guillaume dOccam (1285? 1349?), dit le docteur invincible

jour, vpres : il ne faut pas multiplier les explications et les

Journe Big Data, SFdS, 13 mars 2015

Le principe de vraisemblance (Fisher, 1920)

Pour une famille f, la meilleure estimation de est

Choix de modles par vraisemblance pnalise

Journe Big Data, SFdS, 13 mars 2015

AIC et BIC ne sont semblables quen apparence:

Comparaison AIC BIC

Journe Big Data, SFdS, 13 mars 2015

AIC BIC ralistes?

"The Truth Is Out There" (X-Files, 1993)

Journe Big Data, SFdS, 13 mars 2015

5.2 Lapport de la thorie de lapprentissage

Hastie et al. 2001

f(x,w) = sign (sin (w.x) ) c < x < 1, c>0

Journe Big Data, SFdS, 13 mars 2015

Ingalit de Vapnik Chervonenkis

Journe Big Data, SFdS, 13 mars 2015

n fix, modle de complexit optimale

Journe Big Data, SFdS, 13 mars 2015

La borne dpend de n/h

Contradiction avec le choix de modle par BIC

5.3 Agrgation de modles

Journe Big Data, SFdS, 13 mars 2015

Favorise les modles les plus complexes:

Journe Big Data, SFdS, 13 mars 2015

Solution: utiliser les valeurs prdites en otant

Journe Big Data, SFdS, 13 mars 2015

Journe Big Data, SFdS, 13 mars 2015

The Netflix dataset contains more than 100 million

Journe Big Data, SFdS, 13 mars 2015

The winner : BellKor's Pragmatic Chaos

The Ensemble Team. Blend of 24 predictions

Bellkor's Pragmatic Chaos defeated The

Journe Big Data, SFdS, 13 mars 2015

Le stacking: un cas particulier des mthodes

Encore mieux (?):

Journe Big Data, SFdS, 13 mars 2015

6.Statistique officielle et Big Data

Journe Big Data, SFdS, 13 mars 2015

La statistique officielle bouge!