Professional Documents
Culture Documents
Plan
1.
2.
3.
4.
5.
6.
7.
Too big ?
Vous avez dit modles
Comment valider
La bote outils
Choix de modles
Big Data et statistique officielle
La fin de la science?
1. Too big ?
Estimation, tests, modles classiques
inadapts
Tout est significatif!
si n=106 un coefficient de corrlation gal 0,002 est
significativement diffrent de 0 mais bien inutile
Un modle de rgression pourri aura un R2
significatif mais la plupart des modles classiques
sont rejets puisque le moindre cart devient
significatif
Intervalles de confiance rduits nant
Journe Big Data, SFdS, 13 mars 2015
Paradoxe n 1
Un bon modle statistique ne donne pas
ncessairement des prdictions prcises au
niveau individuel. eg: facteurs de risque en
pidmiologie
Paradoxe n2
On peut prvoir sans comprendre:
pas besoin dune thorie du consommateur pour faire
du ciblage
un modle nest quun algorithme
3. Comment valider
Ncessit de marier Machine Learning et
statistique
Un bon modle est celui qui prdit bien
Diffrence entre ajustement et prvision
Ensembles dapprentissage et de validation
Le dilemme biais-variance
=
y f ( x) +
)
+ ( E ( f ( x ) ) f ( x ) ) + V ( f ( x ) )
E ( y0 y 0 )
= + E f ( x0 ) f ( x0 ) =
2
biais
variance
variance
10
11
Elmentaire?
Pas si sur
Voir publications en conomtrie, actuariat,
pidmiologie
12
4. La bote outils
Exploratoire ou non supervis
Analyses factorielles, k-means
Rgles dassociation
Prdictif ou supervis
Modles explicites de type rgression, avec
rgularisation, arbres ..
Modles de type bote noire (neurones, SVM
13
14
5. Choix de modles
5.1 La vision classique
Quand l "expert" hsite entre plusieurs
formulations
Dans une famille paramtre
Utilisation la plus frquente: slection de
variables
Parcimonie
Le rasoir dOckham : un principe scientifique pour
viter les hypothses inutiles
Journe Big Data, SFdS, 13 mars 2015
15
16
L ( x1 ,.., xn ; ) = f ( xi ; )
i =1
17
Critre de Schwartz :
BIC = -2 ln(L) + K ln(n)
On prfrera le modle pour lequel ces critres ont la
valeur la plus faible.
18
19
20
21
21
22
22 septembre 2014
23
R < Remp +
h ( ln ( 2n h ) + 1) ln ( 4)
n
24
25
26
27
Stacking
Combinaison non baysienne de m prdictions
obtenues par des modles diffrents
Premire ide : rgression linaire
f1 (x), f2 (x),..., fm (x)
min yi w j f j (x)
=i 1 =
j 1
28
i
min yi w j fj (x)
=i 1 =
j 1
Amliorations:
Combinaisons linaires coefficients positifs (et
de somme 1)
Rgression PLS ou autre mthode rgularise car
les m prvisions sont trs corrles
Journe Big Data, SFdS, 13 mars 2015
29
Avantages
Prvision meilleures quavec le meilleur modle
Possibilit de mlanger des modles de toutes
natures: arbres , ppv, rseaux de neurones etc.
alors que le Bayesian Model Averaging utilise des
modles paramtrs de la mme famille
30
31
32
33
34
35
36
Quelques exemples
Donnes de tlphonie mobile (tourisme,
mobilit, pauvret, crime)
Collecte de prix sur le web
Offres demploi et taux de chomage
Compteurs lectriques et occupation des
logements
Avantages:
Rapidit
conomies
Journe Big Data, SFdS, 13 mars 2015
37
38
Inconvnients
Absence de contrle sur la production des donnes
Manque de vrit de terrain
qualit et prcision variables
Capteurs, camras, tlphonie
Rseaux sociaux, e-commerce
Prennit; public-priv
Risque de dgradation de limage des INS
39
7. La fin de la science?
40
xn1..xnp
0101...
...........
100....
z11...zq1
z1r ...zqr
41
42
Work Context
Item 1
Job control
Stress
Relationship
Item 2
.
.
.
.
.
.
.
.
Item 24
Item 25
Item 41
.
.
Item 52
Tasks
Item 53
.
.
Item 58
Recognition
Journe Big Data, SFdS, 13 mars 2015
43
Conclusion
Les donnes massives ncessitent une
approche spcifique
Les vieilles mthodes restent efficaces, surtout
en non supervis
Quels statisticiens pour les Big Data?
44
45
46