You are on page 1of 16

LES DOSSIERS

TECHNIQUES
DINFORMATION
Octobre
2013
1/ Introduction
2/ Que reprsente le Big Data ?
4/ Les aspects cls du Big Data
7/ tat des lieux de lindustrie
de lAssurance sur le Big Data
9/ Le Big Data et lAssurance
13/ Quels chantiers, quelles
perspectives demain pour
les assureurs et le Big Data ?
16/ Conclusion
BIG DATA

lheure o certains sinterrogent encore pour savoir si
le Big Data est un bon concept, sil peut tre utile pour
notre industrie et nos mtiers, sil peut amliorer nos
modles, nous avons dcid de traiter ce sujet au sein
dun Dossier Technique complet de manire objective
tout en souhaitant mettre en avant les opportunits et
les risques sous-jacents. Aujourdhui, le Big Data est une
ralit et non un concept, la vraie question est de savoir
comment tirer parti des avantages quil procure tout en
proposant une dmarche raisonnable et progressive pour
lintgrer dans nos processus.
Nous devons admettre que les donnes volumineuses
et non structures envahissent les rseaux et les sys-
tmes de stockage en tout genre. La premire partie de
notre Dossier Technique cherchera dfnir et illustrer
quelques aspects du Big Data.
La responsabilit des assureurs en gnral et des
actuaires en particulier est importante en la matire :
nous devons tre garants des donnes que nous produi-
sons et de leur utilisation.
Nous vous proposons ce Dossier Technique comme une
approche visant ouvrir une rfexion sur une rvolution
annonce, cest aujourdhui notre conviction.
Bonne lecture !

Christophe Eberl, prsident
Opportunits de demain
pour les assureurs
Dossier ralis par Dan Chelly, directeur mtier Risk Management, ric
Gaubert, directeur du dveloppement, Bertrand Pitavy, directeur mtier
Projets & Matrise dOuvrage, Gildas Robert, directeur mtier en Actuariat
conseil, Manuel Audrezet, consultant, Frdric Genet, manager et Vincent
Meister, actuaire manager.
2
DOS S I ERS T ECHNI QUES D I NF ORMAT I ON OPT I MI ND WI NT ER / OCTOBRE 2013 / BI G DATA
Que reprsente le Big Data ?
QUELQUES CHIFFRES ET DFINITIONS
En apparence, la dfinition du Big Data semble
vidente et explicite : grosses donnes . En ralit,
le concept est bien plus large. Les donnes de masse
existent depuis maintenant dj bien longtemps
et, mises part les problmatiques de stockage, leur
traitement tout comme leur utilisation ne posent pas
de soucis majeurs.
Une premire approche dsormais classique est la
dfnition que lon trouve sur Wikipdia : Le Big Data
[], dsigne des ensembles de donnes qui deviennent
tellement volumineux qu'ils en deviennent difciles
travailler avec des outils classiques de gestion de base
de donnes ou de gestion de l'information.
Cette dfnition nest cependant pas assez explicite
selon nous. En efet, le caractre volumineux est une
proprit remarquable du Big Data mais pas la seule.
Sa deuxime proprit fondamentale est labsence
de structuration des informations sous-jacentes aux
donnes obtenues et stockes. Cette htrognit
revt un caractre novateur au concept de Big Data.
Les sources multiples dorigine des donnes sont une
troisime caractristique du Big Data selon nous. La
multiplicit des sources dorigine, particulirement
lies aux nouvelles technologies, ainsi que leur volume
trs signifcatif les rendent prcieuses. Au-del des
sources classiques de bases de donnes historiquement
constitues, nous avons dsormais les sources num-
riques issues de linternet et des rseaux sociaux, les
sources relies aux nouveaux et nombreux capteurs
qui envahissent notre quotidien, quils soient biom-
triques ou lectromcaniques.
Aujourdhui, le volume des donnes stockes est vi-
demment en pleine expansion et nous vous proposons
ci-aprs quelques lments de rfrences. Selon une
tude IDC, les donnes numriques cres dans le
monde seraient passes de 1,2 zettaoctet par an en 2010
1,8 zettaoctet en 2011, puis 2,8 zettaoctets en 2012 et
slveront 40 zettaoctets en 2020. titre dexemple,
Twitter gnre lheure actuelle 7 teraoctets de don-
nes chaque jour et Facebook 10 teraoctets.
Ce sont pourtant les installations scientifques qui
produisent le plus de donnes. De nombreux projets
sont ainsi en cours comme par exemple le radiotles-
cope Square Kilometre Array qui produira 50 tera octets
de donnes analyses par jour, un rythme de
7 000 teraoctets de donne brutes par seconde.
QUOI CELA SERT-IL ?
Le Big Data sert dj beaucoup certains acteurs
conomiques : les professionnels du marketing
utilisent ces donnes en Datamining pour des tudes
comportementales. Plus rcemment, en politique, les
stratges amricains de lquipe de Barack Obama ont
largement utilis le Big Data pour cibler leurs eforts
de campagne en fonction des nombreuses donnes
leur disposition croisant ainsi des donnes gogra-
phiques avec des donnes comportementales lies aux
opinions politiques.
Cest certainement dans le domaine de la science
que le Big Data et les super calculateurs numriques
permettent des avances remarquables. Les squen-
ceurs dADN ont progress dun facteur de 10 000 en
quelques annes : denviron 10 ans pour dcoder lADN
humain, la dure est aujourdhui passe moins dune
semaine. On peut en tirer une leon simple : le Big Data
implique des calculateurs puissants pour tre correcte-
ment exploit, lun ne va pas sans lautre.
90 % des donnes disponibles
aujourd'hui ont t cres au cours
de ces deux dernires annes.
Quelques ordres de grandeur des volumes de donnes
Unit
Nombre
doctets
quivalence
1 yottaoctet (Yo) 10
24

1 zettaoctet (Zo) 10
21
Toutes les donnes cres
en 2012 (2,8 Zo)
1 exaoctet (Eo) 10
18
Toutes les informations
gnres jusquen 2003 (5 Eo)
1 ptaoctet (Po) 10
15
Bases de donnes de Google,
Facebook, etc.
1 traoctet (To) 10
12
6 millions de livres
1 gigaoctet (Go) 10
9
1 flm de deux heures
1 mgaoctet (Mo) 10
6
1 livre de poche (1 Mo),
1 morceau de musique (5 Mo)
1 kilooctet (Ko) 10
3
3
DOS S I ERS T ECHNI QUES D I NF ORMAT I ON OPT I MI ND WI NT ER / OCTOBRE 2013 / BI G DATA
ET DANS LE DOMAINE DE LASSURANCE ?
Les domaines dapplication futurs du Big Data
vont tre videmment trs larges et concerneront
lensemble des secteurs conomiques. Notre Dossier
Technique sintresse trs logiquement aux opportu-
nits pour le secteur de lassurance, certainement une
des industries les plus concernes par les perspectives
du Big Data. En efet, lassurance est base sur des
lments immatriels et sur un cycle de production
invers. Ces deux caractristiques impliquent une
aisance naturelle utiliser des donnes numriques
ainsi quun fort besoin dlments prdictifs associs
aux sciences probabilistes.
La question aujourdhui est de savoir comment notre
industrie doit se positionner pour bnfcier demain
des meilleurs donnes et outils que nous apportent
les nouvelles technologies. Lambition de la rfexion
que nous souhaitons ouvrir avec ce Dossier Technique
est de permettre au lecteur, dcideur ou expert, de se
positionner afn de considrer que le Big Data :
nest pas ce jour une opportunit pour son pri-
mtre dexercice ;
est une opportunit dans une confguration dite
passive : utiliser progressivement les donnes dis-
ponibles pour des traitements novateurs en termes
de gestion des risques ;
est une opportunit dans une confguration dite
active : cette dernire posture vise faire voluer
ses produits, ses garanties et/ou ses mthodes de
gestion des risques pour envisager une meilleure
performance et un meilleur service pour ses assu-
rs. Lattitude dite active implique galement
des rfexions sur la mise en place de moyens de
collectes comme des capteurs virtuels ou physiques
ou encore de partenariats avec des producteurs de
donnes volumineuses, voire une exploitation plus
systmatique des open data
(1)
.
BFM TV
Dans la squence dapparition des phnomnes de socit, le bouche oreille, puis aujourdhui les rseaux
sociaux, sont en gnral la premire occurrence dune opinion. Fort de ce constat, BFM a construit deux
indicateurs pour mesurer ltat desprit des Franais :
le premier relatif ltat desprit des chefs dentreprise, avec une recherche de mots cls sur les rseaux
sociaux comme par exemple rentabilit ou production ;
le deuxime relatif ltat desprit des mnages sur la base de mots cls lis une thmatique oppose
comme chmage ou logement.
Chacun des indicateurs est le solde de la somme des termes optimistes et pessimistes.
En mai 2013, BFM a pu ainsi annoncer, 15 jours avant tout le monde, la reprise de confance des mnages
et des chefs d'entreprises qui a ensuite t confrme par des tudes INSEE.
Nous avons l un bel exemple d'exploitation de donnes non structures, de l'utilisation d'une taxonomie
pour classer et trier les termes analyss et surtout une analyse de signaux faibles explique Emmanuel
Lechypre, ditorialiste et Directeur de lobservatoire conomique chez BFM Business.
Une opportunit pour le secteur
de lassurance, une des industries
les plus concernes...
(1) Voir le site data.gouv.fr.
Des 3V au 2x3V
La littrature voque gnralement les 3V
pour dsigner les donnes de type Big Data,
caractrises par :
les Volumes consquents, de lordre de
quelques dizaines de Po (10
15
) pour les
bases de donnes de Google ou Amazon ;
la Varit signifcative : fchiers, images,
vidos ou encore des blogs et rseaux
sociaux ;
la Vlocit : ncessit dexploiter ces
donnes le plus rapidement possible, voire
en temps rel, dans un monde numrique
qui exige dtre plus rapide que ses concur-
rents.
Nous proposons dajouter cette dfnition
quelques V importants pour notre industrie :
la Volont des entreprises de demain duti-
liser le Big Data ;
la ncessaire Visualisation des sources
existantes ;
la Valorisation des donnes disponibles.
De cette faon, nous dfnissons le concept
nouveau des 2x3V qui autorise, comme souli-
gn dans notre prcdent Dossier Technique
sur les donnes, une exploitation la plus
aboutie possible de cet actif immatriel
charg dhistoire.
4
DOS S I ERS T ECHNI QUES D I NF ORMAT I ON OPT I MI ND WI NT ER / OCTOBRE 2013 / BI G DATA
(1) Temps ncessaire un paquet de donnes pour passer de la source la destination travers un rseau (dfnition de Wikipdia).
Les aspects cls du Big Data
COMMENT TRAITER LE BIG DATA ?
Le monde de lassurance est familier des grilles de
calcul pour modliser un portefeuille, lancer des mil-
liers de scnarios conomiques en mode stochastique
pour calculer un SCR, Capital de Solvabilit Requis.
Le Big Data est lavnement des grilles de stockage.
Les donnes exploites sont disperses au sein din-
ternet sur une multitude de serveurs, avec un certain
niveau de redondance de linformation. lchelle
mondiale, cela ralise une immense grille de stockage
quil sagit dexploiter en temps rel, avec les problmes
de latence
(1)
des donnes que lon imagine aisment.
Une volution technologique majeure concerne la mise
au point de systmes de fchiers distribus de type
NoSQL, pour Not Only SQL. Ces patrons darchitec-
ture de donnes, frameworks, rpondent aux besoins
de performance qui impliquent des traitements
distribus massivement parallles. Les plus connus
sont notamment ceux mis au point et/ou utiliss par
Google depuis plusieurs annes tels que HDFS, Hadoop
Distributed File System, et GFS, Google File System.
Par opposition aux SGBD-R, Systme de Gestion
de Bases de Donnes Relationnelles, qui stockent
linformation dans des tables indexes, dimension-
nes et hirarchises, un systme de fchiers de type
NoSQL peut se reprsenter par une base de donnes
construite autour dune unique table qui contient des
milliards denregistrements de longueur variable et
non structurs.
Pour exploiter ces bases, des algorithmes de type MAP
REDUCE en quatre tapes sont utiliss, cf. schma
ci-dessous :
La table exploiter est dcoupe en blocs de mmes
tailles et des serveurs vont chacun appliquer le trai-
tement demand au bloc traiter, puis renvoyer leur
rsultat selon la technique suivante :
1. Dcoupage en blocs
2. Traitement sur serveurs distants MAP
3. Concatnation des rsultats reus REDUCE
4. Envoi du rsultat lutilisateur
Les donnes exploites constituent
une immense grille de stockage
quil sagit dexploiter en temps rel.
Source : Optimind Winter
Traitements
sur serveurs
distants MAP
Envoi du
rsultat
lutilisateur
Algorithmes de type MAP REDUCE
Donnes
Concatnation
des rsultats
reus
REDUCE
Dcoupage
en blocs
5
DOS S I ERS T ECHNI QUES D I NF ORMAT I ON OPT I MI ND WI NT ER / OCTOBRE 2013 / BI G DATA
QUELLES TECHNOLOGIES POUR LE BIG DATA ?
Lvolution des technologies allie la multiplication
des serveurs distants permet de grer des volumes de
donnes consquents dans des dlais particulirement
rduits.
Un premier levier concerne le matriel utilis avec la
multiplication des curs sur un seul microprocesseur,
communment appel puce. Pour rappel, un cur
contient tous les lments ncessaires lexcution
de programmes : unit de calcul, registres, mmoire
cache de premier niveau, dit L1, pour bnfcier dune
faible latence.
titre dexemple, un seul processeur OCTEON III
MIPS64 contient jusqu 48 curs. Un cache mmoire,
partag entre les curs, permet des changes des don-
nes sans passer par la RAM. Enfn, ces processeurs
utilisent un jeu dinstructions RISC
(1)
et sont gravs en
3D et en technologie 28 nm
(2)
pour amliorer davantage
encore les performances en rduisant la longueur des
connections entre tous les composants du micropro-
cesseur. Le projet Angstrom , men au MIT, vise
concevoir des microprocesseurs 1 000 curs.
Les curs sont capables de travailler sur des systmes
dexploitation difrents Unix , voire directement en
binaire, langage machine , pour aller encore plus vite.
Enfn, quand la charge diminue, on sait diminuer aussi
la frquence dhorloge du microprocesseur, passant par
exemple de 1,5 GHz 750 MHz, pour rduire la consom-
mation lectrique. Cest un challenge : linformatique
et les serveurs Web reprsentent 10 % de la consomma-
tion lectrique aux tats-Unis. Le green IT devient
indispensable.
Le code informatique est un deuxime levier pour
rduire efcacement les temps de traitements. La pro-
grammation rcursive permet datteindre cet objectif
mais uniquement dans les cas o les calculs peuvent
tre raliss en parallle. Concrtement, cela consiste
dvelopper une procdure informatique faisant appel
elle-mme sur un sous-ensemble de donnes. Ce type
dalgorithme permet par exemple de parallliser les
calculs de tri sur plusieurs nuds distincts.
Cependant, la complexit des algorithmes utiliss et
la difcult trouver des programmeurs matrisant
la programmation massivement parallle rendent ces
optimisations dlicates raliser. On peut aisment
anticiper une volution court terme dun certain
nombre de ces techniques de programmation, comme
on la dj observ lorsque les langages orients objet
sont arrivs maturit.
Enfn, la visualisation est le troisime levier. Connue
sous le nom de Data Visualization ou Data Viz, elle a
pour objectifs de comprendre et de faire comprendre.
De multiples techniques existent et les plus perfor-
mantes sortent des schmas usuels de reprsentation
de linformation.
QUELQUES ENJEUX STATISTIQUES
ET MATHMATIQUES DU BIG DATA
Lappropriation et lexploitation des donnes issues
du Big Data reprsentent un df nouveau et consi-
drable pour les actuaires, analystes et statisticiens
dont le mtier est de faire parler les donnes dont
ils disposent. Lunivers classique actuel, constitu
dlments norms, explicites et aux formats connus
numriques ou alphanumriques principalement ,
est explor au travers de statistiques et modles qui
sappuient directement sur ces donnes. Ces habitudes
devront tre contournes, voire partiellement oublies,
pour adopter de nouvelles pratiques, en phase avec le
fonctionnement intrinsque des outils de traitement
du Big Data.
(1) RISC est lacronyme de Reduced Instruction Set Computer, soit ordinateur jeu dinstructions rduit . Cette technique permet dexcuter un
plus grand nombre dinstructions par unit de temps (cadencement par lhorloge du microprocesseur).
(2) 28 nanomtres soit 28 x 10
-9
m. Cest la taille du plus petit lment pouvant tre grav dans le microprocesseur (par photogravure). Cette taille
diminue rgulirement grce lamlioration constante des robots de gravure des microprocesseurs.
6
DOS S I ERS T ECHNI QUES D I NF ORMAT I ON OPT I MI ND WI NT ER / OCTOBRE 2013 / BI G DATA
En fn de processus de lanalyse du Big Data cf. algo-
rithme de Map Reduce expos plus haut lanalyse
des rsultats prend la forme de tableaux de bord, de
reportings ou encore de graphiques, qui reftent les
interactions ou les corrlations entre les donnes.
Linterprtation de ces sorties passe alors par ladop-
tion dun raisonnement non plus cartsien, mais bas
sur des rfexions prdictives, voire intuitives.
Il sagit ici du changement majeur dans lutilisation
dun environnement Big Data : lutilisateur devra
sattacher analyser ces rsultats singuliers, les af-
ner par la cration de requtes complmentaires pour
ensuite concatner cette vision issue des donnes Big
Data avec les donnes de son portefeuille client. Cette
combinaison lui permettra dexplorer de nouveaux
indicateurs dont la fiabilit dpendra du degr de
confance accord aux donnes issues du Big Data. Les
critres classiques de qualit des donnes ntant pas
applicables, il sagira surtout pour lutilisateur de sap-
proprier progressivement les restitutions issues de ce
nouvel univers, en vrifant notamment la robustesse
des rsultats dans le temps. La vrifcation de labsence
de biais li au processus de collecte des donnes sera
notamment une composante essentielle.
Le dploiement dun tel entrept de donnes saccom-
pagne en consquence dune augmentation non
ngligeable des temps dexploitation et danalyse.
Lexpert mtier reste nanmoins au cur du dispositif,
en sappuyant sur la puissance des nouveaux outils
sa disposition qui, par leur intelligence et les bases
de donnes massives disponibles, alimentent et dve-
loppent ses ides et ses rfexions.
LES NCESSAIRES QUESTIONS LIES
LA VIE PRIVE
Lapproche Big Data amne utiliser et croiser dif-
frentes natures de donnes disponibles. Ces donnes
peuvent tre publiques, par exemple fournies par des
administrations en open data
(1)
volontairement dispo-
nibles par contrat mais daccs restreint, comme les
botes noires dans les voitures soumises au Pay as
You Drive, ou encore rcupres sur internet dans un
mode, en thorie, plutt ouvert comme la publication
dun commentaire sur un site.
Toutefois, ces donnes peuvent faire lobjet de
contraintes dutilisation : contraintes de droit commun
sur lutilisation des donnes caractre personnel,
CNIL, mais aussi contraintes plus spcifques lies
au secret mdical, au secret bancaire ou encore la
proprit intellectuelle. La rglementation franaise
actuelle reconnat toute personne des droits sur ses
donnes et dfnit des rgles sur les interconnexions
et traitements de ces donnes. Elle interdit galement,
sauf exception, la collecte et le traitement des donnes
sensibles, notamment origines ethniques, opinions
politiques, philosophiques ou religieuses ou relatives
la sant. La CNIL, autorit administrative indpen-
dante, dispose en parallle dun rgime de sanctions
si ces rgles ne sont pas respectes.
Lutilisation des traitements en Big Data en matire
dthique et de vie prive pose de nombreuses ques-
tions alors que lon parle de plus en plus de patrimoine
numrique personnel :
la difcult de qualifer la donne traite en temps
rel pour savoir si elle est sensible ou soumise des
rgles particulires ;
la perte potentielle danonymat des donnes ds lors
quelles sont croises entre elles ;
les difcults appliquer le droit linformation des
intresss, dobtenir leur consentement, dexercer
leur droit sopposer comme leur droit daccs et
de rectifcation ou de sopposer la logique dune
dcision lie un traitement de donnes ;
la marchandisation des donnes personnelles.
En terme dthique et de perception de lacceptable,
il existe une question de gnration ou de culture
numrique. En efet, il est clair que les nouvelles gn-
rations sont bien plus ouvertes fournir sur internet
leurs donnes afn dobtenir des ofres personnalises
et golocalises.
Une future rglementation europenne se construit
actuellement progressivement. Elle conserve les prin-
cipes cls de la rglementation franaise mais des
dbats importants subsistent sur le consentement
explicite de lusager opt-in et sur une forme de
droit loubli qui pourraient tout deux contraindre
bien plus fortement lutilisation actuelle des donnes.
Face ces enjeux, les acteurs de lconomie numrique,
qui y voient un gisement de croissance, sopposent aux
dfenseurs des droits individuels. Or, le non-respect
des rgles europennes en la matire est passible
damendes pouvant atteindre un million deuros ou 2 %
du chifre dafaires annuel global dune entreprise. De
quoi tre vigilant sur lutilisation de ces donnes en
assurance
(1) Voir le site data.gouv.fr.
7
DOS S I ERS T ECHNI QUES D I NF ORMAT I ON OPT I MI ND WI NT ER / OCTOBRE 2013 / BI G DATA
(1) Enqute ralise entre le 27 juin et le 16 juillet 2013 auprs dun panel reprsentatif du march franais. Utilisant la mthodologie trs norme
dun mode dinterrogation en ligne CAWI, Computer Assisted for Web Interview, ltude a t ralise dans le respect des procdures et rgles de la
norme ISO 20252.
Lenqute
(1)
a t ralise auprs
dun chantillon de 103 rpondants
qui reprsentent 48 acteurs de las-
surance. Les principales directions
interroges sont celles qui utilisent
les donnes : directions techniques
et actuariat (tarification, provi-
sions), marketing (produits, client),
risques (fraude, pertes) et enfn la
direction informatique (stockage,
mise disposition).
POSITIONNEMENT DU SUJET :
RFLEXION STRATGIQUE ?
Nous lindiquions dans ldito,
le thme du Big Data nest plus
un sujet venir. Les personnes
interroges sont prs de 60%
rpondre que ce sujet est bien
identif comme tant stratgique.
Pour seulement 23 %, il ne lest pas
encore. Enfn, 18 % nont pas dinfor-
mation sur le sujet, sans doute d
un manque de communication
en interne ou bien en raison de son
caractre novateur pour certaines
personnes.
DIRECTIONS MTIERS
IMPLIQUES DANS LE PROJET
BIG DATA
Pour trois quarts des rpondants,
les deux directions principalement
impliques par ce projet sont les
directions informatiques (75 %) et
les directions techniques (73 %).
On retrouve bien les contraintes
techniques lies la mise dispo-
sition et au stockage des donnes.
Ces thmes sont souvent grs par
les directions informatique. Les
directions techniques sont his-
toriquement habitues utiliser
les donnes pour des besoins de
tarification, provisionnement et
simulations.
Dans le futur, ils sont 55 % penser
que la direction des risques va tre
implique notamment sur les sujets
rglementaires dans le cadre de
Solvabilit II mais galement pour
lutter efcacement contre la fraude
et le blanchiment.
En troisime position, on retrouve
les directions historiquement
consommatrices des analyses
de donnes : 54 %, les directions
marketing et 37 %, les directions
commerciales. Nous sommes l
en phase avec les besoins lis aux
attentes des clients en termes de
compltude de la gamme de pro-
duits et dune parfaite connaissance
de son portefeuille clients sur les
critres discriminants permettant
de les fdliser.
TAT DAVANCEMENT PAR
RAPPORT AU MARCH,
AVANTAGE CONCURRENTIEL ?
Ce sujet intresse le march
puisquils sont prs dun tiers,
soit 32 %, considrer quils sont
en phase avec les volutions du
march et un autre tiers 35 %,
a contrario quils sont en retard.
Ils sont seulement 2 % considrer
tre en avance. Preuve en est que les
acteurs du march surveillent ltat
davancement de leurs concurrents.
Enfn, 31 % ne connaissent pas leur
positionnement, ce qui semble
signifier, soit quils nont pas
dmarr, soit quils ne font pas de
veille concurrentielle, soit encore
que labsence de mesure claire sur
ladoption du Big Data ne leur per-
met pas de se positionner aisment.
UTILISATIONS FUTURES
DU BIG DATA ?
Dans un contexte de crise, damlio-
ration des marges et de concurrence
accrue, tout naturellement, ils sont
45 % considrer que la premire
tat des lieux de lindustrie de lAssurance
sur le Big Data
Nous avons souhait faire un tat des lieux de la connaissance et de lanticipation des
assureurs sur ce sujet et avons command un sondage OpinionWay. Volontairement
restreint, il porte sur les points cruciaux pour obtenir une vision la fois globale et
instantane.
Taille entreprise
5%
63%
13%
18%
5%
3%
12%
17%
12%
54%
< 50 salaris
50 249 salaris
250 499 salaris
500 1 000
salaris
> 1 000 salaris
Type entreprise
Assureur
IP
Mutuelle 45
Rassureur
Autres
5%
63%
13%
18%
5%
3%
12%
17%
12%
54%
8
DOS S I ERS T ECHNI QUES D I NF ORMAT I ON OPT I MI ND WI NT ER / OCTOBRE 2013 / BI G DATA
utilisation sera lamlioration de
loffre et des produits puis 34 %
pour construire un avantage
concurrentiel. On retrouve bien
l les besoins des directions com-
merciales/marketing et celles des
directions techniques recevant les
dcisions des directions gnrales.
Information intressante, ils sont
respectivement 38 % et 37 % pen-
ser que le Big Data sera utilis pour
amliorer les processus de lentre-
prise et optimiser lutilisation des
ressources. On peut imaginer que
les nombreuses donnes seront
analyses pour amliorer la perfor-
mance de lentreprise, ladquation
entre les processus internes et
lallocation des ressources. Ce qui
traduit un fort niveau de maturit
des rfexions dans les entreprises.
Environ un tiers, respectivement
34 % et 32 %, estime que les donnes
serviront pour identifer les usages
ou des comportements anormaux
(principalement fraude) et anti-
ciper les demandes de demain.
Rsolument tournes vers une meil-
leure connaissance client travers
la systmatisation dtudes appro-
fondies des donnes de sinistres et
de prestations, il devient important
pour les entreprises de mettre tout
en uvre pour rduire les pertes
lies la fraude. La dernire tude
publie en 2011 par lALFA, Agence
pour la lutte contre la fraude
lassurance, indique que les pour-
centages de fraude sont estims 4
8 % sur les montants des sinistres
en IARD. Le sujet fraude devient une
relle priorit dans les directions
des risques afn de rpondre des
besoins rglementaires mais ga-
lement internes en vue damliorer
les marges en rduisant les pertes
fnancires lies la fraude, avec
la diffusion de la culture risque
dans les entits. En dernire prio-
rit, lutilisation des donnes va
servir dans un cadre ofensif afn
de mieux connatre la concurrence
(15 %) et didentifier les signaux
faibles sur le march (12 %).
Enfin, environ 20 % nont pas
connaissance de lutilisation pos-
sible, traduisant sans doute que le
chantier Big Data nest pas encore
lanc ou bien nest pas encore trs
mr concernant ses objectifs.
LES FREINS LUTILISATION
DU BIG DATA
Les deux premires sources sont
techniques et fnancires. Ils sont
un tiers (32 %) considrer que les
freins lutilisation du Big Data
sont dus un manque doutils tech-
niques pour grer un tel volume
de donnes et dans la mme pro-
portion, un manque de moyens
fnanciers investir.
Une limite lie aux ressources
humaines apparat ensuite en
deuxime position puisque 24 %
considrent que les freins sont lis
un manque de comptences internes
pour le traitement de ce type de don-
nes. On va clairement voir natre de
nouvelles fonctions, voire mtiers,
lies aux Big Data qui ncessiteront
des comptences transverses et
mtier lentreprise mais aussi trs
techniques pour apprhender ces
nouvelles technologies quil faudra
parfaitement matriser.
Par ordre dcroissant, on retrouve
ensuite des limites lies un
manque dintrt de la direction
(22 %) qui ne doit pas considrer ce
sujet comme stratgique, ne voyant
pas bien comment cela pourrait
laider au quotidien. Dun point de
vue rglementaire, 14 % considrent
que les limitations dutilisation, par
exemple lies la CNIL, sont trop
fortes.
Enfn 29 % ne savent pas, traduisant
leur manque dimplication dans le
projet interne.
Le TOP 3 : dans l'avenir, quelles utilisations comptez-vous faire du Big Data ?
Anticiper
demandes
de demain
En n1
En n2
En n3
Assureurs IP Mutuelles Tous
Amliorer
processus
de lentreprise
Amliorer
offres et
produits
Optimiser
utilisation
des ressources
Identifier
usages ou
comportements
anormaux
Source : Optimind Winter
9
DOS S I ERS T ECHNI QUES D I NF ORMAT I ON OPT I MI ND WI NT ER / OCTOBRE 2013 / BI G DATA
Le Big Data et lAssurance
POURQUOI LE BIG DATA EST UNE RVOLUTION
POUR LINDUSTRIE DE LASSURANCE ?
Au regard des difrentes prsentations du concept
mme de Big Data proposes dans la premire partie de
ce Dossier Technique et de nos convictions profondes
sur lavenir du secteur de lassurance, nous sommes
convaincus que les nouvelles donnes disponibles
pour les industries du risque doivent leur permettre de
mieux rpondre aux attentes croissantes des assurs
en matire de protection fnancire face aux risques
auxquels ils sont exposs.
Comme dans toutes les rvolutions, un certain nombre
dtapes sont prvoir. Il existera des assureurs pion-
niers qui anticiperont tt les chances ncessaires
lutilisation du Big Data, ils seront les premiers
essuyer des checs mais aussi goter aux succs et
ainsi prenniser leur avenir. Il y aura ensuite une
tape de normalisation qui permettra une majeure
partie du march de sadapter et de suivre les meil-
leures pratiques en la matire. Dans ce dernier groupe,
certains russiront mieux que dautres et en dfnitive,
ceux-l, ainsi que les pionniers, se rserveront la pos-
sibilit de dominer les futurs marchs de lassurance
lis aux nouvelles technologies des donnes. Pour les
autres, une lente mais certaine dcroissance de leur
part de march est prvoir, le temps quils prennent
conscience des efforts produire pour se mettre
niveau : de ces derniers, certains russiront peut-tre.
linverse des prcdentes rvolutions industrielles de
notre secteur, le Big Data que nous pouvons associer
la rvolution numrique post-internet, de type 2.0
pour aller vite, est une (r)volution qui se dploie sur de
nouvelles bases temporelles. En efet, on constate une
acclration importante du progrs et une ncessit
de suivre le rythme.
En dfnitive, la question centrale est la suivante : pour-
quoi le Big Data va autant reconfgurer les marchs ?
Pourquoi nous pensons que le Big Data est comparable
la rvolution informatique des annes 70 ?
La rponse tient en trois arguments cls qui conso-
lident lide mme que lvolution du march est
structurellement irrversible et donc que cest une
rvolution en soit :
les sources disponibles pour tarifer et matriser les
risques dun produit et/ou dune garantie deviennent
multiples et leurs volumtries exponentielles : la
matire premire de lassureur volue en profondeur ;
les risques assurer peuvent tre suivis pour partie
en temps rel et ce quel que soit le sous-jacent por-
teur du risque personne, automobile, entreprise,
etc. : la matire assurable nest plus la mme que par
le pass ;
lenvironnement temporel de lassurance tend deve-
nir instantan : le principe du cycle de production
invers est conserv mais son amplitude se rtrcit
drastiquement.
Ces trois constats obligent lassureur envisager
a minima trois chantiers concrets dans un avenir
proche pour maintenir sa comptitivit concernant :
sa matire premire : veiller pouvoir obtenir les
donnes ncessaires la fabrication et lexploita-
tion de ses produits ;
sa matire assurable : veiller construire des pro-
duits adapts aux besoins du march, cest--dire
intgrant les meilleures pratiques en termes de
fabrication et dutilisation des donnes ;
sa ractivit : veiller ce que son outil industriel, son
systme dinformation, puisse rcolter, analyser et
utiliser les informations ncessaires pour piloter les
produits en temps rel.
QUELQUES EXEMPLES CONCRETS /
LES DOMAINES DAPPLICATION
Les perspectives dapplication dans le domaine de
lassurance sont riches et varies : les informations
issues du Big Data viendront enrichir les processus
et les modles pour optimiser lensemble du cycle
de production de lassureur : de la tarifcation et la
souscription du contrat, la modlisation, au provi-
sionnement et la gestion des risques.
Lactuaire, en tant au cur de ces difrents proces-
sus, va tre trs fortement mis contribution en vue
de lexploitation progressive des informations issues
du Big Data. Cela laisse entrevoir de nouvelles pers-
pectives pour cette profession, tout en soulevant de
nombreuses interrogations sur les modles, processus
et outils de demain. Un des axes dinvestigation sera
notamment dassocier, au sein dun modle homogne,
les donnes quantitatives utilises jusqu prsent avec
celles du Big Data, qui se prsenteront souvent sous la
forme dinformations plus qualitatives.
10
DOS S I ERS T ECHNI QUES D I NF ORMAT I ON OPT I MI ND WI NT ER / OCTOBRE 2013 / BI G DATA
Le pas faire est important, mais les perspectives pour
le secteur sont dcisives. Lactuaire, acteur cl de la
solvabilit des assureurs, apportera ce mouvement
sa technicit pour dfnir de nouvelles pratiques et des
modles toujours plus fables.
Domaines dapplication : gestion des risques /
fraudes
La lutte contre la fraude passe ncessairement par la
dtection de comportements anormaux que lapproche
Big Data peut venir nourrir. LALFA, lAgence pour
la lutte contre la fraude lassurance, propose une
dfnition de la fraude lassurance comme un acte
volontaire permettant de tirer un profit illgitime
dun contrat dassurance . Elle peut se caractriser
lors de la souscription ou encore lors de la dclaration
de sinistres. Elle reprsente pour les acteurs de lassu-
rance un enjeu estim environ 5 % des primes mais
cette valuation, par dfnition difcile mesurer,
varie fortement en Europe et pse lourdement sur les
marges et donc sur les tarifs proposs.
Cest pourquoi les assureurs prennent trs au srieux
ce sujet et sorganisent entre eux pour lchange
dinformations et de bonnes pratiques, objet en France
de lALFA. En parallle, chaque acteur consolide son
contrle interne et forme son rseau afn dassurer une
vigilance accrue. La technologie est venue galement
renforcer le dispositif humain avec la dtection syst-
matise de comportements anormaux.
En effet, en matire de fraude lassurance, il est
essentiel de pouvoir capter les signaux faibles via
une analyse comportementale efciente. Or, les limites
des approches actuelles sont lies aux primtres des
donnes sources exploites, souvent celles fournies et
falsifes par le fraudeur, et aux alertes a posteriori
laissant une longueur davance aux fraudeurs.
Cest l quapparat tout lintrt de lapproche Big Data
avec des outils ouverts sur les sources dinformations
non structures, notamment les rseaux sociaux et
disposants de mesures systmatiques des risques gn-
rant des alertes en temps rel sur des comportements
anormaux ou atypiques .
Pour ce faire, le pralable est dj didentifer les red
fags cest--dire les scnarios qui traduisent une
situation anormale et didentifer les sources dinfor-
mations internes et externes, structures ou non
structures ainsi que les passerelles entre elles.
Les rvlations rcentes du dispositif PRISM de la NSA,
suppos se concentrer sur la lutte contre le terrorisme
mais sans nul doute galement sur lintelligence co-
nomique, prfgure la puissance danalyse, en utilisant
lensemble des sources de donnes disponibles comme
le texte, le son, la photo, la vido, la biomtrie, ou tout
autres capteurs divers, des outils Big Data sur la dtec-
tion de comportements anormaux.
Interview dOlivier Belma
Responsable Fraude & Revenue Assurance
chez Bouygues Telecom
Quelles sont les problmatiques de fraude ren-
contres dans le monde des tlcoms ?
Un fraudeur dispose de deux grandes sources de
revenu : le tlphone mobile et les tlcommuni-
cations. Il doit ouvrir un compte chez loprateur
ou utiliser le compte dun vrai client. Les lments
didentit, physique ou numrique, sont alors pri-
mordiaux. Ce sont des actifs rares que les frau-
deurs exploitent dans tous les secteurs dactivit
afn de rentabiliser leur investissement. Nous
faisons donc face aux mmes populations que les
assureurs avec des problmatiques similaires lors
de la vente dun produit.
En quoi le Big Data vous sert pour votre dispo-
sitif de lutte anti-fraude ?
Notre dispositif de lutte contre la fraude a vo-
lu au fl du temps. Il est positionn la fois au
niveau de lenrlement du client et tout au long de
sa vie. Concernant les appels, nous analysons les
comportements des lignes en temps rel. Le Big
Data nous permet aujourdhui de complter notre
surveillance, de dvelopper le suivi de notre per-
formance avec des outils graphiques et dtre plus
pertinents pour les fraudes ralises sur le Web.
Par exemple, pour les renouvellements de tl-
phone via lespace client Web, nous sommes aler-
ts quand des combinaisons dactions typiques
des fraudeurs se produisent sur un compte. Nous
allons dvelopper progressivement dautres
actions en temps rel sur toute la chane et aller
plus loin dans la modlisation des comportements
atypiques.
Quelles ont t les questions rencontres dans
leur mise en place ? Quels sont les avantages
indniables que vous en tirez aujourdhui ?
La principale difcult est de bien dfnir son
besoin afn de disposer de donnes pertinentes.
Le leurre avec le Big Data est de croire que davoir
toutes les donnes permet de tout comprendre et
tout faire en une fois. Ce nest quun moyen la
disposition dune stratgie globale de lutte contre
la fraude. Quand les besoins sont bien cibls, les
principaux avantages sont la possibilit de mener
des actions en quasi-temps rel avec des solutions
plus agiles, de diminuer le dlai de dtection pour
agir avant la fraude et damliorer la productivit
des analystes fraude par un meilleur ciblage.
11
DOS S I ERS T ECHNI QUES D I NF ORMAT I ON OPT I MI ND WI NT ER / OCTOBRE 2013 / BI G DATA
Domaines dapplication : tarifcation
Les mthodologies de tarifcation des produits dassu-
rance font gnralement appel une segmentation
selon des catgories de risques en fonction des
branches dassurance telles que les caractristiques
de lassur ou celles du bien assur. Des informations
sur la sinistralit passe peuvent galement tre
introduites.
Bien utilise, labondance de donnes associe un
univers Big Data ofre de relles opportunits pour
afner leurs modles de tarifcation et les processus
de souscription.
En premier lieu, lapproche Big Data multiplie poten-
tiellement le nombre de variables explicatives de la
sinistralit et conduit revoir en consquence les
opportunits de segmentation tarifaire. De nouvelles
pistes seront ainsi explores pour afner lanalyse de la
sinistralit future probable dun assur en fonction de
son profl. Lapproche Big Data peut par exemple sav-
rer particulirement intressante depuis la mise en
application de la Gender Directive, qui interdit depuis
fn 2012 la prise en compte du sexe de lassur dans les
processus de tarifcation. Des variables corrles au
sexe, non encore exploites car absentes des dispositifs
actuels, pourraient ainsi tre mises proft, comme par
exemple la couleur du vhicule assur. Ou au contraire,
de nouvelles variables gnralement en lien avec les
avances technologiques pourraient tre tudies pour
safranchir du caractre prdictif du sexe.
Il est ainsi galement parfaitement possible
dimaginer qu horizon de 5 ans, les assureurs auto
combinent des donnes internes , capteurs embar-
qus, des donnes externes traites en Big Data
pour une tarifcation optimise des produits en Pay
as You Drive. Ces donnes externes pourraient pro-
venir de drones qui analysent le comportement des
automobilistes en fonction de la mto, du niveau
dencombrement des axes routiers, et ainsi enrichir
les donnes comportementales dont ils disposent par
ailleurs.
Ltude de limpact mto sur la consommation mdi-
cale pour mieux apprhender les comportements
de consommation mdicale mdecine de ville,
pharmacie, etc. est un autre domaine dtude. Une
rgionalisation de cette analyse est dailleurs avan-
tageuse pour tarifer au plus prs, ce que font dj
certains assureurs partir du difrentiel des cots
moyens.
Dautres applications peuvent tre envisages, par
exemple en assurance collective. Partant du principe
que le nombre darrts de travail et les dpenses de
sant des salaris dune entreprise sont fortement
corrls sa situation conomique, des informations
issues du Big Data sur sa renomme, son secteur et ses
concurrents peuvent apporter des informations com-
plmentaires pertinentes pour anticiper une dviation
future de la sinistralit.
Les experts mtiers devront toutefois veiller ne pas
surexploiter le Big Data par une utilisation abusive
du principe de segmentation. En efet, le portefeuille
global pourrait alors ne plus profiter de leffet de
mutualisation ncessaire lquilibre de lactivit.
Dans un environnement o lutilisation du Big Data
serait gnralise, une concurrence accrue mene sur
les bons risques pourrait se voir proposer des tarifs
trs bas, au risque de ne plus compenser les mauvais
risques .
Lapproche Big Data ouvre par ailleurs des perspectives
plus larges, en permettant aux assureurs denvisager
de disposer dinformations pertinentes sur les enjeux
majeurs propres la souscription dun risque : les tarifs
pratiqus par la concurrence et les critres de choix
de lassur, en particulier limportance des aspects
tarifaires. Ces informations, associes une meilleure
anticipation de lesprance de sinistralit, pourraient
permettre aux assureurs de considrablement amlio-
rer la matrise de leur portefeuille dassurance, avec la
facult de mieux choisir les risques souscrits.
Domaines dapplication : provisionnement /
modlisation
De manire analogue, lapproche Big Data ouvre de
relles perspectives dans le domaine du provisionne-
ment, de la modlisation et de la gestion des risques.
Certains risques, la mortalit par exemple, sont bien
matriss par les assureurs : partir de donnes histo-
riques, les actuaires sont en mesure de constituer des
tables dexprience, reprsentatives de la sinistralit
passe. Si le caractre prdictif est plus problma-
tique, notamment pour le provisionnement des rentes
viagres, le secteur a progressivement appris utiliser
des tables prospectives, qui intgrent des informations
externes sur lvolution future de la mortalit.
Dautres risques en revanche posent plus de difcults,
soulevant de relles incertitudes sur les valuations
des provisions et des fonds propres des assureurs,
12
DOS S I ERS T ECHNI QUES D I NF ORMAT I ON OPT I MI ND WI NT ER / OCTOBRE 2013 / BI G DATA
pour lesquelles lapproche prdictive est de mise.
Il sagit l dun enjeu majeur pour le secteur : en per-
mettant dajuster les niveaux de provisionnement et
doptimiser les dispositifs de couverture et de transfert
de risque, les modles prospectifs constituent un des
outils cls de prennisation de lactivit.
Lanticipation du comportement des assurs rsilia-
tion, rachat et arbitrage fgure parmi les exemples les
plus notables. Afn de capter les phnomnes conjonc-
turels de masse, les modles actuels intgrent souvent
une approche par dfaut, forfaitaire, dire dexpert. Les
bases de donnes historiques ne fournissent en efet
pas ou peu dhistorique sur ce domaine. Lapproche
Big Data en revanche pourrait permettre denrichir les
informations disponibles sur les profls des assurs et
de leur appliquer des modles de comportement prdic-
tifs. Il est ainsi ais dimaginer que la propension dun
assur racheter son contrat dpargne, en cas de taux
servi infrieur celui de la concurrence, peut tre en
partie anticipe par ses habitudes de navigation inter-
net : consultation de sites comparatifs, de boursicotage,
etc. Pour cela, lassureur doit mettre en uvre des stra-
tgies et outils de collecte de donnes sur ses sites et
certainement galement des partenariats de partage de
donnes avec dautres plateformes numriques.
Le domaine de la modlisation qui fait lobjet dune
recherche et dveloppement dynamique ces der-
nires annes laisse ainsi entrevoir de nombreuses
applications du Big Data comme un des axes de perfec-
tionnement des modles, en vue de pallier certaines
limites bien connues de leurs concepteurs.
Domaines dapplication : marketing et
conception des produits
Les services marketing des compagnies dassurance
peuvent aujourdhui, avec les bons outils, anticiper
les besoins des assurs et proposer au bon moment
les bons produits.
Collectivement
Sur lexemple de lencadr BFM TV sur lexploitation
des bruits de linternet pour anticiper une tendance,
les marketeurs peuvent tre lcoute des besoins de
protections fnancires et envisager de fabriquer en
quasi-temps rel les garanties ncessaires et attendues
par le march. Dans une perspective damlioration du
cycle de cration produit des assureurs travers leur
systme dinformation, le produit dassurance peut
ainsi tre propos au march, par une souscription en
temps rel via internet ou dautres types de supports
connects.
Individuellement
Plus traditionnellement, le Big Data peut fournir des
informations comportementales aux professionnels
du marketing tout comme aux actuaires de manire
mieux ordonner les besoins et niveaux de couverture
attendus par lindividu souscripteur dune garantie.
Mieux encore, les informations spcifques cet indi-
vidu ou objet assur peuvent galement tre fournies
en temps rel aprs la souscription de manire adap-
ter la prime, la provision ou encore raliser des actions
de prvention.
Interview 01 Business +
Le big data a sduit Crdit Mutuel Arka
Hier, vingt-quatre heures. Aujourdhui, quinze minutes. Cest le temps que met dsormais Suravenir pour
simuler les sommes provisionner sur trente ans pour ses quelques deux millions demprunteurs. Et ce,
conformment aux exigences de la directive Solvency 2 garantissant la solvabilit des assureurs. La branche
assurance prvoyance de Crdit Mutuel Arka exploite Hadoop, une technologie phare du Big Data. Nous
voulions pouvoir raliser plusieurs fois par jour des simulations en jouant sur des variables comme les
mesures fscales ou les lois sur le rachat anticip de prt, dtaille Julien Le Calvez, actuaire et responsable
du dploiement de Solvency 2. Notre progiciel noffrait pas cette souplesse. Ces calculs taient limits
20 000 dossiers la fois, contre 200 000 avec le nouveau systme. Sur le plan technique, Suravenir sest
appuy sur lun des meilleurs spcialistes franais dHadoop, Matthias Herberts. Son quipe (au sein de la
DSI de Crdit Mutuel Arka) a dabord mont la plate-forme Big Data. Elle a ensuite cherch convaincre
les oprationnels de lutiliser. La collaboration avec Suravenir a t facilite grce aux comptences de ses
actuaires en statistiques, et en dveloppement, qui sont indispensables pour exploiter au quotidien les don-
nes dans le systme Hadoop.
13
DOS S I ERS T ECHNI QUES D I NF ORMAT I ON OPT I MI ND WI NT ER / OCTOBRE 2013 / BI G DATA
Quels chantiers, quelles perspectives
demain pour les assureurs et le Big Data ?
METTRE EN PLACE LES INFRASTRUCTURES DE
RECUEIL ET DE TRAITEMENT
Un des paradoxes du Big Data provient du fait que
la plupart des informations produites lont t en
dehors dutilisation de linformation. Par exemple, les
rseaux sociaux nont pas pour objet initial de fournir
dinformations aux assureurs mais simplement din-
terconnecter les utilisateurs. Deux types spcifques
dinfrastructure de collecte vont devoir tre considrs :
des systmes en charge de collecter des donnes
existantes ou produites par dautres systmes : par
exemple l'alimentation du systme dinformation de
lassureur avec des donnes de tlphonie mobile ;
des systmes propres lassureur en charge daider
grer ses risques : par exemple une bote noire
implante au sein dun vhicule.
Au-del de la rcupration des informations brutes,
lassureur va devoir investir dans des systmes de
traitement lui permettant de transformer en temps rel
les donnes brutes en systme dcisionnel travers de
nouvelles modlisations :
modlisation de bases de donnes de type enton-
noir : partir dune base de donnes entre large,
transformation par tranche de linformation de
manire pouvoir reconstituer des bases de donnes
structures exploitables ;
modlisation mathmatique des processus
permettant la cration des diffrentes tranches
dinformations progressivement structures.
QUELS RISQUES SOUS-JACENTS AUX BIG DATA ?
la hauteur des opportunits quelle suscite, la rvo-
lution Big Data entrane invitablement un certain
nombre de risques que nous devons avoir en tte et que
nous listons, de manire non exhaustive ici.
Nous lavons voqu plus haut, les lments lis la
vie prive sont particulirement sensibles. En efet,
larbitrage continu entre le droit la confdentialit
et lutilisation de donnes prives est dj une ralit.
Les assurs vont certainement accepter de partager
certaines informations pour obtenir de meilleures
tarifcations par exemple, mais un certain nombre
de garanties devront tre fournies : fxer des limites
lutilisation des donnes, assurer la protection
des donnes et ventuellement leur destruction et
videmment montrer lintrt rel pour lassur
les partager.
chaque systme de tarifcation existe un systme
de fraude. Lassureur devra ainsi veiller ce que
linformation produite et rcupre soit saine et non
pollue. En efet, au regard du fou initial des donnes
sources, des systmes fraudeurs pourraient envisager
de produire des informations dviantes de manire
fausser une tarifcation ou certaines modalits de
souscription. Par le pass, certains systmes connects
aux marchs fnanciers ont dj tent par exemple de
soutenir artifciellement des cours de Bourse. Autre
exemple plus rcent, en utilisant simplement le mode
de fonctionnement du moteur de recherche, des pi-
sodes de google bombing permettent dinfuencer les
rsultats dune requte et donc russissent gnrer
des rsultats orients.
Linternationalisation dsormais instantane des
informations numriques ne permet pas aujourdhui
dassurer un traitement gal en termes de droit et de
confdentialit selon les pays. Ainsi, des oprateurs
dassurance qui exercent dans certains pays pour-
raient bnfcier dun avantage concurrentiel vident
au dtriment des assurs dun autre pays et de leurs
assureurs locaux.
14
DOS S I ERS T ECHNI QUES D I NF ORMAT I ON OPT I MI ND WI NT ER / OCTOBRE 2013 / BI G DATA
La traabilit des donnes constituant le Big Data est
quasi inexistante. Ainsi, leur audit est difcile et de
nouvelles rgles de gouvernance doivent tre labores
pour sy adapter. De plus, entre lutilisation des don-
nes et laudit ventuel, les changements de statut de
la donne peuvent tre nombreux et ainsi conduire
limpossibilit de vrifer des informations initiales.
LE RLE DES ANALYSTES PRDICTIFS ?
LMERGENCE DE NOUVELLES
RESPONSABILITS ?
La plupart des autres secteurs dactivit sont ga-
lement progressivement concerns par le Big Data.
Certains, dailleurs, depuis assez longtemps du fait
de technologies particulires utilises : la mdecine,
lnergie ou encore la tlphonie. Avec le dveloppe-
ment de la manipulation des donnes massives et les
fortes attentes sous-jacentes en termes de modlisa-
tion prdictive, une nouvelle profession sest peu peu
formalise : celle des analystes prdictifs.
La question qui se pose aujourdhui est de savoir si
cette spcialit est concurrente ou complmentaire
la gestion du risque, aux actuaires donc pour la partie
quantitative. Notre conviction est forte en la matire :
absolument pas. Ces professionnels de la donne sont
videmment complmentaires aux professionnels du
risque, ces derniers tant les seuls garants des qui-
libres techniques de lassureur. La responsabilit des
actuaires est mme plus large selon nous : au-del des
prrogatives actuelles, lactuaire doit galement se por-
ter garant de lutilisation des donnes et du principe
mme de mutualisation assurantielle.
Lactuaire doit uvrer dans le respect de normes
thiques et du service aux assurs, notamment sur
lanonymat des donnes, au contraire des analystes
prdictifs et des spcialistes du marketing.
Il appartient aux actuaires de continuer rechercher
la meilleure mutualisation possible du risque et
de grer lquilibre des risques dans les mutualits
constitues par la souscription. Cest le retour sur la
ligne de crte entre segmentation et mutualisation
des risques sur laquelle doit cheminer la science actua-
rielle malgr les fortes tentations ofertes par le Big
Data dindividualiser et de segmenter.
Bref, lactuaire de demain, sous Solvabilit II ou non
dailleurs, apparat non plus comme un producteur de
donnes, mais comme un certifcateur de la qualit,
de la pertinence des donnes et un vrifcateur de leur
usage. cet gard, il pourrait devenir le correspon-
dant du rgulateur sur les questions de conformit
dans le recueil et lusage du Big Data. Il devient un
commissaire aux donnes , comme il existe des
commissaires aux comptes .
Lanalyste prdictif sera, lui, positionn en amont
de la dmarche dutilisation du Big Data. Il servira
collecter et assister les professionnels du risque dans
lorganisation des donnes.
Autre nouvelle responsabilit majeure que nous
pensons voir rapidement merger : le Chief Data
Offcier, CDO. En efet, les donnes issues du Big Data
deviennent tellement stratgiques et centrales lexer-
cice de la profession dassureur, quil semble opportun
quune responsabilit centrale dans la gouvernance de
lentreprise merge.
La mise en place puis lexploitation dun dispositif
Big Data solliciteront ainsi lexpertise dun nombre
dacteurs important, partageant tous lobjectif
atteindre : disposer de nouveaux outils permettant
doptimiser lofre et le dveloppement de lentreprise.
Sous la coordination du Chief Data Offcer, les quipes
dactuaires, de juristes, de commerciaux, du marketing,
soutenus par les analystes prdictifs, seront amenes
travailler ensemble en mode projet, en lien troit
avec les spcialistes du systme dinformation, afn de
mettre en place un cosystme Big Data qui rponde
aux besoins des mtiers susceptibles den bnfcier :
dlivrer de linformation pertinente pour alimenter les
rfexions stratgiques, optimiser le positionnement
commercial et renforcer le suivi du risque.
Aujourdhui, lindustrie de lassurance est base sur
deux mtiers rgaliens : la gestion des contrats et celle
du risque. Demain, nous avons la conviction que lassu-
reur aura toujours deux mtiers rgaliens : la gestion
Une nouvelle responsabilit majeure
devrait rapidement merger :
le Chief Data Offcier.
Bases de donnes assurancielles versus Big Data
Pouvoir et savoir
exploiter un ocan
de donnes
Donnes internes
lentreprise,
structures
Donnes externes,
non structures,
issues d'environnements
non matriss
par lentreprise
15
DOS S I ERS T ECHNI QUES D I NF ORMAT I ON OPT I MI ND WI NT ER / OCTOBRE 2013 / BI G DATA
des donnes et celle du risque. En effet, terme,
il semble que la gestion des contrats disparaisse
progressivement au sein de systmes dinformations
hybrides orients sur le traitement des donnes, la
tarifcation instantane des produits et lencaisse-
ment tout aussi instantan des primes. Cette vision
futuriste, certes simplife pour grossir le trait, est sur
quelques nouveaux produits dj vrife : par exemple,
sur certaines compagnies ariennes en ligne, lors de
lachat du billet, en fonction du profl de lacheteur, une
assurance dcs en un clic est propose, consomme
le temps du vol, puis disparat. videmment, dautres
couvertures dveloppement long subsisteront fort
heureusement, mais leur gestion sera difrente.
LE MONDE DU BIG DATA DANS 5 ANS
POUR LASSUREUR CONNECT
Lexercice de prospective et au regard des difrents
sujets relatifs au Big Data traits dans ce Dossier
Technique, nous pouvons aujourdhui apprcier
limpact, les avantages et les risques du Big Data pour
lassureur. Nous proposons ici une premire esquisse
dune vision cible dans quelques annes.
Le systme dinformation
Tout dabord, le systme dinformation de lassureur
devra voluer sur la trame propose ci-aprs : les
aspects Big Data en orange sur le graphique viennent
complter le systme dinformation existant, illustr
en bleu.
Une nouvelle fonction apparat dans lentreprise :
le Data Scientist aura en charge lanalyse des donnes
et laide leur exploitation.
Les donnes
Selon une tude publie par IDC
(1)
, les volumes de don-
nes auxquels nous serons confronts en 2020 seraient
les suivants :
Entre 2005 et 2020, lunivers digital va crotre dun
facteur 300, passant de 130 exaoctets (130 x 10
18
)
40 zettaoctets (40 x 10
21
), ce qui reprsentera
5 200 Go de donnes par personne dans le monde.
Entre maintenant et 2020, lunivers digital va dou-
bler tous les ans.
ce jour, seule une petite fraction de lunivers digital
a t analyse pour y rechercher des informations
de valeur. IDC estime qu lhorizon 2020, un tiers
de lunivers digital contiendra des informations
qui pourraient avoir de la valeur si elles taient
analyses.
En 2020, prs de 40 % des informations de lunivers
digital seront au contact des fournisseurs de cloud
computing, signifant que loctet sera stock ou trait
dans le cloud quelque part entre le systme dorigine
et lutilisation fnale.
(1) The Digital Universe in 2020: Big Data, Bigger Digital Shadows, and Biggest Growth in the Far East (December 2012).
Les 5 erreurs viter
Limiter le Big Data aux bases de donnes massives et structures, dj dans le primtre de lassureur.
Impliquer uniquement les directions informatiques : un projet Big Data est dabord un projet mtier.
Dfnir lavance ce que lon attend du Big Data : la puissance des informations que lon peut en tirer
se dcouvre au fur et mesure.
Stocker dnormes volumes de donnes sans en avoir dfni l'usage au pralable : intrt nul et risque
de saturation.
Dfnir demble une architecture cible : privilgier un prototype.
Le systme d'information
Interface dentre des fux de donnes
commune tous les SI de lentreprise
Create MAP
REDUCE
laboration des reportings
par les Data Scientists
Reportings
Inventaire, marketing,
pilotage
Paralllisation
sur serveurs distants
FrameWork Hadoop
Reportings et analyses enrichies :
Anticipation sur les volutions du march
Amlioration de la pertinence des tableaux de bord
Pilotage stratgique plus prcis en fonction du contexte conomique
xml, csv, edi, log, photo, objet, sql, audio, json, binaire, video
SGBD R
Cloud
Computing
Source : Optimind Winter
Document publicitaire caractre non contractuel. Tous droits rservs. Reproduction interdite sans lautorisation de la socit Optimind SAS. Ralisation : BRIEF Crdit photos : Shutterstock.
Optimind, SAS au capital de 400 950 euros, 46 rue La Botie - 75008 PARIS. Siret : 418 861969 00099 - Code APE : 7022Z.
Nous avons pu apprcier dans les prcdentes
pages les opportunits offertes par le Big Data pour
lassureur. Ses caractristiques industrielles nous
confortent dans lide quil doit aujourdhui tre
apprhend comme un projet majeur et stratgique
initier au plus vite. videment, les bnfces rels
de tels investissements risquent de prendre quelques
annes produire leurs effets.
terme, les changements dans lapproche compor-
tementale et marketing sont majeurs. La forme
mme des produits de couverture va tre modife.
Paradoxalement, les techniques mathmatiques et
actuarielles de tarifcation vont peu voluer. En effet,
les techniques destines assurer les quilibres tech-
niques sont invariables.
Tout comme la mdecine prdictive simpose de plus
en plus comme un outil de notre quotidien, les tech-
nologies et les masses dinformations aujourdhui
disponibles peuvent demain nous apporter la capacit
encore mieux rpondre aux besoins de protection des
assurs, tout en envisageant des tarifs plus adapts
dans un contexte de rentabilit accru pour lassureur.
Cest en tout cas les vux que nous formulons et les
travaux que nous avons dsormais dcid dinitier
chez Optimind Winter.
Conclusion
Pour plus dinformations :
www.optimindwinter.com
Qui sommes-nous ?
Leader de lactuariat conseil et de la gestion des
risques en France, OPTIMIND WINTER constitue lin-
terlocuteur de rfrence pour les assureurs, mutuelles,
administrations, banques et grandes entreprises qui
souhaitent un partenaire mtier de haut niveau les ac-
compagnant dans leurs projets stratgiques. thique,
dontologie, expertise, mthode, pragmatisme et
investissement sont les valeurs clefs qui animent nos
180 collaborateurs, consultants experts pour la plu-
part, dont plus de 70 actuaires diplms membres de
lInstitut des Actuaires. Nos clients bnfcient ainsi
des plus hautes expertises en gestion du risque asso-
cies la qualit dune signature de rfrence dun
des leaders europens en gestion des risques. Notre
indpendance, garantie par un capital dtenu unique-
ment par nos salaris et dirigeants, ofre nos clients
la perspective dune collaboration prenne et engage.
OPTIMIND WINTER vous apporte son expertise sur les
mtiers suivants :
Actuariat Conseil
Protection Sociale
Risk Management
Projets & Matrise dOuvrage

You might also like