Professional Documents
Culture Documents
assurance collective
Jury :
Prsident : Michel FROMENTEAU
Membres : Florence PICARD
Vincent RUOL
Pierre PETAUTON
Gwenal BILLIOTTE
Quentin AFFAGARD
Claire LASVERGNAS
Modlisation de la consommation mdicale en assurance collective
REMERCIEMENTS
Je souhaite en premier lieu remercier Claire LASVERGNAS, directrice des Etudes
Techniques et du Pilotage Oprationnel du segment Collectives de Generali. Son aide, sa
confiance tout comme la pertinence de ses remarques ont rendu possible la ralisation de ce
mmoire.
Je tiens en outre remercier Laura TORDJMAN pour les changes constructifs et les
travaux mens sur la thorie des valeurs extrmes. Ces derniers ont largement impact la
partie traitant de lcrtement des sinistres graves.
Merci aussi Gilbert SAPORTA et Olivier DECOURT pour leurs rponses sur mes questions
relatives limputation de valeurs manquantes ainsi qu Franois CHAUMEL pour ses
remarques sur la slection de variables explicatives.
CNAM 2015/2016 1
Modlisation de la consommation mdicale en assurance collective
SOMMAIRE
REMERCIEMENTS .................................................................................................... 1
SOMMAIRE ................................................................................................................ 2
RESUME .................................................................................................................... 5
ABSTRACT ................................................................................................................ 6
INTRODUCTION ........................................................................................................ 7
PARTIE 1 ELEMENTS DE CONTEXTE.................................................................. 8
A. Systme de sant en France .................................................................................... 8
B. Fonctionnement de lassurance collective ............................................................. 9
C. Evolutions juridiques et lgislatives rcentes .......................................................11
D. Le march de lassurance Sant en France ...........................................................14
E. Enjeux de ltude .....................................................................................................16
PARTIE 2 - DONNEES............................................................................................. 19
A. Base de donnes initiale .........................................................................................19
B. Analyses descriptives univaries ...........................................................................20
C. Imputation des valeurs dge manquantes ............................................................32
1. Mcanismes des donnes manquantes ................................................................32
2. Traitement des donnes manquantes ...................................................................34
3. Mthode dimputation ............................................................................................37
4. Analyse spare et combine ...............................................................................39
5. Rsultats de limputation .......................................................................................40
D. Regroupement des dpartements ..........................................................................41
E. Etude des corrlations ............................................................................................47
F. Slection des variables ...........................................................................................49
PARTIE 3 LOIS DES COUTS ET ECRTEMENT ................................................ 56
A. Lois des cots des sinistres ...................................................................................57
B. Thorie des valeurs extrmes .................................................................................59
1. Elments de thoriques ........................................................................................59
2. Rsultats obtenus .................................................................................................63
PARTIE 4 - Modlisation GLM ............................................................................... 68
A. Thorie des GLM......................................................................................................68
B. Hypothse de modlisation : la loi de Tweedie .....................................................71
C. Rsolution dun modle linaire gnralis...........................................................74
D. Qualit dun modle.................................................................................................77
CNAM 2015/2016 2
Modlisation de la consommation mdicale en assurance collective
CNAM 2015/2016 3
Modlisation de la consommation mdicale en assurance collective
CNAM 2015/2016 4
Modlisation de la consommation mdicale en assurance collective
RESUME
Les volutions lgislatives rcentes accroissent la concurrence dj importante sur le
segment de lassurance sant collective. Elles imposent aux assureurs de proposer des
tarifs toujours trs comptitifs et de garder trs jour leur vision des facteurs impactant la
consommation mdicale.
CNAM 2015/2016 5
Modlisation de la consommation mdicale en assurance collective
ABSTRACT
Recent legislative changes increase the already significant competition in the market of
group health insurance. They require insurers to offer very competitive rates and still keep
very up to date their vision of the factors impacting health expenses.
It therefore appears essential to regularly model loss costs for the main medical type of
expenses: Practitioners fees, Dental, Hospital, Vision and Pharmaceuticals. This model must
take account of all relevant and available information in the insurers databases. Generalized
linear models commonly suit this type of study. However, this work requires prior resolution
of various issues such as the handling of missing data, correlations between variables,
segmentation or variable selection.
The purpose of this thesis is to provide operational answers to these issues and get a model
of medical consumption paid back by an insurer through the use of generalized linear
models. The methodology can be adapted to other non-life risks.
This work highlights the main explanatory factors of consumption and helps optimize
Generalis pricing and trade policy.
CNAM 2015/2016 6
Modlisation de la consommation mdicale en assurance collective
INTRODUCTION
Lassurance sant collective a pris normment dimportance ces dernires annes et
demande aux organismes dassurance une grande ractivit. Les organismes assureurs
sont amens jouer un rle encore plus important dans le systme de soins franais. Le
dsengagement progressif de la Scurit Sociale et prsent la gnralisation de la
mutuelle sant pour lensemble des entreprises illustrent bien cette tendance. En outre, le
secteur de lassurance collective et notamment de la sant est extrmement concurrentiel du
fait de la diversit des acteurs professionnels qui le composent : entreprises, courtiers,
socits dassurance, mutuelles, instituts de prvoyance. La premire partie de ce mmoire
dtaille plus spcifiquement le fonctionnement de lassurance collective et du systme de
sant franais. Elle revient aussi sur les dernires lgislations en vigueur ayant impact le
march.
Lcrtement des sinistres constitue aussi une tape ncessaire bien que moins cruciale en
sant que dans dautres branches. On cherchera dterminer des seuils indiquant un
niveau de consommation inhabituel susceptible de rendre instable la modlisation future.
La dernire partie de notre tude porte sur lapplication des modles linaires gnralises
pour tudier la consommation mdicale et sur lutilisation oprationnelle des rsultats
obtenus.
CNAM 2015/2016 7
Modlisation de la consommation mdicale en assurance collective
Le rgime obligatoire est la fameuse Scurit Sociale qui intervient en premier lieu dans le
remboursement de Frais Mdicaux (on parle alors dAssurance Maladie), ainsi que dans
dautres domaines tels que la retraite, lincapacit, linvalidit ou le dcs.
La Scurit Sociale qui existe depuis 1945 est un ensemble de plusieurs rgimes dont le
plus important est le Rgime Gnral qui couvre lensemble des salaris privs franais.
Toutefois, bien dautres rgimes existent toujours, notamment le Rgime Social des
Indpendants, le Rgime Agricole ainsi quun grand nombre de rgime dits spciaux
comme ceux de la fonction publique, des clercs et employs de notaires, des mines etc.
Frais Rels (FR) : comme son nom lindique, cette variable dsigne le montant global
dpens par un individu pour un acte mdical dtermin. Exemple : montant total
dune consultation chez le mdecin, dune paire de lunette, dune couronne dentaire
etc.
Ticket Modrateur (TM) : la diffrence entre RSS et BRSS, i.e. la part du montant
BRSS non rembours par la Scurit Sociale.
CNAM 2015/2016 8
Modlisation de la consommation mdicale en assurance collective
Reste Charge (RAC) : comme son nom lindique cest le montant restant rgler
par lassur pour rembourser les Frais rels de ses soins, aprs remboursement de la
Scurit Sociale et de son assurance
RAC
20
Rbt. supp.
Assureur Montant total
30 rembours par
l'assureur : 60
TM
30
150
Rbt SS
70
1
Sources : PLFSS 2015 Annexe 7 Ondam et dpenses de Sant
CNAM 2015/2016 9
Modlisation de la consommation mdicale en assurance collective
Lassurance collective vient complter les prestations de base verses par la Scurit
sociale. Le cas le plus rpandu est celui de la complmentaire sant qui couvre les salaris
du secteur priv ainsi que les employs de la fonction publique territoriale et leur permet de
limiter leurs dpenses de sant.
La plupart des contrats collectifs sont dits adhsion obligatoire dans la mesure o ils
runissent 2 conditions :
La mise en place dun rgime de protection sociale d'entreprise procure, de plus, sous
certaines conditions, de nombreux avantages fiscaux et sociaux, aussi bien pour lentreprise
que pour le salari. Les conditions remplir sont les suivantes :
Le rgime a t mis en place par un accord collectif, un rfrendum ou une dcision
unilatrale de lemployeur ;
Lemployeur participe au paiement des cotisations de faon uniforme pour tous les salaris
concerns ;
CNAM 2015/2016 10
Modlisation de la consommation mdicale en assurance collective
Les prestations sont verses par un organisme complmentaire, c'est--dire une institution
de prvoyance, une mutuelle ou une socit dassurance ;
Sur le risque sant, le contrat doit tre responsable (cf. chapitre suivant) pour tre
ligible aux conditions de dductibilit sociale.
Un apport important de cette loi est dempcher, dans le cadre de contrats collectifs, une
slection mdicale individualise qui aurait pour consquence lexclusion dindividus
gravement malades. De mme, lassureur ne peut exclure certaines pathologies de la
couverture. Pour les contrats facultatifs et individuels, lassureur ne peut rsilier la couverture
des frais de soins et la hausse du tarif doit tre indpendante de ltat de sant de lassur.
Dans le cadre dun contrat collectif adhsion obligatoire, la loi Evin oblige en outre,
notamment travers son article 4, lassureur proposer le maintien titre individuel de la
couverture des frais mdicaux pour les salaris quittant lentreprise. Cette disposition est
particulirement importante pour les salaris partant la retraite qui peuvent continuer de
bnficier dune complmentaire sant sans priode de franchise ni questionnaire mdical.
En outre, la hausse de tarifs engendre ne doit pas aboutir une prime suprieure de 50%
des tarifs applicables aux autres salaris de lentreprise.
Cette loi introduit entre autres la notion de mdecin traitant et rforme le parcours de
soin. Elle dfinit aussi la notion de contrat responsable , qualifiant un contrat qui respecte
certaines conditions relatives aux remboursements ou plutt aux non-remboursements de
certaines dpenses (franchises sur certains mdicaments, euro forfaitaire, pnalits hors
parcours de soin). Lobjectif principal tait de responsabiliser les assurs, limiter les
dpenses de sant en limitant les remboursements des organismes complmentaires. Ce
faisant, elle associe les organismes dassurances complmentaires la matrise des
dpenses de sant. En effet un contrat responsable bnficie dune fiscalit avantageuse :
CNAM 2015/2016 11
Modlisation de la consommation mdicale en assurance collective
Exonration des charges sociales patronales et salariales sur les cotisations verses
lies au rgime de prvoyance complmentaire.
Le dcret sur les catgories de bnficiaires objectives (CBO) impose dharmoniser les
critres qui permettent une entreprise de mettre en uvre des contrats collectifs de
retraite, prvoyance et de frais de sant, ceci afin de continuer bnficier de lexonration
des cotisations patronales et salariales de Scurit sociale au titre des contributions verses
par les employeurs. La loi introduit cinq critres principaux permettant de dfinir les
catgories de salaris:
Lappartenance aux catgories dfinies par les usages constants en vigueur dans la
profession.
En assurance sant collective, les critres pouvant tre utiliss sous rserve que tous les
salaris soient couverts sont le collge (Cadre/Non Cadre) et les tranches de rmunration.
Les 3 autres critres sont galement autoriss mais doivent faire lobjet de justification.
La loi du 14 mai 2013 transpose lANI conclu le 11 janvier de la mme anne. Si ses impacts
sur le Code du Travail sont multiples, lon voquera ici uniquement ses consquences en
matire dassurance sant. La loi vise gnraliser, pour tous les salaris du secteur priv,
la mise en place dune couverture complmentaire sant. Elle instaure ainsi une couverture
CNAM 2015/2016 12
Modlisation de la consommation mdicale en assurance collective
sant minimale obligatoire pour les salaris via un contrat collectif : le Panier de Soins
ANI .
Le dcret du 8 septembre 2014 est venu modifier la notion de contrat responsable dans
la mesure o il impose prsent, sous peine de sanctions financires (Taxe sur les contrats
non responsables de 14%), des bornes de remboursements, notamment en dentaire et en
optique.
Par ailleurs, la suite de la loi Evin, larticle 14 de lANI vient renforcer la portabilit des
droits de couverture. En effet depuis le 1er juin 2014, tous les salaris quittant une entreprise
(prouvant jusqu terme thorique de la garantie, quils bnficient dune prise en charge par
Ple Emploi), lexception des dmissionnaires et des licencis pour faute lourde,
bnficient titre gratuit du maintien de leur couverture sant dans le cadre de la portabilit.
Ce maintien sapplique pendant une dure limite et sous rserve quils nont pas retrouv
un emploi.
Le texte a profondment modifi les dispositions jusquici en vigueur. Dune part, parce quil
gnralise la mutualisation du financement par les salaris actifs avec pour objectif le
maintien de la couverture titre gratuit pour les salaris partants, alors que jusquici ces
derniers devaient la cofinancer. Ensuite, parce quil allonge la dure maximale de maintien
des droits de 3 mois, passant ainsi de 9 12 mois. Des dispositions similaires impactant le
maintien de la couverture prvoyance sont en vigueur depuis le 1er juin 2015.
Enfin, le dernier impact et non le moindre de lANI entre en vigueur le 1er janvier 2016. A
cette date, toute entreprise, quelle que soit sa taille, a lobligation de souscrire une
complmentaire sant dentreprise avec les garanties minimum prvues par la loi (en Sant
le Panier de soins ANI) pour couvrir lensemble de ces salaris. Auparavant, sauf en cas
daccord de branche, les entreprises taient libres de ne pas souscrire de couverture
complmentaire sant adhsion obligatoire pour leurs salaris, de ne la proposer qu
certaines catgories demploys ou de couvrir lensemble des effectifs. La consquence
attendue de cette mesure est un basculement de lassurance sant individuelle vers
lassurance collective.
La DSN a pour but de simplifier les dmarches administratives des entreprises prives. Le
dcret du 14 septembre 2014 la rend obligatoire depuis mai 2015 pour les entreprises les
plus importantes, et janvier 2016 pour lensemble des entreprises. Cette volution va
grandement influencer le march de lassurance collective en permettant aux organismes
dassurance de connaitre mensuellement la situation des salaris couverts pour chaque
entreprise de leur portefeuille. Les assureurs pourront donc bien mieux contrler leur risque
CNAM 2015/2016 13
Modlisation de la consommation mdicale en assurance collective
Socits
d'assurance
9,2
Mutuelles
17,8
Institutions
de
prvoyance
5,8
Figure 3 : Cotisations 20133 collectes au titre de lassurance sant (Mds )
Le march de lassurance complmentaire sant est domin par les mutuelles mme si ce
phnomne tend diminuer ces dernires annes avec la prise de parts de march des
socits dassurance.
2
Sources : Etudes & Rsultats, Le march de lassurance complmentaire sant : des excdents
dgags en 2013 , juin 2015. Cet article, sappuyant sur des informations issues de la DREES et de
lACPR.
3
Id.
CNAM 2015/2016 14
Modlisation de la consommation mdicale en assurance collective
29%
45% 44%
87%
71%
55% 56%
13%
Socits Institutions de Mutuelles Ensemble des
d'assurance prvoyance organismes
Dans la prsente tude, nous nous intressons aux entreprises de plus de 20 salaris. Le
march des TNS ou celui des TPE ne sont donc pas voqus. Le segment des moyennes et
grandes entreprises comprend certaines spcificits :
Expansion faible voire inexistante du march (lANI tant considr comme une
exception) : pour augmenter son chiffre daffaires, un organisme assureur doit
prendre des parts de march ses concurrents car la masse assurable varie peu
dune anne sur lautre ;
Garanties sur mesure : lassureur ne propose pas une gamme de produits une
entreprise. Il rpond plutt un cahier des charges fourni directement par elle ou par
le courtier et doit proposer le meilleur prix possible pour rpondre la demande.
Ces spcificits gnrent une tension importante sur les tarifs proposs par les assureurs,
au point daboutir ces dernires annes des rsultats techniques ngatifs5 pour lensemble
des acteurs.
4
Id.
CNAM 2015/2016 15
Modlisation de la consommation mdicale en assurance collective
Il faut toutefois nuancer ces chiffres dans la mesure o un nombre non ngligeable daffaires
se ralisent en couplant sant et prvoyance, ce qui peut impacter positivement le rsultat
global obtenu.
E. Enjeux de ltude
En pratique, lorsquune entreprise ou son courtier met un appel doffre en sant, les
diffrents organismes assureurs y rpondent par des propositions tarifaires, moyennant
dventuels amnagements de garanties. Cette proposition peut se faire sur la base de
facteurs multiples :
Lgislation en vigueur.
En gnral, une affaire nouvelle est souvent obtenue en proposant des niveaux de primes ne
permettant pas dassurer lquilibre technique de premire anne. On propose par exemple
des tarifs permettant dassurer un ratio combin 105%. Les points de rentabilit perdus
en premire anne tant regagns les annes suivantes par des politiques de majorations
ou de modifications de garanties moins que lentreprise ne rsilie son contrat !
5
Sources : id.
CNAM 2015/2016 16
Modlisation de la consommation mdicale en assurance collective
Pour permettre une souscription au niveau du march , les rseaux commerciaux ainsi
que les souscripteurs disposent dun budget commercial. Ce budget correspond une
possibilit dabattement du tarif (technique ou commercial), tabli sur une base dite
lquilibre , fourni par les outils de souscription.
Une inadquation potentielle de certains effets sur le tarif propos du fait dune
mauvaise prise en compte des corrlations entre les effets ;
Lobjet de cette tude est un recalcul de la consommation mdicale visant challenger les
barmes sant utiliss par les services de souscription, et ventuellement modifier
certaines variables tarifaires ainsi que la politique dabattement commerciaux. Pour ce faire,
certains choix oprationnels ont t ncessaires, en particulier :
Modlisation de la charge annuelle rgle par lassureur plutt que des frais rels.
Ceci permet de modliser directement une prime pure.
CNAM 2015/2016 17
Modlisation de la consommation mdicale en assurance collective
CNAM 2015/2016 18
Modlisation de la consommation mdicale en assurance collective
PARTIE 2 - DONNEES
La premire tape pour pouvoir modliser la sinistralit consiste constituer une base de
donnes fiable et dterminer les variables de modlisation les plus pertinentes. Cest
lobjet de cette partie.
Ces deux bases initiales ont fait lobjet de certains retraitements avant dtre fusionnes en
une base unique comportant les informations suivantes :
CNAM 2015/2016 19
Modlisation de la consommation mdicale en assurance collective
Sexe du bnficiaire ;
Age du bnficiaire ;
Poste Mdical : indique les cinq principaux postes mdicaux pour lesquels un
bnficiaire est couvert. Ces postes sont les suivants : Honoraires, Hospitalisation,
Optique, Dentaire, Pharmacie. Honoraires , aussi dsign par soins courants ou
soins de ville, correspond notamment au paiement des honoraires de mdecins
gnralistes et spcialistes ;
CNAM 2015/2016 20
Modlisation de la consommation mdicale en assurance collective
La base de donnes tudie correspond la consommation mdicale observe sur les deux
annes dexercice 2011 et 2012 et sur 3 annes de dveloppement de 2011 2013. En
assurance sant, deux annes de dveloppement suffisent gnralement observer la
totalit de la charge rattache une anne de survenance donne : on parle de risque
court ou de
branche courte .
457
416
206 310
187 936
2011 2012
Nb Beneficiaires Consommation Moyenne
Pharmacie
14% Dentaire
22%
Optique
26%
Honoraires
24%
Hospitalisation
14%
Figure 7 : Consommation par grands postes
CNAM 2015/2016 21
Modlisation de la consommation mdicale en assurance collective
Les dpenses de sant varient assez peu entre 2011 et 2012, cest pourquoi on reprsente
ci-dessus une rpartition toutes annes de survenance confondues. Les postes Honoraires,
Optique et Dentaire occupent chacune prs dun quart de la consommation.
583 546
552
499
257
226
Benef 2011 Benef 2012 Cons. Moy 2011 Cons. Moy 2012
Sans surprise on observe bien les diffrences de consommations entre Salari, Conjoint et
Enfant. Intuitivement, on peut penser que la diffrence Adulte-Enfant sexplique, au moins
partiellement, par la corrlation avec lge. La diffrence Salari-Conjoint peut, elle, tre due
aux cas de double couverture des conjoints qui, dans le cadre de leur travail, sont couverts
par leur propre mutuelle. De ce fait, ils ne rclament pas systmatiquement de
remboursement Generali. Ce phnomne est toutefois assez difficile quantifier et va, de
fait, disparatre du fait de lANI qui partir de 2016 autorisera les salaris doublement
couverts rsilier une de leur deux assurances sant. En outre le graphique prcdent
illustre bien la diminution du nombre de bnficiaires entre 2011 et 2012 et notamment la
rsiliation de contrats collectifs comptant de nombreuses familles.
CNAM 2015/2016 22
Modlisation de la consommation mdicale en assurance collective
599
527
474
552
523 370
453
343
Benef 2011 Benef 2012 Cons. Moy 2011 Cons. Moy 2012
Notre portefeuille comporte de nombreux contrats sans distinction de collge entre cadre et
non cadre. Les diffrences de consommation semblent assez claires :
Les Anistes sont peu mais consomment beaucoup du fait dun ge moyen lev ;
Les cadres consomment plus que les non cadres car ils sont gnralement mieux
couverts ;
CNAM 2015/2016 23
Modlisation de la consommation mdicale en assurance collective
507
406
460
372
M F
Benef 2011 Benef 2012 Cons. Moy 2011 Cons. Moy 2012
On restera donc attentif par la suite tester leffet dune variable fusionne age*sexe
sur la consommation mdicale. On pourra notamment comparer sa significativit celles
des deux variables spares. Ainsi, lors de la modlisation proprement dite, la variable
pourrait tre fusionne avec la variable ge. Ce point est tudi lors de la slection des
variables.
Concernant la variable Age, on analyse sparment les enfants des adultes (Salaris et
Conjoints). Intuitivement, on pourrait penser que cela revient partitionner nos donnes
en fonction de lge. Cela nest pas totalement exact dans la mesure o certains
adultes peuvent tre gs de moins de 20 ans, certains enfants avoir plus de 25
ans.
Pour les adultes, on observe que le cur du portefeuille a entre 40 et 50 ans, ce qui
est plutt g avec 45 ans dge moyen. Ceci peut tre ventuellement rapproch avec
la taille des entreprises concernes : tant essentiellement de grandes structures, lge
moyen au sein de ces entreprises est peut-tre plus lev que dans de petites socits.
CNAM 2015/2016 24
Modlisation de la consommation mdicale en assurance collective
Nb Benef Consommation
10000 1 500
8000
1 000
6000
500
4000
0
2000
0 - 500
16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70 73 76 79 82 85
ge
Benef 2011 Benef 2012 Cons. Moy 2011 Cons. Moy 2012
Pour les Enfants, la composition du portefeuille est assez homogne entre 0 et 20 ans et
dcrot rapidement ensuite. On observe bien limportance des dpenses de sant pour les
enfants en bas ge (0-1 ans), une augmentation faible mais progressive entre 2 et 11 ans et
un pic ladolescence d notamment aux dpenses dorthodontie. Une stabilisation est
ensuite observe entre 18 et 26 ans. Au-del, les donnes sont trs peu nombreuses et
lvolution de la consommation devient erratique.
CNAM 2015/2016 25
Modlisation de la consommation mdicale en assurance collective
Nb Benef Consommation
8000
7000
6000 500
5000
4000
3000 0
2000
1000
0 - 500
0 3 6 9 12 15 18 21 24 27 30
ge
Benef 2011 Benef 2012 Cons. Moy 2011 Cons. Moy 2012
CNAM 2015/2016 26
Modlisation de la consommation mdicale en assurance collective
455 491
415 428
193 586
176 300
12 724 11 636
En comparant la consommation annuelle moyenne des salaris ayant souscrit une option
avec celles des autres salaris, on observe clairement le surcot engendr par une option.
Ce surcot sexplique par une consommation plus importante en frquence ou en svrit,
donc par des frais rels plus levs, et par un niveau de couverture plus important des
salaris souscrivant des garanties optionnelles.
Consommation
700
600
500
400
51 135 300
200
35 252 100
28 569
21 930 23 496 0
20 651
- 100
10 749
7 306 6 312 - 200
18 196 0 696
- 300
Benef 2011 Benef 2012 Cons. Moy 2011 Cons. Moy 2012
La dcomposition du portefeuille par secteur dactivit nous apprend tout dabord que la
rpartition des bnficiaires de notre base au sein des principales branches nest pas
CNAM 2015/2016 27
Modlisation de la consommation mdicale en assurance collective
On observe aussi que, la consommation moyenne annuelle par bnficiaire peut varier
significativement dun secteur un autre. Cependant ces variations peuvent tre lies des
corrlations avec dautres variables. Limpact rel sera quantifi au cours de la modlisation.
Lanalyse univarie par taille dentreprises fournit assez peu dinformations. En effet, on
observe une relative stabilit des consommations moyennes quel que soit le nombre de
salaris et une prpondrance des entreprises de plus de 1000 salaris. Il est possible que
cette variable apparaisse inutile pour la modlisation.
Nb Benef Consommation
90000 1 000
80000
70000
60000 500
50000
40000
30000 0
20000
10000
0 - 500
Benef 2011 Benef 2012 Cons. Moy 2011 Cons. Moy 2012
Figure 15 : Consommation par taille dentreprise
CNAM 2015/2016 28
Modlisation de la consommation mdicale en assurance collective
Nb Benef Consommation
30000
25000 500
20000
15000
10000
5000
0 - 500
1 6 11 16 21 26 31 36 41 46 51 56 61 66 71 76 81 86 91 97
Numro du dpartement
Benef 2011 Benef 2012 Cons. Moy 2011 Cons. Moy 2012
loffre mdicale : par exemple le nombre de mdecins au pour 100 000 habitants ou
la part de mdecins en secteur 2 ;
CNAM 2015/2016 29
Modlisation de la consommation mdicale en assurance collective
Nb Benef Consommation
90000 1 000
80000
70000
60000 500
50000
40000
30000 0
20000
10000
0 - 500
6 21 31 38 50 58 64 76 81 91 98
Numro du dpartement
Benef 2011 Benef 2012 Cons. Moy 2011 Cons. Moy 2012
Figure 17 : Consommation par dpartement de lentreprise
La donne Dpartement de lentreprise nous informe donc de manire moins prcise que
le Dpartement des bnficiaires . Ces deux variables nen demeurent pas moins
corrle lune avec lautre, ce qui amne penser que le Dpartement de lEntreprise sera
cart en tant que variable explicative pour la modlisation.
CNAM 2015/2016 30
Modlisation de la consommation mdicale en assurance collective
772
677
407
371
175 708
162 231
30 602 25 705
ACTIF INACTIF
Benef 2011 Benef 2012 Cons. Moy 2011 Cons. Moy 2012
Enfin la dernire information disponible dans nos donnes est la qualit dActif ou dInactif du
salari couvert indiquant si le salari travaille ou non. On observe un surcot important pour
les inactifs qui restent malgr tout minoritaires au sein du portefeuille. Comme nous le
verrons par la suite, cette variable est trs corrle lge et au collge puisque la plupart
des Inactifs ont plus de 60 ans. Il est donc presque certain que cette variable sera
carte par la suite car elle ne prsente pas de rel intrt.
CNAM 2015/2016 31
Modlisation de la consommation mdicale en assurance collective
La base dcrite prcdemment contient des valeurs vides ou aberrantes : pour certains
bnficiaires, lge ou le collge est manquant ou mal renseign. Labsence du collge ne
pose pas une relle difficult car dans la plupart des cas cette donne peut tre dduite des
caractristiques des autres bnficiaires du contrat. Ce nest en revanche pas le cas pour
lge de certains bnficiaires telles que des enfants, ou lorsque lge dun Salari ainsi que
de son conjoint est inconnu. Fort heureusement, ces lignes valeurs manquantes
reprsentent une part faible (environ 7%) de notre base de donnes. Pour autant, on ne
souhaite pas les carter de notre tude afin de conserver les autres informations bien
renseignes telles que le montant de prestations rgles, la zone gographique ou la
structure familiale.
Pour bien saisir les avantages et inconvnients de chacune des mthodes permettant de
grer les valeurs manquantes, il est ncessaire dexpliquer les concepts de matrice de
donnes, de schma / structure et de mcanisme de donnes manquantes.
Le terme matrice de donnes dsigne la matrice forme par les donnes recueillies
comprenant en ligne lensemble des donnes recueillies pour un individu et en colonne
lensemble des valeurs pour un paramtre donn. Cette modlisation matricielle permet de
manipuler plus facilement les valeurs et constitue le point de dpart pour le traitement des
donnes manquantes.
La structure des donnes manquantes est dite univarie lorsquune seule variable contient
des donnes manquantes. Cest le cas dans notre base bien que cette situation soit
observe relativement rarement.
La structure des donnes manquantes est dite monotone lorsque les variables incompltes
peuvent tre ordonnes en fonction de la proportion de donnes manquantes quelles
contiennent. Ainsi, on peut dire que les variables Y1 ...Yk sont ordonnes selon une structure
monotone si, pour j = 1,..., k 1, tous les cas contenant des donnes manquantes pour Yj
prsentent galement des donnes manquantes pour Yj+1 Yk (cf. Figure 19). Une structure
de type monotone est observe par exemple sur des donnes dtude longitudinale
lorsquun vnement cause la sortie dtude dun sujet. On parle alors de phnomne
dattrition. Lorsquune personne ne se prsente pas une visite ou quun examen mdical ne
peut tre effectu, on parle alors de structure monotone intermittente.
La structure des donnes manquantes est dite arbitraire lorsque les variables incompltes ne
peuvent pas tre ordonnes selon leur proportion de donnes manquantes. Les donnes
manquantes suivent alors une structure non-monotone puisquelles sont rparties
CNAM 2015/2016 32
Modlisation de la consommation mdicale en assurance collective
uniformment dans lensemble de la base de donnes. Une structure de type arbitraire est
souvent observe en pidmiologie pour les donnes de type transversal ainsi que pour les
donnes produites par les systmes de surveillance.
Quant au mcanisme, il renvoie la relation entre les valeurs contenues dans la matrice de
donnes et le fait quune donne soit observe ou non. 3 types de mcanismes peuvent
caractriser labsence de donnes :
6
Cette illustration est extraite de la thse intitule : Traitement des donnes manquantes en
pidmiologie : application de limputation multiple des donnes de surveillance et denqutes ,
Vanina Hraud Bousquet, 3 juillet 2012. Lauteur de ce mmoire ne saurait en prtendre la ralisation.
CNAM 2015/2016 33
Modlisation de la consommation mdicale en assurance collective
lie aux valeurs prises par la variable ayant des donnes manquantes. Cest le cas
par exemple lorsque les personnes ayant un revenu trs lev refusent beaucoup
plus souvent de rpondre la question du revenu que les autres personnes.
Plusieurs solutions peuvent tre envisages pour traiter des donnes manquantes :
Analyse de tous les cas disponibles : cette mthode consiste tenir compte de toutes
les informations disponibles pour chacune des variables et ncarter que les valeurs
manquantes pour une variable donne.
Imputation simple : consiste remplacer chaque donne manquante par une unique
estimation de sa valeur et analyser la base de donnes ainsi complte. La
procdure de remplacement peut tre stochastique ou dterministe, selon quelle
implique ou non le tirage dun nombre alatoire. Parmi les mthodes les plus
rpandus on compte limputation par la moyenne, par maximum de vraisemblance,
par rgression, hot-deck (imputation dune valeur choisi au hasard dans la base selon
des rgles dtermines).
Puisque lon suppose nos donnes manquantes MAR, il nous est possible dappliquer
nimporte laquelle des mthodes voques prcdemment.
Bien videmment, lintrt de lanalyse de cas complets est que cette mthode est
relativement simple mettre en uvre et peut savrer assez efficace (non biaise) dans
diffrentes situations, notamment dans le cas de donnes manquantes de type MCAR ou
MAR ne dpendant pas de la variable expliquer, voire mme dans certaines situations o
7
A Test of Missing Completely at Random for Multivariate Data with Missing Values, Roderick J. A.
Little, Journal of the American Statistical Association, 1988
CNAM 2015/2016 34
Modlisation de la consommation mdicale en assurance collective
les donnes manquantes sont de type MNAR. En pratique, une analyse cas complet peut
savrer utile si la proportion de cas incomplets est faible, de lordre de 5% par exemple,
limitant la perte de puissance et de prcision.
Lanalyse de tous les cas disponibles savre meilleure que celle des cas complets en
maximisant le nombre de donnes analyses pour chaque variable mais a justement
linconvnient dimpliquer des analyses par variables portant sur un nombre dindividus non
constant. En outre tous les logiciels ne permettent pas toujours lanalyse de cas complets et
cartent directement tous les cas incomplets.
Ainsi, les analyses des cas complets ou disponibles ne sont pas les dmarches adoptes
dans cette tude. Afin de conserver un unique chantillon de donnes et pour une meilleure
adaptabilit de la mthodologie employe, il est prfr limputation de valeurs aux donnes
manquantes.
La prise en compte dune certaine variabilit pour les donnes imputes, afin de ne
pas trop minimiser la variance aprs imputation ;
Limputation multiple est lheure actuelle considre comme la mthode la plus efficace
pour traiter les donnes manquantes. En effet, lestimation de plusieurs valeurs pour chaque
donne vide permet de prendre en compte la variabilit autour de chaque donne impute et
dobtenir une variance plus juste correcte pour les estimations. Dans le cadre de cette tude,
nous y avons recours pour limiter le biais sur les rsultats obtenus au cours de notre
rgression du fait de limputation de donnes.
CNAM 2015/2016 35
Modlisation de la consommation mdicale en assurance collective
Limputation multiple est base sur lhypothse que les donnes sont MAR, c'est--dire que
le mcanisme de donnes manquantes ne dpend pas de donnes non-observes des
variables. Le processus dimputation se dcompose en trois phases :
1. Imputation : les donnes manquantes sont estimes M fois partir dun modle
spcifique pour obtenir M bases de donnes compltes et potentiellement diffrentes.
M peut tre dfini arbitrairement mais devrait tre choisi en fonction de la part de
donnes manquantes. Dans cette tude, 5 imputations seront ralises. 20 est
couramment considr comme le nombre maximal dimputations raliser, le gain de
performance devenant minime au-del.
3. Analyse combine : les rsultats obtenus partir des M analyses sont combins
selon des rgles tablies par Rubin pour obtenir une seule estimation finale.
Lintrt majeur de limputation multiple dans notre tude est dobtenir des coefficients de
rgression moyens calcul sur 5 bases contenant des donnes imputes plutt que sur
une seule, ce qui amliore leur robustesse.
8
Cette illustration est extraite de la thse Traitement des donnes manquantes en pidmiologie :
application de limputation multiple des donnes de surveillance et denqutes , Vanina Hraud
Bousquet, 3 juillet 2012. Lauteur de ce mmoire ne saurait en prtendre la ralisation.
CNAM 2015/2016 36
Modlisation de la consommation mdicale en assurance collective
3. Mthode dimputation
Pour chaque variable possdant des valeurs manquantes et pour chaque observation, un
score de propension est donc gnr pour estimer la probabilit que l'observation soit
manquante. Les observations sont ensuite regroupes en fonction de ces scores de
propension et une imputation par Approximate Bayesian Bootstrap (ABB) est applique au
groupe.
a. Pour le i-me groupe, si lon considre que Yobs dsigne lensemble des n
valeurs observes pour la variable Yj et Ymis les n valeurs manquantes,
lalgorithme effectue n tirages alatoires avec remises dans Yobs afin de crer
un nouveau jeu de donnes Y* obs.
CNAM 2015/2016 37
Modlisation de la consommation mdicale en assurance collective
b. Il ralise alors n nouveaux tirages alatoires avec remise dans Y* obs pour
raliser limputation des valeurs manquantes de Yj.
Ces 5 tapes sont itrs pour chacune des variables Yi possdant des valeurs manquantes.
Dans notre cadre, elle ne sapplique donc que sur lge.
Si cette mthode peut paratre inhabituelle au premier abord, elle a le mrite de pouvoir tenir
compte de toutes nos variables, y compris les variables qualitatives comme Numro de
contrat. On peut en effet admettre que cette variable peut avoir un intrt dans la mesure o
lge moyen des salaris peut grandement varier dun contrat un autre. Linformation
Numro de Contrat fournit donc ds lors des informations sur les ges manquants car il
possde une corrlation importante avec cette donne. En outre cette mthode ne nous
oblige pas, comme la rgression, supposer lexistence dune distribution normale
multivarie des valeurs. Enfin elle permet aussi de nimputer que des valeurs plausibles car
directement choisies dans celles observs.
En revanche on remarque que la mthode du score de propension ne tient pas compte des
corrlations entre les diffrentes variables. Elle est donc efficace pour des infrences sur les
distributions des variables imputes individuelles telles que les analyses univaries9. Il faut
donc lutiliser avec prcaution afin dviter quelle ne diminue trop les corrlations entre
variables ce qui pourraient mener une analyse de rgression biaise par la suite. Dans
notre cas, la faible part de donnes manquantes limite cet effet.
Dans le cadre de notre tude on procde une partition de notre base initiale entre les
Enfants et les Adultes (Salaris et Conjoints). Ceci afin dviter les ventuels cas
dimputation aberrantes telles quun enfant g de 52 ans ou un Adulte de 4 ans.
9
Allison (2000)
CNAM 2015/2016 38
Modlisation de la consommation mdicale en assurance collective
De mme, une imputation par rgression aurait pu tre utilise bien que, comme le score de
propension, elle puisse biaiser les corrlations entre variables, mais la hausse.
Comme dit prcdemment, les analyses spares sont dtailles dans la suite du mmoire
et ne sont donc pas approfondies ici. Nanmoins explicitons-en le principe. Comme dit
prcdemment, la phase danalyse spare consiste raliser une analyse statistique
standard pour chacune des m = 1,...,M bases de donnes imputes. Ce faisant on obtient M
estimations du paramtre recherch et de sa variance. Nous aurons pour notre part
recours aux modles lineaires gnraliss et notre paramtre sera lensemble des
coefficients estims des variables explicatives dont lge fait partie. En labsence danalyse
effectuer, la phase danalyse spare et la combinaison de rsultats nont aucun intrt.
Les rsultats des analyses individuelles fournis par les M jeux de donnes complts doivent
ensuite tre combins. Ce processus est effectu en respectant un ensemble de rgles
fixes par Rubin10, que nous dtaillons ici.
^ ^
Si est le paramtre rel estimer et U sa variance, on note m et U m leurs estimations
issues des bases m=1,,M.
^* ^
Lestimateur combin est la moyenne des m des M imputations :
^* 1 M ^
=
M
m
m =1
^ *
Lestimateur de la variance combine U est compose de deux parties : la variance intra-
base (ou intra-imputation), note U , et la variance inter-base ou inter-imputation B .
^
U correspond la moyenne des M variances U m :
10
Multiple Imputation for Nonresponse in Surveys, Rubin, D.B. (1987)
CNAM 2015/2016 39
Modlisation de la consommation mdicale en assurance collective
M
1 ^
U=
M
U m
m =1
^ ^*
B permet de tenir compte de la variance des m par rapport lestimateur combin m . B
^
correspond la variance des moyennes a posteriori des m :
1 M ^ ^*
B=
M 1 m=1
( m )2
^ * 1
U = U + (1 + )B
M
Enfin les intervalles de confiance sont calculs sur la base dune approximation de Student :
^*
( ) / * ~ t v o v est le nombre de degrs de libert gal :
2
U
v = ( M 1) 1 +
(1 + 1/ M ) B
Cest grce cette mthode de combinaison de rsultats que nous obtenons les coefficients
de rgression finaux de notre tude.
5. Rsultats de limputation
En utilisant la mthode du score de propension pour imputer les ges manquants nous
obtenons les rsultats suivants sur la base Adultes .
La part de donnes manquantes tant assez faibles, limpact sur la variance des
observations de lge est trs faible. Le ratio r daugmentation relative de la variance dfini
par :
= 1+ /
CNAM 2015/2016 40
Modlisation de la consommation mdicale en assurance collective
La proportion dinformation manquante sur les paramtres des variables imputer est
+ 2/ +3
dfinie par :
=
+1
La variance augmente avec le nombre dimputation mais de manire moindre mesure que
celui-ci augmente. Ce ratio nous permet de quantifier cette augmentation de lincertitude.
Lefficacit relative RE de calculer m estimateurs pour effectuer les imputations plutt quune
infinit : cet indicateur est exprim en unit de variance et est dfini par :
= 1+
Le tableau prsent nous indique clairement que 5 imputations suffisent. Les rsultats sont
lgrement moins bons pour la base Enfants avec une efficacit relative 0.96 mais
restent tout de mme assez corrects. Les rsultats dtailles en partie 5 correspondent
ceux obtenus la suite de la combinaison des rsultats tels que dfinis par Rubin. Lintrt
principal est dobtenir des paramtres de rgression estims et des intervalles de confiance
plus justes et plus robustes car tenant compte de la variabilit des donnes observes.
Notre portefeuille nest pas uniformment rparti sur le territoire, certaines modalits
sont donc inutiles car trop peu frquentes et/ou trop peu discriminantes ;
Des modalits avec trop peu de frquences peuvent fausser les tests de Chi-2 de
corrlations entre variables ;
Il est donc ncessaire de raliser a priori, i.e. avant modlisation, des regroupements de
dpartements. Cependant, on souhaite limiter au maximum la perte dinformation et son
CNAM 2015/2016 41
Modlisation de la consommation mdicale en assurance collective
impact sur le modle et les corrlations, ce qui revient tenir compte dans nos
regroupements des variables les plus corrles avec la consommation mdicale.
Durant la phase dexpansion, lalgorithme CART construit le plus grand arbre binaire, appel
arbre satur moyennant certaines restrictions ou conditions darrt arbitrairement
dtermines telles que :
La part des donnes utilises pour la phase dlagage : la base de donnes globale
est donc partitionne en une base utilise uniquement pour lexpansion, et une autre
employe uniquement pour llagage. Cela assure une meilleure robustesse aux
classes obtenues en limitant le sur-apprentissage.
Lalgorithme se poursuit jusqu ce que lune des conditions darrt prcdemment voques
soit constate. Aprs avoir obtenu un arbre binaire complet, la procdure dlagage ou
post-pruning est effectue afin de supprimer les branches de larbre les moins
informatives. Parfois une troisime phase peut tre ajoute afin de ne pas directement
slectionner larbre optimal mais plutt den choisir un plus simple moyennant une perte
relative de pouvoir prdictif. Cette tape est implmente sur certains logiciels tels que
TANAGRA.
CNAM 2015/2016 42
Modlisation de la consommation mdicale en assurance collective
Dans le cadre de notre tude, la phase dlagage nest pas ncessaire dans la mesure o
larbre ne constitue quune mthode pour raliser des classes de dpartements. La
modlisation GLM tant applique sur lensemble de notre base, le risque de sur-
apprentissage de larbre ne nous importe pas. On prfrerait mme que les regroupements
effectus fonctionnent au mieux avec nos donnes afin dajuster au mieux les
regroupements notre modlisation GLM future.
Lobjectif ici est dutiliser les sous-ensembles obtenus dans larbre de rgression pour
grouper les dpartements et utiliser le zonier dans la suite de notre tude. Lintrt de cette
mthode, au-del de sa relative simplicit mettre en uvre, est de prendre en compte nos
diffrentes variables de tarification en fonction de leur significativit dans la modlisation de
la variable de consommation. Elle nous fournit donc une premire ide des variables
explicatives a priori les plus impactantes slectionner pour notre tarif et permet une
segmentation tenant compte des autres variables explicatives. On limite ainsi limpact lie
aux regroupements des dpartements sur la modlisation mais ce regroupement nous
permettra une meilleure stabilit du modle et des tests de Khi 2 lors de ltude des
corrlations.
Pour effectuer les regroupements dans le cadre de cette tude on a procd en deux
tapes :
1. Ralisation et analyse rapide dun arbre de rgression complet : cette tape permet
didentifier limportance du Dpartement en tant que variable explicative les niveaux
de larbre auxquels elle apparat ;
11
Le logiciel utilis TANAGRA ne permettant pas une reprsentation didactique de larbre obtenu,
nous ne sommes pas en mesure de lafficher ici.
CNAM 2015/2016 43
Modlisation de la consommation mdicale en assurance collective
Conso Med
Age<52 Age>=52
Age<12 Age>=12
Age<85 Age>=85
Age<2 Age>=2 Age<17 Age >=17
On retrouve les principaux groupes dge voques durant les analyses descriptives.
Le Dpartement fait aussi partie des variables les plus discriminantes ainsi que le
Sexe et le Code NAF indiquant le type dactivit de lentreprise. Grce larbre
obtenu, on ralise des regroupements de dpartements tenant compte des variables
plus corrles que la zone gographique la consommation mdicale, ce qui limite la
perte dinformation implique par le regroupement.
CNAM 2015/2016 44
Modlisation de la consommation mdicale en assurance collective
En regroupant les dpartements selon les sous-ensembles obtenus via larbre de rgression,
on obtient au total 8 groupes de dpartements rpartis selon la consommation mdicale :
12
Graphique ralis via loutil du site www.drawmeagraph.com.
CNAM 2015/2016 45
Modlisation de la consommation mdicale en assurance collective
On conserve ces regroupements pour la suite de ltude, i.e. lors des tests de corrlation et
de la modlisation, quittes fusionner certaines zones aprs la modlisation.
Zone 1 : Ile-de-France ;
Le zonier obtenu via larbre de dcision apparat plus dtaill que celui actuellement utilis.
Toutefois, larbre nous a indiqu que des regroupements semblent encore possibles
moyennant une perte limite dinformations. Nous prterons donc attention lors de ltape de
modlisation lventuel regroupement de certaines zones en fonction des rsultats du
modle, notamment des test de Chi-2 sur les coefficients de rgression des zones.
CNAM 2015/2016 46
Modlisation de la consommation mdicale en assurance collective
Corrlation entre Frquence et Cout moyen : cette corrlation entre frquence et cout
moyen est rgulirement nglige en pratique puisque la plupart des modles
modlise sparment Frquence et Cout Moyen avant de les multiplier directement ;
Corrlations entre les dpenses de chaque poste : il nest pas exclu que des
dpenses sur un poste soient corrles avec celles dun autre poste. Cela est
particulirement vrai dans le cadre des honoraires mdicaux puisque les bnficiaires
consultent gnralement un mdecin gnraliste ou spcialiste avant daller en
pharmacie, chez un opticien voire mme lhpital. Dans le cadre de cette tude, les
coefficients de corrlation de Pearson indiquent un corrlation limite entre les postes,
lexception des coefficients honoraires / pharmacie (0.38) et honoraires / optique (0.27).
Ces corrlations peuvent de toute manire tre ignores ds lors que la consommation
dun poste nest pas une variable explicative pour celle dun autre.
Etudes des corrlations entre covariables : il est ncessaire de vrifier que les
variables explicatives du futur modle sont peu corrles. Le cas chant, nous devrons
nous dbarrasser de certaines dentre elles ou les fusionner. En effet, des variables trop
corrles impliquent une moindre robustesse des coefficients de rgression lors de la
modlisation GLM. Elles fragilisent ainsi grandement linterprtation des rsultats mme
si elles nimpactent pas ncessairement la performance du modle sur les donnes.
On ralise ainsi des tests de Chi-2 via les calculs du V de Cramer pour dterminer lintensit
des corrlations. Le test de Chi-2 est un test statistique indiquant la force dune relation entre
deux variables qualitatives. Concrtement, ce test indique que sous lhypothse
dindpendance des deux variables A et B, la variable alatoire K dfinie ci-dessous suit une
loi du Chi-2 :
=
,
O :
CNAM 2015/2016 47
Modlisation de la consommation mdicale en assurance collective
~# $ %
En dfinissant un seuil derreur adquate, on peut alors lire comparer K une valeur
thorique attendue pour ce seuil. Si K est suprieure la valeur thorique, on peut conclure
que A et B sont corrles. Il faut toutefois veiller possder suffisamment deffectifs dans
chaque modalit. Ce test est instable lorsque les effectifs dune classe sont trop faibles. Par
ailleurs la conclusion du test peut changer en fonction des effectifs. Il est donc plus sre de
se rfrer au V de Cramer qui est une variante plus stable du test de Chi-2.
# #
&=' ='
# ($ * ,-./01 2 min 1
Ainsi, V est proche de zro lorsque les variables testes sont indpendantes et est proche
de 1 lorsque leur corrlation est importante.
Le tableau ci-aprs (figure 23) nous permet de faire les observations suivantes :
1. Les variables Qualit, Type de bnficiaire, et Structure Familiale sont trop corrles
avec lge et doivent tre cartes pour la modlisation GLM de la consommation
ds lors que le pouvoir prdictif de lge est le plus important. Ce point sera confirm
lors de ltape suivante. Une solution pourrait tre de crer une variable fusionnant le
type de bnficiaire et la structure familiale telle quune variable de type
Salari/Ayant-droit. En mlangeant au sein du mme type Conjoint et Enfant et en ne
distinguant plus les structures familiales Duo et Famille, on pourrait penser que la
corrlation avec lge serait amoindrie. En pratique ce nest pas la cas, du fait de
lomniprsence de lge et des relations de type Age <25 => Enfant => Ayant-
droit .
CNAM 2015/2016 48
Modlisation de la consommation mdicale en assurance collective
Anne 1,00
Type Benef 0,01 0,54 0,22 0,07 0,03 0,02 0,05 0,13 1,00
Struc_Fam 0,01 0,39 0,01 0,11 0,06 0,04 0,10 0,26 0,42 1,00
Contrat_Option 0,01 0,05 0,00 0,37 0,09 0,25 0,29 0,02 0,02 0,03 1,00
Nb Salaries 0,15 0,10 0,03 0,52 0,13 0,30 0,37 0,12 0,03 0,07 0,22 1,00
Niv. Garantie 0,10 0,04 0,01 0,26 0,16 0,15 0,19 0,02 0,02 0,03 0,12 0,14 1,00
Forward (procdure ascendante) : ajout des variables une une par ordre
dcroissant de significativit. Lalgorithme sarrte lorsque lajout dune variable na
plus dimpact sur les prdictions du modle.
CNAM 2015/2016 49
Modlisation de la consommation mdicale en assurance collective
Backward (procdure descendante) : suppression une une des variables les moins
significatives pour le modle. Lalgorithme sarrte lorsquaucune variable ne peut
plus tre soustraite au modle sous peine de le rendre moins performant.
Stepwise (procdure pas pas ) : une slection Forward mlange avec une
limination Backward. Lalgorithme fonctionne comme Forward ceci prs qu
chaque itration dajout dune variable, la significativit des variables prcdemment
incluses est teste. Certaines peuvent ainsi tre sorties du modle comme cest le
cas dans Backward.
Dans le cadre de notre tude, lalgorithme employ est le Stepwise. Comme indiqu ci-
dessus, il permet, chaque itration, un rexamen des variables introduites dans le modle
aux tapes antrieures. Supposons que notre base de donnes contienne p variables
indpendantes. Le modle de base M0 considr sera :
1. 67 = 8 . = .
2. 6 = 8 : = .+* :
3. 6 = 8 : , : =.+* : +* :
A cette tape, la slection dune nouvelle variable X3 est faite parmi les variables
restantes pour constituer un modle trois variables. Supposons que la variable X3 est
retenue. Un modle M3 est alors constitu mais ltape ne sarrte pas l. Les deux
autres variables dj prsentes dans le modle peuvent tre limines suite lentre de
X3 dans le modle. Cest une procdure dlimination Backward. Il se peut, par exemple,
que la variable X1, la plus significative au point de dpart, ait perdu de sa signification par
lintroduction conjointe des variables X2 et X3. Il se pourrait mme que son manque de
signification invite son limination du modle. Llimination de la variable du modle se
fait aussi sur la base du test du rapport de vraisemblance comparant :
Nous supposons ici que X1 est retenue et M3.2 devient le modle de base M3 pour litration
suivante :
CNAM 2015/2016 50
Modlisation de la consommation mdicale en assurance collective
4. 6; = 8 : , : , :; = . + * : + * : + *; :;
La procdure se poursuit par la slection dune quatrime variable, suivie par lexamen et
llimination de variables pralablement introduites dans le modle, et ainsi de suite.
Dans notre cas, on peut appliquer cet algorithme sur lensemble des variables disponibles (y
compris celles corrles) ainsi que sur des sous-ensembles restreints pour lesquels
certaines variables trop corrles ont t sorties.
La slection des variables, leur limination et larrt de lalgorithme se font sur des critres
fixs par lutilisateur. Les critres les plus courants tant :
<=
peut aussi le concevoir comme :
=1
<=>
<= = ? ?A@
<= = ? ?
1 D
modle :
BC =
D+1
CNAM 2015/2016 51
Modlisation de la consommation mdicale en assurance collective
E << = ? ?F 0
<=
Le critre dinformation dAkaike ou AIC dfini par :
GH= = ln +2 J+1
<=
H= = ln + ln J J + 1
Dans le cadre de cette tude nous utilisons le critre PRESS comme critre de slection de
variables et darrt de lalgorithme. Par ailleurs, les donnes sont partitionnes en donnes
dapprentissage et de validation. Les diffrents modles sont ajusts sur les donnes
dApprentissage et tests sur les donnes de validation pour prouver leur robustesse. On
choisit le modle optimal sur la base du critre dAkaike.
On peut noter que les mthodes de slection voques ne tiennent pas compte
explicitement de la corrlation entre variables explicatives. Cela est fait de manire implicite
avec la pnalisation de la complexit : lajout dune variable explicative corrle une autre
variable dj prsente dans le modle modifie peu le SCR mais pnalise le modle par
laugmentation de la complexit. Elles ne devraient donc thoriquement pas tre pas tre
simultanment prsentes dans le modle.
En pratique on observe dans les graphes ci-aprs que certaines variables corrles telles
que lge et le Type de bnficiaire peuvent tre slectionnes simultanment du fait dun
pouvoir explicatif encore important malgr la corrlation. On constate toutefois limportance
de lAge, du Sexe, du Poste, du Niveau de Garantie et de la Zone.
CNAM 2015/2016 52
Modlisation de la consommation mdicale en assurance collective
CNAM 2015/2016 53
Modlisation de la consommation mdicale en assurance collective
Toutefois, les fortes corrlations entre variables observes prcdemment nous poussent
en carter certaines car bien quelles puissent contribuer un meilleur ajustement du
modle, elles rendraient les rsultats trop prilleux interprter en faussant les coefficients
de rgression obtenues. On obtient ainsi les rsultats suivants :
A la suite des diffrentes tapes prcdentes, on obtient les variables conserves pour la
modlisation :
Age*Sexe ;
Zone ;
Collge ;
Code NAF (secteur dactivit) ;
Taille ;
Poste*Niveau de garantie ;
Anne ;
Flag Base/Option.
Le graphique prcdent (Figure 28) nous indique en effet que toutes les variables
slectionnes la suite de ltude des corrlations peuvent tre conserves pour la
modlisation car elles apportent suffisamment dinformation au modle comme nous le
montre lvolution du Critre dAkaike. Des rsultats proches sont obtenus en lanant une
slection poste par poste. Il est notable que la variable Age*Sexe savre toujours plus
CNAM 2015/2016 54
Modlisation de la consommation mdicale en assurance collective
significative que les variables Age et Sexe considres sparment. De la mme manire, la
variable Poste devra tre fusionn avec la variable Niveau de Garantie lors de la
modlisation.
On observe en revanche que lanne napparat que dans les dernires variables
slectionnes. Cela nous indique que son pouvoir prdictif est faible et donc que leffet de
drive mdicale relatif au dsengagement de la scurit sociale et dautres effets tels
que linflation nest pas significatif comparativement aux autres effets. Il est cependant
intressant de la conserver dans un premier temps dans la mesure o elle savre peu
corrles avec les autres variables. En outre son effet pourrait tre compar leffet de
drive sant appliqu chaque anne par Generali dans ses majorations tarifaires. Si sa
prsence savre prjudiciable la prcision du modle, elle sera alors supprime.
Une observation similaire peut tre faite en Hospitalisation pour la variable indiquant si le
contrat est un contrat de Base ou une Option facultative : celle-ci nest pas slectionne pour
ce poste mais lintrt de sa prsence pourra tre test.
Enfin il est aussi notable que la variable Code_NAF reprsentant le secteur dactivit est
assez informative pour tre utilise lors de la modlisation. Or cette variable nest pas prise
en considration lheure actuelle par les outils de souscription. Des regroupements
ventuels pourraient dailleurs tre mis en vidence lors de ltude des rsultats de la
modlisation.
CNAM 2015/2016 55
Modlisation de la consommation mdicale en assurance collective
Dans le cadre de cette tude o lon modlise la consommation annuelle par grands postes
mdicaux, le traitement des forfaits peut tre nglig. Il nen est pas ncessairement de
mme concernant les sinistres graves. Une possibilit est de modliser lensemble des
sinistres par une loi queue paisse comme une Pareto mais on se risque des difficults
dajustement pouvant conduire surestimer certains types de sinistres et en sous-estimer
dautres13. Une autre solution est lcrtement : les sinistres observs sont plafonns un
niveau maximum et la charge rsiduelle est mutualise sur tout ou partie du portefeuille. Le
choix du seuil dcrtement est important car il peut conduire une sous-estimation ou une
surestimation des sinistres ordinaires, i.e. in fine de lanti-slection, ou des tarifs trop
levs et donc peu comptitifs.
Ainsi dans le cadre de cette tude, les consommations annuelles ordinaires sont
modlises sparment de celles excdant le seuil d'crtement car leur caractre
exceptionnel peut avoir un impact ngatif sur la performance du modle GLM : sensibilit de
certains coefficients, rsidus plus importants, moins bonne adquation etc...
Bien entendu le montant du seuil diffre grandement en fonction du type de risque tudi :
MRH, automobile, RC, Sant etc. Dans cette partie, nous tablissons un seuil pour chacun
des 5 postes tudis : on peut en effet s'attendre ce que le seuil dfini en Hospitalisation
ou en Dentaire diffre de celui en Honoraires par exemple. Il est mme possible quil ny ait
pas lieu dcrter dans certains cas, la sant ne se prtant pas toujours facilement cet
exercice.
Plusieurs indicateurs peuvent nous aider dterminer les valeurs des seuils dcrtement :
le seuil au-del duquel les hypothses de notre modle de sinistres ordinaires telles
que la distribution des cots scartent de la ralit observe ;
CNAM 2015/2016 56
Modlisation de la consommation mdicale en assurance collective
La thorie des valeurs extrmes (TVE) : elle permet une estimation du seuil partir
duquel on peut considrer que les sinistres ont un comportement de type
extrme . Pour cela, il est indispensable de vrifier si la thorie des valeurs
extrmes sapplique aux cots par des tests dadquation avec la loi de Pareto (ou a
minima une loi est queue paisse). Par ailleurs, un volume de donnes important
est ncessaire pour justifier dun minimum de robustesse. Dans ce cas, lobservation
selon laquelle lesprance de cot rsiduelle (au-del du seuil M), E(C-M|C>M), croit
linairement permet de cibler des techniques pour dterminer le seuil.
Cette dernire mthode, dite mthode POT pour Peak Over Threshold , apparat plus
lgante et moins arbitraire mais il n'est pas certain quelle soit applicable de la
consommation mdicale. Le cas chant, il conviendra de comparer les seuils d'crtement
obtenus aux autres indicateurs cits. En effet, comme dit prcdemment, le choix dun seuil
est important :
Un seuil trop faible induira une modlisation grossire de la queue de distribution des
sinistres et la charge crter sera trs (trop ?) importante. En mutualisant une telle
charge, la segmentation des tarifs est amoindrie, impliquant une perte de
comptitivit du fait de tarifs qui surestiment les sinistres rares.
Un seuil trop lev peut empcher lapplication de la TVE du fait dun manque de
donnes ou impliquer un manque de robustesse des rsultats obtenus. En outre, il
peut amener sous-estimer le caractre exceptionnel de certains sinistres.
R-insistons sur le fait que lon ne sattend pas un crtement important car la sant est un
risque avr de frquence pour lequel les extrmes sont peu reprsentatifs. Il s'agit plus ici
dtudier certaines mthodes visant fixer des seuils dcrtement et de chercher si elles
confirment les seuils que lon fixerait arbitrairement sinon.
CNAM 2015/2016 57
Modlisation de la consommation mdicale en assurance collective
Dans les graphiques ci-dessus les paramtres de la loi sont calculs par maximum de
vraisemblance. Une loi de type Gamma est envisageable pour modliser la svrit des
sinistres. Cependant cette loi ne semble plus adquate partir dun certain montant.
CNAM 2015/2016 58
Modlisation de la consommation mdicale en assurance collective
Dans notre cas, le choix pourrait par exemple se porter sur un seuil entre 3000 et 5000 euros
par exemple. Cependant, cette mthode assez basique est trs arbitraire. Elle ne se base
que sur les besoins de la modlisation : on crte lorsque la loi suppose semble ne plus
marcher . Le seuil envisag gagne tre compar aux valeurs obtenues par la thorie des
valeurs extrmes.
Comme expliqu, la Thorie des valeurs extrmes nous indique partir de quel montant un
sinistre peut tre considr comme extrme . Il est donc intressant de lappliquer dune
part lensemble des montants observs sans distinction, dautre part la consommation
poste par poste. En effet, on suppose intuitivement que les seuils dcrtement devraient
tre variables en fonction des postes tudis pour tre pertinents. On sattend par exemple
un crtement plus important en hospitalisation quen pharmacie car la sinistralit diffre
beaucoup entre ces deux postes.
1. Elments de thoriques
Avant de pouvoir qualifier thoriquement la loi des cots excdant un seuil, il importe de
sintresser au comportement du maximum dun ensemble de variables alatoires
E 6L N M = E 6.M : , , :L N M = E : N M, , :L N M = O$ M L
Alors :
La loi de 6L est donc connue ds lors que celle des : lest. Ce nest toutefois presque
jamais le cas en pratique. On sintresse plutt la loi asymptotique du maximum :
0 20 FU x N 1
lim E 6L R M = lim S FU x W = Y
X
LQ LQ 1 20 FU x = 1
On remarque que la fonction de rpartition du maximum converge vers une loi dgnre.
Le thorme de Fisher-Tippett nous permet de surmonter cette difficult.
CNAM 2015/2016 59
Modlisation de la consommation mdicale en assurance collective
Thorme de Fisher-Tippett
6L .L
que :
lim =[
LQ *L
Alors H est ncessairement une distribution standard des valeurs extrmes et peut scrire
dune des trois formes suivantes :
0, M R 0
Domaine de Frchet : ] M = ^ $_`
, M > 0
$ `
, M R 0
Domaine de Weibull : b] M = ^
1, M > 0
Domaine de Gumbel : M = d _e
,M
On dit que la fonction de rpartition F des Xi est dans le domaine dattraction maximum de H
que lon notera DAM(H).
Le domaine de Weibull concerne les lois bornes droite : loi Uniforme, Beta notamment.
Le domaine de Gumbel regroupe les lois non majores mais dont la queue de distribution est
peu paisse telles les lois Normales, Log-normales, Exponentielles, Gammas.
Enfin, le domaine de Frchet regroupe lensemble des lois queues paisses utilises dans
la modlisation des sinistres graves, telles les lois de Pareto, Cauchy et log Gamma.
M p
m
$ i _n
lh
j , 1 + o >0
[h,i,j M = k q
e_r
, o = 0
_
d s
Cette reprsentation est appele distribution gnralise des valeurs extrmes ou GEV.
On note que :
est le paramtre de localisation : il indique o se situe le cur de la distribution ;
est lindice de queue : plus il est lev en valeur absolue, plus le poids des
extrmes dans la distribution est important.
CNAM 2015/2016 60
Modlisation de la consommation mdicale en assurance collective
Soit X une variable alatoire de fonction F et u un rel suffisamment grand qui sera notre
seuil. On introduit la distribution conditionnelle suivante :
Ov M = E : w R M|: > w
Ov M =
y vl$ y v
y v
Do lon dduit :
Or le thorme suivant permet dapprocher Ov M pour un u assez grand par une loi de
Pareto Gnralise (GPD) :
Thorme de Pickands :
Fv x |h,} v M
Ainsi ds lors que la distribution tudie appartient au domaine de Frchet, on peut trouver
un seuil pour ajuster une loi de Pareto Gnralise. Cependant nous navons toujours pas
dtermin ce seuil. Pour cela, deux indicateurs sont souvent employs :
CNAM 2015/2016 61
Modlisation de la consommation mdicale en assurance collective
lestimateur de Hill.
On appelle fonction moyenne des excs au-del dun seuil u la fonction suivante :
w = : w|: > w
L : w
L w =
L 1 v
De plus on a14 :
Proposition : Soit :v = [: w|: > w] une variable alatoire distribue selon une GPD de
paramtre o, + ow , si o N 1 alors pour tout w N ~y 15 :
la fonction moyenne des excs empirique a une pente positive : nos donnes
suivent la distribution GPD partir dun certain seuil ;
la fonction moyenne des excs empirique a une pente nulle : nos donnes suivent
une distribution exponentielle ;
la fonction moyenne des excs empirique a une pente ngative : nos donnes
suivent une distribution queue lgre.
CNAM 2015/2016 62
Modlisation de la consommation mdicale en assurance collective
En effet, si N 1, on a : w
hv
h
Lestimateur de Hill est un estimateur non paramtrique de lindice de queue voque dans
la formule de Jenkinson-Von Mises. Il est valable uniquement pour les lois du DAM de
Frchet et est dfini ainsi :
1 : ,L
=
o ln
1 :,L
La mthode pour dterminer le seuil u consiste calculer lestimateur de Hill pour diffrents
seuils et chercher celui partir duquel il semble constant ou subit peu de variations.
Slectionner un seuil partir duquel lestimateur de Hill est stable revient indiquer le
montant partir duquel on estime pouvoir approcher la loi de nos sinistres avec une
distribution de Pareto Gnralise.
2. Rsultats obtenus
CNAM 2015/2016 63
Modlisation de la consommation mdicale en assurance collective
Ladquation avec une loi de Pareto savre possible chaque fois. On peut ds lors se
rfrer aux deux indicateurs que sont lestimateur de Hill et la moyenne des excs.
Rappelons que lon cherche graphiquement un seuil partir duquel lestimateur de Hill se
stabilise et la moyenne des excs est linaire. Le graphique suivant illustre la convergence
de lestimateur de Hill pour le poste Honoraires. On remarque que la variance de lestimateur
de Hill augmente avec le seuil du fait de la rduction du nombre de donnes observes. Le
bon quilibre entre le biais et la variance de lestimateur peut parfois savrer difficile
trouver.
Threshold
1570 1640 1710 1800 1900 2010 2130 2310 2560 3090 4250
7
6
alpha(CI,p=0.95)
5
4
3
2
900 830 760 690 620 550 480 410 340 270 200 130 68
Order Statistics
On obtient par exemple un seuil dcrtement environ 3200 euros pour les Honoraires en
se fiant lestimateur de Hill. En effet, on observe que lestimateur est trs stable jusqu un
seuil assez lev. On aurait donc trs bien pu slectionner un seuil infrieur dans le mesure
o lon observe une zone de stabilit ds 1500 euros et mme avant. Cependant, nous ne
souhaitons pas crter de manire abusive et nous essayons donc chaque fois de choisir
le plus haut seuil possible prsent dans une zone de stabilit. Ceci est acceptable car
lorsque un loi de sinistralit au-dessus dun seuil u peut tre approche par une Pareto
Gnralise, alors la loi de sinistralit au-dessus dun seuil u>u peut aussi ltre.
On peut comparer cette valeur avec le seuil partir duquel le moyenne des excs semble
linaire. En ce qui concerne les Honoraires la moyenne des excs apparat presque
entirement linaire. Cela nest pas surprenant puisque nous avons observ une trs bonne
adquation avec la loi de Pareto, y compris pour les sinistres faibles cots. De la mme
manire que pour lestimateur de Hill notre choix se porte toujours sur le plus haut seuil
envisageable.
CNAM 2015/2016 64
Modlisation de la consommation mdicale en assurance collective
Seuils
Poste Moyenne Excs Hill Choisi
Dentaire 9 000 3 500 3 500
Honoraires 3 500 3200 3 200
Hospitalisation 13 000 8000 8 000
Optique 1200 1300 1 300
Pharmacie 2 000 1300 1 300
Figure 34 : Dtermination du seuil d'crtement
Les seuils des deux indicateurs sont cohrents mais nous accordons une plus grande
confiance lestimateur de Hill, plus fiable que la moyenne des excs sur le domaine de
Frchet. En outre il demeure par exemple assez difficile de dfinir un seuil sur le poste
Dentaire en se basant sur la moyenne des excs.
CNAM 2015/2016 65
Modlisation de la consommation mdicale en assurance collective
On peut ainsi comparer lexcs moyen observ aux seuils choisis avec lestimation obtenu
via lestimateur de Hill :
Excs Moyen
Le tableau ci-dessus illustre lassez bonne estimation de lexcs moyen. Enfin, il est
indispensable dtudier la part de sinistres au-dessus des seuils dcrtement et limportance
des charges crtes. On vrifie ainsi que les sinistres crts sont bien atypiques quant
leur montant :
Rsultats Ecrtement
Charge crte /
Poste Seuil Sinistres > Seuil
Total
CNAM 2015/2016 66
Modlisation de la consommation mdicale en assurance collective
Le tableau ci-dessus illustre bien le fait que les sinistres graves reprsentent une part
relativement faible de la consommation sant. En effet, on observe trs peu (souvent moins
de 0.5%) de sinistres dpassant les seuils dtermins. En outre, la charge crte
reprsente 3,28% de la charge totale. Pour la suite de notre tude, les sinistres sont
plafonns selon les seuils dtermins. Pour un rapprochement avec des primes pures
relles, les rsultats obtenus devront tre multipli par un coefficient valant 1/(1-0.0328)=
1,034 (soit une surprime de 3.4%).
CNAM 2015/2016 67
Modlisation de la consommation mdicale en assurance collective
~ p ; q
O p = :
variables explicatives.
Lintrt des modles linaires gnraliss est de permettre dtendre le modle gaussien
un ensemble de lois plus large que la seule loi normale : la famille exponentielle. Les
~ p
hypothses du modle deviennent alors :
p= =8 :
8 p =8 = :
O :
Et de manire quivalente :
CNAM 2015/2016 68
Modlisation de la consommation mdicale en assurance collective
Nous avons vu quune hypothse importante des modles linaires gnraliss est de
considrer que la variable alatoire Y que l'on essaie de modliser suit une loi appartenant
la famille des exponentielles. Cela signifie que la densit de Y peut scrire sous la forme
dune exponentielle dans laquelle apparaissent les paramtres rgissant la localisation et la
dispersion de la loi. Des lois telles que la loi Normale, Gamma ou Poisson sont membres de
la famille des exponentielles, contrairement dautres lois telles que la Log-normale ou
Weibull.
Formellement, la loi dune variable alatoire Y ou dun chantillon de variables alatoire Yi,
i=1n appartient la famille des exponentielles si sa densit peut se formuler ainsi :
? *
?| , = exp + ?,
.
Avec :
est un paramtre de dispersion suppos connu. Il est aussi appel paramtre de nuisance
car pour certaines valeurs de , la densit f peut ne plus appartenir la famille
exponentielle. Si est inconnu, il sera estim pralablement et considr comme connu.
= *
& = *
& p = * * p
CNAM 2015/2016 69
Modlisation de la consommation mdicale en assurance collective
X
Prdictions IC Nuage de points
Figure 38 : Illustration du principe de la rgression gaussienne
Le recours au GLM permet doprer dans un cadre plus large que celui du modle linaire
simple. Lemploi dune fonction de lien permet de se ramener un cadre mathmatique plus
commode, en faisant comme si Y suivait une Normale alors que lon suppose quil suit
une Gamma, une Poisson ou tout autre loi de la famille exponentielle. En effet lintrt de la
fonction de lien g et de permettre que V(g(E(Y|X)) soit indpendante de E(Y).
Par ailleurs, il existe pour chaque loi de Y, une fonction de lien g spcifique dfinie par :
8 p =
8 . = * .
CNAM 2015/2016 70
Modlisation de la consommation mdicale en assurance collective
Dans le cadre de notre tude, le modle de cot est utilis. Nous avons vu prcdemment
quune des hypothses fortes des GLM est de considrer que la variable alatoire modlise
suit une loi de la famille exponentielle. Selon le type de variable modlise, certaines lois
sont plus souvent utilises que dautres. Ainsi, le cot annuel des sinistres que nous
cherchons modliser ici est classiquement considr comme suivant une loi Gamma. La
frquence des sinistres tant quant elle plus gnralement envisage comme suivant une
loi de Poisson ou une loi Binomiale Ngative.
Lorsque la consommation mdicale annuelle dun assur est strictement positive, la loi
gamma semble tre une hypothse raisonnable de modlisation. Cependant, la loi Gamma
nest pas dfinie en 0. Une modlisation gamma du cot des sinistres fournit donc des
rsultats intressant sur limpact des diffrentes covariables sur lintensit de la
consommation mdicale mais ne tient pas compte des assurs ayant une sinistralit nulle.
Une bonne loi nous permettant de modliser la consommation mdicale serait donc une
distribution de mme type quune loi gamma mais dfinie en 0 pour tenir compte de la non-
consommation.
Une solution est de supposer que les cots des sinistres suivent une loi de Tweedie.
Les lois de Tweedie forment une sous-classe des modles de dispersion exponentielle, eux-
mmes tant un sous-groupe de la famille exponentielle. La particularit dune loi de
Tweedie est de lier variance et esprance selon la relation suivante :
& =
CNAM 2015/2016 71
Modlisation de la consommation mdicale en assurance collective
Les distributions Normale, Poisson, Gamma et Inverse Gaussienne sont donc des cas
particuliers de loi Tweedie. Pour dautres valeurs de p, les distributions sont toujours dfinies
mais ne peuvent pas tre crites dans une forme finie, et sont difficiles de les estimer.
Lorsque 1 < p < 2, les distributions sont continues pour Y >0, et une masse positive pour Y =
0 est dfinie. Cela revient supposer un comportement suivant une loi compose Poisson-
Gamma. Lintrt de ce type de lois est quelles permettent de grer un nombre important de
valeurs nulles. Pour p > 2, les distributions sont continues pour Y suprieur zro. Le choix
de p se fait en analysant les rsidus. Les deux graphiques ci-dessous illustrent leffet de la
valeur de p sur la distribution.
Lorsque p est proche de 2, sa densit ressemble une loi gamma ayant une masse en 0. En
revanche, lorsque p se rapproche de 1, la densit se discrtise : elle perd
progressivement sa masse en 0 et fait tat de pics de concentration, mettant en vidence
linfluence de la loi de Poisson.
16
Graphique extrait de Predictive Modeling with the Tweedie Distribution , Glenn Meyers, CAS
Annual Meeting, 16 Novembre 2009.
CNAM 2015/2016 72
Modlisation de la consommation mdicale en assurance collective
La loi de Tweedie en tant que loi compose Poisson-Gamma, peut tre vue travers le
prisme du modle dactuariat collectif. Considrons une variable alatoire Y modlisant un
montant de sinistre annuel dfinie par :
= :
N est une variable alatoire suppose indpendante des Xi suivant une loi de Poisson.
Y est distribue selon une loi de Poisson compose (ici Poisson-Gamma), i.e. une loi de
Tweedie avec 1<p<2. La loi de Tweedie est donc une loi intressante pour modliser une
charge annuelle.
Dans le cadre de notre tude, considrer une loi de Tweedie pour modliser la
consommation mdicale annuelle des bnficiaires revient donc faire les hypothses
suivantes :
17
Graphique extrait de Predictive Modeling with the Tweedie Distribution , Glenn Meyers, CAS
Annual Meeting, 16 Novembre 2009.
CNAM 2015/2016 73
Modlisation de la consommation mdicale en assurance collective
2. Les montants de sinistres sont indpendants et identiquement distribus selon une loi
Gamma ;
Le point 1. ne peut tre directement test sur nos donnes car nous ne connaissons avec
certitude que la consommation annuelle globale par poste mdicale. En outre il nest pas
toujours ais de diffrencier des dpenses relatives un vnement o un autre, par
exemple pour des dpenses en pharmacie. Ceci peut rendre les frquences observes
peu fiables. Par ailleurs, il est assez rpandu en modlisation de considrer la frquence
comme suivant une loi de Poisson. Il ne semble dailleurs pas inappropri de considrer la
consommation annuelle comme une somme de sinistres survenus au cours de lanne.
Par ailleurs, comme voqu prcdemment, la corrlation existant entre frquence et cot
en sant est assez souvent souligne mais majoritairement nglige. Le point 2. Napparat
donc pas bloquant.
? *
? | , = exp + ? ,
.
L L
L ? L *
, |? = ? | , = exp + ? ,
.
En reprenant les notations et les hypothses vues en dbut de partie, on suppose dans le
cadre de notre modlisation :
8 p = :
O :
CNAM 2015/2016 74
Modlisation de la consommation mdicale en assurance collective
p =
Comme nonc prcdemment, on a bien un modle dont les trois lments fondamentaux
sont :
Pour rsoudre le modle, une hypothse supplmentaire est faite : les Yi sont identiquement
distribus conditionnellement aux Xi.
Pour que notre modle soit prdictif et puisse estimer les p , il doit estimer les paramtres
ainsi que le paramtre de dispersion si celui-ci est inconnu. En rgle gnral, les
paramtres sont estims par maximum de vraisemblance.
L L
? *
/ , |? = /,8 , |? = + ? , = /
.
On rappelle que les sont fonctions des . Ainsi, pour dterminer les paramtres
maximisant la vraisemblance, il suffit de driver la log-vraisemblance et dcrire les
conditions du premier ordre. En reprenant les notations prcdentes on a, pour tout i=1n et
/ / p p ? p
tout j=1p :
= = :
p &
Les quations que lon doit rsoudre peuvent donc scrire, pour tout j=1p, ainsi :
L L
/ , |? / p ? p
= = : =0
&
CNAM 2015/2016 75
Modlisation de la consommation mdicale en assurance collective
Les solutions de ces quations non-linaires ne sont pas explicitement formulables car ces
quations ne peuvent tre rsolues analytiquement. Cependant elles peuvent ltre
numriquement. Les logiciels calculent donc les estimations en utilisant un algorithme itratif
pour la rsolution dquations non linaires. Les estimations au sens du maximum de
vraisemblance sont approches numriquement, par itration successives. Les deux
algorithmes les plus utiliss sont :
Newton Raphson
Score de Fisher
CNAM 2015/2016 76
Modlisation de la consommation mdicale en assurance collective
1. Adquation du modle
La qualit dun modle peut tre mesure en tudiant la diffrence entre les observations
relles et les prdictions. Deux indicateurs sont utiles pour juger de ladquation du modle
aux donnes :
Dviance ;
6,-/ 1w-0
= 2,8
6,-/ 2.1w
La dviance suit une loi du chi-2 dont le nombre de degrs de libert est celui qui spare les
deux modles. Sa valeur attendue est donc son nombre de DDL puisque la moyenne
dun chi-2 est ce nombre de DDL.
? pA@
# =
pA@
&.
Sachant que lesprance dune loi du Khi-deux est son nombre de degrs de libert et,
connaissant les aspects approximatifs des tests construits, lusage est souvent de comparer
les statistiques avec le nombre de degrs de libert. On identifie en pratique la Dviance et
la statistique de Pearson leur moyenne que lon compare au nombre de degrs de libert.
On parle alors de dviance et de test de Pearson normalise, respectivement scaled
deviance et scaled Pearson Chi-square en anglais. Un modle peut tre jug
satisfaisant pour un rapport de la dviance avec le nombre de dgr de libert proche de 1.
Enfin, on notera que pour certaines modles spcifiques comme les modles de Poisson, il
est possible de dfinir la dviance D* telle que :
=
-
CNAM 2015/2016 77
Modlisation de la consommation mdicale en assurance collective
Dans tout modle linaire gnralis, il est ncessaire de tester la fiabilit des coefficients
gnrs. Pour rappel ces coefficients sont le plus souvent calculs par maximum de
vraisemblance. Le test de Wald est un test de significativit des coefficients de rgression
base sur la proprit de normalit asymptotique de l'estimation du maximum de
1
vraisemblance et se calcule comme suit :
=* *
&. *
En pratique on emploie souvent le test de Wald pour conclure lutilit de conserver une
modalit. En cas de test non significatif, la modalit en question peut tre regroupe avec
une modalit proche (par exemple dans le cas de lge) ou de la modalit de rfrence (pour
une variable qualitative).
Lobservation des rsidus est aussi intressante pour valuer la prcision du modle et
identifier les donnes mal modlises. Deux types de rsidus nous intressent ici :
Rsidus de dviance
Rsidus de Pearson
Lanalyse des rsidus permet de reprer des valeurs aberrantes ou mal modlises. L o la
dviance et la statistique de Pearson donne un aperu gnral de la qualit du modle, les
rsidus permettent une vision plus dtaille.
Par dfinition, les rsidus sont obtenus en comparant valeurs observes et valeurs prdites
par le modle. Il est de plus cohrent de pondrer cette diffrence par la dispersion, i.e. par
lcart-type observ des valeurs. On obtient les rsidus de Pearson :
? pA@
=
pA@
&.
CNAM 2015/2016 78
Modlisation de la consommation mdicale en assurance collective
On note que la statistique du chi-2 de Pearson correspond la somme des carrs de ces
rsidus. Le rsidu de chaque observation nous informe donc sur le poids de chaque donne
dans cette statistique. Une version standardise de ces montants existe, tenant compte de
leffet de levier propre chaque observation.
- = 208 ? p
observation la dviance du modle. Ils sont dfinis par :
= = -
Prcisons ici que les rsidus de la dviance suivent une loi Normale quelle que soit la loi de
la variable Y modlise. La distribution Normale des rsidus de Dviance constitue donc un
critre de validation dun GLM.
Enfin, un bon moyen didentifier les variables les plus influentes sur la prcision du modle
est de modliser la distance de Cook qui mesure linfluence dune observation sur l'quation
de rgression. Elle reprsente la diffrence entre les coefficients de rgression calculs et
les valeurs qui auraient t obtenues si l'observation correspondante avait t exclue de
l'analyse. Toutes les distances de Cook doivent tre du mme ordre de grandeur ; si ce n'est
pas le cas, il y a de bonnes raisons de penser que la ou les observations respectives
biaisent l'estimation des coefficients de rgression.
CNAM 2015/2016 79
Modlisation de la consommation mdicale en assurance collective
PARTIE 5 - RESULTATS
A. Adquation du modle
Observons lapplication de notre modlisation sur nos donnes. On sintresse tout dabord
aux critres dajustement du modle aux donnes.
On observe dans le premier tableau que la dviance normalise est exactement gale 1
alors que la dviance non normalise en est trs loigne. Ceci vient du fait que lutilisation
dispersion diffrent de 1. Nous avons en effet montr que la fonction de Variance dune loi
de la loi de Tweedie comme loi de distribution de nos donnes implique un facteur de
Dans notre cas est trs diffrent de 1 car la Dviance normalise lest aussi. Il y a donc un
phnomne de surdispersion si lon ne tient pas compte de . La surdispersion se produit
lorsque la variabilit des donnes est suprieure ce que le modle peut prvoir. Ce
phnomne se produit gnralement dans le cas dun modle de Poisson o lon suppose
de fait que la Variance et lesprance des donnes sont gale, ce qui est rarement le cas en
pratique. Or la loi de Tweedie employe ici est une loi compose Poisson-Gamma.
obtenir une dviance standardise de 1. Cest pourquoi, nous obtenons en sortie de SAS un
paramtre dchelle ( scale parameter ) du modle est gale 6,4 environ. En effet, ce
aussi la racine carr de . Ce paramtre peut aussi tre calcule par maximum de
paramtre est calcul comme la racine carre de la Dviance Standardise et correspond
CNAM 2015/2016 80
Modlisation de la consommation mdicale en assurance collective
Les ges suprieurs 90 : ces ges seront regroups pour une meilleure stabilit.
Les tests de Wald ne sont pas significatifs pour les catgories 50-99, 100-299, 4000-
5000 et 20-49. Lorsque lon reprsente les effets multiplicatifs dans un graphe, il
demeure difficile de conclure une tendance particulire li la taille de lentreprise.
Ces observations nous poussent donc carter cette variable de modlisation, dans lattente
dune tude plus significative, du fait dun manque de fiabilit et possiblement de robustesse.
L effet taille napparat ainsi pas pertinent dans notre tude pour modliser la
consommation mdicale.
CNAM 2015/2016 81
Modlisation de la consommation mdicale en assurance collective
Les donnes possdant les rsidus les plus hauts, celles du milieu du graphique,
correspondent au poste Hospitalisation. Les rsidus importants correspondant aux premires
observations sont ceux observs sur le poste Dentaire. Les postes Honoraires, Optique et
Pharmacie ont quant eux des rsidus relativement similaires et infrieurs. Ceci est peu
surprenant dans la mesure o les montants de dpenses possdent une dispersion trs
diffrente selon le poste concern.
Il est par ailleurs intressant de relever que des rsidus similaires sont observs, que lon
crte poste par poste ou partir dun mme seuil pour tous les postes, par exemple 3000
euros.
CNAM 2015/2016 82
Modlisation de la consommation mdicale en assurance collective
Les rsidus de Pearson et la distance de Cook corroborent les rsultats des rsidus de
dviance. La distance de Cook (cf. Figure 45) permet de mettre en vidence 3 ou 4
observations dont linfluence est suprieure aux autres. Leur distance de Cook tant
suprieure ou gale 0,003, leur influence reste donc trs limite sur la prcision du modle
global.
CNAM 2015/2016 83
Modlisation de la consommation mdicale en assurance collective
Malgr la disparit des rsidus qui semble directement corrle au type de poste mdical
modlis, on observe une distribution des rsidus pouvant sapparenter une loi Normale
(bien que de Kurtosis suprieure).
La distribution normale des rsidus permet de valider le modle utilis. Cependant, dautres
indicateurs peuvent tre employs. Une premire indication intressante peut tre
dobserver les rsidus pour les bnficiaires ayant consomm au cours de lanne. Cela
permet notamment dapprcier la manire dont la loi de Tweedie modlise la svrit des
sinistres. La figure 47 montre que la distribution des rsidus savre proche dune loi normale
lgrement dissymtrique. La loi Gamma sous-jacente au modle Tweedie modlise donc
de manire acceptable les consommations non-nulles.
CNAM 2015/2016 84
Modlisation de la consommation mdicale en assurance collective
Un autre indicateur plus oprationnel consiste comparer la prime moyenne modlise avec
la consommation relle pour une classe donne. On peut en outre rapprocher cette
comparaison avec le poids de chaque classe, ce qui permet de juger si le modle est
performant sur une part importante du portefeuille. Dans notre cas, le poids correspond la
somme des expositions des observations dun groupe. Un indicateur couramment utilis est
le Lift Chart. Ce dernier se construit ainsi :
1. Gnrer les valeurs prdites par le modle pour chaque observation de la base ;
2. Classer les observations par ordre croissant de leur valeur prdite par le modle ;
3. Regrouper les observations classes en un nombre arbitraire de groupes de taille
homogne ;
4. Comparer pour chaque groupe la valeur prdite moyenne avec celle observe ;
5. Ajouter lexposition de chaque groupe.
CNAM 2015/2016 85
Modlisation de la consommation mdicale en assurance collective
Consommation Exposition
300 64000
250 62000
60000
200
58000
150
56000
100
54000
50 52000
0 50000
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
Groupes d'observations
Exposition Conso obs. Modle
Figure 48 : Lift Chart du modle
Le Lift Chart ci-dessus indique la bonne performance du modle sur chacun des 25 groupes
dobservations constitus. Remarquons par ailleurs que le principe du Lift Chart peut se
dcliner sur de multiples granularits, comme illustr dans le graphique ci-dessous, dtaillant
les valeurs prdites par ge ainsi que lexposition cumule. Cela peut aider identifier les
catgories les moins bien modlises.
400 300%
350
250%
300
Exposition cumule
200%
Cout annuel
250
200 150%
150
100%
100
50%
50
0 0%
0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85
Age
Expo cum Conso Moy. Observe Modle
Figure 49 : Modle vs Consommation relle sur le poste Honoraires
On observe notamment dans ce graphique une lgre sur-tarification sur le poste Honoraires
sur le segment 20-30 ans.
CNAM 2015/2016 86
Modlisation de la consommation mdicale en assurance collective
globaux, i.e. tous postes confondus. Malgr la disparit des cots modliss et lhypothse
forte dune loi de Poisson (sous-jacente dune loi de Tweedie) pour dcrire la frquence des
sinistres, le modle conserve une prcision trs correcte, bien que pouvant gnrer une
lgre sur-tarification comme nous lavons observ.
Plusieurs pistes peuvent tre envisages pour amliorer le pouvoir prdictif ou la versatilit
de ce modle :
Lorsque cela est possible, modliser sparment frquence et cot moyen. Une loi
de Tweedie suppose une loi de Poisson modlisant la frquence des sinistres. Or
cette frquence est parfois mieux modlise par une loi binomiale ngative, moins
disperse.
Raliser un modle par poste. Ceci permet une meilleure adquation des modles
aux donnes et des rsidus moindres. La masse en zro et la modlisation de la
svrit spcifiques aux diffrents postes sont ainsi mieux modlises. En effet, un
modle de Tweedie est moins souple quun modle Frquence-Cot moyen
classique car il lie de fait lajustement de la frquence celle du cot. Ainsi on
pourrait envisager de modliser une prime pour chaque poste mdicale et dobtenir
des variables explicatives globales en ralisant une rgression supplmentaire sur
les valeurs prdites par chaque modle.
1. Anne
Cette tude met en avant une hausse de la consommation de +1,8% entre 2011 et 2012.
Cette valeur tant bien entendu dcorrle des autres effets tudis tels que lge, le collge
etc.
Elle pourra tre compare aux valeurs de drives de consommation annuelle utilise dans le
cadre du renouvellement des contrats collectifs et de leur majoration. Elle gagne aussi tre
rapproche de lvolution du PASS : entre 2011 est 2012, le PASS a volu de 1,03%.
Le modle nous indique donc que la drive hors PASS appliquer aurait d tre entre 0,5%
et 1%.
2. Age
CNAM 2015/2016 87
Modlisation de la consommation mdicale en assurance collective
2,5
Coefficient multiplicateur
1,5
0,5
0
0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85
Age
Femme Homme
Figure 50 : Effet multiplicatif Age - Sexe
Les coefficients dge et de sexe obtenus sont informatifs de nombreux gards. En effet,
on observe tout dabord labsence deffet dans la consommation des Enfants de 20 ans
et moins. Un pic de consommation ladolescence est trs clairement observ. Une
modlisation poste poste montre que ce pic provient directement de dpenses relatives au
poste Dentaire. En outre, la consommation des hommes et des femmes diffrent en de
nombreux ges, ce qui corrobore le choix davoir li les effets Age et Sexe :
3. Zone
Comme vu prcdemment, les tests de Wald pour la Zone nous poussent regrouper les
zone 6, 7 et 8. Par ailleurs, lobservation des effets indiquent que les Zones 3 et 4 ont des
effets similaires du point de vue de la consommation.
CNAM 2015/2016 88
Modlisation de la consommation mdicale en assurance collective
Zone 5 : 10 dpartements
Les rsultats obtenus indiquent ainsi que le zonier de 4 zones actuellement employ
pourrait tre affin et lgrement rorganis en un zonier 5 zones. Ce dernier scinderait
notamment lIle-De-France et la Province pour une meilleure segmentation.
4. Option
Le modle nous indique que le surcout de consommation li une option est denviron
+16%. Ceci sexplique par ladhsion facultative aux options qui entrane une anti-slection
importante par rapport aux contrats de base dont ladhsion est obligatoire.
CNAM 2015/2016 89
Modlisation de la consommation mdicale en assurance collective
5. Collge
Les coefficients obtenus pour les diffrents collges sont tout fait cohrents avec les
attentes, comme lillustre le graphique ci-dessous.
6. Secteurs dactivits
Comme dit prcdemment, les tests de Wald ne sont pas significatifs pour les deux secteurs
apparaissant les moins consommateurs. Pour les autres, les conclusions sont sensiblement
identiques celles obtenues lors de lanalyse descriptive.
CNAM 2015/2016 90
Modlisation de la consommation mdicale en assurance collective
146%
135%
132% 134%
126% 128% 127% 123%
119%
115%
100%
77%
73%
Cette variable apparat toutefois significative et gagnerait tre intgre aux outils de
souscription. Certains secteurs dactivit pourtant assez loigns semblent influer de
manire similaire sur la consommation mdicale. On pourrait ds lors regrouper certains
secteurs tels que Commerce, Construction et Industrie manufacturire, comme lillustre la
Figure 53 ci-dessus. Un tude ad hoc demeure cependant ncessaire pour confirmer que la
segmentation NAF agrge utilise ici comporte un homognit suffisante au sein de
chacune de ces modalits.
7. Niveaux de garanties
Le modle nous fournit aussi des rsultats permettant de comparer linfluence des niveaux
de garanties de chacun des postes sur la consommation. A lexception du poste Honoraires
on observe que le Niveau 5 a gnralement un impact trs limit et peut tre regroup avec
le niveau 4. En Hospitalisation, le niveau de garanties de garanties semble navoir
pratiquement aucun impact. Pour le poste Honoraires les niveaux 2 et 3 peuvent tre
regroups au vue de leur effet.
CNAM 2015/2016 91
Modlisation de la consommation mdicale en assurance collective
1,7
Optique
1,5
1,3 Honoraires
1,1
Dentaire
0,9
0,7
Pharmacie
0,5
0,3 Hospitalisation
Niv. 1 Niv. 2 Niv. 3 Niv. 4 Niv. 5
Les impacts tant plutt visibles sur les trois premiers niveaux de garanties, il pourrait
savrer utile de les segmenter de manire plus dtaille et homogne pour une
modlisation plus fine.
E. Consquences oprationnelles
Ltude ralise dans le cadre de ce mmoire a eu plusieurs rpercussions oprationnelles.
Elle a en premier lieu permis de challenger les effets multiplicatifs de diffrents facteurs :
ge, sexe, zone, option etc. Cela a permis un ajustement des coefficients employs et donc
des barmes tarifaires.
CNAM 2015/2016 92
Modlisation de la consommation mdicale en assurance collective
Les carts observs ont ainsi pu tre tudis par les services de souscription et ont impliqu
la modification des barmes pour certains sous-poste ou actes. En consquence, ces
travaux ont eu des consquences non ngligeables sur la politique de souscription : le
budget commercial a t ajust du fait dune meilleure adquation des barmes la ralit.
Enfin, cette tude a mis en lumire diffrents lments relatifs aux variables explicatives :
Le zonier actuel 3 modalits (hors Alsace Lorraine) pourrait tre affin pour une
meilleure segmentation des tarifs ;
CNAM 2015/2016 93
Modlisation de la consommation mdicale en assurance collective
CONCLUSION
Cette tude a t loccasion de se confronter aux principales problmatiques rpandues en
tarification sant et plus gnralement en non-vie. La modification de barmes demeure
complexe mettre en uvre en assurance collective, qui est un march de sur-mesure, o
laccs aux niveaux de garanties des contrats est difficile, ce qui implique un important travail
de cartographie du portefeuille en amont de la modlisation.
Dans le cadre de cette tude, nous avons pu constater que les modles linaires gnraliss
constituent une approche robuste pour la modlisation de la sinistralit, mettant en vidence
les principaux effets impactant la consommation mdicale. Lutilisation de la loi de Tweedie
au sein dun modle unique de Cot sest avre tre une alternative intressante au
classique modle Frquence-Cot moyen. Cette loi peut en effet palier un manque
dinformation concernant la frquence des sinistres, permettant la mise en uvre dun
modle prdictif partir de la seule sinistralit annuelle observe. Un modle Tweedie est
appropri ds lors que des hypothses classiques dun modle Frquence-Cot sont
satisfaites ou supposes : loi Gamma pour la svrit des sinistres, Poisson pour la
frquence. Les modles de cot unique restent malgr tout assez peu rpandus et les
travaux portant sur la loi de Tweedie sont assez peu nombreux. Il pourrait tre intressant de
comparer ces modles avec un modle Frquence-Cot moyen sur une base de donnes
approprie afin den dterminer les impacts en termes de prcision et de stabilit. Nous
avons toutefois pu tester lapplication dun modle de ce type sur la consommation en sant,
tout poste confondu, et les rsultats obtenus se sont avrs cohrents et en phase avec les
donnes du march. Cependant, il pourrait savrer plus efficace de modliser chaque poste
selon un modle propre, quittes raliser une rgression supplmentaire afin dobtenir des
effets globaux pour certaines variables explicatives. Cela permettrait lajustement dune loi
de Tweedie spcifique pour chaque poste, ce qui diminuerait les rsidus et amliorerait
ladquation du modle final.
En outre, la question des valeurs manquantes et de la qualit des donnes est toujours de
mise dans le cadre dtudes actuarielles. Limputation multiple est un moyen statistiquement
efficace pour infrer de linformation dans une base incomplte. Son intrt premier est
dobtenir des coefficients de rgression tenant compte de la variabilit des donnes
imputes qui diffrent par nature des donnes observes. Dans cette tude, les valeurs
imputer taient numriques, et de structure univarie, ce qui a facilit le choix de la mthode
employer. Limputation par score de propension savre intressante lorsque les
hypothses habituelles de normalit sont inadquates. Pour des problmes plus
contraignants tels que des donnes manquantes qualitatives ou de structure non monotone,
il est ncessaire de recourir des mthodes plus labores : Monte-Carlo par Chaine de
Markov ou Fully-Conditionnal Specification essentiellement. Ici, le nombre de valeurs
manquantes tait peu lev et lon aurait pu en pratique ne considrer que les cas complets
malgr le biais induit. Nanmoins, la question des donnes manquantes se pose toujours et
ce phnomne pourrait persister avec le dveloppement du big data et le traitement de
donnes non structures. Or limputation multiple reste ce jour une des mthodes les plus
robustes et performantes pour traiter cette problmatique.
CNAM 2015/2016 94
Modlisation de la consommation mdicale en assurance collective
Par ailleurs, les arbres de dcisions se sont avrs tre un outil efficace pour raliser une
premire segmentation de variables explicatives comportant un nombre jug trop important
de modalits. Leur mise en uvre relativement simple les prsente mme comme une
alternative possible aux modles de tarification classiques comme les GLM, en assurance
individuel par exemple. Ils constituent aussi une mthode de slection de variables part
entire. Lalgorithme Stepwise de slection de variables a dailleurs fourni des rsultats
cohrents avec larbre de rgression. Les indicateurs telles que lvolution PRESS ou le
critre dAkaike restant informatifs mme lorsque les hypothses de normalit sont violes.
Nous avons aussi pu tester quelques applications de la thorie des valeurs extrmes. Celle-
ci est peu utilise pour le risque sant o lcrtement a moins dimpact que dans dautres
branches. Nanmoins, les seuils dcrtement retenus, assez levs, ont cibl les quelques
montants de consommations inhabituelles. En outre les excs moyens estims sont assez
proches des observations relles et restent relativement modrs du point de vue de la
charge crte comme on pouvait sy attendre.
CNAM 2015/2016 95
Modlisation de la consommation mdicale en assurance collective
CNAM 2015/2016 96
Modlisation de la consommation mdicale en assurance collective
CNAM 2015/2016 97
Modlisation de la consommation mdicale en assurance collective
BIBLIOGRAPHIE
Donnees March :
Valeurs manquantes
Humphries, Missing Data & How to Deal: An overview of missing data, Population
Research Center ;
Soley-Bori, Dealing with missing data: Key assumptions and methods for applied
analysis, Technical Report N4, 6 mai 2013.
Tweedie
Meyers, Predictive Modeling with the Tweedie Distribution , ISO Innovative Analytics,
CAS Annual Meeting Session C 25, 16 novembre 2009
Modlisation GLM
CNAM 2015/2016 98
Modlisation de la consommation mdicale en assurance collective
Arbres
Rakotomalala, fr_Tanagra_R_CART_algorithm.pdf,
eric.univ-lyon2.fr/~ricco/tanagra/fichiers/fr_Tanagra_R_CART_algorithm.pdf
Rakotomalala, fr_Tanagra_Tree_Post_Pruning.pdf
eric.univ-lyon2.fr/~ricco/tanagra/fichiers/fr_Tanagra_Tree_Post_Pruning.pdf
Rakotomalala, fr_Tanagra_Regression_Tree.pdf
eric.univ-lyon2.fr/~ricco/tanagra/fichiers/fr_Tanagra_Regression_Tree.pdf
Ecrtement :
CNAM 2015/2016 99
Modlisation de la consommation mdicale en assurance collective
ANNEXES
A. Code sas
/*BASE GENERALI*/
libname MERCER "&groupe22/Mehdi_Arsalane/Sante_FM/Bareme 20-
300/MERCER/TABLES SAS/";
libname MEMOIRE "&groupe22/Mehdi_Arsalane/Sante_FM/MEMOIRE/";
libname GENE "&groupe22/Mehdi_Arsalane/Sante_FM/Bareme 20-
300/GENERATION/TABLES SAS/";
2. Traitement de base
data BM;
set Mercer.FUSION_POST_RETV5bis(where=(Deleg='MERCER'));
run;
proc sql;
create table info as
select distinct Num_benef, Insee_ass, Qualite, College as Col_ANI,
Sexe, Date_naiss,year(Date_naiss) as annee_naiss
from Mercer.BENEF_MERCER_2011_2013CONTRAT;
quit;
proc import
datafile="G:/commun/Mehdi_Arsalane/Sante_FM/Bareme 20-
300/MERCER/INFOS SUP/age_enf.xlsx"
out=Age
dbms=excelcs
replace;
server='GF211289';
port=8561;
run;
data info;
merge info(in=a) Age(in=b);
by annee_naiss;
if a;
run;
proc sql;
create table CP as select distinct Insee_ass, Code_Postal
from Mercer.BENEF_MERCER_2011_2013CONTRAT
where not(missing(Code_Postal)) and Code_Postal<>0 ;
quit;
data CP;
set CP;
if Code_Postal<9999 then Dept=cats('0',substr(put(Code_Postal,10.-
L),1,1));
else Dept=substr(put(Code_Postal,10.-L),1,2);
run;
data infoCP;
merge info(in=a) CP(in=b);
by Insee_ass;
if a and b;
run;
/**Vrifier que Num_benef est un nombre dans les deux tables !!!**/
proc sql;
create table BM2 as
from BM
data BM2;
merge BM2(in=a) Acte(in=b);
by annee CONTRAT_GENERALI Contrat_Option Num_benef Poste;
if a;
run;
proc sql;
create table BM3 as
select *
from BM2
where POSTE
in('E_Dentaire','F_Honoraires','G_Hospitalisation','I_Optique','K_Ph
armacie');
quit;
data Memoire.BENEF_BASE;
set BM3;
run;
t1.POSTE, /*t1.SOUS_POSTE,*/
t1.NIV_GAR,
/* SUM_of_FR */
(SUM(t1.FR)) AS FR,
/* SUM_of_GENERALI */
(SUM(t1.GENERALI)) AS GENERALI,
/* SUM_of_Actes */
(SUM(t1.Actes)) AS Actes,
/* SUM_of_Actes_Medic */
(SUM(t1.Actes_medic)) AS Actes_medic
FROM MEMOIRE.BENEF_BASE t1
WHERE NOT(MISSING(t1.NIV_GAR) or MISSING(t1.sexe_comp)or
MISSING(t1.DPT_BENEF)) AND t1.POSTE
IN('E_Dentaire','F_Honoraires','G_Hospitalisation','I_Optique','K_Ph
armacie')
GROUP BY t1.annee, t1.CONTRAT_GENERALI,t1.Num_benef,
t1.Type_benef, t1.Col_ANI,t1.College, t1.Age,t1.sexe_comp,
t1.Contrat_Option,
t1.Nb_Salaries, t1.nb_benef, t1.Struc_fam,
t1.NAF_CODE, t1.NAF_LIB,t1.Qualite, t1.DPT_CONTRAT,
t1.DPT_BENEF, t1.expo, t1.POSTE,t1.NIV_GAR;
quit;
data BENEF_BASE_I;
set BENEF_BASE_I;
if missing(FR) then FR=0;
if missing(GENERALI) then GENERALI=0;
if Type_Benef='E' and Age>33 then Type_Benef='A';
if Type_Benef ne 'E' and Age<15 then delete;
if Col_ANI="AM" then Col_ANI="NON CADRE";
if Type_benef='D' then delete;
run;
4. Imputation multiple
proc sql;
create table T_ACOMP as
select annee, CONTRAT_GENERALI, Num_benef, Type_benef, Col_ANI, Age,
sexe_comp, Contrat_Option, Nb_Salaries, nb_benef, Struc_fam,
NAF_CODE, Qualite, DPT_CONTRAT, DPT_BENEF, sum(FR_EXP) as FR,
sum(GEN_EXP) as GENERALI
from BENEF_BASE_I
group by annee, CONTRAT_GENERALI, Num_benef, Type_benef, Col_ANI,
Age, sexe_comp, Contrat_Option, Nb_Salaries, nb_benef, Struc_fam,
NAF_CODE, Qualite, DPT_CONTRAT, DPT_BENEF;
quit;
data Memoire.T_ACOMP;
set T_ACOMP;
run;
data T_ACOMP_A;
set Memoire.T_ACOMP(where=(Type_Benef<>'E'));
run;
data T_ACOMP_E;
set Memoire.T_ACOMP(where=(Type_Benef='E'));
run;
run;
run;
data T_COMP;
set Memoire.T_COMP_A Memoire.T_COMP_E;
Age_comp=Age;
drop FR Generali Age;
run;
data BENEF_BASE_I;
merge BENEF_BASE_I (in=a) T_COMP;
by annee CONTRAT_GENERALI Num_benef Type_benef Col_ANI sexe_comp
Contrat_Option Nb_Salaries nb_benef Struc_fam NAF_CODE Qualite
DPT_CONTRAT DPT_BENEF;
if a;
run;
data Benef_Base_I;
set Benef_Base_I;
if Age='.' then Age=Age_comp;
drop Age_comp;
run;
5. Analyses descriptives
/*Analyse descriptives*/
proc sql;
create table a_desc as
select distinct annee, CONTRAT_GENERALI,Num_benef,
Type_benef,Struc_Fam,Col_ANI,
sexe_comp,Contrat_Option,Nb_Salaries,Age,NAF_CODE,NAF_LIB,Qualite,DP
T_CONTRAT,DPT_BENEF,sum(Gen_exp) as Generali
from BENEF_BASE_I
group by annee, CONTRAT_GENERALI,Num_benef, Type_benef,Struc_Fam,
Col_ANI,
sexe_comp,Contrat_Option,Nb_Salaries,Age,NAF_CODE,NAF_LIB,Qualite,DP
T_CONTRAT,DPT_BENEF;
quit;
data a_desc;
set a_desc;
if Nb_Salaries>=4000 and Nb_Salaries<5000 then taille="4000-4999";
if Nb_Salaries<20 then taille="-20";
if Nb_Salaries>=20 and Nb_Salaries<50 then taille="20-49";
%macro An_desc(v);
PROC SQL ;
CREATE TABLE &v AS
SELECT distinct annee,&v,mean(Generali) AS CONSO_MOY,COUNT(*) AS
nbBenef
FROM a_desc
GROUP BY annee, &v;
QUIT ;
PROC GPLOT DATA=&v ;
BUBBLE CONSO_MOY * &v = nbBenef ;
RUN ; QUIT ;
%mend;
%An_desc(annee);
%An_desc(Type_Benef);
%An_desc(Col_ANI);
%An_desc(Struc_fam);
%An_desc(sexe_comp);
%An_desc(Contrat_Option);
%An_desc(Age);
%An_desc(NAF_LIB);
%An_desc(Qualite);
%An_desc(DPT_CONTRAT);
%An_desc(DPT_BENEF);
%An_desc(Taille);
proc sql;
create table Depenses_POSTE as
select distinct POSTE,sum(Gen_exp) as Generali,mean(generali)
from BENEF_BASE_I
where Gen_exp>0
group by POSTE;
quit;
data Benef_Base_I;
set Benef_Base_I;
proc format;
value $DPT_BENEF
'06','75','78','92'=1
'93','94','95'=2
'82','38','13','77','28','60','34','54','91','74','07','64'=3
'90','33','69','01','27','40','14','80','43'=4
'21','20','85','23','42','56','73','48','10'=5
'89','84','88','58','81','71'=6
'50','66','76'=7
other=8;
;
run;
6. Adquation de lois
run;
%mend;
%Adeq('E_Dentaire',est,est,1100000); /*=>seuil = 6000-7000 environ
environ 4000 au max de vrais*/
%Adeq('F_Honoraires',est,est,200000);
%Adeq('G_Hospitalisation',est,est,100000);
%Adeq('I_Optique',est,est,100000);
%Adeq('K_Pharmacie',est,est,100000);
7. Ecrtement
%macro ecret(Poste,table);
proc sql;
create table &table as
select GEN_EXP
from Memoire.BENEF_BASE_I(where=(GEN_EXP>0 and expo=1))
where POSTE=&Poste;
run;
/*Calcul d'impact*/
proc sql;
create table Global as
select Poste, count(*) as Nb_Benef, sum(Gen_Exp) as Conso
from Memoire.Benef_Base_i
/*where expo1*/
group by Poste;
quit;
%macro surcout(poste,seuil);
proc sql;
create table TEST as
select Poste,count(*) as Nb_Benef, sum(Gen_Exp) as Conso
from Memoire.Benef_Base_i
where GEN_EXP>&seuil and POSTE=&Poste /*and expo=1*/
group by Poste;
quit;
%mend;
%surcout('E_Dentaire',3500);
%surcout('F_Honoraires',1600);
%surcout('G_Hospitalisation',5000);
%surcout('I_Optique',1500);
%surcout('K_Pharmacie',600);
8. Corrlations
proc sql;
College*(Age Nb_Salaries)
Age*Nb_Salaries*/
run;
9. Slection de variables
data BASE_ECRET;
set Benef_Base_i;
Generali_ecret=Gen_exp;
if POSTE='E_Dentaire' and Gen_exp>3500 then Generali_ecret=3500;
if POSTE='F_Honoraires' and Gen_exp>3200 then Generali_ecret=3200;
if POSTE='G_Hospitalisation' and Gen_exp>8000 then
Generali_ecret=8000;
if POSTE='I_Optique' and Gen_exp>1300 then Generali_ecret=1300;
if POSTE='K_Pharmacie' and Gen_exp>1300 then Generali_ecret=1300;
/*l_cout=log(Generali_ecret);
l_expo=log(expo);
Generali_ecret2=Generali_ecret**2;*/
/*keep Age sexe_comp annee NAF_Lib Zone_benef taille Col_ANI
NIV_GAR Contrat_Option Poste Generali_ecret expo;*/
run;
/*TEST TWEEDIE*/
%macro Tweedie(Poste,p);
ods graphics on;
PROC GENMOD DATA=Base_ecret(where=(Poste=&Poste)) plots=(cooksd
stdreschi reschi resdev stdresdev);
class Age
sexe_comp
Col_ANI
Contrat_Option
Zone_benef
NIV_GAR
annee
taille
NAF_Lib
/ order=freq desc;
a=_MEAN_;
y=_RESP_;
p=&p;
d=0;
if y GE 0 then d=2*((y**(2-p)-((2-p)*y*a**(1-p))+((1-p)*a**(2-
p)))/((1-p)*(2-p)));
variance var = a**p;
deviance dev = d;
MODEL Generali_ecret= Age*sexe_comp
annee
NAF_Lib
Zone_benef
taille
Col_ANI
NIV_GAR
Contrat_Option
/*Essai Global*/
/ order=freq desc;
a=_MEAN_;
y=_RESP_;
p=1.88;
d=0;
if y GE 0 then d=2*((y**(2-p)-((2-p)*y*a**(1-p))+((1-p)*a**(2-
p)))/((1-p)*(2-p)));
variance var = a**p;
deviance dev = d;
MODEL Generali_ecret= Age*sexe_comp
annee
NAF_Lib
Zone_benef
taille
Col_ANI
POSTE*NIV_GAR
Contrat_Option
/ scale=deviance LINK=log
Type1
TYPE3
wald
;
weight expo;
OUTPUT OUT=work.Test STDRESCHI=rp STDRESDEV=rd RESLIK=rv COOKSD=d
predicted=val_pred;
ODS OUTPUT parameterEstimates = work.coeffs;
RUN;
ods graphics off;
data Memoire.Res_tweedie;
set test;
run;
data Memoire.Coeff_tweedie;
set coeffs;
run;
/ order=freq desc;
a=_MEAN_;
y=_RESP_;
p=1.88;
d=0;
if y GE 0 then d=2*((y**(2-p)-((2-p)*y*a**(1-p))+((1-p)*a**(2-
p)))/((1-p)*(2-p)));
variance var = a**p;
deviance dev = d;
MODEL Generali_ecret= Age_sex
annee
NAF_Lib
Zone_benef
Poste_Gar
taille
Col_ANI
Contrat_Option
modeleffects Intercept
Age_sex
Col_ANI
Contrat_Option
Zone_benef
Poste_gar
annee
taille
NAF_Lib;
run;
B. Sorties SAS
1. Imputation multiple
Dentaire
Honoraires
Hospitalisation
Optique
Pharmacie
3. Slection de variables
Dimensions
Number of Effects 13
Number of Parameters80
4. Modlisation GLM
NB : les rsultats obtenus via la procdure GENMOD ne sont pas dtaills car leur affichage
serait illisible ici du fait du nombre important de coefficients et de modalits.
5. Rsultats Mianalyze
Les rsultats de la procdure Mianalyze ne sont pas dtaills du fait des nombreux
coefficients de rgression qui les rendraient illisibles.
C. Code R
library(POT)
library(foreign)
tbl <- read.xport("C:/Mehdi/SAS/1 - Mmoire/5 - Rsultats/7 - Adquation et
crtement/TVE/GLOBAL.xpt")
v<-as.vector(tbl)
u<-sapply(v,as.numeric)
w<-as.vector(u)
library(evir)
hill(w, option=c("alpha"), end=600, reverse=TRUE)
mrlplot(w)
meplot(w)
1. Poste Honoraires
Threshold
Threshold
1620 1690 1760 1830 1920 2030 2150 2330 2560 3070 3990
1160 1200 1260 1330 1410 1490 1620 1790 2000 2330 3210
6
6
5
5
4
4
3
3
2
2
1500 1358 1216 1074 945 829 713 597 481 365 249 133 30 650 600 550 500 450 400 350 300 250 200 150 100 56 17
2. Poste Dentaire
Threshold Threshold
1940 2000 2130 2270 2450 2670 2920 3300 4160 6260 6490 6910 7230 7650 7960 8320 8780 9420 9990
7
7
6
6
alpha (CI, p =0.95)
alpha (CI, p =0.95)
5
4
4
3
3
2
1000 914 837 760 683 606 529 452 375 298 221 144 75 15 75 71 67 63 59 55 51 47 43 39 35 31 27 23 19 15
3. Poste Hospitalisation
Threshold Threshold
4470 4750 5070 5400 5890 6440 7120 8200 10200 15200 10700 11300 11800 13200 14000 14600 15600 17100 18700
5
5
4
4
3
2
2
500 462 424 386 348 310 272 234 196 158 120 86 56 26 80 76 72 68 64 60 56 52 48 44 40 36 32 28 24 20 16
4. Poste Optique
Threshold Threshold
1300 1320 1360 1410 1460 1480 1510 1560 1640 1760 898 913 927 943 963 994 1020 1060 1110 1200 1340
12
12
10
10
alpha (CI, p =0.95)
alpha (CI, p =0.95)
8
6
6
4
120 111 102 94 87 80 73 66 59 52 45 38 31 24 17 4 1000 914 837 760 683 606 529 452 375 298 221 144 75 15
Threshold
728 736 750 766 791 814 829 867 909 952 1050 1280
12
10
alpha (CI, p =0.95)
8
6
4
3000 2714 2428 2142 1856 1570 1284 999 766 533 300 93
Order Statistics
5. Poste Pharmacie
Threshold
Threshold
1330 1350 1390 1440 1500 1560 1690 1790 1990 2340 3330
805 829 853 878 909 948 996 1060 1160 1310 1540 3330
7
7
6
6
5
alpha (CI, p =0.95)
5
alpha (CI, p =0.95)
4
4
3
3
2
200 185 170 155 140 125 110 97 85 73 61 49 37 25 2 1000 914 837 760 683 606 529 452 375 298 221 144 75 15
Threshold
1530 1580 1660 1710 1780 1840 2020 2260 2610 3310
7
6
5
alpha (CI, p =0.95)
4
3
2
Order Statistics
E. Sortie TANAGRA
Ci-dessous, un exemple de sortie fournie par le logiciel Tanagra.
Regression tree 1
Parameters
Tree Parameters
Rnd generator 1
Max Number of Clusters 20
Distance normalization 0
Min. size for split 100
Min. size of leaves 10
Max. depth 20
Goodness threshold 0,00
Pruning set size 0%
Delta 0,0010
Show all tree sequence 1
Results
Global results
Endogenous attribute Generali_exp
Examples 381627
R 0,0653
Tree description
Number of nodes 39
Number of leaves 20
Tree
/,81/,39/,16/,80/,11/,2/,47/,18/,25/,19/,3/,52/,53/,46/,71/,63/,61/,79/,4/,55/,36/,98
/,43/,68/,32/] then avg(Generali_exp) = 278,4450 (std-dev = 602,4295, with 22534
examples [5,90%])
sexe_comp in [F]
DPT_BENEF_TXT in
[82/,50/,24/,15/,31/,38/,13/,33/,69/,77/,28/,1/,60/,34/,83/,67/,44/,89/,59/,26/,54/,9
1/,21/,51/,74/,86/,22/,45/,30/,37/,29/,27/,84/,49/,35/,7/,17/,40/,88/,14/,65/,20/,12/
,58/,87/,72/,85/,5/,62/,97/,41/,70/,9/,57/,66/,76/,8/,90/,23/,81/,64/,39/,16/,80/,11/
,2/,42/,56/,47/,18/,25/,19/,3/,52/,53/,73/,46/,71/,63/,61/,79/,4/,55/,36/,48/,98/,43/
,68/,32/,10/] then avg(Generali_exp) = 436,1278 (std-dev = 772,4099, with 35886
examples [9,40%])
DPT_BENEF_TXT in [92/,75/,78/,94/,95/,6/,93/] then avg(Generali_exp) = 673,2959
(std-dev = 1237,6028, with 19752 examples [5,18%])
Age >= 44,5000
o Age < 65,5000
DPT_BENEF_TXT in
[82/,92/,75/,78/,38/,13/,33/,69/,77/,94/,28/,1/,60/,34/,54/,91/,95/,74/,27/,7/,40/,14/,6/,64/,9
3/,80/,43/]
NAF_CODE in [M,G,S,C,N,J,H,Q,F,R,E]
Col_ANI in [EP,CADRE,NON CADRE]
sexe_comp in [M] then avg(Generali_exp) = 598,6218 (std-dev =
1221,2405, with 23683 examples [6,21%])
sexe_comp in [F] then avg(Generali_exp) = 756,9009 (std-dev =
1143,5334, with 21139 examples [5,54%])
Col_ANI in [ANI] then avg(Generali_exp) = 1124,3673 (std-dev = 2240,0243,
with 1793 examples [0,47%])
NAF_CODE in [K,L]
Age < 51,5000 then avg(Generali_exp) = 821,6574 (std-dev = 1232,4939, with
4487 examples [1,18%])
Age >= 51,5000 then avg(Generali_exp) = 1075,6256 (std-dev = 1699,3601,
with 5763 examples [1,51%])
DPT_BENEF_TXT in
[50/,24/,15/,31/,83/,67/,44/,89/,59/,26/,21/,51/,86/,22/,45/,30/,37/,29/,84/,49/,35/,17/,88/,65
/,20/,12/,58/,87/,72/,85/,5/,62/,97/,41/,70/,9/,57/,66/,76/,8/,90/,23/,81/,39/,16/,11/,2/,42/,5
6/,47/,18/,25/,19/,3/,52/,53/,73/,46/,71/,63/,61/,79/,4/,55/,36/,48/,98/,68/,32/,10/]
Age < 53,5000 then avg(Generali_exp) = 483,5258 (std-dev = 796,7537, with 23805
examples [6,24%])
Age >= 53,5000 then avg(Generali_exp) = 598,3246 (std-dev = 1239,2937, with 23947
examples [6,27%])
o Age >= 65,5000
DPT_BENEF_TXT in
[82/,24/,15/,31/,38/,13/,33/,77/,1/,34/,83/,67/,44/,59/,26/,91/,21/,51/,86/,22/,45/,30/,37/,29/
,27/,49/,35/,7/,17/,14/,65/,20/,12/,87/,72/,85/,5/,62/,97/,41/,70/,9/,57/,8/,23/,39/,16/,80/,11
/,2/,42/,56/,47/,18/,25/,19/,3/,52/,53/,73/,46/,63/,61/,79/,4/,55/,36/,48/,98/,43/,68/,32/,10/]
then avg(Generali_exp) = 856,2828 (std-dev = 1253,0996, with 9203 examples [2,41%])
DPT_BENEF_TXT in
[50/,92/,75/,78/,69/,94/,28/,60/,89/,54/,95/,74/,84/,40/,88/,58/,6/,66/,76/,90/,81/,64/,93/,71/
]
Age < 84,5000
NAF_CODE in [M,C,K,L,Q,F,R,E]
DPT_BENEF_TXT in [50/,69/,94/,95/,74/,66/,76/,93/] then
avg(Generali_exp) = 1090,6631 (std-dev = 1470,9394, with 1904
examples [0,50%])
DPT_BENEF_TXT in
[92/,75/,78/,28/,60/,89/,54/,84/,40/,88/,58/,6/,90/,81/,64/,71/]
then avg(Generali_exp) = 1480,0100 (std-dev = 2315,5960, with
2718 examples [0,71%])
NAF_CODE in [G,S,N,J,H] then avg(Generali_exp) = 981,2145 (std-dev =
1764,6113, with 2913 examples [0,76%])
Age >= 84,5000 then avg(Generali_exp) = 1938,0709 (std-dev = 3879,7922, with 853
examples [0,22%])