Modélisation de La Consommation Médicale - Arsa Lane

Modlisation de la consommation mdicale en
assurance collective
Mmoire dactuariat prsent pour lobtention du
Master professionnel Sciences de gestion, mention finances de

march Spcialit Actuariat du CNAM
Et ladmission lInstitut des Actuaires
Mmoire soutenu le 29 juin 2016
par Mehdi ARSALANE
Caractre confidentiel : non
Jury :
Prsident : Michel FROMENTEAU
Membres : Florence PICARD
Vincent RUOL
Pierre PETAUTON
Gwenal BILLIOTTE
Quentin AFFAGARD
Claire LASVERGNAS
Modlisation de la consommation mdicale en assurance collective
REMERCIEMENTS
Je souhaite en premier lieu remercier Claire LASVERGNAS, directrice des Etudes
Techniques et du Pilotage Oprationnel du segment Collectives de Generali. Son aide, sa
confiance tout comme la pertinence de ses remarques ont rendu possible la ralisation de ce
mmoire.
Mes remerciements vont aussi Annabelle BONGO, de la Direction des Particuliers de

Generali, pour ses conseils aviss et son expertise sur les Modles Linaires Gnraliss et
leur utilisation en assurance.
Je tiens en outre remercier Laura TORDJMAN pour les changes constructifs et les
travaux mens sur la thorie des valeurs extrmes. Ces derniers ont largement impact la
partie traitant de lcrtement des sinistres graves.
Merci aussi Gilbert SAPORTA et Olivier DECOURT pour leurs rponses sur mes questions
relatives limputation de valeurs manquantes ainsi qu Franois CHAUMEL pour ses
remarques sur la slection de variables explicatives.
Je remercie enfin Tiphaine GEIGLE, Manager du service Pilotage Client et Distribution au

sein de la Direction Etudes Techniques et Pilotage Oprationnel de Generali, pour mavoir
donn les moyens de raliser ce mmoire ainsi que pour son soutien et son enthousiasme.
CNAM 2015/2016 1
SOMMAIRE
REMERCIEMENTS .................................................................................................... 1
SOMMAIRE ................................................................................................................ 2
RESUME .................................................................................................................... 5
ABSTRACT ................................................................................................................ 6
INTRODUCTION ........................................................................................................ 7
PARTIE 1 ELEMENTS DE CONTEXTE.................................................................. 8
A. Systme de sant en France .................................................................................... 8
B. Fonctionnement de lassurance collective ............................................................. 9
C. Evolutions juridiques et lgislatives rcentes .......................................................11
D. Le march de lassurance Sant en France ...........................................................14
E. Enjeux de ltude .....................................................................................................16
PARTIE 2 - DONNEES............................................................................................. 19
A. Base de donnes initiale .........................................................................................19
B. Analyses descriptives univaries ...........................................................................20
C. Imputation des valeurs dge manquantes ............................................................32
1. Mcanismes des donnes manquantes ................................................................32
2. Traitement des donnes manquantes ...................................................................34
3. Mthode dimputation ............................................................................................37
4. Analyse spare et combine ...............................................................................39
5. Rsultats de limputation .......................................................................................40
D. Regroupement des dpartements ..........................................................................41
E. Etude des corrlations ............................................................................................47
F. Slection des variables ...........................................................................................49
PARTIE 3 LOIS DES COUTS ET ECRTEMENT ................................................ 56
A. Lois des cots des sinistres ...................................................................................57
B. Thorie des valeurs extrmes .................................................................................59
1. Elments de thoriques ........................................................................................59
2. Rsultats obtenus .................................................................................................63
PARTIE 4 - Modlisation GLM ............................................................................... 68
A. Thorie des GLM......................................................................................................68
B. Hypothse de modlisation : la loi de Tweedie .....................................................71
C. Rsolution dun modle linaire gnralis...........................................................74
D. Qualit dun modle.................................................................................................77
CNAM 2015/2016 2
1. Adquation du modle ..........................................................................................77

2. Test sur les coefficients des modles....................................................................78
3. Analyse des rsidus et valeurs aberrantes ............................................................78
PARTIE 5 - RESULTATS ......................................................................................... 80
A. Adquation du modle ............................................................................................80
B. Tests de Wald sur les coefficients..........................................................................80
C. Analyse des rsidus ................................................................................................82
D. Analyse des effets discriminants ...........................................................................87
1. Anne ...................................................................................................................87
2. Age .......................................................................................................................87
3. Zone .....................................................................................................................88
4. Option ...................................................................................................................89
5. Collge .................................................................................................................90
6. Secteurs dactivits ...............................................................................................90
7. Niveaux de garanties ............................................................................................91
E. Consquences oprationnelles ..............................................................................92
CONCLUSION ......................................................................................................... 94
TABLES DES FIGURES .......................................................................................... 96
BIBLIOGRAPHIE ..................................................................................................... 98
ANNEXES .............................................................................................................. 100
A. Code sas.................................................................................................................100
1. Dfinitions des bibliothques...............................................................................100
2. Traitement de base .............................................................................................100
3. Bases par poste ..................................................................................................102
4. Imputation multiple ..............................................................................................103
5. Analyses descriptives..........................................................................................105
6. Adquation de lois ..............................................................................................107
7. Ecrtement .........................................................................................................108
8. Corrlations ........................................................................................................110
9. Slection de variables .........................................................................................111
10. Cration Bases de modlisation ..........................................................................111
11. Modlisation et analyse spare .........................................................................111
12. Modlisation par imputation et analyse combine ...............................................113
B. Sorties SAS ............................................................................................................115
1. Imputation multiple ..............................................................................................115
CNAM 2015/2016 3
2. Test dadquation Gamma et Pareto...................................................................116

3. Slection de variables .........................................................................................118
4. Modlisation GLM ...............................................................................................121
5. Rsultats Mianalyze ............................................................................................122
C. Code R ....................................................................................................................122
D. Sorties R : estimateur de Hill, et moyenne des excs .........................................123
1. Poste Honoraires ................................................................................................123
2. Poste Dentaire ....................................................................................................124
3. Poste Hospitalisation...........................................................................................125
4. Poste Optique .....................................................................................................126
5. Poste Pharmacie.................................................................................................127
E. Sortie TANAGRA....................................................................................................128
CNAM 2015/2016 4
RESUME
Les volutions lgislatives rcentes accroissent la concurrence dj importante sur le
segment de lassurance sant collective. Elles imposent aux assureurs de proposer des
tarifs toujours trs comptitifs et de garder trs jour leur vision des facteurs impactant la
consommation mdicale.
Il apparat donc indispensable de modliser rgulirement la charge de sinistre sur les

principaux postes mdicaux : Dentaire, Honoraires, Hospitalisation, Optique et Pharmacie.
Cette modlisation doit tenir compte des informations pertinentes et disponibles dans les
bases de donnes de lorganisme assureur. Les modles linaires gnraliss sient
communment ce type dtude. Cependant, ce travail ncessite la rsolution pralable de
diffrentes problmatiques telles que la gestion des donnes manquantes, des corrlations
entre variables, la segmentation, ou la slection de variables.
Lobjectif du prsent mmoire est de proposer des rponses oprationnelles ces

diffrentes problmatiques et daboutir une modlisation de la consommation mdicale
rgle par un assureur via lutilisation des modles linaires gnraliss. Il est en outre
souhaitable que la mthodologie employe puisse tre adapte dautres branches non-vie.
Ces travaux mettent en vidence les principaux facteurs explicatifs de consommation et

permettent doptimiser la politique tarifaire et commerciale de Generali.
CNAM 2015/2016 5
ABSTRACT
Recent legislative changes increase the already significant competition in the market of
group health insurance. They require insurers to offer very competitive rates and still keep
very up to date their vision of the factors impacting health expenses.
It therefore appears essential to regularly model loss costs for the main medical type of
expenses: Practitioners fees, Dental, Hospital, Vision and Pharmaceuticals. This model must
take account of all relevant and available information in the insurers databases. Generalized
linear models commonly suit this type of study. However, this work requires prior resolution
of various issues such as the handling of missing data, correlations between variables,
segmentation or variable selection.
The purpose of this thesis is to provide operational answers to these issues and get a model
of medical consumption paid back by an insurer through the use of generalized linear
models. The methodology can be adapted to other non-life risks.
This work highlights the main explanatory factors of consumption and helps optimize
Generalis pricing and trade policy.
CNAM 2015/2016 6
INTRODUCTION
Lassurance sant collective a pris normment dimportance ces dernires annes et
demande aux organismes dassurance une grande ractivit. Les organismes assureurs
sont amens jouer un rle encore plus important dans le systme de soins franais. Le
dsengagement progressif de la Scurit Sociale et prsent la gnralisation de la
mutuelle sant pour lensemble des entreprises illustrent bien cette tendance. En outre, le
secteur de lassurance collective et notamment de la sant est extrmement concurrentiel du
fait de la diversit des acteurs professionnels qui le composent : entreprises, courtiers,
socits dassurance, mutuelles, instituts de prvoyance. La premire partie de ce mmoire
dtaille plus spcifiquement le fonctionnement de lassurance collective et du systme de
sant franais. Elle revient aussi sur les dernires lgislations en vigueur ayant impact le
march.
Pour rester comptitif, les diffrents organismes complmentaires se doivent de conserver

des tarifs jour, ce qui ncessite notamment la ralisation dtudes actuarielles. Ces
dernires visent lidentification des principaux effets et de leur impact sur la consommation
mdicale et donc sur les barmes employs par lassureur. Dans le cadre de notre tude,
nous nous intressons la modlisation de la consommation agrge sur les cinq principaux
postes mdicaux : Dentaire, Honoraires, Hospitalisation, Optique, Pharmacie. Toutefois si la
modlisation elle-mme est indispensable, elle reste soumise au traitement pralable des
donnes et certains choix de lactuaire. La deuxime partie de ce mmoire traite de ces
tapes pr-modlisation. On sintresse ainsi, outre aux classiques analyses descriptives,
la prise en compte de valeurs manquantes dans les bases et leur imputation ventuelle. Il
y est aussi question du regroupement des modalits de certaines variables. Cette opration
implique une perte dinformations plus ou moins importante mais parfois ncessaire la
robustesse et la lisibilit du modle. Enfin il est indispensable de choisir judicieusement les
variables explicatives du modle, cest--dire les effets que lon souhaite tester durant la
modlisation afin dviter corrlations et variables inutiles.
Lcrtement des sinistres constitue aussi une tape ncessaire bien que moins cruciale en
sant que dans dautres branches. On cherchera dterminer des seuils indiquant un
niveau de consommation inhabituel susceptible de rendre instable la modlisation future.
La dernire partie de notre tude porte sur lapplication des modles linaires gnralises
pour tudier la consommation mdicale et sur lutilisation oprationnelle des rsultats
obtenus.
CNAM 2015/2016 7
PARTIE 1 ELEMENTS DE CONTEXTE
A. Systme de sant en France

Pour comprendre le fonctionnement de lassurance sant, intressons-nous dans un premier
temps au systme de soins franais. Il est compos de deux parties :
Le rgime de base ou rgime obligatoire ;

Le rgime complmentaire.
Le rgime obligatoire est la fameuse Scurit Sociale qui intervient en premier lieu dans le
remboursement de Frais Mdicaux (on parle alors dAssurance Maladie), ainsi que dans
dautres domaines tels que la retraite, lincapacit, linvalidit ou le dcs.
La Scurit Sociale qui existe depuis 1945 est un ensemble de plusieurs rgimes dont le
plus important est le Rgime Gnral qui couvre lensemble des salaris privs franais.
Toutefois, bien dautres rgimes existent toujours, notamment le Rgime Social des
Indpendants, le Rgime Agricole ainsi quun grand nombre de rgime dits spciaux
comme ceux de la fonction publique, des clercs et employs de notaires, des mines etc.
Le rgime complmentaire correspond aux assureurs privs qui interviennent en

complment du rgime obligatoire qui, dans de nombreux cas, nest pas en mesure de
rembourser la totalit des frais mdicaux engags par les personnes couvertes.
Pour bien saisir le fonctionnement du systme de soins en France, il est ncessaire de

dfinir les diffrentes variables intervenant dans les remboursements :
Frais Rels (FR) : comme son nom lindique, cette variable dsigne le montant global
dpens par un individu pour un acte mdical dtermin. Exemple : montant total
dune consultation chez le mdecin, dune paire de lunette, dune couronne dentaire
etc.
Base de Remboursement de la Scurit Sociale (BRSS) : pour un acte mdical, elle

correspond un montant rfrence, exprim en euros, rembours totalement ou
partiellement par la Scurit Sociale. Le montant effectivement rembours ou
Remboursement Scurit Sociale (RSS) tant dtermin par un taux de
remboursement appliqu sur la BRSS.
Ticket Modrateur (TM) : la diffrence entre RSS et BRSS, i.e. la part du montant
BRSS non rembours par la Scurit Sociale.
Montant rembours par lAssurance : cest le montant rembours par lassureur. Il

dpend des niveaux des garanties souscrites par lassur et peut notamment
comprendre la prise en charge du ticket modrateur.
CNAM 2015/2016 8
Reste Charge (RAC) : comme son nom lindique cest le montant restant rgler
par lassur pour rembourser les Frais rels de ses soins, aprs remboursement de la
Scurit Sociale et de son assurance
RAC
20
Rbt. supp.
Assureur Montant total
30 rembours par
l'assureur : 60
TM
30
150
Rbt SS
70
FRAIS REELS DECOMPOSITION
Figure 1 : Dcomposition des frais de sant
En 2013 le financement des dpenses de sant en France tait structur ainsi1 :
76% sont prises en charge par la Scurit Sociale ;
1,4% correspondent une intervention de lEtat et la CMU-C ;
13,8% des dpenses sont rembourss par les organismes complmentaires ;
8,8% restent la charge des mnages.
B. Fonctionnement de lassurance collective

Avant dentrer dans le dtail des problmatiques tudies, il apparat ncessaire de spcifier
ce que nous entendons par la terminologie assurance collective et quelles en sont les
spcificits.
Lassurance collective regroupe lensemble des assurances de personnes (Prvoyance,

Sant, Retraite) quune entreprise ou plus gnralement une collectivit souscrit pour tout ou
partie de ses collaborateurs, appels adhrents et ventuellement de leurs ayant-droits. Le
contrat qui en dcoule permet ces bnficiaires de se protger contre les diffrents risques
sociaux de la vie comme la maladie, linvalidit, la vieillesse ou le dcs. Ladhsion au
contrat peut tre facultative ou obligatoire.
1
Sources : PLFSS 2015 Annexe 7 Ondam et dpenses de Sant
CNAM 2015/2016 9
Lassurance collective vient complter les prestations de base verses par la Scurit
sociale. Le cas le plus rpandu est celui de la complmentaire sant qui couvre les salaris
du secteur priv ainsi que les employs de la fonction publique territoriale et leur permet de
limiter leurs dpenses de sant.
La premire particularit de lassurance collective est quelle fait intervenir 3 acteurs

principaux, savoir :
Lassureur lui-mme qui propose la couverture du risque ;
Lentreprise ou la collectivit qui est le souscripteur de loffre propose par

lassureur ;
Les salaris ou adhrents, ventuellement leurs ayants-droits qui bnficient de la

couverture.
Entreprise, Salaris, adhrents

Assureur association,
collectivit... ...
Figure 2 : Fonctionnement de lassurance collective
En assurance collective, la relation commerciale stablit avant tout entre lentreprise et

lassureur. Dans ce cadre, lensemble des bnficiaires sont couverts par le mme contrat.
Par ailleurs, le rle du courtier au sein de la relation commerciale sera voqu plus loin.
La plupart des contrats collectifs sont dits adhsion obligatoire dans la mesure o ils
runissent 2 conditions :
Les salaris de lentreprise sont tenus de saffilier au contrat ;
Lassureur sengage accepter lintgralit des salaris.
La mise en place dun rgime de protection sociale d'entreprise procure, de plus, sous
certaines conditions, de nombreux avantages fiscaux et sociaux, aussi bien pour lentreprise
que pour le salari. Les conditions remplir sont les suivantes :
Le rgime a t mis en place par un accord collectif, un rfrendum ou une dcision
unilatrale de lemployeur ;
Il ne doit pas se substituer dautres lments de rmunration ;
Il est collectif et obligatoire. Il bnficie de manire gnrale et impersonnelle lensemble

des membres dune catgorie dfinie ;
Lemployeur participe au paiement des cotisations de faon uniforme pour tous les salaris
concerns ;
CNAM 2015/2016 10
Les prestations sont verses par un organisme complmentaire, c'est--dire une institution
de prvoyance, une mutuelle ou une socit dassurance ;
Les prestations sont complmentaires celles de la Scurit sociale (maladie, incapacit

de travail, invalidit, dcs, retraite) ;
Sur le risque sant, le contrat doit tre responsable (cf. chapitre suivant) pour tre
ligible aux conditions de dductibilit sociale.
C. Evolutions juridiques et lgislatives rcentes

Le secteur de lassurance sant volue, au moins ces dernires annes, dans un contexte
juridique changeant, requrant une certaine ractivit de la part des assureurs. Dans ce
chapitre nous revenons sur les volutions juridiques importantes pour lassurance
sant appliques ces dernires annes :
Loi Evin (loi du 31 dcembre 1989)
Un apport important de cette loi est dempcher, dans le cadre de contrats collectifs, une
slection mdicale individualise qui aurait pour consquence lexclusion dindividus
gravement malades. De mme, lassureur ne peut exclure certaines pathologies de la
couverture. Pour les contrats facultatifs et individuels, lassureur ne peut rsilier la couverture
des frais de soins et la hausse du tarif doit tre indpendante de ltat de sant de lassur.
Dans le cadre dun contrat collectif adhsion obligatoire, la loi Evin oblige en outre,
notamment travers son article 4, lassureur proposer le maintien titre individuel de la
couverture des frais mdicaux pour les salaris quittant lentreprise. Cette disposition est
particulirement importante pour les salaris partant la retraite qui peuvent continuer de
bnficier dune complmentaire sant sans priode de franchise ni questionnaire mdical.
En outre, la hausse de tarifs engendre ne doit pas aboutir une prime suprieure de 50%
des tarifs applicables aux autres salaris de lentreprise.
Douste-Blazy (loi du 13 aot 2004)
Cette loi introduit entre autres la notion de mdecin traitant et rforme le parcours de
soin. Elle dfinit aussi la notion de contrat responsable , qualifiant un contrat qui respecte
certaines conditions relatives aux remboursements ou plutt aux non-remboursements de
certaines dpenses (franchises sur certains mdicaments, euro forfaitaire, pnalits hors
parcours de soin). Lobjectif principal tait de responsabiliser les assurs, limiter les
dpenses de sant en limitant les remboursements des organismes complmentaires. Ce
faisant, elle associe les organismes dassurances complmentaires la matrise des
dpenses de sant. En effet un contrat responsable bnficie dune fiscalit avantageuse :
Dductibilit fiscale sur la taxe de solidarit additionnelle : 13,27% (7% de TSCA

+6.27% de CMU) au lieu de 20,27% (14% de TSCA +6.27% de CMU) ;
CNAM 2015/2016 11
Dductibilit du revenu fiscal imposable des cotisations verses, dans le cadre de

limpt sur le revenu, dans la limite de 7% du PASS + 3% de la rmunration
annuelle brute ;
Bnfice du rgime de crdit dimpt pour les contrats individuels ;
Dductions fiscales dans le cadre de la loi Madelin pour le professionnel

indpendant ;
Exonration des charges sociales patronales et salariales sur les cotisations verses
lies au rgime de prvoyance complmentaire.
Actuellement, la grande majorit des contrats collectifs sant sont responsables .
Catgories Objectives (dcret du 9 janvier 2012)
Le dcret sur les catgories de bnficiaires objectives (CBO) impose dharmoniser les
critres qui permettent une entreprise de mettre en uvre des contrats collectifs de
retraite, prvoyance et de frais de sant, ceci afin de continuer bnficier de lexonration
des cotisations patronales et salariales de Scurit sociale au titre des contributions verses
par les employeurs. La loi introduit cinq critres principaux permettant de dfinir les
catgories de salaris:
Catgories Cadres/Non cadres tels que dfinies dans la CCN de 1947 ;
Tranches de rmunration telles que dfinies par lAGIRC et lARRCO ;
Catgories et classifications dfinies par les conventions de branche ou les accords

professionnels ou interprofessionnels ;
Le niveau de responsabilit, le type de fonction ou le degr dautonomie dans le

travail des salaris correspondant aux sous-catgories fixes par les conventions
ou accords ;
Lappartenance aux catgories dfinies par les usages constants en vigueur dans la
profession.
En assurance sant collective, les critres pouvant tre utiliss sous rserve que tous les
salaris soient couverts sont le collge (Cadre/Non Cadre) et les tranches de rmunration.
Les 3 autres critres sont galement autoriss mais doivent faire lobjet de justification.
Accord National Interprofessionnel (ANI) du 11 janvier 2013
La loi du 14 mai 2013 transpose lANI conclu le 11 janvier de la mme anne. Si ses impacts
sur le Code du Travail sont multiples, lon voquera ici uniquement ses consquences en
matire dassurance sant. La loi vise gnraliser, pour tous les salaris du secteur priv,
la mise en place dune couverture complmentaire sant. Elle instaure ainsi une couverture
CNAM 2015/2016 12
sant minimale obligatoire pour les salaris via un contrat collectif : le Panier de Soins
ANI .
Le dcret du 8 septembre 2014 est venu modifier la notion de contrat responsable dans
la mesure o il impose prsent, sous peine de sanctions financires (Taxe sur les contrats
non responsables de 14%), des bornes de remboursements, notamment en dentaire et en
optique.
Par ailleurs, la suite de la loi Evin, larticle 14 de lANI vient renforcer la portabilit des
droits de couverture. En effet depuis le 1er juin 2014, tous les salaris quittant une entreprise
(prouvant jusqu terme thorique de la garantie, quils bnficient dune prise en charge par
Ple Emploi), lexception des dmissionnaires et des licencis pour faute lourde,
bnficient titre gratuit du maintien de leur couverture sant dans le cadre de la portabilit.
Ce maintien sapplique pendant une dure limite et sous rserve quils nont pas retrouv
un emploi.
Le texte a profondment modifi les dispositions jusquici en vigueur. Dune part, parce quil
gnralise la mutualisation du financement par les salaris actifs avec pour objectif le
maintien de la couverture titre gratuit pour les salaris partants, alors que jusquici ces
derniers devaient la cofinancer. Ensuite, parce quil allonge la dure maximale de maintien
des droits de 3 mois, passant ainsi de 9 12 mois. Des dispositions similaires impactant le
maintien de la couverture prvoyance sont en vigueur depuis le 1er juin 2015.
Enfin, le dernier impact et non le moindre de lANI entre en vigueur le 1er janvier 2016. A
cette date, toute entreprise, quelle que soit sa taille, a lobligation de souscrire une
complmentaire sant dentreprise avec les garanties minimum prvues par la loi (en Sant
le Panier de soins ANI) pour couvrir lensemble de ces salaris. Auparavant, sauf en cas
daccord de branche, les entreprises taient libres de ne pas souscrire de couverture
complmentaire sant adhsion obligatoire pour leurs salaris, de ne la proposer qu
certaines catgories demploys ou de couvrir lensemble des effectifs. La consquence
attendue de cette mesure est un basculement de lassurance sant individuelle vers
lassurance collective.
Modification de la Classification Commune des Actes Mdicaux (18 dcembre 2014)
Le 18 dcembre 2014, la CCAM a t modifi, faisant passer certains actes dentaires en

hospitalisation, ce qui a eu pour consquence, un impact modr sur la consommation
mdicale et par consquent sur les tarifs pratiqus par les assureurs.
La Dclaration Sociale Nominative ou DSN (dcret du 24 septembre 2014)
La DSN a pour but de simplifier les dmarches administratives des entreprises prives. Le
dcret du 14 septembre 2014 la rend obligatoire depuis mai 2015 pour les entreprises les
plus importantes, et janvier 2016 pour lensemble des entreprises. Cette volution va
grandement influencer le march de lassurance collective en permettant aux organismes
dassurance de connaitre mensuellement la situation des salaris couverts pour chaque
entreprise de leur portefeuille. Les assureurs pourront donc bien mieux contrler leur risque
CNAM 2015/2016 13
et piloter la sinistralit de leur portefeuille mais aussi optimiser le processus dappel de

primes.
D. Le march de lassurance Sant en France

Comme indiqu prcdemment, le systme de sant franais sappuie sur un acteur
publique reprsent par lAssurance Maladie, et sur un ensemble dacteurs privs : les
organismes dassurance complmentaire.
En 2013, lassurance de sant complmentaire reprsente en France environ 33 milliards

deuros de chiffres daffaires annuels2.
Socits
d'assurance
9,2
Mutuelles
17,8
Institutions
de
prvoyance
5,8
Figure 3 : Cotisations 20133 collectes au titre de lassurance sant (Mds )
Le march de lassurance complmentaire sant est domin par les mutuelles mme si ce
phnomne tend diminuer ces dernires annes avec la prise de parts de march des
socits dassurance.
Lassurance collective reprsentait en 2013 presque la moiti de lactivit de lassurance

sant complmentaire. Selon les types dorganismes assureurs, la part de lassurance
collective dans leur activit peut grandement varier (cf. Figure 4).
2
Sources : Etudes & Rsultats, Le march de lassurance complmentaire sant : des excdents
dgags en 2013 , juin 2015. Cet article, sappuyant sur des informations issues de la DREES et de
lACPR.
3
Id.
CNAM 2015/2016 14
29%
45% 44%
87%
71%
55% 56%
13%
Socits Institutions de Mutuelles Ensemble des
d'assurance prvoyance organismes
Contrats individuels Contrats collectifs
Figure 4 : Dcomposition4 de l'activit sant des organismes complmentaires
Les changements importants relatifs en particulier lANI devraient bousculer cette

rpartition. Toutefois, le dplacement du march individuel vers le march collectif pourrait
ne pas se produire aussi rapidement que prvu par les acteurs du march. En effet, la forte
complexification des produits et de leur gestion entrane par ces volutions lgislatives rend
encore flous les impacts rels sur le march et le comportement des assurs.
Dans la prsente tude, nous nous intressons aux entreprises de plus de 20 salaris. Le
march des TNS ou celui des TPE ne sont donc pas voqus. Le segment des moyennes et
grandes entreprises comprend certaines spcificits :
Assurance de groupes : le pouvoir de ngociation dune entreprise est dautant plus

important que le nombre dassurs quelle possde lest. Le cas des accords de
branches sont une extension plus importante encore de cette particularit puisque
cest toute une branche dactivit quun assureur comptitif peut tre amen
couvrir, ce qui reprsente des enjeux significatifs ;
Intermdiation importante : de nombreux courtiers sont prsents sur ce march. Ils

peuvent jouer le rle dapporteur daffaires et/ou de gestionnaire pour les assureurs
et de conseil pour lentreprise cliente ;
Expansion faible voire inexistante du march (lANI tant considr comme une
exception) : pour augmenter son chiffre daffaires, un organisme assureur doit
prendre des parts de march ses concurrents car la masse assurable varie peu
dune anne sur lautre ;
Garanties sur mesure : lassureur ne propose pas une gamme de produits une
entreprise. Il rpond plutt un cahier des charges fourni directement par elle ou par
le courtier et doit proposer le meilleur prix possible pour rpondre la demande.
Ces spcificits gnrent une tension importante sur les tarifs proposs par les assureurs,
au point daboutir ces dernires annes des rsultats techniques ngatifs5 pour lensemble
des acteurs.
4
Id.
CNAM 2015/2016 15
2011 2012 2013

00%
-01%
-02%
-03%
-04%
-05%
-06%
Socits Institutions de Mutuelles Ensemble des

d'assurance prvoyance organismes
Figure 5 : Rsultat technique des organismes en assurance sant collective (exprim

en porcentage de chiffre daffaires)
Il faut toutefois nuancer ces chiffres dans la mesure o un nombre non ngligeable daffaires
se ralisent en couplant sant et prvoyance, ce qui peut impacter positivement le rsultat
global obtenu.
E. Enjeux de ltude
En pratique, lorsquune entreprise ou son courtier met un appel doffre en sant, les
diffrents organismes assureurs y rpondent par des propositions tarifaires, moyennant
dventuels amnagements de garanties. Cette proposition peut se faire sur la base de
facteurs multiples :
Masse salariale de lentreprise et dmographie ;
Barmes techniques de lorganisme assureur ;
Disponibilits de statistiques de sinistralit des annes passes chez un prcdent

assureur. Ces informations peuvent tre transmises par lentreprise et permet une
dfinition du tarif sur la base de S/P historiques plutt que sur des donnes
dmographiques ou issues de barmes ;
Possibilit de souscription supplmentaire en prvoyance ;
Lgislation en vigueur.
En gnral, une affaire nouvelle est souvent obtenue en proposant des niveaux de primes ne
permettant pas dassurer lquilibre technique de premire anne. On propose par exemple
des tarifs permettant dassurer un ratio combin 105%. Les points de rentabilit perdus
en premire anne tant regagns les annes suivantes par des politiques de majorations
ou de modifications de garanties moins que lentreprise ne rsilie son contrat !
5
Sources : id.
CNAM 2015/2016 16
Pour permettre une souscription au niveau du march , les rseaux commerciaux ainsi
que les souscripteurs disposent dun budget commercial. Ce budget correspond une
possibilit dabattement du tarif (technique ou commercial), tabli sur une base dite
lquilibre , fourni par les outils de souscription.
La politique dabattement est un lment important dans le processus de souscription

daffaires nouvelles car elle dtermine la marge de ngociation des rseaux commerciaux
pour raliser leurs affaires. Or cette politique est impacte par les tudes de tarification telle
que ce mmoire puisquelles mettent en lumire les modifications tarifaires apporter. Ces
modifications peuvent tre effectues via une modification de la politique de souscription et
des taux dabattement, une politique de majoration, ou une modification directe des barmes
par exemple.
La modlisation de la consommation mdicale, si elle peut tre ralise diffrents niveaux

de granularit (Salari, Bnficiaires, Poste Mdical, Sous Poste, actes), reste un
prrequis la ralisation ou la mise jour dun barme sant. En effet, un ajustement
rgulier sans recalcul complet a lavantage dune mise en uvre rapide mais peut mener
terme certaines difficults telles que :
Une inadquation potentielle de certains effets sur le tarif propos du fait dune
mauvaise prise en compte des corrlations entre les effets ;
Une inadquation ventuelle du prix de certaines garanties (et donc de certains

postes) avec la consommation effectivement observe sur les diffrents postes
mdicaux que sont les Honoraires, lHospitalisation, le Dentaire, lOptique et la
Pharmacie ;
Un abattement commercial et des mesures d ajustement techniques importants

du fait dun tarif technique lev ou inadquat ;
Lobjet de cette tude est un recalcul de la consommation mdicale visant challenger les
barmes sant utiliss par les services de souscription, et ventuellement modifier
certaines variables tarifaires ainsi que la politique dabattement commerciaux. Pour ce faire,
certains choix oprationnels ont t ncessaires, en particulier :
Modlisation de la charge annuelle rgle par lassureur plutt que des frais rels.
Ceci permet de modliser directement une prime pure.
Modlisation la maille bnficiaires et non la maille salaris . Ce point

signifie que chaque bnficiaire, i.e. le salari (ou adhrent), son conjoint et ses
enfants sont pris en compte sparment dans le modle : leurs consommations ne
sont pas agrges. La consquence de ce choix est de privilgier des tarifs la
maille bnficiaire de type Tarif Adulte vs Tarif Enfant plutt qu la maille agrge
Salari + Conjoint + Enfant avec une distinction Isol/Duo/Famille.
Modlisation par poste mdical, non lacte ou au sous-poste. La consommation est

ici agrge par grands poste bien quelle savre dclinable des mailles plus
CNAM 2015/2016 17
granulaires. Lagrgation limite les problmatiques de manque de donnes pour

tarifer certains actes, de cartographie et de classification dactes mdicaux.
Construction dune variable Niveau de garantie par poste partir de donnes

contrats lorsque disponibles et plus gnralement des montants maximum de
prestations rgles. A lheure actuelle, les garanties propres chaque contrat sont
rarement accessibles directement pour des contrats collectifs. Or ces informations
prsentent un double intrt. Elles permettent dune part dtudier limpact du niveau
des garanties sur la consommation et de dceler lexistence ventuelle dun ala
moral impactant li au niveau de couverture. Dautre part elles facilitent
limplmentation des rsultats obtenus dans les barmes des outils de souscription.
Ce dernier point est spcialement important du fait que les contrats en portefeuille
sont sur-mesure. La notion de gamme de produit nexiste donc pas en tant que telle
sur les contrats sant collectifs. En dfinissant des niveaux de garantie par poste, on
cre ainsi des seuils qui aident contourner cette difficult.
Modle de Cot plutt que Frquence-Cout Moyen : on modlise ici directement la

charge annuelle de lassureur plutt que dajuster sparment un modle
reprsentant la frquence des sinistres et un autre la consommation moyenne
lorsque celle-ci est positive (cf Partie 4.).
CNAM 2015/2016 18
PARTIE 2 - DONNEES
La premire tape pour pouvoir modliser la sinistralit consiste constituer une base de
donnes fiable et dterminer les variables de modlisation les plus pertinentes. Cest
lobjet de cette partie.
A. Base de donnes initiale

Les donnes utilises dans le cadre de ce mmoire sont issues dun dlgataire de
prestations grant une part du portefeuille de Generali France. Ce dlgataire a fourni deux
bases de donnes distinctes :
Une base Prestations dtaillant la consommation mdicale observe sur le

portefeuille pour les exercices de survenance 2011 et 2012.
Une base Bnficiaires dtaillant les effectifs couverts sur la priode.
Ces deux bases initiales ont fait lobjet de certains retraitements avant dtre fusionnes en
une base unique comportant les informations suivantes :
Anne de survenance : anne au cours de laquelle des soins sont effectus ;
Numro du bnficiaire : permet didentifier de manire unique une personne

couverte, que celle-ci consomme au cours de lanne ou non ;
Collge : indique la catgorie socio-professionnelle (Cadre, Non Cadre, Ensemble du

Personnel, ANI) du salari. La catgorie Ensemble du Personnel indique que la
notion de Cadre ou de Non Cadres nest pas discriminante pour une entreprise
donne et que la CSP na pas dimpact sur le tarif entre deux salaris au sein de
cette entreprise. La catgorie ANI correspond principalement des salaris retraits
couverts dans le cadre de la loi Evin. Ces anciens salaris Anistes sont donc en
gnral gs de plus de 65 ans ;
Qualit : indique si le salari concern est retrait ( Inactif ) ou sil travaille

( Actif ).
Dpartement Bnficiaire : correspond au dpartement dhabitation du bnficiaire ;
Indicateur Base/Option : boolen permettant dindiquer si le salari est couvert via un

contrat de base obligatoire ou sil dispose de garanties optionnelles
supplmentaires facultatives ;
Taille de lentreprise : indicateur de la taille de lentit couverte en termes de nombre

de salaris totale. Les classes dfinies par cet indicateur sont les suivantes : [20 ;
49], [50 ; 99], [100 ; 299], [300 ; 499], [500 ; 999], [1000 ; 1999], [2000 ; 2999], [3000 ;
3999], [4000 ; 4999], [5000 et +].
CNAM 2015/2016 19
Code et Libell NAF : indiquent le secteur dactivit de lentreprise couverte ;
Structure Familiale : indique si la cellule familiale dun bnficiaire ne comporte que

lui seul ( Isol ), ou bien lui ainsi quun ( Duo ) ou plusieurs ( Famille ) autres
ayant-droits ;
Nombre de bnficiaires : le nombre de bnficiaires de la cellule familiale. Ce

nombre vaut 1 pour un bnficiaire assur seul, 2 pour un couple ou une famille
monoparentale comportant un enfant, 3 ou plus sinon ;
Type de bnficiaire : indique si le bnficiaire est couvert en tant que salari de

lentreprise ( Adhrent ), ou ayant-droit dun salari ( Conjoint ou Enfant )
Sexe du bnficiaire ;
Age du bnficiaire ;
Exposition au risque : nombre entre 0 et 1 indiquant la part de lanne durant laquelle

le salari a t couvert. Un salari assur en milieu danne possde ainsi une
exposition de 0,5 ;
Poste Mdical : indique les cinq principaux postes mdicaux pour lesquels un
bnficiaire est couvert. Ces postes sont les suivants : Honoraires, Hospitalisation,
Optique, Dentaire, Pharmacie. Honoraires , aussi dsign par soins courants ou
soins de ville, correspond notamment au paiement des honoraires de mdecins
gnralistes et spcialistes ;
Niveau de garantie : Indique le niveau de couverture du contrat pour une poste

donne sur une chelle de 1 5. Le niveau 1 correspond au niveau dun panier de
soins ANI. Ces niveaux ont t dfinis poste par poste et contrat par contrat en
fonction des garanties lorsque celles-ci taient accessibles directement. Dans le cas
contraire, les niveaux ont t dtermins partir des consommations mdicales
maximales rembourses par Generali en 2011 et 2012 sur les sous-postes les plus
reprsentatifs.
Montant rgl : correspond au montant de prestation annuel rembours par Generali

pour chaque bnficiaire tudi. Ce montant est dtaill poste par poste.
B. Analyses descriptives univaries

En premier lieu, il convient de raliser une analyse descriptive des donnes employes. On
observe donc la consommation de notre chantillon variable par variable. En croisant ces
informations avec la donne anne de survenance on peut vrifier la stabilit dans le
temps des donnes observes. Cela nous informe implicitement sur la fiabilit de
lchantillon observ dans la mesure o lon ne constate pas de modification majeure ni de la
CNAM 2015/2016 20
composition de lchantillon ni de la consommation moyenne par adhrent entre les deux

exercices.
La base de donnes tudie correspond la consommation mdicale observe sur les deux
annes dexercice 2011 et 2012 et sur 3 annes de dveloppement de 2011 2013. En
assurance sant, deux annes de dveloppement suffisent gnralement observer la
totalit de la charge rattache une anne de survenance donne : on parle de risque
court ou de
branche courte .
457
416
206 310
187 936
2011 2012
Nb Beneficiaires Consommation Moyenne
Figure 6 : Consommation par anne
Lobservation de la base nous indique une diminution du nombre de bnficiaires,

paralllement une augmentation de la consommation moyenne. Ceci peut tre vu comme
la consquence dune politique de majoration importante sur les contrats du dlgataire
concern, ayant entran la rsiliation de certains de ces contrats. Cela peut aussi tre reli
une moins bonne performance de ce dlgataire en tant quapporteurs daffaires nouvelles
pour Generali en 2012.
Pharmacie
14% Dentaire
22%
Optique
26%
Honoraires
24%
Hospitalisation
14%
Figure 7 : Consommation par grands postes
CNAM 2015/2016 21
Les dpenses de sant varient assez peu entre 2011 et 2012, cest pourquoi on reprsente
ci-dessus une rpartition toutes annes de survenance confondues. Les postes Honoraires,
Optique et Dentaire occupent chacune prs dun quart de la consommation.
583 546
552
499
257
226
81 518 78 567 78 404

68 140
46 388 41 229
Salari Conjoint Enfant
Benef 2011 Benef 2012 Cons. Moy 2011 Cons. Moy 2012
Figure 8 : Consommation par type de bnficiaires
Sans surprise on observe bien les diffrences de consommations entre Salari, Conjoint et
Enfant. Intuitivement, on peut penser que la diffrence Adulte-Enfant sexplique, au moins
partiellement, par la corrlation avec lge. La diffrence Salari-Conjoint peut, elle, tre due
aux cas de double couverture des conjoints qui, dans le cadre de leur travail, sont couverts
par leur propre mutuelle. De ce fait, ils ne rclament pas systmatiquement de
remboursement Generali. Ce phnomne est toutefois assez difficile quantifier et va, de
fait, disparatre du fait de lANI qui partir de 2016 autorisera les salaris doublement
couverts rsilier une de leur deux assurances sant. En outre le graphique prcdent
illustre bien la diminution du nombre de bnficiaires entre 2011 et 2012 et notamment la
rsiliation de contrats collectifs comptant de nombreuses familles.
CNAM 2015/2016 22
599
527
474
552
523 370
453
343
138 814 129 514
7 960 6 555 10 637 14 937 38 080 34 437
ANI CADRE EP NON CADRE
Figure 9 : Consommation par collge
Notre portefeuille comporte de nombreux contrats sans distinction de collge entre cadre et
non cadre. Les diffrences de consommation semblent assez claires :
Les Anistes sont peu mais consomment beaucoup du fait dun ge moyen lev ;
Les cadres consomment plus que les non cadres car ils sont gnralement mieux
couverts ;
La maille Ensemble du Personnel est prdominante et comprend des cadres et des

non cadres de manire indiffrencie.
CNAM 2015/2016 23
507
406
460
372
103 164 93 157 103 146 94 779
M F
Figure 10 : Consommation par sexe
Le graphique ci-dessus illustre les carts de consommation entre hommes et femmes. Si

cet cart peut paratre assez important (proche de 25%), il peut savrer trs diffrent
ds lors que lon tient compte dautre variables comme le collge ou lge. En outre, les
hommes et les femmes ne consomment pas de manire homogne tout au long de leur
de leur vie. Leffet sexe sur la consommation mdicale nest donc pas constant dans
le temps, les femmes ne consomment pas en permanence tout au long de leur vie, X%
de plus que les hommes en soins mdicaux.
On restera donc attentif par la suite tester leffet dune variable fusionne age*sexe
sur la consommation mdicale. On pourra notamment comparer sa significativit celles
des deux variables spares. Ainsi, lors de la modlisation proprement dite, la variable
pourrait tre fusionne avec la variable ge. Ce point est tudi lors de la slection des
variables.
Concernant la variable Age, on analyse sparment les enfants des adultes (Salaris et
Conjoints). Intuitivement, on pourrait penser que cela revient partitionner nos donnes
en fonction de lge. Cela nest pas totalement exact dans la mesure o certains
adultes peuvent tre gs de moins de 20 ans, certains enfants avoir plus de 25
ans.
Pour les adultes, on observe que le cur du portefeuille a entre 40 et 50 ans, ce qui
est plutt g avec 45 ans dge moyen. Ceci peut tre ventuellement rapproch avec
la taille des entreprises concernes : tant essentiellement de grandes structures, lge
moyen au sein de ces entreprises est peut-tre plus lev que dans de petites socits.
CNAM 2015/2016 24
Nb Benef Consommation
10000 1 500
8000
1 000
6000
500
4000
0
2000
0 - 500
16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70 73 76 79 82 85
ge
Figure 11 : Consommation par ge (Adulte)
Concernant lvolution des dpenses de sant, on observe 3 phases :
16 - 28 ans : hausse constante prononce ;
29 - 44 ans : hausse constante faible ;
44 - 85 ans : hausse peu prs constante de pente intermdiaire.
Au-del de 85 ans les consommations moyennes deviennent plus erratiques du fait de la

diminution du nombre dassurs concerns et de la variabilit des dpenses de sant qui
peuvent exploser pour certains bnficiaires. Remarquons que les bnficiaires de plus
de 65 ans ne constituent pas une population cruciale pour notre tude dans la mesure o les
entreprises souscrivant une assurance sant comptent rarement dans leurs effectifs des
salaris ayant dpass lge de la retraite. Leur conservation ou non pour la modlisation
pourra se poser si la performance du modle varie beaucoup dans lun ou lautre cas.
Pour les Enfants, la composition du portefeuille est assez homogne entre 0 et 20 ans et
dcrot rapidement ensuite. On observe bien limportance des dpenses de sant pour les
enfants en bas ge (0-1 ans), une augmentation faible mais progressive entre 2 et 11 ans et
un pic ladolescence d notamment aux dpenses dorthodontie. Une stabilisation est
ensuite observe entre 18 et 26 ans. Au-del, les donnes sont trs peu nombreuses et
lvolution de la consommation devient erratique.
CNAM 2015/2016 25
8000
7000
6000 500
5000
4000
3000 0
2000
1000
0 - 500
0 3 6 9 12 15 18 21 24 27 30
ge
Figure 12 : Consommation par ge (Enfant)
Dans notre base, un indicateur Base/Option est disponible. En effet, certains

contrats collectifs peuvent proposer leurs salaris diffrents niveaux des garanties :
Garanties de base : chaque salari de lentreprise (ventuellement ses ayants-

droits) est obligatoirement couvert par des garanties base en tant
quadhrent de son contrat dentreprise ;
Garanties Optionnelles : le contrat collectif peut prvoir pour les salaris de

lentreprise une extension des garanties de base. Cette extension est alors
souscrite uniquement par les salaris qui le souhaitent. Ces garanties sont donc
de fait sujettes un effet danti-slection. En effet, ladhsion ces garanties est
facultative ; les salaris (et/ou leurs ayants droits) qui les souscrivent ont
gnralement une consommation mdicale suprieures aux autres. A noter
quun contrat sant dentreprise peut parfois proposer plus dune option, i.e.
plusieurs niveaux de garanties optionnelles.
CNAM 2015/2016 26
455 491
415 428
193 586
176 300
12 724 11 636
Contrat Base (Adh. Obl.) Contrat Optionnel (Adh. Facult.)

Benef 2011 Benef 2012
Cons. Moy 2011 Cons. Moy 2012
Figure 13 : Consommation par type de contrat
En comparant la consommation annuelle moyenne des salaris ayant souscrit une option
avec celles des autres salaris, on observe clairement le surcot engendr par une option.
Ce surcot sexplique par une consommation plus importante en frquence ou en svrit,
donc par des frais rels plus levs, et par un niveau de couverture plus important des
salaris souscrivant des garanties optionnelles.
Consommation
700
600
500
400
51 135 300
200
35 252 100
28 569
21 930 23 496 0
20 651
- 100
10 749
7 306 6 312 - 200
18 196 0 696
- 300
Figure 14 : Consommation par secteur dactivit
La dcomposition du portefeuille par secteur dactivit nous apprend tout dabord que la
rpartition des bnficiaires de notre base au sein des principales branches nest pas
CNAM 2015/2016 27
homogne : certains secteurs comme lindustrie manufacturire, le commerce ou les

services sont prpondrants. Dautres sont quasi inexistants tels que la Gestion de lEau et
des Dchets, la Sant et lAction Sociale, la Construction ou les Arts et Spectacles.
On observe aussi que, la consommation moyenne annuelle par bnficiaire peut varier
significativement dun secteur un autre. Cependant ces variations peuvent tre lies des
corrlations avec dautres variables. Limpact rel sera quantifi au cours de la modlisation.
Lanalyse univarie par taille dentreprises fournit assez peu dinformations. En effet, on
observe une relative stabilit des consommations moyennes quel que soit le nombre de
salaris et une prpondrance des entreprises de plus de 1000 salaris. Il est possible que
cette variable apparaisse inutile pour la modlisation.
90000 1 000
80000
70000
60000 500
50000
40000
30000 0
20000
10000
0 - 500
Taille d'entreprise (Nombre de salaris)
Figure 15 : Consommation par taille dentreprise
CNAM 2015/2016 28
30000
25000 500
20000
15000
10000
5000
0 - 500
1 6 11 16 21 26 31 36 41 46 51 56 61 66 71 76 81 86 91 97
Numro du dpartement
Figure 16 : Consommation par dpartement du bnficiaire
Un paramtre a priori important en modlisation et en tarification sant est la zone

gographique. En effet les cots des soins mdicaux sont variables dun dpartement
lautre pour des raisons telles que :
la population en elle-mme et notamment son ge ;
loffre mdicale : par exemple le nombre de mdecins au pour 100 000 habitants ou
la part de mdecins en secteur 2 ;
le cot de limmobilier qui peut induire des tarifs plus levs.
Un ensemble de facteurs forment donc leffet zone gographique sur la consommation

sant. Dans notre base de donnes, la zone gographique est connue via deux
informations que sont le dpartement dhabitation des bnficiaires et le dpartement de
lentreprise. Le graphique ci-dessus met en exergue les diffrences de consommations
existant entre dpartements dhabitation des bnficiaires. Il indique aussi que notre
portefeuille est fortement localis en Ile-de-France et dans quelques dpartements tels que
les Bouches-du-Rhne (13), la Haute-Garonne (31), le Nord (59) et le Rhne (69), i.e. autour
de grandes mtropoles (Paris, Marseille, Lille, Toulouse).
CNAM 2015/2016 29
Cette variable possdant de nombreuses modalits, il semble judicieux, tant pour la

modlisation, que pour la lisibilit et donc linterprtation des rsultats obtenus, de regrouper
certains dpartements. Ce point est trait par la suite dans un chapitre ddi.
90000 1 000
80000
70000
60000 500
50000
40000
30000 0
20000
10000
0 - 500
6 21 31 38 50 58 64 76 81 91 98
Numro du dpartement
Figure 17 : Consommation par dpartement de lentreprise
La dcomposition du portefeuille en fonction du dpartement de lentreprise corrobore

lanalyse prcdente avec une trs forte proportion du nombre de bnficiaires dont le sige
social est localis Paris (75), dans les Hauts-de-Seine (92), et dans le Val dOise (95).
Toutefois cette donne savre imparfaite pour plusieurs raisons :
Une entreprise implante dans plusieurs dpartements sera rattache au

dpartement de son sige social, ce qui entrane lhypertrophie des 3 dpartements
cites. En outre cette rpartition ne reflte pas la consommation des bnficiaires.
De manire gnrale, les bnficiaires ne se soignent pas ncessairement dans le

dpartement o ils travaillent. En effet, si lon considre Paris, de nombreuses
personnes se rendent Paris tous les jours mais la plupart ny rsident pas et donc
ne sy soignent quexceptionnellement.
La donne Dpartement de lentreprise nous informe donc de manire moins prcise que
le Dpartement des bnficiaires . Ces deux variables nen demeurent pas moins
corrle lune avec lautre, ce qui amne penser que le Dpartement de lEntreprise sera
cart en tant que variable explicative pour la modlisation.
CNAM 2015/2016 30
772
677
407
371
175 708
162 231
30 602 25 705
ACTIF INACTIF
Figure 18 : Consommation par qualit du bnficiaire
Enfin la dernire information disponible dans nos donnes est la qualit dActif ou dInactif du
salari couvert indiquant si le salari travaille ou non. On observe un surcot important pour
les inactifs qui restent malgr tout minoritaires au sein du portefeuille. Comme nous le
verrons par la suite, cette variable est trs corrle lge et au collge puisque la plupart
des Inactifs ont plus de 60 ans. Il est donc presque certain que cette variable sera
carte par la suite car elle ne prsente pas de rel intrt.
CNAM 2015/2016 31
C. Imputation des valeurs dge manquantes
1. Mcanismes des donnes manquantes
La base dcrite prcdemment contient des valeurs vides ou aberrantes : pour certains
bnficiaires, lge ou le collge est manquant ou mal renseign. Labsence du collge ne
pose pas une relle difficult car dans la plupart des cas cette donne peut tre dduite des
caractristiques des autres bnficiaires du contrat. Ce nest en revanche pas le cas pour
lge de certains bnficiaires telles que des enfants, ou lorsque lge dun Salari ainsi que
de son conjoint est inconnu. Fort heureusement, ces lignes valeurs manquantes
reprsentent une part faible (environ 7%) de notre base de donnes. Pour autant, on ne
souhaite pas les carter de notre tude afin de conserver les autres informations bien
renseignes telles que le montant de prestations rgles, la zone gographique ou la
structure familiale.
Pour bien saisir les avantages et inconvnients de chacune des mthodes permettant de
grer les valeurs manquantes, il est ncessaire dexpliquer les concepts de matrice de
donnes, de schma / structure et de mcanisme de donnes manquantes.
Le terme matrice de donnes dsigne la matrice forme par les donnes recueillies
comprenant en ligne lensemble des donnes recueillies pour un individu et en colonne
lensemble des valeurs pour un paramtre donn. Cette modlisation matricielle permet de
manipuler plus facilement les valeurs et constitue le point de dpart pour le traitement des
donnes manquantes.
Un schma ou une structure de donnes manquantes dsigne une squence de valeurs

observes et manquantes dans une matrice de donnes. Il correspond une reprsentation
graphique des donnes manquantes. On distingue 3 types de structure : univarie,
monotone et arbitraire (non monotone).
La structure des donnes manquantes est dite univarie lorsquune seule variable contient
des donnes manquantes. Cest le cas dans notre base bien que cette situation soit
observe relativement rarement.
La structure des donnes manquantes est dite monotone lorsque les variables incompltes
peuvent tre ordonnes en fonction de la proportion de donnes manquantes quelles
contiennent. Ainsi, on peut dire que les variables Y1 ...Yk sont ordonnes selon une structure
monotone si, pour j = 1,..., k 1, tous les cas contenant des donnes manquantes pour Yj
prsentent galement des donnes manquantes pour Yj+1 Yk (cf. Figure 19). Une structure
de type monotone est observe par exemple sur des donnes dtude longitudinale
lorsquun vnement cause la sortie dtude dun sujet. On parle alors de phnomne
dattrition. Lorsquune personne ne se prsente pas une visite ou quun examen mdical ne
peut tre effectu, on parle alors de structure monotone intermittente.
La structure des donnes manquantes est dite arbitraire lorsque les variables incompltes ne
peuvent pas tre ordonnes selon leur proportion de donnes manquantes. Les donnes
manquantes suivent alors une structure non-monotone puisquelles sont rparties
CNAM 2015/2016 32
uniformment dans lensemble de la base de donnes. Une structure de type arbitraire est
souvent observe en pidmiologie pour les donnes de type transversal ainsi que pour les
donnes produites par les systmes de surveillance.
Figure 196 : Schmas de donnes manquantes
Quant au mcanisme, il renvoie la relation entre les valeurs contenues dans la matrice de
donnes et le fait quune donne soit observe ou non. 3 types de mcanismes peuvent
caractriser labsence de donnes :
Donnes manquantes compltement alatoire, dites aussi Missing completely at

random (MCAR). Les donnes manquantes sont MCAR lorsque la probabilit de non
rponse pour une variable ne dpend pas de celle-ci, mais uniquement de
paramtres extrieurs, indpendants de cette variable. Cela veut dire quil nest pas
possible de dfinir un profil des individus ayant des donnes manquantes et que la
probabilit des donnes manquantes est uniforme. De manire gnrale, ce type de
donnes manquantes est trs rare. Il est pourtant envisageable pour nos donnes :
on peut en effet conjecturer que les vides proviennent dune mauvaise saisie et
sont donc totalement indpendantes des variables elles-mmes..
Donnes manquantes alatoires ou Missing at random (MAR). Les donnes

manquantes sont dites MAR lorsque la probabilit de non-rponse dpend des
donnes observes mais pas des donnes manquantes. Par exemple sil existe une
diffrence de non-rponse entre les hommes et les femmes concernant la question
du revenu, mais que parmi les hommes entre eux ou parmi les femmes entre-elles, la
probabilit davoir des non-rponses est identique quel que soit le niveau du revenu.
Pour des donnes MAR, les mthodes de traitements bases sur la vraisemblance
sont valables alors que dautres comme lestimation de moments et autres
statistiques simples sont biaises.
Donnes manquantes non alatoires ou Missing not at random (MNAR). Les

donnes manquantes sont de type MNAR lorsque la probabilit de non-rponse est
6
Cette illustration est extraite de la thse intitule : Traitement des donnes manquantes en
pidmiologie : application de limputation multiple des donnes de surveillance et denqutes ,
Vanina Hraud Bousquet, 3 juillet 2012. Lauteur de ce mmoire ne saurait en prtendre la ralisation.
CNAM 2015/2016 33
lie aux valeurs prises par la variable ayant des donnes manquantes. Cest le cas
par exemple lorsque les personnes ayant un revenu trs lev refusent beaucoup
plus souvent de rpondre la question du revenu que les autres personnes.
A lheure actuelle, il nexiste pas notre connaissance de test permettant de dterminer si

les donnes manquantes sont de type MAR. Roderick Little a mis au point un test permettant
de didentifier des donnes MCAR7. Nombres dtudes en font lhypothse dans la mesure
o certaines mthodes restent robustes mme lorsque cette hypothse est viole, dautant
plus lorsque le nombre de valeurs manquantes est faible en proportion. Dans le cadre de
notre tude, nous supposons que les donnes manquantes sont a minima MAR. En effet,
comme dit prcdemment, les donnes sont manifestement manquantes du fait derreurs de
saisie ou de mauvaises rcuprations de donnes contrats.
2. Traitement des donnes manquantes
Plusieurs solutions peuvent tre envisages pour traiter des donnes manquantes :
Analyse de cas complets : cette mthode danalyse trs rpandue consiste

restreindre lanalyse aux cas pour lesquels lensemble des variables est entirement
renseign, cest--dire dcarter tous ceux pour lesquels une des donnes est
manquante.
Analyse de tous les cas disponibles : cette mthode consiste tenir compte de toutes
les informations disponibles pour chacune des variables et ncarter que les valeurs
manquantes pour une variable donne.
Imputation simple : consiste remplacer chaque donne manquante par une unique
estimation de sa valeur et analyser la base de donnes ainsi complte. La
procdure de remplacement peut tre stochastique ou dterministe, selon quelle
implique ou non le tirage dun nombre alatoire. Parmi les mthodes les plus
rpandus on compte limputation par la moyenne, par maximum de vraisemblance,
par rgression, hot-deck (imputation dune valeur choisi au hasard dans la base selon
des rgles dtermines).
Imputation multiple : consiste remplacer chaque valeur manquante par plusieurs

valeurs de manire prserver la variabilit des donnes imputes.
Puisque lon suppose nos donnes manquantes MAR, il nous est possible dappliquer
nimporte laquelle des mthodes voques prcdemment.
Bien videmment, lintrt de lanalyse de cas complets est que cette mthode est
relativement simple mettre en uvre et peut savrer assez efficace (non biaise) dans
diffrentes situations, notamment dans le cas de donnes manquantes de type MCAR ou
MAR ne dpendant pas de la variable expliquer, voire mme dans certaines situations o
7
A Test of Missing Completely at Random for Multivariate Data with Missing Values, Roderick J. A.
Little, Journal of the American Statistical Association, 1988
CNAM 2015/2016 34
les donnes manquantes sont de type MNAR. En pratique, une analyse cas complet peut
savrer utile si la proportion de cas incomplets est faible, de lordre de 5% par exemple,
limitant la perte de puissance et de prcision.
Toutefois, lanalyse de cas complets possde certains inconvnients. En effet, puisquelle

slectionne un sous-chantillon de la base de donnes initiale qui nest gnralement pas
alatoire, elle peut induire des biais dans les estimations et rduire significativement
lchantillon analys en fonction du mcanisme de donnes manquantes en cause. Dans
notre cas certaines de nos valeurs manquantes sont de collge ANI , les supprimer peut
donc impacter les rsultats que nous obtiendrons par la suite pour ce collge. Par ailleurs,
dans le cas dune analyse multivarie, elle peut galement fausser le processus de slection
des variables puisque celui-ci se fera au profit des variables les mieux renseignes.
Lanalyse de tous les cas disponibles savre meilleure que celle des cas complets en
maximisant le nombre de donnes analyses pour chaque variable mais a justement
linconvnient dimpliquer des analyses par variables portant sur un nombre dindividus non
constant. En outre tous les logiciels ne permettent pas toujours lanalyse de cas complets et
cartent directement tous les cas incomplets.
Ainsi, les analyses des cas complets ou disponibles ne sont pas les dmarches adoptes
dans cette tude. Afin de conserver un unique chantillon de donnes et pour une meilleure
adaptabilit de la mthodologie employe, il est prfr limputation de valeurs aux donnes
manquantes.
Le choix de la mthode dimputation dpend de facteurs diverses :
Limportance du nombre de donnes manquantes ;
La simplicit dimplmentation de la mthode ;
La structure (monotone univarie dans notre cas) et le mcanisme suppos (MAR)

des donnes manquantes ;
La prcision et lefficacit dsire de la mthode dimputation ;
La prise en compte dune certaine variabilit pour les donnes imputes, afin de ne
pas trop minimiser la variance aprs imputation ;
La possibilit pour la mthode dimputer des valeurs dune variable quantitative

(lge) en tenant compte de linformation fournie par des variables qualitatives et
quantitatives.
Limputation multiple est lheure actuelle considre comme la mthode la plus efficace
pour traiter les donnes manquantes. En effet, lestimation de plusieurs valeurs pour chaque
donne vide permet de prendre en compte la variabilit autour de chaque donne impute et
dobtenir une variance plus juste correcte pour les estimations. Dans le cadre de cette tude,
nous y avons recours pour limiter le biais sur les rsultats obtenus au cours de notre
rgression du fait de limputation de donnes.
CNAM 2015/2016 35
Limputation multiple est base sur lhypothse que les donnes sont MAR, c'est--dire que
le mcanisme de donnes manquantes ne dpend pas de donnes non-observes des
variables. Le processus dimputation se dcompose en trois phases :
1. Imputation : les donnes manquantes sont estimes M fois partir dun modle
spcifique pour obtenir M bases de donnes compltes et potentiellement diffrentes.
M peut tre dfini arbitrairement mais devrait tre choisi en fonction de la part de
donnes manquantes. Dans cette tude, 5 imputations seront ralises. 20 est
couramment considr comme le nombre maximal dimputations raliser, le gain de
performance devenant minime au-del.
2. Analyse spare : elle consiste raliser une analyse statistique standard

sparment sur chacune des m = 1,...,M bases de donnes imputes pour obtenir M
estimations (valeur centrale et variance). Dans notre cas, nous ralisons une
rgression par modle linaires gnralises.
3. Analyse combine : les rsultats obtenus partir des M analyses sont combins
selon des rgles tablies par Rubin pour obtenir une seule estimation finale.
Figure 208 : Processus d'imputation multiple
Lintrt majeur de limputation multiple dans notre tude est dobtenir des coefficients de
rgression moyens calcul sur 5 bases contenant des donnes imputes plutt que sur
une seule, ce qui amliore leur robustesse.
8
Cette illustration est extraite de la thse Traitement des donnes manquantes en pidmiologie :
application de limputation multiple des donnes de surveillance et denqutes , Vanina Hraud
Bousquet, 3 juillet 2012. Lauteur de ce mmoire ne saurait en prtendre la ralisation.
CNAM 2015/2016 36
3. Mthode dimputation
Le choix de la mthode dimputation se porte sur le score de propension. Un score de

propension dsigne, pour une donne, la probabilit que cette variable soit expose un
traitement, conditionnellement un vecteur de variables observs. Dans le cas des donnes
manquantes, le traitement en question est le fait que la donne soit manquante ou non.
Pour chaque variable possdant des valeurs manquantes et pour chaque observation, un
score de propension est donc gnr pour estimer la probabilit que l'observation soit
manquante. Les observations sont ensuite regroupes en fonction de ces scores de
propension et une imputation par Approximate Bayesian Bootstrap (ABB) est applique au
groupe.
Cette mthode non-paramtrique est adapte au traitement des donnes manquantes de

structure monotone. Pour chaque variable Yj possdant dans des donnes manquantes le
processus effectu sous SAS est le suivant :
1. Cration dune variable indicatrice Rj valant 0 si une observation est manquante et 1

sinon ;
2. Ajustement dun modle de rgression logistique :
log it ( p j ) = 0 + 1Y1 + ... + j 1Y j 1

o p j = P ( R j = 0 | Y1 , Y2 ,..., Y j 1 ) et log it ( p ) = log( p / (1 p ))
3. Cration dun score de propension pour chaque observation afin destimer la

probabilit que lobservation soit manquante ;
4. Division des observations en un nombre arbitrairement fix de groupes, appels

cellules dajustement ou dimputations, en fonction de leur score de propension. En
rgle gnrale le nombre de groupes par dfaut est de 5 mais nous dcidons den
choisir un nombre plus important : 10. A lissue de cette tape, on dispose dun
ensemble de classes homognes dans lesquelles les donnes manquantes sont en
principe MCAR, ce qui permet le passage ltape suivante ;
5. Application dun algorithme dimputation par Approximate Bayesian Bootstrap (ABB)

pour chaque groupe. Cette mthode est intressante car elle permet dincorporer la
variabilit adquate parmi les groupes dimputations raliss prcdemment. De plus
cest une mthode simple mettre en uvre et peu coteuse en temps-machine.
Elle suppose que la base concerne soit partitionnes en classes homognes. Ces
classes correspondent aux groupes obtenus par score de propension en tape 4.
Lalgorithme ABB fonctionne de la manire suivante :
a. Pour le i-me groupe, si lon considre que Yobs dsigne lensemble des n
valeurs observes pour la variable Yj et Ymis les n valeurs manquantes,
lalgorithme effectue n tirages alatoires avec remises dans Yobs afin de crer
un nouveau jeu de donnes Y* obs.
CNAM 2015/2016 37
b. Il ralise alors n nouveaux tirages alatoires avec remise dans Y* obs pour
raliser limputation des valeurs manquantes de Yj.
Ces 5 tapes sont itrs pour chacune des variables Yi possdant des valeurs manquantes.
Dans notre cadre, elle ne sapplique donc que sur lge.
Si cette mthode peut paratre inhabituelle au premier abord, elle a le mrite de pouvoir tenir
compte de toutes nos variables, y compris les variables qualitatives comme Numro de
contrat. On peut en effet admettre que cette variable peut avoir un intrt dans la mesure o
lge moyen des salaris peut grandement varier dun contrat un autre. Linformation
Numro de Contrat fournit donc ds lors des informations sur les ges manquants car il
possde une corrlation importante avec cette donne. En outre cette mthode ne nous
oblige pas, comme la rgression, supposer lexistence dune distribution normale
multivarie des valeurs. Enfin elle permet aussi de nimputer que des valeurs plausibles car
directement choisies dans celles observs.
En revanche on remarque que la mthode du score de propension ne tient pas compte des
corrlations entre les diffrentes variables. Elle est donc efficace pour des infrences sur les
distributions des variables imputes individuelles telles que les analyses univaries9. Il faut
donc lutiliser avec prcaution afin dviter quelle ne diminue trop les corrlations entre
variables ce qui pourraient mener une analyse de rgression biaise par la suite. Dans
notre cas, la faible part de donnes manquantes limite cet effet.
Dans le cadre de notre tude on procde une partition de notre base initiale entre les
Enfants et les Adultes (Salaris et Conjoints). Ceci afin dviter les ventuels cas
dimputation aberrantes telles quun enfant g de 52 ans ou un Adulte de 4 ans.
On notera quune rgression aurait t possible car lhypothse de distribution normale ne

semblait pas inapproprie (Cf. qq-plot ci-dessous). Un hotdeck stratifi , consistant
slectionner alatoirement une valeur parmi les observes en tenant compte de certaines
variables, aurait aussi pu savrer valable dans le cadre de notre tude. Le score de
propension peut tre vu comme une variation du hotdeck stratifi pour laquelle la variable
de stratification correspond aux classes du score. Or ce score a t ralis en tenant compte
de lensemble des variables do son intrt.
9
Allison (2000)
CNAM 2015/2016 38
Figure 21 : QQ-Plot de la distribution de la variable ge avec une loi Normale
De mme, une imputation par rgression aurait pu tre utilise bien que, comme le score de
propension, elle puisse biaiser les corrlations entre variables, mais la hausse.
4. Analyse spare et combine
Comme dit prcdemment, les analyses spares sont dtailles dans la suite du mmoire
et ne sont donc pas approfondies ici. Nanmoins explicitons-en le principe. Comme dit
prcdemment, la phase danalyse spare consiste raliser une analyse statistique
standard pour chacune des m = 1,...,M bases de donnes imputes. Ce faisant on obtient M
estimations du paramtre recherch et de sa variance. Nous aurons pour notre part
recours aux modles lineaires gnraliss et notre paramtre sera lensemble des
coefficients estims des variables explicatives dont lge fait partie. En labsence danalyse
effectuer, la phase danalyse spare et la combinaison de rsultats nont aucun intrt.
Les rsultats des analyses individuelles fournis par les M jeux de donnes complts doivent
ensuite tre combins. Ce processus est effectu en respectant un ensemble de rgles
fixes par Rubin10, que nous dtaillons ici.
^ ^
Si est le paramtre rel estimer et U sa variance, on note m et U m leurs estimations
issues des bases m=1,,M.
^* ^
Lestimateur combin est la moyenne des m des M imputations :
^* 1 M ^
=
M
m
m =1
^ *
Lestimateur de la variance combine U est compose de deux parties : la variance intra-
base (ou intra-imputation), note U , et la variance inter-base ou inter-imputation B .
^
U correspond la moyenne des M variances U m :
10
Multiple Imputation for Nonresponse in Surveys, Rubin, D.B. (1987)
CNAM 2015/2016 39
M
1 ^
U=
M
U m
m =1
^ ^*
B permet de tenir compte de la variance des m par rapport lestimateur combin m . B
^
correspond la variance des moyennes a posteriori des m :
1 M ^ ^*
B=
M 1 m=1
( m )2
La variance combine est la somme pondre de U et B :
^ * 1
U = U + (1 + )B
M
Enfin les intervalles de confiance sont calculs sur la base dune approximation de Student :
^*
( ) / * ~ t v o v est le nombre de degrs de libert gal :
2
U
v = ( M 1) 1 +
(1 + 1/ M ) B
Cest grce cette mthode de combinaison de rsultats que nous obtenons les coefficients
de rgression finaux de notre tude.
5. Rsultats de limputation
En utilisant la mthode du score de propension pour imputer les ges manquants nous
obtenons les rsultats suivants sur la base Adultes .
Figure 22 : Sortie SAS aprs imputations
La part de donnes manquantes tant assez faibles, limpact sur la variance des
observations de lge est trs faible. Le ratio r daugmentation relative de la variance dfini
par :
= 1+ /
O m est le nombre dimputations effectues et B et U tels que dfinis prcdemment. La

variance augmente avec le nombre dimputation mais de manire moindre mesure que
celui-ci augmente. Ce ratio nous permet de quantifier cette augmentation de lincertitude.
CNAM 2015/2016 40
La proportion dinformation manquante sur les paramtres des variables imputer est
+ 2/ +3
dfinie par :
=
+1
La variance augmente avec le nombre dimputation mais de manire moindre mesure que
celui-ci augmente. Ce ratio nous permet de quantifier cette augmentation de lincertitude.
Lefficacit relative RE de calculer m estimateurs pour effectuer les imputations plutt quune
infinit : cet indicateur est exprim en unit de variance et est dfini par :
= 1+
Le tableau prsent nous indique clairement que 5 imputations suffisent. Les rsultats sont
lgrement moins bons pour la base Enfants avec une efficacit relative 0.96 mais
restent tout de mme assez corrects. Les rsultats dtailles en partie 5 correspondent
ceux obtenus la suite de la combinaison des rsultats tels que dfinis par Rubin. Lintrt
principal est dobtenir des paramtres de rgression estims et des intervalles de confiance
plus justes et plus robustes car tenant compte de la variabilit des donnes observes.
D. Regroupement des dpartements

Comme vu prcdemment, linformation de la zone gographique de nos bnficiaires nous
est communique sous la forme du dpartement. Cette donne qualitative possde une
centaine de modalits qui doivent tre regroupes pour plusieurs raisons :
Notre portefeuille nest pas uniformment rparti sur le territoire, certaines modalits
sont donc inutiles car trop peu frquentes et/ou trop peu discriminantes ;
Des modalits avec trop peu de frquences peuvent fausser les tests de Chi-2 de
corrlations entre variables ;
Il parat risqu de modliser un effet zone pour des modalits sous-reprsentes

car la robustesse du modle savrerait trs limite. De plus, un grand nombre de ces
dpartements pourraient avoir leur coefficient de rgression proches voire identiques
et devraient de toute faon tre regroups post-modlisation GLM en fonction des p-
value observes par exemple ;
Oprationnellement, il nest pas envisageable de remplacer lactuel zonier (5 zones)

par un nouveau 100 modalits ;
Une segmentation aussi dtaille prsente peu dintrt commercial du fait de la

sous-reprsentation de certains dpartements et de la surreprsentation dautres.
Il est donc ncessaire de raliser a priori, i.e. avant modlisation, des regroupements de
dpartements. Cependant, on souhaite limiter au maximum la perte dinformation et son
CNAM 2015/2016 41
impact sur le modle et les corrlations, ce qui revient tenir compte dans nos
regroupements des variables les plus corrles avec la consommation mdicale.
Pour ce faire, on a recours un arbre de dcision et la mthode CART (Classification And

Regression Tree). Un arbre de dcision consiste en lapplication dun ensemble de rgles de
classification et leur reprsentation graphique sous forme darbre afin den extraire des
informations servant la prdiction ou la dcision. Ces rgles basent leurs dcisions sur
diffrents tests pralablement dfinis par lutilisateur. Lintrt des arbres de dcisions est
leur rapidit de mise en uvre et leur facilit dinterprtation.
CART est une mthode non-paramtrique permettant de construire un arbre de dcision

binaire par divisions successives dun chantillon en sous-ensembles. Lalgorithme de la
mthode se dcompose en 2 phases :
Phase dexpansion ( Growing phase )

Phase dlagage ( Pruning phase )
Durant la phase dexpansion, lalgorithme CART construit le plus grand arbre binaire, appel
arbre satur moyennant certaines restrictions ou conditions darrt arbitrairement
dtermines telles que :
la profondeur maximum de larbre complet ;
le nombre de classes maximum ;
La population minimale des nuds terminaux (appeles les feuilles de larbre) ;
La population minimum dun nud pour entrainer une sparation du nud en 2

sous-nuds ;
La part des donnes utilises pour la phase dlagage : la base de donnes globale
est donc partitionne en une base utilise uniquement pour lexpansion, et une autre
employe uniquement pour llagage. Cela assure une meilleure robustesse aux
classes obtenues en limitant le sur-apprentissage.
Lalgorithme mis en uvre pour la phase dexpansion fonctionne comme suit :
1. Dtermination de lensemble des partitions binaires pour les diffrentes variables

explicatives ;
2. Choix de la partition binaire maximisant la valeur de la diffrence entre la variance du

nud-mre et la somme des variances des nuds-fils ;
3. Itration de 1) et 2) sur les nuds-fils.
Lalgorithme se poursuit jusqu ce que lune des conditions darrt prcdemment voques
soit constate. Aprs avoir obtenu un arbre binaire complet, la procdure dlagage ou
post-pruning est effectue afin de supprimer les branches de larbre les moins
informatives. Parfois une troisime phase peut tre ajoute afin de ne pas directement
slectionner larbre optimal mais plutt den choisir un plus simple moyennant une perte
relative de pouvoir prdictif. Cette tape est implmente sur certains logiciels tels que
TANAGRA.
CNAM 2015/2016 42
Dans le cadre de notre tude, la phase dlagage nest pas ncessaire dans la mesure o
larbre ne constitue quune mthode pour raliser des classes de dpartements. La
modlisation GLM tant applique sur lensemble de notre base, le risque de sur-
apprentissage de larbre ne nous importe pas. On prfrerait mme que les regroupements
effectus fonctionnent au mieux avec nos donnes afin dajuster au mieux les
regroupements notre modlisation GLM future.
Lobjectif ici est dutiliser les sous-ensembles obtenus dans larbre de rgression pour
grouper les dpartements et utiliser le zonier dans la suite de notre tude. Lintrt de cette
mthode, au-del de sa relative simplicit mettre en uvre, est de prendre en compte nos
diffrentes variables de tarification en fonction de leur significativit dans la modlisation de
la variable de consommation. Elle nous fournit donc une premire ide des variables
explicatives a priori les plus impactantes slectionner pour notre tarif et permet une
segmentation tenant compte des autres variables explicatives. On limite ainsi limpact lie
aux regroupements des dpartements sur la modlisation mais ce regroupement nous
permettra une meilleure stabilit du modle et des tests de Khi 2 lors de ltude des
corrlations.
Pour effectuer les regroupements dans le cadre de cette tude on a procd en deux
tapes :
1. Ralisation et analyse rapide dun arbre de rgression complet : cette tape permet
didentifier limportance du Dpartement en tant que variable explicative les niveaux
de larbre auxquels elle apparat ;
2. Analyse des regroupements de dpartement au sein de larbre lagu ayant le

meilleur rapport Simplicit/Prcision. Cet arbre est un peu infrieur en prcision
larbre optimal de 30 feuilles mais bien plus simple. En effet, il ne possde que 9
feuilles et induit 4 classes de dpartements ce qui nous parat trop peu ;
3. Cration dun arbre un arbre intermdiaire 20 feuilles et regroupement des

dpartement. Larbre en question est lgrement meilleur que larbre choisi en tape
2) et lgrement infrieur larbre optimal.
Larbre obtenu11 nous fournit les informations utiles suivantes :
Lge est la variable discriminante prpondrante et les principales classes dges

peuvent se concevoir comme suit :
11
Le logiciel utilis TANAGRA ne permettant pas une reprsentation didactique de larbre obtenu,
nous ne sommes pas en mesure de lafficher ici.
CNAM 2015/2016 43
Conso Med
Age <45 Age >=45
Age<66 Age >=66

Age<27 Age>=27
Age<52 Age>=52
Age<12 Age>=12
Age<85 Age>=85
Age<2 Age>=2 Age<17 Age >=17
Figure 23 : Classes dge
On retrouve les principaux groupes dge voques durant les analyses descriptives.
Le Dpartement fait aussi partie des variables les plus discriminantes ainsi que le
Sexe et le Code NAF indiquant le type dactivit de lentreprise. Grce larbre
obtenu, on ralise des regroupements de dpartements tenant compte des variables
plus corrles que la zone gographique la consommation mdicale, ce qui limite la
perte dinformation implique par le regroupement.
CNAM 2015/2016 44
Figure 2412 : Regroupement des dpartements
En regroupant les dpartements selon les sous-ensembles obtenus via larbre de rgression,
on obtient au total 8 groupes de dpartements rpartis selon la consommation mdicale :
Zone 1 : Paris, Yvelines, Hauts-de-Seine, Alpes-Maritimes ;
Zone 2 : Seine-Saint-Denis, Val-de-Marne, Val dOise ;
Zone 3 : Ardche, Bouches-du-Rhne, Essonne, Eure-et-Loir, Haute-Savoie, Hrault,

Isre, Meurthe-et-Moselle, Oise, Pyrnes-Atlantiques, Seine-et-Marne, Tarn-et-
Garonne ;
Zone 4 : Ain, Calvados, Eure, Gironde, Haute-Loire, Landes, Rhne, Somme ;
Zone 5 : Aube, Cte-d'Or, Creuse, Loire, Lozre, Morbihan, Savoie, Territoire de

Belfort, Vende ;
Zone 6 : Nivre, Sane-et-Loire, Tarn, Vaucluse, Vosges, Yonne
Zone 7 : Manche, Pyrnes-Orientales, Seine-Maritime ;
12
Graphique ralis via loutil du site www.drawmeagraph.com.
CNAM 2015/2016 45
8 : lensemble des 51 dpartements restants
On conserve ces regroupements pour la suite de ltude, i.e. lors des tests de corrlation et
de la modlisation, quittes fusionner certaines zones aprs la modlisation.
A titre de comparaison, les outils de souscription actuellement employ se rfrent au zonier

suivant :
Zone 1 : Ile-de-France ;
Zone 2 : Dpartement comportant des grandes villes autres que Paris ;
Zone 3 : Autres dpartements de province hors Alsace et Lorraine ;
Zone 4 : Alsace Lorraine.
Le zonier obtenu via larbre de dcision apparat plus dtaill que celui actuellement utilis.
Toutefois, larbre nous a indiqu que des regroupements semblent encore possibles
moyennant une perte limite dinformations. Nous prterons donc attention lors de ltape de
modlisation lventuel regroupement de certaines zones en fonction des rsultats du
modle, notamment des test de Chi-2 sur les coefficients de rgression des zones.
CNAM 2015/2016 46
E. Etude des corrlations

On peut distinguer 3 types de corrlations en tarification sant :
Corrlation entre Frquence et Cout moyen : cette corrlation entre frquence et cout
moyen est rgulirement nglige en pratique puisque la plupart des modles
modlise sparment Frquence et Cout Moyen avant de les multiplier directement ;
Corrlations entre les dpenses de chaque poste : il nest pas exclu que des
dpenses sur un poste soient corrles avec celles dun autre poste. Cela est
particulirement vrai dans le cadre des honoraires mdicaux puisque les bnficiaires
consultent gnralement un mdecin gnraliste ou spcialiste avant daller en
pharmacie, chez un opticien voire mme lhpital. Dans le cadre de cette tude, les
coefficients de corrlation de Pearson indiquent un corrlation limite entre les postes,
lexception des coefficients honoraires / pharmacie (0.38) et honoraires / optique (0.27).
Ces corrlations peuvent de toute manire tre ignores ds lors que la consommation
dun poste nest pas une variable explicative pour celle dun autre.
Pearson Correlation Coefficients

POSTE DENTAIRE HONORAIRES HOSPITALISATION OPTIQUE PHARMACIE
DENTAIRE 1,00 0,17 0,03 0,15 0,12
HONORAIRES 0,17 1,00 0,20 0,27 0,38
HOSPITALISATION 0,03 0,20 1,00 0,04 0,15
OPTIQUE 0,15 0,27 0,04 1,00 0,20
PHARMACIE 0,12 0,38 0,15 0,20 1,00
Figure 25 : Corrlations des dpenses entre postes mdicaux
Etudes des corrlations entre covariables : il est ncessaire de vrifier que les
variables explicatives du futur modle sont peu corrles. Le cas chant, nous devrons
nous dbarrasser de certaines dentre elles ou les fusionner. En effet, des variables trop
corrles impliquent une moindre robustesse des coefficients de rgression lors de la
modlisation GLM. Elles fragilisent ainsi grandement linterprtation des rsultats mme
si elles nimpactent pas ncessairement la performance du modle sur les donnes.
On ralise ainsi des tests de Chi-2 via les calculs du V de Cramer pour dterminer lintensit
des corrlations. Le test de Chi-2 est un test statistique indiquant la force dune relation entre
deux variables qualitatives. Concrtement, ce test indique que sous lhypothse
dindpendance des deux variables A et B, la variable alatoire K dfinie ci-dessous suit une
loi du Chi-2 :
=
,
O :
CNAM 2015/2016 47
est leffectif observ pour lequel la variable A prend la modalit ou la valeur i et B la

modalit ou la valeur j
leffectif espr thorique sous hypothse dindpendance de A et B
Sous lhypothse dindpendance de A et B et si A et B possdent respectivement x et y

modalits diffrentes, alors :
~# $ %
En dfinissant un seuil derreur adquate, on peut alors lire comparer K une valeur
thorique attendue pour ce seuil. Si K est suprieure la valeur thorique, on peut conclure
que A et B sont corrles. Il faut toutefois veiller possder suffisamment deffectifs dans
chaque modalit. Ce test est instable lorsque les effectifs dune classe sont trop faibles. Par
ailleurs la conclusion du test peut changer en fonction des effectifs. Il est donc plus sre de
se rfrer au V de Cramer qui est une variante plus stable du test de Chi-2.
Le V de Cramer correspond la racine carre du Chi-2 divis par le Chi-2 max . Ce

Chi-2 max est gal leffectif multipli par le nombre de modalits minimal entre les
deux variables tests moins 1.
# #
&=' ='
# ($ * ,-./01 2 min 1
Ainsi, V est proche de zro lorsque les variables testes sont indpendantes et est proche
de 1 lorsque leur corrlation est importante.
Le tableau ci-aprs (figure 23) nous permet de faire les observations suivantes :
1. Les variables Qualit, Type de bnficiaire, et Structure Familiale sont trop corrles
avec lge et doivent tre cartes pour la modlisation GLM de la consommation
ds lors que le pouvoir prdictif de lge est le plus important. Ce point sera confirm
lors de ltape suivante. Une solution pourrait tre de crer une variable fusionnant le
type de bnficiaire et la structure familiale telle quune variable de type
Salari/Ayant-droit. En mlangeant au sein du mme type Conjoint et Enfant et en ne
distinguant plus les structures familiales Duo et Famille, on pourrait penser que la
corrlation avec lge serait amoindrie. En pratique ce nest pas la cas, du fait de
lomniprsence de lge et des relations de type Age <25 => Enfant => Ayant-
droit .
2. La variable Dpartement du contrat ( DPT Contrat ), est trs corrle avec

plusieurs variables et sera carte.
CNAM 2015/2016 48
Dpt DPT Type Struc Contrat Nb Niv

V cramer Anne Age Sexe Collge NAF Qualit
Contrat Benef Benef Fam Option Salaries Garantie
Anne 1,00
Age 0,01 1,00
Sexe 0,01 0,04 1,00
DPT_CONTRAT 0,13 0,11 0,06 1,00
Zone (DPT) 0,07 0,04 0,01 0,47 1,00
Collge 0,06 0,08 0,01 0,41 0,12 1,00
NAF 0,04 0,11 0,05 0,56 0,17 0,37 1,00
Qualit 0,03 0,52 0,02 0,18 0,02 0,50 0,13 1,00
Type Benef 0,01 0,54 0,22 0,07 0,03 0,02 0,05 0,13 1,00
Struc_Fam 0,01 0,39 0,01 0,11 0,06 0,04 0,10 0,26 0,42 1,00
Contrat_Option 0,01 0,05 0,00 0,37 0,09 0,25 0,29 0,02 0,02 0,03 1,00
Nb Salaries 0,15 0,10 0,03 0,52 0,13 0,30 0,37 0,12 0,03 0,07 0,22 1,00
Niv. Garantie 0,10 0,04 0,01 0,26 0,16 0,15 0,19 0,02 0,02 0,03 0,12 0,14 1,00
Figure 26 : V de Cramer des variables explicatives
3. Les variables NAF, Nombre de Salaris et Collge semblent corrles. La slection

de variables nous indiquera la(es) variable(s) la(es) plus significative(s).
A la suite de cette tude de corrlation, on conserve les variables explicatives suivantes :
Age, Sexe, Zone, Collge, Code NAF, Taille, Niveau de garantie, Poste, Anne, Flag
Base/Option.
F. Slection des variables

Il est prsent utile de tester le significativit des variables explicatives proposes. En effet
dans certains cas, une ou plusieurs variables peuvent avoir un impact ngatif sur le pouvoir
prdicteur du modle. Pour slectionner les variables inclure dans le modle, trois
algorithmes sont couramment employs :
Forward (procdure ascendante) : ajout des variables une une par ordre
dcroissant de significativit. Lalgorithme sarrte lorsque lajout dune variable na
plus dimpact sur les prdictions du modle.
CNAM 2015/2016 49
Backward (procdure descendante) : suppression une une des variables les moins
significatives pour le modle. Lalgorithme sarrte lorsquaucune variable ne peut
plus tre soustraite au modle sous peine de le rendre moins performant.
Stepwise (procdure pas pas ) : une slection Forward mlange avec une
limination Backward. Lalgorithme fonctionne comme Forward ceci prs qu
chaque itration dajout dune variable, la significativit des variables prcdemment
incluses est teste. Certaines peuvent ainsi tre sorties du modle comme cest le
cas dans Backward.
Dans le cadre de notre tude, lalgorithme employ est le Stepwise. Comme indiqu ci-
dessus, il permet, chaque itration, un rexamen des variables introduites dans le modle
aux tapes antrieures. Supposons que notre base de donnes contienne p variables
indpendantes. Le modle de base M0 considr sera :
1. 67 = 8 . = .
Cette premire tape est identique celle de la procdure FORWARD
2. 6 = 8 : = .+* :
Cette tape est aussi identique celle de la procdure FORWARD
3. 6 = 8 : , : =.+* : +* :
A cette tape, la slection dune nouvelle variable X3 est faite parmi les variables
restantes pour constituer un modle trois variables. Supposons que la variable X3 est
retenue. Un modle M3 est alors constitu mais ltape ne sarrte pas l. Les deux
autres variables dj prsentes dans le modle peuvent tre limines suite lentre de
X3 dans le modle. Cest une procdure dlimination Backward. Il se peut, par exemple,
que la variable X1, la plus significative au point de dpart, ait perdu de sa signification par
lintroduction conjointe des variables X2 et X3. Il se pourrait mme que son manque de
signification invite son limination du modle. Llimination de la variable du modle se
fait aussi sur la base du test du rapport de vraisemblance comparant :
le modle sans X1 : 6;. = 8 : , :; = . + * : + *; :;
le modle avec les 3 variables : 6;. = 8 : , : , :; = . + * : + * : + *; :;
Ce rapport de vraisemblance correspond -2 fois la diffrence des log-vraisemblances des

deux modles. Sous lhypothse nulle la statistique du test de ce rapport de vraisemblance
suit une loi du Chi-2 n degrs de libert correspondant au nombre de coefficients mis en
cause. La p-value correspondante est compare un seuil de sortie. Si elle est suprieure
ce seuil, alors la variable est X1 sort du modle. Sinon on la conserve.
Nous supposons ici que X1 est retenue et M3.2 devient le modle de base M3 pour litration
suivante :
CNAM 2015/2016 50
4. 6; = 8 : , : , :; = . + * : + * : + *; :;
La procdure se poursuit par la slection dune quatrime variable, suivie par lexamen et
llimination de variables pralablement introduites dans le modle, et ainsi de suite.
Le processus stoppe lorsquil ny a plus de variable significative slectionner ou non

significative liminer.
Dans notre cas, on peut appliquer cet algorithme sur lensemble des variables disponibles (y
compris celles corrles) ainsi que sur des sous-ensembles restreints pour lesquels
certaines variables trop corrles ont t sorties.
La slection des variables, leur limination et larrt de lalgorithme se font sur des critres
fixs par lutilisateur. Les critres les plus courants tant :
Le coefficient de dtermination R du modle obtenu qui mesure la prcision de

l'ajustement de la droite de rgression. Le R est rapport entre la variance de la
variable dpendante explique par le modle de rgression et la variance totale. On
<=
peut aussi le concevoir comme :
=1
<=>
Avec SCR, la somme des carrs rsiduels :
<= = ? ?A@
SCT est la somme des carrs totaux :
<= = ? ?
SCT tant constant, maximiser le R revient minimiser SCR. En rgression multiple,

on se rfre au R ajust qui tient compte du nombre de variables explicatives du
1 D
modle :
BC =
D+1
O n est le nombre de variables disponibles et p le nombre de variables utilises par

le modle.
Le R ajust permet donc de confronter la prcision du modle avec sa complexit.

Cependant cet indicateur est souvent jug trop permissif, favorisant les modles
comportant de nombreuses variables.
PRESS (Predictive Residual Sum of Squares) est un indicateur proche du SCR

define par :
CNAM 2015/2016 51
E << = ? ?F 0
Avec ?F 0 la prdiction du modle pour lobservation i lorsque le modle nen tient

pas compte dans son ajustement. Ce critre est mieux adapt que le R pour
comparer les performances prdictives de modles diffrents et pnalise mieux les
modles complexes que le R ajust.
<=
Le critre dinformation dAkaike ou AIC dfini par :
GH= = ln +2 J+1
Le critre dinformation baysien de Schwarz ou BIC ou SBC dfini par :
<=
H= = ln + ln J J + 1
Driv du critre dAkaike, lindicateur pnalise aussi le modle en fonctions du

nombre totale de variables disponibles et pas seulement en fonction du nombre de
variables utilis par le modle. Il pnalise donc plus svrement les modles
complexes que le critre dAkaike.
Dans le cadre de cette tude nous utilisons le critre PRESS comme critre de slection de
variables et darrt de lalgorithme. Par ailleurs, les donnes sont partitionnes en donnes
dapprentissage et de validation. Les diffrents modles sont ajusts sur les donnes
dApprentissage et tests sur les donnes de validation pour prouver leur robustesse. On
choisit le modle optimal sur la base du critre dAkaike.
On peut noter que les mthodes de slection voques ne tiennent pas compte
explicitement de la corrlation entre variables explicatives. Cela est fait de manire implicite
avec la pnalisation de la complexit : lajout dune variable explicative corrle une autre
variable dj prsente dans le modle modifie peu le SCR mais pnalise le modle par
laugmentation de la complexit. Elles ne devraient donc thoriquement pas tre pas tre
simultanment prsentes dans le modle.
En pratique on observe dans les graphes ci-aprs que certaines variables corrles telles
que lge et le Type de bnficiaire peuvent tre slectionnes simultanment du fait dun
pouvoir explicatif encore important malgr la corrlation. On constate toutefois limportance
de lAge, du Sexe, du Poste, du Niveau de Garantie et de la Zone.
CNAM 2015/2016 52
Figure 27 : Evolution des critres d'ajustement et de lerreur quadratique du modle

comportant toutes les variables
CNAM 2015/2016 53
Toutefois, les fortes corrlations entre variables observes prcdemment nous poussent
en carter certaines car bien quelles puissent contribuer un meilleur ajustement du
modle, elles rendraient les rsultats trop prilleux interprter en faussant les coefficients
de rgression obtenues. On obtient ainsi les rsultats suivants :
Figure 28 : Evolution des indicateurs de slection pour un modle comportant un

nombre restreint de variables indpendantes
A la suite des diffrentes tapes prcdentes, on obtient les variables conserves pour la
modlisation :
Age*Sexe ;
Zone ;
Collge ;
Code NAF (secteur dactivit) ;
Taille ;
Poste*Niveau de garantie ;
Anne ;
Flag Base/Option.
Le graphique prcdent (Figure 28) nous indique en effet que toutes les variables
slectionnes la suite de ltude des corrlations peuvent tre conserves pour la
modlisation car elles apportent suffisamment dinformation au modle comme nous le
montre lvolution du Critre dAkaike. Des rsultats proches sont obtenus en lanant une
slection poste par poste. Il est notable que la variable Age*Sexe savre toujours plus
CNAM 2015/2016 54
significative que les variables Age et Sexe considres sparment. De la mme manire, la
variable Poste devra tre fusionn avec la variable Niveau de Garantie lors de la
modlisation.
On observe en revanche que lanne napparat que dans les dernires variables
slectionnes. Cela nous indique que son pouvoir prdictif est faible et donc que leffet de
drive mdicale relatif au dsengagement de la scurit sociale et dautres effets tels
que linflation nest pas significatif comparativement aux autres effets. Il est cependant
intressant de la conserver dans un premier temps dans la mesure o elle savre peu
corrles avec les autres variables. En outre son effet pourrait tre compar leffet de
drive sant appliqu chaque anne par Generali dans ses majorations tarifaires. Si sa
prsence savre prjudiciable la prcision du modle, elle sera alors supprime.
Une observation similaire peut tre faite en Hospitalisation pour la variable indiquant si le
contrat est un contrat de Base ou une Option facultative : celle-ci nest pas slectionne pour
ce poste mais lintrt de sa prsence pourra tre test.
Enfin il est aussi notable que la variable Code_NAF reprsentant le secteur dactivit est
assez informative pour tre utilise lors de la modlisation. Or cette variable nest pas prise
en considration lheure actuelle par les outils de souscription. Des regroupements
ventuels pourraient dailleurs tre mis en vidence lors de ltude des rsultats de la
modlisation.
CNAM 2015/2016 55
PARTIE 3 LOIS DES COUTS ET ECRTEMENT

En assurance non-vie, une hypothse classique est que le portefeuille est constitu de
risques similaires. Un obstacle la vrification de cette hypothse est le poids parfois
important des sinistres graves et des forfaits. En pratique, il est souvent ncessaire de
les traiter diffremment des sinistres ordinaires. En effet, leurs montants dpendent
gnralement moins des diffrentes variables explicatives et sont donc susceptibles de
fausser les rsultats dun GLM.
Dans le cadre de cette tude o lon modlise la consommation annuelle par grands postes
mdicaux, le traitement des forfaits peut tre nglig. Il nen est pas ncessairement de
mme concernant les sinistres graves. Une possibilit est de modliser lensemble des
sinistres par une loi queue paisse comme une Pareto mais on se risque des difficults
dajustement pouvant conduire surestimer certains types de sinistres et en sous-estimer
dautres13. Une autre solution est lcrtement : les sinistres observs sont plafonns un
niveau maximum et la charge rsiduelle est mutualise sur tout ou partie du portefeuille. Le
choix du seuil dcrtement est important car il peut conduire une sous-estimation ou une
surestimation des sinistres ordinaires, i.e. in fine de lanti-slection, ou des tarifs trop
levs et donc peu comptitifs.
Ainsi dans le cadre de cette tude, les consommations annuelles ordinaires sont
modlises sparment de celles excdant le seuil d'crtement car leur caractre
exceptionnel peut avoir un impact ngatif sur la performance du modle GLM : sensibilit de
certains coefficients, rsidus plus importants, moins bonne adquation etc...
Nous considrons ici comme exceptionnels ou graves , les consommations mdicales

annuelles par bnficiaire dpassant un seuil dterminer en termes de montant rgl par la
compagnie.
Bien entendu le montant du seuil diffre grandement en fonction du type de risque tudi :
MRH, automobile, RC, Sant etc. Dans cette partie, nous tablissons un seuil pour chacun
des 5 postes tudis : on peut en effet s'attendre ce que le seuil dfini en Hospitalisation
ou en Dentaire diffre de celui en Honoraires par exemple. Il est mme possible quil ny ait
pas lieu dcrter dans certains cas, la sant ne se prtant pas toujours facilement cet
exercice.
Plusieurs indicateurs peuvent nous aider dterminer les valeurs des seuils dcrtement :
le seuil au-del duquel les hypothses de notre modle de sinistres ordinaires telles
que la distribution des cots scartent de la ralit observe ;
la part de charge crte par rapport la charge totale ;
les quantiles de la distribution des cots (typiquement 0,5 %, 1 % ou 2 %) ;

13
Boyer Chammard, Processus de surveillance et de majoration des contrats flottes dentreprise
dAXA France, 2008
CNAM 2015/2016 56
La thorie des valeurs extrmes (TVE) : elle permet une estimation du seuil partir
duquel on peut considrer que les sinistres ont un comportement de type
extrme . Pour cela, il est indispensable de vrifier si la thorie des valeurs
extrmes sapplique aux cots par des tests dadquation avec la loi de Pareto (ou a
minima une loi est queue paisse). Par ailleurs, un volume de donnes important
est ncessaire pour justifier dun minimum de robustesse. Dans ce cas, lobservation
selon laquelle lesprance de cot rsiduelle (au-del du seuil M), E(C-M|C>M), croit
linairement permet de cibler des techniques pour dterminer le seuil.
Cette dernire mthode, dite mthode POT pour Peak Over Threshold , apparat plus
lgante et moins arbitraire mais il n'est pas certain quelle soit applicable de la
consommation mdicale. Le cas chant, il conviendra de comparer les seuils d'crtement
obtenus aux autres indicateurs cits. En effet, comme dit prcdemment, le choix dun seuil
est important :
Un seuil trop faible induira une modlisation grossire de la queue de distribution des
sinistres et la charge crter sera trs (trop ?) importante. En mutualisant une telle
charge, la segmentation des tarifs est amoindrie, impliquant une perte de
comptitivit du fait de tarifs qui surestiment les sinistres rares.
Un seuil trop lev peut empcher lapplication de la TVE du fait dun manque de
donnes ou impliquer un manque de robustesse des rsultats obtenus. En outre, il
peut amener sous-estimer le caractre exceptionnel de certains sinistres.
R-insistons sur le fait que lon ne sattend pas un crtement important car la sant est un
risque avr de frquence pour lequel les extrmes sont peu reprsentatifs. Il s'agit plus ici
dtudier certaines mthodes visant fixer des seuils dcrtement et de chercher si elles
confirment les seuils que lon fixerait arbitrairement sinon.
A. Lois des cots des sinistres

Il est courant de supposer que la svrit des sinistres suit une loi de type Gamma. On peut
constater ladquation des cots suprieurs 0 avec une loi Gamma via la ralisation dun
histogramme et dun QQ-Plot.
CNAM 2015/2016 57
Figure 29 : QQ-Plot de la consommation avec un plafond 5000 euros
Figure 30 : Distribution des valeurs positives de consommation mdicale
Dans les graphiques ci-dessus les paramtres de la loi sont calculs par maximum de
vraisemblance. Une loi de type Gamma est envisageable pour modliser la svrit des
sinistres. Cependant cette loi ne semble plus adquate partir dun certain montant.
On pourrait ds lors considrer comme premier palier possible dcrtement : le seuil

dinadquation de la loi Gamma. Pour valider cette possibilit on porte notre attention sur la
part de charge crt et le quantile dcrtement correspondant.
CNAM 2015/2016 58
Dans notre cas, le choix pourrait par exemple se porter sur un seuil entre 3000 et 5000 euros
par exemple. Cependant, cette mthode assez basique est trs arbitraire. Elle ne se base
que sur les besoins de la modlisation : on crte lorsque la loi suppose semble ne plus
marcher . Le seuil envisag gagne tre compar aux valeurs obtenues par la thorie des
valeurs extrmes.
B. Thorie des valeurs extrmes

Dans notre tude la TVE a un rle informatif : elle permet de qualifier d extrme la
distribution des sinistres au-del dun certain seuil. Cest pourquoi son utilisation est courante
sur des risques pour lesquelles les queues de distribution des cots des sinistres peuvent
avoir un impact significatif sur la sinistralit. On sattend a priori ce que cet effet soit peu
significatif en sant compar dautres branches telles que la responsabilit civile. En effet,
lors de la survenance dvnements graves de sant, tels que les ALD, les cancers ou les
hospitalisations trs lourdes lintervention importante de ltat diminue fortement les
montants rgler par lassureur. Pour autant, il reste intressant de tester lapplication de
cette thorie sur des donnes sant dans la mesure o un crtement est appliqu.
Comme expliqu, la Thorie des valeurs extrmes nous indique partir de quel montant un
sinistre peut tre considr comme extrme . Il est donc intressant de lappliquer dune
part lensemble des montants observs sans distinction, dautre part la consommation
poste par poste. En effet, on suppose intuitivement que les seuils dcrtement devraient
tre variables en fonction des postes tudis pour tre pertinents. On sattend par exemple
un crtement plus important en hospitalisation quen pharmacie car la sinistralit diffre
beaucoup entre ces deux postes.
1. Elments de thoriques
1.1 Domaine dattraction du maximum
Avant de pouvoir qualifier thoriquement la loi des cots excdant un seuil, il importe de
sintresser au comportement du maximum dun ensemble de variables alatoires
Soit : , , :L un n-chantillon i.i.d. et soit 6L = 6.M : , , :L

indpendantes et identiquement distribues (i.i.d.)
E 6L N M = E 6.M : , , :L N M = E : N M, , :L N M = O$ M L
Alors :
O O$ la fonction de rpartition des :
La loi de 6L est donc connue ds lors que celle des : lest. Ce nest toutefois presque
jamais le cas en pratique. On sintresse plutt la loi asymptotique du maximum :
0 20 FU x N 1
lim E 6L R M = lim S FU x W = Y
X
LQ LQ 1 20 FU x = 1
On remarque que la fonction de rpartition du maximum converge vers une loi dgnre.
Le thorme de Fisher-Tippett nous permet de surmonter cette difficult.
CNAM 2015/2016 59
Thorme de Fisher-Tippett
Supposons (X1,,Xn) une suite de variables alatoires i.i.d. et Mn leur maximum.

Sil existe deux suites de rels an et bn et une fonction de distribution H non dgnre tels
6L .L
que :
lim =[
LQ *L
Alors H est ncessairement une distribution standard des valeurs extrmes et peut scrire
dune des trois formes suivantes :
0, M R 0
Domaine de Frchet : ] M = ^ $_`
, M > 0

$ `
, M R 0
Domaine de Weibull : b] M = ^
1, M > 0

Domaine de Gumbel : M = d _e
,M
On dit que la fonction de rpartition F des Xi est dans le domaine dattraction maximum de H
que lon notera DAM(H).
Le domaine de Weibull concerne les lois bornes droite : loi Uniforme, Beta notamment.
Le domaine de Gumbel regroupe les lois non majores mais dont la queue de distribution est
peu paisse telles les lois Normales, Log-normales, Exponentielles, Gammas.
Enfin, le domaine de Frchet regroupe lensemble des lois queues paisses utilises dans
la modlisation des sinistres graves, telles les lois de Pareto, Cauchy et log Gamma.
La reprsentation de Jenkinson-Von Mises synthtise lcriture de la distribution H :
M p
m
$ i _n
lh
j , 1 + o >0
[h,i,j M = k q
e_r
, o = 0
_
d s
Cette reprsentation est appele distribution gnralise des valeurs extrmes ou GEV.
On note que :
est le paramtre de localisation : il indique o se situe le cur de la distribution ;
un paramtres de dispersion : il indique ltalement des extrmes ;

est lindice de queue : plus il est lev en valeur absolue, plus le poids des
extrmes dans la distribution est important.
CNAM 2015/2016 60
On dira quune loi appartient au domaine de Frchet si >0, de Gumbel si = 0 ou de

Weibull si <0.
1.2 Estimation des distributions au-dessus dun seuil
Les rsultats prcdents dfinissent le comportement asymptotique de la loi du maximum.

Cependant nous ne disposons pas encore dinformation sur la loi des variables au-dessus
dun seuil. La principale difficult est de dterminer un seuil assez grand pour pouvoir utiliser
les rsultats prcdents mais pas trop grand non plus pour disposer dun minimum de
donnes. Dans cette partie, nous admettons que la fonction F appartient au domaine de
Frchet.
1.2.1 La distribution de Pareto gnralise (GPD)
Soit X une variable alatoire de fonction F et u un rel suffisamment grand qui sera notre
seuil. On introduit la distribution conditionnelle suivante :
Ov M = E : w R M|: > w
Ov M =
y vl$ y v
y v
Do lon dduit :
On appelle Ov M la fonction de distribution des excs par rapport un seuil u. Elle

correspond la loi que lon cherche expliquer.
Or le thorme suivant permet dapprocher Ov M pour un u assez grand par une loi de
Pareto Gnralise (GPD) :
Thorme de Pickands :
Soit F une fonction de distribution appartenant un des DAM noncs prcdemment.

Alors il existe une constante de normalisation a(u) telle que :
limv{ y Ov SM. w W = |h,} M

m
h$ n
1 1 + 20 o 0
~ O = 2wDM|O M N 1 |h,} M = k }
e
1 20 o = 0
avec et

|h,} est la distribution de Pareto gnralise.

En dautres termes, pour un seuil u suffisamment grand , il existe (u) permettant
dapprocher Fu(M) par une Pareto gnralise :
Fv x |h,} v M
Ainsi ds lors que la distribution tudie appartient au domaine de Frchet, on peut trouver
un seuil pour ajuster une loi de Pareto Gnralise. Cependant nous navons toujours pas
dtermin ce seuil. Pour cela, deux indicateurs sont souvent employs :
CNAM 2015/2016 61
la fonction moyenne des excs ;
lestimateur de Hill.
1.2.2 Fonction moyenne des excs
On appelle fonction moyenne des excs au-del dun seuil u la fonction suivante :
w = : w|: > w
Nous supposons ici que : N .
Un estimateur de e(u) est la fonction moyenne empirique des excs

L w correspondant
la somme des excs au-del du seuil divis par le nombre dobservations dpassant ce
seuil :
L : w

L w =
L 1 v
De plus on a14 :
Proposition : Soit :v = [: w|: > w] une variable alatoire distribue selon une GPD de
paramtre o, + ow , si o N 1 alors pour tout w N ~y 15 :
: w|: > w = , pour + ow > 0

}lhv
h
mthode de dtermination du seuil u consiste tracer le graphe des points w, L w

Ainsi, lesprance au-dessus dun seuil u pour une GPD est proportionnelle au seuil. Une
et
choisir le seuil u partir duquel notre estimateur empirique est linaire ou prsente une
partie linaire stable. On distingue trois cas :
la fonction moyenne des excs empirique a une pente positive : nos donnes
suivent la distribution GPD partir dun certain seuil ;
la fonction moyenne des excs empirique a une pente nulle : nos donnes suivent
une distribution exponentielle ;
la fonction moyenne des excs empirique a une pente ngative : nos donnes
suivent une distribution queue lgre.
1.3.3 Lestimateur de Hill
Lorsque la distribution appartient au domaine de Frchet, i.e. lorsque > 0, on peut se

ramener uniquement lestimation du paramtre dindice de queue .
On rappelle que ~y = sup ? , O ? N 1

14
Embrechts et al. [1997]
15
CNAM 2015/2016 62
En effet, si N 1, on a : w
hv
h
Il suffit alors destimer pour pouvoir estimer w .
Lestimateur de Hill est un estimateur non paramtrique de lindice de queue voque dans
la formule de Jenkinson-Von Mises. Il est valable uniquement pour les lois du DAM de
Frchet et est dfini ainsi :

1 : ,L
=
o ln
1 :,L

o :,L est le sous-chantillon des k valeurs les plus leves
La mthode pour dterminer le seuil u consiste calculer lestimateur de Hill pour diffrents
seuils et chercher celui partir duquel il semble constant ou subit peu de variations.
Slectionner un seuil partir duquel lestimateur de Hill est stable revient indiquer le
montant partir duquel on estime pouvoir approcher la loi de nos sinistres avec une
distribution de Pareto Gnralise.
2. Rsultats obtenus
Afin de satisfaire le thorme de Pickands, il est ncessaire de raliser des tests

dadquation avec une loi de Pareto gnralise pour pouvoir appliquer la thorie des
valeurs extrmes. En pratique, nous cherchons ladquation, partir dun certain seuil, i.e.
pour les k plus grandes valeurs de notre distribution, avec une loi de Pareto. On peut ainsi
faire lhypothse dune distribution appartenant au DAM de Frchet. Pour ce faire des tests
QQ-Plots sont raliss sur la consommation de chaque poste.
Figure 31 : Adquation avec un loi de Pareto pour le poste Dentaire
CNAM 2015/2016 63
Ladquation avec une loi de Pareto savre possible chaque fois. On peut ds lors se
rfrer aux deux indicateurs que sont lestimateur de Hill et la moyenne des excs.
Rappelons que lon cherche graphiquement un seuil partir duquel lestimateur de Hill se
stabilise et la moyenne des excs est linaire. Le graphique suivant illustre la convergence
de lestimateur de Hill pour le poste Honoraires. On remarque que la variance de lestimateur
de Hill augmente avec le seuil du fait de la rduction du nombre de donnes observes. Le
bon quilibre entre le biais et la variance de lestimateur peut parfois savrer difficile
trouver.
Threshold
1570 1640 1710 1800 1900 2010 2130 2310 2560 3090 4250
7
6
alpha(CI,p=0.95)
5
4
3
2
900 830 760 690 620 550 480 410 340 270 200 130 68
Order Statistics
Figure 32 : Estimateur de Hill pour le poste Honoraires
On obtient par exemple un seuil dcrtement environ 3200 euros pour les Honoraires en
se fiant lestimateur de Hill. En effet, on observe que lestimateur est trs stable jusqu un
seuil assez lev. On aurait donc trs bien pu slectionner un seuil infrieur dans le mesure
o lon observe une zone de stabilit ds 1500 euros et mme avant. Cependant, nous ne
souhaitons pas crter de manire abusive et nous essayons donc chaque fois de choisir
le plus haut seuil possible prsent dans une zone de stabilit. Ceci est acceptable car
lorsque un loi de sinistralit au-dessus dun seuil u peut tre approche par une Pareto
Gnralise, alors la loi de sinistralit au-dessus dun seuil u>u peut aussi ltre.
On peut comparer cette valeur avec le seuil partir duquel le moyenne des excs semble
linaire. En ce qui concerne les Honoraires la moyenne des excs apparat presque
entirement linaire. Cela nest pas surprenant puisque nous avons observ une trs bonne
adquation avec la loi de Pareto, y compris pour les sinistres faibles cots. De la mme
manire que pour lestimateur de Hill notre choix se porte toujours sur le plus haut seuil
envisageable.
CNAM 2015/2016 64
Figure 33 : Moyenne des excs pour le poste Honoraires
Grce aux deux indicateurs tudis, on envisage les seuils suivants :
Seuils
Poste Moyenne Excs Hill Choisi
Dentaire 9 000 3 500 3 500
Honoraires 3 500 3200 3 200
Hospitalisation 13 000 8000 8 000
Optique 1200 1300 1 300
Pharmacie 2 000 1300 1 300
Figure 34 : Dtermination du seuil d'crtement
Les seuils des deux indicateurs sont cohrents mais nous accordons une plus grande
confiance lestimateur de Hill, plus fiable que la moyenne des excs sur le domaine de
Frchet. En outre il demeure par exemple assez difficile de dfinir un seuil sur le poste
Dentaire en se basant sur la moyenne des excs.
CNAM 2015/2016 65
Figure 35 : Moyenne des excs sur le poste Dentaire
On peut ainsi comparer lexcs moyen observ aux seuils choisis avec lestimation obtenu
via lestimateur de Hill :
Excs Moyen
Excs Moyen Exces Moyen

Poste Seuil Hill
(Estim) (Observ)
Dentaire 3 500 0,39 2 238 2 5 49

Honoraires 3 200 0,34 1 648 1 535
Hospitalisation 8 000 0,43 6 035 6322
Optique 1 300 0,16 248 249
Pharmacie 600 0,36 731 859
Figure 36 : Comparaison des excs moyens estims et observs
Le tableau ci-dessus illustre lassez bonne estimation de lexcs moyen. Enfin, il est
indispensable dtudier la part de sinistres au-dessus des seuils dcrtement et limportance
des charges crtes. On vrifie ainsi que les sinistres crts sont bien atypiques quant
leur montant :
Rsultats Ecrtement
Charge crte /
Poste Seuil Sinistres > Seuil
Total
CNAM 2015/2016 66
Dentaire 3 500 0,296% 7,59%
Honoraires 3 200 0,036% 0,52%
Hospitalisation 8 000 0,077% 7,88%
Optique 1 300 0,087% 0,23%
Pharmacie 1 300 0,095% 1,28%

Figure 37 : Rsultats de l'crtement
Le tableau ci-dessus illustre bien le fait que les sinistres graves reprsentent une part
relativement faible de la consommation sant. En effet, on observe trs peu (souvent moins
de 0.5%) de sinistres dpassant les seuils dtermins. En outre, la charge crte
reprsente 3,28% de la charge totale. Pour la suite de notre tude, les sinistres sont
plafonns selon les seuils dtermins. Pour un rapprochement avec des primes pures
relles, les rsultats obtenus devront tre multipli par un coefficient valant 1/(1-0.0328)=
1,034 (soit une surprime de 3.4%).
CNAM 2015/2016 67
PARTIE 4 - Modlisation GLM
A. Thorie des GLM

Il s'agit prsent d'expliciter plus avant la notion de Modles Linaires Gnralises (GLM
en anglais). Comme leur nom lindique, il sagit dune gnralisation des modles de
rgression linaires usuelles, notamment le modle linaire gaussien.
Dans ce modle, on cherche modliser une variable alatoire Y grce un ensemble de

variables explicatives (ou covariables) Xi=1p. On note X le vecteur des variables explicatives
pour la suite de cette partie. Dans un modle linaire gaussien on suppose :
~ p ; q
O p = :
des variables explicatives X. Le vecteur correspondant aux coefficients de chacune des

On suppose donc que lesprance de Y peut scrire sous forme dune combinaison linaire
variables explicatives.
Lintrt des modles linaires gnraliss est de permettre dtendre le modle gaussien
un ensemble de lois plus large que la seule loi normale : la famille exponentielle. Les
~ p
hypothses du modle deviennent alors :
p= =8 :
8 p =8 = :
O :
Et de manire quivalente :
On cherche donc toujours modliser la variable alatoire Y, en fonction dun ensemble de

variables explicatives. En revanche on suppose cette fois que lesprance de Y peut scrire
sous la forme dune transformation dune combinaison linaire des variables explicatives.
Comme le montre lquation ci-dessus, 3 lments caractrisent les modles linaires

gnraliss :
La variable de rponse tudie Y, constituant la composante alatoire de

lquation.
La combinaison linaire de type 7 + : + + : ou, sous la forme du produit

scalaire, : est appele composante dterministe . Les variables Xi sont les
Les coefficients vont tre dtermins en ce sens.

covariables du modle puisque l'on souhaite les utiliser pour prdire les valeurs de Y.
La fonction de lien, note g, traduit la relation existant entre la composante alatoire
: . Elle est ncessairement monotone et drivable.

et la composante dterministe. Plus prcisment, elle tablit un lien entre E(Y) et
CNAM 2015/2016 68
Nous avons vu quune hypothse importante des modles linaires gnraliss est de
considrer que la variable alatoire Y que l'on essaie de modliser suit une loi appartenant
la famille des exponentielles. Cela signifie que la densit de Y peut scrire sous la forme
dune exponentielle dans laquelle apparaissent les paramtres rgissant la localisation et la
dispersion de la loi. Des lois telles que la loi Normale, Gamma ou Poisson sont membres de
la famille des exponentielles, contrairement dautres lois telles que la Log-normale ou
Weibull.
Formellement, la loi dune variable alatoire Y ou dun chantillon de variables alatoire Yi,
i=1n appartient la famille des exponentielles si sa densit peut se formuler ainsi :
? *
?| , = exp + ?,
.
Avec :
. . , * . et . sont des fonctions. Gnralement, . =
est appel paramtre naturel de la famille exponentielle, aussi dit paramtre

canonique . Il peut scrire sous la forme dune fonction de lesprance de Y.
est un paramtre de dispersion suppos connu. Il est aussi appel paramtre de nuisance
car pour certaines valeurs de , la densit f peut ne plus appartenir la famille
exponentielle. Si est inconnu, il sera estim pralablement et considr comme connu.
Le choix de . . , * . , . , et dtermine si la loi tudie est une loi Normale, Gamma,

Poisson, Binomiale etc.
On note que si Y suit une loi de la famille exponentielle :
= *
& = *
uniquement de , lautre uniquement de donc indpendante de .

On observe que la variance de Y est le produit de deux fonctions : lune dpendant
Par la suite on note p = et lon peut exprimer V(Y) en fonction de p :
& p = * * p
& p est appel fonction Variance et caractrise compltement la loi de la famille

exponentielle.
Lhypothse dappartenance de la loi de Y la famille des exponentielles est

mathmatiquement commode dans la mesure o :
Les paramtres de localisation et de dispersion sont indpendants lun de lautre ;
CNAM 2015/2016 69
Les prdictions ponctuelles du modle sont proportionnelles E(Y) et les intervalles

de confiance des prdictions sont proportionnels V(Y), do limportance du point
prcdent puisque les valeurs prdites sont ainsi contenues dans un couloir
autour dune droite.
X
Prdictions IC Nuage de points
Figure 38 : Illustration du principe de la rgression gaussienne
Le recours au GLM permet doprer dans un cadre plus large que celui du modle linaire
simple. Lemploi dune fonction de lien permet de se ramener un cadre mathmatique plus
commode, en faisant comme si Y suivait une Normale alors que lon suppose quil suit
une Gamma, une Poisson ou tout autre loi de la famille exponentielle. En effet lintrt de la
fonction de lien g et de permettre que V(g(E(Y|X)) soit indpendante de E(Y).
Par ailleurs, il existe pour chaque loi de Y, une fonction de lien g spcifique dfinie par :
8 p =
Et donc daprs ce qui prcde :
8 . = * .
On parle alors de lien canonique et lon qualifie la fonction g de fonction de lien

canonique . Bien que lon puisse prfrer cette fonction de lien, elle nest bien entendu pas
la seule tre licite. Dans le cas o plusieurs fonctions de lien sont envisages, une
mthode de comparaison de modles est dinclure le carr de Y comme variable explicative
CNAM 2015/2016 70
au modle et dobserver la dviance de ce modle par rapport au modle initiale. Toutefois,

en pratique Linfluence de la fonction de lien sur le modle, bien quelle existe, est souvent
nglige. En assurance, la fonction logarithme est trs souvent utilise. Elle permet une
meilleure lisibilit et interprtation des coefficients obtenus car elle induit un modle
multiplicatif.
B. Hypothse de modlisation : la loi de Tweedie

En sant et plus gnralement en assurance non-vie, il est possible de modliser les
sinistres de plusieurs manires :
En ne considrant que le cot des sinistres : on parle de "Modle de Cot" : dans ce

type de modle on considre que tous les assurs ont un sinistre mais que ce sinistre
peut tre nul ou trs proche de 0.
En tenant compte du nombre de sinistres et leur cot moyen : Modle Frquence-

Cot .
Dans le cadre de notre tude, le modle de cot est utilis. Nous avons vu prcdemment
quune des hypothses fortes des GLM est de considrer que la variable alatoire modlise
suit une loi de la famille exponentielle. Selon le type de variable modlise, certaines lois
sont plus souvent utilises que dautres. Ainsi, le cot annuel des sinistres que nous
cherchons modliser ici est classiquement considr comme suivant une loi Gamma. La
frquence des sinistres tant quant elle plus gnralement envisage comme suivant une
loi de Poisson ou une loi Binomiale Ngative.
Lorsque la consommation mdicale annuelle dun assur est strictement positive, la loi
gamma semble tre une hypothse raisonnable de modlisation. Cependant, la loi Gamma
nest pas dfinie en 0. Une modlisation gamma du cot des sinistres fournit donc des
rsultats intressant sur limpact des diffrentes covariables sur lintensit de la
consommation mdicale mais ne tient pas compte des assurs ayant une sinistralit nulle.
Une bonne loi nous permettant de modliser la consommation mdicale serait donc une
distribution de mme type quune loi gamma mais dfinie en 0 pour tenir compte de la non-
consommation.
Une solution est de supposer que les cots des sinistres suivent une loi de Tweedie.
Les lois de Tweedie forment une sous-classe des modles de dispersion exponentielle, eux-
mmes tant un sous-groupe de la famille exponentielle. La particularit dune loi de
Tweedie est de lier variance et esprance selon la relation suivante :
& =
est le paramtre de dispersion et p un paramtre supplmentaire positif nappartenant pas

]0 ;1[. De cette formule on constate :
p = 0 : la distribution obtenue est une Normale ;
CNAM 2015/2016 71
p = 1 : la distribution obtenue est une Poisson ;

p = 2 : la distribution obtenue est une Gamma ;
p = 3 : la distribution obtenue est une Inverse Gaussienne.
Les distributions Normale, Poisson, Gamma et Inverse Gaussienne sont donc des cas
particuliers de loi Tweedie. Pour dautres valeurs de p, les distributions sont toujours dfinies
mais ne peuvent pas tre crites dans une forme finie, et sont difficiles de les estimer.
Lorsque 1 < p < 2, les distributions sont continues pour Y >0, et une masse positive pour Y =
0 est dfinie. Cela revient supposer un comportement suivant une loi compose Poisson-
Gamma. Lintrt de ce type de lois est quelles permettent de grer un nombre important de
valeurs nulles. Pour p > 2, les distributions sont continues pour Y suprieur zro. Le choix
de p se fait en analysant les rsidus. Les deux graphiques ci-dessous illustrent leffet de la
valeur de p sur la distribution.
Figure 3916 : Exemple de loi de Tweedie pour p=1.667
Lorsque p est proche de 2, sa densit ressemble une loi gamma ayant une masse en 0. En
revanche, lorsque p se rapproche de 1, la densit se discrtise : elle perd
progressivement sa masse en 0 et fait tat de pics de concentration, mettant en vidence
linfluence de la loi de Poisson.
16
Graphique extrait de Predictive Modeling with the Tweedie Distribution , Glenn Meyers, CAS
Annual Meeting, 16 Novembre 2009.
CNAM 2015/2016 72
Figure 4017 : Exemple de loi de Tweedie pour p=1.02
La loi de Tweedie en tant que loi compose Poisson-Gamma, peut tre vue travers le
prisme du modle dactuariat collectif. Considrons une variable alatoire Y modlisant un
montant de sinistre annuel dfinie par :

= :

O les Xi sont des variables alatoires strictement positives indpendantes et identiquement

distribues suivant une loi Gamma.
N est une variable alatoire suppose indpendante des Xi suivant une loi de Poisson.
Y est distribue selon une loi de Poisson compose (ici Poisson-Gamma), i.e. une loi de
Tweedie avec 1<p<2. La loi de Tweedie est donc une loi intressante pour modliser une
charge annuelle.
Dans le cadre de notre tude, considrer une loi de Tweedie pour modliser la
consommation mdicale annuelle des bnficiaires revient donc faire les hypothses
suivantes :
17
Graphique extrait de Predictive Modeling with the Tweedie Distribution , Glenn Meyers, CAS
Annual Meeting, 16 Novembre 2009.
CNAM 2015/2016 73
1. La consommation annuelle est compose dun nombre alatoire de sinistres, par

exemple le nombre de fois o lon achte des mdicaments au cours de lanne. Ce
nombre est suppos suivre une loi de Poisson ;
2. Les montants de sinistres sont indpendants et identiquement distribus selon une loi
Gamma ;
3. Le nombre de sinistres est indpendant de leur cot : on retrouve ici lhypothse

dindpendance entre frquence et cot.
Le point 1. ne peut tre directement test sur nos donnes car nous ne connaissons avec
certitude que la consommation annuelle globale par poste mdicale. En outre il nest pas
toujours ais de diffrencier des dpenses relatives un vnement o un autre, par
exemple pour des dpenses en pharmacie. Ceci peut rendre les frquences observes
peu fiables. Par ailleurs, il est assez rpandu en modlisation de considrer la frquence
comme suivant une loi de Poisson. Il ne semble dailleurs pas inappropri de considrer la
consommation annuelle comme une somme de sinistres survenus au cours de lanne.
Par ailleurs, comme voqu prcdemment, la corrlation existant entre frquence et cot
en sant est assez souvent souligne mais majoritairement nglige. Le point 2. Napparat
donc pas bloquant.
Concernant le point 3, on a pu vrifier que la distribution des charges annuelles totales ou

par poste peut tre approche par une loi Gamma.
C. Rsolution dun modle linaire gnralis

Dans le cadre de notre tude, nous considrons un ensemble de variables alatoires Yi=1n
indpendantes et identiquement distribues suivant une loi de la famille exponentielle, donc
de densit :
? *
? | , = exp + ? ,
.
La fonction de vraisemblance scrit donc :
L L
L ? L *
, |? = ? | , = exp + ? ,
.

On suppose en outre que les sont fonctions dun ensemble de p paramtres .
En reprenant les notations et les hypothses vues en dbut de partie, on suppose dans le
cadre de notre modlisation :
8 p = :
O :
CNAM 2015/2016 74
p =
: est le vecteur p x 1 contenant les variables explicatives pour lindividu ou lobservation i.
est le vecteur p x 1 contenant les paramtres
Comme nonc prcdemment, on a bien un modle dont les trois lments fondamentaux
sont :
La composante alatoire : les variables Yi=1n suivant une loi de la famille

exponentielle ;
La composante dterministe : le vecteur de paramtres ainsi que la matrice (n,p) X

dont les lignes sont les : .On suppose cette matrice de rang p, ce qui revient dire

que : :est inversible ;
La fonction de lien g permettant la relation : 8 p = : . On note = : le prdicteur

linaire.
Pour rsoudre le modle, une hypothse supplmentaire est faite : les Yi sont identiquement
distribus conditionnellement aux Xi.
Pour que notre modle soit prdictif et puisse estimer les p , il doit estimer les paramtres
ainsi que le paramtre de dispersion si celui-ci est inconnu. En rgle gnral, les
paramtres sont estims par maximum de vraisemblance.
Pour ce faire, on sintresse tout dabord la log-vraisemblance. En effet, maximiser la

vraisemblance revient maximiser la log-vraisemblance qui est gnralement plus
commode manipuler. Dans notre cas la log-vraisemblance scrit en simplifiant :
L L
? *
/ , |? = /,8 , |? = + ? , = /
.

On rappelle que les sont fonctions des . Ainsi, pour dterminer les paramtres
maximisant la vraisemblance, il suffit de driver la log-vraisemblance et dcrire les
conditions du premier ordre. En reprenant les notations prcdentes on a, pour tout i=1n et
/ / p p ? p
tout j=1p :
= = :
p &
Les quations que lon doit rsoudre peuvent donc scrire, pour tout j=1p, ainsi :
L L
/ , |? / p ? p
= = : =0
&

CNAM 2015/2016 75
Les solutions de ces quations non-linaires ne sont pas explicitement formulables car ces
quations ne peuvent tre rsolues analytiquement. Cependant elles peuvent ltre
numriquement. Les logiciels calculent donc les estimations en utilisant un algorithme itratif
pour la rsolution dquations non linaires. Les estimations au sens du maximum de
vraisemblance sont approches numriquement, par itration successives. Les deux
algorithmes les plus utiliss sont :
Newton Raphson
Score de Fisher
Le paramtre de dispersion peut aussi tre calcul par maximum de vraisemblance en

ayant recours des mthodes itratives. Prcisons enfin que pour certaines lois, des
particulier dans les cas o le paramtre de dispersion sloigne de 1.

mthodes plus labores peuvent parfois tre ncessaires (quasi-vraisemblance), en
CNAM 2015/2016 76
D. Qualit dun modle
1. Adquation du modle
La qualit dun modle peut tre mesure en tudiant la diffrence entre les observations
relles et les prdictions. Deux indicateurs sont utiles pour juger de ladquation du modle
aux donnes :
Dviance ;
Statistique ou test du khi-deux de Pearson.
La dviance est ainsi dfinie :
6,-/ 1w-0
= 2,8
6,-/ 2.1w
Elle nous informe sur la qualit du modle en comparant sa log-vraisemblance celle du

modle satur. Le modle satur possde autant de paramtres quil y a dobservations. Il
ajuste donc exactement toutes les valeurs de la variable de rponse Y.
La dviance suit une loi du chi-2 dont le nombre de degrs de libert est celui qui spare les
deux modles. Sa valeur attendue est donc son nombre de DDL puisque la moyenne
dun chi-2 est ce nombre de DDL.
La statistique du khi-deux de Pearson permet de comparer les valeurs observes aux

prvisions du modle. La statistique du test est dfinie par :
? pA@
# =
pA@
&.
Elle admet asymptotiquement la mme loi que la dviance. En pratique, dviance et

Statistique de Pearson doivent fournir les mmes informations.
Sachant que lesprance dune loi du Khi-deux est son nombre de degrs de libert et,
connaissant les aspects approximatifs des tests construits, lusage est souvent de comparer
les statistiques avec le nombre de degrs de libert. On identifie en pratique la Dviance et
la statistique de Pearson leur moyenne que lon compare au nombre de degrs de libert.
On parle alors de dviance et de test de Pearson normalise, respectivement scaled
deviance et scaled Pearson Chi-square en anglais. Un modle peut tre jug
satisfaisant pour un rapport de la dviance avec le nombre de dgr de libert proche de 1.
Enfin, on notera que pour certaines modles spcifiques comme les modles de Poisson, il
est possible de dfinir la dviance D* telle que :

=
-
CNAM 2015/2016 77
O - est un paramtre de dispersion diffrent de 1. Cela permet dtudier la qualit dun

modle sujet un phnomne de surdispersion. Lorsque ce paramtre est inconnu, il peut
tre estim par maximum de vraisemblance ou de manire plus simple mais moins prcise
comme gale la Dviance normalise ou la statistique de Pearson standardise du
modle divis par le nombre de degrs de libert de la loi du Chi-2 correspondante.
2. Test sur les coefficients des modles
Dans tout modle linaire gnralis, il est ncessaire de tester la fiabilit des coefficients
gnrs. Pour rappel ces coefficients sont le plus souvent calculs par maximum de
vraisemblance. Le test de Wald est un test de significativit des coefficients de rgression
base sur la proprit de normalit asymptotique de l'estimation du maximum de
1
vraisemblance et se calcule comme suit :
=* *
&. *
Dans cette formule, b est le paramtre estim et Var(b) la variance asymptotique du

paramtre estim. La statistique de Wald est teste par rapport la distribution du Chi. Ce
test permet en outre de dfinir des intervalles de confiance pour chacun des coefficients
un seuil donn (par exemple 95%).
En pratique on emploie souvent le test de Wald pour conclure lutilit de conserver une
modalit. En cas de test non significatif, la modalit en question peut tre regroupe avec
une modalit proche (par exemple dans le cas de lge) ou de la modalit de rfrence (pour
une variable qualitative).
3. Analyse des rsidus et valeurs aberrantes
Lobservation des rsidus est aussi intressante pour valuer la prcision du modle et
identifier les donnes mal modlises. Deux types de rsidus nous intressent ici :
Rsidus de dviance
Rsidus de Pearson
Lanalyse des rsidus permet de reprer des valeurs aberrantes ou mal modlises. L o la
dviance et la statistique de Pearson donne un aperu gnral de la qualit du modle, les
rsidus permettent une vision plus dtaille.
Par dfinition, les rsidus sont obtenus en comparant valeurs observes et valeurs prdites
par le modle. Il est de plus cohrent de pondrer cette diffrence par la dispersion, i.e. par
lcart-type observ des valeurs. On obtient les rsidus de Pearson :
? pA@
=
pA@
&.
CNAM 2015/2016 78
On note que la statistique du chi-2 de Pearson correspond la somme des carrs de ces
rsidus. Le rsidu de chaque observation nous informe donc sur le poids de chaque donne
dans cette statistique. Une version standardise de ces montants existe, tenant compte de
leffet de levier propre chaque observation.
De la mme manire, les rsidus de dviance indiquent la contribution de chaque
- = 208 ? p
observation la dviance du modle. Ils sont dfinis par :
Avec dfinis tels que :
= = -
Prcisons ici que les rsidus de la dviance suivent une loi Normale quelle que soit la loi de
la variable Y modlise. La distribution Normale des rsidus de Dviance constitue donc un
critre de validation dun GLM.
Enfin, un bon moyen didentifier les variables les plus influentes sur la prcision du modle
est de modliser la distance de Cook qui mesure linfluence dune observation sur l'quation
de rgression. Elle reprsente la diffrence entre les coefficients de rgression calculs et
les valeurs qui auraient t obtenues si l'observation correspondante avait t exclue de
l'analyse. Toutes les distances de Cook doivent tre du mme ordre de grandeur ; si ce n'est
pas le cas, il y a de bonnes raisons de penser que la ou les observations respectives
biaisent l'estimation des coefficients de rgression.
CNAM 2015/2016 79
PARTIE 5 - RESULTATS
A. Adquation du modle
Observons lapplication de notre modlisation sur nos donnes. On sintresse tout dabord
aux critres dajustement du modle aux donnes.
Figure 41 : Sortie SAS sur l'adquation du modle
On observe dans le premier tableau que la dviance normalise est exactement gale 1
alors que la dviance non normalise en est trs loigne. Ceci vient du fait que lutilisation
dispersion diffrent de 1. Nous avons en effet montr que la fonction de Variance dune loi
de la loi de Tweedie comme loi de distribution de nos donnes implique un facteur de
de Tweedie scrit : & = .
Dans notre cas est trs diffrent de 1 car la Dviance normalise lest aussi. Il y a donc un
phnomne de surdispersion si lon ne tient pas compte de . La surdispersion se produit
lorsque la variabilit des donnes est suprieure ce que le modle peut prvoir. Ce
phnomne se produit gnralement dans le cas dun modle de Poisson o lon suppose
de fait que la Variance et lesprance des donnes sont gale, ce qui est rarement le cas en
pratique. Or la loi de Tweedie employe ici est une loi compose Poisson-Gamma.
de au lieu de le supposer gal 1. SAS ajuste alors ce coefficient de dispersion de faon

Dans le cadre de notre tude, il est ncessaire de paramtrer SAS afin quil tienne compte
obtenir une dviance standardise de 1. Cest pourquoi, nous obtenons en sortie de SAS un
paramtre dchelle ( scale parameter ) du modle est gale 6,4 environ. En effet, ce
aussi la racine carr de . Ce paramtre peut aussi tre calcule par maximum de
paramtre est calcul comme la racine carre de la Dviance Standardise et correspond
vraisemblance. Tenant compte du facteur de dispersion, on obtient un bon rsultat du Test

de Khi-2 de Pearson, indiquant une adquation du modle aux donnes globalement bonne.
B. Tests de Wald sur les coefficients

Concernant les variables explicatives de modlisations, les tests de Type 1 et de Type 318
indiquent quelles peuvent toutes tre conserves, comme le prdisaient dj lalgorithme de
slection de variables. En revanche, les tests de Wald ne sont pas significatifs pour certaines
modalits de variables telles que :
18
Les rsultats de ces tests sont disponibles en annexe.
CNAM 2015/2016 80
Les ges suprieurs 90 : ces ges seront regroups pour une meilleure stabilit.
Les zones gographiques 6 et 7 : elles semblent ngligeables en termes deffet de

consommation et peuvent tre regroupes avec la zone 8 qui compte de nombreux
dpartements. On obtient ainsi un Zonier comportant 6 zones : 2 partageant la rgion
Ile-de-France qui compte les dpartements les plus consommateurs, 4 pour le reste
des dpartements.
Les secteurs dactivits Production et distribution d'eau ; assainissement, gestion

des dchets et dpollution et Arts, spectacles et activits rcratives .
Linstabilit du test de Wald pour ces deux secteurs provient trs probablement de
leur trs faible importance au sein du portefeuille. Une tude ad-hoc de ces secteurs
partir de donnes plus compltes devra tre ralise ultrieurement. En effet ces
secteurs apparaissent comme les deux secteurs les moins consommateurs mais leur
trop faible part dans le portefeuille rend douteux le bien-fond de ce rsultat.
Les tests de Wald ne sont pas significatifs pour les catgories 50-99, 100-299, 4000-
5000 et 20-49. Lorsque lon reprsente les effets multiplicatifs dans un graphe, il
demeure difficile de conclure une tendance particulire li la taille de lentreprise.
Figure 42 : Effet de la taille de l'entreprise sur la consommation
En effet, il paratrait trange de considrer un effet positif sur la consommation lorsque la

taille de lentreprise appartient la catgorie 300-499 ou 1000-1999 salaris et ngatif
lorsque celle-ci est dans la catgorie 500-999 salaris. En outre nous avons constat lors de
lanalyse descriptive que le portefeuille tudi ntait pas rpartie de manire homogne
entre ces catgories avec un dsquilibre en faveur des entreprises de taille importante,
notamment celles de plus de 5000 salaris. Ltape de la slection de variables nous a par
ailleurs indiqu que la taille est lune des variables de modlisation les moins pertinentes.
Ces observations nous poussent donc carter cette variable de modlisation, dans lattente
dune tude plus significative, du fait dun manque de fiabilit et possiblement de robustesse.
L effet taille napparat ainsi pas pertinent dans notre tude pour modliser la
consommation mdicale.
CNAM 2015/2016 81
C. Analyse des rsidus

Lanalyse des rsidus nous renseigne sur le comportement du modle. Dans notre cas, il
apparat clairement les rsidus de dviance diffrent selon le poste mdical. En effet, les
donnes employes tant tries par poste, on observe lexistence de paliers dans le graphe
ci-dessous :
Figure 43 : Rsidus de dviance
Les donnes possdant les rsidus les plus hauts, celles du milieu du graphique,
correspondent au poste Hospitalisation. Les rsidus importants correspondant aux premires
observations sont ceux observs sur le poste Dentaire. Les postes Honoraires, Optique et
Pharmacie ont quant eux des rsidus relativement similaires et infrieurs. Ceci est peu
surprenant dans la mesure o les montants de dpenses possdent une dispersion trs
diffrente selon le poste concern.
Il est par ailleurs intressant de relever que des rsidus similaires sont observs, que lon
crte poste par poste ou partir dun mme seuil pour tous les postes, par exemple 3000
euros.
CNAM 2015/2016 82
Figure 44 : Rsidus de Pearson
Les rsidus de Pearson et la distance de Cook corroborent les rsultats des rsidus de
dviance. La distance de Cook (cf. Figure 45) permet de mettre en vidence 3 ou 4
observations dont linfluence est suprieure aux autres. Leur distance de Cook tant
suprieure ou gale 0,003, leur influence reste donc trs limite sur la prcision du modle
global.
Figure 45 : Distance de Cook
CNAM 2015/2016 83
Malgr la disparit des rsidus qui semble directement corrle au type de poste mdical
modlis, on observe une distribution des rsidus pouvant sapparenter une loi Normale
(bien que de Kurtosis suprieure).
Figure 46 : Distribution des rsidus
La distribution normale des rsidus permet de valider le modle utilis. Cependant, dautres
indicateurs peuvent tre employs. Une premire indication intressante peut tre
dobserver les rsidus pour les bnficiaires ayant consomm au cours de lanne. Cela
permet notamment dapprcier la manire dont la loi de Tweedie modlise la svrit des
sinistres. La figure 47 montre que la distribution des rsidus savre proche dune loi normale
lgrement dissymtrique. La loi Gamma sous-jacente au modle Tweedie modlise donc
de manire acceptable les consommations non-nulles.
CNAM 2015/2016 84
Figure 47 : Rsidus observs pour une consommation strictement positive
Un autre indicateur plus oprationnel consiste comparer la prime moyenne modlise avec
la consommation relle pour une classe donne. On peut en outre rapprocher cette
comparaison avec le poids de chaque classe, ce qui permet de juger si le modle est
performant sur une part importante du portefeuille. Dans notre cas, le poids correspond la
somme des expositions des observations dun groupe. Un indicateur couramment utilis est
le Lift Chart. Ce dernier se construit ainsi :
1. Gnrer les valeurs prdites par le modle pour chaque observation de la base ;
2. Classer les observations par ordre croissant de leur valeur prdite par le modle ;
3. Regrouper les observations classes en un nombre arbitraire de groupes de taille
homogne ;
4. Comparer pour chaque groupe la valeur prdite moyenne avec celle observe ;
5. Ajouter lexposition de chaque groupe.
CNAM 2015/2016 85
Consommation Exposition
300 64000
250 62000
60000
200
58000
150
56000
100
54000
50 52000
0 50000
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
Groupes d'observations
Exposition Conso obs. Modle
Figure 48 : Lift Chart du modle
Le Lift Chart ci-dessus indique la bonne performance du modle sur chacun des 25 groupes
dobservations constitus. Remarquons par ailleurs que le principe du Lift Chart peut se
dcliner sur de multiples granularits, comme illustr dans le graphique ci-dessous, dtaillant
les valeurs prdites par ge ainsi que lexposition cumule. Cela peut aider identifier les
catgories les moins bien modlises.
400 300%
350
250%
300
Exposition cumule
200%
Cout annuel
250
200 150%
150
100%
100
50%
50
0 0%
0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85
Age
Expo cum Conso Moy. Observe Modle
Figure 49 : Modle vs Consommation relle sur le poste Honoraires
On observe notamment dans ce graphique une lgre sur-tarification sur le poste Honoraires
sur le segment 20-30 ans.
Finalement, les diffrents lments prsents tendent valider thoriquement et

oprationnellement le modle employ. Cela tant, lavantage et linconvnient dun modle
Tweedie est quil est unique. Dans le cadre de notre tude, les dpenses relatives des
postes diffrents sont modlises ensemble. On obtient ainsi des facteurs explicatifs
CNAM 2015/2016 86
globaux, i.e. tous postes confondus. Malgr la disparit des cots modliss et lhypothse
forte dune loi de Poisson (sous-jacente dune loi de Tweedie) pour dcrire la frquence des
sinistres, le modle conserve une prcision trs correcte, bien que pouvant gnrer une
lgre sur-tarification comme nous lavons observ.
Plusieurs pistes peuvent tre envisages pour amliorer le pouvoir prdictif ou la versatilit
de ce modle :
Lorsque cela est possible, modliser sparment frquence et cot moyen. Une loi
de Tweedie suppose une loi de Poisson modlisant la frquence des sinistres. Or
cette frquence est parfois mieux modlise par une loi binomiale ngative, moins
disperse.
Raliser un modle par poste. Ceci permet une meilleure adquation des modles
aux donnes et des rsidus moindres. La masse en zro et la modlisation de la
svrit spcifiques aux diffrents postes sont ainsi mieux modlises. En effet, un
modle de Tweedie est moins souple quun modle Frquence-Cot moyen
classique car il lie de fait lajustement de la frquence celle du cot. Ainsi on
pourrait envisager de modliser une prime pour chaque poste mdicale et dobtenir
des variables explicatives globales en ralisant une rgression supplmentaire sur
les valeurs prdites par chaque modle.
Bien videmment, linconvnient de ces pistes damlioration est la multiplication des

modles ajuster. Il va de soi que la mthodologie employe doit sadapter au type dtude
et au rsultat souhait en arbitrant entre la souplesse du modle et sa prcision.
D. Analyse des effets discriminants

Comme indiqu au paragraphe prcdent, le modle employ nous permet de dgager
diffrentes informations et effets impactant la consommation mdicale du portefeuille
observ.
1. Anne
Cette tude met en avant une hausse de la consommation de +1,8% entre 2011 et 2012.
Cette valeur tant bien entendu dcorrle des autres effets tudis tels que lge, le collge
etc.
Elle pourra tre compare aux valeurs de drives de consommation annuelle utilise dans le
cadre du renouvellement des contrats collectifs et de leur majoration. Elle gagne aussi tre
rapproche de lvolution du PASS : entre 2011 est 2012, le PASS a volu de 1,03%.
Le modle nous indique donc que la drive hors PASS appliquer aurait d tre entre 0,5%
et 1%.
2. Age
CNAM 2015/2016 87
2,5
Coefficient multiplicateur
1,5
0,5
0
0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85
Age
Femme Homme
Figure 50 : Effet multiplicatif Age - Sexe
Les coefficients dge et de sexe obtenus sont informatifs de nombreux gards. En effet,
on observe tout dabord labsence deffet dans la consommation des Enfants de 20 ans
et moins. Un pic de consommation ladolescence est trs clairement observ. Une
modlisation poste poste montre que ce pic provient directement de dpenses relatives au
poste Dentaire. En outre, la consommation des hommes et des femmes diffrent en de
nombreux ges, ce qui corrobore le choix davoir li les effets Age et Sexe :
Pour les femmes, la consommation mdicale saccentue de 20 30 ans, se stabilise

ensuite jusqu 40 ans avant daugmenter de manire peu prs linaire jusqu 85
ans.
La consommation des hommes reste quant elle stable de 20 30 ans avant de

progresser linairement jusqu atteindre celle des femmes entre 70 et 75 ans.
Il ne semble pas y avoir deffet sexe au-del de 75 ans.
3. Zone
Comme vu prcdemment, les tests de Wald pour la Zone nous poussent regrouper les
zone 6, 7 et 8. Par ailleurs, lobservation des effets indiquent que les Zones 3 et 4 ont des
effets similaires du point de vue de la consommation.
CNAM 2015/2016 88
Figure 51 : Effet multiplicatif de la zone gographique
En regroupant ainsi les dpartements, on obtient finalement un ensemble compos de 5

groupes gographiques distincts :
Zone 1 : Paris, Yvelines, Hauts-de-Seine, Alpes-Maritimes ;
Zone 2 : Seine-Saint-Denis, Val-de-Marne, Val dOise ;
Zone 3-4 : 20 dpartements dont Essonne, Seine-et-Marne, les Bouches-du-Rhne,

Gironde, Rhne
Zone 5 : 10 dpartements
Zone 6-7-8 : reste des dpartements franais
Comme on pouvait sy attendre, lIle-de-France est clairement la rgion la plus chre en

termes de consommation mdicale. Toutefois, on observe des disparits importantes entre
les dpartements parisiens chers et les autres. Par ailleurs le sud-est ainsi que certaines
zones gographiques lies des grandes villes (Bordeaux, Marseille, Lyon) sont elles aussi
plus consommatrices. Ceci tant vraisemblablement corrl au prix de limmobilier dans ces
zones. Enfin on peut supposer que le regroupement des dpartements et les effets observs
sont aussi corrls loffre de soins, notamment au nombre de mdecins prsents dans ces
rgions.
Les rsultats obtenus indiquent ainsi que le zonier de 4 zones actuellement employ
pourrait tre affin et lgrement rorganis en un zonier 5 zones. Ce dernier scinderait
notamment lIle-De-France et la Province pour une meilleure segmentation.
4. Option
Le modle nous indique que le surcout de consommation li une option est denviron
+16%. Ceci sexplique par ladhsion facultative aux options qui entrane une anti-slection
importante par rapport aux contrats de base dont ladhsion est obligatoire.
CNAM 2015/2016 89
5. Collge
Les coefficients obtenus pour les diffrents collges sont tout fait cohrents avec les
attentes, comme lillustre le graphique ci-dessous.
Figure 52 : Coefficient multiplicatif du collge
On observe un faible cart entre limpact de consommation des catgories Ensemble du

Personnel et Non Cadre . Elles pourraient tre regroupes mme si lon prfre les
conserver distinctes dans les outils de tarification. En effet Ensemble du personnel
dsigne les contrats pour lesquels lensemble des salaris (cadres et non cadres) est tarif
de manire uniforme sans tenir compte de leur statut respectif mme sil compte bien
souvent plus de non Cadres que de cadres.
6. Secteurs dactivits
Comme dit prcdemment, les tests de Wald ne sont pas significatifs pour les deux secteurs
apparaissant les moins consommateurs. Pour les autres, les conclusions sont sensiblement
identiques celles obtenues lors de lanalyse descriptive.
CNAM 2015/2016 90
146%
135%
132% 134%
126% 128% 127% 123%
119%
115%
100%
77%
73%
Figure 53 : Coefficient multiplicatif du secteur d'activit
On constate toujours la prdominance des secteurs Banque-Finance-Immobilier, suivie par

le Transport et la Sant. Cependant, la faible part du portefeuille sur les activits de Sant et
dAction Sociale nous pousse douter de la pertinence de ce rsultat, ce malgr la
significativit des tests de Wald. Un approfondissement pourrait tre ncessaire afin de
dterminer plus prcisment les clients en portefeuille sur ce secteur.
Cette variable apparat toutefois significative et gagnerait tre intgre aux outils de
souscription. Certains secteurs dactivit pourtant assez loigns semblent influer de
manire similaire sur la consommation mdicale. On pourrait ds lors regrouper certains
secteurs tels que Commerce, Construction et Industrie manufacturire, comme lillustre la
Figure 53 ci-dessus. Un tude ad hoc demeure cependant ncessaire pour confirmer que la
segmentation NAF agrge utilise ici comporte un homognit suffisante au sein de
chacune de ces modalits.
7. Niveaux de garanties
Le modle nous fournit aussi des rsultats permettant de comparer linfluence des niveaux
de garanties de chacun des postes sur la consommation. A lexception du poste Honoraires
on observe que le Niveau 5 a gnralement un impact trs limit et peut tre regroup avec
le niveau 4. En Hospitalisation, le niveau de garanties de garanties semble navoir
pratiquement aucun impact. Pour le poste Honoraires les niveaux 2 et 3 peuvent tre
regroups au vue de leur effet.
CNAM 2015/2016 91
1,7
Optique
1,5
1,3 Honoraires
1,1
Dentaire
0,9
0,7
Pharmacie
0,5
0,3 Hospitalisation
Niv. 1 Niv. 2 Niv. 3 Niv. 4 Niv. 5
Figure 54 : Impact des niveaux de garanties sur la consommation par poste
Les impacts tant plutt visibles sur les trois premiers niveaux de garanties, il pourrait
savrer utile de les segmenter de manire plus dtaille et homogne pour une
modlisation plus fine.
E. Consquences oprationnelles
Ltude ralise dans le cadre de ce mmoire a eu plusieurs rpercussions oprationnelles.
Elle a en premier lieu permis de challenger les effets multiplicatifs de diffrents facteurs :
ge, sexe, zone, option etc. Cela a permis un ajustement des coefficients employs et donc
des barmes tarifaires.
Figure 55: Impact sur les barmes
CNAM 2015/2016 92
La variable Niveau de garantie a, en outre, permis la comparaison, profil identique, des

tarifs obtenus par les outils de souscription au regard de la consommation avec les rsultats
du GLM. Un back-testing a ainsi pu tre ralis sur certains contrats en portefeuille. Il sest
appuy sur la base des profils moyens des bnficiaires prsents sur une partie plus
importante du portefeuille Generali pour des contrats souscrits entre 2012 et 2014.
Figure 56 : Impact sur la part des postes dans la consommation
Les carts observs ont ainsi pu tre tudis par les services de souscription et ont impliqu
la modification des barmes pour certains sous-poste ou actes. En consquence, ces
travaux ont eu des consquences non ngligeables sur la politique de souscription : le
budget commercial a t ajust du fait dune meilleure adquation des barmes la ralit.
Enfin, cette tude a mis en lumire diffrents lments relatifs aux variables explicatives :
La Taille des entreprises napparat pas discriminante au regard de la consommation

observe ;
Le zonier actuel 3 modalits (hors Alsace Lorraine) pourrait tre affin pour une
meilleure segmentation des tarifs ;
Le secteur dactivit apparat pertinent pour expliquer la consommation mdicale et

cette piste damlioration des outils gagnera tre explore plus avant.
CNAM 2015/2016 93
CONCLUSION
Cette tude a t loccasion de se confronter aux principales problmatiques rpandues en
tarification sant et plus gnralement en non-vie. La modification de barmes demeure
complexe mettre en uvre en assurance collective, qui est un march de sur-mesure, o
laccs aux niveaux de garanties des contrats est difficile, ce qui implique un important travail
de cartographie du portefeuille en amont de la modlisation.
Dans le cadre de cette tude, nous avons pu constater que les modles linaires gnraliss
constituent une approche robuste pour la modlisation de la sinistralit, mettant en vidence
les principaux effets impactant la consommation mdicale. Lutilisation de la loi de Tweedie
au sein dun modle unique de Cot sest avre tre une alternative intressante au
classique modle Frquence-Cot moyen. Cette loi peut en effet palier un manque
dinformation concernant la frquence des sinistres, permettant la mise en uvre dun
modle prdictif partir de la seule sinistralit annuelle observe. Un modle Tweedie est
appropri ds lors que des hypothses classiques dun modle Frquence-Cot sont
satisfaites ou supposes : loi Gamma pour la svrit des sinistres, Poisson pour la
frquence. Les modles de cot unique restent malgr tout assez peu rpandus et les
travaux portant sur la loi de Tweedie sont assez peu nombreux. Il pourrait tre intressant de
comparer ces modles avec un modle Frquence-Cot moyen sur une base de donnes
approprie afin den dterminer les impacts en termes de prcision et de stabilit. Nous
avons toutefois pu tester lapplication dun modle de ce type sur la consommation en sant,
tout poste confondu, et les rsultats obtenus se sont avrs cohrents et en phase avec les
donnes du march. Cependant, il pourrait savrer plus efficace de modliser chaque poste
selon un modle propre, quittes raliser une rgression supplmentaire afin dobtenir des
effets globaux pour certaines variables explicatives. Cela permettrait lajustement dune loi
de Tweedie spcifique pour chaque poste, ce qui diminuerait les rsidus et amliorerait
ladquation du modle final.
En outre, la question des valeurs manquantes et de la qualit des donnes est toujours de
mise dans le cadre dtudes actuarielles. Limputation multiple est un moyen statistiquement
efficace pour infrer de linformation dans une base incomplte. Son intrt premier est
dobtenir des coefficients de rgression tenant compte de la variabilit des donnes
imputes qui diffrent par nature des donnes observes. Dans cette tude, les valeurs
imputer taient numriques, et de structure univarie, ce qui a facilit le choix de la mthode
employer. Limputation par score de propension savre intressante lorsque les
hypothses habituelles de normalit sont inadquates. Pour des problmes plus
contraignants tels que des donnes manquantes qualitatives ou de structure non monotone,
il est ncessaire de recourir des mthodes plus labores : Monte-Carlo par Chaine de
Markov ou Fully-Conditionnal Specification essentiellement. Ici, le nombre de valeurs
manquantes tait peu lev et lon aurait pu en pratique ne considrer que les cas complets
malgr le biais induit. Nanmoins, la question des donnes manquantes se pose toujours et
ce phnomne pourrait persister avec le dveloppement du big data et le traitement de
donnes non structures. Or limputation multiple reste ce jour une des mthodes les plus
robustes et performantes pour traiter cette problmatique.
CNAM 2015/2016 94
Par ailleurs, les arbres de dcisions se sont avrs tre un outil efficace pour raliser une
premire segmentation de variables explicatives comportant un nombre jug trop important
de modalits. Leur mise en uvre relativement simple les prsente mme comme une
alternative possible aux modles de tarification classiques comme les GLM, en assurance
individuel par exemple. Ils constituent aussi une mthode de slection de variables part
entire. Lalgorithme Stepwise de slection de variables a dailleurs fourni des rsultats
cohrents avec larbre de rgression. Les indicateurs telles que lvolution PRESS ou le
critre dAkaike restant informatifs mme lorsque les hypothses de normalit sont violes.
Nous avons aussi pu tester quelques applications de la thorie des valeurs extrmes. Celle-
ci est peu utilise pour le risque sant o lcrtement a moins dimpact que dans dautres
branches. Nanmoins, les seuils dcrtement retenus, assez levs, ont cibl les quelques
montants de consommations inhabituelles. En outre les excs moyens estims sont assez
proches des observations relles et restent relativement modrs du point de vue de la
charge crte comme on pouvait sy attendre.
La mthodologie employe a ainsi montr son oprationnalit en permettant la mise jour

du tarificateur utilis pour la souscription de contrats. Elle a aussi confirm la pertinence des
variables explicatives actuellement utilises (ge, sexe, zonier), ainsi que du secteur
dactivit. Son intrt rside, notre sens, dans son adaptabilit un grand nombre dtudes
de tarification et de sinistralit et il nous apparat donc certain que nous nous y rfrerons
nouveau au cours des prochaines annes.
CNAM 2015/2016 95
TABLES DES FIGURES

Figure 1 : Dcomposition des frais de sant .......................................................................... 9
Figure 2 : Fonctionnement de lassurance collective ............................................................10
Figure 3 : Cotisations 2013 collectes au titre de lassurance sant (Mds ) ........................14
Figure 4 : Dcomposition de l'activit sant des organismes complmentaires ....................15
Figure 5 : Rsultat technique des organismes en assurance sant collective (exprim en
porcentage de chiffre daffaires) ...........................................................................................16
Figure 6 : Consommation par anne ....................................................................................21
Figure 7 : Consommation par grands postes ........................................................................21
Figure 8 : Consommation par type de bnficiaires ..............................................................22
Figure 9 : Consommation par collge ...................................................................................23
Figure 10 : Consommation par sexe .....................................................................................24
Figure 11 : Consommation par ge (Adulte) .........................................................................25
Figure 12 : Consommation par ge (Enfant) .........................................................................26
Figure 13 : Consommation par type de contrat .....................................................................27
Figure 14 : Consommation par secteur dactivit ..................................................................27
Figure 15 : Consommation par taille dentreprise..................................................................28
Figure 16 : Consommation par dpartement du bnficiaire.................................................29
Figure 17 : Consommation par dpartement de lentreprise .................................................30
Figure 18 : Consommation par qualit du bnficiaire ..........................................................31
Figure 19 : Schmas de donnes manquantes ....................................................................33
Figure 20 : Processus d'imputation multiple..........................................................................36
Figure 21 : QQ-Plot de la distribution de la variable ge avec une loi Normale ....................39
Figure 22 : Sortie SAS aprs imputations .............................................................................40
Figure 23 : Classes dge .....................................................................................................44
Figure 24 : Regroupement des dpartements ......................................................................45
Figure 25 : Corrlations des dpenses entre postes mdicaux.............................................47
Figure 26 : V de Cramer des variables explicatives ..............................................................49
Figure 27 : Evolution des critres d'ajustement et de lerreur quadratique du modle
comportant toutes les variables ............................................................................................53
Figure 28 : Evolution des indicateurs de slection pour un modle comportant un nombre
restreint de variables indpendantes ....................................................................................54
Figure 29 : QQ-Plot de la consommation avec un plafond 5000 euros ..............................58
Figure 30 : Distribution des valeurs positives de consommation mdicale ............................58
Figure 31 : Adquation avec un loi de Pareto pour le poste Dentaire ...................................63
Figure 32 : Estimateur de Hill pour le poste Honoraires ........................................................64
Figure 33 : Moyenne des excs pour le poste Honoraires ....................................................65
Figure 34 : Dtermination du seuil d'crtement ...................................................................65
Figure 35 : Moyenne des excs sur le poste Dentaire ..........................................................66
Figure 36 : Comparaison des excs moyens estims et observs .......................................66
Figure 37 : Rsultats de l'crtement ...................................................................................67
Figure 38 : Illustration du principe de la rgression gaussienne............................................70
Figure 39 : Exemple de loi de Tweedie pour p=1.667 ...........................................................72
Figure 40 : Exemple de loi de Tweedie pour p=1.02 .............................................................73
Figure 41 : Sortie SAS sur l'adquation du modle...............................................................80
Figure 42 : Effet de la taille de l'entreprise sur la consommation ..........................................81
Figure 43 : Rsidus de dviance ..........................................................................................82
Figure 44 : Rsidus de Pearson ...........................................................................................83
Figure 45 : Distance de Cook ...............................................................................................83
Figure 46 : Distribution des rsidus ......................................................................................84
Figure 47 : Rsidus observs pour une consommation strictement positive .........................85
Figure 50 : Lift Chart du modle ...........................................................................................86
Figure 50 : Modle Tweedie ajust sur le poste Honoraires uniquement ..............................86
CNAM 2015/2016 96
Figure 51 : Effet multiplicatif Age - Sexe ...............................................................................88

Figure 52 : Effet multiplicatif de la zone gographique..........................................................89
Figure 53 : Coefficient multiplicatif du collge .......................................................................90
Figure 54 : Coefficient multiplicatif du secteur d'activit ........................................................91
Figure 55 : Impact des niveaux de garanties sur la consommation par poste .......................92
Figure 56: Impact sur les barmes .......................................................................................92
Figure 57 : Impact sur la part des postes dans la consommation .........................................93
CNAM 2015/2016 97
BIBLIOGRAPHIE
Donnees March :
FFSA, Rapport Annuel 2013
DREES, Etudes & Rsultats n0919 , Le march de lassurance complmentaire

sant : des excdents dgags en 2013, Juin 2015
Gras Savoye, Les marchs de lassurance en 2015, Note de conjoncture, 9

septembre 2014.
Valeurs manquantes
Hraud Bousquet, Traitement des donnes manquantes en pidmiologie :

application de limputation multiple des donnes de surveillance et denqutes, 3
juillet 2012 ;
Humphries, Missing Data & How to Deal: An overview of missing data, Population
Research Center ;
Garcia-Acosta, Clavel-Chapelon, Gestion des donnes manquantes, aberrantes et

incohrentes dans ltude de cohorte E3N, INSERM
Soley-Bori, Dealing with missing data: Key assumptions and methods for applied
analysis, Technical Report N4, 6 mai 2013.
Tweedie
Davidov, Modlisation de la variance dans l'analyse stochastique du passif des

polices, Universit du Qubec Montral, Novembre 2009
Zhang, Likelihood-based and Bayesian Methods for Tweedie Compound Poisson

Linear Mixed Models
Nguyen Tuan, Refonte du modle de prime pure en Multirisques Habitation, aide la

dcision dans la slection de modles
Meyers, Predictive Modeling with the Tweedie Distribution , ISO Innovative Analytics,
CAS Annual Meeting Session C 25, 16 novembre 2009
Modlisation GLM
Charpentier, Statistique de l'assurance, STT 6705V Statistique de l'assurance II,

Partie 1 - Assurance non-vie : tarification & provisionnement
Charpentier, Actuariat IARD - ACT2040 - Partie 6 - Modlisation des cots individuels

de sinistres
Vautrin, Elaboration dune mthode de tarification avec indicateurs de risque pour

des contrats complmentaires sant collectifs, ISUP, 2009
CNAM 2015/2016 98
Laboratoire Cedric, Modles Linaires Gnraliss, Prsentation de cours, Fvrier

2007 ;
Andrerson & al., A Practitioners Guide to Generalized Linear Models, 2007.
Arbres
Rakotomalala, fr_Tanagra_R_CART_algorithm.pdf,
eric.univ-lyon2.fr/~ricco/tanagra/fichiers/fr_Tanagra_R_CART_algorithm.pdf
Rakotomalala, fr_Tanagra_Tree_Post_Pruning.pdf
eric.univ-lyon2.fr/~ricco/tanagra/fichiers/fr_Tanagra_Tree_Post_Pruning.pdf
Rakotomalala, fr_Tanagra_Regression_Tree.pdf
eric.univ-lyon2.fr/~ricco/tanagra/fichiers/fr_Tanagra_Regression_Tree.pdf
Gonzalez, Segmentation (Cours CNAM 2010) disponible en ligne sur :

http://maths.cnam.fr/IMG/pdf/Segmentation_2010.pdf
Besse, Arbres binaires de dcision, Ressources de cours de lInstitut de

Mathmlatiques de Toulouse, disponible en ligne sur :
www.math.univ-toulouse.fr/~besse/Wikistat/pdf/st-m-app-cart.pdf
Habermehl, Kesner, Algorithmes d'apprentissage, Cours de lUniversit Paris Diderot

disponible sur :
https://www.irif.univ-paris-diderot.fr/~kesner/enseignement/iup/cours71.pdf
Ecrtement :
Boyer Chammard, Processus de surveillance et de majoration des contrats flottes

dentreprise dAXA France, 2008
Benlagha, Grun-Rhomme, Vasechko, Les sinistres graves en assurance

automobile : Une nouvelle approche par la thorie des valeurs extrmes, Revue
MODULAD N 39, 2009
Yamdjieu Ngadeu, Mariko, Statistique des extrmes : Thorie et application, 7 juin

2013
Tordjman, Mmoire de fin dtude au Master 280 Ingnierie Statistique et Financire

Universit Paris Dauphine, 2015
Savarre, Payre, Charge ultime nette de rassurance en RC corporelle : 2 modles

stochastiques pour les flottes automobiles, 2012
AAI, Fitting Tail Distributions, SAS Working Party, 2012
CNAM 2015/2016 99
ANNEXES
A. Code sas
1. Dfinitions des bibliothques
/*BASE GENERALI*/
libname MERCER "&groupe22/Mehdi_Arsalane/Sante_FM/Bareme 20-
300/MERCER/TABLES SAS/";
libname MEMOIRE "&groupe22/Mehdi_Arsalane/Sante_FM/MEMOIRE/";
libname GENE "&groupe22/Mehdi_Arsalane/Sante_FM/Bareme 20-
300/GENERATION/TABLES SAS/";
2. Traitement de base
data BM;
set Mercer.FUSION_POST_RETV5bis(where=(Deleg='MERCER'));
run;
Proc sort data=BM;by CONTRAT_GENERALI;run;

Proc sort data=Memoire.NAF;by CONTRAT_GENERALI;run;
/*Ajout secteur activit*/;

data BM;
merge BM(in=a) Memoire.NAF(in=b);
by CONTRAT_GENERALI;
if a;
run;
proc sql;
create table info as
select distinct Num_benef, Insee_ass, Qualite, College as Col_ANI,
Sexe, Date_naiss,year(Date_naiss) as annee_naiss
from Mercer.BENEF_MERCER_2011_2013CONTRAT;
quit;
proc import
datafile="G:/commun/Mehdi_Arsalane/Sante_FM/Bareme 20-
300/MERCER/INFOS SUP/age_enf.xlsx"
out=Age
dbms=excelcs
replace;
server='GF211289';
port=8561;
run;
Proc sort data=info;by annee_naiss;run;

Proc sort data=Age;by annee_naiss;run;
data info;
merge info(in=a) Age(in=b);
by annee_naiss;
if a;
CNAM 2015/2016 100

run;
proc sql;
create table CP as select distinct Insee_ass, Code_Postal
from Mercer.BENEF_MERCER_2011_2013CONTRAT
where not(missing(Code_Postal)) and Code_Postal<>0 ;
quit;
data CP;
set CP;
if Code_Postal<9999 then Dept=cats('0',substr(put(Code_Postal,10.-
L),1,1));
else Dept=substr(put(Code_Postal,10.-L),1,2);
run;
proc sort data=info;

by Insee_ass;
run;
proc sort data=CP;
by Insee_ass;
run;
data infoCP;
merge info(in=a) CP(in=b);
by Insee_ass;
if a and b;
run;
/**Vrifier que Num_benef est un nombre dans les deux tables !!!**/
proc sort data=Mercer.BM out=BM; by Num_benef;run;

proc sort data=infoCP; by Num_benef;run;
data BM;merge BM(in=a) infoCP;by Num_benef;if a;run;
proc sort data=BM out=BM nodup dupout=BM_ko;by annee;run;
proc sql;
create table BM2 as
select distinct annee, CONTRAT_GENERALI, Num_benef, Type_benef,

College, Col_ANI, Age, sexe_comp, Contrat_Option, Nb_Salaries,
nb_benef, Struc_fam, POSTE, NIV_GAR, NAF_CODE, NAF_lib, QUALITE, DPT
as DPT_CONTRAT, DEPT as DPT_BENEF, expo, id_adh, sum(FR) as FR,
sum(GENERALI)as GENERALI
from BM
group by annee, CONTRAT_GENERALI, Num_benef, Type_benef, College,

Col_ANI, Age, sexe_comp, Contrat_Option, Nb_Salaries, nb_benef,
Struc_fam, POSTE, NIV_GAR, NAF_CODE, NAF_lib, QUALITE, DPT_CONTRAT,
DPT_BENEF, expo, id_adh;
quit;
CNAM 2015/2016 101

/**********Transformer Num_benef en nombre !!!!**********/
/*Fusion BM2 avec Nb_Actes*/

proc sort data=Acte;by annee CONTRAT_GENERALI Contrat_Option
Num_benef Poste;run;
proc sort data=BM2;by annee CONTRAT_GENERALI Contrat_Option
Num_benef Poste;run;
data BM2;
merge BM2(in=a) Acte(in=b);
by annee CONTRAT_GENERALI Contrat_Option Num_benef Poste;
if a;
run;
proc sort data=carto_poste;by POSTE;run;
proc sql;
create table BM3 as
select *
from BM2
where POSTE
in('E_Dentaire','F_Honoraires','G_Hospitalisation','I_Optique','K_Ph
armacie');
quit;
data Memoire.BENEF_BASE;
set BM3;
run;
3. Bases par poste
/**************1) Constitution d'une base base agrge par sous-

poste*************************/;
PROC SQL;
CREATE TABLE BENEF_BASE_I AS
SELECT DISTINCT t1.annee,
t1.CONTRAT_GENERALI,
t1.Num_benef,
t1.Type_benef,
t1.Col_ANI,
t1.College,
t1.Age,
t1.sexe_comp,
t1.Contrat_Option,
t1.Nb_Salaries,
t1.nb_benef,
t1.Struc_fam,
t1.NAF_CODE,
t1.NAF_LIB,
t1.Qualite,
t1.DPT_CONTRAT,
t1.DPT_BENEF,
t1.expo,
CNAM 2015/2016 102

t1.POSTE, /*t1.SOUS_POSTE,*/
t1.NIV_GAR,
/* SUM_of_FR */
(SUM(t1.FR)) AS FR,
/* SUM_of_GENERALI */
(SUM(t1.GENERALI)) AS GENERALI,
/* SUM_of_Actes */
(SUM(t1.Actes)) AS Actes,
/* SUM_of_Actes_Medic */
(SUM(t1.Actes_medic)) AS Actes_medic
FROM MEMOIRE.BENEF_BASE t1
WHERE NOT(MISSING(t1.NIV_GAR) or MISSING(t1.sexe_comp)or
MISSING(t1.DPT_BENEF)) AND t1.POSTE
IN('E_Dentaire','F_Honoraires','G_Hospitalisation','I_Optique','K_Ph
armacie')
GROUP BY t1.annee, t1.CONTRAT_GENERALI,t1.Num_benef,
t1.Type_benef, t1.Col_ANI,t1.College, t1.Age,t1.sexe_comp,
t1.Contrat_Option,
t1.Nb_Salaries, t1.nb_benef, t1.Struc_fam,
t1.NAF_CODE, t1.NAF_LIB,t1.Qualite, t1.DPT_CONTRAT,
t1.DPT_BENEF, t1.expo, t1.POSTE,t1.NIV_GAR;
quit;
data BENEF_BASE_I;
set BENEF_BASE_I;
if missing(FR) then FR=0;
if missing(GENERALI) then GENERALI=0;
if Type_Benef='E' and Age>33 then Type_Benef='A';
if Type_Benef ne 'E' and Age<15 then delete;
if Col_ANI="AM" then Col_ANI="NON CADRE";
if Type_benef='D' then delete;
run;
4. Imputation multiple
/***********2)Compltion de l'age par imputation multiple ********/
proc sql;
create table T_ACOMP as
select annee, CONTRAT_GENERALI, Num_benef, Type_benef, Col_ANI, Age,
sexe_comp, Contrat_Option, Nb_Salaries, nb_benef, Struc_fam,
NAF_CODE, Qualite, DPT_CONTRAT, DPT_BENEF, sum(FR_EXP) as FR,
sum(GEN_EXP) as GENERALI
from BENEF_BASE_I
group by annee, CONTRAT_GENERALI, Num_benef, Type_benef, Col_ANI,
Age, sexe_comp, Contrat_Option, Nb_Salaries, nb_benef, Struc_fam,
NAF_CODE, Qualite, DPT_CONTRAT, DPT_BENEF;
quit;
/*Certains Ages ne sont pas renseigns, il faut les imputer pour

faire un modele de cout par la suite */
ods graphics on;

options nofmterr nocenter nodate nolabel;
CNAM 2015/2016 103

proc freq data = T_ACOMP nlevels;

tables _all_ / noprint missing;
run;
/*On quantifie le nombre de donnes manquantes*/
proc means data = T_ACOMP nmiss N;

var Age;
run;
/*On observe des manques*/
ods select missPattern;

proc mi data = T_ACOMP nimpute=0;
var annee Age;
run;
data Memoire.T_ACOMP;
set T_ACOMP;
run;
data T_ACOMP_A;
set Memoire.T_ACOMP(where=(Type_Benef<>'E'));
run;
data T_ACOMP_E;
set Memoire.T_ACOMP(where=(Type_Benef='E'));
run;
proc mi data =T_ACOMP_A seed=4321965 nimpute = 5

out=Memoire.T_COMP_A;
class Annee CONTRAT_GENERALI Type_benef Col_ANI sexe_comp

Contrat_Option Struc_fam NAF_CODE Qualite DPT_CONTRAT DPT_BENEF ;
monotone propensity(Age=Annee CONTRAT_GENERALI Type_benef Col_ANI

sexe_comp Contrat_Option Nb_Salaries nb_benef Struc_fam NAF_CODE
Qualite DPT_CONTRAT DPT_BENEF FR GENERALI/NGROUPS=10 DETAILS);
var Annee CONTRAT_GENERALI Type_benef Col_ANI sexe_comp

Contrat_Option Nb_Salaries nb_benef Struc_fam NAF_CODE Qualite
DPT_CONTRAT DPT_BENEF FR GENERALI Age;
run;
proc mi data =T_ACOMP_E seed=4321965 nimpute = 5

out=Memoire.T_COMP_E;
class Annee CONTRAT_GENERALI Type_benef Col_ANI sexe_comp

Contrat_Option Struc_fam NAF_CODE Qualite DPT_CONTRAT DPT_BENEF ;
monotone propensity (Age=Annee CONTRAT_GENERALI Col_ANI sexe_comp
DPT_CONTRAT DPT_BENEF FR GENERALI/NGROUPS=10 Details);
CNAM 2015/2016 104

var Annee CONTRAT_GENERALI Type_benef Col_ANI sexe_comp

DPT_CONTRAT DPT_BENEF FR GENERALI Age;
run;
data T_COMP;
set Memoire.T_COMP_A Memoire.T_COMP_E;
Age_comp=Age;
drop FR Generali Age;
run;
proc sort data=T_COMP;by annee CONTRAT_GENERALI Num_benef Type_benef

Col_ANI sexe_comp Contrat_Option Nb_Salaries nb_benef Struc_fam
NAF_CODE Qualite DPT_CONTRAT DPT_BENEF;
proc sort data=BENEF_BASE_I;by annee CONTRAT_GENERALI Num_benef
Type_benef Col_ANI sexe_comp Contrat_Option Nb_Salaries nb_benef
Struc_fam NAF_CODE Qualite DPT_CONTRAT DPT_BENEF;
data BENEF_BASE_I;
merge BENEF_BASE_I (in=a) T_COMP;
by annee CONTRAT_GENERALI Num_benef Type_benef Col_ANI sexe_comp
DPT_CONTRAT DPT_BENEF;
if a;
run;
data Benef_Base_I;
set Benef_Base_I;
if Age='.' then Age=Age_comp;
drop Age_comp;
run;
5. Analyses descriptives
/*Analyse descriptives*/
proc sql;
create table a_desc as
select distinct annee, CONTRAT_GENERALI,Num_benef,
Type_benef,Struc_Fam,Col_ANI,
sexe_comp,Contrat_Option,Nb_Salaries,Age,NAF_CODE,NAF_LIB,Qualite,DP
T_CONTRAT,DPT_BENEF,sum(Gen_exp) as Generali
from BENEF_BASE_I
group by annee, CONTRAT_GENERALI,Num_benef, Type_benef,Struc_Fam,
Col_ANI,
sexe_comp,Contrat_Option,Nb_Salaries,Age,NAF_CODE,NAF_LIB,Qualite,DP
T_CONTRAT,DPT_BENEF;
quit;
data a_desc;
set a_desc;
if Nb_Salaries>=4000 and Nb_Salaries<5000 then taille="4000-4999";
if Nb_Salaries<20 then taille="-20";
CNAM 2015/2016 105


if Nb_Salaries>5000 then taille="5000+";
run;
%macro An_desc(v);
PROC SQL ;
CREATE TABLE &v AS
SELECT distinct annee,&v,mean(Generali) AS CONSO_MOY,COUNT(*) AS
nbBenef
FROM a_desc
GROUP BY annee, &v;
QUIT ;
PROC GPLOT DATA=&v ;
BUBBLE CONSO_MOY * &v = nbBenef ;
RUN ; QUIT ;
%mend;
%An_desc(annee);
%An_desc(Type_Benef);
%An_desc(Col_ANI);
%An_desc(Struc_fam);
%An_desc(sexe_comp);
%An_desc(Contrat_Option);
%An_desc(Age);
%An_desc(NAF_LIB);
%An_desc(Qualite);
%An_desc(DPT_CONTRAT);
%An_desc(DPT_BENEF);
%An_desc(Taille);
proc sql;
create table Depenses_POSTE as
select distinct POSTE,sum(Gen_exp) as Generali,mean(generali)
from BENEF_BASE_I
where Gen_exp>0
group by POSTE;
quit;
data Benef_Base_I;
set Benef_Base_I;
if Nb_Salaries<20 then taille="-20";

CNAM 2015/2016 106


if Nb_Salaries>5000 then taille="5000+";
if DPT_BENEF in('06','75','78','92') then Zone_benef=1;

else if DPT_BENEF in('93','94','95') then Zone_benef=2;
else if DPT_BENEF
in('82','38','13','77','28','60','34','54','91','74','07','64') then
Zone_benef=3;
else if DPT_BENEF in('90','33','69','01','27','40','14','80','43')
then Zone_benef=4;
else if DPT_BENEF in('21','20','85','23','42','56','73','48','10')
then Zone_benef=5;
else if DPT_BENEF in('89','84','88','58','81','71') then
Zone_benef=6;
else if DPT_BENEF in('50','66','76') then Zone_benef=7;
else Zone_benef=8;
if Poste='I_Optique' then GEN_EXP=Generali;

else if expo>(1/12) then GEN_EXP=GENERALI/expo;
else GEN_EXP=GENERALI;
run;
proc format;
value $DPT_BENEF
'06','75','78','92'=1
'93','94','95'=2
'82','38','13','77','28','60','34','54','91','74','07','64'=3
'90','33','69','01','27','40','14','80','43'=4
'21','20','85','23','42','56','73','48','10'=5
'89','84','88','58','81','71'=6
'50','66','76'=7
other=8;
;
run;
6. Adquation de lois
/*Test de l'adquation de tous les postes avec une loi gamma et

pareto*/;
%macro Adeq(P,alpha_gam,alpha_pareto,seuil);
data Table_ecret;
set Memoire.BENEF_BASE_I(where=(GEN_EXP>0 and Poste=&P and
GEN_EXP<=&seuil and expo>0.4));
run;
CNAM 2015/2016 107

proc univariate data=Table_ecret;

var GEN_EXP;
qqplot GEN_EXP/ exponential(sigma=est color=red l=1) rotate ;
qqplot GEN_EXP/ gamma(sigma=est alpha=&alpha_gam theta=0 color=red
l=1);
qqplot GEN_EXP/ pareto(alpha=&alpha_pareto sigma=est color=red
theta=0);
qqplot GEN_EXP/lognormal(sigma=est color=red theta=0 l=1);
probplot GEN_EXP/ gamma(sigma=est alpha=&alpha_gam theta=0 color=red
l=1);
probplot GEN_EXP/ pareto(alpha=&alpha_pareto theta=0 sigma=est
color=red);
run;
%mend;
%Adeq('E_Dentaire',est,est,1100000); /*=>seuil = 6000-7000 environ
environ 4000 au max de vrais*/
%Adeq('F_Honoraires',est,est,200000);
%Adeq('G_Hospitalisation',est,est,100000);
%Adeq('I_Optique',est,est,100000);
%Adeq('K_Pharmacie',est,est,100000);
7. Ecrtement
/* Export des tables sur R*/;
%macro ecret(Poste,table);
proc sql;
create table &table as
select GEN_EXP
from Memoire.BENEF_BASE_I(where=(GEN_EXP>0 and expo=1))
where POSTE=&Poste;
run;
proc copy in=work out=xportout memtype=data;

select &table;
run;
%mend;
libname xportout xport 'C:\Mehdi\SAS\1 - Mmoire\5 - Rsultats\7 -
Adquation et crtement\testHon.xpt';
%ecret('F_Honoraires',testHon);

Adquation et crtement\testDen.xpt';
%ecret('E_Dentaire',testDen);

Adquation et crtement\testHos.xpt';
%ecret('G_Hospitalisation',testHos);

Adquation et crtement\testOpt.xpt';
%ecret('I_Optique',testOpt);
CNAM 2015/2016 108


Adquation et crtement\testPha.xpt';
%ecret('K_Pharmacie',testPha);
/*!!!!!! NB IMPORTANT : Pour l'optique, se restreindre 2011, plus

stable !!!!!*/
Adquation et crtement\Opt11.xpt';
%ecret('I_Optique',Opt11);

Adquation et crtement\Den12.xpt';
%ecret('E_Dentaire',Den12);
/*Calcul d'impact*/
proc sql;
create table Global as
select Poste, count(*) as Nb_Benef, sum(Gen_Exp) as Conso
from Memoire.Benef_Base_i
/*where expo1*/
group by Poste;
quit;
%macro surcout(poste,seuil);
proc sql;
create table TEST as
select Poste,count(*) as Nb_Benef, sum(Gen_Exp) as Conso
from Memoire.Benef_Base_i
where GEN_EXP>&seuil and POSTE=&Poste /*and expo=1*/
group by Poste;
quit;
%mend;
%surcout('E_Dentaire',3500);
%surcout('F_Honoraires',1600);
%surcout('G_Hospitalisation',5000);
%surcout('I_Optique',1500);
%surcout('K_Pharmacie',600);
CNAM 2015/2016 109

8. Corrlations
proc sql;
create table Indiv as
select distinct annee,

Num_benef,Type_benef,Col_ANI,College,Age,sexe_comp,Contrat_Option,Nb
_Salaries,nb_benef,Struc_fam,NAF_CODE,NAF_LIB,Qualite,
DPT_BENEF, DPT_CONTRAT,sum(GENERALI)as
Generali,sum(FR)as FR
from BENEF_BASE_I
group by annee, Num_benef,
Type_benef,Col_ANI,College,Age,sexe_comp,Contrat_Option,Nb_Salaries,
nb_benef,Struc_fam,NAF_CODE,NAF_LIB,Qualite,
DPT_BENEF, DPT_CONTRAT;
quit;
ods graphics on;

proc freq data=Indiv;
format Age Age.

Nb_Salaries taille.
NAF_CODE $NAF_CODE.;
TABLES DPT_CONTRAT*(annee Dpt_benef Contrat_Option sexe_comp

Col_ANI College Naf_Code Qualite Type_Benef Struc_Fam Age
Nb_Salaries)
annee*(Dpt_benef Contrat_Option sexe_comp Col_ANI College

Naf_Code Qualite Type_Benef Struc_Fam Age Nb_Salaries)
Dpt_benef*(Contrat_Option sexe_comp Col_ANI College

Naf_Code Qualite Type_Benef Struc_Fam Age Nb_Salaries)
sexe_comp*(Contrat_Option Naf_Code Col_ANI College

Qualite Type_Benef Struc_Fam Age Nb_Salaries)
Col_ANI*(Contrat_Option Naf_Code College Qualite

Type_Benef Struc_Fam Age Nb_Salaries)
Naf_Code*(Contrat_Option College Qualite Type_Benef

Struc_Fam Age Nb_Salaries)
Qualite*(Contrat_Option College Type_Benef Struc_Fam Age

Nb_Salaries)
Type_Benef*(Contrat_Option College Struc_Fam Age

Nb_Salaries)
Struc_Fam*(Contrat_Option College Age Nb_Salaries)
Contrat_Option*(Age College Nb_Salaries)
College*(Age Nb_Salaries)
CNAM 2015/2016 110

Age*Nb_Salaries*/
/NOPRINT CHISQ Fisher;
output out = WORK.V_CRAMER_FREQ_OUTPUT chisq;
run;
9. Slection de variables
/*Slction pour le cout*/
Proc sort data=BENEF_BASE_I; by poste;run;
ods graphics on;

proc GLMSELECT data=BENEF_BASE_I
plots=all
seed=123;
class annee sexe_comp DPT_CONTRAT Zone_benef Col_ANI NAF_CODE
Qualite Type_benef Struc_fam Contrat_Option Taille NIV_GAR;
partition fraction(validate=0.35);
Model GEN_EXP=annee age sexe_comp age*sexe_comp DPT_CONTRAT
Zone_benef Col_ANI NAF_CODE Qualite Type_benef Struc_fam
Contrat_Option Taille NIV_GAR/selection=stepwise select=PRESS
choose=AIC;
by poste;
run;
ods graphics off;
10. Cration Bases de modlisation
/*Creation des base de GLM*/
data BASE_ECRET;
set Benef_Base_i;
Generali_ecret=Gen_exp;
if POSTE='E_Dentaire' and Gen_exp>3500 then Generali_ecret=3500;
if POSTE='F_Honoraires' and Gen_exp>3200 then Generali_ecret=3200;
if POSTE='G_Hospitalisation' and Gen_exp>8000 then
Generali_ecret=8000;
if POSTE='I_Optique' and Gen_exp>1300 then Generali_ecret=1300;
if POSTE='K_Pharmacie' and Gen_exp>1300 then Generali_ecret=1300;
/*l_cout=log(Generali_ecret);
l_expo=log(expo);
Generali_ecret2=Generali_ecret**2;*/
/*keep Age sexe_comp annee NAF_Lib Zone_benef taille Col_ANI
NIV_GAR Contrat_Option Poste Generali_ecret expo;*/
run;
11. Modlisation et analyse spare
/*TEST TWEEDIE*/
CNAM 2015/2016 111

%macro Tweedie(Poste,p);
ods graphics on;
PROC GENMOD DATA=Base_ecret(where=(Poste=&Poste)) plots=(cooksd
stdreschi reschi resdev stdresdev);
class Age
sexe_comp
Col_ANI
Contrat_Option
Zone_benef
NIV_GAR
annee
taille
NAF_Lib
/ order=freq desc;
a=_MEAN_;
y=_RESP_;
p=&p;
d=0;
if y GE 0 then d=2*((y**(2-p)-((2-p)*y*a**(1-p))+((1-p)*a**(2-
p)))/((1-p)*(2-p)));
variance var = a**p;
deviance dev = d;
MODEL Generali_ecret= Age*sexe_comp
annee
NAF_Lib
Zone_benef
taille
Col_ANI
NIV_GAR
Contrat_Option
/ noint scale=deviance LINK=log

Type1
TYPE3
wald
;
weight expo;
OUTPUT OUT=work.Test STDRESCHI=rp STDRESDEV=rd RESLIK=rv COOKSD=d
predicted=val_pred;
ODS OUTPUT parameterEstimates = work.coeffs;
RUN;
ods graphics off;
%mend;
%Tweedie('K_Pharmacie',1.7)
%Tweedie('F_Honoraires',1.68);
%Tweedie('G_Hospitalisation',1.7);
%Tweedie('I_Optique',1.5);
%Tweedie('E_Dentaire',1.6);
/*Essai Global*/
ods graphics on;
CNAM 2015/2016 112

PROC GENMOD DATA=Base_ecret plots=(cooksd stdreschi reschi resdev

stdresdev);
class Age
sexe_comp
Col_ANI
Contrat_Option
Zone_benef
NIV_GAR
annee
taille
NAF_Lib
POSTE
/ order=freq desc;
a=_MEAN_;
y=_RESP_;
p=1.88;
d=0;
p)))/((1-p)*(2-p)));
deviance dev = d;
MODEL Generali_ecret= Age*sexe_comp
annee
NAF_Lib
Zone_benef
taille
Col_ANI
POSTE*NIV_GAR
Contrat_Option
/ scale=deviance LINK=log
Type1
TYPE3
wald
;
weight expo;
OUTPUT OUT=work.Test STDRESCHI=rp STDRESDEV=rd RESLIK=rv COOKSD=d
predicted=val_pred;
ODS OUTPUT parameterEstimates = work.coeffs;
RUN;
ods graphics off;
data Memoire.Res_tweedie;
set test;
run;
data Memoire.Coeff_tweedie;
set coeffs;
run;
12. Modlisation par imputation et analyse combine
ods graphics on;
CNAM 2015/2016 113

PROC GENMOD DATA=Base_ecret;

class Age_sex
Col_ANI
Contrat_Option
Zone_benef
Poste_Gar
annee
taille
NAF_Lib
/ order=freq desc;
a=_MEAN_;
y=_RESP_;
p=1.88;
d=0;
p)))/((1-p)*(2-p)));
deviance dev = d;
MODEL Generali_ecret= Age_sex
annee
NAF_Lib
Zone_benef
Poste_Gar
taille
Col_ANI
Contrat_Option
/ scale=deviance LINK=log covb

;
weight expo;
by _Imputation_;
ods output ParameterEstimates=Memoire.gmparms
ParmInfo=Memoire.gmpinfo
CovB=Memoire.gmcovb;
RUN;
ods graphics off;
proc sort data=gmparms;by _Imputation_;run;

proc sort data=gmcovb;by _Imputation_;run;
proc sort data=gmpinfo;by _Imputation_;run;
proc mianalyze parms(classvar=level)=gmparms(where=(DF>0))

covb=gmcovb parminfo=gmpinfo(where=(Parameter not
in('Prm206','Prm208','Prm221','Prm229','Prm254','Prm264','Prm268','P
rm270')));
class Age_sex
Col_ANI
Contrat_Option
Zone_benef
Poste_gar
annee
taille
NAF_Lib;
CNAM 2015/2016 114

modeleffects Intercept
Age_sex
Col_ANI
Contrat_Option
Zone_benef
Poste_gar
annee
taille
NAF_Lib;
run;
B. Sorties SAS
1. Imputation multiple
Informations sur le modle

Table WORK.T_ACOMP_A
Mthode Monotone
Nombre d'imputations 5
Valeur initiale pour nb alatoire 4321965
Indication du modle monotone

Mthode Variables imputes
Rgression Nb_Salaries nb_benef FR GENERALI
Propension( Groupes= 10) Age
Fonction discriminante Struc_fam NAF_CODE Qualite DPT_CONTRAT DPT_BENEF
Informations sur la variance

Variance Augmentation Informations
Efficacit
Variable DDL relative manquantes
Inter Intra Total relative
dans variance fraction
0.00075 0.00077
Age 0.000014768 7327 0.023542 0.023259 0.995370
3 0
Valeurs estimes des paramtres

t pour H0:
Erreur Intervalle de Mu Pr > |
Variable Moyenne DDL Minimum Maximum Moyenne=M
type confiance 95% 0 t|
u0
0.02775 45.619 <.000
Age 45.565191 45.51078 7327 45.559464 45.569422 0 1641.54
8 60 1
CNAM 2015/2016 115

Informations sur le modle

Table WORK.T_ACOMP_E
Mthode Monotone
Nombre d'imputations 5
Valeur initiale pour nb alatoire 4321965
Indication du modle monotone

Mthode Variables imputes
Rgression Nb_Salaries nb_benef FR GENERALI
Propension( Groupes= 10) Age
Fonction discriminante Struc_fam NAF_CODE Qualite DPT_CONTRAT DPT_BENEF
Informations sur la variance
Variance Augmentation Informations
Efficacit
Variable DDL relative manquantes
Inter Intra Total relative
dans variance fraction
0.000065 0.00034 0.00041
Age 114.31 0.229965 0.200816 0.961388
159 0 8
Valeurs estimes des paramtres

t pour H0:
Erreur Intervalle de Maximu Mu Pr > |
Variable Moyenne DDL Minimum Moyenne=M
type confiance 95% m 0 t|
u0
0.02045 11.3030 114.3 11.3541 <.000
Age 11.343516 11.38403 11.332075 0 554.70
0 1 1 19 1
2. Test dadquation Gamma et Pareto
Dentaire
Honoraires
CNAM 2015/2016 116

Hospitalisation
Optique
Pharmacie
CNAM 2015/2016 117

3. Slection de variables
Data Set MEMOIRE.BENEF_BASE_I

Dependent Variable GEN_EXP
Selection Method Stepwise
Select Criterion PRESS
Stop Criterion PRESS
Choose Criterion AIC
Effect Hierarchy Enforced None
Random Number Seed 123
Number of Observations Read 1907193

Number of Observations Used 1907193
Number of Observations Used for Training 1239673
Number of Observations Used for Validation 667520
Informations sur le niveau de classe

Niveau
Classe xValeurs
annee 22011 2012
sexe_comp 2F M
Col_ANI 4ANI CADRE EP NON CADRE
Zone_benef 81 2 3 4 5 6 7 8
NAF_CODE 13 C E F G H J K L M N Q R S
Contrat_Opti
on 2N O
100-299 1000-1999 20-49 2000-2999 300-499 3000-3999 4000-4999 50-99
taille 10 500-999 5000+
POSTE 5E_Dentaire F_Honoraires G_Hospitalisation I_Optique K_Pharmacie
NIV_GAR 51 2 3 4 5
Dimensions
Number of Effects 13
Number of Parameters80
CNAM 2015/2016 118

Stepwise Selection Summary

Effet Nombre Nombre
Etap Effet ASE de
supprim d'effets de AIC PRESS ASE
e saisi validation
dans params
145175.38 135106.96
0 Intercept 1 1 15974055.7 1.7997E11
9 8
Age*sexe_com 143375.39 133398.07
1 2 3 15958593.2 1.7774E11
p 2 6
POSTE*NIV_GA 1.76828E1 142634.69 132666.27
2 3 27 15952220.3
R 1 8 5
1.76622E1 142466.87 132509.80
3 Zone_benef 4 34 15950774.9
1 4 7
1.76503E1 142368.44 132395.16
4 NAF_CODE 5 46 15949942.1
1 7 2
1.76476E1 142345.84 132364.02
5 Col_ANI 6 49 15949751.3
1 2 2
142332.67 132350.41
6 Contrat_Option 7 50 15949638.6 1.7646E11
4 7
1.76454E1 142325.54 132343.95
7 taille 8 59 15949594.5
1 0 6
1.76452E1 142323.42 132342.36
8 annee 9 60 15949578.0
1 3 3*
1.76451E1 142322.99 132342.38
9 sexe_comp 10 61 15949576.3*
1* 2 6
* Valeur optimale du critre
CNAM 2015/2016 119

CNAM 2015/2016 120

4. Modlisation GLM
Critres d'valuation de l'adquation

Critre DDL Valeur Valeur/DDL
Deviance 19E5 28078565.548 14.7245
Scaled Deviance 19E5 1906930.0000 1.0000
Pearson Chi-Square 19E5 36987197.143 19.3962
Scaled Pearson X2 19E5 2511951.5357 1.3173
Log Likelihood -953465.0000
Full Log Likelihood -953465.0000
AIC (smaller is better) 1907456.0000
AICC (smaller is better) 1907456.0728
BIC (smaller is better) 1910733.2806
Statistique LR pour Analyse de Type 1

Source Ecart DDL Num. DDL Res. Valeur F Pr > F Khi-2 Pr > Khi-2
Intercept 29005485.5
CNAM 2015/2016 121

Age*sexe_comp 28391524.8 204 1.91E6 205.27 <.0001 41874.8 <.0001

annee 28391101.5 1 1.91E6 28.87 <.0001 28.87 <.0001
NAF_LIB 28343774.0 12 1.91E6 268.99 <.0001 3227.94 <.0001
Zone_benef 28296383.5 7 1.91E6 461.75 <.0001 3232.24 <.0001
taille 28290655.2 9 1.91E6 43.41 <.0001 390.70 <.0001
Col_ANI 28285671.0 3 1.91E6 113.31 <.0001 339.94 <.0001
NIV_GAR*POSTE 27962322.5 24 1.91E6 918.91 <.0001 22053.8 <.0001
Contrat_Option 27959094.4 1 1.91E6 220.18 <.0001 220.18 <.0001
Statistique de Wald pour Analyse de Type 3

Source DDL Khi-2 Pr > Khi-2
Age*sexe_comp 204 44649.5 <.0001
annee 1 13.56 0.0002
NAF_LIB 12 1109.44 <.0001
Zone_benef 7 1560.97 <.0001
taille 9 133.76 <.0001
Col_ANI 3 213.35 <.0001
NIV_GAR*POSTE 24 23063.7 <.0001
Contrat_Option 1 214.92 <.0001
NB : les rsultats obtenus via la procdure GENMOD ne sont pas dtaills car leur affichage
serait illisible ici du fait du nombre important de coefficients et de modalits.
5. Rsultats Mianalyze
Les rsultats de la procdure Mianalyze ne sont pas dtaills du fait des nombreux
coefficients de rgression qui les rendraient illisibles.
C. Code R
library(POT)
library(foreign)
tbl <- read.xport("C:/Mehdi/SAS/1 - Mmoire/5 - Rsultats/7 - Adquation et
crtement/TVE/GLOBAL.xpt")
v<-as.vector(tbl)
u<-sapply(v,as.numeric)
w<-as.vector(u)
library(evir)
hill(w, option=c("alpha"), end=600, reverse=TRUE)
mrlplot(w)
meplot(w)
CNAM 2015/2016 122

D. Sorties R : estimateur de Hill, et moyenne des excs
1. Poste Honoraires
Threshold
Threshold
1620 1690 1760 1830 1920 2030 2150 2330 2560 3070 3990
1160 1200 1260 1330 1410 1490 1620 1790 2000 2330 3210
6
6
5
5
alpha (CI, p =0.95)

alpha (CI, p =0.95)
4
4
3
3
2
2
1500 1358 1216 1074 945 829 713 597 481 365 249 133 30 650 600 550 500 450 400 350 300 250 200 150 100 56 17
Order Statistics Order Statistics
CNAM 2015/2016 123

2. Poste Dentaire
Threshold Threshold
1940 2000 2130 2270 2450 2670 2920 3300 4160 6260 6490 6910 7230 7650 7960 8320 8780 9420 9990
7
7
6
6
alpha (CI, p =0.95)
alpha (CI, p =0.95)
5
4
4
3
3
2
1000 914 837 760 683 606 529 452 375 298 221 144 75 15 75 71 67 63 59 55 51 47 43 39 35 31 27 23 19 15
CNAM 2015/2016 124

3. Poste Hospitalisation
Threshold Threshold
4470 4750 5070 5400 5890 6440 7120 8200 10200 15200 10700 11300 11800 13200 14000 14600 15600 17100 18700
5
5
4
4
alpha (CI, p =0.95)

alpha (CI, p =0.95)
3
2
2
500 462 424 386 348 310 272 234 196 158 120 86 56 26 80 76 72 68 64 60 56 52 48 44 40 36 32 28 24 20 16
CNAM 2015/2016 125

4. Poste Optique
Threshold Threshold
1300 1320 1360 1410 1460 1480 1510 1560 1640 1760 898 913 927 943 963 994 1020 1060 1110 1200 1340
12
12
10
10
alpha (CI, p =0.95)
alpha (CI, p =0.95)
8
6
6
4
120 111 102 94 87 80 73 66 59 52 45 38 31 24 17 4 1000 914 837 760 683 606 529 452 375 298 221 144 75 15
Threshold
728 736 750 766 791 814 829 867 909 952 1050 1280
12
10
alpha (CI, p =0.95)
8
6
4
3000 2714 2428 2142 1856 1570 1284 999 766 533 300 93
Order Statistics
CNAM 2015/2016 126

5. Poste Pharmacie
Threshold
Threshold
1330 1350 1390 1440 1500 1560 1690 1790 1990 2340 3330
805 829 853 878 909 948 996 1060 1160 1310 1540 3330
7
7
6
6
5
alpha (CI, p =0.95)
5
alpha (CI, p =0.95)
4
4
3
3
2
200 185 170 155 140 125 110 97 85 73 61 49 37 25 2 1000 914 837 760 683 606 529 452 375 298 221 144 75 15
Threshold
1530 1580 1660 1710 1780 1840 2020 2260 2610 3310
7
6
5
alpha (CI, p =0.95)
4
3
2
120 111 102 94 87 80 73 66 59 52 45 38 31 24 17
Order Statistics
CNAM 2015/2016 127

E. Sortie TANAGRA
Ci-dessous, un exemple de sortie fournie par le logiciel Tanagra.
Regression tree 1
Parameters
Tree Parameters
Rnd generator 1
Max Number of Clusters 20
Distance normalization 0
Min. size for split 100
Min. size of leaves 10
Max. depth 20
Goodness threshold 0,00
Pruning set size 0%
Delta 0,0010
Show all tree sequence 1
Results
Global results
Endogenous attribute Generali_exp
Examples 381627
R 0,0653
Trees sequence (# 0) -- Within-Groups Sum of Squares

N # Leaves WSS (growing set) WSS (pruning set)
Tree description
Number of nodes 39
Number of leaves 20
Tree
Age < 44,5000

o Age < 26,5000
Age < 11,5000
Age < 1,5000 then avg(Generali_exp) = 323,2150 (std-dev = 791,4157, with 10756
examples [2,82%])
Age >= 1,5000 then avg(Generali_exp) = 193,1427 (std-dev = 336,4743, with 60675
examples [15,90%])
Age >= 11,5000
examples [8,07%])
examples [13,38%])
o Age >= 26,5000
sexe_comp in [M]
DPT_BENEF_TXT in
[82/,92/,75/,78/,38/,13/,77/,94/,28/,60/,34/,54/,91/,95/,21/,74/,7/,20/,85/,90/,23/,6
4/,93/,42/,56/,73/,48/,10/] then avg(Generali_exp) = 393,3542 (std-dev = 864,1744,
with 27936 examples [7,32%])
DPT_BENEF_TXT in
[50/,24/,15/,31/,33/,69/,1/,83/,67/,44/,89/,59/,26/,51/,86/,22/,45/,30/,37/,29/,27/,8
4/,49/,35/,17/,40/,88/,14/,65/,12/,58/,87/,72/,5/,6/,62/,97/,41/,70/,9/,57/,66/,76/,8
CNAM 2015/2016 128

/,81/,39/,16/,80/,11/,2/,47/,18/,25/,19/,3/,52/,53/,46/,71/,63/,61/,79/,4/,55/,36/,98
/,43/,68/,32/] then avg(Generali_exp) = 278,4450 (std-dev = 602,4295, with 22534
examples [5,90%])
sexe_comp in [F]
DPT_BENEF_TXT in
[82/,50/,24/,15/,31/,38/,13/,33/,69/,77/,28/,1/,60/,34/,83/,67/,44/,89/,59/,26/,54/,9
1/,21/,51/,74/,86/,22/,45/,30/,37/,29/,27/,84/,49/,35/,7/,17/,40/,88/,14/,65/,20/,12/
,58/,87/,72/,85/,5/,62/,97/,41/,70/,9/,57/,66/,76/,8/,90/,23/,81/,64/,39/,16/,80/,11/
,2/,42/,56/,47/,18/,25/,19/,3/,52/,53/,73/,46/,71/,63/,61/,79/,4/,55/,36/,48/,98/,43/
,68/,32/,10/] then avg(Generali_exp) = 436,1278 (std-dev = 772,4099, with 35886
examples [9,40%])
DPT_BENEF_TXT in [92/,75/,78/,94/,95/,6/,93/] then avg(Generali_exp) = 673,2959
(std-dev = 1237,6028, with 19752 examples [5,18%])
Age >= 44,5000
o Age < 65,5000
DPT_BENEF_TXT in
[82/,92/,75/,78/,38/,13/,33/,69/,77/,94/,28/,1/,60/,34/,54/,91/,95/,74/,27/,7/,40/,14/,6/,64/,9
3/,80/,43/]
NAF_CODE in [M,G,S,C,N,J,H,Q,F,R,E]
Col_ANI in [EP,CADRE,NON CADRE]
sexe_comp in [M] then avg(Generali_exp) = 598,6218 (std-dev =
1221,2405, with 23683 examples [6,21%])
sexe_comp in [F] then avg(Generali_exp) = 756,9009 (std-dev =
1143,5334, with 21139 examples [5,54%])
Col_ANI in [ANI] then avg(Generali_exp) = 1124,3673 (std-dev = 2240,0243,
NAF_CODE in [K,L]
Age < 51,5000 then avg(Generali_exp) = 821,6574 (std-dev = 1232,4939, with
4487 examples [1,18%])
Age >= 51,5000 then avg(Generali_exp) = 1075,6256 (std-dev = 1699,3601,
DPT_BENEF_TXT in
[50/,24/,15/,31/,83/,67/,44/,89/,59/,26/,21/,51/,86/,22/,45/,30/,37/,29/,84/,49/,35/,17/,88/,65
/,20/,12/,58/,87/,72/,85/,5/,62/,97/,41/,70/,9/,57/,66/,76/,8/,90/,23/,81/,39/,16/,11/,2/,42/,5
6/,47/,18/,25/,19/,3/,52/,53/,73/,46/,71/,63/,61/,79/,4/,55/,36/,48/,98/,68/,32/,10/]
examples [6,24%])
examples [6,27%])
o Age >= 65,5000
DPT_BENEF_TXT in
[82/,24/,15/,31/,38/,13/,33/,77/,1/,34/,83/,67/,44/,59/,26/,91/,21/,51/,86/,22/,45/,30/,37/,29/
,27/,49/,35/,7/,17/,14/,65/,20/,12/,87/,72/,85/,5/,62/,97/,41/,70/,9/,57/,8/,23/,39/,16/,80/,11
/,2/,42/,56/,47/,18/,25/,19/,3/,52/,53/,73/,46/,63/,61/,79/,4/,55/,36/,48/,98/,43/,68/,32/,10/]
then avg(Generali_exp) = 856,2828 (std-dev = 1253,0996, with 9203 examples [2,41%])
DPT_BENEF_TXT in
[50/,92/,75/,78/,69/,94/,28/,60/,89/,54/,95/,74/,84/,40/,88/,58/,6/,66/,76/,90/,81/,64/,93/,71/
]
Age < 84,5000
NAF_CODE in [M,C,K,L,Q,F,R,E]
DPT_BENEF_TXT in [50/,69/,94/,95/,74/,66/,76/,93/] then
avg(Generali_exp) = 1090,6631 (std-dev = 1470,9394, with 1904
examples [0,50%])
DPT_BENEF_TXT in
[92/,75/,78/,28/,60/,89/,54/,84/,40/,88/,58/,6/,90/,81/,64/,71/]
then avg(Generali_exp) = 1480,0100 (std-dev = 2315,5960, with
2718 examples [0,71%])
NAF_CODE in [G,S,N,J,H] then avg(Generali_exp) = 981,2145 (std-dev =
1764,6113, with 2913 examples [0,76%])
examples [0,22%])
Computation time : 1201 ms.

Created at 13/02/2016 20:05:05
CNAM 2015/2016 129

Modélisation de La Consommation Médicale - Arsa Lane

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Modélisation de La Consommation Médicale - Arsa Lane

Uploaded by

Copyright:

Available Formats

Modlisation de la consommation mdicale en

Mmoire dactuariat prsent pour lobtention du

Master professionnel Sciences de gestion, mention finances de

Et ladmission lInstitut des Actuaires

Mmoire soutenu le 29 juin 2016

par Mehdi ARSALANE

Caractre confidentiel : non

Mes remerciements vont aussi Annabelle BONGO, de la Direction des Particuliers de

Je remercie enfin Tiphaine GEIGLE, Manager du service Pilotage Client et Distribution au

1. Adquation du modle ..........................................................................................77

2. Test dadquation Gamma et Pareto...................................................................116

Il apparat donc indispensable de modliser rgulirement la charge de sinistre sur les

Lobjectif du prsent mmoire est de proposer des rponses oprationnelles ces

Ces travaux mettent en vidence les principaux facteurs explicatifs de consommation et

Pour rester comptitif, les diffrents organismes complmentaires se doivent de conserver

PARTIE 1 ELEMENTS DE CONTEXTE

A. Systme de sant en France

Le rgime de base ou rgime obligatoire ;

Le rgime complmentaire correspond aux assureurs privs qui interviennent en

Pour bien saisir le fonctionnement du systme de soins en France, il est ncessaire de

Base de Remboursement de la Scurit Sociale (BRSS) : pour un acte mdical, elle

Montant rembours par lAssurance : cest le montant rembours par lassureur. Il

FRAIS REELS DECOMPOSITION

Figure 1 : Dcomposition des frais de sant

En 2013 le financement des dpenses de sant en France tait structur ainsi1 :

76% sont prises en charge par la Scurit Sociale ;

1,4% correspondent une intervention de lEtat et la CMU-C ;

13,8% des dpenses sont rembourss par les organismes complmentaires ;

8,8% restent la charge des mnages.

B. Fonctionnement de lassurance collective

Lassurance collective regroupe lensemble des assurances de personnes (Prvoyance,

La premire particularit de lassurance collective est quelle fait intervenir 3 acteurs

Lassureur lui-mme qui propose la couverture du risque ;

Lentreprise ou la collectivit qui est le souscripteur de loffre propose par

Les salaris ou adhrents, ventuellement leurs ayants-droits qui bnficient de la

Entreprise, Salaris, adhrents

Figure 2 : Fonctionnement de lassurance collective

En assurance collective, la relation commerciale stablit avant tout entre lentreprise et

Les salaris de lentreprise sont tenus de saffilier au contrat ;

Lassureur sengage accepter lintgralit des salaris.

Il ne doit pas se substituer dautres lments de rmunration ;

Il est collectif et obligatoire. Il bnficie de manire gnrale et impersonnelle lensemble

Les prestations sont complmentaires celles de la Scurit sociale (maladie, incapacit

C. Evolutions juridiques et lgislatives rcentes

Loi Evin (loi du 31 dcembre 1989)

Douste-Blazy (loi du 13 aot 2004)

Dductibilit fiscale sur la taxe de solidarit additionnelle : 13,27% (7% de TSCA

Dductibilit du revenu fiscal imposable des cotisations verses, dans le cadre de

Bnfice du rgime de crdit dimpt pour les contrats individuels ;

Dductions fiscales dans le cadre de la loi Madelin pour le professionnel

Actuellement, la grande majorit des contrats collectifs sant sont responsables .

Catgories Objectives (dcret du 9 janvier 2012)

Catgories Cadres/Non cadres tels que dfinies dans la CCN de 1947 ;

Tranches de rmunration telles que dfinies par lAGIRC et lARRCO ;

Catgories et classifications dfinies par les conventions de branche ou les accords

Le niveau de responsabilit, le type de fonction ou le degr dautonomie dans le

Accord National Interprofessionnel (ANI) du 11 janvier 2013

Modification de la Classification Commune des Actes Mdicaux (18 dcembre 2014)

Le 18 dcembre 2014, la CCAM a t modifi, faisant passer certains actes dentaires en

La Dclaration Sociale Nominative ou DSN (dcret du 24 septembre 2014)

et piloter la sinistralit de leur portefeuille mais aussi optimiser le processus dappel de

D. Le march de lassurance Sant en France

En 2013, lassurance de sant complmentaire reprsente en France environ 33 milliards