Professional Documents
Culture Documents
Management de la
Continuit dactivit E M M A N U E L B E S L U A U
EMMANUEL
BESLUAU
P r f a c e d e F r a n o i s T t e
A
lheure o le systme dinformation (SI) est au cur des pro-
cessus, une panne informatique de seulement trois jours suffit
paralyser durablement toute entreprise non prpare. Si la
prvention des risques et la scurit font lobjet de proccupations
croissantes, les responsables ngligent trop souvent de se prmunir
Lauteur
Management de la
contre les consquences dventuels dsastres. Or le management de
Ingnieur informatique diplm de Centrale et de
la continuit dactivit (MCA) offre des solutions efficaces pour PLAN DE CONTINUITE DACTIVITE PCA PLAN DE REPRISE PRA CONTINUITE DE SERVICE PLAN DE CONTI-
lUniversit de Berkeley, Emmanuel Besluau a renforcer la rsistance de lentreprise et du SI face aux crises de toute NUITE DACTIVITE PCA PLAN DE REPRISE PRA CONTINUITE DE SERVICE PLAN DE CONTINUITE DACTIVITE
nature (inondation, incendie, pannes, malveillance).
Continuit
occup de nombreux postes responsabilits dans PCA PLAN DE REPRISE PRA CONTINUITE DE SERVICE PLAN DE CONTINUITE DACTIVITE PCA PLAN DE
de grands groupes de diffrents secteurs, notam-
ment bancaire et de services (IBM, Sligos-Carte Proposant une dmarche la fois organisationnelle et technique, REPRISE PRA CONTINUITE DE SERVICE PLAN DE CONTINUITE DACTIVITE PCA PLAN DE REPRISE PRA
Bancaire, Atos-Infogrance). Aujourdhui consul- ce guide complet et document dcrit pas pas la mise en uvre CONTINUITE DE SERVICE PLAN DE CONTINUITE DACTIVITE PCA PLAN DE REPRISE PRA CONTINUITE DE
tant associ au Duquesne Group, il crit priodi- concrte dun plan de continuit dactivit (PCA) solide et opra- SERVICE PLAN DE CONTINUITE DACTIVITE PCA PLAN DE REPRISE PRA CONTINUITE DE SERVICE PLAN DE
quement dans la presse informatique et intervient
tionnel. Il sappuie sur des tudes de cas rels issues de la longue CONTINUITE DACTIVITE PCA PLAN DE REPRISE PRA CONTINUITE DE SERVICE PLAN DE CONTINUITE DAC-
en tant quexpert reconnu auprs de DSI sur des
sujets comme la continuit de service, les exprience de lauteur pour fournir une mthodologie efficace et TIVITE PCA PLAN DE REPRISE PRA CONTINUITE DE SERVICE PLAN DE CONTINUITE DACTIVITE PCA
architectures techniques des centres informa- une revue des solutions possibles (plan de reprise, sites de secours, PLAN DE REPRISE PRA CONTINUITE DE SERVICE PLAN DE CONTINUITE DACTIVITE PCA PLAN DE REPRISE
d activit
tiques, les bonnes pratiques de production de
Continuit d activit
continuit de service, outils de sauvegarde, architectures du SI, tests et PRA CONTINUITE DE SERVICE PLAN DE CONTINUITE DACTIVITE PCA PLAN DE REPRISE PRA CONTINUITE
service (ITIL, scurit, etc.). Il est membre actif du audits, etc.) enrichies de recommandations pratiques et de documents
Club de la Continuit dActivit. DE SERVICE PLAN DE CONTINUITE DACTIVITE PCA PLAN DE REPRISE PRA CONTINUITE DE SERVICE PLAN
types, sans oublier daborder les principes de gouvernance et la
DE CONTINUITE DACTIVITE PCA PLAN DE REPRISE PRA CONTINUITE DE SERVICE PLAN DE CONTINUITE
Franois Tte est Prsident du Club normalisation en cours.
DACTIVITE PCA PLAN DE REPRISE PRA CONTINUITE DE SERVICE PLAN DE CONTINUITE DACTIVITE PCA
de la Continuit dActivit (CCA).
PLAN DE REPRISE PRA CONTINUITE DE SERVICE PLAN DE CONTINUITE DACTIVITE PCA PLAN DE REPRISE
www.clubpca.eu
Au sommaire PRA CONTINUITE DE SERVICE PLAN DE CONTINUITE DACTIVITE PCA PLAN DE REPRISE PRA CONTINUITE
Matrise du risque. Apprciation des menaces. Analyse dim- DE SERVICE PLAN DE CONTINUITE DACTIVITE PCA PLAN DE REPRISE PRA CONTINUITE DE SERVICE PLAN
pact (BIA). Activits critiques. Paramtres de reprise (RPO, RTO,
MTD et WRT). Stratgie de continuit. Plan de continuit DE CONTINUITE DACTIVITE PCA PLAN DE REPRISE PRA CONTINUITE DE SERVICE PLAN DE CONTINUITE
dactivit (PCA). Disaster Recovery Plan (DRP). Plan de reprise
(PRA). Missions et groupes dintervention. Centre de gestion de
crise. Planning. Plan de communication. Campagnes de tests.
Implmentation ISO 27001
Fiches de tests. Ingnierie de la continuit. Disponibilit.
Fiabilit et rparabilit. Redondance. Modles de cluster n+1.
Snapshot et copie miroir. Serveurs tolrance de panne.
qui sadresse ce livre ? Virtualisation. Stockage NAS et SAN. Contrleurs, cache et
routage dE/S. Protection continue des donnes (CDP).
Aux responsables risque ou continui- Sauvegarde et restauration. Robots et bandothques. Rseau GESTION DU RISQUE - ANALYSE DES IMPACTS
t (RSSI, RPCA) et leurs quipes backbone et LAN. Centre informatique (site, infrastructure,
risques et parades). Tlcommunications. Poste de travail (PC). STRATEGIE DE CONTINUITE - PLAN DE CONTINUITE D'ACTIVITE (PCA)
Aux chefs de projet chargs de Travail domicile. Gouvernance de la continuit. Politique de
MISE EN UVRE ORGANISATIONNELLE ET INFORMATIQUE
mettre en place un PCA continuit. Comit de pilotage. Projet du PCA. Maintenance.
Gestion des changements. valuation, tests et audits. Systme ,
Aux DG et chefs dentreprise
souhaitant aborder le MCA
de contrle. Formation et sensibilisation. Normes et bonnes
pratiques. Tiers du Uptime Institute. TIA 942. BS 25999.
Assurer la prennit de l entreprise:
TESTS ET MAINTENANCE - INGENIERIE DE LA CONTINUITE
GOUVERNANCE - SENSIBILISATION - NORMALISATION
ISO 27002, ISO 27031 et ISO/PAS 22399. AFNOR BP Z74-700.
tous les responsables mtier
proccups par la continuit de
Business Continuity Institute (BCI). DRII. Club de la Continuit
dActivit (CCA). Joint Forum. ITIL. Mehari. NFPA 1600.
planification, choix techniques
leur activit
Aux DSI et responsables techniques
ayant faire des choix de systmes
et mise en uvre
ISBN : 978-2-212-12346-3
Code diteur : G12346
9 7 8221 2 1 23 463
,
Assurer la prennit de l entreprise:
planification, choix techniques
et mise en uvre
CHEZ LE MME DITEUR
Autres ouvrage
L. Bloch, C. Wolfhugel. Scurit informatique. Principes et mthode.
N12021, 2007, 262 pages (Collection Blanche).
C. Llorens, L. Levier, D. Valois. Tableaux de bord de la scurit rseaux.
N11973, 2e dition, 2006, 560 pages (collection Blanche).
B. Boutherin, B. Delaunay. Scuriser un rseau Linux.
N11960, 3e dition, 2007, 250 pages (collection Cahiers de lAdmin).
P. Legand. Scuriser enfin son PC. Windows XP et Windows Vista.
N12005, 2007, 500 pages (collection Sans taboo).
D. Sguy, P. Gamache. Scurit PHP 5 et MySQL.
N12114, 2007, 240 pages (Collection Blanche).
F. Manzano. Mmento VMware Server. Virtualisation de serveurs.
N12320, 2008, 14 pages.
R. Bergoin, C. Bourg. Mmento Cisco. IOS Configuration gnrale.
N12347, paratre 2008, 14 pages.
C. Dumont. Mmento ITIL. N12257, 2007, 14 pages.
E M M A N U E L B E S L U A U
Prface de Franois Tte
Management de la
Continuit
d activit
,
Assurer la prennit de l entreprise:
planification, choix techniques
et mise en uvre
DITIONS EYROLLES
61, bd Saint-Germain
75240 Paris Cedex 05
www.editions-eyrolles.com
V
Management de la continuit dactivit
connat bien tout ce que lon peut attendre des technologies. Son approche, qui
prsente la fois les principes dorganisation et les architectures techniques, se
rvle trs intressante et assez unique.
Nul doute que ce livre contribuera faire avancer la prise de conscience sur ce
sujet important quest la continuit dactivit.
Franois TTE
Prsident du Club de la Continuit dActivit
www.clubpca.eu
VI
Table des matires
Avant-propos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
Remerciements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
VII
Management de la continuit dactivit
VIII
Table des matires
Objectifs du plan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
Primtre et exclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
Contexte gnral du plan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
Structure du plan de continuit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
Planning des activits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
Le centre de gestion de crise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
Un rle cl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
Emplacement stratgique du centre de gestion de crise . . . . . . . . . . . . . . . . . . 86
Centre de gestion de crise de secours . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
Fonctions du centre de gestion de crise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
quipement du centre de gestion de crise . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
Missions, quipes et responsabilits . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
Le groupe de gestion de crise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
Le groupe de redmarrage des activits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
Le groupe de rcupration technique et oprationnelle . . . . . . . . . . . . . . . . . . . 94
Les listes de contacts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
Constituer les groupes dintervention . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
Affectation des missions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
Former et sensibiliser les diffrents acteurs . . . . . . . . . . . . . . . . . . . . . . . . . . 101
Mettre jour la constitution des groupes . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
Documents types . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
Plan de communication . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
Plan de secours . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
IX
Management de la continuit dactivit
X
Table des matires
XI
Management de la continuit dactivit
XII
Table des matires
XIII
Avant-propos
Un grand nombre dentreprises ne survivraient pas une interruption de leur
systme dinformation pendant seulement trois jours. lheure o le principe de
prcaution prvaut, alors que les mesures de scurit ont pour objectif de prve-
nir contre des menaces ventuelles, des approches nouvelles, organisationnel-
les et techniques, se sont dveloppes pour faire face aux consquences des
sinistres sur lactivit de lentreprise.
Le management de la continuit dactivit permet ainsi de rendre lentreprise
plus rsiliente dans un monde de risques. Autrefois limite la gestion de
crise ou considre comme une sous-partie de la gestion des risques ou de la
scurit, cette approche commence simposer comme une discipline part
entire.
Or, les observateurs de lentreprise saccordent considrer que la continuit
dactivit na pas actuellement en France lattention quelle mrite de la part des
directions gnrales. En effet, lanalyse des risques reste trs limite, limpact
des sinistres potentiels nest pas suffisamment tudi et les processus les plus
critiques de lentreprise ne sont que rarement identifis. En labsence de ces
considrations, toute atteinte lintgrit des moyens vitaux de lentreprise est
souvent chrement paye, voire insurmontable pour la plupart des entreprises,
qui ny sont pas prpares.
Certes, quelques plans de reprise de lactivit existent ici ou l et lon peut louer
les pionniers qui sy consacrent. Malheureusement, il sagit le plus souvent de
scnarios trop simples, centrs sur les moyens et auxquels fait dfaut une vision
densemble de la continuit. En outre, les directions de la production informati-
que ont tendance mettre en place des solutions ambitieuses qui, en labsence
dune perspective sur les services utilisateurs, laissent des lacunes importantes.
Les investissements consentis en informatique peuvent ainsi apparatre comme
disproportionns si lon considre la faiblesse de certains maillons organisa-
tionnels.
Confiance exagre dans la technologie, dfiance dsabuse pour les dispositifs
dorganisation, le vcu de la continuit dactivit en France reste largement insa-
tisfaisant. Une prise de conscience des apports rels du management de la con-
tinuit dactivit simpose : cest lobjectif de cet ouvrage, qui aborde les aspects
mthodologiques aussi bien que la mise en uvre concrte en sappuyant sur
des exemples et situations vcues difiantes.
1
Management de la continuit dactivit
Remerciements
2
PARTIE I
Lentreprise
dans un monde
de risques
Lentreprise est expose des menaces qui ne deviennent un risque que lorsque
ses processus sont viss. Pour autant, avoir une vision claire de linterfrence
entre les menaces et les processus critiques de lentreprise ne va pas de soi.
Pour avancer, toute organisation doit donc mener des actions visant prendre
conscience de son environnement et comprendre son propre fonctionnement.
Ce nest qu cette condition quelle aura en main les paramtres lui permettant
de matriser sa continuit.
Cette dmarche complexe, permettant dagir en pleine connaissance de cause,
est ncessaire pour aborder concrtement la continuit dactivit. Elle est pr-
sente tout au long des trois premiers chapitres :
Le chapitre 1 regroupe, sous la notion de matrise du risque , la fois la
dmarche dapprciation des menaces qui psent sur lentreprise et les tacti-
ques permettant de les viter ou de sen protger.
Le chapitre 2 est consacr ce que lon appelle lanalyse dimpact sur les
activits qui, en dtaillant les diffrentes activits de lentreprise, cherche
dterminer celles dont la perte est le plus dommageable lentreprise.
Le chapitre 3, partant des constats des chapitres prcdents, permet de dve-
lopper une stratgie de continuit en slectionnant, parmi les diffrentes
options, les actions mener pour amliorer la rsilience de lentreprise.
Ces trois chapitres sont structurs de telle manire que le lecteur pourra sans
peine suivre dans lordre la procdure propose pour mener sa propre tude de
continuit dans lentreprise. Ils peuvent ainsi quasi servir de squelette llabo-
ration de la premire partie dun plan de continuit.
Chapitre 1
La matrise du risque
Il est tentant de se prmunir globalement contre les coups durs , sans analy-
ser ce qui pourrait se passer rellement. Cette approche est dailleurs la plus
naturellement suivie. Elle prsente cependant plusieurs inconvnients :
Lentreprise est prpare faire face un vnement qui a en fait peu de
chance de se produire, alors quelle a nglig des menaces qui, elles, sont
bien plus probables.
Labsence de connaissance prcise des menaces peut rendre les plans de
reprise irralistes car ne tenant pas compte de lensemble de la situation
cre par le sinistre, qui a t trop caricatur dans les tudes.
Les tests raliss pour les plans de reprise, par exemple, sont facilits par le
fait que certains aspects du risque ne sont pas pris en compte. Lentreprise
acquiert alors une confiance exagre dans ses capacits de reprise. Or, si la
dmarche de simplification suivie au cours des tests peut tre intressante,
elle ne doit pas seffectuer sans avoir t volontairement dcide.
Il devient donc ncessaire de passer en revue un certain nombre de menaces et
dtudier leurs consquences possibles sur lactivit de lentreprise. Cest la
combinaison de ces menaces et de leurs consquences nfastes probables que
lon appelle un risque.
5
Management de la continuit dactivit
Lanalyse des menaces est un sujet complexe qui ne se prte pas une modli-
sation aise. Toute modlisation suppose en effet une simplification qui peut se
rvler prjudiciable lexhaustivit de la dmarche. Il faut donc garder
lesprit, en cas de simplification, quune approche complmentaire plus appro-
fondie est souhaitable. Par consquent, il est recommand de mener au moins
deux approches diffrentes.
En outre, une approche trop formelle et inutilement thorique peut elle aussi se
rvler inefficace. Mieux vaut ne pas perdre lobjectif de vue : il sagit de savoir
quoi lon sexpose et comment on y fera face. Il est donc primordial de rester
pragmatique.
Il peut arriver quune entreprise ne souhaite pas aborder certains risques dans le
champ dune tude. Quelles quen soient les raisons (politiques, souci de confi-
dentialit, etc.), il est souhaitable de le mentionner lors du cadrage de ltude
du risque (voir le document page 30).
6
Chapitre 1 La matrise du risque
Menaces Consquences
Crue du euve Site inond
Panne lectrique Serveurs non aliments
Tempte de neige Personnel absent
Rappel : risque
La combinaison dune menace et dune consquence est appele un risque.
7
Management de la continuit dactivit
Cet exemple montre bien que les situations dcrites ont diffrentes probabilits
doccurrence et des consquences de gravit variable. Ces consquences tant
diffrentes, les ractions face elles le sont aussi.
1. Dans le premier cas, les livraisons par poids lourds sont interrompues : cela
peut reprsenter une gne pour certains lments et lon pourra tre amen
revoir certains stocks en consquence.
2. Lorsquil y a moins de vingt centimtres deau, on doit alors procder diver-
ses interventions disolement. La perturbation sur le site est plus impor-
tante.
3. Au-del de vingt centimtres deau, le site est globalement sinistr. Mme si
lon peut faire des distinctions entre des crues dimportance variables, pour
ce site, seule la limite des vingt centimtres compte en termes pratiques. Il
ne sert rien dtudier des crues cinquante centimtres, un mtre, etc.
La menace inondation peut alors tre dcoupe en trois pour tre consid-
re comme trois risques diffrents, chacun tant la combinaison de probabilits
et de consquences diffrentes. On ne traitera donc pas linondation comme un
seul vnement, dot de consquences moyennes et dune probabilit doccur-
rence moyenne unique.
Notons aussi quon a, dans cet exemple, pris en compte la ralit des choses, et
quun autre site situ lgrement plus haut, ou ne disposant que dun seul
accs, face la mme menace ne prsenterait pas les mmes risques. Lvalua-
tion du risque doit donc tenir compte du contexte.
Pour synthtiser, la menace inondation devient alors :
Menaces Consquences
Inondation de type 1 Site pargn, mais accs poids lourds impossible
Inondation de type 2 20 cm deau au rez-de-chausse
Inondation de type 3 > 20 cm deau, dgts inacceptables
8
Chapitre 1 La matrise du risque
2. Panne de plus de cinq minutes et de moins dune heure : les onduleurs ont
t relays par un gnrateur Diesel qui a t dmarr cette occasion.
3. Panne de plus dune heure : le gnrateur arrive en fin dautonomie (plus de
fioul) et les serveurs critiques doivent tre arrts de faon correcte.
Sur ce site et avec les matriels employs, on a alors le schma suivant :
Menaces Consquences
Panne lectrique 5 min Passage sur onduleur des serveurs critiques
Panne lectrique < 1 h Onduleur, puis passage sur gnrateur Diesel
Panne lectrique > 1 h Idem, puis arrt propre des serveurs au bout de 2 h
La limite une heure est choisie en fonction des matriels et des diverses rser-
ves en place (capacit des batteries, quantit de fioul, etc.). Dans un autre con-
texte, cette limite aurait pu tre tout autre.
La notion de catastrophe
linverse de ce qui prcde, un vnement violent et rare, aux consquences
quasi imprvisibles, ne se prtera pas une analyse fine. On peut alors prfrer
envisager un risque global de perte totale comme hypothse de travail. Un
exemple type en est la chute davion sur un site proximit dun aroport. On
utilise dailleurs dans ces cas l le mot catastrophe , qui indique bien que la
situation nest pas du mme ordre de grandeur.
Ici apparat bien la difficult du raisonnement par les risques et la ncessit
danalyser les menaces en les dcoupant. En effet, un vnement trs violent et
trs rare peut prsenter le mme risque quun vnement consquences
moyennes se prsentant assez souvent : sa probabilit est cent fois plus faible,
mais ses consquences cent fois plus fortes. Le produit des deux est donc qui-
valent. Cela entrera en jeu dans le raisonnement lors du chiffrage du risque.
Pourquoi dcomposer ?
Une menace globale fait donc lobjet dune dcomposition en sous-
menaces , plus faciles cerner ou liminer, et faisant lobjet de risques dis-
tinctement perus.
Les critres suivants peuvent tre retenus pour mener la dmarche de dcou-
page.
Si la menace a des consquences multiples et alatoires, il faut la dcompo-
ser en autant de risques que de consquences possibles.
Si la menace est trop vague, il convient de la dcomposer en couples mena-
ces/consquences, plus faciles cerner.
9
Management de la continuit dactivit
10
Chapitre 1 La matrise du risque
11
Management de la continuit dactivit
Une telle analyse sappuie sur les caractristiques de lexistant et sur les vne-
ments ventuellement constats dans lentreprise, la rgion, le pays ou le sec-
teur dactivit.
12
Chapitre 1 La matrise du risque
Une attention particulire sera porte par ailleurs aux matriaux risques
(explosifs, produits hautement inflammables, gaz toxiques, etc.) qui, de par leur
nature, reprsentent un risque intrinsque. En gnral, ces aspects sont traits
dans des approches de type scurit , ayant produit des documents auxquels
il sera utile de se rfrer.
Plusieurs sources existent dans lentreprise pour recenser les biens tangibles :
les fichiers des tats damortissement, lorsquil y a lieu ;
les fichiers tenus ou dtenus par les gestionnaires desdits biens (dans le ser-
vice informatique, par exemple) ;
les donnes des bases de gestion des configurations CMDB (Configuration
Management Database) dans les services informatiques qui en grent ;
les donnes gres par les responsables dactifs (asset managers, en anglais) ou
propritaires dactifs (asset owners), pour les socits qui ont mis en place ces
concepts.
Il est cependant clair que ces listes et inventaires des actifs ne donneront hlas
pas tous le mme rsultat. Quoiquil en soit, il faut raisonner partir de groupes
logiques dlments concourant ensemble la bonne ralisation des processus
de lentreprise. L encore, il faut centrer lanalyse sur la ralit des faits et les
caractristiques locales. Le tableau suivant donne un exemple.
vnement
Source Actif critique Consquences
menaant
Monte des eaux en Matriel Arrt des matriels
Fuite deau
salle machine informatique informatiques
Routes Ressources Comptences
Tempte de neige
impraticables humaines absentes
Pelleteuse Rseau IT Rseau coup
Erreur humaine sectionnant des
cbles Centre IT lectricit coupe
Donnes
Donnes
condentielles
Accs frauduleux au condentielles
Hackers copies
web
Image ternie sur le
Image de la socit
march
Arriv ce stade, on possde donc une liste des effets nocifs des principales
menaces portant sur les principaux actifs de la socit. Il sagit maintenant de
chiffrer ces effets nocifs. Une telle valorisation se rvle indispensable pour ta-
blir des comparaisons et attribuer des priorits.
13
Management de la continuit dactivit
Chaque fois que cela est possible, on cherchera faire des estimations quantita-
tives de pertes, en euros. Dans les autres cas, on pourra recourir des estima-
tions qualitatives.
14
Chapitre 1 La matrise du risque
15
Management de la continuit dactivit
matique, on constatera en moyenne deux pannes par an (100 2,2 %). Ce cons-
tat ouvre dailleurs une voie pour le chiffrage des ART.
Pour dautres vnements, on raisonne plutt par des estimations couramment
partages, telles que :
La chute davion proximit dun aroport aura une ART de 1/30 (proximit
voulant dire moins dun mile). On pourra aussi considrer quun site situ
deux fois la distance possde une ART quatre fois moindre (22). On pourra
aussi prendre en compte le fait que lon se situe ou non sous une voie de pas-
sage arien.
Linondation centenaire aura une ART de 1/100.
La panne de courant due au prestataire fournissant llectricit pourra tre
chiffre avec des ART de lordre de 1/4 pour des pannes de cinq minutes ou
1/7 pour une panne dune heure, par exemple, en fonction des lieux et de ce
que lon a dj constat.
Lannexe 2 fournit quelques rfrences de sources de chiffres. La figure 1-1
donne un exemple de suivi des crues de la Loire.
www.vigicrues.ecologie.gouv.fr
16
Chapitre 1 La matrise du risque
vnement
Source Consquences SLE ART ALE
menaant
En m
Locaux (site 1) et
8,48 0,033 0,28
Eau au rez-de- informatique inonds
Inondation
chausse Locaux seuls inonds
0,56 0,033 0,02
(site 2)
Aroport Chute davion Locaux dtruits 56 0,025 1,40
En k
Passage sur onduleur :
Coupure : 5 min 0 0,25 0,00
aucune consquence
Alimentation
Arrt de 50 serveurs :
lectrique Coupure : 1 h 2,86 0,14 0,41
2 heures
Coupure : 1 jour Arrt gnral : 1,5 jours 7 500 0,05 375,00
On remarque que les vnements tudis aboutissent des risques trs dissem-
blables et se situant dans des ordres de grandeurs diffrents (de 410 euros
1,4 millions deuros). Cela permet souvent de relativiser les approximations faites.
17
Management de la continuit dactivit
Sans aller plus loin, on peut dores et dj dterminer les risques contre les-
quels on souhaite agir. Les risques qui ressortent du calcul comme tant faibles
ont dailleurs trs souvent dj t lobjet dun effort particulier pour quil en
soit ainsi.
vnement
Source Consquences SIE ART AIE
menaant
chec d une
Personne ne peut
monte de 4 2 8
travailler
Informatique version mal faite
Panne de Les personnes cls ne
3 1 3
serveurs vitaux peuvent plus travailler
Routeur 1/3 du personnel ne
Rseau 2 4 8
dfectueux peut plus travailler
Notes de 0 (faible) 5 (fort)
Dans ces exemples, les impacts et les probabilits ont t hirarchiss avec une
chelle et des estimations ralises par des responsables. Dans le cas prsent,
on leur a demand dvaluer les consquences et les probabilits sur une plage
de 0 (faible) 5 (maximum). Ce type dapproche est aussi intressant, dans le
sens o les avis des valuateurs pouvant diverger, cette diffrence en soi peut
fournir des informations instructives.
Lorsque lon mne des valuations avec des chelles, il est galement possible
de recourir une grille de cotation, comme dans le tableau qui suit :
Laxe horizontal indique la dure moyenne (en annes) entre deux occurren-
ces de sinistres ( partir de tous les cinquante ans, jusqu tous les ans :
numrotation de 50 1).
Laxe vertical indique la gravit de limpact du sinistre (gradue de I V, par
exemple).
18
Chapitre 1 La matrise du risque
50 15 10 4 1
V
IV
III
II
I
19
Management de la continuit dactivit
Laboratoire Gestion
1 : faible 5 : fort Ventes
de recherche des stocks
Risque
total
Risque
Risque
Risque
vnement
ART
ART
ART
SIE
SIE
SIE
Consquences
menaant
Passage en Application
production Start 3 2 6 1 1 1 4 3 12 19
bloqu inutilisable
Problme sur Fichiers j-1
1 3 3 4 2 8 5 1 5 16
traitements IT
Connexion au Base de
sige perdue donnes 4 3 12 3 3 9 2 2 4 25
inaccessible
Batch de nuit Fichiers mis en
non termins ligne 1 3 3 4 3 12 5 3 15 30
tardivement
Transferts de Fichiers non
chiers envoys/reus 1 2 2 3 2 6 5 2 10 18
dfectueux
Virus non PC inutilisables
dtect 1 1 1 4 2 8 4 2 8 17
temps
Total 27 44 54 125
20
Chapitre 1 La matrise du risque
21
Management de la continuit dactivit
vnements
disque CPU
de base
22
Chapitre 1 La matrise du risque
Une fois les risques un peu mieux dlimits dans leurs cot, impact et probabi-
lit doccurrence, il est temps dtudier les diffrentes options qui se prsentent
pour y faire face.
Les quatre options de traitement du risque
Quatre options sont alors tudies pour traiter le risque :
1. Accepter le risque : cela consiste ne rien faire face au risque.
2. viter ou supprimer le risque, en sortant des conditions de sa ralisation :
on effectue alors un changement important qui fait que le risque ne sappli-
que plus.
3. Rduire le risque, en jouant sur ses deux paramtres de cot/impact et de
probabilit doccurrence.
4. Transfrer le risque une autre entit par la sous-traitance ou lassurance.
23
Management de la continuit dactivit
Ltude des options doit bien videmment tenir compte, une fois encore, de
lexistant et de ce quil est possible de faire sans trop de difficults.
Dans la ralit, les quatre catgories doptions sont mises contribution simul-
tanment. La souscription dune police dassurance, par exemple, saccompagne
le plus souvent de mesures de rduction du risque un niveau conomique-
ment supportable.
24
Chapitre 1 La matrise du risque
25
Management de la continuit dactivit
De son ct, la compagnie dassurances vrifie par une enqute que lentreprise
a men des actions de prvention des risques et quelle possde un plan de
reprise convenable. Cest dailleurs la limite du systme : lentreprise ne peut
pas faire limpasse sur son plan de continuit et se couvrir uniquement par
lassurance. En ralit, ces contrats risques informatiques rencontrent un
succs trs mitig et semblent se cantonner plutt aux PME.
Le chiffrage cot/efcacit
Chaque option choisie possde deux caractristiques :
elle reprsente un certain cot de mise en uvre, compos gnralement
dune fraction ponctuelle et dune fraction rcurrente ;
elle permet une diminution du risque, soit en limitant limpact dune menace,
soit en rduisant sa probabilit doccurrence.
Ces cots et ces diminutions de risque peuvent tre valus et chiffrs, afin de
procder des comparaisons.
Option de
Source Catgorie Cot de loption
matrise
Dmnager la salle Rduction du risque 300 000
ltage
Inondation
Dmnager les Suppression du risque 1 500 000
locaux en altitude
Coupure Acqurir des Rduction du risque 100 000
dlectricit gnrateurs + maintenance
Souscrire une Transfert du risque 1 million deuros/an, soit
police dassurance 20 millions sur 20 ans
Crash davion Rpartir les Rduction du risque 600 000 , car ces sites
bureaux plus loin, existent dj
sur trois sites
26
Chapitre 1 La matrise du risque
Menace
Option de Risque Rduction
(et perte moyenne Cot de loption
matrise rsiduel du risque
annuelle attendue)
Dmnager la 300 000 30 000 250 000
Inondation salle ltage
(ALE : 280 k) Dmnager les 1 500 000 0 280 000
locaux en altitude
Souscrire une 1 million deuros 0 1,4 m
police dassurance par an, soit
20 millions sur
Crash davion 20 ans
(ALE : 1,4 m)
Rpartir les 600 000 , car 0,47 m 0,93 m
bureaux plus loin, ces sites existent (1/3 de
sur trois sites dj 1,4 m)
27
Management de la continuit dactivit
Menace
Option de Rduction
(et perte moyenne Cot de loption CURR
matrise du risque
annuelle attendue)
Dmnager la 300 000 250 000 1,20
Inondation salle ltage
(ALE : 280 k) Dmnager les 1 500 000 280 000 5,36
locaux en altitude
Souscrire une 1 million deuros 1,4 m 0,7
police dassurance par an, soit rcurrent
20 millions sur
Crash davion 20 ans
(ALE : 1,4 m )
Rpartir les 600 000 , car 0,93 m 0,65
bureaux plus loin, les sites existent
sur trois sites dj
Laversion au risque
Beaucoup douvrages se sont penchs sur cette notion applique aux investis-
seurs en Bourse. En ce qui concerne la continuit dactivit, il est intressant de
noter les carts de comportement entre les diffrents responsables de lentre-
28
Chapitre 1 La matrise du risque
prise. En effet, le niveau de sensibilit au risque est variable, que ce soit au sujet
des pertes ou des probabilits doccurrence. risque gal, on pourra constater
les situations suivantes :
Certains responsables ne voient que le montant des pertes et oublient ou
mettent au second plan la faible probabilit doccurrence : ils auront ten-
dance vouloir faire face aux risques rares mais induisant de forts cots.
Dautres, linverse, sont sensibles surtout la probabilit leve et voudront
supprimer des risques probables, mme si leur consquence est faible. Les
probabilits faibles ne les intressent pas.
Enfin, la plupart sont sensibles surtout au cot des options de traitement du
risque, quel que soit le cot du risque. Une option trop chre sera refuse.
Dgts dus au sinistre
ib ilit
ns
e se
n ed
Zo
? ?
ble b le
pta pta
ce ce
Ac Ac
Tout ceci peut expliquer que, face des risques similaires, plusieurs responsa-
bles peuvent faire des choix doptions diffrents.
Le dossier dtude des risques
Lensemble des tudes qui prcdent doit tre document dans un dossier.
Celui-ci a trois objectifs :
29
Management de la continuit dactivit
30
Chapitre 1 La matrise du risque
Prise de dcision
31
Management de la continuit dactivit
Documentation de lensemble
Suivant lobjectif de traabilit de la dmarche, un document est constitu
partir des lments suivants :
le dossier dtude des risques, comprenant sa partie de cadrage ;
un relev des dcisions prises en comit de continuit ;
ventuellement, un suivi spcial dtudes complmentaires mener.
Il peut tre intressant de conserver cet ensemble dans un environnement iden-
tifi. Certaines approches rglementaires demandent en effet que des auditeurs,
par exemple, puissent accder ces documents et y vrifier la prsence de cer-
tains lments (voir le chapitre 13).
32
Chapitre 1 La matrise du risque
comit ad hoc, impliquant aussi bien des professionnels de la continuit que les
oprationnels de terrain et les dirigeants de lentreprise.
Enfin, comme dans tout projet, il ne faut pas oublier la finalit des actions
menes pour ne pas changer implicitement de direction en cours de route.
Suivi et contrle des plans dactions
Le choix des options ayant abouti la mise en uvre des plans dactions corres-
pondants, il est indispensable dassurer un suivi de ces actions. Il faut en effet
rgulirement contrler :
que les hypothses mises lors de lapprciation des risques sont toujours
valables ;
que de nouveaux lments ne sont pas apparus, ncessitant de recommencer
lanalyse et sil y en a, que lanalyse dcrite prcdemment est bien reprise ;
que la socit na pas connu de modification majeure ncessitant une rvi-
sion de ltude : par exemple, en cas de fusion/acquisition ou, au contraire, de
cession de lentreprise, le primtre, les actifs et les activits peuvent avoir
chang, et ltude devra donc tre ritre.
Des audits rguliers pourront tre organiss pour sassurer que les trois points
prcdents sont bien vrifis.
Dans la ralit, les plans dactions tablis auront suivi des voies diverses : cer-
tains seront achevs, dautres en cours, tandis que dautres nauront pas encore
t lancs. Quelle que soit la situation de ces plans dactions, le suivi doit avoir
lieu et produire un document.
Ce suivi fait partie des actions de contrle de la continuit dactivit et du main-
tien en condition du plan (voir les chapitres 12 et 13).
33
Chapitre 2
Lanalyse dimpact
sur les activits
Lanalyse dimpact sur les activits (Business Impact Analysis ou BIA), appele par-
fois aussi bilan de limpact sur lactivit afin de mieux correspondre au sigle
anglais BIA, consiste tudier comment les sinistres, lorsquils se produisent,
affectent le droulement des activits de lentreprise. Lattention se porte sur les
activits dites critiques, cest--dire les plus vitales pour lentreprise et dont la
perte est la plus grave pour elle.
On examine les divers impacts du sinistre (financiers, organisationnels ou en
termes dimage). On envisage aussi de quelle manire lactivit critique peut
continuer et la situation revenir un mode acceptable de fonctionnement, pro-
visoire puis dfinitif.
Le fil conducteur de cette tude est le temps. On considre la priode qui va des
derniers prparatifs avant le sinistre jusquau retour la normale et la rcup-
ration totale. La figure suivante aide visualiser la chronologie dtaille ci-
aprs.
1 Situation normale
Avant que le sinistre ne se produise, tout est normal et les activits sont menes
convenablement. Les actions de prvention ou de protection sont aussi effec-
tues rgulirement et comme prvu, en particulier les sauvegardes et mises en
scurit des actifs importants (donnes, matires, etc.). Cela concerne notam-
ment linformatique et les moyens techniques divers utiliss.
35
Management de la continuit dactivit
B D
A
MTD
C
Rcuprer Rcuprer
le travail les donnes Rcuprer
Donnes Travail les donnes
manuel perdues
perdues manuel collectes
la main
Collecte manuelle des donnes
1 3 4 5
procdures procdures procdures
normales de secours manuelles
manuelles procdures
procdures normales
dernire normales
sauvegarde 2 remise en route
utilisable retour
des systmes
la normale
2 Occurrence du sinistre
Le sinistre a lieu (flche B), causant la perte de moyens utiles lentreprise, qui
ne peut alors plus travailler normalement. On prend en compte ici le moment
effectif du sinistre, cest--dire le moment o les ressources en subissent
limpact. Il se peut que le sinistre lui-mme ne soit dcouvert que plus tard.
Assez souvent dailleurs, le sinistre est dcouvert rapidement mais son ampleur
nest prcise quaprs coup. Il arrive aussi que le sinistre ne soit pas ponctuel,
comme dans le cas dun incendie dcouvert mais non matris, dont on nva-
luera les dgts quune fois celui-ci teint.
Lorsque la situation est claircie, on est alors en mesure de savoir partir de
quel point de sauvegarde les donnes pourront tre rcupres. Ce point est
appel RPO (Recovery Point Objective), cest--dire point cible de rcupration .
Par facilit, on appelle aussi RPO le dlai observ entre ce point de sauvegarde
et le sinistre.
Lors dun sinistre de grande ampleur, on peut observer plusieurs RPO pour plu-
sieurs systmes diffrents. En outre, dans des situations complexes, lorsquil est
impossible de rcuprer les donnes partir de la dernire sauvegarde, il est
parfois ncessaire de revenir plus loin en arrire, ce qui allonge ce dlai de RPO.
36
Chapitre 2 Lanalyse dimpact sur les activits
5 Retour la normale
partir de ce moment (flche D), limpact du sinistre nest thoriquement plus
visible et lactivit de lentreprise a repris dans des conditions normales. Il se
peut que certains travaux restent encore effectuer (au niveau de linformatique
ou des locaux), mais limpact sur les activits, obligatoirement limit, est alors
considr comme nul.
37
Management de la continuit dactivit
Il faut donc sassurer que cette quivalence est ralisable. En effet, le membre de
gauche (MTD) est dcid, tandis que celui de droite (RTO + WRT) est subi.
En gnral, on remarque que plus le point cible de rcupration des donnes
(RPO) est loign dans le temps, plus le temps de rcupration cible (RTO) le
sera galement. En effet, logiquement, plus la quantit de donnes perdues est
importante, plus les traitements raliser pour les rcuprer demanderont de
temps. Dautre part, il est fort probable que les moyens informatiques disponi-
bles soient sous-dimensionns pour un tel surcrot de travail. Il sera alors sou-
vent ncessaire de travailler de nuit, les moyens de restauration ntant pas
disponibles durant la journe. Cela demande par ailleurs de prvoir des moyens
supplmentaires.
Rduire la dure maximale dindisponibilit tolrable (MTD) demandera donc
dabaisser le RTO (et par consquent le RPO), ainsi que de diminuer le temps de
rcupration du travail (WRT).
Bien videmment, tous ces chiffres RPO, RTO, WRT et MTD varient en fonction
du type dactivits de lentreprise et des moyens techniques employs lors de la
survenue dun sinistre.
Cadrage de lanalyse
Une fois le dcor plant, il sagit de mener une analyse dimpact des sinistres sur
les activits. La premire chose faire est de dfinir le cadre dans lequel celle-ci
est ralise. Il faut en particulier dterminer son primtre, ses objectifs et cer-
taines hypothses prendre en compte.
38
Chapitre 2 Lanalyse dimpact sur les activits
Les activits critiques sont celles dont la disparition endommage le plus lentre-
prise, car elles en constituent le fondement. Ces activits critiques feront lobjet
dune attention renforce en cas de sinistre. Elles bnficieront de moyens plus
rsilients et seront privilgies dans les actions de reprise et de redmarrage.
Un exercice difcile
Cette tude des activits de lentreprise est un exercice difficile. Toute la diffi-
cult consiste obtenir une vision partage de ce que sont ces activits juges
critiques. En effet, chaque responsable aura probablement tendance citer son
activit comme tant critique, alors quil existe certainement des activits plus
critiques que les autres : comment choisir ?
39
Management de la continuit dactivit
Une autre difficult provient du fait que lentreprise na pas forcment ralis au
pralable une description de ses activits. Avant de savoir laquelle est critique,
il faut obtenir une liste des activits suffisamment descriptive.
Globalement, on rencontre trois situations.
1. Lentreprise est capable de citer ses activits les plus critiques et dindiquer
quoi celles-ci correspondent dans son organisation, ses implantations go-
graphiques et les moyens ddis leur ralisation : cest un cas relativement
idal. La description, en revanche, nest peut-tre pas modlise laide
doutils appropris ni avec rigueur, mais cest un point de dpart utile pour
lanalyse dimpact.
2. Lentreprise prsente ses activits de manire simple et succincte. Elle a ra-
lis un premier niveau dorganigramme indiquant qui est responsable de
quelle activit. En revanche, il nexiste aucune liste de ce qui pourrait tre criti-
que dans ses activits, ni aucune indication de moyens ou de site. Pour com-
mencer lanalyse dimpact, on sadressera donc aux responsables dsigns.
3. Lentreprise a ralis une tude approfondie dite analyse de processus
avec des outils et une formalisation forte. Malheureusement, ces processus
sont souvent transversaux son organisation et il nest pas toujours ais de
savoir quels sont les moyens impliqus et les responsables. La vision
activit et la vision processus pouvant tre totalement indpendantes
lune de lautre, il faudra obtenir, pour une bonne analyse dimpact, une
vision commune entre les responsables de processus et les responsables de
dpartements ou services.
Concernant tous ces aspects, le document de politique de continuit (voir le
chapitre 11) se rvle dun grand secours. Cest lui qui doit indiquer par quel
ct le problme doit tre abord.
la fin de lanalyse dimpact (BIA), on obtient ainsi en rsultat une liste des acti-
vits les plus critiques de lentreprise.
Activits, fonctions, processus : le pige du vocabulaire
Une remarque importante ici : le vocabulaire peut tre source de confusion. On parlera
indiffremment dans les entreprises dactivits , de fonctions , de processus , voire
de process (en anglais) avec des signications et des hirarchies variables.
Dans le cadre de la continuit dactivit, il faut rechercher un niveau de dcoupage rai-
sonnable de lentreprise, qui doit tre regarde comme un tout autonome face au sinistre.
On prfrera ainsi raisonner par responsable, par dpartement ou par groupe de moyens.
40
Chapitre 2 Lanalyse dimpact sur les activits
Pour chacune de ces fonctions et processus, on indique sil faut tudier ou non
limpact dun sinistre ventuel. Pour remplir ce tableau, il est conseill de faire
appel aux directeurs dactivits (business owners) ou aux responsables de proces-
sus (process owners). Il est galement prfrable de limiter le nombre de niveaux
de dcoupage une proportion raisonnable.
Ce nest quune fois ces choix effectus quon pourra estimer les impacts dun
sinistre.
41
Management de la continuit dactivit
Impact de la perte :
0 (nul) 5 (trs fort)
Perte par
Fonction Processus Logistique Image Revendeurs
jour
Prise de commandes 600 000 3 5 0
Vente
Reporting 60 000 0 0 0
Gestion du catalogue 500 000 2 3 3
Marketing
Gestion des partenaires 300 000 3 2 5
Rception des livraisons 100 000 5 2 2
Organisation
Logistique 200 000 5 3 3
des expditions
Gestion du stock 50 000 3 2 4
Une certaine pratique consiste faire valuer les critres en aveugle par diff-
rentes personnes. Il est aussi possible de confier cette valuation un expert
externe. Plusieurs approches peuvent donc tre adoptes, en retenant in fine les
moyennes entre les diffrentes approches, par exemple, et en se faisant expli-
quer les gros carts dvaluation si on en constate.
42
Chapitre 2 Lanalyse dimpact sur les activits
Dans ce tableau, on peut ainsi slectionner, daprs leur note finale, les proces-
sus suivants comme tant les plus critiques :
Vente : prise de commandes (23) ;
Marketing : gestion du catalogue (19) ;
Marketing : gestion des partenaires (18) ;
Logistique : organisation des expditions (18).
Ce type dapproche ncessite bien entendu plusieurs itrations entre les diff-
rents responsables concerns pour arriver une vision partage. En gnral, le
tableau dvaluation de limpact est rempli avec laide des personnes suivantes :
les colonnes relatives limpact de la perte sont values par les
oprationnels ;
les poids (ou coefficients) sont fixs par la direction gnrale.
Par ailleurs, il est aussi possible de procder en tablissant des rgles de slec-
tion des processus critiques du type de celles prsentes ci-aprs. Sera ainsi
retenu comme critique :
43
Management de la continuit dactivit
Une fois les processus critiques dtermins dans lentreprise, il convient dta-
blir, pour chacun dentre eux, les points suivants :
la dure maximale tolrable dinterruption de lactivit (MTD) et les priorits
pour les actions de reprise ;
les lments critiques dans le domaine de linformatique ;
les autres lments critiques.
Ces lments connus, il sera alors possible den dduire les contraintes qui por-
tent sur eux. Cela servira pour les choix techniques (voir Partie III) et pour lla-
boration du plan de reprise (voir Partie II).
MTD et priorits
Il sagit de dterminer, pour les processus critiques slectionns prcdemment,
le temps maximal durant lesquels ils peuvent tre interrompus : le MTD (Maxi-
mum Tolerable Downtime).
Cette dure pourra tre value en fonction de la perte financire, par exemple :
plus la perte est forte, plus la dure devra tre faible. Il est galement possible
de procder une valuation partir des impacts estims (chelonns par
exemple de 0 5). Des exemples sont fournis dans les tableaux page suivante.
Remarque
Sur le tableau 2-6 on notera que le temps maximal dinterruption admissible est donn
en jours et que le processus le plus critique ne doit pas sinterrompre plus dune demi-
journe.
Ltablissement de priorits est utile pour raliser un arbitrage durant le plan de
reprise : il sagit de dcider quel processus sera relanc avant quel autre.
44
Chapitre 2 Lanalyse dimpact sur les activits
Support Hotline 1 2 5 3 17
client Expertise Niveau 1 1 2 4 5 17
Couplage carte
4 1 4 1 18
bancaire
Paiement Couplage VAD
(vrication avant 3 1 3 3 16
dpart)
Coefcient 2 1 2 1
Support Hotline 17 2 2
client Expertise Niveau 1 17 2 3
Couplage carte bancaire 18 1 2
Paiement
Couplage VAD (vrication avant dpart) 16 3 4
45
Management de la continuit dactivit
Il apparat par ailleurs que la priorit ne suit pas tout fait la hirarchie des
MTD :
Lorganisation des expditions a une priorit de 1, alors que son MTD la place
en seconde position. Cela sexplique par le fait que, dun point de vue opra-
tionnel, la reprise des autres processus dpend du bon redmarrage de celui-ci.
Il en va de mme de lexpertise niveau 1, dont la priorit est fixe juste aprs
celle de la hotline.
De mme, dans le cas de cette socit, la perte de la hotline peut sembler peu
importante ou sous-estime (impact valu 17 sur 30). Cela tient au fait que
les clients ont aussi lalternative de se tourner vers un revendeur. Cet exemple
montre donc bien quil ne faut surtout pas perdre de vue la ralit opration-
nelle.
46
Chapitre 2 Lanalyse dimpact sur les activits
tions subissent le mme sort en termes de disponibilit (si elles sont, par exem-
ple, installes sur la mme machine). Il faut alors raisonner par groupe
dapplications.
Les services informatiques ont par ailleurs probablement mis au point des con-
figurations par service (au sens de service lutilisateur), avec un niveau de
finesse variable. Les contraintes de service seront alors appliques tout cet
ensemble.
Dautre part, la rflexion doit tenir compte des deux grandes tendances
suivantes :
Avec les volutions des rseaux ou des grilles de calcul ces dernires annes,
il est fortement conseill de noter la situation gographique des moyens
techniques lorsque celle-ci nest pas la mme pour tous. Il nest pas certain,
en effet, que le serveur HTTP (accueil), le serveur web et le serveur de bases
de donnes se trouvent dans la mme salle ou sur le mme site.
La virtualisation des serveurs a conduit procder des regroupements sur
les mmes machines physiques, au sein de partitions dans de gros serveurs.
Cest la tendance inverse de la prcdente. Ce regroupement a donc des effets
sur la criticit : si une application dans le lot est critique, le serveur (au mini-
mum) le sera aussi.
Enfin, certains systmes sont bien videmment utiliss par tous, comme :
les PC et imprimantes (partages ou non) ;
la messagerie dentreprise (Notes, Exchange, etc.) ;
les rseaux locaux dchanges et de partage ;
les serveurs de stockage de type NAS (network-attached storage), de partage de
fichiers ou les extensions de disques ;
les tlcopieurs ou le couplage la tlcopie, etc.
Ces systmes gnraux ncessitent une prise en compte spciale, car non affecte
une activit ou un processus particulier (voir le chapitre 4). Leur degr de criticit
sera diffrent en fonction de la possibilit de substitution (utilisation dun PC de
secours gard en rserve) ou non (le serveur de courriels est perdu ou inaccessible).
Autres ressources critiques
Pour terminer, il convient de lister galement les autres ressources ncessaires
au bon fonctionnement des processus critiques. On pourra ainsi passer en revue
des lments tels que :
les locaux informatiques et industriels ;
les bureaux ;
les quipements de production (machines-outils) ;
les matires premires ;
le mobilier de bureau ;
les tlcopieurs, imprimantes et photocopieurs ;
47
Management de la continuit dactivit
48
Chapitre 2 Lanalyse dimpact sur les activits
RTO et WRT
Rappellons que le RTO (Recovery Time Objective) est le dlai qui scoule entre la
perte des moyens cause du sinistre et leur rcupration dans un tat accepta-
ble. Autrement dit, cest le temps pendant lequel lemploy doit se dbrouiller
sans le systme informatique.
Le WRT correspond la priode qui suit le retour de linformatique : lemploy
ou les informaticiens mettent les donnes niveau, aids en cela idalement
par des formulaires manuels et par lassistance technique du service informati-
que.
Avec les utilisateurs qui peuvent donner des indications et des contraintes, on
peut commencer envisager des valeurs possibles pour RTO et WRT.
On notera que plus le RTO est long, plus y a de chances (ou malchances) que le
WRT le soit aussi. Plus labsence de linformatique a t longue, plus la quantit
de donnes ressaisir est importante. Si lon veut rduire le WRT, il faut donc
faciliter les saisies dans le nouveau systme et limiter le RTO au maximum.
49
Management de la continuit dactivit
Or, rien ne dit a priori que lgalit MTD = RTO + WRT puisse tre respecte. En
effet, le terme de droite (RTO + WRT) est souvent trop lev pour convenir la
valeur indique comme seuil de douleur par le MTD. Il faut donc, l encore,
discuter et faire maints ajustements pour parvenir des valeurs ralistes.
Tableau 2-10 : Ajustement des valeurs de RTO et WRT sur les MTD
Notons que ces chiffres peuvent, pour une premire estimation, ne pas tre
totalement ralistes. Il arrive en effet que se prsentent les situations suivantes.
Le MTD fix par le directeur mtier nest pas ralisable, car le RTO (subi) est
trop lev : la rcupration des moyens techniques prend trop de temps, par
exemple. On cherchera alors soit raccourcir cette dure en amliorant les
possibilits de bascules sur des systmes de secours, soit limiter les prten-
tions en termes de MTD.
La dure du WRT est telle quelle ne peut permettre datteindre le MTD fix :
on travaillera alors abrger les travaux manuels de reprise (par le recours
la saisie en intrim ou en mettant au point divers scripts de traitements, par
exemple) ou bien, l encore, on abaissera les exigences en termes de MTD.
Il apparat donc possible de jouer sur ces trois paramtres : MTD, WRT et RTO.
En gnral, une concertation avec les directeurs mtier et les responsables du
service informatique permet darriver un compromis cohrent en termes de
reprise technique et de travail de mise jour manuelle, donnant qui plus est
satisfaction pour le dlai dinterruption maximum.
Bien entendu, il faudra tenir compte des cots associs tout cela, concernant
aussi bien la perte dexploitation que la mise en uvre de solutions onreuses
et disponibilit leve ou encore que la reconstruction rapide.
50
Chapitre 2 Lanalyse dimpact sur les activits
RPO
Le RPO (Recovery Point Objective) indique la dure rtroactive permettant dobtenir
une donne fiable et correctement utilisable. Celle-ci correspond en gnral au
temps qui spare le sinistre de la dernire sauvegarde utilisable.
Prcisons que la dernire sauvegarde utilisable ne correspond pas forcment
la dernire sauvegarde effectue. Cest le cas, par exemple, lorsque plusieurs
traitements sont lis entre eux et que lun deux possde une sauvegarde plus
ancienne que celle des autres. Il pourra alors tre ncessaire de remonter au
moment des dernires sauvegardes communes tous.
Qui dit sauvegarde ne dit pas forcment bande magntique, mme si ce support
tait le plus courant ces trente dernires annes. Il existe depuis quelque temps
des sauvegardes sur disque, des copies instantanes (snapshot ou clichs) ou
encore des miroirs distants sur site loign. Les bandes magntiques prsentent
toutefois lintrt dtre amovibles et de pouvoir tre conserves en lieu sr. On
se reportera sur ces points au chapitre 8.
Concernant la restauration, la technologie actuelle offre tout un ensemble de
moyens permettant de reconstituer un tat propre des donnes situ plus ou
moins loin dans le pass. partir de ces donnes rcupres, il est galement
possible dans certains cas de r-appliquer informatiquement les mises jour
perdues : il suffit pour cela davoir mis en place un sous-systme maintenant un
journal (log) des actions effectues, et davoir retrouv ledit journal. Le proces-
sus de reconstruction prend en gnral du temps et de la puissance machine.
Reconstruire les donnes jusquau terme du journal (cest--dire jusqu un
moment trs proche de celui du sinistre) peut ncessiter un dlai allant de quel-
ques minutes quelques jours. En gnral, le journal ne sera pas stock avec les
donnes, de manire ne pas tout perdre en mme temps. Malheureusement,
ces techniques trs utiles portent rarement sur lensemble des donnes traiter,
et il faut donc utiliser simultanment plusieurs techniques plus ou moins rcen-
tes et plus ou moins automatiques. Tous ces aspects techniques sont couverts
plus en dtail dans la partie III.
Pendant la dure du RPO, les donnes non sauvegardes peuvent connatre plu-
sieurs situations :
soit elles sont conserves dans des systmes provisoires (PDA, ordinateurs
portables, PC, Internet, etc., avant un transfert qui na pas eu lieu) ;
soit elles nont pas t sauvegardes mais peuvent tre reconstitues via les
journaux (ou logs) qui seront appliqus durant la rcupration du travail (WRT) ;
soit elles sont perdues mais peuvent tre reconstitues en appliquant des
traitements de rattrapage (souvent des traitements par lots ou batch) ;
soit elles ont t notes par crit et peuvent donc tre ressaisies ultrieure-
ment (plus ou moins facilement) ;
soit elles sont perdues dfinitivement.
51
Management de la continuit dactivit
Ces diverses situations doivent tre prises en compte pour rcuprer les don-
nes durant la priode de WRT. En effet, plus le RPO est long, plus le WRT le sera
aussi. Enfin, il est possible que des donnes aient t dfinitivement perdues.
En ralit, le RPO est impos par les choix techniques qui ont t faits pour se
prmunir dun sinistre. Il dpend le plus souvent de la frquence des sauvegar-
des. Il arrive que celle-ci ait t dcide pour rpondre aux besoins des respon-
sables dactivit, mais cest rarement le cas.
Lors dune analyse dimpact, on peut se limiter constater les RPO suite aux
choix techniques raliss dans le pass. On peut aussi noter les insuffisances
existantes et prconiser des valeurs plus appropries aux contraintes de MTD.
Pour obtenir ces valeurs dans la ralit, des actions techniques devront alors
tre prvues (voir sur ces points le chapitre 3).
Applications et systmes
Fonction Processus RPO
critiques
Tlphonie
Vente Prise de commandes Application Vador sur Unix, site 1 jour
de Lyon
Serveurs web de gestion
Gestion du catalogue du catalogue, site de Lyon 0 5 jours
Marketing et hbergeur
Application Agpar sur
Gestion des partenaires 1 jour
mainframe, site de Paris
Logiciel SAP S&D
Logistique Organisation des expditions Couplage avec logistique 1 jour
Infodis
Hotline Centre dappels, site de Paris nsp
Support client Plateau tlphonique, site de
Expertise Niveau 1 nsp
Lyon
Accs au systme
Couplage carte bancaire 0,5 jour
dautorisation
Paiement
Couplage VAD Accs la VAD et programme
1 jour
(vente distance) VAD
52
Chapitre 2 Lanalyse dimpact sur les activits
0,5 jour : le dlai est court, dans cet exemple, car il suffit de rcuprer des
fichiers systmes et trs peu de donnes.
Rappelons que ces chiffres indiquent la plage durant laquelle les donnes sont
soit perdues, soit reconstruire. Ils ne donnent pas dindication sur la dure de
cette reconstruction (qui est incluse dans le WRT ou temps de rcupration du
travail).
Procdures de secours
Les procdures de secours visent permettre le travail malgr la perte des
moyens informatiques et non informatiques cause par un sinistre. Les proces-
sus concerns sont ceux qui ont t au pralable slectionns comme critiques.
Ces procdures, moins efficaces que les procdures habituelles, peuvent recou-
rir des tches manuelles (par exemple : saisie sur papier ou, mieux, sur formu-
laires, appels tlphoniques, etc.) qui ncessiteront peu de moyens.
Il sagit alors :
de collecter les procdures existantes et de sassurer quelles sont viables ;
de dterminer celles qui manquent et quil conviendrait de raliser.
Ces procdures de secours peuvent avoir cohabiter avec les procdures nor-
males durant des phases transitoires. Ceci reprsente dailleurs une difficult
supplmentaire grer. Dans certains cas, en effet, la procdure dite
normale devra tre suspendue et une procdure de secours active.
Cela peut concerner en particulier des aspects extrmement sensibles comme
lattribution de droits daccs au systme en cas de panne. Si la procdure nor-
male prvoit des circuits durant deux jours alors que le temps presse, on
recourra une procdure durgence dment note et suivie la lettre. Car, bien
quon sorte du cadre de la procdure normale, il nest pas question non plus de
se retrouver dans un vide procdural. Ce type de difficult se dcouvre et se
traite durant les tests du plan de continuit (voir le chapitre 6).
Ces procdures de secours doivent galement prendre en compte le fait que les
informations quelles produisent doivent pouvoir tre ultrieurement entres le
plus aisment possible dans le systme informatique, une fois celui-ci de nou-
veau oprationnel.
Lanalyse ou le bilan dimpact sur les activits (BIA) produit un document rcapi-
tulatif. Ce document (ou ensemble de documents) est ralis au fur et mesure
de la progression de ltude dcrite prcdemment et doit tre conserv dans un
systme documentaire adapt. Il fera lobjet daudits ultrieurs (voir le chapi-
tre 13).
53
Management de la continuit dactivit
54
Chapitre 3
Le dveloppement
dune stratgie
de continuit
Au cours des analyses prsentes dans les deux chapitres prcdents, lentre-
prise a fait le point sur les risques quelle encourt et a dtermin ses activits
critiques, dont la perte lui causerait les dommages les plus forts. Les dlais de
reprise et les temps dimmobilisation maximum acceptables de ces activits ont
t tudis et sont dsormais connus.
Il reste maintenant effectuer les actions prventives ncessaires pour que les
exigences des activits critiques puissent tre remplies. Cest lobjet de ce chapi-
tre, qui explique comment dterminer ces actions et comment dfinir la manire
dont la continuit dactivit est assure dans lentreprise. Tout ce dispositif
constitue la stratgie de continuit de lentreprise.
Les aspects techniques de ce chapitre ne sont quesquisss, afin de ne pas nuire
son droulement ; ils seront abords plus en profondeur dans la troisime par-
tie de cet ouvrage.
Produire une stratgie de continuit est un travail ncessitant cinq phases prin-
cipales dtude et de dcision.
1. Dans une premire phase, partir de lanalyse dimpact sur les activits (BIA
voir le chapitre 2) qui a prcd, les besoins en termes de reprise sont affi-
ns et dtermins prcisment.
2. Au cours de la deuxime phase, on passe en revue les solutions possibles et
ralistes.
3. La troisime phase permet de dterminer les dlais inhrents aux solutions
proposes en rapport avec les exigences formalises durant lanalyse
dimpact pour chaque activit.
4. La phase quatre consiste raliser une tude de cot et faisabilit sur les
solutions possibles.
5. Enfin, la phase cinq mne une conclusion et une prise de dcision : la
stratgie est prte et documente.
Cette stratgie servira de fondement au dveloppement du plan de continuit
proprement dit.
55
Management de la continuit dactivit
Cette premire tape est ralise partir des conclusions de lanalyse dimpact
sur les activits (BIA). Elle se focalise exclusivement sur les processus jugs
critiques.
Vocabulaire
Dans la suite de ce chapitre, les mots processus et activits sont employs indiffremment.
56
Chapitre 3 Le dveloppement dune stratgie de continuit
57
Management de la continuit dactivit
58
Chapitre 3 Le dveloppement dune stratgie de continuit
En fonction du fournisseur
Un premier classement peut tre effectu en fonction du fournisseur de loption.
Options internes : il sagit doptions qui engagent lentreprise avec ses pro-
pres ressources et moyens, par exemple : un site de bureaux de secours
appartenant lentreprise. Le fournisseur est donc interne lentreprise.
Options contractuelles auprs de fournisseurs : dans ce cas, on fait appel
un fournisseur externe avec lequel un contrat a t conclu. Sur ce point, on
peut noter le dveloppement daccords dun type particulier : les accords de
rciprocit entre confrres.
Options impliquant des employs : cest un cas particulier tudier, impli-
quant les employs de lentreprise (les employs peuvent travailler depuis
leur domicile par exemple). Il vaut mieux avoir prvu ce cas de figure dans les
accords dentreprise ou, ventuellement, dans le contrat de travail. Le
fournisseur est alors dun type un peu particulier, puisquil sagit de
lemploy. Si cet employ est un prestataire, on pourra se reporter au cas pr-
cdent (fournisseur externe).
59
Management de la continuit dactivit
De faon similaire, on classera aussi les moyens informatiques selon leur degr
de prparation oprationnelle. Traditionnellement, on parle alors de moyens de
secours froid (peu prpars), tides (prpars) ou chauds (prts lusage).
Tableau 3-1 : Ventilation des options retenues dans les diffrentes catgories
On constate dans cet exemple que les solutions froides retenues ne font pas
lobjet de contrats sur le march et que seule la solution chaude est ralise
avec un prestataire externe.
Llaboration de tableaux de ce type permet la discussion et la prise de dcision
durant les runions de suivi.
Options envisages
En fonction des besoins exprims et des catgories doptions dfinies prc-
demment, il devient possible de lister et danalyser les options les plus suscep-
tibles de donner satisfaction. Encore une fois, cela consiste se livrer un
exercice dimagination des solutions qui pourraient convenir. Il ne sagit pas
pour autant de rver et de sloigner de la ralit technologique et financire :
les avantages et inconvnients des options listes seront jugs plus loin
(phase 3).
On adoptera la mme segmentation que pour lexpression des besoins :
1. bureaux et locaux de travail ;
2. systmes, infrastructures et locaux informatiques ;
3. donnes et enregistrements critiques ;
4. production industrielle et fabrication.
60
Chapitre 3 Le dveloppement dune stratgie de continuit
Locaux et bureaux
Catgorie Option Description
Site mobile de secours livr en un
lieu prvu, et en gnral prquip
Site mobile
en mobilier, tlphones et postes
de travail.
Solution contractuelle
avec fournisseur externe Salles de runion dhtel Htel prvu lavance.
Site de secours en un lieu donn,
Site xe propos en tant que service par un
prestataire, galement prquip.
Solution interne Site de secours dormant ou pas,
Autre site de lentreprise
lentreprise prquip ou non.
Lemploy travaille depuis son
domicile et peut ventuellement
Recours lemploy Travail la maison
accder au systme informatique,
tlphonique, etc.
61
Management de la continuit dactivit
Tableau 3-4 : Niveaux de prparation possibles pour les sites informatiques de secours
Pour chaque option envisage, on peut prsenter les niveaux que lon souhaite
tudier (froid, tide, chaud).
62
Chapitre 3 Le dveloppement dune stratgie de continuit
Donnes critiques
Catgorie Option Description (voir Partie III)
Sauvegarde en continu par
Continu
rplication distance
Clich (snapshot) toutes les 3
Quelques minutes minutes, par exemple (stockage en
Frquence des
rseau NAS)
sauvegardes
Jour Sauvegarde une fois par jour
Semaine Sauvegarde une fois par semaine
Mois Sauvegarde une fois par mois
Complte Complte, sur tous les chiers
Uniquement ce qui a t modi
Incrmentielle
Type de sauvegarde depuis la sauvegarde prcdente
Uniquement ce qui a chang depuis
Diffrentielle
la dernire sauvegarde complte
Miroir distant (remote Copie de disque disque, par
mirroring) contrleur, par exemple
Technologie de Le systme de gestion de base de
Propagation de log de
sauvegarde donnes propage son journal sur un
SGBD
site distant
Bandes Copie sur bandes stockes hors site
63
Management de la continuit dactivit
Comme dans les autres analyses, un compromis est tabli entre ce qui est sou-
haitable et ce qui est ralisable.
Une fois toutes les options possibles passes en revue, celles-ci devront tre
confrontes aux exigences de chaque activit, telles quelles ont t dfinies
dans lanalyse dimpact (BIA). En liminant les options non compatibles avec les
besoins exprims, notamment en termes de dlais, cette phase permet de pro-
64
Chapitre 3 Le dveloppement dune stratgie de continuit
Locaux et bureaux
Catgorie Option Proccupations ou problmes potentiels
Distance parcourir, conditions de
Site mobile circulation (mto, trac), encombrements
pour un convoi exceptionnel.
Solution contractuelle
avec fournisseur Salles de runion Si le sinistre est rgional, tous les htels sont
externe dhtel pris ou sinistrs.
Distance, conditions de circulation et
Site xe
daccs.
Solution interne Autre site de Idem, en ajoutant les causes communes
lentreprise lentreprise (par exemple, les grves).
Difcults de mise en place de la solution
Recours lemploy Travail la maison
technique pour les employs et la scurit.
65
Management de la continuit dactivit
Il est aussi intressant dtudier dautres aspects, tels que ceux lis au degr de
prparation oprationnelle ou louverture des locaux et bureaux de secours,
ainsi que du centre de crise (voir le chapitre 4).
66
Chapitre 3 Le dveloppement dune stratgie de continuit
67
Management de la continuit dactivit
Tableau 3-12 : Caractristiques et dlais pour chaque option concernant les donnes critiques
Donnes critiques
Catgorie Option Problmatique et dlais
Continu Convient aux RPO courts (quelques heures).
Quelques minutes RPO de quelques minutes.
Frquence des
Jour RPO = 1 jour.
sauvegardes
Semaine RPO = une semaine.
Mois RPO = un mois.
Demande peu de bandes et peu de temps
Complte
pour restaurer.
Type de
Demande le plus de bandes et de temps
sauvegarde Incrmentielle
pour restaurer.
Diffrentielle Entre les deux prcdents.
Miroir distant Peut permettre des RTO et RPO voisins de
(remote mirroring) zro, si complet.
Routage de transactions Idem, avec retour en arrire possible.
Grappe (cluster) Typiquement : RTO < 30 minutes
distance campus et SAN et RPO < 8 heures.
Technologie de Dpend du traitement de la log sur site
sauvegarde Propagation de log
distant ; dans les meilleurs cas : RPO
de SGBD
et RTO < 30 minutes.
Bandes proches ou non du lieu de
restauration ; selon le temps
Bandes
dacheminement, RPO et RTO se comptent
en jours.
Considrer la distance et laccessibilit, le
rangement des bandes, la facilit les
Site commercial
Site de stockage regrouper et les retrouver rapidement,
distant dlais pour prvenir le fournisseur.
Idem, en ajoutant les comptences en local
Site interne
ou dplacer.
Sur tous ces points, le chiffrage devra tre prcis et valid par les hommes de
lart. Lenjeu consiste ici dtecter les points problmes, qui peuvent se rv-
ler bloquants ou, au contraire, susciter une amlioration.
Il faut aussi noter que la plupart du temps plusieurs solutions cohabiteront et
que, pour une activit donne de lentreprise, cest la plus pnalisante qui sera
ressentie au final par les usagers.
L encore, les donnes papier ou enregistres sur disque optique numrique
(DON) feront lobjet dune considration particulire.
68
Chapitre 3 Le dveloppement dune stratgie de continuit
69
Management de la continuit dactivit
Locaux et bureaux
Catgorie Option Raison de non-slection
La distance parcourir, les conditions de
Solution contractuelle circulation (mto, trac), les
Site mobile
avec fournisseur externe encombrements pour un convoi
exceptionnel sont rdhibitoires.
Selon les circonstances et le type de besoins,
Activation Cas par cas les ressources peuvent prendre trop de
temps tre mises en place.
Les tches de prparation du site, de
Niveau de prparation Site froid conguration, dinstallation, de connexion,
etc.,peuvent tre trs longues.
Tableau 3-15 : Options limines pour les sites informatiques de secours (2)
70
Chapitre 3 Le dveloppement dune stratgie de continuit
Donnes critiques
Catgorie Option Raison de non-slection
RPO = un mois. Dlai trop long,
Frquence des
Mois mme pour les applications peu
sauvegardes
exigeantes.
Demande le plus de bandes et de
Type de sauvegarde Incrmentielle
temps pour restaurer.
Technologie non matrise en
Routage de transactions
Technologie de interne.
sauvegarde Grappe (cluster) Technologie non conforme
distance campus et SAN larchitecture choisie.
71
Management de la continuit dactivit
72
Chapitre 3 Le dveloppement dune stratgie de continuit
Tableau 3-18 : valuation des options sur des critres deffort, de qualit, de matrise, de cots
et de scurit
Ce travail de chiffrage est effectuer sur toutes les options qui ont t retenues
jusque-l. Il peut tre demand plusieurs personnes responsables dans des
services diffrents et fera lobjet de discussions et ditrations jusqu obtention
dune vision partage. En gnral, ce chiffrage sappuie sur des donnes factuel-
les et ne devrait pas provoquer trop de divergences de point de vue.
On peut ne pas discuter ce stade de limportance des diffrents critres. Cela
permet de scinder lapproche en deux parties : une qui se concentre sur le choix
des critres, et lautre qui se focalise sur leur valuation.
Slection doptions
Les diffrents critres sont alors pondrs et les options les mieux notes rete-
nues.
Considrons lexemple prcdent concernant le site de secours informatique :
Dans lhypothse o seuls comptent leffort et la scurit (et donc pas le cot,
ni la matrise, ni la qualit), alors le choix se portera sur les deux options
suivantes :
Offre Commerciale / Site ddi
Niveau de prparation / Site chaud
Si, en revanche, le cot et la matrise sont mis en avant, alors le choix se fera
sur le site distant en toute proprit.
Toute pondration de lensemble des critres est bien videmment possible et
on obtient, la fin de cette tape, une liste doptions retenues.
73
Management de la continuit dactivit
Une runion de validation peut tre organise pour avaliser les dcisions ou
pour les cibler davantage lorsque le nombre doptions ouvertes est lev.
Lensemble de la stratgie de continuit peut alors tre document dans un rap-
port dtude, qui peut se structurer comme suit :
Stratgie de continuit
1. Besoins de reprise
1.1. Introduction, rappel du contexte BIA, cadrage
1.2. Exigences des processus critiques
1.3. Besoins pour la reprise
a. Segmentation (bureaux, locaux IT, donnes, autre)
b. Besoins en fonction de cette segmentation
c. Besoins communs
2. Options possibles
2.1. Catgories doptions tudier (internes, contractuelles, etc.)
2.2. Options envisages, en fonction de la segmentation
2.3. Options limines et raisons de llimination
3. Confrontation aux exigences mtier
3.1. Dlais dactivation
3.2. Comparaison avec les besoins des mtiers
3.3. Options retenues avec argumentation
4. tude de cot et faisabilit
4.1. Critres retenus
4.2. Chiffrage des options en fonction des critres
4.3. Pondration et slection des options
5. Compte rendu de la runion de dcision
74
PARTIE II
Lentreprise
labore son plan
de continuit
Le plan de continuit dactivit (PCA) fixe les directives suivre par lentreprise
en cas de sinistre dans le but den minimiser les impacts sur son activit.
La ralisation dun PCA sinscrit dans le contexte dcrit dans la premire partie.
Dans un premier temps, lentreprise ralise une analyse des risques encourus et
dtermine diffrentes options pour y faire face (chapitre 1), puis elle en value
les impacts rsiduels sur ses activits critiques (chapitre 2) pour dfinir enfin
une stratgie de rponse en cas de sinistre (chapitre 3). La ralisation du PCA
sinscrit logiquement dans cette dmarche.
Pour quun plan de continuit soit efficace, lentreprise doit tout dabord
organiser la rponse apporte au sinistre en dfinissant les responsabilits
de raction en son sein, cest lobjet du chapitre 4.
Elle doit ensuite prvoir le droulement des activits et travaux mener en
fonction de sa stratgie et raliser cet effet un planning guide, comme indi-
qu dans le chapitre 5.
Enfin, pour assurer la viabilit du PCA, elle doit assurer sa maintenance en le
testant rgulirement : les tests sont dvelopps dans le chapitre 6.
Chapitre 4
PCA : dfinir
les missions
et les responsables
Cruciale dans toute activit humaine organise, la dfinition des missions et de
leurs responsables revt une importance accrue dans un contexte de sinistre et
de risque. Certains spcialistes amricains de la continuit dactivit vont mme
jusqu considrer que, une fois les missions et les responsabilits dfinies,
lessentiel du PCA est en place, le reste ntant alors plus que de lintendance.
Aujourdhui, lapproche la plus pragmatique et efficace que lon puisse adopter
consiste aborder le problme sous deux angles : dune part, les missions et les
objectifs atteindre et, dautre part, les activits mener pas pas.
Les missions et leurs responsables sont prsents dans ce chapitre, tandis que
les activits sont dtailles dans le chapitre suivant.
Pour toute action denvergure, il est essentiel de bien spcifier le contexte des
activits mener. Noublions pas la finalit premire du plan de continuit : il
est destin avant tout aux personnes charges de ragir en cas de sinistre. Il doit
donc tre lisible pour permettre trs rapidement de situer les choses, de com-
prendre le rle de chaque intervenant et de prendre les bonnes dcisions.
Dnition du sinistre
Une dfinition claire du sinistre permet ce stade de dcider sil faut ou non
dclencher le plan de continuit. En effet, des actions plus simples, telles que le
recours une procdure de gestion dincidents, ou lappel un service dassis-
tance (help desk) ou un support technique, sont galement envisageables avant
de recourir au PCA.
Pour cela, lentreprise doit mettre au point sa propre classification des sinistres.
En gnral, on a recours un classement en plusieurs niveaux. En voici un
exemple, dfinissant trois niveaux de sinistre.
77
Management de la continuit dactivit
Sinistre mineur
En termes de probabilits, le sinistre mineur est lvnement le plus frquent,
tout en ne concernant quun sous-ensemble rduit de processus critiques de
lentreprise. Ainsi, il ne bloque pas compltement les entits mtier ayant
besoin de ces processus et celles-ci peuvent continuer travailler pendant un
certain temps.
Ce type de sinistre est caus le plus souvent par une dfaillance simple dun
constituant : pannes de disques sur des serveurs de donnes, coupures de cou-
rant limites certains btiments, etc.
La tendance actuelle montre une diminution des situations dans lesquelles un
tel sinistre se prsente ; autrement dit, les actions mener en cas de sinistre
mineur sont quasi banalises, amoindrissant son impact rel. Le chapitre 7 pr-
cise ces aspects.
78
Chapitre 4 PCA : dfinir les missions et les responsables
Primtre et exclusions
Il est primordial de dlimiter le champ daction du plan et den prvoir un dcou-
page adapt son excution. En gnral, chaque site important possde son
propre plan.
Le lecteur de ce plan doit y trouver aisment les donnes concernant son site, et
uniquement cela, afin de ne pas parasiter la lecture. Au sujet des autres sites,
seules les informations ayant des similitudes ou des relations importantes avec
le site sinistr seront retenues.
Le primtre doit dterminer en priorit :
le centre de gestion de crise o transmettre linformation ;
les sites de la socit (couverts ou non) ;
les entits mtier concernes ;
les partenaires mtier (prestataires, clients et fournisseurs) ;
les sites de secours pour les bureaux, linformatique ou les machines ;
les sites darchivage ou de stockage distants ;
les fournisseurs impliquer en cas de sinistre (pour les mesures de secours
informatique) ;
les autorits locales (pompiers, scurit civile, hpital, Samu, etc.).
En outre, il doit fournir une liste de tout lment permettant de dlimiter le
champ daction lintrieur comme lextrieur de lentreprise, notamment les
paramtres de raction :
la dure maximale attendue pour les oprations de rcupration et de
redmarrage ;
les vnements types susceptibles de dclencher le plan de continuit ;
les personnes habilites invoquer le plan de continuit.
Il peut tre galement intressant de lister les exclusions, afin de ne pas cher-
cher trop longtemps ces informations :
79
Management de la continuit dactivit
80
Chapitre 4 PCA : dfinir les missions et les responsables
1. les locaux et bureaux de secours quil est prvu dutiliser suite un sinistre,
en particulier le centre de gestion de crise destin lquipe de gestion de
crise ;
2. les systmes, infrastructures et locaux informatiques jugs critiques et ceux
prvus pour les remplacer en cas de sinistre ;
3. les dossiers et donnes critiques, ainsi que les lieux ou sites o sont stocks
les sauvegardes et duplicata des documents critiques ;
4. pour la production industrielle, une indication prcise des quipements et
produits critiques, ainsi que des sites o lon peut trouver ou rtablir ces l-
ments ou ceux prvus pour les remplacer.
81
Management de la continuit dactivit
8.2. Activation
8.3. Occupants
9. Planning en sept tapes
9.1. Premire intervention et notication
9.2. valuation et escalade
9.3. Dclaration de sinistre
9.4. Planication de la logistique dintervention
9.5. Rcupration et reprise
9.6. Retour la normale
9.7. Bilan
10. Affectation des ressources techniques chacune des tapes
10.1. Listes et responsables
10.2. Mthode de mise jour
11. Affectation des ressources humaines chacune des tapes
11.1. Lien entre groupe et tape
11.2. valuation des charges
12. Contrle des changements ventuels du plan
12.1. Responsable
12.2. Mthode
13. Liste des destinataires du plan
13.1. Liste nominative et par fonction
13.2. Mise jour
Annexes (documents complmentaires fournis)
A. Plan de secours
B. Plan de communication de crise
C. Contacts externes
D. Ressources critiques
1. Bureaux et quipements
2. Systmes informatiques et infrastructures
3. Machines et quipements de production
4. Stocks divers de production
E. Dossiers critiques et enregistrements sensibles
F. Informations sur les sites de secours
1. Sites de secours informatiques
2. Sites de secours de production
3. Bureaux ou locaux de secours
4. Centre de gestion de crise
G. Procdures de stockage et de rcupration des dossiers et enregistrements vitaux
82
Chapitre 4 PCA : dfinir les missions et les responsables
83
Management de la continuit dactivit
Un rle cl
Il est primordial que ce rle de centralisation soit assur de manire claire et
reconnue. De nombreux exemples de pannes relativement simples prouvent que
84
Chapitre 4 PCA : dfinir les missions et les responsables
85
Management de la continuit dactivit
Liste des ressources critiques Une liste des serveurs les plus critiques est
tablie, dont une copie est conserve au centre ; le help desk est par ailleurs
trs content den disposer. Une pastille colore de priorit darrt est gale-
ment colle sur les serveurs critiques.
Matriel ncessaire Des lampes de poche, un tableau de confrence avec
des marqueurs sont stocks dans une armoire du bureau de gestion crise.
Ces quelques actions de bon sens permettent damliorer la ractivit des inter-
venants en cas de sinistre. Le fait de dsigner un centre de gestion de crise et de
rflchir ce quil serait bon dy trouver a permis de progresser dans la prise en
compte et la rsolution de sinistres.
Emplacement stratgique du centre de gestion de crise
Malheureusement, il est impossible de connatre lavance le lieu o se pro-
duira le sinistre. Il faut donc tudier diffrentes situations pour valuer les sites
candidats. Les critres qui suivent permettent ensuite de les comparer.
Reconversion de locaux existants quips Peu de socits peuvent
sallouer une salle entirement ddie la gestion de la crise. En gnral, cest
un local dun autre usage habituel qui est utilis en cas de sinistre. Il faut donc
chercher dans les locaux existants les salles qui peuvent facilement tre recon-
verties en centre de gestion de crise et qui disposent dj de tlphones, dun
cblage rseau, de tables et chaises et ventuellement dordinateurs connec-
ts. Trs souvent, les salles de cours savrent de bonnes candidates.
loignement des zones risque Le centre ne doit pas tre soumis au
mme sinistre que le site touch. Ainsi, on vitera de le placer en zone inon-
dable, si linondation est le risque principal. Il faut penser galement que les
ascenseurs peuvent tre en panne et ne pas le placer trop haut dans les tages.
Accessibilit Le centre doit tre facile daccs (gare, sortie dautoroute),
proche de commodits (htels, restaurants), avec des facilits de chargement
et de dchargement de matriels.
Centre de gestion de crise de secours
Pour des raisons de fiabilit, un centre de gestion de crise doit aussi disposer
dun site de secours, dans le cas o le centre principal serait inutilisable.
Pour un tel choix, il convient de rester pragmatique. Si lentreprise dispose de
plusieurs sites relativement proches, il est facile de trouver des bureaux adapts
que lon puisse amnager en cas de sinistre. Chaque site possde son centre de
gestion de crise et le centre dun site peut venir au secours dun autre. Il est ga-
lement possible dutiliser les locaux dun confrre peu loign. Dans ce cas, il
faudra grer la cohabitation, en particulier si le bureau utilis sert aussi de cen-
tre de gestion de secours pour le confrre. Ce type daccord peut bien videm-
ment tre rciproque. Enfin, il est galement envisageable dutiliser des bureaux
mobiles amnags dans un conteneur que lon fait venir sur le site ; un centre
prcaire vaut mieux que pas de centre du tout. En cas de sinistre, il savre donc
86
Chapitre 4 PCA : dfinir les missions et les responsables
Commandement
Trs souvent, les dcisions doivent tre prises dans lurgence partir dinforma-
tions incompltes. Le sinistre a provoqu des dgts et il est fortement probable
quil en provoquera dautres. Il faut donc le circonscrire et sauver ce qui peut
encore ltre. Dans ce but, un dispositif de prise de dcisions doit tre mis en
place rapidement ceci afin que tous les intervenants prennent le rflexe de ren-
dre des comptes au centre de gestion de crise tout en suscitant une attitude
dcoute et de respect des instructions manant du centre.
Un cercle vertueux rendre compte puis excuter doit imprativement se
mettre en place rapidement. Si ce nest pas le cas, les quipes sur le site ris-
quent dagir inutilement, de faon dangereuse voire nuisible, sans pour autant
avoir effectu les actions de premire importance. Pour viter cela, il faut que
loprationnel puisse contacter le centre et y trouver des rponses immdiates.
Sinon, il considrera quil doit se dbrouiller tout seul et que les comptes
rendus sont une perte de temps .
Un commandement efficace collecte les informations, met en place des plans
dactions ralistes en fonction des moyens mis disposition et affecte les rares
ressources disponibles l o leur efficacit sera maximale. Il est donc ncessaire
que le responsable soit un bon dcisionnaire et quil ait disposition un mini-
mum dinfrastructures.
Contrle
Le contrle consiste suivre lexcution des oprations et rajuster les actions
en fonction des vnements et des rsultats obtenus.
87
Management de la continuit dactivit
Communication
Le centre de gestion de crise est le point nvralgique de la communication : cest
lendroit o toutes les nouvelles informations doivent converger et do provien-
nent toutes les informations fiables. On distingue deux types de communica-
tion, en fonction de son objectif : la communication pour action et la
communication pour information. Linformation entrante provient des groupes
dintervention sur le terrain tandis que la communication sortante est destina-
tion des mdias, des partenaires et clients, des salaris et du grand public.
Un plan de communication type est donn en fin de chapitre.
Exemple : Quand les tlcommunications ne fonctionnent pas
Suite un incendie ayant provoqu une coupure de courant et de nombreux dgts, la
tlphonie interne de la socit SLO, socit de leasing, ne fonctionne plus.
Constatant le problme, les responsables de lentreprise se rendent les uns aprs les
autres dans le bureau du chef du service des tlcommunications, Monsieur Y. Aprs
vingt minutes, ce bureau sest quasi transform en centre de gestion de crise. Il en pr-
sente en effet bien des caractristiques : Monsieur Y. y a runi ses experts qui tracent un
plan de rsolution au tableau blanc tandis que deux dentre eux se rendent dans la salle
de lautocom pour en revenir au bout de cinq minutes avec des propositions dactions.
Monsieur Y. et dautres chefs dquipes ont plani sur un tableau de confrence diverses
interventions et ont revu ensemble les activits du soir pour tenir compte surtout de
labsence de tlphonie. Les plannings ainsi modis sont xs au mur avec du ruban
adhsif, les employs viennent sy informer.
Dans cet exemple, il est vident que le bureau du chef de service des tlcommunications
est le lieu le plus appropri pour implanter un centre de gestion de crise, tant que la tl-
phonie nest pas oprationnelle et le local initialement prvu sans aucun moyen de com-
muniquer. Dans le bureau de Monsieur Y., toute communication est de forme orale et le
reporting ralis grce au rexe des experts se dplaant pour rendre compte leur chef
et saviser des instructions. Des informations oprationnelles sont galement afches
au mur.
88
Chapitre 4 PCA : dfinir les missions et les responsables
Lors de lexcution dun plan de continuit, rien nest plus terrible quune situa-
tion o les employs ne savent pas quoi faire, agissent isolment et sans rendre
de comptes ou, simplement, les rassemblements de curieux qui entravent la
89
Management de la continuit dactivit
90
Chapitre 4 PCA : dfinir les missions et les responsables
Communication
Cest un aspect important, mais trop souvent nglig, de la gestion de crise. Il
sagit de fournir des informations cohrentes, actualises et prcises sur le sinis-
tre subi (nature, volution, actions mener et temps de rtablissement prvu)
toutes les personnes concernes (le personnel, la hirarchie, les partenaires
daffaire externes, les clients mais aussi le public).
91
Management de la continuit dactivit
92
Chapitre 4 PCA : dfinir les missions et les responsables
93
Management de la continuit dactivit
94
Chapitre 4 PCA : dfinir les missions et les responsables
95
Management de la continuit dactivit
papiers ont t copis sur CD-Rom ou sur DON (disque optique numrique). Les
supports rechercher et restaurer sont donc dune grande diversit.
96
Chapitre 4 PCA : dfinir les missions et les responsables
Retour la normale
En gnral, une fois cette tape atteinte, le stress li au sinistre a baiss dun
cran et la rapidit daction cde le pas la qualit dexcution, afin de ne pas
perturber les processus critiques. Si cette mission se trouve sous une contrainte
de dlai forte, cela peut signifier que les moyens de secours choisis ntaient pas
les plus adapts.
Toutefois, cette mission est loin dtre ngligeable, car son impact sur les activi-
ts reprises doit tre le plus faible possible. Ainsi, il est primordial de planifier
avec attention le retour vers le site primaire ou un nouveau site en cas de des-
truction totale du site primaire ou dabandon.
Les tches incombant cette mission sont confies une quipe qui lui est
entirement consacre.
Les listes de contacts
En temps normal, il est dj souvent difficile de joindre quelquun ; que dire
alors en cas de sinistre ! La liste des contacts a donc pour fonction dtablir pr-
cisment le rle de chaque employ, en donnant ses coordonnes ainsi que la
personne devant le remplacer en cas dabsence ou de non-disponibilit.
Vritable outil entre les mains des responsables du plan de continuit, ces listes
demandent dtre tablies avec le plus grand soin, dans le respect des contrain-
tes dues leur usage.
97
Management de la continuit dactivit
Tlphone Tlphone
Nom Prnom Domaine Tlphone xe
portable priv
Andr Jean-Luc rseaux locaux 01-44-41- 06-61- 01-78-04-
Bardeau Jacques responsable SP 01-44-41- 06-66- 01-67-61-
Charles Pierre expert exploitation 01-44-41- 06-82- 01-44-41-
Drumont Albert support MVS & zOS 01-44-41- 06-03- 01-92-66-
Evenin Emma support Unix (1) 01-44-41- 06-61- 01-67-61-
Figeac Greg support Windows 01-44-41- 06-84- 01-53-25-
Gal Loc support CICS, DB2 01-44-41- 06-66- 01-54-65-
Judon Alfred support rseau 01-44-41- 06-61- 01-78-03-
Klein Helmut support Unix (2) 01-44-41- 01-44-41-
Lamarre Pierre support Unix (3) 01-44-41- 06-09- 01-77-92-
Marche Louis scurit 01-44-41- 06-86- 01-75-26-
98
Chapitre 4 PCA : dfinir les missions et les responsables
groupes. Tous ces aspects sont dcider en amont, afin dtre immdiatement
oprationnel lors du sinistre. Certaines socits tablissent cet effet des listes
indicatives de groupes et de membres. Dsignant un chef de crise pour prendre
en main les oprations, cest lui qui se chargera en temps voulu de la constitu-
tion des groupes partir de ces listes indicatives et de sa propre connaissance
de lentreprise.
Condentialit et informations prives
Par respect de la vie prive, le fait que les numros de tlphone personnel figu-
rent sur les listes rend ces dernires confidentielles. Cela pose dailleurs un pro-
blme classique en cas de crise, puisque les donnes devant tre accessibles en
urgence sont davantage protges que les donnes habituelles. Cette question
de confidentialit, rcurrente au cours des interventions durgence, doit tre
traite spcifiquement (voir le chapitre 5).
Dans ces listes, il peut tre galement spcifi si lemploy a accs ou non des
outils de suivi dincidents ou sil dispose dautorits spcifiques, cela pouvant
savrer utile dans les actions de reprise.
Toutefois, il faut veiller ce que les listes ne contiennent pas trop dinforma-
tions. En effet, plus il y en a, plus les listes sont difficiles grer et mettre
jour ce qui peut savrer problmatique en cas de sinistre. Noublions pas que
nombre dinformations utiles peuvent tre relayes par la suite par les responsa-
bles via le tlphone. Pour une gestion plus facile des listes, il existe sur le mar-
ch des outils permettant chaque employ membre des listes de contacts, via
de simples e-mails sur serveurs web, dactualiser rgulirement son profil.
Pour laborer son plan de continuit ou PCA, lentreprise doit constituer les
groupes dintervention en fonction des comptences et du personnel disponi-
ble, sans oublier limportance primordiale davoir un pilote dans lavion .
La constitution des groupes mis en action en cas de sinistre sappuie sur la
structuration des missions dcrite prcdemment et sur la liste des missions
remplir. De la mme manire, un responsable est nomm pour prendre les cho-
ses en main, ainsi quun supplant en cas dabsence.
Affectation des missions
Dans lexemple daffectation suivant, les groupes envoys en mission sont cal-
qus sur lorganisation de lentreprise.
99
Management de la continuit dactivit
100
Chapitre 4 PCA : dfinir les missions et les responsables
Formation
On procde gnralement en quatre temps.
1. tablir, dans les services, la liste des besoins en sensibilisation et en forma-
tion. Pour cela, il faut lister les employs impliqus dans les diffrents grou-
pes ou recourir une valuation par la hirarchie.
101
Management de la continuit dactivit
2. Faire une valuation dcart entre ce que les employs doivent connatre et
ce quils connaissent dj.
3. Slectionner, selon les budgets, les programmes de formation mettre en
place pour combler les carts il se dveloppe actuellement sur le march
franais une offre dans ce domaine.
4. Planifier les formations et contrler les personnes formes et restant
former.
Sensibilisation
Par ailleurs, lentreprise dispose de divers moyens de sensibilisation :
les rglements intrieurs ou les manuels dutilisation lis linformatique
abordent trop peu, hlas les aspects de continuit dactivit (continuit de
service, secours, restaurations, etc.) ; il est possible, et mme recommand,
de dvelopper les points principaux dans ces documents ;
les affiches ou cartons poser sur son bureau de type conduite tenir en
cas de sinistre avec indication des numros de tlphone appeler, par
exemple, peuvent se rvler trs utiles ;
des sminaires ou autres vnements dentreprise peuvent rgulirement
aborder le sujet ;
la littrature sur la continuit dactivit se dveloppe, y compris en langue
franaise ;
la participation des campagnes de tests peut avoir un effet pdagogique,
mme si cela nest pas lobjectif premier des tests (voir le chapitre 6) ;
les divers audits et leurs rapports subsquents peuvent tre loccasion dun
rappel intressant (voir le chapitre 13).
Comme dans les approches qualit ou scurit, limplication de la direction
gnrale, qui indique ses orientations et ses choix en matire de continuit
dactivit, savre primordiale. Celle-ci doit communiquer rgulirement, via la
parution de notes ou autres, au sujet de la politique de continuit de lentre-
prise. Le mot politique tant une traduction un peu biaise de langlais policy,
les mots volont dorientation de la direction conviendraient mieux. (Voir le
chapitre 11 et les suivants sur ces aspects de gouvernance.)
102
Chapitre 4 PCA : dfinir les missions et les responsables
Documents types
Plan de communication
Voici quoi un plan de communication peut ressembler.
103
Management de la continuit dactivit
Plan de secours
Voici un modle de plan de secours, mis en uvre par le groupe dintervention
de secours (qui dpend ou pas, selon les cas, du PCA).
Ce plan, comme le plan de communication de crise, peut tre joint aux docu-
ments annexes du plan de continuit.
Plan de secours
1. Cadrage
2. Responsabilits et primtre
3. Personnel sur site et visiteurs
4. quipe de secours : missions et responsabilits
5. Employs : responsabilits et comportements
6. Dclenchement de la procdure de secours
6.1. Activation de lquipe de secours
6.2. Avertissement des autorits
6.3. Alerte et vacuation du personnel
7. Procdures dvacuation
7.1. Signal dalarme
7.2. Systmes automatiques (exemple : fermeture de portes)
7.3. Voies dvacuation
7.4. Personnel responsable de zone et dvacuation
7.5. Lieux de rassemblement
7.6. Dcompte des personnes
8. Procdures de recherche et dvacuation
9. Procdures spciques un risque en particulier (tremblement de terre, nuclaire,
produits spciaux risque)
10. Procdures spciales de mise en protection pour certains matriels
Annexes : cartes, listes de personnels, numros de tlphone, etc.
104
Chapitre 5
PCA : planifier
les activits
105
Management de la continuit dactivit
Premire intervention
Le coordonnateur du plan de continuit est alert et dclenche le plan de conti-
nuit. Les dgts et leurs consquences sont rapidement valus. Les activits
prvoir sont les suivantes :
1. recevoir lalerte initiale partir dun centre dappels, dun help desk, dun res-
ponsable sur site ou des autorits locales ;
2. avertir les secours locaux, ou vrifier quils ont bien t avertis (pompiers,
SAMU, police ou gendarmerie, etc.), afin dassurer la mission de sauvegarde
des personnes ;
3. accder aux documents et informations concernant le plan de continuit ;
4. dans la mesure du possible, se rendre sur les lieux ; sinon, joindre un inter-
venant local dsign dans les listes de contacts ;
5. collecter un minimum dinformations sur le site sinistr : est-il accessible ?
Est-il joignable par tlphone ? Le centre de gestion de crise est-il intact ?
6. activer le groupe dvaluation des dommages (voir le chapitre 4) ;
7. raliser une premire valuation rapide des consquences du sinistre ;
8. dtecter rapidement les causes des dgts (utile si on peut y pallier, sinon ne
pas y passer trop de temps) ;
9. conduire une valuation rapide des impacts sur les activits de lentreprise
et lister ce qui ne fonctionne plus ;
10. tablir un rapport prliminaire de sinistre.
Ces activits sont prsentes dans leur ordre logique dexcution, et doivent
tre affectes divers intervenants. Cependant, le contexte rel du sinistre
imposera souvent de faire avec les moyens du bord.
Rapport de notication
Cela consiste alors alerter la direction gnrale et le centre de gestion de crise
afin dactiver les quipes prvues dans le PCA (groupe de gestion de crise, etc.),
comme cela a t prsent dans le chapitre 4.
106
Chapitre 5 PCA : planifier les activits
107
Management de la continuit dactivit
108
Chapitre 5 PCA : planifier les activits
Communiqu
Le communiqu de dclaration de sinistre mis cette occasion peut tre struc-
tur partir des activits suivantes :
1. reprendre les lments du rapport dtaill ;
2. parmi les options dtermines dans la stratgie de continuit de lentreprise
(vues dans le chapitre 3), slectionner les plus adaptes la situation : que
fait-on sur le site principal ? Active-t-on le site de secours ; si oui quy fait-
on ? O place-t-on le centre de gestion de crise ? etc. ; cette opration peut
tre scinde en autant de parties quil existe de sites (principal, de secours,
mobile, etc.) ;
4. raliser un communiqu dtat de sinistre (voir le plan ci-aprs) ;
5. diffuser ce communiqu via le groupe prvu cet effet ;
6. avertir le groupe de communication de crise.
Le communiqu dtat de sinistre peut avoir la structure type suivante.
Cette tape est cruciale et nest pas facile vivre. La communication a lieu au
sujet du sinistre et des moyens dy faire face. Il faut, de plus, prendre des dci-
sions partir dinformations en gnral incompltes et y impliquer la direction
gnrale de lentreprise.
Lvaluation des temps de remise en tat, par exemple, est souvent un pige.
Pour dcider vite et bien, on est en effet amen parfois caricaturer la situation
ou, linverse, la sous-estimer.
Sous-estimation des dgts : un risque supplmentaire
La socit ITF possde des bureaux dans un btiment situ prs dun euve. Ce btiment
hberge aussi un centre informatique (pour serveurs Unix et Intel). Un peu plus haut se
situe lancien centre informatique o des mainframes IBM sont encore en activit.
Une inondation touche le btiment de bureaux mais pargne lancien centre. ce stade,
la dclaration de sinistre prvoit de reloger les employs et dactiver un centre de secours
pour les serveurs Unix et Intel. Les informaticiens pensent que le site des mainframes ne
sera pas touch, aucune mesure importante nest donc prise le concernant : il suft sim-
109
Management de la continuit dactivit
plement de rtablir les connexions entre les deux salles qui schangeaient des chiers
rgulirement, opration ne demandant pas plus de vingt-quatre heures.
Malheureusement, leau continue de monter et lalimentation lectrique du centre IBM
doit tre coupe un peu plus tard pour des raisons de scurit. Les mainframes, bien
quau sec, ne fonctionnent plus En catastrophe, IFT doit employer des mainframes de
secours chez un autre prestataire, ce qui lui cote beaucoup plus cher que si elle avait
envisag ds le dbut la perte complte de son systme informatique sur les deux sites
sans compter la perte de temps en hsitations et travaux inutiles.
Moralit : il vaut mieux parfois simplier le problme pour travailler au plus tt une
solution externe plutt que chercher sauver ce qui sera nalement perdu.
Activation du plan
Le communiqu est accompagn par le dclenchement concret du plan de con-
tinuit. Le groupe de gestion de crise a normalement t activ en fin dtape 1,
mme si, en pratique, il se limite ce stade un responsable senior de lentre-
prise, qui, bien souvent, nest pas encore sur place, et quelques responsables
locaux du site concern.
Il faut maintenant activer les groupes dintervention prvus dans le plan (voir le
chapitre 4). Bien videmment, en fonction du problme pos et dans un objectif
defficacit, lquipe sera de taille diffrente : cinq sept personnes peuvent trs
bien assumer les diverses missions suite un sinistre mineur, tandis que si
celui-ci est plus complexe (plusieurs sites touchs, avec des implications con-
tractuelles graves en termes de continuit de service ou de scurit), la taille de
lquipe sera dautant plus consquente.
Dans les entreprises les mieux organises, il existe aussi des consignes de dl-
gation de pouvoirs entre responsables nationaux et locaux, selon la gravit du
sinistre. Cela peut tre crucial dans les cas o le site sinistr est isol du reste du
monde ou sil se trouve ltranger.
Lactivation du PCA se dcoupe donc en quatre activits principales :
1. dterminer les personnels qui vont constituer les groupes pour mener les
actions venir ;
2. rappeler le niveau de gravit du sinistre et ce quil signifie ;
3. rappeler ou tablir les circuits de dcision et de reporting ;
4. indiquer les moyens de reporting et de suivi des actions.
Cette tape implique souvent de faire un choix, en vue de la constitution des
quipes, entre les personnes idalement pressenties pour grer la crise mais pas
110
Chapitre 5 PCA : planifier les activits
Logistique
Grer la logistique implique les activits suivantes :
1. activer les contrats concernant les sites de secours choisis chez des
prestataires ; si les sites sont internes, commencer leur prparation ;
2. sassurer que les sites ont les moyens de communication appropris ; en cas
de besoin, complter ce qui existe ;
3. dcider rapidement du meilleur emplacement pour le centre de gestion de
crise et, selon le contexte, en prvoir ventuellement deux (un mobile, puis
un fixe) ;
4. passer commande ou dmnager les divers matriels ncessaires pour qui-
per les sites (PC, imprimantes, fax, papier, etc.) ;
5. lancer les ventuels dmnagements prvus pour meubler les sites de
secours ;
6. sassurer que les sites de secours possdent les dernires versions des docu-
ments (plan de continuit, listes de contacts) ou formulaires concernant les
procdures manuelles ;
7. prvenir les sites de secours de larrive dlments sensibles tels que des
sauvegardes, dossiers importants ou lments confidentiels ; dterminer
cet effet un contact sur place.
Moyens humains
En ce qui concerne les employs, il faut constituer les diffrents groupes et pr-
voir leurs dplacements sur les divers sites. Cela consiste :
1. dterminer, en fonction des groupes activer, les employs disponibles, pro-
cder aux affectations puis avertir les intresss ;
2. prvoir les dplacements et lintendance (voiture, train, htel) ;
111
Management de la continuit dactivit
112
Chapitre 5 PCA : planifier les activits
Prparer
Toutes ces activits sont un pralable aux actions sur site :
1. sassurer que le personnel prvu se trouve sur place et a les moyens dagir
(droits daccs, protections diverses, etc.) ;
2. sassurer que les configurations informatiques critiques sont localises et
connues : serveurs, systme de stockage, rseau, etc. ;
3. sil existe des schmas dinfrastructure et de rseau, les communiquer au
personnel sur place ;
4. prendre connaissance des rapports dj mis sur le sinistre, des consignes
de scurit, etc.
valuer, expertiser
Il sagit maintenant dvaluer plus prcisment lampleur des dgts dans le but
de savoir comment y faire face :
1. inspecter ltat des btiments, des alimentations en lectricit, gaz et eau ;
valuer les risques rsiduels ;
2. identifier les dossiers critiques, leur tat et les risques quils encourent (eau,
moisissure, feu, etc.) ;
3. localiser et identifier les matriels critiques (informatiques ou non), leur tat
et les risques quils encourent ;
4. rechercher et vacuer les sauvegardes critiques, si elles sont sur le site, afin
de les garder sous surveillance ;
5. valuer le risque de dgradations pouvant encore survenir (croulements,
monte des eaux, etc.) ;
6. dterminer les options de protection et de rcupration qui semblent les
plus appropries, en chiffrer les dlais et cots si possible ;
7. documenter rapidement tout ce qui prcde, que ce soit par une prise de
notes, une liste avec points de contrle, un formulaire, un enregistrement
audio, etc.
Sauvegarder et rcuprer
On entreprend ici les premires actions de rcupration du site, afin dviter que
celui-ci ne se dgrade davantage :
1. se procurer et mettre en fonctionnement les divers quipements ncessaires
(pompes eau, gnrateurs lectriques, systmes de chauffage, dshumidifi-
cateurs dair, bennes ordures, pelleteuses, camionnettes, etc.) ;
2. liminer les diverses substances risques ou trop dgrades (carburants,
papier imbib deau, etc.) ;
3. vacuer et mettre en lieu sr les quipements en bon tat qui sont menacs
sils restent sur le site ;
4. mettre dans un tat scuris les quipements encore en fonctionnement
mais inutiles ;
113
Management de la continuit dactivit
5. vrifier la situation des quipements en bon tat et utiles puis les restaurer
dans ltat souhait ;
6. documenter ce qui est fait.
Transporter
Ces activits ont pour objectif de dmnager sur le ou les sites de secours ce qui
a t rcupr et doit encore servir :
1. pour chaque lment (matriels, documents, sauvegardes, meubles, etc.),
dterminer le site de destination parmi les sites prvus ;
2. accompagner chaque transport de matriel de consignes spcifiques sur la
prise en charge, la manutention, les prcautions demploi, lusage destina-
tion et le nom du rceptionnaire ;
3. effectuer ou faire effectuer le transport ;
4. pour les sauvegardes ou documents ayant un niveau de scurit lev, res-
pecter scrupuleusement les consignes ou, dfaut, les faire accompagner
par un membre de lentreprise.
Toutes ces activits doivent tenir compte du fait que certains processus sont cri-
tiques et ncessitent une remise en route plus rapide que dautres. La priorit
devant tre donne aux processus les plus urgents, il faudra donc, dans certai-
nes situations, prendre une dcision privilgiant les moyens techniques nces-
saires aux processus critiques de lentreprise. Cest pourquoi il est important
que lquipe sur place connaisse prcisment les processus critiques et identifie
rapidement les moyens qui leur sont lis.
Tout problme rencontr doit tre dcrit succinctement par crit, car cela servira
amliorer le plan par la suite.
114
Chapitre 5 PCA : planifier les activits
115
Management de la continuit dactivit
4. initialiser les serveurs qui ont besoin de ltre, dmarrer les systmes
dexploitation, excuter les diverses procdures dinstallation, de param-
trage ou de cration dimages disques (imaging) ;
5. effectuer le paramtrage rseau des divers routeurs ou commutateurs ;
6. raliser les connexions du rseau de stockage SAN (Storage Area Network) ou
ncessaires au stockage en rseau NAS (Network-Attached Storage) pour les ser-
veurs qui en sont pourvus ;
7. configurer les sous-systmes (systmes de gestion de bases de donnes, sys-
tmes de fichiers, serveurs dapplications, moniteurs transactionnels, etc.),
en utilisant au besoin les scripts ou procdures prpares cet usage ;
8. mettre en place les protections de scurit (pare-feu, anti-virus, etc.) ;
9. activer les liens avec les bureaux de secours ou les divers sites couvrir ;
10. tester lensemble des oprations prcdentes.
Ces tches sont pour la plupart bien connues des ingnieurs systme, la diff-
rence quici, les travaux sont mens avec un niveau de stress inhabituel. Par
ailleurs, il se peut que les matriels ne soient pas ceux auxquels les ingnieurs
systme sont accoutums. Tout cela accrot les risques derreur et le travail en
binme, sil est possible, est donc vivement recommand.
En cas de tches hautement rptitives (lignes de commande passer lidenti-
que sur des dizaines de serveurs, par exemple), on aura recours des scripts de
commandes. Encore faut-il les avoir prvus suffisamment longtemps lavance
et pouvoir y accder. Les scripts permettent aussi de rduire les erreurs de
frappe.
Restaurer les applications critiques
Linfrastructure tant en place, il faut maintenant restaurer les applications en
commenant par les plus critiques :
1. revoir la liste des priorits de restauration des applications ;
2. tudier la ou les procdures dinstallation, de lancement de lapplication et
de rcupration des donnes ;
3. vrifier les droits daccs administrateur et systme ;
4. vrifier la manire dont les utilisateurs et leurs droits sont grs ;
5. restaurer ou installer les applications critiques et paramtrer lenvironne-
ment en consquence ;
6. restaurer les donnes partir du point de reprise prvu puis procder aux
vrifications de cohrence et dintgrit prvues dans le plan ;
7. appliquer, si cela est prvu et ralisable, les traitements complmentaires
pour remettre les donnes dans un tat proche de celui o elles se trouvaient
au moment de la panne ;
8. partir dun identifiant dutilisateur de test, vrifier que le fonctionnement
des applications est correct ;
116
Chapitre 5 PCA : planifier les activits
117
Management de la continuit dactivit
118
Chapitre 5 PCA : planifier les activits
1. restaurer les postes de travail (PC, en gnral) avec les applications, don-
nes, identifiants et mots de passe prvus ;
2. mettre disposition les dossiers critiques sous la forme prvue (papier, CD-
Rom, DON, etc.) ;
3. mettre disposition les procdures, formulaires ou documents ncessaires
un travail en mode dconnect, tant que le rseau ou les serveurs ne sont
pas prts ;
4. traiter les demandes ou les transactions la main, comme cela est prvu en
cas dindisponibilit du systme informatique ;
5. conserver ce qui sera ncessaire une saisie informatique lorsque le sys-
tme gnral sera de nouveau disponible ;
6. lorsque le systme informatique est de nouveau fonctionnel, en tester les
points essentiels selon la procdure mtier, puis vrifier ce qui a t ou non
pris en compte ;
7. une fois que cest possible, saisir les donnes manquantes dans le systme
informatique, en fonction de ce qui a t ralis aux points 4 et 5 ;
8. Passer en mode de travail normal une fois la situation compltement rcup-
re.
En rsultat de cette squence dactions, il arrive souvent que le systme fonc-
tionne un peu diffremment de lhabitude : plus lent, moins ergonomique et
encore incomplet, puisque bien que non perdues, certaines donnes ne sont
pas encore disponibles. Il existe deux raisons ce phnomne :
le poste de travail fonctionne souvent en mode dgrad avec un PC plus
ancien, avec des applicatifs en mode dit client lger , ce qui dgrade le
temps de rponse et le confort graphique ;
il nest pas toujours vident de pouvoir entrer dans le systme les donnes
traites la main plus prcisment, cela ne peut souvent pas tre effectu
par un utilisateur standard, car cela ncessite des autorisations dun niveau
plus lev qui ne pourront tre attribues que plus tard.
Tout vnement marquant, ou fait ayant pos problme, devra une fois encore
tre consign par crit.
119
Management de la continuit dactivit
1. sassurer que le groupe dintervention est arriv sur place et est bien
oprationnel ;
2. vrifier que les diffrentes contraintes de dlais (MTD, RTO, RPO et WRT,
expliqus dans le chapitre 2) sont connues du groupe ;
3. contrler que le site de secours rpond aux normes et aux diverses exigences
en vigueur dans lentreprise pour une production de la qualit voulue ;
4. sassurer que les zones de stockage sont convenables, en particulier pour les
matires risque ;
5. sassurer que les dispositifs de scurit sont appropris ;
6. vrifier linfrastructure, lapprovisionnement en lectricit et la prsence des
sources dnergie prvues ;
7. vrifier que les listes faisant linventaire des besoins matriels sur le site de
production de secours ont bien t communiques au groupe ;
8. inspecter le matriel sur place et vrifier quil convient : quantit, caractris-
tiques penser aux moyens de manutention, trs sollicits au dbut ;
9. dtecter les ventuels carts et manques, et en tablir une liste en vue dune
action ultrieure ;
10. rceptionner les quipements, vrifier les contenus, lire les procdures et
conduites tenir ;
11. rceptionner les pices, outils et tout autre matriel ncessaire ;
12. dtecter et noter tout cart entre ce qui tait prvu et ce qui a t reu.
Labsence de certains quipements ou matriels peut avoir des consquences
paralysantes graves ; par exemple, linsuffisance de moyens de manutention
peut ralentir voire arrter les oprations. ce stade, ce problme peut tre par-
tiellement rsolu en faisant appel des fournisseurs locaux. Il est prfrable,
cependant, davoir prvu ds ltablissement du plan de continuit une quantit
suffisante dquipements critiques.
Mettre en marche
Les activits ralises au cours de la phase de mise en marche permettent de
rendre le site de production oprationnel :
1. tudier le plan doccupation au sol et attribuer les emplacements ;
2. installer et mettre en tat de fonctionnement les machines et outillages ;
3. rpartir les stocks de matire premire, les pices et autres ressources
indispensables ;
4. rcuprer les procdures, consignes et descriptions des gammes de produits
partir des copies conserves en secours ;
5. installer et rendre oprationnels les tlphones, fax, tlcopieurs, etc., puis
router les communications ;
6. mettre en place les ventuels ordinateurs, imprimantes et connexions de
rseaux locaux ou longue distance.
120
Chapitre 5 PCA : planifier les activits
Tester et dmarrer
Ces activits permettent de tester linstallation du site pour lui permettre de
dmarrer dans les meilleures conditions :
1. tester les diffrents quipements ;
2. tester les produits obtenus via ces quipements ;
3. agencer la logistique du site, retirer ce qui ne sert plus ;
4. tester les moyens de tlcommunication, le systme informatique et la
bureautique ;
5. dmarrer la production sur le site de secours.
Afin dalimenter un bilan ultrieur, il est une fois encore bon de tenir une main
courante des vnements.
121
Management de la continuit dactivit
122
Chapitre 5 PCA : planifier les activits
123
Management de la continuit dactivit
pour les assurances et les divers recours possibles. Cette phase doprations
implique notamment de :
1. suivre les engagements de dpenses effectus par les canaux non habituels ;
2. garder la trace des dpenses effectues, ventuellement ventiles selon
divers critres ;
3. estimer les cots de rparation, de remplacement, de remise en tat ;
4. effectuer une estimation financire pour la direction gnrale ;
5. prendre connaissance, avec les services concerns, des contrats dassurance
et de ce quils prvoient en cas de sinistre ;
6. faire les dclarations en temps et en heure auprs des compagnies
dassurance ;
7. commencer monter les dossiers pour les assurances (prendre des photos,
chiffrer les pertes dexploitation, ventuellement faire dresser des constats
dhuissier, etc.) ;
8. dtecter, si ncessaire, les carts ou risques dcarts entre les valuations de
lentreprise et celles des assurances ;
9. impliquer le service juridique en leur faisant inspecter les diffrents contrats
avec les clients et fournisseurs pour activer les dmarches contractuellement
ou juridiquement ncessaires.
Cas particulier : les socits de service informatique
Dans le cas de socits de prestation de service informatique, le sinistre a normalement
dj dclench, auprs des gestionnaires de clientle, des actions visant avertir les
clients et les utilisateurs dans les dlais convenus. Ces socits se sont en effet contrac-
tuellement engages des temps de disponibilit et ont mis en place des procdures
descalade auprs des clients et des responsables internes pour remonter les incidents
graves. Le sinistre prsente toutefois la caractristique dtre un incident trs grave et trs
long rparer. Cest cet aspect exceptionnel qui doit tre communiqu au client pour
quil prenne ses dispositions.
Pour les socits plus traditionnelles, les perturbations concerneront davantage
des aspects comme les dlais de livraisons ou les dates dexpdition. Avertir les
clients et fournisseurs dans ce cas nest pas forcment un rflexe immdiat et il
vaut donc mieux spcifier ce point dans le plan de continuit.
Amlioration du plan de continuit
Le centre de gestion de crise hberge les responsables qui excutent le plan de
continuit. Ils sont donc mme dy dtecter les dfauts, carences, erreurs et
limites. Lobjectif est ici damliorer le plan.
Tout au long des sept tapes, il est bon de noter en marge les amliorations
pouvant tre apportes au plan ; celles-ci peuvent concerner :
1. des carts dans la documentation ;
2. des diffrences entre ce qui tait attendu et ce que lon a trouv sur site (en
termes de matriels, logiciels, etc.) ;
124
Chapitre 5 PCA : planifier les activits
3. des aspects non couverts quil aurait t bon dinscrire dans le plan ;
4. des points insuffisamment dtaills ou, linverse, des dtails inutiles ou
incorrects ;
5. des aspects matriels bloquants imprvus (par exemple, des matriels de
secours sous cl alors que les cls sont introuvables) ;
6. toute autre suggestion damlioration.
125
Management de la continuit dactivit
126
Chapitre 5 PCA : planifier les activits
Rparer et prparer
Les actions planifies et dcides en phase prcdente sont excutes. Cela
concerne :
127
Management de la continuit dactivit
Russir la transition
Afin de ne pas trop perturber lactivit ayant dsormais repris son cours, le
retour sur des sites et des matriels stables et dfinitifs seffectuera de prf-
rence lorsque les employs sont absents souvent, le week-end. Concernant
linformatique, les conditions de transition sont contraintes encore davantage,
lobjectif tant de ne pas interrompre les processus critiques.
Souvent, face cette opration dlicate, les entreprises trouvent judicieux de
suivre, en particulier pour tout ce qui concerne linformatique, une procdure de
gestion des changements de type ITIL.
Plusieurs cas de figure se prsentent, ventuellement combins : les systmes
qui opraient sur le site de secours sont dmnags sur le site principal et/ou le
site principal est dot de nouveaux matriels vers lesquels il faut basculer.
La transition pourra donc tre ralise via les activits suivantes :
1. planifier la transition, en prvoyant ventuellement un retour arrire en cas
de difficult ;
2. prparer la fois le site cdant et le site recevant ;
3. installer, sil y a lieu, les systmes nouveaux sur le site principal et les
initialiser ;
4. figer les donnes un point de sauvegarde propre, raliser les copies de sau-
vegarde et arrter les systmes qui vont dmnager du site de secours ;
5. dmnager les systmes anciens sur le site principal sil y a lieu, puis trans-
frer les sauvegardes ;
6. installer les systmes sur le site principal, les initialiser, puis mettre le rseau
en fonctionnement ;
128
Chapitre 5 PCA : planifier les activits
129
Management de la continuit dactivit
Les anomalies simples : elles ont provoqu des pertes de temps ou des
efforts supplmentaires. Cest lhistoire classique des cls absentes du
tableau quil faut aller chercher chez le collaborateur.
Ces anomalies rsultent souvent de dfauts ou de laxisme dans lactualisation
des bases de donnes de configuration ou dans le respect des consignes.
En outre, il arrive aussi que des suggestions remontent pour amliorer le plan
de continuit. Tous ces points damlioration peuvent faire lobjet de nouvelles
actions planifier et raliser, avec chiffrage du cot. Leffort fournir devra
alors venir des oprationnels eux-mmes plutt que des personnes en charge de
la continuit.
Les actions de sensibilisation et de formation du personnel lintrt de la con-
tinuit dactivit peuvent permettre dviter bon nombre de ces difficults.
Spcicit du PCA
Dans une approche de planification de projet classique, une tche est confie
une personne donne, assortie dune charge et dune dure. Dans certains cas,
la tche peut tre accomplie deux fois plus vite si deux personnes y travaillent
en parallle. Dans dautres cas, la dure est incompressible. Ce sont l des con-
sidrations habituelles en gestion de projet.
Dans le cas particulier de la continuit dactivit, la situation est plus problma-
tique, car :
on dcouvre lampleur du travail effectuer au fur et mesure quon
leffectue ;
les personnes disponibles ne sont pas elles non plus connues lavance,
ce qui rend illusoires les affectations prcises planifies.
La dure de lactivit apparat donc comme la seule variable dajustement. Or
cest justement l que rside la difficult, car cette dure est contrainte par les
MTD (dures maximales dindisponibilit admissibles). Tous les paramtres
devront donc tre ajusts en fonction des dlais de MTD. Cela signifie que les
quipes seront gomtrie variable aussi bien dans leurs effectifs que dans les
comptences reprsentes.
130
Chapitre 5 PCA : planifier les activits
131
Management de la continuit dactivit
132
Chapitre 6
Tester le plan
de continuit
133
Management de la continuit dactivit
134
Chapitre 6 Tester le plan de continuit
La plupart des machines en salle sont accessibles sans difcult et peuvent donc tre
arrtes. Mais certaines dentre elles se trouvent dans une armoire ferme cls, sans
que cela ait t prvu. Cherchant alors les cls, on nit par les trouver mais elles ne sont
pas clairement identies, ce qui fait perdre du temps pour les essayer une une. Or, le
chronomtre tourne !
En n de compte, il reste deux machines dont laccs est impossible : la cl darmoire est
trouve mais pas la deuxime ncessaire pour activer le clavier ! Ces deux machines nis-
sent par sarrter, faute de courant, ce qui ntait pas prvu. Or il se trouve que ces machi-
nes sont justement juges critiques.
Moralit : un petit oubli a failli tout faire chouer ! Concernant les machines critiques, il
vaut mieux analyser lavance et dans le dtail les problmes potentiels.
135
Management de la continuit dactivit
se familiariser avec les locaux de secours, le centre de gestion de crise, les tra-
jets effectuer, les lieux visiter (pour rcuprer des bandes, par exemple) de
manire parer toute ventualit ;
utiliser aisment les moyens de communication et avoir le rflexe de rendre
des comptes (reporting).
Lexercice de test se rvle ainsi tre un bon moyen de former les employs, qui
peuvent eux-aussi proposer des amliorations du plan.
Pour les employs non directement impliqus dans les tests, la sensibilisation
aux problmes de continuit est un rsultat intressant de la campagne de tests.
Mthodes de test
Il existe plusieurs mthodes pour tester un plan, que celui-ci concerne la conti-
nuit ou pas dailleurs. Les principales mthodes en usage sont dcrites ci-
aprs. Le cot et le risque associs au test sont variables en fonction de la
mthode choisie.
136
Chapitre 6 Tester le plan de continuit
Simulation
Ce test est plus labor et plus coteux que les prcdents. Il sagit en effet de
simuler une interruption dactivit due un sinistre et dexcuter la portion du
plan de continuit correspondante.
La mise en uvre de ces tests peut comporter plusieurs variantes, dont vont
dpendre le degr de perturbation des activits de lentreprise et le cot du test :
simuler des activits (larrt dun serveur, par exemple) ou les effectuer relle-
ment (arrter effectivement le serveur) ;
faire la simulation sur un site de production rel ou sur un site de secours ;
demander aux employs concerns par les activits touches darrter effecti-
vement de travailler ou les laisser continuer ;
faire travailler une partie du personnel sur le site de secours ou employer les
moyens de secours avec des procdures dgrades ;
se limiter certaines portions du plan, concernant une activit de lentreprise
en particulier ou une partie dun site ;
se concentrer uniquement sur certaines tapes du plan, comme les trois pre-
mires, qui peuvent ncessiter un rodage particulier.
En outre, ces tests de simulation peuvent tre particulirement intressant pour
vrifier certains points particuliers tels que :
137
Management de la continuit dactivit
Test parallle
En informatique, le test parallle semploie pour remplacer un systme par un
autre et ainsi vrifier quils donnent le mme rsultat. Ce genre de test permet
dasseoir la confiance dans un systme de secours et dans les procdures de res-
tauration des donnes. Dans le cadre de la continuit dactivit, il sagit de faire
fonctionner le systme de secours en parallle du systme principal, afin quil
soit le plus ressemblant possible. Pour atteindre cet objectif, on procde comme
suit :
1. le systme principal fonctionne normalement sur son site ;
2. un moment donn, on fait comme si un sinistre stait produit : on com-
mence garder une trace manuelle des transactions saisies sur le systme
principal (en faisant comme sil nexistait plus) ;
3. le systme de secours prvu est mis en route sur le site de secours ;
4. les diverses sauvegardes disponibles sont rcupres et restaures sur le
systme de secours, en appliquant au besoin les journaux ;
5. les transactions manuelles (du point 2) sont saisies sur le systme de
secours ;
6. on compare alors les deux systmes, en notant tout cart concernant les
donnes.
Les carts de donnes sont dus aux priodes durant lesquelles lenregistrement
des transactions na pas t fait ou communiqu par exemple, le laps de temps
entre la dernire sauvegarde et le sinistre simul. Les raisons peuvent tre diver-
ses et les solutions techniques proposes galement. Dans tous les cas, cela
doit donner lieu un plan daction.
Ce type de test est dlicat et parfois coteux ; on leffectue en gnral quand les
autres tests ont t mens avec succs. Le test parallle peut tre ralis assez
facilement sur certaines solutions techniques (telles que le SGBD, voir le chapi-
tre 8).
138
Chapitre 6 Tester le plan de continuit
Grce ce test, il est galement possible de vrifier si les employs ont bien
accs au systme de secours. Enfin, il peut se rvler utile pour mesurer le
temps ncessaire chaque rcupration. On pourra ainsi analyser la manire de
rduire ces dlais sils savrent trop longs.
139
Management de la continuit dactivit
Document de prparation
Pour russir lexercice du test, il est important de bien le prparer. Le manque de
prparation peut gnrer des doutes quant au srieux du plan et dcrdibiliser
toute action ultrieure. En effet, la direction gnrale accorde ces tests un
temps et une attention qui nest consquente que si les rsultats sont la hau-
teur des attentes. Enfin, pour tre crdible, il est ncessaire dtre raliste et
pragmatique.
On devra donc dcrire ce que lon attend concrtement du test dans un docu-
ment qui couvre les points suivants :
le dispositif humain et technique pour mener le test ;
les points du plan de continuit tester ;
la date, le lieu et la dure du test ;
les ressources ncessaires ;
les actions mener avant, pendant et aprs ;
la mthode dvaluation des points qui ressortiront travers ce test ;
le dispositif de surveillance et de compte rendu des vnements et constata-
tions.
Avant de dvelopper le plan de test proprement dit, les points de ce document
devront tre approuvs pralablement par la direction des services concerns.
140
Chapitre 6 Tester le plan de continuit
Pour chaque test programm, un plan est tabli afin den prciser formellement
le cadrage et de prvoir le planning de son droulement. Ce plan se droule
selon sept phases, devant chacune produire des rsultats tangibles (livrables) :
1. revue des tests antrieurs ;
2. description des objectifs, primtre et contraintes ;
3. dfinition de la tactique du test ;
4. mise en place de la logistique du test ;
5. planning et calendrier du test ;
6. revue des risques ventuels avant excution ;
7. documentation du test.
Bien entendu, il faut galement intgrer dans la revue les ventuelles modifica-
tions subies par lentreprise qui rendent caducs certains tests raliss antrieu-
rement ou certaines actions correctives.
Par ailleurs, les documents des tests antrieurs peuvent tre rutiliss comme
modle pour les nouveaux tests.
141
Management de la continuit dactivit
lissue de cette phase, un document de revue des tests antrieurs doit tre
produit.
Objectifs
Il sagit de dcrire les objectifs que lon souhaite atteindre en ralisant le test.
Il est prfrable de classer ces objectifs par niveaux de priorit, en distinguant
bien ce qui est urgent et indispensable (objectifs prioritaires) de ce qui serait
simplement intressant, et pouvant par consquent tre test plus tard (objec-
tifs secondaires). Un classement en deux ou trois niveaux suffit. En voici quel-
ques exemples :
Objectifs prioritaires :
dterminer si le PCA est jour ;
vrifier que les ressources prvues en secours sont convenables ;
sassurer que les procdures de restauration de donnes informatiques fonc-
tionnent correctement ;
recrer lenvironnement informatique de secours sur le site distant et vrifier
le temps ncessaire ;
relocaliser un service sur un site de secours ;
sassurer que les premires tapes du PCA, en dbut de crise, se droulent
comme prvu ;
vrifier la ractivit des prestataires impliqus dans le plan.
Objectifs secondaires :
tester laccs des utilisateurs sur un systme de secours, une fois celui-ci mis
en route ;
vrifier louverture du centre de gestion de crise ( la suite des premires ta-
pes du plan) ;
tester une application donne sur un systme de secours ;
tester le retour la normale.
Les objectifs dits secondaires seront tests si la charge de travail et le contexte
le permettent.
Ne pas dvier de lobjectif !
La socit Bontemps teste la capacit relancer ses serveurs sur un site de secours. Elle
possde des serveurs Unix, Windows et un mainframe IBM.
142
Chapitre 6 Tester le plan de continuit
Tout se passe bien pour le mainframe et les serveurs Windows. Pour les serveurs Unix, en
revanche, elle constate quil manque certains droits de licence ou, plus exactement, quil
faut demander une monte de niveau et des correctifs auprs dun fournisseur.
Lquipe en charge du test contacte alors directement ledit fournisseur. Celui-ci entre
son tour en relation avec le responsable des achats de Bontemps, qui lui nest pas au cou-
rant de la situation. On en reste l, malgr la pression de lquipe de test.
Moralit : Il ne faut pas perdre de vue lobjectif du test ! Ici, il sagissait de vrier que
lon pouvait dmarrer les serveurs et non pas de dmarrer les serveurs . Le test aurait
donc d simplement produire le constat quil y avait un problme rsoudre pour les ser-
veurs Unix et non entraner sa rsolution en catastrophe !
Cela ne signie pas pour autant quil faille automatiquement tout arrter sur un constat
dimpossibilit. Lorsquun document est absent, par exemple, on le note, mais si on sait
o le trouver, on le cherche ! Cest une affaire de bon dosage trouver.
N. B. : Au passage, cet exemple montre que le responsable des achats peut lui aussi tre
impliqu dans les tests.
Primtre
Dfinir le primtre du plan de test consiste dlimiter le champ daction du
test. Celui-ci peut inclure :
les portions du PCA que lon souhaite vrifier(telles que les trois premires
tapes du planning ou la formation des groupes, par exemple) ;
les activits prvues par le planning sur un site donn ;
tout ce qui doit se passer sur un ou plusieurs sites de lentreprise ;
certains partenaires externes et contrats de secours ;
une technologie donne (en particulier, si celle-ci cote cher pour un niveau
de secours qui reste prouver) ;
une action particulire du plan (par exemple : mettre en route le centre de
gestion de crise).
Tout ce qui se trouve en dehors du champ daction peut galement tre list,
afin que le personnel effectuant les tests connaisse exactement les limites de
ses actions.
Pour une srie de tests ayant le mme objectif, le primtre, lui, peut changer
dun test lautre. Par exemple, il peut tre intressant de tester les mmes
objectifs sur les diffrents sites de lentreprise (y compris ceux ltranger) .
Contraintes
Cet aspect est trs important pour la suite. Si les contraintes sont trop fortes, le
test risque dtre difficile mener. linverse, une absence de contrainte peut
tre prjudiciable lentreprise. Voici les diffrents lments dterminer pour
le test en prvision :
lenveloppe budgtaire affecte aux cots des machines de secours, de dpla-
cement, de locations diverses, de licence, etc. ;
143
Management de la continuit dactivit
Scnario
La situation que lon veut tester est dcrite par crit dans un document qui sera
remis lquipe de test au dbut de lexercice. La description doit tre raliste et
crdible, elle ne doit pas rvler par avance ce que les testeurs sont supposs
dcouvrir par eux-mmes ou valuer. Elle doit en revanche permettre de limiter
la raction au primtre recherch.
Il peut tre intressant de prendre pour scnario certaines des catastrophes tu-
dies dans lanalyse de risque (voir le chapitre 1). Cela permet de se rapprocher
au plus prs dune catastrophe rellement probable.
La narration doit prsenter des faits, des dates et heures prcises et des cons-
tats dj raliss. Voici quelques exemples :
Scnario n 1 : Inondation du site CTI01
Objectif : valider les tapes 1, 2 et 3 du PCA.
Primtre : le site CTI01 et son site de secours.
Contrainte : pas dinterruption dactivit.
Document remis au chef de gestion de crise.
cause de la crue du Loir, lenvironnement du site CTI01 est inond. 1 h du matin, le
23 mars, le niveau deau atteint 30 cm, mesurs lentre servant de rfrence. La sur-
veillance de nuit du centre appliquant la procdure appelle le responsable de site qui
vient de vous rveiller.
Pour toute question : contacter M. Test (numro de tlphone).
144
Chapitre 6 Tester le plan de continuit
Excepts les cas o lon veut simuler un tout dbut de sinistre et valuer la
manire dont les dommages sont dcouverts, le scnario doit dcrire les dom-
mages subis par lentreprise lors du sinistre. Tout doit tre prsent de manire
donner un niveau dinformation correspondant celui obtenu en situation
relle au moment que lon veut tester.
Cest partir du problme ainsi pos que le destinataire du message devra
enclencher les mesures prvues dans le plan au sein du cadre indiqu.
Choix de la mthode
Les diffrentes mthodes de test pratiques ont t prsentes dans la premire
section de ce chapitre. Au cours de llaboration de la tactique de test, on dter-
mine quelle mthode on recourt en fonction du scnario prvu.
Dans le cas du scnario n 2 ci-dessus, le test parallle pourra se rvler per-
tinent. Pour le scnario n 1, induisant des consquences plus lourdes si on le
mne fond, on prfrera une revue de documents (walk-through) ou une simula-
tion.
Date du test
La date et la dure du test seront fixes en fonction des disponibilits et des
diverses contraintes, tout en tenant compte des possibilits dexercice des par-
tenaires locaux ou contractuels. Le planning des tests doit tre considr
comme un engagement fort, respecter absolument.
Une erreur courante consiste prolonger les tests rencontrant des difficults.
Cette pratique est viter, lobjectif du test tant de mettre jour la difficult,
pas de la rsoudre. Il faut donc bien sparer les deux proccupations : le test
doit relever des difficults, des anomalies ; le temps de leur rsolution viendra
plus tard. On ne doit pas rester bloqu sur un problme, mais le noter et pas-
ser outre. Cest pour cette raison que les tests effectus en premire instance
sont de type check-list, walk-through ou simulation, car on rencontre, ce stade,
trop de problmes pour pouvoir drouler lensemble dun scnario en mode
rel.
145
Management de la continuit dactivit
La rsolution des difficults dcouvertes se fera par des plans dactions correcti-
ves qui seront dcids puis raliss par la suite. Les progrs raliss seront
mesurs lors de la campagne de test suivante.
Outre les vnements constats, ces fiches peuvent galement mentionner les
ventuelles actions correctives dtailles sur des fiches prvues cette effet.
Cela servira la rdaction du bilan des tests.
146
Chapitre 6 Tester le plan de continuit
147
Management de la continuit dactivit
dcider comment, dans le cadre de ce budget, les diffrents tests vont pouvoir
tre planifis.
Les plans dactions correctives mens aprs les tests sont en gnral compts
dans un budget diffrent, souvent port par les oprationnels concerns.
Moyens techniques
Dautre part, il faut prparer les moyens techniques utiliss durant les tests.
Cela peut se limiter une salle de travail quipe en PC pour un test de type
walk-through (revue de documents), mais cela peut devenir beaucoup plus lourd
en cas de test en conditions relles. Dans ces derniers cas, le groupe de gestion
de crise est mis contribution pour lapprovisionnement en moyens de secours,
qui fait partie de ses missions dcrites dans le chapitre 4.
moins que la prparation ne soit elle-mme partie intgrante du test, tout ou
partie des moyens suivants devront en effet tre prts pour le test :
linfrastructure destine au personnel testeur (PC, tlphone, bureau, tlco-
pieurs, copieurs, etc.) ;
148
Chapitre 6 Tester le plan de continuit
Intendance et dplacements
Les tests ncessitent la prsence de personnel de test sur des sites distants,
chez des prestataires ou sur un site de gestion de crise lointain. Il faut alors pr-
voir toute lintendance lie ces dplacements, notamment :
prvoir qui devra se dplacer et o, arranger les dplacements, rserver les
htels, etc. ;
demander les autorisations daccs et les divers droits ncessaires ;
rserver les crneaux de prsence chez les prestataires, qui peuvent tre limi-
ts par contrat.
Sites de test
De la mme manire, les sites doivent avoir t prpars en fonction des points
que lon veut tester. On procde donc en trois temps :
1. faire la liste de ce qui est attendu du site de secours : dates de disponibilit,
matriel prsent, logiciels et niveaux de mises jour, documentation, sup-
port technique, infrastructure particulire, etc. ;
2. constater ce que le site fournit sur ces points ;
3. dterminer lcart combler.
Il est bon de visiter le site lavance afin de constater sur place les diffrents
problmes potentiels. Si ce site est fourni par un prestataire, cette visite devra
tre rendue possible par le contrat.
Souvent les contrats de prestations imposent des dates ou des priodes assez
restreintes pour effectuer les tests. De plus, le recours des spcialistes est sou-
vent assez limit et factur part par le prestataire. Il arrive enfin que certains
prestataires soient trs exigeants sur le respect de configurations prcises ou de
149
Management de la continuit dactivit
normes de scurit plus leves que celles que lentreprise pratique en interne.
Ces points sont donc tudier au plus prs avant de lancer les tests.
150
Chapitre 6 Tester le plan de continuit
Plan de test
N didentification, Version, Responsable, Validation
1. Bilan des tests antrieurs
2. Cadrage des tests
2.1. Objectif de la campagne de tests
2.2. Primtre concern
2.3. Contraintes respecter
3. Tactique de test
3.1. Scnario
3.2. Mthode
3.3. Suivi et valuations
3.4. Coordination
4. Logistique des tests
4.1. quipes
4.2. Moyens techniques
4.3. Sites concerns
5. Planning des tests
5.1. Activits chiffres
151
Management de la continuit dactivit
Une fois le plan de test complet et la revue des risques ayant donn le feu vert,
la ralisation des tests peut avoir lieu selon le plan prvu.
152
Chapitre 6 Tester le plan de continuit
Remarque
On remarque dans lexemple cit que le testeur est all au bout des possibilits en pre-
nant deux dcisions : ne possdant pas la bonne conguration, il a nanmoins essay de
voir si le prestataire externe de secours pouvait proposer lancienne (dcision 1). Ayant l
aussi dcouvert une anomalie, il a alors arrt le droulement des tests (dcision 2). Ce
test a donc t productif de rsultat.
153
Management de la continuit dactivit
154
Chapitre 6 Tester le plan de continuit
155
PARTIE III
Lingnierie
de la continuit
La technologie peut fournir un concours apprciable pour rendre lentreprise
plus rsiliente. Encore faut-il valuer son apport rel dans la situation particu-
lire de chaque entreprise. Cest ainsi le rle de lingnierie de rendre ce qui est
thoriquement possible concrtement ralisable.
Cette partie aborde la mise en uvre pratique des diverses technologies propo-
ses sur le march et utilises en partie par les entreprises. Elle se structure en
quatre chapitres :
Le chapitre 7 prsente les notions de fiabilit, de disponibilit et darchitec-
ture technique utiles pour la suite.
Le chapitre 8, consacr linformatique au centre de donnes, traite de la dis-
ponibilit des serveurs, du stockage et des rseaux du centre informatique
qui sont au cur de lactivit de lentreprise.
Le chapitre 9 traite de linfrastructure et du poste de travail, abordant ainsi
lenvironnement direct de lemploy dans son bureau, avec son ordinateur
personnel et son environnement bureautique.
Enfin, le chapitre 10 traite de la spcificit du centre informatique propre-
ment dit, afin que celui-ci constitue un point fort du dispositif.
Le schma ci-aprs dcrit la logique d'ensemble.
Management de la continuit dactivit
Le centre informatique
Rseau SAN
backbone
Les bureaux
158
Chapitre 7
Construire
la disponibilit
Notions statistiques
Les probabilits et les statistiques sont utiles pour dcrire le comportement des
matriels divers, qui peuvent tomber en panne et ainsi dtriorer la continuit
dactivit. Les notions de fiabilit, de disponibilit et de maintenabilit sont
donc importantes pour slectionner les configurations matrielles et logicielles
les mieux adaptes aux besoins de continuit de lentreprise.
Disponibilit
La disponibilit dune machine indique la proportion du temps pendant lequel
cette machine fonctionne comme prvu. Elle est souvent donne par un pour-
centage, qui doit tre videmment le plus proche possible de 100 %, le reste
tant appel lindisponibilit.
Il est dusage, en matire de disponibilit, de compter les 9 et de classer
selon leur nombre. On parle couramment de disponibilit allant jusqu
99,999 %, qualifie de five nines en anglais ou cinq neufs . Ce chiffre 5 est
devenu en quelque sorte un idal atteindre. quoi cela correspond-il dans la
ralit ?
159
Management de la continuit dactivit
Le tableau suivant donne les temps darrts maximaux ne pas dpasser pour
respecter, sur une anne, les disponibilits indiques, sachant que la machine
en question doit fonctionner vingt-quatre heures sur vingt-quatre.
Cela signifie que si notre machine respecte dans son cahier des charges une dis-
ponibilit cinq neufs , elle ne pourra pas cumuler plus de 5 minutes et 12
secondes de panne ou darrt dans lanne.
Cependant le problme est que, en cas darrt de cette machine, cela demande-
rait beaucoup plus de cinq minutes pour la remettre en marche ou la remplacer
par une autre quivalente. Il faut donc analyser la disponibilit sous ses deux
constituants : la panne et la facilit de rparation.
Enfin, autre aspect important, la disponibilit est souvent mesure dans les
conventions de service la fois par anne pleine, comme ci-dessus, et en
moyenne annuelle sur cinq ans, par exemple. Si lon reprend le tableau prc-
dent, une machine disponible 99,999 % sur cinq ans peut se permettre une
panne de 26 minutes conscutives en une seule fois sur ces cinq ans. En revan-
che, lanne de la panne, elle ne satisfait pas au critre des cinq neufs dans
lanne. Les chiffres sont donc interprter avec prcision.
Fiabilit et rparabilit
La fiabilit mesure la propension ne pas tomber en panne. La rparabilit
mesure la facilit rparer et donc remettre en marche. Ces deux notions vont
de pair pour indiquer la disponibilit.
Entre deux pannes conscutives, il scoule un certain temps, la moyenne de ces
temps constats sur une longue priode est nomme moyenne des temps de
bon fonctionnement (MTBF). Plus la MTBF est leve, plus la machine est fia-
ble.
Le temps pass rparer est variable, une moyenne peut tre calcule : la
moyenne des temps des travaux de rparation (MTTR). Plus la MTTR est fai-
ble, plus la machine est rparable rapidement. La notion de rparation est
160
Chapitre 7 Construire la disponibilit
prendre au sens large : il peut sagir tout aussi bien dun remplacement pur et
simple.
En gnral, la MTBF se mesure en dizaines, voire centaines de milliers dheures,
alors que la MTTR se compte tout au plus en jours.
La MTBF est une donne attache une machine, un fabricant, et lexploitant
ne peut pas y changer grand chose. La MTTR, en revanche, lorsquelle porte sur
du matriel standard, dpend beaucoup de lorganisation de lentreprise. Il est
en effet possible de prvoir des pices de rechange ou une machine de secours,
de manire rduire ce dlai au minimum.
dfaillance
rparation
161
Management de la continuit dactivit
Gardant lesprit la cible des cinq neufs, la lecture de ce tableau est instructive,
car elle dmontre que :
Si lon ne peut pas rparer la panne en moins de douze heures, alors il ny a
aucun moyen dobtenir les cinq neufs viss. Cela ne sert rien dacqurir du
matriel haut de gamme haute fiabilit (MTBF leve).
Si lon peut rparer en une heure, alors un matriel dans le milieu de tableau
(avec une MTBF de 100 000 heures) pourra obtenir la disponibilit des cinq
neufs.
Si quatre neufs suffisent, alors un matriel ayant une MTBF de 10 000 heures
suffira si lon sait assurer une rparation en une heure.
Le prix du matriel dpend beaucoup de la MTBF : plus celle-ci est leve, plus
le matriel est cher. Le tableau ci-dessus tant donn titre dillustration, il est
rare quun mme matriel ait des taux de fiabilit aussi diffrents. En ralit,
disponibilit gale, il est ncessaire de faire un choix entre deux scnarios extr-
mes pour lachat de matriel, informatique ou non. Ces scnarios peuvent tre
typs ainsi :
1. acheter une machine plutt bon march, qui tombera en panne assez sou-
vent (une fois par an ?) mais que lon saura rparer vite (en moins dune
heure), parce que lon aura prvu des pices de rechange, par exemple la
frquence rgulire de la panne fait dailleurs que lon sait, force, bien la
rparer ;
2. acheter une machine onreuse, haute disponibilit, qui ne tombera en
panne que trs rarement (une fois tous les sept ans ?) peut-tre ne saura-t-
on pas la rparer, mais statistiquement, la machine sera remplace avant que
la panne narrive ; il est rare en effet quun matriel soit conserv plus de cinq
ans.
Au final, le choix se fixera toujours sur une option se situant entre ces deux
extrmes.
Attention : Ne pas tout miser sur la abilit aux dpens de la rparabilit !
La tendance naturelle, malheureusement, est de chercher avant tout la abilit au prix
fort et de ngliger la rparabilit. Il se rvle pourtant trs utile dtudier les possibilits
162
Chapitre 7 Construire la disponibilit
en cas de panne de la machine : prvoir des pices de rechange, voire une machine de
secours, permet en effet damliorer trs fortement la disponibilit, sans pour autant gre-
ver les cots.
dfaillance 1 dfaillance 2
rparation rparation
163
Management de la continuit dactivit
vent tre reconnects de lune lautre. Cela suppose de partager laccs aux
donnes entre les deux machines et de prvoir galement en double les con-
nexions. Il faut donc ici considrer aussi le problme de la dfaillance du stoc-
kage des donnes et de lindisponibilit du rseau (voir le chapitre 8).
Ce modle possde plusieurs variantes, en fonction de lutilisation des deux
machines : une machine peut tre libre pendant que lautre travaille ou la charge
peut tre rpartie sur les deux en parallle. Dans ce dernier cas, il faudra alors
tenir compte de la fiabilit de llment rpartiteur.
Linconvnient principal des modles redondants rside donc dans le fait que
chaque fois quon introduit un lment de solution, on introduit par la mme
occasion une nouvelle source de panne possible.
Le modle n+1
Dans le modle dit n+1, la charge de travail est rpartie sur n machines. Une
machine supplmentaire est mise part, larrt ou en veilleuse. Cette machine
inactive est destine remplacer la machine dfectueuse en cas de panne, aprs
un dlai dactivation plus ou moins long. Lorsquil sagit de serveurs informati-
ques, on parle souvent de cluster ou grappe n+1.
Il en rsulte que, pour que lensemble tombe en panne, il faut que deux machi-
nes au moins tombent en panne parmi le nombre n. Lindisponibilit cons-
quente peut donc se calculer ainsi :
Indisponibilit rsultante = n x (n-1) x I2
Remarquons que si lon fait cet exercice avec, par exemple, dix machines de
classe 2, on ne gagne quasiment rien en disponibilit (99,1 % au lieu de 99 %) !
En revanche, le bnfice de ce modle rside dans la consquence de la panne, qui
est fortement minimise : au lieu de tout perdre, on ne perd quun dixime des
machines, et donc un dixime de la capacit de traitement. Le risque est donc
diminu proportion. Cest pour cette raison que les oprateurs de type fournis-
seurs daccs Internet, par exemple, rpartissent leurs traitements sur une
grande quantit de serveurs moyennement fiables. Ils obtiennent ainsi souvent
des pannes aux effets marginaux, quils savent rparer rapidement.
Avec dix machines de classe 3, on obtient un ensemble de classe 4. L encore,
leffet de la panne est de perdre un dixime de la capacit de traitement. Enfin,
en termes de cot, les machines ncessaires pour raliser ces grappes sont
moins puissantes et donc moins onreuses. Mme sil faut en acheter un nom-
bre plus important, le cot total reste infrieur.
164
Chapitre 7 Construire la disponibilit
bascule
dfaillance activation
165
Management de la continuit dactivit
Arrts de fonctionnement
Arrt plani
Larrt planifi est une interruption du fonctionnement des machines qui est
prvue et normalement arrte au calendrier.
166
Chapitre 7 Construire la disponibilit
Impact de larrt
Lorsquun systme sarrte, que ce soit cause dune panne ou dun arrt plani-
fi, limpact sur le service ou les traitements assurs peut tre variable selon les
situations.
Pour un systme simple : tout est interrompu. On effectue les actions de
rparation ou de remise en tat et le redmarrage na lieu que lorsquelles
sont acheves. Cela peut tre long et difficile prvoir.
Pour un systme redondant : la premire panne ne devrait a priori pas se
sentir, grce au systme de basculement sur le second systme, mais il arrive
167
Management de la continuit dactivit
que celui-ci ne soit pas immdiat. Tous les usagers tant sur le mme sys-
tme, ils sont traits de la mme manire, mais il faut pour bien faire que les
donnes et le rseau soient accessibles aux deux machines indiffremment.
Cela peut tout aussi bien aller vite et sautomatiser en partie, comme cela
peut ne pas tre totalement matris par les exploitants. Bien videmment, si
la panne est double, tout est arrt et on est alors ramen au cas prcdent.
Pour un systme en grappe n+1 : les traitements et les utilisateurs sont
rpartis sur n systmes. Ne sont donc concerns par la panne que les 1/n uti-
lisateurs de llment dfaillant. Normalement, le systme de secours rem-
place assez vite le systme en panne et les utilisateurs sont peu touchs. De
plus, comme cette panne se produit relativement souvent, les oprateurs
savent la traiter. En cas de deuxime panne, les 1/n utilisateurs sont alors
arrts pour de bon. Ils ne retrouvent le service que lorsquun systme sup-
plmentaire de rserve est dmarr ou rpar. L encore, pour que tout ceci
fonctionne bien, il faut que les donnes et le rseau soient accessibles tou-
tes les machines. Sur ces systmes, la panne peut fort bien ne pas tre dcou-
verte tout de suite car les effets en sont rduits et peuvent ressembler des
problmes de performance. Il faut donc bien surveiller ces systmes.
Les questions cruciales se poser savrent donc tre des questions darchitec-
ture technique : ne faut-il quun seul serveur auquel cas il faudra une machine
tolrance de panne ? peut-on rpartir les traitements sur n machines auquel
cas on aura recours une grappe de serveurs ?
Lorsque se produit une panne dite de mode commun, les systmes qui en sont
victimes ne fonctionnent plus, quelle que soit leur rsilience propre. Il faut alors
avoir prvu un mcanisme de secours ou un redmarrage sur un environnement
non soumis cette panne. Cest ce qui est fait gnralement en disposant de
plusieurs sites.
Toutes ces considrations entranent en effet les entreprises dfinir trois types
de sites afin de rpartir les risques et de diminuer les consquences de
sinistres : un site primaire et un site secondaire faible distance dun de lautre,
ainsi quun troisime site distant, loign de lordre de cent kilomtres au moins
des deux autres.
Le duo primaire-secondaire
Afin de limiter les risques lis une panne ou un sinistre local, il est recom-
mand de rpartir les lments techniques sur deux sites voisins. loigns de
quelques centaines de mtres ou de quelques kilomtres au maximum, ces sites
sont qualifis de campus ou mtropolitains par les anglo-saxons : on
peut souvent aller de lun lautre sans passer par le domaine public.
168
Chapitre 7 Construire la disponibilit
Le site distant
Ce troisime site est loign des deux autres de quelques centaines de kilomtres.
Il ne doit pas tre soumis aux mmes sinistres dits rgionaux : altitude, bassin flu-
vial, zone sismique diffrents, de mme que les quipements potentiellement
dangereux se trouvant proximit (aroport, industries risque, etc.).
En cas de perte des deux sites primaire et secondaire, ce troisime site sera uti-
lis comme lieu de reprise. La probabilit quon y ait recours est certes plus fai-
ble et les technologies dassistance au redmarrage sont galement dune autre
nature. Pour cette raison, certaines entreprises ne prvoient pas ce site comme
sil tait leur proprit, mais font appel une prestation.
En ralit
Les entreprises qui travaillent sur trois sites selon le modle idal dcrit ci-des-
sus sont fort peu nombreuses.
Certaines entreprises qui ont dj mis en place un schma deux sites mtropo-
litains voisins considrent comme exceptionnelle la ncessit dun site distant.
Dautres ne possdent quun seul site principal simple sur lequel elles rpartis-
sent leurs moyens, assorti dun site distant (100 km) vers lequel elles envoient
rgulirement des fichiers ou des lments susceptibles de faciliter la reprise.
Dautres, enfin, nont quun seul site en tout et pour tout et sont peu prpares
redmarrer ailleurs.
Sans atteindre forcment lidal prsent ci-dessus, il est recommand de diver-
sifier au maximum lemplacement des lments ncessaires la reprise de
lactivit.
169
Management de la continuit dactivit
Types darchitectures
Pour adapter les schmas prcdents aux systmes informatiques, il est primor-
dial de considrer la manire dont les applications et les donnes peuvent se
rpartir sur les systmes techniques et les sites.
Entrer dans le dtail de ces aspects serait fastidieux et sortirait du cadre de cet
ouvrage ; il est nanmoins ncessaire de connatre dans les grandes lignes les
diffrentes catgories techniques dans lesquelles on peut classer les applica-
tions.
Architecture monolithique
Dans une architecture monolithique, il est impossible de dcouper les applica-
tions, et les donnes sont dun seul tenant. Cette situation se rencontre trs
souvent dans les applications traditionnelles dentreprise : le fichier du person-
nel, par exemple, est unique et la paie est gre par un seul programme ou
groupe de programmes. Laccs des programmes aux donnes est assez rudi-
mentaire et exclusif.
Dans ces conditions, il nest pas possible de simplement rpartir les traitements
sur plusieurs machines. Il va falloir alors mettre en jeu des mcanismes de tol-
rance de panne ou de redondance simple 100/0, cest--dire avec une machine
supportant 100 % des traitements tandis quune autre est en attente ct.
On se trouve cette fois dans la situation inverse : les traitements sont raliss en
squences plus courtes ne portant que sur une partie des donnes. Les donnes
elles-mmes peuvent tre rparties en lots relativement indpendants.
Architecture granulaire
Par construction, les dpendances entre traitements et les liens entre les don-
nes sont suffisamment rduits pour quil soit possible de distribuer ces appli-
cations sur n serveurs. Lexcution dune application pour un utilisateur donn
se traduira ainsi par lexcution de plusieurs traitements les uns la suite des
autres sur des plateformes diffrentes ayant des changes plus ou moins com-
plexes entre elles. On parle assez souvent, dans ce contexte, darchitecture
client-serveur et de n tiers , ou encore denvironnements granulaires et
autonomes .
Ces traitements se prtent aisment des approches de type grappe n+1.
Limportance du rseau assurant des changes entre les machines est accrue
dans ce type darchitecture.
170
Chapitre 7 Construire la disponibilit
171
Chapitre 8
Linformatique
au centre de donnes
Les serveurs
Les serveurs jouent un rle central dans les traitements informatiques. Pour
amliorer leur disponibilit, diffrentes approches se sont dveloppes, qui
mettent en uvre les concepts prsents prcdemment (voir figure 8-1).
Les solutions prsentes sur le march ont diffrentes caractristiques quil est bon
de connatre lorsquon construit sa stratgie de continuit (voir le chapitre 3).
173
Management de la continuit dactivit
rseau
application application
application
cache
serveur
middleware cache cache
contrleur cache
stockage
disques disques bandes
174
Chapitre 8 Linformatique au centre de donnes
Serveur 1 Serveur 2
SAN
175
Management de la continuit dactivit
Virtualisation
La virtualisation est un ensemble doutils logiciels et de middleware qui permet-
tent de :
dcouper un serveur physique donn en plusieurs serveurs logiques ou
machines virtuelles gomtrie variable ;
masquer aux serveurs logiques la ralit du matriel existant rellement.
La virtualisation saccompagne doutils de gestion qui permettent de travailler
sur les machines virtuelles. Le travail de lexploitant est alors modifi : au lieu
de grer uniquement des machines relles avec leurs caractristiques techni-
ques propres, il gre dun ct des machines virtuelles (abstraites) et de lautre
les machines relles (ou physiques en gnral moins nombreuses) sur lesquel-
les tournent les machines virtuelles. Par ailleurs, il existe un certain niveau
dinterchangeabilit entre les machines relles : une machine virtuelle peut,
dans certaines limites, fonctionner sur diffrentes machines physiques.
Du point de vue de la continuit dactivit, la virtualisation prsente des avanta-
ges mais aussi des inconvnients.
Avantages de la virtualisation
Une machine virtualise est constitue de fichiers. Elle est donc tlchargeable
ou peut tre envoye par simple transfert de fichier. Cela simplifie les scnarios
de reprise distante : une machine virtuelle tournant sur une machine relle
dfaillante sera photographie et les fichiers la dcrivant envoys sur le site
distant, o cette machine virtuelle pourra tre rgnre sur une machine
relle en tat de marche. Ces actions pouvant sautomatiser, il devient alors pos-
sible de cloner les machines virtuelles.
On voit donc lintrt de cette technologie pour les scnarios de reprise.
Il est possible assez facilement de tenir prtes des machines relles dis-
tance pour recevoir les machines virtuelles.
Le transfert et la rgnration dune machine virtuelle sur un autre site sont
rendus beaucoup plus faciles.
Bien des tches peuvent sautomatiser, en portant sur plusieurs machines ou
plusieurs sites la fois.
La machine virtuelle hrite de la fiabilit de la machine relle sur laquelle elle
fonctionne, pour le meilleur et pour le pire.
176
Chapitre 8 Linformatique au centre de donnes
Inconvnients de la virtualisation
Cependant, lusage de la virtualisation dans le cadre dun plan de continuit
comporte galement un certain nombre dinconvnients.
Elle reprsente un outil de plus sur les machines, et donc une cause de panne
supplmentaire.
Les machines virtuelles gres la place des machines physiques ne peuvent
pas fonctionner sur un serveur classique : elles ncessitent un serveur quip
au moins dune couche de virtualisation adapte, ce qui limite les scnarios.
Le matriel utilisable en cas de reprise doit avoir prvu la virtualisation, ce
qui reprsente un effort et un cot supplmentaire.
Le matriel que lon peut utiliser pour la reprise doit avoir t prvu par la vir-
tualisation, qui doit tenir compte de ses caractristiques : cela limite les cas
possibles ; la situation est pire sans virtualisation toutefois.
Les outils restent compartiments selon les diffrentes technologies : les
outils pour matriels Unix IBM ne sont pas du tout les mmes que pour ceux
dHP et trs diffrents de ceux des matriels processeur Intel fonctionnant
avec Windows.
Il faut grer la fois des configurations relles et virtuelles.
Malgr tout, dans lensemble, les spcialistes saccordent dire que lusage de
la virtualisation en environnement Intel/Windows est plutt bnfique dans le
cadre dun plan de reprise.
Le stockage
177
Management de la continuit dactivit
178
Chapitre 8 Linformatique au centre de donnes
Snapshot ou clich
Le snapshot permet de ger une image des donnes et de les sauvegarder sur bande
(cela peut prendre cinq heures et plus) pendant que la production continue sans interrup-
tion. Sans cette fonction, il faut interrompre les critures dans les chiers sauvegarder,
et donc interrompre une partie de lactivit.
Routage dentre/sortie
Le routage dE/S permet, sous certaines conditions, de conserver sur un site distant une
copie exacte du stockage principal. En cas de plan de reprise sur ce site distant, les don-
nes y sont identiques.
RAID
Le RAID (Rapid Array of Independent Disks ou baie de disques indpendants) permet,
avec des disques simples, dobtenir une bonne abilit : en cas de dfaillance dun dis-
que, les donnes sont reconstituables partir des autres disques.
Toutes ces fonctions ne sont pas prsentes de la mme manire dans les mat-
riels disponibles sur le march. Des substitutions sont possibles, certaines fonc-
tions pouvant tre absentes du stockage si elles sont contenues dans le
middleware, par exemple.
serveur
100 km
SAN dans le centre
mises jour
synchronisations ponctuelles
Figure 8-3 : Contrleurs changeant sur un SAN local et avec un site distant
Remarque
Notons enn que, dans certains cas particuliers, les fonctions de contrleur rsident dans
un serveur au sein dune grappe, voire dans une partition virtualise sur un serveur. Mais
cela ne change pas radicalement ce qui est dit plus haut.
179
Management de la continuit dactivit
Fonctions du middleware
Middleware est un terme gnrique pour dsigner le logiciel qui se situe au-
dessus du systme dexploitation mais en dessous des applications. Il joue un
rle important dans la gestion de la conservation des donnes et il faut donc
sen proccuper dans une approche de continuit des traitements.
Systmes de chiers
Le systme de fichiers (file system) permet tout simplement de grer les fichiers,
ce qui est une forme de conservation des donnes. On y trouve plusieurs fonc-
tions utiles pour la continuit dactivit, parmi lesquelles :
la capacit reconstituer des fichiers endommags ;
la protection des accs en criture et en lecture ;
le support des grappes (clustered file system) qui permet des serveurs diffrents
daccder concurremment et en mme temps aux donnes tout en garantis-
sant leur intgrit.
Cependant, limportance des systmes de fichiers pour la continuit samoindrit
de plus en plus. En effet, pour disposer de fonctions avances, on leur prfre
les SGBD ou les systmes NAS, qui sont des serveurs ddis au systme de
fichiers.
Moniteurs transactionnels
Les moniteurs transactionnels sont des middlewares qui assurent la bonne ex-
cution des transactions, c'est--dire des modifications coordonnes des don-
nes.
Parmi les fonctions utiles quils prsentent en termes de continuit, on citera
essentiellement :
la capacit reconstituer un tat correct des donnes en annulant une tran-
saction qui sest mal droule ;
la possibilit de router une transaction (transaction routing) vers un autre sys-
tme pour quelle sy excute, ce qui permet davoir des donnes identiques
sur deux sites diffrents, par exemple.
Les moniteurs transactionnels sont eux aussi en perte de vitesse, car supplants
par les SGBD qui possdent, entre autres, les mmes avantages.
SGBD
Les SGBD ou systmes de gestion de bases de donnes prennent une place pr-
pondrante dans la continuit dactivit. Ils concentrent en effet des fonctions
indispensables :
la capacit reconstruire un tat propre des donnes aprs un incident
(matriel ou non), en annulant les modifications qui ont chou (rollback ou
retour en arrire) ;
180
Chapitre 8 Linformatique au centre de donnes
181
Management de la continuit dactivit
Mises jour
rseau
Base de Base de
rfrence rfrence
182
Chapitre 8 Linformatique au centre de donnes
183
Management de la continuit dactivit
Sauvegarde et restauration
On prsente souvent la sauvegarde sur bande comme tant lunique prcaution
prendre pour se prmunir dune perte de donnes catastrophique. Assez sou-
vent, les questionnaires daudit se focalisent donc sur la sauvegarde, selon une
vision remontant aux annes 1980.
184
Chapitre 8 Linformatique au centre de donnes
185
Management de la continuit dactivit
Dans les cas o des contraintes sappliquent sur les lots de cassettes (confi-
dentialit, urgence, destination particulire, etc.), celles-ci doivent tre indi-
ques et faciles comprendre par les personnes charges de les rcuprer.
Il peut tre intressant dindiquer une priorit de traitement ou de prise en
compte, lorsque les lots de cassettes ne peuvent tre dmnags en une
seule fois. Celle-ci est base alors sur les dlais de restauration (par
exemple : immdiat, moins de 4 heures, mme jour, moins de 24 heures, de
24 72 heures, plus de 72 heures).
Le moyen de transport peut tre ventuellement indiqu sur les lots.
Il est indispensable de tester rgulirement la lisibilit des cassettes et de
copier neuf celles qui vieillissent mal, avant quelles ne deviennent illisi-
bles.
Les cassettes devenues inutiles doivent tre limines (ou recycles).
Les consignes des fabricants pour le stockage doivent tre respectes absolu-
ment.
Un systme de gestion informatique des sauvegardes peut tre utile pour admi-
nistrer tout cela.
Exemple : un oubli fcheux
La socit de service informatique SLBanque gre linformatique de la Banque du Muse,
en banlieue parisienne. Les systmes de production (ordinateurs, stockage) sont situs
dans un centre informatique proche du priphrique. Des sauvegardes sont effectues
rgulirement et, tous les lundis, des convoyeurs viennent prendre livraison de mallettes
de cartouches destination dun centre dentreposage en province proche.
Un lundi, des travaux importants ont lieu au centre, ncessitant de dsactiver en partie
louverture automatique des portes. Les convoyeurs effectuent malgr tout leur transfert
habituel, et une fois partis, des livreurs arrivent avec du matriel dun tout autre ordre.
Aprs 45 minutes, la livraison est nie et lon ferme enn les portes la main. Cest l
quon aperoit une mallette de cassettes oublie, reste l pour caler une porte !
Il na pas t possible de retrouver ou dappeler les convoyeurs. Fort heureusement, le
nom du client tait indiqu sur la mallette et celui-ci, une fois averti, a prvenu qui de
droit.
Et pourtant le client aurait-il constat seul quil lui manquait une mallette ? Cette
msaventure a conduit par la suite la socit SLBanque et ses clients revoir leurs proc-
dures de sortie des cassettes de sauvegarde.
Robots de sauvegarde
Les robots de sauvegarde sont des matriels priphriques qui servent sauve-
garder et restaurer les donnes sur un support en gnral amovible (cassette,
cartouche). Ils sont la plupart du temps partags par diffrents environne-
ments techniques et utiliss par de nombreux serveurs ou NAS. Leur constitu-
tion mcanique, comportant un grand nombre de pices en mouvement, les
rend fragiles et leur fiabilit dpend avant tout dune bonne maintenance.
186
Chapitre 8 Linformatique au centre de donnes
Le matriel avec lequel la sauvegarde est effectue peut tre diffrent de celui
avec lequel la restauration sera ralise : il suffit de ne pas se trouver sur le
mme site. Des prcautions de compatibilit sont ncessaires, sous peine de ne
pouvoir restaurer correctement.
Il existe des systmes qui virtualisent les bandes et les drouleurs de bandes :
les VTS (virtual tape servers ou serveurs bande virtuelle). Nombre doprations
dcriture et de lecture se font alors sur disques au lieu de se faire sur du mat-
riel rel bande. Toutefois, la scurit des oprations de sauvegarde est garan-
tie par la ralisation finale de cassettes de sauvegarde appropries. Ces
systmes permettent ainsi dviter les crations inutiles de cassettes.
Tous ces systmes proposent souvent dautres fonctions en option, dont il faut
tenir compte dans le cadre dun plan de continuit. En effet, il faut tre sr de
pouvoir restaurer :
la compression des donnes il faut pouvoir dcompresser lors de la
restauration ;
le chiffrement de la mme manire, il faut pouvoir dchiffrer et avoir les
droits techniques et administratifs pour le faire ;
la dduplication (limination de doublons pour gagner de lespace), qui pose
le mme type de contraintes.
La capacit effectuer une restauration correcte sur un systme potentiellement
diffrent du systme de sauvegarde est fondamentale. Sans cela, en effet, toute
sauvegarde est inutile. Parmi les points considrer, on compte :
la compatibilit des formats en tous genres (cassette, drouleur, chargeur,
codage, etc.) ;
la compatibilit des logiciels, qui est une exigence trs forte dans presque
tous les cas, on aura besoin pour la restauration du mme logiciel que celui
qui a servi pour la sauvegarde ;
une bonne gestion des droits associs ladministrateur qui charge une sau-
vegarde doit disposer des droits ncessaires, loutil doit lautoriser oprer ;
les performances la restauration ne devant pas durer dix heures si lon dis-
pose dun temps limit quatre heures, les dbits doivent tre calculs
correctement ;
ltat des matriels de restauration, qui doit tre vrifi et test, avec des con-
trats de maintenance convenables ;
lexistence et lactualit des licences dutilisation.
Tous ces aspects sont importants, surtout dans les cas o le logiciel et les
moyens de restauration utiliss sur un site de secours ne sont pas ceux que ce
site emploie pour son usage propre.
187
Management de la continuit dactivit
Rseau traditionnel
Concernant le rseau traditionnel, lanalyse et les mesures prendre ressem-
blent beaucoup celles ayant trait aux serveurs. On y retrouve en effet les
mmes orientations et architectures :
188
Chapitre 8 Linformatique au centre de donnes
189
Chapitre 9
Infrastructure
et poste de travail
de lemploy
Tout ce qui a trait lenvironnement de travail de lemploy tlphonie, poste
de travail en rseau, bureau ne doit pas non plus tre nglig. Ces lments,
utilisant des technologies de plus en plus avances, sont en effet des points vul-
nrables mais indispensables la continuit de lentreprise.
Ceci inclut dans une certaine mesure les problmatiques lies aux ressources
humaines, bien que ce sujet soit la limite du primtre de cet ouvrage.
Les rseaux
Rseau tlphonique
En dpit de la monte en puissance des nouvelles technologies, le tlphone
joue encore un rle primordial dans la vie de lentreprise, comme lillustre
lexemple suivant.
Exemple : lacheteur et le tlphone
M. Achat est acheteur chez un fabricant qui dpend fortement de ses fournisseurs en ter-
mes de dlais. Un soir, de retour son domicile, il voit au journal tlvis rgional quun
191
Management de la continuit dactivit
incendie sest dclar chez son principal fournisseur. La tlvision montre des ammes et
le commentaire est imprcis. Souhaitant avoir plus dinformation, M. Achat essaie dappe-
ler le site sinistr : impossible. Le site est trop loign pour quil sy rende en voiture.
Le lendemain matin, il cherche joindre son commercial attitr chez le fournisseur en
vain. Par prcaution, il passe commande chez un autre fournisseur, pratiquant des prix
trs levs, sacriant ainsi la scurit.
Trois jours aprs, M. Achat apprend que le sinistre ne concernait ni lusine ni les stocks de
son fournisseur, mais uniquement des bureaux et la salle de lautocommutateur.
Moralit :
il peut tre utile de disposer du numro de portable de son commercial ;
en cas dincendie, il faut essayer dans la mesure du possible de transmettre la tlvi-
sion des informations prcises, en esprant quelles passeront lantenne ;
la socit sinistre doit prvoir un accueil tlphonique de ses clients, dans des cas sem-
blables de sinistre : son oprateur doit avoir des solutions.
Les rseaux tlphoniques nont pas t conus en prvision que tout le monde
appelle tout le monde au mme moment (plus exactement, quune moiti des
abonns appelle lautre moiti). Ils sont dimensionns pour permettre le trafic
de quelques pourcents dune zone donne (on cite souvent le chiffre de 10 % en
Amrique du Nord). Cela est valable aussi bien pour la tlphonie fixe que pour
la tlphonie mobile. Ainsi, en cas de sinistre rgional, ou simplement dinci-
dent ou vnement attirant la curiosit gnrale, il est impossible de compter
sur un acheminement sr des appels.
Vu de lutilisateur en entreprise, le rseau tlphonique peut tre dcompos en
trois parties, dont chacune mrite lattention :
les cheminements internes lentreprise, courant dans des goulottes, avec
des connexions situes dans des rpartiteurs ou armoires quil faut vrifier ;
le cheminement hors de lentreprise, dirig vers les moyens techniques de
loprateur (central tlphonique) en passant par la voie publique et ses
alas ;
lautocommutateur de lentreprise, qui est une machine sapparentant dsor-
mais un ordinateur, avec sa redondance interne, sa maintenance, ses mises
niveaux et ses techniciens.
Cblage interne
Concernant le cblage interne et les armoires de rpartition, il faut sassurer
que :
les cabinets de passage des cbles sont ferms cl ;
les rpartiteurs et sous-rpartiteurs sont quips en systmes anti-incendie
(extincteurs automatiques eau ou sprinklers) ;
rien dautre nest stock sur place (si ce nest de la mort au rats mais pas les
guirlandes de Nol !) ;
les cls sont en possession des personnes habilites et delles seules ;
192
Chapitre 9 Infrastructure et poste de travail de lemploy
Cbles extrieurs
Les cbles externes ne dpendent pour lessentiel pas de la socit, mais de
loprateur tlcom. Cest souvent le point faible de la chane qui relie lautocom
de lentreprise au central de loprateur ou divers POP (points de prsence). Il
faut donc surveiller certains aspects, mme sils ne sont gnralement pas du
ressort de lentreprise :
les temptes, la glace ou la neige peuvent endommager les lignes ariennes :
une inspection sur place permet au moins de comprendre le risque ;
les accidents de vhicules contre des poteaux tlphoniques peuvent eux
aussi affecter les lignes ;
les lignes enterres sont soumises aux alas des travaux publics (voir
page 166 lanecdote du pont de Suresnes).
Lentreprise peut demander ou loprateur tlphonique proposer des chemine-
ments spars. Il faut alors tudier par o les cbles passent et comment effec-
tuer la sparation : quelle distance y a-t-il entre les cbles, quels sont les points
de regroupement, comment se font les passages de rivires, etc. ?
Le fait de passer par un deuxime oprateur nest pas une garantie, car ce der-
nier peut fort bien emprunter une ligne loue auprs du premier oprateur. Il
peut donc tre utile de se renseigner sur tous ces points et, pourquoi pas, de
parcourir en voiture le trajet emprunt par les cbles.
Quant aux oprateurs mobiles, ils encourent des problmes du mme ordre,
ceci prs que certaines portions de cblage sont remplaces par des ondes hert-
ziennes dont la fiabilit va dpendre des pylnes, des antennes, des metteurs
et dautres matriels informatiques. La tlphonie mobile est galement sensi-
ble aux intempries, des vents forts pouvant, par exemple, endommager les
antennes.
Autocommutateur
Lautocommutateur accueille les lignes tlphoniques externes et distribue les
appels sur dautres liens internes. Associs lautocommutateur, on trouve sou-
vent dautres matriels tels que des serveurs interactifs de rponse vocale, des
botes vocales, des rpondeurs, des systmes de routage dappels, des moyens
de confrence, etc.
193
Management de la continuit dactivit
Il faut alors procder comme pour une petite salle informatique, en vrifiant les
points suivants :
la liste des quipements, avec descriptions et numros de srie ;
les contacts et numros du service de maintenance, en cas de panne ;
les sauvegardes qui doivent avoir t faites et leur lieu de conservation ;
des lments tels que les alimentations lectriques secourues, les alarmes en
cas de dpassements de temprature ou de taux dhumidit ;
la scurit daccs : les cls du local de lautocom (ferm cl) doivent tre en
possession de quelques personnes responsables identifies ;
les systmes anti-incendie : ceux-ci doivent tre prvus et leurs tests avoir t
excuts et nots.
La similitude avec la salle informatique ne sarrte pas l : il est en effet possible
de louer un autocom de secours qui peut tre amen dans un conteneur et con-
nect au rseau de lentreprise. Ce type de contrat peut avoir t prvu en
secours (voir le chapitre 3).
La similitude avec les pratiques des informaticiens est cependant faible, la tl-
phonie restant un monde part.
Rseau informatique
Le rseau informatique du lieu de travail se dcompose lui aussi en trois parties,
qui prsentent une analogie forte avec la tlphonie :
le rseau local (LAN Local Area Network), proche du poste de travail des
employs ;
des matriels de commutation ou de routage, des contrleurs de rseau, des
serveurs bureautiques ou dimpression, des imprimantes dpartementales,
situs en gnral dans de petites salles ou des sites appropris dans les
locaux ;
le rseau externe lentreprise, pour lequel les commentaires sont les mmes
que prcdemment pour la tlphonie.
Le rseau fdrateur (backbone) de lentreprise, prsent en salle informatique, est
trait dans le chapitre 8.
194
Chapitre 9 Infrastructure et poste de travail de lemploy
tation lectrique qui est souvent fournie par le LAN lui-mme, moyennant des
amnagements. Cela ajoute un risque dont il faut tenir compte dans les armoi-
res de cbles.
En rgle gnrale, il faut contrler :
les cheminements des cbles et leur protection ;
les installations de rpartiteurs, ou sous-rpartiteurs, avec des documents
jour, des plans clairs, des terminaisons identifies ;
les salles ou placards utiliss, qui doivent tre ferms cl, les cls tant dis-
ponibles auprs de personnes clairement identifies ;
les moyens anti-incendie, inspects rgulirement avec une preuve de lins-
pection.
Serveurs bureautiques
Les serveurs bureautiques compltent le poste de travail (PC) de lutilisateur et
conservent des documents (fichiers Word, Excel, etc.), permettant de fournir du
stockage local ainsi que des moyens dimpression et de messagerie, par exem-
ple. Leur dfaillance empche, entre autres, laccs des utilisateurs leurs docu-
ments, lchange de messages et limpression. Ces serveurs sont considrs de
plus en plus souvent comme critiques par les entreprises.
La pratique qui consistait installer ces serveurs bureautiques prs des photo-
copieuses ou des machines caf a vcu. Les grandes orientations actuelles
consistent dplacer et consolider ces serveurs, en fonction de leur mission :
sur des NAS (voir le chapitre 8), pour les serveurs de fichiers, souvent dpla-
cs dans un centre informatique ;
sur de gros serveurs de messagerie (en grappe ou redondance), situs en
gnral dans un centre informatique ;
sur de petits serveurs ddis aux impressions avec une imprimante locale,
dpartementale ou multifonction proche des utilisateurs.
Au vu de ces volutions, les serveurs bureautiques rejoignent les serveurs de
stockage associs au centre informatique. Ils bnficient alors de toute linfra-
structure et des systmes de sauvegarde du centre.
Si lentreprise utilise encore des serveurs bureautiques dlocaliss, il faut alors :
identifier les administrateurs et les responsables ;
sassurer quil ny a pas de surchauffe ou danomalies denvironnement (vibra-
tions, humidit hors norme) ;
sil y a des sauvegardes, sassurer quelles sont bien ralises et entreposes
en lieu sr ;
sil y a des imprimantes, limiter la quantit de papier entrepose prs des
machines, qui constitue un risque supplmentaire dincendie.
195
Management de la continuit dactivit
Le poste de travail
196
Chapitre 9 Infrastructure et poste de travail de lemploy
197
Management de la continuit dactivit
PC portables
Par rapport ce qui prcde, le portable possde un avantage il peut tre
conserv labri et un inconvnient : il nest pas connect au rseau en perma-
nence.
Le problme de la sauvegarde individuelle se pose davantage dans le cas des
portables, o elle est plus facilement tolre, pouvant dailleurs prendre des for-
mes simples comme la gravure sur DVD ou la cl USB. Afin que le portable bn-
ficie des facilits de lentreprise, il est indispensable de le connecter
rgulirement pour sauvegarder sur le rseau son contenu et pour mettre jour
son systme et ses applications.
Dautre part, en cas de sinistre, le portable a moins de chance den tre victime
(absent ou stock dans un coffre). Mais sil est sinistr, rcuprer ses donnes
sera plus difficile. Il est donc trs important de sensibiliser son titulaire afin quil
stocke ses donnes le plus souvent possible sur le rseau de lentreprise ou sur
un mdia amovible quand il se dplace.
Le PC portable possde une batterie qui le met labri des coupures de courant.
En revanche, en cas de stockage prolong, il faudra penser la charge et la
bonne sant des batteries.
Enfin, ce type de PC est beaucoup plus sensible au vol, la perte ou la destruc-
tion durant les dplacements.
Il existe des armoires spciales pour conserver les PC portables. Certaines sont
de vritables coffres forts, rsistent au feu et permettent mme de charger les
batteries. Les solutions les plus volues autorisent aussi les connexions rseau
198
Chapitre 9 Infrastructure et poste de travail de lemploy
permettant des mises niveau de logiciel, le tout alors que les PC portables se
trouvent dans le coffre.
Travail domicile
En cas de sinistre, il arrive que lentreprise demande ses salaris de travailler
depuis leur domicile. Loutil de travail utilis peut varier :
cela peut tre un PC portable prt par lentreprise que le salari se procure
au bureau ou conserve chez lui ;
cela peut tre un PC fixe qui, en gnral, appartient lemploy mais sur
lequel lemployeur a install certains logiciels.
Gnralement, pour tre efficaces, ces PC sont connects Internet de diverses
manires et peuvent accder certains serveurs de lentreprise. En cas de sinis-
tre, cette solution peut permettre de gagner du temps : lemploy rentre chez lui
et accde des applications dentreprise ou des services lous chez un tiers,
pour la messagerie par exemple.
Ce type de travail particulier veille des questions relatives aux quipements de
travail la maison, la responsabilit et aux cots, qui doivent tre dfinies
clairement lavance entre lemployeur et le salari, voire figurer dans le contrat
de travail. Les cots lis aux communications doivent tre pris en compte et
lemployeur fournir un service appropri de support technique. Question scu-
rit, cest lentreprise de prendre les mesures qui simposent pour assurer la
protection des donnes utilises et traites par le travailleur distance (achat
de logiciel spcifique, mise en place dun systme de scurit daccs au serveur
de lentreprise, mode terminal ou client lger, etc.). De son ct, le tltra-
vailleur doit respecter les rgles de lentreprise le concernant : confidentialit,
restriction lusage des quipements ou outils informatiques, etc.
La malveillance
Parmi les actions malveillantes dommageables la continuit de lactivit, on
trouve :
le dpart de personnel provoquant des manques de comptence graves ;
199
Management de la continuit dactivit
200
Chapitre 9 Infrastructure et poste de travail de lemploy
201
Chapitre 10
Le centre
informatique
Choix du site
203
Management de la continuit dactivit
Vulnrabilit du site
On se reportera sur ce point au chapitre 1. Nanmoins, lorsquil sagit de choisir
une nouvelle implantation, il est intressant dvaluer aussi la vulnrabilit des
diffrentes solutions possibles.
Pour un dsastre donn, la vulnrabilit dun site se mesure en pertes financi-
res, mais aussi et surtout en pertes humaines. Sur ce deuxime point, il faut
considrer un certain nombre de facteurs, tels que :
la densit de population dans la zone considre ;
la comprhension scientifique du risque ;
le niveau dducation et de sensibilisation du public ;
lexistence de systmes davertissement, de communication, dalerte ;
la disponibilit ou non dinfrastructures de secours et leur degr de
prparation ;
le respect des rgles de construction, les pratiques locales ;
certains facteurs culturels dterminant la raction du public.
Tous ces points peuvent en effet jouer sur les comportements et donc sur les
consquences du sinistre.
Attractivit du site
Le site envisag doit attirer des collaborateurs (le site totalement vide tant une
vue de lesprit) et offrir un environnement propice aux activits. Ce sujet sort du
thme de cet ouvrage, mais citons nanmoins :
lexistence de collges, de lyces, duniversits ou dcoles dingnieurs
proximit ;
la qualit de vie (voir par exemple les classements faits par certaines revues
du genre les villes o il fait bon vivre ) ;
lvolution des populations (en baisse ou en hausse) ;
la facilit se loger sur place ( lhtel ou en logement fixe) ;
le droit du travail et la protection sociale (pour les sites ltranger) ;
la connaissance ou non des caractristiques des lieux (la notion de zone
inondable, zone risque, etc. existe-t-elle sur place ?) et leur suivi dans le
temps.
La continuit dactivit est en effet aussi une affaire de comptence et de moti-
vation du personnel.
204
Chapitre 10 Le centre informatique
205
Management de la continuit dactivit
Le centre informatique accueille des lments critiques tels que des serveurs,
des rseaux, du stockage, etc. Il permet leur fonctionnement mais peut aussi
provoquer des pannes diverses et varies dont certaines sont de mode commun
(voir le chapitre 7) et donc prjudiciables la continuit.
lments critiques
Les lments du centre informatique pouvant connatre des pannes prjudicia-
bles la disponibilit sont nombreux : les contraintes en termes de fiabilit et
de scurit portant dessus sont tudier soigneusement. On peut citer en
particulier :
la chane des alimentations lectriques qui doivent tre redondantes, prot-
ges et que lon doit pouvoir couper par sections ;
les capacits gnrer du courant lectrique en cas de coupure (batteries,
alternateurs, gnrateurs Diesel ou fioul) doivent tre dimensionnes correc-
tement en puissance, qualit de courant et dure de production ;
la climatisation doit tre suffisamment fiable et adapte aux calories va-
cuer et sa maintenance ne doit pas ncessiter larrt gnral ;
les ventuels points chauds de la salle doivent tre dtects et refroidis loca-
lement, la temprature des lments sensibles (serveurs) surveille ;
les filtrations dair doivent aussi maintenir le bon taux dhumidit ;
les systmes de scurit daccs et de surveillance vido doivent permettre la
traabilit des accs dans le respect des lois ;
les systmes de dtection et de scurit incendie peuvent viter des dommages
importants : leur bon tat de fonctionnement doit tre vrifi rgulirement ;
les planchers et faux planchers doivent pouvoir supporter le poids des machi-
nes (qui volue la hausse) ;
les canalisations deau doivent viter toutes les zones o une fuite serait
catastrophique ;
les cbles lectriques et de rseau SAN, IP, etc. doivent suivre des chemine-
ments distincts ;
les interventions de maintenance doivent pouvoir se faire en perturbant le
moins possible lensemble ; dans certains cas, il faut prvoir des bipasses.
En rsum, un centre informatique est un ensemble de technologies diverses
qui doit avoir fait lobjet dune tude dingnierie de conception visant une
bonne disponibilit et une rparabilit aise.
Rfrentiels et normalisation
Durant les annes 2000-2005, des travaux concourants ont abouti un ensemble
de bonnes pratiques pour la conception et lamnagement des centres informa-
206
Chapitre 10 Le centre informatique
Tableau 10-1 : Les quatre classes du centre informatique, selon le Uptime Institute
207
Management de la continuit dactivit
Un centre informatique est expos, comme tout btiment, aux risques habituels
que sont lincendie, linondation, la foudre, etc. Le fait quil hberge des l-
ments critiques pour lactivit de lentreprise et dtienne des informations sen-
sibles en stockage exige une dmarche oriente dans deux directions :
un niveau de protection ou de prvention lev ;
une capacit relle limiter les consquences.
Lorsquon conoit un centre partir de zro, il est possible de jouer sur les deux
tableaux, et en particulier sur la prvention. Lorsque le centre existe dj, en
revanche, les menaces sont dj prsentes et il faut alors en limiter les cons-
quences ventuelles.
Incendie
Le feu, dans un centre informatique ou ses annexes, peut avoir des consquen-
ces graves, dont certaines sont difficiles percevoir immdiatement.
Dgts
Les dgts dun incendie sont directs et vidents : pertes de stocks et de docu-
ments, destruction de biens et de rserves diverses, dommages causs par leau
ncessaire lextinction du feu, locaux devenus impropres leur usage, etc.
Mais dautres dommages atteignent le centre informatique de faon beaucoup
plus pernicieuse :
affaiblissement de certaines structures du btiment telles que des poutres ou
des murs ;
destruction de cloisons ou vitrages, rendant nulles les isolations de zones
risque ;
dgts peu visibles dans les faux planchers, les gaines surleves de passage
de cbles, les systmes de climatisation ;
dtrioration importante des isolants des cbles, devenus impropres leur
usage et risquant de provoquer des courts-circuits ;
208
Chapitre 10 Le centre informatique
Parades
Les parades mettre en place sont de plusieurs natures. Les listes donnes ci-
aprs ne prtendent pas tre exhaustives mais sont particulirement adaptes
au contexte du centre informatique.
Prvenir
Des actions lmentaires de respect de certaines rgles se rvlent trs efficaces
en termes de prvention :
ne pas laisser dans une zone risque des cartons demballage, du polystyrne
et autre combustible lorsquune machine est dballe, son emballage doit
tre sorti de la salle et mis en un lieu prvu cet effet ;
organiser le stockage des rserves de papier pour imprimantes de manire
ne pas fournir de combustible au feu ;
respecter les recommandations des constructeurs pour les alimentations
lectriques des machines et les sections de cblage ;
inspecter les cbles lectriques, changer immdiatement tout cble dnud,
toute connexion noircie ou suspecte ;
faire respecter les interdictions de fumer (le mgot mal teint est une cause
importante dincendie) ;
rglementer lusage des chauffages lectriques dappoint, des machines
caf et de tout autre appareil qui maintient une temprature leve ;
liminer de la salle informatique et de ses abords tout ce qui peut constituer
un combustible ;
respecter et faire respecter la rglementation en vigueur ;
faire visiter les locaux par les services incendies (un expert des pompiers, par
exemple) pour obtenir un tat des lieux et ventuellement connatre les ris-
ques du voisinage ;
sparer les cheminements de cbles conducteurs de courant fort de ceux
transmettant du courant faible ;
passer une fois par an laspirateur dans le dessous des faux planchers ;
inspecter les goulottes de cbles en nettoyant tout ce qui na pas sy trouver.
209
Management de la continuit dactivit
Ragir
Ds les premires flammes, il faut ragir. Certaines ractions permettent de
rduire les dgts, voire darrter le feu avant quil y ait sinistre. Les actions sui-
vantes peuvent contribuer encourager les bons comportements :
mettre en place des extincteurs appropris aux diffrentes natures de feux
possibles, les garder en bon tat par une maintenance rgulire et indiquer
clairement leur emplacement ;
former rgulirement le personnel au bon usage des extincteurs avec des
exercices pratiques ;
mettre en place les dtecteurs appropris capables de dclencher lalarme ;
concevoir un dclenchement dalarme correct, capable dentraner des
actions telles que :
fermer des portes coupe-feu,
activer des systmes dextinction,
prvenir les secours,
ouvrir les verrous lectroniques de portes pour permettre les vacuations,
alerter le personnel dvacuation,
ventuellement, arrter des machines sensibles ;
squiper en systmes dextinction qui conviennent lenvironnement dune
salle informatique (gaz neutre non mortel, conforme aux normes) ;
dterminer les lments sensibles en cas dincendie (cassettes, bandes,
documents) et prvoir un stockage appropri (coffre ignifug, par exemple) ;
poser des affiches et communiquer sur le comportement adopter en cas
dincendie ;
faire des exercices dvacuation du centre ;
tester les quipements.
Dans tous les cas, la mthode la plus efficace consiste dtecter le plus tt pos-
sible lincendie, en prvenant des personnes formes qui organisent les actions
prvues, tout en ayant sensibilis le reste des employs.
210
Chapitre 10 Le centre informatique
Consquences
Les effets des dgts des eaux sont directs et indirects, de mme que les para-
des seront immdiates et diffres.
Effets directs : la prsence de leau empchant toute activit dans le centre,
il faut ragir immdiatement en pompant leau et en la dversant en contre-
bas, si cest possible, ou dans un bac tanche ;
Effets indirects : une fois leau vacue, le centre connat des moisissures,
des courts-circuits, etc. ; il faut asscher les murs, dtruire et reconstruire des
cloisons, ter et reposer les tapisseries, les moquettes, le cblage lectrique
et tlphonique cela peut prendre plusieurs semaines pendant lesquelles le
centre est inutilisable.
Les effets des dgts des eaux peuvent aller bien au-del de ce quon imagine en
premire analyse et il nest pas rare de dcouvrir, une fois les eaux vacues, des
pannes diverses sur des systmes qui ont t endommags par un sjour dans
leau ou par un simple degr dhumidit trop lev.
Prcautions prendre
Lorsquon peut dcider de limplantation dun centre, les prcautions dj men-
tionnes plus haut consistant viter toute zone inondable simposent. Pour
tous les autres cas, il est intressant denvisager les solutions suivantes pour la
prvention et la raction en cas de sinistre :
prvoir des bassins dexpansion situs plus haut que le centre et se fournir en
pompes de relevage dun bon dbit ;
drainer les alentours du centre et en amliorer ltanchit ;
surlever la partie la plus sensible du centre ;
ne pas faire passer de canalisations deau au-dessus dlments sensibles ;
si le centre possde un systme de refroidissement eau, en prvoir la circu-
lation en niveau bas ;
prvoir des systmes anti-fuite ou de coupure en cas de fuite sur les
canalisations ;
prvoir des bipasses et des piges froid pour pouvoir changer les vannes
dfectueuses ou certaines pompes sans avoir tout interrompre ;
pour tout systme (climatiseur, canalisation froide) qui risque lhumidit ou
la condensation, prvoir une rcupration de leau ainsi produite par bac ou
lchefrite ;
laisser les canalisations apparentes et accessibles de manire ce quon
puisse les inspecter facilement.
Par ailleurs, il est important de tenir compte du fait que linondation mne la
plupart du temps une coupure lectrique. Il est donc judicieux davoir conu le
211
Management de la continuit dactivit
centre de manire ce que les systmes les plus sensibles soient mis hors
datteinte de leau avec une alimentation par batteries et/ou gnrateur Diesel,
eux-mmes hors deau.
Dysfonctionnements lectriques
Lalimentation lectrique est indispensable pour tous les moyens informatiques
du centre. Ses dfauts sont ainsi fortement prjudiciables au bon fonctionne-
ment des machines.
Dfauts courants
Parmi les dfauts courants de lalimentation lectrique, on peut noter :
les variations de tension, les microcoupures ;
les parasites ou courants induits (par les ballasts de tubes fluorescents, par
exemple) ;
des perturbations diverses en frquence ou des dfauts dus des onduleurs
de qualit mdiocre ;
les problmes de rfrences de potentiels multiples et dlectricit statique ;
la foudre qui gnre des courants pouvant avoir des consquences destructri-
ces distance.
Les divers quipements ragissent de manire variable ces dfauts. Certains
quipements industriels vont dailleurs eux-mmes en gnrer. Si le centre est
voisin dune usine quipe de machines lectriques (gros moteurs lectriques,
appareils de soudure lectrique), il faudra tre particulirement vigilant.
Prcautions prendre
Parmi les prcautions utiles prendre, citons les actions suivantes :
sparer les matriels sensibles comme les serveurs ou les routeurs de rseau
des matriels perturbateurs (moteurs lectriques, par exemple) ;
prvoir des transformateurs ayant la puissance ncessaire ;
gnraliser la mise au neutre ;
choisir des cbles de qualit et sassurer que leur pose a t effectue
correctement ;
prvoir des cheminements de cbles vitant les perturbations mises ;
sparer le passage des alimentations nominales de celui de lalimentation de
secours (prcaution gnrale : voir les chapitres prcdents) ;
vrifier rgulirement les connexions.
Moyens techniques
Pour amliorer la qualit du courant apport en salle informatique, il est possi-
ble de recourir des dispositifs tels que des onduleurs ou des moteurs lectri-
ques volant dinertie doubls de batteries. En gnral, ces moyens permettent
212
Chapitre 10 Le centre informatique
Autres risques
Enfin, un centre informatique est expos dautres risques encore que ceux qui
ont t tudis prcdemment.
Dfaut de climatisation
La climatisation peut tomber en panne, que ce soit en raison dune coupure
lectrique (dj mentionne) ou pour des raisons plus particulires, telles que :
des fuites de liquide rfrigrant ;
des pannes de ventilateurs ou daro-rfrigrant externe ;
lexposition un rayonnement solaire direct trop lev.
Dans tous les cas, la temprature monte et atteint des zones impropres au bon
fonctionnement des machines, serveurs, stockage, etc. Les mesures prventives
consistent alors prvoir des redondances des systmes de climatisation (de
type n+1), doubler les alimentations et surveiller et maintenir ces systmes.
En cas de dfaillance totale, larrt des machines sensibles ou responsables des
plus gros dgagements de chaleur est prvoir rapidement.
Il existe aussi un risque plus rcent dinsuffisance chronique de refroidissement
dans certains endroits de la salle informatique o sont concentrs certains ser-
veurs qui dgagent plus de calories que la moyenne. La parade face ce pro-
blme consiste alors :
ne pas remplir compltement les racks de machines ;
disperser dans la salle les machines ou groupes de machines de ce type ;
prvoir des complments ponctuels de refroidissement aux points chauds.
213
Management de la continuit dactivit
Intrusions de personnel
Lentre dans le centre ne doit tre rserve quau personnel habilit. Il existe en
effet diffrents risques :
vols de matriel, de sauvegardes ;
mise sur coute, pose de bretelles tlcom ;
vandalisme, destructions diverses.
Une protection efficace sera apporte par :
des mcanismes de contrle daccs simples (gardien) ou sophistiqus (iden-
tification et authentification par carte, etc.) ;
la traabilit des personnes entrant sur le site (nom, prnom, jour, heure, per-
sonne visite) ;
la difficult daccs dans le centre (portes verrouilles, absence de baies vitres) ;
une vidosurveillance des alentours du site ;
la mise sous protection des lments sensibles comme les tableaux lectri-
ques, les moyens de coupure divers ou les rpartiteurs tlcom, qui ne doi-
vent pas tre accessibles au premier venu ;
une procdure de contrle la sortie des employs emportant du matriel ou
des sacs pouvant en contenir.
Pollutions diverses
Normalement, ces aspects ont d tre pris en compte dans le choix du site sur
lequel le centre est install. Cependant, pour les centres situs dans des zones
industrielles ou proximit dun site industriel, il existe certains risques lis la
pollution :
manation de gaz dangereux pour le personnel ou le matriel ;
poussires de diverses natures ;
eau impropre son usage.
Toutes ces atteintes toxiques peuvent se traduire par des problmes de sant,
des dysfonctionnements de matriel, des risques de courts-circuits ou dincen-
die, des dclenchements dalarme intempestifs, etc.
La parade pourra tre apporte par :
des filtrations adaptes ;
des portes coupe-feu ;
des clapets dans les gaines de circulation dair ;
des zones en lgre surpression ;
une protection des rserves deau.
214
PARTIE IV
La gouvernance
de la continuit
Historiquement, les proccupations de continuit dactivit sont apparues
divers endroits dans lentreprise et diffrents niveaux de son organigramme.
Les dmarches sont tantt techniques, tantt organisationnelles ; elles sont
restes partielles, opportunistes et peu coordonnes.
Une prise de conscience au plus haut niveau est en train de soprer. Elle pousse
les directions gnrales considrer la continuit dactivit dans son ensemble
et mettre en place les lments dune bonne gouvernance qui sont traits dans
les trois chapitres suivants :
la politique de continuit (chapitre 11), dont l objectif est de mettre en place
une structure ;
le lancement des actions dlaboration du PCA et sa maintenance
(chapitre 12) ;
le contrle ou la vrification de sa bonne excution (chapitre 13).
Chapitre 11
La politique
de continuit
217
Management de la continuit dactivit
1. Rsum
Le rsum permet dannoncer lessentiel en quelques lignes.
Exemples
Les directeurs de branche doivent mettre en uvre un plan de continuit dactivit.
Les responsables de groupe doivent montrer quils ont pris en compte lobligation
davoir un plan de continuit efcace.
Les plans doivent tre conus, publis et tests pour les activits juges critiques.
2. Introduction
Lintroduction donne le cadrage gnral, ainsi quune description du contexte.
Exemples
En termes de continuit dactivit, la socit X a ralis un plan de continuit qui nces-
site une adaptation et un largissement depuis son rachat par la socit Y.
Ce document exprime lorientation gnrale de lentreprise Z sur les deux ans venir.
3. Conditions dapplication
Ici sont exprimes les conditions dapplication de la politique de continuit : sa
date dentre en vigueur, sa situation par rapport au pass, etc.
Exemples
La prsente politique sapplique compter du jj/mm/aaaa.
Elle annule le document mis prcdemment.
4. Objet
En fonction de la culture de lentreprise et des travaux dj raliss, on prcise
ensuite lobjet prcis de la politique.
Exemples
Proposer une structure gnrale pour les actions de continuit lancer.
Dvelopper des plans de continuit.
Amliorer le plan de continuit et en tendre le primtre.
Dgager un budget pour les actions de continuit menes par les directions
oprationnelles.
Lancer une campagne de test des plans existants.
5. Primtre
Une fois lobjet dtermin, la politique prcise le primtre du plan de conti-
nuit, avec ses exclusions ventuelles.
Exemples
Le primtre est lensemble de la SA en France.
Les principaux fournisseurs de logistique sont inclus dans le primtre.
Les liales situes hors de lUnion Europenne ne font pas partie du primtre.
218
Chapitre 11 La politique de continuit
6. Dcisions
Exprimant clairement et de faon structure ce qui est dcid par la direction,
cette section reprsente le cur du document.
Exemples
Les directeurs dunits seront les responsables chargs de dnir leurs activits critiques
et le niveau de continuit dsir.
La structure du plan de continuit suivra les modles fournis par la norme PAS 56.
Les directeurs de rgion mneront des revues annuelles du plan.
Des tests de simulation seront mens une fois par an dans les rgions, sous la responsa-
bilit des chefs de zone.
Les contrats avec les prestataires devront inclure une clause ad-hoc.
7. Bnces attendus
Il sagit maintenant de justifier la dcision. On trouve ici des arguments que lon
peut rutiliser pour expliquer ou justifier la dmarche.
Exemples
Amlioration du service rendu au client.
Limitation des consquences dun sinistre sur les personnes, les biens et
lenvironnement.
Rendre la reprise du travail plus efcace aprs un incident de type X.
8. Responsabilits
La dfinition des responsabilits est importante pour encourager des comporte-
ments bien aligns.
Exemples
Le responsable de la continuit rendra compte au comit directeur de ltat davance-
ment des travaux.
Le comit de continuit est dpositaire de la prsente politique ; il signalera au comit
directeur les ventuels amnagements y apporter.
Les responsables de branche sont responsables de la mise en uvre du plan dans cha-
cune de leur branche.
9. Rfrences
On indique ici les ventuelles normes suivre ou les documents de politique ou
directives dune maison mre, par exemple.
219
Management de la continuit dactivit
pas au dpart, cest cette structure qui se voit confier la mise en place ou la cra-
tion dun plan de continuit dactivit (PCA) en bonne et due forme.
Parmi les attributions de ce comit, on trouve :
respecter et faire respecter les orientations de politique dfinies
prcdemment ;
dfinir les objectifs du projet de mise en uvre dun plan de continuit
dactivit ;
fournir le support et les aides ncessaires au bon avancement du projet ;
suivre lavancement du projet (ce qui est accompli, ce qui reste faire, risques
encourus) ;
dcider des orientations et rorientations ventuelles du projet ;
grer le budget allou au projet.
Ce comit se runit rgulirement (toutes les semaines ou tous les quinze jours)
et publie un compte rendu.
La responsabilit du projet en lui-mme incombe un directeur de projet qui
fait souvent partie du comit de pilotage. Les diffrents chefs de projet rendant
compte ce directeur peuvent tre rattachs divers services. Il est judicieux
demployer pour ce projet particulier les mmes structures de projet utilises
habituellement par lentreprise. Enfin, il est indispensable que ce projet ne soit
pas men uniquement par des personnes sans exprience oprationnelle. Ils
peuvent tre dtachs temporairement mais doivent avoir une bonne connais-
sance et habitude du terrain.
220
Chapitre 12
Construire
et maintenir le plan
de continuit
Suite une dcision de la direction gnrale, lentreprise doit construire son
plan de continuit en mode projet sous la matrise dun comit de pilotage. Des
actions de sensibilisation des employs laccompagnent.
Une fois le plan de continuit mis en uvre, la vie continue, lentreprise volue,
les hommes changent. Or, pour tre efficace, le PCA doit toujours rester dactua-
lit. Cest le but de la maintenance du plan.
Le projet de PCA doit tre lanc par le comit de pilotage (COPIL) cr dans le
cadre de la note de politique.
Un brin de crmonial (du type runion de lancement) est souvent utile pour
marquer les esprits. Les oprationnels et les responsables dunits doivent en
effet savoir pertinemment quils vont tre mis contribution et comprendre pr-
cisment ce que lon attend deux.
Quiproquo au CoDir : linformatique ne peut dcider seule !
La socit Mding lance un projet de PCA en France.
Son approche part des quipes informatiques de production (au sens exploitation ).
partir de modles de questionnaires tablis par sa maison mre dans un pays dEurope,
certains des responsables dexploitation informatique tablissent des questions prcises
sur les serveurs, avec diffrents critres de rponse. Ils demandent alors des responsa-
bles de dveloppement informatique de remplir les fameux questionnaires, ce quils font
sans trop se poser de questions.
On obtient nalement des informations sur les temps possibles dinterruption des ser-
veurs Uranus, Neptune et Saturne.
En comit de direction (CoDir), le responsable du PCA flicite les responsables mtiers
davoir rpondu aussi vite. Ceux-ci carquillent les yeux, car bien que responsables de leur
processus, personne nest jamais venu les questionner sur la sensibilit au sinistre de
leurs activits.
221
Management de la continuit dactivit
Formation et sensibilisation
Afin dviter bien des msaventures sur un projet unique dans lhistoire de
lentreprise, il est bon davoir mis en place un programme de formation et de
sensibilisation.
Ce programme pourra comporter plusieurs sessions allant de la sensibilisation
gnrale des formations plus approfondies destines aux chefs de projets.
Objectifs
Donner aux participants des connaissances de base permettant de compren-
dre les approches et les enjeux de la continuit dactivit (CA).
Permettre aux responsables dexpliquer et dinitialiser correctement une
dmarche CA dans lentreprise.
Fournir une mthode pour aborder la CA en entreprise et aboutir la ralisa-
tion dun PCA.
Contenu
Introduction : dveloppement dun PCA (tapes importantes, documents
types, principaux concepts, dfinitions).
Construction du PCA :
Matrise du risque : quels sont les principaux risques et comment les aborder ;
comment mesurer et approcher le risque ; comment le diminuer ?
222
Chapitre 12 Construire et maintenir le plan de continuit
Analyse dimpact sur les activits : que lentreprise doit-elle craindre ; quelles
sont les activits critiques ?
Dveloppement dune stratgie de continuit : quelles sont les options disponibles ;
lesquelles tudie-t-on ; comment choisir ?
Dveloppement dun PCA : contenu du plan, travaux effectuer, attribution des
missions, ceci afin daboutir un plan ralisable ; prsentation de listes
types utiles.
Test du plan : comment sassurer que tout fonctionne ; quels types de tests
effectuer ?
Maintenance du PCA : que faut-il surveiller ; comment mettre jour le plan ?
Gouvernance de la CA :
document de politique gnrale ;
comit de pilotage ;
projet de dveloppement ;
formation et sensibilisation ;
lois et rglements prendre en compte ;
associations utiles.
Conclusion : demain, je commence par quoi ?
Rsultat
la fin de la formation, le participant a acquis une comprhension des enjeux et
une vision claire des actions mettre en place en premier lieu. Il peut avoir
accs des outils en ligne pour initialiser sa dmarche.
Sensibilisation gnrale
Les sessions de sensibilisation peuvent tre organises pour toucher le maxi-
mum de personnel. Elles doivent faire passer des messages simples et durer
tout au plus une demi-journe.
Certaines entreprises organisent ces sessions rgulirement dates fixes sur
une priode : tous les lundis aprs-midi pendant deux mois, par exemple.
Coordination
Le projet dlaboration du PCA touche bien des aspects de lentreprise. Les tra-
vaux quil met en uvre interfrent maints endroits avec dautres activits
appartenant dautres projets en cours.
Il est donc important de garder une vue globale et cohrente de lensemble.
cet effet, un rle de surveillance doit tre dvolu un comit directeur dans
lentreprise, afin de dtecter les besoins en coordination et de procder aux arbi-
trages ncessaires.
Par ailleurs, de par sa nature transverse, la continuit dactivit ncessite
dentreprendre des actions communes ou tout au moins coordonnes avec des
223
Management de la continuit dactivit
Maintenance du PCA
224
Chapitre 12 Construire et maintenir le plan de continuit
Un processus difcile
La gestion des changements est un exercice difficile dans bien des domaines, et
dautant plus dans la continuit dactivit.
Grer les changements suppose en effet que quelquun soit tenu au courant de
tout ce qui a chang et le traduise dans une modification du PCA. Mission
impossible ! Les changements surviennent de toute part et sont souvent effec-
tus par les oprationnels sur le terrain qui nen avertissent pas forcment le
gestionnaire des changements du PCA. Or celui-ci ne peut les dcouvrir tout
seul et, par consquent, encore moins en tenir compte. Une discipline de fer est
ncessaire pour que les oprationnels prviennent systmatiquement le ges-
tionnaire lors dun changement, et hormis les transfomations videntes telles
quun dmnagement de site, dans la plupart des cas, aucune certitude nexiste.
Cest pour cette raison que nombre de changements sont en fait dcouverts lors
des tests. Ceux-ci constatent en effet des inexactitudes dues des changements
non rpercuts.
Faut-il pour autant ne rien faire ? Non, bien sr, mais limportant est de rester
pragmatique. Avant tout, il faut nommer un responsable de la continuit dacti-
vit en charge de la maintenance du plan.
225
Management de la continuit dactivit
226
Chapitre 12 Construire et maintenir le plan de continuit
tests, leur frquence et leur ordonnancement dans le calendrier. Les aspects pra-
tiques de mise en uvre des tests sont dtaills dans le chapitre 6, et seuls les
points de politique et dorganisation sont donc prsents ici.
Types de tests
Il est important de bien organiser les tests de manire optimiser le rapport
entre test et rsultats et viter de se retrouver dans des situations bloquantes.
Exemple : O sont les bandes ?
La socit DFD a ralis sur le papier un PCA sommaire. Elle na aucune culture de test
de PCA. Elle dcide de raliser sur trois jours un test en simulation, avec relle mise en
uvre dun ensemble de serveurs de secours sur un site distant chez un prestataire.
Pour ce test ambitieux, la socit rserve un support grand systme et Unix de haut
niveau chez ledit prestataire. Ces spcialistes coteux sont rservs pour trois jours fer-
mes.
Le premier jour, H0, il faut aller chercher les cassettes de sauvegarde dans le lieu o
elles sont conserves. Petit cafouillage : qui doit y aller ? O est-ce exactement ? Aprs
deux heures de discussion (H+2), deux techniciens partent en voiture sur le fameux site
de conservation des cartouches de bandes. Arrivs sur place : problme ! Personne ne
veut les accepter. On nentre en effet pas comme dans un moulin sur ce site scuris, exer-
cice de test ou pas ! Le compteur tourne Au bout dune heure et aprs changes de fax,
ils peuvent enn accder aux lieux (H+3).
Arrivs enn si prs du but, autre problme : parmi toutes ces armoires, laquelle est la
bonne ? O sont les cls ? Qui peut renseigner ? Et dans larmoire : quelles sont les casset-
tes reprendre ? Toutes ? Cela ne tiendra jamais dans la voiture ! Quelques-unes ?
Lesquelles ? Nous sommes dj H+4. Le problme est enn rsolu H+5, il ne reste
plus qu trouver la route pour se rendre sur le site de secours, ce qui na pu se faire sans
le tlphone portable et les collgues
Pendant ce temps l, les experts systmes sont facturs au prix fort, quasi ne rien faire.
Moralit : avant de se lancer dans un test de grande ampleur, vrions les listes, tablis-
sons qui fait quoi, allons voir sur place comment cela se prsente, notons les noms de
ceux qui dtiennent les informations En bref, prfrons dabord des tests de type check-
list ou walk-through.
Il existe une certaine logique respecter dans la dmarche de test, qui doit tre
progressive. Pour une socit peu entrane en la matire, il faut considrer les
points suivants :
commencer par de petits tests bien cibls sur un problme concret et un pri-
mtre restreint (voir lexemple prcdent de la recherche des sauvegardes,
que lon peut tester part) ;
organiser plusieurs petits tests de ce type assez rapprochs (tous les mois) un
peu partout dans la socit ;
augmenter progressivement limportance des tests et le primtre concern ;
capitaliser chaque fois en tirant des conclusions pdagogiques des tests et
en modifiant les documents du PCA aux points ncessaires ;
227
Management de la continuit dactivit
utiliser ventuellement des cas rels vcus pour organiser une session de
formation ;
prouver par lexemple que tout ce processus est bnfique : le mme test qui
a pris quatre heures avec des difficults sera refait le mois suivant en une
heure, une fois les difficults aplanies ;
ventuellement, faire des tests gigognes (le test 3 cumulant les tests 1 et 2),
afin de montrer une progression.
Il est intressant de dvelopper ces aspects et de les suivre au cours de lanne
par une communication auprs des comits de direction, des dpartements, etc.
228
Chapitre 12 Construire et maintenir le plan de continuit
Il est important dimpliquer dans ces tests le personnel qui serait impliqu en
situation relle, en faisant appel des responsables hirarchiques opration-
nels.
Les tests semi-annuels
Moins frquents, plus ambitieux et plus onreux, ces tests peuvent recourir la
simulation en la combinant avec les dmarches de revue et de check-list des tests
prcdents. Ils permettent par exemple de vrifier lensemble du PCA en simu-
lant un sinistre sur un primtre raisonnable, ou encore de simuler la dispari-
tion de certaines activits critiques et leur reconstruction sur un site de secours
dans les dlais impartis. On peut, ce stade, effectuer en simulation ou en
parallle un ensemble de tests qui a t auparavant correctement effectu en
check-list ou walk-through ou, pour une thmatique donne, passer en revue le PCA
complet pour dtecter ce qui risque de bloquer (accs scuriss, autorisations
de connexions, mots de passes, etc. pour la scurit, par exemple).
Ces tests ne pourront tre organiss que si les tests moins ambitieux qui prc-
dent ont t mens bien, suivis des actions correctives ncessaires. Procder
ainsi permet en effet de dcouvrir assez tt et de corriger par anticipation cer-
tains points de blocage qui auraient fauss un exercice de plus grande ampleur.
Le test annuel
Prvu pour passer en revue lensemble du PCA en simulation ou en interruption
partielle ou totale, ce test est le plus complet que lon puisse pratiquer.
Peu dentreprises testent lensemble de leur PCA, depuis lexpression des
besoins sur le site de secours jusquau retour sur le site primaire et au bilan. Il
est vident que la faisabilit dun tel test dpend galement beaucoup des
moyens que la socit consacre cette activit. En outre, lorganisation de tests
de cette ampleur implique souvent clients et fournisseurs et, dans certains cas,
certaines socits alertent aussi la presse pour crer un vnement.
Dans la mme optique, il est galement intressant de faire participer lentre-
prise des tests organiss par les autorits ou autres acteurs simulant par
exemple un accident nuclaire ou une explosion dusine grandeur nature.
229
Management de la continuit dactivit
230
Chapitre 12 Construire et maintenir le plan de continuit
231
Chapitre 13
Le systme
de contrle
Objectifs
233
Management de la continuit dactivit
Il apparat dans ces exemples que la structure choisie, en cinq sept points,
dcline toutes les actions ncessaires pour prtendre avoir une vritable mise
en uvre de la continuit en entreprise.
Objectifs
1. Documenter le cadrage de la dmarche
2. Identier les menaces et les risques
3. Faire la liste des biens exposs
4. Analyser les options possibles
5. Faire une prconisation documente
234
Chapitre 13 Le systme de contrle
Objectifs
1. Documenter le cadrage de la dmarche
2. Analyser les processus dactivit
3. Dterminer les congurations concernes
4. Dterminer les processus critiques et leurs paramtres
5. laborer une stratgie documente
Objectifs
1. Documenter le cadrage de la dmarche
2. Dnir ce quest un sinistre
3. Prciser les primtres
4. Dnir les groupes et leurs responsabilits
5. Mettre en place un centre de gestion de crise
6. tablir un planning rpartissant les activits en diffrentes tapes
7. tablir un plan de communication
8. tablir un plan daffectation
9. Mettre en place un systme de documentation
Objectifs
1. Documenter le cadrage de la dmarche
2. Expliquer les objectifs des campagnes de tests
3. Dcrire les types de tests prvus et leurs impacts
4. Prconiser des moyens pour les tests
5. Formaliser le suivi des tests
6. Documenter les conclusions
Comme on le voit sur ces exemples, ces objectifs sont tout la fois suffisamment
gnraux pour tre universels dans leur application et suffisamment prcis pour
orienter lentreprise dans une direction choisie. Trs importants pour lentreprise,
ils sont valables long terme (au moins trois ans) et sappliquent toutes les
variantes organisationnelles ou gographiques que lentreprise connat.
235
Management de la continuit dactivit
tenir compte des spcificits locales et dtaills plus finement pour tre plus
prcis.
Il existe plusieurs manires de procder. Le plus souvent, il est intressant de
traduire lobjectif en quelques questions (entre trois et sept) qui pourront tre
poses la direction locale, ou sur lesquels un auditeur pourra sappuyer pour
son valuation.
Voici deux exemples :
On obtient ainsi une vingtaine de questions par chapitre, cest--dire cent vingt
cent cinquante questions pour lensemble de la politique de continuit. La for-
mulation de ces questions est parfois dlicate. En effet, la rponse ne doit pas
laisser une grande marge linterprtation mais pouvoir, au contraire, sappuyer
sur des faits constatables. Certaines socits de conseil peuvent fournir une
assistance apprciable sur ce sujet assez dlicat.
valuer le plan
236
Chapitre 13 Le systme de contrle
Plan de continuit
237
Management de la continuit dactivit
atteindre, module selon les ttes de chapitre de sa stratgie. Cela peut sexpri-
mer sur le schma suivant :
Plan de continuit
Recommencer
238
Annexe 1
Normes et bonnes
pratiques
239
Management de la continuit dactivit
La norme BS 25999
Le British Standard Intitute (BSI), entit de normalisation britannique (quivalent
de lAFNOR en France), a mis rcemment une norme sur le sujet de la
continuit : la BS 25999. Cette norme britannique est lheure actuelle la plus
avance sur le thme de la continuit dactivit et mrite toutes les attentions,
pour plusieurs raisons.
Elle concentre en son sein tout un ensemble de travaux et dexpriences pra-
tiques de premire importance.
Son rayonnement va bien au-del du Royaume-Uni : son influence se fait
sentir dans une cinquantaine de pays.
LISO a jusqu prsent repris bon nombre de normes de type bonnes
pratiques du BSI pour en faire des normes ISO, sans quasiment les modifier.
240
Annexe 1 Normes et bonnes pratiques
BS 25999-1 et BS 25999-2
Comme pour les autres normes rcentes du BSI de type bonnes pratiques , la
norme BS 25999 est scinde en deux parties :
la BS 25999-1 est le code de bonnes pratiques en tant que tel concernant la
mise en uvre de la continuit dans lentreprise ;
la BS 25999-2 ( venir) donne des recommandations ncessaires ces rali-
sations et la prparation aux audits.
Les six points de la BS 25999-1
La norme britannique BS25999-1 prconise une dmarche en six points :
1. Comprendre lorganisation de lentreprise Il sagit tout autant de conna-
tre les risques auxquels lentreprise est expose que ses activits critiques.
Cela correspond assez bien aux chapitres 1 et 2 du prsent ouvrage.
2. Dterminer les options de continuit Cela consiste choisir, parmi les
diffrentes options possibles, ce que lentreprise fera en cas de sinistre et
lister les besoins en termes dquipements, de sites, de secours, de comp-
tences Cela correspond peu ou prou au chapitre 3 du prsent ouvrage.
3. Dvelopper et mettre en uvre une rponse Il sagit ici de dvelopper le
plan de continuit et dattribuer les rles et responsabilits. Cela correspond
aux chapitres 4 et 5 du prsent ouvrage.
4. Introduire la continuit dactivit dans la culture de lentreprise Ce
point consiste organiser des formations, sensibiliser les employs et
dcrire les aspects touchant la continuit au sein des postes de travail.
5. Tester, maintenir et auditer Il sagit ici de tout ce qui concerne les tests,
exercices, maintenances et audits, correspondant aux chapitres 6, 12, et 13
de cet ouvrage.
6. Piloter le programme de continuit dactivit On aborde ici la gestion de
lensemble des actions dcrites prcdemment et la responsabilit de la
continuit (voir les chapitres 11 et 13).
Les cinq premiers points se succdent, telles les phases dun projet. Le dernier
point doit tre une proccupation permanente de lquipe en charge de la conti-
nuit.
Travaux de lISO
Actuellement, lOrganisation internationale de normalisation (ISO International
Organization for Standardization) ne semble pas considrer la continuit dactivit
comme un thme part, mais plutt comme une proccupation commune
plusieurs thmes et clate sous diverses rubriques. On peut citer en particulier
les normes consacres la scurit de linformation de la famille ISO 27000 et
les guides de prparation aux sinistres.
241
Management de la continuit dactivit
Cette approche semble en effet poser problme au sein de lISO, car lors de cha-
que approfondissement des thmes de la continuit dactivit, des difficults de
rdaction surgissent.
La situation en France
Travaux de lAFNOR
LAFNOR a publi une norme BP Z74-700 dans la catgorie des bonnes prati-
ques. Celle-ci se consacre cependant essentiellement aux activits de reprise
aprs sinistre (correspondant aux chapitres 4 et 5 de cet ouvrage).
La norme AFNOR est tourne vers les problmes de perte dexploitation, de plan
de reprise dactivit (PRA) et aborde peu la matrise des risques.
242
Annexe 1 Normes et bonnes pratiques
Des organismes autres que ceux de normalisation ralisent eux aussi des docu-
ments de prconisations ou de bonnes pratiques. Certains dentre eux agissent
dans un primtre qui recoupe en partie la continuit dactivit. En voici quel-
ques-uns qui mritent lattention.
ITIL
LITIL est un ensemble de pratiques et de recommandations permettant de grer
la production informatique de services. Dans sa version 2, ce rfrentiel est
constitu de dix livres. Lun de ceux-ci, intitul Fourniture des services, comprend
cinq processus, dont un dnomm Gestion de la continuit de service.
La continuit du service est ainsi traite comme un thme parmi plusieurs dizai-
nes dautres. Lapparition de la version 3 de lITIL, encore plus ambitieuse et
plus riche, na fait que diluer encore la proccupation de continuit
dactivit . En ralit, la pratique de lITIL dans les socits qui le mettent en
application a gnralement fait peu de cas de ce processus en particulier.
En revanche, il est important de souligner quune bonne mise en uvre la faon
ITIL de la gestion des configurations, des changements, des incidents et des
problmes concourt assurment une continuit dactivit efficace.
Mehari
Le Clusif (Club de la scurit de linformation franais) a dvelopp ces derni-
res annes une approche originale dvaluation des risques lis la scurit de
linformation. Mehari fournit gratuitement (sous licence publique) un ensemble
structur de mthodes, doutils et des bases de connaissance pour :
243
Management de la continuit dactivit
244
Annexe 2
Sources
dinformation
Dans une dmarche de mise en place du plan de continuit, il est utile de dispo-
ser dinformations neutres, sres et jour.
Voici quelques organismes susceptibles den fournir.
Organismes francophones
AFNOR (Association franaise de normalisation) www.afnor.org
Club de la Continuit dActivit (CCA) www.clubpca.eu
Clusif (Club de la Scurit de lInformation Franais) www.clusif.asso.fr
Forum tripartite avec la Banque de France www.banque-france.fr
Haut Comit Franais pour la Dfense Civile (HCFDC) www.hcfdc.org
Institut National de lEnvironnement Industriel et des Risques INERIS)
www.ineris.fr
Institut dtudes et de Recherche pour la Scurit des Entreprises (IERSE)
www.ierse.fr
Institut National des Hautes tudes de Scurit www.inhes.interieur.gouv.fr
Ministre de lcologie www.ecologie.gouv.fr et www.vigicrues.ecologie.gouv.fr
Organismes anglophones
Business Continuity Planners Association (BCPA) www.bcpa.org
Disaster Recovery Institute International (DRII) www.drii.org
Business Continuity Institute (BCI) www.thebci.org
British Standard Institute (BSI) www.bsi-global.com
Business Continuity Management Information eXchange (BCMIX)
http://BCMIX.collectivex.com
Association of Insurance and Risk Managers www.airmic.com
United Nations Environment Programme (UNEP) www.unep.org
Incident.com www.incident.com
ISO (International Organization for Standardization) www.iso.org
245
Management de la continuit dactivit
246
Index
A armoires de rpartition 192
arrt 166
impact 167
acceptation du risque 24 planifi 166
actifs 12 ART (Annualized Rate of Threat) 15
inventaire 13 assurance 25
activation du plan 91, 110 attractivit dun site 204
activit 40, 56 audit 230
analyse dimpact sur les ~s Voir analyse autocommutateur 193
critiques 39, 42
auto-valuation 236
affectation des tches 130
aversion au risque 28
AFNOR 242
aide aux victimes 200
AIE (Annualized Impact Expectancy) 18 B
ALE (Annualized Loss Expectancy) 17
alerte 106 bandothques 57
alimentations lectriques 206 Banque de France 243
amlioration base de donnes
actions d~ 154 de secours 181
du plan de continuit 124 primaire 181
analyse BCI (Business Continuity Institute) 240
dimpact sur les activits 35, 80, 235
bnfices attendus 219
BIA 53
documentation 53 besoins (catgories) 56
de processus 40 BIA (Business Impact Analysis) Voir analyse
du risque par les entits 19 dimpact
analyse des risques Voir apprciation bilan
application daprs sinistre 129
bureautique 196 de limpact sur lactivit Voir BIA
critique 46 des tests 154
apprciation des risques 5 bogues 165
analyse des risques 5 bonnes pratiques 233
contrle 33 BS 25999 240
arbres de dfaillance 21 BSI 240
architecture BSI (British Standards Institute) 240
client-serveur 196 bureaux et locaux 56
granulaire 170 besoins 56
monolithique 170 difficults prvisibles 65
archivage (site d) 58 options de reprise 61
247
Management de la continuit dactivit
248
Index
D quipe
mtiers 93
PCA 89
dclaration escalade 107
dactivation du plan 91 estimation Voir valuation
de sinistre 108 tat des lieux 237
dduplication 187 valuation
dfaillance des dommages 91
arbres de ~ 21 des impacts 106
points uniques de ~ 22 des options face aux risques 23
taux de ~ 161 critres 72
dgt des eaux 210 du PCA 236
du sinistre 107
dlai moyen dactivation 65 estimation des impacts sur les
dlais 131 processus 41
demande de changements 230 estimation qualitative des impacts 14
quantitative des pertes 14
dmarche de test 227
vitement du risque 24
disponibilit 159, 160
serveurs 173 externalisation 25
documentation
analyse dimpact 53 F
analyse des risques 32
plan de test 151
domicile (travail ~) 125, 199 faux planchers 206
fiabilit 160, 206
dommages (valuation) 91
Fibre Channel 188
donnes
et enregistrements critiques 56 fiche de test 146, 152
besoins 57 fichiers (systme de ~) 180
difficults prvisibles 67 file system 180
options de reprise 63 filtrage de lair 57
non informatises 58 fonction (de lentreprise) 40
dossier dtude des risques 29 formation 101, 135, 222
DRII (DRI International) 240 Forum tripartite 243
droits daccs 200 forward recovery 181
dure dindisponibilit maximale fournisseur 59
tolrable Voir MTD fournitures lectriques 57
dysfonctionnements lectriques 212
G
E
gestion
EAT (Expected Availability Time) 65 de crise
critures sur disque 182 centre de ~ 84, 121
groupe de ~ 90
lectricit (panne d~) 8 des changements 225, 230
employs domicile 125 des risques 80
entits (analyse du risque par ~) 19 gouvernance 147, 215, 223
249
Management de la continuit dactivit
250
Index
251
Management de la continuit dactivit
252
Index
S darchivage 58
de secours
de bureaux 117
SAN 188 de production industrielle 119
sauvegarde 51, 57, 184 informatique 66, 114
cassettes de ~ 185 de test 149
distant 168, 169
complte 185
informatique 203
diffrentielle 185
primaire 168
frquence 68
secondaire 168
incrmentielle 185
vulnrabilit 204
point de ~ 36
rcupration 96 SLE (Single Loss Expectancy) 14
robots de ~ 186 snapshot 178
type 68 statistiques 159
scnario stock de secours 69
de pertes 14 stockage 177
de test 144 distant 68
secours rseau de ~ 188
base de ~ 181 stratgie de continuit 55, 80
centre de gestion de crise de ~ 86 rapport dtude 74
moyens de ~ 92 validation 74
plan de ~ 104 suivi des tests 146
premiers ~ 91
surveillance vido 206
procdures de ~ 53
site de ~ 66 systme
bureaux 117 de contrle 233
informatique 114 de fichiers 180
production industrielle 119 informatique
stock de ~ 69 critique 46
tide 181
scurit 206 T
daccs 206
sensibilisation 102, 136, 223
serveur 173 tches
tolrance de panne 173 affectation des ~ 130
bureautique 195 manuelles 53
disponibilit 173 tactique de test 144
SGBD 180 taux
SIE (Single Impact Expectancy) 15 de dfaillance 161
de rparation 161
simulation 137
tlcommunications 57
sinistre 77
bilan daprs ~ 129 tlphonie 191
chronologie 35 sur IP 194
communiqu dtat 109 temps
dclaration 108 de rcupration cible 37
notification 106 de rcupration du travail 37
rapport de ~ 108 testeurs (quipe) 152
site 205 tests 227, 235
attractivit 204 annonce 139
253
Management de la continuit dactivit
254
12346_ManagmentContinuite 18/06/08 11:38 Page 1
Management de la
Continuit dactivit E M M A N U E L B E S L U A U
EMMANUEL
BESLUAU
P r f a c e d e F r a n o i s T t e
A
lheure o le systme dinformation (SI) est au cur des pro-
cessus, une panne informatique de seulement trois jours suffit
paralyser durablement toute entreprise non prpare. Si la
prvention des risques et la scurit font lobjet de proccupations
croissantes, les responsables ngligent trop souvent de se prmunir
Lauteur
Management de la
contre les consquences dventuels dsastres. Or le management de
Ingnieur informatique diplm de Centrale et de
la continuit dactivit (MCA) offre des solutions efficaces pour PLAN DE CONTINUITE DACTIVITE PCA PLAN DE REPRISE PRA CONTINUITE DE SERVICE PLAN DE CONTI-
lUniversit de Berkeley, Emmanuel Besluau a renforcer la rsistance de lentreprise et du SI face aux crises de toute NUITE DACTIVITE PCA PLAN DE REPRISE PRA CONTINUITE DE SERVICE PLAN DE CONTINUITE DACTIVITE
nature (inondation, incendie, pannes, malveillance).
Continuit
occup de nombreux postes responsabilits dans PCA PLAN DE REPRISE PRA CONTINUITE DE SERVICE PLAN DE CONTINUITE DACTIVITE PCA PLAN DE
de grands groupes de diffrents secteurs, notam-
ment bancaire et de services (IBM, Sligos-Carte Proposant une dmarche la fois organisationnelle et technique, REPRISE PRA CONTINUITE DE SERVICE PLAN DE CONTINUITE DACTIVITE PCA PLAN DE REPRISE PRA
Bancaire, Atos-Infogrance). Aujourdhui consul- ce guide complet et document dcrit pas pas la mise en uvre CONTINUITE DE SERVICE PLAN DE CONTINUITE DACTIVITE PCA PLAN DE REPRISE PRA CONTINUITE DE
tant associ au Duquesne Group, il crit priodi- concrte dun plan de continuit dactivit (PCA) solide et opra- SERVICE PLAN DE CONTINUITE DACTIVITE PCA PLAN DE REPRISE PRA CONTINUITE DE SERVICE PLAN DE
quement dans la presse informatique et intervient
tionnel. Il sappuie sur des tudes de cas rels issues de la longue CONTINUITE DACTIVITE PCA PLAN DE REPRISE PRA CONTINUITE DE SERVICE PLAN DE CONTINUITE DAC-
en tant quexpert reconnu auprs de DSI sur des
sujets comme la continuit de service, les exprience de lauteur pour fournir une mthodologie efficace et TIVITE PCA PLAN DE REPRISE PRA CONTINUITE DE SERVICE PLAN DE CONTINUITE DACTIVITE PCA
architectures techniques des centres informa- une revue des solutions possibles (plan de reprise, sites de secours, PLAN DE REPRISE PRA CONTINUITE DE SERVICE PLAN DE CONTINUITE DACTIVITE PCA PLAN DE REPRISE
d activit
tiques, les bonnes pratiques de production de
Continuit d activit
continuit de service, outils de sauvegarde, architectures du SI, tests et PRA CONTINUITE DE SERVICE PLAN DE CONTINUITE DACTIVITE PCA PLAN DE REPRISE PRA CONTINUITE
service (ITIL, scurit, etc.). Il est membre actif du audits, etc.) enrichies de recommandations pratiques et de documents
Club de la Continuit dActivit. DE SERVICE PLAN DE CONTINUITE DACTIVITE PCA PLAN DE REPRISE PRA CONTINUITE DE SERVICE PLAN
types, sans oublier daborder les principes de gouvernance et la
DE CONTINUITE DACTIVITE PCA PLAN DE REPRISE PRA CONTINUITE DE SERVICE PLAN DE CONTINUITE
Franois Tte est Prsident du Club normalisation en cours.
DACTIVITE PCA PLAN DE REPRISE PRA CONTINUITE DE SERVICE PLAN DE CONTINUITE DACTIVITE PCA
de la Continuit dActivit (CCA).
PLAN DE REPRISE PRA CONTINUITE DE SERVICE PLAN DE CONTINUITE DACTIVITE PCA PLAN DE REPRISE
www.clubpca.eu
Au sommaire PRA CONTINUITE DE SERVICE PLAN DE CONTINUITE DACTIVITE PCA PLAN DE REPRISE PRA CONTINUITE
Matrise du risque. Apprciation des menaces. Analyse dim- DE SERVICE PLAN DE CONTINUITE DACTIVITE PCA PLAN DE REPRISE PRA CONTINUITE DE SERVICE PLAN
pact (BIA). Activits critiques. Paramtres de reprise (RPO, RTO,
MTD et WRT). Stratgie de continuit. Plan de continuit DE CONTINUITE DACTIVITE PCA PLAN DE REPRISE PRA CONTINUITE DE SERVICE PLAN DE CONTINUITE
dactivit (PCA). Disaster Recovery Plan (DRP). Plan de reprise
(PRA). Missions et groupes dintervention. Centre de gestion de
crise. Planning. Plan de communication. Campagnes de tests.
Implmentation ISO 27001
Fiches de tests. Ingnierie de la continuit. Disponibilit.
Fiabilit et rparabilit. Redondance. Modles de cluster n+1.
Snapshot et copie miroir. Serveurs tolrance de panne.
qui sadresse ce livre ? Virtualisation. Stockage NAS et SAN. Contrleurs, cache et
routage dE/S. Protection continue des donnes (CDP).
Aux responsables risque ou continui- Sauvegarde et restauration. Robots et bandothques. Rseau GESTION DU RISQUE - ANALYSE DES IMPACTS
t (RSSI, RPCA) et leurs quipes backbone et LAN. Centre informatique (site, infrastructure,
risques et parades). Tlcommunications. Poste de travail (PC). STRATEGIE DE CONTINUITE - PLAN DE CONTINUITE D'ACTIVITE (PCA)
Aux chefs de projet chargs de Travail domicile. Gouvernance de la continuit. Politique de
MISE EN UVRE ORGANISATIONNELLE ET INFORMATIQUE
mettre en place un PCA continuit. Comit de pilotage. Projet du PCA. Maintenance.
Gestion des changements. valuation, tests et audits. Systme ,
Aux DG et chefs dentreprise
souhaitant aborder le MCA
de contrle. Formation et sensibilisation. Normes et bonnes
pratiques. Tiers du Uptime Institute. TIA 942. BS 25999.
Assurer la prennit de l entreprise:
TESTS ET MAINTENANCE - INGENIERIE DE LA CONTINUITE
GOUVERNANCE - SENSIBILISATION - NORMALISATION
ISO 27002, ISO 27031 et ISO/PAS 22399. AFNOR BP Z74-700.
tous les responsables mtier
proccups par la continuit de
Business Continuity Institute (BCI). DRII. Club de la Continuit
dActivit (CCA). Joint Forum. ITIL. Mehari. NFPA 1600.
planification, choix techniques
leur activit
Aux DSI et responsables techniques
ayant faire des choix de systmes
et mise en uvre
Aux auditeurs dans le domaine
des technologies de linformation
Aux professionnels de la scurit Gratuit !
ou dITIL dsirant approfondir le 60 modles de livrables
volet continuit
prts lemploi
un outil de cration
de business plan