Vers des PCA raisonnables et crédibles

Vers des PCA
raisonnables et crédibles
Emmanuel BESLUAU
Associé fondateur, The Duquesne Group

3
Et si cela vous arrivait ?
Que faut-il faire en premier ? Et ensuite ?
Qui prévenir ? Comment ? Qui le fait ? Qui décide ?
Quelles sont les activités client à privilégier ?
Est-ce vrai que nos clusters servers ont fonctionné ?
Où travaillent les ingénieurs système ?
Où arrivent les appels clients ? le service desk ?
Comment faire la paie demain ?
Et la situation de la trésorerie ? Le stock ?
Où met-on les livraisons de demain ?
Où iront nos employés demain ? Et après ?

4
Et si cela vous arrivait ?
Que faut-il faire en premier ? Et ensuite ?
Qui prévenir ? Comment ? Qui le fait ? Qui décide ?
Quelles sont les activités client à privilégier ?
Est-ce vrai que nos clusters servers ont fonctionné ?
Où travaillent les ingénieurs système ?
Où arrivent les appels clients ? le service desk ?
Comment faire la paie demain ?
Et la situation de la trésorerie ? Le stock ?
Où met-on les livraisons de demain ?
Où iront nos employés demain ? Et après ?
Ils auraient pu prévoir !
Et se préparer un
minimum !

5
Cinq questions à se poser …

6
Cinq questions
1. Qu’est-ce qui peut nous interrompre ?
2. Quelles activités doivent redémarrer vite ?
3. Sachant cela, que faut-il préparer ?
4. En cas de sinistre : comment décider ?
5. Comment savoir si cela marche vraiment ?

7
1 - Qu’est-ce qui peut nous
interrompre ?
« Appréciation des risques d’interruption»

8
Aléas types à étudier sur site : exemples
 Type industriel : accident industriel, de centrale, Seveso, fuite de gazoduc,
chute d’aéronef, pollutions, …
 Type naturel : inondation, séisme, foudre, tempêtes, neige, pluies
diluviennes, glissements de terrain, affaissements miniers, carrières…
 Type voisinage : hostilité, attentat ciblé ou non, forcené, coupure proche
des fournitures électrique, réseau, télécom, Internet, …
 Type humain : grève, mouvement social interne ou pas, pandémie,
manques de compétences, délégations non faites, …
 Type technique sur site : coupures diverses (électrique, réseau,
climatisation), fuite d’eau, de gaz, incendie, …
 Type cyberdélinquance : déni de service, corruption de données, attaques
virales ou malware pouvant se répandre,

9
Matrice de gravité : exemple
 Des risques sont appréciés selon deux axes
 Vraisemblance (de 1 : faible à 4 : forte)
 Conséquence ou Impact (de 1 : faible à 4 : forte)
 Selon les valeurs (I,V) la gravité - et donc le traitement du risque- diffèrent
 Les couleurs indiquent le choix de traitement
 Après réduction, la gravité est réduite ou acceptée
 Appétence variable
Impact
Vraisemblance
1 2 3 4
4
3
2
1
À réduire immédiatement
À réduire à court/moyen terme
Acceptable
À surveiller

10
Des aspects à risque en exploitation IT
 La surveillance de la production informatique : bonnes remontés d’alertes,
escalades compétences, responsabilités attribuées, réactivité, séparation
des environnements, …
 Les sauvegardes et restaurations : fréquence, réalité testée, points
propres de reprise, sortie des données hors risque, …
 Les systèmes d’échange avec l’extérieur: comment sont-ils capables de
savoir où en sont les échanges lors d’un arrêt, facilité de reprise, confiance,
obligation de recevoir, …
 La résilience : les serveurs, stockage et réseau des applications critiques
sont-ils redondés, pannes de mode communs, emplacements, secours,
synchronisations et redémarrages prévus…chauds, tièdes et froids
 Les accès utilisateur sous sinistre : permettent-ils aisément un accès hors
bureau, sécurisé et sur des données récentes, peut-on encore les router
ailleurs …

11
Identification du risque : les sources
Exemple de risques pris sur ‘risques.gouv.fr’ :
 Inondation
 Mouvement de terrain
 Risque industriel
 Rupture de barrage
 Séisme Zone de sismicité: 1/9
 Transport de matières dangereuses
 de nombreuses sources gratuites existent
 les Dossiers Régionaux des Risques Majeurs, les DECRIM, les arrêtés
de catastrophes naturelles, les Plans de Prévention, vigicrue, etc.

12
Connaître les scénarios d’interruption
 Quelles sont les « trois principales situations à craindre ? »
 Savoir répondre à cette question
 Ne pas se préparer pour ce qui ne risque pas d’arriver …
 Apprendre à ne pas être surpris
 Appliquer des bonnes pratiques
 Production IT, industrielle
 Surveillance et réaction proche de l’événement
 « Ne pas mettre ses œufs dans le même panier »

13
2 - Quelles activités doivent
redémarrer vite ?
« Business Impact Analysis »

14
BIA
Mise en ordre de priorité des activités

15
Distinguer rapidement les activités
 Une partie des activités est évidemment critique
 Une autre partie est évidemment non critique
 Une zone grise entre les deux
 Le mot « critique » est souvent inadapté car…
 on recherche des activités prioritaires
 et tout dépend de la durée de l’arrêt …
 et des modes dégradés sont acceptables
 Se confronter à la réalité
 Éviter les modèles complexes

16
Impact raisonné et estimé
Entité : Impact évalué
Processus Durée
d'arrêt
Financier Image Contrat Règlement DMIA
Gérer la relation client
< 1 h 1 1 1 1
1 j
> 1h & < 4h 2 2 2 2
> 4h & <1 j 3 3 2 2
au-delà 3 3 3 3
Réclamation client 1212
< 0,5 h 2 2 2 3
1 h
> 0,5h & <
1h 2 3 3 3
au-delà 3 3 3 3
Gérer le recouvrement client
< 2 j 1 1 1 1
5 j
> 2j & < 3j 2 1 1 2
> 3j & < 5j 3 1 2 2
au-delà 3 2 3 3
Rétablissement client sous 24 heures
< 2 h 1 1 1 1
1 j> 2h & < 4h 2 2 2 2
> 4h & <1 j 2 3 3 3
Gérer les ventes en ligne
< 3 j 2 2 2 2
4 j
> 3 j & < 4j 3 3 3 3

17
Évolution de la « douleur »
0
2
4
6
8
10
12
14
0,5 j 1 j 2 j 3 j 4 j 5 j plus
Actifsfin. 5
Actifsfin. 1
Actifsfin. 2
activité
activité
activité
seuil critique

18
Connaître les activités prioritaires
 Avec les délais de démarrage classés
 Attention à la « lettre au Père Noël »
 Dates butoirs : attention danger !
 Selon scénario vraisemblable
 Qui peut effectivement se produire
 Penser mode dégradé
 « niveau de service acceptable »
 Savoir arrêter éventuellement
 Le non prioritaire
 Tout : en cas de gros sinistre

19
3 - Sachant cela, que faut-il préparer ?
« Stratégie de Continuité »

20
De la panne aux sinistres
fréquent
court
long
rare
Au-delà
R<250km
R<100km
R<30km
site
bâtiment
salle
machine

21
De la panne au sinistre
fréquent
court
long
rare
Au-delà
R<250km
R<100km
R<30km
site
bâtiment
salle
machine
Supprimés
Acceptés

22
La réponse varie
fréquent
court
long
rare
Au-delà
R<250km
R<100km
R<30km
site
bâtiment
salle
machine

23
Ce que l’on peut préparer …
 Une réduction des risques
 Protection des moyens
 Moyens de secours plus ou moins réactifs
 Une réduction des conséquences
 Mise à l’abri du sinistre
 Actions avant sinistre
 Des plans de redémarrage adaptés
 Organisés et raisonnablement documentés
 Chaud / Tiède / Froid
 Réduire la durée d’arrêt
 Arbitrage prévention / réaction
 Doser en fonction des scénarios d’interruption
 Aspects financiers importants

24
4 - En cas de sinistre : comment
décider ?
« Cellule de crise & Plans de Reprise »

25
En cas de sinistre
 La remontée de l’incident peut être problématique
 « on ne se rend pas compte tout de suite »
 Les mécanismes de secours peuvent masquer la cause
 Les escalades hiérarchiques sont difficiles
 Humainement, on peut être « sidéré » par l’ampleur du désastre
 Incapacité à réagir
 Les mécanismes habituels de prise de décision ne fonctionnent plus 
CRISE

26
Groupes de crise : exemples
Cellule de crise décisionnelle
-Direction G
-Directions Métiers
-Directions moyens (DSI,
logistique, usine…)
-COM / DRH / légal
-RPCA / RSSI
-Responsables métiers
-Compétences clés métiers
-Contacts clients
-Contacts fournisseurs
-Opérationnels logistique
-Opérationnels en secours
(bureaux, IT, PC, …)
-Compétences clés moyens
Décide in fine
Représente la société
Arbitrages
Pilote le retour des métiers
Gère la relation client
Nominal ou dégradé Actions de protection
Actions de reprise
Groupe(s)
Moyens
Groupe
Business

27
Il convient donc…
 De savoir à minima qui constituera ces groupes
 Noms de responsables et de deux back-up
 Savoir « qui sera responsable de quoi ? » plutôt que ce qu’il y a à faire
 Activable et joignable même sous sinistre
 D’avoir des check-lists de « choses à faire » pour ces groupes
 Pense bête sous stress
 Avec des éléments utiles dans tous les cas

28
Attention à porter…
 Les procédures trop précises et documentées sont très vite fausses
 Inapplicables ou dangereuses
 Décrédibilisent la démarche, sont abandonnées
 Personne ne sait où elles sont …
 Privilégier ce qui est à faire à court terme
 Check-list, fiches réflexes
 Faire intervenir des sachants opérationnels
 On récupère des moyens ou on relance un service ?

29
5 - Comment savoir si cela marche
vraiment ?
« Tests & Exercices »

30
Tests : viser l’efficacité
 Tout exercice ou test doit avoir des objectifs
 Il faut s’en souvenir et s’y tenir !
 La situation envisagée doit être réaliste et correspondre à un scénario de
sinistre ou panne
 Pas d’effet d’aubaine
 Éventuellement faire des tests progressifs
 Les bons tests sont ceux qui …
 répondent aux objectifs fixés
 détectent des anomalies
 dans une situation vraisemblable
 Un test doit « produire des résultats »
Ne pas prendre de risque dans les tests ou exercices !

31
Exemple de campagne de tests
 Tout exercice ou test doit avoir des objectifs
 Il faut s’en souvenir et s’y tenir !
 La situation envisagée doit être réaliste et correspondre à un scénario de
sinistre ou panne
 Pas d’effet d’aubaine
 Éventuellement faire des tests progressifs
 Les bons tests sont ceux qui …
 répondent aux objectifs fixés
 détectent des anomalies
 dans une situation vraisemblable
 Un test doit « produire des résultats »
Ne pas prendre de risque dans les tests ou exercices !

32
Exemple de campagne de tests
Objectifs Méthode Dispositif Fréquence Impact
actualité des listes
du Plan
test check-list sur
PCA
équipe RPCA trimestrielle nul à faible
vérifier que le CdC
est opérationnel
simulation des 3
premières étapes
du PRA
équipe RPCA +
groupe GdC
2 par an puis
annuelle
faible
viabilité du PCA
site 1
walk-through du
PRA sur site 1
équipe RPCA +
équipe site 1
annuelle moyen
viabilité du PCA
site 2
walk-through du
PRA sur site 2
équipe RPCA +
équipe site 2
annuelle moyen
viabilité du PCA
site 3
walk-through du
PRA sur site 3
équipe RPCA +
équipe site 3
annuelle moyen
améliorer la
communication
walk-through sur
Plan de Com.
équipe RPCA + Dir
Com
2 par an puis
annuelle
faible

33
Test probant : cinq conditions
 Le test doit être représentatif de la réalité
 L’exercice de test doit être reproductible (après corrections)
 L’exercice doit être suivi par des observateurs externes
 Les anomalies doivent être reconnues, diagnostiquées et objet d’un plan
d’actions
 Les paramètres de PRA (RPO, RTO, MTPD) doivent être validés ou
changés
Source : Club de la Continuité d’Activité

34
Conclusion
 Développer une connaissance pratique par les responsables des risques
d’interruption et les réduire raisonnablement
 Avoir une vision sur les « vrais » priorités dans l’entreprise et « penser
mode dégradé »
 Développer des réponses aussi simples que possible (mais pas trop)
 Se tenir prêt à décider sous sinistre
 Faire des tests « pédagogiques » et réalistes
 Se tenir prêt à « faire face »

Vers des PCA raisonnables et crédibles

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à Vers des PCA raisonnables et crédibles

Similaire à Vers des PCA raisonnables et crédibles (20)

Plus de PECB

Plus de PECB (20)

Dernier

Dernier (20)

Vers des PCA raisonnables et crédibles