3. 3
Et si cela vous arrivait ?
Que faut-il faire en premier ? Et ensuite ?
Qui prévenir ? Comment ? Qui le fait ? Qui décide ?
Quelles sont les activités client à privilégier ?
Est-ce vrai que nos clusters servers ont fonctionné ?
Où travaillent les ingénieurs système ?
Où arrivent les appels clients ? le service desk ?
Comment faire la paie demain ?
Et la situation de la trésorerie ? Le stock ?
Où met-on les livraisons de demain ?
Où iront nos employés demain ? Et après ?
4. 4
Et si cela vous arrivait ?
Que faut-il faire en premier ? Et ensuite ?
Qui prévenir ? Comment ? Qui le fait ? Qui décide ?
Quelles sont les activités client à privilégier ?
Est-ce vrai que nos clusters servers ont fonctionné ?
Où travaillent les ingénieurs système ?
Où arrivent les appels clients ? le service desk ?
Comment faire la paie demain ?
Et la situation de la trésorerie ? Le stock ?
Où met-on les livraisons de demain ?
Où iront nos employés demain ? Et après ?
Ils auraient pu prévoir !
Et se préparer un
minimum !
6. 6
Cinq questions
1. Qu’est-ce qui peut nous interrompre ?
2. Quelles activités doivent redémarrer vite ?
3. Sachant cela, que faut-il préparer ?
4. En cas de sinistre : comment décider ?
5. Comment savoir si cela marche vraiment ?
7. 7
1 - Qu’est-ce qui peut nous
interrompre ?
« Appréciation des risques d’interruption»
8. 8
Aléas types à étudier sur site : exemples
Type industriel : accident industriel, de centrale, Seveso, fuite de gazoduc,
chute d’aéronef, pollutions, …
Type naturel : inondation, séisme, foudre, tempêtes, neige, pluies
diluviennes, glissements de terrain, affaissements miniers, carrières…
Type voisinage : hostilité, attentat ciblé ou non, forcené, coupure proche
des fournitures électrique, réseau, télécom, Internet, …
Type humain : grève, mouvement social interne ou pas, pandémie,
manques de compétences, délégations non faites, …
Type technique sur site : coupures diverses (électrique, réseau,
climatisation), fuite d’eau, de gaz, incendie, …
Type cyberdélinquance : déni de service, corruption de données, attaques
virales ou malware pouvant se répandre,
9. 9
Matrice de gravité : exemple
Des risques sont appréciés selon deux axes
Vraisemblance (de 1 : faible à 4 : forte)
Conséquence ou Impact (de 1 : faible à 4 : forte)
Selon les valeurs (I,V) la gravité - et donc le traitement du risque- diffèrent
Les couleurs indiquent le choix de traitement
Après réduction, la gravité est réduite ou acceptée
Appétence variable
Impact
Vraisemblance
1 2 3 4
4
3
2
1
À réduire immédiatement
À réduire à court/moyen terme
Acceptable
À surveiller
10. 10
Des aspects à risque en exploitation IT
La surveillance de la production informatique : bonnes remontés d’alertes,
escalades compétences, responsabilités attribuées, réactivité, séparation
des environnements, …
Les sauvegardes et restaurations : fréquence, réalité testée, points
propres de reprise, sortie des données hors risque, …
Les systèmes d’échange avec l’extérieur: comment sont-ils capables de
savoir où en sont les échanges lors d’un arrêt, facilité de reprise, confiance,
obligation de recevoir, …
La résilience : les serveurs, stockage et réseau des applications critiques
sont-ils redondés, pannes de mode communs, emplacements, secours,
synchronisations et redémarrages prévus…chauds, tièdes et froids
Les accès utilisateur sous sinistre : permettent-ils aisément un accès hors
bureau, sécurisé et sur des données récentes, peut-on encore les router
ailleurs …
11. 11
Identification du risque : les sources
Exemple de risques pris sur ‘risques.gouv.fr’ :
Inondation
Mouvement de terrain
Risque industriel
Rupture de barrage
Séisme Zone de sismicité: 1/9
Transport de matières dangereuses
de nombreuses sources gratuites existent
les Dossiers Régionaux des Risques Majeurs, les DECRIM, les arrêtés
de catastrophes naturelles, les Plans de Prévention, vigicrue, etc.
12. 12
Connaître les scénarios d’interruption
Quelles sont les « trois principales situations à craindre ? »
Savoir répondre à cette question
Ne pas se préparer pour ce qui ne risque pas d’arriver …
Apprendre à ne pas être surpris
Appliquer des bonnes pratiques
Production IT, industrielle
Surveillance et réaction proche de l’événement
« Ne pas mettre ses œufs dans le même panier »
13. 13
2 - Quelles activités doivent
redémarrer vite ?
« Business Impact Analysis »
15. 15
Distinguer rapidement les activités
Une partie des activités est évidemment critique
Une autre partie est évidemment non critique
Une zone grise entre les deux
Le mot « critique » est souvent inadapté car…
on recherche des activités prioritaires
et tout dépend de la durée de l’arrêt …
et des modes dégradés sont acceptables
Se confronter à la réalité
Éviter les modèles complexes
18. 18
Connaître les activités prioritaires
Avec les délais de démarrage classés
Attention à la « lettre au Père Noël »
Dates butoirs : attention danger !
Selon scénario vraisemblable
Qui peut effectivement se produire
Penser mode dégradé
« niveau de service acceptable »
Savoir arrêter éventuellement
Le non prioritaire
Tout : en cas de gros sinistre
19. 19
3 - Sachant cela, que faut-il préparer ?
« Stratégie de Continuité »
20. 20
De la panne aux sinistres
fréquent
court
long
rare
Au-delà
R<250km
R<100km
R<30km
site
bâtiment
salle
machine
21. 21
De la panne au sinistre
fréquent
court
long
rare
Au-delà
R<250km
R<100km
R<30km
site
bâtiment
salle
machine
Supprimés
Acceptés
23. 23
Ce que l’on peut préparer …
Une réduction des risques
Protection des moyens
Moyens de secours plus ou moins réactifs
Une réduction des conséquences
Mise à l’abri du sinistre
Actions avant sinistre
Des plans de redémarrage adaptés
Organisés et raisonnablement documentés
Chaud / Tiède / Froid
Réduire la durée d’arrêt
Arbitrage prévention / réaction
Doser en fonction des scénarios d’interruption
Aspects financiers importants
24. 24
4 - En cas de sinistre : comment
décider ?
« Cellule de crise & Plans de Reprise »
25. 25
En cas de sinistre
La remontée de l’incident peut être problématique
« on ne se rend pas compte tout de suite »
Les mécanismes de secours peuvent masquer la cause
Les escalades hiérarchiques sont difficiles
Humainement, on peut être « sidéré » par l’ampleur du désastre
Incapacité à réagir
Les mécanismes habituels de prise de décision ne fonctionnent plus
CRISE
26. 26
Groupes de crise : exemples
Cellule de crise décisionnelle
-Direction G
-Directions Métiers
-Directions moyens (DSI,
logistique, usine…)
-COM / DRH / légal
-RPCA / RSSI
-Responsables métiers
-Compétences clés métiers
-Contacts clients
-Contacts fournisseurs
-Opérationnels logistique
-Opérationnels en secours
(bureaux, IT, PC, …)
-Compétences clés moyens
Décide in fine
Représente la société
Arbitrages
Pilote le retour des métiers
Gère la relation client
Nominal ou dégradé Actions de protection
Actions de reprise
Groupe(s)
Moyens
Groupe
Business
27. 27
Il convient donc…
De savoir à minima qui constituera ces groupes
Noms de responsables et de deux back-up
Savoir « qui sera responsable de quoi ? » plutôt que ce qu’il y a à faire
Activable et joignable même sous sinistre
D’avoir des check-lists de « choses à faire » pour ces groupes
Pense bête sous stress
Avec des éléments utiles dans tous les cas
28. 28
Attention à porter…
Les procédures trop précises et documentées sont très vite fausses
Inapplicables ou dangereuses
Décrédibilisent la démarche, sont abandonnées
Personne ne sait où elles sont …
Privilégier ce qui est à faire à court terme
Check-list, fiches réflexes
Faire intervenir des sachants opérationnels
On récupère des moyens ou on relance un service ?
30. 30
Tests : viser l’efficacité
Tout exercice ou test doit avoir des objectifs
Il faut s’en souvenir et s’y tenir !
La situation envisagée doit être réaliste et correspondre à un scénario de
sinistre ou panne
Pas d’effet d’aubaine
Éventuellement faire des tests progressifs
Les bons tests sont ceux qui …
répondent aux objectifs fixés
détectent des anomalies
dans une situation vraisemblable
Un test doit « produire des résultats »
Ne pas prendre de risque dans les tests ou exercices !
31. 31
Exemple de campagne de tests
Tout exercice ou test doit avoir des objectifs
Il faut s’en souvenir et s’y tenir !
La situation envisagée doit être réaliste et correspondre à un scénario de
sinistre ou panne
Pas d’effet d’aubaine
Éventuellement faire des tests progressifs
Les bons tests sont ceux qui …
répondent aux objectifs fixés
détectent des anomalies
dans une situation vraisemblable
Un test doit « produire des résultats »
Ne pas prendre de risque dans les tests ou exercices !
32. 32
Exemple de campagne de tests
Objectifs Méthode Dispositif Fréquence Impact
actualité des listes
du Plan
test check-list sur
PCA
équipe RPCA trimestrielle nul à faible
vérifier que le CdC
est opérationnel
simulation des 3
premières étapes
du PRA
équipe RPCA +
groupe GdC
2 par an puis
annuelle
faible
viabilité du PCA
site 1
walk-through du
PRA sur site 1
équipe RPCA +
équipe site 1
annuelle moyen
viabilité du PCA
site 2
walk-through du
PRA sur site 2
équipe RPCA +
équipe site 2
annuelle moyen
viabilité du PCA
site 3
walk-through du
PRA sur site 3
équipe RPCA +
équipe site 3
annuelle moyen
améliorer la
communication
walk-through sur
Plan de Com.
équipe RPCA + Dir
Com
2 par an puis
annuelle
faible
33. 33
Test probant : cinq conditions
Le test doit être représentatif de la réalité
L’exercice de test doit être reproductible (après corrections)
L’exercice doit être suivi par des observateurs externes
Les anomalies doivent être reconnues, diagnostiquées et objet d’un plan
d’actions
Les paramètres de PRA (RPO, RTO, MTPD) doivent être validés ou
changés
Source : Club de la Continuité d’Activité
34. 34
Conclusion
Développer une connaissance pratique par les responsables des risques
d’interruption et les réduire raisonnablement
Avoir une vision sur les « vrais » priorités dans l’entreprise et « penser
mode dégradé »
Développer des réponses aussi simples que possible (mais pas trop)
Se tenir prêt à décider sous sinistre
Faire des tests « pédagogiques » et réalistes
Se tenir prêt à « faire face »