Reprise sur incident


     RMLL 2011
Qui suis-je ?



»   Jean-Marc Fontaine
»   Consultant pour Alter Way Consulting
»   Président de l'AFUP
»   Formateur / Professeur vacataire à l'université de Saint Quentin
»   Co-auteur du livre blanc « Industrialisation PHP »
»   Auteur du blog Industrialisation-PHP.com
Cela va arriver !
Diminuer la gravité



»   Durée d'indisponibilité
»   Perte de données
»   Rupture de la confidentialité




22/07/11                    ALTER WAY - Reprise sur incident
Minimiser l'impact



»    En terme d'image
»    Financier




22/07/11                ALTER WAY - Reprise sur incident
Se préparer

22/07/11
Avoir un plan



»    Se préparer pour être efficace le jour J
»    Equipe spécialisée
»    Implication des fournisseurs




22/07/11                     ALTER WAY - Reprise sur incident
Mesures de mitigation



»    Machines virtuelles configurées
»    Réplication de la base de données
»    Désactivation de certaines fonctionnalités
»    Version statique




22/07/11                     ALTER WAY - Reprise sur incident
Sauvegardes



»    Sauvegarder tout
»    Sauvegarder régulièrement
»    Garder un historique intelligent




22/07/11                     ALTER WAY - Reprise sur incident
Journalisation (1/2)



»   Système
»   Application
»   Déploiements
»   Opérations de maintenance




22/07/11                  ALTER WAY - Reprise sur incident
Journalisation (2/2)



»   Privilégier les formats plats
      –    Manipulation aisée
      –    Signature
      –    Compressibles
      –    Gestion des droits aisées
      –    Rotation




22/07/11                           ALTER WAY - Reprise sur incident
Communiquer en interne



»    Certains pics de fréquentations sont anticipables :
       –   Période de l'année
       –   Publicité
       –   Promotion
       –   Communication dans les médias




22/07/11                         ALTER WAY - Reprise sur incident
Déploiement automatisé



»    Rapide
»    Pas sujet à la pression
»    Outils :
       – Ant
       – Capistrano
       – Phing




22/07/11                       ALTER WAY - Reprise sur incident
Tester les procédures



»    Régulièrement
»    Avec précaution




22/07/11               ALTER WAY - Reprise sur incident
Détecter

22/07/11
Supervision



»    Ressources
       – Nagios
       – Centreon
       – Zabbix
»    Journaux
»    Application
»    Disponibilité
       – Pingdom
       – NetVigie




22/07/11             ALTER WAY - Reprise sur incident
Facilitez le contact



»    Personne / service à contacter identifiés
»    Moyens de contact disponibles facilement
»    Réactivité aux contacts entrants




22/07/11                    ALTER WAY - Reprise sur incident
Communiquer

22/07/11
Communication



»    Isoler l'équipe d'intervention
»    Escalader en interne si nécessaire
»    Communication externe :
       – Régulière
       – Aussi transparente que possible
       – Page d'état




22/07/11                         ALTER WAY - Reprise sur incident
Analyser

22/07/11
Identification de la cause



»    Interne
       –   Panne matérielle
       –   Instabilité logicielle
       –   Bogue applicatif
       –   Erreur humaine
»    Externe
       – Attaque
       – Panne matérielle
       – Pic de fréquentation




22/07/11                            ALTER WAY - Reprise sur incident
Portée



»    Quels sont les éléments touchés ?
»    Le service est-il réduit ou coupé ?




22/07/11                      ALTER WAY - Reprise sur incident
Impact



»    Problème de sécurité ?
»    Perte de données ?
»    Atteinte à l'image ?




22/07/11                      ALTER WAY - Reprise sur incident
Corriger

22/07/11
Correction



»    Activer les mesures de mitigation si nécessaire
»    Appliquer les mesures correctives
»    Déployer l'application si nécessaire
»    En dernier recours tout couper




22/07/11                     ALTER WAY - Reprise sur incident
Apprendre

22/07/11
Capitaliser



»    Méthode des 5 pourquoi
»    Intégrer le résultat aux procédures de test




22/07/11                     ALTER WAY - Reprise sur incident
Récapitulatif



»    Se préparer
»    Communiquer
»    Analyser
»    Corriger
»    Apprendre




22/07/11           ALTER WAY - Reprise sur incident
Merci !



»    Email : jm@jmfontaine.net
»    Twitter : jmfontaine
»    Blog : www.jmfontaine.net
»    Autre blog : www.industrialisation-php.net




22/07/11                    ALTER WAY - Reprise sur incident
Crédits photos



»    http://www.flickr.com/photos/r000pert/136999467/
»    http://www.flickr.com/photos/illetirres/2214018398/
»    http://www.flickr.com/photos/larimdame/2575986601/
»    http://www.flickr.com/photos/techne/107093245/
»    http://www.flickr.com/photos/p-doodle/466500483/
»    http://www.flickr.com/photos/dennissylvesterhurd/141183312/




22/07/11                   ALTER WAY - Reprise sur incident

Reprise sur incident - RMLL 2011

  • 1.
  • 2.
    Qui suis-je ? » Jean-Marc Fontaine » Consultant pour Alter Way Consulting » Président de l'AFUP » Formateur / Professeur vacataire à l'université de Saint Quentin » Co-auteur du livre blanc « Industrialisation PHP » » Auteur du blog Industrialisation-PHP.com
  • 3.
  • 4.
    Diminuer la gravité » Durée d'indisponibilité » Perte de données » Rupture de la confidentialité 22/07/11 ALTER WAY - Reprise sur incident
  • 5.
    Minimiser l'impact » En terme d'image » Financier 22/07/11 ALTER WAY - Reprise sur incident
  • 6.
  • 7.
    Avoir un plan » Se préparer pour être efficace le jour J » Equipe spécialisée » Implication des fournisseurs 22/07/11 ALTER WAY - Reprise sur incident
  • 8.
    Mesures de mitigation » Machines virtuelles configurées » Réplication de la base de données » Désactivation de certaines fonctionnalités » Version statique 22/07/11 ALTER WAY - Reprise sur incident
  • 9.
    Sauvegardes » Sauvegarder tout » Sauvegarder régulièrement » Garder un historique intelligent 22/07/11 ALTER WAY - Reprise sur incident
  • 10.
    Journalisation (1/2) » Système » Application » Déploiements » Opérations de maintenance 22/07/11 ALTER WAY - Reprise sur incident
  • 11.
    Journalisation (2/2) » Privilégier les formats plats – Manipulation aisée – Signature – Compressibles – Gestion des droits aisées – Rotation 22/07/11 ALTER WAY - Reprise sur incident
  • 12.
    Communiquer en interne » Certains pics de fréquentations sont anticipables : – Période de l'année – Publicité – Promotion – Communication dans les médias 22/07/11 ALTER WAY - Reprise sur incident
  • 13.
    Déploiement automatisé » Rapide » Pas sujet à la pression » Outils : – Ant – Capistrano – Phing 22/07/11 ALTER WAY - Reprise sur incident
  • 14.
    Tester les procédures » Régulièrement » Avec précaution 22/07/11 ALTER WAY - Reprise sur incident
  • 15.
  • 16.
    Supervision » Ressources – Nagios – Centreon – Zabbix » Journaux » Application » Disponibilité – Pingdom – NetVigie 22/07/11 ALTER WAY - Reprise sur incident
  • 17.
    Facilitez le contact » Personne / service à contacter identifiés » Moyens de contact disponibles facilement » Réactivité aux contacts entrants 22/07/11 ALTER WAY - Reprise sur incident
  • 18.
  • 19.
    Communication » Isoler l'équipe d'intervention » Escalader en interne si nécessaire » Communication externe : – Régulière – Aussi transparente que possible – Page d'état 22/07/11 ALTER WAY - Reprise sur incident
  • 20.
  • 21.
    Identification de lacause » Interne – Panne matérielle – Instabilité logicielle – Bogue applicatif – Erreur humaine » Externe – Attaque – Panne matérielle – Pic de fréquentation 22/07/11 ALTER WAY - Reprise sur incident
  • 22.
    Portée » Quels sont les éléments touchés ? » Le service est-il réduit ou coupé ? 22/07/11 ALTER WAY - Reprise sur incident
  • 23.
    Impact » Problème de sécurité ? » Perte de données ? » Atteinte à l'image ? 22/07/11 ALTER WAY - Reprise sur incident
  • 24.
  • 25.
    Correction » Activer les mesures de mitigation si nécessaire » Appliquer les mesures correctives » Déployer l'application si nécessaire » En dernier recours tout couper 22/07/11 ALTER WAY - Reprise sur incident
  • 26.
  • 27.
    Capitaliser » Méthode des 5 pourquoi » Intégrer le résultat aux procédures de test 22/07/11 ALTER WAY - Reprise sur incident
  • 28.
    Récapitulatif » Se préparer » Communiquer » Analyser » Corriger » Apprendre 22/07/11 ALTER WAY - Reprise sur incident
  • 29.
    Merci ! » Email : jm@jmfontaine.net » Twitter : jmfontaine » Blog : www.jmfontaine.net » Autre blog : www.industrialisation-php.net 22/07/11 ALTER WAY - Reprise sur incident
  • 30.
    Crédits photos » http://www.flickr.com/photos/r000pert/136999467/ » http://www.flickr.com/photos/illetirres/2214018398/ » http://www.flickr.com/photos/larimdame/2575986601/ » http://www.flickr.com/photos/techne/107093245/ » http://www.flickr.com/photos/p-doodle/466500483/ » http://www.flickr.com/photos/dennissylvesterhurd/141183312/ 22/07/11 ALTER WAY - Reprise sur incident

Notes de l'éditeur

  • #3 Pas besoin d'argumenter : un dépôt de code est indispensable à partir d'un seul développeur