Paris Chaos Engineering Meetup #5

@crochefolle
Directeur Excellence Opérationnelle @ OUI.sncf
Christophe ROCHEFOLLE
@BenjaminGakic
Chaos Engineer & SRE @ OUI.sncf
Benjamin GAKIC

Noël 2013
Wii U et 3DS sous le
sapin…
Juin 2017
Incident général…
Novembre
2008
30h
d’indisponibilité

Pour la première fois, les indisponibilités
arrivent en tête des sujets d’inquiétude
des responsables informatiques,
devançant ainsi la sécurité.
Sondage réalisé sur un échantillon de 400 entreprises en Grande-Bretagne,
Allemagne, France, Suède et Pays-Bas par Quocirca pour Splunk
Source: Master of Machines III - Réduire l’impact des incidents IT Quocirca

Et pourtant on teste à tous les étages !!
Sécurité, charge,
métier
Interface graphique,
bout en bout,
fonctionnels
Intégrations, API
Unitaires

« Comment tester dans un
environnement comme celui d’Amazon ?
Devez-vous construire un autre Amazon
pour les tests quelque part, qui aurait le
même nombre de machines, le même
nombre de centres de calcul, de clients
et les mêmes tables et fichiers ? »
Werner Vogels, CTO Amazon

Et ça se complexifie …
 DevOps,
 Cloud, scalabilité
 BigData, Smartdata,
 IA,
 Ordinateur quantique

CHAOS ENGINEERING
« Discipline de l'expérimentation sur un système distribué afin de
renforcer la confiance dans la capacité du système à résister à des
conditions turbulentes en production. »
http://principlesofchaos.org/
initiée par

La Question :
A quel point votre système
est-il proche du précipice
et peut sombrer
dans le chaos ?

Expérimenter en
production ?!?

Expérimenter
pour éprouver nos systèmes
Expérimenter
pour apprendre

Expérimenter
en production
sur un système stable et performant

Designer
l’expérimentation
1. Question
2. Périmètre
3. Mesure
4. Communiquer
5. Injecter
6. Analyser

Expérimenter
en continue
Automatiser l’expérience
pour qu’elle se réalise en continue
afin de suivre l’évolution du système

Chaos Engineering (rappel)
https://medium.com/russmiles/chaos-engineering-for-the-business-17b723f26361
Et concrètement ?

POC
Squad inter-équipe dev & ops
Développement en mode expérimental,
à base de mini-hackatons
Mars 2016
Mai 2017
Aujourd’hui
Janvier 2016
Octobre 2016
Février 2017
Janvier 2017
Juillet 2017

Mode de fonctionnement adopté!
Mars 2016
Mai 2017
Aujourd’hui
Janvier 2016
Octobre 2016
Février 2017
Janvier 2017
Juillet 2017

Communauté
Résilience et Tests Techniques
Objectifs :
• Proposer des outils de test de résilience
• Aider à la mise en place des outils et patterns
• Apporter un changement culturel
Mars 2016
Mai 2017
Aujourd’hui
Janvier 2016
Octobre 2016
Février 2017
Janvier 2017
Juillet 2017

Grâce à la communauté
nous disposons d’un bestiaire
à l’image de la Simian army
de Netflix
Mars 2016
Mai 2017
Aujourd’hui
Janvier 2016
Octobre 2016
Février 2017
Janvier 2017
Juillet 2017

Mars 2016
Mai 2017
Aujourd’hui
Janvier 2016
Octobre 2016
Février 2017
Janvier 2017
Juillet 2017
Days of Chaos
Chapter One
Vendredi 13 Janvier 2017

Initiation au test en production,
La panne va-t-elle avoir un impact notable?
Pilotage et validation pour les devs Entrainement pour les ops
Chaos Monkey
Bridé
Mars 2016
Mai 2017
Aujourd’hui
Janvier 2016
Octobre 2016
Février 2017
Janvier 2017
Juillet 2017

Chaos Monkey en production,
La finalité
Mon appli en prod
Chaos Monkey
Libéré! Délivré!
LES DEV OPS
Même pas peur
Objectif :
Aucun impact financier
Même pas mal!
Mars 2016
Mai 2017
Aujourd’hui
Janvier 2016
Octobre 2016
Février 2017
Janvier 2017
Juillet 2017

Premier Chaos Monkey en production…
…et la production marche toujours
Mars 2016
Mai 2017
Aujourd’hui
Janvier 2016
Octobre 2016
Février 2017
Janvier 2017
Juillet 2017

Mars 2016
Mai 2017
Aujourd’hui
Janvier 2016
Octobre 2016
Février 2017
Janvier 2017
Juillet 2017
Days of Chaos
Chapter 2
Vendredi 07/07/2017

Objectif : faire du chaos engineering sur toutes
les applications critiques
Mars 2016
Mai 2017
Aujourd’hui
Janvier 2016
Octobre 2016
Février 2017
Janvier 2017
Juillet 2017

Days of Chaos
Chapter One
Vendredi 13 Janvier 2017

DaysofChaos
Vous allez subir des vagues de pannes en provenance des tréfonds de l’exploitation.
Votre mission est de repousser ces vagues et de
détecter, diagnostiquer et résoudre
les pannes le plus vite possible.
L’avenir de notre production dépend de vous…
Détection :
+100
Diagnostic :
+150
Résolution :
+200
Bonus 1ère proposition:
+100
Indice :
-50
Nombrederounds: 8
Récompenses:
3

Résolution Dev
Incident Ops
Détection Dev Diagnostic Dev
Remise en état...
Validation Ops
Gestion d’une panne Question bonus Vidéo explicative1 2 3

Sans ops rien n’est
possible!
Impliquer
Convaincre

113 joueurs
18 équipes 2 commentateurs
2 aides de camp
8 ops

Objectif accompli !
Détection : 87%
Diagnostic : 73%
Résolution : 45%

Supervision et alerting
Tests techniques
Partage des connaissances
Arbres d’analyse
8 -> 6 pannes
4h -> 3h30 de jeu
80% Intérêt du jeu
70% Qualité de l’organisation
74% Prise de conscience
• Disponibilité
• Préparation des pannes
• Trop peu pour gérer autant de joueurs
• Quelques ratés organisationnels
• Ambiance
• Nouveauté
• Intérêt
• Jeu bien calibré pour une première

Communication et marketing
Cohésion intra et inter-équipes
Gamification
Points forts

Days of Chaos
Chapter 1
Days of Chaos
Chapter 2
CHAPTER 3Vendredi 13/01/2017
Vendredi
07/07/2017
VENDREDI 13/07/2018

En production
La vraie vie, avec des vrais utilisateurs et
potentiellement de la perte de VA.
Communication
Mettre en place du Chaos n’est pas la meilleure
façon de rencontrer vos nouveaux collègues,
mais c’est la plus rapide.
Nora Jones (@nora_js)
Gamification
Rendre l’apprentissage plus amusant
en s’appuyant sur la prédisposition
humaine au jeu
Expérimentation
Les principaux points à retenir
Validation de ce qui est important sur
votre infrastructure. Votre résilience
n’est pas celle des autres.

Le Chaos Engineering dans le monde

https://days-of-chaos.slack.com
Paris Chaos Engineering Meetup
http://meetu.ps/c/3BMlX/xNjMx/f https://chaosengineering.slack.com
http://days-of-chaos.com/
https://medium.com/paris-
chaos-engineering-
community

Paris Chaos Engineering Meetup #5

Contenu connexe

Tendances

Similaire à Paris Chaos Engineering Meetup #5

Plus de Christophe Rochefolle

Dernier

Paris Chaos Engineering Meetup #5

Notes de l'éditeur