SlideShare une entreprise Scribd logo
@crochefolle
Directeur Excellence Opérationnelle @ OUI.sncf
Christophe ROCHEFOLLE
@BenjaminGakic
Chaos Engineer & SRE @ OUI.sncf
Benjamin GAKIC
Paris Chaos Engineering Meetup #5
Noël 2013
Wii U et 3DS sous le
sapin…
Juin 2017
Incident général…
Novembre
2008
30h
d’indisponibilité
Pour la première fois, les indisponibilités
arrivent en tête des sujets d’inquiétude
des responsables informatiques,
devançant ainsi la sécurité.
Sondage réalisé sur un échantillon de 400 entreprises en Grande-Bretagne,
Allemagne, France, Suède et Pays-Bas par Quocirca pour Splunk
Source: Master of Machines III - Réduire l’impact des incidents IT Quocirca
Et pourtant on teste à tous les étages !!
Sécurité, charge,
métier
Interface graphique,
bout en bout,
fonctionnels
Intégrations, API
Unitaires
« Comment tester dans un
environnement comme celui d’Amazon ?
Devez-vous construire un autre Amazon
pour les tests quelque part, qui aurait le
même nombre de machines, le même
nombre de centres de calcul, de clients
et les mêmes tables et fichiers ? »
Werner Vogels, CTO Amazon
Et ça se complexifie …
 DevOps,
 Cloud, scalabilité
 BigData, Smartdata,
 IA,
 Ordinateur quantique
CHAOS ENGINEERING
« Discipline de l'expérimentation sur un système distribué afin de
renforcer la confiance dans la capacité du système à résister à des
conditions turbulentes en production. »
http://principlesofchaos.org/
initiée par
La Question :
A quel point votre système
est-il proche du précipice
et peut sombrer
dans le chaos ?
Expérimenter en
production ?!?
Expérimenter
pour éprouver nos systèmes
Expérimenter
pour apprendre
Expérimenter
en production
sur un système stable et performant
Designer
l’expérimentation
1. Question
2. Périmètre
3. Mesure
4. Communiquer
5. Injecter
6. Analyser
Expérimenter
en continue
Automatiser l’expérience
pour qu’elle se réalise en continue
afin de suivre l’évolution du système
Chaos Engineering (rappel)
https://medium.com/russmiles/chaos-engineering-for-the-business-17b723f26361
Et concrètement ?
POC
Squad inter-équipe dev & ops
Développement en mode expérimental,
à base de mini-hackatons
Mars 2016
Mai 2017
Aujourd’hui
Janvier 2016
Octobre 2016
Février 2017
Janvier 2017
Juillet 2017
Mode de fonctionnement adopté!
Mars 2016
Mai 2017
Aujourd’hui
Janvier 2016
Octobre 2016
Février 2017
Janvier 2017
Juillet 2017
Communauté
Résilience et Tests Techniques
Objectifs :
• Proposer des outils de test de résilience
• Aider à la mise en place des outils et patterns
• Apporter un changement culturel
Mars 2016
Mai 2017
Aujourd’hui
Janvier 2016
Octobre 2016
Février 2017
Janvier 2017
Juillet 2017
Grâce à la communauté
nous disposons d’un bestiaire
à l’image de la Simian army
de Netflix
Mars 2016
Mai 2017
Aujourd’hui
Janvier 2016
Octobre 2016
Février 2017
Janvier 2017
Juillet 2017
Mars 2016
Mai 2017
Aujourd’hui
Janvier 2016
Octobre 2016
Février 2017
Janvier 2017
Juillet 2017
Days of Chaos
Chapter One
Vendredi 13 Janvier 2017
Initiation au test en production,
La panne va-t-elle avoir un impact notable?
Pilotage et validation pour les devs Entrainement pour les ops
Chaos Monkey
Bridé
Mars 2016
Mai 2017
Aujourd’hui
Janvier 2016
Octobre 2016
Février 2017
Janvier 2017
Juillet 2017
Chaos Monkey en production,
La finalité
Mon appli en prod
Chaos Monkey
Libéré! Délivré!
LES DEV OPS
Même pas peur
Objectif :
Aucun impact financier
Même pas mal!
Mars 2016
Mai 2017
Aujourd’hui
Janvier 2016
Octobre 2016
Février 2017
Janvier 2017
Juillet 2017
Premier Chaos Monkey en production…
…et la production marche toujours
Mars 2016
Mai 2017
Aujourd’hui
Janvier 2016
Octobre 2016
Février 2017
Janvier 2017
Juillet 2017
Mars 2016
Mai 2017
Aujourd’hui
Janvier 2016
Octobre 2016
Février 2017
Janvier 2017
Juillet 2017
Days of Chaos
Chapter 2
Vendredi 07/07/2017
Objectif : faire du chaos engineering sur toutes
les applications critiques
Mars 2016
Mai 2017
Aujourd’hui
Janvier 2016
Octobre 2016
Février 2017
Janvier 2017
Juillet 2017
Game Day
Days of Chaos
Chapter One
Vendredi 13 Janvier 2017
DaysofChaos
Vous allez subir des vagues de pannes en provenance des tréfonds de l’exploitation.
Votre mission est de repousser ces vagues et de
détecter, diagnostiquer et résoudre
les pannes le plus vite possible.
L’avenir de notre production dépend de vous…
Détection :
+100
Diagnostic :
+150
Résolution :
+200
Bonus 1ère proposition:
+100
Indice :
-50
Nombrederounds: 8
Récompenses:
3
Résolution Dev
Incident Ops
Détection Dev Diagnostic Dev
Remise en état...
Validation Ops
Gestion d’une panne Question bonus Vidéo explicative1 2 3
Sans ops rien n’est
possible!
Impliquer
Convaincre
Paris Chaos Engineering Meetup #5
43 pannes
8 short listées
Paris Chaos Engineering Meetup #5
Paris Chaos Engineering Meetup #5
113 joueurs
18 équipes 2 commentateurs
2 aides de camp
8 ops
Objectif accompli !
Détection : 87%
Diagnostic : 73%
Résolution : 45%
Supervision et alerting
Tests techniques
Partage des connaissances
Arbres d’analyse
8 -> 6 pannes
4h -> 3h30 de jeu
80% Intérêt du jeu
70% Qualité de l’organisation
74% Prise de conscience
• Disponibilité
• Préparation des pannes
• Trop peu pour gérer autant de joueurs
• Quelques ratés organisationnels
• Ambiance
• Nouveauté
• Intérêt
• Jeu bien calibré pour une première
Communication et marketing
Cohésion intra et inter-équipes
Gamification
Points forts
Days of Chaos
Chapter 1
Days of Chaos
Chapter 2
CHAPTER 3Vendredi 13/01/2017
Vendredi
07/07/2017
VENDREDI 13/07/2018
Paris Chaos Engineering Meetup #5
En production
La vraie vie, avec des vrais utilisateurs et
potentiellement de la perte de VA.
Communication
Mettre en place du Chaos n’est pas la meilleure
façon de rencontrer vos nouveaux collègues,
mais c’est la plus rapide.
Nora Jones (@nora_js)
Gamification
Rendre l’apprentissage plus amusant
en s’appuyant sur la prédisposition
humaine au jeu
Expérimentation
Les principaux points à retenir
Validation de ce qui est important sur
votre infrastructure. Votre résilience
n’est pas celle des autres.
Le Chaos Engineering dans le monde
https://days-of-chaos.slack.com
Paris Chaos Engineering Meetup
http://meetu.ps/c/3BMlX/xNjMx/f https://chaosengineering.slack.com
http://days-of-chaos.com/
https://medium.com/paris-
chaos-engineering-
community

Contenu connexe

Tendances

Agile France 2018 : chaos engineering
Agile France 2018 : chaos engineeringAgile France 2018 : chaos engineering
Agile France 2018 : chaos engineering
Benjamin Gakic
 
Rapide introduction au concepts du Chaos Engineering
Rapide introduction au concepts du Chaos EngineeringRapide introduction au concepts du Chaos Engineering
Rapide introduction au concepts du Chaos Engineering
Sylvain Hellegouarch
 
Du Code & Des Humains - ElsassJUG 2018
Du Code & Des Humains - ElsassJUG 2018Du Code & Des Humains - ElsassJUG 2018
Du Code & Des Humains - ElsassJUG 2018
Nicolas VERINAUD
 
2013 03-01 automatiser les tests sécurité
2013 03-01 automatiser les tests sécurité2013 03-01 automatiser les tests sécurité
2013 03-01 automatiser les tests sécurité
Sébastien GIORIA
 
Du Code & Des Humains - Agile Tour Strasbourg 2017
Du Code & Des Humains - Agile Tour Strasbourg 2017Du Code & Des Humains - Agile Tour Strasbourg 2017
Du Code & Des Humains - Agile Tour Strasbourg 2017
Nicolas VERINAUD
 
Du Code & Des Humains
Du Code & Des HumainsDu Code & Des Humains
Du Code & Des Humains
Nicolas VERINAUD
 
Donnez un second souffle à vos rétros à distance
Donnez un second souffle à vos rétros à distanceDonnez un second souffle à vos rétros à distance
Donnez un second souffle à vos rétros à distance
Benoit Roussel
 
Mise un oeuvre d'un projet Mobile chez Cetelem en Scrum
Mise un oeuvre d'un projet Mobile chez Cetelem en ScrumMise un oeuvre d'un projet Mobile chez Cetelem en Scrum
Mise un oeuvre d'un projet Mobile chez Cetelem en Scrum
Cyrille Deruel
 

Tendances (8)

Agile France 2018 : chaos engineering
Agile France 2018 : chaos engineeringAgile France 2018 : chaos engineering
Agile France 2018 : chaos engineering
 
Rapide introduction au concepts du Chaos Engineering
Rapide introduction au concepts du Chaos EngineeringRapide introduction au concepts du Chaos Engineering
Rapide introduction au concepts du Chaos Engineering
 
Du Code & Des Humains - ElsassJUG 2018
Du Code & Des Humains - ElsassJUG 2018Du Code & Des Humains - ElsassJUG 2018
Du Code & Des Humains - ElsassJUG 2018
 
2013 03-01 automatiser les tests sécurité
2013 03-01 automatiser les tests sécurité2013 03-01 automatiser les tests sécurité
2013 03-01 automatiser les tests sécurité
 
Du Code & Des Humains - Agile Tour Strasbourg 2017
Du Code & Des Humains - Agile Tour Strasbourg 2017Du Code & Des Humains - Agile Tour Strasbourg 2017
Du Code & Des Humains - Agile Tour Strasbourg 2017
 
Du Code & Des Humains
Du Code & Des HumainsDu Code & Des Humains
Du Code & Des Humains
 
Donnez un second souffle à vos rétros à distance
Donnez un second souffle à vos rétros à distanceDonnez un second souffle à vos rétros à distance
Donnez un second souffle à vos rétros à distance
 
Mise un oeuvre d'un projet Mobile chez Cetelem en Scrum
Mise un oeuvre d'un projet Mobile chez Cetelem en ScrumMise un oeuvre d'un projet Mobile chez Cetelem en Scrum
Mise un oeuvre d'un projet Mobile chez Cetelem en Scrum
 

Similaire à Paris Chaos Engineering Meetup #5

Radical Quality From Toyota to Tech - Devoxx France.pptx
Radical Quality From Toyota to Tech - Devoxx France.pptxRadical Quality From Toyota to Tech - Devoxx France.pptx
Radical Quality From Toyota to Tech - Devoxx France.pptx
Flavian Hautbois
 
AT2010 Principes Integration Continue
AT2010 Principes Integration ContinueAT2010 Principes Integration Continue
AT2010 Principes Integration Continue
Normandy JUG
 
Scrum Day 2014 - Êtes-vous prêts pour le modèle Spotify ?
Scrum Day 2014 - Êtes-vous prêts pour le modèle Spotify ?Scrum Day 2014 - Êtes-vous prêts pour le modèle Spotify ?
Scrum Day 2014 - Êtes-vous prêts pour le modèle Spotify ?
Publicis Sapient Engineering
 
IA et Test - MeetUp MoT - Julien Van Quackebeke - CEO All4Test
IA et Test - MeetUp MoT - Julien Van Quackebeke - CEO All4TestIA et Test - MeetUp MoT - Julien Van Quackebeke - CEO All4Test
IA et Test - MeetUp MoT - Julien Van Quackebeke - CEO All4Test
Mimoun Kissi 🤖
 
soft-shake.ch - Adoption de l'Agilité par les usages
soft-shake.ch - Adoption de l'Agilité par les usagessoft-shake.ch - Adoption de l'Agilité par les usages
soft-shake.ch - Adoption de l'Agilité par les usages
soft-shake.ch
 
PerfUG Comment tester et optimiser la performance d'un SI ?
PerfUG Comment tester et optimiser la performance d'un SI ?PerfUG Comment tester et optimiser la performance d'un SI ?
PerfUG Comment tester et optimiser la performance d'un SI ?
Marc Bojoly
 
Soirée du Test Logiciel - Intelligence Artificielle dans le test - J. VAN QUA...
Soirée du Test Logiciel - Intelligence Artificielle dans le test - J. VAN QUA...Soirée du Test Logiciel - Intelligence Artificielle dans le test - J. VAN QUA...
Soirée du Test Logiciel - Intelligence Artificielle dans le test - J. VAN QUA...
TelecomValley
 
Azure Data Factory-Rebuild 2017
Azure Data Factory-Rebuild 2017 Azure Data Factory-Rebuild 2017
Azure Data Factory-Rebuild 2017
Isabelle Van Campenhoudt
 
Afterwork OCTO Delivery - L'ADN d'un développement produit réussi
Afterwork OCTO Delivery - L'ADN d'un développement produit réussiAfterwork OCTO Delivery - L'ADN d'un développement produit réussi
Afterwork OCTO Delivery - L'ADN d'un développement produit réussi
cyrilpicat
 
L'ADN d'un développement produit réussi
L'ADN d'un développement produit réussiL'ADN d'un développement produit réussi
L'ADN d'un développement produit réussi
OCTO Technology Suisse
 
Chouette! Encore un bug! Agile Tour 2012
Chouette! Encore un bug! Agile Tour 2012Chouette! Encore un bug! Agile Tour 2012
Chouette! Encore un bug! Agile Tour 2012
AgileCoach.net
 
D1 - Un développeur est-il un numéro, un coût journalier ou un artiste ?
D1 - Un développeur est-il un numéro, un coût journalier ou un artiste ?D1 - Un développeur est-il un numéro, un coût journalier ou un artiste ?
D1 - Un développeur est-il un numéro, un coût journalier ou un artiste ?
XP Day CH
 
Retour d'expérience TAA - 2011/03/29
Retour d'expérience TAA - 2011/03/29Retour d'expérience TAA - 2011/03/29
Retour d'expérience TAA - 2011/03/29
Elapse Technologies
 
Sug bordeaux 20110426
Sug bordeaux 20110426Sug bordeaux 20110426
Sug bordeaux 20110426
Philippe Launay
 
SRE - Mythes et Réalités - Voxxed 2024.pdf
SRE - Mythes et Réalités - Voxxed 2024.pdfSRE - Mythes et Réalités - Voxxed 2024.pdf
SRE - Mythes et Réalités - Voxxed 2024.pdf
Henri Gomez
 
Crash Test Your Idea Meetup Valtech 13/09/2016
Crash Test Your Idea Meetup Valtech 13/09/2016Crash Test Your Idea Meetup Valtech 13/09/2016
Crash Test Your Idea Meetup Valtech 13/09/2016
André De Sousa
 
Innover en support de formation à l'ère du numérique : exemple d'un escape ga...
Innover en support de formation à l'ère du numérique : exemple d'un escape ga...Innover en support de formation à l'ère du numérique : exemple d'un escape ga...
Innover en support de formation à l'ère du numérique : exemple d'un escape ga...
Institut de l'Elevage - Idele
 
ABTest : un outil indispensable pour être « data-driven » ? par Laurent VION
ABTest : un outil indispensable pour être « data-driven » ? par Laurent VIONABTest : un outil indispensable pour être « data-driven » ? par Laurent VION
ABTest : un outil indispensable pour être « data-driven » ? par Laurent VION
La Cuisine du Web
 
Optimisation des applications Windows 8/HTML5/WinJS
Optimisation des applications Windows 8/HTML5/WinJSOptimisation des applications Windows 8/HTML5/WinJS
Optimisation des applications Windows 8/HTML5/WinJS
Microsoft
 
Synergie entre développeur et consultant SEO - Didier Sampaolo - SEOcamp'us P...
Synergie entre développeur et consultant SEO - Didier Sampaolo - SEOcamp'us P...Synergie entre développeur et consultant SEO - Didier Sampaolo - SEOcamp'us P...
Synergie entre développeur et consultant SEO - Didier Sampaolo - SEOcamp'us P...
SEO CAMP
 

Similaire à Paris Chaos Engineering Meetup #5 (20)

Radical Quality From Toyota to Tech - Devoxx France.pptx
Radical Quality From Toyota to Tech - Devoxx France.pptxRadical Quality From Toyota to Tech - Devoxx France.pptx
Radical Quality From Toyota to Tech - Devoxx France.pptx
 
AT2010 Principes Integration Continue
AT2010 Principes Integration ContinueAT2010 Principes Integration Continue
AT2010 Principes Integration Continue
 
Scrum Day 2014 - Êtes-vous prêts pour le modèle Spotify ?
Scrum Day 2014 - Êtes-vous prêts pour le modèle Spotify ?Scrum Day 2014 - Êtes-vous prêts pour le modèle Spotify ?
Scrum Day 2014 - Êtes-vous prêts pour le modèle Spotify ?
 
IA et Test - MeetUp MoT - Julien Van Quackebeke - CEO All4Test
IA et Test - MeetUp MoT - Julien Van Quackebeke - CEO All4TestIA et Test - MeetUp MoT - Julien Van Quackebeke - CEO All4Test
IA et Test - MeetUp MoT - Julien Van Quackebeke - CEO All4Test
 
soft-shake.ch - Adoption de l'Agilité par les usages
soft-shake.ch - Adoption de l'Agilité par les usagessoft-shake.ch - Adoption de l'Agilité par les usages
soft-shake.ch - Adoption de l'Agilité par les usages
 
PerfUG Comment tester et optimiser la performance d'un SI ?
PerfUG Comment tester et optimiser la performance d'un SI ?PerfUG Comment tester et optimiser la performance d'un SI ?
PerfUG Comment tester et optimiser la performance d'un SI ?
 
Soirée du Test Logiciel - Intelligence Artificielle dans le test - J. VAN QUA...
Soirée du Test Logiciel - Intelligence Artificielle dans le test - J. VAN QUA...Soirée du Test Logiciel - Intelligence Artificielle dans le test - J. VAN QUA...
Soirée du Test Logiciel - Intelligence Artificielle dans le test - J. VAN QUA...
 
Azure Data Factory-Rebuild 2017
Azure Data Factory-Rebuild 2017 Azure Data Factory-Rebuild 2017
Azure Data Factory-Rebuild 2017
 
Afterwork OCTO Delivery - L'ADN d'un développement produit réussi
Afterwork OCTO Delivery - L'ADN d'un développement produit réussiAfterwork OCTO Delivery - L'ADN d'un développement produit réussi
Afterwork OCTO Delivery - L'ADN d'un développement produit réussi
 
L'ADN d'un développement produit réussi
L'ADN d'un développement produit réussiL'ADN d'un développement produit réussi
L'ADN d'un développement produit réussi
 
Chouette! Encore un bug! Agile Tour 2012
Chouette! Encore un bug! Agile Tour 2012Chouette! Encore un bug! Agile Tour 2012
Chouette! Encore un bug! Agile Tour 2012
 
D1 - Un développeur est-il un numéro, un coût journalier ou un artiste ?
D1 - Un développeur est-il un numéro, un coût journalier ou un artiste ?D1 - Un développeur est-il un numéro, un coût journalier ou un artiste ?
D1 - Un développeur est-il un numéro, un coût journalier ou un artiste ?
 
Retour d'expérience TAA - 2011/03/29
Retour d'expérience TAA - 2011/03/29Retour d'expérience TAA - 2011/03/29
Retour d'expérience TAA - 2011/03/29
 
Sug bordeaux 20110426
Sug bordeaux 20110426Sug bordeaux 20110426
Sug bordeaux 20110426
 
SRE - Mythes et Réalités - Voxxed 2024.pdf
SRE - Mythes et Réalités - Voxxed 2024.pdfSRE - Mythes et Réalités - Voxxed 2024.pdf
SRE - Mythes et Réalités - Voxxed 2024.pdf
 
Crash Test Your Idea Meetup Valtech 13/09/2016
Crash Test Your Idea Meetup Valtech 13/09/2016Crash Test Your Idea Meetup Valtech 13/09/2016
Crash Test Your Idea Meetup Valtech 13/09/2016
 
Innover en support de formation à l'ère du numérique : exemple d'un escape ga...
Innover en support de formation à l'ère du numérique : exemple d'un escape ga...Innover en support de formation à l'ère du numérique : exemple d'un escape ga...
Innover en support de formation à l'ère du numérique : exemple d'un escape ga...
 
ABTest : un outil indispensable pour être « data-driven » ? par Laurent VION
ABTest : un outil indispensable pour être « data-driven » ? par Laurent VIONABTest : un outil indispensable pour être « data-driven » ? par Laurent VION
ABTest : un outil indispensable pour être « data-driven » ? par Laurent VION
 
Optimisation des applications Windows 8/HTML5/WinJS
Optimisation des applications Windows 8/HTML5/WinJSOptimisation des applications Windows 8/HTML5/WinJS
Optimisation des applications Windows 8/HTML5/WinJS
 
Synergie entre développeur et consultant SEO - Didier Sampaolo - SEOcamp'us P...
Synergie entre développeur et consultant SEO - Didier Sampaolo - SEOcamp'us P...Synergie entre développeur et consultant SEO - Didier Sampaolo - SEOcamp'us P...
Synergie entre développeur et consultant SEO - Didier Sampaolo - SEOcamp'us P...
 

Plus de Christophe Rochefolle

Agile Secteur Public - Numérique Responsable
Agile Secteur Public - Numérique ResponsableAgile Secteur Public - Numérique Responsable
Agile Secteur Public - Numérique Responsable
Christophe Rochefolle
 
Une App responsable pour de la mobilité durable
Une App responsable pour de la mobilité durableUne App responsable pour de la mobilité durable
Une App responsable pour de la mobilité durable
Christophe Rochefolle
 
#DevOps - Et si on déployait le vendredi
#DevOps - Et si on déployait le vendredi#DevOps - Et si on déployait le vendredi
#DevOps - Et si on déployait le vendredi
Christophe Rochefolle
 
From Duke of DevOps to Queen of Chaos - Api days 2018
From Duke of DevOps to Queen of Chaos - Api days 2018From Duke of DevOps to Queen of Chaos - Api days 2018
From Duke of DevOps to Queen of Chaos - Api days 2018
Christophe Rochefolle
 
Kriss Rochefolle: "How to Convince Your Boss to Say "Yes!" to Chaos Engineeri...
Kriss Rochefolle: "How to Convince Your Boss to Say "Yes!" to Chaos Engineeri...Kriss Rochefolle: "How to Convince Your Boss to Say "Yes!" to Chaos Engineeri...
Kriss Rochefolle: "How to Convince Your Boss to Say "Yes!" to Chaos Engineeri...
Christophe Rochefolle
 
Qualité Logiciel - Outils Open Source pour Java et Web
Qualité Logiciel - Outils Open Source pour Java et WebQualité Logiciel - Outils Open Source pour Java et Web
Qualité Logiciel - Outils Open Source pour Java et Web
Christophe Rochefolle
 
Qualité logiciel - Generalités
Qualité logiciel - GeneralitésQualité logiciel - Generalités
Qualité logiciel - Generalités
Christophe Rochefolle
 
Automatisation des tests - objectifs et concepts - partie 2
Automatisation des tests  - objectifs et concepts - partie 2Automatisation des tests  - objectifs et concepts - partie 2
Automatisation des tests - objectifs et concepts - partie 2
Christophe Rochefolle
 
Automatisation des tests - objectifs et concepts - partie 1
Automatisation des tests  - objectifs et concepts - partie 1Automatisation des tests  - objectifs et concepts - partie 1
Automatisation des tests - objectifs et concepts - partie 1
Christophe Rochefolle
 

Plus de Christophe Rochefolle (9)

Agile Secteur Public - Numérique Responsable
Agile Secteur Public - Numérique ResponsableAgile Secteur Public - Numérique Responsable
Agile Secteur Public - Numérique Responsable
 
Une App responsable pour de la mobilité durable
Une App responsable pour de la mobilité durableUne App responsable pour de la mobilité durable
Une App responsable pour de la mobilité durable
 
#DevOps - Et si on déployait le vendredi
#DevOps - Et si on déployait le vendredi#DevOps - Et si on déployait le vendredi
#DevOps - Et si on déployait le vendredi
 
From Duke of DevOps to Queen of Chaos - Api days 2018
From Duke of DevOps to Queen of Chaos - Api days 2018From Duke of DevOps to Queen of Chaos - Api days 2018
From Duke of DevOps to Queen of Chaos - Api days 2018
 
Kriss Rochefolle: "How to Convince Your Boss to Say "Yes!" to Chaos Engineeri...
Kriss Rochefolle: "How to Convince Your Boss to Say "Yes!" to Chaos Engineeri...Kriss Rochefolle: "How to Convince Your Boss to Say "Yes!" to Chaos Engineeri...
Kriss Rochefolle: "How to Convince Your Boss to Say "Yes!" to Chaos Engineeri...
 
Qualité Logiciel - Outils Open Source pour Java et Web
Qualité Logiciel - Outils Open Source pour Java et WebQualité Logiciel - Outils Open Source pour Java et Web
Qualité Logiciel - Outils Open Source pour Java et Web
 
Qualité logiciel - Generalités
Qualité logiciel - GeneralitésQualité logiciel - Generalités
Qualité logiciel - Generalités
 
Automatisation des tests - objectifs et concepts - partie 2
Automatisation des tests  - objectifs et concepts - partie 2Automatisation des tests  - objectifs et concepts - partie 2
Automatisation des tests - objectifs et concepts - partie 2
 
Automatisation des tests - objectifs et concepts - partie 1
Automatisation des tests  - objectifs et concepts - partie 1Automatisation des tests  - objectifs et concepts - partie 1
Automatisation des tests - objectifs et concepts - partie 1
 

Dernier

Theorie du trafic on telecommunication network
Theorie du trafic on telecommunication networkTheorie du trafic on telecommunication network
Theorie du trafic on telecommunication network
MahamaneAliSalatou
 
Etude de la faisabilité de la climatisation solaire pour l’habitat individuel...
Etude de la faisabilité de la climatisation solaire pour l’habitat individuel...Etude de la faisabilité de la climatisation solaire pour l’habitat individuel...
Etude de la faisabilité de la climatisation solaire pour l’habitat individuel...
iheberry
 
Webinaire BL 28_06_01_robots de traite.pdf
Webinaire BL 28_06_01_robots de traite.pdfWebinaire BL 28_06_01_robots de traite.pdf
Webinaire BL 28_06_01_robots de traite.pdf
Institut de l'Elevage - Idele
 
Webinaire BL 28_06_02_Consommation Energie.pdf
Webinaire BL 28_06_02_Consommation Energie.pdfWebinaire BL 28_06_02_Consommation Energie.pdf
Webinaire BL 28_06_02_Consommation Energie.pdf
Institut de l'Elevage - Idele
 
Webinaire BL 28_06_03_Transmissibilité.pdf
Webinaire BL 28_06_03_Transmissibilité.pdfWebinaire BL 28_06_03_Transmissibilité.pdf
Webinaire BL 28_06_03_Transmissibilité.pdf
Institut de l'Elevage - Idele
 
cours-sur-les-stations-de-pompageen génie civil.pdf
cours-sur-les-stations-de-pompageen génie civil.pdfcours-sur-les-stations-de-pompageen génie civil.pdf
cours-sur-les-stations-de-pompageen génie civil.pdf
afigloria194
 
Note agro-climatique et prairies n°5 - Juillet 2024
Note agro-climatique et prairies n°5 - Juillet 2024Note agro-climatique et prairies n°5 - Juillet 2024
Note agro-climatique et prairies n°5 - Juillet 2024
idelewebmestre
 

Dernier (7)

Theorie du trafic on telecommunication network
Theorie du trafic on telecommunication networkTheorie du trafic on telecommunication network
Theorie du trafic on telecommunication network
 
Etude de la faisabilité de la climatisation solaire pour l’habitat individuel...
Etude de la faisabilité de la climatisation solaire pour l’habitat individuel...Etude de la faisabilité de la climatisation solaire pour l’habitat individuel...
Etude de la faisabilité de la climatisation solaire pour l’habitat individuel...
 
Webinaire BL 28_06_01_robots de traite.pdf
Webinaire BL 28_06_01_robots de traite.pdfWebinaire BL 28_06_01_robots de traite.pdf
Webinaire BL 28_06_01_robots de traite.pdf
 
Webinaire BL 28_06_02_Consommation Energie.pdf
Webinaire BL 28_06_02_Consommation Energie.pdfWebinaire BL 28_06_02_Consommation Energie.pdf
Webinaire BL 28_06_02_Consommation Energie.pdf
 
Webinaire BL 28_06_03_Transmissibilité.pdf
Webinaire BL 28_06_03_Transmissibilité.pdfWebinaire BL 28_06_03_Transmissibilité.pdf
Webinaire BL 28_06_03_Transmissibilité.pdf
 
cours-sur-les-stations-de-pompageen génie civil.pdf
cours-sur-les-stations-de-pompageen génie civil.pdfcours-sur-les-stations-de-pompageen génie civil.pdf
cours-sur-les-stations-de-pompageen génie civil.pdf
 
Note agro-climatique et prairies n°5 - Juillet 2024
Note agro-climatique et prairies n°5 - Juillet 2024Note agro-climatique et prairies n°5 - Juillet 2024
Note agro-climatique et prairies n°5 - Juillet 2024
 

Paris Chaos Engineering Meetup #5

  • 1. @crochefolle Directeur Excellence Opérationnelle @ OUI.sncf Christophe ROCHEFOLLE @BenjaminGakic Chaos Engineer & SRE @ OUI.sncf Benjamin GAKIC
  • 3. Noël 2013 Wii U et 3DS sous le sapin… Juin 2017 Incident général… Novembre 2008 30h d’indisponibilité
  • 4. Pour la première fois, les indisponibilités arrivent en tête des sujets d’inquiétude des responsables informatiques, devançant ainsi la sécurité. Sondage réalisé sur un échantillon de 400 entreprises en Grande-Bretagne, Allemagne, France, Suède et Pays-Bas par Quocirca pour Splunk Source: Master of Machines III - Réduire l’impact des incidents IT Quocirca
  • 5. Et pourtant on teste à tous les étages !! Sécurité, charge, métier Interface graphique, bout en bout, fonctionnels Intégrations, API Unitaires
  • 6. « Comment tester dans un environnement comme celui d’Amazon ? Devez-vous construire un autre Amazon pour les tests quelque part, qui aurait le même nombre de machines, le même nombre de centres de calcul, de clients et les mêmes tables et fichiers ? » Werner Vogels, CTO Amazon
  • 7. Et ça se complexifie …  DevOps,  Cloud, scalabilité  BigData, Smartdata,  IA,  Ordinateur quantique
  • 8. CHAOS ENGINEERING « Discipline de l'expérimentation sur un système distribué afin de renforcer la confiance dans la capacité du système à résister à des conditions turbulentes en production. » http://principlesofchaos.org/ initiée par
  • 9. La Question : A quel point votre système est-il proche du précipice et peut sombrer dans le chaos ?
  • 11. Expérimenter pour éprouver nos systèmes Expérimenter pour apprendre
  • 12. Expérimenter en production sur un système stable et performant
  • 13. Designer l’expérimentation 1. Question 2. Périmètre 3. Mesure 4. Communiquer 5. Injecter 6. Analyser
  • 14. Expérimenter en continue Automatiser l’expérience pour qu’elle se réalise en continue afin de suivre l’évolution du système
  • 16. POC Squad inter-équipe dev & ops Développement en mode expérimental, à base de mini-hackatons Mars 2016 Mai 2017 Aujourd’hui Janvier 2016 Octobre 2016 Février 2017 Janvier 2017 Juillet 2017
  • 17. Mode de fonctionnement adopté! Mars 2016 Mai 2017 Aujourd’hui Janvier 2016 Octobre 2016 Février 2017 Janvier 2017 Juillet 2017
  • 18. Communauté Résilience et Tests Techniques Objectifs : • Proposer des outils de test de résilience • Aider à la mise en place des outils et patterns • Apporter un changement culturel Mars 2016 Mai 2017 Aujourd’hui Janvier 2016 Octobre 2016 Février 2017 Janvier 2017 Juillet 2017
  • 19. Grâce à la communauté nous disposons d’un bestiaire à l’image de la Simian army de Netflix Mars 2016 Mai 2017 Aujourd’hui Janvier 2016 Octobre 2016 Février 2017 Janvier 2017 Juillet 2017
  • 20. Mars 2016 Mai 2017 Aujourd’hui Janvier 2016 Octobre 2016 Février 2017 Janvier 2017 Juillet 2017 Days of Chaos Chapter One Vendredi 13 Janvier 2017
  • 21. Initiation au test en production, La panne va-t-elle avoir un impact notable? Pilotage et validation pour les devs Entrainement pour les ops Chaos Monkey Bridé Mars 2016 Mai 2017 Aujourd’hui Janvier 2016 Octobre 2016 Février 2017 Janvier 2017 Juillet 2017
  • 22. Chaos Monkey en production, La finalité Mon appli en prod Chaos Monkey Libéré! Délivré! LES DEV OPS Même pas peur Objectif : Aucun impact financier Même pas mal! Mars 2016 Mai 2017 Aujourd’hui Janvier 2016 Octobre 2016 Février 2017 Janvier 2017 Juillet 2017
  • 23. Premier Chaos Monkey en production… …et la production marche toujours Mars 2016 Mai 2017 Aujourd’hui Janvier 2016 Octobre 2016 Février 2017 Janvier 2017 Juillet 2017
  • 24. Mars 2016 Mai 2017 Aujourd’hui Janvier 2016 Octobre 2016 Février 2017 Janvier 2017 Juillet 2017 Days of Chaos Chapter 2 Vendredi 07/07/2017
  • 25. Objectif : faire du chaos engineering sur toutes les applications critiques Mars 2016 Mai 2017 Aujourd’hui Janvier 2016 Octobre 2016 Février 2017 Janvier 2017 Juillet 2017
  • 27. Days of Chaos Chapter One Vendredi 13 Janvier 2017
  • 28. DaysofChaos Vous allez subir des vagues de pannes en provenance des tréfonds de l’exploitation. Votre mission est de repousser ces vagues et de détecter, diagnostiquer et résoudre les pannes le plus vite possible. L’avenir de notre production dépend de vous… Détection : +100 Diagnostic : +150 Résolution : +200 Bonus 1ère proposition: +100 Indice : -50 Nombrederounds: 8 Récompenses: 3
  • 29. Résolution Dev Incident Ops Détection Dev Diagnostic Dev Remise en état... Validation Ops Gestion d’une panne Question bonus Vidéo explicative1 2 3
  • 30. Sans ops rien n’est possible! Impliquer Convaincre
  • 32. 43 pannes 8 short listées
  • 35. 113 joueurs 18 équipes 2 commentateurs 2 aides de camp 8 ops
  • 36. Objectif accompli ! Détection : 87% Diagnostic : 73% Résolution : 45%
  • 37. Supervision et alerting Tests techniques Partage des connaissances Arbres d’analyse 8 -> 6 pannes 4h -> 3h30 de jeu 80% Intérêt du jeu 70% Qualité de l’organisation 74% Prise de conscience • Disponibilité • Préparation des pannes • Trop peu pour gérer autant de joueurs • Quelques ratés organisationnels • Ambiance • Nouveauté • Intérêt • Jeu bien calibré pour une première
  • 38. Communication et marketing Cohésion intra et inter-équipes Gamification Points forts
  • 39. Days of Chaos Chapter 1 Days of Chaos Chapter 2 CHAPTER 3Vendredi 13/01/2017 Vendredi 07/07/2017 VENDREDI 13/07/2018
  • 41. En production La vraie vie, avec des vrais utilisateurs et potentiellement de la perte de VA. Communication Mettre en place du Chaos n’est pas la meilleure façon de rencontrer vos nouveaux collègues, mais c’est la plus rapide. Nora Jones (@nora_js) Gamification Rendre l’apprentissage plus amusant en s’appuyant sur la prédisposition humaine au jeu Expérimentation Les principaux points à retenir Validation de ce qui est important sur votre infrastructure. Votre résilience n’est pas celle des autres.
  • 42. Le Chaos Engineering dans le monde
  • 43. https://days-of-chaos.slack.com Paris Chaos Engineering Meetup http://meetu.ps/c/3BMlX/xNjMx/f https://chaosengineering.slack.com http://days-of-chaos.com/ https://medium.com/paris- chaos-engineering- community

Notes de l'éditeur

  1. De l’importance de tester nos backups et nos scénarios de reprises : Rm * Heureusement, la conceptrice principale venait d’accoucher et avec une synchro à la maison …
  2. Les organisations européennes connaissent en moyenne 3 incidents IT par mois. 2/3 (65%) des organisations européennes rapportent qu’un incident IT a déjà eu des conséquences sur leur réputation, engendrant des répercutions financières (115 k€).
  3. Définir qu’elle est l’hypothèse que l’on veut expérimenter : souhaite-t-on tester la résilience d’un composant, d’une application, d’une organisation ? Définir le périmètre de l’expérience : est-ce tout ou partie de la production ? est-ce uniquement l’environnement technique seul ou inclure également les interventions humaines (surveillance, exploitation, support), Identifier précisément les métriques qui permettront de valider l’expérience et éventuellement de l’arrêter instantanément en cas d’impact critique, Prévenir l’organisation de l’existence de l’expérimentation – pour éviter l’escalade en cas d’incident critique Réaliser l’expérience Analyser les résultats, mettre en place les éventuels plans d’action nécessaires Elargir le scope pour la prochaine expérience. Automatiser l’expérience pour qu’elle se réalise en continue afin de suivre l’évolution du système.
  4. On veut de la séduction? Préparons notre jeu comme un jeu vidéo avec une vrai jaquette!
  5. Ops ont les droits et connaissent un rayon sur les pannes! Subir ma vie d’exploitant Transformer la relation avec les devs Sortir de la routine
  6. Rappel objectif : Sdf Devops (faire une sorte de mini subit ma vie) Marquer les esprits Pannes Système! Celles que vivent les ops. Ceci aura été l’hameçonnage pour les ops. Faites subir aux devs ce que vous vivez!
  7. Rappel objectif : Sdf Devops (faire une sorte de mini subit ma vie) Marquer les esprits Pannes Système! Celles que vivent les ops. Ceci aura été l’hameçonnage pour les ops. Faites subir aux devs ce que vous vivez!
  8. Besoin d’implication forte de la partie ops. Présentation comme un jeu mais aussi comme une opportunité de faire un « vie ma vie d’exploitant ». Permettre de sensibiliser les équipes au travail fait et aux pannes les plus fréquentes ou au besoin de bien communiquer et développer les applications. 2 ateliers de création des pannes : 20 exploitants mobilisés en 2 sessions d’une heure. 40 pannes proposées. 15 short listées pour leur pertinence. 8 sélectionnées par facilité de mise en oeuvre et possibilité de résolution par les équipes de dev (il faut rester pragmatique). Désignation d’une équipe de choc pour gérer le scripting et la réalisation des pannes
  9. Phase de com’ – Opération séduction Des affiches de teasing créant une rupture avec toutes les autres opérations de com’ réalisées jusqu’à présent. Le thème principal : le jeu de guerre en reprenant comme support culturel « Ender’s Game (la strategie Ender) » de Scott Orson card. Des affiches posées avec très peu d’information, juste un « engagez-vous ». Un ajout à un moment donné d’une adresse vers un site interne réalisé pour l’événement avec sa propre charte graphique et son formulaire d’engagement. Une com’ réglementaire par mail venant compléter le tout et enfonçant le clou.
  10. Phase de jeu – Le jour J Début à 9h 4 + 8 + 5 personnes dédiées au déroulement. Deux commentateurs maitres de cérémonie (un à Paris, un à Nantes), une aide ops, une chargée de classement et de décompte de points, 8 ops à 150%, 2 com’ interne, 3 services généraux. Une conf Skype avec deux commentateurs donnant des informations sur le déroulement et les avancées du jeu Une room hipchat pour les communications officielles et les réponses Une conf Skype dediée ops 7 pannes déroulées dont une a râté. Une dernière annulée suite à un incident sur la preprod. Fin à 12h30 Remise des prix à 14h. Plus de 200 spectateurs
  11. War room côté ops pour éviter une conf dédiée parallèle + effet je suis dédié à l’événement. Possibilité pour les ops de participer à la conf gobale Prévoir plus d’ops pour faciliter le traitement des demandes des équipes. Descendre de 4h à 3h d’événement. Pousser peu plus loin les répétitions et les préparations des pannes. Planifier la fin des inscriptions plus tôt. Laisser un délais de un mois entre la fin des inscriptions et l’événement.
  12. Un sujet difficile, peu motivant rendu plus accessible par la gamification