Résilience de nos systèmes informatiques et organisationnels ? "A quel point votre système est-il proche du précipice et peut sombrer dans le chaos ?" Cette conférence s'adresse à tous ceux qui sont intéressés pour tenter de répondre à cette question et développer cette nouvelle discipline et les pratiques associées : Chaos Monkey, Chaos Gameday (AWS, Days Of Chaos, ...).
3. Pour la première fois, les indisponibilités
arrivent en tête des sujets d’inquiétude
des responsables informatiques,
devançant ainsi la sécurité.
Sondage réalisé sur un échantillon de 400 entreprises en Grande-Bretagne,
Allemagne, France, Suède et Pays-Bas par Quocirca pour Splunk
Source: Master of Machines III - Réduire l’impact des incidents IT Quocirca
4. Et pourtant on teste à tous les étages !!
Sécurité, charge,
métier
Interface graphique,
bout en bout,
fonctionnels
Intégrations, API
Unitaires
5. « Comment tester dans un
environnement comme celui d’Amazon ?
Devez-vous construire un autre Amazon
pour les tests quelque part, qui aurait le
même nombre de machines, le même
nombre de centres de calcul, de clients
et les mêmes tables et fichiers ? »
Werner Vogels, CTO Amazon
6. Et ça se complexifie …
DevOps,
Cloud, scalabilité
BigData, Smartdata,
IA,
Ordinateur quantique
7. CHAOS ENGINEERING
« Discipline de l'expérimentation sur un système distribué afin de
renforcer la confiance dans la capacité du système à résister à des
conditions turbulentes en production. »
http://principlesofchaos.org/
initiée par
8. Les grandes dates
2004
2010
2012
2016
2017
2018
Amazon—Jesse Robbins. Master of disaster
Netflix—Greg Orzell. @chaosimia - Première implémentation d’un
Chaos Monkey pour renforcer l’usage de services stateless en auto-
scale
NetflixOSS met à disposition en open source la Simian Army
Création de Gremlin Inc
Sortie du livre Netflix “Chaos Engineering”
Projet Open Source “Chaos toolkit”
Déploiement à l’international des concepts Chaos et la première
Chaos Conf en septembre 2018 à San Francisco
2004 2010 2012 2016 2017 2018
9. La Question :
A quel point votre système
est-il proche du précipice
et peut sombrer
dans le chaos ?
16. Bras digital au service de tous les transporteurs du groupe SNCF
DevOps
Excellence
opérationnelle
Agilité
Un acteur technologique de référence des solutions de mobilités
Pour un service de bout en bout (de la conception à l’exploitation)
17. avec un ADN commun
Equipe : 840
3 Sites : Lille,
Paris La Défense,
Nantes
CULTURE AGILE
FEATURE TEAMS
DEVOPS
40
BILLETS VENDUS / SECONDE
Source ODV 2018
+6000
SERVEURS
+2 To
DE DONNEES TRAITEES / JOUR
1 PRA
Actif en permanence : 70% des internautes à Lille,
30% à St Denis
99,997%
Taux de dispo infra
150
APPLICATIONS
18. POC
Squad inter-équipe dev & ops
Développement en mode expérimental,
à base de mini-hackatons
Mars 2016
Mai 2017
…
Janvier 2016
Octobre 2016
Février 2017
Communauté
Résilience et Tests Techniques
Objectifs :
• Proposer des outils de test de résilience
• Aider à la mise en place des outils et patterns
• Apporter un changement culturel
Mars 2016
Mai 2017
…
Janvier 2016
Octobre 2016
Février 2017
19. Grâce à la communauté
nous disposons d’un bestiaire
à l’image de la Simian army de
Netflix
Mars 2016
Mai 2017
…
Janvier 2016
Octobre 2016
Février 2017
20. Initiation au test en production,
La panne va-t-elle avoir un impact notable?
Pilotage et validation pour les devs Entrainement pour les ops
Chaos Monkey
Bridé
Mars 2016
Mai 2017
…
Janvier 2016
Octobre 2016
Février 2017
21. Chaos Monkey en production,
La finalité
Mon appli en prod
Chaos Monkey
Libéré! Délivré!
LES DEV OPS
Même pas peur
Objectif :
Aucun impact financier
Même pas mal!
Mars 2016
Mai 2017
…
Janvier 2016
Octobre 2016
Février 2017
22. Premier Chaos Monkey en production…
…et la production marche toujours
Mars 2016
Mai 2017
…
Janvier 2016
Octobre 2016
Février 2017
23. Et chaque mois de nouvelles applications
exécutant régulièrement un chaos monkey en
production
Mars 2016
Mai 2017
…
Janvier 2016
Octobre 2016
Février 2017
28. Supervision et alerting
Tests techniques
Partage des connaissances
Arbres d’analyse
8 -> 6 pannes
4h -> 3h30 de jeu
80% Intérêt du jeu
70% Qualité de l’organisation
74% Prise de conscience
• Disponibilité
• Préparation des pannes
• Trop peu pour gérer autant de joueurs
• Quelques ratés organisationnels
• Ambiance
• Nouveauté
• Intérêt
• Jeu bien calibré pour une première
Les organisations européennes connaissent en moyenne 3 incidents IT par mois.
2/3 (65%) des organisations européennes rapportent qu’un incident IT a déjà eu des conséquences sur leur réputation, engendrant des répercutions financières (115 k€).
Définir qu’elle est l’hypothèse que l’on veut expérimenter : souhaite-t-on tester la résilience d’un composant, d’une application, d’une organisation ?
Définir le périmètre de l’expérience : est-ce tout ou partie de la production ? est-ce uniquement l’environnement technique seul ou inclure également les interventions humaines (surveillance, exploitation, support),
Identifier précisément les métriques qui permettront de valider l’expérience et éventuellement de l’arrêter instantanément en cas d’impact critique,
Prévenir l’organisation de l’existence de l’expérimentation – pour éviter l’escalade en cas d’incident critique
Réaliser l’expérience
Analyser les résultats, mettre en place les éventuels plans d’action nécessaires
Elargir le scope pour la prochaine expérience.
Automatiser l’expérience pour qu’elle se réalise en continue afin de suivre l’évolution du système.
Le monde de la mobilité est à l'aune d'un changement profond. Le rapport entre le voyageur et son déplacement est à réinventer tant sur son expérience utilisateur, que ses modes de transport ou encore dans son paiement.
Nous souhaitons être un acteur majeur de cette nouvelle ère grâce à notre stratégie e-Voyageurs.
Pour accompagner cette stratégie VSCT devient EVTech.
Leader IT des mobilités, nous changeons de dimension sans perdre nos convictions (agilité, culture produit) en nous appuyant sur nos expertises métiers et technologiques.
Cette nouvelle ambition se traduit naturellement par des nouveaux modes de fonctionnement : aligner l'IT et le métier, favoriser l'innovation et
la partager via des corpos; affirmer l'importance du bout-en-bout pour servir l'excellence opérationnelle.
Phase de jeu – Le jour J
Début à 9h
4 + 8 + 5 personnes dédiées au déroulement. Deux commentateurs maitres de cérémonie (un à Paris, un à Nantes), une aide ops, une chargée de classement et de décompte de points, 8 ops à 150%, 2 com’ interne, 3 services généraux.
Une conf Skype avec deux commentateurs donnant des informations sur le déroulement et les avancées du jeu
Une room hipchat pour les communications officielles et les réponses
Une conf Skype dediée ops
7 pannes déroulées dont une a râté. Une dernière annulée suite à un incident sur la preprod.
Fin à 12h30
Remise des prix à 14h. Plus de 200 spectateurs
War room côté ops pour éviter une conf dédiée parallèle + effet je suis dédié à l’événement. Possibilité pour les ops de participer à la conf gobale
Prévoir plus d’ops pour faciliter le traitement des demandes des équipes.
Descendre de 4h à 3h d’événement.
Pousser peu plus loin les répétitions et les préparations des pannes.
Planifier la fin des inscriptions plus tôt. Laisser un délais de un mois entre la fin des inscriptions et l’événement.
Un sujet difficile, peu motivant rendu plus accessible par la gamification