Ce diaporama a bien été signalé.
Le téléchargement de votre SlideShare est en cours. ×

Cloud Expo Europe 2018 - "Et si on testait en production ?"

Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Prochain SlideShare
Jftl 2018   chaos engineering
Jftl 2018 chaos engineering
Chargement dans…3
×

Consultez-les par la suite

1 sur 32 Publicité

Cloud Expo Europe 2018 - "Et si on testait en production ?"

Télécharger pour lire hors ligne

Résilience de nos systèmes informatiques et organisationnels ? "A quel point votre système est-il proche du précipice et peut sombrer dans le chaos ?" Cette conférence s'adresse à tous ceux qui sont intéressés pour tenter de répondre à cette question et développer cette nouvelle discipline et les pratiques associées : Chaos Monkey, Chaos Gameday (AWS, Days Of Chaos, ...).

Résilience de nos systèmes informatiques et organisationnels ? "A quel point votre système est-il proche du précipice et peut sombrer dans le chaos ?" Cette conférence s'adresse à tous ceux qui sont intéressés pour tenter de répondre à cette question et développer cette nouvelle discipline et les pratiques associées : Chaos Monkey, Chaos Gameday (AWS, Days Of Chaos, ...).

Publicité
Publicité

Plus De Contenu Connexe

Diaporamas pour vous (20)

Similaire à Cloud Expo Europe 2018 - "Et si on testait en production ?" (20)

Publicité

Plus récents (20)

Publicité

Cloud Expo Europe 2018 - "Et si on testait en production ?"

  1. 1. @crochefolle Directeur Excellence Opérationnelle @ OUI.sncf Christophe ROCHEFOLLE
  2. 2. Pour la première fois, les indisponibilités arrivent en tête des sujets d’inquiétude des responsables informatiques, devançant ainsi la sécurité. Sondage réalisé sur un échantillon de 400 entreprises en Grande-Bretagne, Allemagne, France, Suède et Pays-Bas par Quocirca pour Splunk Source: Master of Machines III - Réduire l’impact des incidents IT Quocirca
  3. 3. Et pourtant on teste à tous les étages !! Sécurité, charge, métier Interface graphique, bout en bout, fonctionnels Intégrations, API Unitaires
  4. 4. « Comment tester dans un environnement comme celui d’Amazon ? Devez-vous construire un autre Amazon pour les tests quelque part, qui aurait le même nombre de machines, le même nombre de centres de calcul, de clients et les mêmes tables et fichiers ? » Werner Vogels, CTO Amazon
  5. 5. Et ça se complexifie …  DevOps,  Cloud, scalabilité  BigData, Smartdata,  IA,  Ordinateur quantique
  6. 6. CHAOS ENGINEERING « Discipline de l'expérimentation sur un système distribué afin de renforcer la confiance dans la capacité du système à résister à des conditions turbulentes en production. » http://principlesofchaos.org/ initiée par
  7. 7. Les grandes dates 2004 2010 2012 2016 2017 2018 Amazon—Jesse Robbins. Master of disaster Netflix—Greg Orzell. @chaosimia - Première implémentation d’un Chaos Monkey pour renforcer l’usage de services stateless en auto- scale NetflixOSS met à disposition en open source la Simian Army Création de Gremlin Inc Sortie du livre Netflix “Chaos Engineering” Projet Open Source “Chaos toolkit” Déploiement à l’international des concepts Chaos et la première Chaos Conf en septembre 2018 à San Francisco 2004 2010 2012 2016 2017 2018
  8. 8. La Question : A quel point votre système est-il proche du précipice et peut sombrer dans le chaos ?
  9. 9. Expérimenter en production ?!?
  10. 10. Expérimenter pour éprouver nos systèmes Expérimenter pour apprendre
  11. 11. Expérimenter en production sur un système stable et performant
  12. 12. Designer l’expérimentation 1. Question 2. Périmètre 3. Mesure 4. Communiquer 5. Injecter 6. Analyser
  13. 13. Expérimenter en continue Automatiser l’expérience pour qu’elle se réalise en continue afin de suivre l’évolution du système
  14. 14. Chaos Engineering (rappel) https://medium.com/russmiles/chaos-engineering-for-the-business-17b723f26361 Et concrètement ?
  15. 15. Bras digital au service de tous les transporteurs du groupe SNCF DevOps Excellence opérationnelle Agilité  Un acteur technologique de référence des solutions de mobilités  Pour un service de bout en bout (de la conception à l’exploitation)
  16. 16. avec un ADN commun Equipe : 840 3 Sites : Lille, Paris La Défense, Nantes CULTURE AGILE FEATURE TEAMS DEVOPS 40 BILLETS VENDUS / SECONDE Source ODV 2018 +6000 SERVEURS +2 To DE DONNEES TRAITEES / JOUR 1 PRA Actif en permanence : 70% des internautes à Lille, 30% à St Denis 99,997% Taux de dispo infra 150 APPLICATIONS
  17. 17. POC Squad inter-équipe dev & ops Développement en mode expérimental, à base de mini-hackatons Mars 2016 Mai 2017 … Janvier 2016 Octobre 2016 Février 2017 Communauté Résilience et Tests Techniques Objectifs : • Proposer des outils de test de résilience • Aider à la mise en place des outils et patterns • Apporter un changement culturel Mars 2016 Mai 2017 … Janvier 2016 Octobre 2016 Février 2017
  18. 18. Grâce à la communauté nous disposons d’un bestiaire à l’image de la Simian army de Netflix Mars 2016 Mai 2017 … Janvier 2016 Octobre 2016 Février 2017
  19. 19. Initiation au test en production, La panne va-t-elle avoir un impact notable? Pilotage et validation pour les devs Entrainement pour les ops Chaos Monkey Bridé Mars 2016 Mai 2017 … Janvier 2016 Octobre 2016 Février 2017
  20. 20. Chaos Monkey en production, La finalité Mon appli en prod Chaos Monkey Libéré! Délivré! LES DEV OPS Même pas peur Objectif : Aucun impact financier Même pas mal! Mars 2016 Mai 2017 … Janvier 2016 Octobre 2016 Février 2017
  21. 21. Premier Chaos Monkey en production… …et la production marche toujours Mars 2016 Mai 2017 … Janvier 2016 Octobre 2016 Février 2017
  22. 22. Et chaque mois de nouvelles applications exécutant régulièrement un chaos monkey en production Mars 2016 Mai 2017 … Janvier 2016 Octobre 2016 Février 2017
  23. 23. Days of Chaos Chapter One Vendredi 13 Janvier 2017
  24. 24. Résolution Dev Incident Ops Détection Dev Diagnostic Dev Remise en état... Validation Ops Gestion d’une panne Question bonus Vidéo explicative1 2 3
  25. 25. 113 joueurs 18 équipes 2 commentateurs 2 aides de camp 8 ops
  26. 26. Objectif accompli ! Détection : 87% Diagnostic : 73% Résolution : 45%
  27. 27. Supervision et alerting Tests techniques Partage des connaissances Arbres d’analyse 8 -> 6 pannes 4h -> 3h30 de jeu 80% Intérêt du jeu 70% Qualité de l’organisation 74% Prise de conscience • Disponibilité • Préparation des pannes • Trop peu pour gérer autant de joueurs • Quelques ratés organisationnels • Ambiance • Nouveauté • Intérêt • Jeu bien calibré pour une première
  28. 28. Communication et marketing Cohésion intra et inter-équipes Gamification Points forts
  29. 29. Days of Chaos Chapter 1 Days of Chaos Chapter 2 CHAPTER 3
  30. 30. Le Chaos Engineering dans le monde
  31. 31. https://days-of-chaos.slack.com Paris Chaos Engineering Meetup http://meetu.ps/c/3BMlX/xNjMx/f https://chaosengineering.slack.com http://days-of-chaos.com/ https://medium.com/paris- chaos-engineering- community

Notes de l'éditeur

  • Les organisations européennes connaissent en moyenne 3 incidents IT par mois.
    2/3 (65%) des organisations européennes rapportent qu’un incident IT a déjà eu des conséquences sur leur réputation, engendrant des répercutions financières (115 k€).
  • Définir qu’elle est l’hypothèse que l’on veut expérimenter : souhaite-t-on tester la résilience d’un composant, d’une application, d’une organisation ?
    Définir le périmètre de l’expérience : est-ce tout ou partie de la production ? est-ce uniquement l’environnement technique seul ou inclure également les interventions humaines (surveillance, exploitation, support),
    Identifier précisément les métriques qui permettront de valider l’expérience et éventuellement de l’arrêter instantanément en cas d’impact critique,
    Prévenir l’organisation de l’existence de l’expérimentation – pour éviter l’escalade en cas d’incident critique
    Réaliser l’expérience
    Analyser les résultats, mettre en place les éventuels plans d’action nécessaires
    Elargir le scope pour la prochaine expérience.
    Automatiser l’expérience pour qu’elle se réalise en continue afin de suivre l’évolution du système.
  • Le monde de la mobilité est à l'aune d'un changement profond. Le rapport entre le voyageur et son déplacement est à réinventer tant sur son expérience utilisateur, que ses modes de transport ou encore dans son paiement.
    Nous souhaitons être un acteur majeur de cette nouvelle ère grâce à notre stratégie e-Voyageurs.
    Pour accompagner cette stratégie VSCT devient EVTech.
    Leader IT des mobilités, nous changeons de dimension sans perdre nos convictions (agilité, culture produit) en nous appuyant sur nos expertises métiers et technologiques.
    Cette nouvelle ambition se traduit naturellement par des nouveaux modes de fonctionnement : aligner l'IT et le métier, favoriser l'innovation et
    la partager via des corpos; affirmer l'importance du bout-en-bout pour servir l'excellence opérationnelle.
  • Phase de jeu – Le jour J
    Début à 9h
    4 + 8 + 5 personnes dédiées au déroulement. Deux commentateurs maitres de cérémonie (un à Paris, un à Nantes), une aide ops, une chargée de classement et de décompte de points, 8 ops à 150%, 2 com’ interne, 3 services généraux.
    Une conf Skype avec deux commentateurs donnant des informations sur le déroulement et les avancées du jeu
    Une room hipchat pour les communications officielles et les réponses
    Une conf Skype dediée ops
    7 pannes déroulées dont une a râté. Une dernière annulée suite à un incident sur la preprod.
    Fin à 12h30
    Remise des prix à 14h. Plus de 200 spectateurs
  • War room côté ops pour éviter une conf dédiée parallèle + effet je suis dédié à l’événement. Possibilité pour les ops de participer à la conf gobale
    Prévoir plus d’ops pour faciliter le traitement des demandes des équipes.
    Descendre de 4h à 3h d’événement.
    Pousser peu plus loin les répétitions et les préparations des pannes.
    Planifier la fin des inscriptions plus tôt. Laisser un délais de un mois entre la fin des inscriptions et l’événement.
  • Un sujet difficile, peu motivant rendu plus accessible par la gamification

×