[devops REX 2017] Days of Chaos : le développement de la culture devops chez ...devops REX
Voyages-sncf.com a abordé les sujets d’agilité depuis plusieurs années et a ainsi pu en 2016 effectuer 233 mise en production sur son site web et ses applications mobiles grâce à une démarche basée sur 3 piliers :
· Agilité
· Usine Logicielle DevOps
· Feature Team
Cependant, avec la démultiplication des équipes applicatives autonomes et responsables, l’accélération des mises en productions, nous avons dû faire évoluer nos démarches pour maintenir la stabilité du système.
Pour cela, nous nous sommes fixés comme objectifs de passer de l’exploitabilité (conformité aux Normes d’Exploitation) assurant la Qualité de Service (capacité d’un réseau à fournir un service : performance et disponibilité) à de la sûreté de fonctionnement en garantissant un niveau de confiance justifiée dans les évolutions que nous apportons pour nous permettre d’améliorer le degré de plaisir de nos utilisateurs dans l’usage de nos applications ou services (Qualité d’Expérience – QoE).
Pour que les équipes comprennent les enjeux d’une telle démarche, Netflix a créé un Chaos Monkey : il s’agit d’une application, en production, qui débranche des flux réseau ou des machines aléatoirement, sans que personne ne puisse le contrôler. Avec un tel programme en environnement de production, les équipes sont obligées d’imaginer tous les scénarios et les démarches à appliquer en cas de problème. La sûreté de fonctionnement devient un vrai enjeu.
Nous venons de déployer un tel programme en production.
Nous nous sommes également inspirée des GameDays d’AWS pour tester la résilience de ses applications. Le vendredi 13 janvier, les équipes applicatives volontaires ont participé à un Day of Chaos. Toutes les 30 minutes, des exploitants simulaient des pannes en pré-production. Les équipes obtenaient des points en fonction des détections, des diagnostics et des résolutions. Ce type d’événement gamifié a permis d’initier les équipes de développement à ces concepts.
L’objectif de REX est donc de vous partager ce que nous avons appris du début de l’initiative à sa réalisation, et les enseignements que nous en avons tirer.
Looking to build intelligent apps that will get to market faster or create apps by stitching together valuable and complementary functionality from various sources?
Azure serverless helps you quickly build and deploy cloud-scale enterprise applications in Azure leveraging Azure’s key serverless offerings – Functions, Logic Apps, and Event Grid.
Serverless computing is the abstraction of servers, infrastructure, and operating systems. Azure Serverless allows you to focus on building and deploying your code without worrying about managing servers. Once deployed, you can trust Azure to scale your code in real-time as per need, and you pay for only the resources you use.
[devops REX 2017] Days of Chaos : le développement de la culture devops chez ...devops REX
Voyages-sncf.com a abordé les sujets d’agilité depuis plusieurs années et a ainsi pu en 2016 effectuer 233 mise en production sur son site web et ses applications mobiles grâce à une démarche basée sur 3 piliers :
· Agilité
· Usine Logicielle DevOps
· Feature Team
Cependant, avec la démultiplication des équipes applicatives autonomes et responsables, l’accélération des mises en productions, nous avons dû faire évoluer nos démarches pour maintenir la stabilité du système.
Pour cela, nous nous sommes fixés comme objectifs de passer de l’exploitabilité (conformité aux Normes d’Exploitation) assurant la Qualité de Service (capacité d’un réseau à fournir un service : performance et disponibilité) à de la sûreté de fonctionnement en garantissant un niveau de confiance justifiée dans les évolutions que nous apportons pour nous permettre d’améliorer le degré de plaisir de nos utilisateurs dans l’usage de nos applications ou services (Qualité d’Expérience – QoE).
Pour que les équipes comprennent les enjeux d’une telle démarche, Netflix a créé un Chaos Monkey : il s’agit d’une application, en production, qui débranche des flux réseau ou des machines aléatoirement, sans que personne ne puisse le contrôler. Avec un tel programme en environnement de production, les équipes sont obligées d’imaginer tous les scénarios et les démarches à appliquer en cas de problème. La sûreté de fonctionnement devient un vrai enjeu.
Nous venons de déployer un tel programme en production.
Nous nous sommes également inspirée des GameDays d’AWS pour tester la résilience de ses applications. Le vendredi 13 janvier, les équipes applicatives volontaires ont participé à un Day of Chaos. Toutes les 30 minutes, des exploitants simulaient des pannes en pré-production. Les équipes obtenaient des points en fonction des détections, des diagnostics et des résolutions. Ce type d’événement gamifié a permis d’initier les équipes de développement à ces concepts.
L’objectif de REX est donc de vous partager ce que nous avons appris du début de l’initiative à sa réalisation, et les enseignements que nous en avons tirer.
Looking to build intelligent apps that will get to market faster or create apps by stitching together valuable and complementary functionality from various sources?
Azure serverless helps you quickly build and deploy cloud-scale enterprise applications in Azure leveraging Azure’s key serverless offerings – Functions, Logic Apps, and Event Grid.
Serverless computing is the abstraction of servers, infrastructure, and operating systems. Azure Serverless allows you to focus on building and deploying your code without worrying about managing servers. Once deployed, you can trust Azure to scale your code in real-time as per need, and you pay for only the resources you use.
Vous n'avez pas pu assister à la journée DevOps by Xebia ? Voici la présentation de Clément Rochas vous présentant les outils indispensable d'une équipe DevOps.
Devops architecture involves three main categories of infrastructure: IT infrastructure (version control, issue tracking, etc.), build infrastructure (build servers with access to source code), and test infrastructure (deployment, acceptance, and functional testing). Continuous integration involves automating the integration of code changes, while continuous delivery ensures code is always releasable but actual deployment is manual. Continuous deployment automates deployment so that any code passing tests is immediately deployed to production. The document discusses infrastructure hosting options, automation approaches, common CI/CD workflows, and provides examples of low and medium-cost devops tooling setups using open source and proprietary software.
This document provides an overview of Kanban concepts and practices for improving workflow. It discusses how Kanban aims to visualize workflow, limit work-in-progress, encourage continuous flow and collaboration, and evolve processes experimentally through measurement and feedback. Key aspects covered include managing demand and capacity, understanding customers, focusing on flow and pull systems, setting work-in-progress limits, and continuously improving through reflection and data.
Apache Kafka is a publish-subscribe messaging system that can be used to build a pub-sub model. It uses a log-structured approach where messages are appended sequentially to files. Messages are categorized into topics which are divided into partitions. Producers create and publish messages to topics, while consumers subscribe to topics and read messages. Brokers receive messages from producers and serve them to consumers. Kafka is scalable, supports multiple producers and consumers, retains messages on disk, and provides high performance even under heavy loads. To build a pub-sub model with Kafka, producers publish messages to topics and consumers subscribe to topics to receive messages.
This document provides an overview of Docker, including what it is, how it compares to virtual machines and containers, its architecture and features. It discusses that Docker virtualizes using lightweight Linux containers rather than full virtual machines, and how this provides benefits like smaller size and faster performance compared to VMs. It also covers Docker's components like the Docker Engine, Hub and images, and how Docker can be used to develop, ship and run applications on any infrastructure.
Building Cloud-Native App Series - Part 5 of 11
Microservices Architecture Series
Microservices Architecture,
Monolith Migration Patterns
- Strangler Fig
- Change Data Capture
- Split Table
Infrastructure Design Patterns
- API Gateway
- Service Discovery
- Load Balancer
Message Redelivery: An Unexpected Journey - Pulsar Summit SF 2022StreamNative
This document summarizes the message redelivery process in Apache Pulsar. It discusses how messages are redelivered when producing or consuming messages. When producing, messages are redelivered if the broker does not acknowledge receipt in a timely manner. When consuming, messages are redelivered under three circumstances: if the acknowledgment times out, if messages are negatively acknowledged, or if delivery is delayed. The document provides details on the commands and objects involved in establishing connections, publishing, consuming, acknowledging, and redelivering messages between Pulsar clients and brokers.
The document discusses best practices for DevOps culture. It outlines 5 topics: 1) Train everyone on new DevOps tools and workflows, 2) Share and speak openly about projects, 3) Collaborate between development and operations teams and automate processes, 4) Prioritize building trust between teams with a focus on business services, and 5) Build a diverse project team with different skills including development, deployment, and testing. The document provides an overview of DevOps and examples of how companies like Amazon, Facebook, and Etsy implement DevOps practices.
En charge de la Transformation Agile de mon entreprise, et du Centre d’Excellence associé, il m’a semblé évident de poursuivre les travaux entamés en y associant une initiative DevOps.
En quête d’informations sur le DevOps et sur la manière de le mettre en œuvre au sein d’une organisation, je partage mes recherches et mon analyse en regard des difficultés que je constate entre mes équipes de développeurs et celles en charge des opérations.
Aujourd’hui, l’Agilité sans DevOps n’a plus de sens et une collaboration efficace doit exister entre les Dev et les Ops pour fluidifier la démarche Agile.
Sébastien Bourguignon
This document discusses key concepts related to sprints in Scrum, including definitions of a sprint, characteristics of sprints, suitable sprint durations, and timeboxing. It provides details on sprint durations being between one week and one month, with two weeks being common. Sprints should have consistent durations and be timeboxed with fixed start/end dates. The document also discusses allowing clarification but not material changes to sprint goals once started.
This document discusses DevOps practices at Amazon, including:
1. Amazon uses DevOps practices like continuous integration, deployment, and automation to deploy code changes frequently and reliably, with mean deployment times of 11.6 seconds and up to 10,000 deployments in an hour.
2. Adopting DevOps practices has led to a 75% reduction in outages from software deployments and a 90% reduction in outage minutes since 2006.
3. The document outlines DevOps tools and practices used at Amazon like AWS services for version control, continuous integration, deployment automation, and monitoring.
Kubernetes is a system for orchestrating containerized workloads and services across many nodes that provides tools for managing replication, scaling, and state. KEDA allows Kubernetes to automatically scale function apps in response to events from sources like message queues or serverless triggers by integrating with functions running as pods and scaling them based on metrics and triggers. KEDA is useful for running serverless functions on Kubernetes in environments like on-premises, at the edge, or alongside other Kubernetes workloads where full control over scaling is needed.
Docker Kubernetes Istio
Understanding Docker and creating containers.
Container Orchestration based on Kubernetes
Blue Green Deployment, AB Testing, Canary Deployment, Traffic Rules based on Istio
Vous n'avez pas pu assister à la journée DevOps by Xebia ? Voici la présentation de Clément Rochas vous présentant les outils indispensable d'une équipe DevOps.
Devops architecture involves three main categories of infrastructure: IT infrastructure (version control, issue tracking, etc.), build infrastructure (build servers with access to source code), and test infrastructure (deployment, acceptance, and functional testing). Continuous integration involves automating the integration of code changes, while continuous delivery ensures code is always releasable but actual deployment is manual. Continuous deployment automates deployment so that any code passing tests is immediately deployed to production. The document discusses infrastructure hosting options, automation approaches, common CI/CD workflows, and provides examples of low and medium-cost devops tooling setups using open source and proprietary software.
This document provides an overview of Kanban concepts and practices for improving workflow. It discusses how Kanban aims to visualize workflow, limit work-in-progress, encourage continuous flow and collaboration, and evolve processes experimentally through measurement and feedback. Key aspects covered include managing demand and capacity, understanding customers, focusing on flow and pull systems, setting work-in-progress limits, and continuously improving through reflection and data.
Apache Kafka is a publish-subscribe messaging system that can be used to build a pub-sub model. It uses a log-structured approach where messages are appended sequentially to files. Messages are categorized into topics which are divided into partitions. Producers create and publish messages to topics, while consumers subscribe to topics and read messages. Brokers receive messages from producers and serve them to consumers. Kafka is scalable, supports multiple producers and consumers, retains messages on disk, and provides high performance even under heavy loads. To build a pub-sub model with Kafka, producers publish messages to topics and consumers subscribe to topics to receive messages.
This document provides an overview of Docker, including what it is, how it compares to virtual machines and containers, its architecture and features. It discusses that Docker virtualizes using lightweight Linux containers rather than full virtual machines, and how this provides benefits like smaller size and faster performance compared to VMs. It also covers Docker's components like the Docker Engine, Hub and images, and how Docker can be used to develop, ship and run applications on any infrastructure.
Building Cloud-Native App Series - Part 5 of 11
Microservices Architecture Series
Microservices Architecture,
Monolith Migration Patterns
- Strangler Fig
- Change Data Capture
- Split Table
Infrastructure Design Patterns
- API Gateway
- Service Discovery
- Load Balancer
Message Redelivery: An Unexpected Journey - Pulsar Summit SF 2022StreamNative
This document summarizes the message redelivery process in Apache Pulsar. It discusses how messages are redelivered when producing or consuming messages. When producing, messages are redelivered if the broker does not acknowledge receipt in a timely manner. When consuming, messages are redelivered under three circumstances: if the acknowledgment times out, if messages are negatively acknowledged, or if delivery is delayed. The document provides details on the commands and objects involved in establishing connections, publishing, consuming, acknowledging, and redelivering messages between Pulsar clients and brokers.
The document discusses best practices for DevOps culture. It outlines 5 topics: 1) Train everyone on new DevOps tools and workflows, 2) Share and speak openly about projects, 3) Collaborate between development and operations teams and automate processes, 4) Prioritize building trust between teams with a focus on business services, and 5) Build a diverse project team with different skills including development, deployment, and testing. The document provides an overview of DevOps and examples of how companies like Amazon, Facebook, and Etsy implement DevOps practices.
En charge de la Transformation Agile de mon entreprise, et du Centre d’Excellence associé, il m’a semblé évident de poursuivre les travaux entamés en y associant une initiative DevOps.
En quête d’informations sur le DevOps et sur la manière de le mettre en œuvre au sein d’une organisation, je partage mes recherches et mon analyse en regard des difficultés que je constate entre mes équipes de développeurs et celles en charge des opérations.
Aujourd’hui, l’Agilité sans DevOps n’a plus de sens et une collaboration efficace doit exister entre les Dev et les Ops pour fluidifier la démarche Agile.
Sébastien Bourguignon
This document discusses key concepts related to sprints in Scrum, including definitions of a sprint, characteristics of sprints, suitable sprint durations, and timeboxing. It provides details on sprint durations being between one week and one month, with two weeks being common. Sprints should have consistent durations and be timeboxed with fixed start/end dates. The document also discusses allowing clarification but not material changes to sprint goals once started.
This document discusses DevOps practices at Amazon, including:
1. Amazon uses DevOps practices like continuous integration, deployment, and automation to deploy code changes frequently and reliably, with mean deployment times of 11.6 seconds and up to 10,000 deployments in an hour.
2. Adopting DevOps practices has led to a 75% reduction in outages from software deployments and a 90% reduction in outage minutes since 2006.
3. The document outlines DevOps tools and practices used at Amazon like AWS services for version control, continuous integration, deployment automation, and monitoring.
Kubernetes is a system for orchestrating containerized workloads and services across many nodes that provides tools for managing replication, scaling, and state. KEDA allows Kubernetes to automatically scale function apps in response to events from sources like message queues or serverless triggers by integrating with functions running as pods and scaling them based on metrics and triggers. KEDA is useful for running serverless functions on Kubernetes in environments like on-premises, at the edge, or alongside other Kubernetes workloads where full control over scaling is needed.
Docker Kubernetes Istio
Understanding Docker and creating containers.
Container Orchestration based on Kubernetes
Blue Green Deployment, AB Testing, Canary Deployment, Traffic Rules based on Istio
Résilience de nos systèmes informatiques et organisationnels ? "A quel point votre système est-il proche du précipice et peut sombrer dans le chaos ?" Cette conférence s'adresse à tous ceux qui sont intéressés pour tenter de répondre à cette question et développer cette nouvelle discipline et les pratiques associées : Chaos Monkey, Chaos Gameday (AWS, Days Of Chaos, ...).
Ce Meetup Chaos Engineering s'inscrit dans la nouvelle édition du meta-meetup #DevopsNight, avec un beau programme composé d'une belle keynote qui vous permettra de (re)découvrir le Chaos Engineering, suivi de 4 meetups qui ont eu lieu en parallèle (Docker, Chaos Engineering, Kubernetes et Serverless).
Infra as Code, choisissez vous la pilule rouge ou la pilule bleue - Devoxx 2016Fabien Arcellier
Après maints périples, vous avez progressivement amélioré votre capacité à gérer des environnements au travers d'Infra as Code. Votre code initialement simple a pris de l'embonpoint et vous sentez la réalité vous rattraper implacablement : vous êtes en train de créer de la complexité, voire même de la dette.
Loin d'être une fatalité, à partir de notre expérience de développeur (Fabien) et d'ops (Alexandre), nous vous proposons un road trip dans des
pratiques de développement déclinées sur l'Infra as Code (Bash, Puppet et Ansible).
Nous présentons des pratiques, des plus simples activables immédiatement à des démarches plus complexes pour dessiner une big picture de l'Infra as Code, de ses contraintes, de ses forces et de ses pièges.
* Comment mettre en place des boucles de feedback les plus courtes possibles ?
* Comment faire du test driven development sur l'infrastructure ?
* Quels patterns et outils pour tester une configuration sans tirer toute votre infra et itérer plus rapidement ?
* Quel est le rapport entre Tetris, un ascenceur et l'Infra as Code ?
Support de la présentation du 6ième Meetup français sur le Chaos Engineering
Retour sur la Chaos Conf 2018
Résumé :
Des débuts de Jesse Robbins, Master of Disaster chez Amazon en 2004 à la Chaos Conf à San Francisco en septembre 2018, retour sur la première Chaos Conf à San Francisco le 28 septembre 2018. L'occasion de rencontrer nos homologues, échanger sur nos pratiques mais aussi contribuer à l'accroissement de la connaissance sur le sujet.
L'occasion de revenir notamment sur 2 sujets inspirants:
• La taxonomie des incidents : désigne un langage, une terminologie et des définitions communes permettant d'atténuer les problèmes de communication entre les personnes travaillant sur la résilience (résistance au choc). Merci Adrian Cockroft
• L'observabilité : un ensemble de moyens et pratiques permettant de s'assurer que son système fournit la meilleure qualité de service possible et la mise à disposition d'informations pour investiguer lorsque ce n'est pas le cas (cf. eBook Observabilité). Probablement le mot le plus prononcé lors de la journée après « chaos » ! Merci Charity Majors & Adrian COckroft
L’état de l’art des tests front-end
Maîtriser et fiabiliser son code sont aujourd’hui devenus incontournables pour tout développeur devant faire face à des architectures Web de plus en plus riches et complexes.
Il existe des outils pour réaliser des tests front-end d’applications Web et répondre aux besoins d’un développement de qualité.
Nous vous invitons ici à parcourir l’écosystème de ces tests front-end d’applications Web. Que vous soyez déjà convaincus par les tests ou tout simplement curieux, ce document vous guidera pour les mettre en place sur vos projets.
Venez découvrir la rétrospective, non sans humour, de mes huit dernières années dans la création de logiciels.
Je parle de mes débuts avec SCRUM, de la réécriture d'une application mobile un nombre honteux de fois, de l'apprentissage de Clean Code et de l'Extreme Programming.
Je tire les leçons de ces huit années et tente de répondre à ces deux questions :
- Le•a développeur•se est-il•elle une espèce à part, incapable de communiquer avec les gens "normaux" ?
- L'entropie est-elle une fatalité conduisant inévitablement à la réécriture ?
Chaque année, une partie de l'équipe SpikeeLabs se retrouve au Dev Fest de Nantes ! C'est LA rencontre des ingénieurs immanquable 😀
Et comme chaque année, l'ensemble des équipe a un petit debrief !
Radical Quality From Toyota to Tech - Devoxx France.pptxFlavian Hautbois
Where defects in the industry are counted as defects per million parts produced, a developer introduces an average of 70 bugs for every 1000 lines of code produced. We immersed ourselves in the experiments of Sadao Nomura, who launched Dantotsu "Better than the best" activities in Toyota factories, a 3-year program capable of reducing defects by 85%.
The tech practices, visual management, and tools of Dantotsu inspired us to:
- Eradicate the root causes of a bug within 24 hours of its detection
- Identify "weak points", typical problems that require strengthening the training system
- Create a culture of quality where everyone shares their solved bugs
We cover the theory of Dantotsu radical quality and the experiments we ran before April 2023.
Woody is the CTO and co-founder of Sipios, a fintech development agency. Flavian is a co-author of Build To Sell, lean coach in tech and product, and former CTO.
Keynote #2 - "Chaos Engineering : si on testait en production ?" par Christophe Rochefolle - Directeur de l’excellence opérationnelle / OUI.sncf
lors de la Journée Française des Tests Logiciels 2018
Vous ne manquez pas de tutoriels pour écrire un "Hello, world" avec n'importe quel framework. Mais que se passe-t-il quand, sur cette base, vous faites travailler une équipe de 4 développeurs pendant 6 mois ? Petit retour d'expérience sur l'architecture logicielle d'une application Symfony2 de taille moyenne, avec des visualisations inédites et des indices pour répondre à cette éternelle question : mais où je le mets ce code ?
Présentation effectuée au PHP Tour Lyon 2014
Par Alexis Kinsella (CTO @Xebia) @ Gérome Egron (Consultant développeur & Scrum Master @ Xebia)
Toutes les vidéos des conférences seront disponibles sur Xebia.tv
Deployer en continu, Benoît Lafontaine, USIEVENT 2013Benoît Lafontaine
Presentation played at USIEVENT 2013, see the presentation on youtube: http://www.youtube.com/watch?v=UcDtH5s406M&feature=share&list=PLyzb9DL11tdZBlz6nY8TZxMcqVf04K5wY
Le Chaos Engineering est une discipline qui vise à vous permettre de mieux prévenir les faiblesses de vos systèmes en les explorant méthodiquement et objectivement.
Alternative - Complément au Tramway et 3ème lien de la ville de Québec Daniel Bedard
An update of this presentation has been done with Slide 16 that has been updated and 17 has been added, only.
Cette présentation a été ajournée avec la diapo 16 qui a été modifié et la 17 qui a été ajouté.
Voir ici
https://www.slideshare.net/slideshow/alternative-au-tramway-de-la-ville-de-quebec-rev1-sum-pdf/269691794
CDPQ Infra dévoile un plan de mobilité de 15 G$ sur 15 ans pour la région de Québec. Une alternative plus économique et rapide, ne serait-elle pas posssible?
- Valoriser les infrastructures ferroviaires du CN, en créant un Réseau Express Métropolitain (REM) plutôt qu'un nouveau tramway ou une combinaison des 2.
- Optimiser l'utilisation des rails pour un transport combiné des marchandises et des personnes, en accordant une priorité aux déplacements des personnes aux heures de pointes.
- Intégrer un téléphérique transrives comme 3ème lien urbain dédiés aux piétons et cyclistes avec correspondance avec le REM.
- Le 3 ème lien routier est repensé en intégrant un tunnel routier qui se prolonge avec le nouveau pont de l'Île d'Orléans et quelques réaménagemet de ses chausées.
https://www.linkedin.com/in/bedarddaniel/
English:
CDPQ Infra unveils a $15 billion, 15-year mobility plan for the Quebec region. Wouldn't a more economical and faster alternative be possible?
Leverage CN's railway infrastructure by creating a Metropolitan Express Network (REM) instead of a new tramway or a combination of both.
Optimize the use of rails for combined freight and passenger transport, giving priority to passenger travel during peak hours.
Integrate a cross-river cable car as a third urban link dedicated to pedestrians and cyclists, with connections to the REM.
Rethink the third road link by integrating a road tunnel that extends with the new Île d'Orléans bridge and some reconfiguration of its lanes.
https://www.linkedin.com/in/bedarddaniel/
3. #DevoxxFR
Evolution de “Chaos Monkey” vs “Chaos
Engineering” depuis Juin 2010 sur Google
Trends
Chaos Engineering au sein du
Technology Radar de ThoughtWorks
…Et ce n’est que le début!
Le Chaos Testing en early adopter à la
Conference Qcon New york
7. #DevoxxFR
La résilience est le principe de base de la vie
Faire pareil avec les systèmes informatiques?
Continuer de
vivre quoi qu’il
arrive…
8. #DevoxxFR
Le Chaos engineering vise à accroitre la résilience
des systèmes d’informations, des applications et
des infrastructures qui la composent, mais aussi
des équipes qui les gèrent.
Mais comment?...
12. #DevoxxFR
CHAOS ENGINEERING
« Discipline de l'expérimentation sur un système distribué afin de
renforcer la confiance dans la capacité du système à résister à des
conditions turbulentes en production. »
http://principlesofchaos.org/
initiée par
13. #DevoxxFR
Les étapes de l’expérimentation
1. Que cherche-t-on à prouver?
2. Restreindre le périmètre
3. Identifier ce qu’il faut observer
4. Communiquer!
5. Injecter le chaos
6. Analyser consciencieusement les impacts
7. Et Recommencer!
14. #DevoxxFR
Pour la première fois, les indisponibilités
arrivent en tête des sujets d’inquiétude
des responsables informatiques,
devançant ainsi la sécurité.
Sondage réalisé sur un échantillon de 400 entreprises en Grande-Bretagne,
Allemagne, France, Suède et Pays-Bas par Quocirca pour Splunk
Source: Master of Machines III - Réduire l’impact des incidents IT Quocirca
18. #DevoxxFR
Auto-scaling:
Dimensionner son architecture aux justes
besoins du moment, c’est-à-dire de
pouvoir dynamiquement augmenter ou
réduire le nombre d’instances nécessaires
au bon fonctionnement du SI sans
pénaliser les performances.
Scale up :
le système peine, il faut créer plus
d’instances pour absorber la charge.
Scale down :
le système est en sous charge, il ne sert à
rien de disposer de trop d’instances, on les
retire pour adapter la charge.
Scale initial :
C’est le nombre d’instances optimal
devant être disponible à tout moment.
On peut tester l’implémentation
avec un tir de charge
Mais on l’expérimente dans la
vraie vie avec un Chaos Monkey
19. #DevoxxFR
Je n’ai pas d’auto scaling, je ne suis pas chez
AWS, puis-je faire du chaos monkey?
20. #DevoxxFR
Conserver les mêmes concepts autour du Chaos Engineering
Redéfinir et adapter le Chaos Monkey à son infrastructure :
• Valider la résilience des applications sur le même symptôme
• Vérifier la présence d’effets inattendus
Le Chaos
Monkey c’est
une interface à
implémenter!
22. #DevoxxFR
{
"monkey": {
"name": "chaos monkey",
"target": {
"application": "XYZ",
"environnement": "PREP1",
"techno": "webServer",
"nodePattern": "order"
},
"delay": {
"minDelay": "0m",
"maxDelay": "7d",
"workedTime": "0-24|1234567",
"restart": "true",
"restartTime": "10m"
},
"killStyle": "brutal",
"mailTo": "toto@devoxx.fr"
}
}
Mais finalement un peu plus compliqué que ça!
On ne déchaine
pas comme ça
les feux de
l’enfer!
24. #DevoxxFR
POC
Squad inter-équipe dev & ops
Développement en mode expérimental,
à base de mini-hackatons
Mars 2016
Mai 2017
Aujourd’hui
Janvier 2016
Octobre 2016
Février 2017
25. #DevoxxFR
Communauté
Résilience et Tests Techniques
Objectifs :
• Proposer des outils de test de résilience
• Aider à la mise en place des outils et patterns
• Apporter un changement culturel
Mars 2016
Mai 2017
Aujourd’hui
Janvier 2016
Octobre 2016
Février 2017
26. #DevoxxFR
Grâce à la communauté
nous disposons d’un bestiaire
à l’image de la Simian army
de Netflix
Mars 2016
Mai 2017
Aujourd’hui
Janvier 2016
Octobre 2016
Février 2017
27. #DevoxxFR
Initiation au test en production,
La panne va-t-elle avoir un impact notable?
Pilotage et validation pour les devs Entrainement pour les ops
Chaos Monkey
Bridé
Mars 2016
Mai 2017
Aujourd’hui
Janvier 2016
Octobre 2016
Février 2017
28. #DevoxxFR
Chaos Monkey en production,
La finalité
Mon appli en prod
Chaos Monkey
Libéré! Délivré!
LES DEV OPS
Même pas peur
Objectif :
Aucun impact financier
Même pas mal!
Mars 2016
Mai 2017
Aujourd’hui
Janvier 2016
Octobre 2016
Février 2017
29. #DevoxxFR
Premier Chaos Monkey en production…
…et la production marche toujours
Mars 2016
Mai 2017
Aujourd’hui
Janvier 2016
Octobre 2016
Février 2017
30. #DevoxxFR
Objectif : faire du chaos engineering sur toutes
les applications critiques
Mars 2016
Mai 2017
Aujourd’hui
Janvier 2016
Octobre 2016
Février 2017
37. #DevoxxFR
DaysofChaos
Vous allez subir des vagues de pannes en provenance des tréfonds de l’exploitation.
Votre mission est de repousser ces vagues et de
détecter, diagnostiquer et résoudre
les pannes le plus vite possible.
L’avenir de notre production dépend de vous…
Détection :
+100
Diagnostic :
+150
Résolution :
+200
Bonus 1ère proposition:
+100
Indice :
-50
Nombrederounds: 8
Récompenses:
3
46. #DevoxxFR
Supervision et alerting
Tests techniques
Partage des connaissances
Arbres d’analyse
8 -> 6 pannes
4h -> 3h30 de jeu
80% Intérêt du jeu
70% Qualité de l’organisation
74% Prise de conscience
49. #DevoxxFR
Un Day of Chaos c’est du Chaos Engineering? Mais on est pas en prod!!!
https://medium.com/russmiles/chaos-engineering-for-the-business-17b723f26361
50. #DevoxxFR
En production
La vraie vie, avec des vrais utilisateurs et
potentiellement de la perte de VA.
Communication
Mettre en place du Chaos n’est pas la meilleure
façon de rencontrer vos nouveaux collègues,
mais c’est la plus rapide.
Nora Jones (@nora_js)
Gamification
Rendre l’apprentissage plus amusant
en s’appuyant sur la prédisposition
humaine au jeu
Expérimentation
Les principaux points à retenir
Validation de ce qui est important sur
votre infrastructure. Votre résilience
n’est pas celle des autres.
Les organisations européennes connaissent en moyenne 3 incidents IT par mois.
2/3 (65%) des organisations européennes rapportent qu’un incident IT a déjà eu des conséquences sur leur réputation, engendrant des répercutions financières (115 k€).
On veut de la séduction?
Préparons notre jeu comme un jeu vidéo avec une vrai jaquette!
Rappel objectif :
Sdf
Devops (faire une sorte de mini subit ma vie)
Marquer les esprits
Pannes Système! Celles que vivent les ops.
Ceci aura été l’hameçonnage pour les ops. Faites subir aux devs ce que vous vivez!
Rappel objectif :
Sdf
Devops (faire une sorte de mini subit ma vie)
Marquer les esprits
Pannes Système! Celles que vivent les ops.
Ceci aura été l’hameçonnage pour les ops. Faites subir aux devs ce que vous vivez!
Besoin d’implication forte de la partie ops.
Présentation comme un jeu mais aussi comme une opportunité de faire un « vie ma vie d’exploitant ». Permettre de sensibiliser les équipes au travail fait et aux pannes les plus fréquentes ou au besoin de bien communiquer et développer les applications.
2 ateliers de création des pannes : 20 exploitants mobilisés en 2 sessions d’une heure. 40 pannes proposées. 15 short listées pour leur pertinence. 8 sélectionnées par facilité de mise en oeuvre et possibilité de résolution par les équipes de dev (il faut rester pragmatique).
Désignation d’une équipe de choc pour gérer le scripting et la réalisation des pannes
Phase de com’ – Opération séduction
Des affiches de teasing créant une rupture avec toutes les autres opérations de com’ réalisées jusqu’à présent.
Le thème principal : le jeu de guerre en reprenant comme support culturel « Ender’s Game (la strategie Ender) » de Scott Orson card.
Des affiches posées avec très peu d’information, juste un « engagez-vous ».
Un ajout à un moment donné d’une adresse vers un site interne réalisé pour l’événement avec sa propre charte graphique et son formulaire d’engagement.
Une com’ réglementaire par mail venant compléter le tout et enfonçant le clou.
Phase de jeu – Le jour J
Début à 9h
4 + 8 + 5 personnes dédiées au déroulement. Deux commentateurs maitres de cérémonie (un à Paris, un à Nantes), une aide ops, une chargée de classement et de décompte de points, 8 ops à 150%, 2 com’ interne, 3 services généraux.
Une conf Skype avec deux commentateurs donnant des informations sur le déroulement et les avancées du jeu
Une room hipchat pour les communications officielles et les réponses
Une conf Skype dediée ops
7 pannes déroulées dont une a râté. Une dernière annulée suite à un incident sur la preprod.
Fin à 12h30
Remise des prix à 14h. Plus de 200 spectateurs
War room côté ops pour éviter une conf dédiée parallèle + effet je suis dédié à l’événement. Possibilité pour les ops de participer à la conf gobale
Prévoir plus d’ops pour faciliter le traitement des demandes des équipes.
Descendre de 4h à 3h d’événement.
Pousser peu plus loin les répétitions et les préparations des pannes.
Planifier la fin des inscriptions plus tôt. Laisser un délais de un mois entre la fin des inscriptions et l’événement.
Un sujet difficile, peu motivant rendu plus accessible par la gamification