Le document traite du chaos engineering, une discipline permettant de tester la résilience des systèmes distribués en simulant des pannes en production pour mieux préparer les équipes à gérer des incidents. Il présente également des initiatives mises en place dans une entreprise pour former les équipes au travers de jeux et d'expérimentations, avec des objectifs de détection et de résolution des pannes. Enfin, il souligne l'importance d'une culture de partage des connaissances et de collaboration entre les équipes Dev et Ops.