Comment monitorer ses projets et rendre le on-call vivable ? (Confoo 2021 Online)

Comment monitorer ses
projets et rendre le on-call
vivable ?

@lboix
Lucien Boix
◇ Franco-canadien
◇ Je viens de Lyon (France)
◇ Je vis depuis 2013 à Montréal (Québec, Canada)
◇ Spécialiste DevOps à 360.Agency

◇ Fondée en 2010 (4 employés)
◇ J’étais le 51ème en 2013
◇ 250 employés en 2021
◇ Suite d’outils pour les concessionnaires automobiles
￭ CMS, module complet de vente en ligne, CRM, etc.
◇ 725 clients
◇ 1093 websites
◇ Certiﬁcation avec une dizaine de manufacturiers
◇ Partenariat avec Kijiji Autos lancé en 2020
￭ 4000 nouveaux clients

Combien coûte une panne ?
?
Source : “Calculating the cost of downtime” from Atlassian

$34,722 / min.
Pendant 12 heures, pour Apple (2015)
(The Mac Observer)
$107,142 / min.
Pendant 14 heures, pour Facebook (2019)
(CNN)
$500,000 / min.
Pendant 5 heures, pour Delta Airlines (2016)
(CNN)

$427 / min.
Petites entreprises (1-100 employé(e)s)
(IDC)
$9000 / min.
Moyennes (100-500) et grandes entreprises (500+)
(Ponemon Institute (2016))
$5600 / min.
Moyennes (100-500) et grandes entreprises (500+)
(Gartner (2014))

Un
chiffre
global
Use big
image.
Source : Business Wire quoting IHS Markit

Culture DevOps
◇ Devenue la norme
￭ Sprints
￭ CI / CD, rolling updates
￭ Applications “containerized”
￭ Serveurs dans le cloud (AWS, GCP, Azure, etc.)
◇ On code, (teste), livre plus vite, tout le temps
◇ Plus de changements = plus de risques

Culture DevOps
◇ Mais le management s’attend à ce que :
￭ La qualité augmente
￭ Les coûts diminuent
◇ Et le client paie pour une haute disponibilité (“99.99 %”)

On comprend mieux les
enjeux du on-call
Qui repose forcément sur un bon monitoring

Il faut donc monitorer
◇ Notre infrastructure, nos projets
◇ Par où commencer ? Comment tout couvrir ?
◇ Allez-y par étape, par niveau
◇ Nous allons en déﬁnir 4
￭ Du plus basique au plus personnalisé
￭ L’efﬁcacité de chaque niveau repose sur le précédent

4 niveaux de monitoring
Disponibilité
Diagram featured by
http:/
/slidemodel.com
Niv 1 : Disponibilité
Vous devez être au courant le
premier d’une panne (websites,
APIs, prestataire, etc.)
Niv 3 : Votre application
Application Performance Monitoring :
◇ Requêtes / seconde
◇ Temps de réponse
◇ % de calls en erreur
◇ Trace
Logs (mine d’or, alerting cas connu)
Niv 4 : Votre business
Vos KPI (détails à suivre)
Ressources
Niv 2 : Vos ressources
Pour vos applications et serveurs :
◇ CPU (% utilisation, load)
◇ Mémoire (% utilisation)
◇ Disque (IOPS, espace restant)
Et vos dépendances (DB, cache, queuing)
Application
Business

◇ Il est plus facile de détecter un problème et faire le lien dans le temps :
￭ Mauvais déploiement ?
￭ Panne d’un prestataire ?
￭ Problème avec une dépendance ?
￭ Traﬁc anormal (attaque ? soldes ?)
Niv. 3 : Votre application
Monitoring : comment?

◇ Personnalisé : il représente vos KPI (Key Performance Indicators)
￭ Vos objectifs concrets, mesurables, non techniques
￭ Traduisent l’activité de vos clients, exemple:
￮ compteurs de commandes
￮ création de comptes
￮ authentiﬁcations
￮ appels
◇ Alerte / notiﬁcation si drop par rapport à la moyenne
Niv. 4 : votre business

◇ Pour protéger vos KPI, surveillez le traﬁc lié
◇ Synthetic Monitoring
￭ l’outil simule le traﬁc d’un client
￭ alerte si le résultat attendu n’est pas bon
￭ surveillance en tout temps
◇ Real User Monitoring (RUM)
￭ l’outil surveille l’activité en direct de vos clients
Niv. 4 : votre business

Quels outils ?
◇ Niveau 1 : Disponibilité
￭ UptimeRobot, StatusCake
◇ Niveau 2 : Vos ressources
￭ Nagios, Datadog, Zabbix
◇ Niveau 3 : Votre application
￭ Datadog, NewRelic, Dynatrace, Raygun
￭ Logs : Datadog, Sentry, LogEntries, ELK + Grafana
◇ Niveau 4 : Votre business
￭ Datadog, Grafana, Klipfolio, Pingdom

◇ Liste non exhaustive
￭ Essayez
￭ Gardez le plus intuitif pour vous
◇ Datadog est un bon point de départ
￭ Couvre les 4 niveaux
￭ Repère pour vous les pattern suspects (Watchdog)
￭ Dashboards sur vos métriques préférées
Quels outils ?

◇ En cas de problème...
◇ Lorsqu’un problème va arriver...
◇ Comment s’assurer que le retour à la normale soit le plus rapide ?
◇ Le monitoring en place va lancer l’alerte au plus tôt
◇ Il faut maintenant notiﬁer au plus vite la bonne personne !
La finalité

On-call : la clé du succès
Déﬁnition Préparation Accompagnement

On-call : définir le plan
◇ Il est important de le faire en équipe (meilleure adhésion)
◇ Et préciser le minimum :
￭ Quelques volontaires pour commencer
￭ Des attentes claires
￭ Choisir un bon outil d’Incident Management
￭ Un type de compensation
On-call : le rendre vivable (déﬁnition)

Trouver des volontaires
◇ “Qui veut être on-call ?”
￭ Silence souvent assourdissant 😅
￭ Ça sonne négatif (plus de travail, moins de sommeil)
￭ Peur de l’inconnu
◇ Rassurer dés l’approche

◇ “Qui veut faire partie de l’équipe on-call avec onboarding
et compensation à la clé ?”
￭ Non livré à moi-même
￭ Entraide
￭ Le temps que je donne est valorisé

◇ Idéalement “you code it, you own it”
￭ C’est le plus efﬁcace
￭ Mais pas si évident
￭ Aptitudes particulières
￮ Gestion du stress, communication, instinct
◇ Dialoguer et respecter le choix

◇ Assumer l’urgence
◇ Régler le problème
◇ Ou escalader à une autre personne (qui et comment ?)
Des attentes claires

Un outil complet
◇ Qui offre les fonctionnalités basiques couvrant nos besoins ici
◇ Intégration native avec vos outils de monitoring
◇ Quelques uns à essayer :
￭ PagerDuty est la référence et le plus connu
￭ OpsGenie si vous utilisez beaucoup la suite Atlassian
￭ Splunk On-Call (anciennement VictorOps)

Offrir une compensation
◇ C’est nécessaire et bien normal
◇ Des heures supplémentaires
￭ À rattraper
￭ Ou payées
◇ À voir avec votre management

◇ Mais vous ne voulez pas décevoir les gens avec un lancement raté
￭ Trop d’alertes, de “bruit”
￭ Réveil inutile la nuit pour quelque chose
￮ Qui pouvait attendre
￮ Ou sur lequel je n’ai pas le contrôle
Le plan on-call est défini

Urgence
Deux niveaux pour les alertes
On-call : le rendre vivable (préparation)

◇ Couleur rouge 🔴 ou priorité 1
￭ Quelque chose est down ou va l’être bientôt
￭ Impact pour le client (ou vos collègues)
￭ Cela doit escalader jusqu’à ce que quelqu’un réponde
￭ Je peux faire quelque chose
◇ Exemples
￭ DB principale saturée (% utilisation CPU)
￭ Un serveur ne répond plus
￭ Impossible de valider une commande
Urgence : niveau High

◇ Couleur jaune 🟡 ou priorité 2
￭ Avertissement qui peut être regardé plus tard en
heures ouvrées (quitte à y devenir High)
￭ Pas d’impact pour le client
￭ Pas besoin d’escalader
◇ Exemples
￭ 80% disk space
￭ Une app restart de façon isolée (déjà trop tard)
Urgence : niveau Low

◇ On commence simple pour faciliter le onboarding
￭ Plutôt que 🔴 🟡 🟡
￭ Plutôt que urgence 1, 2, 3, 4 ,5
◇ “C’est grave ou pas ?”
◇ On pourra l’afﬁner plus tard, avec plus de maturité
Urgence : deux niveaux

Notes
Des instructions simples pour
chaque alerte

Notes pour chaque alerte
◇ Courtes et claires
◇ Texte dans l’alerte ou lien vers votre outil de doc
￭ Quels sont les impacts ?
￭ Que dois-je regarder ?
￭ Où et comment me connecter ?
￮ Lister carrément les commandes
￭ Qui joindre au besoin et comment ?

Planning
Le valider en équipe

Planning
◇ Choisir une bonne rotation qui corresponde à tout le monde :
￭ Heures ouvrées / off hours
￭ “Follow the sun” (on suit les timezones, le meilleur)
￭ 1 jour entier
￭ On déconseille la semaine entière on-call
◇ Le but est d’éviter la fatigue

Répétition
Avant de lancer le programme

Tester le volume d’alertes
◇ Envoyer toutes les alertes dans un channel Slack
◇ On veut juger le volume de notifications
◇ Et commencer une “Morning Routine”
￭ Pour être efficace et s’améliorer continuellement
￭ La clé est la constance
◇ Prenez le temps (fixe : 30 minutes) chaque jour de...

🏋 Morning Routine 🏋 1/3
◇ Challenger chaque alerte reçue durant les dernières 24h 🌵
￭ Utile ?
￭ Bon niveau d’urgence ? (High ou Low)
￭ Bonne équipe ou personne prévenue ?
￭ Notes claires ?
◇ Faites les ajustements nécessaires dans votre outil

◇ Voyez-vous un pattern ? 🔍
￭ Même alerte tous les jours à même heure
￭ Dans les courbes de vos dashboards
￭ Ouvrir un ticket (label “morning-routine”) pour les suivre
￮ High => Low le temps de la résolution

◇ Gérer les alertes Low en cours 🧐
￭ Elles représentent des menaces futures
◇ Monitorer vos routines si vous en avez ⚙
￭ Départ comme prévu, durée habituelle
￭ Cronitor, Dead Man’s Snitch
◇ Satisfaction du ✅ en début de journée 🧘

Onboarding
◇ Être transparent, ne pas cacher la vérité
￭ “Oui tu peux être réveillé(e) la nuit, dérangé(e) pendant un repas, un ﬁlm”
◇ Mais rassurer
￭ “Tu ne seras jamais seul(e)”
￭ “On challenge chaque alerte” (Morning Routine)
￭ “On challenge chaque panne grave” (blameless postmortem)
◇ Shadowing encouragé sur les alertes en journée
On-call : le rendre vivable (accompagnement)

Point matériel
◇ Laptop
￭ Accès VPN fonctionnel, tous les câbles, partage de connexion
◇ Cellulaire
￭ Des notiﬁcations personnalisées selon l’urgence, exemple :
￮ High : push => SMS => appel => escalade (15 min.)
￮ Low : email
￭ Tester pour la nuit le combo :
￮ Mode vibreur
￮ Mode “Ne pas déranger” correctement conﬁguré

Entraide
Cultiver cet esprit, tout le temps

Cultiver l’esprit d’entraide
◇ Rappeler :
￭ De ne jamais hésiter à escalader, demander de l’aide
￭ Être là aussi quand quelqu’un a besoin de nous
◇ Encourager les changements de créneaux (imprévus de la vie)
￭ Aussi quand on déploie quelque chose de sensible
◇ Veiller sur l’équilibre travail - vie privée des autres
￭ Time off le lendemain si grave incident la nuit

Dédramatiser
◇ Ça peut arriver d’échapper une alerte
◇ Ne pas se convaincre qu’un problème va forcément arriver
◇ Restez positif pendant une panne
￭ On peut se faire quelques blagues pendant
◇ Ça ne veut pas dire que rien n’est grave !
￭ Mais de l’énergie négative n'amènera aucune plus-value

◇ On crée un cercle vertueux
￭ On réduit le bruit, on règle les problèmes récurrents
￭ Chaque alerte est challengée (Morning Routine)
￭ Chaque incident grave est analysée (blameless postmortem)
◇ Être on-call fait de nous un meilleur dev. et donne conﬁance en soi
◇ L’équipe génère moins de bugs, la qualité augmente
◇ Moins d’alertes, moins de stress
￭ Stress qui était pourtant la crainte du départ !
￭ La peur de l’inconnu
La finalité de tout cela...

Lancement d’un programme on-call à 360 Agency
Partage d’expérience

Partage d’expérience
◇ Premier page reçu en septembre 2015 sur PagerDuty
◇ 5 personnes + 1 manager
◇ 3 niveaux d’escalade (15 minutes entre chaque)
￭ Niveau 1 : personne on call
￭ Niveau 2 : son backup
￭ Niveau 3 : le manager
◇ Minutes travaillées off-hour
￭ Arrondies à l’heure et notées dans une spreadsheet
￭ À rattraper plus tard

◇ Chaque semaine de travail
￭ Même jour en niveau 1, autre jour en niveau 2
￭ Même nuit en niveau 1, autre nuit en niveau 2
◇ Les fins de semaine
￭ Niveau 1 toutes les 5 fins de semaine
￭ Niveau 2 toutes les autres 5 fins de semaine
◇ Le niveau 3 est toujours la même personne
Un
exemple de
planning
Usbig
image.

Effets de la Morning Routine
Période : février 2018 - février 2021

Instances disparues
Dans AWS Beanstalk =>
clone environment
Les réveils à 3AM
BD principale saturée
Stop de la routine d’import
mal optimisée
IOPS dans le tapis
Donner plus de ressources à
un agent qui restartait en
boucle
Panne prestataire (appels)
Load balancer différement le trafﬁc
Ça ira au matin
Nom de domaine non
renouvelé par le client
(passé à Low depuis)
Down-up
Restart isolé de l’app (passé
à Low depuis)
Avertissements simples
80% espace disque (passé à
Low depuis)

Aller plus loin
◇ Monitoring de votre staging / preproduction
￭ Mêmes surveillances que la production mais adaptées
￭ Détecter le plus en amont une éventuelle régression
◇ Rouler un audit de sécurité (infra, scan Git repositories)
◇ Chaos engineering

Conclusion / Takeaways
◇ Un bon programme on-call améliore la qualité et réduit donc le stress
◇ Offrez vous 4 niveaux de monitoring complets et personnalisés
◇ Cultiver l’entraide et la positivité en permanence
￭ Impliquer l’équipe on-call (nouvelles features)
￭ Veiller à l’équilibre fragile (désintérêt si rien n’est corrigé)
◇ Faites votre “Morning Routine” en rotation : le suivi constant est la clé !

Merci!
N’hésitez pas à partager vos expériences on-call :
◇ #oncallselﬁe
◇ @lboix #confoo
◇ https://www.linkedin.com/in/lucienboix/
Des questions?

Crédits
Merci également à toutes les personnes qui ont réalisé et
offert gratuitement les éléments utilisés dans cette
présentation :
◇ Template par SlidesCarnival

Comment monitorer ses projets et rendre le on-call vivable ? (Confoo 2021 Online)

Recommandé

Recommandé

Contenu connexe

Similaire à Comment monitorer ses projets et rendre le on-call vivable ? (Confoo 2021 Online)

Similaire à Comment monitorer ses projets et rendre le on-call vivable ? (Confoo 2021 Online) (20)

Comment monitorer ses projets et rendre le on-call vivable ? (Confoo 2021 Online)