Shinken - Scaler et redonder sa supervision

1 483 vues

Publié le

Conférence à propos de Shinken lors de l'event While42 chez Lunettes pour tous

Publié dans : Internet
0 commentaire
3 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
1 483
Sur SlideShare
0
Issues des intégrations
0
Intégrations
82
Actions
Partages
0
Téléchargements
12
Commentaires
0
J’aime
3
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Shinken - Scaler et redonder sa supervision

  1. 1. Scaler et redonder sa supervision Shinken a a
  2. 2. 400 Gbit/s de traffic 49 600m2 de datacenter production: DC{1..3} construction: DC{4,5} 60 000 serveurs
 350 000 sites web 87 collaborateurs dont
 40 au support 30 ingés (13 Online / 17 cloud) Online
  3. 3. Ce que ce talk n’est pas… ‣ Une comparaison des solutions de monitoring existantes ‣ Une thèse sur toutes les features de Shinken ‣ La possibilité de bakchich un admin en bière pour un mois de Dedibox gratis
 (enfin…) ‣ Se rendre compte de la possibilité d’un soft cool ‣ La possibilité d’avoir une invit pour cloud.online.net (coucou moul) Mais…
  4. 4. Problématiques (1) Nagios Centreon ?
  5. 5. Problématiques (2) Sysadm : « Nous n’avons pas reçu l’alerte, le monitoring était en carafe » Arnaud : « Allo quoi, toute ton infra est redontante mais pas ton monitoring »
  6. 6. Shinken
  7. 7. Quelques infos cools ✓ Nagios backward-compatible (conf/plugins) ✓ Loader sa conf autrement (Puppet/Salt/*SQL/…) ✓ Remontée MySQL (ndo2db) -> /dev/null ✓ Influxdb, graphite, … (modules en Python, rapide à développer) ✓ Soft cocorico ✓ Bonne doc, devs ouverts à la contribution ✓ Orienté business define service{ use standard-service host_name ma-vraie-prod service_description mon-vraie-check-qui-me-reveille check_command bp_rule!(h1,database1 | h2,database2) & (h3,Http1 | h4,Http4) & (h5,IPVS1 | h6,IPVS2) }
  8. 8. Shinken, in a "nutshell" Arbiter: * Centralise la config, la déploie en la splittant, monitoring des autres éléments Scheduler: * Gère 3 queues : « actions », « reactions », « stockages » 
 Reactionner: * Demande au schedulers les actions à exec puis
 les ./actions (mail/sms/curl/…) Poller: * Recup les checks via le Scheduler, les exec, renvoie les résultats au Scheduler Broker: * Récupère les données sur les schedulers pour envoyer via des modules de "données brutes" (mysql, 
 couchbase, influxdb, …)
  9. 9. Scaler (ou graduer*) Arnaud: « Je veux un check toutes les minutes » Esclave: « Mais la machine est déjà saturée en CPU, on peut pas » Solution: Ajouter un scheduler + poller
 redéployer…
 respirer… * Journal officiel du 14/12/2004 Arnaud: « On met en prod 1000 nouveaux serveurs semaine prochaine » Esclave: « Mais le monitoring ne tiendra jamais la charge » ou
  10. 10. Dormir tranquille Poller Sched. Broker React. DC1 DC2 «RAID1» puis… Arbiter Poller Sched. Broker React. Arbiter
  11. 11. Cas pratique Monitoring client Dedibox: # rm ping.pl # pip install shinken Poller
 DC2-1 ArbiterPoller
 DC3-2 Sched
 DC2-1 Sched
 DC3-2 Broker
 DC2-1 Broker
 DC3-2 React.
 DC2-1 Poller
 DC3-1 Sched
 DC3-1 Broker
 DC3-1 React.
 DC3-1 React.
 DC3-2 Poller
 DC2-2 Sched
 DC2-2 Broker
 DC2-2 React.
 DC2-2 DC2 DC3 le client, premier beta-testeur depuis 1884
  12. 12. Cas pratique Monitoring client Dedibox: # rm ping.pl # pip install shinken Poller
 DC2-1 Arbiter Poller
 DC2-N Poller
 DC3-2 Sched
 DC2-1 Sched
 DC2-N Sched
 DC3-2 Broker
 DC2-1 Broker
 DC3-2 React.
 DC2-1 Poller
 DC3-1 Sched
 DC3-1 Broker
 DC3-1 React.
 DC3-1 Poller
 DC3-N Sched
 DC3-N React.
 DC3-2 Poller
 DC2-2 Sched
 DC2-2 Broker
 DC2-2 React.
 DC2-2 DC2 DC3 le client, premier beta-testeur depuis 1884 … …
  13. 13. Cas pratique Monitoring client Dedibox: • 2 serveurs par datacenter • 4 pollers • 40 000 serveurs monitorés ✓ 1x check Ping ✓ 2x check IPMI ✓ checks additionnels du client le client, premier beta-testeur depuis 1884 define service{ use standard-service host_name srv1 service_description mon-service-qui-reboot-elec-auto check_command bp_rule!(srv1,check_ping & srv1,check_ping_ipmi & srv1,check_ipmi_mc_status) } ➡Tour du parc en moins de 5 min
  14. 14. Bisous & Questions Solvik Blum sblum@online.net @solvik @online_fr

×