Scaler et redonder sa supervision
Shinken a
a
400 Gbit/s de traffic
49 600m2 de datacenter
production: DC{1..3}
construction: DC{4,5}
60 000 serveurs

350 000 sites web...
Ce que ce talk n’est pas…
‣ Une comparaison des solutions de monitoring existantes
‣ Une thèse sur toutes les features de ...
Problématiques (1)
Nagios Centreon ?
Problématiques (2)
Sysadm : « Nous n’avons pas reçu l’alerte, le monitoring était en carafe »
Arnaud : « Allo quoi, toute ...
Shinken
Quelques infos cools
✓ Nagios backward-compatible (conf/plugins)
✓ Loader sa conf autrement (Puppet/Salt/*SQL/…)
✓ Remonté...
Shinken, in a "nutshell"
Arbiter:
* Centralise la config, la déploie en la splittant,
monitoring des autres éléments
Sched...
Scaler (ou graduer*)
Arnaud: « Je veux un check toutes les minutes »
Esclave: « Mais la machine est déjà saturée en CPU, o...
Dormir tranquille
Poller
Sched.
Broker
React.
DC1 DC2
«RAID1»
puis…
Arbiter
Poller
Sched.
Broker
React.
Arbiter
Cas pratique
Monitoring client Dedibox:
# rm ping.pl
# pip install shinken
Poller

DC2-1
ArbiterPoller

DC3-2
Sched

DC2-1...
Cas pratique
Monitoring client Dedibox:
# rm ping.pl
# pip install shinken
Poller

DC2-1
Arbiter
Poller

DC2-N
Poller

DC3...
Cas pratique
Monitoring client Dedibox:
• 2 serveurs par datacenter
• 4 pollers
• 40 000 serveurs monitorés
✓ 1x check Pin...
Bisous & Questions
Solvik Blum
sblum@online.net
@solvik
@online_fr
Prochain SlideShare
Chargement dans…5
×

Shinken - Scaler et redonder sa supervision

1 349 vues

Publié le

Conférence à propos de Shinken lors de l'event While42 chez Lunettes pour tous

Publié dans : Internet
0 commentaire
3 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
1 349
Sur SlideShare
0
Issues des intégrations
0
Intégrations
82
Actions
Partages
0
Téléchargements
12
Commentaires
0
J’aime
3
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Shinken - Scaler et redonder sa supervision

  1. 1. Scaler et redonder sa supervision Shinken a a
  2. 2. 400 Gbit/s de traffic 49 600m2 de datacenter production: DC{1..3} construction: DC{4,5} 60 000 serveurs
 350 000 sites web 87 collaborateurs dont
 40 au support 30 ingés (13 Online / 17 cloud) Online
  3. 3. Ce que ce talk n’est pas… ‣ Une comparaison des solutions de monitoring existantes ‣ Une thèse sur toutes les features de Shinken ‣ La possibilité de bakchich un admin en bière pour un mois de Dedibox gratis
 (enfin…) ‣ Se rendre compte de la possibilité d’un soft cool ‣ La possibilité d’avoir une invit pour cloud.online.net (coucou moul) Mais…
  4. 4. Problématiques (1) Nagios Centreon ?
  5. 5. Problématiques (2) Sysadm : « Nous n’avons pas reçu l’alerte, le monitoring était en carafe » Arnaud : « Allo quoi, toute ton infra est redontante mais pas ton monitoring »
  6. 6. Shinken
  7. 7. Quelques infos cools ✓ Nagios backward-compatible (conf/plugins) ✓ Loader sa conf autrement (Puppet/Salt/*SQL/…) ✓ Remontée MySQL (ndo2db) -> /dev/null ✓ Influxdb, graphite, … (modules en Python, rapide à développer) ✓ Soft cocorico ✓ Bonne doc, devs ouverts à la contribution ✓ Orienté business define service{ use standard-service host_name ma-vraie-prod service_description mon-vraie-check-qui-me-reveille check_command bp_rule!(h1,database1 | h2,database2) & (h3,Http1 | h4,Http4) & (h5,IPVS1 | h6,IPVS2) }
  8. 8. Shinken, in a "nutshell" Arbiter: * Centralise la config, la déploie en la splittant, monitoring des autres éléments Scheduler: * Gère 3 queues : « actions », « reactions », « stockages » 
 Reactionner: * Demande au schedulers les actions à exec puis
 les ./actions (mail/sms/curl/…) Poller: * Recup les checks via le Scheduler, les exec, renvoie les résultats au Scheduler Broker: * Récupère les données sur les schedulers pour envoyer via des modules de "données brutes" (mysql, 
 couchbase, influxdb, …)
  9. 9. Scaler (ou graduer*) Arnaud: « Je veux un check toutes les minutes » Esclave: « Mais la machine est déjà saturée en CPU, on peut pas » Solution: Ajouter un scheduler + poller
 redéployer…
 respirer… * Journal officiel du 14/12/2004 Arnaud: « On met en prod 1000 nouveaux serveurs semaine prochaine » Esclave: « Mais le monitoring ne tiendra jamais la charge » ou
  10. 10. Dormir tranquille Poller Sched. Broker React. DC1 DC2 «RAID1» puis… Arbiter Poller Sched. Broker React. Arbiter
  11. 11. Cas pratique Monitoring client Dedibox: # rm ping.pl # pip install shinken Poller
 DC2-1 ArbiterPoller
 DC3-2 Sched
 DC2-1 Sched
 DC3-2 Broker
 DC2-1 Broker
 DC3-2 React.
 DC2-1 Poller
 DC3-1 Sched
 DC3-1 Broker
 DC3-1 React.
 DC3-1 React.
 DC3-2 Poller
 DC2-2 Sched
 DC2-2 Broker
 DC2-2 React.
 DC2-2 DC2 DC3 le client, premier beta-testeur depuis 1884
  12. 12. Cas pratique Monitoring client Dedibox: # rm ping.pl # pip install shinken Poller
 DC2-1 Arbiter Poller
 DC2-N Poller
 DC3-2 Sched
 DC2-1 Sched
 DC2-N Sched
 DC3-2 Broker
 DC2-1 Broker
 DC3-2 React.
 DC2-1 Poller
 DC3-1 Sched
 DC3-1 Broker
 DC3-1 React.
 DC3-1 Poller
 DC3-N Sched
 DC3-N React.
 DC3-2 Poller
 DC2-2 Sched
 DC2-2 Broker
 DC2-2 React.
 DC2-2 DC2 DC3 le client, premier beta-testeur depuis 1884 … …
  13. 13. Cas pratique Monitoring client Dedibox: • 2 serveurs par datacenter • 4 pollers • 40 000 serveurs monitorés ✓ 1x check Ping ✓ 2x check IPMI ✓ checks additionnels du client le client, premier beta-testeur depuis 1884 define service{ use standard-service host_name srv1 service_description mon-service-qui-reboot-elec-auto check_command bp_rule!(srv1,check_ping & srv1,check_ping_ipmi & srv1,check_ipmi_mc_status) } ➡Tour du parc en moins de 5 min
  14. 14. Bisous & Questions Solvik Blum sblum@online.net @solvik @online_fr

×