Comment le métier d’OPS a changé avec le cloud ? A quoi sert un admin quand toute l’infrastructure, middlewares compris, est en self-service ?
Raphael Ferreira, CEO et fondateur de http://eNovance, racontera le quotidien d’un admin au pays de storage-as-a-service, linux-as-a-service, mysql-as-a-service et autres tomcat-as-a-service.
La vidéo de la présentation est disponible ici : http://vimeo.com/43883897
Le Xebia Cloud Day 2012 est une conférence gratuite dédiée au Cloud Computing focalisée sur l'écosystème Java.
http://blog.xebia.fr/22-mai-2012-cloud-day-chez-xebia/
4. Paris & Montreal
• Equipes bilingues Anglais - Français
• Maintiens en conditions opérationnelles : 24x7x365
• Exploitation & Intégration : 09h00 - 01h00
• Effectifs : 25 personnes (2/3 techniques)
4
mardi 12 juin 12
5. Certifications
Organisation, Process & Méthodologie ITIL V3, ISO 9001-2008, ISO 20000-1
OSEO Innovation, Jeune Entreprise Innovante,
Innovation, Recherche & Développement Labellisé Systematic
Environnement ISO 14000
Santé et Sécurité au travail OHSAS 18001
ISO 27001, ISO 9001, ISO 14001, OHSAS
Datacenters 18001, PCI-DSS
5
mardi 12 juin 12
6. Références
Weekendesk : hébergement et infogérance de la
plateforme eCommerce et agrégation de CDN
Kreactive : hébergement d’applications mobiles et
facebook à plus de 4000 requêtes simultanées
Streamlike : diffusion des vidéos Louis Vuitton, PSA, Alston...
dans le monde entier
Motricity : Datacenter européen du groupe pour la gestion
des régies publicitaires et applications mobiles de Nokia,
TF1, Canal Plus, Bouygues Telecom....
LeGuide.com : Accélération des performances du premier
comparateur de prix en Europe
Total Immersion : Plateforme de réalité augmentée sur
AWS à destination de Ray Ban, Repsol, Afflelou...
6
mardi 12 juin 12
7. Save The Date
Jeudi 31 Mai
OpenStack in Action 2
Production Ready
Paris Eurosite République
eNoCloud : Lancement Officiel
First OpenStack Public Cloud
Paris Equinix & Telecity 3
7
mardi 12 juin 12
8. Le métier d’Ops sur le Cloud
Retour d’expérience sur un apprentissage continu, les difficultés rencontrées et les
questions posées
8
mardi 12 juin 12
9. Ops 2.0
We Design, Build and Run...
Private Clouds Public Clouds
On-premise Hébergé OpenStack Public Cloud
OpenStack Starter Pack
AWS Cloud EC2
OpenStack Private Cloud
Rackspace Cloud
+ Automatisation - Monitoring - Sauvegardes - Haute Performance & Haute Disponibilité - Sécurité
9
mardi 12 juin 12
10. Motivations
Plateforme Plateforme
Traditionnelle Cloud
Elasticité
- +
Réactivité - Délais de mise en oeuvre
- +
Agilité
- +
Maîtrise de la performance
+ -
Disponibilité
= =
Adaptations - Montée en compétence
+ -
Investissement initial
- +
Coût d’exploitation
= =
10
mardi 12 juin 12
11. Dans les grandes lignes
Aspects Techniques
+ Grande souplesse d’usage : démarrage et arrêt d’instances à volonté
+ APIs et Dashboard offrent un contrôle simple de l’infrastructure
+ Possibilité d’automatiser le provisioning et la gestion de l’infrastructure grâce à une
abstraction forte des différentes ressources
+ Ressources quasi-illimitées
- Opacité de l’infrastructure sous jacente
- Adapter son besoin à l’infrastructure cloud et pas l’inverse
- Impossibilité de sélectionner des composants hardware spécifiques
- Impossibilité de mettre en oeuvre une interconnexion réseau spécifique
11
mardi 12 juin 12
12. Dans les grandes lignes
Aspects Financiers
+ Pas d’investissement initial
+ Coûts variables s’adaptant à la charge et pouvant donc varier en fonction de l’audience ou des
revenus
= Il existe en revanche des coûts incompressibles qui ne changent pas :
Redondance des équipements
Infogérance applicative et astreintes
Outils de gestion d’infrastructures : monitoring, logs, sauvegardes, ....
- Complexité dans prévision des coûts
- Vigilance accrue pour la maîtrise des coûts
12
mardi 12 juin 12
13. Vocabulaire spécifique
Plateforme
Plateforme Traditionnelle
Cloud
Datacenter, Baie, Rack Région, AZ
Serveur Instance EC2
Stockage VM, Stockage partagé ou mutualisé Stockage éphémère, EBS, S3
Ferme de serveurs frontaux Auto-Scalling Group
Répartiteur de charge ELB
Serveur de base de données RDS
Plateforme de supervision CloudWatch
Alertes et Notifications Simple Notification Service
13
mardi 12 juin 12
14. Spécificités et limitations
Des spécificités qui imposent de revoir les process et les habitudes
• Gestion des limitations : nombre d’IP, nombre d’instances, nombre de
loadbalancer....
• Adresses IP Privées flottantes
• Préchauffage des ELB
• ....
Points souvent non bloquants mais apprentissage complexe
14
mardi 12 juin 12
15. Le métier d’Ops
Les bases du métier d’Ops
• Plomberie : Rack, Cables et Tournevis
• Installation, Déploiement, Configuration
• Supervision & Monitoring
• Sauvegardes
• Maintiens en Conditions Opérationnelles
• Exploitation courante & Intégration
• Sécurité
• Base documentaire / Référentiel
Les évolutions
• Exploiter les nouveaux outils proposer pour adapter automatique la plateforme à la charge
• Modifier l’organisation et les profils de recrutement
• Remonter dans les couches : orientation DevOps
15
mardi 12 juin 12
16. Plomberie
Plateforme
Plateforme Traditionnelle
Cloud
Mise en Baie, Câblage, Etiquetage... : 2 heures Start nouvelle instance : 5 mn
Boot PXE AMI - Market Place
Maitrise des caractéristiques hardware Opacité - Unité EC2 - Variabilité dans le temps
Maitrise du réseau d’interconnexion
Latences inter-machines / inter-zones non maitrisées
(1Gbps, 10Gbps, IB....)
Transfert de données sur Internet / Envoi des données par
Connexion de supports Physiques en direct
support physique
Intégration de liens privés dédiés VPC / Direct Connect (limité)
16
mardi 12 juin 12
17. Déploiement & Configuration
Administrateur système ou Architecte système ?
• Implication en amont sur le design de l’architecture et l’adaptation des pratiques d’ingénierie
logicielle.
• Temps d’intégration plus longs pour mettre en place les dispositifs d’automatisations nécessaires
puppet, auto-scalling....
Complexité du processus avant-vente
• Design et dimensionnement complexes du fait de la non maîtrise de l’infrastructure
• Prévisibilité et anticipation des coûts
• PoC et Expérimentation souvent nécessaires pour les projets Legacy
Eviter l’adhérence à l’infrastructure ou en maitriser les risques
• Nombreuses fonctionnalités alléchantes : DynamoDB, ELB, RDS, CloudFormation, BeansTalk...
• Attention à toujours bien maîtriser le processus de réversibilité ou en tout cas en avoir conscience
17
mardi 12 juin 12
18. Supervision
Vers un Système Hybride AWS / Supervision Classique
Supervision de l’Infrastructure & Supervision Applicative
Nagios / Centreon ou équivalent (Zabbix...)
Auto-Scalling
Cloud Watch
Alertes & Notifications
Nagios / Centreon ou Simple Notification Service
Pas de changement majeur sur le sujet, l’enjeu est critique :
• Conserver une homogénéité des outils entre plateforme Cloud et plateforme
traditionnelle
• Maitriser finement les compteurs de supervision (Applicatifs, Bases de données, Scénario
utilisateurs...)
• Auto-déclarer les instances dans le monitoring
18
mardi 12 juin 12
19. Sauvegardes
Plateforme Traditionnelle
• Gestion d’une plateforme de sauvegardes sur disques ou sur bandes
• Logiciel de backup type Amanda, Bacula, Dataprotector...
• Déduplication
• Gestion manuelle de l’archivage si bandes
• Gestion de l’externalisation des données
• Plan de backup sur mesure : Incrémental quotidien, Full hebdomadaire, Rétention 3 semaines
Plateforme Cloud
• Outils Amazon
‣ Snapshot des EBS : attention Snapshot n’est pas un backup
‣ Storage Gateway
‣ S3
• Solution Home Made
‣ Déploiement d’un logiciel de sauvegarde sur instance EC2
‣ Gestion de backups sur mesure sur montage EBS
‣ Envoi des archives sur S3
19
mardi 12 juin 12
20. MCO dans le Cloud
Remplacer au lieu de Réparer
• Utilisation des AZ
• Lancement et configuration d’instances automatisée :
‣ Images : AMI, MarketPlace, CloudFormation
‣ Gestion de la configuration : Puppet, Chef, CfEngine
‣ Versioning et déploiement du code : GIT, SVN, Capistrano
Design for Failure
• Plateforme traditionnelle : la HA est confiée à l’infrastructure
• Plateforme AWS : la HA est confiée à l’application
Complexité de diagnostic
• Détection d’un incident applicatif : similaire à une plateforme traditionnelle si utilisation d’outils
standards
• Détection d’un incident infrastructure (réseau, serveur, datacenter) : peut être complexe si l’incident
n’est pas un incident majeur
20
mardi 12 juin 12
21. Exploitation courante
Les concepts clés de l’exploitation dans le Cloud :
• Infrastructure As A Code : manipulation des ressources physiques via le code
• Reproductibilité des actions rend le déploiement des services plus fiable
• Centralisation des configurations (Puppet) permet une cohérence dans les
déploiements et une meilleure gestion des évolutions
• Rapprochement avec les équipes de développement : DevOps
• Automatisation, Automatisation, Automatisation
L’infogérance sur un périmètre mouvant doit s’adapter en proposant un modèle de tarification à l’usage
(infogérance par heure et par instance) et auto-déclaratif en fonction de la taille du périmètre
21
mardi 12 juin 12
22. Sécurité
Accès aux machines
• Les méthodes restent les mêmes qu’en plateforme traditionnelle : SSH avec Clé
• Dans notre cas, homogénéisation des plateformes via des paquets Debian maison intégrant nos
certificats
IAM : un sujet à part entière
• Gestion des droits et de l’identité
• Double Authentification
• Agrégation Facturation
Firewalling
• Security Groups : Ouverture et Fermeture de ports en fonction d’IP Sources (pas de NAT)
• Possibilité de gérer un service Firewall dans une instance : complexe du fait de la gestion des IP
• Impossibilité de disposer d’un équipement dédié
Des manques pouvant poser problème :
• Pas de boitier de sécurité dédié
• Pas de sonde anti-intrusion
• Demande spécifique nécessaire pour réaliser un test d’intrusion
• Pas de possibilité de mettre en oeuvre une liaison dédiée (hors gros projet)
22
mardi 12 juin 12
23. Réseau
Gestion du réseau : des différences importantes
• Réseau à plat - Pas de maîtrise sur les zones de sécurité (Vlan, Subnet...)
• IP Publiques flottantes mais possibilité de réserver un nombre d’IP limité
• IP Privées flottantes : difficulté pour les services d’administration
• VPC permet de gérer un réseau privé mais il devient nécessaire de gérer soit même son routage
• Pas de maitrise sur les latences et les performances réseaux
Liens Privés et Sécurisés
• Direct Connect offre une possibilité de lien dédié (réservé aux projets importants)
• Possibilité de monter des tunnels VPN permanents via EC2 ou VPC pour sécuriser l’administration
Loadbalancer
• AWS offre un service clé en main : ELB
• ELB offre une grande richesse fonctionnelle : Niveau 7, Terminaisons SSL, APIs....
• Avec des limitations : algorithme de répartition de charge, élasticité lors d’un Pic majeur
• Il est également possible de gérer un service Zeus ou HA Proxy dans une instance, mais les IPs
flottantes peuvent rendre la gestion complexe
23
mardi 12 juin 12
24. Base documentaire
Des questions simples dans le monde du On Demand
• Inventaire dynamique des instances actives ?
• Connaissance des IPs affectées aux différentes instances ?
• Spécifications hard et soft des instances actives (CMDB...) ?
• Rédaction et suivi dynamique de la matrice des flux ?
24
mardi 12 juin 12
25. Performance
Des points forts indéniables par rapport à une plateforme traditionnelle...
• Accès à une puissance quasi-illimité en quelques minutes
• Elasticité horizontale et verticale pour accompagner les montée en charge
• Ressources disponibles sur tous les continents pour une distribution intelligente des traitements et des
contenus
....Associés à des contraintes et limitations à prendre en compte
• I/O Disques (notamment sur EBS - Tips : Raid 10 de volumes EBS)
• Pas d’engagement sur les performances I/O sauf sur DynamoDB
• Pose des problèmes en avant-vente et dimensionnement d’infrastructures
• Variations de performance selon l’heure ou le jour
Performance réseau
• Entre les régions le trafic passe par internet comme ça peut être le cas entre 2 DC privés
• Entre 2 AZ d’une même région les performances sont mieux maitrisées mais induisent encore une
latence à prendre compte (exemple : Web sur AZ1 et SQL sur AZ2)
25
mardi 12 juin 12
26. SLA
Engagements de Qualité de Service et Pénalités
• Des engagements de disponibilité annuelle essentiellement (Durabilité S3)
• Associés à des pénalités relativement faibles
Il est nécessaire de compléter ce dispositif
• Garantie Temps d’Intervention
• Garantie Temps de Rétablissement
• Engagements de Performance
• Engagements Durée Maximale Perte de Données
• Engagements sur le Traitement des Demandes : modification, restauration...
26
mardi 12 juin 12
27. Pour aller plus loin
Automatiser , Automatiser, Automatiser :
• Agent d’auto-déclaration des instances dans les outils d’administration (monitoring, backup, ticket,
inventaire...)
• Packager les outils d’administration pour sa distribution préférée
• Utiliser des outils d’abstraction et de pilotage : RightScale, FOG
Plateformes Hybrides
• Liaison directe 1 Gbps entre DC eNovance et plateforme AWS
• Le meilleur des 2 mondes :
- Liens dédiés possibles avec le DC du client
- Serveur Backoffice privés
- Hardware sur-mesure I/O intensif
- Elasticité et capacité de calcul illimité
27
mardi 12 juin 12
28. Use Case Type
AZ2
AZ1
Puppet Master
SVN
(Capistrano)
ELB
Nagios Centron
Frontaux Cacti / Munin
Varnish / Nginx
Serveurs d’application
Peu de sollicitation disques
Machines reproductibles / Jetables
Base NoSQL (MongoDB...) Sollicitation Ram & CPU
Elastictité horizontale recherchée Peu de sollicitation disques - Commit
Asynchrones
28
mardi 12 juin 12
29. En synthèse
L’administration système nécessite la même organisation
Infogérance applicative, Astreinte, Supervision, Sauvegardes....
Mais doit évoluer pour profiter pleinement des promesses du Cloud
Gestion automatisée de la configuration, Auto-Scalling, Compétence développement, Pricing élastique....
Tout en garantissant la réversibilité et l’homogénéité des outils en
environnement hybride
Limiter l’adhérence et utiliser des outils standards
29
mardi 12 juin 12