Le métier d’OPS sur le cloud raconté par un Amazon AWS Solution Provider

Le métier d’Ops sur AWS
Raphaël Ferreira - CoFounder
@ enovance
22 mai 2012
1
mardi 12 juin 12

Nouvelle génération de services d’Hébergement & d’Infogérance

Infrastructures Cloud Open Source
OpenStack, Puppet, Stockage Distribué Ceph,

Multi-Cloud Management 24x7x365
eNoCloud, AWS Partner, RackspaceCloud Partner, Peer1 Partner

Amélioration de l’expérience utilisateurs
Haute Performance, Haute Disponibilité, Agrégation de Cloud & CDN, Monitoring Performance

Web, Mobile & Big Data
Elasticité, Réactivité, Distribution internationale, Performance, Résilience

2
mardi 12 juin 12

Expertise

3
mardi 12 juin 12

Paris & Montreal

• Equipes bilingues Anglais - Français
• Maintiens en conditions opérationnelles : 24x7x365
• Exploitation & Intégration : 09h00 - 01h00
• Effectifs : 25 personnes (2/3 techniques)

4
mardi 12 juin 12

Certiﬁcations

Organisation, Process & Méthodologie ITIL V3, ISO 9001-2008, ISO 20000-1

OSEO Innovation, Jeune Entreprise Innovante,
Innovation, Recherche & Développement Labellisé Systematic

Environnement ISO 14000

Santé et Sécurité au travail OHSAS 18001

ISO 27001, ISO 9001, ISO 14001, OHSAS
Datacenters 18001, PCI-DSS

5
mardi 12 juin 12

Références

Weekendesk : hébergement et infogérance de la
plateforme eCommerce et agrégation de CDN

Kreactive : hébergement d’applications mobiles et
facebook à plus de 4000 requêtes simultanées

Streamlike : diffusion des vidéos Louis Vuitton, PSA, Alston...
dans le monde entier

Motricity : Datacenter européen du groupe pour la gestion
des régies publicitaires et applications mobiles de Nokia,
TF1, Canal Plus, Bouygues Telecom....

LeGuide.com : Accélération des performances du premier
comparateur de prix en Europe

Total Immersion : Plateforme de réalité augmentée sur
AWS à destination de Ray Ban, Repsol, Afﬂelou...

6
mardi 12 juin 12

Save The Date

Jeudi 31 Mai
OpenStack in Action 2
Production Ready
Paris Eurosite République

eNoCloud : Lancement Ofﬁciel
First OpenStack Public Cloud
Paris Equinix & Telecity 3

7
mardi 12 juin 12

Le métier d’Ops sur le Cloud
Retour d’expérience sur un apprentissage continu, les difﬁcultés rencontrées et les
questions posées

8
mardi 12 juin 12

Ops 2.0
We Design, Build and Run...

Private Clouds Public Clouds

On-premise Hébergé OpenStack Public Cloud

OpenStack Starter Pack
AWS Cloud EC2

OpenStack Private Cloud
Rackspace Cloud

+ Automatisation - Monitoring - Sauvegardes - Haute Performance & Haute Disponibilité - Sécurité
9
mardi 12 juin 12

Motivations
Plateforme Plateforme
Traditionnelle Cloud

Elasticité
- +
Réactivité - Délais de mise en oeuvre
- +
Agilité
- +
Maîtrise de la performance
+ -
Disponibilité
= =
Adaptations - Montée en compétence
+ -
Investissement initial
- +
Coût d’exploitation
= =

10
mardi 12 juin 12

Dans les grandes lignes

Aspects Techniques

+ Grande souplesse d’usage : démarrage et arrêt d’instances à volonté
+ APIs et Dashboard offrent un contrôle simple de l’infrastructure
+ Possibilité d’automatiser le provisioning et la gestion de l’infrastructure grâce à une
abstraction forte des différentes ressources
+ Ressources quasi-illimitées

- Opacité de l’infrastructure sous jacente
- Adapter son besoin à l’infrastructure cloud et pas l’inverse
- Impossibilité de sélectionner des composants hardware spéciﬁques
- Impossibilité de mettre en oeuvre une interconnexion réseau spéciﬁque

11
mardi 12 juin 12

Dans les grandes lignes
Aspects Financiers

+ Pas d’investissement initial
+ Coûts variables s’adaptant à la charge et pouvant donc varier en fonction de l’audience ou des
revenus

= Il existe en revanche des coûts incompressibles qui ne changent pas :
Redondance des équipements
Infogérance applicative et astreintes
Outils de gestion d’infrastructures : monitoring, logs, sauvegardes, ....

- Complexité dans prévision des coûts
- Vigilance accrue pour la maîtrise des coûts

12
mardi 12 juin 12

Vocabulaire spécifique
Plateforme
Plateforme Traditionnelle
Cloud

Datacenter, Baie, Rack Région, AZ

Serveur Instance EC2

Stockage VM, Stockage partagé ou mutualisé Stockage éphémère, EBS, S3

Ferme de serveurs frontaux Auto-Scalling Group

Répartiteur de charge ELB

Serveur de base de données RDS

Plateforme de supervision CloudWatch

Alertes et Notifications Simple Notification Service

13
mardi 12 juin 12

Spécificités et limitations

Des spécificités qui imposent de revoir les process et les habitudes
• Gestion des limitations : nombre d’IP, nombre d’instances, nombre de
loadbalancer....
• Adresses IP Privées flottantes
• Préchauffage des ELB
• ....

Points souvent non bloquants mais apprentissage complexe

14
mardi 12 juin 12

Le métier d’Ops
Les bases du métier d’Ops
• Plomberie : Rack, Cables et Tournevis
• Installation, Déploiement, Configuration
• Supervision & Monitoring
• Sauvegardes
• Maintiens en Conditions Opérationnelles
• Exploitation courante & Intégration
• Sécurité
• Base documentaire / Référentiel

Les évolutions
• Exploiter les nouveaux outils proposer pour adapter automatique la plateforme à la charge
• Modifier l’organisation et les profils de recrutement
• Remonter dans les couches : orientation DevOps

15
mardi 12 juin 12

Plomberie
Plateforme
Cloud

Mise en Baie, Câblage, Etiquetage... : 2 heures Start nouvelle instance : 5 mn

Boot PXE AMI - Market Place

Maitrise des caractéristiques hardware Opacité - Unité EC2 - Variabilité dans le temps

Maitrise du réseau d’interconnexion
Latences inter-machines / inter-zones non maitrisées
(1Gbps, 10Gbps, IB....)

Transfert de données sur Internet / Envoi des données par
Connexion de supports Physiques en direct
support physique

Intégration de liens privés dédiés VPC / Direct Connect (limité)

16
mardi 12 juin 12

Déploiement & Conﬁguration
Administrateur système ou Architecte système ?
• Implication en amont sur le design de l’architecture et l’adaptation des pratiques d’ingénierie
logicielle.
• Temps d’intégration plus longs pour mettre en place les dispositifs d’automatisations nécessaires
puppet, auto-scalling....

Complexité du processus avant-vente
• Design et dimensionnement complexes du fait de la non maîtrise de l’infrastructure
• Prévisibilité et anticipation des coûts
• PoC et Expérimentation souvent nécessaires pour les projets Legacy
Eviter l’adhérence à l’infrastructure ou en maitriser les risques
• Nombreuses fonctionnalités alléchantes : DynamoDB, ELB, RDS, CloudFormation, BeansTalk...
• Attention à toujours bien maîtriser le processus de réversibilité ou en tout cas en avoir conscience

17
mardi 12 juin 12

Supervision
Vers un Système Hybride AWS / Supervision Classique
Supervision de l’Infrastructure & Supervision Applicative
Nagios / Centreon ou équivalent (Zabbix...)

Auto-Scalling
Cloud Watch

Alertes & Notifications
Nagios / Centreon ou Simple Notification Service

Pas de changement majeur sur le sujet, l’enjeu est critique :
• Conserver une homogénéité des outils entre plateforme Cloud et plateforme
traditionnelle
• Maitriser finement les compteurs de supervision (Applicatifs, Bases de données, Scénario
utilisateurs...)
• Auto-déclarer les instances dans le monitoring

18
mardi 12 juin 12

Sauvegardes
• Gestion d’une plateforme de sauvegardes sur disques ou sur bandes
• Logiciel de backup type Amanda, Bacula, Dataprotector...
• Déduplication
• Gestion manuelle de l’archivage si bandes
• Gestion de l’externalisation des données
• Plan de backup sur mesure : Incrémental quotidien, Full hebdomadaire, Rétention 3 semaines

Plateforme Cloud
• Outils Amazon
‣ Snapshot des EBS : attention Snapshot n’est pas un backup
‣ Storage Gateway
‣ S3
• Solution Home Made
‣ Déploiement d’un logiciel de sauvegarde sur instance EC2
‣ Gestion de backups sur mesure sur montage EBS
‣ Envoi des archives sur S3

19
mardi 12 juin 12

MCO dans le Cloud
Remplacer au lieu de Réparer
• Utilisation des AZ
• Lancement et configuration d’instances automatisée :
‣ Images : AMI, MarketPlace, CloudFormation
‣ Gestion de la configuration : Puppet, Chef, CfEngine
‣ Versioning et déploiement du code : GIT, SVN, Capistrano
Design for Failure
• Plateforme traditionnelle : la HA est confiée à l’infrastructure
• Plateforme AWS : la HA est confiée à l’application
Complexité de diagnostic
• Détection d’un incident applicatif : similaire à une plateforme traditionnelle si utilisation d’outils
standards
• Détection d’un incident infrastructure (réseau, serveur, datacenter) : peut être complexe si l’incident
n’est pas un incident majeur

20
mardi 12 juin 12

Exploitation courante

Les concepts clés de l’exploitation dans le Cloud :
• Infrastructure As A Code : manipulation des ressources physiques via le code
• Reproductibilité des actions rend le déploiement des services plus fiable
• Centralisation des configurations (Puppet) permet une cohérence dans les
déploiements et une meilleure gestion des évolutions
• Rapprochement avec les équipes de développement : DevOps
• Automatisation, Automatisation, Automatisation

L’infogérance sur un périmètre mouvant doit s’adapter en proposant un modèle de tarification à l’usage
(infogérance par heure et par instance) et auto-déclaratif en fonction de la taille du périmètre

21
mardi 12 juin 12

Sécurité
Accès aux machines
• Les méthodes restent les mêmes qu’en plateforme traditionnelle : SSH avec Clé
• Dans notre cas, homogénéisation des plateformes via des paquets Debian maison intégrant nos
certificats
IAM : un sujet à part entière
• Gestion des droits et de l’identité
• Double Authentification
• Agrégation Facturation
Firewalling
• Security Groups : Ouverture et Fermeture de ports en fonction d’IP Sources (pas de NAT)
• Possibilité de gérer un service Firewall dans une instance : complexe du fait de la gestion des IP
• Impossibilité de disposer d’un équipement dédié
Des manques pouvant poser problème :
• Pas de boitier de sécurité dédié
• Pas de sonde anti-intrusion
• Demande spécifique nécessaire pour réaliser un test d’intrusion
• Pas de possibilité de mettre en oeuvre une liaison dédiée (hors gros projet)

22
mardi 12 juin 12

Réseau
Gestion du réseau : des différences importantes
• Réseau à plat - Pas de maîtrise sur les zones de sécurité (Vlan, Subnet...)
• IP Publiques flottantes mais possibilité de réserver un nombre d’IP limité
• IP Privées flottantes : difficulté pour les services d’administration
• VPC permet de gérer un réseau privé mais il devient nécessaire de gérer soit même son routage
• Pas de maitrise sur les latences et les performances réseaux

Liens Privés et Sécurisés
• Direct Connect offre une possibilité de lien dédié (réservé aux projets importants)
• Possibilité de monter des tunnels VPN permanents via EC2 ou VPC pour sécuriser l’administration
Loadbalancer
• AWS offre un service clé en main : ELB
• ELB offre une grande richesse fonctionnelle : Niveau 7, Terminaisons SSL, APIs....
• Avec des limitations : algorithme de répartition de charge, élasticité lors d’un Pic majeur
• Il est également possible de gérer un service Zeus ou HA Proxy dans une instance, mais les IPs
flottantes peuvent rendre la gestion complexe

23
mardi 12 juin 12

Base documentaire

Des questions simples dans le monde du On Demand
• Inventaire dynamique des instances actives ?
• Connaissance des IPs affectées aux différentes instances ?
• Spéciﬁcations hard et soft des instances actives (CMDB...) ?
• Rédaction et suivi dynamique de la matrice des ﬂux ?

24
mardi 12 juin 12

Performance
Des points forts indéniables par rapport à une plateforme traditionnelle...
• Accès à une puissance quasi-illimité en quelques minutes
• Elasticité horizontale et verticale pour accompagner les montée en charge
• Ressources disponibles sur tous les continents pour une distribution intelligente des traitements et des
contenus

....Associés à des contraintes et limitations à prendre en compte
• I/O Disques (notamment sur EBS - Tips : Raid 10 de volumes EBS)
• Pas d’engagement sur les performances I/O sauf sur DynamoDB
• Pose des problèmes en avant-vente et dimensionnement d’infrastructures
• Variations de performance selon l’heure ou le jour

Performance réseau
• Entre les régions le traﬁc passe par internet comme ça peut être le cas entre 2 DC privés
• Entre 2 AZ d’une même région les performances sont mieux maitrisées mais induisent encore une
latence à prendre compte (exemple : Web sur AZ1 et SQL sur AZ2)

25
mardi 12 juin 12

SLA

Engagements de Qualité de Service et Pénalités

• Des engagements de disponibilité annuelle essentiellement (Durabilité S3)
• Associés à des pénalités relativement faibles

Il est nécessaire de compléter ce dispositif

• Garantie Temps d’Intervention
• Garantie Temps de Rétablissement
• Engagements de Performance
• Engagements Durée Maximale Perte de Données
• Engagements sur le Traitement des Demandes : modiﬁcation, restauration...

26
mardi 12 juin 12

Pour aller plus loin

Automatiser , Automatiser, Automatiser :
• Agent d’auto-déclaration des instances dans les outils d’administration (monitoring, backup, ticket,
inventaire...)
• Packager les outils d’administration pour sa distribution préférée
• Utiliser des outils d’abstraction et de pilotage : RightScale, FOG

Plateformes Hybrides
• Liaison directe 1 Gbps entre DC eNovance et plateforme AWS
• Le meilleur des 2 mondes :
- Liens dédiés possibles avec le DC du client
- Serveur Backofﬁce privés
- Hardware sur-mesure I/O intensif
- Elasticité et capacité de calcul illimité

27
mardi 12 juin 12

Use Case Type
AZ2
AZ1
Puppet Master
SVN
(Capistrano)
ELB

Nagios Centron
Frontaux Cacti / Munin
Varnish / Nginx

Serveurs d’application
Peu de sollicitation disques

Machines reproductibles / Jetables
Base NoSQL (MongoDB...) Sollicitation Ram & CPU
Elastictité horizontale recherchée Peu de sollicitation disques - Commit
Asynchrones

28
mardi 12 juin 12

En synthèse

L’administration système nécessite la même organisation
Infogérance applicative, Astreinte, Supervision, Sauvegardes....

Mais doit évoluer pour proﬁter pleinement des promesses du Cloud
Gestion automatisée de la conﬁguration, Auto-Scalling, Compétence développement, Pricing élastique....

Tout en garantissant la réversibilité et l’homogénéité des outils en
environnement hybride
Limiter l’adhérence et utiliser des outils standards

29
mardi 12 juin 12

Q&R

http://www.enovance.com Raphaël Ferreira
T./ +33 1 49 70 99 72
http://twitter.com/enovance M./ r.ferreira@enovance.com

30
mardi 12 juin 12

Le métier d’OPS sur le cloud raconté par un Amazon AWS Solution Provider

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (18)

Plus de Publicis Sapient Engineering

Plus de Publicis Sapient Engineering (20)

Le métier d’OPS sur le cloud raconté par un Amazon AWS Solution Provider