Multiple Services Throughput Optimization in a Hierarchical Middleware
Cloud Computing: De la recherche dans les nuages ?
1. Cloud Computing
De la recherche dans les nuages ?
12 Novembre 2013
Frédéric Desprez
Inria
LIP ENS Lyon UMR 5668
2. Remerciements
-
Gabriel Antoniu
Inria (Rennes, Kerdata)
Olivier Beaumont
Inria (Bordeaux, CEPAGE)
AlexandruCostan
Inria (Rennes, Kerdata)
Paulo Goncalvez
Inria (Lyon, Dante)
Cristian Klein
UmeaUniversity, Suède
Adrien Lèbre
Inria et Ecole des Mines de Nantes (Ascola)
Laurent Lefèvre
Inria, (Lyon, Avalon)
Ignacio LlorenteComplutenseUniversity of Madrid, Espagne
Christine Morin
Inria (Rennes, Myriads)
Martin Quinson
Université de Lorraine/LORIA (Nancy, Algorille)
David Margery
Inria (Rennes, Myriads)
Anne-Cécile Orgerie
CNRS (Rennes, Myriads)
Christian Perez
Inria (Lyon, Avalon)
Thierry Priol
Inria (Rennes, Myriads)
Jonathan Rouzaud-Cornabas
Inria (Lyon, Avalon)
Frédéric Suter
CNRS/IN2P3 (Lyon, Avalon)
Patrick Valduriez
Inria (Montpellier, Zenith)
RichWolskyUniversity of California Santa Barbara, USA
F. Desprez - Cloud Computing. De la recherche dans les nuages ?
12 Novembre 2013 - 2
3. Agenda
-
Qu’est-ce qu’un Cloud ?
-
Des problématiques de recherche
-
Gestion de l’énergie
-
Traitement des données, Big Data
-
Réseau
-
Modèles de programmation
-
Sécurité
-
-
Gestion des ressources et ordonnancement
Déploiement distribué
Validation et expérimentation
-
-
Simulation et plates-formes expérimentales
Bibliographie
F. Desprez - Cloud Computing. De la recherche dans les nuages ?
12 Novembre 2013 - 3
4. Qu’est-ce qu’un Cloud ?
•
« Cloud computingis a model for enablingubiquitous, convenient, on-demand network
access to a shared pool of configurable computingresources (e.g. networks, servers,
storage applications, and services) thatcanberapidlyprovisioned and releasedwith
minimal management effort or service provider interaction. This Cloud model
iscomposed of five essential characteristics, three service models, and four
deploymentmodels. » NIST
•
Né de
•
•
La profusion de ressources (data centers dans le monde entier)
Une technologie de virtualisation mature et des communications à haut débit
Mell, P., Grance, T., The NIST Definition of Cloud Computing, National Institute of Standards and Technology, Sep. 2011
Ambrust et al., Above the Clouds: A Berkeley View of Cloud Computing, Elec. Eng. and Comp. Sci., Univ. of Calif. Berkeley, Feb. 2009
F. Desprez - Cloud Computing. De la recherche dans les nuages ?
12 Novembre 2013 - 4
5. Une vue à 10000 pieds
SLAs
Services web
Virtualisation
F. Desprez - Cloud Computing. De la recherche dans les nuages ?
12 Novembre 2013 - 5
6. Caractéristiques essentielles
•
Service à la demande
Pas besoin d’interaction humaine pour avoir accès à des ressources de stockage et de calcul
(Utility Computing)
•
Accès via des réseaux à large échelle
•
Accès aux ressources via des réseaux depuis des clients légers ou lourds (WAN, LAN, Wireless)
Polling de ressources
Les ressources (CPU, stockage, mémoire, réseau) sont prises dans des datacenters distribués
sans (trop de) notion de localité suivant la demande des multiples utilisateurs
•
Elasticité rapide
Les ressources peuvent allouées et libérées de manière élastique selon les besoins (avec une
capacité infinie)
•
Service mesuré
•
Possibilité de monitorer (et facturer) l’usage des ressources
Avantages
Disponibilité et extensibilité
Dynamicité
Tolérance aux pannes
Mutualisation des ressources
F. Desprez - Cloud Computing. De la recherche dans les nuages ?
•
Inconvénients
Hétérogénéité
Absence de localité
Portage des applications
Sécurité ?
12 Novembre 2013 - 6
7. Modèles de services
•
Software as a Service (SaaS)
Une application complète accessible via le réseau à travers un client léger (navigateur) ou une
interface de programme. La gestion des ressources est la responsabilité de l’hébergeur
Gmail, Googledocs, Facebook, IBM LotusLive, …
•
Platform as a Service (PaaS)
On peut développer ses propres applications en utilisant les services/bibliothèques/langages
fournis
•
Google Apps, Windows Azure, Amazon S3, IBM CloudBurst et Websphere, …
Infrastructure as a Service (IaaS)
Le matériel est fourni sous forme de machines virtuelles sur lesquelles on installe son image
disque (qui peut inclure le système d’exploitation, les applications, …)
Amazon EC2, Rackspace, GoGRID, Orange, …
F. Desprez - Cloud Computing. De la recherche dans les nuages ?
12 Novembre 2013 - 7
8. Modèles de déploiement
•
Cloud privé
•
Cloud communautaire
•
Créé pour une communauté donnée (thème, sécurité, …). Potentiellement distribué.
Clouds CNRS (IN2P3, Toulouse, e-Biothon)
Cloud publique
•
Fourni par une organisation unique en interne
Ouvert au public moyennant finances
Amazon, OVH, Orange, SFR, IBM, Numergy, …
Cloud hybride
Mélange de deux types de Clouds, voir de plusieurs types d’architectures (Grilles, Grappes,
supercalculateur)
F. Desprez - Cloud Computing. De la recherche dans les nuages ?
12 Novembre 2013 - 8
9. Qui contrôle quoi ?
Entreprise
Partageentreprise/fournisseur
Fournisseur
Informatique
Hébergeur
IaaS public
PaaS public
SaaS public
Données
Données
Données
Données
Données
Applications
Applications
Applications
Applications
Applications
Machines
virtuelles
Machines
virtuelles
Machines
virtuelles
Machines
virtuelles
Machines
virtuelles
Serveur
Serveur
Serveur
Serveur
Serveur
Stockage
Stockage
Stockage
Stockage
Stockage
Réseau
Réseau
Réseau
Réseau
Réseau
Crédits: P. Saulière, Microsoft
F. Desprez - Cloud Computing. De la recherche dans les nuages ?
12 Novembre 2013 - 9
10. Modèle courant d’une application bioinformatique
Sequencing
Instrument
ACGTTTCCC….
Sequencing
Instrument
ACGTTTCCC….
High-Performanance
Cluster
Sequencing
Instrument
Storage
ACGTTTCCC….
Scientist / User
Storage
Download
Sequencing Centre
Submission
Multi Peta-byte
High-Performanance storage
Crédits: Mario Caccamo (TGAC)
Public Repository
F. Desprez - Cloud Computing. De la recherche dans les nuages ?
12 Novembre 2013 - 10
12. Le calculcomme un service : un historique
OpenNebulaIaaS
Open Source
Nimbus IaaS
Open Source
Grid‘5000
Infrastructure
IaaS
1998
1999
Grid
Computing
Cloud
Computing
Salesforces.com
2003
Eucalyptus IaaS
Open Source
2005
2006
2007
Cloud
Computing
Amazon EC2/S3
HP Flexible
Computing
Services
FutureGrid
2008
2009
FP7 Reservoir
Sun
Open Cloud
IBM
Blue Cloud
2010
2011
Microsoft
Azure
Crédits: T. Priol, INRIA
F. Desprez - Cloud Computing. De la recherche dans les nuages ?
12 Novembre 2013 - 12
13. Problématiques de recherche
• Explosion du nombre de travaux de rechercheautour des Clouds et de la
virtualisation !
• Quelques challenges de recherche
• Composition de services
• Service Level Agreement (SLA)
• Sécurité
• Résistance aux fautes/pannes
• Gestion de l’infrastructure
• Ordonnancement et gestion élastique des ressources
• Gestion de données
• Accès transparent à des plateformes hybrides
• Multi-clouds, Skycomputing, fédérations
• Nouveaux modèles
• économiques, énergie
• Programmation des applications
• Nouveaux langages, nouveaux modèles
F. Desprez - Cloud Computing. De la recherche dans les nuages ?
12 Novembre 2013 - 13
14. Gestion de ressources à grande échelle
Comment ordonnancer les tâches à grande échelle
• Tâches indépendantes, workflows, tâches hétérogènes, liens avec la gestion de
données, la réplication, modèles énergétiques et de coûts, …
Comment gérer l’allocation de machines virtuelles
•
Modéliser les plates-formes, prédire?
•
Gestion élastique des ressources
•
Gestion autonomique des ressources
•
Maîtriser les pics de charge
•
Déplacer les VMs, les tâches
•
Modèles économiques, énergétiques, …
•
Self-*
•
Obtenir des traces de Clouds publiques (Google, Amazon, IBM, …)
Caron, E., Desprez, F., Muresan, A. and Rodero-Merino, L., Auto-scaling, loadbalancing and monitoring in commercial and opensourceclouds,In Wang/Ranjan/Benatallah, editor, Cloud Computing: Methodology, Systems, and Applications, Chapter 14. Taylor and
Francis Group, LLC, 2011.
Caron, E., Desprez, F. and Muresan, A., Forecasting for Cloud ComputingOn-DemandResourcesBased on Pattern
Matching, Journal of GridComputing, Vol. 9, Numb. 1, pp. 49-64, 2011.
F. Desprez - Cloud Computing. De la recherche dans les nuages ?
12 Novembre 2013 - 14
15. Fiabilité d’allocations
Utilisation de la réplication pour obtenir des allocations robustes
• Machines Mi avec
• Capacité mémoire
• Capacité CPU, disque, réseau, …
• une probabilité de pannes p (pendant l’heure qui suit)
• Services Sj avec
• Demande en mémoire (dès que le service est alloué sur une machine)
• Demande en CPU, en disque, en réseau (proportionnelles à la charge)
• Une exigence de fiabilité rj (négociée dans le SLA)
• On cherche une allocation en utilisant la réplication qui satisfait
• Les demandes de services
• Les contraintes de capacité des machines
• Telle que pour tout j, après une heure (i.e. avant la prochaine redistribution)
Proba(somme des capacités allouées sur des machines vivantes > demande) >rj
Beaumont, O., Eyraud-Dubois, L., Renaud-Goud, P., Efficient and Robust Allocation Algorithms in Clouds under Memory
Constraints, hal-00874936, Oct., 2013.
F. Desprez - Cloud Computing. De la recherche dans les nuages ?
12 Novembre 2013 - 15
16. Comprendre les ordonnanceurs dynamiques
Ordonnancement de tâches
• De moins en moins statique
• Décisions prises à l’exécution
• Hadoop (mais aussi StarPU, ParSEC)
• En fonction
• d’affinités entre les tâches et les données
• de stratégies issues de la connaissance de l’application
• Parce que les temps d’exécution et de communication sont trop imprévisibles
• Résultats
• Très efficace en pratique pour de nombreux problèmes
• Objectif
• Modéliser le comportement des ordonnanceurs dynamiques et leurs
stratégies
• En général sous la forme de solutions d’ODE
• Pour
• Comprendre quelles sont les stratégies efficaces et les améliorer
• Fait pour le produit extérieur et le produit de matrices
Beaumont, O., Marchal, L., WhatMakesAffinity-BasedSchedulers So Efficient ?, hal-00875487, Oct., 2013
F. Desprez - Cloud Computing. De la recherche dans les nuages ?
12 Novembre 2013 - 16
17. Approche probabiliste
•
Contexte : gérer des applications avec des demandes de ressources
élastiques (et très variables)
•
Combiner
• Un modèle (épidémique) sensible pour capturer
la dynamique de la charge
• Un modèle Markovien qui vérifie un principe de
déviation large
• Une politique de gestion probabiliste basée sur
une caractérisation de la déviation
Gonçalvez, P., Roy, S, Begin, T., Loiseau, P., Dynamic Resource Management in Clouds: A ProbalisticApproach, IEICE Transactions
on Communications, special section on Networking Technologies for Cloud Services, Vol E95-B, N°8, Aug, 2012.
F. Desprez - Cloud Computing. De la recherche dans les nuages ?
12 Novembre 2013 - 17
18. Approche autonomique
•
Idée : résoudre les problèmes d’allocation de ressources dans les Clouds en utilisant la
théorie du contrôle
•
•
•
En entrée : temps de réponse maximal (tk au temps k)
En sortie : probabilité de servir un contenu optionnel (dimmer, Θk)
But : Maintenir un temps de réponse maximal
•
Implémentation dans une machine physique
•
•
LC : Local Controler
RM : Resource manager
Klein, C., Maggio, M., Arzen, K.-E., Hernandez-Rodriguez, F., IntroducingService-levelAwareness in the Cloud, Tech. Rep. ISRN
LUTFD2/TFRT--7641--SE, Lund Univ., Dept. Of Autonomic Control, Jul. 2013.
F. Desprez - Cloud Computing. De la recherche dans les nuages ?
12 Novembre 2013 - 18
19. Gestion de l’énergie
•
Mesurer l'usage énergétique des infrastructures de Cloud
•
Ressources partagées : réseau, serveurs, stockage
Instrumentation fine
Modèles de coûts d’une machine virtuelle, d’une application
Prendre en compte la consommation pour proposer des composants logiciels économes
Domaine de recherche existant depuis 2008
Le Cloud permet des optimisation énergétiques à tous niveaux
Ressources partagées : réseau, serveurs, stockage
Centres de calcul / fédération de centres
Composants logiciels : gestionnaires des ressources, ordonnanceurs...
Infrastructure logicielle de virtualisation / Green programming
Orgerie, A.C., Lefèvre, L., Gelas, J.P., DemystifyingEnergyConsumption in Grids and Clouds, Work in Progress in Green Computing
(WIPGC) Workshop, in conjunction IGCC, pp 335-342, 2010.
Lefèvre L., and Orgerie, A.-C. When Clouds become Green : the Green Open Cloud Architecture, Parco2009, International Conference
on ParallelComputing, Lyon, France, Sep 2009
Bostoen, T., Mullender, S., Berbers, Y., Power-Reduction Techniques for Data-Center Storage Systems, ACM ComputingSurveys, Vol.
45, No. 3, Article 33, June 2013
F. Desprez - Cloud Computing. De la recherche dans les nuages ?
12 Novembre 2013 - 19
20. Optimiser la gestion de l’énergie
•
Grosse activité de recherche autour du placement efficace en énergie des
machines virtuelles dans les Clouds
Optimisation de la répartition des services/machines virtuelle au sein du Cloud
Prise en compte de la consommation énergétique : nouvelle métrique
Profilage de la consommation des services, équilibrage
Ordonnancement des machines virtuelles multi-critères (énergie, performance, tolérance aux
pannes, QoS, SLA)
Optimisation globale de l’énergie (climatisation, …)
Hermenier, F., Lorca, X., Menaud, J.-M., Muller, G., Lawall, J.L., Entropy: a consolidation manager for clusters. In Proceedings of the
5th International Conference on Virtual ExecutionEnvironments, VEE 2009, pages 41–50. ACM, Mar. 2009
Aupy, G., Benoit, A., Robert, Y., Energy-awareschedulingunderreliability and makespanconstraints, 19th International Conference on
High Performance Computing, HiPC 2012, Dec., 2012
Lefèvre, L., Contributions à la flexibilité et à l'efficacité énergétique des syst distribués à grande échelle, HDR, ENS Lyon, Nov. 2013
Orgerie, A.C., Dias de Assunção, M., Lefèvre, L., A Survey on Techniques for Improving the EnergyEfficiency of Large
ScaleDistributed Systems, ACM ComputingSurveys, 2014
F. Desprez - Cloud Computing. De la recherche dans les nuages ?
12 Novembre 2013 - 20
21. Difficulté de la mesure énergétique
• Mesurer l'infrastructure physique et
virtuelle
Vision hébergeur/gestionnaire ou vision
utilisateur ?
Evaluer flexibilité du Cloud (ex : migration)
Enjeux
•
•
Facturation à l'usage réel
Obtenir des modèles fiables
Lefèvre, L., Orgerie, A.-C., Designing and Evaluating an Energy Efficient Cloud, Journal of SuperComputing, Volume 51, Number
3, pages 352-373, Mar. 2010
F. Desprez - Cloud Computing. De la recherche dans les nuages ?
12 Novembre 2013 - 21
22. Architecture efficace en énergie
• Centralisée avec quelques gros centres de
données ou complètement décentralisée (nanodatacenters)
• Changer les usages : ne plus considérer le Cloud
comme toujours disponible avec puissance infinie
• Exemple du Green HPC as a service
• Projet XLCLOUD (FSN 12-14): HPC as a service
(Bull, Serviware, Silkan, Telecom, Ateme, OW2, Inria)
•Mesure de la consommation électrique des ressources
physiques et virtuelles dans un Cloud OpenStack
• Créer des composants logiciels sensibles à la
consommation énergétique
• Proposition d'une infrastructure de Réservation de
ressources afin de favoriser les agrégations dans l'espace
et le temps
http://xlcloud.org
Valancius, V., Laoutaris, N., Massoulié, L., Diot, C., Rodriguez, P., Greening the Internet with Nano Data Centers, CoNEXT2009
F. Desprez - Cloud Computing. De la recherche dans les nuages ?
12 Novembre 2013 - 22
23. Intégrer la production d’électricité dans la boucle
• Stockage de l’électricité compliqué
• Sources d’énergies renouvelables intermittentes par nature
• Comment utiliser ces énergies au mieux?
• Localisation géographique des sources: follow-the-sun
• Prédiction de la production électrique
• Mécanismes de migration, suspension de machines virtuelles
réactifs
Deng, W., Liu, F., Jin, H., Li, B., Li, D., HarnessingRenewableEnergy in Cloud Datacenters: Opportunities and Challenges, IEEE
Network Magazine, 2013.
F. Desprez - Cloud Computing. De la recherche dans les nuages ?
12 Novembre 2013 - 23
24. Traitement des données, Big Data
•
Arrivée massive de données
LHC, simulations, séquencement de génomes, astrophysique, réseaux sociaux, capteurs, …
Grande hétérogénéité dans le stockage (BD, fichiers bruts, …) et dans les usages (nettoyage,
transformation, analyse, recherche, indexage, visualisation, …)
•
Des challenges
Manipuler des workflows distribués complexes à grande échelle (à la fois du calcul et des
transferts/réplications de données)
•
•
Gestion des ressources (calcul, stockage, réseau), intéropérabilité des solutions
Décrire ces workflows
Gérer des méta-données à propos des expérimentations et leur provenance
•
•
D’où viennent mes données ?
Quelles ont été les transformations qui ont été appliquées ?
Programmer les applications de demain
•
•
•
•
Quel langage pour quelles applications ?
Relations étroites avec les gestionnaires de ressources
Performance et transparence
Généricité
Sakr, S. Liu, A., Batista, D.M., Alomari, M., A Survey of Large Scale Data Management Approaches in Cloud Environments, IEEE
Communications Surveys and Tutorials, 2011.
Middleton A.M., Data-Intensive Technologies for Cloud Computing, Handbook of Cloud Computing, Springer, 83-135, 2010.
http://research.microsoft.com/en-us/collaboration/fourthparadigm/
F. Desprez - Cloud Computing. De la recherche dans les nuages ?
12 Novembre 2013 - 24
25. Gestion de données dans les Clouds
•
•
« one size does not fit all »
Offres de services de gestion de données plus ou moins structurées
•
•
Offres Google BigTable, Amazon S3, Amazon Simple DB
Approches NoSQL
Systèmes de fichiers distribués
Nombreux problèmes ouverts
Comprendre les compromis prix/performances
•
•
Consistance, disponibilité,performance, coût,
Coûts des mouvements de données: gestion
des applications fortement couplées
sécurité, qualité de service, consommation d’énergie
Surcoût de la virtualisation
•
Autonomie, consistanceadaptive
•
Modèles de programmation variés
•
Elasticité dynamique
•
Benchmarks
•
•
•
Compromis exposés à l’utilisateur
•
Modélisation des performances
•
Automatisation de l’optimisation pour la
Variabilité des performances: modéliser, comprendre,
agir
•
réduction des coûts (elasticscale down)
•
Sécurité et données privées
importante
•
Latence de déploiement/lancement des applications
•
Provenance des données
Latence des accès aux données
F. Desprez - Cloud Computing. De la recherche dans les nuages ?
12 Novembre 2013 - 25
26. Approche BlobSeer
BlobSeer: plate-formelogicielle pour unegestion de BLOBs
Fonctionnalitésclés
•
Gestion de donnéesdécentralisée
•
Gestion de méta-donnéesdécentralisée
•
Gestion de versions exposéeàl’utilisateur
•
Ecrituresconcurrentes sans locks (gérées par le versioning)
Un backend pour des gestionnaires de plus haut niveau
•
Court terme: systèmes de fichiersextensibles
•
Moyenterme: stockage pour des services Clouds
•
Long terme: bases de donnéesdistribuées
Contrôle de concurrence multiversions (Multiversionconcurrency
control, MVCC)
•
Conception et implémentationd’algorithmesdistribués
•
Expérience et validation sur Grid’5000
•
Validation sur des plates-formesréelles (Nimbus, Azure, OpenNebula)
http://blobseer.gforge.inria.fr/
F. Desprez - Cloud Computing. De la recherche dans les nuages ?
12 Novembre 2013 - 26
27. Réseaux
• Deux problématiques : accélérer les transferts, gérer le réseau plus
efficacement
• Accélérer les transferts
•
Nouveaux matériels: lasers à 40 Gb/s
• Gérer les réseaux plus efficacement
•
Virtualisation du réseau
•
Economie d’énergie
•
Sécurité
•
Allocation dynamique de réseaux virtuels
•
Support pour les migrations de machines virtuelles
•
Support pour des réseaux hétérogènes
•
Mobilité IP
•
Protocole TCP multi-chemins
•
Mettre de l’intelligence dans les cœurs de réseau
Bari, F.. Bouraba, R., Esteves, R., Zambenedetti Granville, L., Data Center Network Virtualization: A Survey, IEEE Communications
Surveys and Tutorials, Vol. 15, No. 2, 2013.
MosharafKabirChowdhury, N.M., Boutaba, R., Network Virtualization: State of the Art and Research Challenges, IEEE
Communication Magazine, Jul. 2009.
F. Desprez - Cloud Computing. De la recherche dans les nuages ?
12 Novembre 2013 - 27
28. Software Defined Networking (SDN)
•
Architecture de réseau classique
•
Idée derrière les SDN : Un système d’exploitation pour les réseaux
•
Plan de contrôle et protocoles de routage distribués
Fonctions propriétaires et inaccessibles aux chercheurs
Possibilité de programmer les réseaux
Le logiciel contrôle le réseau
OpenFlow
Protocole pour contrôler la table de routage
d’un switch ou d’un routeur
•
Logically-centralized
control
Smart,
slow
API to the data
plane
(e.g., OpenFlow)
Utilisation dans les Clouds pour gérer
Dumb,
fast
dynamiquement les ressources réseau
(virtualisation, qualité de services,
fonctionnalités pour les déplacements
d’images)
Switches
B. Nunes, Marc Mendonca, Xuan-Nam Nguyen, K. Obraczka, Thierry Turletti, A Survey of Software-Defined Networking:
Past, Present, and Future of Programmable Networks, IEEE Communications Surveys and Tutorials, Submitted.
McKeown, N., Anderson, T., Balakrishnan, H., Parulkar, G., Peterson, L., Rexford, J., Shenker, S., Turner, J.. 2008. OpenFlow:
enabling innovation in campus networks. SIGCOMM Comput. Commun. Rev. 38, 2, pp. 69-74 Mar. 2008.
F. Desprez - Cloud Computing. De la recherche dans les nuages ?
12 Novembre 2013 - 28
29. « Nouveaux » paradigmes de programmation ?
Les applications de grandes tailles utilisent encore les paradigmes de
programmation des grappes et des supercalculateurs (MPI, OpenMP)
Nouvelles applications avec nouveaux besoins
•
Manipulation de données,
•
Workflows (dynamiques),
•
Composants logiciels, …
Input
SPMDs
Prise en compte de l’architecture
•
Maîtrise de la grande échelle et de
hétérogénéité, élasticité,
•
Tolérance aux pannes,
•
Nouvelles architectures fortement
hiérarchiques, …
F. Desprez - Cloud Computing. De la recherche dans les nuages ?
12 Novembre 2013 - 29
30. MapReduce
Modèle (ré)-introduit par Google
•
« MapReduceis a programming model and an associatedimplementation for
processing and generating large data sets. Usersspecify a mapfunctionthatprocesses a
key/value pair to generate a set of intermediatekey/value pairs, and a
reducefunctionthatmerges all intermediate values associatedwith the
sameintermediatekey. »
MapReduce: Simplified Data Processing on Large Clusters
Jeffrey Dean and Sanjay Ghemawat
Version open-source: Hadoop
Nombreux travaux de recherche
•
Extensions du langage
•
Systèmes de fichiers distribués
•
Réplication des données
•
Gestion des ressources
•
Nouvelles applications
•
Nouvelles plates-formes (multicores, GPU)
•
Tolérance aux pannes
F. Desprez - Cloud Computing. De la recherche dans les nuages ?
12 Novembre 2013 - 30
31. Sécurité
• Délivrer un service qui peut être certifié uniquement pour
des actions autorisées
• 3 parties
•
Disponibilité: d’un service en fonction des autorisations accordées
•
Confidentialité
•
Intégrité : éviter une altération malveillante du système
• Des problèmes de sécurité liés aux Clouds
•
Tous les problèmes de sécurité « classiques » (virus, backdoors, DDoS, …)
•
+ Problèmes avec la virtualisation canaux cachés
•
+ Partage de ressource = partage des attaques sur les ressources
•
+ La présence de plusieurs acteurs (potentiellement dangereux)
•
+ Ressources accessibles via le réseau
Pearson, S., Benameur, A., Privacy, Security and Trust Issues Arisingfrom Cloud Computing, CloudCom, 2010
Miller, Keith W. and Voas, Jeffrey and Laplante, P., In Trust We Trust, IEEE Computer, Oct. 2010
Ristenpart, T., Tromer, E., Shacham, H., Savage, S., Hey, You, Get Off of my Cloud: Exploring Information Leakage in ThirdPartyCompute Clouds, 16th ACM conference on Computer and communications security, 2009
Pearce, M., Zeadally, S., and Hunt, R., Virtualization: Issues, securitythreats, and solutions. ACM Comput. Surv. 45, 2, Feb. 2013
Noor, T. H., Sheng, Q. Z., Zeadally, S., and Jian, Y., Trust management of services in cloudenvironments: Obstacles and solutions.
ACM Comput. Surv. 46, 1, Oct. 2013
F. Desprez - Cloud Computing. De la recherche dans les nuages ?
12 Novembre 2013 - 31
32. Sécurité, suite
• Virtualisation de la sécurité (calcul, stockage, réseau)
•
Allocation de ressource tenant compte de critères de sécurité
• Mécanismes de sécurité dans la couche virtualisation (améliorer l’isolation entre les
utilisateurs (performance, privatisation)
•
Virtualisation des composants architecturaux (pousser la sécurité dans le hard)
• Sécurité des applications sur les Clouds
•
Pouvoir exprimer les besoins en sécurité du point-de-vue utilisateur
•
Intégrer la sécurité dans les modèles de programmation
•
Schéma de facturation simple d’utilisation
• Sécurité des plates-formes de Clouds
Evolution de la sécurité d’une VM à la sécurité d’un ensemble de ressources (VMs,
réseau, stockage)
Sécuriser tous les niveaux : mécanismes à tous les niveaux de la pile logicielle
Services de sécurité pour les applications : transformer les demandes en niveaux de
sécurité
Assurance de sécurité : prouver aux utilisateurs que la sécurité requise est assurée (et
prouvée)
Rodero-Merino, L., Caron, E., Desprez, F., and Muresan, A., Building SafePaaS Clouds: a Survey on Security in Multitenant Software
Platforms, Computers & Security, Vol. 31, pp. 96-108, 2012.
F. Desprez - Cloud Computing. De la recherche dans les nuages ?
12 Novembre 2013 - 32
33. Sécurité et Big Data
• Problèmes spécifiques liés aux Big Data
•
Données qui circulent (pas forcement vers les bons endroits)
•
Données privées et confidentielles
•
Performance vs sécurité
• Sécurité des Big Data
•
Sécurité pour des systèmes de gestion de données de grande taille
• Crypthographie: Encryption basée sur les attributs et
encryptionhomomorphique
•
•
Contrôle de flot d’informations décentralisé
Sécurité extensible
• Depuis la sécurité de machines simple jusqu’à la sécurité de systèmes
distribués
• Depuis la sécurité de systèmes de stockage simples jusqu’à la sécurité de
gestionnaires de données globaux
•
Performances vs sécurité
•
Comment gérer des données massives de manière sécurisée
F. Desprez - Cloud Computing. De la recherche dans les nuages ?
12 Novembre 2013 - 33
34. Déploiement distribué
•
•
•
•
•
•
Nouvelles générations de Clouds distribuées
But: améliorer l’extensibilité, ajouter de la localité dans les calculs, i.e. se
rapprocher des utilisateurs, tolérance aux fautes, gestion de l’énergie
Idée: utiliser le backbone réseau et ajouter des serveurs en son sein
Conception d’un overlay (DHT-like)
pour accéder aux ressources
Définition d’un système d’exploitation
distribué pour gérer les VMs
DISCOVERY (DIStributed and
COoperativeframework to manage
Virtual EnviRonmentsautonomicallY)
Lèbre, A., J. Pastor, J., Bertier, M., Desprez, F., Rouzaud-Cornabas, J., Tedeschi, C., Anedda, P., Zanetti, G., Nou, R., Cortes, T., Riviere, E.
and Ropars, T., Beyond The Cloud, How ShouldNextGeneration Utility Computing Infrastructures Be Designed? INRIA Research
Report 8348, Aug. 2013.
F. Desprez - Cloud Computing. De la recherche dans les nuages ?
12 Novembre 2013 - 34
35. Systèmesd’exploitation Grid/Cloud-aware
• Des systèmes et des plates-formes hétérogènes
• Grappes, grilles, Clouds
• Une utilisation compliquée
• intergiciels multiples, OS différents, gestion de ressources, de
données, fichiers, tolérance aux pannes, sécurité, …
• Vers des OS pour les grilles et les Clouds ?
• Des challenges !
• Maîtrise de la grande échelle
• Nombre de ressources
• Sites et domaines multiples
• Dynamicité
• Charge, pannes, ajouts de ressources
• Difficulté à prédire le comportement des
plates-formes et de leurs utilisateurs
• Projets XtreemOS, CONTRAIL
F. Desprez - Cloud Computing. De la recherche dans les nuages ?
12 Novembre 2013 - 35
36. SimGrid: Simulateurd’applicationsdistribuées
•
Instrument scientifique pour l’étude du calcul distribué à large échelle
•
Fonctionnalités principales
• Versatile: Grilles, systPàP, HPC, Clouds, MapReduce, …
• Valide: Limites en terme de précision étudiées précisement
• Extensible et rapide (malgré des modèles précis)
• Travaux en cours
• SimGrid Cloud Broker (simulateur de plates-formes de type Amazon)
• Ajout de fonctionnalités autour de la virtualisation à SimGrid (migration de
VMs, boot, …)
• ANR SONGS
http://infra-songs.gforge.inria.fr
F. Desprez - Cloud Computing. De la recherche dans les nuages ?
12 Novembre 2013 - 36
37. GRID’5000 – Une plate-formeIaaSpour la recherche
Testbed pour la recherche sur les systèmes distribués (GIS GRID5000)
•
Né de l’observation qu’on a besoin d’instruments pour la validation d’algorithmes
•
HPC, Grilles, systèmes pair-à-pair, Clouds
•
Un accès au matériel de manière exclusive (depuis un noeud jusqu’à la plate-forme
entière)
•
9 sites, 1195 machines, 8184 cores
•
Réseau Renater 10G dédié
•
Différentes technologies/ressources (Intel, AMD, Myrinet, Infiniband,
GPU, capteurs de consommation d’énergie)
•
Fédérations de plates-formes au niveau européen (BonFIRE, Fed4FIRE)
•
Exemples d’expériences de Clouds
•
•
•
•
Ordonnancement dynamique de 10K VMs sur 4 sites
SkyComputing entre la France et les USA (FutureGrid)
Nimbus + BlobSeer + MapReduce
Piles logicielles OpenNebula, Eucalyptus, OpenStack
Balouek, D., CarpenAmarie, A., Charrier, G., Desprez, F., Jeannot, E., Jeanvoine, E., Lèbre, A., Margery, D., Niclausse, N., Nussbaum, L., R
ichard, O., Perez, C., Quesnel, F., Rohr, C., and Sarzyniec L., AddingVirtualizationCapabilities to Grid'5000, INRIA Research Report
#8026, Jul. 2012.
F. Desprez - Cloud Computing. De la recherche dans les nuages ?
12 Novembre 2013 - 37
38. Conclusion
•
De nombreuses applications prêtes à être déployées sur les Clouds à
différents niveaux
•
Les ressources sont disponibles en quantité !
•
Nombreuses offres de Clouds publics et privés
•
Notion de virtualisation et piles logicielles « mature »
•
« Quelques » problèmes à traiter encore mieux
• extensibilité, sécurité, dynamicité, gestion de données à grande échelle, tolérance
aux fautes, gestion de l’énergie, API entre Clouds, standards, …
•
Foisonnement de travaux de recherche sur le domaine
•
Retour de paradigmes des années soixante !
•
Nouvelles approches théoriques pour résoudre les problèmes
•
S’inspirer d’autres modèles (automatique, théorie des jeux, …)
•
Le Cloud n’est pas prêt d’enterrer les supercalculateurs pour autant pour les
grosses applications de simulation (architectures petascales et bientôt
exascales)
•
Gros potentiel pour de nombreuses applications avec différentes approches
(IaaS, PaaS, SaaS) voir une combinaison de ces approches
F. Desprez - Cloud Computing. De la recherche dans les nuages ?
12 Novembre 2013 - 38
39. Bibliographie
•
Des journaux
IEEE INTERNET COMPUTING, JPDC, Future Generation Computer Systems,
ACM Surveys, IEEE TPDS, …
•
Des conférences
•
IEEE CCGRID, IPDPS, HPDC, Supercomputing, INFOCOM, …
Contacts nationaux
GIS France Grille et Institut des Grilles (Vincent Breton)
GIS GRID5000 (Frédéric Desprez)
Michel Daydé, Délégué Scientifique INS2I domaine « grilles et supercalculateurs »
F. Desprez - Cloud Computing. De la recherche dans les nuages ?
12 Novembre 2013 - 39
40. Bibliographie, suite
•
EuropeanCommission report on The Future of Cloud Computing
•
•
•
A Roadmap for Advanced Cloud Technologies under H2020, European Commission, Recommandations by the
Cloud Expert Group, Digital Agenda for Europe, Dec. 2012
Key Challenges in Cloud Computing, Enabling the Future Internet of Services, Rafael Moreno-Vozmediano,
Ruben S. Montero, and Ignacio M. Llorente, IEEE INTERNET COMPUTING, Jul 2013
NIST Cloud Strategy and Innovation Blog (I. Llorrente)
•
http://cordis.europa.eu/fp7/ict/ssai/docs/cloud-report-final.pdf
http://blog.cloudplan.org/
Above the Clouds: A Berkeley View of Cloud Computing
•
http://www.eecs.berkeley.edu/Pubs/TechRpts/2009/EECS-2009-28.html
http://berkeleyclouds.blogspot.com/
The NIST Definition of Cloud Computing
•
DRAFT Cloud Computing Synopsis and Recommendations, NIST,
•
http://science.energy.gov/~/media/ascr/pdf/program-documents/docs/Magellan_final_report.pdf
Livre blanc sur le calcul intensif, Comité d’orientation pour le calcul intensif (Cocin) du CNRS, 2012
•
http://www.sienainitiative.eu/Repository/FileScaricati/8ee3587a-f255-4e5c-aed4-9c2dc7b626f6.pdf
The Magellan Report on Cloud Computing for Science, Yellick et al., Dec. 2011
•
http://csrc.nist.gov/publications/drafts/800-146/Draft-NIST-SP800-146.pdf
SIENA EuropeanRoadmap on Grid and Cloud Standards for e-Science and Beyond
•
http://csrc.nist.gov/publications/drafts/800-145/Draft-SP-800-145_cloud-definition.pdf
http://www.cnrs.fr/ins2i/IMG/pdf/Livre_blanc_-_derniere_version.pdf
Synergistic Challenges in Data-Intensive Science and ExascaleComputing, DOE ASCAC Data Subcommittee
Report, March 2013
F. Desprez - Cloud Computing. De la recherche dans les nuages ?
12 Novembre 2013 - 40