w w w . b e s t p r a c t i c e s - s i . f rAccompagner l’explosion desvolumes de données :les nouveaux enjeux du stockage
2  •  Best Practices - Systèmes d’Information  -  Stockage  -  Novembre 2012Accompagner l’explosion desvolumes de données ...
Stockage  -  Novembre 2012  -  Best Practices - Systèmes d’Information  •  3LES Cahiers best practices - StockageEnfin, l’...
4  •  Best Practices - Systèmes d’Information  -  Stockage  -  Novembre 2012LES Cahiers best practices - Stockageplus long...
Stockage  -  Novembre 2012  -  Best Practices - Systèmes d’Information  •  5LES Cahiers best practices - StockageElle disp...
6  •  Best Practices - Systèmes d’Information  -  Stockage  -  Novembre 2012LES Cahiers best practices - Stockage•  Le clu...
Stockage  -  Novembre 2012  -  Best Practices - Systèmes d’Information  •  7LES Cahiers best practices - StockageÀ propos ...
Ce document est un supplément au numéro 98 de Best Practices Systèmes d’Information.Best Practices-Systèmes d’Information ...
Prochain SlideShare
Chargement dans…5
×

Accompagner l'explosion des volumes de données : les nouveaux enjeux du stockage

1 794 vues

Publié le

La croissance exponentielle des volumes de données entraînent des tensions sur les systèmes d’information. Dans ce contexte, les responsables du stockage ont un rôle essentiel : ils sont chargés de gérer la disponibilité, l’accessibilité et la sécurité des données, un actif de valeur stratégique pour les organisations. Mais cette multiplication des données met en exergue les limites des systèmes classiques SAN (Storage Area Network) et NAS (Network Attached Storage) et impose une réévaluation des besoins qui ne peuvent être désormais satisfaits que par des plates-formes de stockage évolutives, basées sur le système NAS Scale-out.

Publié dans : Technologie, Business
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
1 794
Sur SlideShare
0
Issues des intégrations
0
Intégrations
1 171
Actions
Partages
0
Téléchargements
0
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Accompagner l'explosion des volumes de données : les nouveaux enjeux du stockage

  1. 1. w w w . b e s t p r a c t i c e s - s i . f rAccompagner l’explosion desvolumes de données :les nouveaux enjeux du stockage
  2. 2. 2  •  Best Practices - Systèmes d’Information  -  Stockage  -  Novembre 2012Accompagner l’explosion desvolumes de données :les nouveaux enjeux du stockageCe cahier Best Practices Systèmes d’Information a été rédigé par Aurélie ChandèzeLacroissanceexponentielledesvolumesdedonnéesentraînentdestensionssurlessystèmesd’information.Danscecontexte,lesresponsablesdustockageontunrôleessentiel:ilssontchargésdegérerladisponibilité,l’accessibilité et la sécurité des données, un actif de valeur stratégique pour les organisations. Mais cettemultiplicationdesdonnéesmetenexergueleslimitesdessystèmesclassiquesSAN(Storage Area Network)etNAS(Network Attached Storage)etimposeuneréévaluationdesbesoinsquinepeuventêtredésormaissatisfaits que par des plates-formes de stockage évolutives, basées sur le système NAS Scale-out.LES Cahiers best practices - StockageEn 2012, l’explosion des volumes de données n’est plus unehypothèse lointaine mais bien une réalité. Ainsi, selon lecabinet d’études américain IDC (Etude 2011 « Extracting Valuefrom Chaos »), 1,8 zettaoctets de données, soit 1 800 milliardsde gigaoctets, ont été créés et répliqués en 2011 : c’est 9 foisplus qu’en 2005, et cette croissance n’est pas prête de ralentir.En effet, d’ici la prochaine décennie, IDC estime que la quantitéde données gérée par les entreprises pourrait être multipliée par50 et la taille des fichiers par 75.Des fichiers et répertoiresde plus en plus volumineuxCe phénomène du big data concerne aussi bien les particuliers, àl’origine de 75 % des informations numériques, que les entrepriseset les organisations publiques, qui ont des responsabilités surprès de 80 % de ces données. Par ailleurs, 80 % des capacitésde stockage installées en 2012 concernent des données en modefichier : audio, vidéo, images, documents bureautiques, etc.Pour ces raisons, les entreprises investissent massivement dansles données : toujours selon le cabinet IDC, les investissementsconsentis par les entreprises dans l’« univers numérique » (cloudcomputing,équipementinformatique,logiciels,servicesetpersonneldédié à la création, la gestion, le stockage et l’exploitation desinformations) ont augmenté de 50 % entre 2005 et 2011, pouratteindre les 4 000 milliards de dollars au niveau mondial. Selonle cabinet de conseil Deloitte, dans son étude « Technology, Media& Telecommunications Predictions », en 2012, 90 % des sociétésdu classement Fortune 500 auront lancé un grand chantier degestion des données. D’après McKinsey, les entreprises américainesde plus de 1 000 salariés stockent d’ores et déjà, en moyenne,l’équivalent de 235 teraoctets de données.Virtualisation totaleDans le même temps, l’informatique d’entreprise se virtualise :applications, serveurs, postes de travail, réseau, toutes lesressources deviennent disponibles à la demande, assurant unemeilleure continuité des activités et facilitant la maîtrise descoûts… Le stockage est le dernier maillon de la chaîne : pourque les organisations puissent exploiter tout le potentiel de lavirtualisation, il doit être accessible de manière transparente,unifiée et immédiate, aussi bien depuis les environnementsphysiques que virtualisés.
  3. 3. Stockage  -  Novembre 2012  -  Best Practices - Systèmes d’Information  •  3LES Cahiers best practices - StockageEnfin, l’analyse prédictive, qui s’appuie sur des algorithmesstatistiques avancés pour détecter et prévoir certaines évolutions,se développe dans de nombreux domaines notamment lemarketing, l’analyse de risques, la maintenance prévisionnelleou l’évaluation de la qualité. Ce type d’application nécessitede gros volumes de données, qui doivent pouvoir être chargésrapidement et facilement dans des outils spécifiques. A cesproblématiques qui concernent la plupart des organisationss’ajoutent dans bien des cas des spécificités sectorielles :•  Ainsi, les entreprises et des organisations de la culture etdes médias sont confrontées depuis plusieurs années déjà à lanumérisation massive des contenus et à de nouveaux formatsmultimédias de haute définition.•  Dans leurs activités de recherche, industriels et organismespublics doivent composer avec des appareils de mesure toujoursplus avancés, qui produisent des volumes considérables dedonnées brutes. Bio-informatique, exploration pétrolière,exploitation des résultats de simulations numériques nécessitenttoujours plus de ressources, à la fois pour les traitements etle stockage. Par ailleurs, la réutilisation des données est enaugmentation, ce qui nécessite de conserver plus longtempsles archives en ligne.•  Le secteur public, notamment les collectivités, s’engagede plus en plus dans des démarches d’ouverture des donnéespubliques (Open data) qui impliquent de mettre à dispositiondu public des masses de données, le tout de manière fiable etperformante.•  Le secteur financier a besoin d’effectuer des analysescomplexes impliquant de multiples paramètres, le tout dansdes délais très courts, ce qui nécessite de très hauts niveaux deperformances. Soumis à de nombreuses réglementations, il doiten outre assurer l’intégrité des données stockées.•  Des industries comme les télécoms ou l’énergie cherchent denouvelles sources de développement du côté des smart grids, cesréseaux intelligents dotés de capteurs pour s’adapter en tempsréel aux besoins et aux contraintes de leur environnement. Cescapteurs génèrent là encore des quantités de données brutes,qui peuvent être conservées pour améliorer la compréhensionde la demande et les performances des services.•  Enfin, le secteur informatique est marqué par l’essor du cloudcomputing : hébergeurs, intégrateurs, éditeurs offrant des servicesde type SaaS (Software-as-a-Service), PaaS (Platform-as-a-Service)ou IaaS (Infrastructure-as-a-Service) doivent offrir à leurs clientsdes services de stockage fiables et sécurisés.L’évolutivité prend le pas surla capacité pureDans ce contexte, les responsables du stockage ont un rôleessentiel : ils sont chargés de gérer la disponibilité, l’accessibilitéet la sécurité des données, un actif de valeur stratégique pourles organisations. Ils doivent provisionner, migrer, protéger etrendre accessibles des quantités de plus en plus importantesde données, ce qui amène de nouvelles exigences.En termes de stockage, la multiplication des données faitnotamment ressortir les limites des systèmes classiques et imposeune réévaluation des besoins. Le big data met en particulierl’accent sur la capacité des infrastructures à accompagner cettecroissance ultra-rapide des informations. L’évolutivité devientun critère primordial pour les responsables informatiques, pourqui il est de plus en plus difficile de prévoir précisément dequelle capacité leur entreprise aura besoin demain.Dans le même temps, les directions informatiques sontconfrontées à des exigences toujours plus fortes pour réduireles coûts. Dans une étude réalisée en juin 2010 par l’EnterpriseStrategy Group, 54 % des responsables interrogées considèrentainsi la réduction des coûts opérationnels comme une de leurspriorités, et 30 % placent également la réduction des coûtsd’investissement parmi leurs objectifs. Pour ces raisons, lesentreprises cherchent à optimiser leurs systèmes de stockage, enmaximisant son utilisation, en diminuant l’énergie consomméeet en réduisant la charge nécessaire à leur gestion. Des tâchesclassiques comme la gestion d’unités logiques (LUN) ou l’ajoutde disques sont en effet coûteuses en temps, apportent peude valeur à l’entreprise et certaines peuvent même entraînerdes interruptions de service. Les opérationnels chargés de lagestion des ressources de stockage sont donc en quête d’unmaximum de simplicité.Enfin, l’augmentation du nombre de données s’accompagned’une exigence accrue en matière de performances, de fiabilité etd’interopérabilité : les métiers demandent à ce que les donnéessoient accessibles toujours plus vite et pendant des durées
  4. 4. 4  •  Best Practices - Systèmes d’Information  -  Stockage  -  Novembre 2012LES Cahiers best practices - Stockageplus longues, mais elles doivent également être sécurisées etprotégées, en particulier quand il s’agit de données sensibles.Les responsables du stockage ont donc besoin de performancesprévisibles et d’un haut niveau de fiabilité. Ces enjeux peuventremettre en cause certains choix d’architectures associés auxtechnologies emblématiques du big data, et notamment Hadoop,conçues pour l’analyse de très gros fichiers de données structuréeset non-structurées.Huit critères pour une plate-formede stockage vraiment évolutivePour répondre aux enjeux de l’explosion des volumes dedonnées, les entreprises ont besoin d’infrastructures de stockageévolutives, flexibles et simples à gérer, capables de répondre auxexigences suivantes :1.  Pouvoir faire évoluer la capacité de stockage à la volée, enrestant au plus près des besoins réels plutôt qu’en se basant surdes prévisions ;2.  Pouvoir ajuster les performances du stockage aux besoins desapplications (gros fichiers, nombre élevé d’entrées/sorties…) ;3.  Offrir un système multi-protocoles pour ne pas êtredépendant du protocole utilisé par les applications ;4.  Supporter les environnements et les applications virtualiséespour que le stockage ne soit plus un facteur limitant ou un gouletd’étranglement dans les projets de virtualisation ;5.  Offrir toute la palette des fonctions associées au stockaged’entreprise (provisionnement fin, images logiques en lectureseule, copie à distance …), et les mettre à la portée des projetsde big data ;6.  Assurer un stockage sécurisé, partagé et hautementdisponible, dans lequel les données sont protégées contre lesdéfaillances ;7.  Optimiser l’utilisation des ressources de stockage et laconsommation d’énergie ;8.  Le tout dans un environnement unifié, avec un seul espacede nommage, afin de simplifier les tâches de gestion.Le stockage NAS Scale-out : une réponseaux enjeux de l’explosion des donnéesDepuis quelques années, un nouveau type de systèmede stockage a fait son apparition pour répondre à desproblématiques insuffisamment adressées par les systèmesSAN (Storage Area Network) et NAS (Network Attached Storage)traditionnels.Les plates-formes NAS Scale-out se caractérisent par unearchitecture en grappe, qui permet d’ajouter aisément desnœuds ou des disques, le tout dans un espace de nommageunique. Ce type de plate-forme est capable de gérer dans un seulcluster des volumétries allant de quelques teraoctets à plusieurspetaoctets de données. De telles solutions offrent une gestiondes fichiers robuste, adaptée tant aux données structuréesque non structurées, et elles permettent aux entreprises dedisposer d’une infrastructure de stockage dynamique, partagéeet sécurisée.La plate-forme NAS Scale-outd’EMC IsilonEMC Isilon propose une infrastructure de stockage NASScale-out flexible, dont la capacité peut évoluer de quelquesteraoctets à 15,5 petaoctets (pour un cluster de 144 nœuds).Différents types de nœuds peuvent être intégrés dans unmême cluster pour répondre à des attentes différentes entermes de performance : la série S, bâtie pour la hauteperformance, cible les applications transactionnelles avecun très grand nombre d’entrées/sorties ; la série X, flexible,répond aux exigences du big data, se prêtant notammentà la manipulation de très gros fichiers et aux workflowsnécessitant un débit séquentiel élevé ; enfin, la série NL aété conçue dans l’optique de proposer une offre de stockageen ligne abordable et bénéficiant des atouts du stockageScale-out, pour les organisations souhaitant accroître leurcapacité de manière simple et transparente.La plate-forme Isilon assure un débit global de plus de 100gigaoctets par seconde (106 Go/s en simultané et 724 Mo/sen flux unique), et peut traiter jusqu’à 1,6 millions d’entrées/sorties par seconde sur les nœuds S-Series tout en minimisantla latence.
  5. 5. Stockage  -  Novembre 2012  -  Best Practices - Systèmes d’Information  •  5LES Cahiers best practices - StockageElle dispose d’une couche logicielle, OneFS, qui regroupe lestrois fonctions traditionnelles du stockage (fichiers, volumeset disques RAID) en une seule couche unifiée. Avec celle-ci,l’ensemble des nœuds peuvent être gérés dans un seul espacede nommage.OneFS supporte les principaux protocoles d’accès aux fichiersde l’industrie : NFS, CIFS/SMB, FTP, HTTP, iSCSI, Rest ; maiselle intègre également en natif le protocole HDFS utilisé pourgérer les fichiers dans Hadoop. La solution peut ainsi être utiliséecomme couche de stockage pour les projets big data, d’autantque les avancées en termes de réseau permettent aujourd’huiaux entreprises de disposer d’une bande passante de très hautequalité, ce qui réduit les enjeux liés à la latence.De nombreux modules permettent d’ajuster l’environnementde stockage aux exigences des entreprises : contrôle desperformances et reporting (InsightIQ), hiérarchisationautomatisée du stockage (SmartPools), attribution et gestionde quotas pour partitionner de manière transparente l’espacede stockage (SmartQuotas), équilibrage des charges et basculeen cas d’incident pour assurer la continuité de l’accès auxdonnées (SmartConnect), protection et sauvegarde des données(SmartLock et SnapshotIQ) ou encore réplication et distributiondes données sur plusieurs sites de stockage afin d’assurer unereprise fiable en cas de sinistre (SyncIQ).Les bénéfices de la solutionUn environnement flexible et évolutif•  La solution est conçue pour être extensible. Il suffit de60 secondes pour ajouter un nœud au cluster et pour que lanouvelle capacité soit mise à disposition des applications. Lesentreprises peuvent ainsi augmenter la capacité disponible demanière transparente.•  Les nombreux protocoles supportés permettent des’intégrer facilement aux applications. Un seul et mêmesystème de stockage peut ainsi être partagé par un ensembled’environnements hétérogènes.•  La solution offre une intégration fine avec les solutions devirtualisation de VMWare, à travers le support des interfacesde programmation VASA (détection du stockage) et VAAI(transfert de tâches vers les baies de stockage).•  Une interface de programmation permet aux entreprises dedévelopper leurs propres outils interfacés avec le système destockage.Une simplicité de gestion identique de 15 To à 15 Po•  La migration des données est automatisée, éliminant unetâche manuelle fastidieuse et coûteuse en temps dans les NAStraditionnels.•  Tous les nœuds du cluster sont gérés comme un seul etmême système : il n’est plus nécessaire de configurer des milliersd’unités logiques (LUN), ce qui réduit d’autant la charge desadministrateurs IT.•  La sauvegarde et la restauration des données sont facilitéesgrâce à des options telles que les snapshots. Ceux-ci peuvent êtretrès rapidement restaurés en cas de problème, la solution étantcapable d’identifier les changements et de cibler précisémentles zones à restaurer.•  Grâce à l’intégration native du système de fichiers d’Hadoop,les organisations peuvent utiliser n’importe lequel des protocolessupportés pour alimenter ces fichiers en données, ou exporterles résultats d’une analyse Hadoop vers une autre applicationanalytique. Elles peuvent même effectuer directement lestraitements sur les documents sources si ceux-ci sont stockéssur le cluster.Des coûts maîtrisés et un stockage optimisé•  Plus dense que les systèmes SAN ou NAS classiques, lasolution consomme de ce fait moins d’énergie, tant pour sonfonctionnement que pour le refroidissement.•  Plutôt que de multiplier les espaces de stockage dédiés,il suffit d’ajouter des nœuds au cluster pour étendre lacapacité. De cette façon, les entreprises maîtrisent mieuxle dimensionnement de leur infrastructure de stockage etpeuvent augmenter l’espace disponible tout en stabilisantles coûts de fonctionnement.•  La solution est bâtie pour permettre une utilisation allantjusqu’à 80 % de la capacité du cluster, alors que les systèmesde stockage classiques sont utilisés à 50 % de leur capacité enmoyenne.
  6. 6. 6  •  Best Practices - Systèmes d’Information  -  Stockage  -  Novembre 2012LES Cahiers best practices - Stockage•  Le cluster s’appuie sur un système de règles pour répartirautomatiquement les données dans les différents nœuds selon lemeilleur rapport valeur/performance, garantissant une utilisationoptimisée de l’espace de stockage.Une infrastructure fiable, réduisant les risques•  Différents outils permettent de protéger les données sensiblescontre les modifications ou suppressions accidentelles et d’assurerleur intégrité : protection de type WORM (Write Once ReadMany), algorithmes de chiffrement…•  Le contrôle d’accès basé sur des rôles et des zones d’au­thentification sécurisent l’accès, en conformité avec lagouvernance mise en place dans l’organisation.•  Grâce au module SmartConnect, les entreprises peuventdisposer de systèmes de bascule automatique qui garantissentun haut niveau de tolérance aux pannes.•  Les niveaux de performances évoluent de manière linéaireet prédictible avec l’ajout de capacité.Assurer la disponibilité des données et la continuitéd’activité•  L’ajout de capacité s’effectue à la volée et de manièretransparente, sans interruption de service pour les utilisateurs.•  Des outils permettent d’effectuer un équilibrage des chargesafin d’assurer un haut niveau de disponibilité.•  L’architecture en grappe élimine la problématique de point dedéfaillance unique présente dans les anciennes implémentationsd’Hadoop, le NameNode étant répliqué sur chaque nœud.•  La redondance du système est possible jusqu’à N+4. •En savoir plusZoom sur Hadoop et les enjeux de stockageHadoop est un projet open source de la Fondation Apache,constitué de deux composants principaux : un système defichiers distribués, Hadoop Distributed File System (HDFS),et MapReduce, un framework pour traiter en parallèle delarges ensembles de données et répartissant les tâches surplusieurs nœuds de traitements.Le système de fichiers HDFS comporte deux briques,le serveur maître NameNode qui contient toutes lesmétadonnées permettant de localiser les fichiers et les blocsde données, et des DataNode, nœuds esclaves qui gèrenttoutes les opérations de lecture/écriture sur les fichiers dedonnées.Cette architecture permet de traiter de manière performanteet rapide de vastes ensembles de données. •Cas clientLa BNF optimise l’accès à plus d’un millionde documents audiovisuelsLa Bibliothèque Nationale de France prend en charge une partimportante du dépôt légal des documents audiovisuels, auxcôtés de l’INA et du CNC. En 2004 l’institution a entreprisde numériser en masse ses fonds, soit 100 000 cassettesanalogiques et 12 000 documents sonores, afin d’en faciliterla consultation. Dans les salles accueillant les visiteurs, 80postes de consultations sont mis à disposition des chercheurset 80 sont pour le grand public.A l’heure actuelle, l’établissement dispose de plus de 700 Tode données stockées sur bande (LTO). Au départ, les donnéesdestinées à la consultation transitaient depuis les lecteursLTO par un système de stockage SAN. Avec l’explosion desdemandes de consultation, cette infrastructure s’est avéréeinsuffisante pour préserver des délais d’accès aux documentssatisfaisants, la BNF ne souhaitant pas que ceux-ci excèdent30 minutes.L’institution a donc décidé en 2006 de remplacer son systèmeSAN par un cluster NAS Isilon constitué de huit serveurs,d’une capacité totale de 33 To. Le cluster est rattaché ausystème LTO par une liaison Gigabit Ethernet. Le passage duSAN au NAS a facilité la gestion des documents provenantde différents pôles, ceux-ci apparaissant sur le réseau commedes dossiers partagés.Cette nouvelle infrastructure permet de découpler lesflux d’écriture entre les lecteurs LTO et le NAS et les fluxde consultation entre le NAS et les postes de travail. Lesperformances d’accès ont été considérablement améliorées :les usagers peuvent désormais télécharger jusqu’à seize fois unmême film d’environ 8 Go en même temps, en dix minutescontre plus d’une heure auparavant. •
  7. 7. Stockage  -  Novembre 2012  -  Best Practices - Systèmes d’Information  •  7LES Cahiers best practices - StockageÀ propos d’EMCEMC Corporation est le premier développeur etfournisseur mondial de technologies et de solutionsd’infrastructures d’information permettant auxentreprises de toutes tailles de rivaliser autrement et decréer de la valeur à partir de leurs informations.Pour en savoir plus sur les produits et services d’EMC,rendez-vous sur www.emc.com
  8. 8. Ce document est un supplément au numéro 98 de Best Practices Systèmes d’Information.Best Practices-Systèmes d’Information est publié par Best Practices International - SARL au capital de 21 000 euros,Pavillon Sisley, rue de la Croix-Rouge, 78430 Louveciennes - Tél. 06 75 64 63 97 - 503 117 988 RCS VersaillesDirecteur de la publication : Philippe Rosé (philippe.rose@bestpractices-si.fr), Contrôle qualité : Alain Condrieu, Directeur du développement : Marc Guillaumot (marc.guillaumot@bestpractices-si.fr) -ISSN : 1967-5097 - Gérant : Marc Guillaumot - Dépôt légal : à parution. Toute reproduction même partielle est strictement interdite. Impression : Best Practices Internationalwww.emc.com/isilon

×