Les leçons de SolutionITPME :comprendre l’essentiel sur lestechnologies de stockageTout au long de la saison 2011-2012, So...
Les bénéfices de la Flash pour lessystèmes de stockageMémoire Flash, SLC, eMLC, MLC, SSD, PCI-express… Pour vous aider à m...
l’émergence des clés de stockage USB (un format popularisé par IBM sous le nom « Thumb Drive » au débutdes années 2000).La...
Dans la pratique, les mémoires SLC sont à la fois les plus performantes et les plus coûteuses. Elles sontaussi celles dont...
Pourquoi la mémoire Flash impose sesperformances dans les systèmesinformatiques ?Dans le précédent article, nous avons exp...
Le résultat est un déséquilibre croissant : d’un côté des processeurs capables de performances théoriquescroissantes et de...
Les cartes Flash PCI-express : au service de la performance extrême                                              Une façon...
Optimisez votre espace de stockageavec le Thin ProvisioningQu’est-ce que le thin provisionning et quels sont les bénéfices...
Une technologie qui requiert un peu de                                                                   vigilance        ...
Simplifiez vos architectures avecle stockage unifiéAutrefois présentées comme concurrentes les technologies SAN et NAS son...
virtualisés performants à la fois sur des baies SAN ou sur des baies NAS. Il en va de même des applicationsde messagerie o...
C’est quoi le BYOD ?Ce que les américains appellent le BYOD (Bring Your Own Device), littéralement apportez votrepropre te...
La virtualisation des postes de travail : une technologie clé pour le BYOD                                                ...
Des solutions EMC pour simplifier les projets BYOD des PMEEMC a ainsi conçu une série d’architectures de références qui so...
Pourquoi les architectures NAS encluster séduisent de plus en plus lesentreprises?Alors que le volume de données non struc...
Un système de stockage évolutif assemblé à partir de multiples noeuds physiquesLe principe même d’un système de stockage N...
Si Isilon est parti avec une bonne longueur d’avance, tous les constructeurs s’intéressent aujourd’hui aumonde du stockage...
C’est quoi le Big Data ?Dans l’univers de la technologie, deux mots-clés font actuellement le « buzz » chez tous lesconstr...
140 000 et 190 000 salariés disposant d’une expertise avancée en analyse de données et environ 1,5 millionsde gestionnaire...
Comprendre : la déduplication dedonnéesRéduire les besoins en capacité disque et en bande passante réseau, économiser plus...
considérablement réduit (de 95 % pour un ratio de 10:1), ce qui rend la technologie particulièrement utiledans les environ...
processeurs multicœurs d’AMD et Intel qui motorisent les baies de stockage. Et dans bien des têtes, ladéduplication des do...
Comprendre : comment le RAID protègevos donnéesLa technologie RAID permet d’améliorer les performances et la fiabilité du ...
automatiquement le disque incriminé et attend l’insertion d’un disque neuf pour rebâtir un nouveau disque miroir. Leprix à...
le disque n°  3, et ainsi de suite en repartant du 1er disque. Le résultat est une grappe dont la capacité estégale à la s...
Prochain SlideShare
Chargement dans…5
×

Les leçons de SolutionITPME : comprendre l’essentiel sur les technologies de stockage

2 374 vues

Publié le

Tout au long de la saison 2011-2012, SolutionITPME a rédigé une série d’articles de vulgarisation pour aider ses lecteurs à comprendre les technologies de stockage les plus en vogue. L’occasion de faire le point sur des technologies comme la mémoire Flash, le Thin Provisionning, le stockage unifié, le NAS en Cluster, la déduplication ou le RAID, mais aussi de revenir sur quelques grandes tendances du moment comme le BYOD ou le Big Data. Ce livre blanc réunit en un document unique ces articles de vulgarisation.

Publié dans : Technologie
0 commentaire
1 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
2 374
Sur SlideShare
0
Issues des intégrations
0
Intégrations
865
Actions
Partages
0
Téléchargements
62
Commentaires
0
J’aime
1
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Les leçons de SolutionITPME : comprendre l’essentiel sur les technologies de stockage

  1. 1. Les leçons de SolutionITPME :comprendre l’essentiel sur lestechnologies de stockageTout au long de la saison 2011-2012, SolutionITPME a rédigé une série d’articlesde vulgarisation pour aider ses lecteurs à comprendre les technologies destockage les plus en vogue. L’occasion de faire le point sur des technologiescomme la mémoire Flash, le Thin Provisionning, le stockage unifié, le NAS enCluster, la déduplication ou le RAID, mais aussi de revenir sur quelques grandestendances du moment comme le BYOD ou le Big Data. Ce livre blanc réunit enun document unique ces articles de vulgarisation.SOMMAIRELes bénéfices de la Flash pour les systèmes de stockage........................................................p.2Pourquoi la mémoire Flash impose ses performances dans les systèmes informatiques ?.....p.5Optimisez votre espace de stockage avec le Thin Provisioning ................................................p.8Simplifiez vos architectures avec le stockage unifié...............................................................p.10C’est quoi le BYOD ? ................................................................................................................p.12Pourquoi les architectures NAS en cluster séduisent de plus en plus les entreprises?..........p.15C’est quoi le Big Data ? ...........................................................................................................p.18Comprendre : la déduplication de données .............................................................................p.20Comprendre : comment le RAID protège vos données ............................................................p.23 http://www.solutionitpme.fr
  2. 2. Les bénéfices de la Flash pour lessystèmes de stockageMémoire Flash, SLC, eMLC, MLC, SSD, PCI-express… Pour vous aider à mieux comprendre lesenjeux de la mémoire Flash et son principe de fonctionnement, SolutionITPME décrypte pour vousles principaux acronymes du monde Flash et vous aide à comprendre pourquoi cette technologieattire aujourd’hui tous les regardsLe stockage sur mémoire Flash a été popularisé dans les baies de stockage par EMC dès 2008, lorsque lePDG du leader mondial du stockage, Joe Tucci, a annoncé son intention de faire de ce nouveau support destockage, un élément stratégique de la performance des baies Clariion et Symmetrix. Depuis, tous lesconstructeurs ont adopté la technologie et ajouté un étage de mémoire Flash dans leurs baies quand ils n’onttout simplement pas fait de la Flash le support de stockage primaire de leurs baies de stockage.Pourquoi tant d’intérêt pour la mémoire Flash ?L’intérêt que porte l’industrie du stockage, au stockage sur mémoire Flash, s’explique par lacaractéristique essentielle de ce support : la réduction de la latence d’accès au stockage et son corollaire,le support d’un très grand nombre d’opérations d’entrées/sorties par seconde. Pour s’en convaincre, ilsuffit de regarder l’évolution de la performance des disques durs au cours des 25 dernières années et demettre en parallèle la performance de la mémoire Flash. Ainsi un disque dur d’entreprise avait un tempsd’accès de 60 ms en 1987. Depuis on est passé à 5 ms pour les disques d’entreprises à 15 000 tr/mn,mais toujours à environ 9 ms pour un disque SATA 7 200 tr/mn. Cette amélioration par un facteur de 6 à 12fois peut paraître impressionnante. Sauf que dans le même temps, la latence d’accès à la mémoire a étédivisée par plus de 100 000 pour passer sous la barre de la nanoseconde.Entre ces deux extrêmes, la mémoire Flash crée une nouvelle classe de stockage qui vient s’intercaler entre lamémoire vive et les disques durs traditionnels. Ainsi un disque SSD utilisant de la mémoire eMLC affiche unelatence de l’ordre de 30 microsecondes. Surtout, alors que le caractère mécanique des disques durs limite lenombre d’opérations d’entrées/sorties par seconde (environ 180 IOPS pour un disque moderne rapide), laFlash, de part sa nature électronique, peut être adressée en parallèle comme une mémoire. D’où desperformances en I/O qui sur certains SSD peuvent approcher la barre du million d’I/O par seconde.Les caractéristiques d’IOPS et de latence des systèmes à base de mémoire Flash ont un intérêt immédiatpour la performance des serveurs. Car pour un serveur dont les processeurs fonctionnent à une fréquence de2 Gigahertz, une latence de 5 ms représente près de 400 000 cycles d’horloge passés à attendre desdonnées, si ces dernières ne sont pas dans le cache du processeur. De quoi sérieusement torpiller laperformance d’un système.Qu’est-ce que la FlashLa mémoire Flash est une invention de Toshiba, qui reste l’un des grands producteurs mondiaux aux côtésde géants comme Samsung ou Intel/Micron. Ce nouveau type de mémoire EEPROM (Electronicaly ErasableProgrammable Read Only Memory) a été conçu il y a près de 25 ans dans les laboratoires du géant japonais.Très coûteuse à ses débuts et surtout bien plus lente qu’aujourd’hui, la Flash a, tout d’abord, été utiliséedans les ordinateurs pour stocker le Bios (ou le firmware) des ordinateurs, avant de se banaliser avec© 2011 - 2012 SolutionITPME - http://www.solutionitpme.fr Page 2
  3. 3. l’émergence des clés de stockage USB (un format popularisé par IBM sous le nom « Thumb Drive » au débutdes années 2000).La caractéristique qui fait de la Flash un support idéal pour le stockage de données est son caractère EEPROM.Comme avec les mémoires ROM, les données écrites sur une mémoire Flash sont écrites de façon persistante (àsavoir que sans alimentation, la mémoire conserve son contenu). Mais contrairement aux ROM, il est possibled’effacer les données d’une EEPROM pour libérer l’espace occupé et pouvoir réécrire de nouvelles données.En fait, au lieu de supporter les deux opérations de base d’un support de stockage traditionnel, la lecture etl’écriture, les mémoires flash proposent trois opérations de base : l’écriture (ou programmation), la lecture etl’effacement. L’écriture se produit sur un emplacement vierge de l’EEPROM tandis que si l’espace est occupé, il faut réaliser deux opérations : tout d’abord l’effacement des données présentes, puis l’écriture des nouvelles données. Ce qu’il faut retenir On verra plus tard qu’une partie du savoir-faire essentiel dans La mémoire SLC est la plus fiable, la plus l’optimisation de la performance des systèmes Flash est de performante, mais aussi la plus coûteuse au maîtriser la technologie des contrôleurs permettant d’optimiser le Gigaoctet. positionnement des données afin de réduire au maximum ces La mémoire MLC est moins fiable, moins doubles opérations, qui pénalisent les performances. Une dernière performante mais bien plus abordable du fait idée à conserver en mémoire est que les mémoires Flash ont une de son aptitude à stocker plusieurs bits de « durée de vie ». Chaque cellule d’une mémoire Flash ne supporte données par cellule. en effet qu’un nombre limité de cycles d’effacement et d’écriture et ce nombre varie selon les caractéristiques des mémoires Flash. La mémoire eMLC est un intermédiaire dont les performances sont similaires à la MLC, MLC, eMLC, SLC mais dont la durée de vie est un intermédiaire entre MLC et SLC. Le prix des systèmes Il existe aujourd’hui plusieurs catégories de mémoires flash sur le eMLC se situe entre celui des équipements à marché. Tout d’abord les fabricants distinguent les mémoires Flash base de MLC et celui des systèmes à base de mémoire SLC. NOR des mémoires Flash NAND (selon le type de porte logique   utilisée pour la fabrication). Dans cet article nous nous Clairement la mémoire SLC est celle qui est concentrerons sur les mémoires NAND, car ce sont elles qui sont adaptée aux applications les plus intensives utilisées dans les systèmes de stockage, les mémoires NOR, étant en entrées/sorties et présente les beaucoup plus coûteuses. caractéristiques les plus adaptées aux applications critiques. Dans les mémoires NAND, on distingue plusieurs familles de modules mémoire : les mémoires MLC (Multiple Level Cell) et les Mais le génie des constructeurs de stockage mémoires SLC (Single Level Cell). Dans les premières, chaque tend à limiter l’écart entre eMLC et SLC. Afin cellule est capable de stocker plusieurs bits d’information. Tandis de limiter les cycles multiples d’effacement/ écriture et donc l’usure des modules que les mémoires SLC ne stockent qu’un bit par cellule. mémoire, les constructeurs ont en effet Pour parvenir à stocker plusieurs bits, les mémoires MLC développé des algorithmes très subtils pour supportent plusieurs niveaux de voltage, ce qui permet de stocker répartir l’usure (on parle aux États-Unis de quatre valeurs différentes (dans le cas de la mémoire MLC-2, « Wear Leveling »). aujourd’hui la plus couramment utilisée) alors que les mémoires SLC ne gèrent que deux niveaux de tension. Il est à noter que l’on Il s’agit d’éviter de trop solliciter les mêmes commence à voir apparaître des systèmes à base de MLC-3 (six cellules et en répartissant donc les écritures niveaux de voltage) et que certains fabricants travaillent sur la MLC à travers un maximum de cellules d’un même -4 (huit niveaux). Ces nouvelles mémoires MLC offrent plus de système Flash. En procédant ainsi, on évite capacité de stockage par cellule, mais au prix de compromis en que certaines cellules ne s’usent prématurément. matière de fiabilité, de performance et de consommation.© 2011 - 2012 SolutionITPME - http://www.solutionitpme.fr Page 3
  4. 4. Dans la pratique, les mémoires SLC sont à la fois les plus performantes et les plus coûteuses. Elles sontaussi celles dont la fiabilité est la plus élevée. On l’évoquait précédemment, les mémoires Flash NANDn’utilisent pas un mécanisme d’écriture standard, mais un mécanisme combinant effacement et écriture. Cesmémoires ne sont capables de supporter qu’un nombre limité de cycles d’effacement/écriture et ce nombrede cycle est d’autant plus élevé que la densité des cellules est faible, du fait notamment des voltages àappliquer pour les opérations d’effacement/écriture. Une cellule de mémoire SLC peut ainsi supporterenviron 150 000 cycles d’écriture, alors qu’une mémoire MLC typique supportera environ 5 000 cycles d’écriture. Une mémoire de type eMLC (en fait une mémoire MLC un peu particulière, qui utilise des techniques spécifiques de correction d’erreurs, de gestion de l’usure…) supporte quant à elle environ 25 000 cycles d’écriture. Les constructeurs de stockage ont tout d’abord privilégié la mémoire SLC pour les applications critiques et elle reste encore aujourd’hui majoritaire chez les grands fournisseurs de baies de stockage. Mais la mémoire eMLC gagne de plus en plus de terrain, du fait de son bien meilleur rapport fiabilité/performances/prix, mais aussi parce que les mécanismes avancés de « wear leveling » (voir encadré) mis en oeuvre par les constructeurs La différence entre mémoire SLC et MLC est que la mémoire MLC supporte de multiple permettent de garantir une fiabilité dans le temps suffisante pour niveaux de voltage et donc peut stocker des systèmes de stockage critiques. En 2012, il est vraisemblable plusieurs bits dinformation par cellule - ici que la mémoire eMLC prendra le dessus sur la mémoire SLC en une mémoire MLC-2 avec 4 niveaux de termes de capacités livrées, mais que la SLC restera la mémoire tension. ( source : Electronic Design) reine pour les applications à très hautes performances. Quel type de support ?Les mémoires Flash sont aujourd’hui utilisées de plusieurs façons dans les systèmes de stockage, mais leformat de plus mis en œuvre est celui des SSD (Solid State Drive). Un SSD à l’apparence d’un disque durtraditionnel et se connecte au système de stockage par une interface SAS ou SATA traditionnel. Dans un SSD, on trouve en fait de multiples modules de mémoire Flash pilotés par un contrôleur qui a la tâche degérer l’ensemble des opérations liées au pilotage de la Flash ainsi que l’interfaçage avec le bus SAS ouSATA.© 2011 - 2012 SolutionITPME - http://www.solutionitpme.fr Page 4
  5. 5. Pourquoi la mémoire Flash impose sesperformances dans les systèmesinformatiques ?Dans le précédent article, nous avons expliqué les principaux bénéfices de la mémoire Flash etdétaillé les différents types de Flash ainsi que leurs avantages respectifs. Ce second article a pourobjectif d’expliquer pourquoi ce nouveau support de stockage suscite autant l’intérêt des fabricantsde baies de stockage et comment il est mis en œuvre par les différents constructeurs.Si la performance des processeurs a explosé au cours des dernières années, celle des disques durs n’a passuivi ce qui fait que le stockage est devenu un goulet d’étranglement pour les performances. Un goulet qu’ilest possible de faire disparaître en utilisant judicieusement la mémoire Flash dans les systèmes de stockagemodernes. Résoudre le déséquilibre croissant entre les performances des processeurs et celles du stockage sur disque Pour mieux comprendre pourquoi la mémoire Flash est l’objet de toutes les attentions dans le monde du stockage il suffit de regarder l’évolution des performances des processeurs, de la mémoire et du stockage au cours des dernières années. Comme l’explique remarquablement David A. Paterson, un professeur d’architectures informatiques de l’Université de Berkeley, la performance des processeurs a progressé bien plus rapidement que celle des mémoires et surtout que celle du stockage au cours des 30 dernières années. Si la capacité des disques durs a progressé rapidement depuis 10 ans, leur performance Selon lui, la performance moyenne des processeurs a progressé à mesurée en IOPS n’a absolument pas un rythme moyen de 50% par an, tandis que la bande passante évolué, créant un fossé croissant avec la mémoire progressait de 27% par an et que celle des disques durs performance des disques durs (Source : progressait de 28% par an. Plus grave, la performance en nombre EMC). d’opération par seconde des disques durs n’a guère évolué au cours des 10 dernières années. Ainsi un disque d’entreprise à10 000 tr/mn reste péniblement sous la barre des 150 IOPS (opérations d’entrées/sorties par seconde) enaccès aléatoires, et un disque SATA peine à franchir la barre des 70 à 80 IOPS. Dans le même temps, celledes processeurs était multipliée par 100.De même, les gains en latence ont été ridicules au cours des 25 dernières années. Seagate note ainsi qu’undisque d’entreprise avait un temps d’accès de 60 ms en 1987. Depuis on est passé à 5 ms pour les disquesd’entreprises à 15 000 tr/mn, mais toujours à environ 9 ms pour un disque SATA 7200 tr/mn. Cetteamélioration par un facteur de 6 à 12 fois peut paraître impressionnante. Sauf que dans le même temps, lalatence d’accès à la mémoire a été divisée par plus de 100 000 (pour passer sous la barre de lananoseconde) et la performance unitaire des processeurs (mesurée en Flops) a été multipliée par plusieursdizaines de millions de fois.© 2011 - 2012 SolutionITPME - http://www.solutionitpme.fr Page 5
  6. 6. Le résultat est un déséquilibre croissant : d’un côté des processeurs capables de performances théoriquescroissantes et de l’autre des goulets d’étranglement terribles en matière d’accès aux données du fait desfaibles performances des disques durs.La Flash réconcilie stockage et « compute »Des chercheurs comme Jim Gray, chez Microsoft avaient pointé du doigt ce problème dès décembre2006 et leurs prédictions se sont avérées fondées. La Flash est la solution aux problèmes de performancedes disques durs et ce de façon spectaculaire – par exemple, un disque SSD peut facilement atteindreaujourd’hui les 100 000 IOPS en écritures aléatoires et la carte PCI-express à base de mémoire Flash SLCutilisée par EMC pour VFCache peut produire près de 350 000 IOPS en écriture aléatoire et plus de750 000 IOPS en lecture, soit plus que ce que permettent plusieurs milliers de disques durs.La mémoire Flash a fait ses débuts dans les systèmes de stockage comme remplacement des disquesdurs. EMC a ainsi été le premier grand constructeur à proposer des disques SSD dans ses baies destockage (dès 2008). L’insertion limitée de SSD dans les baies de stockage en lieu et place de disquesdurs a permis la création de volumes très performants mais à un coût extrêmement élevé. Cette stratégie apermis de satisfaire une poignée d’utilisateurs à la recherche de performances élevées pour quelquesapplications.Le tiering et la gestion de cache dopés par la FlashLa seconde étape est venue au tournant des années 2010 avec l’arrivée de nouvelles fonctions permettantd’optimiser l’utilisation de la mémoire Flash dans les baies. La première est le tiering (déplacementautomatisé de données dans les baies ou hiérarchisation automatique de données) qui permet de créer despools de stockage hybrides combinant mémoire Flash et disques traditionnels et de positionnerautomatiquement les données sur la classe de stockage adaptée en fonction des besoins. Chez EMC, cettefonction a pour nom Fast VP et de multiples autres appellations chez les autres constructeurs – « AdaptiveOptimization » pour 3Par, « Dynamic tiering » chez Hitachi, Easy Tiering chez IBM… Le tiering a l’avantage depermettre une utilisation optimale de l’espace SSD en évitant d’y stocker des données dormantes. Commel’explique Valdis Filks, le directeur de la recherche sur les technologies et les stratégies de stockage chezGartner, rencontré récemment par SolutionITPME à Londres, « Si vous voulez exploiter un datacenter defaçon efficace, vous n’avez pas d’autre choix que de recourir à la hiérarchisation automatique ».Une seconde façon d’optimiser l’usage des SSD est de les utiliser comme un étage de cache dans les baiesde stockage, ce qui permet de mutualiser l’espace SSD disponible au profit de l’ensemble des applications.La technologie Fast Cache des baies EMC permet ainsi typiquement de rerouter 95% des entrées/sortiesvers l’espace de cache SSD. Et elle a l’avantage de fonctionner aussi bien en lecture qu’en écriture,contrairement à ce que permet la technologie Flash Cache des baies NetApp, limitée aux seules lectures. Lapossibilité d’utiliser la Flash comme cache en écriture est pourtant importante notamment pour certainesapplications, par exemple, les applications de bureau virtualisé (VDI).Les technologies de tiering et de gestion de la Flash comme cache ont contribué à la démocratisation desSSD au cours de l’année écoulée. On estime ainsi qu’un espace SSD représentant 2 à 5% de l’espacedisque total d’une baie suffit pour optimiser 95% des opérations d’entrée sorties d’une baie de stockage. Onpeut ainsi optimiser de façon significative les performances d’une baie de stockage grâce à un ajout trèslimité de mémoire Flash (donc à un coût raisonnable).© 2011 - 2012 SolutionITPME - http://www.solutionitpme.fr Page 6
  7. 7. Les cartes Flash PCI-express : au service de la performance extrême Une façon plus récente de faire usage de la mémoire Flash est de la positionner non pas dans les baies de stockage mais sur les serveurs afin de réduire la latence d’accès au minimum (on accède ainsi à un stockage local ultra-performant sans avoir à passer par le SAN). Un exemple d’une telle approche est la carte VFCache d’EMC. Cette carte PCI-express Flash s’installe directement dans le serveur qui accède aux données et sur un bus qui n’est pas un goulet d’étranglement (le bus PCI-express). VFCache propose deux modes de fonctionnement. Le premier permet de disposer d’un stockage local ultra-performant capable de supporter des centaines de milliers d’IOPS. Le second mode d’usage consiste à La performance du stockage Flash utiliser la carte VFCache comme un étage de cache pour accélérer (mesurée en IOPS/Go) est très supérieure l’accès aux baies de stockage SAN. On marie ainsi le meilleur des à celle des disques durs traditionnels. Et deux mondes. Les serveurs disposent d’un accès ultra-performant on voit aussi se creuser un écart entre la performance des disques SSD sur bus en lecture aux données situées sur les baies et ils se reposent sur SAS et celle des dispositifs de stockage ces dernières pour l’écriture, le stockage et la protection de ces Flash sur bus PCI-express, comme la données. On allie donc le meilleur des performances de stockage carte VFCache. (Source : EMC) locales avec le meilleur en terme de protection des données sur le SAN.Les tests réalisés en interne par EMC avec des cartes VFCache insérées dans des serveurs connectés parailleurs à des baies Symmetrix VMAX et VNX ont ainsi mis en évidence un triplement de la bande passantede stockage et une réduction de 60% de la latence pour les applications transactionnelles reposant sur deslogiciels comme Oracle ou SQL Server.Sans surprise, de tels gains de performances se traduisent aussi par des gains économiques importants.Ainsi, les tests menés par EMC ont mis en lumière une multiplication par trois des performances d’uneapplication transactionnelle basée sur Oracle avec les cartes de cache VFCache. Cela veut concrètementdire qu’avec VFCache un serveur peut supporter trois fois plus d’opérations que sans VFCache. Ou si onl’exprime d’une autre façon, qu’il faudra trois fois moins de serveurs (ou de processeurs) pour effectuer unequantité de travail donnée. Rappelons qu’une licence du SGBD Oracle entreprise coûte 380 000 $ parserveur bi-processeur Xeon récent (typiquement un serveur bi-socket Xeon E5-2600 à 16 cœurs) et qu’unedivision par trois du nombre de serveurs de bases de données génère donc une économie en termes delicences très supérieure au coût des cartes VFCache (et c’est sans compter les économies liées à l’achat desserveurs et à leur exploitation).A lire aussi sur le web:Matt Komorovski : a history of storage costL’évolution du prix des disques durs et des SSDUCLA – Introduction to Operating Systems lectures© 2011 - 2012 SolutionITPME - http://www.solutionitpme.fr Page 7
  8. 8. Optimisez votre espace de stockageavec le Thin ProvisioningQu’est-ce que le thin provisionning et quels sont les bénéfices de cette technologie pour le monde du stockage?Quels sont aussi les éventuels inconvénients et quels sont les points clés à surveiller lorsque l’on met en oeuvrecette technologie. Ce sont l’ensemble de ces questions auxquelles tente de répondre cet article.Les mécanismes d’allocation granulaire de capacité (Thin Provisioning en anglais) sont apparus pour lapremière fois dans des solutions de virtualisation de stockage, telles que celles de Datacore au début desannées 2000, et ont progressivement été intégrés à leurs baies de stockage par la plupart des constructeurs,parfois sous des noms différents, par exemple Virtual Provisioning chez EMC, …Ces mécanismes reposent sur un concept simple : plutôt que d’attribuer ou de réserver dès le départ lacapacité physique nécessaire à une application, au risque de se retrouver avec une capacité réservée maisinutilisée, la capacité physique n’est réellement allouée par la baie qu’au fur et à mesure des besoins réels(mécanisme dit « Allocate on write », littéralement, allocation à la première écriture). Cette astuce permet unemeilleure utilisation de la capacité disponible dans la baie, en évitant les gaspillages liés aux mécanismesd’allocation de capacité traditionnels (les administrateurs, par prudence, ont en effet tendance à provisionnerdes LUNs plus gros que nécessaires). Elle permet aussi de démarrer en production avec un minimum dedisques et de n’ajouter de nouvelles capacités qu’au fur et à mesure des besoins réels, ce qui est en phaseavec les objectifs de réduction de la consommation électrique dans les datacenters.Enfin le Thin Provisioning a des bénéfices annexes comme l’accélération des réplications initiales (seule lacapacité allouée est répliquée et non pas la totalité de la capacité provisionnée). Autant dire qu’avec de telsavantages, la technologie est, en quelques années, devenue incontournable dans la plupart des baies.Optimiser l’utilisation de la capacité de stockageTraditionnellement pour allouer une ressource de stockage SAN à un serveur, on crée un LUN sur la baie eton le met à la disposition de son système de gestion de fichiers. Dans la plupart des cas, les administrateursprennent une marge de sécurité et allouent donc plus de capacité que nécessaire, ce qui fait que les LUN nesont utilisés que pour une fraction de leur capacité, disons dans le meilleur des cas 40 à 50%. Dans unmodèle d’allocation classique du stockage (désormais dit «Thick Provisioning»), 50 à 60% de l’espacephysique est donc immobilisé pour rien.Le Thin Provisioning s’appuie sur la notion de pools de stockage, des pools qui peuvent être homogènes(uniquement des disques SAS, ou uniquement des disques SATA) ou hybrides (un mix entre SSD, disquesSAS et SATA). La capacité de ces pools est mutualisée entre des LUN «Thin Provisionnés», auxquels la baiealloue de la capacité au fur et à mesure des besoins.L’un des grands avantages du Thin Provisioning est qu’il permet d’allouer plus de capacités aux LUNs qu’iln’y en a de physiquement disponible dans le pool. Typiquement, on peut avoir un pool de 20 To, et 40 LUNsauxquels on a alloué chacun 1 To. Certains finiront par consommer réellement cette capacité allouée, alorsque la plupart n’en consommeront à terme que 40%. En mettant en oeuvre le Thin Provisioning, on donnedonc à l’administrateur une grande souplesse dans la gestion de l’allocation de capacité.© 2011 - 2012 SolutionITPME - http://www.solutionitpme.fr Page 8
  9. 9. Une technologie qui requiert un peu de vigilance La contrepartie est que le Thin Provisioning doit être manié avec précaution. Car si une application venait à se mettre à consommer les ressources disponibles de façon imprévue, elle pourrait littéralement cannibaliser l’espace requis par d’autres applications, avec des conséquences catastrophiques. Certains passagers des compagnies aériennes ont pu expérimenter les affres de la surréservation dans les avions. Ce mécanisme permet aux compagnies de s’assurer d’un remplissage optimal de leurs appareils en vendant plus de sièges que n’en dispose l’avion et en pariant sur le fait que certains passagers ne se présenteront pas. Cette stratégie fonctionne dans la plupart des cas, mais il arrive que des passagers ne puissent embarquer car l’avion est effectivement trop plein. Dans la réalité, ces passagers se voientcontraints de prendre un autre avion. Dans le cas du stockage, les conséquences sont plus catastrophiques, l’absencede capacité disponible se traduisant par un plantage des applications. L’usage agressif des mécanismes desurallocation mis à disposition par les baies contraint donc l’administrateur à une plus grande vigilance. Il lui faut ainsiveiller à ce que la capacité physique disponible sur les baies soit toujours supérieure à celle requise par le systèmed’allocation dynamique.Un autre point à surveiller est l’impact sur les performances, notamment pour les applications exigeantes en entrées/sorties : en concentrant plus d’accès sur un nombre réduit de disques, le Thin Provisioning peut avoir un impact surles performances délivrées. C’est en général pourquoi le Thin Provisioning est associé à l’aptitude de la baie àdistribuer les blocs sur un grand nombre de disques. Certains constructeurs n’ont ainsi implémenté le ThinProvisioning qu’en parallèle du stripping à grande échelle de données (Wide Striping). D’autres mettent en œuvre latechnologie sur des pools de stockage hybrides composés partiellement de disques SSD et combinent le ThinProvisioning avec des technologies de Tiering, ce qui permet de contrer les effets de l’agrégation d’un grand nombred’I/O sur un nombre limité de disques.Une technologie plus ou moins bien mise en oeuvreAu final, le Thin Provisioning peut être considéré comme une forme de virtualisation du stockage, puisque l’objectif dela technologie est de masquer au système de gestion de fichier le fait qu’il ne dispose pas, à un instant donné, desressources physiques dont il croit pourtant disposer. Et comme toute couche de virtualisation de stockage, le ThinProvisioning peut être plus ou moins bien implémenté. Techniquement, plus la capacité de la baie à gérer les donnéesau niveau du bloc est élevée et plus le mécanisme de Thin Provisioning est efficace.De même, l’aptitude à réclamer des blocs alloués mais qui ne sont plus utilisés est importante. Au début de cet articlenous mentionnions que les baies allouent les blocs Thin Provisionnés lors de la première écriture. Le problème est quepar défaut, rares sont les constructeurs qui ont prévu un mécanisme pour réclamer les blocs effacés (mécanisme ditZero Page Reclaim,  qui permet de restituer les blocs non utilisés). EMC propose ce mécanisme dans lesenvironnements VMware (via le support de l’API VAAI) pour les baies Symmetrix VMAX et VNX, et a aussi développédes utilitaires pour d’autres environnements comme Windows (l’utilitaire StorReclaim pour Windows sur les VMAX, parexemple).En savoir plusUn livre blanc sur le Virtual Provisioning dans les baies EMC VNX© 2011 - 2012 SolutionITPME - http://www.solutionitpme.fr Page 9
  10. 10. Simplifiez vos architectures avecle stockage unifiéAutrefois présentées comme concurrentes les technologies SAN et NAS sont de plus en plusconsidérés comme complémentaires. Une complémentarité qui se traduit par une convergencecroissante des fonctions SAN et NAS pour donner naissance aux baies de stockage unifié.Les années 2000 ont vu une explosion de l’usage du stockage réseau, une explosion dopée par l’adoption dela virtualisation – qui suppose l’utilisation de technologies de stockage partagé pour la mise en œuvre desfonctions avancées, comme la mobilité de VM – puis par l’explosion des besoins de stockage de fichiers.SAN vs NASDans un premier temps, ces deux besoins ont été satisfaits par des baies de stockage différentes. Pour lesapplications nécessitant un accès en mode bloc, telles que les bases de données, les applicationstransactionnelles ou la messagerie, les entreprises se sont tournées vers les baies SAN (Storage Area Network). Pour le stockage et le partage de fichiers, elles se sont équipées de baies NAS (Network Attached Storage). Lexique Dans les deux cas, l’idée générale est que les données ne sont plus stockées localement sur les disques dur des serveurs mais CIFS (ou SMB) : protocole de partage de sur des baies de stockage dédiées, capables de mutualiser leur fichiers réseau compatible Windows. capacité pour la mettre à disposition de multiples serveurs. La différence réside dans la méthode utilisée pour partager cette FCoE : protocole de stockage SAN capacité. permettant d’encapsuler le protocole FC sur réseau Ethernet. Les baies SAN utilisent des protocoles d’accès comme Fibre Fibre Channel (FC) : désigne à la fois une Channel ou iSCSI et partagent leur capacité sous la forme de technologie réseau et un protocole de volumes logiques. Ces derniers sont utilisables comme des stockage SAN en mode bloc permettant la disques locaux par les serveurs et sont donc accessibles en mode transmission de commandes SCSI sur le bloc. Les baies NAS mettent quant à elles leur capacité disponible réseau FC. à disposition des serveurs sous la forme d’un partage réseau accessible via un protocole de partage de fichiers en réseau iSCSI : protocole de réseau SAN en mode comme NFS ou CIFS (le protocole de partage de fichiers en réseau bloc permettant la transmission de de Windows aussi connu sous le nom SMB). commandes SCSI sur IP . NAS : Network Attached Storage. Désigne Des différences qui s’estompent une technologie de stockage en réseau en mode fichier basée sur les protocoles NFS Historiquement, les deux approches répondaient à des besoins ou CIFS. différents : en général, les serveurs NAS étaient une alternative aux traditionnels serveurs de fichiers. Les baies SAN, de leur côté, NFS : Network File System. Protocole de ciblaient plutôt les applications exigeantes, avec des besoins de partage de fichiers Unix. haute disponibilité. La séparation entre les deux catégories de produits tend toutefois SAN : Storage Area Network. Désigne une à disparaître. Tout d’abord parce que les applications sont de technologie de stockage réseau en mode bloc basée sur des protocoles comme iSCSI, moins en moins sensibles à la nature des protocoles de stockage Fibre Channel ou FcoE. utilisés. Ainsi, il est possible de déployer des environnements© 2011 - 2012 SolutionITPME - http://www.solutionitpme.fr Page 10
  11. 11. virtualisés performants à la fois sur des baies SAN ou sur des baies NAS. Il en va de même des applicationsde messagerie ou de bases de données (par exemple avec l’utilisation du client dNFS – direct NFS –d’Oracle).Ensuite, parce que les baies SAN et NAS ont tendance à converger pour donner naissance à une nouvellecatégorie de systèmes de stockage, les baies de stockage unifié. La plupart des grands constructeursproposent ainsi désormais à leur catalogue de tels systèmes. EMC a lancé en janvier 2011 les gammes VNXet VNXe deux familles de baies unifiées qui viennent remplacer les baies SAN Clariion et la gamme de baiesNAS Celerra.Enfin, parce que la convergence des réseaux vers Ethernet encourage le mouvement vers les baies unifiées.Avec l’avénement de protocoles comme iSCSI ou FcoE, un seul et même réseau Ethernet suffit poursupporter l’ensemble des fonctions d’une baie unifiée, une convergence réseau qui permet de simplifier lesarchitectures et de réduire les coûts.© 2011 - 2012 SolutionITPME - http://www.solutionitpme.fr Page 11
  12. 12. C’est quoi le BYOD ?Ce que les américains appellent le BYOD (Bring Your Own Device), littéralement apportez votrepropre terminal au bureau, est devenu une tendance phare de la modernisation de l’informatiquedes entreprises. A la clé, la possibilité pour les salariés d’accéder de façon sécurisée à leursapplications phares depuis tout type de terminal qu’il soit un terminal d’entreprise ou un terminalpersonnel, et ce à toute heure et depuis n’importe quel lieu.Ce que les américains appellent le BYOD (Bring Your Own Device), littéralement apportez votre propreterminal au bureau, est devenu une tendance phare de la modernisation de l’informatique des entreprises. Ala clé, la possibilité pour les salariés d’accéder de façon sécurisée à leurs applications phares depuis touttype de terminal qu’il soit un terminal d’entreprise ou un terminal personnel, et ce à toute heure et depuisn’importe quel lieu.Au tout début, il s’agissait pour les salariés d’acquérir eux-mêmes le terminal de leur choix et de pouvoirl’utiliser librement au bureau (moyennant une compensation financière de l’entreprise). L’idée était alors quel’entreprise puisse déployer des applications ou des environnements de travail sécurisés sur ces postes, touten laissant l’employé libre de contrôler son environnement personnel. Les débuts du BYOD ont ainsi permis àquelques grandes sociétés américaines de faciliter la réintroduction massive du Macintosh au sein de leursparcs informatiques (on pense à des sociétés comme Cisco, Citrix, VMware, EMC…), mais aussi à d’autresentreprises de permettre à leur salariés d’utilier leur propre PC portable personnel comme machine debureau, tout en bénéficiant d’un environnement d’entreprise sécurisé.En quelques années, néanmoins, le concept de BYOD s’est considérablement élargi, notamment du fait del’irruption massive dans le paysage des nouveaux terminaux nomades, comme les tablettes ou lestéléphones mobiles. Aujourd’hui, l’abréviation décrit ainsi la possibilité offerte aux employés (ou au moins àcertains d’entre eux) de se connecter à ses applications depuis tout type de terminal fixe ou nomade etdepuis tout lieu. On estime aujourd’hui qu’un peu plus de 2 milliards de nouveaux terminaux mobilesdevraient être mis en service dans le monde d’ici 2015. Une large partie d’entre eux sera aussi utilisée dansle cadre de l’entreprise du fait de l’adoption croissante du modèle.Autant dire que la vague du BYOD est une réalité, et que les entreprises ne pourront échapper audéferlement de terminaux qu’elles n’envisageaient même pas de supporter il y a encore deux ans, tels queles smartphones Android et iPhone ou les tablettes, telles que l’iPad. Déjà, pas un jour ne s’écoule sansqu’un employé ou un dirigeant, ne demande l’accès à ses applications au travers de son périphériquenomade favori. Et pour le service informatique, répondre systématiquement non à toutes ces demandes n’estplus une option, d’autant que l’acceptation de ces terminaux a des enjeux de productivité non négligeables.De plus en plus, les services informatiques doivent donc trouver des moyens pour déployer sur tout type determinal les éléments essentiels de l’environnement de travail des salariés.L’idéal serait bien sûr que toutes les applications soient à la fois optimisées pour toute forme de terminal, fixeou mobile, tactile ou non. C’est la promesse que font tous les géants du logiciels comme Oracle, SAP ouMicrosoft pour leurs progiciels clés (typiquement les applications d’automatisation des forces de vente, deCRM, de reporting…). Mais de la promesse à la réalité, il faudra encore un peu de temps, même si lasituation a beaucoup progressé en deux ans. En attendant donc le nirvana des applications web optimiséespour tout type de terminaux, la virtualisation de postes clients (ou VDI) apparaît de plus en plus commel’approche pragmatique pour la mise en œuvre de projets BYOD.© 2011 - 2012 SolutionITPME - http://www.solutionitpme.fr Page 12
  13. 13. La virtualisation des postes de travail : une technologie clé pour le BYOD La virtualisation des postes de travail, incarnée par des solutions comme Citrix XenDesktop Vmware View ou Microsoft Terminal Services, s’appuie sur la virtualisation pour faire fonctionner sur des serveurs les environnements de travail des utilisateurs. Ces environnements sont déployés à l’intérieur de machines virtuelles dédiées sur des serveurs, et leur affichage est ensuite déporté sur l’écran du terminal de l’utilisateur. Avec la virtualisation du poste de travail, on découple l’environnement de travail du poste de travail lui- même ce qui permet plusieurs grands bénéfices. Le premier est que l’administration des postes clients se trouve grandement simplifiée, puisque l’essentiel del’administration s’effectue sur les VM centralisées dans le datacenter. On peut ainsi appliquer les mises à jour defaçon centralisée, partager certains services comme la protection réseau ou la protection antivirus…Second bénéfice, le stockage, la sauvegarde et la protection des environnements de travail sont centralisés, demême que la protection des données. Ces dernières ne résident plus sur les postes de travail – dans la pratiquecertaines données peuvent être stockées localement mais sous forme chiffrée – et peuvent donc être sauvegardéetrès simplement. De même, il devient impossible de dérober des données, ces dernières ne résidant plus sur le PC.L’entreprise se protège ainsi contre les vols de PC par des tiers, mais aussi contre d’éventuels vols de données pardes salariés indélicats (fichier clients, informations produits, données comptables).En fait, en couplant les solutions VDI de VMware et Citrix aux solutions de RSA Security, on peut assurer uneétanchéité quasi parfaite de l’infrastructure et garantir ainsi la protection du patrimoine informationnel de l’entreprise,une tâche quasi-impossible à réaliser avec des environnements informatiques traditionnels.Un autre bénéfice est le découplage avec le système d’exploitation client du terminal de l’utilisateur. Ainsi, on peuttrès bien donner accès à la dernière version de Windows dans l’environnement virtualisé, sans avoir à déployerWindows 7 partout sur les postes clients. Un simple PC sous Windows XP, un terminal en mode client léger, un Macou une tablette (iPad ou Android) peuvent ainsi afficher un environnement Windows 7 ou tout autre type de systèmed’exploitation (pour peu que leur résolution d’écran soit suffisante).À l’extrême, on peut même envisager d’accéder à son environnement via un téléphone mobile, ce qui peutdépanner, à défaut de servir de moyen d’accès principal. Ce découplage du système d’exploitation local à d’autresbénéfices, comme celui de pouvoir redonner un accès très rapide au SI à un salarié en cas de perte ou de panne desa machine. Il suffit en effet de lui fournir un PC de dépannage pour se connecter à l’environnement virtualisé et lesalarié retrouve instantanément son environnement de travail dans l’état où il l’avait laissé, avec toutes ses données.La mise en place d’une architecture VDI est simple lorsque le déploiement est limité à quelques dizaines de postes,mais requiert plus de vigilance lorsque le déploiement porte sur quelques centaines ou plusieurs milliers de postes.Les aspects réseau et stockage notamment doivent être particulièrement soignés, le stockage pouvant représenterjusqu’à 40 % du coût d’un déploiement VDI (du fait de la centralisation). De même la gestion des profils utilisateursdoit être soignée afin que chaque utilisateur dispose d’une configuration adaptée à ses besoins.© 2011 - 2012 SolutionITPME - http://www.solutionitpme.fr Page 13
  14. 14. Des solutions EMC pour simplifier les projets BYOD des PMEEMC a ainsi conçu une série d’architectures de références qui sont le produit des expériences acquises surplusieurs centaines de déploiements clients. Ces architectures de références s’incarnent aussi dans les récentssystèmes VSPEX (pour Citrix XenDesktop et pour VMware View). L’objectif d’EMC avec ces architectures est de proposer à ses clients un socle sur lequel ils vont pouvoir appuyer leurs propres déploiements. Des solutions optimisées pour la virtualisation des postes de travail. Toutes ces architectures tirent parti de capacités des baies unifiées VNX et VNXe. Les baies de stockage unifié VNX embarquent ainsi des fonctions particulièrement adaptées au déploiement de projets de virtualisation de postes de travail. Unisphere, l’interface d’administration des baies VNX dispose ainsi de fonctions adaptées à la virtualisation de postes de travail. Ces fonctions spécifiques viennent appuyer certaines capacités natives telles que Fast Cache. Contrairement aux architectures de cache de certains concurrents qui ne fonctionnent qu’en lecture, Fast Cache permet d’utiliser la capacité Architecture de référence EMC pour le déploiement de 1000 SSD des baies VNX comme cache en lecture et postes clients virtualisés avec la solution Citrix XenDesktop et écriture : cela se révèle particulièrement important pour une baie VNX5300 (cliquer pour agrandir) la virtualisation des postes de travail car dans les environnements VDI les écritures représentent en moyenne 80 % des entrées sorties. Cette aptitude à tirer parti des disques SSD installés dans les baiespermet aussi d’absorber les pics d’entrées/sorties correspondant aux « tempêtes de démarrage » (ou boot storm)caractéristiques des environnements VDI.Une baie EMC VNX faisant usage de FAST peut ainsi « booter » l’équivalent de 1 000 desktop virtuels en moins de 8minutes –   pour les configurations plus modestes, une baie VNXe 3150 avec des disques SSD et Fast permettraaussi des déploiements conséquents à un tarif très abordable. Mais EMC ne se limite pas à la seule fourniture dustockage et couvre un bien plus large spectre fonctionnel dans la chaîne VDI. L’offre EMC couvre en effetl’intégralité de la chaîne VDI, du stockage, à la sécurité, en passant par les hyperviseurs et les logiciels devirtualisation de poste de travail (via VMware), les serveurs (via les systèmes unifiés vBlocks de VCE et les VSPEX),la sauvegarde et la protection des données (Avamar) et la sécurisation de points clés de la chaîne de virtualisation,dont l’authentification et la sécurisation des données de l’entreprise (RSA).En France EMC Consulting Services a travaillé sur de multiples projets VDI, s’impliquant aussi bien dans les phasesd’audit et d’assessment, que dans la conception d’architectures, la mise en œuvre de  « proof of concept » ou ledéploiement à grande échelle. Il est également à noter qu’EMC est en interne un utilisateur du VDI. À ce jour, plusde 3 000 collaborateurs bénéficient de la technologie dont environ la moitié d’utilisateurs nomades. Le VDI chezEMC permet notamment aux salariés de choisir librement leur poste de travail (Mac ou PC) sans que cela n’aitd’impact sur leur aptitude à accéder aux applications de l’entreprise.Notons enfin pour terminer que Citrix, lui-même a retenu une solution EMC basée sur les baies VNX pour sondéploiement de XenDesktop 5, une solution qui est montrée à l’Executive Briefing Center de la firme à Santa Clara.© 2011 - 2012 SolutionITPME - http://www.solutionitpme.fr Page 14
  15. 15. Pourquoi les architectures NAS encluster séduisent de plus en plus lesentreprises?Alors que le volume de données non structurées progresse à un rythme exponentiel dans lesentreprises, Les technologies de stockage NAS en Cluster séduisent de plus en plus les responsablesinformatiques du fait de leur évolutivité et de leur simplicité. SolutionITPME revient sur leprincipe de ces solutions et sur les caractéristiques qui expliquent leur succès.Alors que le volume de données non structurées progresse à un rythme exponentiel dans les entreprises,une technologie de stockage séduit de plus en plus les responsables informatiques. Il s’agit de latechnologie NAS en cluster aussi appelée scale-out NAS. L’intérêt pour cette technologie estprincipalement liée à son évolutivité et à sa simplicité. Elle promet en effet aux entreprises de pouvoir faireévoluer leur capacité de stockage d’une façon quasi illimitée, par simple ajout de nœuds de stockageadditionnels à leur infrastructure existante et ce sans avoir à remplacer l’infrastructure d’origine. Ceconcept simple est aujourd’hui mis en œuvre dans un nombre croissant de systèmes et séduit de plus enplus les acheteurs de systèmes de stockage de données. Architecture typique d’un système NAS en Cluster EMC Isilon (ici l’architecture inclut un cluster performant à base de noeuds Isilon S200 et un second cluster à base de noeuds Isilon NL relié au premier par un lien WAN pour l’archivage et la reprise après sinistre).© 2011 - 2012 SolutionITPME - http://www.solutionitpme.fr Page 15
  16. 16. Un système de stockage évolutif assemblé à partir de multiples noeuds physiquesLe principe même d’un système de stockage NAS en cluster est qu’il se compose de plusieurs nœudsphysiques reliés entre eux par des interfaces réseaux rapides (Infiniband ou 10 Gigabit Ethernet) etassemblés en un seul système de stockage NAS logique par le biais d’un système d’exploitation engénéral propriétaire. Du fait de sa nature « scale-out », un système de stockage NAS en cluster évolue parsimple ajout de nœud. Cette opération permet à la fois d’augmenter la capacité du système mais aussi sesperformances ainsi que, dans certains cas, sa tolérance aux pannes. Les plus évolutifs des systèmes destockage en cluster ont la capacité de gérer plusieurs Petaoctets de données sur plus de 100 nœuds, maisils sont accessibles et gérés comme un seul système grâce à l’utilisation d’un système de fichiersdistribués ou d’un système d’espace de nommage global.Un système de stockage NAS en cluster se compose typiquement de multiples nœuds de stockage x86disposant d’une configuration standard (quantité fixe de CPU, de mémoire cache et de disques durs).Lorsque la capacité du système approche la saturation, l’entreprise peut faire évoluer sa configurationexistante en ajoutant simplement de nouveaux nœuds au cluster existant. Cette approche évolutive estparticulièrement adaptée aux entreprises devant gérer de grandes quantités de fichiers, mais elle séduitaussi de plus en plus des entreprises ayant des besoins de stockage généralistes. Le scale out NASpermet en effet des migrations en douceur, plus simplement que les systèmes traditionnels.Historiquement, les systèmes de stockage NAS en cluster ont connu leurs premiers succès dans le mondedes applications nécessitant des bandes passantes et un débit élevé, notamment dans les secteurs desmédias, du divertissement, du calcul à haute performance, de la bio-informatique, et dans le secteur de larecherche pétrolière et gazière. Mais ce succès s’étend désormais bien au delà de ces secteurs. Lespremiers systèmes scale-out n’étaient en effet pas optimisés pour les applications traditionnellesd’entreprises, mais les évolutions apportées récemment par certains spécialistes du genre comme ladivision Isilon d’EMC, promettent d’ouvrir ces systèmes à un panel d’usage bien plus large, comme lavirtualisation.Une adoption qui s’accélère dans le monde des applications d’entrepriseTerri McClure, un analyste senior chez Enterprise Strategy Group (ESG) à Milford, explique ainsi qu’au furet à mesure que les constructeurs optimisent leurs systèmes pour obtenir de meilleurs résultats avec lesapplications d’entreprises,  les architectures NAS en cluster  apparaissent de plus en plus dans lesdatacenters d’entreprise.Le leader emblématique du secteur Isilon Systems, racheté par EMC à la fin 2010. Isilon propose troisoptions de nœuds différentes pour ses systèmes en cluster : les nœuds de la série S sont conçus pourdélivrer des performances élevées pour les applications nécessitant des grands volumes d’entrées/sortiessur de petits fichiers  ; les X-Series sont des nœuds intermédiaires conçus pour le stockage d’un moinsgrand nombre de fichiers plus volumineux ;  enfin les NL-Series sont des nœuds très capacitifs etéconomiques conçus pour l’archivage et le stockage en volume de grandes capacités de données. Enl’état de la technologie, un système Isilon peut comprendre jusqu’à 144 nœuds pour un total de 15,5 Po dedonnées, stockées dans un système de fichiers unique, ce qui simplifie grandement l’administration. Côtéperformance, un système à base de nœuds S200 équipé en partie de disques SSD a une capacitémaximale inférieure (2 Po), mais offre une bande passante agrégée de 85 Gbit/s et peut traiter 1,2  milliond’IOPS NFS, encore une fois avec seul système de couvrant un cluster de 144 nœuds.© 2011 - 2012 SolutionITPME - http://www.solutionitpme.fr Page 16
  17. 17. Si Isilon est parti avec une bonne longueur d’avance, tous les constructeurs s’intéressent aujourd’hui aumonde du stockage en cluster et nombre d’analystes font le pari que cette technologie détrônera à termeles systèmes de stockage NAS traditionnels. Randy Kerns, un analyste chez Evaluator Group à Broomfield,Colorado, est un peu plus prudent et estime qu’il y a beaucoup de cas d’utilisation où les clientspréféreront des NAS traditionnels, notamment pour les plus petites configurations. « Il y a de la place pourles deux », a déclaré Kerns. « Je pense que les systèmes scale-out NAS et les NAS traditionnels sont tousles deux là pour longtemps ».© 2011 - 2012 SolutionITPME - http://www.solutionitpme.fr Page 17
  18. 18. C’est quoi le Big Data ?Dans l’univers de la technologie, deux mots-clés font actuellement le « buzz » chez tous lesconstructeurs et éditeurs : le Cloud et le « Big Data ». Si l’on commence à avoir une bonne idée dece qui se cache derrière le premier terme, C’est loin d’être la cas pour le second. L’occasion pourSolutionITPME de défricher un peu le concept…Sommé par un journaliste de fournir une définition du concept lors du dernier EMC World, le CEO d’EMCavait tenté d’expliquer le concept par l’exemple : « Pour une compagnie pétrolière, le Big Data c’est la massede données sismiques accumulées lors de recherche de nouveaux gisements de pétrole. Pour un hôpital, ceserait plutôt l’imposant volume de données provenant des multiples scanners et instruments d’imagerie àrésonance magnétique. Pour un studio de cinéma, ce serait plutôt les données générées lors du rendu d’unfilm 3D. L’important est que dans tous les cas on parle de volumes qui dépassent dès le départ le pétaoctetet qui  progressent à vitesse exponentielle vers le multi-pétaoctets. Dès lors la question qui se pose est desavoir comment bien stocker ces données, comment les gérer et les exploiter de façon optimale. »Pour McKinsey Global Institute, le terme de  « Big data » décrit des jeux de données dont la taille ou la naturene permet pas une capture, un stockage, une gestion et un traitement par des outils de gestion de bases dedonnées classiques. Le cabinet ne définit pour autant pas de limite de taille pour le concept de Big Data etnote que le volume de données considéré comme étant « Big Data » peut varier par secteur d’activité (d’unedouzaine de To à plusieurs Po). Une chose est certaine, précise toutefois, McKinsey, les données de type« Big Data » progressent à un rythme soutenu.Un univers numérique en croissance exponentiellePour Jean-Yves Pronier, le directeur marketing d’EMC, « les dernières études montrent que le volume desinformations en circulation, de toutes sortes et de toutes natures, fait plus que doubler tous les deux ans ». Ilcite notamment une étude menée conjointement par EMC et IDC, qui indique que le volume des donnéesnumériques créées en 2011 atteindra le chiffre colossal de 1 800 milliards de gigaoctets, soit 1,8 Zettaoctet.Et ce n’est qu’un début puisque ce chiffre sera multiplié par 44 d’ici 2020, du fait de la numérisationcroissante de notre univers, de l’explosion des communications machines à machines, et de la proliférationdes capteurs et autres tags ( tels que tags RFID et NFC, capteurs GPS)…McKinsey estime ainsi que le nombre de machines (automobiles, compteurs électriques, distributeurs,équipements médicaux nomades…) connectés à l’Internet devrait être multiplié par 4,5 entre 2010 et 2015.Autant d’équipements qui ne manqueront pas d’apporter leur contribution au déluge de données déjà générépar les applications existantes et leurs utilisateurs. 90 % de ces données devraient être de type nonstructuré.Une nouvelle génération de « Data Scientists »Face à ce déluge, une nouvelle génération de professionnels est requise, capables de dégager une visionclaire, utile et ordonnée de cet incroyable volume d’informations mis de toutes parts à notre disposition.«‘Data hominem‘, ainsi auraient pu être appelés ces spécialistes qui savent collecter, analyser les donnéespour ensuite les appliquer de manière utile et productive au service de l’entreprise »,  explique Jean-YvesPronier. Aux États-Unis, on les a surnommés « Data Scientists », explique le directeur marketing d’EMC, touten soulignant préférer l’appellation française d’« experts en science des données ».  Des experts quidevraient être très demandés : pour les seuls États-Unis, McKinsey estime ainsi qu’il manquera entre© 2011 - 2012 SolutionITPME - http://www.solutionitpme.fr Page 18
  19. 19. 140 000 et 190 000 salariés disposant d’une expertise avancée en analyse de données et environ 1,5 millionsde gestionnaires de données en 2018.Leur place première est évidemment dans l’entreprise mais aussi dans les services publics, deux secteurs oùle traitement de ces grands volumes de données pourrait générer de considérables gains de productivités,mais aussi contribuer à l’amélioration des services rendus aux clients ou citoyens. Car ces spécialistes, enextrayant la substantifique moelle des vastes quantités de données à leur disposition, peuvent détecter lestendances qui feront l’avenir, identifier de nouveaux mécanismes de fraudes, anticiper des problèmes à venir,autant d’informations précieuses pour les responsables métiers.S’il devrait être passionnant, le métier d’expert en science des données n’en sera pas moins périlleux,souligne toutefois Jean-Yves Pronier. Car les données sont partout. L’expert devra donc être capable depasser au crible un très large éventail d’informations, provenants de sources multiples : entrepôts dedonnées d’entreprises, entrepôts de données publiques de type « open data », informations issues desréseaux sociaux, sites innombrables du web, études économiques, Blogs, Forums, archives numériques,etc., avant d’être en mesure de sélectionner celles qui seront directement utiles à l’entreprise. L’expert enscience des données devrait agir en véritable « alchimiste de l’information », reliant entre eux les pointsdifférents pour faire apparaître les tendances, et offrir une réelle visibilité dans cet amoncellement deminerais brut qui va soudain se transformer en information précieuse, conduisant l’entreprise à prendre desdécisions d’une pertinence inconnue jusqu’alors. »A nouveaux métiers, nouveaux outilsCes experts vont bien entendu avoir besoin d’outils et de puissance de calcul adaptés. Selon IDC, le nombre deserveurs devrait être multiplié par 10  d’ici à 2020, car qui dit grand volume de données dit besoin de performancespour traiter ces données (et nul doute que les questions seront de plus en plus sophistiquées donc la puissancerequise de plus en plus élevée). Au delà de la puissance pure, ce sont aussi les outils de stockage, de gestion et detraitement des données qui vont évoluer. Partout les tendances sont similaires et inspirées des technologiesdéveloppées dans le monde du calcul intensif.Pour le stockage, on voit ainsi se généraliser les systèmes distribués tels que celui d’Isilon (pour le NAS) ou telsqu’EMC Atmos (pour le stockage à grande échelle d’objets). Pour le traitement de données, les systèmesmassivement parallèles prennent peu à peu l’ascendant sur les bases de données traditionnelles. L’engouementpour des systèmes tels que Hadoop / Mapreduce, ou tels que GreenPlum ne se dément pas.De nouvelles techniques de visualisation émergent pour rendre intelligibles de grands volumes de données. Ici lehalo autour de la planète symbolise lintensité du trafic internet entre la ville sélectionnée et New-YorkOn voit aussi se développer les alternatives aux bases SQL à l’instar de Cassandra, MongoDB ou Membase. Lepoids du Big Data influence aussi les langages de développement. On peut ainsi constater le succès du frameworknode.js (framework javascript serveur) pour les applications de stream processing (traitement d’événements à trèshaut débit), du fait de ses caractéristiques non bloquantes, mais aussi celui d’Apache Pig pour l’analyse de grandsjeux de données.Enfin, le Big Data a une influence sur les techniques de visualisation, les experts en sciences de données devantpouvoir rendre parlantes de façon visuelle les données qu’ils manipulent. Bref, c’est une nouvelle dimension del’informatique qui est en train de se construire sous nos yeux et c’est un peu cette nouvelle vague que l’on désigneaujourd’hui par le terme « Big Data ».© 2011 - 2012 SolutionITPME - http://www.solutionitpme.fr Page 19
  20. 20. Comprendre : la déduplication dedonnéesRéduire les besoins en capacité disque et en bande passante réseau, économiser plus d’électricité,réduire le temps de sauvegarde des serveurs comme des postes clients… Ces bénéfices de ladéduplication de données sont les principaux avantages mis en avant par les utilisateurs de latechnologie.Réduire les besoins en capacité disque et en bande passante réseau, économiser plus d’électricité, réduire letemps de sauvegarde des serveurs comme des postes clients… Ces bénéfices de la déduplication dedonnées ne sont que les principaux avantages mis en avant par les utilisateurs de la technologie. Unetechnologie dont l’usage se démocratise progressivement à la plupart des systèmes de stockage.Les principales approches de déduplication de donnéesSelon les fournisseurs, l’appellation déduplication recouvre plusieurs réalités. La version la plus basique de latechnologie est maîtrisée depuis des années, puisqu’il ne s’agit ni plus ni moins que de la compression, quipermet d’éliminer certaines redondances de données afin de réduire l’empreinte de stockage d’un fichier. Au-delà de cette implémentation « historique », on a vu apparaître plus récemment deux autres formes deréduction de données, tout d’abord la déduplication au niveau fichier. Avec cette dernière, tout fichierdétecté comme étant un double parfait d’un autre fichier est tout simplement supprimé et remplacé par un« lien ». Cette technologie basique est notamment mise en œuvre dans les messageries électroniques sous lenom de Single Instance Storage (un élément dupliqué à une ou plusieurs reprises n’est stocké qu’une fois).Mais la version de la technologie de déduplication qui intéresse aujourd’hui le plus les entreprises est ladéduplication au niveau du bloc (ou tout du moins au niveau d’un segment de fichiers). Comme avec le SIS,l’idée est de localiser des « doublons » mais cette fois-ci à l’échelle de petits segments de fichiers, dans lebut de maximiser les chances de trouver des doublons. Selon les constructeurs, l’analyse des blocs se faitsur la base de segments de données de taille fixe ou de taille variable. Dans ce dernier cas, le déplacementde la fenêtre d’analyse de l’algorithme de déduplication maximise les chances de trouver des doublons etdonc de réduire la taille des données.Pour identifier les données dupliquées, la plupart des technologies découpent les données en segments etopèrent un calcul d’empreinte (ou de « hash ») sur ces segments grâce à un algorithme cryptographique. Cecalcul produit une valeur numérique réputée unique, qui est ensuite comparée à la valeur numérique desautres morceaux déjà analysés. En cas de redondance d’empreinte, le système conclut à un doublon etélimine les données dupliquées (d’où le terme déduplication) tout en conservant un journal de cetteopération. Ainsi, on gagne de l’espace tout en assurant que lors de la restauration ou de la relecture, lesystème saura recréer le fichier original, à partir des blocs dédupliqués.Déduplication à la source ou déduplication à la cible ?On distingue aujourd’hui deux types de déduplication. Celle qui s’exécute à la source et celle qui s’exécute àla cible. La première s’opère sur le serveur à sauvegarder. Lors d’une opération de backup, l’agent installésur le serveur déduplique les données au fil de l’eau et ne transmet au serveur de sauvegarde que desdonnées déjà dédupliquées. L’avantage principal est que le flux de données sur le réseau s’en trouve© 2011 - 2012 SolutionITPME - http://www.solutionitpme.fr Page 20
  21. 21. considérablement réduit (de 95 % pour un ratio de 10:1), ce qui rend la technologie particulièrement utiledans les environnements très consolidés (notamment dans les environnements virtualisés), dans le cas deserveurs en agence qui sauvegardent en central ou du backup de postes clients. La déduplication à la sourcea notamment été démocratisée par un pionnier comme Avamar, aujourd’hui dans le giron d’EMC.À l’inverse, dans le cas de la déduplication à la cible, le processus de sauvegarde reste plus traditionnel. Le serveur à sauvegarder envoie ses données au serveur de sauvegarde, qui les transmet à l’appliance de déduplication, qui se charge de réduire au fil de l’eau. L’avantage principal de cette approche est que les machines à sauvegarder ne sont pas sollicitées au niveau processeur, toutes les opérations s’exécutant sur l’appliance. En revanche, les capacités de déduplication de l’appliance sont limitées à la puissance de traitement de ses processeurs. Il est à noter que la plupart des appliances de déduplication à la cible offrent à la fois un mode de stockage (ou de sauvegarde) en mode NAS via des protocoles ouverts tels que CIFS ou NFS, ainsi qu’un mode VTL. Dans ce dernier, l’appliance apparaît comme une librairie de bande virtuelle pour les logiciels de sauvegarde et s’insère donc de façon transparente dans des processus de sauvegarde existant, à ceci près que la capacité utilisable est considérablement accrue par l’usage de la déduplication. Le taux de déduplication sexprime en ratio par rapport à loriginal. Un ratio de 10 pour 1 Des gains d’espace significatifs correspond ainsi à une réduction de 90% par rapport au volume de données initial Dans tous les cas, les technologies modernes de déduplication produisent des résultats surprenants en matière de réduction des données. Si la plupart des utilisateurs n’atteignent jamais les ratios invoqués par certains fournisseurs (de type 200 ou 300:1) – qui nesont possibles que dans certains scénarios très particuliers -, il est commun d’obtenir des ratios de type 10:1à 20:1. Ce qui signifie une réduction pouvant atteindre 90 à 95 % par rapport au volume de données initial.Dans la pratique cela veut dire qu’une appliance de déduplication avec 40 To de capacité disque utile pourraen fait sauvegarder 400 à 800 To de données.Mais la déduplication présente d’autres bénéfices. À la source, par exemple, elle permet une réductionmassive des fenêtres de sauvegarde et un allégement considérable du trafic réseau. Ces deuxcaractéristiques permettent d’envisager des scénarios de protection des agences, sites ou magasins distantsjusqu’alors impossibles, le tout en assurant une bien meilleure sécurité des données. Il est ainsi facile decomprendre que les chances de restaurer des données dans de bonnes conditions, avec un système desauvegarde centralisé opéré par des professionnels, sont bien plus élevées qu’avec un système distribués’appuyant sur des lecteurs de bandes souvent incertains distribués en agences… Plus généralement le faitd’avoir des données déjà dédupliquées simplifie aussi les opérations de réplication entre des appliances desauvegardes réparties sur plusieurs sites.La déduplication du stockage primaire, futur eldorado ?Pour l’instant, la plupart des constructeurs n’ont appliqué la technologie de déduplication qu’à leurssolutions de sauvegarde. Mais chez certains constructeurs, comme EMC, on ne cache pas qu’un des usagesfuturs de la technologie sera sans doute la déduplication dans les systèmes de stockage primaires, afind’enrayer la croissance exponentielle des volumes stockés sur les baies de stockage.Loi de Moore aidant, il va de toute façon bien falloir trouver quelque chose à faire pour occuper les nouveaux© 2011 - 2012 SolutionITPME - http://www.solutionitpme.fr Page 21
  22. 22. processeurs multicœurs d’AMD et Intel qui motorisent les baies de stockage. Et dans bien des têtes, ladéduplication des données primaires est l’une des fonctions qui pourrait au mieux exploiter les deuxtechnologies, surtout si elle venait à être couplée à des fonctions de classification automatique de données.Cela tombe bien, ces dernières se banalisent aussi dans les baies de stockage…© 2011 - 2012 SolutionITPME - http://www.solutionitpme.fr Page 22
  23. 23. Comprendre : comment le RAID protègevos donnéesLa technologie RAID permet d’améliorer les performances et la fiabilité du stockage en combinantplusieurs disques. Reste qu’il est important de bien comprendre les différents modes RAID pourbien choisir celui qui est adapté à chaque type d’applicationProtéger l’entreprise contre les pertes de données liées aux pannes mécaniques ou électroniques des disques durs :c’est la mission de la technologie Raid (Redundant Array of Inexpensive Disks ou matrice redondance de disqueséconomiques), une technologie mise en oeuvre par la plupart des baies de stockage du marché comme les baies VNXet VNXe d’EMC. Du fait de leur nature mécanique, les disques durs qui stockent les données de nos ordinateurs nesont pas à l’abri de pannes. Et ces mêmes pannes peuvent aussi se produire sur les baies de stockage d’entreprise,même si les disques de ces équipements sont sélectionnés de façon plus exigeante. Les baies de stockaged’entreprise ayant pour mission de protéger les données les plus importantes de l’entreprise, il est toutefois hors dequestion de ne pas se prémunir contre les éventuelles pannes ou dysfonctionnements d’un disque dur, sous peine deperdre irrémédiablement des données.C’est pour parer à ces désagréments que la technologie Raid a été inventée. L’idée générale est la suivante : au lieu destocker les données sur un disque unique, on crée des grappes composées de plusieurs disques, dont certains ontpour mission de fournir un niveau de redondance. Ainsi, en cas de défaillance d’un ou plusieurs disques, le contrôleurRaid de la baie pourra reconstituer à la volée les données contenues sur les disques défectueux. Le Raid permet doncde protéger les données contre les pannes mais aussi assure que la baie continue à fonctionner même avec un ou plusieurs disques défaillant, un point essentiel pour des applications informatiques qui de plus en plus doivent fonctionner 24  heures/24 et sept jours sur sept. En mode Raid1, toutes les données écrites sur le disque 1 sont clonées sur le disque 2.En cas de panne dun disque, le système continuera ainsi à fonctionner normalement Il existe toutefois de multiples modes raid adaptés à des scénarios d’usage différents. Selon le mode Raid choisi, une grappe de disques sera plus ou moins fiable et plus ou moins performante. Certains modes Raid permettent ainsi de se prémunir contre les pannes mécaniques d’un ou plusieurs disques tandis que d’autres permettent d’accroître les performances. Certains, enfin, permettent de combiner ces deux avantages. Raid 1 Le Raid 1 (ou miroir) consiste à dupliquer sur autant de disques que En mode Raid1, toutes les données écrites contient la grappe, les données écrites sur le premier disque de la grappe. sur le disque 1 sont clonées sur le disque 2.En cas de panne dun disque, le système Ce faisant, le niveau de protection de données croît avec le nombre de continuera ainsi à fonctionner normalement miroirs. En cas de panne d’une unité, le contrôleur désactive© 2011 - 2012 SolutionITPME - http://www.solutionitpme.fr Page 23
  24. 24. automatiquement le disque incriminé et attend l’insertion d’un disque neuf pour rebâtir un nouveau disque miroir. Leprix à payer pour cette tolérance aux pannes est un coût élevé (lié au doublement du nombre de disques) et desperformances en retrait (du fait des opérations de miroir à réaliser). Raid 5 Utilisable à partir de trois disques, le Raid 5 permet de répartir les données sur l’ensemble des disques de la grappe et assure leur protection par le calcul d’informations de parité permettant de reconstituer les données en cas de défaillance d’un disque. Dans une grappe à n disques, chaque bande est constituée de n-1 blocs de données et d’un bloc de parité calculé à partir des n-1 blocs de données précédents. Une grappe Raid 5 peut ainsi survivre à la perte d’un disque  : pour chaque bande, il manquera soit un bloc de données soit le bloc de parité. La perte du bloc de parité n’a aucun impact sur l’intégrité des données, tandis qu’un bloc perdu Les données écrites sur une grappe Raid 5 peut être recalculé à partir des blocs survivant et des informations peuvent survivre à la panne dun disque de la de parité. Du fait de ces caractéristiques, une grappe Raid 5 grappe moderne allie performances et fiabilité, sans trop sacrifier la capacité. Par exemple une grappe Raid 5 composée de 4 disques1 To a une capacité utilisable de 3 To (1 To étant consommé par les informations de parité).Outre la protection des données, les principaux avantages du Raid 5 et du Raid 6 sont leurs performancesélevées en lecture (à peu près similaires à celle du Raid 0 – voir ci-après) et leur meilleure utilisation de lacapacité disponible par rapport au Raid 1. En revanche, le calcul de parité étant une opération gourmande entemps de calcul, elle a, en général, un impact sur la performance en écriture (même si les cartes Raidmodernes et les processeurs récents ont largement réduit ce défaut).Raid 6L’un des problèmes du Raid 5 est que la reconstitution de la grappe après le remplacement d’un disquedéfectueux par une nouvelle unité est d’autant plus longue que la capacité des disques est élevée, ce quipeut présenter un risque si la grappe est constituée d’un grand nombre de disques et/ou si ceux-ci ont unegrande capacité. La probabilité de panne d’un second disque pendant l’opération de reconstruction s’accroîten effet avec la capacité. Le Raid 6 a en partie été créé pour cette raison : pour chaque bande, on écrit deuxblocs de parité, ce qui fait que l’on est protégé contre la panne de deux disques, au prix toutefois d’unecapacité réduite. Outre la protection des données, les principaux avantages du Raid 5 et du Raid 6 sont leursperformances élevées en lecture (a peu près similaires à celle du Raid 0) et leur meilleure utilisation de lacapacité disponible par rapport au Raid 1. En revanche, le calcul de parité étant une opération gourmande entemps de calcul, elle a en général un impact perceptible sur la performance en écriture (même si les cartesRaid modernes et les processeurs récents ont largement réduit ce défaut).Raid 0 : la performance au détriment de la fiabilitéLe Raid 0 (ou striping) permet d’obtenir des performances élevées en distribuant les données sur l’ensembledes disques d’une grappe mais sans aucune information de parité. Dans ce mode, les données à écrire sontdécoupées en bandes de tailles égales (ou stripe). Sur une configuration à trois disques, la première stripeest écrite sur le disque n° 1 tandis que la seconde est écrite en parallèle sur le disque n° 2 et la troisième sur© 2011 - 2012 SolutionITPME - http://www.solutionitpme.fr Page 24
  25. 25. le disque n°  3, et ainsi de suite en repartant du 1er disque. Le résultat est une grappe dont la capacité estégale à la somme des capacités de ses membres et dont les performances augmentent avec le nombre dedisques.Dans un monde parfait (où le temps de découpage en stripe serait nul et sans impact sur les performances),une grappe RAID 0 à quatre disques serait quatre fois plus véloce qu’un disque seul. Ce n’est pas tout à faitle cas, mais le mode RAID 0 permet d’obtenir des performances très élevées. Seul (vrai) problème : la panned’un seul disque de la grappe entraîne la perte de l’ensemble des données de la grappe – or la probabilitéd’une panne croit avec le nombre de disques… Le Raid 0 est donc à réserver aux applications qui ont unbesoin absolu de performances mais pour lesquelles la perte de données est un risque acceptable.Quel mode Raid choisir pour quel usage ?Notons qu’en plus des modes standards, il est possible avec certains contrôleurs Raid possible de combinerplusieurs modes raid. Par exemple, le Raid 10 permet de « striper » des agrégats raid en miroir, en clair defaire du Raid 0 à partir de grappe en Raid 1. Le résultat est un ensemble de disques alliant les performancesdu Raid 0 avec la fiabilité des grappes en miroir sous-jacentes.Comprendre le principe des modes Raid est une chose, les utiliser à bon escient en est une autre. Il est parexemple courant de placer le volume de démarrage d’un serveur sur une grappe en Raid 1 (le miroir permetde se prémunir contre une panne sur un  disque de boot). Le Raid 10 est préconisé pour les applicationsnécessitant beaucoup d’écritures aléatoires et un assez haut niveau de protection. Microsoft, par exemple, lerecommande pour son serveur de messagerie Exchange, tandis qu’Oracle le préconise pour les applicationsde bases de données transactionnelles intensives. LLe Raid 5, enfin, est une bonne approche pour les applications NAS bureautiques ou pour les applications debases de données effectuant essentiellement des opérations de lecture (cas d’un datawarehouse parexemple). Il est à noter pour terminer que des baies récentes comme les baies VNXe d’EMC saventsélectionner automatiquement le mode de protection adapté aux principales applications du marché. Ce quidans la plupart des cas vous évite d’avoir à vous préoccuper du mode Raid (sauf bien sûr si vous voulezconserver un contrôle manuel sur ce paramètre).© 2011 - 2012 SolutionITPME - http://www.solutionitpme.fr Page 25

×