Le stockage de données
Sébastien Caunes scaunes@ekito.fr
Intro
Objectif de cette présentation :
•Proposer un regard nouveau, volontairement disruptif sur l’industrie du stockage,
...
Plan
• Matériel
• Haute performance
• Haute densité
• Etudes sur les disques
• Architecture
• Système distribués
• Logiciel
Stockage haute performance : Disques
SSD
• Présentation de la technologie SSD
• Les nouvelles interfaces
• Les technologie...
Solid State Drive SSD
• SSD = Solid State Drive
• Pas de pièces mécaniques : Mémoire flash, comme une grosse clé USB
• Mêm...
Solid State Disk SSD
Défaut des premiers SSD :
•Pas de gestion de l’usure des cellules par le contrôleur
•Performances en ...
Solid State Disk SSD
Avantages
• Accès aléatoires très haute
performance x1000*
• Débit séquentiel x5*
• Totalement silenc...
Solid State Disk SSD
Ce qui fait la qualité d’un SSD :
•La performance et les fonctionnalités de son contrôleur
•Nombre de...
Nouvelles interfaces disques dur
Les performances des SSD sont limitées par leur connexion SAS/SATA
inadaptée. 6Gb/s (=550...
M2
• Standard connectique et dimensions physiques
• Remplaçant du mSATA (miniSATA)
• Plus petit, plus performant
• Conçu p...
NVMe Express
• Interface PCI-Express / SSD moderne
• Parallélisation des requêtes
• Protocole moins verbeux, requêtes plus...
Performance :
Contrôleur RAID haute performance
Les contrôleurs RAID classiques ne sont pas au niveau
des performances des...
Performance : SSD PCI Express
• Accès direct PCI Express <> Mémoire FLASH
• Très hautes performances
• Capacité limitée (m...
Performance : SSD PCI Express
Disque dur mécanique Fusion I/O OCZ Revodrive 350
Description SSD PCIe Haute perf. SSD PCIe ...
Performance : RAM based SSD
• Un disque SSD contenant autant de RAM que de mémoire FLASH
• Les opérations lecture/écriture...
Le futur du SSD
Suppression de la gestion sous forme de système de fichier. Une donnée n’est plus
pointée par un chemin, m...
RAM Disk
Disque virtuel dont les données sont stockées dans la mémoire RAM du serveur.
Avantages :
•Les meilleures perform...
Stockage haute densité
Technologies des disques mécaniques
•Système anti-vibration
•Protection des données
•SMR
•Hélium
•H...
Technologies de disques durs
mécaniques
Disque dur IBM 5Mo, 1956
Système anti vibration
• La rotation des plateaux provoque des vibrations
• Technologies limitant la création de vibration...
Protection des données
La tête de lecture ne doit pas entrer en contact avec la surface du disque.
• Parkage des têtes d’u...
Haute densité : Disques SMR
SMR : Shingled Magnetic Recording
Constat:
•Les têtes d’écriture ne peuvent être réduites
•Les...
Haute densité : Disques SMR
• capacité +25%
• La modification d’une donnée nécessite de réécrire toute les données suivant...
Haute densité : Hélium
Innovation HGST
Les têtes de lecture/écriture d’un disque dur sont maintenues en suspension au
dess...
Haute densité : Hélium
Têtes de lectures plus proches de la surface
•Moins d’espace entre les plateaux
•Plus de plateaux d...
Technologies futures: HAMR
Constat :
•La taille des têtes d’écriture dépend de la malléabilité magnétique du matériau
empl...
Technologies futures: HAMR
Avantages :
•Principe éprouvé (utilisé par exemple dans les anciens Minidisc Sony)
•Débits proc...
Technologies futures: Nanolithographie
La surface d’un plateau est composée de grains magnéto sensibles qui
conservent l’o...
Solutions haute densité
Quelques produits:
•Carte contrôleur 40 liens SATA
•Châssis dense supermicro
•Backblaze storage pod
Carte contôleur SATA HighPoint 750
Conçu pour le stockage de masse low cost
•Supporte 40 disques SATA 6Gb/s
•PCI Express 2...
Gamme châssis serveur fichier
Supermicro
847BE1C-R1K28LPB
•36 disques 3,5’’, 24 avant + 12 derrière
•Carte mère single ou ...
Backblaze storage POD
Backblaze offre un service de sauvegarde en ligne à prix réduit. Afin de réduire leurs coûts,
ils on...
Backblaze storage POD
• Un logiciel maison assure la gestion et
l’intégrité des données.
• 100 petabytes de données client...
Backblaze storage POD
Les premières versions utilisaient des switch SATA,
une fonctionnalité méconnue et peu utilisée du
s...
Backblaze storage POD
Design open source:
•Réutilisé par des laboratoires, studios d’animation, des passionnés, etc…
•Poss...
Facebook Opencompute
Facebook créé ses propres serveurs et diffuse les plans sous licence
opensource.
•Plans d’unité de st...
Etudes sur des populations de disques
durs
Plusieurs entreprises gérant de grandes population de disques publient
des arti...
Etudes Backblaze
Environ 30000 disques durs grand public
Comparaisons des disques:
•Révèle de grosses disparités entre fab...
Etude Google
32000 disques gammes pro et grand public
Conclusions :
•MTBF non fiables : des disques sont testés bons en us...
Etude Microsoft / University of Virginia
•Les disques sont les pièces qui tombent le plus souvent en panne dans les
serveu...
Architecture et couche logicielle
• RAID Hardware ou software ?
• Couche logicielle et système de fichier
• Compression de...
RAID Hardware ou software ?
RAID : Redundant Array of Inexpensive Disks
RAID 5 : Technologie permettant de sécuriser les d...
RAID Hardware ou software ?
Exemple 1 : serveur de base de donnée avec stockage intégré
Le processeur étant très sollicité...
RAID Hardware ou software ?
Exemple 2 : serveur de fichier médias sur réseau local
Fichiers volumineux, requêtes peu fréqu...
RAID Hardware ou software ?
Exemple 3 : serveur de fichier haute performance (nombreux petits accès, disques SSD)
Lorsqu’i...
Couche logicielle
Gérer de gros espace de stockage nécessite des outils adaptés
•Gestion du matériel
• Monitoring, Alertes...
Couche logicielle
Quelques système de fichiers distribués / plateformes object storage
•Lustre
•Gluster
•HDFS : Hadoop Dis...
Bases de données NO-SQL
• Les bases de données No SQL ou orientés Objet fonctionnent sur le principe clé/valeurs où la
val...
Compression des données
• La compression à la volée est présente sur la plupart des produits d’archivage.
• Compression pa...
Compression des données
• Les données sont souvent stockées dans des formats textes inefficients (XML, JSON…) alors qu’il
...
FUSE
• FUSE = File system in User SpacE
• Présente les données sous forme d’arborescence de répertoires et fichiers.
• Les...
Choix d’une infrastructure stockage
• Contrairement aux autres composants d’un serveur, il y a une forte continuité et com...
Prochain SlideShare
Chargement dans…5
×

Le stockage de données disruptif

683 vues

Publié le

Etat du stockage de données informatique fin 2014.
Solutions hautes performances.
Stockage dense.
Solutions disruptives.

Publié dans : Données & analyses
0 commentaire
1 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
683
Sur SlideShare
0
Issues des intégrations
0
Intégrations
5
Actions
Partages
0
Téléchargements
24
Commentaires
0
J’aime
1
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Le stockage de données disruptif

  1. 1. Le stockage de données Sébastien Caunes scaunes@ekito.fr
  2. 2. Intro Objectif de cette présentation : •Proposer un regard nouveau, volontairement disruptif sur l’industrie du stockage, en rupture avec le discours tenus par les conseillers commerciaux du secteur. •Présenter quelques technologies actuelles ainsi que des recherches et développements en cours. •Présenter des produits et solutions de stockage peu « académiques » mais qui ont fait leur preuves.
  3. 3. Plan • Matériel • Haute performance • Haute densité • Etudes sur les disques • Architecture • Système distribués • Logiciel
  4. 4. Stockage haute performance : Disques SSD • Présentation de la technologie SSD • Les nouvelles interfaces • Les technologies connexes • Le futur
  5. 5. Solid State Drive SSD • SSD = Solid State Drive • Pas de pièces mécaniques : Mémoire flash, comme une grosse clé USB • Même interface que les disques mécaniques (SATA) • Capacité jusqu’à 1To en 2,5’’ • Technologie décevante à ces débuts mais parfaitement mature aujourd’hui
  6. 6. Solid State Disk SSD Défaut des premiers SSD : •Pas de gestion de l’usure des cellules par le contrôleur •Performances en baisse après quelques semaines d’utilisation •Blocages réguliers du système pour quelques secondes (contrôleur Jmicron) •Les opérations de maintenance en tâche de fond perturbaient le fonctionnement Ces erreurs de conception ont été corrigées depuis. Samsung garanti ses derniers modèles « 850 PRO » 10 ans.
  7. 7. Solid State Disk SSD Avantages • Accès aléatoires très haute performance x1000* • Débit séquentiel x5* • Totalement silencieux • Pas de vibration • Consomme peu > chauffe peu • Ne craint pas les chocs • Durée de vie (en usage standard) Inconvénients • Capacité réduite • Coût élevé • Pannes complètes sans possibilité de récupérer les données. * Par rapport à un disque mécanique
  8. 8. Solid State Disk SSD Ce qui fait la qualité d’un SSD : •La performance et les fonctionnalités de son contrôleur •Nombre de cycles de réécriture des cellules •La quantité de cellules en surprovision (destinées à remplacer les cellules défaillantes) La durée de vie des SSD doit être mise en regard des performances et du travail effectué : Un SSD haut de gamme de 500Go, utilisé au maximum de ses capacités 24h/24 (50% écriture, 50% lecture) a une durée de vie théorique de 300 jours. Cela peut paraître peu, mais durant cette période il aura effectué 2,6x1012 opérations et traité 8PB de données, soit 7 siècles d’activité du meilleur disque mécanique.
  9. 9. Nouvelles interfaces disques dur Les performances des SSD sont limitées par leur connexion SAS/SATA inadaptée. 6Gb/s (=550Mo/s) Alternatives •M2 •NVMe •Disques PCI-Express
  10. 10. M2 • Standard connectique et dimensions physiques • Remplaçant du mSATA (miniSATA) • Plus petit, plus performant • Conçu pour: • Netbook, medias center • Usages détournés possibles • Cache local sur nœud calcul haute densité • Informatique embarquée mSATA M2 Nouvelles interfaces disques dur
  11. 11. NVMe Express • Interface PCI-Express / SSD moderne • Parallélisation des requêtes • Protocole moins verbeux, requêtes plus efficaces • Sur lien physique SATA ou PCI Express • Matériel disponible et supporté par les OS récents • Windows 7/2012 server • Linux • FreeBSD, QEMU, Solaris,UEFI • Développé par un consortium de fabricants www.nvmexpress.org Nouvelles interfaces disques dur
  12. 12. Performance : Contrôleur RAID haute performance Les contrôleurs RAID classiques ne sont pas au niveau des performances des SSD La carte contrôleur LSI 9300 16i supporte 16 liens SATA3 12Gb/s sur un port PCI-Express 3 8x (8Go/s). Prés de 2 millions d’opérations/seconde. Sortie le 10 décembre 2014
  13. 13. Performance : SSD PCI Express • Accès direct PCI Express <> Mémoire FLASH • Très hautes performances • Capacité limitée (modèles jusqu’à 2To) • Nombre limité par les bus PCI-Express disponibles dans un serveur
  14. 14. Performance : SSD PCI Express Disque dur mécanique Fusion I/O OCZ Revodrive 350 Description SSD PCIe Haute perf. SSD PCIe Standard Capacité 4To 1,2 TB 0,96 TB Débit Lecture Mo/s 170 2 500 1 800 Débit Ecriture Mo/s 170 3 000 1 700 IOPS Lecture (4k) 135 580 000 135 000 IOPS Ecriture (4k) 185 535 000 140 000 Fiabilité *** *** ** Prix €HT 150€ 16000€ 1000€
  15. 15. Performance : RAM based SSD • Un disque SSD contenant autant de RAM que de mémoire FLASH • Les opérations lecture/écriture se font sur la RAM • Une batterie permet de sauver les données vers la mémoire flash en cas de coupure d’alimentation. • Existe en SATA (lien) ou PCI-Express (lien) • Excellentes performances • Ne s’use pas, même utilisé à pleine capacité 24h/24 • Capacité limitée (32Go) Permet d’accélérer considérablement des applications de type base de données.
  16. 16. Le futur du SSD Suppression de la gestion sous forme de système de fichier. Une donnée n’est plus pointée par un chemin, mais par son adresse physique, comme en RAM : Fusion’s Virtual Storage Layer (VSL), Fusion MPT ) Barrettes de RAM couplées à des puces NAND  l’application ne sauve plus les données, son état est conservé de manière transparente après redémarrage. SSD au format DIMM des barrettes de mémoire pour être plus proche du CPU et profiter des performances du bus RAM (50Go/s théorique lien) NEC a inventé un nouveau type de mémoire Flash aussi performante que de la ram et travaille à sa production de masse. Ce serait une révolution.
  17. 17. RAM Disk Disque virtuel dont les données sont stockées dans la mémoire RAM du serveur. Avantages : •Les meilleures performances possibles •Ne s’use pas •Il suffit d’installer un logiciel Inconvénients : •Capacité limitée par la quantité de RAM •Les données disparaissent en cas de panne de courant
  18. 18. Stockage haute densité Technologies des disques mécaniques •Système anti-vibration •Protection des données •SMR •Hélium •HAMR •Nanolithographie Solutions haute densité •Highpoint 750: Contrôleur 40 liens SATA •Chassis Supermicro dense •Backblaze storage POD
  19. 19. Technologies de disques durs mécaniques Disque dur IBM 5Mo, 1956
  20. 20. Système anti vibration • La rotation des plateaux provoque des vibrations • Technologies limitant la création de vibrations • Détection des résonances inter-disques et changement de la vitesse de rotation • Montage des disques sur amortisseur caoutchouc dans les racks • Technologies permettant le fonctionnement malgré les vibrations • Dual actuator technology: La tête de lecture est montée sur un support déformable de faible amplitude mais très réactif (piezzo-électrique) qui corrige en temps réel le micro décalage dû aux vibrations. Permet de réduire la largeur des pistes. Ces technologies sont fortement recommandées en utilisation RAID Technologies de disques durs mécaniques
  21. 21. Protection des données La tête de lecture ne doit pas entrer en contact avec la surface du disque. • Parkage des têtes d’urgence Un condensateur contient suffisamment d’énergie pour ranger la tête de lecture sur la zone dédiée en cas de perte de courant ou détection de chute (portables). • Rampe de parking. Une petite pièce de plastique accueille les têtes de lecture quand le disque cesse de tourner. Cela supprime tout contact avec le plateau et donc l’usure des têtes. De plus il devient inutile de réserver une zone « d’atterrissage » sur le plateau, cet espace est utilisé pour stocker plus de données. Technologies de disques durs mécaniques
  22. 22. Haute densité : Disques SMR SMR : Shingled Magnetic Recording Constat: •Les têtes d’écriture ne peuvent être réduites •Les têtes de lectures sont plus fines que les têtes d’écriture Chevauchement des pistes lors de l’écriture. Shingle = Bardeaux Technologies de disques durs mécaniques
  23. 23. Haute densité : Disques SMR • capacité +25% • La modification d’une donnée nécessite de réécrire toute les données suivantes dans le bloc, et donc de les avoir lues avant (comme pour le raid 5)  Performances réduites.  Disques destinés à l’archivage. • Conçu pour concurrencer les Bandes Magnétiques • Quid de la fiabilité ? Technologies de disques durs mécaniques
  24. 24. Haute densité : Hélium Innovation HGST Les têtes de lecture/écriture d’un disque dur sont maintenues en suspension au dessus des plateaux par « l’effet de sol » dû au flux d’air qui s’engouffre en dessous. L’Hélium est 7 fois plus fluide que l’air Technologies de disques durs mécaniques
  25. 25. Haute densité : Hélium Têtes de lectures plus proches de la surface •Moins d’espace entre les plateaux •Plus de plateaux dans le même espace •Capacité +40% Moins de friction •Moins d’énergie consommée •Moins de chaleur dégagée Disques hermétiques •Peuvent être immergés dans un liquide de refroidissement Technologies de disques durs mécaniques
  26. 26. Technologies futures: HAMR Constat : •La taille des têtes d’écriture dépend de la malléabilité magnétique du matériau employé pour les plateaux. •Une matière plus malléable perdrait les données. Solution : Utiliser un matériau dont les propriétés magnétiques changent avec la température et ne chauffer que la zone où l’on souhaite écrire avec un laser. Technologies de disques durs mécaniques
  27. 27. Technologies futures: HAMR Avantages : •Principe éprouvé (utilisé par exemple dans les anciens Minidisc Sony) •Débits proche des disques actuels •Capacité maximum théorique de 60To sur un disque 3,5’’ •Faible malléabilité magnétique à température normale  fiabilité accrue pour l’archivage longue durée Recherche débutée en 2002. Arrivée prochaine des premiers disques TDK 15To annoncé pour 2015-2016 Technologies de disques durs mécaniques
  28. 28. Technologies futures: Nanolithographie La surface d’un plateau est composée de grains magnéto sensibles qui conservent l’orientation magnétique donnée par la tête d’écriture. Ces grains sont collés les uns aux autres et ont tendance à se démagnétiser mutuellement. Ce phénomène impose une surface minimale pour chaque bit d’information écrit. Solution: Séparer les grains par une barrière isolante. Cela se ferait par une impression des grains à l’échelle nanométrique sur une surface isolante (~50 atomes par grain). D’autres procédés sont à l’étude. Ceci permettrait de doubler la capacité des disques. Cette piste en est à ses balbutiements. Îlots magnéto-sensibles imprimés par nanolithographie Technologies de disques durs mécaniques
  29. 29. Solutions haute densité Quelques produits: •Carte contrôleur 40 liens SATA •Châssis dense supermicro •Backblaze storage pod
  30. 30. Carte contôleur SATA HighPoint 750 Conçu pour le stockage de masse low cost •Supporte 40 disques SATA 6Gb/s •PCI Express 2.0 8x (haute performance) •615 € •Pas de RAID Hardware •…il reste à trouver un boîtier pour 40 disques Fiche constructeur - Fiche Amazon - Test performances Solutions haute densité
  31. 31. Gamme châssis serveur fichier Supermicro 847BE1C-R1K28LPB •36 disques 3,5’’, 24 avant + 12 derrière •Carte mère single ou dual proc •Racks Hot Swap avec diode d’identification •$1800 chassis + racks + alimentation (pas très low cost) 847E1C-R1K28JBOD •45 disques 24 avant + 21 arrière •Pas de place pour une carte mère, s’utilise en complément du boitier ci-dessus montés l’un sur l’autre. •$2000 Solutions haute densité
  32. 32. Backblaze storage POD Backblaze offre un service de sauvegarde en ligne à prix réduit. Afin de réduire leurs coûts, ils ont conçus leurs propres unités de stockage : Backblaze storage POD. •45 disques dans un serveur •Design open source accessible •43 000€/Petabyte Coût d’acquisition et d’opération réduits de 85% par rapport aux solutions des grand constructeurs (Dell/HP/Netapp…). Solutions haute densité
  33. 33. Backblaze storage POD • Un logiciel maison assure la gestion et l’intégrité des données. • 100 petabytes de données client • 32000 disques durs • 4ème version du storage POD (lien) Solutions haute densité
  34. 34. Backblaze storage POD Les premières versions utilisaient des switch SATA, une fonctionnalité méconnue et peu utilisée du standard SATA qui permet de connecter plusieurs disques sur un contrôleur SATA. Mais on ne peut accéder qu’à un seul disque à la fois.  Performances limitées, le produit n’était pas pris au sérieux. La version 4 utilise des contrôleurs HighPoint Rocket 750 qui semblent avoir été développés sur mesure pour Backblaze. Chaque disque dispose d’un lien propre, les performances sont nettement meilleures. Possibilité d’utiliser des cartes RAID hardware haut de gamme pour des performances maximales. V3: 3 contrôleurs SATA, 9 switch 5 ports V4: HighPoint Rocket 750 HBA Solutions haute densité 9 switch SATA 5 ports 45 liens SATA directs
  35. 35. Backblaze storage POD Design open source: •Réutilisé par des laboratoires, studios d’animation, des passionnés, etc… •Possibilité de personnaliser les plans et faire fabriquer le boîtier •Variantes disponibles vides ou prêt à recevoir les disques (protocase, www.45drives.com) •Projet dérivé : openstoragepod.org Solutions haute densité
  36. 36. Facebook Opencompute Facebook créé ses propres serveurs et diffuse les plans sous licence opensource. •Plans d’unité de stockage froid •Plans de disques SSD haute performance 3,2To FusionIO http://www.opencompute.org/ Rack de 15 disques durs opencompute.
  37. 37. Etudes sur des populations de disques durs Plusieurs entreprises gérant de grandes population de disques publient des articles concernant la fiabilité. •Backblaze •Google •Microsoft / Université de Virginie
  38. 38. Etudes Backblaze Environ 30000 disques durs grand public Comparaisons des disques: •Révèle de grosses disparités entre fabricants •Et entre différents modèles d’un même fabricant Température: •Entre 20° et 30°C la durée de vie est maximale Informations SMART •Les informations SMART sont de bons indicateurs de l’état du disque et de la probabilité de panne prochaine, mais ils faut les interpréter différemment selon le fabricant. Etudes sur des populations de disques durs
  39. 39. Etude Google 32000 disques gammes pro et grand public Conclusions : •MTBF non fiables : des disques sont testés bons en usine mais dysfonctionnent en situation réelle. •Les disques Grand public sont aussi fiables que les disques des gammes « professionnelles » (SAS) •Les pic de pannes se situent dans les premiers mois et après plusieurs années (4 ans) •Les disques qui fonctionnent peu, ou à basse température (<20°) s’usent plus vite. (contesté) http://static.googleusercontent.com/media/research.google.com/fr//archive/disk_failures.pdf Etudes sur des populations de disques durs
  40. 40. Etude Microsoft / University of Virginia •Les disques sont les pièces qui tombent le plus souvent en panne dans les serveurs (71% des pannes). •Corrélation avérée entre la température et le taux de panne. •Pas de corrélation entre le taux d’utilisation et taux de panne. http://www.cs.virginia.edu/~gurumurthi/papers/acmtos13.pdf Etudes sur des populations de disques durs
  41. 41. Architecture et couche logicielle • RAID Hardware ou software ? • Couche logicielle et système de fichier • Compression des données • Systèmes de fichier virtuels
  42. 42. RAID Hardware ou software ? RAID : Redundant Array of Inexpensive Disks RAID 5 : Technologie permettant de sécuriser les données par le calcul et le stockage d’informations complémentaires (parité). Ces informations permettent de reconstruire les données en cas de défaillance d’un disque. Les calculs de parité peuvent être effectués par le CPU (RAID software) ou par un processeur dédié sur la carte contrôleur (RAID Hardware). Bien souvent la carte contrôleur emploie un CPU courant (ARM ou Intel x86). Il s’agit alors d’un logiciel (firmware) qui est exécuté sur ce processeur, les fonctions ne sont pas câblées dans un composant spécifique (FPGA) comme le sous entend le terme « hardware ».
  43. 43. RAID Hardware ou software ? Exemple 1 : serveur de base de donnée avec stockage intégré Le processeur étant très sollicité pour les tâches SQL il est important d’alléger sa charge. L’utilisation de contrôleur RAID est essentielle.
  44. 44. RAID Hardware ou software ? Exemple 2 : serveur de fichier médias sur réseau local Fichiers volumineux, requêtes peu fréquentes, la charge allouée aux tâches de gestion des droits est minime. Le processeur peut prendre en charge le calcul de parité. C’est le cas de la plupart des NAS. Vu de l’extérieur, on peut considérer qu’il s’agit de RAID hardware, le CPU étant dédié à cette tâche.
  45. 45. RAID Hardware ou software ? Exemple 3 : serveur de fichier haute performance (nombreux petits accès, disques SSD) Lorsqu’il s’agit de très nombreuses requêtes vers des petits fichiers à la cadence de disques SSD, les tâches de gestion réseau et droit d’accès nécessitent des ressources CPU importantes. Un circuit physiquement conçu pour le calcul de parité est indispensable (vrai hardware).
  46. 46. Couche logicielle Gérer de gros espace de stockage nécessite des outils adaptés •Gestion du matériel • Monitoring, Alertes, Statistiques • Gestion des stocks de disques / retours garantie • Ajout/suppression de matériel •Gestion des données • Exposer les données (object storage, système de fichier) • Répartition données chaudes / stockage / archivage • Maintien du nombre minimal de copies des données dans le système (à différents endroits) • Sauvegardes C’est le logiciel qui garanti l’intégrité de données, pas le matériel.
  47. 47. Couche logicielle Quelques système de fichiers distribués / plateformes object storage •Lustre •Gluster •HDFS : Hadoop Distributed File System •CEPH …
  48. 48. Bases de données NO-SQL • Les bases de données No SQL ou orientés Objet fonctionnent sur le principe clé/valeurs où la valeur est un objet complexe. • La frontière entre une base No-SQL et un système de stockage d’objet adossé à une base de donnée jouant le rôle d’index est ténue. Elle se situe essentiellement dans la taille des objets. • Selon le type de données à stocker une base clé/valeur peut s’avérer être un bon choix. • Cassandra vs MongoDB vs CouchDB vs Redis vs Riak vsHBase vs Couchbase vs OrientDB vs Aeros pike vs Neo4j vsHypertable vs ElasticSearch vs Accumulo vs VoltDB vsScalaris comparison (lien)
  49. 49. Compression des données • La compression à la volée est présente sur la plupart des produits d’archivage. • Compression passe-partout et donc inefficiente (orienté texte). • Un bon algorithme de compression traite les données brutes et nécessite une bonne connaissance de celles-ci. Un type de données  un algorithme (images  JPEG, son MP3, etc…) • La compression est souvent ignorée pour les données chaudes. Alors qu’elle diminue énormément la charge serveur et augmente modérément la charge client. • Un algorithme de compression binaire simple est plus léger en terme de charge CPU qu’une conversion vers un format texte comme XML.
  50. 50. Compression des données • Les données sont souvent stockées dans des formats textes inefficients (XML, JSON…) alors qu’il serait beaucoup plus efficace de stocker et traiter les données binaires. • La mise en œuvre d’une couche de compression semble impossible car les applications existantes exigent des fichiers texte. • Les systèmes de fichier virtuel comme FUSE permettent de remédier à ce problème.
  51. 51. FUSE • FUSE = File system in User SpacE • Présente les données sous forme d’arborescence de répertoires et fichiers. • Les fichiers sont créés à la volée à partir des données brutes : fichiers binaires, objets stockés, bases de données. • Ils peuvent présenter les mêmes données sous plusieurs formes ou chemins : • population/villes/Toulouse.xml • pays/France/villes/Toulouse/population.json • population/villes/Toulouse.bin • Avantages : • Gain d’espace disque • Unification progressive des systèmes
  52. 52. Choix d’une infrastructure stockage • Contrairement aux autres composants d’un serveur, il y a une forte continuité et compatibilité ascendante des disques durs. SATA3 actuel est compatible avec les contrôleurs SATA qui ont 12 ans  possibilité de recycler les vieux serveurs en changeant leurs disques. • La capacité des disques augmente constamment  Ne pas acheter plus d’une année d’avance • Privilégier les technologies ouvertes permettant de faire jouer la concurrence à chaque évolution • Il vaut mieux avoir beaucoup de petits serveurs que quelques gros (Commodity computing : Amazon, OVH, Google, Facebook…) • Il faut prendre en compte la nature des données à stocker • Compression • Disponibilité (données chaudes/ archivage)

×