SlideShare une entreprise Scribd logo
1  sur  2
Télécharger pour lire hors ligne
DOSSIER DÉDUPLICATION




L'heure de faire le point sur
la déduplication
La déduplication est en vogue, comme en témoigne la récente bataille pour le rachat de Data Domain.
Sur le marché, les solutions se multiplient qui promettent de réduire les volumes de stockage. Une
bonne raison de faire le point sur cette technologie et les approches des fabricants. Sébastien Chêne


La déduplication est l’art et la manière d’éli-
miner les doublons dans un système de fi-
chiers. L’objectif de la déduplication est de
diminuer drastiquement l’espace disque
utilisé pour stocker la même quantité d’in-
formation.
    Historiquement, la technologie de dédu-
plication, dans son sens d’élimination des
doublons, a été utilisée par différents acteurs
du marché depuis plusieurs années. Une des
variantes est appelée «Single Instance Store»
dans laquelle la déduplication est appliquée
à une granularité de fichiers. Microsoft a éga-
lement intégré cette technologie aux attache-
ments des mails d’un serveur de messagerie.        Principe de fonctionnement de la déduplication.


Tronçons et index
Au sens actuel, la déduplication agit non plus    des séquences (la plus élevée possible) et          (par exemple), soit aléatoire – sa taille diffé-
sur une granularité de fichiers mais sur une      la taille (la plus réduite possible) de l'index     rant selon les séquences de bits identifiées
granularité de blocks disque. Chaque fichier      des signatures. Plus les tronçons sont pe-          par l'algorithme de déduplication. Ces hashs
est découpé en une multitude de tronçons,         tits, plus la factorisation et donc l'économie      sont ensuite comparés à ceux déjà stockés
à chacun desquels est associé un identifiant      d'espace de stockage sont importantes. En           dans l'index. Lorsqu'un hash est présent,
unique. Ces identifiants sont stockés dans        revanche, les signatures générées étant plus        c'est que le segment de données qui lui est
des tables d’index. L'objectif de la dédupli-     nombreuses, elles alourdissent l'index. Pour        associé est déjà stocké. Si aucune correspon-
cation est de ne stocker qu'une seule fois        des questions de performance, ce dernier            dance n'est trouvée, le nouveau segment est
chaque tronçon unique. Aussi, une nouvelle        doit être stocké dans le cache du serveur de        stocké et l'index mis à jour.
occurrence d'un tronçon déjà existant dans        déduplication.
les tables est remplacée par un pointeur vers          Les techniques utilisées par la majorité       Mythe et réalité
le tronçon identique déjà écrit sur disque.       des solutions du marché sont les méthodes           On tire le plus grand avantage de la dédu-
Selon l’implémentation utilisée, les tronçons     de hashing issues de la cryptographie, basées       plication dans une implémentation de sau-
ainsi écrits sur disque sont aussi compressés     sur l'algorithme MD5 ou SHA-1, qui garan-           vegarde sur disque. On observe alors une
pour gagner encore plus d’espace.                 tissent l'unicité du segment de donnée ana-         diminution drastique du stockage utilisé
    Le principal enjeu est de trouver le          lysé. Selon les technologies, le découpage est      pour stocker des semaines, voire des mois
meilleur équilibre entre la factorisation         soit déterministe, par segments de 8Ko fixes        de sauvegardes sur un support disque. En

 Produits                      Fournisseurs                Type de déduplication          Implémentation                Processus
 HyperStream                   Atempo                      A la source                    Software                      NA
 Sympana                       CommVault                   A la cible                     Software                      NA
 EDL                                                       A la cible                     VTL                           Back-end
 Data Domain                   EMC                         A la cible                     File Share / VTL              À la source
 Avamar                                                    A la source                    Software                      NA
 VTL / FDS                     Falconstor                  A la cible                     File Share / VTL              In-Line
 VLS et D2D                    HP                          A la cible                     VTL                           Back-end
 ProtecTier                    IBM                         A la cible                     File Share / VTL              In-Line
 V-Series                      NetApp                      A la cible                     VTL                           Back-end
 NetBackup Puredisk            Symantec                    A la source                    Software                      NA
 Les principaux acteurs du marché et leurs différences



                                                                                                                    octobre 2009 © netzmedien ag   34
effet, entre deux sauvegardes totales hebdo-       souhaitée on utilise un ou plusieurs liens gi-    En back-end ou à la volée
madaires d’un même serveur, seuls 2 % à 8 %        gabit ou dix gigabits Ethernet. Pour la plupart   Certaines appliances de déduplication (Pro-
des fichiers sont modifiés par les utilisateurs.   des logiciels de sauvegarde cette option est      tecTier ou Data Domain, par exemple) s'in-
Sur plusieurs semaines de rétention des sau-       peu coûteuse mais elle nécessite une modifi-      sèrent sur le flux des données de sauvegarde
vegardes sur disque, on obtient un taux de         cation des opérations de sauvegarde.              et procèdent à une déduplication «à la volée».
déduplication exponentiel.                             OST (Open STorage), un mode de                La performance de la solution est alors étroite-
    Il faut cependant mettre un bémol aux          connectivité alternatif est proposé depuis        ment liée aux processeurs de l’appliance ainsi
taux de déduplication impressionnants de           peu par Symantec NetBackup. Cette connec-         qu’aux algorithmes de déduplication utilisés.
20:1 à 60:1 mis en avant par les fabricants.       tivité permet de considérer l’ensemble des        Les performances sans cesse croissantes des
Expérience faite, pour une utilisation en          appliances de déduplication comme un es-          processeurs permettent d’obtenir une puis-
sauvegarde sur disque, on mesure un taux           pace unique, quelle que soit leur localisation    sance de traitement inégalée pour ce type
de déduplication global compris entre 8:1 et       géographique. Ainsi une sauvegarde locale et      d’implémentation. Quant à l’algorithme, le
12:1 – ce qui n’en représente pas moins une        sa réplication sont instanciées deux fois dans    principal enjeu est de trouver le meilleur équi-
réduction significative du besoin en disques       Symantec Netbackup, qui prend en compte           libre entre la factorisation des séquences et la
physiques. Ces chiffres ont été mesurés en         la réplication de l’information entre deux ap-    taille de l'index stocké en cache. Le mode de
production pour une rétention de cinq se-          pliances de déduplication. La connectivité        déduplication «à la volée» doit être privilégié
maines sur disque déduplifié, à raison d’une       réseau utilisée dans le mode OST consiste en      pour les solutions de stockage near-line, sauve-
sauvegarde totale et de cinq sauvegardes           un ou plusieurs liens gigabit Ethernet, ou en-    garde sur disque ou stockage d’archives, avec
incrémentielles par semaine. La nature des         core en un lien dix gigabits Ethernet.            peu d’accès concurrents en lecture/écriture.
données (documents bureautiques, CAO,                                                                     D'autres appliances de déduplication
bases de données, VM, …) et la stratégie de        A la source ou à la destination                   (HP D2D et NetApp V-serie, par exemple)
sauvegarde appliquée font varier sensible-         L’implémentation «à la source» est apportée       proposent une déduplication «en back-end»,
ment le gain apporté par la déduplication          principalement par les éditeurs de logiciels      en horaires décalés. Pour le mode de dédu-
dans une solution de sauvegarde sur disque.        de sauvegarde (Atempo HyperStream ou              plication «à la volée», les performances d’ac-
    La plupart des appliances de déduplica-        EMC Avamar, par exemple). L’algorithme de         cès disque sont secondaires car peu d’infor-
tion proposent également une réplication           déduplication est implémenté au niveau du         mations sont finalement écrites après le pro-
des données déduplifiées entre appliances          client de sauvegarde. Les données sont en-        cessus de déduplication. En revanche, pour
par le réseau Ethernet. Cette fonctionnalité       suite envoyées à un serveur de déduplication      le mode de déduplication «en back-end», les
permet dans certains cas de s’affranchir des       qui, dans cette architecture, se substitue au     performances IO des disques sont primordia-
fastidieuses opérations de duplication de          serveur de sauvegarde. L’avantage de cette        les. Les données sont lues sur disque puis dé-
sauvegardes journalières à des fins d’exter-       technologie, outre l’optimisation du stoc-        duplifiées et réécrites sur disque de manière
nalisation. Le faible taux de modification des     kage, est de limiter la bande passante uti-       optimisée. Les appliances qui proposent le
données écrites permet la synchronisation          lisée pour les sauvegardes entre le client et     mode de déduplication «en back-end» doi-
d’un volume conséquent par une faible ban-         le serveur et donc de diminuer la fenêtre de      vent être privilégiées pour une utilisation en
de passante réseau. Sans déduplication, une        sauvegarde. L’inconvénient majeur de cette        production comme NAS (Network Attached
telle solution n’est envisageable que dans         technologie réside dans son implémentation        Storage) où les demandes concurrentes de
certains cas et avec des coûts de connectivité     qui requiert une mise à jour voire un chan-       lecture et écriture sont nécessaires (EMC Ce-
réseau conséquents.                                gement du logiciel de sauvegarde, et génère       lerra ou NetApp N-Serie par exemple).
                                                   donc un surcoût pour la formation des équi-
Connectivité des appliances de                     pes et la modification des procédures d’ex-       Comment intégrer la déduplication
sauvegarde                                         ploitation.                                       dans un environnement existant?
Le premier mode de connectivité qui a été              L’implémentation «à la destination»           Pour bénéficier pleinement de la technolo-
utilisé est le mode VTL (Virtual Tape Li-          consiste en une appliance spécialisée, qui        gie de déduplication, il convient d’analyser
brary). Dans ce cas, la connectivité requise       doit ses origines aux fournisseurs de stocka-     les stratégies de sauvegarde, la nature et la
entre le serveur de sauvegarde et l’appliance      ge et à quelques startups s’étant spécialisées    redondance des données existantes. Le choix
est une connectivité en mode block, dans la        dans les COS (Capacity Optimized Storage).        des technologies et méthodes de déduplica-
plupart des cas Fibre Channel. Le serveur de       Dans ce cas, l’appliance est positionnée en       tion dépendra alors des résultats obtenus et
sauvegarde voit une robotique et des lecteurs      bout de la chaîne, derrière le serveur de sau-    des besoins opérationnels. On pourra alors
de bande émulés, à l’identique d’une roboti-       vegarde, et procède à une déduplication «à        déterminer une modification de l’architectu-
que physique. Certaines appliances n’offrent       la destination». Cette approche permet une        re, en mesurer l’impact opérationnel et éva-
que le mode VTL et d’autres le proposent en        intégration à l’environnement de sauvegarde       luer le gain apporté par la déduplication.
option payante et souvent coûteuse comme           existant sans mise à jour ou changement de
pour le logiciel de sauvegarde.                    logiciel ni modification importante des pro-                                   Sébastien
    Le mode de connectivité le plus commun         cédures d’exploitation de l’entreprise. Cette                                  Chêne est
consiste en un point de montage réseau,            mise en œuvre peut être également facilitée                                    architecte en
CIFS ou NFS, depuis l’appliance de dédupli-        par une implémentation de l’appliance de                                       solutions de
cation. Le serveur de sauvegarde y dépose          déduplication sous la forme d’une VTL (Vir-                                    centre de calcul
alors sa propre librairie virtuelle (NetBackup     tual Tape Library), qui viendra remplacer la                                   chez Stinco
Disk Storage Unit ou Atempo Time Naviga-           robotique existante sans aucun impact sur
tor VLS, par exemple). Selon la performance        les procédures d’exploitation existantes.

                                                                                                                   octobre 2009 © netzmedien ag      35

Contenu connexe

Tendances

[Café Techno] Les concepts de base de TSM 7.1.1 - 11/2014
[Café Techno] Les concepts de base de TSM 7.1.1 - 11/2014[Café Techno] Les concepts de base de TSM 7.1.1 - 11/2014
[Café Techno] Les concepts de base de TSM 7.1.1 - 11/2014Groupe D.FI
 
Cross-client brochure
Cross-client brochureCross-client brochure
Cross-client brochureChristian Hym
 
Article open-silicium-juin-juillet-aout-2013
Article open-silicium-juin-juillet-aout-2013Article open-silicium-juin-juillet-aout-2013
Article open-silicium-juin-juillet-aout-2013O10ée
 
11h35 in2 p3_dominique_boutigny
11h35 in2 p3_dominique_boutigny11h35 in2 p3_dominique_boutigny
11h35 in2 p3_dominique_boutignystephanfrancois
 
Découvrez les solutions de virtualisation de Stockage DataCore et sa platefor...
Découvrez les solutions de virtualisation de Stockage DataCore et sa platefor...Découvrez les solutions de virtualisation de Stockage DataCore et sa platefor...
Découvrez les solutions de virtualisation de Stockage DataCore et sa platefor...ljaquet
 
[Case Study] Optimisation du système de sauvegarde informatique
[Case Study] Optimisation du système de sauvegarde informatique[Case Study] Optimisation du système de sauvegarde informatique
[Case Study] Optimisation du système de sauvegarde informatiqueGroupe D.FI
 

Tendances (6)

[Café Techno] Les concepts de base de TSM 7.1.1 - 11/2014
[Café Techno] Les concepts de base de TSM 7.1.1 - 11/2014[Café Techno] Les concepts de base de TSM 7.1.1 - 11/2014
[Café Techno] Les concepts de base de TSM 7.1.1 - 11/2014
 
Cross-client brochure
Cross-client brochureCross-client brochure
Cross-client brochure
 
Article open-silicium-juin-juillet-aout-2013
Article open-silicium-juin-juillet-aout-2013Article open-silicium-juin-juillet-aout-2013
Article open-silicium-juin-juillet-aout-2013
 
11h35 in2 p3_dominique_boutigny
11h35 in2 p3_dominique_boutigny11h35 in2 p3_dominique_boutigny
11h35 in2 p3_dominique_boutigny
 
Découvrez les solutions de virtualisation de Stockage DataCore et sa platefor...
Découvrez les solutions de virtualisation de Stockage DataCore et sa platefor...Découvrez les solutions de virtualisation de Stockage DataCore et sa platefor...
Découvrez les solutions de virtualisation de Stockage DataCore et sa platefor...
 
[Case Study] Optimisation du système de sauvegarde informatique
[Case Study] Optimisation du système de sauvegarde informatique[Case Study] Optimisation du système de sauvegarde informatique
[Case Study] Optimisation du système de sauvegarde informatique
 

En vedette

HIF Paris 2014 - STORDATA - Success Story : Le stockage unifié associé à la v...
HIF Paris 2014 - STORDATA - Success Story : Le stockage unifié associé à la v...HIF Paris 2014 - STORDATA - Success Story : Le stockage unifié associé à la v...
HIF Paris 2014 - STORDATA - Success Story : Le stockage unifié associé à la v...Hitachi Data Systems France
 
IT FUTURE 2011 - Présentation de Net app
IT FUTURE 2011 - Présentation de Net appIT FUTURE 2011 - Présentation de Net app
IT FUTURE 2011 - Présentation de Net appFujitsu France
 
Computerland c cloud-2013oct17
Computerland c cloud-2013oct17Computerland c cloud-2013oct17
Computerland c cloud-2013oct17Patricia NENZI
 
[Paroles de DSI] NetApp - Comment conjuguer croissance et gestion de données ...
[Paroles de DSI] NetApp - Comment conjuguer croissance et gestion de données ...[Paroles de DSI] NetApp - Comment conjuguer croissance et gestion de données ...
[Paroles de DSI] NetApp - Comment conjuguer croissance et gestion de données ...Groupe D.FI
 
Cloud Computing haute disponibilité multi-datacenters
Cloud Computing haute disponibilité multi-datacentersCloud Computing haute disponibilité multi-datacenters
Cloud Computing haute disponibilité multi-datacentersMicrosoft Technet France
 
CloudMaker : Comment ça marche
CloudMaker : Comment ça marcheCloudMaker : Comment ça marche
CloudMaker : Comment ça marcheAgarik
 
Feuille de Route pour StratusLab
Feuille de Route pour StratusLabFeuille de Route pour StratusLab
Feuille de Route pour StratusLabstratuslab
 
PRESENTATION FR ABISSA 2014 version RFE PMO PJO MFA
PRESENTATION FR ABISSA 2014 version RFE PMO PJO MFAPRESENTATION FR ABISSA 2014 version RFE PMO PJO MFA
PRESENTATION FR ABISSA 2014 version RFE PMO PJO MFAMuriel Favarger Ripert
 

En vedette (8)

HIF Paris 2014 - STORDATA - Success Story : Le stockage unifié associé à la v...
HIF Paris 2014 - STORDATA - Success Story : Le stockage unifié associé à la v...HIF Paris 2014 - STORDATA - Success Story : Le stockage unifié associé à la v...
HIF Paris 2014 - STORDATA - Success Story : Le stockage unifié associé à la v...
 
IT FUTURE 2011 - Présentation de Net app
IT FUTURE 2011 - Présentation de Net appIT FUTURE 2011 - Présentation de Net app
IT FUTURE 2011 - Présentation de Net app
 
Computerland c cloud-2013oct17
Computerland c cloud-2013oct17Computerland c cloud-2013oct17
Computerland c cloud-2013oct17
 
[Paroles de DSI] NetApp - Comment conjuguer croissance et gestion de données ...
[Paroles de DSI] NetApp - Comment conjuguer croissance et gestion de données ...[Paroles de DSI] NetApp - Comment conjuguer croissance et gestion de données ...
[Paroles de DSI] NetApp - Comment conjuguer croissance et gestion de données ...
 
Cloud Computing haute disponibilité multi-datacenters
Cloud Computing haute disponibilité multi-datacentersCloud Computing haute disponibilité multi-datacenters
Cloud Computing haute disponibilité multi-datacenters
 
CloudMaker : Comment ça marche
CloudMaker : Comment ça marcheCloudMaker : Comment ça marche
CloudMaker : Comment ça marche
 
Feuille de Route pour StratusLab
Feuille de Route pour StratusLabFeuille de Route pour StratusLab
Feuille de Route pour StratusLab
 
PRESENTATION FR ABISSA 2014 version RFE PMO PJO MFA
PRESENTATION FR ABISSA 2014 version RFE PMO PJO MFAPRESENTATION FR ABISSA 2014 version RFE PMO PJO MFA
PRESENTATION FR ABISSA 2014 version RFE PMO PJO MFA
 

Similaire à ICT Journal - Dossier déduplication

Big Data ou comment retrouver une aiguille dans une botte de foin
Big Data ou comment retrouver une aiguille dans une botte de foinBig Data ou comment retrouver une aiguille dans une botte de foin
Big Data ou comment retrouver une aiguille dans une botte de foinPALO IT
 
NetApp PartnersTour 2011 à Lille, mon point de vue
NetApp PartnersTour 2011 à Lille, mon point de vueNetApp PartnersTour 2011 à Lille, mon point de vue
NetApp PartnersTour 2011 à Lille, mon point de vueOlivier (DaffyDuke) Duquesne
 
Plate-forme Hitachi NAS : description et fonctionnel
Plate-forme Hitachi NAS : description et fonctionnelPlate-forme Hitachi NAS : description et fonctionnel
Plate-forme Hitachi NAS : description et fonctionnelBertrand LE QUELLEC
 
OSA02 - Pas de transactionnel haute performance sans un couple machine logici...
OSA02 - Pas de transactionnel haute performance sans un couple machine logici...OSA02 - Pas de transactionnel haute performance sans un couple machine logici...
OSA02 - Pas de transactionnel haute performance sans un couple machine logici...Nicolas Desachy
 
Acronis VM protect
Acronis VM protectAcronis VM protect
Acronis VM protectPROJECT SI
 
Quelles architectures matérielles pour Hadoop ?
Quelles architectures matérielles pour Hadoop ?Quelles architectures matérielles pour Hadoop ?
Quelles architectures matérielles pour Hadoop ?Modern Data Stack France
 
Presentaion fpga µc µp quelles est la solution
Presentaion  fpga µc µp quelles est la solutionPresentaion  fpga µc µp quelles est la solution
Presentaion fpga µc µp quelles est la solutionCynapsys It Hotspot
 
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?Big Data : SQL, NoSQL ? Pourquoi faire un choix ?
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?Microsoft Décideurs IT
 
Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...
Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...
Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...OCTO Technology
 
IBM FlashSystem : Les bonnes raisons de passer au Flash
IBM FlashSystem : Les bonnes raisons de passer au Flash IBM FlashSystem : Les bonnes raisons de passer au Flash
IBM FlashSystem : Les bonnes raisons de passer au Flash Solutions IT et Business
 
10 bonnes raisons de choisir Tsuga
10 bonnes raisons de choisir Tsuga10 bonnes raisons de choisir Tsuga
10 bonnes raisons de choisir TsugaTsuga
 
Introduction aux techniques de déduplication
Introduction aux techniques de déduplicationIntroduction aux techniques de déduplication
Introduction aux techniques de déduplicationwebreaker
 
ch2-hadoop-L3-2023-4p (1).pdf
ch2-hadoop-L3-2023-4p (1).pdfch2-hadoop-L3-2023-4p (1).pdf
ch2-hadoop-L3-2023-4p (1).pdfsalmanakbi
 
[Café techno] Nouveautés Spectrum Protect 7.1.7 & les offres BaaS de D.FI - ...
[Café techno] Nouveautés Spectrum Protect 7.1.7 & les offres BaaS de D.FI  - ...[Café techno] Nouveautés Spectrum Protect 7.1.7 & les offres BaaS de D.FI  - ...
[Café techno] Nouveautés Spectrum Protect 7.1.7 & les offres BaaS de D.FI - ...Groupe D.FI
 
Présentation king sbc solution janvier 2014 nutanix v1.1
Présentation king sbc solution janvier 2014 nutanix v1.1Présentation king sbc solution janvier 2014 nutanix v1.1
Présentation king sbc solution janvier 2014 nutanix v1.1KING SBC
 

Similaire à ICT Journal - Dossier déduplication (20)

Big Data ou comment retrouver une aiguille dans une botte de foin
Big Data ou comment retrouver une aiguille dans une botte de foinBig Data ou comment retrouver une aiguille dans une botte de foin
Big Data ou comment retrouver une aiguille dans une botte de foin
 
NetApp PartnersTour 2011 à Lille, mon point de vue
NetApp PartnersTour 2011 à Lille, mon point de vueNetApp PartnersTour 2011 à Lille, mon point de vue
NetApp PartnersTour 2011 à Lille, mon point de vue
 
Réduire le coût du stockage
Réduire le coût du stockageRéduire le coût du stockage
Réduire le coût du stockage
 
Plate-forme Hitachi NAS : description et fonctionnel
Plate-forme Hitachi NAS : description et fonctionnelPlate-forme Hitachi NAS : description et fonctionnel
Plate-forme Hitachi NAS : description et fonctionnel
 
OSA02 - Pas de transactionnel haute performance sans un couple machine logici...
OSA02 - Pas de transactionnel haute performance sans un couple machine logici...OSA02 - Pas de transactionnel haute performance sans un couple machine logici...
OSA02 - Pas de transactionnel haute performance sans un couple machine logici...
 
Acronis VM protect
Acronis VM protectAcronis VM protect
Acronis VM protect
 
Quelles architectures matérielles pour Hadoop ?
Quelles architectures matérielles pour Hadoop ?Quelles architectures matérielles pour Hadoop ?
Quelles architectures matérielles pour Hadoop ?
 
Presentaion fpga µc µp quelles est la solution
Presentaion  fpga µc µp quelles est la solutionPresentaion  fpga µc µp quelles est la solution
Presentaion fpga µc µp quelles est la solution
 
Wygday 2008
Wygday 2008Wygday 2008
Wygday 2008
 
Exchange 2013 Bonnes pratiques
Exchange 2013 Bonnes pratiques Exchange 2013 Bonnes pratiques
Exchange 2013 Bonnes pratiques
 
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?Big Data : SQL, NoSQL ? Pourquoi faire un choix ?
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?
 
ISDay 2017 - Atelier HPE
ISDay 2017 - Atelier HPEISDay 2017 - Atelier HPE
ISDay 2017 - Atelier HPE
 
Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...
Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...
Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...
 
IBM FlashSystem : Les bonnes raisons de passer au Flash
IBM FlashSystem : Les bonnes raisons de passer au Flash IBM FlashSystem : Les bonnes raisons de passer au Flash
IBM FlashSystem : Les bonnes raisons de passer au Flash
 
10 bonnes raisons de choisir Tsuga
10 bonnes raisons de choisir Tsuga10 bonnes raisons de choisir Tsuga
10 bonnes raisons de choisir Tsuga
 
Introduction aux techniques de déduplication
Introduction aux techniques de déduplicationIntroduction aux techniques de déduplication
Introduction aux techniques de déduplication
 
ch2-hadoop-L3-2023-4p (1).pdf
ch2-hadoop-L3-2023-4p (1).pdfch2-hadoop-L3-2023-4p (1).pdf
ch2-hadoop-L3-2023-4p (1).pdf
 
Exchange Stockage : Mythes et Réalités
Exchange Stockage : Mythes et RéalitésExchange Stockage : Mythes et Réalités
Exchange Stockage : Mythes et Réalités
 
[Café techno] Nouveautés Spectrum Protect 7.1.7 & les offres BaaS de D.FI - ...
[Café techno] Nouveautés Spectrum Protect 7.1.7 & les offres BaaS de D.FI  - ...[Café techno] Nouveautés Spectrum Protect 7.1.7 & les offres BaaS de D.FI  - ...
[Café techno] Nouveautés Spectrum Protect 7.1.7 & les offres BaaS de D.FI - ...
 
Présentation king sbc solution janvier 2014 nutanix v1.1
Présentation king sbc solution janvier 2014 nutanix v1.1Présentation king sbc solution janvier 2014 nutanix v1.1
Présentation king sbc solution janvier 2014 nutanix v1.1
 

ICT Journal - Dossier déduplication

  • 1. DOSSIER DÉDUPLICATION L'heure de faire le point sur la déduplication La déduplication est en vogue, comme en témoigne la récente bataille pour le rachat de Data Domain. Sur le marché, les solutions se multiplient qui promettent de réduire les volumes de stockage. Une bonne raison de faire le point sur cette technologie et les approches des fabricants. Sébastien Chêne La déduplication est l’art et la manière d’éli- miner les doublons dans un système de fi- chiers. L’objectif de la déduplication est de diminuer drastiquement l’espace disque utilisé pour stocker la même quantité d’in- formation. Historiquement, la technologie de dédu- plication, dans son sens d’élimination des doublons, a été utilisée par différents acteurs du marché depuis plusieurs années. Une des variantes est appelée «Single Instance Store» dans laquelle la déduplication est appliquée à une granularité de fichiers. Microsoft a éga- lement intégré cette technologie aux attache- ments des mails d’un serveur de messagerie. Principe de fonctionnement de la déduplication. Tronçons et index Au sens actuel, la déduplication agit non plus des séquences (la plus élevée possible) et (par exemple), soit aléatoire – sa taille diffé- sur une granularité de fichiers mais sur une la taille (la plus réduite possible) de l'index rant selon les séquences de bits identifiées granularité de blocks disque. Chaque fichier des signatures. Plus les tronçons sont pe- par l'algorithme de déduplication. Ces hashs est découpé en une multitude de tronçons, tits, plus la factorisation et donc l'économie sont ensuite comparés à ceux déjà stockés à chacun desquels est associé un identifiant d'espace de stockage sont importantes. En dans l'index. Lorsqu'un hash est présent, unique. Ces identifiants sont stockés dans revanche, les signatures générées étant plus c'est que le segment de données qui lui est des tables d’index. L'objectif de la dédupli- nombreuses, elles alourdissent l'index. Pour associé est déjà stocké. Si aucune correspon- cation est de ne stocker qu'une seule fois des questions de performance, ce dernier dance n'est trouvée, le nouveau segment est chaque tronçon unique. Aussi, une nouvelle doit être stocké dans le cache du serveur de stocké et l'index mis à jour. occurrence d'un tronçon déjà existant dans déduplication. les tables est remplacée par un pointeur vers Les techniques utilisées par la majorité Mythe et réalité le tronçon identique déjà écrit sur disque. des solutions du marché sont les méthodes On tire le plus grand avantage de la dédu- Selon l’implémentation utilisée, les tronçons de hashing issues de la cryptographie, basées plication dans une implémentation de sau- ainsi écrits sur disque sont aussi compressés sur l'algorithme MD5 ou SHA-1, qui garan- vegarde sur disque. On observe alors une pour gagner encore plus d’espace. tissent l'unicité du segment de donnée ana- diminution drastique du stockage utilisé Le principal enjeu est de trouver le lysé. Selon les technologies, le découpage est pour stocker des semaines, voire des mois meilleur équilibre entre la factorisation soit déterministe, par segments de 8Ko fixes de sauvegardes sur un support disque. En Produits Fournisseurs Type de déduplication Implémentation Processus HyperStream Atempo A la source Software NA Sympana CommVault A la cible Software NA EDL A la cible VTL Back-end Data Domain EMC A la cible File Share / VTL À la source Avamar A la source Software NA VTL / FDS Falconstor A la cible File Share / VTL In-Line VLS et D2D HP A la cible VTL Back-end ProtecTier IBM A la cible File Share / VTL In-Line V-Series NetApp A la cible VTL Back-end NetBackup Puredisk Symantec A la source Software NA Les principaux acteurs du marché et leurs différences octobre 2009 © netzmedien ag 34
  • 2. effet, entre deux sauvegardes totales hebdo- souhaitée on utilise un ou plusieurs liens gi- En back-end ou à la volée madaires d’un même serveur, seuls 2 % à 8 % gabit ou dix gigabits Ethernet. Pour la plupart Certaines appliances de déduplication (Pro- des fichiers sont modifiés par les utilisateurs. des logiciels de sauvegarde cette option est tecTier ou Data Domain, par exemple) s'in- Sur plusieurs semaines de rétention des sau- peu coûteuse mais elle nécessite une modifi- sèrent sur le flux des données de sauvegarde vegardes sur disque, on obtient un taux de cation des opérations de sauvegarde. et procèdent à une déduplication «à la volée». déduplication exponentiel. OST (Open STorage), un mode de La performance de la solution est alors étroite- Il faut cependant mettre un bémol aux connectivité alternatif est proposé depuis ment liée aux processeurs de l’appliance ainsi taux de déduplication impressionnants de peu par Symantec NetBackup. Cette connec- qu’aux algorithmes de déduplication utilisés. 20:1 à 60:1 mis en avant par les fabricants. tivité permet de considérer l’ensemble des Les performances sans cesse croissantes des Expérience faite, pour une utilisation en appliances de déduplication comme un es- processeurs permettent d’obtenir une puis- sauvegarde sur disque, on mesure un taux pace unique, quelle que soit leur localisation sance de traitement inégalée pour ce type de déduplication global compris entre 8:1 et géographique. Ainsi une sauvegarde locale et d’implémentation. Quant à l’algorithme, le 12:1 – ce qui n’en représente pas moins une sa réplication sont instanciées deux fois dans principal enjeu est de trouver le meilleur équi- réduction significative du besoin en disques Symantec Netbackup, qui prend en compte libre entre la factorisation des séquences et la physiques. Ces chiffres ont été mesurés en la réplication de l’information entre deux ap- taille de l'index stocké en cache. Le mode de production pour une rétention de cinq se- pliances de déduplication. La connectivité déduplication «à la volée» doit être privilégié maines sur disque déduplifié, à raison d’une réseau utilisée dans le mode OST consiste en pour les solutions de stockage near-line, sauve- sauvegarde totale et de cinq sauvegardes un ou plusieurs liens gigabit Ethernet, ou en- garde sur disque ou stockage d’archives, avec incrémentielles par semaine. La nature des core en un lien dix gigabits Ethernet. peu d’accès concurrents en lecture/écriture. données (documents bureautiques, CAO, D'autres appliances de déduplication bases de données, VM, …) et la stratégie de A la source ou à la destination (HP D2D et NetApp V-serie, par exemple) sauvegarde appliquée font varier sensible- L’implémentation «à la source» est apportée proposent une déduplication «en back-end», ment le gain apporté par la déduplication principalement par les éditeurs de logiciels en horaires décalés. Pour le mode de dédu- dans une solution de sauvegarde sur disque. de sauvegarde (Atempo HyperStream ou plication «à la volée», les performances d’ac- La plupart des appliances de déduplica- EMC Avamar, par exemple). L’algorithme de cès disque sont secondaires car peu d’infor- tion proposent également une réplication déduplication est implémenté au niveau du mations sont finalement écrites après le pro- des données déduplifiées entre appliances client de sauvegarde. Les données sont en- cessus de déduplication. En revanche, pour par le réseau Ethernet. Cette fonctionnalité suite envoyées à un serveur de déduplication le mode de déduplication «en back-end», les permet dans certains cas de s’affranchir des qui, dans cette architecture, se substitue au performances IO des disques sont primordia- fastidieuses opérations de duplication de serveur de sauvegarde. L’avantage de cette les. Les données sont lues sur disque puis dé- sauvegardes journalières à des fins d’exter- technologie, outre l’optimisation du stoc- duplifiées et réécrites sur disque de manière nalisation. Le faible taux de modification des kage, est de limiter la bande passante uti- optimisée. Les appliances qui proposent le données écrites permet la synchronisation lisée pour les sauvegardes entre le client et mode de déduplication «en back-end» doi- d’un volume conséquent par une faible ban- le serveur et donc de diminuer la fenêtre de vent être privilégiées pour une utilisation en de passante réseau. Sans déduplication, une sauvegarde. L’inconvénient majeur de cette production comme NAS (Network Attached telle solution n’est envisageable que dans technologie réside dans son implémentation Storage) où les demandes concurrentes de certains cas et avec des coûts de connectivité qui requiert une mise à jour voire un chan- lecture et écriture sont nécessaires (EMC Ce- réseau conséquents. gement du logiciel de sauvegarde, et génère lerra ou NetApp N-Serie par exemple). donc un surcoût pour la formation des équi- Connectivité des appliances de pes et la modification des procédures d’ex- Comment intégrer la déduplication sauvegarde ploitation. dans un environnement existant? Le premier mode de connectivité qui a été L’implémentation «à la destination» Pour bénéficier pleinement de la technolo- utilisé est le mode VTL (Virtual Tape Li- consiste en une appliance spécialisée, qui gie de déduplication, il convient d’analyser brary). Dans ce cas, la connectivité requise doit ses origines aux fournisseurs de stocka- les stratégies de sauvegarde, la nature et la entre le serveur de sauvegarde et l’appliance ge et à quelques startups s’étant spécialisées redondance des données existantes. Le choix est une connectivité en mode block, dans la dans les COS (Capacity Optimized Storage). des technologies et méthodes de déduplica- plupart des cas Fibre Channel. Le serveur de Dans ce cas, l’appliance est positionnée en tion dépendra alors des résultats obtenus et sauvegarde voit une robotique et des lecteurs bout de la chaîne, derrière le serveur de sau- des besoins opérationnels. On pourra alors de bande émulés, à l’identique d’une roboti- vegarde, et procède à une déduplication «à déterminer une modification de l’architectu- que physique. Certaines appliances n’offrent la destination». Cette approche permet une re, en mesurer l’impact opérationnel et éva- que le mode VTL et d’autres le proposent en intégration à l’environnement de sauvegarde luer le gain apporté par la déduplication. option payante et souvent coûteuse comme existant sans mise à jour ou changement de pour le logiciel de sauvegarde. logiciel ni modification importante des pro- Sébastien Le mode de connectivité le plus commun cédures d’exploitation de l’entreprise. Cette Chêne est consiste en un point de montage réseau, mise en œuvre peut être également facilitée architecte en CIFS ou NFS, depuis l’appliance de dédupli- par une implémentation de l’appliance de solutions de cation. Le serveur de sauvegarde y dépose déduplication sous la forme d’une VTL (Vir- centre de calcul alors sa propre librairie virtuelle (NetBackup tual Tape Library), qui viendra remplacer la chez Stinco Disk Storage Unit ou Atempo Time Naviga- robotique existante sans aucun impact sur tor VLS, par exemple). Selon la performance les procédures d’exploitation existantes. octobre 2009 © netzmedien ag 35