Haute Disponibilité et Tolérance de Panne

Haute disponibilité
Haute disponibilité et Tolérance de
Panne
Date 13 Octobre 2009
Groupe 14
Auteur(s) BOUKHOBZA Elior
Responsable Mr. Alain Stephan
Promo TCOM 2010

Plan
I. Définitions
II. Clustering
III. Load Balancing
IV. Redondance
V. Réplication des données
VI. Conclusion
23/07/2015 2Groupe 14: Boukhobza Elior

Introduction
What is the High Availability?
o A Highly Available material is a material
providing full-time availability even when
failures occurs.
What is the Fault Tolerance?
o The Fault Tolerance is the capacity of a material
to ensure the data availability in case of a failure
occurs. It provides full-time checking and
redundancy devices to perform high availability.

Introduction
Why high availability?
o In a company, the information system requires to be
fully available 100% (or most) of the time.
o If a failure occurs in the system (device crash,
human error…), or in the building (fire, flooding…),
or even in the region (earthquake, war…), the IS
needs to be available and functional otherwise it
would be fatal for the company.
o That’s why having a material fully available is vital
for a company to ensure its business without fear of
failures or disasters in the IS.

DÉFINITIONS

Définitions
Plan
1. Critères DICP
2. Indicateurs de disponibilité
3. Classification en Tiers
23/07/2015 Groupe 14: Boukhobza Elior 6

Définitions
Critères DICP
Critères DICP-R
o On classifie la sécurité d’un système grâce aux « Critères DICP »,
c’est-à-dire:
o D: Disponibilité
 C’est-à-dire que le système doit pouvoir être disponible à toute heure.
o I: Intégrité
 C’est la capacité au système d’assurer que les informations sont exactes.
o C: Confidentialité
 C’est la capacité au système d’assurer que les données ne peuvent être accédées
que par les personnes ayant accès.
o P: Preuve
 La preuve concerne la non répudiation, c’est-à-dire l’impossibilité de nier avoir
effectué telle ou telle action.
o On parle aussi de DICP-R, R pour règlementation. Ce sont les règles
que le système doit respecter.

Définitions
Indicateurs de disponibilité (1/3)
MTTF, MTBF, MTTR, MUT, MDT
o MTTF: Mean Time To Failure (Temps Moyen Avant Panne)
 C’est le temps moyen avant l’apparition d’une panne d’un
composant du système. On souhaite que cet indicateur soit le plus
grand possible.
o MTBF: Mean Time Between Failures (Temps Moyen Inter-
pannes)
 C’est le temps moyen entre deux pannes survenant sur un
composant du système. Plus cet indicateur est grand, plus le
système est considéré comme fiable.
o MTTR: Mean Time To Repair (Temps Moyen de Réparation)
 C’est le temps moyen nécessaire à la réparation d’un composant
survenu lors d’une panne. A l’inverse, on souhaite que cet
indicateur soit le plus petit possible.
o MTBF = MTTF + MTTR.

Définitions
o MDT: Mean Down Time (Temps Moyen
d’indisponibilité)
 C’est le temps moyen d’indisponibilité d’un
composant lors d’une panne quelconque.
o MUT: Mean Up Time (Temps Moyen de
disponibilité)
 C’est le temps moyen de disponibilité du composant
après sa réparation avant qu’il ne retombe en panne.
o MTBF = MUT + MDT
o Disponibilité = MTTF / MTBF

Définitions
Taux de disponibilité Durée d’indisponibilité sur un an
97% 11 jours
98% 7 jours
99% 3 jours et 15 heures
99,9% 8 heures et 48 minutes
99,99% 53 minutes
99,999% 5 minutes
99,9999% 32 secondes
Source: Wikipedia

Définitions
Classification en Tier (1/3)
Classification en Tier:
o Une autre définition de la disponibilité est la
classification en Tier, créé par l’Uptime Institute.
o Permet de classifier les datacenter selon un
niveau de disponibilité entre 99% et 100%.
o Plus le matériel a un niveau de Tier élevé, plus il
est coûteux, mais aura un meilleur taux de
disponibilité.

Définitions
•1 alimentation électrique/refroidissement
•Pas de redondance des composants
•Taux de disponibilité de 99,671%
Tier I:
•1 alimentation électrique/refroidissement
•Redondance des composants
Tier II:
•Redondance électrique/refroidissement mais 1 seul actif
Tier III:
•Redondance électrique/refroidissement, tous actifs
Tier IV:

Définitions
Classification en Tiers de l’Uptime Institute

CLUSTERING

Clustering
Plan
1. Définition
2. Fonctionnalités
3. Types de clusters
4. Architectures en cluster
5. Détection de pannes
6. Outils

Clustering
Définition (1/2)
Cluster = Grappe de serveurs ou Ferme de serveurs.
Le principe d’un cluster est de regrouper plusieurs
serveurs indépendants appelés nœuds en un seul
et même serveur, de façon transparente pour le
client.
Ainsi, si l’un des nœuds du cluster tombe, le service
continue, assurant ainsi la disponibilité des
services.
Les nœuds n’ont pas besoin d’être proches
physiquement. Il suffit qu’ils soient interconnectés
entre eux par un ou plusieurs réseaux (LAN,
WAN…) pour en faire un cluster.

Clustering
Définition (2/2)
Simple architecture en cluster

Clustering
Fonctionnalités
Les fonctionnalités que doit offrir un cluster sont:
o Basculement de service: Lors d’une panne, le service est
transféré sur un nœud fonctionnel: Fail Over Service.
o Détection de pannes: Guetter les pannes pour basculer
le service sans interruption.
Elles sont en général couplées à d’autres
fonctionnalités pour assurer la disponibilité:
o Distribution de charge
o Réplication des données
o Intégrité des données…

Clustering
Types de clusters
On distingue plusieurs types de clusters, selon les
fonctionnalités:
o Clusters de haute disponibilité
o Clusters de calcul
o Clusters d’équilibrage de charge
o Clusters d’applications…
Différentes configurations selon le type de services:
o Actif/Actif
o Actif/Passif
o N+1
o N+M
o N to 1
o N to N

Clustering
Architectures en cluster (1/5)
Configuration « Actif/Passif »:
o Cluster de deux nœuds.
o Le nœud principal (ou nœud maître) exécutant les services.
o Le nœud secondaire (ou nœud esclave), de secours.
o Un ou plusieurs liens dédiés entre les deux nœuds pour le
basculement de service.
Adressage IP:
o Chaque nœud a sa propre adresse IP réelle.
o Au cluster est associée une adresse IP virtuelle (ou alias IP),
qui va pointer sur le nœud actif (NAT).
o Si le nœud actif tombe, l’alias IP pointe sur le nœud de
secours.

Clustering
Cluster et basculement de service

Clustering
Principe:
o Le client entre l’@IP virtuelle 192.168.X.254
o Cette adresse pointe vers le nœud principal A.
o Le nœud A tombe, B détecte que A est tombé.
o Grâce au lien dédié, le service bascule vers B.
o L’adresse IP virtuelle pointe alors sur B.
o Lorsque A est réparé, le service bascule vers A et l’@IP virtuelle
pointe vers A.
o Le client ne détecte aucun changement.

Clustering
Configuration Actif/Actif:
o Les deux nœuds sont actifs et se répartissent la charge.
o Si l’un des nœuds tombe, le service est basculé sur le nœud restant.
o Lorsque le nœud défaillant fonctionne, la charge est à nouveau
répartie entre les deux nœuds.
Configuration N+1:
o Architectures de N nœuds, et un nœud de secours.
o Si l’un des nœuds tombe, le service est basculé sur le nœud de
secours.
o Lorsque le nœud est rétabli, il devient le nœud de secours.
o SPOF si plusieurs nœuds tombent en même temps.
Configuration N+M:
o N nœuds actifs et M nœuds de secours.
o Le nombre de nœuds de secours dépend du degré de disponibilité
requis pour assurer le service.

Clustering
Configuration N to 1:
o A la différence du N+1, lorsque le nœud défaillant
est rétabli, le service bascule vers ce nœud.
o Deux basculements de service.
Configuration N to N:
o Pas de nœuds de secours.
o Si un des nœuds tombe, la charge est redistribuée
sur les N-1 nœuds restants.
o Lorsque le nœud est rétabli, la charge est
redistribuée en conséquence.
o Nécessite des nœuds à plus grande capacité.

Clustering
Détection de pannes
Détection de pannes :
o Requêtes Push:
 Le nœud actif envoie des signaux au nœud passif à intervalles
réguliers.
 Si le nœud passif ne reçoit pas de signaux au bout d’un certain
temps, il détermine qu’il y’a panne et active le basculement de
service.
o Requêtes Pull:
 Le nœud passif envoie des signaux au nœud actif à intervalles
réguliers.
 Si il ne reçoit pas de réponse, il continue d’émettre des signaux
car ca peut provenir d’un problème sur le lien.
 Au bout d’un certain nombre de tentatives, il détermine qu’il y’a
panne et active le basculement de service.
o C’est communément appelé « Heartbeat ».

Clustering
Outils (1/3)
Heartbeat: Outil de surveillance des systèmes.
Outil implémentant la surveillance et le basculement de services à
l’aide de scripts.
Caractéristiques:
o Les services (applications) sont démarrés avec Heartbeat sur le nœud actif.
o Il permet d’arrêter et de démarrer les services manuellement, dans ce cas
les services sont basculés sur le nœud de secours.
o Cet outil permet de détecter les pannes matérielles et réseau et d’exécuter
des scripts de basculement en cas de panne.
o Utilisé avec l’outil « Mon », on peut désormais faire de la surveillance
applicative.
o Heartbeat permet aussi le contrôle d’une application « STONITH » (« Shoot
The Other Node In The Head »), procédé qui consiste à désactiver le nœud
à distance en cas de problème.
Logiciel sous licence GPL, du projet « Linux-HA ».

Clustering
Outils (2/3)
MON: Service Monitory Daemon
C’est un démon de supervision des services.
Il permet de détecter des défaillances applicatives et de les
arrêter/redémarrer manuellement.
Caractéristiques:
o Marche/arrêt de serveurs
o Marche/arrêt de services
o Consultation de l’état des services
o Surveillance des ressources
o Envoi de tests (traps) pour tester l’état d’un service/serveur.
Il est utilisé avec Heartbeat pour faire de la surveillance
applicative.
Sous licence GPL.

Clustering
Outils (3/3)
FailSafe: Outil similaire à Heartbeat, de la
marque SGI.
Permet de supporter jusqu’à des clusters
de 16 nœuds.

LOAD BALANCING

Load Balancing
Plan
1. Définitions
2. Architectures de répartition de charge
3. Algorithmes de répartition de charge
4. Gestion des états de sessions
5. Outils

Load Balancing
Définitions
Load Balancing : Equilibre de charge ou répartition
de charge.
Il consiste à distribuer la charge aux nœuds d’un
cluster.
Un load-balancer est un serveur qui dispose de
différents algorithmes d’équilibrage de charge.
Dans les architectures communes, ce serveur est
redondé pour éviter les SPOF.
Le load-balancing permet d’équilibrer le trafic
réseau et d’assurer la disponibilité des services en
dirigeant les requêtes vers les nœuds actifs.

Load Balancing
Architectures (1/4)
Schéma classique d’une architecture load-balancée :
o Un cluster de services.
o Un cluster de load-balancers: un actif et un passif
o Un lien dédié entre les deux load-balancers pour le basculement de
service.

Load Balancing
Architectures (2/4)
Principe:
o Le client s’adresse au load-balancer actif via
l’@IP virtuelle qui lui est fournie.
o Le load-balancer actif relaye la requête vers le
ou les nœuds du cluster de services.
o Pour la réponse, plusieurs solutions sont
possibles, dépendant de l’architecture.

Load Balancing
Architectures (3/4)
Si le load-balancer agit
comme une passerelle:
o Utilisation du NAT pour
translater l’@IP virtuelle
vers l’@IP réelle du
serveur actif.
o Le serveur actif retourne
la réponse au load-
balancer.
o Le load-balancer renvoie
alors la réponse au client.
o Le cluster de services est
inaccessible directement.

Load Balancing
Architectures (4/4)
Si le load-balancer est
sur le même cluster
que les serveurs:
o Le load-balancer s’occupe
toujours de relayer vers
le serveur actif.
o Mais la réponse est
renvoyée directement au
client.
o Inconvénient: Le cluster
de services n’est plus
privé.

Load Balancing
Algorithmes de répartition (1/2)
Round-Robin:
o Distribution de la charge équitablement à chaque serveur.
o Avantages :
 Très simple à mettre en place et très rapide.
o Inconvénients :
 Ne tient pas compte de facteurs extérieurs tels que le nombre de connexions ou le
temps de réponse.
 Un serveur surchargé continuera de recevoir des requêtes pendant que d’autres
serveurs n’utiliseront que peu de leurs ressources.
Weighted Round-Robin:
o Chaque serveur est assigné d’un « poids » qui détermine le taux de
sollicitation du serveur.
o Avantages:
 Aussi rapide que Round-Robin
 Tient compte des facteurs extérieurs.
o Inconvénients:
 Peu intéressant pour des serveurs de même type.

Load Balancing
Algorithmes de répartition (2/2)
Least Connection:
o Envoie les requêtes au serveur gérant le moins de connexions
entrantes.
o Avantages:
 Les requêtes sont équitablement réparties
o Inconvénients:
 Ne tient pas compte des capacités de la machine
Weighted Least Connection
o La variante pondérée de Least Connection
Load Based:
o Envoie les requêtes aux serveurs ayant la charge la plus faible.
o Avantages:
 Meilleure répartition de la charge
o Inconvénients
 Ne tient pas compte des capacités de la machine

Load Balancing
Gestion des sessions (1/4)
Contexte:
o Dans certaines applications, une session peut se
dérouler en plusieurs étapes, qu’on appelle « états de
session ».
o Chaque étape ne s’active que lorsque l’étape précédente
est validée.
o Par exemple, un achat sur Internet se fait en 3 étapes: le
choix de l’article, le remplissage des informations
utilisateur et le remplissage des coordonnées bancaires.
o Les applications situées dans les serveurs distants
doivent pouvoir suivre le changement d’état de session
pour assurer la continuité.

Load Balancing
Plusieurs solutions pour gérer les états des sessions:
o L’état est stocké chez le client.
o L’état est stocké sur le serveur distant.
o L’état est stocké sur un serveur intermédiaire.
Si l’état est stocké chez le client:
o Le client envoie les requêtes de chaque état avec les informations
de la session.
o Le ou les serveurs traitent ces requêtes unitairement.
Si l’état est stocké sur le serveur distant:
o le load-balancer redirige toutes les requêtes propres à la session
sur le serveur en question.
o Problème: Si le serveur en question tombe au cours de la session, le
client perd toutes les informations relatives aux états précédents.
Solution: Une gestion habile des sessions.

Load Balancing
2 solutions:
o Gestion centralisée.
o Gestion asynchrone.
Gestion centralisée:
o Les états sont stockés sur un serveur à un niveau différent des
serveurs d’application.
o Lors de la réception d’une requête, le serveur d’application
récupère l’état de session du serveur d’états.
Gestion asynchrone:
o Chaque serveur diffuse aux autres serveurs l’état de la session
lorsque celui-ci change.
o Chacun d’eux peut donc traiter une requête propre à un état de
session. Si l’un d’eux tombe, un autre prendra le relais.
o Plus économique que la gestion centralisée, mais plus complexe à
mettre en place.

Load Balancing
Gestion centralisée Gestion asynchrone

Load Balancing
Outils (1/2)
LVS: Linux Virtual Server
C’est un serveur virtuel agissant comme load balancer sur un cluster.
Supporte 3 types de routage des requêtes:
o Routage par NAT
o Routage par tunneling IP
o Routage direct
Supporte les algorithmes de répartition de charge:
o Round Robin
o Weighted Round Robin
o Least Connection
o Weighted Least connection
o Autres algorithmes (Load Based, etc…)
Sous licence GPL
Quelques interfaces graphiques disponibles: UltraMonkey, Piranha

Load Balancing
Outils (2/2)
LVS par NAT LVS par Tunnel IP

REDONDANCE

Redondance
Plan
1. Concepts
2. Redondance bas niveau
3. Redondance couche liaison
1. STP, RSTP, MST
2. LACP, EtherChannel
4. Redondance couche réseau
1. VRRP, HSRP
2. GLBP
5. Redondance couche applicative

Redondance
Concepts
Procédé qui consiste à multiplier les éléments afin
d’assurer les fonctions en cas de défaillance de
l’élément principal.
Principes clés pour mettre en place de la
redondance dans un système:
o Trouver le moyen pour que les éléments de secours
puissent remplacer automatiquement les éléments
défaillants.
o Dispersion géographique des éléments redondés pour
éviter les SPOF en cas de défaillance sur tout le site.
On trouve de la redondance à tous les niveaux: de la
couche physique à la couche applicative.

Redondance
Redondance bas niveau (1/2)
Redondance bas niveau = redondance au niveau matériel et
câblage.
Techniques de base:
o Redondance des équipements: brancher les serveurs sur plusieurs
switchs, routeurs, etc…
o Redondance des interfaces: Disposer de plusieurs interfaces sur les
équipements.
o Redondance électrique: Brancher les équipements sur des
alimentations électriques distinctes…
o Redondance de la sécurité: Multiplier les éléments de sécurité:
Firewalls, IPS, etc…
Plus le degré de redondance est élevé, plus la disponibilité est
haute, mais c’est plus cher et plus lent…
Il faut donc estimer le degré de disponibilité en fonction du
besoin de l’entreprise.

Redondance
Redondance bas niveau (2/2)
Exemple de matériel hautement disponible: HP BladeSystem P-Class Blade Server.

Redondance liaison
Spanning Tree Protocol (1/3)
STP: Spanning Tree Protocol (802.1D)
C’est un protocole qui permet de modifier la topologie d’un
réseau sans boucle en cas de défaillance d’un lien.
Il permet de détecter et de désactiver les boucles dans un
réseau et fournit une hiérarchie des liens sous forme d’arbre.
Principe:
o Election d’un « root bridge », c’est-à-dire le lien (port) ayant l’id le
plus petit et la priorité la plus faible.
o Détermination du plus court chemin entre deux nœuds du réseau
pour déterminer quel lien utiliser.
o Désactivation des liens non utilisés.
o En cas de défaillance d’un lien, le processus est relancé et une
nouvelle topologie est créée.
o Le temps de convergence est d’environ 40s, ce qui est très lent.

Redondance liaison
Le Protocole STP

Redondance liaison
Evolutions de STP:
o RSTP (Rapid STP, 802.1w) version plus rapide
de STP (1 s en moyenne)
o PVSTP (Per VLAN STP) de Cisco, qui consiste à
appliquer STP sur plusieurs VLAN.
o MST (Mutliple STP), la version normée de
PVSTP.
o Autres protocoles de Spanning Tree
propriétaires.

Redondance liaison
LACP, EtherChannel (1/2)
LACP: Link Aggregation Control Protocol (802.3ad)
Protocole permettant d’agréger des liens ou des
ports afin d’améliorer la vitesse de transfert et
d’avoir de la redondance niveau 2.
Une autre version très connue de ce protocole:
Cisco EtherChannel (agrégation de liens Ethernet)
Autres versions du protocole:
o Cisco PAgP (Port Aggregation Protocol)
o Nortel MLT (Multi Link Trunking)
o 3COM DTP (Dynamic Trunking Protocol)
o …

Redondance liaison
LACP, EtherChannel (2/2)
Cisco EtherChannel

Redondance réseau
VRRP, HSRP (1/2)
VRRP: Virtual Router Redundancy Protocol (RFC 3768)
Protocole permettant d’avoir de la redondance au niveau routage.
Principe:
o On met deux ou plusieurs routeurs dans un même groupe VRRP.
o Dans ce groupe, un routeur va être élu comme routeur actif, celui ayant la
plus forte priorité. Les autres seront en standby.
o Le routeur actif sera accessible à partir d’une adresse IP virtuelle.
o Les routeurs s’envoient des messages (hello paquets) à intervalles
réguliers pour vérifier qu’il n’y a pas de panne (heartbeat)
o Si le routeur actif tombe, un nouveau routeur sera élu comme actif et sera
disponible via le même adresse virtuelle.
Protocole standardisé.
Basé sur le protocole HSRP (Hot Standby Router Protocol) de Cisco.
Une version libre de ce protocole: CARP (Common Address
Redundancy Protocol) sous OpenBSD.

Redondance réseau
VRRP, HSRP (2/2)
VRRP - HSRP

Redondance réseau
GLBP
GLBP: Gateway Load Balancing Protocol
Protocole propriétaire Cisco qui ajoute de la
répartition de charge à HSRP.
Principe:
o En plus d’affecter une priorité aux routeurs du
groupe, on affecte aussi un poids.
o Election d’une AVG (Active Virtual Gateway) qui est
le routeur actif du groupe.
o La charge est alors répartie en Round Robin ou
Weighted Round Robin.

Redondance
Redondance applicative (1/3)
Redonder les éléments
actifs: Serveur web, base de
données, ERP…
Répartir efficacement la
charge.
Assurer la synchronisation
des données entre les
éléments actifs et passifs.
Gérer efficacement les états
de session.
Exemple:
o Serveur web LAMP redondé
et load balancé.
o Base de données MySQL
redondée et synchronisée.

Redondance
Teaming: Permet de regrouper plusieurs interfaces
réseau en une seule vue par le système.
Redondance au niveau de l’OS (couche 7)
Type de comportement dépend du constructeur:
o Fail Over Service: Une interface est active, une autre est
en standby
o Load Balancing: Les flux réseau sont distribués sur les
interfaces.
o Switch-assisted: Pour plus d’efficacité dans le
basculement de service ou l’équilibre de charge.

Redondance
Autre solution pour mettre de la
redondance: Virtualisation.
Disposer de plusieurs machines virtuelles
au sein d’une même machine permet
d’avoir de la redondance à plus faible coût
(financier et énergétique).

RÉPLICATION DES DONNÉES

Réplication des données
Plan
1. Concepts
2. Réplication matérielle
1. RAID
2. DRBD
3. ENBD
3. Systèmes de fichiers

Concepts (1/3)
Ajouter de la redondance ne suffit pas à assurer la
haute dispo si il n’y a pas de sauvegarde de données
derrière.
Il faut qu’en cas de défaillance du système actif, le
système qui prend le relais assure la continuité de
service.
Il faut donc prévoir un mécanisme de synchronisation
des données entre les éléments redondés: c’est la
réplication.
La réplication peut être matérielle (copie des données
entre les disques, entre les BDD…), ou bien directement
au sein du système de fichiers (cache mémoire,
partage…).

Concepts (2/3)
Solution de stockage des données: le NAS (Network
Attached Storage).
o Espace de stockage attaché au réseau de l’entreprise qui gère
l’ensemble des données de l’entreprise.
o C’est un serveur à part entière contenant plusieurs disques
indépendants ainsi que son propre OS et de son propre
système de fichiers.

Concepts (3/3)
Autre dispositif de stockage: le SAN (Storage Area
Network). C’est un réseau de stockage à part entière.
o Il contient plusieurs périphériques de stockage reliés à des switchs
en Fiber channel ou iSCSI.
o Le trafic de stockage est alors séparé du trafic métier et la capacité
de stockage est quasi illimitée.

Réplication matérielle
RAID (1/4)
RAID: Redundant Array of Inexpensive Disks.
Technologie permettant de regrouper
plusieurs disques en un seul (grappe).
Permet d’augmenter la vitesse de transfert et
d’assurer une haute dispo des données.
Il existe plusieurs niveaux de RAID, chaque
niveau décrivant la manière dont sont
stockées les données sur les disques.
RAID est de la réplication locale.

RAID (2/4)
•Répartit les données sur l’ensemble des disques
•Vitesse de transfert élevée
•Pas de tolérance de panne.
RAID 0
(Striping)
•Duplication des données sur les disques
•Amélioration de la vitesse de lecture
•Haute disponibilité des données
•Solution onéreuse car une partie du stockage est réservée au backup
RAID 1
(Mirroring)
•Stockage des données sous forme d’octets sur chaque disque
•Un disque est dédié au stockage d’un bit de parité
•Permet la reconstitution des données en cas de défaillance.
RAID 3 (Disk
Array With Bit
Interleaved
Data)

RAID (3/4)
•Comme le RAID 3 mais des blocs à la place des bits
•Meilleure gestion de la capacité de stockage
•Le disque de contrôle doit avoir un débit égal à la somme des débits des
autres disques.
RAID 4 (Disk
Array With
Block
Interleaved
Data)
•Comme le RAID 4 mais la parité est stockée sur tous les disques
•Performances élevées
•Très Haute disponibilité des données
•Très intéressant lorsqu’on possède beaucoup de disques.
RAID 5 (disk
array with
block-
interleaved
distributed
parity)
•Comme le RAID 5
•Plusieurs fonctions de parité pour augmenter la redondance
•Nécessite d’avoir au moins 4 disques.
RAID 6 (disk
array with
block-
interleaved
distributed
parity )

RAID (4/4)
Avantages du RAID:
o La sécurité: RAID 1 et RAID 5 offrent un niveau de
sécurité élevée, mais RAID 1 est une copie conforme là
où RAID 5 est un entrelacement.
o Performances : RAID 0 et RAID 5 offrent de fortes
performances en lecture/écriture.
o Coût: Le RAID 1 est onéreux car il n’offre que 50% de la
quantité de stockage, alors que RAID 5 arrive à offrir
jusqu’à 90% tout en assurant la réplication des
données.
Conclusion:
o RAID 1 utilisé pour redonder les données d’un serveur.
o RAID 5 utilisé dans de grands espaces de stockage.

DRBD
DRBD (Distributed Replicated Block Device)
Logiciel de réplication distante pour répliquer
les données entre deux serveurs distants.
Technique de mirroring des données comme
en RAID 1.
Solution Linux souvent déployée avec
Heartbeat.
Conserve une copie locale des données.
La version 8 permet de supporter le partage
de charge.

ENBD
ENBD: Enhanced Network Block Device
Evolution de Linux NBD.
Permet d’accéder aux données distantes
comme si elles étaient locales.
Une authentification est nécessaire pour
disposer des droits de lecture/écriture.
Associé à du RAID 1, assure une haute
disponibilité des données « over the Net ».

Systèmes de fichiers (1/2)
Intérêt: disposer au sein du disque un système de fichiers
offrant de la redondance mais aussi assurant l’intégrité des
données.
Deux types de systèmes de fichiers:
o Locaux (Ext3, XFS…)
o Partagés (NFS, OpenGFS…)
Fonctionnalités intéressantes:
o Journalisation des données pour récupération en cas de crash.
o Vitesse de lecture/écriture
o Partage des données sur plusieurs disques.
o Sécurité de l’accès aux données
o Clustering des données
o Etc…

Systèmes de fichiers (2/2)
Tableau présentant quelques systèmes de
fichiers et leurs fonctionnalités:
File system Partage Ressource
Réseau
En local Gestion du
clustering de
données
Journalisé
ReiserFS Oui Oui
Ext 3 Oui Oui
XFS Oui Oui
NFS Oui Oui Oui
GFS Oui Oui Oui Oui Oui
CodaFS Oui Oui Oui Oui
Intermezzo Oui Oui Oui Oui
Lustre Oui Oui Oui Oui

CONCLUSION

Conclusion
La HD dans les faits (1/2)
En utilisant toutes les connaissances acquises dans cet état de l’art,
voici un exemple d’une architecture hautement disponible:

Conclusion
La HD dans les faits (2/2)
Dans cette architecture:
o Tous les éléments sont redondés: routeurs, firewall, proxy,
serveurs.
o Chaque couche d’équipements est connectée à sa voisine en
utilisant une Switch Zone dédiée, avec des switchs implémentant
du Spanning Tree.
o Les routeurs et les firewall utilisent de l’HSRP ou du GLBP, les proxy
implémentent du CARP, les load balancers et les serveurs sont
clusterisés et font de la redondance applicative (Teaming).
o Enfin les bases de données sont partagées via du RAID 5
localement et en ENBD avec les autres sites.
Une architecture particulièrement onéreuse mais qui offre un
degré de disponibilité très élevé.
En ajoutant en plus de la virtualisation, on peut offrir une
haute disponibilité tout en réduisant considérablement les
coûts.

Conclusion
Les acteurs de la HD (1/2)
Concrètement, il existe des solutions de
serveurs offrant de la HD (RAID, Heartbeat,
etc…)
Gartner a réalisé une étude en 2003 des
acteurs du marché de la haute
disponibilité.
En leaders: Fujitsu Technologies, HP, IBM,
Stratus & Unisys.

Conclusion
Les acteurs de la HD (2/2)
Magic Quadrant of HA vendors

Conclusion
Exemple
L’architecture de Wikipedia

Conclusion
Nowadays, many solutions provide high availability and
fault tolerance to IS architectures and materials.
The rate of high availability is proportional to the
investment deployed. The more money is invested for
HA, the more secured the IS will be, making a difference
between simple reliability and high availability.
That’s why nowadays, it’s vital for companies to ensure
its high availability in order to fully exercise its core
business without fearing system failures or natural
disasters.
The coming of the virtualization is the best way to
provide HA to systems at a lesser cost.

Questions?

Haute Disponibilité et Tolérance de Panne

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

En vedette

En vedette (20)

Similaire à Haute Disponibilité et Tolérance de Panne

Similaire à Haute Disponibilité et Tolérance de Panne (9)

Haute Disponibilité et Tolérance de Panne

Notes de l'éditeur