Evento EMC Forum 2013 | Il Disaster Recovery di GSE
1. Il Disaster Recovery
di GSE
MARCO BETTIN | Responsabile
competence center Storage, Backup e DR
2. Xenesys è un
system integrator
che offre
soluzioni, servizi e
infrastrutture IT
alle medie e grandi
imprese italiane.
32,6 mil €
366 dip
35 mil €
386 dip
Chi siamo
4. Security
Communications
Storage + Big Data
Management
Virtualization
Backup
Networking
DISASTER RECOVERY
Platform Integration
System Management + MDM
La BU Infrastructure Services
5. Gestore dei Servizi Energetici è una
società per azioni italiana, controllata
dal Ministero dell'Economia e delle
Finanze, che eroga incentivi economici
per la produzione di energia da fonti
rinnovabili e promuovere un uso
sostenibile dell'energia.
Il cliente
6. Per GSE dal 2010 gestiamo
+
il contact center, di cui abbiamo
sviluppato il relativo ticket
management software, offrendo
supporto operativo e informatico
agli utenti interni ed esterni
all’organizzazione
il sito di disaster recovery con le
migliori tecnologie
Cosa facevamo già in GSE
7. Rimuovere vendor-lock
Aumentare la disponibilità dei servizi:
migliorare l’affidabilità della soluzione di BC
migliorare l’integrazione delle procedure di DR con gli
ambienti operativi
Esternalizzare la gestione e manutenzione della soluzione di DR
Esternalizzare le gestione e manutenzione del BC Plan
Qual era l’esigenza
8. DC: 2 RM + 1 MI
S.O.: AIX, WIN, Linux, VMware
DB: Oracle e SQL Server
Server fisici: 60 RM + 20 MI
Server virtuali: 350 RM + 70 MI
Storage: 400TB
L’ambiente operativo
9. Scelta delle tecnologie
Collaborazione con i migliori vendor di
mercato | Partnership strategica con EMC
Analisi
Business Impact Analysis
Consulenza
Definizione della strategia e del
piano di DR
L’approccio
10. Business Impact Analysis
Identificazione dei pillar applicativi
Classificazione dei servizi in base al valore aziendale e al
rischio
Definizione delle classi di ripristino
Definizione dei punti di recupero e dei tempi di ripristino attesi
L’analisi
12. Abbiamo individuato in EMC VPLEX la soluzione più
completa (virtualizzazione e high availability) per
gestire efficacemente in cluster lo storage tra più
siti.
Implementando la soluzione EMC RecoverPoint e
applicando la nuova tecnica di replica
journaling, abbiamo consentito al cliente di poter
scegliere da quale punto di aggiornamento dei dati
replicati ripartire dopo un eventuale blocco.
Abbiamo migliorato le performance dei data
center e abbassato il TCO implementando lo
storage Symmetrix VMAX.
Scegliendo la soluzione VMware Site Recovery
Manager, abbiamo automatizzato i processi di
ripartenza delle applicazioni e garantito un
ambiente di test del processo di DR con i servizi
in produzione attivi.
La tecnologia
13. ORACLE
SAP
• In partnership con EMC abbiamo
disegnato ed implementato la
soluzione più completa per gestire la
virtualizzazione e l’alta affidabilità
dello Storage sui due siti di
Roma, con EMC VPLEX
MICROSOFT
Multi-site Cluster
VPLEX
WITNESS
Active
ACCESSANYWHERE
Active
• L’architettura Active/Passive
precedente è stata trasformata in un
cluster Attivo/Attivo, in grado di
fornire una totale Continuità di
Servizio tra i due siti a distanza
“metropolitana”
Benefici: alta affidabilità cross-site
14. Ancora con EMC abbiamo disegnato ed implementato la Replica remota che
consente di scegliere da quale punto di aggiornamento dei dati replicati
ripartire dopo un eventuale blocco (replica journaling di EMC RecoverPoint)
Utilizzata con VMware Site Recovery Manager, la soluzione automatizza i
processi di ripartenza delle applicazioni e consente di effettuare i test del
processo di DR con i servizi in produzione attivi
EVENT
PRODUCTION
8AM
CONTINUOUS
10AM
12PM
2PM
4PM
6PM
8PM
10PM
Local
6AM
Remote
8AM
10AM
12PM
2PM
4PM
6PM
8PM
10PM
12PM
HOURLY
12PM
DAILY
12PM
Sunday
Sunday
Benefici: any-point-in-time recovery
15. High Availability
In-data-center application restart
CONTINUOUS AVAILABILITY
Application continues with no disruption
(zero downtime)
Advanced Recovery
Replication to second site
Traditional
Disaster Recovery
Tape backup and offsite rotation
Livelli di Servizio ineguagliati
16. Nuova definizione della topologia di rete e del network
Progettazione del sito di DR
Politiche di DR diversificate per piattaforma e per applicativo
Integrazione del processo di Change Management per
valutazione impatto DR
La consulenza
18. L’architettura applicativa
prevede la suddivisione
dei servizi in 3 aree
distinte:
Internet, ZAC, DMZ
I Recover Point utilizzano
una rete separata
Le 3 reti presso i due siti
(DR e Produzione) hanno
indirizzamenti differenti
La soluzione | Network precedente
19. Replica delle reti di
Produzione sul sito di DR
Questa nuova area
dialoga con le altre
attraverso NAT
Pubblicazione dei servizi
Internet con Provider
diversi
La soluzione | Nuovo network
20. Durante i test di DR
la nuova area
completamente
isolata potrà ospitare
i servizi con gli
stessi indirizzi di
origine e dialogare
con l’esterno
attraverso dei NAT
Le repliche fra il sito
di Produzione e il sito
di DR rimarranno
attive
AREA FAILOVER
AREA ACTIVE
SAN
NAT DA
E VERSO
L’ESTERNO
La nuova area sarà
dedicata ai sistemi
Front end Internet
in failover mentre la
Active Directory
vecchia a quelli in
replica attiva
DB Oracle
Exchange
Front end Intranet
SMTP
La soluzione | Test di DR
21. In caso di disastro
viene abilitato il
routing fra le due
aree in modo da
farle comunicare
SAN
Il rapporto tra le
due aree simulerà
esattamente quello
tra sito di
Produzione e
l’attuale area di DR
Sarà sufficiente
pubblicare i servizi
su Internet e
cambiare i
riferimenti DNS
Front end Intranet
Front end Internet
Active Directory
Exchange
SMTP
La soluzione | Attivazione del DR
22. <3 mesi di
implementazione
<3 mesi di
migrazione dei dati
Roma (2DC): Tier 7
Milano (DR): Tier 5
Tempi e livelli di sicurezza
23.
Azzeramento dei rischi di perdita
dei dati in caso di fault (RPO=0) e
azzeramento del tempo di ripartenza
del servizio (RTO=0) nei siti di Roma
Possibilità di scegliere il punto di
riavvio (tecnica di replica
journaling) e di eseguire test di DR
a Milano senza interruzione della
replica dei dati da Roma
Gestione semplificata dei test e
della messa in produzione del DR
Riduzione dei costi di storage
I benefici
27. DISCLAIMER COPYRIGHT XENESYS S.R.L.
Le informazioni contenute in questo documento sono di proprietà di Xenesys S.r.l..
Questo documento è redatto a scopo puramente informativo. Tutti i marchi appartengono ai
rispettivi proprietari. Nessuna parte di questa pubblicazione può essere riprodotta o
trasmessa in qualsiasi forma o per qualsiasi scopo senza la preventiva autorizzazione di
Xenesys S.r.l..
XENESYS 2013 TUTTI I DIRITTI RISERVATI
27 | 15 novembre 2013
Editor's Notes
With VPLEX, you get true high availability; this means operations continue and data remains online even if a failure occurs. No manual intervention is required, and no recovery or restart is necessary. In fact, within synchronous distances using VPLEX Metro, you can think of VPLEX as providing disaster avoidance instead of just disaster recovery—because there is literally no disaster event from which to recover.When two VPLEX clusters are connected together with VPLEX Metro or VPLEX Geo, VPLEX gives you shared data access between sites, meaning the same data—not a copy but the same data, exists at more than one location simultaneously. Instead of using costly and complex processes, and having to choose RPOs and RTOs, VPLEX can withstand a component failure, a site failure, or loss of communication between sites and still keep the application and data online and available. This is true high availability, with VPLEX deployed in a real active-active configuration, that also includes a new VPLEX Witness. The VPLEX Witness exists in a different failure domain from either VPLEX cluster to arbitrate between sites, if necessary, when a failure occurs. We’ll explain how the VPLEX Witness works in more detail later.Note that when deploying VPLEX Metro, because it is within synchronous distances, you get a high-availability solution with zero RPO and zero RTO. With VPLEX Geo, because a greater distance can be supported between the two clusters and up to a 50 millisecond response time, zero RPO is not guaranteed. But you can still enable near-zero RTO with VPLEX Geo, and the failover could still be automated. Note to Presenter:While VPLEX high availability gives customers several advantages with regard to continuous uptime, this should not necessarily be positioned for everyone as an alternative to remote replication solutions, such as EMC SRDF or RecoverPoint. With VPLEX, you’re also getting an architecture that is 100 percent nondisruptive for all hardware and software upgrades—forever.VPLEX allows instant access to information in real time, eliminates operational overhead, reduces complexity, and reduces the time required to copy and distribute data across locations.
Ciò permette oggi a GSE di non subire alcun impatto sull’operatività aziendale se i server o gli storage o una intera sala macchine vanno in fault. Implementando la soluzione EMC RecoverPointe applicando la nuova tecnica di replica del journaling, abbiamo consentito al cliente di poter scegliere da quale punto di aggiornamento dei dati replicati ripartire dopo un eventuale blocco.