Caricamento

Soluzioni per l’alta disponibilità delle infrastrutture IT, ovvero come mantenere elevata la produttività e non perdere denaro

Soluzioni per l’alta disponibilità delle infrastrutture IT, ovvero come mantenere elevata la produttività e non perdere denaro

Le infrastrutture informatiche e le applicazioni su di esse installate, sebbene spesso siano viste come un costo, sono le componenti che in un’azienda permettono di aumentare la produttività e di conseguenza di aumentare redditività.

Il blocco dei sistemi comporta un rallentamento significativo del rendimento delle persone se non addirittura uno stop completo (pensate per esempio se il centralino VOIP fosse bloccato, magari in uno stabilimento produttivo: per comunicare ci si dovrebbe spostare anche per centinaia di metri con conseguente riduzione della produttività, oppure il blocco dell’applicazione che gestisce le bolle di trasporto: sarebbero tutte da fare a mano, anche in questo caso con riduzione della produttività e conseguente riduzione della redditività (sia perché le persone impiegano più tempo sia perché escono meno prodotti dall’azienda).

Per evitare tutto ciò, sono stati introdotti diversi sistemi di ridondanza delle infrastrutture con l’obiettivo di garantire la disponibilità di sistemi ed applicazioni. Nel seguito sono descritte diverse soluzioni che possono essere utilizzate per garantire la disponibilità dell’infrastruttura IT.

Alta affidabilità

La prima cosa a cui pensare è la ridondanza delle varie componenti dell’infrastruttura in termini di server e spazio disco

RAID e Hot Spare

L’infrastruttura IT contiene l’elemento più importante dell’azienda: i dati (progetti, cataloghi prodotto, fatture, dettagli cliente, etc.). la perdita di questi dati potrebbe avere un impatto notevole sulla produttività dell’azienda.

 Per questo motivo i dischi sui quali sono memorizzati i dati devono essere configurati in modo tale da garantire la disponibilità e la consistenza dei dati stessi. Questo si realizza mediante soluzioni RAID implementabili sia per dischi interni ai server che per dischi contenuti in storage esterni.

Il RAID (Redundant Array of Independent Disks) è una tecnica per raggruppare un insieme di dischi e presentarli al sistema come se fosse un unico volume, con lo scopo di rendere il sistema capace di supportare la perdita di uno o più dischi. Esistono diverse tipologie di RAID ognuna con un differente livello di ridondanza. I livelli di RAID più diffusi sono:

  • RAID 1 detto anche mirror, mantiene una copia esatta di tutti i dati su almeno due dischi
  • RAID 5 usa una suddivisione dei dati a livello di blocco, distribuendo i dati di parità uniformemente tra tutti i dischi che lo compongono. Il RAID 5 garantisce l’integrità dei dati anche con la rottura di un disco. La rottura di un secondo disco implica la perdita di tutti i dati
  • RAID 6 usa una divisione dei dati a livello di blocco, con i dati di parità distribuiti due volte tra tutti i dischi. Il RAID 6 garantisce l’integrità dei dati con la rottura di massimo due dischi. La rottura di un terzo disco implica la perdita di tutti i dati.

 

Nel caso di guasto di uno o più dischi (a seconda del livello di RAID implementato) è garantita la consistenza dei dati memorizzati. Il disco rotto può essere sostituito anche a server/storage acceso se i dischi sono di tipo Hot-Plug. In più è possibile configurare server/storage con uno o più dischi di Hot Spare, ovvero dischi non utilizzati che automaticamente il sistema può impiegare per ristabilire un RAID con disco in fail.

Cluster e Virtualizzazione

La ridondanza del dato è importante ma non è sufficiente per garantire la disponibilità delle applicazioni. Il guasto infatti potrebbe non essere localizzato al solo disco ma potrebbe trattarsi di un guasto dell’intero server. Le soluzioni per rendere disponibili le applicazioni anche in caso di guasto di un server sono principalmente 3, tutte fondate sull’utilizzo di più server:

  • Alta affidabilità applicativa: alcune applicazioni sono progettate con funzionalità di alta affidabilità che permettono di replicare i contenuti applicativi tra due o più server. In questo caso è l’applicazione stessa che replica configurazioni e dati verso uno o più server. In caso di guasto a un server il servizio non è bloccato perché è attivo sui server in funzione.
  • Cluster fisico: si tratta di una soluzione in cui due o più server (nodi del cluster) condividono uno spazio disco esterno (uno storage). L’applicazione è in esecuzione su un nodo ma in caso di fault del server, l’applicazione riparte immediatamente ed automaticamente su uno degli altri nodi del cluster, senza alcuna perdita di dati. Spesso questa soluzione viene implementata per l’alta affidabilità dei Database
  • Virtualizzazione: tra i molteplici vantaggi della virtualizzazione dei server c’è anche l’alta affidabilità. Gli host fisici di una infrastruttura di virtualizzazione condividono uno spazio disco esterno ai server (lo storage). Una soluzione di virtualizzazione progettata in modo corretto deve considerare la possibilità di poter funzionare anche in caso di fault di un host, ovvero deve avere adeguate risorse computazionali (CPU e RAM) per gestire tutte le macchine virtuali (VM) attive nell’infrastruttura. Nel caso di fault di un host, tutte le VM sono riaccese automaticamente sugli host rimanenti.

Gli stessi ragionamenti valgono per le più recenti soluzioni iperconvergenti che sono costituite solamente da host senza storage condiviso; anche in questo caso una corretta progettazione dell’infrastruttura deve prevedere la tolleranza del fault di almeno un host.

Backup

Spesso tutte le soluzioni di alta affidabilità appena descritte non sono sufficienti; l’errore umano è sempre in agguato: è sufficiente che un utente apra l’allegato di posta elettronica sbagliato e in un attimo buona parte dei dati potrebbero diventare illeggibili perché criptati dal ransomware CryptoLocker.

Oppure una calamità naturale (per esempio un allagamento, che in questo periodo non è un fenomeno così raro) che rende indisponibile o addirittura mai più utilizzabile l’intera infrastruttura IT.

Per questi motivi, a fianco di un’infrastruttura senza “single Point of Failure” (SPOF) è necessario implementare una soluzione di backup ovvero una soluzione software che ha l’obiettivo di effettuare salvataggi dei dati di produzione (compresi sistemi operativi, sistemi di autenticazione e configurazioni).

La soluzione di backup dovrebbe essere progettata e configurata applicando la regola del 3-2-1:

  • 3 copie dei dati: oltre ai dati di produzione è consigliabile dotarsi di almeno due ulteriori copie di backup
  • Su 2 supporti fisici differenti: utilizzare 2 differenti tecnologie riduce le probabilità di perdita del backup.
  • 1 copia del backup off-site (in sito differente): nel caso di evento disastroso (inondazione o fuoco, furto o altro), non tutti i backup saranno persi. Tenere una copia di backup in una filiale diversa o presso un datacenter di terze parti o in cloud potrebbe salvare l’azienda in caso di danni.

Le copie di backup sono utilizzate per recuperare dati persi (per esempio recuperare un documento cancellato per errore) ma possono anche essere utilizzate per ripristinare un’intera infrastruttura.

Disaster Recovery

Il ripristino di un’infrastruttura partendo dai backup potrebbe richiedere giorni o addirittura settimane ed inoltre si tratta di un ripristino eseguito partendo dall’ultimo salvataggio effettuato che tipicamente risale al giorno antecedente il disastro.

Molte aziende richiedono tempi di ripristino inferiori (RTO, Recovery Time Objective ovvero il tempo necessario per il recupero completo dell’operatività dell’infrastruttura) e con minore perdita di dati (RPO, Recovery Point Objective ovvero la quantità di dati che si è disposti a perdere).

Una soluzione di Disaster Recovery (DR) serve a ridurre il tempo di RTO e di RPO. Si tratta di realizzare una infrastruttura identica in tutte le componenti (applicazioni, server, storage) a quella di produzione e normalmente a distanza superiore ai 100km (per evitare che calamità naturali possano coinvolgere entrambe le infrastrutture). Le due infrastrutture sono replicate in modalità asincrona di solito con un intervallo tra 1 e 4 ore (RPO = 1 – 4 ore)

Il tempo di ripristino (RTO) dipende dalla complessità dell’infrastruttura ma possiamo stimarlo in circa 1 o 2 ore.

Spesso, per evitare di avere l’infrastruttura nel sito di DR completamente inutilizzata, si divide il carico elaborativo tra le due infrastrutture e si realizza una soluzione di DR incrociata (sistemi e dati attivi nel sito produttivo sono replicati nel sito di DR; sistemi e dati attivi nel sito di DR sono replicati nel sito produttivo).

Business Continuity

In alcune situazioni anche il blocco dell’infrastruttura per un solo minuto non è accettabile. In questo caso si richiede la realizzazione di soluzioni di Business Continuity (BC), ovvero soluzioni che garantiscono RTO=0 e RPO=0. Come nelle soluzioni di DR si tratta di realizzare una infrastruttura identica in un Datacenter secondario che normalmente si trova nello stesso edificio (distanza inferiore ai 100m) oppure in campus (distanza inferiore a 1Km). Le due infrastrutture sono replicate tra loro in modalità sincrona, ovvero il dato scritto nell’infrastruttura di produzione viene immediatamente scritto anche nell’infrastruttura di BC.

Anche in questo caso, per evitare di avere un’infrastruttura completamente inutilizzata, spesso si divide il carico elaborativo tra le due infrastrutture.

L’indisponibilità di una delle due infrastrutture non interrompe l’erogazione delle applicazioni; tutto continua a funzionare sull’infrastruttura rimasta attiva.

Conclusioni

Tutte le soluzioni descritte non sono mutuamente esclusive ma, anzi, spesso vengono implementate insieme. Partendo dalle soluzioni di alta affidabilità e di backup, che dovrebbero essere presenti in qualsiasi infrastruttura IT, è possibile affiancare soluzioni di DR e/o BC per aumentare il livello di disponibilità dell’infrastruttura IT e, di conseguenza, delle applicazioni erogate.

La BU Datacenter di Lantech Longwave tratta tutte queste tematiche proponendo soluzioni leader di mercato quali:

  • Cisco, DellEMC, Lenovo come piattaforme server
  • Cisco, Datacore, DellEMC, Nutanix come soluzioni iperconvergenti
  • Microsoft Hyper-V, VMware ESXi come virtualizzatori
  • DellEMC, Infinidat, Lenovo, Netapp, PureStorage come soluzioni storage. Sono gli storage stessi che forniscono strumenti di replica sincrona e asincrona utilizzati per le soluzioni di DR/BC
  • CommVault e Veeam come soluzioni di backup

 

A cura di 

Franco Benuzzi - Business Manager Datacenter 

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.