ECS: Ricostruzione del codice di erasure con interruzione dell'alimentazione del nodo in un cluster ECS a quattro nodi
Summary: A partire dalla versione ECS 3.4, la ricostruzione di Erasure Coding non viene avviata automaticamente in caso di interruzione dell'attività del nodo in un cluster ECS a quattro nodi.
Symptoms
Nelle versioni ECS precedenti alla 3.4, se rimanevano solo tre nodi integri, ECS iniziava il ripristino dei dati dei clienti in tre copie di mirroring, una per nodo. Questa decisione di progettazione è stata presa per ottimizzare la protezione dei dati dei clienti. Il processo è noto anche come ritiro EC (Erasure Coding).
EC è un algoritmo che riduce lo spazio di storage proteggendo i dati da guasti di dischi o nodi.
Quando i dati sono codificati con erasure, lo spazio fisico richiesto su un ECS è di circa 1,33 volte per l'archiviazione dei dati dei clienti (12 segmenti di dati + 4 segmenti di parità). Tuttavia, se ECS inizia il ritiro EC, lo spazio fisico richiesto per i dati dei clienti aumenta da 1,33 a 3 volte.
Ciò potrebbe portare ECS a raggiungere la soglia di utilizzo della capacità del 90%, con conseguente passaggio in modalità read-only per ECS e non disponibilità dei dati.
Cause
Resolution
Per migliorare la protezione dei dati ed evitare di superare la soglia di capacità del 90%, è stato modificato il comportamento predefinito per i cluster ECS con solo tre nodi integri.
Nella versione 3.4, la modifica alla progettazione è stata apportata in modo tale che ECS non implementi più automaticamente il ritiro EC quando solo tre nodi sono integri/online. Il sistema funziona in uno stato danneggiato e potrebbe riscontrare problemi di prestazioni, ma probabilmente eviterà una non disponibilità dei dati. Le nuove scritture continuano a essere scritte come tre copie con mirroring e verranno codificate con erasure una volta che ci sono 4+ nodi online e disponibili per la scrittura.
Eventuali guasti di unità aggiuntivi possono causare l'isolamento dell'unità di non disponibilità dei dati e potrebbero anche aumentare leggermente l'esposizione a una potenziale perdita di dati (DL), tuttavia è ancora improbabile.
Inoltre, prendere in considerazione l'espansione di ECS a cinque o più nodi. Riduce l'esposizione di ECS a situazioni di peggioramento delle prestazioni, DU e DL durante un guasto del nodo. Per ulteriori informazioni sull'architettura ECS, consultare la Guida dell'amministratore di ECS.