Isilon: Come determinare se un cluster Isilon si trova in una finestra a rischio di perdita di dati

Summary: Come determinare se un cluster Isilon si trova in una finestra di rischio per la perdita di dati.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Introduzione

Una finestra di rischio (WOR) si verifica quando si verifica un numero sufficiente di dispositivi in un cluster, un pool di nodi o un disk pool che rende possibile raggiungere il livello di protezione. Questa condizione è nota anche come "protezione at" o "protezione eccessiva". Quando un cluster o un pool si trova in un WOR, la perdita di dati non si è ancora verificata. Tuttavia, in caso di guasto di altri dispositivi, potrebbe verificarsi una perdita di dati. La perdita di dati dipende da diversi fattori. Questi fattori includono; altri dispositivi si guastano prima che FlexProtect possa essere completato o se i dispositivi guasti sono l'unica origine dei dati in questione.

Questo articolo descrive come funzionano i livelli di protezione nel cluster e come è possibile stabilire se il cluster si trova in un WOR per la perdita di dati.

NOTA
Ai fini del calcolo del CRON, per "guasto" si intendono i dispositivi che si trovano in uno stato "down" o "dead". I dispositivi "soft_failed" non vengono conteggiati rispetto ai livelli di protezione. Vedere la sezione "Procedura" di seguito per informazioni su come determinare il numero di dispositivi "down" o "dead".

NOTA
La condizione in cui si guastano più dispositivi rispetto al numero specificato come livello di protezione è chiamata "protezione eccessiva". In questo stato, il cluster o il pool di nodi/disk pool non è più in grado di ricreare correttamente tutti i dati archiviati.

 

Dettagli

OneFS utilizza un modello di protezione dei dati N+M. Nella notazione N+M, N rappresenta il numero di nodi. M rappresenta il numero di nodi, unità o pool di nodi/disk pool simultanei che il cluster può gestire senza perdere dati. Ad esempio, con la protezione N+2, il cluster o il pool può perdere due unità su nodi diversi o perdere due nodi del tutto.

OneFS 6.5 e versioni successive supportano anche un modello di protezione N+M:B. Nella notazione N+M:B, N rappresenta il numero di nodi. M rappresenta il numero di unità inattive o guaste. B rappresenta il numero di nodi inattivi o non riusciti che il cluster o il pool di nodi/disk pool può gestire senza perdere dati. Ad esempio, con la protezione N+3:1, il cluster o il pool può perdere tre unità o un nodo senza perdere dati.

Più unità inattive o guaste all'interno di un singolo nodo rappresentano sempre un errore di un singolo nodo (anziché più guasti di unità) ai fini del calcolo del CRON. Di seguito sono riportati alcuni esempi di utilizzo di un cluster a 8 nodi con protezione N+3:1:

  • Esempio 1: In un singolo cluster, tre unità si guastano, ciascuna in un nodo diverso. In questo modo il cluster si trova in un WOR ("at protection").
  • Esempio 2: In un singolo cluster, due unità all'interno dello stesso nodo presentano un guasto. Poiché le unità si trovano nello stesso nodo, gli errori vengono conteggiati come un errore di singolo nodo. Questa situazione pone anche il cluster in un WOR ("at protection").

Per ulteriori informazioni sui livelli di protezione dei dati e su come vengono calcolati, consultare la Guida all'amministrazione di OneFS.

CAUTELA!
Se si sospetta o si determina che il cluster sia in uno stato GOD, contattare il supporto tecnico Dell per assistenza prima di intraprendere ulteriori azioni.

IMPORTANTE!
Un WOR potrebbe verificarsi in caso di guasto di unità o nodi. Tuttavia, Isilon Engineering consiglia di mantenere le unità o i nodi guasti nel cluster fino a quando l'operazione FlexProtect non è stata completata correttamente. Anche se un dispositivo presenta un guasto, alcuni o tutti i blocchi di dati potrebbero essere ancora leggibili. Lasciare l'unità o il nodo aggiunto al cluster offre flessibilità nel caso in cui si renda necessario un tentativo di ripristino dei dati dal dispositivo guasto.

 

Cause

Per determinare se il cluster o il pool di nodi/disk pool si trova attualmente in un WOR, determinare prima il livello di protezione configurato nel cluster o nel pool. Successivamente, determinare il numero di nodi e unità guasti. Ai fini del calcolo del CRON, per "guasto" si intendono i dispositivi che si trovano in uno stato "down" o "dead". Seguire le istruzioni riportate nell'apposita sezione che segue.

Resolution

Procedura

 

    OneFS 7.2, 8.0, 9.0 e versioni successive

    1. Nell'interfaccia di amministrazione web di OneFS, passare a File System > Storage Pools > SmartPools.
    2. Ottenere il livello di protezione corrente dalla tabella Tiers & Node Pools , nella colonna Requested Protection .
    3. Aprire una connessione SSH al nodo e accedere utilizzando l'account "root".
    4. Determinare il numero di dispositivi "down" o "dead" eseguendo il seguente comando:



      isi_group_info L'output è simile al seguente. Se sono presenti dispositivi inattivi o inattivi, nell'output vengono indicati come "inattivi" o "inattivi".

      Esempio di nodo inattivo: efs.gmp.group: { 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, giù: 6 }

      Esempio di unità inattiva: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, giù: 2:10, 4:11, soft_failed: 2:10, 4:11 }

      Esempio di unità inattiva: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, morto: Ore 2:10 }
    Per informazioni sull'interpretazione dell'output, incluso come capire se i dispositivi inattivi o inattivi sono unità o nodi, consultare:  Informazioni sulle modifiche dei gruppi OneFS o interpretazione delle modifiche dei gruppi.

    OneFS 7.1

    1. Nell'interfaccia di amministrazione web di OneFS, passare a File System Management > Storage Pools > SmartPools.
    2. Ottenere il livello di protezione corrente dalla tabella Node Pools nella colonna Requested Protection .
    3. Aprire una connessione SSH al nodo e accedere utilizzando l'account "root".
    4. Determinare il numero di dispositivi "down" o "dead" eseguendo il seguente comando:



      isi_group_info L'output è simile al seguente. Se sono presenti dispositivi inattivi o inattivi, nell'output vengono indicati come "inattivi" o "inattivi".

      Esempio di nodo inattivo: efs.gmp.group: { 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, giù: 6 }

      Esempio di unità inattiva: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, giù: 2:10, 4:11, soft_failed: 2:10, 4:11 }

      Esempio di unità inattiva: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, morto: 2:10 }

      Per informazioni sull'interpretazione dell'output, incluso come capire se i dispositivi inattivi o inattivi sono unità o nodi, vedere: Informazioni sulle modifiche dei gruppi OneFS o interpretazione delle modifiche dei gruppi.

    OneFS 7.0

    1. Nell'interfaccia di amministrazione web di OneFS, passare a File System Management > SmartPools > Summary.
    2. Ottenere il livello di protezione corrente dalla tabella Tiers & Node Pools , nella colonna Protection .
    3. Aprire una connessione SSH al nodo e accedere utilizzando l'account "root".
    4. Determinare il numero di dispositivi "down" o "dead" eseguendo il seguente comando:



      isi_group_info L'output è simile al seguente. Se sono presenti dispositivi inattivi o inattivi, nell'output vengono indicati come "inattivi" o "inattivi".

      Esempio di nodo inattivo: efs.gmp.group: { 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, giù: 6 }

      Esempio di unità inattiva: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, giù: 2:10, 4:11, soft_failed: 2:10, 4:11 }

      Esempio di unità inattiva: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, morto: Ore 2:10 }
    Per informazioni sull'interpretazione dell'output, incluso come capire se i dispositivi inattivi o inattivi sono unità o nodi, consultare: Informazioni sulle modifiche dei gruppi OneFS o interpretazione delle modifiche dei gruppi.

    OneFS 6.5

    1. Nell'interfaccia di amministrazione web di OneFS, passare a File System > SmartPools > Disk Pools.
    2. Ottenere il livello di protezione corrente dalla colonna Default Protection .
    3. Aprire una connessione SSH al nodo e accedere utilizzando l'account "root".
    4. Determinare il numero di dispositivi "down" o "dead" eseguendo il seguente comando:



      isi_group_info L'output è simile al seguente. Se sono presenti dispositivi inattivi o inattivi, nell'output vengono indicati come "inattivi" o "inattivi".

      Esempio di nodo inattivo: efs.gmp.group: { 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, giù: 6 }

      Esempio di unità inattiva: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, giù: 2:10, 4:11, soft_failed: 2:10, 4:11 }

      Esempio di unità inattiva: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, morto: Ore 2:10 }
    Per informazioni sull'interpretazione dell'output, incluso come capire se i dispositivi inattivi o inattivi sono unità o nodi, consultare: Informazioni sulle modifiche dei gruppi OneFS o interpretazione delle modifiche dei gruppi.

    Affected Products

    PowerScale OneFS

    Products

    Isilon
    Article Properties
    Article Number: 000018892
    Article Type: Solution
    Last Modified: 09 Jul 2025
    Version:  4
    Find answers to your questions from other Dell users
    Support Services
    Check if your device is covered by Support Services.