Isilon: Como determinar se um cluster do Isilon está em uma janela de risco de perda de dados

Summary: Como determinar se um cluster do Isilon está em uma janela de risco de perda de dados.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Introdução

Uma janela de risco (WOR) ocorre quando dispositivos suficientes em um cluster, pool de nós ou pool de discos falharam e o nível de proteção foi atingido. Essa condição também é conhecida como "em proteção" ou "proteção excessiva". Quando um cluster ou pool está em um WOR, a perda de dados ainda não ocorreu. No entanto, se outros dispositivos falharem, poderá ocorrer perda de dados. A ocorrência ou não de perda de dados depende de diferentes fatores. Esses fatores incluem; Dispositivos adicionais falhando antes que o FlexProtect possa ser concluído, ou se os dispositivos com falha forem a única fonte dos dados em questão.

Este artigo descreve como os níveis de proteção funcionam no cluster e como você pode saber se o cluster está em um WOR para perda de dados.

NOTA
Para fins de cálculo do WOR, "falha" significa dispositivos que estão em um estado "inativo" ou "inativo". Os dispositivos "soft_failed" não são considerados para os níveis de proteção. Consulte a seção "Procedimento" abaixo para saber como determinar o número de dispositivos "inativos" ou "inativos".

NOTA
A condição em que mais dispositivos falham do que o número especificado como nível de proteção é chamada de "proteção sobre". Nesse estado, o cluster ou o pool de nós/pool de discos não pode mais recriar com êxito todos os dados armazenados lá.

 

Detalhes

O OneFS usa um modelo de proteção de dados N+M. Na notação N+M, N representa o número de nós. O M representa o número de nós, unidades ou pool de nós/pool de discos simultâneos que o cluster pode manipular sem perder dados. Por exemplo, com a proteção N+2, o cluster ou pool pode perder duas unidades em nós diferentes ou perder dois nós completamente.

O OneFS 6.5 e versões posteriores também oferecem suporte a um modelo de proteção N+M:B. Na notação N+M:B, N representa o número de nós. M representa o número de unidades inativas ou com falha. O B representa o número de nós inativos ou com falha que o cluster ou o pool de nós/pool de discos pode manipular sem perder dados. Por exemplo, com a proteção N+3:1, o cluster ou pool pode perder três unidades ou um nó sem perder dados.

Várias unidades inativas ou com falha em um único nó sempre representam uma falha de único nó (em vez de várias falhas de unidade) para fins de cálculo de WOR. Aqui estão alguns exemplos do uso de um cluster de 8 nós com proteção N+3:1:

  • Exemplo 1: Em um único cluster, três unidades falham, cada uma em um nó diferente. Isso coloca o cluster em um WOR ("at protection").
  • Exemplo 2: Em um único cluster, duas unidades dentro do mesmo nó falharam. Como as unidades estão no mesmo nó, as falhas são contabilizadas como uma falha de único nó. Essa situação também coloca o cluster em um WOR ("at protection").

Para obter mais informações sobre os níveis de proteção de dados e como eles são calculados, consulte o Guia de administração do OneFS.

CUIDADO!
Se você suspeitar ou determinar que seu cluster está em um estado WOR, entre em contato com o suporte técnico da Dell para obter assistência antes de tomar outras medidas.

IMPORTANTE!
Uma WOR pode ocorrer quando unidades ou nós falham. No entanto, a engenharia do Isilon aconselha que você mantenha unidades ou nós com falha no cluster até que a operação do FlexProtect seja concluída com sucesso. Embora um dispositivo tenha falhado, alguns ou todos os blocos de dados ainda podem estar legíveis. Deixar a unidade ou o nó unido ao cluster oferecerá flexibilidade se uma tentativa de recuperar dados do dispositivo com falha for necessária.

 

Cause

Para determinar se o cluster ou pool de nós/pool de discos está atualmente em um WOR, primeiro determine o nível de proteção configurado no cluster ou pool. Em seguida, determine quantos nós e unidades com falha existem. Para fins de cálculo do WOR, "falha" significa dispositivos que estão em um estado "inativo" ou "inativo". Siga as instruções na seção apropriada a seguir.

Resolution

Procedimento

 

    OneFS 7.2, 8.0, 9.0 e superior

    1. Na interface Web de administração do OneFS, acesse File System > Storage Pools > SmartPools.
    2. Obtenha o nível de proteção atual da tabela Tiers & Node Pools , na coluna Requested Protection .
    3. Abra uma conexão SSH com o nó e faça log-in usando a conta "root".
    4. Determine quantos dispositivos estão "inativos" ou "inativos" executando o seguinte comando:



      isi_group_info O resultado é semelhante ao abaixo. Se houver dispositivos inativos ou inativos, eles serão indicados como "inativos" ou "inativos" na saída.

      Exemplo de um nó inoperante: efs.gmp.group: { 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, para baixo: 6 }

      Exemplo de uma unidade inoperante: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, para baixo: 2:10, 4:11, soft_failed: 2:10, 4:11 }

      Exemplo de uma unidade inativa: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, morto: 2:10 }
    Para obter informações sobre como interpretar o resultado, incluindo como entender se os dispositivos inativos ou inativos são unidades ou nós, consulte:  Noções básicas sobre alterações de grupo do OneFS ou interpretação de alterações de grupo.

    OneFS 7.1

    1. Na interface Web de administração do OneFS, acesse File System Management > Storage Pools > SmartPools.
    2. Obtenha o nível de proteção atual na tabela Node Pools , na coluna Requested Protection .
    3. Abra uma conexão SSH com o nó e faça log-in usando a conta "root".
    4. Determine quantos dispositivos estão "inativos" ou "inativos" executando o seguinte comando:



      isi_group_info O resultado é semelhante ao abaixo. Se houver dispositivos inativos ou inativos, eles serão indicados como "inativos" ou "inativos" na saída.

      Exemplo de um nó inoperante: efs.gmp.group: { 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, para baixo: 6 }

      Exemplo de uma unidade inoperante: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, para baixo: 2:10, 4:11, soft_failed: 2:10, 4:11 }

      Exemplo de uma unidade inativa: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, morto: 2:10 }

      Para obter informações sobre como interpretar o resultado, inclusive como entender se os dispositivos inativos ou inativos são unidades ou nós, consulte: Noções básicas sobre alterações de grupo do OneFS ou interpretação de alterações de grupo.

    OneFS 7.0

    1. Na interface Web de administração do OneFS, acesse File System Management > SmartPools > Summary.
    2. Obtenha o nível de proteção atual da tabela Tiers & Node Pools , na coluna Protection .
    3. Abra uma conexão SSH com o nó e faça log-in usando a conta "root".
    4. Determine quantos dispositivos estão "inativos" ou "inativos" executando o seguinte comando:



      isi_group_info O resultado é semelhante ao abaixo. Se houver dispositivos inativos ou inativos, eles serão indicados como "inativos" ou "inativos" na saída.

      Exemplo de um nó inoperante: efs.gmp.group: { 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, para baixo: 6 }

      Exemplo de uma unidade inoperante: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, para baixo: 2:10, 4:11, soft_failed: 2:10, 4:11 }

      Exemplo de uma unidade inativa: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, morto: 2:10 }
    Para obter informações sobre como interpretar o resultado, incluindo como entender se os dispositivos inativos ou inativos são unidades ou nós, consulte: Noções básicas sobre alterações de grupo do OneFS ou interpretação de alterações de grupo.

    OneFS 6.5

    1. Na interface Web de administração do OneFS, acesse File System > SmartPools > Disk Pools.
    2. Obtenha o nível de proteção atual na coluna Default Protection .
    3. Abra uma conexão SSH com o nó e faça log-in usando a conta "root".
    4. Determine quantos dispositivos estão "inativos" ou "inativos" executando o seguinte comando:



      isi_group_info O resultado é semelhante ao abaixo. Se houver dispositivos inativos ou inativos, eles serão indicados como "inativos" ou "inativos" na saída.

      Exemplo de um nó inoperante: efs.gmp.group: { 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, para baixo: 6 }

      Exemplo de uma unidade inoperante: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, para baixo: 2:10, 4:11, soft_failed: 2:10, 4:11 }

      Exemplo de uma unidade inativa: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, morto: 2:10 }
    Para obter informações sobre como interpretar o resultado, incluindo como entender se os dispositivos inativos ou inativos são unidades ou nós, consulte: Noções básicas sobre alterações de grupo do OneFS ou interpretação de alterações de grupo.

    Affected Products

    PowerScale OneFS

    Products

    Isilon
    Article Properties
    Article Number: 000018892
    Article Type: Solution
    Last Modified: 09 Jul 2025
    Version:  4
    Find answers to your questions from other Dell users
    Support Services
    Check if your device is covered by Support Services.