PowerScale: Problemas de expansão da partição var

Summary: A expansão da partição /var pode causar mensagens de advertência na ferramenta Isilon On-Cluster Analysis (IOCA). Os problemas estão relacionados a uma pane do nó que pode ocorrer ao remover um sled de unidade para fins de manutenção. ...

Acest articol se aplică pentru Acest articol nu se aplică pentru Acest articol nu este legat de un produs specific. Acest articol nu acoperă toate versiunile de produs existente.

Symptoms

O script atual da ferramenta Isilon On-Cluster Analysis (IOCA) gera as seguintes advertências relacionadas à /var Partições:
System Partition Free Space                       FAIL
  CRITICAL: The following nodes have /var mirrors of different sizes: 1-10
  INFO: Please reference KB 000213248 (https://www.dell.com/support/kbdoc/000213248) for further information.
  INFO: For more information refer to KB article 000041465 found at https://www.dell.com/support/kbdoc/000041465.
Ou:
Mirror Status                                     FAIL
  CRITICAL: The mirror pair for var1 appear to be in the same fault domain on nodes: 1-10.
  CRITICAL: The following nodes have /var mirrors of different sizes: 1-10
  INFO: Please open a Technical Support Service Request and reference this failure within the description.
  INFO: Please refer to KB 000213248 (https://www.dell.com/support/kbdoc/en-us/000213248) for further information.
Se ignorado, é possível que ocorra uma pane em um nó MLK de 6ª ou 6ª geração durante um procedimento de substituição de unidade ou módulo deslizante.

Quando o nó for exibido, analisar o /var/log/messages O arquivo do nó mostra mensagens de erro e de pane semelhantes às seguintes:
(da21:pmspcbsd0:0:22:0): pccb 0xfffffe8543174480, ccb 0xfffff80e31347000: ccbStatus 3, scsiStatus 5 
(da22:pmspcbsd0:0:23:0): pccb 0xfffffe8543151fe0, ccb 0xfffff807c4753000: ccbStatus 3, scsiStatus 5 
(da21:pmspcbsd0:0:22:0): WRITE(10). CDB: 2a 00 00 04 dd 44 00 00 04 00 
(da21:pmspcbsd0:0:22:0): CAM status: CCB request aborted by the host 
(da22:pmspcbsd0:0:23:0): WRITE(10). CDB: 2a 00 00 04 dd 44 00 00 04 00 
(da21:pmspcbsd0:0:22:0): Retrying command, 3 more tries remain 
(da22:pmspcbsd0:0:23:0): CAM status: CCB request aborted by the host 
(da21:pmspcbsd0:0:22:0): pccb 0xfffffe8543151fe0, ccb 0xfffff80e31347000: ccbStatus 3, scsiStatus 2 
(da22:pmspcbsd0:0:23:0): Retrying command, 3 more tries remain 
(da21:pmspcbsd0:0:22:0): cam_periph_error: SSQ_LOST removing device ccb 0xfffff80e31347000 status 0x8 flags 0x2 
(da22:pmspcbsd0:0:23:0): pccb 0xfffffe8543151fe0, ccb 0xfffff807c4753000: ccbStatus 3, scsiStatus 2 
(da21:pmspcbsd0:0:22:0): Invalidating pack 
(da22:pmspcbsd0:0:23:0): cam_periph_error: SSQ_LOST removing device ccb 0xfffff807c4753000 status 0x8 flags 0x2 
(da22:pmspcbsd0:0:23:0): Invalidating pack 
(da21:pmspcbsd0:0:22:0): removing device entry 
(da21:pmspcbsd0:0:22:0): Periph destroyed 
panic @ time 1681142660.493, thread 0xfffffe874ee12000: mirror/var1: all devices failed (read, offset 1304707072, length 0) 
time = 1681142660 
cpuid = 3, TSC = 0x5e76342b8e8e59 
Panic occurred in module kernel loaded at 0xffffffff80200000: 

Stack: -------------------------------------------------- 
kernel:g_mirror_worker+0x251f 
kernel:fork_exit+0x82 
-------------------------------------------------- 
Disabling swatchdog 
Dumping stacks (40960 bytes)

Cause

Nas versões 9.2.1.16 e posteriores, 9.4.0.6 e posteriores, e 9.5.0.0 e posteriores, o OneFS expande o tamanho da partição /var para 2 GB durante um upgrade. O processo de expansão pode fazer com que essas mensagens ou eventos sejam acionados.

A mensagem relacionada ao par de espelhamento estar no mesmo domínio de falha é específica para os nós MLK de 6ª e 6ª geração (A200, A2000, A300, A3000, H400, H500, H600, H5600, H700, H7000, F800 e F810). A expansão pode não validar os domínios de falha de partição corretamente, colocando ambas as partições para qualquer uma /var Espelhamento em unidades no mesmo sled de unidade. Isso fará com que o nó entre em pane quando o sled for removido se ambos os espelhamentos do montado /var A partição está no módulo deslizante.

Tampouco mirror/var0 ou mirror/var1 serve como o ativo /var Espelho de partição a qualquer momento. Na mensagem de pânico do exemplo, vemos que /mirror/var1 era o espelho ativo. Olhando para o gmirror status e isi devices drive list saídas do comando para o nó:

Truncated status Resultado do comando:
gmirror status
     mirror/var1  COMPLETE  da14p3 (ACTIVE) <<<<
                            da13p3 (ACTIVE) <<<<
O comando drive list Resultado do comando:
isi devices drive list
Lnn  Location  Device    Lnum  State   Serial       Sled
---------------------------------------------------------
21   Bay  1    /dev/da1  15    L3      xxxxxxxxxxxx N/A
21   Bay  2    /dev/da2  16    L3      xxxxxxxxxxxx N/A
21   Bay  A0   /dev/da5  12    HEALTHY xxxxxxxx     A
21   Bay  A1   /dev/da4  13    HEALTHY xxxxxxxx     A
21   Bay  A2   /dev/da3  14    HEALTHY xxxxxxxx     A
21   Bay  B0   /dev/da8  9     HEALTHY xxxxxxxx     B
21   Bay  B1   /dev/da7  10    HEALTHY xxxxxxxx     B
21   Bay  B2   /dev/da6  11    HEALTHY xxxxxxxx     B
21   Bay  C0   /dev/da11 6     HEALTHY xxxxxxxx     C
21   Bay  C1   /dev/da10 7     HEALTHY xxxxxxxx     C
21   Bay  C2   /dev/da9  8     HEALTHY xxxxxxxx     C
21   Bay  D0   /dev/da14 3     HEALTHY xxxxxxxx     D <<<<
21   Bay  D1   /dev/da13 4     HEALTHY xxxxxxxx     D <<<<
21   Bay  D2   /dev/da12 5     HEALTHY xxxxxxxx     D
21   Bay  E0   /dev/da17 0     HEALTHY xxxxxxxx     E
21   Bay  E1   /dev/da16 1     HEALTHY xxxxxxxx     E
21   Bay  E2   /dev/da15 2     HEALTHY xxxxxxxx     E
---------------------------------------------------------
Neste exemplo, /mirror/var1 é integrado nas unidades D0 e D1. Quando o sled D é removido do cluster, o nó entra em pane devido à incapacidade de acessar o /var sistema de ficheiros.

Os diferentes tamanhos das partições var podem afetar qualquer tipo de nó do Isilon ou PowerScale que execute o OneFS 9.x. A expansão para /var expande apenas o /var partição no sistema. A partição Last Known Good (LKG) permanece com o tamanho original. Se o ativo /var A partição é expandida e preenchida em mais de 50%, o que pode causar problemas se a partição precisar ser girada para manutenção.

Para determinar se esse problema afeta uma partição LKG no cluster, use o seguinte comando:
# isi_for_array -sX 'gmirror list var0 var1' | grep -A20 mirror | egrep "var|Media"
Exemplo:
lab-1# isi_for_array -sX 'gmirror list var0 var1' | grep -A20 mirror | egrep "var|Media"
lab-1: 1. Name: mirror/var0
lab-1:    Mediasize: 2147479552 (2.0G)
lab-1:    Mediasize: 2147483648 (2.0G)
lab-1:    Mediasize: 2147483648 (2.0G)
lab-2: 1. Name: mirror/var0
lab-2:    Mediasize: 2147479552 (1.0G) <<<<
lab-2:    Mediasize: 2147483648 (1.0G) <<<<
lab-2:    Mediasize: 2147483648 (1.0G) <<<<
lab-3: 1. Name: mirror/var0
lab-3:    Mediasize: 2147479552 (2.0G)
lab-3:    Mediasize: 2147483648 (2.0G)
lab-3:    Mediasize: 2147483648 (2.0G)
lab-4: 1. Name: mirror/var0
lab-4:    Mediasize: 2147479552 (2.0G)
lab-4:    Mediasize: 2147483648 (2.0G)
lab-4:    Mediasize: 2147483648 (2.0G)
....
Se qualquer um dos dispositivos voltar com um tamanho de (1,0 G), ele será afetado.

No exemplo acima, o lab-2 var0 As partições são afetadas e devem ser corrigidas. Execute novamente o comando para var1 em todo o cluster para determinar se ele também é afetado.

Resolution

A correção permanente para o FAULT DOMAIN ISSUE ONLY está nas seguintes versões de código:
  • OneFS 9.5.0.6 
  • 9.4.0.16 
  • 9.2.1.25 
A correção permanente para as partições /var de tamanhos diferentes está sendo trabalhada. Para resolver o problema, siga o processo de script. Se você não conseguir fazer upgrade, siga o processo com scripts.
 
Nota: Esse problema não pode ser resolvido manualmente ou usando o script abaixo em clusters executados no modo de conformidade. Se o cluster estiver no modo de conformidade do SmartLock, esse problema poderá ser corrigido com o upgrade para as versões do OneFS listadas acima. Se não for possível fazer upgrade para corrigir esse problema, entre em contato com o Suporte Dell e solicite um patch do DA. Há um script disponível para resolver esse problema. Entre em contato com o Suporte Dell para receber os arquivos e siga as instruções abaixo.

Para usar o script:
  1. Faça download do script e do arquivo md5 no cluster. Copie os arquivos para /ifs/data/Isilon_Support no cluster e confirme se o hash md5 corresponde ao hash no arquivo md5:
Lab-1# mv var_mirror_repair.sh /ifs/data/Isilon_Support/
Lab-1# mv var_mirror_repair.md5 /ifs/data/Isilon_Support/
Lab-1# md5 /ifs/data/Isilon_Support/var_mirror_repair.sh
MD5 (/ifs/data/Isilon_Support/var_mirror_repair.sh) = 0881afeeb39fdaf02e2a90d784e4ed21
Lab-1# # cat /ifs/data/Isilon_Support/var_mirror_repair.md5
0881afeeb39fdaf02e2a90d784e4ed21
  1. Se o hash não corresponder, faça download do script do site FTP e copie-o para o cluster novamente. Se o hash corresponder, execute o seguinte comando como root:
lab-1# sh /ifs/data/Isilon_Support/var_mirror_repair.sh
  1. O script geralmente leva de 5 a 10 minutos para ser executado. Pode demorar mais em clusters grandes (30+ nós) ou ocupados. Quando o script é concluído, ele informa se ele foi bem-sucedido ou se houve problemas.

Ao iniciar o script, você verá a seguinte saída:

Lab-1# sh /ifs/data/Isilon_Support/var_mirror_repair.sh
Full output can be found at:
 /ifs/data/Isilon_Support/var_mirror_repair.FULL_CLUSTER.2023-10-19T092522.csv

Status: 0/4 Nodes checked, 0/4 var0 partitions, 0/4 var1 partitions

À medida que o script progride, a linha Status é atualizada:

Status: 4/4 Nodes checked, 4/4 var0 partitions, 4/4 var1 partitions

Quando o script for concluído com sucesso, você verá o seguinte:

Status: 4/4 Nodes checked, 4/4 var0 partitions, 4/4 var1 partitions

No issues were identified.

Moving files to: var_mirror_repair.2023-10-19T092522.d
Bundle Location: var_mirror_repair.2023-10-19T092522.tgz

Isso indica que todos os nós afetados foram reparados e que o script não teve problemas. Se o resultado recebido for diferente do deste exemplo, entre em contato com o Suporte Dell e forneça o resultado e os arquivos de log do local do pacote.

Produse afectate

Isilon F800, Isilon F810, Isilon Gen6, Isilon H400, Isilon H500, Isilon H5600, Isilon H600, PowerScale Archive A300, PowerScale Archive A3000, PowerScale Hybrid H700, PowerScale Hybrid H7000

Produse

PowerScale F200, PowerScale F600, PowerScale F900
Proprietăți articol
Article Number: 000213248
Article Type: Solution
Ultima modificare: 06 Jan 2026
Version:  21
Găsiți răspunsuri la întrebările dvs. de la alți utilizatori Dell
Servicii de asistență
Verificați dacă dispozitivul dvs. este acoperit de serviciile de asistență.