PowerScale: Problemas de expansão da partição var
Summary: A expansão da partição /var pode causar mensagens de advertência na ferramenta Isilon On-Cluster Analysis (IOCA). Os problemas estão relacionados a uma pane do nó que pode ocorrer ao remover um sled de unidade para fins de manutenção. ...
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Symptoms
O script atual da ferramenta Isilon On-Cluster Analysis (IOCA) gera as seguintes advertências relacionadas à
Quando o nó for exibido, analisar o
/var Partições:
System Partition Free Space FAIL CRITICAL: The following nodes have /var mirrors of different sizes: 1-10 INFO: Please reference KB 000213248 (https://www.dell.com/support/kbdoc/000213248) for further information. INFO: For more information refer to KB article 000041465 found at https://www.dell.com/support/kbdoc/000041465.Ou:
Mirror Status FAIL CRITICAL: The mirror pair for var1 appear to be in the same fault domain on nodes: 1-10. CRITICAL: The following nodes have /var mirrors of different sizes: 1-10 INFO: Please open a Technical Support Service Request and reference this failure within the description. INFO: Please refer to KB 000213248 (https://www.dell.com/support/kbdoc/en-us/000213248) for further information.Se ignorado, é possível que ocorra uma pane em um nó MLK de 6ª ou 6ª geração durante um procedimento de substituição de unidade ou módulo deslizante.
Quando o nó for exibido, analisar o
/var/log/messages O arquivo do nó mostra mensagens de erro e de pane semelhantes às seguintes:
(da21:pmspcbsd0:0:22:0): pccb 0xfffffe8543174480, ccb 0xfffff80e31347000: ccbStatus 3, scsiStatus 5 (da22:pmspcbsd0:0:23:0): pccb 0xfffffe8543151fe0, ccb 0xfffff807c4753000: ccbStatus 3, scsiStatus 5 (da21:pmspcbsd0:0:22:0): WRITE(10). CDB: 2a 00 00 04 dd 44 00 00 04 00 (da21:pmspcbsd0:0:22:0): CAM status: CCB request aborted by the host (da22:pmspcbsd0:0:23:0): WRITE(10). CDB: 2a 00 00 04 dd 44 00 00 04 00 (da21:pmspcbsd0:0:22:0): Retrying command, 3 more tries remain (da22:pmspcbsd0:0:23:0): CAM status: CCB request aborted by the host (da21:pmspcbsd0:0:22:0): pccb 0xfffffe8543151fe0, ccb 0xfffff80e31347000: ccbStatus 3, scsiStatus 2 (da22:pmspcbsd0:0:23:0): Retrying command, 3 more tries remain (da21:pmspcbsd0:0:22:0): cam_periph_error: SSQ_LOST removing device ccb 0xfffff80e31347000 status 0x8 flags 0x2 (da22:pmspcbsd0:0:23:0): pccb 0xfffffe8543151fe0, ccb 0xfffff807c4753000: ccbStatus 3, scsiStatus 2 (da21:pmspcbsd0:0:22:0): Invalidating pack (da22:pmspcbsd0:0:23:0): cam_periph_error: SSQ_LOST removing device ccb 0xfffff807c4753000 status 0x8 flags 0x2 (da22:pmspcbsd0:0:23:0): Invalidating pack (da21:pmspcbsd0:0:22:0): removing device entry (da21:pmspcbsd0:0:22:0): Periph destroyed panic @ time 1681142660.493, thread 0xfffffe874ee12000: mirror/var1: all devices failed (read, offset 1304707072, length 0) time = 1681142660 cpuid = 3, TSC = 0x5e76342b8e8e59 Panic occurred in module kernel loaded at 0xffffffff80200000: Stack: -------------------------------------------------- kernel:g_mirror_worker+0x251f kernel:fork_exit+0x82 -------------------------------------------------- Disabling swatchdog Dumping stacks (40960 bytes)
Cause
Nas versões 9.2.1.16 e posteriores, 9.4.0.6 e posteriores, e 9.5.0.0 e posteriores, o OneFS expande o tamanho da partição /var para 2 GB durante um upgrade. O processo de expansão pode fazer com que essas mensagens ou eventos sejam acionados.
A mensagem relacionada ao par de espelhamento estar no mesmo domínio de falha é específica para os nós MLK de 6ª e 6ª geração (A200, A2000, A300, A3000, H400, H500, H600, H5600, H700, H7000, F800 e F810). A expansão pode não validar os domínios de falha de partição corretamente, colocando ambas as partições para qualquer uma
Tampouco
Truncated
Os diferentes tamanhos das partições var podem afetar qualquer tipo de nó do Isilon ou PowerScale que execute o OneFS 9.x. A expansão para
Para determinar se esse problema afeta uma partição LKG no cluster, use o seguinte comando:
No exemplo acima, o lab-2
A mensagem relacionada ao par de espelhamento estar no mesmo domínio de falha é específica para os nós MLK de 6ª e 6ª geração (A200, A2000, A300, A3000, H400, H500, H600, H5600, H700, H7000, F800 e F810). A expansão pode não validar os domínios de falha de partição corretamente, colocando ambas as partições para qualquer uma
/var Espelhamento em unidades no mesmo sled de unidade. Isso fará com que o nó entre em pane quando o sled for removido se ambos os espelhamentos do montado /var A partição está no módulo deslizante.
Tampouco
mirror/var0 ou mirror/var1 serve como o ativo /var Espelho de partição a qualquer momento. Na mensagem de pânico do exemplo, vemos que /mirror/var1 era o espelho ativo. Olhando para o gmirror status e isi devices drive list saídas do comando para o nó:
Truncated
status Resultado do comando:
gmirror status mirror/var1 COMPLETE da14p3 (ACTIVE) <<<< da13p3 (ACTIVE) <<<<O comando
drive list Resultado do comando:
isi devices drive list Lnn Location Device Lnum State Serial Sled --------------------------------------------------------- 21 Bay 1 /dev/da1 15 L3 xxxxxxxxxxxx N/A 21 Bay 2 /dev/da2 16 L3 xxxxxxxxxxxx N/A 21 Bay A0 /dev/da5 12 HEALTHY xxxxxxxx A 21 Bay A1 /dev/da4 13 HEALTHY xxxxxxxx A 21 Bay A2 /dev/da3 14 HEALTHY xxxxxxxx A 21 Bay B0 /dev/da8 9 HEALTHY xxxxxxxx B 21 Bay B1 /dev/da7 10 HEALTHY xxxxxxxx B 21 Bay B2 /dev/da6 11 HEALTHY xxxxxxxx B 21 Bay C0 /dev/da11 6 HEALTHY xxxxxxxx C 21 Bay C1 /dev/da10 7 HEALTHY xxxxxxxx C 21 Bay C2 /dev/da9 8 HEALTHY xxxxxxxx C 21 Bay D0 /dev/da14 3 HEALTHY xxxxxxxx D <<<< 21 Bay D1 /dev/da13 4 HEALTHY xxxxxxxx D <<<< 21 Bay D2 /dev/da12 5 HEALTHY xxxxxxxx D 21 Bay E0 /dev/da17 0 HEALTHY xxxxxxxx E 21 Bay E1 /dev/da16 1 HEALTHY xxxxxxxx E 21 Bay E2 /dev/da15 2 HEALTHY xxxxxxxx E ---------------------------------------------------------Neste exemplo,
/mirror/var1 é integrado nas unidades D0 e D1. Quando o sled D é removido do cluster, o nó entra em pane devido à incapacidade de acessar o /var sistema de ficheiros.
Os diferentes tamanhos das partições var podem afetar qualquer tipo de nó do Isilon ou PowerScale que execute o OneFS 9.x. A expansão para
/var expande apenas o /var partição no sistema. A partição Last Known Good (LKG) permanece com o tamanho original. Se o ativo /var A partição é expandida e preenchida em mais de 50%, o que pode causar problemas se a partição precisar ser girada para manutenção.
Para determinar se esse problema afeta uma partição LKG no cluster, use o seguinte comando:
# isi_for_array -sX 'gmirror list var0 var1' | grep -A20 mirror | egrep "var|Media"Exemplo:
lab-1# isi_for_array -sX 'gmirror list var0 var1' | grep -A20 mirror | egrep "var|Media" lab-1: 1. Name: mirror/var0 lab-1: Mediasize: 2147479552 (2.0G) lab-1: Mediasize: 2147483648 (2.0G) lab-1: Mediasize: 2147483648 (2.0G) lab-2: 1. Name: mirror/var0 lab-2: Mediasize: 2147479552 (1.0G) <<<< lab-2: Mediasize: 2147483648 (1.0G) <<<< lab-2: Mediasize: 2147483648 (1.0G) <<<< lab-3: 1. Name: mirror/var0 lab-3: Mediasize: 2147479552 (2.0G) lab-3: Mediasize: 2147483648 (2.0G) lab-3: Mediasize: 2147483648 (2.0G) lab-4: 1. Name: mirror/var0 lab-4: Mediasize: 2147479552 (2.0G) lab-4: Mediasize: 2147483648 (2.0G) lab-4: Mediasize: 2147483648 (2.0G) ....Se qualquer um dos dispositivos voltar com um tamanho de (1,0 G), ele será afetado.
No exemplo acima, o lab-2
var0 As partições são afetadas e devem ser corrigidas. Execute novamente o comando para var1 em todo o cluster para determinar se ele também é afetado.Resolution
A correção permanente para o FAULT DOMAIN ISSUE ONLY está nas seguintes versões de código:
Para usar o script:
- OneFS 9.5.0.6
- 9.4.0.16
- 9.2.1.25
Nota: Esse problema não pode ser resolvido manualmente ou usando o script abaixo em clusters executados no modo de conformidade. Se o cluster estiver no modo de conformidade do SmartLock, esse problema poderá ser corrigido com o upgrade para as versões do OneFS listadas acima. Se não for possível fazer upgrade para corrigir esse problema, entre em contato com o Suporte Dell e solicite um patch do DA. Há um script disponível para resolver esse problema. Entre em contato com o Suporte Dell para receber os arquivos e siga as instruções abaixo.
Para usar o script:
- Faça download do script e do arquivo md5 no cluster. Copie os arquivos para /ifs/data/Isilon_Support no cluster e confirme se o hash md5 corresponde ao hash no arquivo md5:
Lab-1# mv var_mirror_repair.sh /ifs/data/Isilon_Support/ Lab-1# mv var_mirror_repair.md5 /ifs/data/Isilon_Support/ Lab-1# md5 /ifs/data/Isilon_Support/var_mirror_repair.sh MD5 (/ifs/data/Isilon_Support/var_mirror_repair.sh) = 0881afeeb39fdaf02e2a90d784e4ed21 Lab-1# # cat /ifs/data/Isilon_Support/var_mirror_repair.md5 0881afeeb39fdaf02e2a90d784e4ed21
- Se o hash não corresponder, faça download do script do site FTP e copie-o para o cluster novamente. Se o hash corresponder, execute o seguinte comando como root:
lab-1# sh /ifs/data/Isilon_Support/var_mirror_repair.sh
- O script geralmente leva de 5 a 10 minutos para ser executado. Pode demorar mais em clusters grandes (30+ nós) ou ocupados. Quando o script é concluído, ele informa se ele foi bem-sucedido ou se houve problemas.
Ao iniciar o script, você verá a seguinte saída:
Lab-1# sh /ifs/data/Isilon_Support/var_mirror_repair.sh Full output can be found at: /ifs/data/Isilon_Support/var_mirror_repair.FULL_CLUSTER.2023-10-19T092522.csv Status: 0/4 Nodes checked, 0/4 var0 partitions, 0/4 var1 partitions
À medida que o script progride, a linha Status é atualizada:
Status: 4/4 Nodes checked, 4/4 var0 partitions, 4/4 var1 partitions
Quando o script for concluído com sucesso, você verá o seguinte:
Status: 4/4 Nodes checked, 4/4 var0 partitions, 4/4 var1 partitions No issues were identified. Moving files to: var_mirror_repair.2023-10-19T092522.d Bundle Location: var_mirror_repair.2023-10-19T092522.tgz
Isso indica que todos os nós afetados foram reparados e que o script não teve problemas. Se o resultado recebido for diferente do deste exemplo, entre em contato com o Suporte Dell e forneça o resultado e os arquivos de log do local do pacote.
Affected Products
Isilon F800, Isilon F810, Isilon Gen6, Isilon H400, Isilon H500, Isilon H5600, Isilon H600, PowerScale Archive A300, PowerScale Archive A3000, PowerScale Hybrid H700, PowerScale Hybrid H7000Products
PowerScale F200, PowerScale F600, PowerScale F900Article Properties
Article Number: 000213248
Article Type: Solution
Last Modified: 06 Jan 2026
Version: 21
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.