Avamar: Partições, partições e falhas de hfscheck suspensas no Avamar

Summary: Este artigo fala sobre partições suspensas, faixas e falhas do Hfscheck no Avamar (código de sintoma 22632)

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

1. O seguinte erro pode aparecer na interface do usuário do servidor Avamar Administrator. A mensagem pode gerar um chamado (SR) de dial-home:

Symptom Code: 22632, Desc: A server disk has become suspended.
 

2. Mensagens de ADVERTÊNCIA relacionadas a perfbeat Os threads são relatados nos nós de armazenamento de dados no /data01/cur/gsan.log:

WARN: <0968> perfbeat::outoftolerance mbpersec=0.31 average=5.66
WARN: <1051> tperfstatechanger::execute server_exception(MSG_ERR_UNNECESSARY) diskid=0 newstate=suspended
WARN: <1084> changing disk 0 on node 0.3 to suspended state
 

3. A coluna status.dpn A saída mostra que um disco tem faixas suspensas:
(Essa saída só é produzida quando ocorre "WARN <1084>".)

Por exemplo:

0.8 10.10.10.10 7.3.1-125 ONLINE fullaccess mhpu+0hpu+0hpu 1 false 7.36 16350564 3401334 56.0% 66%(onl:1,SUS:2374) 50%(onl:2439) 50%(onl:2433) 

Esse resultado mostra que há 2.374 faixas suspensas.

4. A coluna hfscheck falhará se uma partição ficar suspensa enquanto o hfscheck está em execução. Um exemplo de erro de /data01/hfscheck/err.log ou /data01/cur/err.log are: 

ERROR: <0001> indexstripe::hfschecksweepbody stripe=0.0-1209 proxy=0.0-1209 indexelem([hash=ee9b2fe66b4bd472e28c4f41c5097dbeaba7131a stripe=0.1-DF8 offset=1285]) goodowner=true goodelem=false

 

Cause

Periodicamente, a cada cinco minutos por padrão, o gsan "testa" o I/O subsistema executando pequenas leituras a partir das partições de dados.

Ele verifica se o desempenho de leitura é 10% maior do que o desempenho normal.

 

No exemplo abaixo, a mensagem está indicando que, no nó específico que gerou a mensagem de aviso, o desempenho médio de leitura em um número estendido de tentativas enquanto hfscheck estava em execução é de aproximadamente 54,03 MB/segundo. No entanto, neste teste específico, o desempenho real foi de 0,57 MB/segundo, o que está abaixo do "limite" de 10% do valor médio, ou 5,4029 MB/segundo.

Event Summary = perfbeat::outoftolerance mask=[hfscheck] average=54.03 limit=5.4029 mbpersec=0.57
 

O objetivo original deste teste era fornecer algum aviso de que havia algum problema com o I/O subsistema que está fazendo com que o desempenho de leitura seja excessivamente lento. 

Nesse caso, mais lento que 10% do disco "médio" I/O desempenho.

A coluna perftriallimit Especifica o número de testes consecutivos de leitura de disco que devem estar fora da tolerância antes perfbeat suspeita que um disco pode estar degradado.

A coluna perfinterval (padrão de 300s ou 5 minutos) especifica o tempo de espera entre cada perftriallimit teste.

 

No perfbeat Suspeita que um disco está degradado, informa ao gsan Para alcançar um estado inativo (interrompa todas as atividades relacionadas ao disco). 

Ele aguarda no máximo 20 minutos (com fio) pelo gsan para atingir esse estado antes de exceder o tempo de espera e não suspender o disco.

Se o estado frio for atingido, então perfbeat Executa perfcoldtriallimit (padrão 4) mais testes de leitura espaçados perfcoldinterval (padrão 30) segundos de diferença.

Somente se todos esses testes indicarem que o disco ainda está degradado, o disco será suspenso.

 

Possíveis motivos para a suspensão dos discos:

  • Ao tentar alcançar um estado frio, o gsan sempre espera pelo menos um minuto (com fio). Ele também aguarda por todos os discos gsan pendentes I/O atividades relacionadas para concluir ou suspender sua operação. No entanto, depois que um estado inativo é atingido, o sistema operacional ainda pode estar executando o disco I/O, como limpar seu cache. Essa atividade de flushing é uma possível explicação para o motivo pelo qual os discos são suspensos desnecessariamente. Com as quantidades maiores de memória, pode haver muito mais dados em cache para flush.

  • Outra explicação possível é que as informações do histórico de desempenho não estão prevendo com precisão qual deve ser o desempenho de leitura de disco esperado durante várias gsan atividades porque o gsan's O comportamento mudou muito rapidamente para que o histórico reflita (o histórico é uma média das medições de desempenho dos últimos 10 dias).

  • Outra explicação possível é que pode haver um problema, como não esperar por todos gsan disco I/O atividades para concluir ou suspender sua operação antes de atingir um estado frio.

Além disso, a pesquisa mostrou que durante o hfscheck "indexsweep" fase (quando todos os hashes nas faixas de índice estão sendo lidos e, em seguida, realizando gravações aleatórias maciças em muitos arquivos DRL (Data Referenced Log)), o testado I/O O desempenho cai por um período significativo.

No Avamar Data Store Gen4, Gen4s e Gen4T, as operações de gravação foram priorizadas em relação às operações de leitura e a importância de testar o desempenho de leitura do I/O subsistema é muito mais baixo. Além disso, algumas unidades (como Seagate Megalodon unidades) usam algumas técnicas diferentes que podem confundir os testes que estão sendo realizados pelo perfbeat fio.

Resolution

Informações gerais:

Geralmente, há três mensagens de advertência diferentes vistas no gsan Logs:

WARN: <0968> perfbeat::outoftolerance mbpersec=0.31 average=5.66

O aviso <0968> indica que houve um indivíduo gsan I/O teste que foi lento.

Esta mensagem pode ser ignorada com segurança.

 
WARN: <1051> tperfstatechanger::execute server_exception(MSG_ERR_UNNECESSARY) diskid=0 newstate=suspended

O aviso <1051> indica que houve leituras lentas o suficiente para que o gsan foi considerado colocar a partição de dados no estado suspenso, mas decidiu não fazê-lo. É o que MSG_ERR_UNNECESSARY indica.

Esta mensagem pode ser ignorada com segurança.

 
WARN: <1084> changing disk 0 on node 0.3 to suspended state

O aviso <1084> indica que o gsan colocou a partição de dados em um "estado suspenso".

Essa mensagem não deve ser ignorada.

 
 

Resolução:

Se as frações forem colocadas em um estado suspenso, use as diretrizes a seguir para investigar e corrigir os seguintes cenários:

Execute o seguinte para identificar o local da partição suspensa:

1. Faça log-in no Avamar Utility Node como administrador.

2. Eleve para o privilégio root.

3. Carregue as chaves raiz por Avamar: Como fazer log-in em um Avamar Server e carregar várias chaves.

4. Execute o seguinte comando para identificar a localização da partição suspensa:

mapall --noerror 'grep -i "suspended" /data01/cur/err.log'
 

5. Analise os cenários em relação aos resultados acima:

Cenário # 1: Partes aleatórias em diferentes nós de armazenamento colocadas em um estado suspenso:
    • Nenhuma ação será necessária. As faixas retornam on-line automaticamente. É muito provável que hfscheck estavam correndo. 
 
Cenário # 2: A mesma partição no mesmo nó de armazenamento colocada em um estado suspenso:
    • Se as faixas voltarem on-line automaticamente, é altamente provável que a coleta de lixo ou hfscheck estavam correndo.
    • IMPORTANTE: Isso pode ser uma indicação de um problema de disco ou algum problema subjacente.
    • Embora a unidade ainda não tenha falhado, ela ainda deve ser verificada usando as etapas abaixo:

1. Determine quais discos físicos estão associados ao disco que o Avamar suspendeu. Problemas com o disco físico dentro de uma suspensão de disco virtual seriam uma causa raiz para uma suspensão:

avsysreport pdisk vdisk=x 

Em que x é o número do disco virtual (partição de dados) que foi suspenso. Por exemplo, se a primeira partição de dados mostrar faixas suspensas, consulte vdis=0.

Nota: Consulte o Avamar: O local de um disco físico e a qual grupo de RAID ele pertence em um nó do Avamar para obter mais informações sobre atribuições de discos virtuais e físicos.
 

2. Verifique se não há falhas de disco, falhas previstas ou outros erros no nível do disco físico.

3. Confirme se não há erros SCSI nos discos físicos que representam o disco virtual no nó em questão (determinado na Etapa 1). 

grep -i "MRMON\|scsi|Adaptec" /var/log/messages
 

4. Discos virtuais no modo Write Through podem causar suspensões de disco devido à baixa I/O. Verifique a política de gravação no controlador:

mapall --noerror --all+ 'avsysreport vdisk | grep "Write Policy"'  
 

Se algum problema for detectado nas etapas 2 a 4, abra um chamado com o suporte do Avamar da Dell Technologies para uma investigação mais aprofundada.

 

Cenário # 3: Revise o padrão perftriallimit Configurações:

1. Verifique se a pasta perftriallimit está definido como 0:

avmaint config --ava | grep perftriallimit 
perftriallimit="0"
 

2. Se a solicitação do perftriallimit é qualquer coisa diferente de zero:

um. Atualize-o executando o comando:

avmaint config --ava perftriallimit=0

b. Confirme a alteração:

avmaint config --ava | grep perftriallimit 
perftriallimit="0"
 

 

 

Affected Products

Avamar

Products

Avamar, Avamar Server
Article Properties
Article Number: 000061342
Article Type: Solution
Last Modified: 17 Jun 2025
Version:  10
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.