Avamar: Hardware geração 4S: Como resolver vários eventos e erros de disco
Summary: Este artigo aborda muitos dos erros comuns relacionados ao disco relatados em um nó Gen4S, juntamente com as ações necessárias.
Symptoms
Eventos semelhantes aos seguintes são observados na interface do usuário ou nos arquivos de log:
Controller ID: 0 Unexpected sense: PD = Port 0 - 3:2:n Information unit CRC error detected, CDB = 0x28 0x00 0xb6 0x77 0xc3 0x07 0x00 0x01 0xd0 0x00, Sense = 0x70 0x00 0x0b 0x00 0x00 0x00 0x00 0x0a 0x00 0x00 0x00 0x00 0x47 0x03 0x00 0x00 0x00 0x00
Controller ID: 0 Unexpected sense: PD = Port 0 - 3:2:n Unrecovered read error, CDB = 0x28 0x00 0xd2 0x91 0xe0 0xf7 0x00 0x00 0x40 0x00, Sense = 0xf0 0x00 0x03 0xd2 0x91 0xe0 0xf7 0x0a 0x00 0x00 0x00 0x00 0x11 0x00 0x00 0x00 0x00 0x00
Controller ID: 0 Unexpected sense: PD = Port 0 - 3:2:n Hardware impending failure general hard drive failure, CDB = 0x03 0x00 0x00 0x00 0x40 0x00, Sense = 0x70 0x00 0x00 0x00 0x00 0x00 0x00 0x0a 0x00 0x00 0x00 0x00 0x5d 0x10 0x00 0x00 0x00 0x00
Controller ID: 0 PD Reset: PD = Port 0 - 3:2:n, Error = 3, Path = 0x5001234567890
Controller ID: 0 Unexpected sense: PD = -:-:n Recovered data - recommended rewrite, CDB = 0x2f 0x00 0x01 0x09 0x80 0x00 0x00 0x10 0x00 0x00, Sense = 0xf0 0x00 0x01 0x01 0x09 0x8f 0xed 0x18 0x00 0x00 0x00 0x00 0x18 0x06 0x00 0x80 0x09 0x19
Controller ID: 0 Command timeout on PD: PD = Port 0 - 3:2:n No additional sense information, CDB = 0xff 0xff 0xff 0xff 0xff 0xff 0xff 0xff 0xff 0xff 0xff 0xff 0xff 0xff 0xff 0xff, Sense = , Path = 0x5001234567890
Controller ID: 0 Unexpected sense: PD = Port 0 - 3:2:n Logical block address out of range, CDB = 0x2a 0x00 0xac 0x64 0xcd 0xe6 0x00 0x00 0x08 0x00, Sense = 0xf0 0x00 0x05 0xac 0x64 0xcd 0xe6 0x0a 0x00 0x00 0x00 0x00 0x21 0x00 0x00 0x00 0x00 0x00
Controller ID: 0 Unexpected sense: PD = Port 0 - 3:2:n Power on, reset, or bus device reset occurred, CDB = 0x2a 0x00 0x41 0xab 0x7a 0x00 0x00 0x00 0x80 0x00, Sense = 0x70 0x00 0x06 0x00 0x00 0x00 0x00 0x0a 0x00 0x00 0x00
Controller ID: 0 PD Predictive failure: Port 0 - 3:2:n
-
- 3:2:0 - 3:2:11 ou -:-:0 - -:-:11 são os discos padrão internos
- 3:2:12 ou -:-:12 é o disco SSD interno.
Cause
Consulte a seção de resolução para causas e ações.
Resolution
1. Faça log-in no Avamar Utility Node como administrador.
2. Eleve para o privilégio root.
3. Carregue as chaves raiz conforme o artigo Avamar: Como fazer log-in em um Avamar Server e carregar várias chaves.
4. Usando as informações do evento da interface do usuário ou do chamado dial-home, determine o nó que produziu a mensagem de erro.
5. Conecte-se ao nó como root usando o comando abaixo:
ssn 0.# --user=root
(Em que 0.# é o número do nó físico)
6. No nó afetado:
um. Verifique o status atual dos discos:
avsysreport pdisk
b. Analise o /var/log/messages Arquivo para eventos relacionados ao disco que relata o evento.
Ações necessárias com base nos eventos registrados:
- Para o evento "Dados recuperados - regravação recomendada":
- Se o disco não reportou outros eventos, isso pode ser ignorado com segurança
- Se houver outros eventos, como "Erro de leitura não recuperado", entre em contato com a Dell Technologies para determinar se o disco deve ser substituído proativamente.
- Para o evento "Endereço de bloco lógico fora do intervalo":
- Se o disco não reportou outros eventos, isso pode ser ignorado com segurança
- Se houver outros eventos, como "Erro de leitura não recuperado", entre em contato com a Dell Technologies para determinar se o disco deve ser substituído proativamente.
- Para o evento "Unrecovered read error":
- Se o evento se repetir mais de três vezes em um único disco, o disco em questão pode ter um problema de integridade. Entre em contato com a Dell Technologies para determinar se o disco deve ser substituído proativamente.
- Para o evento "Erro de CRC da unidade de informações detectado":
- Se o disco que relata o evento é 3:2:12, isso indica que a SSD está falhando. Entre em contato com a Dell Technologies para substituir o nó usando o procedimento de transferência de nó.
- Se o disco que relata o evento for 3:2:0-3:2:11, isso indica que o disco rígido está falhando. Entre em contato com a Dell Technologies para substituir proativamente o disco.
- Para o evento "Falha iminente de hardware, falha geral do disco rígido":
-
- Se o disco que relata o evento for 3:2:12, o SSD está falhando (ou falhou). Entre em contato com a Dell Technologies para substituir o nó usando o procedimento de transferência de nó.
- Se o disco que relata o evento for 3:2:0-3:2:11, o disco rígido está falhando (ou falhou). Entre em contato com a Dell Technologies para substituir proativamente o disco.
- Para o evento "Falha preditiva:
- Se o disco que relata o evento é 3:2:12, a SSD relatou um aviso de falha preditiva por meio da função SMART e indica que a SSD está falhando. Entre em contato com a Dell Technologies para substituir o nó usando o procedimento de transferência de nó.
- Se o disco que relata o evento for 3:2:0-3:2:11, o disco rígido relatou um aviso de falha preditiva por meio da função SMART e indica que o disco rígido está falhando. Entre em contato com a Dell Technologies para substituir proativamente o disco.
- Para o evento "Ocorreu inicialização, redefinição ou redefinição do dispositivo de barramento":
- Analise a
/var/log/messagespara verificar se um único disco ou vários discos estão relatando o erro.- Se um único disco estiver relatando o erro, eles podem estar relacionados às verificações semanais de consistência. Entre em contato com a Dell Technologies para determinar se o disco deve ser substituído proativamente.
- Se vários discos estiverem relatando o erro, o firmware do expansor está desatualizado ou o chassi está em um estado de falha. Entre em contato com a Dell Technologies para analisar os níveis de firmware ou substituir o nó usando o procedimento de transferência de nó.
- Analise a
- Para o evento "PD Reset":
- Analise a
/var/log/messagespara verificar se um único disco ou vários discos estão relatando o erro.- Se o disco foi substituído recentemente, essa mensagem é esperada e pode ser ignorada.
- Se a unidade não tiver sido substituída e reconstruída por conta própria, a unidade pode estar falhando ou falhando. Entre em contato com a Dell Technologies para substituir proativamente o disco.
- Analise a
- Para os eventos "Tempo de espera excedido do comando no PD" ou qualquer outro erro ainda não mencionado, entre em contato com a Dell Technologies para determinar o próximo curso de ação.