Dell Unity: Compartilhamentos SMB ou NFS podem ficar inacessíveis devido a threads bloqueados
Summary: Como lidar com eventos de thread bloqueados em um sistema Dell Unity. (Corrigível pela Dell)
Symptoms
O objetivo deste artigo é fornecer orientações genéricas sobre como lidar com eventos de thread bloqueados, já que o manuseio adequado é crucial para a análise de causa raiz (RCA) e correção.
Há outros artigos disponíveis específicos para determinadas versões do Unity OE, como o artigo 000002643: DTA 503606: Unity: Os arrays que usam CIFS/SMB que executam o Ambiente Operacional (OE) 4.2.0.9392909 ou 4.2.0.9433914 devem fazer upgrade para o OE 4.2.0.9476662 (ou posterior), que resolve um possível problema de indisponibilidade de dados. (Somente usuários registrados do Suporte Dell podem acessar este artigo.)
Os servidores NAS, o file system e os compartilhamentos são exibidos on-line no lado do Dell Unity, mas os threads bloqueados fazem com que os compartilhamentos SMB ou NFS fiquem indisponíveis para os clients.
Possíveis códigos de erro:
13:102d0003 neo-13:102d0003 neo-13:102d0007
Cause
Há diferentes causas para threads bloqueados, e cada caso e sistema deve ser investigado separadamente.
Aqui estão algumas das razões mais comuns pelas quais isso pode ocorrer:
- Impasse em que dois threads estão aguardando um bloqueio de recurso pertencente ao outro thread
- Processamento de operação estendida (como autenticação atrasada, verificação de vírus e assim por diante)
Resolution
Solução imediata (temporária):
Uma reinicialização ou pane da controladora relatando as mensagens de threads bloqueados restaura o acesso imediatamente. Uma reinicialização e uma pane são essencialmente as mesmas, a única diferença é que a pane fornece um dump file de memória para pós-análise.
Informativo:
- Embora uma simples reinicialização alivie temporariamente o problema, provavelmente remove a capacidade de RCA.
- Somente um dump da controladora (pane) coletado enquanto a condição está presente permite que a Engenharia da Dell investigue totalmente e faça RCA da causa específica dos threads bloqueados.
- Somente a Dell pode realizar uma pane na controladora. Entre em contato com o suporte técnico da Dell ou com seu representante de serviço autorizado e mencione o ID deste artigo da Dell.
- Essa não é uma correção permanente e, se a causa subjacente dos threads bloqueados não for resolvida, isso poderá acontecer novamente até que a correção seja implementada.
Várias correções estão disponíveis para resolver essa condição, dependendo da versão do Unity OE instalada.
Nos casos em que uma correção não existe, é necessária uma pane da controladora, pois ela permite que a Dell obtenha um dump file com a condição atual do array para análise. A RCA pode não ser possível sem esse dump file. Uma pane da controladora requer acesso root.
Additional Information
/EMC/backend/log_shared só está presente (montado) na controladora primária, você deve estar na controladora primária (ativo ou registros) para acessar esse local e esses arquivos.
Nas mensagens de erro, você verá a SP afetada (a SP que deve ser reinicializada):
service@spa~# zgrep -i blocked /EMC/backend/log_shared/EMCSystemLogFile* EMCSystemLogFile.log:"2017-07-26T18:12:55.428Z" "unitymgr01_spa" "Kittyhawk_safe" "12657" "unix/spa/root" "ERROR" "13:102d0003" :: "ThreadsServicesSupervisor: Service:CIFS Pool:SMB2 BLOCKED for 423 seconds: Server operations may be impacted ." :: Category=System Component=DART_KERNEL EMCSystemLogFile.log:"2017-07-26T18:27:55.474Z" "unitymgr01_spa" "Kittyhawk_safe" "12657" "unix/spa/root" "ERROR" "13:102d0003" :: "ThreadsServicesSupervisor: Service:CIFS Pool:SMB2 BLOCKED for 1323 seconds: Server operations may be impacted ." :: Category=System Component=DART_KERNEL EMCSystemLogFile.log:"2017-07-26T18:42:55.520Z" "unitymgr01_spa" "Kittyhawk_safe" "12657" "unix/spa/root" "ERROR" "13:102d0003" :: "ThreadsServicesSupervisor: Service:CIFS Pool:SMB2 BLOCKED for 2222 seconds: Server operations may be impacted ." :: Category=System Component=DART_KERNEL
EMCSystemLogFile registros, sempre verifique diretamente no ktraces com certeza.
A coluna
ktrace Os arquivos podem ser quebrados rapidamente, de modo que essas mensagens podem não estar presentes no arquivo descompactado mais recente. A recomendação seria verificar todos os c4_safe_ktrace arquivos (encontrados em /EMC/C4Core/log/).
Na controladora afetada (a controladora em que reside o servidor NAS afetado), vá para
/EMC/C4Core/log/ e execute o comando abaixo (certifique-se de que a palavra BLOQUEADO esteja em todas as letras maiúsculas). Se não tiver certeza de qual controladora foi afetada, execute-o em ambas e a controladora afetada deverá mostrar estas mensagens:
service@spa~# zgrep -h BLOCKED c4_safe_ktrace* | sort ... 2017/09/20-07:46:... sade:KERNEL: 3: 3:[core] ThreadsServicesSupervisor: Service:CIFS Pool:SMB2BLOCKED for 33730 seconds: Server operations may be impacted 2017/09/20-08:01:... sade:KERNEL: 3: 3:[core] ThreadsServicesSupervisor: Service:CIFS Pool:SMB2BLOCKED for 34630 seconds: Server operations may be impacted 2017/09/20-08:16:... sade:KERNEL: 3: 3:[core] ThreadsServicesSupervisor: Service:CIFS Pool:SMB2BLOCKED for 35530 seconds: Server operations may be impacted 2017/09/20-08:31:... sade:KERNEL: 3: 3:[core] ThreadsServicesSupervisor: Service:CIFS Pool:SMB2BLOCKED for 36430 seconds: Server operations may be impacted 2017/09/20-08:46:... sade:KERNEL: 3: 3:[core] ThreadsServicesSupervisor: Service:CIFS Pool:SMB2BLOCKED for 37330 seconds: Server operations may be impacted 2017/09/20-09:01:... sade:KERNEL: 3: 3:[core] ThreadsServicesSupervisor: Service:CIFS Pool:SMB2BLOCKED for 38230 seconds: Server operations may be impacted 2017/09/20-09:16:... sade:KERNEL: 3: 3:[core] ThreadsServicesSupervisor: Service:CIFS Pool:SMB2BLOCKED for 39130 seconds: Server operations may be impacted 2017/09/20-09:31:... sade:KERNEL: 3: 3:[core] ThreadsServicesSupervisor: Service:CIFS Pool:SMB2BLOCKED for 40030 seconds: Server operations may be impacted