PowerScale: O driver audit_flt no processo de SMB está em um estado FECHADO, causando indisponibilidade do nó
Resumo: Foi identificado um problema no código do OneFS 9.7, em que o driver de auditoria não carrega corretamente no processo SMB (Server Message Block). Isso pode levar à indisponibilidade de dados. ...
Sintomas
Esse problema pode afetar clusters que executam os níveis de código de versão 9.7.1.0 - 9.7.1.7.
Os principais sintomas são:
- Os usuários SMB não conseguem acessar alguns ou todos os nós.
- O serviço SMB em alguns ou todos os nós mostra um alto número de conexões em um
CLOSEDEstado. Enquanto as conexões em umCLOSEDO estado pode ocorrer por vários motivos, além de ser um sintoma associado a esse problema específico. Para verificar isso, use o seguinte comando:
isi_for_array -X 'netstat -an | grep "\.445 " | grep CLOSED | wc -l' | sort -V
Você deve esperar ver tudo '0' na saída. Veja abaixo um exemplo de cluster que exibe esse problema:
MyCluster-1# isi_for_array -X 'netstat -an | grep "\.445 " | grep CLOSED | wc -l' | sort -V
MyCluster-1: 208
MyCluster-2: 425
MyCluster-3: 2228
MyCluster-4: 146
MyCluster-5: 5284
MyCluster-6: 964
- A auditoria está habilitada no cluster. Verifique com este comando:
isi audit settings global view | grep "Protocol Auditing"
MyCluster-1# isi audit settings global view | grep "Protocol Auditing"
Protocol Auditing Enabled: Yes
- O cluster está executando o código afetado (9.7.1.0 - 9.7.1.7):
Para determinar conclusivamente se o cluster está enfrentando esse problema, abra um chamado ao Suporte Dell. Eles podem ajudar a examinar o core dump do SMB a partir do serviço LWIO (igualmente entrada/saída).
Causa
Esse problema ocorre porque o processo SMB não carrega corretamente o audit_flt na inicialização. Esse problema geralmente é acionado quando o serviço SMB é reiniciado, como durante um upgrade de código ou failover e failback entre clusters. No entanto, isso poderá acontecer se o SMB for reiniciado por qualquer motivo.
Resolução
Para aliviar o problema, reinicie o serviço SMB. Em circunstâncias normais, uma reinicialização isolada do SMB deve ser suficiente:
MyCluster-1# killall -6 lwio
Isso pode ser feito em vários nós com isi_for_array.
Veja abaixo um exemplo de reinicialização do serviço SMB nos nós 1 a 4:
MyCluster-1# isi_for_array -n1-4 'killall -6 lwio'
Se isso não aliviar o problema, pode ser necessário reiniciar o SMB e todas as dependências:
MyCluster-1# /usr/likewise/bin/lwsm restart lwio
Novamente, isso pode ser feito em vários nós simultaneamente usando isi_for_array.
Veja abaixo um exemplo de reinicialização da pilha SMB nos nós 1 a 4:
MyCluster-1# isi_for_array -n1-4 '/usr/likewise/bin/lwsm restart lwio'
Esse problema foi resolvido no código do OneFS 9.7.1.8 em diante.