PowerStore: Reinicialização inesperada do nó devido à falha da porta FC
Summary: Uma perda de memória no driver FC do nó do PowerStore pode ocorrer enquanto uma notificação de alteração de estado registrada (RSCN) é processada. Como resultado, a memória necessária para retornar uma lista de nomes de portas e nós que estão zoneados para o sistema pode não ser liberada como esperado. ...
Symptoms
Os sintomas podem incluir:
- Pane do nó devido à reinicialização inesperada
- Pane do kernel (memória insuficiente) OOM devido à porta FC oscilando
- O HBA do host afetado não pode obter conectividade estável
- Perda de acesso aos dados no host
Cause
Quando o status de um dispositivo muda (login/logout) em um fabric SAN, o switch envia notificações RSCN para todos os dispositivos conectados.
O driver FC do PowerStore envia comandos ao switch para consultar os WWNs que estão na zona do PowerStore.
A memória é alocada para essa consulta, mas pode não ser liberada corretamente.
Resolution
O problema foi corrigido no PowerStoreOS versão 3.5.x.x
O nó se recupera automaticamente após a reinicialização inesperada.
Additional Information
O WWN com defeito deve ser identificado e corrigido ou desconectado.
Analise os logs de switch e host para determinar a causa dos problemas.
Os possíveis motivos para oscilação da porta incluem: cabo FC solto ou sujo, porta do switch com defeito, SFP com defeito, HBA do host ou driver/firmware do HBA do host.
A compatibilidade de driver/firmware do HBA do host deve ser verificada.
Exemplos de oscilação de porta, status da porta alterado de on-line para off-line:
Exemplo de switch Brocade de oscilação da porta 2:
fabriclog --show : Time Stamp Input and *Action S, P Sn,Pn Port Xid =================================================================================== Switch 0; Sat Mar 19 10:02:31 2022 GMT (GMT+0:00) 10:02:31.817858 SCN Port Offline;rsn=0x4,g=0x4fd58 D2,P0 D2,P0 2 NA 10:02:31.817865 *Removing all nodes from port D2,P0 D2,P0 2 NA 10:02:31.831807 SCN LR_PORT(0);g=0x4fd58 D2,P0 D2,P0 2 NA 10:02:31.840928 SCN Port Online; g=0x4fd58,isolated=0 D2,P0 D2,P1 2 NA 10:02:31.841017 Port Elp engaged D2,P1 D2,P0 2 NA 10:02:31.841034 *Removing all nodes from port D2,P0 D2,P0 2 NA 10:02:31.841093 SCN Port F_PORT D2,P1 D2,P0 2 NA
Exemplo de switch Cisco Porta fc1/22 oscilando:
`show port-config internal all` *************** Port Config Port Control Log *************** ---- ------ ----------- ------- Time PortNo Port Action ErrCode ---- ------ ----------- ------- Mar 19 12:27:53 2023 00986053 fc1/22 Enable None Mar 19 12:27:53 2023 00984797 fc1/22 Participating Mode None Mar 19 12:13:43 2023 00558421 fc1/22 Enable None Mar 19 12:13:43 2023 00557170 fc1/22 Participating Mode None Mar 19 12:02:21 2023 00738769 fc1/22 Enable None Mar 19 12:02:21 2023 00737461 fc1/22 Participating Mode None Mar 19 11:40:58 2023 00976928 fc1/22 Enable None Mar 19 11:40:58 2023 00975543 fc1/22 Participating Mode None Mar 19 11:39:01 2023 00195273 fc1/22 Enable None Mar 19 11:39:01 2023 00193893 fc1/22 Participating Mode None Mar 19 11:37:13 2023 00341497 fc1/22 Enable None Mar 19 11:37:13 2023 00340169 fc1/22 Participating Mode None