PowerStore: Riavvio imprevisto del nodo a causa dello flap della porta FC
Summary: È possibile che si verifichi una perdita di memoria nel driver FC del nodo PowerStore durante l'elaborazione di una notifica di modifica dello stato registrato (RSCN). Di conseguenza, la memoria richiesta per restituire un elenco di nomi di porte e nodi suddivisi in zone nel sistema potrebbe non essere liberata come previsto. ...
Symptoms
I sintomi possono includere:
- Errore irreversibile del nodo dovuto a un riavvio imprevisto
- Errore irreversibile del kernel (memoria esaurita) OOM a causa dello sfarfallio delle porte FC
- L'HBA host interessato non riesce a ottenere una connettività stabile
- Perdita di accesso ai dati lato host
Cause
Quando lo stato di un dispositivo cambia (login/logout) in una fabric SAN, lo switch invia notifiche RSCN a tutti i dispositivi connessi.
Il driver PowerStore FC invia comandi allo switch per eseguire query sui WWN presenti nella zona di PowerStore.
La memoria viene allocata per tale query, ma potrebbe non essere liberata correttamente.
Resolution
Problema risolto in PowerStoreOS versione 3.5.x.x
Il nodo viene ripristinato automaticamente dopo il riavvio imprevisto.
Additional Information
Il WWN difettoso deve essere identificato e riparato o disconnesso.
Esaminare i registri dello switch e dell'host per determinare la causa dei problemi.
Le possibili cause dello instabilità delle porte includono: cavo FC allentato o sporco, porta dello switch difettosa, SFP difettoso, HBA host o driver/firmware HBA host.
È necessario verificare la compatibilità del firmware/driver HBA host.
Esempi di instabilità delle porte, stato della porta modificato da Online a Offline:
Esempio di instabilità della porta 2 tramite switch Brocade:
fabriclog --show : Time Stamp Input and *Action S, P Sn,Pn Port Xid =================================================================================== Switch 0; Sat Mar 19 10:02:31 2022 GMT (GMT+0:00) 10:02:31.817858 SCN Port Offline;rsn=0x4,g=0x4fd58 D2,P0 D2,P0 2 NA 10:02:31.817865 *Removing all nodes from port D2,P0 D2,P0 2 NA 10:02:31.831807 SCN LR_PORT(0);g=0x4fd58 D2,P0 D2,P0 2 NA 10:02:31.840928 SCN Port Online; g=0x4fd58,isolated=0 D2,P0 D2,P1 2 NA 10:02:31.841017 Port Elp engaged D2,P1 D2,P0 2 NA 10:02:31.841034 *Removing all nodes from port D2,P0 D2,P0 2 NA 10:02:31.841093 SCN Port F_PORT D2,P1 D2,P0 2 NA
Esempio di switch Cisco: porta fc1/22 lampeggiante:
`show port-config internal all` *************** Port Config Port Control Log *************** ---- ------ ----------- ------- Time PortNo Port Action ErrCode ---- ------ ----------- ------- Mar 19 12:27:53 2023 00986053 fc1/22 Enable None Mar 19 12:27:53 2023 00984797 fc1/22 Participating Mode None Mar 19 12:13:43 2023 00558421 fc1/22 Enable None Mar 19 12:13:43 2023 00557170 fc1/22 Participating Mode None Mar 19 12:02:21 2023 00738769 fc1/22 Enable None Mar 19 12:02:21 2023 00737461 fc1/22 Participating Mode None Mar 19 11:40:58 2023 00976928 fc1/22 Enable None Mar 19 11:40:58 2023 00975543 fc1/22 Participating Mode None Mar 19 11:39:01 2023 00195273 fc1/22 Enable None Mar 19 11:39:01 2023 00193893 fc1/22 Participating Mode None Mar 19 11:37:13 2023 00341497 fc1/22 Enable None Mar 19 11:37:13 2023 00340169 fc1/22 Participating Mode None