PowerStore: Unerwarteter Node-Neustart aufgrund von FC-Port-Flap
Summary: Beim Verarbeiten einer RSCN-Benachrichtigung (Registered State Change Notification) kann es zu einem Speicherverlust im FC-Treiber des PowerStore-Node kommen. Infolgedessen wird der Arbeitsspeicher, der erforderlich ist, um eine Liste von Port- und Node-Namen zurückzugeben, die dem System per Zoning zugewiesen sind, möglicherweise nicht wie erwartet freigegeben. ...
Symptoms
Zu den Symptomen können gehören:
- Node-Panik aufgrund eines unerwarteten Neustarts
- Kernel-Panik (nicht genügend Arbeitsspeicher) OOM aufgrund von FC-Port-Flapping
- Betroffener Host-HBA kann keine stabile Konnektivität erhalten
- Hostseitiger Verlust des Zugriffs auf Daten
Cause
Wenn sich der Gerätestatus in einer SAN-Fabric ändert (Anmeldung/Abmeldung), sendet der Switch RSCN-Benachrichtigungen an alle verbundenen Geräte.
Der PowerStore FC-Treiber sendet Befehle an den Switch, um die WWNs abzufragen, die sich in der PowerStore-Zone befinden.
Arbeitsspeicher wird für eine solche Abfrage zugewiesen, aber möglicherweise nicht ordnungsgemäß freigegeben.
Resolution
Das in PowerStoreOS Version 3.5.x.x behobene Problem
Der Node wird nach dem unerwarteten Neustart automatisch wiederhergestellt.
Additional Information
Der fehlerhafte WWN sollte identifiziert und repariert oder getrennt werden.
Überprüfen Sie die Switch- und Hostprotokolle, um die Ursache der Probleme zu ermitteln.
Mögliche Gründe für Port-Flapping sind: loses oder verschmutztes FC-Kabel, fehlerhafter Switchport, fehlerhaftes SFP, Host-HBA oder Host-HBA-Treiber/-Firmware.
Die Kompatibilität des Host-HBA-Treibers/der Firmware sollte überprüft werden.
Beispiele für Port-Klapper, Portstatus wurde von "Online" in "Offline" geändert:
Beispiel für Brocade-Switch mit Klappern von Port2:
fabriclog --show : Time Stamp Input and *Action S, P Sn,Pn Port Xid =================================================================================== Switch 0; Sat Mar 19 10:02:31 2022 GMT (GMT+0:00) 10:02:31.817858 SCN Port Offline;rsn=0x4,g=0x4fd58 D2,P0 D2,P0 2 NA 10:02:31.817865 *Removing all nodes from port D2,P0 D2,P0 2 NA 10:02:31.831807 SCN LR_PORT(0);g=0x4fd58 D2,P0 D2,P0 2 NA 10:02:31.840928 SCN Port Online; g=0x4fd58,isolated=0 D2,P0 D2,P1 2 NA 10:02:31.841017 Port Elp engaged D2,P1 D2,P0 2 NA 10:02:31.841034 *Removing all nodes from port D2,P0 D2,P0 2 NA 10:02:31.841093 SCN Port F_PORT D2,P1 D2,P0 2 NA
Cisco Switch Beispielport fc1/22 flappt:
`show port-config internal all` *************** Port Config Port Control Log *************** ---- ------ ----------- ------- Time PortNo Port Action ErrCode ---- ------ ----------- ------- Mar 19 12:27:53 2023 00986053 fc1/22 Enable None Mar 19 12:27:53 2023 00984797 fc1/22 Participating Mode None Mar 19 12:13:43 2023 00558421 fc1/22 Enable None Mar 19 12:13:43 2023 00557170 fc1/22 Participating Mode None Mar 19 12:02:21 2023 00738769 fc1/22 Enable None Mar 19 12:02:21 2023 00737461 fc1/22 Participating Mode None Mar 19 11:40:58 2023 00976928 fc1/22 Enable None Mar 19 11:40:58 2023 00975543 fc1/22 Participating Mode None Mar 19 11:39:01 2023 00195273 fc1/22 Enable None Mar 19 11:39:01 2023 00193893 fc1/22 Participating Mode None Mar 19 11:37:13 2023 00341497 fc1/22 Enable None Mar 19 11:37:13 2023 00340169 fc1/22 Participating Mode None