PowerStore: Reinicio inesperado del nodo debido a una inestabilidad en el puerto FC
Summary: Es posible que se produzca una pérdida de memoria en el controlador FC del nodo de PowerStore mientras se procesa una notificación de cambio de estado registrado (RSCN). Como resultado, es posible que la memoria necesaria para devolver una lista de nombres de puerto y nodo zonificados al sistema no se libere según lo esperado. ...
Symptoms
Los síntomas pueden incluir:
- Estado de alarma del nodo debido a un reinicio inesperado
- Kernel panic (memoria insuficiente) OOM debido a la inestabilidad del puerto FC
- El HBA del host afectado no puede obtener una conectividad estable
- Pérdida de acceso del lado del host a los datos
Cause
Cuando cambia el estado de un dispositivo (inicio y cierre de sesión) en un fabric SAN, el switch envía notificaciones de RSCN a todos los dispositivos conectados.
El controlador FC de PowerStore envía comandos al switch para consultar los WWN que se encuentran en la zona de PowerStore.
Se asigna memoria para una consulta de este tipo, pero es posible que no se libere correctamente.
Resolution
El problema resuelto en PowerStoreOS versión 3.5.x.x
El nodo se recupera automáticamente después del reinicio inesperado.
Additional Information
El WWN defectuoso se debe identificar y corregir o desconectar.
Revise los registros del switch y del host para determinar la causa de los problemas.
Las posibles razones de la inestabilidad de los puertos incluyen: cable FC suelto o sucio, puerto de switch defectuoso, SFP defectuoso, HBA de host o controlador/firmware de HBA de host.
Se debe comprobar la compatibilidad del controlador/firmware del HBA del host.
Ejemplos de variación de puertos; el estado del puerto cambió de Online a Offline:
Ejemplo de switch Brocade de la inestabilidad del puerto 2:
fabriclog --show : Time Stamp Input and *Action S, P Sn,Pn Port Xid =================================================================================== Switch 0; Sat Mar 19 10:02:31 2022 GMT (GMT+0:00) 10:02:31.817858 SCN Port Offline;rsn=0x4,g=0x4fd58 D2,P0 D2,P0 2 NA 10:02:31.817865 *Removing all nodes from port D2,P0 D2,P0 2 NA 10:02:31.831807 SCN LR_PORT(0);g=0x4fd58 D2,P0 D2,P0 2 NA 10:02:31.840928 SCN Port Online; g=0x4fd58,isolated=0 D2,P0 D2,P1 2 NA 10:02:31.841017 Port Elp engaged D2,P1 D2,P0 2 NA 10:02:31.841034 *Removing all nodes from port D2,P0 D2,P0 2 NA 10:02:31.841093 SCN Port F_PORT D2,P1 D2,P0 2 NA
Ejemplo de puerto fc1/22 del switch Cisco:
`show port-config internal all` *************** Port Config Port Control Log *************** ---- ------ ----------- ------- Time PortNo Port Action ErrCode ---- ------ ----------- ------- Mar 19 12:27:53 2023 00986053 fc1/22 Enable None Mar 19 12:27:53 2023 00984797 fc1/22 Participating Mode None Mar 19 12:13:43 2023 00558421 fc1/22 Enable None Mar 19 12:13:43 2023 00557170 fc1/22 Participating Mode None Mar 19 12:02:21 2023 00738769 fc1/22 Enable None Mar 19 12:02:21 2023 00737461 fc1/22 Participating Mode None Mar 19 11:40:58 2023 00976928 fc1/22 Enable None Mar 19 11:40:58 2023 00975543 fc1/22 Participating Mode None Mar 19 11:39:01 2023 00195273 fc1/22 Enable None Mar 19 11:39:01 2023 00193893 fc1/22 Participating Mode None Mar 19 11:37:13 2023 00341497 fc1/22 Enable None Mar 19 11:37:13 2023 00340169 fc1/22 Participating Mode None