Connectrix: MDS da Cisco: Reinicialização do módulo Código de erro do sistema 0x42b8001e erro fatal.
Summary: O problema ocorre quando o módulo é redefinido e algumas portas entram no estado "hw_Failure". O intervalo de portas específico identificado deve ser colocado no estado de falha de hardware, mas em vez de todo o módulo ser recarregado. O erro "F16_PLDA_RETRY_MERR" é um erro ECC de vários bits, falha de hardware incorrigível. ...
Symptoms
O intervalo de portas específico entra no estado "hw_Failure":
`show interface brief` ----------------------------------------------------------------------------------------- Interface Vsan Admin Admin Status SFP Oper Oper Port Logical Mode Trunk Mode Speed Channel Type Mode (Gbps) ----------------------------------------------------------------------------------------- fc9/41 1400 FX off hwFailure swl -- -- -- -- fc9/42 1400 FX off hwFailure swl -- -- -- -- fc9/43 1400 FX off hwFailure swl -- -- -- -- fc9/44 1400 FX off hwFailure swl -- -- -- -- fc9/45 1 FX off hwFailure swl -- -- -- -- fc9/46 1 FX off hwFailure swl -- -- -- -- fc9/47 1400 FX off hwFailure swl -- -- -- -- fc9/48 1 E on hwFailure swl -- -- 57 --
O código de erro é exibido no log de exceções interno do módulo, conforme mostrado abaixo:
`show module internal exceptionlog module 9`
********* Exception info for module 9 ********
exception information --- exception instance 1 ----
Module Slot Number: 9
Device Id : 204
Device Name : F16 Generic Driver
Device Errorcode : 0xccc05600
Device ID : 204 (0xcc)
Device Instance : 05 (0x05)
Dev Type (HW/SW) : 06 (0x06)
ErrNum (devInfo) : 00 (0x00)
System Errorcode : 0x42b8001e fatal error
Error Type : FATAL error
PhyPortLayer : Fibre Channel
Port(s) Affected : fc9/41-48
Error Description : F16_PLDA_RETRY_MERR
DSAP : 0 (0x0)
Time : Mon Jan 6 22:22:32 2025
(Ticks: 677CAC08 jiffies)
Uma redefinição de módulo é vista no show logging nvram:
`show logging nvram` 2025 Jan 6 22:22:32 WTXA19710H15 %MODULE-2-MOD_SOMEPORTS_FAILED: Module 9 (Serial number: JAE18280N1K) reported failure on ports fc9/41-48 (Fibre Channel) due to fatal error in device DEV_F16_CMN (device error 0xccc05600) 2025 Jan 6 22:22:33 WTXA19710H15 %CALLHOME-2-EVENT: PORT_FAILURE
`show logging log` 2025 Jan 6 22:22:32 WTXA19710H15 %MODULE-2-MOD_SOMEPORTS_FAILED: Module 9 (Serial number: JAE18280N1K) reported failure on ports fc9/41-48 (Fibre Channel) due to fatal error in device DEV_F16_CMN (device error 0xccc05600) 2025 Jan 6 22:22:32 WTXA19710H15 %PORT-CHANNEL-5-PORT_DOWN: port-channel57: fc9/48 is down 2025 Jan 6 22:22:33 WTXA19710H15 %PORT-5-IF_DOWN_HW_FAILURE: %$VSAN 1%$ Interface fc9/48 is down (Hardware Failure) port-channel57 ISL to WTXA19710C02 fc7/22 2025 Jan 6 22:22:33 WTXA19710H15 %CALLHOME-2-EVENT: PORT_FAILURE 2025 Jan 6 22:22:33 WTXA19710H15 %PORT-5-IF_DOWN_HW_FAILURE: %$VSAN 1400%$ Interface fc9/47 is down (Hardware Failure) ltx15brwccas01_h0 2025 Jan 6 22:22:33 WTXA19710H15 %PORT-5-IF_DOWN_HW_FAILURE: %$VSAN 1%$ Interface fc9/46 is down (Hardware Failure) 2025 Jan 6 22:22:33 WTXA19710H15 %PORT-5-IF_DOWN_HW_FAILURE: %$VSAN 1%$ Interface fc9/45 is down (Hardware Failure) 2025 Jan 6 22:22:33 WTXA19710H15 %PORT-5-IF_DOWN_HW_FAILURE: %$VSAN 1400%$ Interface fc9/44 is down (Hardware Failure) 2025 Jan 6 22:22:33 WTXA19710H15 %PORT-5-IF_DOWN_HW_FAILURE: %$VSAN 1400%$ Interface fc9/43 is down (Hardware Failure) 2025 Jan 6 22:22:33 WTXA19710H15 %PORT-5-IF_DOWN_HW_FAILURE: %$VSAN 1400%$ Interface fc9/42 is down (Hardware Failure) ltx14brwccas02_h0 2025 Jan 6 22:22:33 WTXA19710H15 %PORT-5-IF_DOWN_HW_FAILURE: %$VSAN 1400%$ Interface fc9/41 is down (Hardware Failure) ltx14brwccas01_h0
Cause
O erro DEV_F16_CMN em um switch Cisco MDS série 9000 normalmente indica um problema de hardware relacionado ao F16 ASIC. Esse erro geralmente resulta na reinicialização do módulo devido a um erro de ECC (Código de correção de erros) de vários bits irrecuperável.
Resolution
A única maneira de recuperar uma interface do hw_Failure é recarregar o módulo de forma disruptiva.
#reload module x
Se as interfaces estiverem em uma falha temporária de hardware, o status será recuperável pelo recarregamento do módulo. Se as interfaces tiverem uma falha permanente de hardware, prossiga com a substituição do módulo.
Additional Information
SR #203555104