Connectrix:Cisco MDS:模組重設:系統錯誤代碼0x42b8001e致命錯誤。

Summary: 在模組重設,且少數連接埠進入「hw_Failure」狀態時,會出現此問題。識別的特定連接埠範圍應進入硬體故障狀態,而非重新載入整個模組。錯誤「F16_PLDA_RETRY_MERR」是多位 ECC 錯誤,是無法修正的硬體故障。

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

特定連接埠範圍會進入「hw_Failure」狀態:

`show interface brief`
-----------------------------------------------------------------------------------------
Interface  Vsan   Admin  Admin   Status       SFP    Oper  Oper   Port     Logical
                  Mode   Trunk                       Mode  Speed  Channel   Type
                         Mode                              (Gbps)
-----------------------------------------------------------------------------------------
fc9/41      1400   FX     off     hwFailure    swl   --     --     --       --       
fc9/42      1400   FX     off     hwFailure    swl   --     --     --       --       
fc9/43      1400   FX     off     hwFailure    swl   --     --     --       --       
fc9/44      1400   FX     off     hwFailure    swl   --     --     --       --       
fc9/45      1      FX     off     hwFailure    swl   --     --     --       --       
fc9/46      1      FX     off     hwFailure    swl   --     --     --       --       
fc9/47      1400   FX     off     hwFailure    swl   --     --     --       --       
fc9/48      1      E      on      hwFailure    swl   --     --     57       --    

在模組內部例外記錄中會看到錯誤代碼,如下所示:

`show module internal exceptionlog module 9`
********* Exception info for module 9 ********
exception information --- exception instance 1 ----
Module Slot Number: 9
Device Id         : 204
Device Name       : F16 Generic Driver
Device Errorcode  : 0xccc05600
Device ID         : 204 (0xcc)
Device Instance   : 05 (0x05)
Dev Type (HW/SW)  : 06 (0x06)
ErrNum (devInfo)  : 00 (0x00)
System Errorcode  : 0x42b8001e fatal error
Error Type        : FATAL error
PhyPortLayer      : Fibre Channel
Port(s) Affected  : fc9/41-48
Error Description : F16_PLDA_RETRY_MERR
DSAP              : 0 (0x0)
Time              : Mon Jan  6 22:22:32 2025
                    (Ticks: 677CAC08 jiffies)

在顯示記錄 nvram 時看到模組重設:

`show logging nvram`
2025 Jan  6 22:22:32 WTXA19710H15 %MODULE-2-MOD_SOMEPORTS_FAILED: Module 9 (Serial number: JAE18280N1K) reported failure on ports fc9/41-48 (Fibre Channel) due to fatal error in device DEV_F16_CMN (device error 0xccc05600)
2025 Jan  6 22:22:33 WTXA19710H15 %CALLHOME-2-EVENT: PORT_FAILURE
`show logging log`
2025 Jan  6 22:22:32 WTXA19710H15 %MODULE-2-MOD_SOMEPORTS_FAILED: Module 9 (Serial number: JAE18280N1K) reported failure on ports fc9/41-48 (Fibre Channel) due to fatal error in device DEV_F16_CMN (device error 0xccc05600)
2025 Jan  6 22:22:32 WTXA19710H15 %PORT-CHANNEL-5-PORT_DOWN: port-channel57: fc9/48 is down
2025 Jan  6 22:22:33 WTXA19710H15 %PORT-5-IF_DOWN_HW_FAILURE: %$VSAN 1%$ Interface fc9/48 is down (Hardware Failure) port-channel57 ISL to WTXA19710C02 fc7/22 
2025 Jan  6 22:22:33 WTXA19710H15 %CALLHOME-2-EVENT: PORT_FAILURE
2025 Jan  6 22:22:33 WTXA19710H15 %PORT-5-IF_DOWN_HW_FAILURE: %$VSAN 1400%$ Interface fc9/47 is down (Hardware Failure)  ltx15brwccas01_h0 
2025 Jan  6 22:22:33 WTXA19710H15 %PORT-5-IF_DOWN_HW_FAILURE: %$VSAN 1%$ Interface fc9/46 is down (Hardware Failure)   
2025 Jan  6 22:22:33 WTXA19710H15 %PORT-5-IF_DOWN_HW_FAILURE: %$VSAN 1%$ Interface fc9/45 is down (Hardware Failure)   
2025 Jan  6 22:22:33 WTXA19710H15 %PORT-5-IF_DOWN_HW_FAILURE: %$VSAN 1400%$ Interface fc9/44 is down (Hardware Failure)   
2025 Jan  6 22:22:33 WTXA19710H15 %PORT-5-IF_DOWN_HW_FAILURE: %$VSAN 1400%$ Interface fc9/43 is down (Hardware Failure)   
2025 Jan  6 22:22:33 WTXA19710H15 %PORT-5-IF_DOWN_HW_FAILURE: %$VSAN 1400%$ Interface fc9/42 is down (Hardware Failure)  ltx14brwccas02_h0 
2025 Jan  6 22:22:33 WTXA19710H15 %PORT-5-IF_DOWN_HW_FAILURE: %$VSAN 1400%$ Interface fc9/41 is down (Hardware Failure)  ltx14brwccas01_h0 

 

Cause

Cisco MDS 9000 系列交換器上的 DEV_F16_CMN 錯誤通常表示與 F16 ASIC 相關的硬體問題。此錯誤常導致模組因為無法還原的多位元錯誤校正碼 (ECC) 錯誤而重新開機。

Resolution

從hw_Failure恢復介面的唯一方法是以破壞性方式重新載入模組。

#reload module x

如果介面發生臨時硬體故障,狀態可透過模組重新載入來復原。如果介面發生永久性硬體故障,請繼續進行模組更換。

 

警告:該活動具有破壞性,應在維護時段內執行。

 

Additional Information

SR #203555104 

Affected Products

Connectrix MDS-Series Hardware
Article Properties
Article Number: 000271449
Article Type: Solution
Last Modified: 03 Feb 2025
Version:  1
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.