PowerScale:Isilon:Gen6:搭載過時 Mellanox5-EN0 韌體的 F810 節點,可能會在重新開機時意外無法保留其檔案系統日誌

摘要: Mellanox5-EN0 裝置 (僅在 F810 節點中發現) 上的舊版韌體發生問題,可能會在錯誤或其他錯誤要求或觸發暖重新開機時,強制這些節點意外冷重新開機。如果在受影響的節點可以檢索其日誌之前,對等節點也進行了冷重新開機,則兩個節點上的日誌可能會丟失。

本文章適用於 本文章不適用於 本文無關於任何特定產品。 本文未識別所有產品版本。

症狀

節點可能會在重新開機期間,在 BMC SEL 記錄中顯示後端壓縮 NIC 裝置的 IERR,接著會出現冷重新開機訊息。節點重新開機時,您可能會看到消息,指出節點的日誌無效,必須從對等節點檢索。如果擷取失敗 (因為對等節點也冷重新開機),開機將停止,並顯示指出無效日誌的錯誤訊息。您還可以在節點的消息日誌中看到類似於以下內容的消息:
2022-12-16T23:25:53-05:00 <3.4> CLUSTER-3(id3) isi_hwmon[2347]: (mlx5_health_v1) WARNING: MLX5 device mce0 firmware unhealthy.
2022-12-16T23:25:53-05:00 <3.3> CLUSTER-3(id3) isi_hwmon[2347]: (mlx5_health_v1) ERROR: MLX5 device unhealthy: mce0 -- {'irisc_index': 0, 'assert_return_address': 9413196L, 'assert_exit_pointer': 8455212L, 'firmware_version': 270012340L, 'miss_counter': 3L, 'syndrome': 7, 'hardware_device_id': 525L, 'assert_var4': 0L, 'assert_var3': 0L, 'assert_var2': 0L, 'assert_var1': 10338568L, 'assert_var0': 1L, 'extended_syndrome': '\x90@'}
2022-12-16T23:25:53-05:00 <3.4> CLUSTER-3(id3) isi_hwmon[2347]: (mlx5_health_v1) WARNING: MLX5 device mce1 firmware unhealthy.
2022-12-16T23:25:53-05:00 <3.3> CLUSTER-3(id3) isi_hwmon[2347]: (mlx5_health_v1) ERROR: MLX5 device unhealthy: mce1 -- {'irisc_index': 0, 'assert_return_address': 9413196L, 'assert_exit_pointer': 8455212L, 'firmware_version': 270012340L, 'miss_counter': 3L, 'syndrome': 7, 'hardware_device_id': 525L, 'assert_var4': 0L, 'assert_var3': 0L, 'assert_var2': 0L, 'assert_var1': 10338568L, 'assert_var0': 1L, 'extended_syndrome': '\x90@'}

原因

在 F810 節點中發現的 Mellanox5-EN0 裝置韌體版本 超過 16.28.1002+EMC0000000017 的版本,可能會在錯誤或其他錯誤要求或觸發暖重新開機時,強制這些節點意外冷重新開機。在正常情況下,節點會從對等節點複本復原其日誌。但是,如果對等節點也無法保留日誌完整性,則日誌可能會丟失。

解析度

此問題已在 2021 年 4 月作為節點韌體套件版本 11.1.3 和 10.3.6 的一部分發佈的 Mellanox5-EN0 韌體 16.28.1002+EMC0000000017 中修正。任何仍在任何 F810 節點上執行比上述版本更舊韌體版本的客戶,應儘快安裝最新的節點韌體套件版本,並排程在其叢集上進行節點韌體更新。

受影響的產品

Isilon, Isilon F810
文章屬性
文章編號: 000207184
文章類型: Solution
上次修改時間: 16 5月 2026
版本:  5
向其他 Dell 使用者尋求您問題的答案
支援服務
檢查您的裝置是否在支援服務的涵蓋範圍內。