PowerScale:Isilon:第 6 代:具有过时 Mellanox5-EN0 固件的 F810 节点可能会在重新启动期间意外地无法保留其文件系统日志
摘要: Mellanox5-EN0 设备上较早版本的固件(仅在 F810 节点中发现)的问题可能会在请求热重新启动或由死机或其他错误触发时强制这些节点意外冷重新启动。如果在受影响的节点可以检索其日志之前,对等节点也进行了冷重新启动,则两个节点上的日志可能会丢失。
本文适用于
本文不适用于
本文并非针对某种特定的产品。
本文并非包含所有产品版本。
症状
在重新启动期间,节点可能会在 BMC SEL 日志中显示后端压缩 NIC 设备上的 IERR,然后显示冷重新启动消息。当节点重新启动时,您可能会看到消息,指示节点的日志无效,必须从对等节点检索。如果检索失败(因为对等节点也进行了冷重新启动),启动将停止,并显示一条错误消息,指示日志无效。您可能还会在节点的消息日志中看到类似于以下内容的消息:
2022-12-16T23:25:53-05:00 <3.4> CLUSTER-3(id3) isi_hwmon[2347]: (mlx5_health_v1) WARNING: MLX5 device mce0 firmware unhealthy.
2022-12-16T23:25:53-05:00 <3.3> CLUSTER-3(id3) isi_hwmon[2347]: (mlx5_health_v1) ERROR: MLX5 device unhealthy: mce0 -- {'irisc_index': 0, 'assert_return_address': 9413196L, 'assert_exit_pointer': 8455212L, 'firmware_version': 270012340L, 'miss_counter': 3L, 'syndrome': 7, 'hardware_device_id': 525L, 'assert_var4': 0L, 'assert_var3': 0L, 'assert_var2': 0L, 'assert_var1': 10338568L, 'assert_var0': 1L, 'extended_syndrome': '\x90@'}
2022-12-16T23:25:53-05:00 <3.4> CLUSTER-3(id3) isi_hwmon[2347]: (mlx5_health_v1) WARNING: MLX5 device mce1 firmware unhealthy.
2022-12-16T23:25:53-05:00 <3.3> CLUSTER-3(id3) isi_hwmon[2347]: (mlx5_health_v1) ERROR: MLX5 device unhealthy: mce1 -- {'irisc_index': 0, 'assert_return_address': 9413196L, 'assert_exit_pointer': 8455212L, 'firmware_version': 270012340L, 'miss_counter': 3L, 'syndrome': 7, 'hardware_device_id': 525L, 'assert_var4': 0L, 'assert_var3': 0L, 'assert_var2': 0L, 'assert_var1': 10338568L, 'assert_var0': 1L, 'extended_syndrome': '\x90@'}
原因
早 于 16.28.1002+EMC0000000017 的 Mellanox5-EN0 设备固件版本(仅在 F810 节点中发现)的问题可能会在请求热重新启动或由死机或其他错误触发时强制这些节点意外冷重新启动。在正常情况下,节点会从对等节点拷贝恢复其日志。但是,如果对等节点也无法保持日志完整性,则日志可能会丢失。
解决方案
此问题已在 Mellanox5-EN0 固件 16.28.1002+EMC0000000017 中修复,该固件于 2021 年 4 月作为节点固件程序包版本 11.1.3 和 10.3.6 的一部分发布。任何仍在任何 F810 节点上运行的固件版本低于上述版本的客户都应安装最新的节点固件程序包版本,并尽快在其群集上计划节点固件更新。
受影响的产品
Isilon, Isilon F810文章属性
文章编号: 000207184
文章类型: Solution
上次修改时间: 19 2月 2026
版本: 4
从其他戴尔用户那里查找问题的答案
支持服务
检查您的设备是否在支持服务涵盖的范围内。