PowerVault ME5:管理接口无法访问或无响应
Summary: 管理员可能会报告无法访问 PowerVault Manager、无法打开 SSH 会话或登录到串行会话。存储控制器继续为连接的前端主机提供数据。将控制器固件升级到版本 ME5.1.2.1.0 或更高版本。
Symptoms
管理控制器 (MC) 和存储控制器 (SC) 是 ME 系列阵列上的独立子系统。阵列继续提供 I/O 服务,但所有管理接口(UI、SSH、串行接口、SNMP 或 REST API)均无响应。
典型症状:
- PowerVault Manager UI 无法访问。
- 无法打开指向一个或两个管理接口的 SSH 会话。
- 无法登录到串行会话 CLI 端口
- 阵列不响应外部管理应用程序(SNMP 或 REST API),或者已从这些外部管理应用程序中消失。
之后查看事件日志时,请参阅下面的解决步骤。即使没有正在进行的固件升级,管理员也可能在事件历史记录日志中看到以下条目。
... B849 2023-08-08 01:08:16 152 WARNING The Storage Controller is not receiving data from the Management Controller. (This is normal during firmware update.) ...
Cause
内存不足的情况会导致管理应用程序进程终止。在外部管理应用程序使用 SNMP 或 REST API 轮询管理接口的环境中,发生率可能更高。
ME5 发行说明:
FMW-65056 解决了可能导致 CLI 和用户界面无响应的情况。
哪些系统可能会被影响?
| 产品(和版本) | 以下 Dell PowerVault ME5 系列存储系统
|
| 运行此核心软件 (操作系统或操作环境) |
低于版本 ME5.1.2.0.1 的 PowerVault ME5 控制器固件 |
Resolution
- 如果可能,请尝试打开指向每个控制器管理接口的 SSH 会话或 USB 串行连接,然后再次启动管理控制器服务。如果此操作成功,请升级控制器固件。
- 在无法使用 SSH 会话或 USB 串行连接登录的情况下,必须以物理方式重新插入其中一个受影响的控制器模块,并在重新获得此控制器的管理控制权后,重新启动其对等控制器。在只有一个控制器模块的阵列上,或者在主机没有路径冗余的配置上,有必要安排一个维护窗口,关闭主机,然后关闭阵列电源。
- 重新建立对两个控制器模块的管理访问权限后,将控制器模块固件升级到版本 ME5.1.2.1.0 或更高版本。
过程:
步骤 1:尝试在两个控制器上重新启动管理服务。
- 此步骤可能并非在所有情况下都可行。重新启动管理控制器不会影响生产。
- 此步骤将终止管理会话,大约两三分钟后,当服务重新启动时,管理访问将恢复。
- 如果您可以在两个控制器模块上成功重新启动管理服务,请转至步骤 3:将控制器模块固件升级到 ME5.1.2.1.0 或更高版本。
-
打开指向每个控制器管理接口的 SSH 会话,然后以管理级别或管理员级别用户身份登录。或者,管理员可以尝试通过 USB 串行连接访问每个控制器。如果无法使用 SSH 会话或串行连接进行登录,请转至步骤 2:以物理方式重新插入一个控制器模块,或关闭阵列电源。
-
如果登录成功,请使用以下命令在每个阵列上重新启动管理控制器:
restart mc full # restart mc full During the restart process you will briefly lose communication with the specified Management Controller(s). Do you want to continue? (y/n) y Info: Restarting the local MC (A)... Success: Command completed successfully. (2023-08-24 05:34:01) # Killed
步骤 2:以物理方式重新插入一个控制器模块,或关闭阵列电源。
情况 1:具有冗余路径主机配置的双控制器
无需维护窗口即可实施这些步骤。
必须满足以下条件:
- 主机必须具有到控制器 A 和 B 的连接路径
- 主机必须配置并启用多路径支持。
- 所有主机启动器都必须映射到卷。
要获得相关指导,请参阅 Dell PowerVault ME5 系列存储系统用户手册中的模块拆卸和更换 > 客户可更换部件部分。
-
将控制器模块 B 从插槽中向前拉动大约五厘米或两英寸,然后在 30 秒后重新插入该控制器模块。
-
给控制器 B 大约两分钟或三分钟的时间来完成启动和固件加载。
-
打开指向控制器 B 管理 IP 地址的 SSH 会话,并以管理级别或管理员级别用户身份登录。
-
重新启动对等存储控制器 A。键入以下命令:
restart sc a # restart sc a While a Storage Controller is restarting, communication will temporarily be lost with the corresponding Management Controller, and also may cause a temporary loss of data availability. Do you want to continue? (y/n) y Success: Command completed successfully. - The command to restart SC A completed successfully. The controller will restart in approximately 30 seconds. (2023-08-24 07:08:39)
-
当对等控制器处于联机状态时,登录到 PowerVault Manager,然后转至步骤 3:将控制器模块固件升级到 ME5.1.2.1.0 或更高版本。
情况 2:单控制器模块或非冗余主机路径配置
需要维护窗口。意外删除数据的单一路径意味着主机无法访问数据并停止响应!
要获得相关指导,请参阅 Dell PowerVault ME5 系列存储系统用户手册中的模块拆卸和更换 > 客户可更换部件部分。
-
向用户通报该中断情况,并按照主机操作系统用户指南所述的步骤,将连接的主机置于维护模式或关闭主机。
-
在阵列背面,关闭两个电源装置约 60 秒钟,然后再将其开启。
-
给控制器大约三分钟的时间来完成启动和固件加载。
-
登录到 PowerVault Manager,然后转至步骤 3:将控制器模块固件升级到 ME5.1.2.1.0 或更高版本。
步骤 3:将控制器模块固件升级到 ME5.1.2.1.0 或更高版本。
请参阅 Dell PowerVault ME5 系列管理员指南中的更新系统固件部分。
- 下载控制器固件更新。在网页浏览器中,打开戴尔支持
- 输入 PowerVault ME 服务编号或选择 PowerVault ME 型号。
- 在 Documentation 下,选择 Dell PowerVault ME5 存储系统发行说明。
- 在 Drives and Downloads 选项卡下,下载 Dell PowerVault ME5 系列存储控制器固件
- 从 .zip 文件中解压固件二进制。
- 使用 Dell PowerVault Manager。转至 Maintenance > Firmware > System,并上传固件二进制文件。
- 转至 Maintenance > Firmware > System,并单击 Activate this Version 链接以显示对话框。
- 按屏幕上的说明启动激活。
升级后行为:
对于 ME5 控制器固件版本 ME5.1.2.0.1 或更高版本,管理员可能偶尔会收到以下信息警报。
图 1:信息警报
The Management Controller entered a memory exhaustion state and will reboot to recover. Data access will not be interrupted.
管理控制器 (MC) 提供管理 UI 和 CLI 界面来监控和配置系统。重新启动管理服务不会重新启动控制器或中断 I/O。重新启动造成的影响是两分钟内无法访问管理接口。如果您频繁地收到此信息警报,则可能需要进行更多调查以确定原因。