PowerVault ME5:管理接口无法访问或无响应

Summary: 管理员可能会报告无法访问 PowerVault Manager、无法打开 SSH 会话或登录到串行会话。存储控制器继续为连接的前端主机提供数据。将控制器固件升级到版本 ME5.1.2.1.0 或更高版本。

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

管理控制器 (MC) 和存储控制器 (SC) 是 ME 系列阵列上的独立子系统。阵列继续提供 I/O 服务,但所有管理接口(UI、SSH、串行接口、SNMP 或 REST API)均无响应。

提醒:原文建议升级到 ME5.1.2.0.1 或更高版本。本文已更新为建议升级到控制器固件 ME5.1.2.1.0 或更高版本,这包含额外的修复,可防止管理控制器在使用 SNMP 或 REST API 调用的外部管理应用程序的探测下重新启动。

典型症状:

  • PowerVault Manager UI 无法访问。
  • 无法打开指向一个或两个管理接口的 SSH 会话。
  • 无法登录到串行会话 CLI 端口
  • 阵列不响应外部管理应用程序(SNMP 或 REST API),或者已从这些外部管理应用程序中消失。

之后查看事件日志时,请参阅下面的解决步骤。即使没有正在进行的固件升级,管理员也可能在事件历史记录日志中看到以下条目。

...
B849       2023-08-08 01:08:16  152   WARNING        The Storage Controller is not receiving data from the Management Controller. (This is normal during firmware update.)
...

 

Cause

内存不足的情况会导致管理应用程序进程终止。在外部管理应用程序使用 SNMP 或 REST API 轮询管理接口的环境中,发生率可能更高。

ME5 发行说明:
FMW-65056 解决了可能导致 CLI 和用户界面无响应的情况。

哪些系统可能会被影响?

产品(和版本) 以下 Dell PowerVault ME5 系列存储系统
  • PowerVault ME5012
  • PowerVault ME5024
  • PowerVault ME5084
运行此核心软件
(操作系统或操作环境)
低于版本 ME5.1.2.0.1 的 PowerVault ME5 控制器固件

 

Resolution

  1. 如果可能,请尝试打开指向每个控制器管理接口的 SSH 会话或 USB 串行连接,然后再次启动管理控制器服务。如果此操作成功,请升级控制器固件。
  2. 在无法使用 SSH 会话或 USB 串行连接登录的情况下,必须以物理方式重新插入其中一个受影响的控制器模块,并在重新获得此控制器的管理控制权后,重新启动其对等控制器。在只有一个控制器模块的阵列上,或者在主机没有路径冗余的配置上,有必要安排一个维护窗口,关闭主机,然后关闭阵列电源。
  3. 重新建立对两个控制器模块的管理访问权限后,将控制器模块固件升级到版本 ME5.1.2.1.0 或更高版本。

过程:

步骤 1:尝试在两个控制器上重新启动管理服务。

  • 此步骤可能并非在所有情况下都可行。重新启动管理控制器不会影响生产。
  • 此步骤将终止管理会话,大约两三分钟后,当服务重新启动时,管理访问将恢复。
  • 如果您可以在两个控制器模块上成功重新启动管理服务,请转至步骤 3:将控制器模块固件升级到 ME5.1.2.1.0 或更高版本。
  1. 打开指向每个控制器管理接口的 SSH 会话,然后以管理级别或管理员级别用户身份登录。或者,管理员可以尝试通过 USB 串行连接访问每个控制器。如果无法使用 SSH 会话或串行连接进行登录,请转至步骤 2:以物理方式重新插入一个控制器模块,或关闭阵列电源。

  2. 如果登录成功,请使用以下命令在每个阵列上重新启动管理控制器:

    restart mc full
    
    # restart mc full
    During the restart process you will briefly lose communication with the specified Management Controller(s).
    Do you want to continue? (y/n) y
    
    Info: Restarting the local MC (A)...
    Success: Command completed successfully. (2023-08-24 05:34:01)
    # Killed

步骤 2:以物理方式重新插入一个控制器模块,或关闭阵列电源。

注意:卸下控制器可能会中断主机对数据的访问,在某些情况下,需要预先停止主机 I/O,以防止意外中断或潜在的数据丢失。

情况 1:具有冗余路径主机配置的双控制器
无需维护窗口即可实施这些步骤。

必须满足以下条件:

  • 主机必须具有到控制器 A 和 B 的连接路径
  • 主机必须配置并启用多路径支持。
  • 所有主机启动器都必须映射到卷。

要获得相关指导,请参阅 Dell PowerVault ME5 系列存储系统用户手册中的模块拆卸和更换 > 客户可更换部件部分。

  1. 将控制器模块 B 从插槽中向前拉动大约五厘米或两英寸,然后在 30 秒后重新插入该控制器模块。

  2. 给控制器 B 大约两分钟或三分钟的时间来完成启动和固件加载。

  3. 打开指向控制器 B 管理 IP 地址的 SSH 会话,并以管理级别或管理员级别用户身份登录。

  4. 重新启动对等存储控制器 A。键入以下命令:

    restart sc a
    
    # restart sc a  While a Storage Controller is restarting, communication will temporarily be lost with the corresponding Management Controller, and also may cause a temporary loss of data availability. Do you want to continue? (y/n) y Success: Command completed successfully. - The command to restart SC A completed successfully. The controller will restart in approximately 30 seconds. (2023-08-24 07:08:39)
  5. 当对等控制器处于联机状态时,登录到 PowerVault Manager,然后转至步骤 3:将控制器模块固件升级到 ME5.1.2.1.0 或更高版本。

情况 2:单控制器模块或非冗余主机路径配置
需要维护窗口。意外删除数据的单一路径意味着主机无法访问数据并停止响应!

要获得相关指导,请参阅 Dell PowerVault ME5 系列存储系统用户手册中的模块拆卸和更换 > 客户可更换部件部分。

  1. 向用户通报该中断情况,并按照主机操作系统用户指南所述的步骤,将连接的主机置于维护模式或关闭主机。

  2. 在阵列背面,关闭两个电源装置约 60 秒钟,然后再将其开启。

  3. 给控制器大约三分钟的时间来完成启动和固件加载。

  4. 登录到 PowerVault Manager,然后转至步骤 3:将控制器模块固件升级到 ME5.1.2.1.0 或更高版本。

步骤 3:将控制器模块固件升级到 ME5.1.2.1.0 或更高版本。

请参阅 Dell PowerVault ME5 系列管理员指南中的更新系统固件部分。

  • 下载控制器固件更新。在网页浏览器中,打开戴尔支持
  • 输入 PowerVault ME 服务编号或选择 PowerVault ME 型号。
  • Documentation 下,选择 Dell PowerVault ME5 存储系统发行说明
  • Drives and Downloads 选项卡下,下载 Dell PowerVault ME5 系列存储控制器固件
  • 从 .zip 文件中解压固件二进制。
  • 使用 Dell PowerVault Manager。转至 Maintenance > Firmware > System,并上传固件二进制文件。
  • 转至 Maintenance > Firmware > System,并单击 Activate this Version 链接以显示对话框。
  • 按屏幕上的说明启动激活。

升级后行为:

对于 ME5 控制器固件版本 ME5.1.2.0.1 或更高版本,管理员可能偶尔会收到以下信息警报。
信息警报
图 1:信息警报

The Management Controller entered a memory exhaustion state and will reboot to recover. Data access will not be interrupted.

管理控制器 (MC) 提供管理 UI 和 CLI 界面来监控和配置系统。重新启动管理服务不会重新启动控制器或中断 I/O。重新启动造成的影响是两分钟内无法访问管理接口。如果您频繁地收到此信息警报,则可能需要进行更多调查以确定原因。

提醒:系统管理员应警惕那些会造成拒绝服务的以太网交换机故障情况,如网络交换机上的广播风暴或生成树循环、安全漏洞测试套件或使用 REST API 的外部脚本,这些脚本在恒定循环中运行,创建多个会话并每秒轮询一次阵列,可能会导致相同的症状,即管理接口无法访问。

 

Affected Products

ME Series, PowerVault ME5012, PowerVault ME5024, PowerVault ME5084
Article Properties
Article Number: 000215402
Article Type: Solution
Last Modified: 24 Oct 2024
Version:  16
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.