PowerFlex:更新固件以解决 PowerFlex 自定义节点(R650 和 R750)上 NVDIMM 电池电量不足问题的步骤
Summary: 更新固件以解决 PowerFlex 自定义节点(R650 和 R750)上 NVDIMM 电池电量不足问题的步骤。
Instructions
问题描述
戴尔 PowerFlex 15G 系统支持包含 NVDIMM 的配置,其中的 NVDIMM 可提供精细粒度功能所需的永久性内存。此流程包含将 iDRAC 和 CPLD 版本更新到以下版本的步骤:
- iDRAC 7.10.50.201
- CPLD 1.1.1
下载位置
- PowerFlex 自定义节点:https://www.dell.com/support/home/en-us/product-support/product/powerflex-custom-node/drivers
- (搜索 iDRAC 和 CPLD)
新的 iDRAC 版本会在 NVDIMM 电池启用时检查它的电压。如果电池电压低于定义的阈值,则系统会记录错误。当 NVDIMM 电池在 READY 和 ENABLED 状态之间转换时,它会记录严重性为 info 的事件。
新的 CPLD 设计会跟踪 NVDIMM 电池启用状态,并在固定时间后转换回 Ready 状态。
- 提醒:由于上述问题,节点中的 NVDIMM 电池可能会损坏,并且必须更换。此流程考虑到了这种可能性。
- 提醒:此 iDRAC 和 CPLD 更新必须遵循特定顺序。该顺序要求先升级 iDRAC,然后再更新 CPLD。这有助于确定电池是否出现故障。
流程概述
要完全解决此问题,我们必须执行以下操作:
- 确定系统中的哪些 NVDIMM 电池电量不足。
- 由于未报告此特定情况,我们需要将 iDRAC 更新到上述版本(或更高版本)。如果此新版 iDRAC 检测到 NVDIMM 电池放电,它将报告 BAT0021 或 BAT0017 错误。
- 在系统中的所有节点上将 iDRAC 更新为所述版本
- 为每个报告为放电和损坏的 NVDIMM 电池申请相应的更换电池。
- 更换坏的 NVDIMM 电池之前,请勿在具有该坏电池的节点上继续进行 CPLD 更新。
- 更换电池可能未充满电,并且安装后可能需要长达 75 分钟才能充满电量。
- 对于具有良好 NVDIMM 电池的节点,您可以继续执行 CPLD 固件更新。
- 更换损坏的电池后,继续使用 iDRAC 更新 CPLD 固件。
- 在完成更新之前,必须将节点置于维护模式
- 节点将重新启动,然后执行 CPLD 更新。
- 节点在 CPLD 更新后重新启动后,使节点退出维护模式。
- 节点退出维护模式后,将启动重建和重新平衡操作。
- 提醒:等待重建和重新平衡完成,然后再继续更新群集中的下一个节点。
前提条件
- 此 CPLD 更新的最低 BIOS 版本为 BIOS 版本 1.8.2。 (建议使用 1.10.2 或更高版本)
- 在组件更换过程中,客户需要负责以下任务:
- 将节点上的所有非 PowerFlex 应用程序迁移到另一台服务器。
- 按照所使用的操作系统的相应关机流程正常关闭服务器。
- 确保提供以下信息:
- PowerFlex 节点的类型:物理节点或 HCI (Vmware) 节点
- PowerFlex 群集及其节点的 IP 地址范围、子网和网关 IP 地址
- 节点上 iDRAC 端口的 IP 地址范围、子网和网关 IP 地址(在初始部署过程中指定)
- 在服务器和 iDRAC 上设置的所有根密码和管理员密码
- vCenter IP 地址和登录凭据(如果配置是 HCI)
详细流程
步骤 1:在 PowerFlex 群集中的所有节点上更新 iDRAC。
无需重新启动节点即可更新这些节点上的 iDRAC。更新 iDRAC 的步骤如下。
确保固件映像已下载到本地系统上的特定位置。此流程需要 iDRAC 的固件版本,下载位置列在该流程的第一页上。
提醒:请确保已在群集中的所有节点上更新 iDRAC 固件,然后再继续执行流程的下一步。
- 登录 到 iDRAC9 Web 界面。
- 转至 维护(Maintenance),然后单击 系统更新(System Update )。此时会显示手动更新(Manual Update)页面。
- 从手动更新选项卡中,选择本地作为位置类型。
图 1:iDRAC9 更新屏幕
- 单击选择文件,选择所需组件的固件映像文件,然后单击上传。
- 上传完成后更新详细信息部分会显示上传到 iDRAC 的每个固件文件及其状态。如果固件映像文件有效且已成功上传,则内容列会在固件映像文件名旁边显示 (+)。展开该名称可查看设备名称、当前和可用固件版本信息。
- 选择所需的 iDRAC 固件文件。
- iDRAC 固件更新不需要重新启动主机系统。单击 Install 启动更新。
- 要显示作业队列页面,请单击作业队列。使用此页面查看和管理待处理的固件更新进度。可以通过单击 OK 刷新当前页面,以查看固件更新的状态。
- 生命周期控制器将重新启动,并且与 iDRAC 的连接将重置。请等待几分钟以登录到 iDRAC。
提醒:如果出现连接失败,请参阅 HTTP 和 HTTPS FQDN 连接失败知识库文章:https://www.dell.com/support/kbdoc/en-us/000193619
步骤 2:检查节点是否有坏的 NVDIMM 电池。
iDRAC 7.10.50.201 和更高版本包含每 5 秒检查一次 NVDIMM 电池电量的代码,如果电池电压低于 1.5v 的阈值,则会在 iDRAC 系统事件日志 (SEL) 中报告以下错误。
“BAT0021: The NVDIMM battery has reached the end of its usable life or has failed”“BAT0017: The NVDIMM battery has failed.”
如果报告上述消息之一,则表示节点的 NVDIMM 电池损坏,需要更换。
- 提醒:请不要继续在 NVDIMM 电池损坏的节点上更新 CPLD。由于电池损坏,CPLD 更新期间的重新启动将挂起,并且不会装备 NVDIMM。
- 提醒:请申请更换 NVDIMM 电池。
如果 iDRAC 未报告问题,则此节点上的电池状况良好,无需更换。可以在此节点上执行 CPLD 更新,您可以继续执行下一步。
-
提醒:对于出现 BAT0021 错误的任何节点,PowerFlex 集成系统将报告节点运行状况警告。 此行为可用于在 iDRAC 更新后识别出现故障的 NVDIMM 电池
-
提醒:如果出现BAT0017或BAT0021事件,但随后是第三次BAT0016, 则不需要更换电池!
NVDIMM 工程部门建议,如果遇到此第三次事件 (BAT0016),则不需要更换电池。BAT0016 The NVDIMM battery is operating normally.
如果在不到一分钟的时间内依次看到所有三个电池警报(BAT0021、BAT0020、BAT0016),则这应被视为误报,并且认为电池运行状况良好,不应更换。
步骤 3:准备节点 — 将 SDS 置于维护模式。
- 按照下文部分中 PowerFlex 版本 4.x 或 PowerFlex 版本 3.x 下的相应步骤进入维护模式
- 选择正确的 PowerFlex 维护模式
- 如果节点的 NVDIMM 电池没有损坏,建议使用即时维护模式 (IMM) 来更新 CPLD。
- 跳过步骤 4 和 5(更换电池)并继续执行 BIOS(步骤 6)和 CPLD 升级(步骤 7)
- 如果节点的 NVDIMM 电池损坏,则需要在更新 CPLD 之前更换它。
- 在这种情况下,应将节点置于受保护的维护模式 (PMM),以考虑更换电池充电所需的时间。
- 如果节点的 NVDIMM 电池没有损坏,建议使用即时维护模式 (IMM) 来更新 CPLD。
- 提醒:此过程会导致重新平衡流程启动,因此建议在计划的维护窗口内执行此过程。
- 提醒:如果在更换 NVDIMM 电池之前使用 PMM(步骤 4-5),您可以保持 PMM 维护模式以进行 BIOS 和 CPLD 更新(步骤 6-7)
PowerFlex 版本 4.x,请参阅《Dell PowerFlex 4.x 管理指南》。
- 如果节点充当主 MDM,请按照以下步骤切换 MDM 所有权:
- 如果在节点上配置了 SDR,请将 SDR 置于维护模式
- 将 Storage Data Server (SDS) 置于维护模式
- 如果这是 HCI (Vmware) 节点,请在完成上述步骤后将 ESXi 置于维护模式
PowerFlex 版本 3.x,请参阅“将 Dell PowerFlex 升级到 v3.6.x”指南。
- 使节点进入维护模式并关闭
步骤 4:更换 NVDIMM 电池。
有关更换 NVDIMM 电池的说明,请参阅下面提供的链接中提供的适用于 PowerFlex 节点的 Solve 文档。
下载适用于 15G 上相应节点类型 R650/R750 的“NVDIMM 电池”的 SolVe 文档。PowerFlex Custom Node > Replacement > 15G > [R650 or R750] > [PowerFlex 3.6 or 4.0] > NVDIMM battery - Linux-based
-
提醒:请跳过“更换 NVDIMM 电池”文档中的以下部分。
Remove the storage devices from PowerFlex.
不应移除存储设备的原因:
- 在此过程中移除存储设备将导致不必要的整个节点重建,从而显著延长维护时间。
- 由于这是计划内重新启动,而不是断电事件,因此 NVDIMM 子系统不依赖电池供电来完成保存操作。即使电池坏了,电源也来自电源装置。
- 重新启动将导致系统在开机期间报告 NVDIMM 电池错误。但 NVDIMM 中的数据已保存,不会发生数据丢失。
步骤 5:等待更换的电池充电
如果您已更换特定节点上的 NVDIMM 电池,请打开系统电源。系统无法完全启动。由于更换的 NVDIMM 电池可能没有系统保护 NVDIMM 数据所需的足够电量,因此 BIOS 将停止等待电池充电。电池可能需要大约 60-75 分钟才能充满电量。您可以在 60-75 分钟后尝试重新启动系统,节点应该会通电,NVDIMM 子系统也会启动。
- 提醒:请基于需要更换电池的每个节点需要 60-75 分钟来规划维护窗口。
步骤 6:如有必要,更新 BIOS
用于解决此知识库文章中基本问题的 CPLD 版本要求 BIOS 至少为版本 1.8.2。(建议使用 BIOS 1.10.2 或更高版本)
PowerFlex 自定义节点部署需要经过戴尔验证和认证的特定版本的驱动程序、BIOS 和固件。
如果当前 BIOS 版本低于 1.8.2,请将固件更新到 PowerFlex 自定义节点驱动程序和固件矩阵中发布的最新版本。
- 确保节点处于维护模式。如果没有,请查看“步骤 3”中的说明。
- 要下载 BIOS 版本,请参阅本知识库文章的“下载位置”部分
- 提醒:单击“Older Versions”,选择与目标矩阵相符的版本。
- 将 BIOS 升级到版本 1.8.2 或更高版本。
- 适用于 15G 系统的戴尔 PowerEdge BIOS 升级流程: https://www.dell.com/support/kbdoc/en-us/000222827/dell-technologies-recommends-upgrading-bios-and-idrac9-for-15th-generation-poweredge-servers
步骤 7:将 CPLD 更新到版本 1.1.1
前提条件:
- 确保 SDS 处于 PowerFlex 维护模式。对于 ESXi 节点,请确保 ESXi 也处于维护模式。如果没有,请查看本文的“步骤 3”中的说明。
- 确保本地系统上提供 CPLD 固件映像。要下载相应的 CPLD 版本,请参阅本文的“下载位置”部分。
- CPLD 更新会触发节点重新启动。
提醒:
- 请在 iDRAC 固件更新后执行 CPLD 固件更新。
- 请先更换 NVDIMM 电池,然后再执行 CPLD 固件更新。
CPLD 更新步骤如下。
- 登录 到 iDRAC9 Web 界面。
- 转至 维护(Maintenance),然后单击 系统更新(System Update )。此时会显示手动更新(Manual Update)页面。
- 从 Manual Update 选项卡中,选择 Local 作为 Location Type。
图 1:iDRAC9 更新屏幕 - 单击选择文件,选择所需组件的固件映像文件,然后单击上传。
- 上传完成后更新详细信息部分会显示上传到 iDRAC 的每个固件文件及其状态。如果固件映像文件有效且已成功上传,则内容列会在固件映像文件名旁边显示 (+)。展开该名称可查看设备名称、当前和可用固件版本信息。
- 选择所需的 CPLD 固件文件。
- CPLD 固件更新将需要主机系统重新启动。单击安装以启动更新。
- 要显示作业队列页面,请单击作业队列。使用此页面查看和管理待处理的固件更新进度。可以通过单击 OK 刷新当前页面,以查看固件更新的状态。
步骤 8:使节点退出维护模式。
PowerFlex 版本 4.x,请参阅《Dell PowerFlex 4.x 管理指南》。
前提条件:确保您具有用于访问 PowerFlex Manager 的 IP 地址和管理员登录凭据。如有必要,客户可以为您提供必要的信息。
-
打开节点电源(如果在 CPLD 更新后没有打开)。操作系统将启动,所有 PowerFlex 进程都将自动启动。
-
节点启动后,在浏览器中以管理员用户身份重新登录到 PowerFlex Manager。
-
在菜单栏上,单击 Monitoring > Alerts,确认 SDS 或 SDC 主机或者 SDR 或 SDT(如适用)没有出现断开连接消息。
- 对于 ESXi 节点,请执行以下操作:
- 在 vSphere Web Client 中,确保在 Hosts 和 Clusters 视图中节点显示为已开启和已连接。
- 右键单击节点,选择 Exit Maintenance Mode。
- 展开服务器并选择存储虚拟机 (SVM)。如果 SVM 未自动开机,请手动开机。
- 使 SDS 退出维护模式:
- 如果在节点上配置了 SDR,请使 SDR 退出维护模式。
PowerFlex 版本 3.x,请参阅“将 Dell PowerFlex 升级到 v3.6.x”指南。
前提条件:确保用户具有以下凭据(可从管理员处获得):PowerFlex 演示服务器 IP 地址或主机名,用于访问 PowerFlex GUI
- 打开节点电源(如果在 CPLD 更新后没有打开)。操作系统启动,所有 PowerFlex 进程都自动启动
- 使节点退出维护模式: 使节点恢复正常运行
- 如果在节点上配置了 SDR,请使 SDR 退出维护模式。
步骤 9:继续处理群集中的下一个节点
您应该按照从步骤 2 至步骤 8 的顺序,每次针对一个节点,逐一地对群集中的所有节点完成相应操作。 升级所有节点后,该过程即完成