PowerFlex 4.x 如何使用 PFMP 向导更换 NVDIMM
Summary: 本文介绍如何使用 PowerFlex Manager 平台 (PFMP) 向导更换 PowerEdge 服务器中出现故障的 NVDIMM。
Instructions
步骤
- 在 iDRAC 中识别出现故障的 NVDIMM 模块,并在 PFMP 中关联其 DAX 设备
1- 从 PowerEdge iDrac 识别故障 NVDIMM 插槽从“Maintenance”选项卡中,选择“SystemEventLog”。

在此示例中,出现故障的 NVDIMM 插槽为 A7
2- 使用 SSH 连接到受影响的 SDS 节点,识别故障 NVDIMM 序列号,并运行以下命令。
dmidecode --type memory | grep "Non-" -B 3 -A 3 | grep -E 'Locator|Serial' | grep -v Bank
将显示类似以下内容的输出:
Locator: A7 Serial Number: 16492521 Locator: B7 Serial Number: 1649251B
在此示例中,NVDIMM A7 的序列号为 16492521。
3- 显示服务器上装载的 NVDIMM 的列表,并查找串行16492521的开发 nmem。
ndctl list -Dvvv | jq '.[].dimms'
应显示类似于以下内容的输出:
[
{
"dev": "nmem1",
"id": "802c-0f-1711-1649251b",
"handle": 4097,
"phys_id": 4370, "state": "disabled", "health": {
"health_state": "ok", "temperature_celsius": 255,
"life_used_percentage": 32
}
},
{
"dev": "nmem0",
"id": "802c-0f-1711-16492521",
"handle": 1,
"phys_id": 4358, "state": "disabled", "health": {
"health_state": "ok", "temperature_celsius": 255,
"life_used_percentage": 32
}
}
]
在此示例中, nmem0 是串行16492521的 dev 。
4- 使用以下命令关联 nmem 映射、区域、命名空间和DAX 配置信息
ndctl list -Dvvv | jq '.[].regions[]'
将显示类似以下内容的输出:
{
"dev": "region1", "size": 17179869184,
"available_size": 0,
"max_available_extent": 0, "type": "pmem", "numa_node": 1, "mappings": [
{
"dimm": "nmem1", "offset": 0,
"length": 17179869184,
"position": 0
}
],
"persistence_domain": "unknown", "namespaces": [
{
"dev": "namespace1.0",
"mode": "devdax",
"map": "dev", "size": 16909336576,
"uuid": "0a438fbc-91e4-427d-8068-1f26330d85cc", "daxregion": {
"id": 1,
"size": 16909336576,
"align": 4096,
"devices": [
{
"chardev": "dax1.0", "size": 16909336576
}
]
},
"numa_node": 1
}
]
}
{
"dev": "region0",
"size": 17179869184,
"available_size": 0,
"max_available_extent": 0, "type": "pmem", "numa_node": 0, "mappings": [
{
"dimm": "nmem0", "offset": 0,
"length": 17179869184,
"position": 0
}
],
"persistence_domain": "unknown", "namespaces": [
{
"dev": "namespace0.0",
"mode": "devdax",
"map": "dev", "size": 16909336576,
"uuid": "38cbd555-3f5b-4f4f-8d83-bf77db75553d", "daxregion": {
"id": 0,
"size": 16909336576,
"align": 4096,
"devices": [
{
"chardev": "dax0.0",
"size": 16909336576
}
]
},
"numa_node": 0
}
]
}
在此示例中,nmem0 位于区域区域 0、命名空间 namespace0.0 和 DAX 设备 dax0.0 中。
这些步骤的结果是将 iDrac 中的 A7 与 PFMP 中的 dax0.0 关联起来。
- 卸下NVDIMM内存模块
使用 PowerFlex ManagerNVDIMM 更换向导从系统卸下 NVDIMM 内存模块。
- 登录到 PowerFlex Manager。
- 在菜单栏上,单击 Lifecycle>ResourceGroups。
- 在 Resource Groups 页面上,单击需要更换的资源组,然后单击 View Details。
- 在 Details页面上,向下滚动到页面的 PhysicalNodes部分。
- 在组件更换下,单击NVDIMM更换。
PowerFlex Manager在NVDIMMReplacement向导中显示NodeList面板。
- 选择需要更换 NVDIMM 内存模块的节点,然后单击 下一步。
PowerFlex Manager显示 Selected Component 面板。所有可用的 NVDIMM 内存模块都显示在 NVDIMM 标头下,而可用的 NVDIMM 电池显示在 NVDIMM Battery下。
- 在 NVDIMM 更换下,选择要更换的故障 NVDIMM 内存模块,然后单击 下一步。
此时将显示一条消息,提示您确保节点选择正确,因为 NVDIMM 更换过程不可逆。
- 要更换 NVDIMM 内存模块,请输入 REMOVE NVDIMM。
Resource Groups页面上会显示一条消息,说明如何移除或添加 NVDIMM 设备以及节点和插槽编号。资源组和单个节点的状态为 “进行中”。日志详细信息显示在页面右侧的 最近活动 部分中。
将创建用于更换内存模块的作业。
- 单击菜单栏右上角的 Jobs 图标可查看作业的详细信息。等待作业完成。
- 戴尔现场工程师 (FE) 对故障 NVDIMM 进行物理更换
将 SDS 节点置于 PMM 或 IMM,关闭节点,并让 Dell FE 更换有故障的 NVDIMM。
-
完成NVDIMM内存模块更换
更换内存模块后,主机和 SVM 将关闭。物理更换内存模块后,“ 资源组 ”页面上的主机状态显示为服务模式。此外,在 Actions下,会显示 Discover Replacement NVDIMM 选项。
前提条件
确保您已执行 卸下 NVDIMM 内存模块中的步骤,然后按照以下步骤完成 NVDIMM 内存模块更换。
步骤
- 以物理方式更换节点时,单击查找更换NVDIMM。
查找更换 NVDIMM 将打开节点并执行 NVDIMM 的系统擦除。
- 查找完成后,日志将状态显示为 Complete。在Actions下,单击CompleteNVDIMMReplacement选项。
- 单击 完成 以完成更换过程。
更换 NVDIMM 后,您可以为 NVDIMM 设备创建虚拟硬件,从维护或服务模式中删除 SDS,并打开 SVM。
- 添加新的 NVDIMM 内存模块后,资源组页面上会显示消息NVDIMM设备更换完成。在 作下,单击 忽略 以忽略任务。
- 使资源符合要求并使节点恢复运行
更换硬件组件后,更新系统资源,以使这些资源符合合规性文件中的固件和驱动程序。当资源合规时,使节点恢复运行。