PowerStore:映射 NVMeoF 卷可能会导致多设备群集上的服务中断

Summary: 在多设备群集上映射 NVMeoF 卷可能会导致创建卷的设备服务中断。

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

在多设备群集上映射 NVMeoF 卷可能会导致创建卷的设备服务中断。这可能仅发生在设备 #2 及更高版本中。这不会发生在第一个设备上。

 

环境:

  • 多设备群集
  • 主机通过 NVMe/FC 或 NVMe/TCP 连接。
  • 存在 (a) 多个添加设备故障或 (b) 执行了多个删除设备。

 

症状:

  • 节点可能会意外重新启动。
  • 如果两个节点都重新启动,则可能会发生服务中断。

 

Cause

  • 在 NVMeoF(NVMe/FC 或 NVMe/TCP)上,存在一种支持非对称命名空间访问 (ANA)
    的基本机制,ANA 发生在卷访问特征可能不同的 NVMe 控制器之间。
    示例:节点 A 上的卷 1 可能已优化,而节点 B 上的卷 1 未优化。
  • 该概念类似于具有目标端口组 (TPG) 的 ALUA:
    每个节点都分配有一个唯一的 TPG ID,以区分每个节点的状态(优化和未优化)
  • 借助 PowerStore 上的 NVMe-oF,每个设备都有多个 ANA 组:
    • ANA Group #1 — 用于设备之间的卷迁移(整个群集中的组 ID 为 1)
    • ANA Group #X— 用于描述节点 A 已优化且节点 B 未优化的卷
    • ANA Group #Y— 用于描述节点 A 未优化且节点 B 已优化的卷
    • ANA Group #Z(未来使用)— 用于描述节点 A 和节点 B 经过优化的卷(主动/主动)
  • 添加设备时,Control-Path 使用特殊序列号来确定要创建的目标端口组 ID。
    即使添加的设备出现故障,此序列也只会递增。如果添加的设备多次失败,此序列可能会非常大。
  • 由于软件问题,最大 ANA 组 ID 有限制,而 Control-Path 没有限制。
  • 将卷映射到 NVMe 主机时,卷将分类到正确的 ANA 组;ANA 组派生自拥有卷的节点的 TPG ID。
  • 映射操作可能会导致软件模块故障,这可能会导致节点重新启动

 

Resolution

此问题已在 PowerStoreOS 4.0.0 中得到修复。

 

解决方法

  • 上报给 全球服务以获得 帮助,恢复后,计划升级到 PowerStoreOS 4.0.0。请参阅此知识库文章以加快关注。

 

Affected Products

PowerStore
Article Properties
Article Number: 000216639
Article Type: Solution
Last Modified: 28 May 2024
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.