在将设备初始安装到新群集期间,或将新设备添加到现有群集时,硬件和网络检查可能会失败。此故障可能会将一体机的状态从 “未配置” 更改为 “未配置故障”。此状态表示设备无法加入新群集或添加到现有群集。必须先清除故障,然后才能将设备添加到群集。
要确定是否存在导致 “未配置故障” 情况的硬件或网络问题,请执行以下步骤:
如果要将设备添加到现有群集(从 PowerStore Manager):
- 使用服务 LAN 端口访问方法访问系统(请参阅 PowerStore:有关详细信息,请访问节点)。
- 以服务用户身份登录到服务容器后,运行以下服务脚本以确定是否存在硬件或网络问题:
svc_diag list --icw_hardware
svc_diag list --network
- 如果未报告任何错误或问题,则在 ICW 或添加设备作期间看到的原始症状可能是短暂的。
- 如果指示了错误或问题,而您无法确定如何解决,请运行以下脚本以生成数据收集,然后联系您的服务提供商寻求帮助:
svc_dc run
- 如果您要将设备安装到新群集,并准备重试安装:
- 关闭您的发现工具和/或浏览器。
- 重新启动发现工具或使用节点 A 的静态服务 LAN IP 地址 [即 128.221.1.252] 打开浏览器。
- 如果系统显示其处于“Unconfigured”状态,请恢复初始配置/ICW 步骤
- 重试“Add Appliance”作,以查看任务是否成功。
- 如果任务仍然失败,请执行数据收集以获取相关日志,并联系您的服务提供商寻求帮助。
以下是成功输出的示例” svc_diag list --icw_hardware “在左栏中;右列包含您可能看到的错误的说明。
|
输出示例 |
描述 |
hw_type Warnado-EX
Running on Node A
|
|
Node A FRU Status
OK | Peer Node | 0x0f80
OK | Local Node | 0x1480
OK | Embedded Module | 0x8b81
OK | 4-Port Card | 0x8b81
OK | I/O Module 0 | 0x8b81
OK | I/O Module 1 | 0x8b81
OK | Internal Backup Battery Module | 0x3380
Node B FRU Status
OK | Peer Node | 0x0f80
OK | Local Node | 0x1580
OK | Embedded Module | 0x8b81
OK | 4-Port Card | 0x8b81
OK | I/O Module 0 | 0x8b81
OK | I/O Module 1 | 0x8b81
OK | Internal Backup Battery Module | 0x1380
|
这些表由三列组成:
摘要 |现场可更换部件 (FRU) 名称 |状态传感器值
左侧的 Summary 列应如下所示:
正常 = FRU 状态良好。
空 = 一体机缺少 FRU 和/或未检测到 FRU。由于 I/O 模块是可选的,因此看到 I/O 模块的“Empty”状态可能很正常。(在这种情况下,两个节点上的相同 I/O 模块插槽必须为空。)所有其他 FRU 都是必需的硬件,应始终为“OK”。
熄灭 = FRU 已关闭。可能需要更换 FRU。
未知 = 状态传感器值包含意外值。可能需要更换 FRU。
建议的失败作: 有关如何解决这些硬件问题的详细信息,请参阅相关的知识库文章。其中包括:000132703、 000132707(节点)、 000125540(I/O 模块、4 端口卡)和 000132989(嵌入式模块)。
|
IO Module Consistency Check = Success
Node Consistency Check = Success
Battery Check = OK
|
这些检查会比较每个节点的 FRU 状态摘要值。两个节点应为每个 FRU 报告相同的摘要值。
建议的失败作:
- 对于 I/O 模块,请参阅知识库文章 000125540。
- 对于节点,请参阅知识库文章 000132703 和 000132707。
- 内部备用电池模块检查正常,除非无法从一个或两个节点读取 FRU 状态。如果这是
icw_hardware 命令,重新启动 ICW 应允许它通过。
|
Node A Fault Status Register Status = Success
OK | Node
OK | Embedded Module
OK | Internal Backup Battery Module
Module
OK | DIMM00
OK | DIMM01
OK | DIMM02
OK | DIMM03
OK | DIMM04
OK | DIMM05
OK | DIMM06
OK | DIMM07
OK | DIMM08
OK | DIMM09
OK | DIMM10
OK | DIMM11
OK | DIMM12
OK | DIMM13
OK | DIMM14
OK | DIMM15
OK | DIMM16
OK | DIMM17
OK | DIMM18
OK | DIMM19
OK | DIMM20
OK | DIMM21
OK | DIMM22
OK | DIMM23
OK | I/O Module 0
OK | I/O Module 1
OK | 4-Port Card
Node B Fault Status Register Status = Success
OK | Node
OK | Embedded Module
OK | Internal Backup Battery Module
Module
OK | DIMM00
OK | DIMM01
OK | DIMM02
OK | DIMM03
OK | DIMM04
OK | DIMM05
OK | DIMM06
OK | DIMM07
OK | DIMM08
OK | DIMM09
OK | DIMM10
OK | DIMM11
OK | DIMM12
OK | DIMM13
OK | DIMM14
OK | DIMM15
OK | DIMM16
OK | DIMM17
OK | DIMM18
OK | DIMM19
OK | DIMM20
OK | DIMM21
OK | DIMM22
OK | DIMM23
OK | I/O Module 0
OK | I/O Module 1
OK | 4-Port Card
|
左侧列中的状态值为“OK”或“FLT”。这些数据从故障状态寄存器 (FSR) 中读取。
“FLT”表示 FRU 出现了硬件错误。
“OK”表示该 FRU 未记录硬件错误。如果不存在 FRU,此表中的状态应为“良好”。(空的 I/O 模块插槽在这些表中将显示为“正常”,但在上面的 FRU 状态表中将列为“空”。)
建议的失败作: 有关如何解决这些硬件问题的详细信息,请参阅相关的知识库文章。其中包括:000132703、 000132707(节点)、 000125540(I/O 模块、4 端口卡)和 000132989 (嵌入式模块)。
|
NVRAM Cache Drives
Node Core Counts (NodeA:12, NodeB:12)
Number of NVRAM Drives Required based on Core Count: 2
NVRAM Drives Found (NodeA:2, NodeB:2)
NVMe Storage Drives
Number of NVMe Drives Required: 6
SCM Drives Found (NodeA: 0, NodeB: 0)
SSD Drives Found (NodeA: 12 (NVMe 6, SAS 6), NodeB: 12 (NVMe 6, SAS 6))
NVMe Drive Check = Success
compareNodeDrives - NVEe Drive Counts, NodeA 8, NodeB 8
compareNodeDrives - Both Nodes see same NVMe drives
compareNodeDrives - SAS SSD Drive Counts, NodeA 12, NodeB 12
compareNodeDrives - Both Nodes see same drives
Compare Node Drive Check = Success
checkExpansionEnclosures - nodeAEnclCount 2, nodeBEnclCount 2
Enclosure Check = Success
|
与驱动器相关的检查包括:
- 设备必须包含正确数量的 NVRAM 高速缓存驱动器(具体数量取决于设备的型号)。如果这显示故障,建议采取的作: 查找缺失、故障或未正确插入的 NVRAM 驱动器。该命令的输出
"svc_diag list --nvme_drive“命令可能会有所帮助。
- 系统中的数据驱动器必须遵循 SCM、SCD 和 SAS 驱动器的官方配置规则(在此示例中,设备中没有 SCM 驱动器)。如果这显示故障,建议采取的作: 检查所有 NVMe 和 SAS 驱动器的驱动器标签。如果混合使用 SCM 和 SSD 驱动器类型,请根据需要更换或卸下驱动器。
- 两个节点必须能看到相同数量的驱动器(仅从一个节点可见的驱动器会导致问题)。如果这显示故障,建议采取的作: 您可以使用”
svc_diag list --nvme_drive" 显示有关 NVMe 驱动器的详细状态,以确定哪些驱动器或驱动器仅在一个节点上可见。
- 从两个节点必须可以看到相同数量的驱动器存储模块(仅从一个节点可以看到的存储模块会导致问题)。如果这显示故障,建议采取的作: 检查所有机柜线缆,并验证是否已正确连接机柜线缆。
|
checkIoms - nodeAIoms: [u' 303-321-000C', u' 313-202-000B']
checkIoms - nodeBIoms: [u' 303-321-000C', u' 313-202-000B']
Compare Node IOM Check = Success
|
一个节点上每个插槽中的 I/O 模块必须与对等节点上同一插槽中的 I/O 模块匹配。
如果一个节点中存在错误类型的 I/O 模块,则可能会发生这种情况。如果每个节点都包含一个 I/O 模块,但它们位于不同的插槽中(例如:一个节点上的插槽 0,但对等节点上的插槽 1),也会发生这种情况。如果 I/O 模块缺失或断电,您也可在此处看到故障(请参阅上面的“故障状态寄存器”部分)。
建议的失败作: 比较两个节点上两个 I/O 模块插槽中 I/O 模块的部件号。如果存在任何不一致,请根据需要移动或更换 I/O 模块以纠正问题。知识库文章 000125540 也可能会有所帮助。 |
OVERALL STATUS: True, return_code 0
IOM Consistency Check : Success
Node Consistency Check : Success
Battery Check : OK
Fault Status Register A : Success
Fault Status Register B : Success
Node A Accessible : True
Node B Accessible : True
Drive Check : Success
Node Drives Compare Check : Success
Enclosure Check : Success
IO Module Compare Check : Success
|
本部分是上述信息的摘要。 |
以下是成功输出的示例” svc_diag_list --network" :
|
输出示例 |
***** Start minimal cabling check *****
OCP_MEZZ 0 is LINK_STATUS_UP on Node A
OCP_MEZZ 0 is LINK_STATUS_UP on Node B
OCP_MEZZ 1 is LINK_STATUS_UP on Node A
OCP_MEZZ 1 is LINK_STATUS_UP on Node B
***** Minimal cabling check: Overall errors: 0
Overall errors: 0, return code: 0
|