PowerFlex 3.x:在 NDU 期间,SDS 崩溃并停止升级

Summary: 在 NDU 期间,SDS 可能会遇到滚动内核崩溃。

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

从 VxFlex OS 3.0.x.x 升级到 PowerFlex 3.5.x.x 或 3.6.0.x
SDS 的滚动内核崩溃会阻止系统继续升级。

SDS 进程持续崩溃并重新启动,并显示以下堆栈跟踪:

27/07 08:07:25.381223 Panic in file /data/build/workspace/ScaleIO-Common-Job/src/tgt/spef/l2p_sm/l2p_resolver/l2p_resolver_sync_services.c, line 1828, function Resolver_Inter_SyncUnmatchedVto, PID 133106.Panic Expression ALWAYS_ASSERT PANIC_ID_tgt_1588256010820.
/opt/emc/scaleio/sds/bin/sds-3.5.1100.107(mosDbg_PanicPrepare+0x13a) [0x93b62a]
/opt/emc/scaleio/sds/bin/sds-3.5.1100.107(Resolver_Inter_SyncUnmatchedVto+0x69c) [0x643ddc]
/opt/emc/scaleio/sds/bin/sds-3.5.1100.107(Resolver_Inter_SyncOffsetData+0xd2) [0x644082]
/opt/emc/scaleio/sds/bin/sds-3.5.1100.107(Resolver_SyncOffset+0x3e6) [0x6446f6]
/opt/emc/scaleio/sds/bin/sds-3.5.1100.107(Resolver_Sync+0x1e4) [0x645c54]
/opt/emc/scaleio/sds/bin/sds-3.5.1100.107(L2PGateway_Inter_Sync+0x59) [0x6542d9]
/opt/emc/scaleio/sds/bin/sds-3.5.1100.107(L2PGateway_Inter_UpdateRamCopyEx+0x163) [0x901ba3]
/opt/emc/scaleio/sds/bin/sds-3.5.1100.107(L2PGateway_Inter_Update+0x4f7) [0x9060f7]
/opt/emc/scaleio/sds/bin/sds-3.5.1100.107(L2PGateway_Sync+0x64) [0x9073d4]
/opt/emc/scaleio/sds/bin/sds-3.5.1100.107(feIo_L2PGatewayUpdate+0x3d8) [0x90cf98]
 

Cause

在系统向后重建期间,在退出即时维护模式 (IMM) 时,在主 (PRI) 和辅助 (SEC) SDS 上发送和接收不正确的数据同步消息。因此,SEC SDS 会突然重新启动服务,以避免可能的数据不一致。

在退出 IMM 完成后,在重建期间,失败的写入命令 IO 可能会错误地导致内部健全性检查(导致 SDS 服务崩溃的内部数据完整性检查),这是极少数情况。失败的写入命令 IO 发生在进入 IMM 之前,在 IMM 期间,有另一个 IO 发送到同一数据集中的附近偏移量。

Resolution

使用网关自动升级

  1. 使用网关 UI 停止升级。
  2. 从群集中删除故障 SDS,然后将其添加回来。
  3. 从 IM 网关 UI 重新启动升级,然后选中“即使已处于升级状态也允许升级”复选框 - 升级应重新开始并继续使用尚未升级的组件: 

NDU 升级 
 

手动升级

选项#1

  1. 如果同一设备在每次出现故障时都出现故障,则使该单个设备离线。如果没有,则从 SDS 中删除所有 SDS 设备。
  2. 等待重建完成。
  3. 删除后,升级 SDS 并将其添加回群集。
  4. 删除必须从群集升级的下一个 SDS,这将触发重新平衡。
  5. 删除后,升级 SDS 并将其添加回群集。
  6. 让重新平衡继续,直到系统具有足够的容量来删除下一个必须升级的 SDS - 重复此过程,直到所有 SDS 都升级完毕。

选项#2

使用受保护的维护模式 (PMM) 而不是 IMM,创建完整的第三次拷贝。此问题不应与 PMM 发生,例如,由于 SDS 在重建期间崩溃、恢复并重复,因此会发生服务崩溃循环。解决此问题的方法是关闭崩溃的 SDS 足够长的时间,以便 MDM 指示向前重建而不是向后重建。重建有问题的数据集后,可以成功恢复 SDS。
 

受影响的版本:

VxFlex OS 3.0.x.x
PowerFlex 3.5.x.x
PowerFlex 3.6.0.x-3.6.1.x

 

已修复问题的版本:

PowerFlex 3.6.2

Additional Information

SCI-62134

Affected Products

PowerFlex rack, PowerFlex Appliance, PowerFlex custom node, PowerFlex Software, VxFlex Ready Node
Article Properties
Article Number: 000212445
Article Type: Solution
Last Modified: 20 Jun 2025
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.