PowerPath for WindowsPowerpath for windows 6.1 Microsoft 故障切换群集资源在卷扩展期间进入离线状态

Summary: PowerPath for WindowsPowerpath for windows 6.1 Microsoft 故障切换群集资源在卷扩展期间进入离线状态

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

使用 XtremIO 执行了 LUN 扩展。

Microsoft 故障切换群集资源在 XtremIO 阵列上的卷扩展期间发生故障和/或离线,在主机端完成扩展之前。
Microsoft 群集主节点可保留 SCSI 保留,但会进入离线状态,XtremIO 将延迟 SCSI 保留期,但在收到后立即确认发布。在看到要扩展的 Lun 后不久,将会显示通信错误,从而导致节点从群集

操作系统版本中删除:Microsoft Windows 服务器2012标准
Dell EMC PowerPath 版本6.1 (构建295)

所有路径均处于活动状态且无错误。

系统事件日志
10/16/2017 11:34:48 PM 错误 XXXXXXX-. activ 7034 服务控制管理器 SQL Server (XXXXX)服务意外终止。此操作已完成1次。
10/16/2017 11:34:22 PM 信息 XXXXXXX-。。activ 7036 服务控制管理器 SQL Server 代理(XXXXX)服务进入 "已停止" 状态。
10/16/2017 11:34:20 PM 错误 XXXXXXX-。。activ 1069 Microsoft-Windows-FailoverCluste 群集资源 "XXXXX" (属于群集角色 "SQL Server (XXXXX)" 的 "物理磁盘")失败。基于
10/16/2017 11:34:20 PM ERROR XXXXXXX-。。activ 1038 Microsoft-Windows-群集磁盘 "XXXXX" 的 FailoverCluste 所有权已被此节点意外丢失。运行验证配置向导
10/16/2017 11:34:17 PM 警告 XXXXXXX-。。activ 140 Microsoft Windows-Ntfs 系统无法将数据刷新到事务日志。VolumeId 中可能会发生损坏:O:,DeviceName:\Device\HarddiskVolu
10/16/2017 11:34:17 PM 警告 XXXXXXX-。。activ 151 磁盘磁盘1的容量已更改。
10/16/2017 11:34:17 PM 警告 XXXXXXX-。。activ 151 磁盘磁盘1的容量已更改。
10/16/2017 11:34:17 PM 警告 XXXXXXX-。。activ 151 磁盘磁盘1的容量已更改。
10/16/2017 11:34:16 PM 警告 XXXXXXX-。。activ 151 磁盘磁盘1的容量已更改。
10/16/2017 11:34:16 PM 警告 XXXXXXX-。。activ 151 磁盘磁盘1的容量已更改。
10/16/2017 11:34:15 PM 警告 XXXXXXX-。。activ 151 磁盘磁盘1的容量已更改。
10/16/2017 11:27:30 PM 信息 XXXXXXX-。。activ 7036 服务控制管理器 Windows 模块安装程序服务进入 "已停止" 状态。


系统事件日志
11/13/2017 10:41:22 PM 错误 XXXXXXX-。。activ 1069 Microsoft-Windows-FailoverCluste 群集资源 "Cluster Disk 1" (属于群集角色 "StorageTest" 中的 "物理磁盘")失败。根据资源和角色的故障策略,群集服务可能尝试使该资源在此节点上在线,或者将该组移动到群集的其他节点,然后重新启动。使用故障转移群集管理器或 ClusterResource Windows PowerShell cmdlet 检查资源和组状态。
11/13/2017 10:41:22 PM 错误 XXXXXXX-。。activ 1038 Microsoft-Windows-群集磁盘 "群集磁盘 1" 的 FailoverCluste 所有权已被此节点意外丢失。运行验证配置向导以检查您的存储配置。
11/13/2017 10:41:22 PM 警告 XXXXXXX-。。activ 140 Microsoft Windows-Ntfs 系统无法将数据刷新到事务日志。VolumeId 中可能会发生损坏:X:、DeviceName:设备 HarddiskVolume17(指定的设备不存在。)
11/13/2017 10:41:22 PM 警告 XXXXXXX-。。activ 151 磁盘,磁盘17的容量已更改。
11/13/2017 10:41:22 PM 警告 XXXXXXX-。。activ 151 磁盘,磁盘17的容量已更改。
11/13/2017 10:41:22 PM 警告 XXXXXXX-。。activ 151 磁盘,磁盘17的容量已更改。


群集日志
00001364.000013 f0:: 2017/11/13-22:41: 22.599 INFO [RES] 物理磁盘:PNPDEBUG: reset notification handle 0x35b73da0
00001364.000013 f0:: 2017/11/13-22:41: 22.599 INFO [RES] 物理磁盘:PNPDEBUG: UnregisterDeviceNotification handle 0000001D35B73DA0
00001364.000013 f0:: 2017/11/13-22:41: 22.599 INFO [RES] 物理磁盘:PNP-ID\\? \STORAGE # Volume # {7b3fcfa4-c894-11e7-93ff-0025b505a19f} #0000000000100000 # {53f5630d-b6bf-11d0-94f2-00a0c91efb8b} Volume 消失
00001364.000013 f0:: 2017/11/13-22:41: 22.599 INFO [RES] 物理磁盘:PnpRemoveVolume: 正在删除卷 \\? \STORAGE # Volume # {7b3fcfa4-c894-11e7-93ff-0025b505a19f} #0000000000100000 # {53f5630d-b6bf-11d0-94f2-00a0c91efb8b}
00001364.00002404:: 2017/11/13-22:41: 22.600 INFO [RES] 物理磁盘 < 群集磁盘 1 >:PNP-IDHardDiskpSetPnpUpdateTimePropertyWorker: status 0
000008ac. 000036d0:: 2017/11/13-22:41: 22.600 INFO [GEM] Node 3:通过 gid 7190
00001364.00005034:: 2017/11/13-22:41: 22.600 INFO [RES] 物理磁盘将1个消息发送为批处理 GEM 邮件:HarddiskpIsDiskCsv: IOCTL_DISK_GET_CLUSTER_INFO: device \Device\Harddisk17\Partition0,IsClustered 1 IsCsv 0 InMaintenance 0
00001364.00005034:: 2017/11/13-22:41: 22.600 ERR [RES] 物理磁盘:无法打开设备 \Device\Harddisk17\ClusterPartition1,状态 0xc0000034
00001364.00005034:: 2017/11/13-22:41: 22.600 ERR [RES] 物理磁盘:HarddiskpIsPartitionHidden:无法打开设备 \Device\Harddisk17\ClusterPartition1,状态 2
00001364.00005034:: 2017/11/13-22:41: 22.600 ERR [RES] 物理磁盘 < 群集磁盘 1 >:HardDiskpGetVolumeInfo: 无法判断磁盘 17 partition 1 是否隐藏 2
00001364.00005034:: 2017/11/13-22:41: 22.600 ERR [RES] 物理磁盘 < 群集磁盘 1 >:PnpUpdateDiskConfigThread: 无法获取卷信息状态 2
000008ac。000023e8:: 2017/11/13-22:41: 22.602 info [NM] 收到来自客户端地址 fe80::6d90:4572: db28:58f7 的请求。
00001364.000024 d8:: 2017/11/13-22:41: 22.946 ERR [RES] 物理磁盘 < 群集磁盘 1 >:IsAlive 的健全性检查失败!,挂起的 IO 已完成,状态为1117。
00001364.000024 d8:: 2017/11/13-22:41: 22.946 ERR [RES] 物理磁盘 < 群集磁盘 1 >:IsAlive 的健全性检查失败!,挂起的 IO 已完成,状态为1117。
00001364.000024 d8:: 2017/11/13-22:41:22.946 警告 [RHS] Resource Cluster Disk 1 IsAlive 已指示故障。


Cause

PowerPath 6.1 代码中存在间歇性错误导致了此问题。PRI (永久保留 IN)负载平衡的更改导致 LUN 扩展期间群集磁盘发生故障。

Resolution

解决办法:要解决此问题,请升级至 PowerPath 6.3 或更高版本。可从以下 web 链接下载 PowerPath for Windows:
https://support.emc.com/products/1781
解决方法:如果无法进行升级,则可以通过使用将活动路径减少到半数 Hba 的 LUN 扩展来减少遇到问题的发生。请注意,仍然存在风险。
  1. 从命令提示符处运行 "powermt display bus"。将显示 hba 编号和目标关系。
  2. 运行 "powermt set mode = 备用 hba = < hba # > dev = < dev >" 命令。此命令将允许仅将具有 IO 的半条路径发送至特定设备。因此,仅在使用了2个 Hba 的情况下,使一个启动器 HBA 活动,另一个处于待机模式。
  3. 按计划展开 LUN。
  4. 运行 "powermt set mode = active hba = < hba # > dev = < dev > ' command to restore default state。

Additional Information

注:在调查此问题期间发现了2个错误。 
  1. PowerPath 6.1:群集 PRI (永久保留 IN)命令的负载平衡。 
  2. PowerPath 6.1:报告 Lu 数据失败更改了 UA 以获取总线重新扫描。
下一个问题可能会导致 Microsoft 故障切换群集和 Microsoft 独立服务器的其他症状。
例如,精简配置阈值的交叉点或查询数据更改出于任何原因(LU 名称更改)可能会导致 Windows 处理这些故障的方法出现问题。

Products

PowerPath, PowerPath
Article Properties
Article Number: 000064173
Article Type: Solution
Last Modified: 17 Oct 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.