VNX/Unity:了解不可纠正的扇区和奇偶校验错误(用户可纠正)

Summary: 本文介绍不可纠正的扇区和奇偶校验错误。

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

了解 CLARiiON、VNX 或 Unity 阵列上的不可纠正的扇区和奇偶校验错误。

事件日志消息(如下所示)也可能显示为 "拨号盘":

VNX1
错误代码:0x953 无法纠正的奇偶校验扇区
错误代码:0x957 无法纠正的数据扇区
错误代码:0x68A 无法纠正的奇偶校验扇区
错误代码:0x695 无法纠正的数据扇区
错误代码:0x840 Data 扇区失效
B26 Cache 已 CORRUPT_CRC 发布。LUN = 309 ca_sync. c 0 309 2


VNX2
71688003 不可纠正扇区 RAID 组:%2 位置:%3 LBA:%4 个数据块:%5 错误信息:%6 额外信息:%7
71688008 不可纠正扇区 RAID 组:10个位置:1 LBA: d180 数据块:8条错误消息:0额外信息: e [r5_rb FLU 8224 r5_rb]
71688008 不可纠正扇区 RAID 组:10个位置:1 LBA: d170 数据块:8条错误消息:0额外信息: e [r5_rb FLU 8224 r5_rb]
71688001 Data 扇区失效 RAID 组:10个位置:1 LBA: d121 数据块:7错误信息:0额外信息: e [r5_rb FLU 8224 r5_rb]

Cause

相同 raid 组中的两个不同磁盘发生介质错误时,会出现不可纠正错误。
一个例子,当有介质错误的磁盘复制到热备用,并且同一 raid 组中的另一个磁盘在相同的扇区中也存在介质错误时,这会导致不可纠正的错误/扇区。

当系统无法从磁盘读取数据扇区,并且后续尝试从 RAID 组中的其他磁盘重新构建数据时,将记录上面介绍的事件代码。"无法纠正" 消息指示哪些磁盘无法成功读取扇区,并且 "失效" 消息指示哪些磁盘扇区被标记为与特定位置中的有效信息无效。这将进行标记,以确保不会将任何无效数据返回至主机系统。尝试从无效位置读取将导致向主机返回硬错误。
尝试写入到无效位置将会成功完成,通常会 "填满" (覆盖) void 位置,从而有效地修复不可纠正的情况。这是在主机使用新的良好数据覆盖这些扇区后,过去不可纠正错误的原因会消失。

Resolution

对于 VNX:
解决所有硬件问题后,Dell EMC 技术支持将需要执行手动只读后台验证(ROBV)(如果受影响的池中的内部 LUN)。ROBV 读取并检查整个 LUN (内部)上 uncorrectables 的数据,包括未使用的空间,以确定可能仍然存在多少 uncorrectables 扇区。
完成 ROBV 后,如果 uncorrectables 仍在进行中,您的 Dell EMC 技术支持工程师将需要执行附加步骤,包括收集和分析存储分配表信息(SAT),以确定受影响的特定用户 LUN (找到 uncorrectables 的内部 Lun 将映射到用户 Lun)。
有关执行 ROBV 所需的完整说明和前提条件,请参见文章466638, VNX:只读后台验证(ROBV)说明(用户可更正)

当在用户 LUN 中找到无法纠正的扇区时,主机应用程序将需要验证用户数据,以确定用户数据是否已损坏或错误是否驻留在未使用的空间中。读取备份等数据的任何过程将适合识别/标记可能损坏的情况。
如果损坏,可以从完好的备份中恢复数据,方法是执行完整恢复,或仅部分恢复受影响的文件。
如果没有完好的备份,则应使用主机应用程序的另一种方法来恢复或重新创建数据。

如果在用户数据中找不到不可纠正的错误,后台进程可能仍会在将来发现错误,如果主机 i/o 不会覆盖该扇区。这可能会导致不正确的评估,这是新的错误,并会导致分析和补救延迟,以解决未完全解决的旧错误。
在这种情况下,强烈建议将良好的数据移到另一个 LUN,并删除原始受影响的 LUN。

对于 Unity,可能存在其他方法来尝试帮助解决此问题。请检查更多 Unity 特定文章。

Additional Information

常见问题解答:

如果客户主机应用程序不会覆盖数据,工程师是否可以使用另一种方法来恢复丢失的客户数据,并且如果从备份恢复不起作用?
没有其他方法可以恢复恢复操作以外的数据,也不能重新创建应用程序中的数据。
由于无法纠正的数据实际会丢失数据,因此无法了解数据将其写回的目的。  这就是扇区处于 "失效" 的原因,并且将硬错误返回给主机。返回比错误数据更好的硬错误。

无效的扇区是否可以更改磁盘上的位置?
对于标准 LUN,无效的数据扇区将始终保持不变。
对于启用了自动分层的池 LUN,它可以在该切片被重定位时移动。

是否有一种方法来确定失效扇区的实际位置?  
由于 Lun 在 RAID 组或池内的映射方式以及事件日志中有哪些信息可用,因此很难找到无效扇区的位置。
请联系 Dell EMC 支持部门以进一步协助识别包含失效扇区的数据块。  支持团队首先需要执行不可纠正的恢复流程,然后将问题升级到恢复团队。。

如果失效的扇区似乎不会影响客户数据区域,是否可以在不解除 LUN 的情况下去除它?
在写入临时数据以填充 LUN,然后删除临时数据时,已报告一些成功。  如果将失效的区域写入临时数据,则会填充失效的位置,从而使用有效的数据恢复无效的扇区。

如果由只读后台验证报告了无法纠正的错误,则客户可以仅运行 CHKDSK 或 FSCK 来检查文件系统中数据的完整性吗?
当出现无法纠正的扇区问题时,应检查客户数据是否存在任何文件损坏。要执行此操作,请运行某些类型的应用程序或程序,以读取 LUN 空间中的所有已用扇区。最常用的方法是数据的完整备份。建议只运行 FSCK (UNIX)或 CHKDSK (Windows),因为这些应用工具只检查文件的元数据区域。如果不可纠正的扇区未出现在元数据空间中,客户将留下印象表明数据正常,而事实上它可能不是。

其他常见问题解答:

为什么需要禁用数据压缩?
数据压缩是一项功能,用于分析磁盘上的数据,并应用可减少某些类型的文件固有的重复位序列大小的算法。在 LUN RAID 组的压缩操作期间,软件将 LUN 数据迁移并压缩到池中的精简 LUN。LUN 将成为压缩的精简 LUN。池 Lun 的压缩操作(密集和精简)在压缩 LUN 所驻留的池中进行。只要数据被压缩,池内的数据移动将无法帮助我们确定由于 Uncorrectables 或意外的一致性而受到影响的正确 MLU。因此必须暂停此功能。

为什么需要禁用自动分层?
自动分层功能在存储层或不同的存储介质(EFD、FC & SATA)之间迁移数据。分层存储的目的是将最常访问或最重要的数据保留在快速、高性能(成本较高)的驱动器上,并将不常访问和不太重要的数据移动到低性能(成本较低)的驱动器。与数据压缩相似,自动分层中涉及数据移动,这将无法帮助我们确定由于 Uncorrectables 或意外的一致性而受到影响的 MLU 的扇区。因此,需要停止位置调整,并且必须禁用该计划。

为什么需要禁用 FAST Cache?
如果在 fast cache 中报告了无法纠正的扇区错误,则需要禁用 fast cache

,为什么有必要在整个 RAID 组(RG)上运行 ROBV 而不是在特定 LUN 上运行?
您需要在整个 RG 上运行 ROBV,以使同一 RG 中的某些其他客户 Lun 不受影响。

为什么需要在池而不是仅在 RAID 组上运行 ROBV?
如果在报告不可纠正的时间和 ROBV 开始之前运行了自动分层计划,则您需要在整个池上运行 ROBV。  这是必需的,因为如果数据片被移到另一个层,则数据存储片可将无法纠正的数据存储片移至另一个扇区。

为什么需要收集 SAT 存储分配表信息?
通过 Dell EMC 支持所使用的工具运行的 SAT 信息将确定无法纠正的扇区所在的客户 LUN/MLU。 这还将指明问题是在数据空间中还是客户 LUN 的元数据空间中。

Affected Products

VNX1 Series

Products

CLARiiON, CLARiiON CX4 Series, Dell EMC Unity Family |Dell EMC Unity All Flash, Dell EMC Unity Family, Dell EMC Unity Hybrid, VNX1 Series, VNX2 Series
Article Properties
Article Number: 000046044
Article Type: Solution
Last Modified: 06 Nov 2025
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.