VNX/Unity. Понимание неустранимых секторов и ошибок четности (с учетом пользователя)
Summary: В этой статье описываются неустранимые ошибки и секторы.
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Symptoms
Понимание неустранимых ошибок в секторах и ошибках четности в массивах CLARiiON, VNX или Unity.
Сообщения журнала событий, например следующее, могут также отображаться в качестве телефонных назначений:
VNX1
код ошибки: 0x953 неисправимый
код ошибки сектора четности: 0x957 неустранимой ошибки в секторе данных,
код ошибки: 0x68A неисправимый
код ошибки сектора четности: 0x695 неустранимой ошибки в секторе данных,
код ошибки: CORRUPT_CRCный сектор данных 0x840 недействителен в
кэш-памяти B26, выпущенной. LUN = 309 ca_sync. c 0 309 2
Неустранимая группа RAID VNX2 71688003 с секторами: %2 позиция: %3 LBA: %4 блоков: %5 сведения об ошибке: %6 Дополнительная информация:
Группа RAID %7 71688008 Неустранимая Неустранимая отрасль: 10. позиция: 1 Лаб: блоки D180: 8 сведения об ошибке: 0 дополнительная информация: e [r5_rb ФЛУ 8224 r5_rb]
71688008 Неустранимая группа RAID с секторами: 10. позиция: 1 Лаб: блоки D170: 8 сведения об ошибке: 0 дополнительная информация: e [r5_rb ФЛУ 8224 r5_rb]
71688001 Data секторе стала недействительной группой RAID: 10. позиция: 1 Лаб: блоки D121: 7 сведения об ошибке: 0 дополнительная информация: e [r5_rb ФЛУ 8224 r5_rb]
Сообщения журнала событий, например следующее, могут также отображаться в качестве телефонных назначений:
VNX1
код ошибки: 0x953 неисправимый
код ошибки сектора четности: 0x957 неустранимой ошибки в секторе данных,
код ошибки: 0x68A неисправимый
код ошибки сектора четности: 0x695 неустранимой ошибки в секторе данных,
код ошибки: CORRUPT_CRCный сектор данных 0x840 недействителен в
кэш-памяти B26, выпущенной. LUN = 309 ca_sync. c 0 309 2
Неустранимая группа RAID VNX2 71688003 с секторами: %2 позиция: %3 LBA: %4 блоков: %5 сведения об ошибке: %6 Дополнительная информация:
Группа RAID %7 71688008 Неустранимая Неустранимая отрасль: 10. позиция: 1 Лаб: блоки D180: 8 сведения об ошибке: 0 дополнительная информация: e [r5_rb ФЛУ 8224 r5_rb]
71688008 Неустранимая группа RAID с секторами: 10. позиция: 1 Лаб: блоки D170: 8 сведения об ошибке: 0 дополнительная информация: e [r5_rb ФЛУ 8224 r5_rb]
71688001 Data секторе стала недействительной группой RAID: 10. позиция: 1 Лаб: блоки D121: 7 сведения об ошибке: 0 дополнительная информация: e [r5_rb ФЛУ 8224 r5_rb]
Подробнее см. в статье 382528 VNX2. Массив сообщает о событиях, таких как 0x71688001, 0x71688002, 0x71688003, 0x71688007 или 0x71688008 (для пользователей) для дополнительных кодов событий.
Cause
Неустранимые ошибки происходят, когда два разных диска в одной и той же группе RAID в одном секторе содержат ошибки носителя.
Например, если диск с ошибками носителя копируется в хотспаре, а другой диск в одной и той же группе RAID в том же секторе также содержит ошибки носителя, это может привести к неустранимой ошибке или сектору.
Описанные выше коды событий регистрируются в тех случаях, когда системе не удается прочитать секторы данных с диска, и последующие попытки восстановления данных с другого диска в группе RAID завершились сбоем. «Неустранимые» сообщения указывают, какие из дисков не удалось успешно прочитать секторы, и сообщения «непроверено» указывают на то, какие сектора диска были помечены как «аннулирование» допустимой информации в определенном месте. Эта маркировка выполняется, чтобы убедиться в том, что хост-система не будет возвращать недопустимые данные. Попытка выполнить чтение из недействительного местоположения приведет к ошибке возврата к хосту.
Попытки записи в недействительное расположение будут успешно выполнены, и, как правило, «Fill» (перезаписать) расположение аннулирования, что позволяет эффективно устранить неустранимую ошибку. Это причина, по которой иногда неустранимые ошибки исчезают после того, как хост перезаписал эти секторы новыми хорошими данными.
Например, если диск с ошибками носителя копируется в хотспаре, а другой диск в одной и той же группе RAID в том же секторе также содержит ошибки носителя, это может привести к неустранимой ошибке или сектору.
Описанные выше коды событий регистрируются в тех случаях, когда системе не удается прочитать секторы данных с диска, и последующие попытки восстановления данных с другого диска в группе RAID завершились сбоем. «Неустранимые» сообщения указывают, какие из дисков не удалось успешно прочитать секторы, и сообщения «непроверено» указывают на то, какие сектора диска были помечены как «аннулирование» допустимой информации в определенном месте. Эта маркировка выполняется, чтобы убедиться в том, что хост-система не будет возвращать недопустимые данные. Попытка выполнить чтение из недействительного местоположения приведет к ошибке возврата к хосту.
Попытки записи в недействительное расположение будут успешно выполнены, и, как правило, «Fill» (перезаписать) расположение аннулирования, что позволяет эффективно устранить неустранимую ошибку. Это причина, по которой иногда неустранимые ошибки исчезают после того, как хост перезаписал эти секторы новыми хорошими данными.
Resolution
Для VNX:
После того как все проблемы с оборудованием будут устранены, Dell EMC службе технической поддержки потребуется выполнить проверку в фоновом режиме только для чтения вручную (РОБВ), если затронутые внутренние LUN в соответствующем пуле. РОБВ считывает и проверит данные для ункорректаблес на всей LUN (внутреннем), включая неиспользуемое пространство, чтобы определить, сколько секторов ункорректаблес по-ошибке может быть существует.
Когда РОБВ завершится, если ункорректаблес все еще выполняется, инженеру технической поддержки по Dell EMCу потребуется выполнить дополнительные действия, включая сбор и анализ сведений о таблице распределения ресурсов хранения (сб), чтобы определить, какие именно LUN пользователи были затронуты (внутренние тома, для которых были обнаружены ункорректаблес, будут сопоставлены с логическими модулями пользователя).
Полное описание и предварительные требования, необходимые для выполнения РОБВ, см. в статье 466638, VNX. Пояснения к фоновой проверке только для чтения (РОБВ) (с учетом пользователя)
При обнаружении неустранимого сектора в LUN пользователя пользовательские данные должны быть проверены приложением хоста, чтобы определить, повреждены ли данные пользователя, или если ошибка находится в неиспользуемом пространстве. Любой процесс, который мог бы прочитать данные, например резервную копию, попытается определить/отметить возможное повреждение.
В случае повреждения данные можно восстановить из хорошей резервной копии с помощью полного восстановления или частичного восстановления только тех файлов, которые были затронуты.
Если резервное копирование не предусмотрено, для восстановления или повторного создания данных необходимо использовать другие средства хост-приложения.
Если в пользовательских данных не удается найти неустранимую ошибку, фоновые процессы могут по-прежнему обнаружить ошибку в будущем, если серверные операции ввода-вывода не перезапишут сектор. Это может привести к неправильной оценке, которая является новой ошибкой и вызывает задержки при анализе и исправлении старой ошибки, которая не была полностью устранена.
В этом случае настоятельно рекомендуется переместить хорошие данные на другой LUN и удалить оригинальную затронутую LUN.
В Unityмогут существовать другие методы, которые попытаются помочь устранить эту проблему. Дополнительные статьи можно найти в некоторых статьях для Unity.
После того как все проблемы с оборудованием будут устранены, Dell EMC службе технической поддержки потребуется выполнить проверку в фоновом режиме только для чтения вручную (РОБВ), если затронутые внутренние LUN в соответствующем пуле. РОБВ считывает и проверит данные для ункорректаблес на всей LUN (внутреннем), включая неиспользуемое пространство, чтобы определить, сколько секторов ункорректаблес по-ошибке может быть существует.
Когда РОБВ завершится, если ункорректаблес все еще выполняется, инженеру технической поддержки по Dell EMCу потребуется выполнить дополнительные действия, включая сбор и анализ сведений о таблице распределения ресурсов хранения (сб), чтобы определить, какие именно LUN пользователи были затронуты (внутренние тома, для которых были обнаружены ункорректаблес, будут сопоставлены с логическими модулями пользователя).
Полное описание и предварительные требования, необходимые для выполнения РОБВ, см. в статье 466638, VNX. Пояснения к фоновой проверке только для чтения (РОБВ) (с учетом пользователя)
При обнаружении неустранимого сектора в LUN пользователя пользовательские данные должны быть проверены приложением хоста, чтобы определить, повреждены ли данные пользователя, или если ошибка находится в неиспользуемом пространстве. Любой процесс, который мог бы прочитать данные, например резервную копию, попытается определить/отметить возможное повреждение.
В случае повреждения данные можно восстановить из хорошей резервной копии с помощью полного восстановления или частичного восстановления только тех файлов, которые были затронуты.
Если резервное копирование не предусмотрено, для восстановления или повторного создания данных необходимо использовать другие средства хост-приложения.
Если в пользовательских данных не удается найти неустранимую ошибку, фоновые процессы могут по-прежнему обнаружить ошибку в будущем, если серверные операции ввода-вывода не перезапишут сектор. Это может привести к неправильной оценке, которая является новой ошибкой и вызывает задержки при анализе и исправлении старой ошибки, которая не была полностью устранена.
В этом случае настоятельно рекомендуется переместить хорошие данные на другой LUN и удалить оригинальную затронутую LUN.
В Unityмогут существовать другие методы, которые попытаются помочь устранить эту проблему. Дополнительные статьи можно найти в некоторых статьях для Unity.
Additional Information
Часто задаваемые вопросы.
Есть ли у инженера еще один способ восстановления потерянных данных заказчиков, если приложение заказчика не перезаписывает данные и если восстановление из резервной копии не будет работать?
Не существует другого способа восстановления данных, кроме операции восстановления, или повторного создания данных из приложения.
Поскольку неустранимые данные фактически не имеют данных, невозможно знать, что данные должны быть записаны в обратном порядке. Это объясняется тем, что сектор является недействительным и в хост возвращается твердая ошибка. Лучше возвращать ошибку, превышающую неправильные данные.
Может ли недействительный сектор изменять расположение на диске?
Для стандартного LUN недопустимый сектор данных будет всегда оставаться неизменным.
Для пула LUN с активированным автоматическим Многоуровневое распределение, он может перемещаться при перемещении этого среза.
Есть ли способ найти фактическое расположение недействительного сектора?
Очень трудно найти позицию недействительного сектора в связи с тем, как тома LUN сопоставляются с группами или пулами RAID и какие сведения доступны в журналах событий.
Обратитесь за помощью в службу поддержки Dell EMC, чтобы определить блоки, содержащие недействительный сектор. Прежде чем начать процедуру восстановления, необходимо сначала пройти неустранимый процесс восстановления, а затем эскалировать эту задачу группе восстановления. .
Если недействительный сектор не влияет на область данных заказчика, можно ли его удалить, не привязывая LUN?
При записи временных данных для заполнения LUN выдается сообщение об успешном завершении, а затем удаляются временные данные. Если недействительная область записывается в резервные данные, заполняются аннулированные места. Таким образом восстанавливается недопустимый сектор с действительными данными.
Может ли заказчик запустить только CHKDSK или FSCK для проверки целостности данных в файловой системе, если проверка на неустранимые ошибки сообщает только о неустранимых ошибках проверки в режиме «только чтение»?
При наличии проблем с неустранимыми секторами данные заказчика должны провериться на наличие повреждений файлов. Чтобы сделать это, запустите некоторый тип приложений или программ, которые считывают все используемые секторы в LUN пространстве. Наиболее распространенным типом метода является полное резервное копирование данных. Не рекомендуется просто выполнить команду FSCK (UNIX) или CHKDSK (Windows), так как эти утилиты проверяют только область метаданных файлов. Если неустранимые секторы не находятся в пространстве метаданных, заказчику будет оставлено впечатление, что данные верны, когда на самом деле это может быть не так.
Прочие часто задаваемые вопросы.
Зачем необходимо деактивировать сжатие данных?
Сжатие данных — это функциональность, которая анализирует данные на диске и применяет алгоритмы, которые уменьшают размер повторяющихся последовательностей битов, которые принадлежат к некоторым типам файлов. Во время операции сжатия группы RAID LUN программное обеспечение выполняет миграцию и сжатие данных LUN на «тонком» LUN в пуле. LUN превращается в сжатый тонкий LUN. Операции сжатия для томов пула («Толстого» и «тонкого») выполняются в пределах пула, в котором находится сжатый LUN. Каждый раз, когда данные сжимаются, в пуле передаются данные, которые не позволяют определить верный МЛУ, который затронет в связи с Ункорректаблес или непредвиденной согласованностью. Поэтому эту функцию необходимо приостановить.
Зачем необходимо отключать автоматическое многоуровневое хранение?
Функция автоматического многоуровневого хранения выполняет миграцию данных между уровнями хранения данных или различными дисками хранения данных (дисками EFD емкостью, FC & SATA). Многоуровневое хранение данных — хранение наиболее часто используемых или важных данных на быстрых и высокопроизводительных дисках, а также перемещение менее часто используемых и менее важных данных на жесткие диски низкой производительности (менее дорогих). Так же, как и для сжатия данных, существует возможность перемещения данных в рамках автоматического многоуровневого хранения, которая не позволит нам идентифицировать сектор в МЛУ, который затрагивается из-за Ункорректаблес или неожиданной согласованности, если он не был отключен. Поэтому необходимо остановить перемещение, и расписание должно быть отключено.
Зачем необходимо отключать кэш-память Fast?
Кэш-память Fast требуется отключить только в том случае, если в кэш-памяти Fast сообщается об ошибке неустранимого тома, что
необходимо для запуска РОБВ на всей группе RAID (RAID), а не на определенном LUN?
Необходимо запустить РОБВ на всей RAID, чтобы сделать некоторые другие LUN заказчика в одном и том же RAID не были затронуты.
Зачем необходимо ЗАПУСКАТЬ РОБВ в пуле, а не только в группе RAID?
Если запланировано автоматическое создание расписания автоматического многоуровневого хранения и запланировано выполнение РОБВ, необходимо запустить РОБВ для всего пула. Это необходимо, так как срезы данных могут перемещаться в другой сектор, если этот срез данных перемещается на другой уровень.
Зачем нужно собирать информацию о таблице распределения данных в системе хранения данных?
Сведения о ходе выполнения с помощью инструментов, используемых Dell EMC поддержки, будут определять заказчиком LUN/МЛУ, в котором находится неустранимый сектор. Это также указывает на то, что проблема находится в пространстве данных или в пространстве метаданных заказчика LUN.
Есть ли у инженера еще один способ восстановления потерянных данных заказчиков, если приложение заказчика не перезаписывает данные и если восстановление из резервной копии не будет работать?
Не существует другого способа восстановления данных, кроме операции восстановления, или повторного создания данных из приложения.
Поскольку неустранимые данные фактически не имеют данных, невозможно знать, что данные должны быть записаны в обратном порядке. Это объясняется тем, что сектор является недействительным и в хост возвращается твердая ошибка. Лучше возвращать ошибку, превышающую неправильные данные.
Может ли недействительный сектор изменять расположение на диске?
Для стандартного LUN недопустимый сектор данных будет всегда оставаться неизменным.
Для пула LUN с активированным автоматическим Многоуровневое распределение, он может перемещаться при перемещении этого среза.
Есть ли способ найти фактическое расположение недействительного сектора?
Очень трудно найти позицию недействительного сектора в связи с тем, как тома LUN сопоставляются с группами или пулами RAID и какие сведения доступны в журналах событий.
Обратитесь за помощью в службу поддержки Dell EMC, чтобы определить блоки, содержащие недействительный сектор. Прежде чем начать процедуру восстановления, необходимо сначала пройти неустранимый процесс восстановления, а затем эскалировать эту задачу группе восстановления. .
Если недействительный сектор не влияет на область данных заказчика, можно ли его удалить, не привязывая LUN?
При записи временных данных для заполнения LUN выдается сообщение об успешном завершении, а затем удаляются временные данные. Если недействительная область записывается в резервные данные, заполняются аннулированные места. Таким образом восстанавливается недопустимый сектор с действительными данными.
Может ли заказчик запустить только CHKDSK или FSCK для проверки целостности данных в файловой системе, если проверка на неустранимые ошибки сообщает только о неустранимых ошибках проверки в режиме «только чтение»?
При наличии проблем с неустранимыми секторами данные заказчика должны провериться на наличие повреждений файлов. Чтобы сделать это, запустите некоторый тип приложений или программ, которые считывают все используемые секторы в LUN пространстве. Наиболее распространенным типом метода является полное резервное копирование данных. Не рекомендуется просто выполнить команду FSCK (UNIX) или CHKDSK (Windows), так как эти утилиты проверяют только область метаданных файлов. Если неустранимые секторы не находятся в пространстве метаданных, заказчику будет оставлено впечатление, что данные верны, когда на самом деле это может быть не так.
Прочие часто задаваемые вопросы.
Зачем необходимо деактивировать сжатие данных?
Сжатие данных — это функциональность, которая анализирует данные на диске и применяет алгоритмы, которые уменьшают размер повторяющихся последовательностей битов, которые принадлежат к некоторым типам файлов. Во время операции сжатия группы RAID LUN программное обеспечение выполняет миграцию и сжатие данных LUN на «тонком» LUN в пуле. LUN превращается в сжатый тонкий LUN. Операции сжатия для томов пула («Толстого» и «тонкого») выполняются в пределах пула, в котором находится сжатый LUN. Каждый раз, когда данные сжимаются, в пуле передаются данные, которые не позволяют определить верный МЛУ, который затронет в связи с Ункорректаблес или непредвиденной согласованностью. Поэтому эту функцию необходимо приостановить.
Зачем необходимо отключать автоматическое многоуровневое хранение?
Функция автоматического многоуровневого хранения выполняет миграцию данных между уровнями хранения данных или различными дисками хранения данных (дисками EFD емкостью, FC & SATA). Многоуровневое хранение данных — хранение наиболее часто используемых или важных данных на быстрых и высокопроизводительных дисках, а также перемещение менее часто используемых и менее важных данных на жесткие диски низкой производительности (менее дорогих). Так же, как и для сжатия данных, существует возможность перемещения данных в рамках автоматического многоуровневого хранения, которая не позволит нам идентифицировать сектор в МЛУ, который затрагивается из-за Ункорректаблес или неожиданной согласованности, если он не был отключен. Поэтому необходимо остановить перемещение, и расписание должно быть отключено.
Зачем необходимо отключать кэш-память Fast?
Кэш-память Fast требуется отключить только в том случае, если в кэш-памяти Fast сообщается об ошибке неустранимого тома, что
необходимо для запуска РОБВ на всей группе RAID (RAID), а не на определенном LUN?
Необходимо запустить РОБВ на всей RAID, чтобы сделать некоторые другие LUN заказчика в одном и том же RAID не были затронуты.
Зачем необходимо ЗАПУСКАТЬ РОБВ в пуле, а не только в группе RAID?
Если запланировано автоматическое создание расписания автоматического многоуровневого хранения и запланировано выполнение РОБВ, необходимо запустить РОБВ для всего пула. Это необходимо, так как срезы данных могут перемещаться в другой сектор, если этот срез данных перемещается на другой уровень.
Зачем нужно собирать информацию о таблице распределения данных в системе хранения данных?
Сведения о ходе выполнения с помощью инструментов, используемых Dell EMC поддержки, будут определять заказчиком LUN/МЛУ, в котором находится неустранимый сектор. Это также указывает на то, что проблема находится в пространстве данных или в пространстве метаданных заказчика LUN.
Affected Products
VNX1 SeriesProducts
CLARiiON, CLARiiON CX4 Series, Dell EMC Unity Family |Dell EMC Unity All Flash, Dell EMC Unity Family, Dell EMC Unity Hybrid, VNX1 Series, VNX2 SeriesArticle Properties
Article Number: 000046044
Article Type: Solution
Last Modified: 06 Nov 2025
Version: 6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.