VNX/Unity: Descripción de los sectores que no se pueden corregir y errores de paridad (que el usuario puede corregir)
Summary: Este artículo explica los sectores que no se pueden corregir y los errores de paridad.
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Symptoms
Comprender los sectores que no se pueden corregir y los errores de paridad en un arreglo CLARiiON, VNX o Unity.
Los mensajes de registro de sucesos, como los siguientes, también pueden aparecer como casas de marca:
código de error de VNX1
: código de error del sector de paridad 0x953 no corregible
: 0x957 código de error del sector de datos que no se puede corregir
: código de error del sector de paridad 0x68A no corregible
: 0x695 código de error del sector de datos que no se puede corregir
: el sector de datos 0x840 invalidado
B26 cache ha emitido CORRUPT_CRC. LUN = 309 ca_sync. c 0 309 2
Grupo RAID del Sector VNX2 71688003 no corregible: %2 posición: %3 LBA: %4 bloques: %5 error info: %6 información adicional:
grupo RAID del sector no corregible %7 71688008: 10 posición: 1 LBA: bloques D180: 8 información de error: 0 Información adicional: e [r5_rb gripe 8224 r5_rb]
71688008 grupo RAID del sector que no se puede corregir: 10 posición: 1 LBA: bloques D170: 8 información de error: 0 Información adicional: e [r5_rb gripe 8224 r5_rb]
71688001 sector de datos invalidado grupo RAID: 10 posición: 1 LBA: bloques D121: 7 información de error: 0 Información adicional: e [r5_rb gripe 8224 r5_rb]
Los mensajes de registro de sucesos, como los siguientes, también pueden aparecer como casas de marca:
código de error de VNX1
: código de error del sector de paridad 0x953 no corregible
: 0x957 código de error del sector de datos que no se puede corregir
: código de error del sector de paridad 0x68A no corregible
: 0x695 código de error del sector de datos que no se puede corregir
: el sector de datos 0x840 invalidado
B26 cache ha emitido CORRUPT_CRC. LUN = 309 ca_sync. c 0 309 2
Grupo RAID del Sector VNX2 71688003 no corregible: %2 posición: %3 LBA: %4 bloques: %5 error info: %6 información adicional:
grupo RAID del sector no corregible %7 71688008: 10 posición: 1 LBA: bloques D180: 8 información de error: 0 Información adicional: e [r5_rb gripe 8224 r5_rb]
71688008 grupo RAID del sector que no se puede corregir: 10 posición: 1 LBA: bloques D170: 8 información de error: 0 Información adicional: e [r5_rb gripe 8224 r5_rb]
71688001 sector de datos invalidado grupo RAID: 10 posición: 1 LBA: bloques D121: 7 información de error: 0 Información adicional: e [r5_rb gripe 8224 r5_rb]
Consulte el artículo 382528 VNX2: El arreglo informa eventos como 0x71688001, 0x71688002, 0x71688003, 0x71688007 o 0x71688008 (que el usuario puede corregir) para códigos de eventos adicionales.
Cause
Se producen errores incorregibles cuando dos discos diferentes del mismo grupo RAID, dentro del mismo sector, tienen errores de medios.
Un ejemplo, cuando un disco con errores de medios se copia a un repuesto dinámico y otro disco del mismo grupo RAID, en el mismo sector, también tiene errores de medios, esto daría lugar a un error o un sector incorregibles.
Los códigos de evento descritos anteriormente se registran cuando el sistema no puede leer los sectores de datos desde un disco y los intentos posteriores para reconstruir los datos desde otro disco en el grupo RAID fallaron. Los mensajes "incorregibles" indican qué discos no pudieron leer correctamente los sectores y los mensajes "invalidados" indican qué discos se marcaron como insuficientes para la información válida en una ubicación específica. Este marcado se realiza para garantizar que no se devuelvan datos no válidos a un sistema host. Los intentos de lectura desde una ubicación invalidada provocarán que se devuelva un error de hardware a un host.
Los intentos de escritura en una ubicación invalidada se completan correctamente y, por lo general, "rellenan" (sobrescriben) la ubicación de la anulación, lo que permite corregir el incorregible. Esta es la razón por la cual, en ocasiones, los errores no corregibles pasados desaparecen después de que un host sobrescribe estos sectores con nuevos datos en buen estado.
Un ejemplo, cuando un disco con errores de medios se copia a un repuesto dinámico y otro disco del mismo grupo RAID, en el mismo sector, también tiene errores de medios, esto daría lugar a un error o un sector incorregibles.
Los códigos de evento descritos anteriormente se registran cuando el sistema no puede leer los sectores de datos desde un disco y los intentos posteriores para reconstruir los datos desde otro disco en el grupo RAID fallaron. Los mensajes "incorregibles" indican qué discos no pudieron leer correctamente los sectores y los mensajes "invalidados" indican qué discos se marcaron como insuficientes para la información válida en una ubicación específica. Este marcado se realiza para garantizar que no se devuelvan datos no válidos a un sistema host. Los intentos de lectura desde una ubicación invalidada provocarán que se devuelva un error de hardware a un host.
Los intentos de escritura en una ubicación invalidada se completan correctamente y, por lo general, "rellenan" (sobrescriben) la ubicación de la anulación, lo que permite corregir el incorregible. Esta es la razón por la cual, en ocasiones, los errores no corregibles pasados desaparecen después de que un host sobrescribe estos sectores con nuevos datos en buen estado.
Resolution
Para VNX:
Una vez que se hayan resuelto todos los problemas de hardware, Dell EMC el servicio de asistencia técnica deberá ejecutar una verificación de fondo manual de solo lectura (ROBV) si los LUN internos afectados se encuentran en el pool afectado. ROBV Lee y comprueba los datos para uncorrectables en todo el LUN (interno), incluido el espacio no utilizado para determinar cuántos sectores de uncorrectables aún pueden existir.
Una vez que ROBV haya finalizado, si el uncorrectables sigue ocurriendo, el ingeniero de soporte técnico de Dell EMC deberá ejecutar pasos adicionales, como la recopilación y el análisis de la información de la tabla de asignación de almacenamiento (SAT) para identificar los LUN de usuario específicos afectados (los LUN internos donde se encontró el uncorrectables se mapearán a los LUN de usuario).
Para obtener una explicación completa y los requisitos previos necesarios para ejecutar un ROBV, consulte el artículo 466638, VNX: Explicación de la verificación en segundo plano de solo lectura (ROBV) (que puede corregir el usuario)
Cuando se encuentra un sector que no se puede corregir en una LUN de usuario, la aplicación host deberá verificar los datos del usuario para determinar si los datos del usuario están dañados o si el error reside en el espacio no utilizado. Cualquier proceso que lea los datos, como un respaldo, se adecuaría para identificar/marcar posibles daños.
Si hay daños, los datos se pueden restaurar a partir de un buen respaldo, con una restauración completa o una restauración parcial de solo los archivos afectados.
Si no hay un buen respaldo, se deben utilizar otros medios de la aplicación del host para restaurar o volver a crear los datos.
Si no se encuentra el error que no se puede corregir en los datos de usuario, es posible que los procesos en segundo plano detecten el error en el futuro, si el I/O del host no sobrescribe el sector. Esto puede dar lugar a una evaluación incorrecta de que se trata de un error nuevo y causar demoras en el análisis y la corrección de un error anterior que no se resolvió completamente.
En este caso, se recomienda encarecidamente transferir los datos en buen estado a otra LUN y eliminar la LUN afectada original.
Para Unity, pueden existir otros métodos para ayudar a resolver este problema. Consulte para obtener más artículos específicos de Unity.
Una vez que se hayan resuelto todos los problemas de hardware, Dell EMC el servicio de asistencia técnica deberá ejecutar una verificación de fondo manual de solo lectura (ROBV) si los LUN internos afectados se encuentran en el pool afectado. ROBV Lee y comprueba los datos para uncorrectables en todo el LUN (interno), incluido el espacio no utilizado para determinar cuántos sectores de uncorrectables aún pueden existir.
Una vez que ROBV haya finalizado, si el uncorrectables sigue ocurriendo, el ingeniero de soporte técnico de Dell EMC deberá ejecutar pasos adicionales, como la recopilación y el análisis de la información de la tabla de asignación de almacenamiento (SAT) para identificar los LUN de usuario específicos afectados (los LUN internos donde se encontró el uncorrectables se mapearán a los LUN de usuario).
Para obtener una explicación completa y los requisitos previos necesarios para ejecutar un ROBV, consulte el artículo 466638, VNX: Explicación de la verificación en segundo plano de solo lectura (ROBV) (que puede corregir el usuario)
Cuando se encuentra un sector que no se puede corregir en una LUN de usuario, la aplicación host deberá verificar los datos del usuario para determinar si los datos del usuario están dañados o si el error reside en el espacio no utilizado. Cualquier proceso que lea los datos, como un respaldo, se adecuaría para identificar/marcar posibles daños.
Si hay daños, los datos se pueden restaurar a partir de un buen respaldo, con una restauración completa o una restauración parcial de solo los archivos afectados.
Si no hay un buen respaldo, se deben utilizar otros medios de la aplicación del host para restaurar o volver a crear los datos.
Si no se encuentra el error que no se puede corregir en los datos de usuario, es posible que los procesos en segundo plano detecten el error en el futuro, si el I/O del host no sobrescribe el sector. Esto puede dar lugar a una evaluación incorrecta de que se trata de un error nuevo y causar demoras en el análisis y la corrección de un error anterior que no se resolvió completamente.
En este caso, se recomienda encarecidamente transferir los datos en buen estado a otra LUN y eliminar la LUN afectada original.
Para Unity, pueden existir otros métodos para ayudar a resolver este problema. Consulte para obtener más artículos específicos de Unity.
Additional Information
Preguntas frecuentes:
¿La ingeniería tiene otra manera de recuperar los datos perdidos del cliente si una aplicación del host del cliente no sobrescribe los datos y si no funciona una restauración desde el respaldo?
No hay otra manera de recuperar los datos que no sean una operación de restauración ni de recrear los datos desde la aplicación.
Dado que los datos que no se pueden corregir realmente faltan en los datos, no hay manera de saber cuáles deben ser los datos para escribirlos nuevamente. Por esta razón, el sector está "invalidado" y se devuelve un error de hardware al host. Es mejor devolver un error de hardware que los datos incorrectos.
¿Es posible que un sector invalidado cambie de ubicación en un disco?
Para un LUN estándar, el sector de datos no válido siempre será el mismo.
En el caso de un pool LUN con la función de organización automática en niveles activada, se puede mover si ese segmento se reubica.
¿Existe una forma de descubrir la ubicación real de un sector invalidado?
Es muy difícil ubicar la posición de un sector invalidado debido a la forma en que se mapean los LUN dentro de grupos RAID o pools, y la información que está disponible en los registros de eventos.
Póngase en contacto con el servicio de soporte de Dell EMC para obtener más ayuda para identificar los bloques que contienen el sector invalidado. El equipo de soporte deberá primero pasar por el proceso de recuperación que no se puede corregir y, a continuación, elevar el problema al equipo de recuperación. .
Si el sector invalidado no parece afectar el área de datos del cliente, ¿existe una forma de deshacerse de él sin desvincular el LUN?
Se informaba una operación exitosa al escribir datos temporales para completar el LUN y, a continuación, eliminar los datos temporales. Si el área invalidada se escribe en con datos temporales, las ubicaciones anuladas se completan y, por lo tanto, se restaura el sector no válido con datos válidos.
¿Un cliente puede ejecutar solo CHKDSK o FSCK para comprobar la integridad de los datos en el sistema de archivos si se informa de errores no corregibles por medio de solo lectura en segundo plano?
Cuando hay un problema de sectores que no se pueden corregir, los datos del cliente deben comprobar si existe algún daño en los archivos. Para ello, ejecute algún tipo de aplicación o programa que lea todos los sectores utilizados en el espacio de LUN. El tipo de método más común es un respaldo completo de los datos. No se recomienda simplemente ejecutar un FSCK (UNIX) o CHKDSK (Windows), ya que estas utilidades solo comprueban el área de metadatos de los archivos. Si los sectores que no se pueden corregir no están en el espacio de metadatos, el cliente quedará sin la impresión de que los datos están en buen estado cuando, de hecho, pueden no ser.
Otras preguntas frecuentes:
¿Por qué es necesario deshabilitar la compresión de datos?
La compresión de datos es una función que analiza los datos en un disco y aplica algoritmos que reducen el tamaño de secuencias repetitivas de bits inherentes a algunos tipos de archivos. Durante la operación de compresión para un grupo RAID LUN, el software migra y comprime los datos LUN en un LUN delgado en un pool. El LUN se convierte en un LUN delgado comprimido. Las operaciones de compresión para los LUN de pool (grueso y delgado) tienen lugar dentro del pool en el que reside la LUN que se va a comprimir. Cada vez que se comprimen los datos, hay una transferencia de datos dentro del pool que no nos ayudará a identificar el MLU correcto que se ve afectado debido a Uncorrectables o la coherencia inesperada. Por lo tanto, la función debe estar en pausa.
¿Por qué es necesario deshabilitar la organización automática en niveles?
La función de organización automática en niveles migra datos entre niveles de almacenamiento u otros medios de almacenamiento (EFD, FC & SATA). El propósito del almacenamiento en niveles es conservar los datos más importantes o de acceso más frecuente en las unidades Fast, de alto rendimiento (más costosas) y transferir los datos menos importantes y de acceso menos frecuente a unidades de bajo rendimiento (menos costosas). Al igual que la compresión de datos, hay transferencias de datos involucradas en organización automática en niveles, que no nos ayudarán a identificar el sector del MLU que se ve afectado debido a Uncorrectables o la coherencia inesperada si no está deshabilitada. Por lo tanto, la reubicación debe detenerse y el programa debe estar deshabilitado.
¿Por qué es necesario deshabilitar Fast cache?
Fast cache solo se debe deshabilitar si se informa el error de sector que no se puede corregir en Fast cache
por qué es necesario ejecutar ROBV en todo el grupo RAID (RG) y no en el LUN específico?
Debe ejecutar ROBV en el RG completo para que no se hayan visto afectados otros LUN del cliente en el mismo RG.
¿Por qué es necesario ejecutar ROBV en el pool y no solo el grupo RAID?
Debe ejecutar ROBV en un pool completo si se ha ejecutado un programa de organización automática en niveles desde el momento en que se informó un informe que no se puede corregir y el ROBV está programado para comenzar. Esto es necesario, ya que los segmentos de datos pueden mover el incorregible a otro sector si ese segmento de datos se transfiere a otro nivel.
¿Por qué es necesario recopilar la información de la tabla de asignación de almacenamiento de SAT?
La información del SAT cuando se ejecuta a través de las herramientas utilizadas por el soporte de Dell EMC, determinará el LUN/MLU del cliente que se encuentra en el sector que no se puede corregir. Esto también indica si el problema está en el espacio de datos o en el espacio de metadatos del LUN del cliente.
¿La ingeniería tiene otra manera de recuperar los datos perdidos del cliente si una aplicación del host del cliente no sobrescribe los datos y si no funciona una restauración desde el respaldo?
No hay otra manera de recuperar los datos que no sean una operación de restauración ni de recrear los datos desde la aplicación.
Dado que los datos que no se pueden corregir realmente faltan en los datos, no hay manera de saber cuáles deben ser los datos para escribirlos nuevamente. Por esta razón, el sector está "invalidado" y se devuelve un error de hardware al host. Es mejor devolver un error de hardware que los datos incorrectos.
¿Es posible que un sector invalidado cambie de ubicación en un disco?
Para un LUN estándar, el sector de datos no válido siempre será el mismo.
En el caso de un pool LUN con la función de organización automática en niveles activada, se puede mover si ese segmento se reubica.
¿Existe una forma de descubrir la ubicación real de un sector invalidado?
Es muy difícil ubicar la posición de un sector invalidado debido a la forma en que se mapean los LUN dentro de grupos RAID o pools, y la información que está disponible en los registros de eventos.
Póngase en contacto con el servicio de soporte de Dell EMC para obtener más ayuda para identificar los bloques que contienen el sector invalidado. El equipo de soporte deberá primero pasar por el proceso de recuperación que no se puede corregir y, a continuación, elevar el problema al equipo de recuperación. .
Si el sector invalidado no parece afectar el área de datos del cliente, ¿existe una forma de deshacerse de él sin desvincular el LUN?
Se informaba una operación exitosa al escribir datos temporales para completar el LUN y, a continuación, eliminar los datos temporales. Si el área invalidada se escribe en con datos temporales, las ubicaciones anuladas se completan y, por lo tanto, se restaura el sector no válido con datos válidos.
¿Un cliente puede ejecutar solo CHKDSK o FSCK para comprobar la integridad de los datos en el sistema de archivos si se informa de errores no corregibles por medio de solo lectura en segundo plano?
Cuando hay un problema de sectores que no se pueden corregir, los datos del cliente deben comprobar si existe algún daño en los archivos. Para ello, ejecute algún tipo de aplicación o programa que lea todos los sectores utilizados en el espacio de LUN. El tipo de método más común es un respaldo completo de los datos. No se recomienda simplemente ejecutar un FSCK (UNIX) o CHKDSK (Windows), ya que estas utilidades solo comprueban el área de metadatos de los archivos. Si los sectores que no se pueden corregir no están en el espacio de metadatos, el cliente quedará sin la impresión de que los datos están en buen estado cuando, de hecho, pueden no ser.
Otras preguntas frecuentes:
¿Por qué es necesario deshabilitar la compresión de datos?
La compresión de datos es una función que analiza los datos en un disco y aplica algoritmos que reducen el tamaño de secuencias repetitivas de bits inherentes a algunos tipos de archivos. Durante la operación de compresión para un grupo RAID LUN, el software migra y comprime los datos LUN en un LUN delgado en un pool. El LUN se convierte en un LUN delgado comprimido. Las operaciones de compresión para los LUN de pool (grueso y delgado) tienen lugar dentro del pool en el que reside la LUN que se va a comprimir. Cada vez que se comprimen los datos, hay una transferencia de datos dentro del pool que no nos ayudará a identificar el MLU correcto que se ve afectado debido a Uncorrectables o la coherencia inesperada. Por lo tanto, la función debe estar en pausa.
¿Por qué es necesario deshabilitar la organización automática en niveles?
La función de organización automática en niveles migra datos entre niveles de almacenamiento u otros medios de almacenamiento (EFD, FC & SATA). El propósito del almacenamiento en niveles es conservar los datos más importantes o de acceso más frecuente en las unidades Fast, de alto rendimiento (más costosas) y transferir los datos menos importantes y de acceso menos frecuente a unidades de bajo rendimiento (menos costosas). Al igual que la compresión de datos, hay transferencias de datos involucradas en organización automática en niveles, que no nos ayudarán a identificar el sector del MLU que se ve afectado debido a Uncorrectables o la coherencia inesperada si no está deshabilitada. Por lo tanto, la reubicación debe detenerse y el programa debe estar deshabilitado.
¿Por qué es necesario deshabilitar Fast cache?
Fast cache solo se debe deshabilitar si se informa el error de sector que no se puede corregir en Fast cache
por qué es necesario ejecutar ROBV en todo el grupo RAID (RG) y no en el LUN específico?
Debe ejecutar ROBV en el RG completo para que no se hayan visto afectados otros LUN del cliente en el mismo RG.
¿Por qué es necesario ejecutar ROBV en el pool y no solo el grupo RAID?
Debe ejecutar ROBV en un pool completo si se ha ejecutado un programa de organización automática en niveles desde el momento en que se informó un informe que no se puede corregir y el ROBV está programado para comenzar. Esto es necesario, ya que los segmentos de datos pueden mover el incorregible a otro sector si ese segmento de datos se transfiere a otro nivel.
¿Por qué es necesario recopilar la información de la tabla de asignación de almacenamiento de SAT?
La información del SAT cuando se ejecuta a través de las herramientas utilizadas por el soporte de Dell EMC, determinará el LUN/MLU del cliente que se encuentra en el sector que no se puede corregir. Esto también indica si el problema está en el espacio de datos o en el espacio de metadatos del LUN del cliente.
Affected Products
VNX1 SeriesProducts
CLARiiON, CLARiiON CX4 Series, Dell EMC Unity Family |Dell EMC Unity All Flash, Dell EMC Unity Family, Dell EMC Unity Hybrid, VNX1 Series, VNX2 SeriesArticle Properties
Article Number: 000046044
Article Type: Solution
Last Modified: 06 Nov 2025
Version: 6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.