Data Domain: Varias unidades fallan durante la conmutación por error de sistemas de HA | CA01 Problema de CA02 FW

Summary: Data Domain High Availability (HA) puede experimentar fallas de unidad durante la conmutación por error de HA debido a un problema conocido en el firmware de la unidad. Algunos sistemas pueden experimentar la incapacidad del sistema de archivos para iniciarse después de una conmutación por error o un reinicio. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

La falla del componente se limita a unidades de 8 TB con revisiones de firmware CA01 y CA02. Por lo general, se ven afectados varios grupos RAID (grupos de discos). Puede ser una degradación simple (una falla) o una degradación doble (dos fallas de disco).

Los sistemas que no se reinician experimentan una interrupción en el sistema de archivos, pero deben recuperarse por sí solos; con varias reconstrucciones de discos en curso y pendientes. Para los sistemas que se reinician, se fuerza una conmutación por error, lo que puede hacer que el sistema de archivos se bloquee durante el inicio.

Se aplica a:

  • Solo los modelos DD9400 y DD9900
  • Unidad de disco duro de 8 TB en gabinetes de almacenamiento externo con versión de firmware (FW) CA01 o CA02

Corregir:


Nota: El sistema de archivos debe deshabilitarse cuando se aplica la MDU.


Síntomas de fallas de discos:

  • Los registros de disco informan la clave de detección 4/0x29/0xcd al realizar una ESCRITURA SCSI cdb 0x8a, un error del comando de escritura provoca una falla de disco en el módulo DD_RAID.
Sep 16 06:17:59 DD9900 kernel: [11647695.019070] (E4)scsi16: (ffff88fe1522d800) (0/5/10000) chnl/tgt/lun 0/232/0 result 0x2, cdb 0x8a:00000001498b4728:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
Sep 16 06:20:58 DD9900 kernel: [11647874.161940] (E4)scsi16: (ffff88b96b72cc00) (1/5/10000) chnl/tgt/lun 0/246/0 result 0x2, cdb 0x8a:0000000149adb300:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
Sep 16 06:20:58 DD9900 kernel: [11647874.161997] (E4)scsi16: (ffff88b946a08e00) (1/5/10000) chnl/tgt/lun 0/237/0 result 0x2, cdb 0x8a:000000014a777478:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
  • DD_RAID falla los discos debido a errores de "I/O DE ESCRITURA".
Sep 16 06:17:59 DD9900 kernel: [11647695.020655] (E4)DD_RAID: Failing working disk [6.35 dm-27p3 WSD48SRA 254:3635] from DiskGroup dg19
Sep 16 06:20:59 DD9900 kernel: [11647875.122961] (E4)DD_RAID: Failing working disk [2.32 dm-25p3 WSD49GCR 254:403] from DiskGroup dg4
Sep 16 06:21:54 DD9900 kernel: [11647930.659786] (E4)DD_RAID: Failing working disk [2.39 dm-46p3 WSD48TEG 254:739] from DiskGroup dg2
Sep 16 06:21:58 DD9900 kernel: [11647934.612549] (E4)DD_RAID: Failing working disk [{*}6.43{*} dm-233p3 WSD49GG6 254:3731] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.363248] (E4)DD_RAID: Failing working disk [{*}6.21{*} dm-219p3 WSD47KYS 254:3507] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.477630] (E4)DD_RAID: Failing working disk [{*}6.5{*} dm-242p3 WSD4B13V 254:3875] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.651261] (E4)DD_RAID: Failing working disk [{*}6.18{*} dm-259p3 WSD47EWA 254:4147] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.726575] (E4)DD_RAID: Failing working disk [{*}6.15{*} dm-265p3 WSD49BGL 254:4243] from DiskGroup dg16
Sep 16 06:22:05 DD9900 kernel: [11647941.100980] (E4)DD_RAID: Failing working disk [{*}6.26{*} dm-257p3 WSD49ART 254:4115] from DiskGroup dg16

Síntomas de DDFS no se puede iniciar:

  • En ddfs.info, los siguientes mensajes se refieren a un período prolongado durante el inicio de DDFS. No avanza hasta la finalización del proceso de DDFS, lo que fuerza una conmutación por error al nodo par.
09/15 21:49:21.962018 [a0cc980] SYSTEM_STARTUP: ===== completed <SegStore> - time (1663292961) =====
09/15 21:49:21.962028 [a0cc980] SYSTEM_STARTUP: ===== starting <CC-Agent> - time (1663292961) =====

09/15 21:57:11.699754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/15 21:59:11.819754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/15 22:01:11.939754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
...
09/16 02:01:26.339755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/16 02:03:26.459755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/16 02:05:26.579755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub

Cause

Causa raíz de la condición de falla de disco:
El buffer de caché de DRAM de la unidad encuentra un error de integridad de datos falso bajo una carga de trabajo de I/O aleatoria. El fabricante de la unidad proporcionó una corrección de firmware para resolver este problema.

Resolution

Solución alternativa

Si se produjo un reinicio o una conmutación por error, la capacidad de DD_RAID para "failback" las unidades defectuosas no es una opción. En este caso, permita que se completen las reconstrucciones de discos tradicionales (paridad). Deshabilite GC hasta que se completen todas las reconstrucciones de los discos. Si el sistema de archivos experimenta un problema para iniciarse después de un reinicio o una conmutación por error, consulte un TSE de DDFS antes de finalizar el proceso de DDFS.

Si no se ha producido un reinicio o una conmutación por error, DD_RAID puede realizar un "failback" de la reconstrucción de los discos con fallas. Es una operación manual que utiliza "dd_raidtool" en bash. Antes de iniciar la "conmutación por recuperación" de disco, se debe realizar un ciclo de apagado y encendido de las ranuras de disco fallidas; Comuníquese con el soporte técnico de Dell para realizar esto.

Con base en la experiencia práctica, permita que se completen las reconstrucciones de disco superiores al 50 % en lugar de cambiar a la reconstrucción de conmutación por recuperación.

Una vez finalizadas todas las reconstrucciones, las unidades que siguen fallando pueden ser "unfailed" si se realizó un ciclo de apagado y encendido en sus ranuras respectivas. 


Corregir

La versión CA04 del firmware del disco ahora está disponible como un parche de MDU en forma de un paquete de actualización de DDOS. Comuníquese con el servicio de soporte para obtener una copia del RPM. Se encuentra en /auto/cores/drive-firmware-rpm/drive-firmware-CA04.rpm.


Preguntas más frecuentes: 

  1. ¿Se puede realizar la actualización con un sistema de archivos de Data Domain en línea?
    No, DDFS debe estar en modo offline|deshabilitado durante la actualización del firmware.
  2. ¿Es necesario reiniciar?
    No, no es necesario reiniciar.
  3. ¿Se puede aplicar el FW en el nodo pasivo?
    No, no se puede aplicar en el nodo pasivo. Se debe ejecutar solo en el nodo activo.
  4. ¿Cuánto tiempo tarda en completarse la actualización del FW drive-firmware-CA04.RPM para entre 180-240 unidades (4-DS60)?
    La actualización se realiza en modo paralelo; tarda entre 10 y 15 minutos si no hay problemas.
  5. Si no se actualizan todas las unidades, ¿el sistema actualiza automáticamente las unidades que no son CA04?
    No, la actualización se debe volver a ejecutar o se puede realizar manualmente. Vea "Información adicional" a continuación.
  6. ¿Tienen que aplicar este parche de FW drive-firmware-CA04.RPM en otros DD que no son de HA, ya que estos también pueden tener las unidades en el firmware más antiguo?
    Se recomienda también aplicar el FW drive-firmware-CA04.RPM a los DD que no son de HA con unidades de 8 TB.
  7. Si una unidad falla durante la actualización, ¿se puede anular el error?
    Si una unidad falla antes o durante la actualización del firmware, compruebe el historial de errores en el disco (por ejemplo, "disk show reliability-data"). Si el disco tiene algún error, debe permanecer en estado defectuoso y se debe reemplazar. Si el disco no tiene ningún error, ejecute el comando "disk unfail <disk.id>" para anular la falla de la unidad y convertirla en un repuesto. Si se reemplaza una unidad fallida por una unidad con el firmware de unidad CA01/CA02 anterior, la unidad se debe actualizar de forma manual. Consulte "Cómo actualizar manualmente las unidades de reemplazo" en la sección adicional a continuación.
  8. ¿Por qué es necesario suspender la actividad en el grupo de discos 2 (dg2), incluso cuando DDFS está inactivo?
    DDOS continúa teniendo acceso a los montajes EXT3 que existen en el dg2.


Aplicación del paquete de MDU:

  1. Conéctese al nodo activo del sistema de HA. La actualización no funciona desde el nodo pasivo o en espera.
  2. Programe tiempo de inactividad con el usuario, ya que DDFS se debe deshabilitar durante la actualización del firmware. Ejecute los siguientes comandos para comprobar las alertas actuales y abordarlas, según sea necesario. Detenga el proceso de limpieza, si está en ejecución. Deshabilite el sistema de archivos. 
                # alerts show current
          # filesys clean status
          # filesys clean stop
          # filesys disable
  3. Compruebe el soporte automático de los discos CA01/CA02 que forman parte de >=dg2 para los sistemas que no se sometieron a la migración de almacenamiento. Para los sistemas que sí se sometieron a una migración de almacenamiento, es posible que el grupo de discos con arreglos ext3 no sea dg2. 
    Busque ext3. Se muestra DD_RAID histograma para dgXX, donde XX es el número DG. Consulte un ejemplo en la sección "Información adicional" a continuación. Si los discos dg2/dgXX tienen firmware CA01/C02, el arreglo se debe suspender temporalmente durante el proceso de actualización de MDU. De lo contrario, se puede desencadenar otra falla si no se suspenden todas las actividades de I/O en el grupo de discos. Abra un caso de soporte para obtener ayuda con la suspensión del grupo de discos. Si dg2/dgXX no contiene discos CA01/CA02, no es necesario un caso de soporte. Continúe con el paso 4.
  4. Cargue el archivo drive-firmware-CA04.rpm en la UI de DD System Manager.
  5. Actualice los discos. Ejecute el siguiente comando y espere a que finalice. 
               # system upgrade start drive-firmware-CA04.rpm"
  6. Espere unos 10 minutos.
  7. Verifique que todos los discos estén actualizados. Si aún aparecen discos con el firmware CA01/CA02, repita los pasos 5 y 6. 
               # disk show hardware
  8. Compruebe el estado actual del disco. Si hay varias fallas de disco, comuníquese con el servicio de soporte para obtener ayuda. En el caso de fallas de un solo disco, revise el historial de errores del disco y, si no hay errores, anule la falla del disco. 
              # disk unfail <disk.id>
  9. Verifique las alertas y habilite DDFS. 
              # alerts show current
              # filesys enable

Additional Information

Cómo comprobar si hay discos dg2/dgXX que tengan un arreglo ext3 y firmware CA01/CA02.
Para los sistemas migrados que no son de almacenamiento, dg2 tiene los arreglos ext3.

Busque las siguientes líneas en el soporte automático. (En negrita)

  • DD_RAID Histogram
DD_RAID Histogram for dg2 0xafc318cb033dc226
DG:dg2 UUID:0xafc318cb033dc226 MajorNr:61 MajorNrEx:62 GrpNr:10 State:Complete Status:Reassembled Index:0
    Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:148681617408 Options:0x10000100 Type:StandAlone Primary
    Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS300198000G MG UUID:0x0
Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0xb6fbb5a5a61ecf9]
Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [148681617408 sectors] ID[0xfb32c1339fafc87b]
  • Storage Show All (este comando también se puede ejecutar en la CLI de DD)
dg2       2.1-2.3, 2.13-2.15, 2.25-2.27,     14      7.2 TiB               
          2.37-2.39, 2.49-2.50
  • Disk Show Hardware (este comando se puede ejecutar en la CLI de DD)
2.1          A0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R8GS       7.2 TiB    SASe      DG118000919             
2.2          A1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4REMW       7.2 TiB    SASe      DG118000919             
2.3          A2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4LM5C       7.2 TiB    SASe      DG118000919      
2.13         B0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SMHX       7.2 TiB    SASe      DG118000919             
2.14         B1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4RF04       7.2 TiB    SASe      DG118000919             
2.15         B2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4QHQE       7.2 TiB    SASe      DG118000919    
2.25         C0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4RE9Y       7.2 TiB    SASe      DG118000919             
2.26         C1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4LMME       7.2 TiB    SASe      DG118000919             
2.27         C2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4REW8       7.2 TiB    SASe      DG118000919
2.37         D0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SMHM       7.2 TiB    SASe      DG118000919             
2.38         D1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4QHWR       7.2 TiB    SASe      DG118000919             
2.39         D2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R862       7.2 TiB    SASe      DG118000919     
2.49         E0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SSKK       7.2 TiB    SASe      DG118000919             
2.50         E1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SV53       7.2 TiB    SASe      DG118000919             
2.51         E2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R944       7.2 TiB    SASe      DG118000919

 

En el ejemplo anterior, las unidades tienen firmware CA01. Se debe abrir un caso de soporte para que Dell Technologies pueda ayudar a suspender el grupo de discos (dg2) que contiene el arreglo ext3 antes de que se aplique la actualización de MDU. 

En el caso de los sistemas migrados de almacenamiento, es posible que el arreglo que contiene ext3 no sea dg2. Busque las siguientes líneas en el soporte automático. (En negrita)

  • Licenses (STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS)

 

Licenses
--------
System locking-id: APX00123456789
Licensing scheme: EMC Electronic License Management System (ELMS) node-locked mode
Capacity licenses:
##   Feature           Shelf Model    Capacity      Type        State    Expiration Date   Note
--   ---------------   ------------   -----------   ---------   ------   ---------------   ----
1    CAPACITY-ACTIVE   HIGH_DENSITY   1396.98 TiB   permanent   active   n/a                   
--   ---------------   ------------   -----------   ---------   ------   ---------------   ----
Licensed Active Tier capacity: 1396.98 TiB*
* Depending on the hardware platform, usable filesystem capacities may vary.
Feature licenses:
##   Feature                                    Count   Type         State    Expiration Date   Note           
--   ----------------------------------------   -----   ----------   ------   ---------------   ---------------
1    REPLICATION                                    1   permanent    active   n/a                              
2    VTL                                            1   permanent    active   n/a                              
3    DDBOOST                                        1   permanent    active   n/a                              
4    RETENTION-LOCK-GOVERNANCE                      1   permanent    active   n/a                              
5    ENCRYPTION                                     1   permanent    active   n/a                              
6    I/OS                                           1   permanent    active   n/a                              
7    RETENTION-LOCK-COMPLIANCE                      1   permanent    active   n/a                              
8    STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS       6   evaluation   grace    2023-11-20        
--   ----------------------------------------   -----   ----------   ------   ---------------   ---------------
License file last modified at : 2022/08/29 11:02:13.
  • DD_RAID Histogram
DD_RAID Histogram for dg23 0x323d6b863ae21b8f
DG:dg23 UUID:0x323d6b863ae21b8f MajorNr:61 MajorNrEx:62 GrpNr:18 State:Complete Status:Reassembled Index:0
    Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:161373947904 Options:0x10000100 Type:StandAlone Primary
    Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS30021O001N MG UUID:0x0
Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0x16222e80737dc6bf]
Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [161373947904 sectors] ID[0x8febacd8140b2c05]
  • Storage Show All (This command can be ran on the DD CLI)
dg23      6.1-6.3, 6.13-6.15, 6.25-6.27,     14      7.2 TiB               
          6.37-6.39, 6.49-6.50

 

  • Disk Show Hardware (This command can be ran on the DD CLI)
6.1          A0     HITACHI H04728T8CLAR8000   A430       VYH2S3SS         7.2 TiB    SASe      DG118000785             
6.2          A1     HITACHI H04728T8CLAR8000   A430       VYH2RVSS         7.2 TiB    SASe      DG118000785             
6.3          A2     HITACHI H04728T8CLAR8000   A430       VYH2K9KS         7.2 TiB    SASe      DG118000785          
6.13         B0     HITACHI H04728T8CLAR8000   A430       VYH2JJBS         7.2 TiB    SASe      DG118000785             
6.14         B1     HITACHI H04728T8CLAR8000   A430       VYH1Y83S         7.2 TiB    SASe      DG118000785             
6.15         B2     HITACHI H04728T8CLAR8000   A430       VYH2RNGS         7.2 TiB    SASe      DG118000785    
6.25         C0     HITACHI H04728T8CLAR8000   A430       VYH1DN8S         7.2 TiB    SASe      DG118000785             
6.26         C1     HITACHI H04728T8CLAR8000   A430       VYH2124S         7.2 TiB    SASe      DG118000785             
6.27         C2     HITACHI H04728T8CLAR8000   A430       VYH0ZM6S         7.2 TiB    SASe      DG118000785  
6.25         C0     HITACHI H04728T8CLAR8000   A430       VYH1DN8S         7.2 TiB    SASe      DG118000785             
6.26         C1     HITACHI H04728T8CLAR8000   A430       VYH2124S         7.2 TiB    SASe      DG118000785             
6.27         C2     HITACHI H04728T8CLAR8000   A430       VYH0ZM6S         7.2 TiB    SASe      DG118000785           
6.47         D10    HITACHI H04728T8CLAR8000   A430       VYH1XGJS         7.2 TiB    SASe      DG118000785             
6.48         D11    HITACHI H04728T8CLAR8000   A430       VYH20VHS         7.2 TiB    SASe      DG118000785             
6.49         E0     HITACHI H04728T8CLAR8000   A430       VYH2G5XS         7.2 TiB    SASe      DG118000785


Dado que las unidades no tienen firmware CA01 y CA02, no se requiere un caso de soporte. Vaya al paso 3 de la actualización de MDU en la sección "Resolución" anterior.

Affected Products

Data Domain, DD9400 Appliance, DD9900 Appliance

Products

DD OS 7.11
Article Properties
Article Number: 000204252
Article Type: Solution
Last Modified: 30 Oct 2025
Version:  19
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.