Data Domain : Plusieurs disques tombent en panne lors du basculement des systèmes HA | Problème de firmware CA01 CA02

Summary: La haute disponibilité (HA) Data Domain peut rencontrer des défaillances de disque lors du basculement HA en raison d’un problème connu au niveau du firmware de disque. Certains systèmes peuvent rencontrer des difficultés à démarrer le système de fichiers après un basculement ou un redémarrage. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

La défaillance des composants se limite aux disques de 8 To utilisant les révisions de firmware CA01 et CA02. En général, plusieurs groupes RAID (groupes de disques) sont affectés. On peut observer une dégradation simple (une seule défaillance) ou une double dégradation (deux défaillances de disque).

Les systèmes qui ne redémarrent pas rencontrent une interruption du système de fichiers, mais doivent être restaurés seuls ; les reconstructions de plusieurs disques en cours sont mises en attente. Pour les systèmes qui redémarrent, un basculement est forcé, ce qui peut entraîner le blocage du système de fichiers lors du démarrage.

Systèmes concernés :

  • Modèles DD9400 et D9900 uniquement
  • Disque dur de 8 To dans des boîtiers de stockage externes utilisant la version CA01 ou CA02 du firmware

Résolution :

  • Versions corrigées de DDOS : Les systèmes DDOS 7.11.x, 7.10.1.0, 7.7.5.1 et versions supérieures disposent d’un firmware CA04 intégré.
  • Une MDU (minimal Disruptive Upgrade) est disponible pour toutes les autres versions de DDOS 7.x.

Remarque : Le système de fichiers doit être désactivé lors de l’application de la MDU.


Symptômes de la défaillance du disque :

  • Rapport des journaux de disque : clé de détection 4/0x29/0xcd lors d’une commande SCSI WRITE cdb 0x8a, une erreur de commande d’écriture entraîne une défaillance du disque par le module DD_RAID.
Sep 16 06:17:59 DD9900 kernel: [11647695.019070] (E4)scsi16: (ffff88fe1522d800) (0/5/10000) chnl/tgt/lun 0/232/0 result 0x2, cdb 0x8a:00000001498b4728:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
Sep 16 06:20:58 DD9900 kernel: [11647874.161940] (E4)scsi16: (ffff88b96b72cc00) (1/5/10000) chnl/tgt/lun 0/246/0 result 0x2, cdb 0x8a:0000000149adb300:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
Sep 16 06:20:58 DD9900 kernel: [11647874.161997] (E4)scsi16: (ffff88b946a08e00) (1/5/10000) chnl/tgt/lun 0/237/0 result 0x2, cdb 0x8a:000000014a777478:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
  • DD_RAID force la défaillance des disques en raison d’erreurs liées aux E/S d’écriture (« WRITE I/O »).
Sep 16 06:17:59 DD9900 kernel: [11647695.020655] (E4)DD_RAID: Failing working disk [6.35 dm-27p3 WSD48SRA 254:3635] from DiskGroup dg19
Sep 16 06:20:59 DD9900 kernel: [11647875.122961] (E4)DD_RAID: Failing working disk [2.32 dm-25p3 WSD49GCR 254:403] from DiskGroup dg4
Sep 16 06:21:54 DD9900 kernel: [11647930.659786] (E4)DD_RAID: Failing working disk [2.39 dm-46p3 WSD48TEG 254:739] from DiskGroup dg2
Sep 16 06:21:58 DD9900 kernel: [11647934.612549] (E4)DD_RAID: Failing working disk [{*}6.43{*} dm-233p3 WSD49GG6 254:3731] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.363248] (E4)DD_RAID: Failing working disk [{*}6.21{*} dm-219p3 WSD47KYS 254:3507] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.477630] (E4)DD_RAID: Failing working disk [{*}6.5{*} dm-242p3 WSD4B13V 254:3875] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.651261] (E4)DD_RAID: Failing working disk [{*}6.18{*} dm-259p3 WSD47EWA 254:4147] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.726575] (E4)DD_RAID: Failing working disk [{*}6.15{*} dm-265p3 WSD49BGL 254:4243] from DiskGroup dg16
Sep 16 06:22:05 DD9900 kernel: [11647941.100980] (E4)DD_RAID: Failing working disk [{*}6.26{*} dm-257p3 WSD49ART 254:4115] from DiskGroup dg16

DDFS ne parvient pas à démarrer et présente les symptômes suivants :

  • Dans la version ddfs.info, les messages ci-dessous s’affichent pendant une longue période au démarrage de DDFS. L’opération ne progresse pas tant que le processus DDFS n’est pas terminé et n’a pas forcé un basculement vers le nœud homologue.
09/15 21:49:21.962018 [a0cc980] SYSTEM_STARTUP: ===== completed <SegStore> - time (1663292961) =====
09/15 21:49:21.962028 [a0cc980] SYSTEM_STARTUP: ===== starting <CC-Agent> - time (1663292961) =====

09/15 21:57:11.699754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/15 21:59:11.819754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/15 22:01:11.939754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
...
09/16 02:01:26.339755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/16 02:03:26.459755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/16 02:05:26.579755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub

Cause

Cause première de la condition de défaillance du disque :
Le tampon du cache DRAM du disque rencontre une fausse erreur d’intégrité des données sous une charge applicative d’E/S aléatoire. Le fabricant du disque a fourni un correctif de firmware pour résoudre ce problème.

Resolution

Solution

En cas de redémarrage ou de basculement, la capacité de DD_RAID à effectuer un « failback » sur les disques défaillants n’est pas une option. Dans ce cas, laissez les reconstructions de disque traditionnelles (parité) s’exécuter. Désactivez GC jusqu’à ce que toutes les reconstructions de disque soient terminées. Si le système de fichiers rencontre un problème de démarrage après un redémarrage ou un basculement, consultez un TSE DDFS avant de terminer le processus DDFS.

En l’absence de redémarrage ou de basculement, DD_RAID peut effectuer une reconstruction « failback » des disques défaillants. Il s’agit d’une opération manuelle à l’aide de « dd_raidtool » dans bash. Avant de lancer la restauration automatique, les logements de disque défaillants doivent être redémarrés. Pour ce faire, contactez le support technique Dell .

D’après notre expérience pratique, il est préférable de laisser s’exécuter les reconstructions de disques à plus de 50 % que d’effectuer une reconstruction automatique.

À la fin de toutes les reconstructions, les disques qui demeurent défectueux peuvent être à l’état « unfailed » si un cycle d’alimentation a été effectué sur leurs logements respectifs. 


Correction

La version CA04 du firmware de disque est désormais disponible en tant que correctif MDU sous la forme d’un package de mise à niveau DDOS. Contactez le support pour obtenir une copie du RPM. Il est situé à /auto/cores/drive-firmware-rpm/drive-firmware-CA04.rpm.


Foire aux questions : 

  1. La mise à niveau peut-elle être effectuée avec un système de fichiers Data Domain en ligne ?
    DDFS doit être hors ligne|désactivé pendant la mise à niveau du firmware.
  2. Un redémarrage est-il nécessaire ?
    Non, un redémarrage n’est pas nécessaire.
  3. Le firmware peut-il être appliqué sur le nœud passif ?
    Non, elle ne peut pas s’appliquer sur le nœud passif. Il doit être exécuté sur le nœud actif uniquement.
  4. Combien de temps faut-il pour terminer la mise à niveau du firmware pour les disques 180-240(4-DS60) avec le fichier drive-firmware-CA04.RPM ?
    La mise à niveau est en mode parallèle. Elle prend 10 à 15 minutes s’il n’y a aucun problème.
  5. Si tous les disques ne sont pas mis à jour, le système met-il automatiquement à jour les disques non CA04 ?
    Non, la mise à jour doit être relancée à nouveau ou peut être effectuée manuellement. Voir la section « Informations supplémentaires » ci-dessous.
  6. Ce correctif de firmware de disque CA04.RPM doit-il être appliqué sur d’autres instances DD sans HA, étant donné que les disques peuvent utiliser un firmware plus ancien ?
    Il est également recommandé d’appliquer le firmware de disque CA04.RPM à des instances DD sans HA comportant des disques de 8 To.
  7. Si un disque tombe en panne lors de la mise à jour, peut-il être réactivé ?
    Si un disque tombe en panne avant ou pendant la mise à jour du firmware, recherchez l’historique des erreurs sur le disque (par exemple, « disk show reliability-data »). Si le disque présente des erreurs, il doit rester défaillant et doit être remplacé. Si le disque ne présente aucune erreur, exécutez la commande « disk unfail<disk.id> » pour corriger l’état du disque et en faire un disque de secours. Si un disque défaillant est remplacé par un disque doté de l’ancien firmware de disque CA01/CA02, le disque doit être mis à jour manuellement. Voir ci-dessous « Comment mettre à jour manuellement des disques de remplacement » dans la section supplémentaire ci-dessous.
  8. Pourquoi est-il nécessaire de suspendre l’activité dans le groupe de disques 2 (dg2), même lorsque DDFS est arrêté ?
    DDOS continue d’avoir accès aux montages EXT3 qui existent dans dg2.


Application du package MDU :

  1. Connectez-vous au nœud actif du système HA. La mise à jour ne fonctionne pas à partir du nœud passif ou en veille.
  2. Planifiez une interruption de service avec l’utilisateur, car DDFS doit être désactivé pendant la mise à jour du firmware. Exécutez les commandes suivantes pour vérifier les alertes actuelles et les traiter si nécessaire. Arrêtez le processus de nettoyage s’il est en cours d’exécution. Désactivez le système de fichiers. 
                # alerts show current
          # filesys clean status
          # filesys clean stop
          # filesys disable
  3. Vérifiez le support automatique pour les disques CA01/CA02 qui font partie de >=dg2 pour les systèmes qui n’ont pas subi de migration de stockage. Pour les systèmes qui ont subi une migration du stockage, le groupe de disques associé aux baies ext3 peut ne pas être le dg2. 
    Recherchez ext3. Il affiche DD_RAID histogramme pour la dgXX où XX est le numéro DG. Voir l’exemple dans la section « Informations supplémentaires » ci-dessous. Si les disques dg2/dgXX disposent du firmware CA01/C02, la baie doit être suspendue temporairement pendant le processus de mise à niveau MDU. Si vous ne le faites pas, une autre défaillance peut se déclencher si toutes les activités d’E/S dans le groupe de disques ne sont pas suspendues. Ouvrez un ticket de support pour obtenir de l’aide sur la suspension du groupe de disques. Si dg2/dgXX ne contient pas de disques CA01/CA02, un cas de support n’est pas nécessaire. Passez à l'étape 4.
  4. Téléchargez le drive-firmware-CA04.rpm à partir de l’interface utilisateur de DD System Manager.
  5. Mettez à niveau les disques. Exécutez la commande suivante et attendez qu’elle se termine. 
               # system upgrade start drive-firmware-CA04.rpm"
  6. Patientez environ 10 minutes.
  7. Vérifiez que tous les disques sont mis à niveau. Si les disques s’affichent toujours avec le firmware CA01/CA02, répétez les étapes 5 et 6. 
               # disk show hardware
  8. Vérifiez l’état actuel du disque. En cas de défaillance de plusieurs disques, contactez le support pour obtenir de l’aide. En cas de défaillance d’un seul disque, vérifiez l’historique des erreurs du disque. S’il ne contient aucune erreur, annulez la défaillance du disque. 
              # disk unfail <disk.id>
  9. Vérifiez les alertes et activez DDFS. 
              # alerts show current
              # filesys enable

Additional Information

Recherche des disques dg2/dgXX dotés d’une baie ext3 et contenant le firmware CA01/CA02.
Pour les systèmes migrés sans stockage, dg2 dispose des baies ext3.

Recherchez les lignes suivantes dans l’autosupport. (En gras)

  • Histogramme DD_RAID
DD_RAID Histogram for dg2 0xafc318cb033dc226
DG:dg2 UUID:0xafc318cb033dc226 MajorNr:61 MajorNrEx:62 GrpNr:10 State:Complete Status:Reassembled Index:0
    Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:148681617408 Options:0x10000100 Type:StandAlone Primary
    Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS300198000G MG UUID:0x0
Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0xb6fbb5a5a61ecf9]
Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [148681617408 sectors] ID[0xfb32c1339fafc87b]
  • Storage Show All (cette commande peut également être exécutée sur la CLI DD)
dg2       2.1-2.3, 2.13-2.15, 2.25-2.27,     14      7.2 TiB               
          2.37-2.39, 2.49-2.50
  • Disk Show Hardware (cette commande peut être exécutée sur la CLI DD)
2.1          A0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R8GS       7.2 TiB    SASe      DG118000919             
2.2          A1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4REMW       7.2 TiB    SASe      DG118000919             
2.3          A2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4LM5C       7.2 TiB    SASe      DG118000919      
2.13         B0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SMHX       7.2 TiB    SASe      DG118000919             
2.14         B1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4RF04       7.2 TiB    SASe      DG118000919             
2.15         B2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4QHQE       7.2 TiB    SASe      DG118000919    
2.25         C0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4RE9Y       7.2 TiB    SASe      DG118000919             
2.26         C1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4LMME       7.2 TiB    SASe      DG118000919             
2.27         C2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4REW8       7.2 TiB    SASe      DG118000919
2.37         D0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SMHM       7.2 TiB    SASe      DG118000919             
2.38         D1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4QHWR       7.2 TiB    SASe      DG118000919             
2.39         D2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R862       7.2 TiB    SASe      DG118000919     
2.49         E0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SSKK       7.2 TiB    SASe      DG118000919             
2.50         E1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SV53       7.2 TiB    SASe      DG118000919             
2.51         E2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R944       7.2 TiB    SASe      DG118000919

 

Dans l’exemple ci-dessus, les disques sont dotés du firmware CA01. Un ticket de support doit être ouvert afin que Dell Technologies puisse vous aider à suspendre le groupe de disques (dg2) contenant la baie ext3 avant la mise à niveau MDU. 

Pour les systèmes ayant fait l’objet d’une migration du stockage, il est possible que la baie contenant ext3 ne soit pas dg2. Recherchez les lignes suivantes dans l’autosupport. (En gras)

  • Licenses (STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS)

 

Licenses
--------
System locking-id: APX00123456789
Licensing scheme: EMC Electronic License Management System (ELMS) node-locked mode
Capacity licenses:
##   Feature           Shelf Model    Capacity      Type        State    Expiration Date   Note
--   ---------------   ------------   -----------   ---------   ------   ---------------   ----
1    CAPACITY-ACTIVE   HIGH_DENSITY   1396.98 TiB   permanent   active   n/a                   
--   ---------------   ------------   -----------   ---------   ------   ---------------   ----
Licensed Active Tier capacity: 1396.98 TiB*
* Depending on the hardware platform, usable filesystem capacities may vary.
Feature licenses:
##   Feature                                    Count   Type         State    Expiration Date   Note           
--   ----------------------------------------   -----   ----------   ------   ---------------   ---------------
1    REPLICATION                                    1   permanent    active   n/a                              
2    VTL                                            1   permanent    active   n/a                              
3    DDBOOST                                        1   permanent    active   n/a                              
4    RETENTION-LOCK-GOVERNANCE                      1   permanent    active   n/a                              
5    ENCRYPTION                                     1   permanent    active   n/a                              
6    I/OS                                           1   permanent    active   n/a                              
7    RETENTION-LOCK-COMPLIANCE                      1   permanent    active   n/a                              
8    STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS       6   evaluation   grace    2023-11-20        
--   ----------------------------------------   -----   ----------   ------   ---------------   ---------------
License file last modified at : 2022/08/29 11:02:13.
  • Histogramme DD_RAID
DD_RAID Histogram for dg23 0x323d6b863ae21b8f
DG:dg23 UUID:0x323d6b863ae21b8f MajorNr:61 MajorNrEx:62 GrpNr:18 State:Complete Status:Reassembled Index:0
    Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:161373947904 Options:0x10000100 Type:StandAlone Primary
    Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS30021O001N MG UUID:0x0
Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0x16222e80737dc6bf]
Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [161373947904 sectors] ID[0x8febacd8140b2c05]
  • Storage Show All (This command can be ran on the DD CLI)
dg23      6.1-6.3, 6.13-6.15, 6.25-6.27,     14      7.2 TiB               
          6.37-6.39, 6.49-6.50

 

  • Disk Show Hardware (This command can be ran on the DD CLI)
6.1          A0     HITACHI H04728T8CLAR8000   A430       VYH2S3SS         7.2 TiB    SASe      DG118000785             
6.2          A1     HITACHI H04728T8CLAR8000   A430       VYH2RVSS         7.2 TiB    SASe      DG118000785             
6.3          A2     HITACHI H04728T8CLAR8000   A430       VYH2K9KS         7.2 TiB    SASe      DG118000785          
6.13         B0     HITACHI H04728T8CLAR8000   A430       VYH2JJBS         7.2 TiB    SASe      DG118000785             
6.14         B1     HITACHI H04728T8CLAR8000   A430       VYH1Y83S         7.2 TiB    SASe      DG118000785             
6.15         B2     HITACHI H04728T8CLAR8000   A430       VYH2RNGS         7.2 TiB    SASe      DG118000785    
6.25         C0     HITACHI H04728T8CLAR8000   A430       VYH1DN8S         7.2 TiB    SASe      DG118000785             
6.26         C1     HITACHI H04728T8CLAR8000   A430       VYH2124S         7.2 TiB    SASe      DG118000785             
6.27         C2     HITACHI H04728T8CLAR8000   A430       VYH0ZM6S         7.2 TiB    SASe      DG118000785  
6.25         C0     HITACHI H04728T8CLAR8000   A430       VYH1DN8S         7.2 TiB    SASe      DG118000785             
6.26         C1     HITACHI H04728T8CLAR8000   A430       VYH2124S         7.2 TiB    SASe      DG118000785             
6.27         C2     HITACHI H04728T8CLAR8000   A430       VYH0ZM6S         7.2 TiB    SASe      DG118000785           
6.47         D10    HITACHI H04728T8CLAR8000   A430       VYH1XGJS         7.2 TiB    SASe      DG118000785             
6.48         D11    HITACHI H04728T8CLAR8000   A430       VYH20VHS         7.2 TiB    SASe      DG118000785             
6.49         E0     HITACHI H04728T8CLAR8000   A430       VYH2G5XS         7.2 TiB    SASe      DG118000785


Étant donné que les disques ne disposent pas du firmware CA01 et CA02, aucun ticket de support n’est nécessaire. Passez à l’étape 3 des étapes de mise à niveau MDU dans la section « Résolution » ci-dessus.

Affected Products

Data Domain, DD9400 Appliance, DD9900 Appliance

Products

DD OS 7.11
Article Properties
Article Number: 000204252
Article Type: Solution
Last Modified: 30 Oct 2025
Version:  19
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.