Data Domain : Plusieurs disques tombent en panne lors du basculement des systèmes HA | Problème de firmware CA01 CA02

Summary: La haute disponibilité (HA) Data Domain peut rencontrer des défaillances de disque lors du basculement HA en raison d’un problème connu au niveau du firmware de disque. Certains systèmes peuvent rencontrer des difficultés à démarrer le système de fichiers après un basculement ou un redémarrage. ...

Acest articol se aplică pentru Acest articol nu se aplică pentru Acest articol nu este legat de un produs specific. Acest articol nu acoperă toate versiunile de produs existente.

Symptoms

La défaillance des composants se limite aux disques de 8 To utilisant les révisions de firmware CA01 et CA02. En général, plusieurs groupes RAID (groupes de disques) sont affectés. Il peut s’agir d’une panne simple dégradée (une panne) ou d’une double dégradation (deux pannes de disque).

Les systèmes qui ne redémarrent pas subissent une interruption du système de fichiers, mais doivent effectuer une restauration par eux-mêmes, avec plusieurs reconstructions de disques en cours et à venir. Pour les systèmes qui redémarrent, un basculement est forcé, ce qui peut entraîner le blocage du système de fichiers pendant le démarrage.

S’applique à :

  • Modèles DD9400 et D9900 uniquement
  • Disque dur de 8 To dans des boîtiers de stockage externes utilisant la version CA01 ou CA02 du firmware

Symptômes de la défaillance du disque :

  • Rapport des logs de disque sense key 4/0x29/0xcd lors d’une commande SCSI WRITE cdb 0x8a, Une erreur de commande d’écriture provoque la panne du disque par le module DD_RAID.
Sep 16 06:17:59 DD9900 kernel: [11647695.019070] (E4)scsi16: (ffff88fe1522d800) (0/5/10000) chnl/tgt/lun 0/232/0 result 0x2, cdb 0x8a:00000001498b4728:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
Sep 16 06:20:58 DD9900 kernel: [11647874.161940] (E4)scsi16: (ffff88b96b72cc00) (1/5/10000) chnl/tgt/lun 0/246/0 result 0x2, cdb 0x8a:0000000149adb300:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
Sep 16 06:20:58 DD9900 kernel: [11647874.161997] (E4)scsi16: (ffff88b946a08e00) (1/5/10000) chnl/tgt/lun 0/237/0 result 0x2, cdb 0x8a:000000014a777478:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
  • DD_RAID force la défaillance des disques en raison d’erreurs liées aux E/S d’écriture (« WRITE I/O »).
Sep 16 06:17:59 DD9900 kernel: [11647695.020655] (E4)DD_RAID: Failing working disk [6.35 dm-27p3 WSD48SRA 254:3635] from DiskGroup dg19
Sep 16 06:20:59 DD9900 kernel: [11647875.122961] (E4)DD_RAID: Failing working disk [2.32 dm-25p3 WSD49GCR 254:403] from DiskGroup dg4
Sep 16 06:21:54 DD9900 kernel: [11647930.659786] (E4)DD_RAID: Failing working disk [2.39 dm-46p3 WSD48TEG 254:739] from DiskGroup dg2
Sep 16 06:21:58 DD9900 kernel: [11647934.612549] (E4)DD_RAID: Failing working disk [{*}6.43{*} dm-233p3 WSD49GG6 254:3731] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.363248] (E4)DD_RAID: Failing working disk [{*}6.21{*} dm-219p3 WSD47KYS 254:3507] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.477630] (E4)DD_RAID: Failing working disk [{*}6.5{*} dm-242p3 WSD4B13V 254:3875] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.651261] (E4)DD_RAID: Failing working disk [{*}6.18{*} dm-259p3 WSD47EWA 254:4147] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.726575] (E4)DD_RAID: Failing working disk [{*}6.15{*} dm-265p3 WSD49BGL 254:4243] from DiskGroup dg16
Sep 16 06:22:05 DD9900 kernel: [11647941.100980] (E4)DD_RAID: Failing working disk [{*}6.26{*} dm-257p3 WSD49ART 254:4115] from DiskGroup dg16

DDFS ne parvient pas à démarrer et présente les symptômes suivants :

  • Dans ddfs.info, les messages ci-dessous s’affichent pendant une longue période au démarrage de DDFS. L’opération ne progresse pas tant que le processus DDFS n’est pas terminé et n’a pas forcé un basculement vers le nœud homologue.
09/15 21:49:21.962018 [a0cc980] SYSTEM_STARTUP: ===== completed <SegStore> - time (1663292961) =====
09/15 21:49:21.962028 [a0cc980] SYSTEM_STARTUP: ===== starting <CC-Agent> - time (1663292961) =====

09/15 21:57:11.699754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/15 21:59:11.819754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/15 22:01:11.939754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
...
09/16 02:01:26.339755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/16 02:03:26.459755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/16 02:05:26.579755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub

Cause

La mémoire tampon du cache DRAM du disque rencontre une fausse erreur d’intégrité des données sous des charges applicatives d’E/S aléatoires. Cela déclenche des pannes de disque.
Le fabricant du disque a fourni un correctif de firmware pour résoudre ce problème.

Resolution

Résolution :

  • Versions corrigées de DDOS : Les systèmes DDOS 7.11.x, 7.10.1.0, 7.7.5.1 et versions supérieures disposent d’un firmware CA04 intégré.
    • Mise à niveau vers une version plus récente de DDOS
  • Une MDU (minimal Disruptive Upgrade) est disponible pour toutes les autres versions de DDOS 7.x.
    • Lien vers MDU : Lisez-moi + Télécharger : Package de mise à niveau MDU (Minimally Disruptive Upgrade) du disque dur DDOS 7.X - Novembre 2022 (il est nécessaire de se connecter en tant qu’utilisateur du support Dell enregistré pour afficher le document)
    • Application du package MDU :

      1. Connectez-vous au nœud actif du système HA. La mise à jour ne fonctionne pas à partir du nœud passif ou en veille.
      2. Planifiez une interruption de service avec l’utilisateur, car DDFS doit être désactivé pendant la mise à jour du firmware. Exécutez les commandes suivantes pour vérifier les alertes actuelles et les traiter si nécessaire. Arrêtez le processus de nettoyage s’il est en cours d’exécution. Désactivez le système de fichiers. 
                    # alerts show current
              # filesys clean status
              # filesys clean stop
              # filesys disable
      3. Vérifiez le support automatique pour les disques CA01/CA02 qui font partie de >=dg2 pour les systèmes qui n’ont pas subi de migration de stockage. Pour les systèmes qui ont subi une migration du stockage, le groupe de disques associé aux baies ext3 peut ne pas être le dg2. 
        Recherchez ext3. Il affiche DD_RAID histogramme pour la dgXX où XX est le numéro DG. Voir l’exemple dans la section « Informations supplémentaires » ci-dessous. Si les disques dg2/dgXX disposent du firmware CA01/C02, la baie doit être suspendue temporairement pendant le processus de mise à niveau MDU. Si vous ne le faites pas, une autre défaillance peut se déclencher si toutes les activités d’E/S dans le groupe de disques ne sont pas suspendues. Ouvrez un ticket de support pour obtenir de l’aide sur la suspension du groupe de disques. Si dg2/dgXX ne contient pas de disques CA01/CA02, un cas de support n’est pas nécessaire. Passez à l'étape 4.
      4. Téléchargez le drive-firmware-CA04.rpm à partir de l’interface utilisateur de DD System Manager.
      5. Mettez à niveau les disques. Exécutez la commande suivante et attendez qu’elle se termine. 
                   # system upgrade start drive-firmware-CA04.rpm"
      6. Patientez environ 10 minutes.
      7. Vérifiez que tous les disques sont mis à niveau. Si les disques s’affichent toujours avec le firmware CA01/CA02, répétez les étapes 5 et 6. 
                   # disk show hardware
      8. Vérifiez l’état actuel du disque. En cas de défaillance de plusieurs disques, contactez le support pour obtenir de l’aide. En cas de défaillance d’un seul disque, vérifiez l’historique des erreurs du disque. S’il ne contient aucune erreur, annulez la défaillance du disque. 
                  # disk unfail <disk.id>
      9. Vérifiez les alertes et activez DDFS. 
                  # alerts show current
                  # filesys enable
Remarque : Le système de fichiers doit être désactivé lors de l’application de la MDU.

Solution

  • Si un redémarrage ou un basculement s’est produit :
    • DD_RAID ne pouvez pas restaurer automatiquement les disques défaillants.
    • Autorisez l’exécution des reconstructions de disques traditionnelles basées sur la parité.
    • Désactivez GC jusqu’à ce que toutes les reconstructions soient terminées.
    • Si le système de fichiers ne parvient pas à démarrer, consultez un ingénieur du support technique DDFS.
  • Si le redémarrage ou le basculement n’a PAS eu lieu :
    • DD_RAID TSE peut restaurer manuellement des disques en utilisant dd_raidtool.
    • Les logements de disque défaillants doivent être redémarrés (contactez le support Dell).
    • Attendez que les reconstructions se terminent à plus de 50 % avant de passer à la reconstruction automatique.
    • Après les recréations, les disques peuvent être « sans échec » si les logements ont été redémarrés.

Additional Information

Foire aux questions

Q : La mise à niveau du firmware peut-elle être effectuée pendant que le système de fichiers Data Domain est en ligne ?
Un: Non. Le DDFS doit être désactivé lors de la mise à niveau du firmware.


Q : Un redémarrage du système est-il nécessaire après l’application de la mise à jour du firmware ?
Un: Non. Aucun redémarrage n’est nécessaire.


Q : Le firmware peut-il être appliqué sur le nœud passif ?
Un: Non. La mise à jour doit être effectuée sur le nœud actif uniquement.


Q : Combien de temps prend la mise à niveau du firmware pour 180-240 disques (4 tiroirs DS60) ?
Un: La mise à niveau s’exécute en mode parallèle et se termine généralement en 10 à 15 minutes, à condition qu’il n’y ait aucun problème.


Q : Si certains disques ne sont pas mis à jour, le système relancera-t-il automatiquement la mise à jour ?
Un: Non. La mise à jour doit être réexécutée manuellement ou répétée pour les disques restants. Reportez-vous à la section « Informations supplémentaires » pour connaître les étapes de mise à jour manuelle.


Q : Le correctif de firmware doit-il également être appliqué aux systèmes Data Domain non HA ?
Un: Oui. Il est recommandé d’appliquer le correctif drive-firmware-CA04.RPM à tous les systèmes dotés de disques de 8 To exécutant un firmware plus ancien.


Q : Si un disque tombe en panne lors de la mise à jour, peut-il être récupéré ?
Un:

  • Si le disque affiche un historique d’erreurs (vérifiez auprès de disk show reliability-data), il doit rester défaillant et être remplacé.
  • Si aucune erreur n’est présente, exécutez :
    disk unfail <disk.id>
    
    Le disque est alors marqué comme disque de secours.
  • Si un disque de remplacement dispose d’un firmware CA01/CA02 plus ancien, il doit être mis à jour manuellement. Reportez-vous à la section « Mise à jour manuelle des disques de remplacement » dans la section Informations complémentaires.

Q : Pourquoi est-il nécessaire de suspendre l’activité dans le groupe de disques 2 (dg2) même lorsque DDFS est désactivé ?
Un: DDOS continue d’accéder aux montages EXT3 dans dg2. La suspension de l’activité d’E/S empêche d’autres défaillances lors de la mise à niveau.


Q : Comment vérifier les disques dg2/dgXX dotés d’une baie ext3 et contenant le firmware CA01/CA02.
Un: Pour les systèmes non migrés vers le stockage, dg2 dispose des baies ext3.

Recherchez les lignes suivantes dans l’autosupport. (En gras)

  • Histogramme DD_RAID
DD_RAID Histogram for dg2 0xafc318cb033dc226
DG:dg2 UUID:0xafc318cb033dc226 MajorNr:61 MajorNrEx:62 GrpNr:10 State:Complete Status:Reassembled Index:0
    Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:148681617408 Options:0x10000100 Type:StandAlone Primary
    Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS300198000G MG UUID:0x0
Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0xb6fbb5a5a61ecf9]
Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [148681617408 sectors] ID[0xfb32c1339fafc87b]
  • Storage Show All (cette commande peut également être exécutée sur la CLI DD)
dg2       2.1-2.3, 2.13-2.15, 2.25-2.27,     14      7.2 TiB               
          2.37-2.39, 2.49-2.50
  • Disk Show Hardware (cette commande peut être exécutée sur la CLI DD)
2.1          A0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R8GS       7.2 TiB    SASe      DG118000919             
2.2          A1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4REMW       7.2 TiB    SASe      DG118000919             
2.3          A2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4LM5C       7.2 TiB    SASe      DG118000919      
2.13         B0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SMHX       7.2 TiB    SASe      DG118000919             
2.14         B1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4RF04       7.2 TiB    SASe      DG118000919             
2.15         B2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4QHQE       7.2 TiB    SASe      DG118000919    
2.25         C0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4RE9Y       7.2 TiB    SASe      DG118000919             
2.26         C1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4LMME       7.2 TiB    SASe      DG118000919             
2.27         C2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4REW8       7.2 TiB    SASe      DG118000919
2.37         D0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SMHM       7.2 TiB    SASe      DG118000919             
2.38         D1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4QHWR       7.2 TiB    SASe      DG118000919             
2.39         D2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R862       7.2 TiB    SASe      DG118000919     
2.49         E0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SSKK       7.2 TiB    SASe      DG118000919             
2.50         E1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SV53       7.2 TiB    SASe      DG118000919             
2.51         E2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R944       7.2 TiB    SASe      DG118000919

Dans l’exemple ci-dessus, les disques sont dotés du firmware CA01. Un ticket de support doit être ouvert afin que Dell Technologies puisse vous aider à suspendre le groupe de disques (dg2) contenant la baie ext3 avant la mise à niveau MDU. 

Pour les systèmes ayant fait l’objet d’une migration du stockage, il est possible que la baie contenant ext3 ne soit pas dg2. Recherchez les lignes suivantes dans l’autosupport. (En gras)

  • Licenses (STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS)

 

Licenses
--------
System locking-id: APX00123456789
Licensing scheme: EMC Electronic License Management System (ELMS) node-locked mode
Capacity licenses:
##   Feature           Shelf Model    Capacity      Type        State    Expiration Date   Note
--   ---------------   ------------   -----------   ---------   ------   ---------------   ----
1    CAPACITY-ACTIVE   HIGH_DENSITY   1396.98 TiB   permanent   active   n/a                   
--   ---------------   ------------   -----------   ---------   ------   ---------------   ----
Licensed Active Tier capacity: 1396.98 TiB*
* Depending on the hardware platform, usable filesystem capacities may vary.
Feature licenses:
##   Feature                                    Count   Type         State    Expiration Date   Note           
--   ----------------------------------------   -----   ----------   ------   ---------------   ---------------
1    REPLICATION                                    1   permanent    active   n/a                              
2    VTL                                            1   permanent    active   n/a                              
3    DDBOOST                                        1   permanent    active   n/a                              
4    RETENTION-LOCK-GOVERNANCE                      1   permanent    active   n/a                              
5    ENCRYPTION                                     1   permanent    active   n/a                              
6    I/OS                                           1   permanent    active   n/a                              
7    RETENTION-LOCK-COMPLIANCE                      1   permanent    active   n/a                              
8    STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS       6   evaluation   grace    2023-11-20        
--   ----------------------------------------   -----   ----------   ------   ---------------   ---------------
License file last modified at : 2022/08/29 11:02:13.
  • Histogramme DD_RAID
DD_RAID Histogram for dg23 0x323d6b863ae21b8f
DG:dg23 UUID:0x323d6b863ae21b8f MajorNr:61 MajorNrEx:62 GrpNr:18 State:Complete Status:Reassembled Index:0
    Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:161373947904 Options:0x10000100 Type:StandAlone Primary
    Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS30021O001N MG UUID:0x0
Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0x16222e80737dc6bf]
Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [161373947904 sectors] ID[0x8febacd8140b2c05]
  • Storage Show All (This command can be ran on the DD CLI)
dg23      6.1-6.3, 6.13-6.15, 6.25-6.27,     14      7.2 TiB               
          6.37-6.39, 6.49-6.50

 

  • Disk Show Hardware (This command can be ran on the DD CLI)
6.1          A0     HITACHI H04728T8CLAR8000   A430       VYH2S3SS         7.2 TiB    SASe      DG118000785             
6.2          A1     HITACHI H04728T8CLAR8000   A430       VYH2RVSS         7.2 TiB    SASe      DG118000785             
6.3          A2     HITACHI H04728T8CLAR8000   A430       VYH2K9KS         7.2 TiB    SASe      DG118000785          
6.13         B0     HITACHI H04728T8CLAR8000   A430       VYH2JJBS         7.2 TiB    SASe      DG118000785             
6.14         B1     HITACHI H04728T8CLAR8000   A430       VYH1Y83S         7.2 TiB    SASe      DG118000785             
6.15         B2     HITACHI H04728T8CLAR8000   A430       VYH2RNGS         7.2 TiB    SASe      DG118000785    
6.25         C0     HITACHI H04728T8CLAR8000   A430       VYH1DN8S         7.2 TiB    SASe      DG118000785             
6.26         C1     HITACHI H04728T8CLAR8000   A430       VYH2124S         7.2 TiB    SASe      DG118000785             
6.27         C2     HITACHI H04728T8CLAR8000   A430       VYH0ZM6S         7.2 TiB    SASe      DG118000785  
6.25         C0     HITACHI H04728T8CLAR8000   A430       VYH1DN8S         7.2 TiB    SASe      DG118000785             
6.26         C1     HITACHI H04728T8CLAR8000   A430       VYH2124S         7.2 TiB    SASe      DG118000785             
6.27         C2     HITACHI H04728T8CLAR8000   A430       VYH0ZM6S         7.2 TiB    SASe      DG118000785           
6.47         D10    HITACHI H04728T8CLAR8000   A430       VYH1XGJS         7.2 TiB    SASe      DG118000785             
6.48         D11    HITACHI H04728T8CLAR8000   A430       VYH20VHS         7.2 TiB    SASe      DG118000785             
6.49         E0     HITACHI H04728T8CLAR8000   A430       VYH2G5XS         7.2 TiB    SASe      DG118000785


Étant donné que les disques ne disposent pas du firmware CA01 et CA02, aucun ticket de support n’est nécessaire. Passez à l’étape 3 des étapes de mise à niveau MDU dans la section « Résolution » ci-dessus.

Produse afectate

Data Domain, DD9400 Appliance, DD9900 Appliance

Produse

DD OS 7.11
Proprietăți articol
Article Number: 000204252
Article Type: Solution
Ultima modificare: 16 dec. 2025
Version:  20
Găsiți răspunsuri la întrebările dvs. de la alți utilizatori Dell
Servicii de asistență
Verificați dacă dispozitivul dvs. este acoperit de serviciile de asistență.