Data Domain : Plusieurs disques tombent en panne lors du basculement des systèmes HA | Problème de firmware CA01 CA02
Summary: La haute disponibilité (HA) Data Domain peut rencontrer des défaillances de disque lors du basculement HA en raison d’un problème connu au niveau du firmware de disque. Certains systèmes peuvent rencontrer des difficultés à démarrer le système de fichiers après un basculement ou un redémarrage. ...
Symptoms
La défaillance des composants se limite aux disques de 8 To utilisant les révisions de firmware CA01 et CA02. En général, plusieurs groupes RAID (groupes de disques) sont affectés. On peut observer une dégradation simple (une seule défaillance) ou une double dégradation (deux défaillances de disque).
Les systèmes qui ne redémarrent pas rencontrent une interruption du système de fichiers, mais doivent être restaurés seuls ; les reconstructions de plusieurs disques en cours sont mises en attente. Pour les systèmes qui redémarrent, un basculement est forcé, ce qui peut entraîner le blocage du système de fichiers lors du démarrage.
Systèmes concernés :
- Modèles DD9400 et D9900 uniquement
- Disque dur de 8 To dans des boîtiers de stockage externes utilisant la version CA01 ou CA02 du firmware
Résolution :
- Versions corrigées de DDOS : Les systèmes DDOS 7.11.x, 7.10.1.0, 7.7.5.1 et versions supérieures disposent d’un firmware CA04 intégré.
- Une MDU (minimal Disruptive Upgrade) est disponible pour toutes les autres versions de DDOS 7.x.
- Lien vers MDU : Lisez-moi + Télécharger : Package de mise à niveau MDU (Minimally Disruptive Upgrade) du disque dur DDOS 7.X - Novembre 2022 (il est nécessaire de se connecter en tant qu’utilisateur du support Dell enregistré pour afficher le document)
Remarque : Le système de fichiers doit être désactivé lors de l’application de la MDU.
Symptômes de la défaillance du disque :
- Rapport des journaux de disque : clé de détection
4/0x29/0xcdlors d’une commande SCSI WRITEcdb 0x8a, une erreur de commande d’écriture entraîne une défaillance du disque par le module DD_RAID.
Sep 16 06:17:59 DD9900 kernel: [11647695.019070] (E4)scsi16: (ffff88fe1522d800) (0/5/10000) chnl/tgt/lun 0/232/0 result 0x2, cdb 0x8a:00000001498b4728:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able Sep 16 06:20:58 DD9900 kernel: [11647874.161940] (E4)scsi16: (ffff88b96b72cc00) (1/5/10000) chnl/tgt/lun 0/246/0 result 0x2, cdb 0x8a:0000000149adb300:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able Sep 16 06:20:58 DD9900 kernel: [11647874.161997] (E4)scsi16: (ffff88b946a08e00) (1/5/10000) chnl/tgt/lun 0/237/0 result 0x2, cdb 0x8a:000000014a777478:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
- DD_RAID force la défaillance des disques en raison d’erreurs liées aux E/S d’écriture (« WRITE I/O »).
Sep 16 06:17:59 DD9900 kernel: [11647695.020655] (E4)DD_RAID: Failing working disk [6.35 dm-27p3 WSD48SRA 254:3635] from DiskGroup dg19
Sep 16 06:20:59 DD9900 kernel: [11647875.122961] (E4)DD_RAID: Failing working disk [2.32 dm-25p3 WSD49GCR 254:403] from DiskGroup dg4
Sep 16 06:21:54 DD9900 kernel: [11647930.659786] (E4)DD_RAID: Failing working disk [2.39 dm-46p3 WSD48TEG 254:739] from DiskGroup dg2
Sep 16 06:21:58 DD9900 kernel: [11647934.612549] (E4)DD_RAID: Failing working disk [{*}6.43{*} dm-233p3 WSD49GG6 254:3731] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.363248] (E4)DD_RAID: Failing working disk [{*}6.21{*} dm-219p3 WSD47KYS 254:3507] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.477630] (E4)DD_RAID: Failing working disk [{*}6.5{*} dm-242p3 WSD4B13V 254:3875] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.651261] (E4)DD_RAID: Failing working disk [{*}6.18{*} dm-259p3 WSD47EWA 254:4147] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.726575] (E4)DD_RAID: Failing working disk [{*}6.15{*} dm-265p3 WSD49BGL 254:4243] from DiskGroup dg16
Sep 16 06:22:05 DD9900 kernel: [11647941.100980] (E4)DD_RAID: Failing working disk [{*}6.26{*} dm-257p3 WSD49ART 254:4115] from DiskGroup dg16
DDFS ne parvient pas à démarrer et présente les symptômes suivants :
- Dans la version ddfs.info, les messages ci-dessous s’affichent pendant une longue période au démarrage de DDFS. L’opération ne progresse pas tant que le processus DDFS n’est pas terminé et n’a pas forcé un basculement vers le nœud homologue.
09/15 21:49:21.962018 [a0cc980] SYSTEM_STARTUP: ===== completed <SegStore> - time (1663292961) ===== 09/15 21:49:21.962028 [a0cc980] SYSTEM_STARTUP: ===== starting <CC-Agent> - time (1663292961) ===== 09/15 21:57:11.699754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub 09/15 21:59:11.819754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub 09/15 22:01:11.939754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub ... 09/16 02:01:26.339755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub 09/16 02:03:26.459755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub 09/16 02:05:26.579755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
Cause
Cause première de la condition de défaillance du disque :
Le tampon du cache DRAM du disque rencontre une fausse erreur d’intégrité des données sous une charge applicative d’E/S aléatoire. Le fabricant du disque a fourni un correctif de firmware pour résoudre ce problème.
Resolution
Solution
En cas de redémarrage ou de basculement, la capacité de DD_RAID à effectuer un « failback » sur les disques défaillants n’est pas une option. Dans ce cas, laissez les reconstructions de disque traditionnelles (parité) s’exécuter. Désactivez GC jusqu’à ce que toutes les reconstructions de disque soient terminées. Si le système de fichiers rencontre un problème de démarrage après un redémarrage ou un basculement, consultez un TSE DDFS avant de terminer le processus DDFS.
En l’absence de redémarrage ou de basculement, DD_RAID peut effectuer une reconstruction « failback » des disques défaillants. Il s’agit d’une opération manuelle à l’aide de « dd_raidtool » dans bash. Avant de lancer la restauration automatique, les logements de disque défaillants doivent être redémarrés. Pour ce faire, contactez le support technique Dell .
D’après notre expérience pratique, il est préférable de laisser s’exécuter les reconstructions de disques à plus de 50 % que d’effectuer une reconstruction automatique.
À la fin de toutes les reconstructions, les disques qui demeurent défectueux peuvent être à l’état « unfailed » si un cycle d’alimentation a été effectué sur leurs logements respectifs.
Correction
La version CA04 du firmware de disque est désormais disponible en tant que correctif MDU sous la forme d’un package de mise à niveau DDOS. Contactez le support pour obtenir une copie du RPM. Il est situé à /auto/cores/drive-firmware-rpm/drive-firmware-CA04.rpm.
Foire aux questions :
- La mise à niveau peut-elle être effectuée avec un système de fichiers Data Domain en ligne ?
DDFS doit être hors ligne|désactivé pendant la mise à niveau du firmware. - Un redémarrage est-il nécessaire ?
Non, un redémarrage n’est pas nécessaire. - Le firmware peut-il être appliqué sur le nœud passif ?
Non, elle ne peut pas s’appliquer sur le nœud passif. Il doit être exécuté sur le nœud actif uniquement. - Combien de temps faut-il pour terminer la mise à niveau du firmware pour les disques 180-240(4-DS60) avec le fichier drive-firmware-CA04.RPM ?
La mise à niveau est en mode parallèle. Elle prend 10 à 15 minutes s’il n’y a aucun problème. - Si tous les disques ne sont pas mis à jour, le système met-il automatiquement à jour les disques non CA04 ?
Non, la mise à jour doit être relancée à nouveau ou peut être effectuée manuellement. Voir la section « Informations supplémentaires » ci-dessous. - Ce correctif de firmware de disque CA04.RPM doit-il être appliqué sur d’autres instances DD sans HA, étant donné que les disques peuvent utiliser un firmware plus ancien ?
Il est également recommandé d’appliquer le firmware de disque CA04.RPM à des instances DD sans HA comportant des disques de 8 To. - Si un disque tombe en panne lors de la mise à jour, peut-il être réactivé ?
Si un disque tombe en panne avant ou pendant la mise à jour du firmware, recherchez l’historique des erreurs sur le disque (par exemple, « disk show reliability-data »). Si le disque présente des erreurs, il doit rester défaillant et doit être remplacé. Si le disque ne présente aucune erreur, exécutez la commande « disk unfail<disk.id> » pour corriger l’état du disque et en faire un disque de secours. Si un disque défaillant est remplacé par un disque doté de l’ancien firmware de disque CA01/CA02, le disque doit être mis à jour manuellement. Voir ci-dessous « Comment mettre à jour manuellement des disques de remplacement » dans la section supplémentaire ci-dessous. - Pourquoi est-il nécessaire de suspendre l’activité dans le groupe de disques 2 (dg2), même lorsque DDFS est arrêté ?
DDOS continue d’avoir accès aux montages EXT3 qui existent dans dg2.
Application du package MDU :
- Connectez-vous au nœud actif du système HA. La mise à jour ne fonctionne pas à partir du nœud passif ou en veille.
- Planifiez une interruption de service avec l’utilisateur, car DDFS doit être désactivé pendant la mise à jour du firmware. Exécutez les commandes suivantes pour vérifier les alertes actuelles et les traiter si nécessaire. Arrêtez le processus de nettoyage s’il est en cours d’exécution. Désactivez le système de fichiers.
# alerts show current# filesys clean status# filesys clean stop# filesys disable - Vérifiez le support automatique pour les disques CA01/CA02 qui font partie de >=dg2 pour les systèmes qui n’ont pas subi de migration de stockage. Pour les systèmes qui ont subi une migration du stockage, le groupe de disques associé aux baies ext3 peut ne pas être le dg2.
Recherchez ext3. Il affiche DD_RAID histogramme pour la dgXX où XX est le numéro DG. Voir l’exemple dans la section « Informations supplémentaires » ci-dessous. Si les disques dg2/dgXX disposent du firmware CA01/C02, la baie doit être suspendue temporairement pendant le processus de mise à niveau MDU. Si vous ne le faites pas, une autre défaillance peut se déclencher si toutes les activités d’E/S dans le groupe de disques ne sont pas suspendues. Ouvrez un ticket de support pour obtenir de l’aide sur la suspension du groupe de disques. Si dg2/dgXX ne contient pas de disques CA01/CA02, un cas de support n’est pas nécessaire. Passez à l'étape 4. - Téléchargez le
drive-firmware-CA04.rpmà partir de l’interface utilisateur de DD System Manager. - Mettez à niveau les disques. Exécutez la commande suivante et attendez qu’elle se termine.
# system upgrade start drive-firmware-CA04.rpm" - Patientez environ 10 minutes.
- Vérifiez que tous les disques sont mis à niveau. Si les disques s’affichent toujours avec le firmware CA01/CA02, répétez les étapes 5 et 6.
# disk show hardware - Vérifiez l’état actuel du disque. En cas de défaillance de plusieurs disques, contactez le support pour obtenir de l’aide. En cas de défaillance d’un seul disque, vérifiez l’historique des erreurs du disque. S’il ne contient aucune erreur, annulez la défaillance du disque.
# disk unfail <disk.id> - Vérifiez les alertes et activez DDFS.
# alerts show current# filesys enable
Additional Information
Recherche des disques dg2/dgXX dotés d’une baie ext3 et contenant le firmware CA01/CA02.
Pour les systèmes migrés sans stockage, dg2 dispose des baies ext3.
Recherchez les lignes suivantes dans l’autosupport. (En gras)
- Histogramme DD_RAID
DD_RAID Histogram for dg2 0xafc318cb033dc226 DG:dg2 UUID:0xafc318cb033dc226 MajorNr:61 MajorNrEx:62 GrpNr:10 State:Complete Status:Reassembled Index:0 Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:148681617408 Options:0x10000100 Type:StandAlone Primary Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS300198000G MG UUID:0x0 Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0xb6fbb5a5a61ecf9] Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [148681617408 sectors] ID[0xfb32c1339fafc87b]
- Storage Show All (cette commande peut également être exécutée sur la CLI DD)
dg2 2.1-2.3, 2.13-2.15, 2.25-2.27, 14 7.2 TiB 2.37-2.39, 2.49-2.50
- Disk Show Hardware (cette commande peut être exécutée sur la CLI DD)
2.1 A0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R8GS 7.2 TiB SASe DG118000919 2.2 A1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4REMW 7.2 TiB SASe DG118000919 2.3 A2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4LM5C 7.2 TiB SASe DG118000919 2.13 B0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SMHX 7.2 TiB SASe DG118000919 2.14 B1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4RF04 7.2 TiB SASe DG118000919 2.15 B2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4QHQE 7.2 TiB SASe DG118000919 2.25 C0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4RE9Y 7.2 TiB SASe DG118000919 2.26 C1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4LMME 7.2 TiB SASe DG118000919 2.27 C2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4REW8 7.2 TiB SASe DG118000919 2.37 D0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SMHM 7.2 TiB SASe DG118000919 2.38 D1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4QHWR 7.2 TiB SASe DG118000919 2.39 D2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R862 7.2 TiB SASe DG118000919 2.49 E0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SSKK 7.2 TiB SASe DG118000919 2.50 E1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SV53 7.2 TiB SASe DG118000919 2.51 E2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R944 7.2 TiB SASe DG118000919
Dans l’exemple ci-dessus, les disques sont dotés du firmware CA01. Un ticket de support doit être ouvert afin que Dell Technologies puisse vous aider à suspendre le groupe de disques (dg2) contenant la baie ext3 avant la mise à niveau MDU.
Pour les systèmes ayant fait l’objet d’une migration du stockage, il est possible que la baie contenant ext3 ne soit pas dg2. Recherchez les lignes suivantes dans l’autosupport. (En gras)
Licenses (STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS)
Licenses -------- System locking-id: APX00123456789 Licensing scheme: EMC Electronic License Management System (ELMS) node-locked mode Capacity licenses: ## Feature Shelf Model Capacity Type State Expiration Date Note -- --------------- ------------ ----------- --------- ------ --------------- ---- 1 CAPACITY-ACTIVE HIGH_DENSITY 1396.98 TiB permanent active n/a -- --------------- ------------ ----------- --------- ------ --------------- ---- Licensed Active Tier capacity: 1396.98 TiB* * Depending on the hardware platform, usable filesystem capacities may vary. Feature licenses: ## Feature Count Type State Expiration Date Note -- ---------------------------------------- ----- ---------- ------ --------------- --------------- 1 REPLICATION 1 permanent active n/a 2 VTL 1 permanent active n/a 3 DDBOOST 1 permanent active n/a 4 RETENTION-LOCK-GOVERNANCE 1 permanent active n/a 5 ENCRYPTION 1 permanent active n/a 6 I/OS 1 permanent active n/a 7 RETENTION-LOCK-COMPLIANCE 1 permanent active n/a 8 STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS 6 evaluation grace 2023-11-20 -- ---------------------------------------- ----- ---------- ------ --------------- --------------- License file last modified at : 2022/08/29 11:02:13.
- Histogramme DD_RAID
DD_RAID Histogram for dg23 0x323d6b863ae21b8f DG:dg23 UUID:0x323d6b863ae21b8f MajorNr:61 MajorNrEx:62 GrpNr:18 State:Complete Status:Reassembled Index:0 Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:161373947904 Options:0x10000100 Type:StandAlone Primary Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS30021O001N MG UUID:0x0 Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0x16222e80737dc6bf] Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [161373947904 sectors] ID[0x8febacd8140b2c05]
Storage Show All (This command can be ran on the DD CLI)
dg23 6.1-6.3, 6.13-6.15, 6.25-6.27, 14 7.2 TiB 6.37-6.39, 6.49-6.50
Disk Show Hardware (This command can be ran on the DD CLI)
6.1 A0 HITACHI H04728T8CLAR8000 A430 VYH2S3SS 7.2 TiB SASe DG118000785 6.2 A1 HITACHI H04728T8CLAR8000 A430 VYH2RVSS 7.2 TiB SASe DG118000785 6.3 A2 HITACHI H04728T8CLAR8000 A430 VYH2K9KS 7.2 TiB SASe DG118000785 6.13 B0 HITACHI H04728T8CLAR8000 A430 VYH2JJBS 7.2 TiB SASe DG118000785 6.14 B1 HITACHI H04728T8CLAR8000 A430 VYH1Y83S 7.2 TiB SASe DG118000785 6.15 B2 HITACHI H04728T8CLAR8000 A430 VYH2RNGS 7.2 TiB SASe DG118000785 6.25 C0 HITACHI H04728T8CLAR8000 A430 VYH1DN8S 7.2 TiB SASe DG118000785 6.26 C1 HITACHI H04728T8CLAR8000 A430 VYH2124S 7.2 TiB SASe DG118000785 6.27 C2 HITACHI H04728T8CLAR8000 A430 VYH0ZM6S 7.2 TiB SASe DG118000785 6.25 C0 HITACHI H04728T8CLAR8000 A430 VYH1DN8S 7.2 TiB SASe DG118000785 6.26 C1 HITACHI H04728T8CLAR8000 A430 VYH2124S 7.2 TiB SASe DG118000785 6.27 C2 HITACHI H04728T8CLAR8000 A430 VYH0ZM6S 7.2 TiB SASe DG118000785 6.47 D10 HITACHI H04728T8CLAR8000 A430 VYH1XGJS 7.2 TiB SASe DG118000785 6.48 D11 HITACHI H04728T8CLAR8000 A430 VYH20VHS 7.2 TiB SASe DG118000785 6.49 E0 HITACHI H04728T8CLAR8000 A430 VYH2G5XS 7.2 TiB SASe DG118000785
Étant donné que les disques ne disposent pas du firmware CA01 et CA02, aucun ticket de support n’est nécessaire. Passez à l’étape 3 des étapes de mise à niveau MDU dans la section « Résolution » ci-dessus.