Data Domain: Guasto di più unità durante il failover dei sistemi HA | CA01 Problema CA02 FW
Summary: Data Domain High Availability (HA) può riscontrare errori nelle unità durante il failover HA a causa di un problema noto del firmware delle unità. Alcuni sistemi potrebbero non essere in grado di avviare il file system dopo un failover o un riavvio. ...
Symptoms
L'errore dei componenti è limitato a unità da 8 TB con revisioni del firmware CA01 e CA02. In genere, sono interessati più gruppi RAID (gruppi di dischi). Può trattarsi di un guasto singolo (un errore) o doppio (due errori).
Nei sistemi che non si riavviano si verifica un'interruzione del file system, ma il problema dovrebbe risolversi automaticamente, con ricostruzioni di più dischi in corso e in sospeso. Per i sistemi che si riavviano, viene forzato un failover che potrebbe causare il blocco del file system durante l'avvio.
Si applica ai seguenti elementi:
- Solo modelli DD9400 e DD9900
- Disco rigido da 8 TB in enclosure di storage esterno con firmware (FW) versione CA01 o CA02
Correzione:
- Problema risolto nelle seguenti versioni di DDOS: DDOS 7.11.x, 7.10.1.0 e 7.7.5.1 e versioni successive dispongono del firmware CA04 integrato.
- Un aggiornamento MDU (Minimal Disruptive Upgrade) è disponibile per tutte le altre versioni di DDOS 7.x.
- Collegamento a MDU: Leggimi + Scarica: Pacchetto MDU (Minimally Disruptive Upgrade) del firmware per disco rigido DDOS 7.X - Novembre 2022 (per visualizzare il documento è necessario accedere come utente registrato del supporto Dell)
Nota: il file system deve essere disabilitato quando si applica l'MDU.
Sintomi di errori dei dischi:
- I registri dei dischi segnalano la chiave di rilevamento
4/0x29/0xcdquando viene eseguita una scrittura SCSIcdb 0x8a; un errore del comando di scrittura causa un errore nei dischi da parte del modulo DD_RAID.
Sep 16 06:17:59 DD9900 kernel: [11647695.019070] (E4)scsi16: (ffff88fe1522d800) (0/5/10000) chnl/tgt/lun 0/232/0 result 0x2, cdb 0x8a:00000001498b4728:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able Sep 16 06:20:58 DD9900 kernel: [11647874.161940] (E4)scsi16: (ffff88b96b72cc00) (1/5/10000) chnl/tgt/lun 0/246/0 result 0x2, cdb 0x8a:0000000149adb300:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able Sep 16 06:20:58 DD9900 kernel: [11647874.161997] (E4)scsi16: (ffff88b946a08e00) (1/5/10000) chnl/tgt/lun 0/237/0 result 0x2, cdb 0x8a:000000014a777478:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
- DD_RAID determina errori nei dischi a causa di errori "WRITE I/O".
Sep 16 06:17:59 DD9900 kernel: [11647695.020655] (E4)DD_RAID: Failing working disk [6.35 dm-27p3 WSD48SRA 254:3635] from DiskGroup dg19
Sep 16 06:20:59 DD9900 kernel: [11647875.122961] (E4)DD_RAID: Failing working disk [2.32 dm-25p3 WSD49GCR 254:403] from DiskGroup dg4
Sep 16 06:21:54 DD9900 kernel: [11647930.659786] (E4)DD_RAID: Failing working disk [2.39 dm-46p3 WSD48TEG 254:739] from DiskGroup dg2
Sep 16 06:21:58 DD9900 kernel: [11647934.612549] (E4)DD_RAID: Failing working disk [{*}6.43{*} dm-233p3 WSD49GG6 254:3731] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.363248] (E4)DD_RAID: Failing working disk [{*}6.21{*} dm-219p3 WSD47KYS 254:3507] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.477630] (E4)DD_RAID: Failing working disk [{*}6.5{*} dm-242p3 WSD4B13V 254:3875] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.651261] (E4)DD_RAID: Failing working disk [{*}6.18{*} dm-259p3 WSD47EWA 254:4147] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.726575] (E4)DD_RAID: Failing working disk [{*}6.15{*} dm-265p3 WSD49BGL 254:4243] from DiskGroup dg16
Sep 16 06:22:05 DD9900 kernel: [11647941.100980] (E4)DD_RAID: Failing working disk [{*}6.26{*} dm-257p3 WSD49ART 254:4115] from DiskGroup dg16
Sintomi del mancato avvio di DDFS:
- In ddfs.info, i seguenti messaggi riguardano un periodo di tempo prolungato per l'avvio di DDFS. Non procede fino a quando il processo DDFS non viene terminato forzando un failover sul nodo peer.
09/15 21:49:21.962018 [a0cc980] SYSTEM_STARTUP: ===== completed <SegStore> - time (1663292961) ===== 09/15 21:49:21.962028 [a0cc980] SYSTEM_STARTUP: ===== starting <CC-Agent> - time (1663292961) ===== 09/15 21:57:11.699754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub 09/15 21:59:11.819754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub 09/15 22:01:11.939754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub ... 09/16 02:01:26.339755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub 09/16 02:03:26.459755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub 09/16 02:05:26.579755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
Cause
Root cause della condizione di errore dei dischi:
Il buffer della memoria cache DRAM dell'unità rileva un falso errore di integrità dei dati in un carico di lavoro di I/O casuali. Il produttore dell'unità ha fornito una correzione del firmware per risolvere il problema.
Resolution
Soluzione alternativa
Se si è verificato un riavvio o un failover, la capacità di DD_RAID di impostare su "failback" le unità con errori non è un'opzione. In questo caso, consentire il completamento delle ricostruzioni dei dischi tradizionali (parità). Disabilitare la GC fino al completamento di tutte le ricostruzioni dei dischi. Se il file system presenta un problema di avvio dopo un riavvio o un failover, consultare un TSE DDFS prima di terminare il processo DDFS.
Se non si è verificato un riavvio o un failover, DD_RAID può eseguire una ricostruzione con "failback" dei dischi con errori. Si tratta di un'operazione manuale che prevede l'uso di "dd_raidtool" nella bash. Prima di avviare il "failback" del disco, è necessario spegnere e riaccendere gli slot dei dischi guasti. Contattare il supporto tecnico Dell per maggiori informazioni.
In base all'esperienza pratica, consentire il completamento delle ricostruzioni dei dischi oltre il 50% anziché passare alla ricostruzione con failback.
Al termine di tutte le ricostruzioni, le unità che continuano a presentare errori possono essere corrette tramite "unfailed" se i rispettivi slot sono stati spenti e riaccesi.
Correzione
La versione del firmware del disco CA04 è ora disponibile come patch MDU sotto forma di pacchetto di aggiornamento DDOS. Contattare il supporto per ottenere una copia del file RPM. Si trova in /auto/cores/drive-firmware-rpm/drive-firmware-CA04.rpm.
DOMANDE FREQUENTI:
- È possibile eseguire l'aggiornamento con un file system Data Domain online?
No, DDFS deve essere offline|disabilitato durante l'aggiornamento del firmware. - È richiesto un riavvio?
No, non è necessario riavviare il sistema. - Il firmware può essere applicato al nodo passivo?
No, non può essere applicato al nodo passivo. Deve essere eseguito solo sul nodo attivo. - Quanto tempo è necessario per completare l'aggiornamento del file drive-firmware-CA04.rpm del FW per le unità 180-240(4-DS60)?
L'aggiornamento è in modalità parallela, richiede 10-15 minuti se non si verificano problemi. - Se tutte le unità non sono aggiornate, il sistema aggiorna automaticamente le unità non CA04?
No, l'aggiornamento deve essere nuovamente eseguito o può essere eseguito manualmente. Vedere "Ulteriori informazioni" di seguito. - È necessario applicare questa patch drive-firmware-CA04.rpm del FW anche su altri DD NON HA, poiché potrebbero avere le unità anche su FW meno recenti?
Si consiglia di applicare il file drive-firmware-CA04.rpm del FW anche a DD NON HA con unità da 8 TB. - Se un unità si guasta durante l'aggiornamento, può essere ripristinata?
Se un'unità si guasta prima o durante l'aggiornamento del firmware, controllare la cronologia degli errori sul disco (ad esempio "disk show reliability-data"). Se il disco presenta errori, deve rimanere nello stato failed e deve essere sostituito. Se il disco non presenta errori, eseguire il comando "disk unfail <disk.id>" per correggere lo stato dell'unità e renderla unità di riserva. Se un'unità guasta viene sostituita con un'unità con firmware CA01/CA02 precedente, l'unità deve essere aggiornata manualmente. Vedere "Come aggiornare manualmente le unità sostitutive" nella sezione Ulteriori informazioni di seguito. - Perché è necessario sospendere l'attività nel gruppo di dischi 2 (dg2), anche quando DDFS è inattivo?
DDOS continua ad avere accesso ai mount EXT3 presenti in dg2.
Applicazione del pacchetto MDU:
- Connettersi al nodo attivo del sistema HA. L'aggiornamento non funziona dal nodo passivo o di standby.
- Pianificare il downtime con l'utente poiché DDFS deve essere disabilitato durante l'aggiornamento del firmware. Eseguire i seguenti comandi per controllare gli avvisi correnti e gestirli in base alle esigenze. Arrestare il processo di pulizia, se in esecuzione. Disabilitare il file system.
# alerts show current# filesys clean status# filesys clean stop# filesys disable - Verificare in AutoSupport la presenza di dischi CA01/CA02 che fanno parte di >=dg2 per i sistemi che non sono stati sottoposti a migrazione dello storage. Per i sistemi sottoposti a migrazione dello storage, il gruppo di dischi con array ext3 potrebbe non essere dg2.
Cercare ext3. Mostra DD_RAID istogramma per dgXX, dove XX è il numero DG. Vedere l'esempio nella sezione "Ulteriori informazioni" di seguito. Se i dischi dg2/dgXX dispongono di firmware CA01/C02, l'array deve essere sospeso temporaneamente durante il processo di aggiornamento MDU. In caso contrario, si può attivare un altro errore se tutte le attività di I/O nel gruppo di dischi non vengono sospese. Aprire una richiesta di assistenza per la sospensione del gruppo di dischi. Se dg2/dgXX non contiene dischi CA01/CA02, non è necessaria una richiesta di assistenza. Andare al passaggio 4. - Carica il file
drive-firmware-CA04.rpmdall'interfaccia utente di DD System Manager. - Aggiornare i dischi. Eseguire il seguente comando e attendere il completamento.
# system upgrade start drive-firmware-CA04.rpm" - Attendere circa 10 minuti.
- Verificare che tutti i dischi siano aggiornati. Se continuano a essere visualizzati dischi con il firmware CA01/CA02, ripetere i passaggi 5 e 6.
# disk show hardware - Controllare lo stato corrente del disco. Se sono presenti vari dischi con errori, contattare il supporto per ricevere assistenza. Per gli errori su un singolo disco, controllare la cronologia degli errori e, se non sono presenti, correggere lo stato del disco.
# disk unfail <disk.id> - Verificare gli avvisi e abilitare DDFS.
# alerts show current# filesys enable
Additional Information
Come verificare la presenza di dischi dg2/dgXX con array ext3 e firmware CA01/CA02.
Per i sistemi non sottoposti a migrazione dello storage, dg2 dispone degli array ext3.
Cercare le righe seguenti in AutoSupport (in grassetto).
- DD_RAID Histogram
DD_RAID Histogram for dg2 0xafc318cb033dc226 DG:dg2 UUID:0xafc318cb033dc226 MajorNr:61 MajorNrEx:62 GrpNr:10 State:Complete Status:Reassembled Index:0 Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:148681617408 Options:0x10000100 Type:StandAlone Primary Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS300198000G MG UUID:0x0 Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0xb6fbb5a5a61ecf9] Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [148681617408 sectors] ID[0xfb32c1339fafc87b]
- Storage Show All (questo comando può essere eseguito anche sulla CLI DD)
dg2 2.1-2.3, 2.13-2.15, 2.25-2.27, 14 7.2 TiB 2.37-2.39, 2.49-2.50
- Disk Show Hardware (questo comando può essere eseguito sulla CLI DD)
2.1 A0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R8GS 7.2 TiB SASe DG118000919 2.2 A1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4REMW 7.2 TiB SASe DG118000919 2.3 A2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4LM5C 7.2 TiB SASe DG118000919 2.13 B0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SMHX 7.2 TiB SASe DG118000919 2.14 B1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4RF04 7.2 TiB SASe DG118000919 2.15 B2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4QHQE 7.2 TiB SASe DG118000919 2.25 C0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4RE9Y 7.2 TiB SASe DG118000919 2.26 C1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4LMME 7.2 TiB SASe DG118000919 2.27 C2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4REW8 7.2 TiB SASe DG118000919 2.37 D0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SMHM 7.2 TiB SASe DG118000919 2.38 D1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4QHWR 7.2 TiB SASe DG118000919 2.39 D2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R862 7.2 TiB SASe DG118000919 2.49 E0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SSKK 7.2 TiB SASe DG118000919 2.50 E1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SV53 7.2 TiB SASe DG118000919 2.51 E2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R944 7.2 TiB SASe DG118000919
Nell'esempio precedente, le unità hanno il firmware CA01. È necessario aprire una richiesta di assistenza affinché Dell Technologies possa assistere con la sospensione del gruppo di dischi (dg2) contenente l'array ext3 prima dell'applicazione dell'aggiornamento MDU.
Per i sistemi sottoposti a migrazione dello storage, l'array contenente ext3 potrebbe non essere dg2. Cercare le righe seguenti in AutoSupport (in grassetto).
Licenses (STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS)
Licenses -------- System locking-id: APX00123456789 Licensing scheme: EMC Electronic License Management System (ELMS) node-locked mode Capacity licenses: ## Feature Shelf Model Capacity Type State Expiration Date Note -- --------------- ------------ ----------- --------- ------ --------------- ---- 1 CAPACITY-ACTIVE HIGH_DENSITY 1396.98 TiB permanent active n/a -- --------------- ------------ ----------- --------- ------ --------------- ---- Licensed Active Tier capacity: 1396.98 TiB* * Depending on the hardware platform, usable filesystem capacities may vary. Feature licenses: ## Feature Count Type State Expiration Date Note -- ---------------------------------------- ----- ---------- ------ --------------- --------------- 1 REPLICATION 1 permanent active n/a 2 VTL 1 permanent active n/a 3 DDBOOST 1 permanent active n/a 4 RETENTION-LOCK-GOVERNANCE 1 permanent active n/a 5 ENCRYPTION 1 permanent active n/a 6 I/OS 1 permanent active n/a 7 RETENTION-LOCK-COMPLIANCE 1 permanent active n/a 8 STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS 6 evaluation grace 2023-11-20 -- ---------------------------------------- ----- ---------- ------ --------------- --------------- License file last modified at : 2022/08/29 11:02:13.
- DD_RAID Histogram
DD_RAID Histogram for dg23 0x323d6b863ae21b8f DG:dg23 UUID:0x323d6b863ae21b8f MajorNr:61 MajorNrEx:62 GrpNr:18 State:Complete Status:Reassembled Index:0 Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:161373947904 Options:0x10000100 Type:StandAlone Primary Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS30021O001N MG UUID:0x0 Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0x16222e80737dc6bf] Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [161373947904 sectors] ID[0x8febacd8140b2c05]
Storage Show All (This command can be ran on the DD CLI)
dg23 6.1-6.3, 6.13-6.15, 6.25-6.27, 14 7.2 TiB 6.37-6.39, 6.49-6.50
Disk Show Hardware (This command can be ran on the DD CLI)
6.1 A0 HITACHI H04728T8CLAR8000 A430 VYH2S3SS 7.2 TiB SASe DG118000785 6.2 A1 HITACHI H04728T8CLAR8000 A430 VYH2RVSS 7.2 TiB SASe DG118000785 6.3 A2 HITACHI H04728T8CLAR8000 A430 VYH2K9KS 7.2 TiB SASe DG118000785 6.13 B0 HITACHI H04728T8CLAR8000 A430 VYH2JJBS 7.2 TiB SASe DG118000785 6.14 B1 HITACHI H04728T8CLAR8000 A430 VYH1Y83S 7.2 TiB SASe DG118000785 6.15 B2 HITACHI H04728T8CLAR8000 A430 VYH2RNGS 7.2 TiB SASe DG118000785 6.25 C0 HITACHI H04728T8CLAR8000 A430 VYH1DN8S 7.2 TiB SASe DG118000785 6.26 C1 HITACHI H04728T8CLAR8000 A430 VYH2124S 7.2 TiB SASe DG118000785 6.27 C2 HITACHI H04728T8CLAR8000 A430 VYH0ZM6S 7.2 TiB SASe DG118000785 6.25 C0 HITACHI H04728T8CLAR8000 A430 VYH1DN8S 7.2 TiB SASe DG118000785 6.26 C1 HITACHI H04728T8CLAR8000 A430 VYH2124S 7.2 TiB SASe DG118000785 6.27 C2 HITACHI H04728T8CLAR8000 A430 VYH0ZM6S 7.2 TiB SASe DG118000785 6.47 D10 HITACHI H04728T8CLAR8000 A430 VYH1XGJS 7.2 TiB SASe DG118000785 6.48 D11 HITACHI H04728T8CLAR8000 A430 VYH20VHS 7.2 TiB SASe DG118000785 6.49 E0 HITACHI H04728T8CLAR8000 A430 VYH2G5XS 7.2 TiB SASe DG118000785
Poiché le unità non dispongono del firmware CA01 e CA02, non è necessaria una richiesta di assistenza. Andare al passaggio 3 della procedura di aggiornamento MDU nella sezione "Risoluzione" precedente.