Data Domain: Meerdere schijven vallen uit tijdens failover van HA-systemen | CA01, CA02 FW-probleem
Summary: Bij Data Domain High Availability (HA) kan er tijdens HA-failover schijfstoringen optreden als gevolg van een bekend probleem met de schijffirmware. Bij sommige systemen kan het bestandssysteem niet worden opgestart na een failover of herstart. ...
Symptoms
De storing is beperkt tot schijven van 8 TB met CA01- en CA02-firmwarerevisies. Meestal worden meerdere RAID-groepen (schijfgroepen) beïnvloed. Het kan enkelvoudig gedegradeerd (één storing) of dubbel gedegradeerd (twee schijfstoringen) zijn.
De systemen die niet opnieuw opstarten, ondervinden een onderbreking in het bestandssysteem, maar zouden zichzelf moeten herstellen; meerdere schijven worden opnieuw opgebouwd en zijn in behandeling. Voor de systemen die opnieuw opstarten, wordt een failover geforceerd waardoor het bestandssysteem kan vastlopen tijdens het opstarten.
Van toepassing op:
- Alleen DD9400 en DD9900 modellen
- Harde schijf van 8 TB in externe opslagbehuizingen met firmwareversie (FW) CA01 of CA02
Disk Failure Symptoms:
- Rapport Schijflogboeken
sense key 4/0x29/0xcdbij het uitvoeren van een SCSI WRITEcdb 0x8a,Eén schrijfopdrachtfout veroorzaakt een schijfstoring door de DD_RAID module.
Sep 16 06:17:59 DD9900 kernel: [11647695.019070] (E4)scsi16: (ffff88fe1522d800) (0/5/10000) chnl/tgt/lun 0/232/0 result 0x2, cdb 0x8a:00000001498b4728:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
Sep 16 06:20:58 DD9900 kernel: [11647874.161940] (E4)scsi16: (ffff88b96b72cc00) (1/5/10000) chnl/tgt/lun 0/246/0 result 0x2, cdb 0x8a:0000000149adb300:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
Sep 16 06:20:58 DD9900 kernel: [11647874.161997] (E4)scsi16: (ffff88b946a08e00) (1/5/10000) chnl/tgt/lun 0/237/0 result 0x2, cdb 0x8a:000000014a777478:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
- DD_RAID mislukt schijven als gevolg van "WRITE I/O"-fouten.
Sep 16 06:17:59 DD9900 kernel: [11647695.020655] (E4)DD_RAID: Failing working disk [6.35 dm-27p3 WSD48SRA 254:3635] from DiskGroup dg19
Sep 16 06:20:59 DD9900 kernel: [11647875.122961] (E4)DD_RAID: Failing working disk [2.32 dm-25p3 WSD49GCR 254:403] from DiskGroup dg4
Sep 16 06:21:54 DD9900 kernel: [11647930.659786] (E4)DD_RAID: Failing working disk [2.39 dm-46p3 WSD48TEG 254:739] from DiskGroup dg2
Sep 16 06:21:58 DD9900 kernel: [11647934.612549] (E4)DD_RAID: Failing working disk [{*}6.43{*} dm-233p3 WSD49GG6 254:3731] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.363248] (E4)DD_RAID: Failing working disk [{*}6.21{*} dm-219p3 WSD47KYS 254:3507] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.477630] (E4)DD_RAID: Failing working disk [{*}6.5{*} dm-242p3 WSD4B13V 254:3875] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.651261] (E4)DD_RAID: Failing working disk [{*}6.18{*} dm-259p3 WSD47EWA 254:4147] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.726575] (E4)DD_RAID: Failing working disk [{*}6.15{*} dm-265p3 WSD49BGL 254:4243] from DiskGroup dg16
Sep 16 06:22:05 DD9900 kernel: [11647941.100980] (E4)DD_RAID: Failing working disk [{*}6.26{*} dm-257p3 WSD49ART 254:4115] from DiskGroup dg16
Symptomen DDFS kan niet worden opgestart:
- Inch
ddfs.info, zijn de onderstaande berichten gedurende een lange periode tijdens het opstarten van DDFS van kracht. Het gaat pas verder als het DDFS-proces is beëindigd, waardoor een failover naar het peer-knooppunt wordt afgedwongen.
09/15 21:49:21.962018 [a0cc980] SYSTEM_STARTUP: ===== completed <SegStore> - time (1663292961) =====
09/15 21:49:21.962028 [a0cc980] SYSTEM_STARTUP: ===== starting <CC-Agent> - time (1663292961) =====
09/15 21:57:11.699754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/15 21:59:11.819754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/15 22:01:11.939754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
...
09/16 02:01:26.339755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/16 02:03:26.459755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/16 02:05:26.579755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrubCause
Resolution
Oplossing:
- Vaste DDOS-versies: DDOS 7.11.x, 7.10.1.0 en 7.7.5.1 en hoger hebben ingebouwde CA04-firmware.
- Upgrade naar een nieuwere DDOS versie
- Een Minimal Disruptive Upgrade (MDU) is beschikbaar voor alle andere DDOS 7.x-versies.
- Link naar MDU: Lees mij + Download: DDOS 7.X harde schijf Firmware Minimaal verstorende upgrade (MDU) pakket - november 2022 (Log in als geregistreerde Dell Support gebruiker is vereist om het document te bekijken)
-
Het MDU-pakket toepassen:
- Maak verbinding met het actieve knooppunt van het HA-systeem. De update werkt niet vanaf het passieve of stand-byknooppunt.
- Plan downtime met de gebruiker, omdat DDFS moet worden uitgeschakeld tijdens de FW-update. Voer de volgende opdrachten uit om de huidige waarschuwingen te controleren en waar nodig aan te pakken. Stop het opschoonproces als het actief is. Schakel het bestandssysteem uit.
# alerts show current# filesys clean status# filesys clean stop# filesys disable - Controleer de automatische ondersteuning voor CA01/CA02-schijven die deel uitmaken van >=dg2 voor systemen die geen storagemigratie hebben ondergaan. Voor systemen die wel een storagemigratie hebben ondergaan, is de schijfgroep met ext3-arrays mogelijk niet dg2.
Zoek naar ext3. Het toont DD_RAID histogram voor dgXX, waarbij XX het DG-nummer is. Zie voorbeeld in het gedeelte "Aanvullende informatie" hieronder. Als de dg2/dgXX-schijven CA01/C02-firmware hebben, moet de array tijdelijk worden onderbroken tijdens het MDU-upgradeproces. Als u dit niet doet, kan een nieuwe fout ontstaan als alle I/O-activiteit in de schijfgroep niet wordt onderbroken. Open een ondersteuningsaanvraag voor hulp bij het onderbreken van de schijfgroep. Als dg2/dgXX geen CA01/CA02-schijven bevat, is een supportcase niet nodig. Ga naar stap 4. - Upload de
drive-firmware-CA04.rpmin de DD System Manager UI. - Upgrade de schijven. Voer de volgende opdracht uit en wacht tot deze is voltooid.
# system upgrade start drive-firmware-CA04.rpm" - Wacht ~10 minuten.
- Controleer of alle schijven zijn bijgewerkt. Als schijven nog steeds worden weergegeven met CA01/CA02-firmware, herhaalt u stap 5 en 6.
# disk show hardware - Controleer de huidige schijfstatus. Als er meerdere schijfstoringen zijn, neemt u contact op met Support voor hulp. Als er één schijf defect is, controleert u de schijf op een foutgeschiedenis en als er geen fouten zijn, maakt u de fout van de schijf ongedaan.
# disk unfail <disk.id> - Controleer waarschuwingen en schakel DDFS in.
# alerts show current# filesys enable
Tijdelijke oplossing
- Als er een herstart of failover heeft plaatsgevonden:
- DD_RAID kan defecte schijven niet failback maken.
- Sta toe dat traditionele pariteitsgebaseerde schijfherbuilds zijn voltooid.
- Schakel GC uit totdat alle herbuilds zijn voltooid.
- Als het bestandssysteem niet kan worden gestart, moet u een DDFS TSE raadplegen.
- Als opnieuw opstarten of failover NIET heeft plaatsgevonden:
- DD_RAID TSE kan handmatig failback schijven uitvoeren met behulp van
dd_raidtool. - Defecte schijfslots moeten worden uit- en weer ingeschakeld (neem contact op met Dell Support).
- Laat herbouwingen van meer dan 50% voltooien voordat u overschakelt naar failback-reconstructie.
- Na het opnieuw opbouwen kunnen schijven "unfailed" zijn als slots zijn uit- en weer ingeschakeld.
- DD_RAID TSE kan handmatig failback schijven uitvoeren met behulp van
Additional Information
Veelgestelde vragen
V: Kan de firmware-upgrade worden uitgevoerd terwijl het Data Domain-bestandssysteem online is?
A: Nee. De DDFS moet worden uitgeschakeld tijdens de firmware-upgrade.
V: Moet het systeem opnieuw worden opgestart na het toepassen van de firmware-update?
A: Nee. Opnieuw opstarten is niet vereist.
V: Kan de firmware worden toegepast op het passieve knooppunt?
A: Nee. De update mag alleen op het actieve knooppunt worden uitgevoerd.
V: Hoe lang duurt de firmware-upgrade voor 180-240 schijven (4 DS60-planken)?
A: De upgrade wordt parallel uitgevoerd en duurt meestal 10-15 minuten, mits er geen problemen zijn.
V: Als sommige schijven niet worden bijgewerkt, probeert het systeem de update dan automatisch opnieuw uit te voeren?
A: Nee. De update moet handmatig opnieuw worden uitgevoerd of worden herhaald voor de resterende schijven. Zie 'Aanvullende informatie' voor handmatige updatestappen.
V: Moet de firmwarepatch ook worden toegepast op niet-HA Data Domain systemen?
A: Ja. Het wordt aanbevolen om de drive-firmware-CA04.RPM-patch toe te passen op alle systemen met schijven van 8 TB waarop oudere firmware wordt uitgevoerd.
V: Als een schijf defect raakt tijdens de update, kan deze dan worden hersteld?
A:
- Als de schijf een foutgeschiedenis weergeeft (neem contact op met
disk show reliability-data), moet het defect blijven en worden vervangen. - Als er geen fouten aanwezig zijn, voert u het volgende uit:
Dit markeert de schijf als reserve.disk unfail <disk.id> - Als een vervangende schijf oudere CA01/CA02-firmware heeft, moet deze handmatig worden bijgewerkt. Zie "Vervangende schijven handmatig bijwerken" in Aanvullende informatie.
V: Waarom is het nodig om activiteit in schijfgroep 2 (dg2) op te schorten, zelfs als DDFS is uitgeschakeld?
A: DDOS heeft nog steeds toegang tot EXT3-mounts in dg2. Het opschorten van I/O-activiteit voorkomt extra fouten tijdens de upgrade.
V: Controleren op dg2/dgXX schijven die een ext3 array hebben en CA01/CA02 firmware bevatten.
A: Voor niet-storage gemigreerde systemen heeft dg2 de ext3-arrays.
Zoek in de autosupport naar de volgende regels. (Vetgedrukt)
- DD_RAID Histogram
DD_RAID Histogram for dg2 0xafc318cb033dc226
DG:dg2 UUID:0xafc318cb033dc226 MajorNr:61 MajorNrEx:62 GrpNr:10 State:Complete Status:Reassembled Index:0
Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:148681617408 Options:0x10000100 Type:StandAlone Primary
Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS300198000G MG UUID:0x0
Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0xb6fbb5a5a61ecf9]
Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [148681617408 sectors] ID[0xfb32c1339fafc87b]
- Storage Alles weergeven (deze opdracht kan ook worden uitgevoerd op de DD CLI)
dg2 2.1-2.3, 2.13-2.15, 2.25-2.27, 14 7.2 TiB
2.37-2.39, 2.49-2.50
- Disk Show Hardware (deze opdracht kan worden uitgevoerd op de DD CLI)
2.1 A0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R8GS 7.2 TiB SASe DG118000919
2.2 A1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4REMW 7.2 TiB SASe DG118000919
2.3 A2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4LM5C 7.2 TiB SASe DG118000919
2.13 B0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SMHX 7.2 TiB SASe DG118000919
2.14 B1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4RF04 7.2 TiB SASe DG118000919
2.15 B2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4QHQE 7.2 TiB SASe DG118000919
2.25 C0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4RE9Y 7.2 TiB SASe DG118000919
2.26 C1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4LMME 7.2 TiB SASe DG118000919
2.27 C2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4REW8 7.2 TiB SASe DG118000919
2.37 D0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SMHM 7.2 TiB SASe DG118000919
2.38 D1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4QHWR 7.2 TiB SASe DG118000919
2.39 D2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R862 7.2 TiB SASe DG118000919
2.49 E0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SSKK 7.2 TiB SASe DG118000919
2.50 E1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SV53 7.2 TiB SASe DG118000919
2.51 E2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R944 7.2 TiB SASe DG118000919
In het bovenstaande voorbeeld hebben de schijven CA01-firmware. Er moet een ondersteuningsaanvraag worden geopend zodat Dell Technologies kan helpen bij het onderbreken van de schijfgroep (dg2) met de ext3-array voordat de MDU-upgrade wordt toegepast.
Voor storage gemigreerde systemen is de array met ext3 mogelijk niet dg2. Zoek in de autosupport naar de volgende regels. (Vetgedrukt)
Licenses (STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS)
Licenses
--------
System locking-id: APX00123456789
Licensing scheme: EMC Electronic License Management System (ELMS) node-locked mode
Capacity licenses:
## Feature Shelf Model Capacity Type State Expiration Date Note
-- --------------- ------------ ----------- --------- ------ --------------- ----
1 CAPACITY-ACTIVE HIGH_DENSITY 1396.98 TiB permanent active n/a
-- --------------- ------------ ----------- --------- ------ --------------- ----
Licensed Active Tier capacity: 1396.98 TiB*
* Depending on the hardware platform, usable filesystem capacities may vary.
Feature licenses:
## Feature Count Type State Expiration Date Note
-- ---------------------------------------- ----- ---------- ------ --------------- ---------------
1 REPLICATION 1 permanent active n/a
2 VTL 1 permanent active n/a
3 DDBOOST 1 permanent active n/a
4 RETENTION-LOCK-GOVERNANCE 1 permanent active n/a
5 ENCRYPTION 1 permanent active n/a
6 I/OS 1 permanent active n/a
7 RETENTION-LOCK-COMPLIANCE 1 permanent active n/a
8 STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS 6 evaluation grace 2023-11-20
-- ---------------------------------------- ----- ---------- ------ --------------- ---------------
License file last modified at : 2022/08/29 11:02:13.
- DD_RAID Histogram
DD_RAID Histogram for dg23 0x323d6b863ae21b8f
DG:dg23 UUID:0x323d6b863ae21b8f MajorNr:61 MajorNrEx:62 GrpNr:18 State:Complete Status:Reassembled Index:0
Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:161373947904 Options:0x10000100 Type:StandAlone Primary
Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS30021O001N MG UUID:0x0
Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0x16222e80737dc6bf]
Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [161373947904 sectors] ID[0x8febacd8140b2c05]
Storage Show All (This command can be ran on the DD CLI)
dg23 6.1-6.3, 6.13-6.15, 6.25-6.27, 14 7.2 TiB
6.37-6.39, 6.49-6.50
Disk Show Hardware (This command can be ran on the DD CLI)
6.1 A0 HITACHI H04728T8CLAR8000 A430 VYH2S3SS 7.2 TiB SASe DG118000785
6.2 A1 HITACHI H04728T8CLAR8000 A430 VYH2RVSS 7.2 TiB SASe DG118000785
6.3 A2 HITACHI H04728T8CLAR8000 A430 VYH2K9KS 7.2 TiB SASe DG118000785
6.13 B0 HITACHI H04728T8CLAR8000 A430 VYH2JJBS 7.2 TiB SASe DG118000785
6.14 B1 HITACHI H04728T8CLAR8000 A430 VYH1Y83S 7.2 TiB SASe DG118000785
6.15 B2 HITACHI H04728T8CLAR8000 A430 VYH2RNGS 7.2 TiB SASe DG118000785
6.25 C0 HITACHI H04728T8CLAR8000 A430 VYH1DN8S 7.2 TiB SASe DG118000785
6.26 C1 HITACHI H04728T8CLAR8000 A430 VYH2124S 7.2 TiB SASe DG118000785
6.27 C2 HITACHI H04728T8CLAR8000 A430 VYH0ZM6S 7.2 TiB SASe DG118000785
6.25 C0 HITACHI H04728T8CLAR8000 A430 VYH1DN8S 7.2 TiB SASe DG118000785
6.26 C1 HITACHI H04728T8CLAR8000 A430 VYH2124S 7.2 TiB SASe DG118000785
6.27 C2 HITACHI H04728T8CLAR8000 A430 VYH0ZM6S 7.2 TiB SASe DG118000785
6.47 D10 HITACHI H04728T8CLAR8000 A430 VYH1XGJS 7.2 TiB SASe DG118000785
6.48 D11 HITACHI H04728T8CLAR8000 A430 VYH20VHS 7.2 TiB SASe DG118000785
6.49 E0 HITACHI H04728T8CLAR8000 A430 VYH2G5XS 7.2 TiB SASe DG118000785
Aangezien de schijven geen CA01- en CA02-firmware hebben, is een supportcase niet vereist. Ga naar stap 3 van de stappen voor de MDU-upgrade in het gedeelte "Resolution" hierboven.