Data Domain: Meerdere schijven vallen uit tijdens failover van HA-systemen | CA01, CA02 FW-probleem
Summary: Bij Data Domain High Availability (HA) kan er tijdens HA-failover schijfstoringen optreden als gevolg van een bekend probleem met de schijffirmware. Bij sommige systemen kan het bestandssysteem niet worden opgestart na een failover of herstart. ...
Symptoms
De storing is beperkt tot schijven van 8 TB met CA01- en CA02-firmwarerevisies. Meestal worden meerdere RAID-groepen (schijfgroepen) beïnvloed. Het kan enkelvoudig gedegradeerd (één storing) of dubbel gedegradeerd (twee schijfstoringen) zijn.
De systemen die niet opnieuw opstarten, ondervinden een onderbreking in het bestandssysteem, maar zouden zichzelf moeten herstellen; Met meerdere schijfrebuilds aan de gang en in behandeling. Voor de systemen die opnieuw opstarten, wordt een failover geforceerd waardoor het bestandssysteem kan vastlopen tijdens het opstarten.
Van toepassing op:
- Alleen DD9400 en DD9900 modellen
- Harde schijf van 8 TB in externe opslagbehuizingen met firmwareversie (FW) CA01 of CA02
Oplossing:
- Vaste DDOS-versies: DDOS 7.11.x, 7.10.1.0 en 7.7.5.1 en hoger hebben ingebouwde CA04-firmware.
- Een Minimal Disruptive Upgrade (MDU) is beschikbaar voor alle andere DDOS 7.x-versies.
- Link naar MDU: Lees mij + Download: DDOS 7.X harde schijf Firmware Minimaal verstorende upgrade (MDU) pakket - november 2022 (Log in als geregistreerde Dell Support gebruiker is vereist om het document te bekijken)
Opmerking: Het bestandssysteem moet worden uitgeschakeld wanneer u de MDU toepast.
Disk Failure Symptoms:
- Detectiesleutel voor schijflogboekrapport
4/0x29/0xcdbij het uitvoeren van een SCSI WRITEcdb 0x8a, veroorzaakt één schrijfopdrachtfout een schijfstoring door de DD_RAID-module.
Sep 16 06:17:59 DD9900 kernel: [11647695.019070] (E4)scsi16: (ffff88fe1522d800) (0/5/10000) chnl/tgt/lun 0/232/0 result 0x2, cdb 0x8a:00000001498b4728:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able Sep 16 06:20:58 DD9900 kernel: [11647874.161940] (E4)scsi16: (ffff88b96b72cc00) (1/5/10000) chnl/tgt/lun 0/246/0 result 0x2, cdb 0x8a:0000000149adb300:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able Sep 16 06:20:58 DD9900 kernel: [11647874.161997] (E4)scsi16: (ffff88b946a08e00) (1/5/10000) chnl/tgt/lun 0/237/0 result 0x2, cdb 0x8a:000000014a777478:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
- DD_RAID mislukt schijven als gevolg van "WRITE I/O"-fouten.
Sep 16 06:17:59 DD9900 kernel: [11647695.020655] (E4)DD_RAID: Failing working disk [6.35 dm-27p3 WSD48SRA 254:3635] from DiskGroup dg19
Sep 16 06:20:59 DD9900 kernel: [11647875.122961] (E4)DD_RAID: Failing working disk [2.32 dm-25p3 WSD49GCR 254:403] from DiskGroup dg4
Sep 16 06:21:54 DD9900 kernel: [11647930.659786] (E4)DD_RAID: Failing working disk [2.39 dm-46p3 WSD48TEG 254:739] from DiskGroup dg2
Sep 16 06:21:58 DD9900 kernel: [11647934.612549] (E4)DD_RAID: Failing working disk [{*}6.43{*} dm-233p3 WSD49GG6 254:3731] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.363248] (E4)DD_RAID: Failing working disk [{*}6.21{*} dm-219p3 WSD47KYS 254:3507] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.477630] (E4)DD_RAID: Failing working disk [{*}6.5{*} dm-242p3 WSD4B13V 254:3875] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.651261] (E4)DD_RAID: Failing working disk [{*}6.18{*} dm-259p3 WSD47EWA 254:4147] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.726575] (E4)DD_RAID: Failing working disk [{*}6.15{*} dm-265p3 WSD49BGL 254:4243] from DiskGroup dg16
Sep 16 06:22:05 DD9900 kernel: [11647941.100980] (E4)DD_RAID: Failing working disk [{*}6.26{*} dm-257p3 WSD49ART 254:4115] from DiskGroup dg16
Symptomen DDFS kan niet worden opgestart:
- In ddfs.info zijn de onderstaande berichten gedurende een lange periode tijdens het opstarten van DDFS. Het gaat pas verder als het DDFS-proces is beëindigd, waardoor een failover naar het peer-knooppunt wordt afgedwongen.
09/15 21:49:21.962018 [a0cc980] SYSTEM_STARTUP: ===== completed <SegStore> - time (1663292961) ===== 09/15 21:49:21.962028 [a0cc980] SYSTEM_STARTUP: ===== starting <CC-Agent> - time (1663292961) ===== 09/15 21:57:11.699754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub 09/15 21:59:11.819754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub 09/15 22:01:11.939754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub ... 09/16 02:01:26.339755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub 09/16 02:03:26.459755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub 09/16 02:05:26.579755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
Cause
Hoofdoorzaak van de schijfstoring:
de DRAM-cachebuffer van de schijf ondervindt een foutieve data-integriteitsfout onder een willekeurige I/O-workload. De fabrikant van de schijf heeft een firmwareoplossing beschikbaar gesteld om dit probleem op te lossen.
Resolution
Tijdelijke oplossing
Als er een herstart of failover is opgetreden, wordt de mogelijkheid van DD_RAID om "failback" de defecte schijven is geen optie. Sta in dat geval toe dat de traditionele schijfherbuilds (pariteit) zijn voltooid. Schakel GC uit totdat alle schijven opnieuw zijn opgebouwd. Als het bestandssysteem een opstartprobleem ondervindt na een herstart of een failover, raadpleeg dan een DDFS TSE voordat u het DDFS-proces beëindigt.
Als er geen herstart of failover heeft plaatsgevonden, kunt DD_RAID "failback" heropbouw van de defecte schijven. Dit is een handmatige bewerking met behulp van "dd_raidtool" in bash. Voordat de "failback" van de schijf wordt gestart, moeten de defecte schijfslots worden uit- en weer ingeschakeld; Neem hiervoor contact op met de technische support van Dell .
Op basis van praktijkervaring kunt u schijfrebuilds van meer dan 50% voltooien in plaats van over te schakelen op failback-reconstructie.
Nadat alle herbouwingen zijn voltooid, kunnen schijven die nog steeds defect zijn, worden "unfailed" als hun respectievelijke slots zijn uit- en aangezet.
Oplossing
De schijffirmwareversie CA04 is nu beschikbaar als MDU-patch in de vorm van een DDOS-upgradepakket. Neem contact op met de ondersteuning voor een exemplaar van de RPM. Het is gelegen in /auto/cores/drive-firmware-rpm/drive-firmware-CA04.rpm.
Veelgestelde vragen:
- Kan de upgrade worden uitgevoerd met een online Data Domain-bestandssysteem?
Nee, DDFS moet offline|uitgeschakeld zijn tijdens de FW-upgrade. - Is opnieuw opstarten vereist?
Nee, opnieuw opstarten is niet vereist. - Kan de FW worden toegepast op het passieve knooppunt?
Nee, het kan niet worden toegepast op het passieve knooppunt. Het mag alleen op het actieve knooppunt worden uitgevoerd. - Hoe lang duurt het om de FW-schijffirmware-CA04.RPM-upgrade voor 180-240 (4-DS60) schijven te voltooien?
De upgrade is in parallelle modus, het duurt 10 - 15 minuten als er geen problemen zijn. - Als niet alle schijven worden bijgewerkt, werkt het systeem dan automatisch de niet-CA04-schijven bij?
Nee, de update moet opnieuw worden uitgevoerd of kan handmatig worden uitgevoerd. Zie "Aanvullende informatie" hieronder. - Moeten ze deze FW drive-firmware-CA04 toepassen? RPM-patch op andere niet-HA DD's ook, omdat die de schijven op oudere FW ook?
Het wordt aanbevolen om de FW-schijffirmware-CA04.RPM ook toe te passen op niet-HA DD's met de 8 TB-schijven. - Als een schijf defect raakt tijdens de update, kan deze dan ongeldig zijn?
Als een schijf voor of tijdens de firmware-update defect raakt, controleert u de schijf op foutgeschiedenis (bijvoorbeeld "schijf toont betrouwbaarheidsdata"). Als de schijf fouten vertoont, moet deze defect blijven en moet deze worden vervangen. Als de schijf geen fouten heeft, voert u de opdracht "disk unfail <disk.id>" uit om de fout van de schijf ongedaan te maken en er een reserve van te maken. Als een defecte schijf wordt vervangen door een schijf met oudere firmware CA01/CA02, moet de schijf handmatig worden bijgewerkt. Zie hieronder "Vervangende schijven handmatig bijwerken" in het aanvullende gedeelte hieronder. - Waarom is het nodig om de activiteit in schijfgroep 2 (dg2) op te schorten, zelfs als DDFS niet beschikbaar is?
DDOS heeft nog steeds toegang tot de EXT3-bevestigingen in dg2.
Het MDU-pakket toepassen:
- Maak verbinding met het actieve knooppunt van het HA-systeem. De update werkt niet vanaf het passieve of stand-byknooppunt.
- Plan downtime met de gebruiker, omdat DDFS moet worden uitgeschakeld tijdens de FW-update. Voer de volgende opdrachten uit om de huidige waarschuwingen te controleren en waar nodig aan te pakken. Stop het opschoonproces als het actief is. Schakel het bestandssysteem uit.
# alerts show current# filesys clean status# filesys clean stop# filesys disable - Controleer de automatische ondersteuning voor CA01/CA02-schijven die deel uitmaken van >=dg2 voor systemen die geen storagemigratie hebben ondergaan. Voor systemen die wel een storagemigratie hebben ondergaan, is de schijfgroep met ext3-arrays mogelijk niet dg2.
Zoek naar ext3. Het toont DD_RAID histogram voor dgXX, waarbij XX het DG-nummer is. Zie voorbeeld in het gedeelte "Aanvullende informatie" hieronder. Als de dg2/dgXX-schijven CA01/C02-firmware hebben, moet de array tijdelijk worden onderbroken tijdens het MDU-upgradeproces. Als u dit niet doet, kan een nieuwe fout ontstaan als alle I/O-activiteit in de schijfgroep niet wordt onderbroken. Open een ondersteuningsaanvraag voor hulp bij het onderbreken van de schijfgroep. Als dg2/dgXX geen CA01/CA02-schijven bevat, is een supportcase niet nodig. Ga naar stap 4. - Upload de
drive-firmware-CA04.rpmin de DD System Manager UI. - Upgrade de schijven. Voer de volgende opdracht uit en wacht tot deze is voltooid.
# system upgrade start drive-firmware-CA04.rpm" - Wacht ~10 minuten.
- Controleer of alle schijven zijn bijgewerkt. Als schijven nog steeds worden weergegeven met CA01/CA02-firmware, herhaalt u stap 5 en 6.
# disk show hardware - Controleer de huidige schijfstatus. Als er meerdere schijfstoringen zijn, neemt u contact op met Support voor hulp. Als er één schijf defect is, controleert u de schijf op een foutgeschiedenis en als er geen fouten zijn, maakt u de fout van de schijf ongedaan.
# disk unfail <disk.id> - Controleer waarschuwingen en schakel DDFS in.
# alerts show current# filesys enable
Additional Information
Controleren op dg2/dgXX schijven die een ext3 array hebben en CA01/CA02 firmware bevatten.
Voor niet-storage gemigreerde systemen heeft dg2 de ext3-arrays.
Zoek in de autosupport naar de volgende regels. (Vetgedrukt)
- DD_RAID Histogram
DD_RAID Histogram for dg2 0xafc318cb033dc226 DG:dg2 UUID:0xafc318cb033dc226 MajorNr:61 MajorNrEx:62 GrpNr:10 State:Complete Status:Reassembled Index:0 Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:148681617408 Options:0x10000100 Type:StandAlone Primary Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS300198000G MG UUID:0x0 Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0xb6fbb5a5a61ecf9] Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [148681617408 sectors] ID[0xfb32c1339fafc87b]
- Storage Alles weergeven (deze opdracht kan ook worden uitgevoerd op de DD CLI)
dg2 2.1-2.3, 2.13-2.15, 2.25-2.27, 14 7.2 TiB 2.37-2.39, 2.49-2.50
- Disk Show Hardware (deze opdracht kan worden uitgevoerd op de DD CLI)
2.1 A0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R8GS 7.2 TiB SASe DG118000919 2.2 A1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4REMW 7.2 TiB SASe DG118000919 2.3 A2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4LM5C 7.2 TiB SASe DG118000919 2.13 B0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SMHX 7.2 TiB SASe DG118000919 2.14 B1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4RF04 7.2 TiB SASe DG118000919 2.15 B2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4QHQE 7.2 TiB SASe DG118000919 2.25 C0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4RE9Y 7.2 TiB SASe DG118000919 2.26 C1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4LMME 7.2 TiB SASe DG118000919 2.27 C2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4REW8 7.2 TiB SASe DG118000919 2.37 D0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SMHM 7.2 TiB SASe DG118000919 2.38 D1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4QHWR 7.2 TiB SASe DG118000919 2.39 D2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R862 7.2 TiB SASe DG118000919 2.49 E0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SSKK 7.2 TiB SASe DG118000919 2.50 E1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SV53 7.2 TiB SASe DG118000919 2.51 E2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R944 7.2 TiB SASe DG118000919
In het bovenstaande voorbeeld hebben de schijven CA01-firmware. Er moet een ondersteuningsaanvraag worden geopend zodat Dell Technologies kan helpen bij het onderbreken van de schijfgroep (dg2) met de ext3-array voordat de MDU-upgrade wordt toegepast.
Voor storage gemigreerde systemen is de array met ext3 mogelijk niet dg2. Zoek in de autosupport naar de volgende regels. (Vetgedrukt)
Licenses (STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS)
Licenses -------- System locking-id: APX00123456789 Licensing scheme: EMC Electronic License Management System (ELMS) node-locked mode Capacity licenses: ## Feature Shelf Model Capacity Type State Expiration Date Note -- --------------- ------------ ----------- --------- ------ --------------- ---- 1 CAPACITY-ACTIVE HIGH_DENSITY 1396.98 TiB permanent active n/a -- --------------- ------------ ----------- --------- ------ --------------- ---- Licensed Active Tier capacity: 1396.98 TiB* * Depending on the hardware platform, usable filesystem capacities may vary. Feature licenses: ## Feature Count Type State Expiration Date Note -- ---------------------------------------- ----- ---------- ------ --------------- --------------- 1 REPLICATION 1 permanent active n/a 2 VTL 1 permanent active n/a 3 DDBOOST 1 permanent active n/a 4 RETENTION-LOCK-GOVERNANCE 1 permanent active n/a 5 ENCRYPTION 1 permanent active n/a 6 I/OS 1 permanent active n/a 7 RETENTION-LOCK-COMPLIANCE 1 permanent active n/a 8 STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS 6 evaluation grace 2023-11-20 -- ---------------------------------------- ----- ---------- ------ --------------- --------------- License file last modified at : 2022/08/29 11:02:13.
- DD_RAID Histogram
DD_RAID Histogram for dg23 0x323d6b863ae21b8f DG:dg23 UUID:0x323d6b863ae21b8f MajorNr:61 MajorNrEx:62 GrpNr:18 State:Complete Status:Reassembled Index:0 Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:161373947904 Options:0x10000100 Type:StandAlone Primary Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS30021O001N MG UUID:0x0 Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0x16222e80737dc6bf] Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [161373947904 sectors] ID[0x8febacd8140b2c05]
Storage Show All (This command can be ran on the DD CLI)
dg23 6.1-6.3, 6.13-6.15, 6.25-6.27, 14 7.2 TiB 6.37-6.39, 6.49-6.50
Disk Show Hardware (This command can be ran on the DD CLI)
6.1 A0 HITACHI H04728T8CLAR8000 A430 VYH2S3SS 7.2 TiB SASe DG118000785 6.2 A1 HITACHI H04728T8CLAR8000 A430 VYH2RVSS 7.2 TiB SASe DG118000785 6.3 A2 HITACHI H04728T8CLAR8000 A430 VYH2K9KS 7.2 TiB SASe DG118000785 6.13 B0 HITACHI H04728T8CLAR8000 A430 VYH2JJBS 7.2 TiB SASe DG118000785 6.14 B1 HITACHI H04728T8CLAR8000 A430 VYH1Y83S 7.2 TiB SASe DG118000785 6.15 B2 HITACHI H04728T8CLAR8000 A430 VYH2RNGS 7.2 TiB SASe DG118000785 6.25 C0 HITACHI H04728T8CLAR8000 A430 VYH1DN8S 7.2 TiB SASe DG118000785 6.26 C1 HITACHI H04728T8CLAR8000 A430 VYH2124S 7.2 TiB SASe DG118000785 6.27 C2 HITACHI H04728T8CLAR8000 A430 VYH0ZM6S 7.2 TiB SASe DG118000785 6.25 C0 HITACHI H04728T8CLAR8000 A430 VYH1DN8S 7.2 TiB SASe DG118000785 6.26 C1 HITACHI H04728T8CLAR8000 A430 VYH2124S 7.2 TiB SASe DG118000785 6.27 C2 HITACHI H04728T8CLAR8000 A430 VYH0ZM6S 7.2 TiB SASe DG118000785 6.47 D10 HITACHI H04728T8CLAR8000 A430 VYH1XGJS 7.2 TiB SASe DG118000785 6.48 D11 HITACHI H04728T8CLAR8000 A430 VYH20VHS 7.2 TiB SASe DG118000785 6.49 E0 HITACHI H04728T8CLAR8000 A430 VYH2G5XS 7.2 TiB SASe DG118000785
Aangezien de schijven geen CA01- en CA02-firmware hebben, is een supportcase niet vereist. Ga naar stap 3 van de stappen voor de MDU-upgrade in het gedeelte "Resolution" hierboven.