Data Domain: Useat asemat vikaantuvat HA-järjestelmien vikasietotilan aikana | CA01 CA02 -laiteohjelmisto-ongelma
Summary: Data Domain High Availability (HA) -palvelussa saattaa ilmetä asemavirheitä HA-vikasietotilan aikana tunnetun aseman laiteohjelmisto-ongelman vuoksi. Joissakin järjestelmissä tiedostojärjestelmä ei ehkä käynnisty vikasietoisuuden tai uudelleenkäynnistyksen jälkeen. ...
Symptoms
Komponenttivirhe rajoittuu 8 Tt:n asemiin, joiden laiteohjelmistoversiota on CA01 ja CA02. Yleensä ongelma koskee useita RAID-ryhmiä (levyryhmiä). Se voi olla yksi heikentynyt (yksi vika) tai kaksinkertainen (kaksi levyvikaa).
Järjestelmät, jotka eivät käynnisty uudelleen, kohtaavat tiedostojärjestelmän keskeytyksiä, mutta niiden pitäisi palautua itsestään. Useita levynsiirtoja käynnissä ja vireillä. Uudelleenkäynnistyviin järjestelmiin pakotetaan vikasietotila, joka saattaa juuttua tiedostojärjestelmään käynnistyksen aikana.
Koskee seuraavia:
- Vain DD9400- ja DD9900-mallit
- 8 Tt:n kiintolevy ulkoisissa tallennuskoteloissa, laiteohjelmistoversio (FW) CA01 tai CA02
Korjaus:
- Kiinteät DDOS-versiot: DDOS 7.11.x-, 7.10.1.0- ja 7.7.5.1-versioissa sekä uudemmissa on sisäinen CA04-laiteohjelmisto.
- Minimal Disruptive Upgrade (MDU) on saatavilla kaikille muille DDOS 7.x -versioille.
- Linkki MDU:hun: Lue minut + Lataa: DDOS 7.X -kiintolevyn laiteohjelmiston MDU (Minilyly Disruptive Upgrade) -paketti – marraskuu 2022 (Kirjaudu sisään rekisteröityneenä Dellin tukikäyttäjän edellytetään tarkastelevan asiakirjaa)
Huomautus: Tiedostojärjestelmä on poistettava käytöstä MDU:ta asennettaessa.
Levyvian oireet:
- Levylokien raportin seuranta-avain
4/0x29/0xcdkun teet SCSI WRITE -komennoncdb 0x8a, yksi kirjoituskomentovirhe aiheuttaa DD_RAID-moduulin levyvian.
Sep 16 06:17:59 DD9900 kernel: [11647695.019070] (E4)scsi16: (ffff88fe1522d800) (0/5/10000) chnl/tgt/lun 0/232/0 result 0x2, cdb 0x8a:00000001498b4728:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able Sep 16 06:20:58 DD9900 kernel: [11647874.161940] (E4)scsi16: (ffff88b96b72cc00) (1/5/10000) chnl/tgt/lun 0/246/0 result 0x2, cdb 0x8a:0000000149adb300:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able Sep 16 06:20:58 DD9900 kernel: [11647874.161997] (E4)scsi16: (ffff88b946a08e00) (1/5/10000) chnl/tgt/lun 0/237/0 result 0x2, cdb 0x8a:000000014a777478:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
- DD_RAID vikaantuu WRITE I/O -virheiden vuoksi.
Sep 16 06:17:59 DD9900 kernel: [11647695.020655] (E4)DD_RAID: Failing working disk [6.35 dm-27p3 WSD48SRA 254:3635] from DiskGroup dg19
Sep 16 06:20:59 DD9900 kernel: [11647875.122961] (E4)DD_RAID: Failing working disk [2.32 dm-25p3 WSD49GCR 254:403] from DiskGroup dg4
Sep 16 06:21:54 DD9900 kernel: [11647930.659786] (E4)DD_RAID: Failing working disk [2.39 dm-46p3 WSD48TEG 254:739] from DiskGroup dg2
Sep 16 06:21:58 DD9900 kernel: [11647934.612549] (E4)DD_RAID: Failing working disk [{*}6.43{*} dm-233p3 WSD49GG6 254:3731] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.363248] (E4)DD_RAID: Failing working disk [{*}6.21{*} dm-219p3 WSD47KYS 254:3507] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.477630] (E4)DD_RAID: Failing working disk [{*}6.5{*} dm-242p3 WSD4B13V 254:3875] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.651261] (E4)DD_RAID: Failing working disk [{*}6.18{*} dm-259p3 WSD47EWA 254:4147] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.726575] (E4)DD_RAID: Failing working disk [{*}6.15{*} dm-265p3 WSD49BGL 254:4243] from DiskGroup dg16
Sep 16 06:22:05 DD9900 kernel: [11647941.100980] (E4)DD_RAID: Failing working disk [{*}6.26{*} dm-257p3 WSD49ART 254:4115] from DiskGroup dg16
DDFS ei pysty käynnistämään oireita:
- ddfs.info alla olevat viestit koskevat pitkää aikaa DDFS-käynnistyksen aikana. Se ei etene, ennen kuin DDFS-prosessi on lopetettu pakottaen vikasietotilan vertaissolmuun.
09/15 21:49:21.962018 [a0cc980] SYSTEM_STARTUP: ===== completed <SegStore> - time (1663292961) ===== 09/15 21:49:21.962028 [a0cc980] SYSTEM_STARTUP: ===== starting <CC-Agent> - time (1663292961) ===== 09/15 21:57:11.699754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub 09/15 21:59:11.819754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub 09/15 22:01:11.939754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub ... 09/16 02:01:26.339755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub 09/16 02:03:26.459755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub 09/16 02:05:26.579755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
Cause
Levyn vikatilan perimmäinen syy:
Aseman DRAM-välimuistipuskuri saa väärän tiedon eheysvirheen satunnaisen I/O-kuormituksen aikana. Aseman valmistaja on toimittanut laiteohjelmistokorjauksen ongelman korjaamiseksi.
Resolution
Kiertotapa
Jos järjestelmä on käynnistynyt uudelleen tai vikasietoisuus on tapahtunut, DD_RAID kyky "failback" Vialliset asemat eivät ole vaihtoehto. Salli tässä tapauksessa perinteisten levyjen uudelleenmuodostusten (pariteetti) valmistuminen. Poista GC käytöstä, kunnes kaikki levyn uudelleenmääritykset on suoritettu. Jos tiedostojärjestelmän käynnistymisessä on ongelmia uudelleenkäynnistyksen tai vikasietotilan jälkeen, ota yhteys DDFS:n TSE-testiin ennen DDFS-prosessin lopettamista.
Jos uudelleenkäynnistystä tai vikasietoa ei ole tapahtunut, DD_RAID voi "failback" Rakenna vialliset levyt uudelleen. Tämä on manuaalinen toimenpide, jossa käytetään "dd_raidtool" bashissa. Ennen kuin levyn vikasietoisuus aloitetaan, vialliset levypaikat on käynnistettävä uudelleen. Ota yhteys Dellin tekniseen tukeen .
Käytännön kokemuksen perusteella salli yli 50 %:n levykoontiversioiden valmistuminen vikasietorekonstruktioon siirtymisen sijaan.
Kun kaikki uudelleenluonnit on tehty, edelleen vikaantuneet asemat voivat olla "unfailed", jos niiden vastaavat lähtö- ja saapumisajat on kytketty päälle.
Korjaus
Levyn laiteohjelmistoversio CA04 on nyt saatavilla MDU-korjauksena DDOS-päivityspaketin muodossa. Pyydä RPM-kopio tuesta. Se sijaitsee /auto/cores/drive-firmware-rpm/drive-firmware-CA04.rpm.
Usein kysytyt kysymykset:
- Voiko päivityksen tehdä Data Domain -tiedostojärjestelmällä verkossa?
Ei, DDFS:n on oltava offline|poissa käytöstä laiteohjelmistopäivityksen aikana. - Tarvitaanko uudelleenkäynnistys?
Ei, uudelleenkäynnistystä ei tarvita. - Voiko laiteohjelmistoa käyttää passiivisessa solmussa?
Ei, sitä ei voi käyttää passiivisessa solmussa. Se on suoritettava vain aktiivisessa solmussa. - Kuinka kauan laiteohjelmiston laiteohjelmiston CA04.RPM-päivitys kestää 180–240 (4-DS60) -asemassa?
Päivitys on rinnakkaistilassa. Se kestää 10–15 minuuttia, jos ongelmia ei ole. - Jos kaikkia asemia ei päivitetä, päivittääkö järjestelmä automaattisesti muut kuin CA04-asemat?
Ei, päivitys on suoritettava uudelleen tai se voidaan tehdä manuaalisesti. Katso "Lisätiedot" alla. - Onko heidän käytettävä tätä laiteohjelmisto-laiteohjelmisto-CA04? RPM-korjaustiedosto myös muissa NON-HA DD: issä, koska niissä voi olla asemat myös vanhemmassa laiteohjelmistossa?
Suosittelemme asentamaan laiteohjelmiston CA04.RPM-tiedoston myös sellaisiin EI-HA-DD:ihin, joissa on 8 Tt:n asemat. - Jos asema vikaantuu päivityksen aikana, voiko se kumota?
Jos asema vioittuu ennen laiteohjelmistopäivitystä tai sen aikana, tarkista levyltä virhehistoria (esimerkiksi "disk show reliability -data"). Jos levyllä on virheitä, sen on pysyttävä vioittuneena ja se on vaihdettava. Jos levyllä ei ole virheitä, suorita komento disk unfail <disk.id>, joka kumoaa aseman ja tekee siitä varalevyn. Jos vikaantunut asema korvataan asemalla, jossa on vanhempi CA01-/CA02-aseman laiteohjelmisto, asema on päivitettävä manuaalisesti. Katso alta kohta "Vaihtoasemien manuaalinen päivittäminen" alla olevasta lisäosiosta. - Miksi levyryhmän 2 (dg2) toiminta on keskeytettävä, vaikka DDFS olisi poissa käytöstä?
DDOS:lla on edelleen pääsy dg2:ssa oleviin EXT3-kiinnikkeisiin.
MDU-paketin käyttöönotto:
- Muodosta yhteys HA-järjestelmän aktiiviseen solmuun. Päivitys ei toimi passiivisesta solmusta tai valmiustilasta.
- Ajoita käyttökatko käyttäjän kanssa, koska DDFS on poistettava käytöstä laiteohjelmistopäivityksen aikana. Tarkista nykyiset hälytykset ja vastaa niihin tarvittaessa seuraavilla komennoilla. Pysäytä puhdistus, jos se on käynnissä. Poista tiedostojärjestelmä käytöstä.
# alerts show current# filesys clean status# filesys clean stop# filesys disable - Tarkista hakemistoon >=dg2 kuuluvien CA01-/CA02-levyjen automaattinen tuki järjestelmille, joihin ei ole tehty tallennustilan siirtoa. Järjestelmissä, joissa on tapahtunut tallennustilan siirto, levyryhmä, jossa on ext3-levyjärjestelmiä, ei ehkä ole dg2.
Hae ext3. Siinä näkyy dgXX DD_RAID histogrammi, jossa XX on pääosaston numero. Katso esimerkki alla olevasta Lisätiedot-osiosta. Jos dg2-/dgXX-levyillä on CA01/C02-laiteohjelmisto, levyjärjestelmä on keskeytettävä tilapäisesti MDU-päivityksen ajaksi. Jos näin ei tehdä, seurauksena voi olla uusi virhe, jos kaikkea levyryhmän I/O-toimintaa ei keskeytetä. Avaa tukipyyntö, jos tarvitset apua levyryhmän toiminnan keskeyttämiseen. Jos dg2/dgXX ei sisällä CA01-/CA02-levyjä, tukitapausta ei tarvita. Siirry vaiheeseen 4. - Lataa
drive-firmware-CA04.rpmDD System Manager -käyttöliittymässä. - Päivitä levyt. Suorita seuraava komento ja odota, että se on valmis.
# system upgrade start drive-firmware-CA04.rpm" - Odota ~10 minuuttia.
- Varmista, että kaikki levyt on päivitetty. Jos levyillä on edelleen CA01-/CA02-laiteohjelmisto, toista vaiheet 5 ja 6.
# disk show hardware - Tarkista levyn nykyinen tila. Jos levyvirheitä on useita, ota yhteyttä tukeen. Jos yksittäisessä levyssä ilmenee vika, tarkista levyltä virhehistoria, ja jos virheitä ei ole, poista levyn vikaantuminen.
# disk unfail <disk.id> - Tarkista hälytykset ja ota DDFS käyttöön.
# alerts show current# filesys enable
Additional Information
Sellaisten dg2/dgXX-levyjen tarkistaminen, joissa on ext3-ryhmä ja CA01/CA02-laiteohjelmisto.
Jos järjestelmässä ei ole tallennustilaa, dg2:ssa on ext3-levyjärjestelmät.
Hae seuraavia rivejä automaattisesta tuesta. (lihavoitu)
- DD_RAID histogrammi
DD_RAID Histogram for dg2 0xafc318cb033dc226 DG:dg2 UUID:0xafc318cb033dc226 MajorNr:61 MajorNrEx:62 GrpNr:10 State:Complete Status:Reassembled Index:0 Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:148681617408 Options:0x10000100 Type:StandAlone Primary Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS300198000G MG UUID:0x0 Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0xb6fbb5a5a61ecf9] Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [148681617408 sectors] ID[0xfb32c1339fafc87b]
- Tallennustila Näytä kaikki (tämän komennon voi suorittaa myös DD-komentoriviliittymässä)
dg2 2.1-2.3, 2.13-2.15, 2.25-2.27, 14 7.2 TiB 2.37-2.39, 2.49-2.50
- Disk Show Hardware (komennon voi suorittaa DD-komentoriviliittymässä)
2.1 A0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R8GS 7.2 TiB SASe DG118000919 2.2 A1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4REMW 7.2 TiB SASe DG118000919 2.3 A2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4LM5C 7.2 TiB SASe DG118000919 2.13 B0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SMHX 7.2 TiB SASe DG118000919 2.14 B1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4RF04 7.2 TiB SASe DG118000919 2.15 B2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4QHQE 7.2 TiB SASe DG118000919 2.25 C0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4RE9Y 7.2 TiB SASe DG118000919 2.26 C1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4LMME 7.2 TiB SASe DG118000919 2.27 C2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4REW8 7.2 TiB SASe DG118000919 2.37 D0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SMHM 7.2 TiB SASe DG118000919 2.38 D1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4QHWR 7.2 TiB SASe DG118000919 2.39 D2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R862 7.2 TiB SASe DG118000919 2.49 E0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SSKK 7.2 TiB SASe DG118000919 2.50 E1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SV53 7.2 TiB SASe DG118000919 2.51 E2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R944 7.2 TiB SASe DG118000919
Edellä olevassa esimerkissä asemissa on CA01-laiteohjelmisto. Tukipyyntö on avattava, jotta Dell Technologies voi auttaa ext3-järjestelmän sisältävän levyryhmän (dg2) keskeyttämisessä ennen MDU-päivityksen asentamista.
Siirretyissä tallennusjärjestelmissä levyjärjestelmä, joka sisältää ext3:n, ei ehkä ole dg2. Hae seuraavia rivejä automaattisesta tuesta. (Lihavoitu)
Licenses (STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS)
Licenses -------- System locking-id: APX00123456789 Licensing scheme: EMC Electronic License Management System (ELMS) node-locked mode Capacity licenses: ## Feature Shelf Model Capacity Type State Expiration Date Note -- --------------- ------------ ----------- --------- ------ --------------- ---- 1 CAPACITY-ACTIVE HIGH_DENSITY 1396.98 TiB permanent active n/a -- --------------- ------------ ----------- --------- ------ --------------- ---- Licensed Active Tier capacity: 1396.98 TiB* * Depending on the hardware platform, usable filesystem capacities may vary. Feature licenses: ## Feature Count Type State Expiration Date Note -- ---------------------------------------- ----- ---------- ------ --------------- --------------- 1 REPLICATION 1 permanent active n/a 2 VTL 1 permanent active n/a 3 DDBOOST 1 permanent active n/a 4 RETENTION-LOCK-GOVERNANCE 1 permanent active n/a 5 ENCRYPTION 1 permanent active n/a 6 I/OS 1 permanent active n/a 7 RETENTION-LOCK-COMPLIANCE 1 permanent active n/a 8 STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS 6 evaluation grace 2023-11-20 -- ---------------------------------------- ----- ---------- ------ --------------- --------------- License file last modified at : 2022/08/29 11:02:13.
- DD_RAID histogrammi
DD_RAID Histogram for dg23 0x323d6b863ae21b8f DG:dg23 UUID:0x323d6b863ae21b8f MajorNr:61 MajorNrEx:62 GrpNr:18 State:Complete Status:Reassembled Index:0 Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:161373947904 Options:0x10000100 Type:StandAlone Primary Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS30021O001N MG UUID:0x0 Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0x16222e80737dc6bf] Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [161373947904 sectors] ID[0x8febacd8140b2c05]
Storage Show All (This command can be ran on the DD CLI)
dg23 6.1-6.3, 6.13-6.15, 6.25-6.27, 14 7.2 TiB 6.37-6.39, 6.49-6.50
Disk Show Hardware (This command can be ran on the DD CLI)
6.1 A0 HITACHI H04728T8CLAR8000 A430 VYH2S3SS 7.2 TiB SASe DG118000785 6.2 A1 HITACHI H04728T8CLAR8000 A430 VYH2RVSS 7.2 TiB SASe DG118000785 6.3 A2 HITACHI H04728T8CLAR8000 A430 VYH2K9KS 7.2 TiB SASe DG118000785 6.13 B0 HITACHI H04728T8CLAR8000 A430 VYH2JJBS 7.2 TiB SASe DG118000785 6.14 B1 HITACHI H04728T8CLAR8000 A430 VYH1Y83S 7.2 TiB SASe DG118000785 6.15 B2 HITACHI H04728T8CLAR8000 A430 VYH2RNGS 7.2 TiB SASe DG118000785 6.25 C0 HITACHI H04728T8CLAR8000 A430 VYH1DN8S 7.2 TiB SASe DG118000785 6.26 C1 HITACHI H04728T8CLAR8000 A430 VYH2124S 7.2 TiB SASe DG118000785 6.27 C2 HITACHI H04728T8CLAR8000 A430 VYH0ZM6S 7.2 TiB SASe DG118000785 6.25 C0 HITACHI H04728T8CLAR8000 A430 VYH1DN8S 7.2 TiB SASe DG118000785 6.26 C1 HITACHI H04728T8CLAR8000 A430 VYH2124S 7.2 TiB SASe DG118000785 6.27 C2 HITACHI H04728T8CLAR8000 A430 VYH0ZM6S 7.2 TiB SASe DG118000785 6.47 D10 HITACHI H04728T8CLAR8000 A430 VYH1XGJS 7.2 TiB SASe DG118000785 6.48 D11 HITACHI H04728T8CLAR8000 A430 VYH20VHS 7.2 TiB SASe DG118000785 6.49 E0 HITACHI H04728T8CLAR8000 A430 VYH2G5XS 7.2 TiB SASe DG118000785
Koska asemissa ei ole CA01- ja CA02-laiteohjelmistoa, tukipyyntöä ei tarvita. Siirry MDU-päivityksen vaiheiden vaiheeseen 3 yllä olevassa Ratkaisu-osiossa.