PowerScale OneFS 9.10: Harvinaisia suorituskykyongelmia SnapshotDelete-työn suorittamisen aikana
Summary: OneFS 9.10- tai 9.11-versioon päivitetyissä klustereissa saattaa ilmetä suorituskykyongelmia suoritettaessa SnapshotDelete-työtä, jos tallennusvarantoja on useita.
Symptoms
Klustereissa, joissa on vähintään kaksi solmuvarantoa ja jotka on päivitetty OneFS 9.10 -versioon tai uudempaan versioon, voi ilmetä suorituskykyongelmia aina, kun SnapshotDelete Työ on käynnissä. Keskeytetään SnapshotDelete Työ tuo välitöntä helpotusta, mutta ongelma palaa, kun työtä jatketaan.
Klustereissa, joiden tilannevedoksien vanhentumispäivä on pitkä, ongelma saattaa ilmetä vasta useita viikkoja tai kuukausia OneFS-päivityksen jälkeen.
Lokit ja Hangdumps Näytä työmoottori (isi_job_d) SnapshotDelete Työsäie, jossa on LIN-lukko ja esimerkin kaltainen pinon jäljitys:
77886 isi_job_d:
...
thread 100637: je_worker_main at 0xfffffe8b55ea95c0 in state "running":
On cpu 5 for 3 ticks
Stack: --------------------------------------------------
kernel:btree_leaf_check_prefetch+0xde
kernel:btree_leaf_get_entry+0x349
kernel:stf_is_fake_entry+0x41
kernel:stf_iterate_block+0x66
kernel:ifs_snap_get_lins_helper+0xac
kernel:_sys_ifs_snap_get_lins+0x279
kernel:amd64_syscall+0x7b0
--------------------------------------------------
Cause
OneFS 9.10 lisää Illogical Logical iNodes (LIN) -solmut STF (Snapshot Tracking Files) -tiedostoihin. Tämä lisättiin tukemaan uutta ominaisuutta, MetadataIQ:ta. STF on erityinen tiedostotyyppi, jolla on useita ainutlaatuisia ominaisuuksia ja joka liittyy tilannevedosten koko elinkaareen, mukaan lukien tilannevedosten luominen, tallentaminen, muuttaminen ja poistaminen.
Kun tietoja siirretään eri varantojen välillä, epäloogiset LIN: t lisätään STF: ään ja voivat vähitellen kasvaa. Suorituskykyongelmia ilmenee, kun tilannevedokset ovat vanhentuneet ja niitä poistetaan, ja tilannevedoksen STF:ssä on liian monta epäloogista LIN-tunnusta.
Miten määritetään, onko klusteri vaarassa tässä ongelmassa?
Seuraavat ehdot täyttävillä klustereilla on suurempi riski saada tämä ongelma, jos ne päivitetään OneFS 9.10- tai 9.11-versioon.
- SnapshotIQ on lisensoitu ja käytössä. Klusterissa luodaan tilannevedoksia, jotka ovat vanhentuneet.
- Klusteri sisältää useita solmuvarantoja.
Resolution
Pysyvä ratkaisu:
Päivitä johonkin näistä OneFS-versioista tai uudempaan, joka sisältää korjauksen:
- OneFS 9.10.1.4, PSP-4686 MR:[9.10.1.4_GA-MR][Useita ytimen ja käyttäjätilan korjauksia](lokakuu 2025)
- OneFS 9.11.0.5, PSP-4681 MR:[9.11.0.5_GA-MR][Useita ytimen ja käyttäjätilan korjauksia](syyskuu 2025)
Tilapäisratkaisu:
Ennen kuin pysyvä ratkaisu on käytössä, on käytettävä seuraavaa kiertotapaa:
Poista epäloogiset LIN-tunnukset käytöstä koko klusterissa seuraavalla asetusmuutoksella.
isi_sysctl_cluster efs.snapshot.stf_populate_illogical_lin_enabled=0
OneFS 9.10 -versioon päivitetyt klusterit, joissa on suorituskykyongelmia:
Peruuta ja poista käytöstä
SnapshotDelete työ tietojen käytettävyysongelman (DU) välttämiseksi. Ota sitten yhteyttä Dellin tekniseen tukeen , jos tarvitset apua epäloogisia LIN-tunnuksia sisältävien tilannevedosten poistamisessa.
Juoksun peruuttaminen
SnapshotDelete työ:
isi job cancel snapshotdelete
Voit poistaa SnapshotDelete työ:
isi job types modify snapshotdelete --enabled=false
SnapshotDelete Liian pitkäksi aikaa poissa käytöstä ollut työ voi aiheuttaa levytilan kapasiteettiongelmia. Dellin tekniseen tukeen on otettava yhteyttä mahdollisimman pian, jotta se auttaa poistamaan epäloogisia LIN-tunnuksia sisältävät tilannevedokset manuaalisesti ennen SnapshotDelete Työ on otettu uudelleen käyttöön.