Noder kan krascha med FAILED ASSERTION när de inte avkodar kvot- eller snapshotattribut från tilläggsblock efter uppgradering till OneFS 9.2.0.0 eller 9.2.1.0
Sammanfattning: Noder kan krascha med FAILED ASSERTION när de inte avkodar kvot- eller snapshotattribut från tilläggsblock efter uppgradering till OneFS 9.2.0.0 eller 9.2.1.0.
Symptom
Noder kan krascha med samma eller liknande panikstack:
panic @ time 1622753124.594, tråd 0xfffffe86de1deb00: Assertion Failuretime
= 1622753124
cpuid = 3, TSC = 0x114d3cfdc35dc80
Panic occurred in module kernel loaded at 0xffffffff80200000:
Stack:
--------------------------------------------------kernel:isi_assert_halt+0x2e
kernel:ifm_get_quota_gov+0x188
kernel:quota_gov_need_update+0x141
kernel:quota_scan_file+0x188
kernel:_sys_ifs_quota_scan_file+0x1fd
kernel:amd64_syscall+0x380 amd64_syscall+0x188
nel:--------------------------------------------------
*** FAILED ASSERTION decode @ /b/mnt/src/sys/ifs/ifm/ifm_dinode.c:3537: failed to decode quota governance attribute for lin 1:1797:9acf. Ändra format på disken?
Eller
panic @ time 1625264072.183, tråd 0xfffffe8688a2c080: Assertion Failuretime
= 1625264072
cpuid = 0, TSC = 0x395c9046b59119
Panic occurred in module kernel loaded at 0xffffffff80200000:
Stack:
--------------------------------------------------kernel:isi_assert_halt+0x2e
kernel:ifm_getsnapids+0xdd
kernel:validate_inode_snapid+0x4ad
kernel:revalidate_inode_contents+0x2cb
kernel:bam_update_inode_hint+0x14fd
kernel:bam_vget_stream_valid_pref_hint+0x11b
kernel:bam_vget_valid+0x21
kernel:bam_getparents+0x1ae
kernel:_sys_pctl2_lin_get_path_plus+0x6c3
kernel:amd64_syscall+0x380
--------------------------------------------------
FAILED ASSERTION num_snapids * sizeof(snapids->snapids[0]) == inattr_size(attr) @ /b/mnt/src/sys/ifs/ifm/ifm_dinode.c:2598:
Paniken kan inträffa när ett QuotaScan-, SnapshotDelete-, SmartPools- eller SmartPoolsTree-jobb körs.
Vi kan också se indata/utdata-fel när du läser eller ändrar attribut för vissa filer som har tilläggsblock.
Orsak
Inod-versionen har uppgraderats till version 8, och tilläggsblockversionen bör uppgraderas även efter uppgradering till OneFS 9.2.0.0 (version B_9_2_0_002) eller 9.2.1.0 (version B_9_2_1_002).
Men på grund av felet PSCALE-107686 uppgraderas inte vissa tilläggsblock och kunde inte avkodas korrekt.
Upplösning
! Viktig uppdatering den 21 jun 2021!
Uppgradering till OneFS 9.2.x är aktivt och RUP har släppts nedan.
9.2.1.1_GA-RUP_2021-06_PSP-1313.tgz
9.2.0.1_GA-RUP_2021-06_PSP-1322.tgzFör
kunder som planerar en uppgradering till 9.2.x uppgraderar du till 9.2.1.1 eller 9.2.0.1 som medföljer ovanstående RUP.
För kunder som har uppgraderat till OneFS 9.2.0.0 eller 9.2.1.0 föreslår vi att du inaktiverar följande jobb och håller dem inaktiverade tills IntegrityScan kan köras:
– AutoBalance
- AutoBalanceLin
- FilePolicy
- FlexProtect
- FlexProtectLin
- MultiScan
- MediaScan
- SetProtectPlus
- ShadowStoreProtect
- SmartPools
- SmartPoolsTree
- QuotaScan
- Upgrade
- CollectBefore
disabling these jobs, get a copy of current job status (om vissa jobb inaktiverades tidigare av andra skäl vill vi inte aktivera dem):
# isi jobbtyper lista
Avaktivera ovanstående jobb:
# för jobName i {AutoBalance,AutoBalanceLin,FilePolicy,FlexProtect,FlexProtectLin,MultiScan,MediaScan,SetProtectPlus,ShadowStoreProtect,SmartPools,SmartPoolsTree,QuotaScan,Upgrade,Collect}; gör isi-jobbtyper ändra $jobName --enabled false --force; Gjort
Om noder kraschar kan jobbmotorn avaktiveras tills RUP har installerats:
# isi services -a isi_job_d disable (isi-tjänster) – avaktivera isi_job_d
När RUP har installerats kan jobbmotorn aktiveras igen:
# isi services -a isi_job_d enable
De ovan angivna jobben måste vara inaktiverade nu. Kontakta Isilon-supporten för att få ytterligare hjälp.
Viktig information:
Vi kan inte reparera felaktiga enheter efter att Flexprotect och FlexProtectLin har inaktiverats. Om någon enhet ligger nere (kontrollera med kommandot "isi_group_info" kontaktar du ISILON-supporten så snart som möjligt.
Vi kan inte migrera data mellan nivåer eller nodpooler eftersom SmartPools-jobbet är inaktiverat. Åtgärd krävs för att övervaka kapacitetsanvändningen för varje nodpool.
Om något av dem närmar sig fullt ut kontaktar du ISILON-supporten så snart som möjligt.