PowerScale: Ovladač audit_flt v procesu SMB je ve vypnutém stavu, což způsobuje DU uzlu
Summary: V kódu systému OneFS 9.7 byl zjištěn problém, při kterém se v procesu SMB správně nenačte ovladač auditu. To může vést k nedostupnosti dat (DU).
Symptoms
Pokud cluster používá kód verze 9.7.1.0–9.7.1.6, může jej tento problém ovlivnit. Hlavní příznaky jsou:
- Uživatelé SMB nemají přístup k některým nebo všem uzlům.
- Služba SMB na některých nebo všech uzlech zobrazuje vysoký počet připojení v uzavřeném stavu. I když k připojení v uzavřeném stavu může dojít z různých důvodů, je to také příznak spojený s tímto konkrétním problémem. Chcete-li to zkontrolovat, použijte následující příkaz:
isi_for_array -X 'netstat -an | grep "\.445 " | grep CLOSED | wc -l' | sort -V
Měli byste očekávat, že se ve výstupu zobrazí všechny "0". Níže je uveden příklad clusteru, který vykazuje tento problém:
MyCluster-1# isi_for_array -X 'netstat -an | grep "\.445 " | grep CLOSED | wc -l' | sort -V
MyCluster-1: 208
MyCluster-2: 425
MyCluster-3: 2228
MyCluster-4: 146
MyCluster-5: 5284
MyCluster-6: 964
- V clusteru je povoleno auditování. Zkontrolujte pomocí tohoto příkazu:
isi audit settings global view | grep "Protocol Auditing"
MyCluster-1# isi audit settings global view | grep "Protocol Auditing"
Protocol Auditing Enabled: Yes
- Ve vašem clusteru je spuštěn ovlivněný kód: 9.7.1.0–9.7.1.6
Chcete-li jednoznačně zjistit, zda se tento problém vyskytuje ve vašem clusteru, vytvořte servisní požadavek na podporu společnosti Dell. Můžou pomoct prozkoumat výpis jádra SMB ze služby LWIO.
Cause
K tomuto problému dochází, protože proces SMB správně nenačte audit_flt ovladač při spuštění. K tomuto problému obvykle dochází při restartování služby SMB, například při upgradu kódu nebo převzetí služeb při selhání a navrácení služeb po obnovení mezi clustery. Může k tomu ale dojít, pokud se SMB z jakéhokoli důvodu restartuje.
Resolution
Problém vyřešíte restartováním služby SMB. Za normálních okolností by mělo stačit izolované restartování protokolu SMB:
MyCluster-1# killall -6 lwio
To lze provést na více uzlech pomocí isi_for_array. Níže je uveden příklad restartování služby SMB na uzlech 1–4:
MyCluster-1# isi_for_array -n1-4 'killall -6 lwio'
Pokud se tím problém nezmírní, může být nutné restartovat protokol SMB a všechny závislosti:
MyCluster-1# /usr/likewise/bin/lwsm restart lwio
Opět to lze provést na více uzlech současně pomocí isi_for_array. Níže je uveden příklad restartování zásobníku SMB na uzlech 1–4:
MyCluster-1# isi_for_array -n1-4 '/usr/likewise/bin/lwsm restart lwio'
Tento problém je vyřešen v kódu OneFS 9.7.1.7 a novějších.