PowerScale: Ovladač audit_flt v procesu SMB je ve stavu ZAVŘENO, což způsobuje nedostupnost uzlu
Shrnutí: V kódu systému OneFS 9.7 byl zjištěn problém, při kterém se ovladač auditu v procesu SMB (Server Message Block) nenačte správně. To může vést k nedostupnosti dat.
Příznaky
Tento problém se může týkat clusterů s úrovněmi kódu verze 9.7.1.0–9.7.1.7.
Hlavní příznaky jsou:
- Uživatelé SMB nemají přístup k některým nebo všem uzlům.
- Služba SMB na některých nebo všech uzlech vykazuje vysoký počet připojení v
CLOSEDStátu. Zatímco připojení vCLOSEDStav může nastat z různých důvodů, je to také příznak spojený s tímto konkrétním problémem. Chcete-li to zkontrolovat, použijte následující příkaz:
isi_for_array -X 'netstat -an | grep "\.445 " | grep CLOSED | wc -l' | sort -V
Měli byste očekávat, že uvidíte všechny '0' ve výstupu. Níže je uveden příklad clusteru, který vykazuje tento problém:
MyCluster-1# isi_for_array -X 'netstat -an | grep "\.445 " | grep CLOSED | wc -l' | sort -V
MyCluster-1: 208
MyCluster-2: 425
MyCluster-3: 2228
MyCluster-4: 146
MyCluster-5: 5284
MyCluster-6: 964
- V clusteru je povoleno auditování. Ověřte pomocí tohoto příkazu:
isi audit settings global view | grep "Protocol Auditing"
MyCluster-1# isi audit settings global view | grep "Protocol Auditing"
Protocol Auditing Enabled: Yes
- V clusteru je spuštěn dotčený kód (9.7.1.0–9.7.1.7):
Chcete-li jednoznačně zjistit, zda se tento problém vyskytuje ve vašem clusteru, vytvořte servisní požadavek na podporu společnosti Dell. Můžou pomoct prozkoumat výpis jádra SMB ze služby LWIO (Similar Input/Output).
Příčina
K tomuto problému dochází, protože proces SMB správně nenačte audit_flt ovladač při spuštění. K tomuto problému obvykle dochází při restartování služby SMB, například při upgradu kódu nebo převzetí služeb při selhání a navrácení služeb po obnovení mezi clustery. Může k tomu ale dojít, pokud se SMB z jakéhokoli důvodu restartuje.
Řešení
Problém vyřešíte restartováním služby SMB. Za normálních okolností by mělo stačit izolované restartování protokolu SMB:
MyCluster-1# killall -6 lwio
To lze provést na více uzlech pomocí isi_for_array.
Níže je uveden příklad restartování služby SMB na uzlech 1–4:
MyCluster-1# isi_for_array -n1-4 'killall -6 lwio'
Pokud se tím problém nezmírní, může být nutné restartovat protokol SMB a všechny závislosti:
MyCluster-1# /usr/likewise/bin/lwsm restart lwio
Opět to lze provést na více uzlech současně pomocí isi_for_array.
Níže je uveden příklad restartování zásobníku SMB na uzlech 1–4:
MyCluster-1# isi_for_array -n1-4 '/usr/likewise/bin/lwsm restart lwio'
Tento problém je vyřešen v kódu OneFS 9.7.1.8 a novějších.