PowerScale: Den audit_flt driveren i SMB-prosessen er i avslutningstilstand, noe som forårsaker node DU
Summary: Det ble identifisert et problem med OneFS 9.7-koden der overvåkingsdriveren ikke lastes inn på riktig måte i SMB-prosessen. Dette kan føre til at data blir utilgjengelig (DU).
Symptoms
Hvis klyngen har utgivelseskoden 9.7.1.0 - 9.7.1.6, kan dette problemet påvirke den. De viktigste symptomene er:
- SMB-brukere får ikke tilgang til noen eller alle noder.
- SMB-tjenesten på noen eller alle noder viser et høyt antall tilkoblinger i lukket tilstand. Mens tilkoblinger i lukket tilstand kan oppstå på grunn av forskjellige årsaker, er det også et symptom forbundet med dette spesifikke problemet. For å sjekke dette, bruk følgende kommando:
isi_for_array -X 'netstat -an | grep "\.445 " | grep CLOSED | wc -l' | sort -V
Du bør forvente å se alle '0' i utdataene. Nedenfor er et eksempel på en klynge som viser dette problemet:
MyCluster-1# isi_for_array -X 'netstat -an | grep "\.445 " | grep CLOSED | wc -l' | sort -V
MyCluster-1: 208
MyCluster-2: 425
MyCluster-3: 2228
MyCluster-4: 146
MyCluster-5: 5284
MyCluster-6: 964
- Overvåking er aktivert i klyngen. Sjekk med denne kommandoen:
isi audit settings global view | grep "Protocol Auditing"
MyCluster-1# isi audit settings global view | grep "Protocol Auditing"
Protocol Auditing Enabled: Yes
- Klyngen kjører den berørte koden: 9.7.1.0 - 9.7.1.6
For å finne ut om klyngen din har dette problemet, sender du en serviceforespørsel til Dell Support. De kan hjelpe til med å undersøke SMB-kjernedumpen fra LWIO-tjenesten.
Cause
Dette problemet oppstår fordi SMB-prosessen ikke laster inn på riktig måte audit_flt driver ved oppstart. Dette problemet utløses vanligvis når SMB-tjenesten startes på nytt, for eksempel under en kodeoppgradering eller failover og failback mellom klynger. Det kan imidlertid skje hvis SMB startes på nytt av en eller annen grunn.
Resolution
Start SMB-tjenesten på nytt for å løse problemet. Under normale omstendigheter bør en isolert SMB-omstart være tilstrekkelig:
MyCluster-1# killall -6 lwio
Dette kan gjøres på flere noder med isi_for_array. Nedenfor er et eksempel på omstart av SMB-tjenesten på nodene 1-4:
MyCluster-1# isi_for_array -n1-4 'killall -6 lwio'
Hvis dette ikke lindrer problemet, kan det være nødvendig å starte SMB og alle avhengigheter på nytt:
MyCluster-1# /usr/likewise/bin/lwsm restart lwio
Igjen, dette kan gjøres på flere noder samtidig ved hjelp av isi_for_array. Nedenfor er et eksempel på omstart av SMB-stakken på nodene 1-4:
MyCluster-1# isi_for_array -n1-4 '/usr/likewise/bin/lwsm restart lwio'
Dette problemet løses i OneFS 9.7.1.7-koden og nyere.