PowerScale. Драйвер audit_flt в процессе SMB находится в состоянии выключения, что приводит к недоступности узла
Summary: В коде OneFS 9.7 была выявлена проблема, из-за которой драйвер аудита не загружался должным образом в процессе SMB. Это может привести к недоступности данных (DU).
Symptoms
Если в кластере используется код выпуска 9.7.1.0–9.7.1.6, эта проблема может повлиять на него. Основными симптомами являются:
- Пользователи SMB не могут получить доступ к некоторым или всем узлам.
- Сервис SMB на некоторых или всех узлах показывает большое количество подключений в закрытом состоянии. Хотя закрытые подключения могут возникать по разным причинам, они также являются симптомом, связанным с данной конкретной проблемой. Чтобы проверить это, используйте следующую команду:
isi_for_array -X 'netstat -an | grep "\.445 " | grep CLOSED | wc -l' | sort -V
Вы должны ожидать, что все «0» в выходных данных. Ниже приведен пример кластера, в котором наблюдается эта проблема:
MyCluster-1# isi_for_array -X 'netstat -an | grep "\.445 " | grep CLOSED | wc -l' | sort -V
MyCluster-1: 208
MyCluster-2: 425
MyCluster-3: 2228
MyCluster-4: 146
MyCluster-5: 5284
MyCluster-6: 964
- В кластере включен аудит. Проверьте с помощью этой команды:
isi audit settings global view | grep "Protocol Auditing"
MyCluster-1# isi audit settings global view | grep "Protocol Auditing"
Protocol Auditing Enabled: Yes
- В кластере выполняется затронутый код: 9.7.1.0–9.7.1.6
Чтобы окончательно определить, наблюдается ли эта проблема в кластере, отправьте сервисную заявку в службу поддержки Dell. Они могут помочь проверить дамп ядра SMB из службы LWIO.
Cause
Эта проблема возникает из-за того, что процесс SMB неправильно загружает файл audit_flt драйвер при запуске. Эта проблема обычно возникает при перезапуске службы SMB, например во время обновления кода или переключения при отказе и возврата к состоянию до сбоя между кластерами. Однако это может произойти при перезапуске SMB по любой причине.
Resolution
Чтобы устранить проблему, перезапустите службу SMB. В обычных условиях изолированного перезапуска SMB должно быть достаточно:
MyCluster-1# killall -6 lwio
Это можно сделать на нескольких узлах с помощью isi_for_array. Ниже приведен пример перезапуска службы SMB на узлах 1–4:
MyCluster-1# isi_for_array -n1-4 'killall -6 lwio'
Если это не устранит проблему, может потребоваться перезапустить SMB и все зависимости.
MyCluster-1# /usr/likewise/bin/lwsm restart lwio
Опять же, это можно сделать на нескольких узлах одновременно с помощью isi_for_array. Ниже приведен пример перезапуска стека SMB на узлах 1–4:
MyCluster-1# isi_for_array -n1-4 '/usr/likewise/bin/lwsm restart lwio'
Эта проблема устранена в коде OneFS 9.7.1.7 и более поздних версиях.