Шкала потужності: Драйвер audit_flt у процесі SMB перебуває в стані вимкнення, що спричиняє вузол DU
Summary: У коді OneFS 9.7 виявлено проблему, через яку драйвер аудиту не завантажується належним чином у процесі SMB. Це може призвести до недоступності даних (DU).
Symptoms
Якщо кластер використовує код релізу 9.7.1.0 - 9.7.1.6, ця проблема може вплинути на нього. Основними симптомами є:
- Користувачі малого та середнього бізнесу не можуть отримати доступ до деяких або всіх вузлів.
- Сервіс SMB на деяких або всіх вузлах показує велику кількість з'єднань у закритому стані. Хоча з'єднання в закритому стані можуть виникати з різних причин, це також є симптомом, пов'язаним з цією конкретною проблемою. Щоб перевірити це, скористайтеся наступною командою:
isi_for_array -X 'netstat -an | grep "\.445 " | grep CLOSED | wc -l' | sort -V
Ви повинні очікувати побачити всі '0' на виході. Нижче наведено приклад кластера, що демонструє цю проблему:
MyCluster-1# isi_for_array -X 'netstat -an | grep "\.445 " | grep CLOSED | wc -l' | sort -V
MyCluster-1: 208
MyCluster-2: 425
MyCluster-3: 2228
MyCluster-4: 146
MyCluster-5: 5284
MyCluster-6: 964
- На кластері ввімкнено аудит. Перевірте за допомогою цієї команди:
isi audit settings global view | grep "Protocol Auditing"
MyCluster-1# isi audit settings global view | grep "Protocol Auditing"
Protocol Auditing Enabled: Yes
- Ваш кластер використовує відповідний код: 9.7.1.0 - 9.7.1.6
Щоб остаточно визначити, чи стикається ваш кластер із цією проблемою, надішліть запит на обслуговування до служби підтримки Dell. Вони можуть допомогти перевірити дамп ядра SMB зі служби LWIO.
Cause
Ця проблема виникає через те, що процес SMB не завантажує належним чином файл audit_flt драйвер під час запуску. Ця проблема зазвичай виникає під час перезапуску служби SMB, наприклад під час оновлення коду або відновлення після відмови та відмови між кластерами. Однак це може статися, якщо SMB перезавантажити з будь-якої причини.
Resolution
Щоб вирішити цю проблему, перезапустіть службу малого та середнього бізнесу. За звичайних обставин ізольованого перезапуску SMB має бути достатньо:
MyCluster-1# killall -6 lwio
Це можна зробити на кількох вузлах за допомогою isi_for_array. Нижче наведено приклад перезапуску служби SMB на вузлах 1-4:
MyCluster-1# isi_for_array -n1-4 'killall -6 lwio'
Якщо це не вирішить проблему, можливо, доведеться перезапустити SMB та всі залежності:
MyCluster-1# /usr/likewise/bin/lwsm restart lwio
Знову ж таки, це можна зробити на кількох вузлах одночасно за допомогою isi_for_array. Нижче наведено приклад перезапуску стека SMB на вузлах 1-4:
MyCluster-1# isi_for_array -n1-4 '/usr/likewise/bin/lwsm restart lwio'
Цю проблему вирішено в коді OneFS 9.7.1.7 і пізніших версіях.