Dell Unity: SP можуть перейти в сервісний режим через роздуваність журналів (розділ /nbsnas стає повністю заповненим)
Summary: Масив може перейти в режим обслуговування (дані недоступні) через роздуваність журналу (Dell Correctable)
Symptoms
Для подвійних SP-масивів один SP системи зберігання переходить у сервісний режим, і вся система не може керуватися через інтерфейси управління, включно з CLI, UI, REST API та SMI-S. Це також може проявлятися у вигляді перезавантаження SP по черзі, доки обидва SP не перейдуть у сервісний режим.
Масив Unity з обома SP у сервісному режимі не обслуговує I/O, тому це була б ситуація Data Unavailable (DU).
Для VSA один SP може перезавантажуватися в сервісному режимі або залишатися в нормальному режимі, втрачаючи керування в будь-якому випадку.
Вся система не може працювати через інтерфейси управління, включно з CLI, UI, REST API та SMI-S.
SSH або IPMI мають працювати. IPMI працює завжди, SSH може працювати лише після стабілізації масиву.
Ця проблема зустрічається у версії OE 4.0.0.x і виправлена у версії OE 4.0.1.x.
Cause
Файл журналу /nbsnas/http/logs/mod_jk.log, який фіксує кожен запит з UI та REST, зберігається у файловій системі, змонтованій на /nbsnas основного SP. Без механізму обертання логарифму роздутість цього файлу продовжує займати вільний простір файлової системи. Інші всередині споживачі починають виходити з ладу, коли у файловій системі не залишається вільного місця. Один із SP переходить у сервісний режим, коли виявляє повторні відмови цих компонентів.
У лабораторії було виявлено, що коли це трапляється і сервіси намагаються переключитися на вторинний СП, він також відчуває ті ж симптоми. SP перезавантажуються кілька разів по черзі, і зрештою обидва переходять у сервісний режим.
Клієнти бачать цю проблему, якщо: завжди використовують UI або REST API для налаштування системи зберігання, або відкривають інтерфейс у браузері і залишають його там, не закриваючись. З доступом лише до інтерфейсу зазвичай клієнтам потрібно кілька місяців, щоб помітити цю проблему. Якщо клієнти часто використовують REST API для запиту даних із системи зберігання, ця проблема виникає швидше.
Було виявлено другу проблему, коли оновлення до Unity OE 4.0.1.8320161 може погіршити ситуацію, оскільки під час NDU може дублювати відповідний файл журналу, що прискорює процес.
Ви можете підтвердити, якщо так, перевіривши споживання місця на /nbsbas. Якщо використання місця мінімальне або мало, ви НЕ стикалися з цією проблемою під час NDU, тому більше нічого не потрібно
.Коди 4.0.1.x вже містять виправлення основної проблеми, тому сама обертання логарифму працює коректно.
Якщо розділ показує дуже високий відсоток використання, тоді відповідальні файли логів можуть бути видалені (потрібна підтримка Dell).
Приклад того, як перевірити використання простору та які журнали видаляти, можна знайти в розділі нотаток.
Dell вирішила видалити Unity OE 4.0.1.8320161 для Unity та UnityVSA з support.emc.com. Оновлений реліз Unity OE (4.0.1.8404134) був опублікований у вересні 2016 року.
Resolution
Щоб вирішити цю проблему, технічна підтримка має отримати root-доступ до масиву.
Зверніться до технічної підтримки Unity і згадайте цю статтю в KB: 489057
Additional Information
Приклад перевірки використання простору:
spX:~> df -h /nbsnas Filesystem Size Used Avail Use% Mounted on /dev/c4nasdba1 1013M 55M 908M 6% /nbsnas
Лог або логи, що це спричиняють, можна знайти у /nbsnas/http/logs:
spx:~> cd /nbsnas/http/logs spx:/nbsnas/http/logs> ll -h total 975M -rw-r--r-- 1 root root 12K Sep 8 13:32 access_log -rw-r--r-- 1 root root 165K Sep 8 08:45 access_log.1.gz -rw-r--r-- 1 root root 239K Sep 8 06:59 access_log.2.gz -rw-r--r-- 1 root root 1.6M Sep 8 13:32 error_log -rw-r--r-- 1 root root 167K Sep 3 04:56 error_log.1.gz -rw-r--r-- 1 root root 495M Sep 8 13:32 mod_jk.log <<<<<<<<<< -rw-r--r-- 1 root root 475M Sep 8 08:45 mod_jk.log.1 <<<<<<<<<<
svc_dc -LCD (список дампів ядер) також може показувати кілька дампів із суфіксом «_mgmtd».
Вони були створені, коли SP панікували, оскільки деякі сервіси не можуть запустити (через заповнення /nbsnas).
spx:/> svc_dc -lcd ======================== [DC copier]: Available on backend: CP_dump_spb_CKM00161701xxx_2016-09-08_13_29_47_17275_ECOM core-dump_dump_spb_CKM00161701xxx_2016-09-08_08_46_23_778_mgmtd core-dump_dump_spb_CKM00161701xxx_2016-09-08_09_18_19_11994_mgmtd core-dump_dump_spb_CKM00161701xxx_2016-09-08_09_18_53_21524_mgmtd core-dump_dump_spb_CKM00161701xxx_2016-09-08_09_41_05_11446_mgmtd core-dump_dump_spb_CKM00161701xxx_2016-09-08_09_41_45_24620_mgmtd core-dump_dump_spb_CKM00161701xxx_2016-09-08_13_28_30_3067_mgmtd core-dump_dump_spb_CKM00161701xxx_2016-09-08_13_29_08_15086_mgmtd