PowerFlex 3.X: Повільні записи на диск ОС можуть спричинити кілька проблем з MDM.
Summary: Повільні записи на диск операційної системи можуть спричинити кілька проблем з MDM.
Symptoms
Через повільний диск операційної системи на MDM може виникати будь-яка кількість сценаріїв.
У ScaleIO 3.0 механізм MDM став більш надійним для кращої обробки проблем із дуже повільними дисками ОС. (затримка 10+ секунд)
Коли MDM працюють на дисках ОС, які записуються надто довго, можна помітити такі симптоми:
-
Підключення SDS у технічне обслуговування призводить до відключення головного MDM.
-
Подія перебудови призводить до відключення Master MDM, а можливо й Slave MDM.
-
Перемикання MDM не працює; Підлеглі MDM не можуть брати на себе обов'язки головного MDM, тому жоден MDM не є майстерним.
-
Вихід "scli --query_cluster" показує, що підлеглі MDM іноді не синхронізовані.
-
SDC записує помилки введення.
У всіх сценаріях у журналах MDM trc можна побачити «Harden занадто довго»:
08/12 03:36:42.336327 0x7f64207f4eb0:replFile_WriteUnlocked:00667: WARNING: Harden took too long: 1360 ms 08/12 03:36:44.811987 0x7f6420668eb0:replFile_WriteUnlocked:00667: WARNING: Harden took too long: 1840 ms 08/12 03:36:46.463661 0x7f642072eeb0:replFile_WriteUnlocked:00667: WARNING: Harden took too long: 2210 ms
Вплив
Перевищення порогу загартування в MDM репозиторії означає, що MDM не синхронізований.
Це означає, що кластер MDM не синхронізований, і процеси MDM перезапускаються.
Якщо MDM перезапускаються досить швидко/багаторазово, можуть виникати сценарії повної недоступності даних (коли немає Master MDM), наприклад, при знищуванні MDM після повторних резервних переключень.
Cause
Коли Master MDM має внести зміни у стан блоків даних, він повинен записати ці зміни у файл репозиторію MDM, а потім синхронізувати ці зміни з Slave MDM. Коли ці записи завершені, MDM повідомляє SDS, що зміни завершені, і вони можуть подавати IO запису на SDC лише з первинної копії (до завершення перебудови). Якщо Master MDM записує зміни до локального репозиторію більше ніж за 500 мілісекунд (1/2 секунди), у журналах MDM trc з'являться повідомлення «Harden зайняло занадто багато часу». Це призводить до того, що MDM не може достатньо швидко реагувати на запити SDS і може спричинити помилки виводу на SDC. MDM залишатиметься в цьому стані, доки IO не зможе записувати запис у репозиторій менш ніж за 500 мілісекунд або через 10 секунд, коли всередині кластера відбудеться володіння комутатором MDM.
Resolution
Рішення — вирішити проблему затримки диска ОС.
Це може бути зумовлено:
-
RAID-перебудови (14G Ready Nodes мають BOSS-карти з 2x m.2 SATA-дисками в RAID1)
-
Знос/вік диска
-
Неправильний вибір розмірів/вибору дисків ОС (HDD, повільний/дешевий SSD тощо, зазвичай лише в програмних конфігураціях)
-
Баги в контролері диска/прошивці диска ОС
-
Відмова диска/стан прогнозного відмови
-
Але найпоширенішою причиною є зайве навантаження на диск ОС.
У будь-якому разі необхідно моніторити або профілювати продуктивність диска ОС.
Затримку диска можна контролювати за допомогою sar або iostat.
Найпростіший і найуніверсальніший інструмент — іостат.
Бігти
iostat -xtN 1
І спостерігайте за часом очікування, які повідомляються в мілісекундах.
Усі версії піддаються впливу.