PowerFlex 3.X. Медленная запись на диск ОС может привести к нескольким проблемам с MDM.
Summary: Медленная запись на диск операционной системы может привести к проблемам с несколькими MDM.
Symptoms
Медленная работа диска операционной системы на MDM может привести к возникновению любого количества сценариев.
В ScaleIO 3.0 механизм MDM был сделан более надежным для лучшей обработки проблем с дисками ОС. (задержка 10+ секунд)
Когда MDM работают на дисках ОС, запись которых занимает слишком много времени, могут наблюдаться следующие признаки:
-
Переведение SDS в режим обслуживания приводит к отключению главного MDM.
-
Событие перестроения приводит к отключению главного MDM, а возможно, и подчиненных MDM.
-
Переключение MDM не работает; Подчиненные MDM не могут взять на себя обязанности главного MDM, поэтому ни один MDM не является главным.
-
В выводе команды «scli --query_cluster» отображаются подчиненные MDM, которые время от времени не синхронизируются.
-
SDC записывает ошибки ввода-вывода.
Во всех сценариях сообщение «Усиление заняло слишком много времени» отображается в журналах MDM trc:
08/12 03:36:42.336327 0x7f64207f4eb0:replFile_WriteUnlocked:00667: WARNING: Harden took too long: 1360 ms 08/12 03:36:44.811987 0x7f6420668eb0:replFile_WriteUnlocked:00667: WARNING: Harden took too long: 1840 ms 08/12 03:36:46.463661 0x7f642072eeb0:replFile_WriteUnlocked:00667: WARNING: Harden took too long: 2210 ms
Воздействие
Если операции записи в репозиторий MDM превышают пороговый уровень усиления, это означает, что MDM не синхронизирован.
Это означает, что кластер MDM не синхронизирован и процессы MDM перезапускаются.
Если MDM перезапускаются достаточно быстро или достаточно часто, завершаются сценарии недоступности данных (когда нет основного модуля MDM), например, кластер MDM не работает после неоднократных переключений на резервный ресурс.
Cause
Когда главный MDM должен внести изменения в состояние блоков данных, он должен записать эти изменения в файл репозитория MDM, а затем синхронизировать эти изменения с подчиненными MDM. После завершения операций записи MDM уведомляет SDS о том, что изменения финализированы, и они могут обслуживать операции ввода-вывода записи в SDC только из первичной копии (до завершения перестроения). Если для записи изменений в локальный репозиторий мастеру главного MDM требуется более 500 миллисекунд (1/2 секунды), в журналах отслеживания MDM отобразятся сообщения «Усиление защиты заняло слишком много времени». Это приводит к тому, что MDM не может достаточно быстро отвечать на запросы SDS и может привести к ошибкам ввода-вывода в SDC. MDM будет оставаться в этом состоянии до тех пор, пока модуль ввода-вывода не сможет записать данные в репозиторий менее чем за 500 миллисекунд, или через 10 секунд, когда в кластере возникнет возникновение прав собственности на коммутатор MDM.
Resolution
Решение заключается в устранении проблемы задержки диска ОС.
Это может быть связано с:
-
Восстановление RAID (узлы 14G Ready Node оснащены платами BOSS с 2 накопителями M.2 SATA в RAID 1)
-
Износ/возраст диска
-
Неправильный размер/выбор дисков ОС (HDD, медленный/дешевый SSD и т.д. обычно только в программных конфигурациях)
-
Ошибки в контроллере дисков ОС/микропрограмме диска
-
Состояние отказа или прогнозируемого отказа диска
-
Но наиболее распространенной причиной является чрезмерная нагрузка ввода-вывода на диск ОС.
В любом случае необходим мониторинг/профилирование производительности диска ОС.
Задержку диска можно отслеживать с помощью sar или iostat.
Самым простым/универсальным инструментом является iostat.
Запустите
iostat -xtN 1
И наблюдайте за временем ожидания, сообщаемым в миллисекундах.
Затронуты все версии.