Dell Unity. Процессоры СХД (SP) часто перезагружаются без создания файлов дампа (исправляется пользователем)
Сводка: Процессоры СХД Unity часто перезагружаются без создания файлов дампа.
Симптомы
- Массив Unity работает под управлением операционной системы 5.3 с включенной функцией SupportAssist.
- Процессоры СХД (SP) Unity часто перезагружаются (каждые 2–3 часа) без создания файлов дампа.
- В start_c4.log показано, что процессор СХД перезагружается из-за сбоя средства включения встроенных служб (ESE).
- В журналах процессора СХД часто появляются сообщения об ошибках «Сервис SupportAssist перестал работать».
- На ese_startup.log показано, что контейнер ESE часто перезапускается.
Анализ в реальном времени: /EMC/C4Core/log/start_c4.log
Анализ ЦОД: \spx\EMC\C4Core\log\start_c4.log
A 08/09/23 15:10:50 ha_policy.pl requested to reboot spa with hint because of ese failure B 08/09/23 16:22:04 ha_policy.pl requested to reboot spb with hint because of ese failure A 08/09/23 17:39:14 ha_policy.pl requested to reboot spa with hint because of ese failure B 08/09/23 18:55:40 ha_policy.pl requested to reboot spb with hint because of ese failure A 08/09/23 20:07:35 ha_policy.pl requested to reboot spa with hint because of ese failure B 08/09/23 22:20:21 ha_policy.pl requested to reboot spb with hint because of ese failure A 08/10/23 02:57:41 ha_policy.pl requested to reboot spa with hint because of ese failure B 08/10/23 04:09:59 ha_policy.pl requested to reboot spb with hint because of ese failure
SP_LOG
A 08/10/23 02:06:01.321 mlu 12d0004 [INFO] System: Operation Evacuate Slices: Completed 1, Failed 0 completed on 20000004b. [ALU 36360]
--
A 08/10/23 02:39:41.283 mlu 12d0004 [INFO] System: Operation Evacuate Slices: Completed 59, Failed 0 completed on 200000054. [ALU 32903]
A 08/10/23 02:39:51.306 EmcSupportSvcs 380057 [ERROR] User: SupportAssist service has stopped working. Repair it using svc_supportassist service command.
A 08/10/23 02:41:13.581 mlu 12d0004 [INFO] System: Operation Evacuate Slices: Completed 1, Failed 0 completed on 200000054. [ALU 32903]
--
B 08/10/23 03:12:40.818 CASAuth 560001 [INFO] Audit: Authentication successful.Username: p985_cb2153784@fspa.myntet.se ClientIP: 10.99.104.138.
B 08/10/23 03:13:14.081 EmcSupportSvcs 380057 [ERROR] User: SupportAssist service has stopped working. Repair it using svc_supportassist service command.
A 08/10/23 03:13:20.044 mlu 12d0004 [INFO] System: Operation freeze_file_system_ufs64 completed on 2800033134.
--
A 08/10/23 03:33:07.710 mlu 12d0004 [INFO] System: Operation Evacuate Slices: Completed 1, Failed 0 completed on 200000043. [ALU 36228]
B 08/10/23 03:34:21.402 EmcSupportSvcs 380057 [ERROR] User: SupportAssist service has stopped working. Repair it using svc_supportassist service command.
A 08/10/23 03:34:24.984 mlu 12d0004 [INFO] System: Operation Truncate File completed on 9000effcb.
--
A 08/10/23 04:08:33.303 mlu 16d0020 [INFO] System: Destroy of snapshot Destroying_20230810040736.870+00-000 completed.
B 08/10/23 04:08:53.910 EmcSupportSvcs 380057 [ERROR] User: SupportAssist service has stopped working. Repair it using svc_supportassist service command.
B 08/10/23 04:09:07.162 PEService 1660402 [INFO] System: Relocation is stopped for Storage Pool 0.
--
A 08/10/23 05:39:40.278 mlu 12d0004 [INFO] System: Operation Evacuate Slices: Completed 1, Failed 0 completed on 200000046. [ALU 35864]
A 08/10/23 05:42:16.903 EmcSupportSvcs 380057 [ERROR] User: SupportAssist service has stopped working. Repair it using svc_supportassist service command.
A 08/10/23 05:42:39.223 MnsvcServer 7d8 [INFO] Authentication: Authentication session Session_61_1691640760: User p985_cb2153784 successfully authenticated in authority LDAP/fspa.myntet.se
Анализ в реальном времени: /EMC/CEM/log/ese/ese_startup.log
Анализ ЦОД: SPA:/spa/EMC/CEM/log/ese/ese_startup.log
251707:Thu Aug 10 04:10:35 2023 ready(22517): Container is not running 251771-Thu Aug 10 04:10:35 2023 start(22513): Running: /usr/bin/sudo /usr/bin/setfacl -m u:ecom:rwx /EMC/backend/CEM/ese 251885-Thu Aug 10 04:10:35 2023 start(22513): Command success 251940-Thu Aug 10 04:10:35 2023 start(22513): Mounting container host mount directory 252019-Thu Aug 10 04:10:35 2023 start(22513): Running: /EMC/Platform/bin/ese/ese_mount.sh --mount -- 254071-Thu Aug 10 04:10:37 2023 start(22513): Container has been successfully created 254150-Thu Aug 10 04:10:37 2023 start(22513): Running: /usr/bin/sudo /usr/bin/docker ps -f name=ese -f status=running --no-trunc 254272-Thu Aug 10 04:10:37 2023 start(22513): Result is: CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES 254393-(0) 254397:Thu Aug 10 04:10:37 2023 start(22513): Container is not running 254461-Thu Aug 10 04:10:37 2023 start(22513): Starting container 254519-Thu Aug 10 04:10:37 2023 start(22513): Running: /usr/bin/sudo /usr/bin/docker start ese 254607-Thu Aug 10 04:10:38 2023 start(22513): Command success: ese 254667- -- 292902-Thu Aug 10 05:44:39 2023 ready(13520): Running: /usr/bin/sudo /usr/bin/docker ps -f name=ese -f status=running --no-trunc 293024-Thu Aug 10 05:44:39 2023 start(13517): Running: /usr/bin/sudo /usr/bin/docker images dell-ese:latest 293125-Thu Aug 10 05:44:39 2023 ready(13520): Result is: CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES 293246-(0) 293250:Thu Aug 10 05:44:39 2023 ready(13520): Container is not running 293314-Thu Aug 10 05:44:39 2023 start(13517): Result is: REPOSITORY TAG IMAGE ID CREATED SIZE 293422-dell-ese latest 97771f418a09 7 months ago 249MB 293481-(0) 293485-Thu Aug 10 05:44:39 2023 start(13517): Image is loaded -- 295840-Thu Aug 10 05:44:40 2023 start(13517): Container has been successfully created 295919-Thu Aug 10 05:44:40 2023 start(13517): Running: /usr/bin/sudo /usr/bin/docker ps -f name=ese -f status=running --no-trunc 296041-Thu Aug 10 05:44:41 2023 start(13517): Result is: CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES 296162-(0) 296166:Thu Aug 10 05:44:41 2023 start(13517): Container is not running 296230-Thu Aug 10 05:44:41 2023 start(13517): Starting container 296288-Thu Aug 10 05:44:41 2023 start(13517): Running: /usr/bin/sudo /usr/bin/docker start ese 296376-Thu Aug 10 05:44:41 2023
Анализ в реальном времени: Анализ в реальном времени: /EMC/CEM/log/ese/ese_startup.log
Анализ ЦОД: SPB:/spb/EMC/CEM/log/ese/ese_startup.log
949027:Thu Aug 10 03:34:14 2023 ready(14205): Container is not running 949091-Thu Aug 10 03:34:14 2023 start(14202): Command success 949146-Thu Aug 10 03:34:14 2023 start(14202): Mounting container host mount directory 949225-Thu Aug 10 03:34:14 2023 start(14202): Running: /EMC/Platform/bin/ese/ese_mount.sh --mount 949316-Thu Aug 10 03:34:14 2023 start(14202): Command success: Start to mount. -- 951277-Thu Aug 10 03:34:16 2023 start(14202): Container has been successfully created 951356-Thu Aug 10 03:34:16 2023 start(14202): Running: /usr/bin/sudo /usr/bin/docker ps -f name=ese -f status=running --no-trunc 951478-Thu Aug 10 03:34:16 2023 start(14202): Result is: CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES 951599-(0) 951603:Thu Aug 10 03:34:16 2023 start(14202): Container is not running 951667-Thu Aug 10 03:34:16 2023 start(14202): Starting container 951725-Thu Aug 10 03:34:16 2023 start(14202): Running: /usr/bin/sudo /usr/bin/docker start ese 951813-Thu Aug 10 03:34:16 2023 start(14202): Command success: ese 951873- -- 973168-Thu Aug 10 03:51:55 2023 start(3243): Image is loaded 973222-Thu Aug 10 03:51:55 2023 start(3243): Running: /usr/bin/sudo /usr/bin/setfacl -m u:ecom:rwx /EMC/backend/CEM/ese 973335-Thu Aug 10 03:51:55 2023 ready(3246): Result is: CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES 973455-(0) 973459:Thu Aug 10 03:51:55 2023 ready(3246): Container is not running 973522-Thu Aug 10 03:51:55 2023 start(3243): Command success 973576-Thu Aug 10 03:51:55 2023 start(3243): Mounting container host mount directory 973654-Thu Aug 10 03:51:55 2023 start(3243): Running: /EMC/Platform/bin/ese/ese_mount.sh --mount 973744-Thu Aug 10 03:51:55 2023 start(3243): Command success: Start to mount. -- 975689-Thu Aug 10 03:51:57 2023 start(3243): Container has been successfully created 975767-Thu Aug 10 03:51:57 2023 start(3243): Running: /usr/bin/sudo /usr/bin/docker ps -f name=ese -f status=running --no-trunc 975888-Thu Aug 10 03:51:57 2023 start(3243): Result is: CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES 976008-(0) 976012:Thu Aug 10 03:51:57 2023 start(3243): Container is not running 976075-Thu Aug 10 03:51:57 2023 start(3243): Starting container 976132-Thu Aug 10 03:51:57 2023 start(3243): Running: /usr/bin/sudo /usr/bin/docker start ese 976219-Thu Aug 10 03:51:57 2023 start(3243): Command success: ese 976278-
Причина
В редких случаях несколько потоков ESE разных типов демонстрируют состояние, которое приводит к их взаимоблокировке, включая потоки, которые прослушивают запросы API. Это условие взаимоблокировки в конечном итоге приводит к тому, что ESE перестает отвечать на запросы API, что приводит к перезагрузке процессора СХД.
Разрешение
Фиксировать:
Эта проблема устранена в операционной системе Unity 5.3.1.0.5.008.
Временное решение проблемы.
Существует два способа решения этой проблемы. Дополнительные сведения см. в разделе «Дополнительная информация».
Дополнительная информация
Дополнительные сведения см. в примечаниях к выпуску семейства Dell Unity 5.3.1.0.5.008.
Вариант временного решения #1:
Если возникла проблема взаимоблокировки ESE и процессоры СХД часто перезагружаются, можно выполнить следующие действия для устранения взаимоблокировки ESE, остановки перезагрузок процессора СХД и восстановления подключения SupportAssist.
1. Создайте резервную копию конфигурации SupportAssist и запишите IP-адреса или FQDN, используемые для существующей среды SupportAssist. Это мера предосторожности.
svc_supportassist --backup /home/service/user/
2. Очистите конфигурацию SupportAssist:
svc_supportassist -c
3. Перенастройте SupportAssist в пользовательском интерфейсе вручную как новую конфигурацию. Не восстанавливайте конфигурацию с помощью:
svc_supportasist --restore
Эта команда также восстановит взаимозаблокированные события.
Пошаговые инструкции по настройке SupportAssist см. в документе Семейство Dell Unity Настройка SupportAssist
https://dl.dell.com/content/manual40912271-dell-unity-family-configuring-supportassist.pdf?language=en-us
Вариант временного решения #2:
Новый пакет UDoctor (udoctor_update_supportassist) разработана и доступна для подключенных массивов Unity в поэтапном развертывании. Пакеты UDoctor используются для применения целевых обновлений, временного решения проблем и изменения конфигурации массива Unity независимо от полного обновления программного обеспечения операционной среды.
Сценарий UDoctor автоматически отправляется в системы с включенной функцией callhome, которая указывает на то, что установлена версия 5.3.0. После отправки пакета в систему появится оповещение, подобное следующему:
Новый сценарий UDoctor, если он будет принят и установлен, предотвратит перезагрузку процессора СХД, если возникает проблема взаимоблокировки ESE и служба SupportAssist перестает работать. Вместо этого создается оповещение о том, что сервис SupportAssist перестал работать и требуется ручное вмешательство:
Если идентификатор сообщения Unity 14:380057 "SupportAssist service has stopped working" для устранения взаимоблокировки ESE и восстановления подключения SupportAssist необходимо выполнить действия, описанные в Варианте временного решения #1.
См. статью базы знаний Dell Unity. Пакет UDoctor (xxxxxx) теперь доступен для установки. (Исправляется пользователем), чтобы узнать, как определить, доступен ли новый пакет UDoctor, а также как принять и установить новый пакет UDoctor.
При запуске бесперебойного обновления (NDU) операционной среды Unity перезаписывает любые изменения, внесенные пакетом UDoctor. Это означает, что, когда исправление программного обеспечения станет доступно в новых выпусках операционной среды Unity, можно выполнить стандартное бесперебойное обновление, которое не требует дополнительных действий.
Невозможно переопределить процесс инвентаризации и/или push и принудительно отправить пакет UDoctor в какую-либо конкретную систему Unity. Процесс инвентаризации и/или отправки выполняется еженедельно. Для заказчиков, которым необходимо скорейшее исправление, правильным решением будет модернизация операционной среды Unity до версии 5.3.1.0.5.008 (5.3 SP1). Кроме того, заказчики могут использовать другие способы временного решения, перечисленные выше.