Dell Unity. Общие ресурсы SMB или NFS могут стать недоступными из-за заблокированных потоков
Summary: Как обрабатывать события блокировки потоков в системе Dell Unity. (Исправляется Dell)
Symptoms
Цель этой статьи — предоставить общие рекомендации по обработке событий блокировки потоков, поскольку правильная обработка имеет решающее значение для анализа основных причин (RCA) и исправления.
Существуют и другие статьи, относящиеся к определенным версиям операционной среды Unity, например статья 000002643: DTA 503606: Unity. Массивы, использующие файловую систему CIFS/SMB, работающую под управлением операционной среды (OE) 4.2.0.9392909 или 4.2.0.9433914, необходимо модернизировать до OE 4.2.0.9476662 (или более поздней версии), что устраняет потенциальную проблему недоступности данных. (Доступ к этой статье могут иметь только зарегистрированные пользователи Dell Support.)
Серверы сетевой системы хранения данных, файловая система и общие ресурсы отображаются в режиме онлайн на стороне Dell Unity, но заблокированные потоки приводят к тому, что общие ресурсы SMB или NFS становятся недоступными для клиентов.
Возможные коды ошибок:
13:102d0003 neo-13:102d0003 neo-13:102d0007
Cause
Существуют различные причины блокировки потоков, и каждый случай и система должны быть исследованы отдельно.
Вот некоторые из наиболее распространенных причин, по которым это может происходить:
- Взаимоблокировка, когда два потока ожидают блокировки ресурсов, принадлежащих другому потоку
- Расширенная обработка операций (например, отложенная аутентификация, антивирусная проверка и т. д.)
Resolution
Немедленное (временное) решение.
Перезагрузка или вызов паники процессора СХД, сообщающего о блокировке потоков, немедленно восстанавливает доступ. Перезагрузка и паника по сути одно и то же, с той лишь разницей, что паника предоставляет файл дампа памяти для пост-анализа.
Информационный:
- Хотя простая перезагрузка временно устраняет проблему, скорее всего, она устраняет возможность RCA.
- Только дамп процессора СХД (паника), собранный при наличии этого условия, позволяет специалистам инженерного отдела Dell полностью исследовать и выполнить RCA конкретной причины блокировки потоков.
- Только Dell может выполнять вызов паники процессора СХД. Обратитесь в службу технической поддержки Dell или к уполномоченному представителю отдела технического обслуживания и укажите идентификатор этой статьи Dell.
- Это не окончательное решение, и если основная причина заблокированных потоков не устранена, это может произойти снова до тех пор, пока не будет применено исправление.
Для устранения этой проблемы доступно несколько исправлений в зависимости от установленной версии операционной среды Unity.
Если исправление не существует, необходимо вызвать панику процессора СХД, так как это позволяет Dell получить файл дампа с текущим состоянием массива для проверки. RCA может быть недоступен без этого файла дампа. Для вызова паники процессора СХД требуется доступ с правами root.
Additional Information
/EMC/backend/log_shared присутствует (монтируется) только на основном процессоре СХД; для доступа к этому местоположению и этим файлам необходимо находиться на основном процессоре СХД (в режиме Live или в журналах).
В сообщениях об ошибках отображается затронутый процессор СХД (процессор СХД, который необходимо перезагрузить):
service@spa~# zgrep -i blocked /EMC/backend/log_shared/EMCSystemLogFile* EMCSystemLogFile.log:"2017-07-26T18:12:55.428Z" "unitymgr01_spa" "Kittyhawk_safe" "12657" "unix/spa/root" "ERROR" "13:102d0003" :: "ThreadsServicesSupervisor: Service:CIFS Pool:SMB2 BLOCKED for 423 seconds: Server operations may be impacted ." :: Category=System Component=DART_KERNEL EMCSystemLogFile.log:"2017-07-26T18:27:55.474Z" "unitymgr01_spa" "Kittyhawk_safe" "12657" "unix/spa/root" "ERROR" "13:102d0003" :: "ThreadsServicesSupervisor: Service:CIFS Pool:SMB2 BLOCKED for 1323 seconds: Server operations may be impacted ." :: Category=System Component=DART_KERNEL EMCSystemLogFile.log:"2017-07-26T18:42:55.520Z" "unitymgr01_spa" "Kittyhawk_safe" "12657" "unix/spa/root" "ERROR" "13:102d0003" :: "ThreadsServicesSupervisor: Service:CIFS Pool:SMB2 BLOCKED for 2222 seconds: Server operations may be impacted ." :: Category=System Component=DART_KERNEL
EMCSystemLogFile logs, всегда проверяйте непосредственно в ktraces Чтобы убедиться в этом.
Переменная
ktrace Файлы могут быстро завершаться, поэтому эти сообщения могут отсутствовать в последнем несжатом файле. Рекомендуется отметить все c4_safe_ktrace файлы (найденные в /EMC/C4Core/log/).
На затронутом процессоре СХД (процессоре СХД, на котором находится затронутый сервер NAS) перейдите в
/EMC/C4Core/log/ и выполните команду, приведенную ниже (убедитесь, что слово BLOCKED написано прописными буквами). Если вы не знаете, какой процессор СХД затронут, выполните эту команду на обоих процессорах СХД, и на затронутом процессоре СХД должны отображаться следующие сообщения:
service@spa~# zgrep -h BLOCKED c4_safe_ktrace* | sort ... 2017/09/20-07:46:... sade:KERNEL: 3: 3:[core] ThreadsServicesSupervisor: Service:CIFS Pool:SMB2BLOCKED for 33730 seconds: Server operations may be impacted 2017/09/20-08:01:... sade:KERNEL: 3: 3:[core] ThreadsServicesSupervisor: Service:CIFS Pool:SMB2BLOCKED for 34630 seconds: Server operations may be impacted 2017/09/20-08:16:... sade:KERNEL: 3: 3:[core] ThreadsServicesSupervisor: Service:CIFS Pool:SMB2BLOCKED for 35530 seconds: Server operations may be impacted 2017/09/20-08:31:... sade:KERNEL: 3: 3:[core] ThreadsServicesSupervisor: Service:CIFS Pool:SMB2BLOCKED for 36430 seconds: Server operations may be impacted 2017/09/20-08:46:... sade:KERNEL: 3: 3:[core] ThreadsServicesSupervisor: Service:CIFS Pool:SMB2BLOCKED for 37330 seconds: Server operations may be impacted 2017/09/20-09:01:... sade:KERNEL: 3: 3:[core] ThreadsServicesSupervisor: Service:CIFS Pool:SMB2BLOCKED for 38230 seconds: Server operations may be impacted 2017/09/20-09:16:... sade:KERNEL: 3: 3:[core] ThreadsServicesSupervisor: Service:CIFS Pool:SMB2BLOCKED for 39130 seconds: Server operations may be impacted 2017/09/20-09:31:... sade:KERNEL: 3: 3:[core] ThreadsServicesSupervisor: Service:CIFS Pool:SMB2BLOCKED for 40030 seconds: Server operations may be impacted