Dell Unity: Udziały SMB lub NFS mogą stać się niedostępne z powodu zablokowanych wątków
Summary: Obsługa zdarzeń zablokowanych wątków w systemie Dell Unity. (Z możliwością naprawienia przez firmę Dell)
Symptoms
Celem tego artykułu jest zapewnienie ogólnych wskazówek dotyczących sposobu obsługi zdarzeń zablokowanych wątków, ponieważ właściwa obsługa ma kluczowe znaczenie dla analizy przyczyn źródłowych (RCA) i naprawy.
Dostępne są inne artykuły dotyczące określonych wersji Unity OE, takie jak artykuł 000002643: 503606 DTA: Unity: macierze korzystające z CIFS/SMB ze środowiskiem systemu operacyjnego (OE) 4.2.0.9392909 lub 4.2.0.9433914 powinny uaktualnić się do wersji OE 4.2.0.9476662 (lub nowszej), co rozwiązuje potencjalny problem z niedostępnością danych. (Dostęp do tego artykułu mogą mieć tylko zarejestrowani użytkownicy pomocy technicznej firmy Dell).
Serwery NAS, systemy plików i udziały są wyświetlane w trybie online po stronie Dell Unity, ale zablokowane wątki powodują, że udziały SMB lub NFS są niedostępne dla klientów.
Możliwe kody błędów:
13:102d0003 neo-13:102d0003 neo-13:102d0007
Cause
Istnieją różne przyczyny zablokowanych wątków, a każdy przypadek i system należy zbadać osobno.
Oto niektóre z najczęstszych przyczyn, dla których mogą one wystąpić:
- Zakleszczenie, w którym dwa wątki oczekują na blokadę zasobów należącą do drugiego wątku
- Rozszerzone przetwarzanie operacji (takie jak opóźnione uwierzytelnianie, sprawdzanie wirusów itp.)
Resolution
Natychmiastowe (tymczasowe) rozwiązanie:
Ponowne lub awaryjne uruchomienie SP zgłaszającego komunikaty zablokowanych wątków natychmiast przywraca dostęp. Ponowne uruchomienie i awaria są zasadniczo takie same, jedyna różnica polega na tym, że błąd udostępnia plik zrzutu pamięci do analizy post.
Informacyjne:
- Chociaż proste ponowne uruchomienie tymczasowo łagodzi problem, prawdopodobnie usuwa możliwość RCA.
- Tylko zrzut SP (uruchomienie awaryjne) zebrany, gdy warunek jest obecny, umożliwia inżynierom firmy Dell pełne zbadanie i analizę RCA określonej przyczyny zablokowanych wątków.
- Tylko firma Dell może przeprowadzić uruchomienie awaryjne SP. Prosimy skontaktować się z działem pomocy technicznej firmy Dell lub z autoryzowanym przedstawicielem serwisu i podać ten identyfikator artykułu firmy Dell.
- Nie jest to trwała poprawka i jeśli podstawowa przyczyna zablokowanych wątków nie zostanie rozwiązana, może to się powtarzać do momentu wdrożenia poprawki.
W zależności od zainstalowanej wersji Unity OE dostępne są różne poprawki umożliwiające rozwiązanie tego problemu.
W przypadku, gdy poprawka nie istnieje, wymagane jest awaryjne uruchomienie SP, ponieważ umożliwia firmie Dell uzyskanie pliku zrzutu pamięci z bieżącym stanem macierzy do sprawdzenia. Analiza RCA może nie być możliwa bez tego pliku zrzutu pamięci. Awaryjne uruchomienie SP wymaga dostępu z poziomu użytkownika root.
Additional Information
/EMC/backend/log_shared jest obecny (zamontowany) tylko w głównym SP, musisz być w głównym SP (na żywo lub w dziennikach), aby uzyskać dostęp do tej lokalizacji i tych plików.
W komunikatach o błędach widoczny jest SP, którego dotyczy problem (SP, który należy ponownie uruchomić):
service@spa~# zgrep -i blocked /EMC/backend/log_shared/EMCSystemLogFile* EMCSystemLogFile.log:"2017-07-26T18:12:55.428Z" "unitymgr01_spa" "Kittyhawk_safe" "12657" "unix/spa/root" "ERROR" "13:102d0003" :: "ThreadsServicesSupervisor: Service:CIFS Pool:SMB2 BLOCKED for 423 seconds: Server operations may be impacted ." :: Category=System Component=DART_KERNEL EMCSystemLogFile.log:"2017-07-26T18:27:55.474Z" "unitymgr01_spa" "Kittyhawk_safe" "12657" "unix/spa/root" "ERROR" "13:102d0003" :: "ThreadsServicesSupervisor: Service:CIFS Pool:SMB2 BLOCKED for 1323 seconds: Server operations may be impacted ." :: Category=System Component=DART_KERNEL EMCSystemLogFile.log:"2017-07-26T18:42:55.520Z" "unitymgr01_spa" "Kittyhawk_safe" "12657" "unix/spa/root" "ERROR" "13:102d0003" :: "ThreadsServicesSupervisor: Service:CIFS Pool:SMB2 BLOCKED for 2222 seconds: Server operations may be impacted ." :: Category=System Component=DART_KERNEL
EMCSystemLogFile dzienniki, zawsze sprawdzaj bezpośrednio w ktraces dla pewności.
Polecenie
ktrace Pliki mogą być szybko zawijane, więc te komunikaty mogą nie być obecne w najnowszym nieskompresowanym pliku. Zaleca się sprawdzenie wszystkich c4_safe_ktrace pliki (znalezione w /EMC/C4Core/log/).
W SP, którego dotyczy problem (SP, w którym znajduje się serwer NAS, którego dotyczy problem), przejdź do
/EMC/C4Core/log/ i uruchom poniższe polecenie (upewnij się, że słowo BLOCKED jest napisane wielkimi literami). Jeśli nie masz pewności co do tego, który SP stanowi problem, uruchom to na obu, a dany SP powinien wyświetlić następujące komunikaty:
service@spa~# zgrep -h BLOCKED c4_safe_ktrace* | sort ... 2017/09/20-07:46:... sade:KERNEL: 3: 3:[core] ThreadsServicesSupervisor: Service:CIFS Pool:SMB2BLOCKED for 33730 seconds: Server operations may be impacted 2017/09/20-08:01:... sade:KERNEL: 3: 3:[core] ThreadsServicesSupervisor: Service:CIFS Pool:SMB2BLOCKED for 34630 seconds: Server operations may be impacted 2017/09/20-08:16:... sade:KERNEL: 3: 3:[core] ThreadsServicesSupervisor: Service:CIFS Pool:SMB2BLOCKED for 35530 seconds: Server operations may be impacted 2017/09/20-08:31:... sade:KERNEL: 3: 3:[core] ThreadsServicesSupervisor: Service:CIFS Pool:SMB2BLOCKED for 36430 seconds: Server operations may be impacted 2017/09/20-08:46:... sade:KERNEL: 3: 3:[core] ThreadsServicesSupervisor: Service:CIFS Pool:SMB2BLOCKED for 37330 seconds: Server operations may be impacted 2017/09/20-09:01:... sade:KERNEL: 3: 3:[core] ThreadsServicesSupervisor: Service:CIFS Pool:SMB2BLOCKED for 38230 seconds: Server operations may be impacted 2017/09/20-09:16:... sade:KERNEL: 3: 3:[core] ThreadsServicesSupervisor: Service:CIFS Pool:SMB2BLOCKED for 39130 seconds: Server operations may be impacted 2017/09/20-09:31:... sade:KERNEL: 3: 3:[core] ThreadsServicesSupervisor: Service:CIFS Pool:SMB2BLOCKED for 40030 seconds: Server operations may be impacted