Dell Unity: zbieranie potrzebnych informacji do analizy wydajności Unity
Summary: W tym artykule omówiono zbieranie dzienników i danych w celu diagnozowania problemów z wydajnością w macierzach Unity.
Instructions
Problem
-
Niska wydajność odczytu lub zapisu (albo obu) lub długi czas reakcji podłączonych hostów.
-
Czasy reakcji aplikacji hosta wydłużyły się lub są niedopuszczalnie długie.
-
Problemy z wydajnością w macierzy Dell Unity, która wymaga analizy wydajności.
Problemy z wydajnością mogą wynikać z wielu czynników. Obejmują one: konfigurację sieci, przeciążenie, konfigurację hosta, awarię sprzętu, rywalizację o dyski (kilka zajętych jednostek LUN współdzielących te same dyski) lub maksymalne wykorzystanie macierzy pamięci masowej.
Dział pomocy technicznej Unity nie może w pełni zbadać i rozwiązać problemów z wydajnością, dopóki nie zostaną dostarczone:
- Plik danych usługi (Data Collect)
- Pliki UPA (Unity Performance Archive)
- Szczegółowy opis symptomów występujących w środowisku produkcyjnym
Niepodanie informacji zawartych w tym artykule bazy wiedzy firmy Dwll (KB) może spowodować wydłużenie czasu rozwiązania problemu.
Szczegółowe informacje o problemach z wydajnością (objawy, sygnatury czasowe itd.) mają kluczowe znaczenie, aby inżynier wiedział, na czym się skupić (czas / jednostki LUN / hosty itp.), zamiast spędzać kilka godzin na szukaniu problemu (nie przyczyny). Bez tych szczegółów przez wiele godzin można wyszukiwać problem, aby jedynie przeanalizować ogólne statystyki wydajności.
Zakres
Dział pomocy technicznej bada problemy z wydajnością, aby zidentyfikować problemy, które wpływają na witryny klientów. Dopasowywanie wydajności (w celu uzyskania najwyższej wydajności dla hosta lub aplikacji) i ponowna konfiguracja to zadania administratora systemu pamięci masowej lub architekta rozwiązań, dlatego zadania te nie zostaną wykonane w ramach zgłoszenia serwisowego o awarii/naprawie.
Zgłoszenia serwisowe, które nie dotyczą zdefiniowanego problemu, takie jak wniosek o raport z bieżącego poziomu obciążenia roboczego macierzy, nie wchodzą w zakres naprawy uszkodzeń. Do samodzielnego określenia poziomu obciążenia roboczego macierzy można użyć usługi LiveOptics. Szczegółowe informacje na temat tej opcji można znaleźć w następującym artykule:
Wymagania dotyczące danych i informacji potrzebnych do szczegółowej analizy wydajności
W przypadku każdego zdarzenia dział pomocy technicznej potrzebuje następujących dzienników i informacji obejmujących okres incydentu:
- Pliki danych usługi (znane również jako Data Collect), wygenerowane wkrótce po wystąpieniu problemu.
- Jeśli replikacja jest w użyciu, będą potrzebne pliki Data Collect i UPA z obu macierzy.
- Pliki UPA (Unity Performance Archive), które obejmują cały okres, w którym wystąpił problem.
- Narzędzia grab hosta i dzienniki przełącznika mogą być również wymagane, jeśli problem wydaje się znajdować poza macierzą.
- Mogą być również wymagane wyniki śledzenia sieci Unity.
PROBLEMY Z BLOKAMI
- Podaj jasny i szczegółowy opis problemu:
- Kiedy wystąpił problem? (Data/godzina i strefa czasowa).
- Które jednostki LUN są zagrożone?
- Jest to ważne, aby zawęzić wyszukiwanie.
- Czy występują problemy z aktywnymi funkcjami ograniczenia ilości danych lub zaawansowanej deduplikacji w jednostkach LUN? Czy ograniczenie ilości danych jest aktywne dla innych jednostek LUN? (Zapoznaj się z opracowaniem dotyczącym najlepszych praktyk Unity — sekcja Wykorzystanie procesora — strona 9)
- Czy używana jest replikacja? Podaj informacje na temat RPO dla replikacji oraz o tym, czy wydajność poprawia się po wstrzymaniu replikacji.
- Czy kiedykolwiek aktywne dane były niedostępne?
- Czy cokolwiek innego działa w określonym czasie? (Kopia zapasowa, zadania, partie, skanowanie wirusów, optymalizacja dysku hosta (TRIM/UNMAP) itp.).
- Jeśli coś nie działa tak, jak powinno — czy kiedykolwiek działało? Czy jest to część nowej implementacji/konfiguracji? Czy ostatnio dodano jakieś nowe aplikacje lub hosty?
- Jak mierzy się wydajność lub jaki jest wpływ? Czy są opóźnienia lub błędy po stronie hosta? Czy użytkownicy końcowi zgłaszają powolne działanie?
- Czy ostatnio zaszły jakieś zmiany w środowisku SAN (hosty, przełączniki, macierz)?
- Wpływ (aplikacje, których dotyczy problem, liczba zagrożonych serwerów, liczba zagrożonych użytkowników itp.).
- Jak często pojawia się problem? (Ciągle / regularnie / jednorazowo / sporadycznie).
- Jakie są nazwy hostów, których dotyczy problem?
- Jaka topologia jest używana? FC, iSCSI czy Ethernet? (W przypadku korzystania z iSCSI wszystkie hosty MUSZĄ mieć wyłączoną opcję TCP Delayed ACK).
- Jeśli problem może dotyczyć połączenia, dział pomocy technicznej może poprosić o schemat topologii.
- Czy w tym samym czasie w sieci występuje znany problem, czy też sieć została ostatnio uaktualniona? Sprawdź również, czy w wewnętrznej sieci LAN nie stosuje się iSCSI, a wszelkie używane przełączniki muszą być przełącznikami klasy Enterprise.
PROBLEMY Z PLIKAMI
- Podaj jasny i szczegółowy opis problemu:
- Jakie konkretne protokoły są jego częścią?
- Przykład: NFS (wersja), CIFS (wersja), NDMP, iSCSI, FTP itp.
- Czy problem jest związany z określonym eksportem/udostępnianiem, systemem plików/jednostką LUN?
- O jakiej porze dnia występuje problem? (Data/godzina i strefa czasowa).
- Jakie jest aktywne obciążenie robocze w tym czasie?
- Przykład: logowanie, wylogowanie, kopia zapasowa, prace partiami itp.
- Jakie hosty w tym uczestniczą?
- Przykład: kopie zapasowe, maszyny wirtualne, stacje robocze, serwery itp.
- Szczegółowe informacje na temat aplikacji.
- Jak wygląda konfiguracja sieci?
- Podaj szczegółowe dane interfejsu/karty sieciowej.
- Czy interfejsy sieciowe są izolowane na oddzielnych kartach sieciowych?
- Przykład: ruch związany z replikacją na dedykowanej karcie sieciowej.
Gromadzenie pliku danych usługi (Data Collect)
Aby zebrać plik danych usługi (Data Collect), zobacz LKB 000023676. W przypadku plików wyjściowych uruchomionego pliku danych usługi w macierzy konieczne jest pokazanie szczegółowej konfiguracji macierzy i wszelkich zdarzeń, które wystąpiły w macierzy. Dział pomocy technicznej zaleca zgromadzenie pliku danych usługi (Data Collect) jak najszybciej po wystąpieniu zdarzenia.
Należy pamiętać, że plik danych usługi zawiera tylko ostatni kompletny plik UPA (1 godzina) i wszystkie dostępne pliki UPA -tmp.archive . Często nie jest to wystarczająca ilość informacji do prawidłowego sprawdzenia wydajności i wymagane są dodatkowe pliki UPA.
Aby znaleźć plik UPA w pliku danych usługi (Data Collect), przejdź do spx\cmd_outputs\metrics\
-
spx= Primary SP -
Przykład: Jeśli SPA jest aktywnym SP, plik UPA jest dostępny w lokalizacji
spa\cmd_outputs\metrics
Gromadzenie plików UPA
- Dział pomocy technicznej może poprosić o dodatkowe pliki UPA.
- W przeciwieństwie do pliku danych usługi (Data Collect) macierz przechowuje pliki UPA do 48 godzin.
- Pliki UPA wyglądają tak jak w poniższym przykładzie. Każda nazwa pliku zawiera datę i godzinę pierwszego punktu danych w pliku. Interwał wynosi 10 sekund i obejmuje godzinę minus 10 sekund. Data i godziny w nazwach plików to UTC/GMT.
- Ostatni plik UPA w poniższym przykładzie to najbardziej aktualne archiwum (
-tmp.archive). Zawiera aktualne dane dotyczące wydajności i można go skopiować z macierzy (tylko przy użyciu SSH/CLI), aby sprawdzić najbardziej aktualne dane. Dział pomocy technicznej może wykorzystać ten plik do sprawdzenia zdarzeń dotyczących wydajności bez czekania przez kolejną godzinę.
- Ostatni plik UPA w poniższym przykładzie to najbardziej aktualne archiwum (
Przykład plików UPA przechowywanych w macierzy Dell Unity:01/05/2017 10:59 AM 11,017,216 _default_20170105_150000.archive
01/05/2017 11:59 AM 11,017,216 _default_20170105_160000.archive
01/05/2017 01:00 PM 11,017,216 _default_20170105_170000.archive
01/05/2017 01:59 PM 10,983,424 _default_20170105_180000.archive
01/05/2017 02:45 PM 8,308,736 _default_20170105_190000-tmp.archive
Opcja 1: Lista Unisphere
Ta opcja jest dostępna tylko dla Unity OE 4.2 i nowszych. Wyświetlona tu lista plików UPA może nie być kompletna. Istnieje ograniczenie interfejsu użytkownika (Unisphere) i mogą zostać wyświetlone tylko niektóre dostępne pliki. Jeśli wymagany plik UPA nie znajduje się na liście, przejdź do opcji 2 lub użyj SSH/CLI.
Opcja 2: Zakres czasu Unisphere
- Można wybrać zakres czasu pobierania dostępnych UPA przez system.
- Potwierdź czas wystąpienia problemu przed zebraniem dzienników, aby pobrać tylko te niezbędne.
- Należy pamiętać, że zakres czasu klienta to czas lokalnej przeglądarki i często jest taki sam jak bieżący czas stacji roboczej.
- Ta opcja jest dostępna tylko dla Unity OE 4.2 i nowszych

Przy użyciu SSH/CLI
Można użyć interfejsu CLI, aby uzyskać dostęp do większej liczby UPA w macierzy Unity, ale niewymienionych w UI (Unisphere) dla opcji 1.
-
Zaloguj się przy użyciu nazwy użytkownika service i hasła usługi.
-
Skopiuj żądane dzienniki do
/cores/service/userz/EMC/backend/metricsluna1/archives -
Pobierz te dzienniki przy użyciu WinSCP lub podobnego narzędzia.
-
Jeśli macierz jest w wersji OE 4.5.X lub nowszej, zmień protokół pliku na SCP.
-
Zaloguj się przy użyciu nazwy użytkownika service i hasła usługi.
-
ll /EMC/backend/metricsluna1/archives/
cp /EMC/backend/metricsluna1/archives/_default_20230221_180000.archive.gz /cores/service/user
Uwaga: jeśli gromadzisz tylko bieżące UPA, możesz wybrać |tail-10, ponieważ w backendzie dostępne są dziesiątki plików UPA; można też wyświetlić wszystkie.

Zbieranie danych hosta
Pliki wyjściowe Grab hosta (lub EMC Report) mogą być potrzebne, zwłaszcza jeśli problem dotyczy wyłącznie konkretnych hostów.
-
Przejdź na stronę https://www.dell.com/support/home/ (strona pomocy technicznej firmy Dell) i wyszukaj narzędzie Grab Utility dla właściwego systemu operacyjnego hosta (przykład: grab hosta ESXi)
-
Pobierz narzędzie i plik README.
-
Skorzystaj z pliku README, aby uruchomić narzędzie dla systemu operacyjnego wybranego hosta.
Dzienniki przełączników
Jeśli problem z wydajnością występuje tylko na niektórych ścieżkach, mogą być wymagane dzienniki przełączników. Zapoznaj się z LKB, aby uzyskać instrukcje (w zależności od używanego modelu):
Brocade/Connectrix