Symptoms
Produkty, których dotyczy problem
Brocade X7-8, X7-4, 7730 i 7720 z fos w wersji 9.1.x lub FOS 9.2.0
poprawione w wersjach
Brocade FOS 9.1.1c, 9.2.0a i nowszych
tylko produkty Gen 7 są zagrożone.
Dyrektorzy siódmej generacji (X7-8 i X7-4) z zainstalowanym serwerem kasetowym portu FC64-48 i/lub FC32-X7-48 mogą napotkać błędy przepełnienia i "weryfikacji". Serwery kasetowe portów FC32-64 i FC32-48 zainstalowane w przełącznikach klasy directors siódmej generacji nie są zagrożone wystąpieniem obu awarii.
Przełączniki Gen 7 (G730 i G720) są narażone tylko na wystąpienie awarii przepełnienia bufora. Przełączniki te nie są narażone na awarię ani nie są narażone na wystąpienie błędu "weryfikacji".
Aby jeszcze bardziej być zagrożonym, sieć szkieletowa musi doświadczać poważnych przeciążeń, co skutkuje nadmiernym zarządzaniem rozdzielczością przez narzędzie Traffic
Optimizer. W przypadku wystąpienia tego poziomu reakcji zostanie wyświetlony następujący komunikat RASlog:
[TO-1006], 1011618/1002267, FID 128, INFO, Switch_100, przepływy przeznaczone do urządzenia dev02 zostały przeniesione do PG_OVER_SUBSCRIPTION_4G_16G PG., cfs_ctrlr.c, wiersz: 1470, comp:cfsd, czas: 2023/05/17-06:15:33:923058
Działanie zarządzania nadmiarowym kodem przez narzędzie Traffic Optimizer istnieje tylko w oprogramowaniu wewnętrznym FOS 9.1.x.
Produkty
gen 7 działające na FOS w wersji 9.0.x nie są zagrożone żadnym z warunków awarii.
Warunki
ryzyka przepełnienia buforaAby przepełnienie bufora wystąpiło, poza okresem dużego przeciążenia, porty F na przełączniku klasy director lub przełącznika gen 7
również muszą zostać skonfigurowane z wartości domyślnej do większej liczby buforów. FoS domyślnie
przypisuje co najmniej 28 buforów.
Wszystkie przełączniki klasy director lub przełączniki Gen 7, które miały maksymalną liczbę buforów F-Port, zwiększyły się powyżej wartości domyślnych używanych przez
FOS, są potencjalnie zagrożone, a każdy dyrektor X7-8 lub X7-4, który wcześniej korzystał z FOS w wersji 9.0.x, może napotkać
błędy "weryfikacji". W obu przypadkach narzędzie Traffic Optimizer musi również próbować zarządzać routingiem klatek w odpowiedzi na
zdarzenie nadmiernej obsługi spowodowane w okresie dużego przeciążenia.
Aby określić dyrektorów i przełączniki, które mogą być zagrożone, użyj polecenia "portbuffershow", aby wyświetlić użycie
bufora. Jeśli łączne użycie bufora dla portów na tym samym asic/chipie, które są również strefami, powoduje dodanie do wartości większej niż 256 buforów, wówczas przełącznik Gen 7 jest uważany za zagrożony w przypadku przekroczenia bufora w przypadku poważnego przeciążenia wymagającego zarządzania nadmierną obsługą przez narzędzie Traffic Optimizer. Błąd nie zostanie napotkany w każdym zdarzeniu zarządzania nadmierną liczbą adresów, ponieważ liczba buforów zarządzanych w momencie zdarzenia musi przekroczyć 256, podczas gdy narzędzie Traffic Optimizer zarządza nadmiarową liczbą, ale skonfigurowanie do obsługi więcej niż 256 buforów spowoduje zagrożenie dla przełącznika.
W powyższym przykładzie, jeśli wszystkie 8 portów F znajduje się w jednej strefie razem, przełącznik może napotkać przepełnienie bufora ramki
, podczas gdy narzędzie Traffic Optimizer zarządza stanem przesubskrypcji, ponieważ całkowita liczba użycia bufora w tym przykładzie wynosi 360.
Jednak w poniższym przykładzie, w którym porty F nie są strefami razem, ten przełącznik nie będzie zagrożony, ponieważ dwie strefy (pokazane na zielono) łącznie do 232 buforów i 128 buforów.
Maksymalna liczba portów wykorzystywanych do zarządzania nadmiarowym opisem to 8 portów. Jeśli więcej niż 8 portów jest strefami z tego samego układu ASIC/chip, należy łącznie zebrać 8 portów z najwyższymi wartościami użycia bufora, aby określić ryzyko.
UWAGA: Dyrektorzy i przełączniki siódmej generacji, w których nigdy nie zmieniono liczby buforów F-Port z wartości domyślnych, nie są zagrożone w przypadku wystąpienia tego problemu z przepełnieniem bufora ramki. Maksymalna wartość używana jako ustawienie domyślne dla maksymalnych/zastrzeżonych buforów to 28 dla produktów siódmej generacji, jednak w zależności od typu przełącznika i prędkości optycznej może być przydzielona mniejsza liczba buforów. Klienci
, którzy nigdy nie zwiększyli liczby buforów maksymalnych/zastrzeżonych względem wartości domyślnych, nie napotkają problemu z przepełnieniem bufora
. Nawet w przypadku 8 portów z podziałem na strefy, przy użyciu maksymalnej domyślnej alokacji 28 buforów na port, łączna wartość maksymalnego
wykorzystania buforu wynosi tylko 224 ramki.
"Weryfikacja" warunków
ryzyka awariiOprócz problemu z przepełnieniem bufora dyrektorzy X7-8 i X7-4 mogą również potencjalnie być narażeni na ryzyko "weryfikacji" komunikatów o błędach, jeśli w tej kolejności spełnione są następujące warunki:
- X7-8 lub X7-4 director poprzednio działający w FOS w wersji 9.0.x
- Następnie dyrektor jest uaktualniony do WERSJI FOX 9.1.x
- Następnie dyrektor ma porty F, które wylogują się i logują w wersji 9.1.x
- Następnie dyrektor napotka zdarzenie nadmiarowej obsługi, które wymaga zarządzania za pomocą narzędzia Traffic Optimizer
- Następnie dyrektor przeprowadza przełączanie awaryjne HA (aktualizacja oprogramowania wewnętrznego powoduje przełączenie awaryjne)
- Dyrektor napotka inne zdarzenie oversubscription, które wymaga zarządzania za pomocą narzędzia Traffic Optimizer
Dyrektorzy serii X7-8 lub X7-4, którzy spełniają wszystkie te warunki, w określonej kolejności mogą napotkać błędy "weryfikacji" podczas zarządzania nadmiarową obsługą przez narzędzie Traffic Optimizer.
- Dyrektorzy X7-8 lub X7-4, którzy kiedykolwiek korzystali tylko z oprogramowania wewnętrznego FOS 9.1.x, nie mogą napotkać błędu "weryfikacji", ponieważ dla wszystkich portów używany jest tylko model programowania wersji 9.1. Dyrektorzy gen 7 muszą być wcześniej uruchomione z FOS w wersji 9.0.x, aby być podatnym na ten problem.
- Przełączniki klasy directors X7-8 lub X7-4, które zostały wyłączone z zimnego rozruchu/wyłączone podczas pracy w oprogramowaniu wewnętrznym FOS 9.1.x, również nie są zagrożone, ponieważ po ponownym uruchomieniu wszystkie porty będą korzystać z programowania wersji 9.1
Objawy
Dyrektorzy i przełączniki siódmej generacji, które napotkały zdarzenie zarządzania nadmierną subskrypcją, będą obserwować następujące
dzienniki RASlog narzędzia Traffic Optimizer:
[TO-1006], 1011618/1002267, FID 128, INFO, Switch_100, przepływy przeznaczone do urządzenia b1a02 zostały przeniesione do PG_OVER_SUBSCRIPTION_4G_16G PG., cfs_ctrlr.c, wiersz: 1470, comp:cfsd, czas: 2023/05/17-06:15:33:923058
Dodatkowe objawy, które mogą pojawić się z powodu tych zidentyfikowanych problemów, mogą być:
- Można zaobserwować dużą liczbę błędów CRC na połączeniu, które nie zostały naprawione w przypadku wymiany kabli/światłowodów
- Frames may be discarded, credit on a link can be lost
- Porty mogą być uszkodzone, ASIC może się zatrzymać i ulec awarii
- Dyrektor może zaobserwować nieoczekiwane przełączanie awaryjne HA lub nawet zimne ponowne uruchomienie urządzenia sterującego
- W przełącznikach może występować zimne ponowne uruchamianie
Cause
Zarządzanie nadmiarowym kodem przez funkcję Traffic Optimizer w określonych warunkach może spowodować awarie
wpływające na przesyłanie ramek lub portów zarządzanych. W przypadku poważnych przeciążeń awarie te mogą również
wpłynąć na wydajność innych demonów systemu operacyjnego Fabric (FOS), aktywnych w przełączniku, co prowadzi do przekroczenie
limitu czasu licznika alarmowego oprogramowania, co skutkuje awarią HA lub awarią przełącznika.
Dyrektorzy i przełączniki siódmej generacji (X7-8, X7-4, 7730 i 7720), które napotykają przepełnienie buforów ramek podczas próby zarządzania i ponownego trasowania
przepływów oversubscribed w odpowiedzi na duże zdarzenie przeciążenia, mogą powodować nieoczekiwane błędy. Jeśli
liczba ramek przekracza bufor używany do zarządzania obsługą oversubscription, nadmiarowe ramki mogą
zostać pominięte podczas obsługi narzędzia Traffic Optimizer. Nadmiarowe ramki mogą zostać nadpisane przez inne ramki, co prowadzi
do błędów ramki CRC lub nawet błędów portów w przypadku nadpisania informacji nagłówka. W przypadku scenariuszy dużego przeciążenia zarządzanie tymi przepełnieniem/nadmiarowymi ramkami może prowadzić do zablokowania innych demonów FOS, co może spowodować
przekroczenie limitu czasu licznika alarmowego. Krytyczne demony wskazujące, że przekroczenie limitu czasu spowoduje przekroczenie limitu czasu ha lub zakłócający ponowny rozruch przełącznika.
Oprócz potencjalnej obsługi przepełnienia ramki, dyrektorzy X7-8 i X7-4, którzy wcześniej działali na FOS w wersji 9.0.x, a następnie uaktualnili do FOS 9.1.x, mogą napotkać błędy weryfikacji po awarii HA (w tym spowodowane przez aktualizacje oprogramowania wewnętrznego do wyższych wersji wersji 9.1.x). Wiele komunikatów o błędach "weryfikacji" będzie widocznych podczas zarządzania nadmiarową obsługą przez narzędzie Traffic Optimizer z powodu wykrytego konfliktu w programowaniu portów utworzonych, gdy niektóre porty, ale nie wszystkie porty są resetowane w wersji 9.1.x. Konflikt między programowaniem zarządzania przeciążeniami na portach, które nigdy nie zostały zresetowane w wersji 9.0.x, a następnie napotkał zarządzanie przeciążeniami w wersji 9.1.x na portach, które zostały zresetowane, może pojawić się po zdarzeniu przełączania awaryjnego HA.
Resolution
Obejście problemu
" Na ryzyko" dyrektorzy i przełączniki mogą wyłączyć działanie zarządzania nadmierną obsługą funkcji Traffic Optimizer.
Wydaj następujące polecenie CLI z konta konserwacji, aby wyłączyć działanie zarządzania nadmiarową obsługą
w narzędziu Traffic Optimizer
maintenance> serviceexec trafoptdebug --enableosclassification 0
UWAGA: Polecenie konserwacji należy uruchomić na wszystkich przełącznikach logicznych w obudowie.
UWAGA: Ustawienie będzie trwałe w przypadku przełączania awaryjnego i cykli zasilania
Naprawczych
Działanie
Rozwiązanie programowe dostarczone w FOS w wersji 9.1.1c i nowszych zapobiega tym awariom. Te same rozwiązania są również dostępne
w FOS w wersji 9.2.0a i nowszych wersjach FOS 9.2.x. Uaktualnienie do tych wersji FOS zapobiega przekroczeniu
ramek ze względu na zarządzanie nadmiarową obsługą, a także zapobiega "weryfikacji" błędów na dyrektorach X7.
W przypadku dowolnego przełącznika klasy director lub przełącznika gen 7 (X7-8, X7-4, 7730 i 7720) nadal działającego w wersji FOS 9.0.x i może być "zagrożony",
aby napotkać opisane problemy, zaleca się poczekać na wydanie FOS 9.1.1c przed aktualizacją.
Dyrektorzy i przełączniki siódmej generacji, które obecnie działają w wersjach 9.1.x lub 9.2.0 i są uznane za zagrożone,
powinny wdrożyć obejście. Dezaktywowanie działania zarządzania nadmiarową obsługą funkcji Traffic Optimizer zapobiega
przekroczeniu bufora i błędom "weryfikacji". Po uaktualnieniu do wersji 9.1.1c lub 9.2.0a można ponownie włączyć działanie zarządzania oversubscription
za pomocą następującego polecenia:
wydaj następujące polecenie CLI z konta konserwacji, aby ponownie włączyć działanie zarządzania oversubscription w narzędziu Traffic Optimizer
maintenance> serviceexec trafoptdebug --enableosclassification 1
UWAGA: Polecenie konserwacji należy uruchomić na wszystkich przełącznikach logicznych w obudowie.
Każdy katalog director lub przełącznik gen 7, który już napotkał błąd "przepełnienia bufora", będzie musiał wykonać zimne ponowne uruchomienie
, aby w pełni przywrócić sprawność po wystąpieniu awarii:
Dyrektorów: Wyłącz/włącz przełączniki kasetowe
portu: Uruchom ponownie (zimne ponowne uruchomienie) przełącznika
Opcja 1: Wykonaj operację ponownego uruchomienia przedstawioną powyżej, a następnie zaimplementuj obejście, aby wyłączyć działanie zarządzania oversubscription z poziomu opcji 2 narzędzia Traffic Optimizer
: Uaktualnij do wersji FOS z rozwiązaniem, a następnie wykonaj operację ponownego uruchomienia przedstawioną powyżej.
Uaktualnienie do wersji FOS przy użyciu dostarczonego rozwiązania zapobiegnie wystąpieniu błędu "przepełnienie bufora", ale
po napotkaniu wadliwego stanu tylko zimne ponowne uruchomienie ASIC rozwiąże problem.
Uaktualnienie do wersji FOS przy użyciu dostarczonego rozwiązania uniemożliwi i automatycznie przywróci stan błędu
"weryfikacji" bez dalszych działań.
Po uaktualnieniu do wersji FOS, która zawiera rozwiązanie, zostanie przeprowadzone sprawdzenie pamięci wewnętrznej w celu ustalenia, czy przełącznik lub przełącznik wystąpił wcześniej błąd i wymaga ponownego uruchomienia w celu odzyskania stanu błędu.
W przypadku wykrycia warunku awarii po uaktualnieniu FOS do wersji z rozwiązaniem zostanie wyświetlony następujący dziennik RASlog:
2023/06/01-17:07:50 (GMT), [C5-1057], 5, GNIAZDO 2 | OBUDOWA, KRYTYCZNA, Switch_3,
S10, C0: Układ scalony ASIC HW jest w niespójnym stanie = 0x1002.
Jeśli po uaktualnieniu FOS zostanie zaobserwowany powyższy dziennik RAS, dyrektor lub przełącznik napotkał wcześniej błąd "przepełnienia bufora
" przed aktualizacją i będzie musiał wykonać zimne ponowne uruchomienie, aby w pełni przywrócić sprawność po awarii:
Dyrektorów: Wyłącz/włącz przełączniki kasetowe
portu: Uruchom ponownie (zimne ponowne uruchomienie) przełącznika
Affected Products
Connectrix DS-7720B, Connectrix DS-7730B, Connectrix ED-DCX7-4B, Connectrix ED-DCX7-8B