Symptoms
Betroffene
ProdukteBrocade X7-8, X7-4, 7730 und 7720, auf denen FOS v9.1.x oder FOS v9.2.0
ausgeführt wird,
wurde in den Versionen
Brocade FOS v9.1.1c, v9.2.0a und höher
korrigiert. Nur Produkte der 7. Generation sind gefährdet.
Gen 7-Directors (X7-8 und X7-4) mit installiertem FC64-48- und/oder FC32-X7-48-Port-Blade laufen Gefahr, dass sowohl überlauf- als auch "verify"-Fehler auftreten. FC32-64- und FC32-48-Port-Blades, die in Gen 7-Directors installiert sind, sind nicht gefährdet, dass beide Fehler auftreten.
Gen 7-Switches (G730 und G720) laufen nur Gefahr, dass der Pufferüberlauf ausfällt. Diese Switches sind weder der Fehlerbedingung "verify" ausgesetzt noch laufen sie Gefahr, darauf zu stoßen.
Um weiter gefährdet zu sein, muss die Fabric eine starke Überlastung haben, die zu einer Überbelegung des Managements durch Traffic
Optimizer führt. Die folgende RASlog-Meldung wird beobachtet, wenn diese Antwortebene jemals aufgetreten ist:
[TO-1006], 1011618/1002267, FID 128, INFO, Switch_100, Flows für dev02-Gerät wurden auf PG_OVER_SUBSCRIPTION_4G_16G PG., cfs_ctrlr.c, Zeile: 1470, comp:cfsd, ltime:2023/05/17-06:15:33:923058
Die Überbelegungsverwaltungsaktion durch Traffic Optimizer ist nur in der FOS v9.1.x-Firmware vorhanden.
Produkte
der 7. Generation, die auf FOS v9.0.x ausgeführt werden, sind für keine der Fehlerbedingungen gefährdet.
Risikobedingungen
für PufferüberlauffehlerDamit der Pufferüberlauf auftritt, müssen die F-Ports auf dem Gen 7-Director
oder -Switch nicht nur eine lange Überlastung erfordern, sondern auch vom Standardwert auf eine größere Anzahl von Puffern konfiguriert worden sein. FOS weist
standardmäßig höchstens 28 Puffer zu.
Alle Gen 7-Directors oder -Switche, bei denen die maximale F-Port-Pufferanzahl über die von
FOS verwendeten Standardwerte gestiegen ist, sind potenziell gefährdet und jeder X7-8- oder X7-4-Director, auf dem zuvor FOS v9.0.x ausgeführt wurde, könnte gefahrsweise
auf "Verify"-Fehler stoßen. In beiden Fällen muss Der Traffic Optimizer auch versuchen, das Routing von Frames als Reaktion auf ein Überbelegungsereignis zu
verwalten, das während eines Zeitraums starker Überlastung verursacht wurde.
Verwenden Sie den Befehl "portbuffershow", um zu bestimmen, welche Directors und Switche gefährdet sein könnten, um die Puffernutzung
anzuzeigen. Wenn die Gesamtmenge der gesamten Puffernutzung für Ports auf demselben ASIC/Chip, die ebenfalls in Zoning gruppiert sind, bis zu einem Wert größer als 256 Puffer addiert wird, gilt der Gen 7-Switch als gefährdet, wenn ein Pufferüberlauf auftritt, wenn ein schwerwiegendes Überlastungsereignis eine Überbelegung des Datenverkehrsoptimierungsmanagements erfordert. Der Fehler tritt nicht bei jedem Überbelegungsmanagementereignis auf, da die Anzahl der Puffer, die zum Zeitpunkt des Ereignisses verwaltet werden, 256 überschreiten muss, während Traffic Optimizer die Überbelegung managt, aber so konfiguriert ist, dass potenziell mehr als 256 Puffer verarbeitet werden, ist der Switch gefährdet.
Wenn sich in der obigen Beispielausgabe alle 8 F-Ports in einer Zone befinden, besteht das Risiko, dass der Switch auf einen Framepufferüberlauf
stößt, während Traffic Optimizer eine Überbelegungsbedingung verwaltet, da die Gesamtanzahl der Puffernutzung in diesem Beispiel 360 beträgt.
Im folgenden Beispiel, in dem nicht alle F-Ports in Zoning zusammengefasst sind, ist dieser Switch jedoch nicht gefährdet, da die beiden Zonen (grün dargestellt) insgesamt bis zu 232 Puffer bzw. 128 Puffer umfassen.
Die maximale Anzahl der Ports, die für die Überbelegungsverwaltung verwendet werden, beträgt 8 Ports. Wenn mehr als 8 Ports aus demselben ASIC/Chip in Zoning zusammengefasst werden, dann müssen Sie die 8 Ports mit den höchsten Werten für die Puffernutzung in einem Zoning zusammenfassen, um das Risiko zu bestimmen.
HINWEIS: Directors und Switches der 7. Generation, bei denen ihre F-Port-Pufferanzahl nie von der Standardeinstellung geändert wurde, sind nicht gefährdet, um dieses Problem mit dem Framepufferüberlauf zu beheben. Der maximale Wert, der als Standardeinstellung für max./reservierte Puffer verwendet wird, beträgt 28 für Gen 7-Produkte. Je nach Switchtyp und optischer Geschwindigkeit können jedoch weniger Puffer zugewiesen werden. Bei Kunden
, die ihre Maximale/Reservierte Pufferanzahl nie von der Standardeinstellung erhöht haben, tritt das Problem mit dem Pufferüberlauf
nicht auf. Selbst bei 8 Ports mit Zoning beträgt der Gesamtwert
der maximalen Pufferauslastung bei verwendung der maximalen Standardzuweisung von 28 Puffern pro Port nur 224 Frames.
"Überprüfen" von Fehlerrisikobedingungen
Zusätzlich zum Problem mit dem Pufferüberlauf könnten auch X7-8- und X7-4-Directors potenziell in Gefahr sein, Fehlermeldungen zu "überprüfen", wenn die folgenden Bedingungen in dieser Reihenfolge erfüllt sind:
- X7-8- oder X7-4-Director, der zuvor auf FOS v9.0.x ausgeführt wurde
- Der Director wird dann auf FOX v9.1.x aktualisiert.
- Der Director verfügt dann über F-Ports, die sich abmelden und sich bei der Version 9.1.x anmelden.
- Der Director stößt dann auf ein Überbelegungsereignis, für das das Management über Traffic Optimizer erforderlich ist.
- Der Director führt dann ein HA-Failover durch (Firmwareupgrade führt zu einem Failover)
- Der Director stößt auf ein anderes Überbelegungsereignis, das eine Verwaltung über Traffic Optimizer erfordert.
X7-8- oder X7-4-Directors, die alle diese Bedingungen erfüllen, können in der angegebenen Reihenfolge gefährdet sein, während des Überbelegungsmanagements von Traffic Optimizer "Verify"-Fehler zu finden.
- X7-8- oder X7-4-Directors, die jemals nur auf fos v9.1.x-Firmware ausgeführt wurden, sind nicht gefährdet, dass der Fehler "verify" auftritt, da nur das Programmiermodell v9.1 für alle Ports verwendet wird. Directors der 7. Generation müssen zuvor mit FOS v9.0.x ausgeführt worden sein, um für dieses Problem anfällig zu sein.
- X7-8- oder X7-4-Directors, die während der Ausführung auf fos v9.1.x-Firmware kalt gestartet/aus- und eingeschaltet wurden, sind ebenfalls nicht gefährdet, um den Fehler "verify" zu finden, da alle Ports nach dem Erneuten Starten die v9.1-Programmierung verwenden.
Symptome
Directors und Switches der 7. Generation, bei denen ein Überbelegungsmanagementereignis aufgetreten ist, beobachten den folgenden
Traffic Optimizer-RASlog:
[TO-1006], 1011618/1002267, FID 128, INFO, Switch_100, Flows für b1a02-Gerät wurden auf PG_OVER_SUBSCRIPTION_4G_16G PG., cfs_ctrlr.c, Zeile verschoben: 1470, comp:cfsd, ltime:2023/05/17-06:15:33:923058
Weitere Symptome, die aufgrund dieser identifizierten Probleme auftreten können, sind:
- Es kann eine große Anzahl von CRC-Fehlern auf einem Link beobachtet werden, die beim Austausch von Optischen/Kabeln nicht behoben sind.
- Frames können verworfen werden, Gutschrift für einen Link kann verloren gehen
- Ports sind möglicherweise fehlerhaft, ASIC wird möglicherweise angehalten und ist fehlerhaft
- Ein Director kann ein unerwartetes HA-Failover oder sogar einen Kaltneustart des Director beobachten.
- Bei Switches kann ein Kaltstart auftreten.
Cause
Die Überbelegungsverwaltung durch die Funktion Traffic Optimizer unter bestimmten Bedingungen kann zu Fehlerszenarien
führen, die die Übertragung von gemanagten Frames oder Ports beeinträchtigen. In schwerwiegenden Überlastungsszenarien können sich diese Ausfälle auch
auf die Leistung anderer Fabric OS (FOS)-Daemons auswirken, die auf dem Switch aktiv sind, was zu Software-Watchdog-Timeouts
führt, die zu einem HA-Failover oder Switch-Fehler führen.
Directors und Switches der 7. Generation (X7-8, X7-4, 7730 und 7720), die auf einen Überlauf von Framepuffern stoßen, während sie versuchen
, überlastete Abläufe als Reaktion auf ein schwerwiegendes Überlastungsereignis zu managen und umzuleiten, können zu unerwarteten Fehlern führen. Wenn
die Anzahl der Frames den Puffer überlastet, der zur Verwaltung der Überbelegung verwendet wird, können
diese überschüssigen Frames während der Verarbeitung von Traffic Optimizer übersehen werden. Diese überschüssigen Frames können möglicherweise von anderen Frames überschrieben werden, die zu Frame-CRC-Fehlern oder sogar Portfehlern führen
, wenn Headerinformationen überschrieben werden. Bei schwerwiegenden Überlastungsszenarien kann das Management dieser Überlauf-/überschüssigen Frames zur Blockierung anderer FOS-Daemons führen, was zu Watchdog-Timeouts führen
kann. Kritische Daemons, die ein Timeout verursachen, führen zu einem HA-Failover oder einem unterbrechungsfreien Switchneustart.
Zusätzlich zur Handhabung des potenziellen Frameüberlaufs konnten X7-8- und X7-4-Directors, die zuvor auf FOS v9.0.x und später auf FOS v9.1.x aktualisiert wurden, nach HA-Failovers Überprüfungsfehler auftreten (einschließlich derjenigen, die durch Firmwareupgrades auf höhere Versionen von v9.1.x verursacht wurden). Mehrere "Verify"-Fehlermeldungen werden während der Überbelegungsverwaltung durch Traffic Optimizer aufgrund eines erkannten Konflikts bei der Programmierung von Ports beobachtet, die erstellt werden, wenn einige Ports, aber nicht alle Ports zurückgesetzt werden, während Version 9.1.x. Der Konflikt zwischen der Überlastungsmanagementprogrammierung auf Ports, die nie zurückgesetzt wurden, während sie in Version 9.0.x zurückgesetzt wurden, und dann später auf dem Überlastungsmanagement bei v9.1.x auf Ports, die zurückgesetzt wurden, kann nach einem HA-Failover-Ereignis auftreten.
Resolution
Work-Around
" At Risk" können Directors und Switches die Überbelegungs-Managementaktion für den Traffic Optimizer deaktivieren.
Geben Sie den folgenden CLI-Befehl vom Wartungskonto aus, um das Verhalten der Überbelegungsverwaltungsmaßnahme
in Traffic Optimizer zu deaktivieren.
maintenance> serviceexec trifftoptdebug --enableosclassification 0
HINWEIS: Der Wartungsbefehl muss auf allen logischen Switches im Gehäuse ausgeführt werden.
HINWEIS: Die Einstellung ist über Failovers und Stromzyklen
hinweg persistent.
Korrekturmaßnahmen
Eine Softwarelösung, die in FOS v9.1.1c und höher bereitgestellt wird, verhindert diese Ausfälle. Dieselben Lösungen werden auch in fos v9.2.0a und höheren Versionen von FOS v9.2.x bereitgestellt
. Ein Upgrade auf diese FOS-Versionen verhindert eine Überschreitung von Frames aufgrund von
Überbelegungsmanagement und verhindert auch "Verify"-Fehler auf X7-Directors.
Für jeden Gen 7-Director oder -Switch (X7-8, X7-4, 7730 und 7720), auf dem immer noch eine Version von FOS v9.0.x ausgeführt wird und das Risiko
besteht, dass die beschriebenen Probleme auftreten, wird empfohlen, vor dem Upgrade auf die Veröffentlichung von FOS v9.1.1c zu warten.
Directors und Switches der 7. Generation, die derzeit auf v9.1.x- oder 9.2.0-Versionen ausgeführt werden und als gefährdet eingestuft werden,
sollten die Work-around implementieren. Die Deaktivierung der Managementaktion "Traffic Optimizer Oversubscription" verhindert, dass
sowohl der Pufferüberlauf als auch fehler "verify" auftreten. Nach dem Upgrade auf v9.1.1c oder v9.2.0a kann die Überbelegungsverwaltungsaktion
über den folgenden Befehl erneut aktiviert werden:
Geben Sie den folgenden CLI-Befehl aus dem Wartungskonto aus, um das Verhalten der Überbelegungsverwaltungsaktion in Traffic Optimizer erneut zu aktivieren.
maintenance> serviceexec trifftoptdebug --enableosclassification 1
HINWEIS: Der Wartungsbefehl muss auf allen logischen Switches im Gehäuse ausgeführt werden.
Jeder Gen 7-Director oder -Switch, bei dem bereits der "Pufferüberlauf"-Fehler aufgetreten ist, muss einen Kaltneustart
durchführen, um eine vollständige Wiederherstellung nach der Ausfallbedingung durchzuführen:
Directors: Steckplatz aus-/einschalten der betroffenen Port-Blade-Switches
: Starten Sie den Switch neu (Kaltstart).
Option 1: Führen Sie die oben gezeigte Neustartaktion durch und implementieren Sie dann die Umarbeitung, um die Überbelegungsverwaltungsaktion innerhalb von Traffic Optimizer
Option 2 zu deaktivieren: Führen Sie ein Upgrade auf eine FoS-Version mit der Lösung durch und führen Sie dann die oben gezeigte Neustartaktion durch.
Ein Upgrade auf eine FOS-Version mit der bereitgestellten Lösung verhindert, dass der "Pufferüberlauf"-Fehler auftritt, aber
sobald der Fehler auftritt, wird nur ein Kaltstart des ASIC den Fehlerzustand beheben.
Durch ein Upgrade auf eine FoS-Version mit der bereitgestellten Lösung wird verhindert und automatisch die Fehlerbedingung
"Verify" (Überprüfen) ohne weitere Maßnahmen wiederhergestellt.
Nach dem Upgrade auf eine FoS-Version, die die Lösung enthält, wird eine Überprüfung des internen Speichers durchgeführt, um festzustellen, ob der Director oder Switch zuvor auf den Fehler gestoßen ist und einen Neustart erfordert, um die Fehlerbedingung zu beheben.
Der folgende RASlog wird angezeigt, wenn die Fehlerbedingung nach dem Upgrade von FOS auf eine Version mit der Lösung erkannt wird:
2023/06/01-17:07:50 (GMT), [C5-1057], 5, SLOT 2 | GEHÄUSE, KRITISCH, Switch_3,
S10, C0: Der HW-ASIC-Chip befindet sich in einem inkonsistenten Zustand = 0x1002.
Wenn der obige RASlog nach dem Upgrade von FOS beobachtet wird, ist der Director oder Switch zuvor vor dem Upgrade auf den Fehler "Pufferüberlauf
" gestoßen und muss einen Kaltneustart durchführen, um die vollständige Wiederherstellung nach der Fehlerbedingung durchzuführen:
Directors: Steckplatz aus-/einschalten der betroffenen Port-Blade-Switches
: Starten Sie den Switch neu (Kaltstart).
Affected Products
Connectrix DS-7720B, Connectrix DS-7730B, Connectrix ED-DCX7-4B, Connectrix ED-DCX7-8B