Isilon: Erhöhen der Timeout-Werte für die Laufwerkssperre in OneFS
Summary: Viele OneFS-Versionen verfügen über veraltete Timeout-Werte, die für den Timer "Drive Stall" konfiguriert sind. Das Erhöhen dieser Werte kann dazu beitragen, unnötige Laufwerks-Stall-Ereignisse zu verhindern. ...
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Symptoms
In OneFS gilt ein Laufwerk als angehalten, wenn eine der folgenden Bedingungen erkannt wird:
Wenn ein Laufwerksblock auftritt, versucht das System, zu verhindern, dass Vorgänge an dieses Laufwerk gesendet werden, wobei andere Laufwerke im System bevorzugt werden. Dadurch wird versucht, die Leistung zu verbessern, indem Vorgänge auf Laufwerken vermieden werden, die bereits überlastet sind, aber möglicherweise negative Auswirkungen haben, wenn das Laufwerk unnötig angehalten wurde. Latenzempfindliche Workflows können durch Laufwerksverzögerungen beeinträchtigt werden. In der Regel führen Laufwerksverhindungen auch zu Gruppenänderungen, was wiederum dazu führen kann, dass Restriping-Jobs unnötig initiiert werden.
- Eine bestimmte Laufwerkstransaktion dauert länger als eine bestimmte Zeit.
- 50 der letzten 1.300 Eingabe-/Ausgabevorgänge (I/Os) dauerten länger als eine bestimmte Zeit.
Wenn ein Laufwerksblock auftritt, versucht das System, zu verhindern, dass Vorgänge an dieses Laufwerk gesendet werden, wobei andere Laufwerke im System bevorzugt werden. Dadurch wird versucht, die Leistung zu verbessern, indem Vorgänge auf Laufwerken vermieden werden, die bereits überlastet sind, aber möglicherweise negative Auswirkungen haben, wenn das Laufwerk unnötig angehalten wurde. Latenzempfindliche Workflows können durch Laufwerksverzögerungen beeinträchtigt werden. In der Regel führen Laufwerksverhindungen auch zu Gruppenänderungen, was wiederum dazu führen kann, dass Restriping-Jobs unnötig initiiert werden.
Cause
Die zuvor festgelegten Grenzwerte waren für die älteren Generationen von Isilon-Hardware geeignet, die unterschiedliche Performance- und Durchsatzmerkmale als moderne Hardware aufwiesen. Da sich sowohl die Node- als auch die Festplattentechnologie im Laufe der Zeit änderten, wurde festgestellt, dass diese Werte bei neueren Node-Typen zu streng sind, was dazu führte, dass Stock-Ereignisse unnötig ausgelöst wurden.
Resolution
HINWEIS: In OneFS 8.0 sind bereits die korrekten Werte standardmäßig konfiguriert, sodass dieses Verfahren für OneFS-Versionen 8.0.0.0 und höher nicht erforderlich ist.
Ausgaben, die den folgenden ähneln, sollten angezeigt werden:
clustername-1: hw.disk_event.thresh.slowacc_usec: 3500000
Clustername-2: hw.disk_event.thresh.slowacc_usec: 3500000
Clustername-3: hw.disk_event.thresh.slowacc_usec: 3500000
- Melden Sie sich mit einem SSH-Client bei der Befehlszeilenschnittstelle des Node an oder stellen Sie eine serielle Verbindung zum Node her.
- Führen Sie den folgenden Befehl aus, um die Datei /etc/mcp/override/sysctl.conf zu sichern:
# touch /etc/mcp/override/sysctl.conf && cp /etc/mcp/override/sysctl.conf /etc/mcp/override/sysctl.conf.bku1
- Führen Sie den folgenden Befehl aus, um den Timeout-Wert für die Laufwerkssperre zu ändern:
# isi_sysctl_cluster hw.disk_event.thresh.slowacc_usec=35000000
- Führen Sie den folgenden Befehl aus, um zu überprüfen, ob der Wert jetzt korrekt eingestellt ist:
# isi_for_array -s sysctl hw.disk_event.thresh.slowacc_usec
Ausgaben, die den folgenden ähneln, sollten angezeigt werden:
clustername-1: hw.disk_event.thresh.slowacc_usec: 3500000
Clustername-2: hw.disk_event.thresh.slowacc_usec: 3500000
Clustername-3: hw.disk_event.thresh.slowacc_usec: 3500000
Affected Products
Isilon, PowerScale OneFSArticle Properties
Article Number: 000052229
Article Type: Solution
Last Modified: 28 Jun 2023
Version: 6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.