Isilon: Erhöhen der Timeout-Werte für die Laufwerkssperre in OneFS

Summary: Viele OneFS-Versionen verfügen über veraltete Timeout-Werte, die für den Timer "Drive Stall" konfiguriert sind. Das Erhöhen dieser Werte kann dazu beitragen, unnötige Laufwerks-Stall-Ereignisse zu verhindern. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

In OneFS gilt ein Laufwerk als angehalten, wenn eine der folgenden Bedingungen erkannt wird:
  • Eine bestimmte Laufwerkstransaktion dauert länger als eine bestimmte Zeit.
  • 50 der letzten 1.300 Eingabe-/Ausgabevorgänge (I/Os) dauerten länger als eine bestimmte Zeit.
In OneFS-Versionen vor 8.0 wurden diese Werte auf 1,5 s bzw. 150 ms festgelegt. EMC Isilon Engineering hat festgestellt, dass der 1,5-s-Wert nicht mehr für neuere Hardware geeignet ist, auf der eine Version von OneFS ausgeführt wird, und sollte in 3,5 s geändert werden. Durch diese Änderung kann verhindert werden, dass das System unnötige Meldungen zum Stillstand des Laufwerks generiert.

Wenn ein Laufwerksblock auftritt, versucht das System, zu verhindern, dass Vorgänge an dieses Laufwerk gesendet werden, wobei andere Laufwerke im System bevorzugt werden. Dadurch wird versucht, die Leistung zu verbessern, indem Vorgänge auf Laufwerken vermieden werden, die bereits überlastet sind, aber möglicherweise negative Auswirkungen haben, wenn das Laufwerk unnötig angehalten wurde. Latenzempfindliche Workflows können durch Laufwerksverzögerungen beeinträchtigt werden. In der Regel führen Laufwerksverhindungen auch zu Gruppenänderungen, was wiederum dazu führen kann, dass Restriping-Jobs unnötig initiiert werden.

Cause

Die zuvor festgelegten Grenzwerte waren für die älteren Generationen von Isilon-Hardware geeignet, die unterschiedliche Performance- und Durchsatzmerkmale als moderne Hardware aufwiesen. Da sich sowohl die Node- als auch die Festplattentechnologie im Laufe der Zeit änderten, wurde festgestellt, dass diese Werte bei neueren Node-Typen zu streng sind, was dazu führte, dass Stock-Ereignisse unnötig ausgelöst wurden.

Resolution

HINWEIS: In OneFS 8.0 sind bereits die korrekten Werte standardmäßig konfiguriert, sodass dieses Verfahren für OneFS-Versionen 8.0.0.0 und höher nicht erforderlich ist.
  • Melden Sie sich mit einem SSH-Client bei der Befehlszeilenschnittstelle des Node an oder stellen Sie eine serielle Verbindung zum Node her.
  • Führen Sie den folgenden Befehl aus, um die Datei /etc/mcp/override/sysctl.conf zu sichern:
# touch /etc/mcp/override/sysctl.conf && cp /etc/mcp/override/sysctl.conf /etc/mcp/override/sysctl.conf.bku1
  • Führen Sie den folgenden Befehl aus, um den Timeout-Wert für die Laufwerkssperre zu ändern:
# isi_sysctl_cluster hw.disk_event.thresh.slowacc_usec=35000000
  • Führen Sie den folgenden Befehl aus, um zu überprüfen, ob der Wert jetzt korrekt eingestellt ist:
# isi_for_array -s sysctl hw.disk_event.thresh.slowacc_usec

Ausgaben, die den folgenden ähneln, sollten angezeigt werden:
 
clustername-1: hw.disk_event.thresh.slowacc_usec: 3500000
Clustername-2: hw.disk_event.thresh.slowacc_usec: 3500000
Clustername-3: hw.disk_event.thresh.slowacc_usec: 3500000

Affected Products

Isilon, PowerScale OneFS
Article Properties
Article Number: 000052229
Article Type: Solution
Last Modified: 28 Jun 2023
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.