Isilon: Aumento dei valori di timeout di stallo dell'unità in OneFS

Summary: Molte versioni di OneFS hanno valori di timeout obsoleti configurati per il timer di stallo dell'unità. L'aumento di questi valori può contribuire a evitare inutili eventi di stallo delle unità. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

In OneFS, un'unità viene considerata bloccata se viene rilevata una delle seguenti condizioni:
  • Il completamento di una transazione di unità specifica richiede più tempo di un determinato periodo di tempo.
  • Il completamento di 50 delle ultime 1.300 operazioni di input/output (I/O) ha richiesto più tempo di un determinato periodo di tempo.
Nelle versioni oneFS precedenti alla 8.0, questi valori erano impostati rispettivamente su 1,5 e 150 ms. EMC Isilon Engineering ha determinato che il valore 1,5s non è più appropriato per l'hardware più recente che esegue qualsiasi versione di OneFS e deve essere modificato in 3.5s. Questa modifica consente di evitare che il sistema generi messaggi di stallo dell'unità non necessari.

Quando si verifica lo stallo di un'unità, il sistema tenta di impedire che le operazioni vengano inviate all'unità, preferendo altre unità nel sistema. Ciò tenta di migliorare le prestazioni evitando operazioni su unità già sovraccariche, ma può avere un effetto negativo se l'unità è stata contrassegnata come bloccata inutilmente. I flussi di lavoro sensibili alla latenza possono essere influenzati dai stalli delle unità. In genere, gli stalli dell'unità causano anche modifiche di gruppo, che a loro volta possono portare a un restriping dei job avviato inutilmente.

Cause

I limiti precedentemente impostati erano appropriati per le generazioni precedenti di hardware Isilon con caratteristiche di prestazioni e throughput diverse rispetto all'hardware moderno. Poiché la tecnologia dei nodi e del disco rigido è cambiata nel corso del tempo, questi valori sono stati determinati per essere severi sui tipi di nodi più recenti, causando l'attivazione inutilmente di eventi di stallo.

Resolution

NOTA: OneFS 8.0 dispone già dei valori corretti configurati per impostazione predefinita, quindi questa procedura non è necessaria nelle versioni OneFS 8.0.0.0 e successive.
  • Accedere all'interfaccia della riga di comando del nodo utilizzando un client SSH o stabilire una connessione seriale al nodo.
  • Eseguire il comando seguente per eseguire il backup del file /etc/mcp/override/sysctl.conf:
# touch /etc/mcp/override/sysctl.conf & cp /etc/mcp/override/sysctl.conf /etc/mcp/override/sysctl.conf.bku1
  • Eseguire il comando seguente per modificare il valore del timeout di stallo dell'unità:
# isi_sysctl_cluster hw.disk_event.thresh.slowacc_usec=3500000
  • Eseguire il comando seguente per verificare che il valore sia ora impostato correttamente:
# isi_for_array -s sysctl hw.disk_event.thresh.slowacc_usec

Dovrebbero essere visualizzati output simili ai seguenti:
 
clustername-1: hw.disk_event.thresh.slowacc_usec: 3500000
clustername-2: hw.disk_event.thresh.slowacc_usec: 3500000
clustername-3: hw.disk_event.thresh.slowacc_usec: 3500000

Affected Products

Isilon, PowerScale OneFS
Article Properties
Article Number: 000052229
Article Type: Solution
Last Modified: 28 Jun 2023
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.