Isilon: Aumentando os valores de timeout de paralisação da unidade no OneFS

Summary: Muitas versões do OneFS têm valores obsoletos de timeout configurados para o temporizador de paralisação da unidade. Aumentar esses valores pode ajudar a evitar eventos desnecessários de paralisação da unidade. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

No OneFS, uma unidade é considerada paralisada se uma das seguintes condições for detectada:
  • Uma transação específica de unidade leva mais do que um determinado período para ser concluída.
  • 50 das últimas 1.300 operações de entrada/saída (I/Os) demoraram mais do que uma determinada quantidade de tempo para serem concluídas.
Em versões do OneFS anteriores à 8.0, esses valores eram definidos como 1,5 e 150 ms, respectivamente. A engenharia do EMC Isilon determinou que o valor de 1,5 s não é mais apropriado para hardware mais recente que executa qualquer versão do OneFS e deve ser alterado para 3,5 s. Fazer essa alteração ajuda a impedir que o sistema gere mensagens desnecessárias de paralisação da unidade.

Quando ocorre uma paralisação da unidade, o sistema tenta impedir que as operações sejam enviadas para essa unidade, preferendo outras unidades no sistema. Isso tenta melhorar o desempenho evitando operações em unidades que já estão sobrecarregadas, mas que podem ter um efeito adverso se a unidade foi marcada paralisada desnecessariamente. Fluxos de trabalho sensíveis à latência podem ser afetados por paralisações de unidades. Normalmente, as paralisações de unidades também causam alterações de grupo, o que, por sua vez, pode fazer com que os trabalhos de reparticionamento sejam iniciados desnecessariamente.

Cause

Os limites definidos anteriormente eram adequados para as gerações mais antigas de hardware isilon que tinham diferentes características de desempenho e throughput do hardware moderno. À medida que a tecnologia de nó e disco rígido mudou ao longo do tempo, esses valores foram determinados como excessivamente rígidos nos tipos de nó mais recentes, fazendo com que os eventos de paralisação sejam acionados desnecessariamente.

Resolution

Nota: O OneFS 8.0 já tem os valores corretos configurados por padrão, portanto, esse procedimento não é necessário nas versões 8.0.0.0 e posteriores do OneFS.
  • Faça log-in na interface de linha de comando do nó usando um SSH client ou estabeleça uma conexão serial com o nó.
  • Execute o seguinte comando para fazer backup do arquivo /etc/mcp/override/sysctl.conf:
# toque em /etc/mcp/override/sysctl.conf && cp /etc/mcp/override/sysctl.conf /etc/mcp/override/sysctl.conf.bku1
  • Execute o seguinte comando para alterar o valor de timeout de paralisação da unidade:
Nº isi_sysctl_cluster hw.disk_event.thrhr_usec=3500000
  • Execute o seguinte comando para verificar se o valor agora está definido corretamente:
# isi_for_array -sysctl hw.disk_event.thrhr_usec

Saídas semelhantes às seguintes devem aparecer:
 
clustername-1: hw.disk_event.thrhr_usec: 3500000
clustername-2: hw.disk_event.thrhr_usec: 3500000
clustername-3: hw.disk_event.thrhr_usec: 3500000

Affected Products

Isilon, PowerScale OneFS
Article Properties
Article Number: 000052229
Article Type: Solution
Last Modified: 28 Jun 2023
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.