PowerFlex 3.X: Gravações lentas no disco do SO podem causar vários problemas de MDM.

Summary: Gravações lentas no disco do sistema operacional podem causar vários problemas de MDM.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Qualquer número de cenários pode ser apresentado como resultado de um disco lento do sistema operacional em um MDM.

No ScaleIO 3.0, o mecanismo do MDM tornou-se mais robusto para lidar melhor com problemas de disco do SO gravemente lentos. (+ 10 segundos de latência)


Quando os MDMs estão sendo executados em discos do sistema operacional que levam muito tempo para gravar, os seguintes sintomas podem ser observados:

  • Colocar um SDS em manutenção faz com que o MDM principal se desconecte.

  • Um evento de recriação faz com que o MDM principal e, possivelmente, também os MDMs escravos se desconectem.

  • O switchover do MDM não funciona; MDMs escravos não podem assumir responsabilidades de MDM mestre e, portanto, nenhum MDM é mestre.

  • A saída de "scli --query_cluster" mostra MDMs escravos não sincronizados ocasionalmente.

  • O SDC grava erros de E/S.

Em todos os cenários, "Harden took too time" é visto nos logs trc do MDM:

08/12 03:36:42.336327 0x7f64207f4eb0:replFile_WriteUnlocked:00667: WARNING: Harden took too long: 1360 ms
08/12 03:36:44.811987 0x7f6420668eb0:replFile_WriteUnlocked:00667: WARNING: Harden took too long: 1840 ms
08/12 03:36:46.463661 0x7f642072eeb0:replFile_WriteUnlocked:00667: WARNING: Harden took too long: 2210 ms

Impacto

As gravações de repositório do MDM que excedem o limite de proteção significam que o MDM não está sincronizado.
Isso significa que o cluster do MDM não está sincronizado e os processos do MDM são reiniciados. 
Se os MDMs forem reiniciados rapidamente/repetidamente o suficiente, poderão ocorrer cenários completos de indisponibilidade de dados (quando não houver MDM mestre disponível), como no cluster do MDM, inativos após failovers repetidos. 

Cause

Quando o MDM mestre deve fazer alterações no estado dos blocos de dados, ele deve gravar essas alterações de estado no arquivo de repositório do MDM e, em seguida, sincronizar essas alterações com os MDMs escravos. Quando essas gravações são concluídas, o MDM notifica os SDSes que as alterações são finalizadas e eles podem servir E/S de gravação para os SDCs apenas a partir da cópia primária (até que a recriação seja concluída). Se o MDM principal demorar mais de 500 milissegundos (1/2 segundo) para gravar as alterações no repositório local, as mensagens "Harden took too long" serão exibidas nos registros trc do MDM. Isso faz com que o MDM não consiga responder com rapidez suficiente às solicitações de SDSes e pode causar erros de E/S nos SDCs. O MDM permanecerá nesse estado até que a E/S possa gravar no repositório em menos de 500 milissegundos ou após 10 segundos quando ocorrer uma propriedade de switch MDM no cluster. 

Resolution

A solução é resolver o problema de latência do disco do sistema operacional.  

Isso pode ser devido a:

  • Reconstruções de RAID (os 14G Ready Nodes têm placas BOSS com 2 unidades SATA m.2 no RAID 1)

  • Desgaste/idade do disco

  • Dimensionamento/seleção inadequados de discos do sistema operacional (disco rígido, SSD lento/barato etc., geralmente apenas em configurações somente de software)

  • Bugs no controlador de disco/firmware de disco do SO

  • Estado de falha de disco/falha preditiva 

  • Mas a causa mais comum é a carga de E/S estranha no disco do sistema operacional. 

Em qualquer caso, é necessário monitorar/definir a definição de perfis do desempenho do disco do sistema operacional.

A latência do disco pode ser monitorada por sar ou iostat. 

A ferramenta mais fácil/universalmente disponível é o iostat. 

Execute 

iostat -xtN 1

E observe os tempos de espera, relatados em milissegundos. 

Todas as versões são afetadas.

Affected Products

Converged Infrastructure

Products

Converged Infrastructure, Software, Storage, PowerFlex Software
Article Properties
Article Number: 000201707
Article Type: Solution
Last Modified: 19 Nov 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.