PowerFlex 3.X: Langsame Schreibvorgänge auf die Betriebssystemfestplatte können zu mehreren MDM-Problemen führen.

Summary: Langsame Schreibvorgänge auf die Betriebssystemfestplatte können zu mehreren MDM-Problemen führen.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Eine Vielzahl von Szenarien kann als Ergebnis einer langsamen Betriebssystemfestplatte auf einem MDM auftreten.

In ScaleIO 3.0 wurde der MDM-Mechanismus robuster gemacht, um Probleme mit stark langsamen Betriebssystemfestplatten besser zu bewältigen. (10+ Sekunden Latenz)


Wenn die MDMs auf Betriebssystemfestplatten ausgeführt werden, deren Schreibvorgang zu lange dauert, können die folgenden Symptome auftreten:

  • Wenn ein SDS in den Wartungszustand versetzt wird, wird der Master-MDM getrennt.

  • Ein erneutes Aufbauereignis führt dazu, dass der Master-MDM und möglicherweise auch die Slave-MDMs getrennt werden.

  • MDM-Umschaltung funktioniert nicht; Slave-MDMs können nicht die Master-MDM-Aufgaben übernehmen, daher ist kein MDM Master.

  • Die Ausgabe "scli --query_cluster" zeigt, dass Slave-MDMs gelegentlich nicht synchronisiert werden.

  • SDC-Schreib-IO-Fehler.

In allen Szenarien wird in MDM-TRC-Protokollen die Meldung "Härtung hat zu lange gedauert" angezeigt:

08/12 03:36:42.336327 0x7f64207f4eb0:replFile_WriteUnlocked:00667: WARNING: Harden took too long: 1360 ms
08/12 03:36:44.811987 0x7f6420668eb0:replFile_WriteUnlocked:00667: WARNING: Harden took too long: 1840 ms
08/12 03:36:46.463661 0x7f642072eeb0:replFile_WriteUnlocked:00667: WARNING: Harden took too long: 2210 ms

Auswirkungen

MDM-Repo-Schreibvorgänge, die den Härtungsschwellenwert überschreiten, bedeuten, dass MDM nicht synchronisiert wird.
Das bedeutet, dass der MDM-Cluster nicht synchronisiert wird und die MDM-Prozesse neu gestartet werden. 
Wenn MDMs schnell oder wiederholt neu gestartet werden, schließen Sie Szenarien ab, in denen Daten nicht verfügbar sind (wenn kein Master-MDM verfügbar ist), z. B. in "MDM-Cluster heruntergefahren" nach wiederholten Failovers. 

Cause

Wenn der Master-MDM Änderungen am Status von Datenblöcken vornehmen muss, muss er diese Statusänderungen in die MDM-Repository-Datei schreiben und diese Änderungen dann auf die Slave-MDMs synchronisieren. Wenn diese Schreibvorgänge abgeschlossen sind, benachrichtigt der MDM die SDS, dass die Änderungen abgeschlossen sind, und sie können Schreib-I/Os nur von der primären Kopie an die SDCs bereitstellen (bis der erneute Aufbau abgeschlossen ist). Wenn es länger als 500 Millisekunden (1/2 Sekunde) dauert, bis der Master-MDM die Änderungen in das lokale Repository geschrieben hat, werden die Meldungen "Härtung dauerte zu lange" in den MDM-TRC-Protokollen angezeigt. Dies führt dazu, dass der MDM nicht schnell genug auf die SDS-Anforderungen reagieren kann und zu I/O-Fehlern auf den SDCs führen kann. Der MDM verbleibt in diesem Status, bis die I/O in weniger als 500 Millisekunden oder nach 10 Sekunden, wenn eine MDM-Switch-Eigentümerschaft innerhalb des Clusters auftritt, in das Repository geschrieben werden kann. 

Resolution

Die Lösung besteht darin, das Problem mit der Latenz der Betriebssystemfestplatte zu beheben.  

Dies kann an Folgendem liegen:

  • RAID-Wiederherstellungen (14G Ready Nodes verfügen über BOSS-Karten mit 2 x m.2-SATA-Laufwerken in RAID1)

  • Festplattenverschleiß/-alter

  • Falsche Dimensionierung/Auswahl von Betriebssystemfestplatten (HDD, langsame/billige SSD usw. normalerweise nur in reinen Softwarekonfigurationen)

  • Fehler im Betriebssystem-Festplattencontroller/in der Festplattenfirmware

  • Festplattenausfall/prognostizierter Fehlerstatus 

  • Die häufigste Ursache ist jedoch eine externe I/O-Last auf der Betriebssystemfestplatte. 

In jedem Fall ist eine Überwachung/Profilerstellung der Leistung des Betriebssystemdatenträgers erforderlich.

Die Festplattenlatenz kann mit sar oder iostat überwacht werden. 

Das einfachste/universellste verfügbare Werkzeug ist iostat. 

Führen Sie 

iostat -xtN 1

Und beachten Sie die Wartezeiten in Millisekunden. 

Alle Versionen sind betroffen.

Affected Products

Converged Infrastructure

Products

Converged Infrastructure, Software, Storage, PowerFlex Software
Article Properties
Article Number: 000201707
Article Type: Solution
Last Modified: 19 Nov 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.