PowerFlex 3.X: Langsame Schreibvorgänge auf die Betriebssystemfestplatte können zu mehreren MDM-Problemen führen.
Summary: Langsame Schreibvorgänge auf die Betriebssystemfestplatte können zu mehreren MDM-Problemen führen.
Symptoms
Eine Vielzahl von Szenarien kann als Ergebnis einer langsamen Betriebssystemfestplatte auf einem MDM auftreten.
In ScaleIO 3.0 wurde der MDM-Mechanismus robuster gemacht, um Probleme mit stark langsamen Betriebssystemfestplatten besser zu bewältigen. (10+ Sekunden Latenz)
Wenn die MDMs auf Betriebssystemfestplatten ausgeführt werden, deren Schreibvorgang zu lange dauert, können die folgenden Symptome auftreten:
-
Wenn ein SDS in den Wartungszustand versetzt wird, wird der Master-MDM getrennt.
-
Ein erneutes Aufbauereignis führt dazu, dass der Master-MDM und möglicherweise auch die Slave-MDMs getrennt werden.
-
MDM-Umschaltung funktioniert nicht; Slave-MDMs können nicht die Master-MDM-Aufgaben übernehmen, daher ist kein MDM Master.
-
Die Ausgabe "scli --query_cluster" zeigt, dass Slave-MDMs gelegentlich nicht synchronisiert werden.
-
SDC-Schreib-IO-Fehler.
In allen Szenarien wird in MDM-TRC-Protokollen die Meldung "Härtung hat zu lange gedauert" angezeigt:
08/12 03:36:42.336327 0x7f64207f4eb0:replFile_WriteUnlocked:00667: WARNING: Harden took too long: 1360 ms 08/12 03:36:44.811987 0x7f6420668eb0:replFile_WriteUnlocked:00667: WARNING: Harden took too long: 1840 ms 08/12 03:36:46.463661 0x7f642072eeb0:replFile_WriteUnlocked:00667: WARNING: Harden took too long: 2210 ms
Auswirkungen
MDM-Repo-Schreibvorgänge, die den Härtungsschwellenwert überschreiten, bedeuten, dass MDM nicht synchronisiert wird.
Das bedeutet, dass der MDM-Cluster nicht synchronisiert wird und die MDM-Prozesse neu gestartet werden.
Wenn MDMs schnell oder wiederholt neu gestartet werden, schließen Sie Szenarien ab, in denen Daten nicht verfügbar sind (wenn kein Master-MDM verfügbar ist), z. B. in "MDM-Cluster heruntergefahren" nach wiederholten Failovers.
Cause
Wenn der Master-MDM Änderungen am Status von Datenblöcken vornehmen muss, muss er diese Statusänderungen in die MDM-Repository-Datei schreiben und diese Änderungen dann auf die Slave-MDMs synchronisieren. Wenn diese Schreibvorgänge abgeschlossen sind, benachrichtigt der MDM die SDS, dass die Änderungen abgeschlossen sind, und sie können Schreib-I/Os nur von der primären Kopie an die SDCs bereitstellen (bis der erneute Aufbau abgeschlossen ist). Wenn es länger als 500 Millisekunden (1/2 Sekunde) dauert, bis der Master-MDM die Änderungen in das lokale Repository geschrieben hat, werden die Meldungen "Härtung dauerte zu lange" in den MDM-TRC-Protokollen angezeigt. Dies führt dazu, dass der MDM nicht schnell genug auf die SDS-Anforderungen reagieren kann und zu I/O-Fehlern auf den SDCs führen kann. Der MDM verbleibt in diesem Status, bis die I/O in weniger als 500 Millisekunden oder nach 10 Sekunden, wenn eine MDM-Switch-Eigentümerschaft innerhalb des Clusters auftritt, in das Repository geschrieben werden kann.
Resolution
Die Lösung besteht darin, das Problem mit der Latenz der Betriebssystemfestplatte zu beheben.
Dies kann an Folgendem liegen:
-
RAID-Wiederherstellungen (14G Ready Nodes verfügen über BOSS-Karten mit 2 x m.2-SATA-Laufwerken in RAID1)
-
Festplattenverschleiß/-alter
-
Falsche Dimensionierung/Auswahl von Betriebssystemfestplatten (HDD, langsame/billige SSD usw. normalerweise nur in reinen Softwarekonfigurationen)
-
Fehler im Betriebssystem-Festplattencontroller/in der Festplattenfirmware
-
Festplattenausfall/prognostizierter Fehlerstatus
-
Die häufigste Ursache ist jedoch eine externe I/O-Last auf der Betriebssystemfestplatte.
In jedem Fall ist eine Überwachung/Profilerstellung der Leistung des Betriebssystemdatenträgers erforderlich.
Die Festplattenlatenz kann mit sar oder iostat überwacht werden.
Das einfachste/universellste verfügbare Werkzeug ist iostat.
Führen Sie
iostat -xtN 1
Und beachten Sie die Wartezeiten in Millisekunden.
Alle Versionen sind betroffen.