XtremIO: DPG weist zwei gleichzeitige SSD-Ausfälle auf, was zu Leistungseinbußen führt
Summary: Dieser Artikel enthält Informationen darüber, wie XtremIO mit zwei gleichzeitigen Ausfällen von Solid-State-Laufwerken (SSD) in einer Data-Protection-Gruppe (Data Protection Group, DPG) umgeht und wie sich dies auf die Performance auswirken kann. Außerdem werden einige Empfehlungen dazu gegeben, wie Sie die Auswirkungen auf die Performance während des erneuten Aufbaus der DPG reduzieren können. ...
Symptoms
Eine Leistungsbeeinträchtigung tritt auf, wenn eine zweite SSD ausfällt, bevor die DPG eine Neuerstellung nach einem vorherigen SSD-Ausfall durchführt.
Cause
Wenn bei einem XtremIO eine SSD ausfällt, wird die DPG auf den verbleibenden funktionsfähigen SSDs neu aufgebaut, um die Data Protection aufrechtzuerhalten. Der DPG-Wiederherstellungsprozess unterscheidet sich bei einem Ausfall einer einzelnen SSD von dem bei zwei gleichzeitigen SSD-Ausfällen.
Wenn nur eine SSD ausfällt:
- Das System wechselt in einen einzelnen heruntergestuften Zustand und hat nur einen Paritätsblock, um die Daten wiederherzustellen.
- Die DPG-Neuerstellung beginnt mit der Wiederherstellung der Daten von der ausgefallenen SSD auf den verbleibenden funktionsfähigen SSDs, um zu Datenschutzzwecken in einen Blockstatus mit doppelter Parität zurückzukehren.
- Wenn DPG nach einem einzelnen SSD-Ausfall eine Neuerstellung durchführt, wird der Wiederherstellungsprozess im Hintergrund durchgeführt und eingehende I/O-Vorgänge werden weiterhin priorisiert.
Wenn zwei gleichzeitige SSD-Ausfälle in derselben DPG auftreten:
- Das System wechselt in einen doppelt herabgestuften Zustand, d. h. es besteht kein Paritätsschutz.
- Das Risiko eines Datenverlusts steigt dramatisch, sodass das System die Recovery priorisiert. Dadurch werden mehr CPUs benötigt, um die DPG schneller neu aufzubauen.
- XtremIO priorisiert Wiederherstellungsvorgänge gegenüber Nutzer-I/O, wodurch CPU- und Arbeitsspeicherressourcen verbraucht werden, um Datenverluste zu vermeiden.
- Diese Art der Neuerstellung erfordert umfangreiche Metadatenaktualisierungen. Er muss die Parität für jeden betroffenen Stripe berechnen und Datenintegritätsprüfungen durchführen, um sicherzustellen, dass keine Beschädigung vorliegt.
Warnmeldungen, die möglicherweise angezeigt werden, wenn die DPG neu erstellt wird:
| Warnmeldung | Symptom Code | Beschreibung |
|---|---|---|
rebuild_0_to_20_done |
XTR0800211 |
Der erneute Aufbau der DPG wurde gestartet. |
rebuild_20_to_40_done |
XTR0800221 |
Die DPG-Neuerstellung wird ausgeführt. Mehr als 20 Prozent des Umbaus sind abgeschlossen. |
rebuild_40_to_60_done |
XTR0800231 |
Die DPG-Neuerstellung wird ausgeführt. Mehr als 40 Prozent des Umbaus sind abgeschlossen. |
rebuild_60_to_80_done |
XTR0800241 |
Die DPG-Neuerstellung wird ausgeführt. Mehr als 60 Prozent des Umbaus sind abgeschlossen. |
rebuild_99_done |
XTR0800251 |
Die DPG-Neuerstellung wird ausgeführt. Mehr als 80 Prozent des Umbaus sind abgeschlossen. |
rg_state_integrate |
XTR0800904 |
Die DPG führt die SSD-Integration durch. |
ssd_assigning_to_rg |
XTR0900106 |
SSD wird der DPG zugewiesen. |
Der CLI-Befehl show-data-protection-groups kann auch ausgeführt werden, um den Fortschritt eines DPG-Neuaufbaus zu überprüfen:
xmcli (tech)> show-data-protection-groups Name Index Cluster-Name Index State Num-Of-SSDs Useful-SSD-Space User-Space User-Space-In-Use Rebuild-Progress Preparation-Progress Proactive-Metadata-Loading Rebuild-Prevention Brick-Name Index X1-DPG-1 1 LAB-XIO001 1 normal 28 97.809T 85.690T 65.344T 0 0 False none X1 1 X2-DPG-1 3 LAB-XIO001 1 double_degraded 26 97.809T 83.690T 65.359T 0 54 False assigning_disk X2 2
Resolution
Wenn zwei SSDs innerhalb derselben DPG gleichzeitig ausfallen, kann die Performance aufgrund der Ressourcen beeinträchtigt werden, die für den Wiederherstellen der Parität verbraucht werden. Es gibt weder eine Möglichkeit, die DPG-Neuerstellung zu stoppen, noch gibt es einen Befehl zum Beschleunigen. Wenn der Kunde jedoch eine erhebliche Performanceverschlechterung aufgrund eines doppelt herabgesetzten Schutzmodus (rg_double_degrade) können die folgenden Maßnahmen dazu beitragen, die Auswirkungen zu verringern, sofern dies möglich ist:
- Halten Sie alle Backups, Replikationen oder intensiven I/O-Jobs an, bis die DPG-Neuerstellung abgeschlossen ist.
- Wenn möglich, führen Sie für die meisten aktiven Hosts ein Failover auf anderen Speicher durch, bis die DPG-Neuerstellung abgeschlossen ist.
- Wenn Sie VMs verwenden, schalten Sie die VMs aus oder migrieren Sie sie oder versetzen Sie die Hosts in den Wartungsmodus.
- Verwenden Sie, wenn möglich, QoS oder hostseitige Drosselung, um die Last auf dem Array während des erneuten Aufbaus zu reduzieren.
Sobald die DPG-Neuerstellung abgeschlossen ist, sollten alle damit verbundenen Auswirkungen auf die Performance behoben werden.
Additional Information
Verwandte Artikel:
(Möglicherweise ist es erforderlich, sich als registrierter Dell Support-Nutzer anzumelden, um diese Artikel anzuzeigen.)