XtremIO: DPG weist zwei gleichzeitige SSD-Ausfälle auf, was zu Leistungseinbußen führt

Summary: Dieser Artikel enthält Informationen darüber, wie XtremIO mit zwei gleichzeitigen Ausfällen von Solid-State-Laufwerken (SSD) in einer Data-Protection-Gruppe (Data Protection Group, DPG) umgeht und wie sich dies auf die Performance auswirken kann. Außerdem werden einige Empfehlungen dazu gegeben, wie Sie die Auswirkungen auf die Performance während des erneuten Aufbaus der DPG reduzieren können. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Eine Leistungsbeeinträchtigung tritt auf, wenn eine zweite SSD ausfällt, bevor die DPG eine Neuerstellung nach einem vorherigen SSD-Ausfall durchführt.

Cause

Wenn bei einem XtremIO eine SSD ausfällt, wird die DPG auf den verbleibenden funktionsfähigen SSDs neu aufgebaut, um die Data Protection aufrechtzuerhalten. Der DPG-Wiederherstellungsprozess unterscheidet sich bei einem Ausfall einer einzelnen SSD von dem bei zwei gleichzeitigen SSD-Ausfällen.

Wenn nur eine SSD ausfällt:

  • Das System wechselt in einen einzelnen heruntergestuften Zustand und hat nur einen Paritätsblock, um die Daten wiederherzustellen.
  • Die DPG-Neuerstellung beginnt mit der Wiederherstellung der Daten von der ausgefallenen SSD auf den verbleibenden funktionsfähigen SSDs, um zu Datenschutzzwecken in einen Blockstatus mit doppelter Parität zurückzukehren.
  • Wenn DPG nach einem einzelnen SSD-Ausfall eine Neuerstellung durchführt, wird der Wiederherstellungsprozess im Hintergrund durchgeführt und eingehende I/O-Vorgänge werden weiterhin priorisiert.

Wenn zwei gleichzeitige SSD-Ausfälle in derselben DPG auftreten:

  • Das System wechselt in einen doppelt herabgestuften Zustand, d. h. es besteht kein Paritätsschutz.
  • Das Risiko eines Datenverlusts steigt dramatisch, sodass das System die Recovery priorisiert. Dadurch werden mehr CPUs benötigt, um die DPG schneller neu aufzubauen.
  • XtremIO priorisiert Wiederherstellungsvorgänge gegenüber Nutzer-I/O, wodurch CPU- und Arbeitsspeicherressourcen verbraucht werden, um Datenverluste zu vermeiden.
  • Diese Art der Neuerstellung erfordert umfangreiche Metadatenaktualisierungen. Er muss die Parität für jeden betroffenen Stripe berechnen und Datenintegritätsprüfungen durchführen, um sicherzustellen, dass keine Beschädigung vorliegt.

Warnmeldungen, die möglicherweise angezeigt werden, wenn die DPG neu erstellt wird:

Warnmeldung Symptom Code Beschreibung
rebuild_0_to_20_done XTR0800211 Der erneute Aufbau der DPG wurde gestartet.
rebuild_20_to_40_done XTR0800221 Die DPG-Neuerstellung wird ausgeführt. Mehr als 20 Prozent des Umbaus sind abgeschlossen.
rebuild_40_to_60_done XTR0800231 Die DPG-Neuerstellung wird ausgeführt. Mehr als 40 Prozent des Umbaus sind abgeschlossen.
rebuild_60_to_80_done XTR0800241 Die DPG-Neuerstellung wird ausgeführt. Mehr als 60 Prozent des Umbaus sind abgeschlossen.
rebuild_99_done XTR0800251 Die DPG-Neuerstellung wird ausgeführt. Mehr als 80 Prozent des Umbaus sind abgeschlossen.
rg_state_integrate XTR0800904 Die DPG führt die SSD-Integration durch.
ssd_assigning_to_rg XTR0900106 SSD wird der DPG zugewiesen.


Der CLI-Befehl show-data-protection-groups kann auch ausgeführt werden, um den Fortschritt eines DPG-Neuaufbaus zu überprüfen:

xmcli (tech)> show-data-protection-groups
Name     Index Cluster-Name   Index State           Num-Of-SSDs Useful-SSD-Space User-Space User-Space-In-Use Rebuild-Progress Preparation-Progress Proactive-Metadata-Loading Rebuild-Prevention Brick-Name Index
X1-DPG-1 1     LAB-XIO001 1     normal          28          97.809T          85.690T    65.344T           0                0                    False                      none               X1         1
X2-DPG-1 3     LAB-XIO001 1     double_degraded 26          97.809T          83.690T    65.359T           0                54                   False                      assigning_disk     X2         2

Resolution

HINWEIS: Es ist wichtig, den Austausch von SSDs zu priorisieren, wenn sie ausfallen. Wenn Sie eine SSD austauschen, warten Sie, bis die DPG die Neuerstellung abgeschlossen hat, bevor Sie mit weiteren Austauschvorgängen fortfahren.
 

Wenn zwei SSDs innerhalb derselben DPG gleichzeitig ausfallen, kann die Performance aufgrund der Ressourcen beeinträchtigt werden, die für den Wiederherstellen der Parität verbraucht werden. Es gibt weder eine Möglichkeit, die DPG-Neuerstellung zu stoppen, noch gibt es einen Befehl zum Beschleunigen. Wenn der Kunde jedoch eine erhebliche Performanceverschlechterung aufgrund eines doppelt herabgesetzten Schutzmodus (rg_double_degrade) können die folgenden Maßnahmen dazu beitragen, die Auswirkungen zu verringern, sofern dies möglich ist:

  1. Halten Sie alle Backups, Replikationen oder intensiven I/O-Jobs an, bis die DPG-Neuerstellung abgeschlossen ist.
  2. Wenn möglich, führen Sie für die meisten aktiven Hosts ein Failover auf anderen Speicher durch, bis die DPG-Neuerstellung abgeschlossen ist.
  3. Wenn Sie VMs verwenden, schalten Sie die VMs aus oder migrieren Sie sie oder versetzen Sie die Hosts in den Wartungsmodus.
  4. Verwenden Sie, wenn möglich, QoS oder hostseitige Drosselung, um die Last auf dem Array während des erneuten Aufbaus zu reduzieren.

Sobald die DPG-Neuerstellung abgeschlossen ist, sollten alle damit verbundenen Auswirkungen auf die Performance behoben werden.

Additional Information

Affected Products

XtremIO, XtremIO X2
Article Properties
Article Number: 000355127
Article Type: Solution
Last Modified: 18 Sept 2025
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.