Dell Unity: Wenn ein SP nach dem Austausch eines Systemlaufwerks aufgrund einer EOL-Bedingung neu gestartet wird, kann es zu einer Nichtverfügbarkeit von Daten kommen
Zusammenfassung: Problem: Wenn ein Dynamic Pool mit Systemlaufwerken erstellt wird, ein Systemlaufwerk das Ende seiner Nutzungsdauer (EOL) erreicht und das Laufwerk physisch durch ein funktionierendes Laufwerk ersetzt wird, liegt eine Bedingung vor, bei der der Neustart eines SPs den Dynamic Pool offline schalten kann, was zu einer Nichtverfügbarkeit von Daten (DU) führt. ...
Symptome
Bedingungen, die vorliegen müssen, bevor ein DU-Pool-Offline-Ereignis eintritt:
- Das Systemlaufwerk meldet selbst das Ende seiner Nutzungsdauer (EOL).
- Auf dem System wird eine 4.2.x-Version von Unity OE ausgeführt.
- Das EOL-Laufwerk wird anschließend von NutzerInnen durch ein neues Laufwerk ersetzt.
- Ein einzelner SP wird neu gestartet, was dazu führt, dass der Pool offline geht und keine Daten verfügbar sind.
Dieses Problem tritt nur bei Dynamic Pools auf, die mit Systemlaufwerken (DPE-Laufwerkssteckplätze 0, 1, 2 und 3) erstellt wurden, die Unity OE-Versionen 4.2.0 und 4.2.1 ausführen und bei denen ein Systemlaufwerk das Ende seiner Nutzungsdauer (EOL) gemeldet hat. Wenn das Laufwerk physisch durch ein funktionierendes Laufwerk ersetzt wird, liegt eine Bedingung vor, bei der der Neustart eines einzelnen SPs den Dynamic Pool offline schalten kann, was dazu führt, dass keine Daten verfügbar sind.
Die DU-Bedingung (Data Unavailable) tritt nur auf, wenn einer der SPs neu gestartet wird, nachdem das EOL-Laufwerk physisch durch ein neues Laufwerk ersetzt wurde.
Wenn nach einem Neustart eines einzelnen SPs eine DU-Situation auftritt, bei der Ressourcen nicht verfügbar sind, weil ein Pool als offline gemeldet wird, löst ein sofortiger Neustart des anderen SPs, der noch nicht neu gestartet wurde, die DU-Situation auf und stellt den Onlinestatus des Pools wieder her, sodass kein weiteres Risiko einer DU besteht.
Mehrere Warnmeldungen, heruntergestufter Systemstatus für EOL-Laufwerk:
Warning 14:60515 System unity550f has experienced one or more problems that have left it in a degraded state. Warning 14:6027c DPE Disk 1 is reaching the end of its service life and needs to be replaced. Warning 14:60340 Storage pool Dynamic1 has 1 drive(s) predicted to exceed end-of-life thresholds within 0 day(s)...
Unisphere oder UEMCLI zeigen möglicherweise Folgendes für das EOL-Systemlaufwerk an:
The system has started an automatic copy of data from this drive that is wearing out to a spare drive.
KRITISCHER Systemstatus und Pool offline, wenn ein SP neu gestartet wird:
Critical 14:6032b Storage pool Dynamic1 is offline. The pool is offline. Contact your service provider. Critical 14:60514 System unity550f has experienced one or more problems that have had a critical impact
Ursache
In 4.2.0 und 4.2.1 tritt ein Problem mit Dynamic Pools auf, die mit Systemlaufwerken erstellt wurden. Wenn ein Systemlaufwerk meldet, dass das Ende seiner Nutzungsdauer (EOL) erreicht ist, und das betroffene Systemlaufwerk später physisch durch ein neues Laufwerk ersetzt wird, besteht die Möglichkeit eines DU-Ereignisses, wenn ein einzelner SP neu gestartet wird. Das Problem wird dadurch verursacht, dass der Pool die EOL-Markierung fälschlicherweise auf dem Laufwerk beibehält, mit dem das EOL-Systemlaufwerk physisch ersetzt wurde, auch wenn die Benutzeroberfläche und UEMCLI melden, dass das System normal funktioniert. Der Neustart eines einzelnen SP führt dazu, dass der zugehörige Dynamic Pool offline geht, was zu einem Verlust des Zugriffs auf alle LUN- oder Dateisystemobjekte führt, die in diesem Pool erstellt wurden.
Im Abschnitt „Lösung“ unten wird beschrieben, wie Sie aus einer vorhandenen DU-Situation wiederherstellen (den anderen SP neu starten) oder wie Sie das Auftreten der DU-Situation verhindern und die DU-Bedingung durch eine Reihe vorbeugender Schritte beseitigen können.
Lösung
Szenario 1: Pool ist offline, es kommt zu DU (Bedingungen 1–5 liegen vor)
Wenn alle oben beschriebenen Bedingungen erfüllt sind und Sie keinen Zugriff auf Objekte haben, die aus Dynamic Pools erstellt wurden (d. h. der Pool ist offline), können Sie aus der DU-Situation wiederherstellen, indem Sie sofort den anderen SP neu starten, der noch nicht neu gestartet wurde. Dadurch wird der Zugriff wiederhergestellt und es besteht kein weiteres Risiko für eine DU. Das Problem wurde dauerhaft behoben.
Das Verfahren zum Neustarten eines Storage-Prozessors finden Sie im folgenden Wissensdatenbank-Artikel: Dell Unity: Neustarten eines Storage-Prozessors (vom Nutzer korrigierbar) .
Kommentare zu Szenario 1:
Wenn Sie ein Systemlaufwerk haben, das als EOL gekennzeichnet war, das EOL-Laufwerk ersetzt haben und nach dem Neustart eines SP nun eine DU-Situation auftritt, wird eine Warnmeldung oder die Pool-Meldung „Der Pool ist offline“ angezeigt. Sie können den Zugriff wiederherstellen und den betroffenen Pool wieder online schalten, indem Sie sofort den anderen SP neu starten, d. h. den SP, der noch nicht neu gestartet wurde. Dadurch wird das verbleibende EOL-Attribut aus dem Dynamic Pool entfernt und der Pool kann wieder online geschaltet werden. Wenn die DU-Situation jedoch während eines NDU-Upgrades auftritt und der erste SP für das Upgrade neu gestartet wird, wird der Pool leider offline geschaltet, kehrt jedoch in den Onlinestatus zurück, nachdem der zweite SP für die Upgradeaktivität neu gestartet wurde.
Szenario 1 – Lösung für KundInnen:
-
Starten Sie den anderen, noch nicht neu gestarteten SP neu oder führen Sie im Falle eines NDU (Non-Disruptive Upgrade) das NDU bis zum Abschluss aus.
Szenario 2: Verhindern einer DU (nur die Bedingungen 1–4 liegen vor)
Wenn nur die Bedingungen 1 bis 4 vorhanden sind, ist noch keine DU aufgetreten, da noch kein SP neu gestartet wurde. Führen Sie die folgenden Schritte aus, um eine mögliche DU-Situation zu vermeiden.
Szenario 2 – Lösung für KundInnen:
- Wenn Sie ein Ersatzlaufwerk vom gleichen Typ (z. B. SAS-Flash 2) und mit derselben Größe (kann größer, aber nicht kleiner sein) und einen freien Laufwerkssteckplatz auf dem Array haben, setzen Sie das Ersatzlaufwerk ein. Es wird automatisch zum Pool hinzugefügt und damit das potenzielle DU-Problem beseitigt.
- Nach 10 bis 15 Minuten sollten eine Warnmeldung und der Status das System als „Normal“ (System xxx funktioniert normal) anzeigen.
- Unter „Pool-Eigenschaften > Laufwerke“ (der Pool mit dem EOL-Systemlaufwerk) sollte angezeigt werden, dass das Ersatzlaufwerk jetzt verwendet wird und das EOL-Laufwerk ersetzt hat.
- Ab diesem Punkt sind keine weiteren Maßnahmen erforderlich. Wenn Sie jedoch nicht hinreichend überprüfen können, ob das Ersatzlaufwerk das EOL-Systemlaufwerk im Pool ersetzt hat, wenden Sie sich an Ihre/n ServiceanbieterIn, um Unterstützung zu erhalten, und beziehen Sie sich auf diese Artikelnummer.
- Wenn Sie kein Ersatzlaufwerk haben, das in einen Steckplatz im Array eingesetzt werden kann, wenden Sie sich an Ihre/n ServiceanbieterIn und beziehen Sie sich auf diesen Wissensdatenbank-Artikel. Starten Sie keinen der SPs neu. Ihr/e AnbieterIn kann unterbrechungsfreie Schritte durchführen, die eine potenzielle DU aufgrund des in diesem Artikel beschriebenen Problems verhindern.
Weitere Informationen
Dieses Problem wurde in 4.3.0.1522077968 und höher behoben. Wie jedoch oben erwähnt, wird, wenn die Bedingungen 1 bis 4 bereits vorhanden waren und nicht behoben wurden, während des NDU-Upgrades auf 4.3, nachdem der erste SP für das Upgrade neu gestartet wurde, der Dynamic Pool offline gehen, was zu DU führt. Nachdem der zweite SP aktualisiert und neu gestartet wurde, wird der Pool jedoch wieder online geschaltet und das DU-Ereignis beendet.
Weitere Informationen finden Sie in den aktuellen Versionshinweisen zur Dell Unity-Produktreihe.
Wenden Sie sich an den technischen Support von Dell oder Ihre/n autorisierte/n ServiceanbieterIn und geben Sie diese Wissensdatenbank-Artikel-ID an.