Problem mit PowerFlex ESXi Dell PERC H730 oder H730P RAID-Controller

Zusammenfassung: PowerFlex-Festplattengeräte fallen zufällig aus oder melden Fehler auf Festplattengeräten. ESXi meldet Fehler auf Festplattengeräten und LSI-RAID-Controller-Fehler (SCSI-Befehle zum Abbrechen und Zurücksetzen). ...

Dieser Artikel gilt für Dieser Artikel gilt nicht für Dieser Artikel ist nicht an ein bestimmtes Produkt gebunden. In diesem Artikel werden nicht alle Produktversionen aufgeführt.

Symptome

Szenario:
Nur ESXi 5.5 oder 6.0 sind betroffen.
Das ScaleIO-System meldet Festplattengerätefehler und Festplattengeräte fallen zufällig aus. Sobald ein Laufwerk wieder "online" ist, funktioniert das System wie erwartet, bis das nächste Laufwerksgerät ausfällt.

Data unavailability might occur when disk devices fail on different SDSs.

Symptome: 
ScaleIO-Systemereignisse melden Daten heruntergestuft:

2016-01-22 17:28:35.213 MDM_DATA_DEGRADED ERROR The system is now in DEGRADED state.

ScaleIO-Systemereignisse melden Festplattengerätefehler oder -ausfälle:

799 2016-01-22 17:28:39.818 SDS_DEV_ERROR_REPORT ERROR Device error reported on SDS: 10.3.1.21, Device: /dev/sdb. State: NORMAL upDownState: UP processState: DEV_ERR_INPROGRESS devErrState: REPORT

Beispiel für VMkernel-Protokolle:

2016-01-2613:48:09.254 2016-01-26T13:50:35.576Z esxi-vcd-compute-03 vmkernel: cpu11:301656)VSCSI: 2590: handle 8194(vscsi0:0):Reset request on FSS handle 279624493 (0 outstanding commands) from (vmm0:scsi-test-4)
2016-01-2613:48:09.254 2016-01-26T13:50:35.576Z esxi-vcd-compute-03 vmkernel: cpu11:32946)VSCSI: 2868: handle 8194(vscsi0:0):Reset [Retries: 0/0]from (vmm0:scsi-test-4)
2016-01-2613:48:09.255 2016-01-26T13:50:35.576Z esxi-vcd-compute-03 vmkernel: cpu11:32946)lsi_mr3: mfi_TaskMgmt:254: Processing taskMgmt virt reset for device: vmhba0:C2:T0:L0
2016-01-2613:48:09.255 2016-01-26T13:50:35.576Z esxi-vcd-compute-03 vmkernel: cpu11:32946)lsi_mr3: mfi_TaskMgmt:258: VIRT_RESET cmd # 2514475
2016-01-2613:48:09.255 2016-01-26T13:50:35.576Z esxi-vcd-compute-03 vmkernel: cpu11:32946)lsi_mr3: mfi_TaskMgmt:262: ABORT

Beispiel für VMkernel-Protokolle:

2015-09-04T14:05:58.860Z cpu20:32859)lsi_mr3: mfi_TaskMgmt:254: Processing taskMgmt virt reset for device: vmhba0:C2:T0:L0
2015-09-04T14:05:58.860Z cpu20:32859)lsi_mr3: mfi_TaskMgmt:258: VIRT_RESET cmd # 28267605
2015-09-04T14:05:58.860Z cpu20:32859)lsi_mr3: mfi_TaskMgmt:262: ABORT
2015-09-04T14:05:58.864Z cpu8:33188)lsi_mr3: fusionWaitForOutstanding:2516: megasas: [ 0]waiting for 1 commands to complete

Die Befehle für den SCSI-Abbruch werden in der Meldungsdatei auf der SVM angezeigt:

Sep 2 21:35:09 ScaleIO-10-100-7-66 kernel: [28986.521362] sd 5:0:15:0: [sdw] task abort on host 5, ffff880095a00d80
Sep 2 21:35:09 ScaleIO-10-100-7-66 kernel: [28986.782459] sd 4:0:4:0: [sdg] task abort on host 4, ffff8800959d65c0
Sep 2 21:35:09 ScaleIO-10-100-7-66 kernel: [28986.782466] sd 4:0:4:0: [sdg] Failed to abort cmd ffff8800959d65c0

Auswirkungen:

  • Festplattengeräte fallen nach dem Zufallsprinzip aus, was zu einem erneuten Aufbau und Neuausgleich führt und sich auf die Systemleistung auswirkt.
  • Es kann vorkommen, dass Daten nicht verfügbar sind. 
  • Wenn ein Problem mit dem Festplattengerät auftritt und das Festplattengerät aus irgendeinem Grund nicht reagiert, schaltet die SVM/das Betriebssystem das Festplattengerät offline.

Ursache

Treiber- oder Firmwareproblem
VMware ist ein bekanntes Problem mit Dell PERC H730-Controllern bekannt.

Lösung

Problemumgehung:
Dell empfahl ein Upgrade auf die neueste Firmware oder die Treiber (zum Zeitpunkt des Auftretens des Problems).

Um das ausgefallene Festplattengerät online zu schalten, verwenden Sie den folgenden Artikel: PowerFlex: SDS-Gerätefehler können nicht gelöscht werden – Gerätestatus ist auf Betriebssystemebene offline

Betroffene Produkte

PowerFlex rack, ScaleIO
Artikeleigenschaften
Artikelnummer: 000283423
Artikeltyp: Solution
Zuletzt geändert: 06 März 2025
Version:  3
Antworten auf Ihre Fragen erhalten Sie von anderen Dell NutzerInnen
Support Services
Prüfen Sie, ob Ihr Gerät durch Support Services abgedeckt ist.