Problem mit PowerFlex ESXi Dell PERC H730 oder H730P RAID-Controller
Zusammenfassung: PowerFlex-Festplattengeräte fallen zufällig aus oder melden Fehler auf Festplattengeräten. ESXi meldet Fehler auf Festplattengeräten und LSI-RAID-Controller-Fehler (SCSI-Befehle zum Abbrechen und Zurücksetzen). ...
Symptome
Szenario:
Nur ESXi 5.5 oder 6.0 sind betroffen.
Das ScaleIO-System meldet Festplattengerätefehler und Festplattengeräte fallen zufällig aus. Sobald ein Laufwerk wieder "online" ist, funktioniert das System wie erwartet, bis das nächste Laufwerksgerät ausfällt.
Data unavailability might occur when disk devices fail on different SDSs.
Symptome:
ScaleIO-Systemereignisse melden Daten heruntergestuft:
2016-01-22 17:28:35.213 MDM_DATA_DEGRADED ERROR The system is now in DEGRADED state.
ScaleIO-Systemereignisse melden Festplattengerätefehler oder -ausfälle:
799 2016-01-22 17:28:39.818 SDS_DEV_ERROR_REPORT ERROR Device error reported on SDS: 10.3.1.21, Device: /dev/sdb. State: NORMAL upDownState: UP processState: DEV_ERR_INPROGRESS devErrState: REPORT
Beispiel für VMkernel-Protokolle:
2016-01-2613:48:09.254 2016-01-26T13:50:35.576Z esxi-vcd-compute-03 vmkernel: cpu11:301656)VSCSI: 2590: handle 8194(vscsi0:0):Reset request on FSS handle 279624493 (0 outstanding commands) from (vmm0:scsi-test-4) 2016-01-2613:48:09.254 2016-01-26T13:50:35.576Z esxi-vcd-compute-03 vmkernel: cpu11:32946)VSCSI: 2868: handle 8194(vscsi0:0):Reset [Retries: 0/0]from (vmm0:scsi-test-4) 2016-01-2613:48:09.255 2016-01-26T13:50:35.576Z esxi-vcd-compute-03 vmkernel: cpu11:32946)lsi_mr3: mfi_TaskMgmt:254: Processing taskMgmt virt reset for device: vmhba0:C2:T0:L0 2016-01-2613:48:09.255 2016-01-26T13:50:35.576Z esxi-vcd-compute-03 vmkernel: cpu11:32946)lsi_mr3: mfi_TaskMgmt:258: VIRT_RESET cmd # 2514475 2016-01-2613:48:09.255 2016-01-26T13:50:35.576Z esxi-vcd-compute-03 vmkernel: cpu11:32946)lsi_mr3: mfi_TaskMgmt:262: ABORT
Beispiel für VMkernel-Protokolle:
2015-09-04T14:05:58.860Z cpu20:32859)lsi_mr3: mfi_TaskMgmt:254: Processing taskMgmt virt reset for device: vmhba0:C2:T0:L0 2015-09-04T14:05:58.860Z cpu20:32859)lsi_mr3: mfi_TaskMgmt:258: VIRT_RESET cmd # 28267605 2015-09-04T14:05:58.860Z cpu20:32859)lsi_mr3: mfi_TaskMgmt:262: ABORT 2015-09-04T14:05:58.864Z cpu8:33188)lsi_mr3: fusionWaitForOutstanding:2516: megasas: [ 0]waiting for 1 commands to complete
Die Befehle für den SCSI-Abbruch werden in der Meldungsdatei auf der SVM angezeigt:
Sep 2 21:35:09 ScaleIO-10-100-7-66 kernel: [28986.521362] sd 5:0:15:0: [sdw] task abort on host 5, ffff880095a00d80 Sep 2 21:35:09 ScaleIO-10-100-7-66 kernel: [28986.782459] sd 4:0:4:0: [sdg] task abort on host 4, ffff8800959d65c0 Sep 2 21:35:09 ScaleIO-10-100-7-66 kernel: [28986.782466] sd 4:0:4:0: [sdg] Failed to abort cmd ffff8800959d65c0
Auswirkungen:
- Festplattengeräte fallen nach dem Zufallsprinzip aus, was zu einem erneuten Aufbau und Neuausgleich führt und sich auf die Systemleistung auswirkt.
- Es kann vorkommen, dass Daten nicht verfügbar sind.
- Wenn ein Problem mit dem Festplattengerät auftritt und das Festplattengerät aus irgendeinem Grund nicht reagiert, schaltet die SVM/das Betriebssystem das Festplattengerät offline.
Ursache
Treiber- oder Firmwareproblem
VMware ist ein bekanntes Problem mit Dell PERC H730-Controllern bekannt.
Lösung
Problemumgehung:
Dell empfahl ein Upgrade auf die neueste Firmware oder die Treiber (zum Zeitpunkt des Auftretens des Problems).
Um das ausgefallene Festplattengerät online zu schalten, verwenden Sie den folgenden Artikel: PowerFlex: SDS-Gerätefehler können nicht gelöscht werden – Gerätestatus ist auf Betriebssystemebene offline