Problém s řadičem RAID PowerFlex ESXi Dell PERC H730 nebo H730P
Zusammenfassung: Disková zařízení PowerFlex náhodně selhávají nebo hlásí chyby na diskových zařízeních. Systém ESXi hlásí chyby na diskových zařízeních a chyby řadiče LSI RAID (příkazy pro přerušení/resetování SCSI). ...
Symptome
Scénář:
Dotčeny jsou pouze systémy ESXi 5.5 nebo 6.0.
Systém ScaleIO hlásí chyby diskových zařízení a disková zařízení náhodně selhávají. Jakmile je diskové zařízení opět "online", systém pokračuje v práci podle očekávání až do dalšího selhání diskového zařízení.
Data unavailability might occur when disk devices fail on different SDSs.
Příznaky:
Systémové události ScaleIO hlásí degradaci dat:
2016-01-22 17:28:35.213 MDM_DATA_DEGRADED ERROR The system is now in DEGRADED state.
Systémové události ScaleIO hlásí chyby nebo selhání diskového zařízení:
799 2016-01-22 17:28:39.818 SDS_DEV_ERROR_REPORT ERROR Device error reported on SDS: 10.3.1.21, Device: /dev/sdb. State: NORMAL upDownState: UP processState: DEV_ERR_INPROGRESS devErrState: REPORT
Příklad protokolů VMkernel:
2016-01-2613:48:09.254 2016-01-26T13:50:35.576Z esxi-vcd-compute-03 vmkernel: cpu11:301656)VSCSI: 2590: handle 8194(vscsi0:0):Reset request on FSS handle 279624493 (0 outstanding commands) from (vmm0:scsi-test-4) 2016-01-2613:48:09.254 2016-01-26T13:50:35.576Z esxi-vcd-compute-03 vmkernel: cpu11:32946)VSCSI: 2868: handle 8194(vscsi0:0):Reset [Retries: 0/0]from (vmm0:scsi-test-4) 2016-01-2613:48:09.255 2016-01-26T13:50:35.576Z esxi-vcd-compute-03 vmkernel: cpu11:32946)lsi_mr3: mfi_TaskMgmt:254: Processing taskMgmt virt reset for device: vmhba0:C2:T0:L0 2016-01-2613:48:09.255 2016-01-26T13:50:35.576Z esxi-vcd-compute-03 vmkernel: cpu11:32946)lsi_mr3: mfi_TaskMgmt:258: VIRT_RESET cmd # 2514475 2016-01-2613:48:09.255 2016-01-26T13:50:35.576Z esxi-vcd-compute-03 vmkernel: cpu11:32946)lsi_mr3: mfi_TaskMgmt:262: ABORT
Příklad protokolů VMkernel:
2015-09-04T14:05:58.860Z cpu20:32859)lsi_mr3: mfi_TaskMgmt:254: Processing taskMgmt virt reset for device: vmhba0:C2:T0:L0 2015-09-04T14:05:58.860Z cpu20:32859)lsi_mr3: mfi_TaskMgmt:258: VIRT_RESET cmd # 28267605 2015-09-04T14:05:58.860Z cpu20:32859)lsi_mr3: mfi_TaskMgmt:262: ABORT 2015-09-04T14:05:58.864Z cpu8:33188)lsi_mr3: fusionWaitForOutstanding:2516: megasas: [ 0]waiting for 1 commands to complete
Příkazy pro přerušení SCSI se zobrazují v souboru zpráv v SVM:
Sep 2 21:35:09 ScaleIO-10-100-7-66 kernel: [28986.521362] sd 5:0:15:0: [sdw] task abort on host 5, ffff880095a00d80 Sep 2 21:35:09 ScaleIO-10-100-7-66 kernel: [28986.782459] sd 4:0:4:0: [sdg] task abort on host 4, ffff8800959d65c0 Sep 2 21:35:09 ScaleIO-10-100-7-66 kernel: [28986.782466] sd 4:0:4:0: [sdg] Failed to abort cmd ffff8800959d65c0
Dopad:
- Disková zařízení náhodně selhávají, což způsobuje opětovné vytvoření a vyvážení a ovlivňuje výkon systému.
- Může dojít k nedostupnosti dat.
- Pokud dojde k problému s diskovým zařízením a diskové zařízení z jakéhokoli důvodu nereaguje, SVM/OS diskové zařízení odpojí.
Ursache
Problém
s ovladačem nebo firmwarem Společnost VMware si je vědoma známého problému s řadiči Dell PERC H730.
Lösung
Alternativní řešení:
Společnost Dell doporučila provést upgrade na nejnovější firmware nebo ovladače (v době výskytu problému).
Chcete-li vadné diskové zařízení přepnout do režimu online, použijte následující článek PowerFlex Nelze vymazat chyby zařízení SDS – stav zařízení je na úrovni operačního systému offline