Problema del controller RAID PowerFlex ESXi Dell PERC H730 o H730P
Zusammenfassung: I dispositivi disco PowerFlex si guastano in modo casuale o segnalano errori sui dispositivi disco. ESXi segnala gli errori sui dispositivi disco e gli errori del controller RAID LSI (comandi di interruzione e ripristino SCSI). ...
Symptome
Scenario:
Sono interessati solo ESXI 5.5 o 6.0.
Il sistema ScaleIO segnala errori dei dispositivi disco e i dispositivi disco si guastano in modo casuale. Una volta che un dispositivo disco è tornato "online", il sistema continua a funzionare come previsto fino al successivo guasto del dispositivo disco.
Data unavailability might occur when disk devices fail on different SDSs.
Sintomi:
Gli eventi del sistema ScaleIO segnalano dati danneggiati:
2016-01-22 17:28:35.213 MDM_DATA_DEGRADED ERROR The system is now in DEGRADED state.
Gli eventi di sistema ScaleIO segnalano errori o guasti del dispositivo disco:
799 2016-01-22 17:28:39.818 SDS_DEV_ERROR_REPORT ERROR Device error reported on SDS: 10.3.1.21, Device: /dev/sdb. State: NORMAL upDownState: UP processState: DEV_ERR_INPROGRESS devErrState: REPORT
Esempio di log VMkernel:
2016-01-2613:48:09.254 2016-01-26T13:50:35.576Z esxi-vcd-compute-03 vmkernel: cpu11:301656)VSCSI: 2590: handle 8194(vscsi0:0):Reset request on FSS handle 279624493 (0 outstanding commands) from (vmm0:scsi-test-4) 2016-01-2613:48:09.254 2016-01-26T13:50:35.576Z esxi-vcd-compute-03 vmkernel: cpu11:32946)VSCSI: 2868: handle 8194(vscsi0:0):Reset [Retries: 0/0]from (vmm0:scsi-test-4) 2016-01-2613:48:09.255 2016-01-26T13:50:35.576Z esxi-vcd-compute-03 vmkernel: cpu11:32946)lsi_mr3: mfi_TaskMgmt:254: Processing taskMgmt virt reset for device: vmhba0:C2:T0:L0 2016-01-2613:48:09.255 2016-01-26T13:50:35.576Z esxi-vcd-compute-03 vmkernel: cpu11:32946)lsi_mr3: mfi_TaskMgmt:258: VIRT_RESET cmd # 2514475 2016-01-2613:48:09.255 2016-01-26T13:50:35.576Z esxi-vcd-compute-03 vmkernel: cpu11:32946)lsi_mr3: mfi_TaskMgmt:262: ABORT
Esempio di log VMkernel:
2015-09-04T14:05:58.860Z cpu20:32859)lsi_mr3: mfi_TaskMgmt:254: Processing taskMgmt virt reset for device: vmhba0:C2:T0:L0 2015-09-04T14:05:58.860Z cpu20:32859)lsi_mr3: mfi_TaskMgmt:258: VIRT_RESET cmd # 28267605 2015-09-04T14:05:58.860Z cpu20:32859)lsi_mr3: mfi_TaskMgmt:262: ABORT 2015-09-04T14:05:58.864Z cpu8:33188)lsi_mr3: fusionWaitForOutstanding:2516: megasas: [ 0]waiting for 1 commands to complete
I comandi di interruzione SCSI vengono visualizzati nel file dei messaggi sulla SVM:
Sep 2 21:35:09 ScaleIO-10-100-7-66 kernel: [28986.521362] sd 5:0:15:0: [sdw] task abort on host 5, ffff880095a00d80 Sep 2 21:35:09 ScaleIO-10-100-7-66 kernel: [28986.782459] sd 4:0:4:0: [sdg] task abort on host 4, ffff8800959d65c0 Sep 2 21:35:09 ScaleIO-10-100-7-66 kernel: [28986.782466] sd 4:0:4:0: [sdg] Failed to abort cmd ffff8800959d65c0
Impatto:
- I dispositivi disco si guastano in modo casuale, causando ricostruzione e ribilanciamento e influendo sulle prestazioni del sistema.
- È possibile che i dati non siano disponibili.
- Se si verifica un problema con il dispositivo disco e il dispositivo disco non risponde per qualsiasi motivo, la SVM/OS disconnette il dispositivo disco.
Ursache
Problema
di driver o firmware VMware è a conoscenza di un problema noto dei controller Dell PERC H730.
Lösung
Soluzione alternativa:
Dell consiglia di eseguire l'aggiornamento al firmware o ai driver più recenti (al momento del problema).
Per rendere "online" il dispositivo disco guasto, consultare l'articolo PowerFlex Unable to clear SDS device errors - device state is offline on OS level