Problema con la controladora RAID PowerFlex ESXi Dell PERC H730 o H730P
Zusammenfassung: Los dispositivos de disco PowerFlex fallan aleatoriamente o informan errores en los dispositivos de disco. ESXi informa errores en los dispositivos de disco y errores de la controladora RAID LSI (comandos de anulación y restablecimiento de SCSI). ...
Symptome
Escenario:
Solo ESXI 5.5 o 6.0 se ven afectados.
El sistema ScaleIO informa errores de dispositivos de disco y los dispositivos de disco fallan aleatoriamente. Una vez que un dispositivo de disco vuelve a estar "en línea", el sistema continúa funcionando según lo esperado hasta la próxima falla del dispositivo de disco.
Data unavailability might occur when disk devices fail on different SDSs.
Indicios:
Los eventos del sistema ScaleIO informan datos degradados:
2016-01-22 17:28:35.213 MDM_DATA_DEGRADED ERROR The system is now in DEGRADED state.
Los eventos del sistema ScaleIO informan errores o fallas del dispositivo de disco:
799 2016-01-22 17:28:39.818 SDS_DEV_ERROR_REPORT ERROR Device error reported on SDS: 10.3.1.21, Device: /dev/sdb. State: NORMAL upDownState: UP processState: DEV_ERR_INPROGRESS devErrState: REPORT
Ejemplo de registros de VMkernel:
2016-01-2613:48:09.254 2016-01-26T13:50:35.576Z esxi-vcd-compute-03 vmkernel: cpu11:301656)VSCSI: 2590: handle 8194(vscsi0:0):Reset request on FSS handle 279624493 (0 outstanding commands) from (vmm0:scsi-test-4) 2016-01-2613:48:09.254 2016-01-26T13:50:35.576Z esxi-vcd-compute-03 vmkernel: cpu11:32946)VSCSI: 2868: handle 8194(vscsi0:0):Reset [Retries: 0/0]from (vmm0:scsi-test-4) 2016-01-2613:48:09.255 2016-01-26T13:50:35.576Z esxi-vcd-compute-03 vmkernel: cpu11:32946)lsi_mr3: mfi_TaskMgmt:254: Processing taskMgmt virt reset for device: vmhba0:C2:T0:L0 2016-01-2613:48:09.255 2016-01-26T13:50:35.576Z esxi-vcd-compute-03 vmkernel: cpu11:32946)lsi_mr3: mfi_TaskMgmt:258: VIRT_RESET cmd # 2514475 2016-01-2613:48:09.255 2016-01-26T13:50:35.576Z esxi-vcd-compute-03 vmkernel: cpu11:32946)lsi_mr3: mfi_TaskMgmt:262: ABORT
Ejemplo de registros de VMkernel:
2015-09-04T14:05:58.860Z cpu20:32859)lsi_mr3: mfi_TaskMgmt:254: Processing taskMgmt virt reset for device: vmhba0:C2:T0:L0 2015-09-04T14:05:58.860Z cpu20:32859)lsi_mr3: mfi_TaskMgmt:258: VIRT_RESET cmd # 28267605 2015-09-04T14:05:58.860Z cpu20:32859)lsi_mr3: mfi_TaskMgmt:262: ABORT 2015-09-04T14:05:58.864Z cpu8:33188)lsi_mr3: fusionWaitForOutstanding:2516: megasas: [ 0]waiting for 1 commands to complete
Los comandos de anulación de SCSI aparecen en el archivo messages en SVM:
Sep 2 21:35:09 ScaleIO-10-100-7-66 kernel: [28986.521362] sd 5:0:15:0: [sdw] task abort on host 5, ffff880095a00d80 Sep 2 21:35:09 ScaleIO-10-100-7-66 kernel: [28986.782459] sd 4:0:4:0: [sdg] task abort on host 4, ffff8800959d65c0 Sep 2 21:35:09 ScaleIO-10-100-7-66 kernel: [28986.782466] sd 4:0:4:0: [sdg] Failed to abort cmd ffff8800959d65c0
Impacto:
- Los dispositivos de disco fallan aleatoriamente, lo que provoca reconstrucciones y rebalanceos, y afecta el rendimiento del sistema.
- Es posible que haya datos no disponibles.
- Cuando hay un problema con el dispositivo de disco y el dispositivo de disco no responde por algún motivo, la SVM/SO desconecta el dispositivo de disco.
Ursache
Problema
con el controlador o el firmware: VMware tiene conocimiento de un problema conocido con las controladoras Dell PERC H730.
Lösung
Solución alternativa:
Dell recomendó actualizar el firmware o los controladores a la versión más reciente (en el momento del problema).
Para "conectar" el dispositivo de disco defectuoso, utilice el siguiente artículo PowerFlex no puede borrar los errores del dispositivo SDS: el estado del dispositivo es offline en el nivel del SO