Problema no controlador RAID Dell PERC H730 ou H730P do PowerFlex ESXi
Zusammenfassung: Os dispositivos de disco do PowerFlex estão falhando aleatoriamente ou relatam erros em dispositivos de disco. O ESXi relata erros em dispositivos de disco e erros do controlador RAID LSI (comandos de abortar e redefinir SCSI). ...
Symptome
Cenário:
Somente o ESXI 5.5 ou 6.0 é afetado.
O sistema ScaleIO está relatando erros do dispositivo de disco e os dispositivos de disco estão falhando aleatoriamente. Depois que um dispositivo de disco estiver novamente "on-line", o sistema continuará funcionando como esperado até a próxima falha do dispositivo de disco.
Data unavailability might occur when disk devices fail on different SDSs.
Sintomas:
Os eventos do sistema ScaleIO relatam dados degradados:
2016-01-22 17:28:35.213 MDM_DATA_DEGRADED ERROR The system is now in DEGRADED state.
Os eventos do sistema ScaleIO relatam erros ou falhas do dispositivo de disco:
799 2016-01-22 17:28:39.818 SDS_DEV_ERROR_REPORT ERROR Device error reported on SDS: 10.3.1.21, Device: /dev/sdb. State: NORMAL upDownState: UP processState: DEV_ERR_INPROGRESS devErrState: REPORT
Exemplo de logs do VMkernel:
2016-01-2613:48:09.254 2016-01-26T13:50:35.576Z esxi-vcd-compute-03 vmkernel: cpu11:301656)VSCSI: 2590: handle 8194(vscsi0:0):Reset request on FSS handle 279624493 (0 outstanding commands) from (vmm0:scsi-test-4) 2016-01-2613:48:09.254 2016-01-26T13:50:35.576Z esxi-vcd-compute-03 vmkernel: cpu11:32946)VSCSI: 2868: handle 8194(vscsi0:0):Reset [Retries: 0/0]from (vmm0:scsi-test-4) 2016-01-2613:48:09.255 2016-01-26T13:50:35.576Z esxi-vcd-compute-03 vmkernel: cpu11:32946)lsi_mr3: mfi_TaskMgmt:254: Processing taskMgmt virt reset for device: vmhba0:C2:T0:L0 2016-01-2613:48:09.255 2016-01-26T13:50:35.576Z esxi-vcd-compute-03 vmkernel: cpu11:32946)lsi_mr3: mfi_TaskMgmt:258: VIRT_RESET cmd # 2514475 2016-01-2613:48:09.255 2016-01-26T13:50:35.576Z esxi-vcd-compute-03 vmkernel: cpu11:32946)lsi_mr3: mfi_TaskMgmt:262: ABORT
Exemplo de logs do VMkernel:
2015-09-04T14:05:58.860Z cpu20:32859)lsi_mr3: mfi_TaskMgmt:254: Processing taskMgmt virt reset for device: vmhba0:C2:T0:L0 2015-09-04T14:05:58.860Z cpu20:32859)lsi_mr3: mfi_TaskMgmt:258: VIRT_RESET cmd # 28267605 2015-09-04T14:05:58.860Z cpu20:32859)lsi_mr3: mfi_TaskMgmt:262: ABORT 2015-09-04T14:05:58.864Z cpu8:33188)lsi_mr3: fusionWaitForOutstanding:2516: megasas: [ 0]waiting for 1 commands to complete
Os comandos de anulação de SCSI são exibidos no arquivo de mensagens na SVM:
Sep 2 21:35:09 ScaleIO-10-100-7-66 kernel: [28986.521362] sd 5:0:15:0: [sdw] task abort on host 5, ffff880095a00d80 Sep 2 21:35:09 ScaleIO-10-100-7-66 kernel: [28986.782459] sd 4:0:4:0: [sdg] task abort on host 4, ffff8800959d65c0 Sep 2 21:35:09 ScaleIO-10-100-7-66 kernel: [28986.782466] sd 4:0:4:0: [sdg] Failed to abort cmd ffff8800959d65c0
Impacto:
- Os dispositivos de disco estão falhando aleatoriamente, causando recriação e rebalanceamento e afetando o desempenho do sistema.
- Pode ocorrer indisponibilidade de dados.
- Quando há um problema com o dispositivo de disco e o dispositivo de disco não está respondendo por qualquer motivo, o SVM/OS desativa o dispositivo de disco.
Ursache
Problema
de driver ou firmware A VMware está ciente de um problema conhecido com os controladores Dell PERC H730.
Lösung
Solução temporária:
A Dell recomendou o upgrade para o firmware ou drivers mais recentes (no momento do problema).
Para "on-line" o dispositivo de disco com falha, use o seguinte artigo PowerFlex Incapaz de limpar erros de dispositivo SDS - o estado do dispositivo está off-line no nível do SO