Problema no controlador RAID Dell PERC H730 ou H730P do PowerFlex ESXi

Zusammenfassung: Os dispositivos de disco do PowerFlex estão falhando aleatoriamente ou relatam erros em dispositivos de disco. O ESXi relata erros em dispositivos de disco e erros do controlador RAID LSI (comandos de abortar e redefinir SCSI). ...

Dieser Artikel gilt für Dieser Artikel gilt nicht für Dieser Artikel ist nicht an ein bestimmtes Produkt gebunden. In diesem Artikel werden nicht alle Produktversionen aufgeführt.

Symptome

Cenário:
Somente o ESXI 5.5 ou 6.0 é afetado.
O sistema ScaleIO está relatando erros do dispositivo de disco e os dispositivos de disco estão falhando aleatoriamente. Depois que um dispositivo de disco estiver novamente "on-line", o sistema continuará funcionando como esperado até a próxima falha do dispositivo de disco.

Data unavailability might occur when disk devices fail on different SDSs.

Sintomas: 
Os eventos do sistema ScaleIO relatam dados degradados:

2016-01-22 17:28:35.213 MDM_DATA_DEGRADED ERROR The system is now in DEGRADED state.

Os eventos do sistema ScaleIO relatam erros ou falhas do dispositivo de disco:

799 2016-01-22 17:28:39.818 SDS_DEV_ERROR_REPORT ERROR Device error reported on SDS: 10.3.1.21, Device: /dev/sdb. State: NORMAL upDownState: UP processState: DEV_ERR_INPROGRESS devErrState: REPORT

Exemplo de logs do VMkernel:

2016-01-2613:48:09.254 2016-01-26T13:50:35.576Z esxi-vcd-compute-03 vmkernel: cpu11:301656)VSCSI: 2590: handle 8194(vscsi0:0):Reset request on FSS handle 279624493 (0 outstanding commands) from (vmm0:scsi-test-4)
2016-01-2613:48:09.254 2016-01-26T13:50:35.576Z esxi-vcd-compute-03 vmkernel: cpu11:32946)VSCSI: 2868: handle 8194(vscsi0:0):Reset [Retries: 0/0]from (vmm0:scsi-test-4)
2016-01-2613:48:09.255 2016-01-26T13:50:35.576Z esxi-vcd-compute-03 vmkernel: cpu11:32946)lsi_mr3: mfi_TaskMgmt:254: Processing taskMgmt virt reset for device: vmhba0:C2:T0:L0
2016-01-2613:48:09.255 2016-01-26T13:50:35.576Z esxi-vcd-compute-03 vmkernel: cpu11:32946)lsi_mr3: mfi_TaskMgmt:258: VIRT_RESET cmd # 2514475
2016-01-2613:48:09.255 2016-01-26T13:50:35.576Z esxi-vcd-compute-03 vmkernel: cpu11:32946)lsi_mr3: mfi_TaskMgmt:262: ABORT

Exemplo de logs do VMkernel:

2015-09-04T14:05:58.860Z cpu20:32859)lsi_mr3: mfi_TaskMgmt:254: Processing taskMgmt virt reset for device: vmhba0:C2:T0:L0
2015-09-04T14:05:58.860Z cpu20:32859)lsi_mr3: mfi_TaskMgmt:258: VIRT_RESET cmd # 28267605
2015-09-04T14:05:58.860Z cpu20:32859)lsi_mr3: mfi_TaskMgmt:262: ABORT
2015-09-04T14:05:58.864Z cpu8:33188)lsi_mr3: fusionWaitForOutstanding:2516: megasas: [ 0]waiting for 1 commands to complete

Os comandos de anulação de SCSI são exibidos no arquivo de mensagens na SVM:

Sep 2 21:35:09 ScaleIO-10-100-7-66 kernel: [28986.521362] sd 5:0:15:0: [sdw] task abort on host 5, ffff880095a00d80
Sep 2 21:35:09 ScaleIO-10-100-7-66 kernel: [28986.782459] sd 4:0:4:0: [sdg] task abort on host 4, ffff8800959d65c0
Sep 2 21:35:09 ScaleIO-10-100-7-66 kernel: [28986.782466] sd 4:0:4:0: [sdg] Failed to abort cmd ffff8800959d65c0

Impacto:

  • Os dispositivos de disco estão falhando aleatoriamente, causando recriação e rebalanceamento e afetando o desempenho do sistema.
  • Pode ocorrer indisponibilidade de dados. 
  • Quando há um problema com o dispositivo de disco e o dispositivo de disco não está respondendo por qualquer motivo, o SVM/OS desativa o dispositivo de disco.

Ursache

Problema
de driver ou firmware A VMware está ciente de um problema conhecido com os controladores Dell PERC H730.

Lösung

Solução temporária:
A Dell recomendou o upgrade para o firmware ou drivers mais recentes (no momento do problema).

Para "on-line" o dispositivo de disco com falha, use o seguinte artigo PowerFlex Incapaz de limpar erros de dispositivo SDS - o estado do dispositivo está off-line no nível do SO

Betroffene Produkte

PowerFlex rack, ScaleIO
Artikeleigenschaften
Artikelnummer: 000283423
Artikeltyp: Solution
Zuletzt geändert: 06 März 2025
Version:  3
Antworten auf Ihre Fragen erhalten Sie von anderen Dell NutzerInnen
Support Services
Prüfen Sie, ob Ihr Gerät durch Support Services abgedeckt ist.