Problème de contrôleur RAID Dell PERC H730 ou H730P ESXi PowerFlex
Zusammenfassung: Les périphériques de disque PowerFlex échouent de manière aléatoire ou signalent des erreurs sur les périphériques de disque. ESXi signale des erreurs sur les périphériques de disque et des erreurs du contrôleur RAID LSI (commandes d’abandon et de réinitialisation SCSI). ...
Symptome
Scénario:
Seuls ESXi 5.5 ou 6.0 sont concernés.
Le système ScaleIO signale des erreurs de périphériques de disque et les périphériques de disque échouent de manière aléatoire. Une fois qu’un périphérique disque est de nouveau en ligne, le système continue de fonctionner comme prévu jusqu’à ce que le disque suivant tombe en panne.
Data unavailability might occur when disk devices fail on different SDSs.
Symptômes :
Les données du rapport d’événements système ScaleIO sont dégradées :
2016-01-22 17:28:35.213 MDM_DATA_DEGRADED ERROR The system is now in DEGRADED state.
Les événements système ScaleIO signalent des erreurs ou des défaillances de périphérique de disque :
799 2016-01-22 17:28:39.818 SDS_DEV_ERROR_REPORT ERROR Device error reported on SDS: 10.3.1.21, Device: /dev/sdb. State: NORMAL upDownState: UP processState: DEV_ERR_INPROGRESS devErrState: REPORT
Exemple de journaux VMkernel :
2016-01-2613:48:09.254 2016-01-26T13:50:35.576Z esxi-vcd-compute-03 vmkernel: cpu11:301656)VSCSI: 2590: handle 8194(vscsi0:0):Reset request on FSS handle 279624493 (0 outstanding commands) from (vmm0:scsi-test-4) 2016-01-2613:48:09.254 2016-01-26T13:50:35.576Z esxi-vcd-compute-03 vmkernel: cpu11:32946)VSCSI: 2868: handle 8194(vscsi0:0):Reset [Retries: 0/0]from (vmm0:scsi-test-4) 2016-01-2613:48:09.255 2016-01-26T13:50:35.576Z esxi-vcd-compute-03 vmkernel: cpu11:32946)lsi_mr3: mfi_TaskMgmt:254: Processing taskMgmt virt reset for device: vmhba0:C2:T0:L0 2016-01-2613:48:09.255 2016-01-26T13:50:35.576Z esxi-vcd-compute-03 vmkernel: cpu11:32946)lsi_mr3: mfi_TaskMgmt:258: VIRT_RESET cmd # 2514475 2016-01-2613:48:09.255 2016-01-26T13:50:35.576Z esxi-vcd-compute-03 vmkernel: cpu11:32946)lsi_mr3: mfi_TaskMgmt:262: ABORT
Exemple de journaux VMkernel :
2015-09-04T14:05:58.860Z cpu20:32859)lsi_mr3: mfi_TaskMgmt:254: Processing taskMgmt virt reset for device: vmhba0:C2:T0:L0 2015-09-04T14:05:58.860Z cpu20:32859)lsi_mr3: mfi_TaskMgmt:258: VIRT_RESET cmd # 28267605 2015-09-04T14:05:58.860Z cpu20:32859)lsi_mr3: mfi_TaskMgmt:262: ABORT 2015-09-04T14:05:58.864Z cpu8:33188)lsi_mr3: fusionWaitForOutstanding:2516: megasas: [ 0]waiting for 1 commands to complete
Les commandes SCSI abort s’affichent dans le fichier de messages sur SVM :
Sep 2 21:35:09 ScaleIO-10-100-7-66 kernel: [28986.521362] sd 5:0:15:0: [sdw] task abort on host 5, ffff880095a00d80 Sep 2 21:35:09 ScaleIO-10-100-7-66 kernel: [28986.782459] sd 4:0:4:0: [sdg] task abort on host 4, ffff8800959d65c0 Sep 2 21:35:09 ScaleIO-10-100-7-66 kernel: [28986.782466] sd 4:0:4:0: [sdg] Failed to abort cmd ffff8800959d65c0
Impact :
- Les périphériques de disque sont défaillants de manière aléatoire, ce qui entraîne une reconstruction et un rééquilibrage et affecte les performances du système.
- Une indisponibilité des données peut se produire.
- Lorsqu’il y a un problème avec l’unité de disque et que l’unité de disque ne répond pas pour une raison quelconque, la SVM/OS déconnecte l’unité de disque.
Ursache
Problème
de pilote ou de firmware VMware a connaissance d’un problème connu sur les contrôleurs Dell PERC H730.
Lösung
Solution de contournement :
Dell recommande d’effectuer une mise à niveau vers la dernière version du firmware ou des pilotes (au moment du problème).
Pour mettre en ligne l’appareil de disque défaillant, utilisez l’article suivant PowerFlex : impossible d’effacer les erreurs de périphérique SDS - l’état de l’appareil est hors ligne au niveau du système d’exploitation