Dell EMC Unity : Erreurs de disque provoquant des pannes de disque ou des problèmes de performance (corrigible par Dell EMC)
Summary: Graves problèmes de performances après que certains lecteurs Flash commencent à consigner des erreurs, mais que le système ne les défaille pas automatiquement.
Symptoms
Aperçu:
Deux problèmes distincts ont été observés pour les numéros de référence de disque suivants :
005052377, 005052378, 005052379, 005052380, 005051739, 005051740, 005052154, 005052155
Issue # 1.
Les disques tombent en panne (fin de vie) après que le disque a signalé de nombreuses erreurs de bus Soft SCSI accompagnées de MÉMOIRE TAMPON
DE DÉTECTION NON VALIDE Disques avec les numéros de référence répertoriés et exécutant le firmware PC09, PC0B, PC0D, PC10, PC42 ou PC47
Exemple de journaux SP (/EMC/backend/log_shared/EMCSystemLogFile.log) similaires comme ci-dessous :
01/29/18 05:41:00.121 Bus0 Enc0 Dsk19 11c4003 [WARN] System : Erreur de bus SCSI logiciel du disque. DrvErrExtStat :0x1 SRT 349ms ST 0xcd51723a571 ET 0xcd517285579 . [Échec de la commande REQUEST SENSE]
01/29/18 05:41:00.131 Bus0 Enc0 Dsk19 11c0006 [INFO] System : Disk INVALID SENSE BUFFER OP 0x28, LBA 0x37d8e000, SZ 0x800
Problème # 2.
L’administrateur système observe de graves problèmes de performances sur le système après qu’un disque commence à consigner des erreurs : erreurs logicielles de support et 01|18|ff
Les disques dont les numéros de référence sont répertoriés et qui exécutent le firmware PC13 ou PC4A. Des erreurs peuvent être signalées par le système « Erreur logicielle de support ».
Le disque peut signaler qu’il a atteint sa fin de vie (EOL), mais il fait toujours partie du pool, ce qui dégrade les performances de toutes les LUN/FS du pool concerné.
Le problème a été observé principalement sur les pools dynamiques All-Flash, mais peut potentiellement impliquer des pools traditionnels contenant des lecteurs Flash des numéros de référence concernés.
04/27/18 21:52:52.909 Bus1 Enc0 Dsk02 11c4004 [WARN] System : Disk 1_0_2 Soft media error. DrvErrExtStat :0x22 SRT 69ms ST 0x5eae3254c6d ET 0x5eae32659fa . [Erreur restaurée (ECC sur le disque)]
04/27/18 21:52:52.921 Bus1 Enc0 Dsk02 11c0006 [INFO] System : Disk 1_0_2 01|18|ff BLBA 0x127fedd0 OP 0x2f, LBA
Cause
Problème # 1 : Le disque signale des erreurs logicielles de bus SCSI accompagnées d’une MÉMOIRE TAMPON
DE DÉTECTION NON VALIDELa cause des erreurs est une longueur incorrecte du champ de détection des données renvoyé par le disque : Bien que les exigences Dell EMC spécifient que la taille maximale autorisée pour les données de détection de format de descripteur est de 48 octets, le firmware génère une taille de descripteur de données de détection de format supérieure à 48 octets.
Problème # 2 : Rapports de disque, erreurs logicielles de support et 01|18|ff
La cause des erreurs logicielles de support est que le code Unity reconnaît de manière incorrecte les erreurs renvoyées par le disque. Dans les deux cas, les erreurs renvoyées par le disque ne sont pas correctement reconnues par le code Unity tandis que le taux d’erreurs aux E/S correctes reste faible, ce qui fait que le disque continue à fonctionner dans un état non optimal pendant une longue période et affecte les performances de toutes les LUN/FS du pool.
Resolution
Problème # 1 :
Dell EMC Unity OE 4.2.1.9535982 et versions ultérieures résout ce problème . Il est recommandé de mettre à jour le logiciel de la baie vers la version la plus récente.
En outre, les mises à jour du firmware de disque sont fortement recommandées pour éviter de futurs problèmes. Voir ci-dessous.
Problème # 2 : Rapports de disque, erreurs logicielles de support et 01|18|ff
Pour résoudre immédiatement le problème de performances, le disque incriminé doit être retiré du pool. Une fois le disque retiré du pool, les performances devraient s’améliorer immédiatement.
- Si un accès physique au système est disponible, retirez le disque problématique du logement et contactez le support technique Dell EMC pour demander un remplacement.
- Si aucun accès physique au système n’est immédiatement disponible et pour discuter d’autres solutions de contournement possibles, contactez le support technique Dell EMC ou votre représentant de service agréé en leur communiquant cet ID d’article de la base de connaissances.
Recommandations:
Pour résoudre les problèmes #1 et #2, il est recommandé de mettre à jour le firmware de disque vers les versions répertoriées ci-dessous ou supérieures. L’offre groupée de firmware de disque Unity V9 publiée le 27 février 2019 contient le firmware pour les numéros de référence suivants et les versions
de firmware correspondantes 005052377 - QC4E
005052378 - QC4E
005052379 - QC4E
005052380 - QC4E
005051739 PC16
005051740 PC16
005052154 PC16
005052155 PC16
Reportez-vous à l’article 490700 de la base de connaissances https://support.emc.com/kb/490700 pour obtenir des instructions sur la mise à jour du firmware de disque.
Le bundle de firmware de disque Unity le plus récent est disponible au téléchargement à partir de la page de support. Pour le trouver en recherchant « Unity_Drive_Firmware_Package ».
Reportez-vous au DTA 528178 : Dell EMC Unity : Les erreurs logicielles de support de disque peuvent entraîner des problèmes de performance et une indisponibilité des données (corrigible par l’utilisateur)pour les disques 005052377 005052378 005052379 et 005052380
Additional Information
| https://downloads.dell.com/TranslatedPDF/ES_KB521649.pdf |
| https://downloads.dell.com/TranslatedPDF/DE_KB521649.pdf |
| https://downloads.dell.com/TranslatedPDF/FR_KB521649.pdf |
| https://downloads.dell.com/TranslatedPDF/IT_KB521649.pdf |
| https://downloads.dell.com/TranslatedPDF/JA_KB521649.pdf |
| https://downloads.dell.com/TranslatedPDF/KO_KB521649.pdf |