Dell Unity : les erreurs d’expiration du délai de la commande de disque peuvent entraîner des problèmes de performances et une indisponibilité des données (corrigible par l’utilisateur)
Summary: Description de l’impact : Grave problème de performances lorsque les lecteurs Flash commencent à consigner des erreurs qui ne sont pas automatiquement résolues par la baie.
Symptoms
Possible indisponibilité des données
Gravité : Critique
L’administrateur système observe de graves problèmes de performances sur la baie après qu’un disque commence à consigner des erreurs : erreurs logicielles de support et 01|18|ff, suivies d’abandons accidentels, d’expirations de sélection et de délais d’expiration de commande.
Disques avec les numéros de référence et le firmware répertoriés. La baie peut signaler des erreurs en tant que "Soft media error" et 01|18|ff suivies d’erreurs logicielles de bus SCSI “[IncidentalAbort]", “[Select timeout]", and “[Command timeout]". Le disque peut être mis hors ligne sur un SP, mais reste actif sur le second SP en signalant des erreurs similaires.
Exemples de journaux SP:
>>> drive repeatedly reports 01/18/ff B 11/15/20 18:05:31.994 Bus0 Enc0 Dsk02 11c4004 [WARN] System: Disk 0_0_2 Soft media error. DrvErrExtStat:0x22 SRT 35ms ST 0x767fd102672 ET 0x767fd10b014 . [Recovered error (on-drive ECC)] B 11/15/20 18:05:32.009 Bus0 Enc0 Dsk02 11c0006 [INFO] System: Disk 0_0_2 01|18|ff BLBA 0x32d948218 OP 0x88, LBA 0x32d948200, SZ 0x80 . A 11/15/20 18:06:18.548 Bus0 Enc0 Dsk02 11c4004 [WARN] System: Disk 0_0_2 Soft media error. DrvErrExtStat:0x22 SRT 66ms ST 0x7680628d0f1 ET 0x7680629d1c6 . [Recovered error (on-drive ECC)] A 11/15/20 18:06:18.566 Bus0 Enc0 Dsk02 11c0006 [INFO] System: Disk 0_0_2 01|18|ff BLBA 0x2d6cce4d8 OP 0x88, LBA 0x2d6cce4d0, SZ 0x10 . >>> followed by Soft SCSI bus errors (Incidental abort and selection timeout) A 11/15/20 18:17:33.877 Bus0 Enc0 Dsk02 11c4003 [WARN] System: Disk 0_0_2 Soft SCSI bus error. DrvErrExtStat:0xdd SRT 522ms ST 0x7682e5dd934 ET 0x7682e65cf8b . [IncidentalAbort] B 11/15/20 18:17:33.892 Bus0 Enc0 Dsk02 11c4003 [WARN] System: Disk 0_0_2 Soft SCSI bus error. DrvErrExtStat:0xdd SRT 535ms ST 0x768280ad284 ET 0x7682812faab . [IncidentalAbort] A 11/15/20 18:17:33.910 Bus0 Enc0 Dsk02 11c4003 [WARN] System: Disk 0_0_2 Soft SCSI bus error. DrvErrExtStat:0x7 SRT 537ms ST 0x7682e5d9c09 ET 0x7682e65cfc5 . [Select timeout] >>> followed by repeated command timeout. A 11/15/20 20:44:30.049 Bus0 Enc0 Dsk02 11c4003 [WARN] System: Disk 0_0_2 Soft SCSI bus error. DrvErrExtStat:0x6 SRT 4340ms ST 0x76a3b63f4df ET 0x76a3ba4175c . [Command timeout] A 11/15/20 20:44:30.069 Bus0 Enc0 Dsk02 11c4003 [WARN] System: Disk 0_0_2 Soft SCSI bus error. DrvErrExtStat:0x6 SRT 4201ms ST 0x76a3b641f27 ET 0x76a3ba41b53 . [Command timeout] A 11/15/20 20:44:30.090 Bus0 Enc0 Dsk02 11c4003 [WARN] System: Disk 0_0_2 Soft SCSI bus error. DrvErrExtStat:0x6 SRT 4210ms ST 0x76a3b63e5a2 ET 0x76a3ba41f97 . [Command timeout] >>> drive reported too many port errors and was logged out, then it could not log in again. It failed on SPB with the Activate timer expired. B 11/16/20 05:52:47.360 Bus0 Enc0 LccB 1678052 [ERROR] System: LCC is faulted. This failure may be caused by a component other than the LCC (Drive, Cable, Connector, ...). B 11/16/20 05:54:42.263 Bus0 Enc0 Dsk02 60258 [CRIT] User: Disk 0_0_2 has failed (Part Number 005053578, Serial Number 50L0A01FTT2F) B 11/16/20 05:54:42.879 Bus0 Enc0 LccB 602bc [CRIT] User: LCC has faulted (Part Number 303-396-000B-00, Serial Number CF2DD201400245) B 11/16/20 05:55:23.571 Bus0 Enc0 Dsk02 1678058 [ERROR] System: Disk 0_0_2 taken offline. Escalate to support. SN:50L0A01FTT2F TLA:005053578 Rev:PA5H (0x2030001) Reason:Expired.
Ce problème peut concerner les systèmes suivants
| Produit (et version) | Dell Unity 300F, Dell Unity 350F, Dell Unity XT 380F, Dell Unity 400F, Dell Unity 450F, Dell Unity XT 480F, Dell Unity 600F, Dell Unity 650F, Dell Unity XT 680F, Dell Unity XT 880F, gamme Dell Unity |Dell Unity All-Flash |
| Exécution de ce logiciel principal (système d’exploitation (OS) ou environnement d’exploitation (OE)) |
Tous les environnements d’exploitation |
| Quand cette condition est vérifiée | La matrice contient l’un des numéros de référence de disque suivants avec le firmware PA5H 005052867, 005052866, 005052869, 005052868, 005052871, 005052870, 005053573, 005053572, 005053577, 005053576, 005053579, 005053578, 005052859, 005052858, 005052861, 005052860, 005052863, 005052862, 005053583, 005053582, 005053596, 005053595, 005053598, 005053597, 005053575, 005053574 |
Cause
La résolution intégrée des erreurs du disque répond normalement dans des limites de temps acceptables. Toutefois, il arrive qu’en raison d’un défaut de NAND, le nombre de blocs requis pour la restauration soit très grand. Avec une commande longue, les paramètres d’expiration de délai peuvent entraîner des délais d’expiration de commande excessifs, ce qui affecte les performances de la baie.
Resolution
| Type d’action | Résolution |
| Action nécessaire | Mettez à niveau le firmware de disque vers PA5L pour résoudre le problème. |
| Qui peut effectuer l’action ? | Avantages pour le |
| Problème résolu dans ce système d’exploitation, cet environnement d’exploitation ou ce logiciel |
Firmware PA5L disponible sur www.dell.com/support dans l’offre groupée de firmware de disque Unity V18 ou version supérieure.
|
| Procédure de résolution des problèmes clients SolVe | Pour plus d’informations sur la mise à niveau du firmware de disque, sélectionnez « Software Upgrade Procedures » dans SolVe for Dell Unity. ou suivez l’article Instructions et informations de mise à niveau du firmware de disque |
| Détails de la résolution | Les baies rencontrent actuellement des problèmes de performances : pour résoudre immédiatement les problèmes de performances, retirez le disque problématique du pool. Une fois le disque retiré du pool, les performances devraient s’améliorer immédiatement. Pour ce faire : S’il est possible d’accéder physiquement au système : Retirez le disque identifié comme signalant une erreur de bus Soft SCSI et [Command timeout] Remplacez le disque supprimé par un disque de secours équivalent. Attendez 5 minutes avant d’insérer le disque de remplacement pour permettre au système de reconstruire le disque de secours en utilisant la parité. Si nécessaire, contactez le support technique Dell pour demander le remplacement du disque à l’origine des problèmes de performances. Si aucun accès physique au système n’est immédiatement disponible et pour discuter d’autres solutions de contournement possibles, contactez le support technique Dell ou un représentant de service agréé en leur communiquant le numéro de cet article DTA. Mettez à niveau le firmware de disque vers PA5L. S’assurer que les nouvelles installations de baies sont mises à niveau vers le firmware de disque PA5L REMARQUE : Le firmware PA5L est destiné au remplacement anticipé des disques signalant trop d’erreurs 01/18/ff et Command timeout. Notez qu’un impact secondaire sur les performances peut être observé lors d’une opération de remplacement de disque, de reconstruction ou de remaniement/rééquilibrage dans des pools dynamiques. Le 000055614 LKB sera mis à jour en conséquence lorsque ce problème sera résolu. Reportez-vous au 000021322 LKB pour obtenir des instructions sur la mise à jour du firmware de disque. Les offres groupées de firmware de disque Unity sont disponibles au téléchargement sur la page www.dell.com/support. Faites une recherche sur « Unity Drive Firmware Package ». |