Dell Unity: errori di timeout dei comandi delle unità possono determinare problemi di prestazioni e non disponibilità dei dati (correggibile dall'utente)
Summary: Descrizione dell'impatto: Grave problema di prestazioni dopo che le unità Flash iniziano a registrare errori che non vengono risolti automaticamente dall'array.
Symptoms
Potenziale non disponibilità dei dati
Gravità: Critico
Il System Administrator osserva gravi problemi di prestazioni sull'array dopo che un unità inizia a registrare gli errori, errori Soft Media e 01|18|ff, seguiti da interruzioni accidentali, timeout di selezione e timeout dei comandi.
Unità con i numeri parte e il firmware elencati. L'array può segnalare errori come "Soft media error" e 01|18|ff seguito da errori soft del bus SCSI “[IncidentalAbort]", “[Select timeout]", and “[Command timeout]". L'unità può essere disconnessa su un SP, ma rimane attiva sul secondo SP, segnalando errori simili.
Esempi di registri SP:
>>> drive repeatedly reports 01/18/ff B 11/15/20 18:05:31.994 Bus0 Enc0 Dsk02 11c4004 [WARN] System: Disk 0_0_2 Soft media error. DrvErrExtStat:0x22 SRT 35ms ST 0x767fd102672 ET 0x767fd10b014 . [Recovered error (on-drive ECC)] B 11/15/20 18:05:32.009 Bus0 Enc0 Dsk02 11c0006 [INFO] System: Disk 0_0_2 01|18|ff BLBA 0x32d948218 OP 0x88, LBA 0x32d948200, SZ 0x80 . A 11/15/20 18:06:18.548 Bus0 Enc0 Dsk02 11c4004 [WARN] System: Disk 0_0_2 Soft media error. DrvErrExtStat:0x22 SRT 66ms ST 0x7680628d0f1 ET 0x7680629d1c6 . [Recovered error (on-drive ECC)] A 11/15/20 18:06:18.566 Bus0 Enc0 Dsk02 11c0006 [INFO] System: Disk 0_0_2 01|18|ff BLBA 0x2d6cce4d8 OP 0x88, LBA 0x2d6cce4d0, SZ 0x10 . >>> followed by Soft SCSI bus errors (Incidental abort and selection timeout) A 11/15/20 18:17:33.877 Bus0 Enc0 Dsk02 11c4003 [WARN] System: Disk 0_0_2 Soft SCSI bus error. DrvErrExtStat:0xdd SRT 522ms ST 0x7682e5dd934 ET 0x7682e65cf8b . [IncidentalAbort] B 11/15/20 18:17:33.892 Bus0 Enc0 Dsk02 11c4003 [WARN] System: Disk 0_0_2 Soft SCSI bus error. DrvErrExtStat:0xdd SRT 535ms ST 0x768280ad284 ET 0x7682812faab . [IncidentalAbort] A 11/15/20 18:17:33.910 Bus0 Enc0 Dsk02 11c4003 [WARN] System: Disk 0_0_2 Soft SCSI bus error. DrvErrExtStat:0x7 SRT 537ms ST 0x7682e5d9c09 ET 0x7682e65cfc5 . [Select timeout] >>> followed by repeated command timeout. A 11/15/20 20:44:30.049 Bus0 Enc0 Dsk02 11c4003 [WARN] System: Disk 0_0_2 Soft SCSI bus error. DrvErrExtStat:0x6 SRT 4340ms ST 0x76a3b63f4df ET 0x76a3ba4175c . [Command timeout] A 11/15/20 20:44:30.069 Bus0 Enc0 Dsk02 11c4003 [WARN] System: Disk 0_0_2 Soft SCSI bus error. DrvErrExtStat:0x6 SRT 4201ms ST 0x76a3b641f27 ET 0x76a3ba41b53 . [Command timeout] A 11/15/20 20:44:30.090 Bus0 Enc0 Dsk02 11c4003 [WARN] System: Disk 0_0_2 Soft SCSI bus error. DrvErrExtStat:0x6 SRT 4210ms ST 0x76a3b63e5a2 ET 0x76a3ba41f97 . [Command timeout] >>> drive reported too many port errors and was logged out, then it could not log in again. It failed on SPB with the Activate timer expired. B 11/16/20 05:52:47.360 Bus0 Enc0 LccB 1678052 [ERROR] System: LCC is faulted. This failure may be caused by a component other than the LCC (Drive, Cable, Connector, ...). B 11/16/20 05:54:42.263 Bus0 Enc0 Dsk02 60258 [CRIT] User: Disk 0_0_2 has failed (Part Number 005053578, Serial Number 50L0A01FTT2F) B 11/16/20 05:54:42.879 Bus0 Enc0 LccB 602bc [CRIT] User: LCC has faulted (Part Number 303-396-000B-00, Serial Number CF2DD201400245) B 11/16/20 05:55:23.571 Bus0 Enc0 Dsk02 1678058 [ERROR] System: Disk 0_0_2 taken offline. Escalate to support. SN:50L0A01FTT2F TLA:005053578 Rev:PA5H (0x2030001) Reason:Expired.
Sistemi potenzialmente interessati:
| Prodotto (e versione) | Dell Unity 300F, Dell Unity 350F, Dell Unity XT 380F, Dell Unity 400F, Dell Unity 450F, Dell Unity XT 480F, Dell Unity 600F, Dell Unity 650F, Dell Unity XT 680F, Dell Unity XT 880F, famiglia Dell Unity |Dell Unity All-Flash |
| Esecuzione di questo software core (sistema operativo (OS) o ambiente operativo (OE)) |
Tutti gli ambienti operativi |
| Quando si verifica questa condizione | L'array contiene uno dei seguenti numeri parte di unità con firmware PA5H 005052867, 005052866, 005052869, 005052868, 005052871, 005052870, 005053573, 005053572, 005053577, 005053576, 005053579, 005053578, 005052859, 005052858, 005052861, 005052860, 005052863, 005052862, 005053583, 005053582, 005053596, 005053595, 005053598, 005053597, 005053575, 005053574 |
Cause
Il ripristino integrato degli errori delle unità risponde normalmente entro limiti di tempo accettabili, tuttavia, a causa di un difetto NAND, il numero di blocchi da ripristinare può essere elevato e, in combinazione con impostazioni di timeout prolungati dei comandi, può richiedere timeout eccessivi e influire sulle prestazioni dell'array.
Resolution
| Tipo di azione | Risoluzione |
| Azione necessaria | Aggiornare il firmware unità a PA5L per risolvere il problema. |
| Chi può eseguire l'azione | Cliente |
| Problema risolto in questo sistema operativo, ambiente operativo o software |
Firmware PA5L disponibile su www.dell.com/support nel pacchetto firmware unità Unity V18 o versione successiva.
|
| Procedura di risoluzione SolVe per il cliente | Per ulteriori informazioni sull'aggiornamento del firmware dell'unità, selezionare "Procedure di aggiornamento software" in SolVe per Dell Unity. oppure seguire l'articolo Istruzioni e informazioni per l'aggiornamento del firmware dell'unità |
| Dettagli della risoluzione | Array che attualmente riscontrano problemi di prestazioni: per risolvere immediatamente i problemi di prestazioni, estrarre l'unità guasta dal pool. Una volta estratta l'unità dal pool, le prestazioni dovrebbero migliorare immediatamente. A tale scopo: Se è disponibile l'accesso fisico al sistema: Rimuovere l'unità identificata come segnalante un errore soft del bus SCSI e [Timeout comando] Sostituire l'unità rimossa con una di riserva equivalente. Attendere 5 minuti prima di inserire l'unità sostitutiva per consentire al sistema di ricostruire l'unità di riserva dalla parità. Contattare il supporto tecnico Dell, se necessario, per richiedere la sostituzione dell'unità che causa i problemi di prestazioni. Se non è immediatamente disponibile alcun accesso fisico al sistema e per discutere altre possibili soluzioni alternative, contattare il supporto tecnico Dell o un responsabile dell'assistenza autorizzato e citare il codice di questo codice articolo DTA. Aggiornare il firmware unità a PA5L. Assicurarsi che i nuovi array installino l'aggiornamento al firmware dell'unità PA5L NOTA: Il firmware PA5L deve sostituire le unità che segnalano errori 01/18/ff eccessivi e di tipo Command Timeout, più rapidamente. Si noti che è possibile riscontrare un impatto secondario sulle prestazioni durante la ricostruzione o l'operazione di rimescolamento/ribilanciamento dell'unità nei pool dinamici. I 000055614 della Knowledge Base verranno aggiornati di conseguenza una volta risolto questo problema. Consultare l'000021322 della knowledgebase per istruzioni sull'aggiornamento del firmware unità. I pacchetti di firmware unità Unity sono disponibili per il download all'indirizzo www.dell.com/support e reperibili cercando "pacchetto firmware unità Unity". |