Dell Unity. Ошибки превышения времени ожидания команды на накопителе могут привести к проблемам с производительностью и недоступности данных (исправляется пользователем)
Summary: Описание воздействия: Серьезная проблема производительности возникает после того, как флэш-накопители начинают регистрировать ошибки, которые не устраняются массивом автоматически.
Symptoms
Потенциальная недоступность данных
Серьезность. Критический. Системный администратор наблюдает серьезные проблемы производительности в массиве после того, как накопитель начинает записывать ошибки — Soft Media Errors и 01|18|ff, за которыми следуют случайные прерывания, тайм-ауты выбора и команды
Накопители с указанными номерами по каталогу и микропрограммой. Массив может сообщать об ошибках следующим образом: "Soft media error" и 01|18|ff за которыми следуют ошибки шины мягкого SCSI “[IncidentalAbort]", “[Select timeout]", and “[Command timeout]". Диск может быть переведен в автономный режим на одном процессоре СХД, однако остается активным на втором процессоре СХД, сообщая об аналогичных ошибках.
Пример журналов процессораСХД:
>>> drive repeatedly reports 01/18/ff B 11/15/20 18:05:31.994 Bus0 Enc0 Dsk02 11c4004 [WARN] System: Disk 0_0_2 Soft media error. DrvErrExtStat:0x22 SRT 35ms ST 0x767fd102672 ET 0x767fd10b014 . [Recovered error (on-drive ECC)] B 11/15/20 18:05:32.009 Bus0 Enc0 Dsk02 11c0006 [INFO] System: Disk 0_0_2 01|18|ff BLBA 0x32d948218 OP 0x88, LBA 0x32d948200, SZ 0x80 . A 11/15/20 18:06:18.548 Bus0 Enc0 Dsk02 11c4004 [WARN] System: Disk 0_0_2 Soft media error. DrvErrExtStat:0x22 SRT 66ms ST 0x7680628d0f1 ET 0x7680629d1c6 . [Recovered error (on-drive ECC)] A 11/15/20 18:06:18.566 Bus0 Enc0 Dsk02 11c0006 [INFO] System: Disk 0_0_2 01|18|ff BLBA 0x2d6cce4d8 OP 0x88, LBA 0x2d6cce4d0, SZ 0x10 . >>> followed by Soft SCSI bus errors (Incidental abort and selection timeout) A 11/15/20 18:17:33.877 Bus0 Enc0 Dsk02 11c4003 [WARN] System: Disk 0_0_2 Soft SCSI bus error. DrvErrExtStat:0xdd SRT 522ms ST 0x7682e5dd934 ET 0x7682e65cf8b . [IncidentalAbort] B 11/15/20 18:17:33.892 Bus0 Enc0 Dsk02 11c4003 [WARN] System: Disk 0_0_2 Soft SCSI bus error. DrvErrExtStat:0xdd SRT 535ms ST 0x768280ad284 ET 0x7682812faab . [IncidentalAbort] A 11/15/20 18:17:33.910 Bus0 Enc0 Dsk02 11c4003 [WARN] System: Disk 0_0_2 Soft SCSI bus error. DrvErrExtStat:0x7 SRT 537ms ST 0x7682e5d9c09 ET 0x7682e65cfc5 . [Select timeout] >>> followed by repeated command timeout. A 11/15/20 20:44:30.049 Bus0 Enc0 Dsk02 11c4003 [WARN] System: Disk 0_0_2 Soft SCSI bus error. DrvErrExtStat:0x6 SRT 4340ms ST 0x76a3b63f4df ET 0x76a3ba4175c . [Command timeout] A 11/15/20 20:44:30.069 Bus0 Enc0 Dsk02 11c4003 [WARN] System: Disk 0_0_2 Soft SCSI bus error. DrvErrExtStat:0x6 SRT 4201ms ST 0x76a3b641f27 ET 0x76a3ba41b53 . [Command timeout] A 11/15/20 20:44:30.090 Bus0 Enc0 Dsk02 11c4003 [WARN] System: Disk 0_0_2 Soft SCSI bus error. DrvErrExtStat:0x6 SRT 4210ms ST 0x76a3b63e5a2 ET 0x76a3ba41f97 . [Command timeout] >>> drive reported too many port errors and was logged out, then it could not log in again. It failed on SPB with the Activate timer expired. B 11/16/20 05:52:47.360 Bus0 Enc0 LccB 1678052 [ERROR] System: LCC is faulted. This failure may be caused by a component other than the LCC (Drive, Cable, Connector, ...). B 11/16/20 05:54:42.263 Bus0 Enc0 Dsk02 60258 [CRIT] User: Disk 0_0_2 has failed (Part Number 005053578, Serial Number 50L0A01FTT2F) B 11/16/20 05:54:42.879 Bus0 Enc0 LccB 602bc [CRIT] User: LCC has faulted (Part Number 303-396-000B-00, Serial Number CF2DD201400245) B 11/16/20 05:55:23.571 Bus0 Enc0 Dsk02 1678058 [ERROR] System: Disk 0_0_2 taken offline. Escalate to support. SN:50L0A01FTT2F TLA:005053578 Rev:PA5H (0x2030001) Reason:Expired.
Какие системы могут быть подвержены?
| Продукт (и версия) | Dell Unity 300F, Dell Unity 350F, Dell Unity XT 380F, Dell Unity 400F, Dell Unity 450F, Dell Unity XT 480F, Dell Unity 600F, Dell Unity 650F, Dell Unity XT 680F, Dell Unity XT 880F, семейство Dell Unity |Система Dell Unity класса All-Flash |
| Запуск этого базового программного обеспечения (операционной системы (ОС) или операционной среды (OE)) |
Во всех операционных средах |
| Когда это условие верно | Массив содержит любой из следующих номеров по каталогу с микропрограммой PA5H 005052867, 005052866, 005052869, 005052868, 005052871, 005052870, 005053573, 005053572, 005053577, 005053576, 005053579, 005053578, 005052859, 005052858, 005052861, 005052860, 005052863, 005052862, 005053583, 005053582, 005053596, 005053595, 005053598, 005053597, 005053575, 005053574 |
Cause
Встроенное восстановление ошибок обычно отвечает в течение допустимого времени, однако в некоторых случаях из-за дефекта NAND количество блоков, необходимых для восстановления, может быть огромным и в сочетании с длительной командой, настройки тайм-аута могут привести к чрезмерному превышению времени ожидания команд и повлиять на производительность массива.
Resolution
| Тип действия | Разрешение |
| Требуется выполнить действие | Для устранения этой проблемы модернизируйте микропрограмму накопителя до PA5L. |
| Кто может выполнить действие | Заказчик |
| Проблема устранена в данной ОС, операционной среде или программном обеспечении |
Микропрограмма PA5L доступна в www.dell.com/support в пакете микропрограмм накопителей Unity V18 или более поздней версии.
|
| Процедура разрешения проблем заказчиков SolVe | Для получения дополнительной информации об обновлении микропрограмм накопителей выберите «Software Upgrade Procedures» в SolVe для Dell Unity. или см. статью Инструкции и информация по модернизации микропрограммы накопителей |
| Сведения о решении | В настоящее время в массивах возникают проблемы с производительностью: Для немедленного устранения проблем с производительностью извлеките неисправный накопитель из пула. После того как накопитель извлечен из пула, производительность должна немедленно повыситься. Для этого выполните следующие действия: При наличии физического доступа к системе: Извлеките накопитель, который сообщается об ошибке шины Soft SCSI и [Command timeout] Замените извлеченный диск на аналогичный резервный. Не вставляйте сменный накопитель в течение 5 минут, чтобы система могла восстановить данные на сменном накопителе в соответствии с четностью. При необходимости обратитесь в службу технической поддержки Dell, чтобы запросить замену диска, вызывающего проблемы с производительностью. Если физический доступ к системе отсутствует, обратитесь в службу технической поддержки Dell или к авторизованному представителю отдела технического обслуживания и укажите номер этой статьи DTA. Модернизируйте микропрограмму накопителя до PA5L. Убедитесь, что новый массив установлен Обновление микропрограммы накопителя PA5L ПРИМЕЧАНИЕ. Микропрограмма PA5L предназначена для более скорой замены накопителей, сообщивших об ошибках «01/18/ff» и «Command Timeout». Обратите внимание, что вторичное влияние на производительность может наблюдаться во время операции перестройки или перестановки/балансировки накопителей в динамических пулах. После устранения этой проблемы 000055614 LKB будет обновлен соответствующим образом. Инструкции по обновлению микропрограммы накопителей см. в 000021322 LKB. Пакеты микропрограмм для накопителей Unity можно скачать на сайте www.dell.com/support, выполнив поиск по запросу «Unity Drive Firmware Package». |