Data Domain. Во время переключения систем высокой доступности при отказе отказа несколько дисков | Проблема с микропрограммой CA01 CA02
Summary: В Data Domain High Availability (HA) могут возникать сбои дисков во время переключения HA при отказе из-за известной проблемы с микропрограммой дисков. В некоторых системах может возникнуть проблема с запуском файловой системы после аварийного переключения или перезапуска. ...
Symptoms
Сбой компонентов ограничен накопителями 8 Тбайт с версиями микропрограммы CA01 и CA02. Обычно это затрагивает несколько групп RAID (группы дисков). Это может быть однократное снижение производительности (один сбой) или двукратное снижение производительности (два сбоя дисков).
Системы, которые не подвергаются перезагрузке, сталкиваются с прерыванием работы файловой системы, но должны восстанавливаться самостоятельно; при этом восстановление нескольких дисков выполняется и ожидается. При перезапуске систем происходит принудительное переключение на резервный ресурс, что может вызвать блокировку файловой системы при запуске.
Область применения.
- Только модели DD9400 и DD9900
- Жесткий диск 8 Тбайт во внешнем шасси хранения с микропрограммой (FW) версии CA01 или CA02
Исправление:
- Исправленные версии DDOS: В DDOS 7.11.x, 7.10.1.0, 7.7.5.1 и более поздних версий встроена микропрограмма CA04.
- Для всех остальных версий DDOS 7.x доступно обновление с минимальным прерыванием работы (MDU).
- Ссылка на MDU: Читать + Скачать: Пакет модернизации микропрограммы жесткого диска (MDU) DDOS 7.X — ноябрь 2022 г. (для просмотра документа необходимо войти в систему как зарегистрированный пользователь Dell Support)
Примечание. При применении MDU файловая система должна быть отключена.
Признаки сбоя дисков
- Журналы дисков сообщают опознавательный код
4/0x29/0xcdпри выполнении SCSI WRITEcdb 0x8aОдин ошибочный командный запрос может привести к сбою диска, вызванному модулем DD_RAID.
Sep 16 06:17:59 DD9900 kernel: [11647695.019070] (E4)scsi16: (ffff88fe1522d800) (0/5/10000) chnl/tgt/lun 0/232/0 result 0x2, cdb 0x8a:00000001498b4728:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able Sep 16 06:20:58 DD9900 kernel: [11647874.161940] (E4)scsi16: (ffff88b96b72cc00) (1/5/10000) chnl/tgt/lun 0/246/0 result 0x2, cdb 0x8a:0000000149adb300:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able Sep 16 06:20:58 DD9900 kernel: [11647874.161997] (E4)scsi16: (ffff88b946a08e00) (1/5/10000) chnl/tgt/lun 0/237/0 result 0x2, cdb 0x8a:000000014a777478:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
- DD_RAID вызывает сбой дисков из-за ошибок «WRITE I/O».
Sep 16 06:17:59 DD9900 kernel: [11647695.020655] (E4)DD_RAID: Failing working disk [6.35 dm-27p3 WSD48SRA 254:3635] from DiskGroup dg19
Sep 16 06:20:59 DD9900 kernel: [11647875.122961] (E4)DD_RAID: Failing working disk [2.32 dm-25p3 WSD49GCR 254:403] from DiskGroup dg4
Sep 16 06:21:54 DD9900 kernel: [11647930.659786] (E4)DD_RAID: Failing working disk [2.39 dm-46p3 WSD48TEG 254:739] from DiskGroup dg2
Sep 16 06:21:58 DD9900 kernel: [11647934.612549] (E4)DD_RAID: Failing working disk [{*}6.43{*} dm-233p3 WSD49GG6 254:3731] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.363248] (E4)DD_RAID: Failing working disk [{*}6.21{*} dm-219p3 WSD47KYS 254:3507] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.477630] (E4)DD_RAID: Failing working disk [{*}6.5{*} dm-242p3 WSD4B13V 254:3875] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.651261] (E4)DD_RAID: Failing working disk [{*}6.18{*} dm-259p3 WSD47EWA 254:4147] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.726575] (E4)DD_RAID: Failing working disk [{*}6.15{*} dm-265p3 WSD49BGL 254:4243] from DiskGroup dg16
Sep 16 06:22:05 DD9900 kernel: [11647941.100980] (E4)DD_RAID: Failing working disk [{*}6.26{*} dm-257p3 WSD49ART 254:4115] from DiskGroup dg16
Признаки неудачи запуска DDFS
- В ddfs.info приведенные ниже сообщения длительно отображаются во время запуска DDFS. Запуск не продвигается до завершения процесса DDFS с принудительным переключением на одноранговый узел при отказе.
09/15 21:49:21.962018 [a0cc980] SYSTEM_STARTUP: ===== completed <SegStore> - time (1663292961) ===== 09/15 21:49:21.962028 [a0cc980] SYSTEM_STARTUP: ===== starting <CC-Agent> - time (1663292961) ===== 09/15 21:57:11.699754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub 09/15 21:59:11.819754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub 09/15 22:01:11.939754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub ... 09/16 02:01:26.339755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub 09/16 02:03:26.459755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub 09/16 02:05:26.579755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
Cause
Корневая причина состояния сбоя диска
Буфер кэша DRAM диска обнаруживает ложную ошибку нарушения целостности данных при рабочей нагрузке с различным количеством операций ввода-вывода. Производитель накопителя предоставил исправление микропрограммы для устранения этой проблемы.
Resolution
Временное решение
В случае перезагрузки или переключения при отказе возможность DD_RAID «failback» неисправные диски недоступна. В этом случае дождитесь завершения традиционного восстановления дисков (с использованием четности). Отключите GC, пока не будут завершены все операции восстановления диска. Если файловая система не запускается после перезагрузки или переключения при отказе, перед завершением процесса DDFS обратитесь к TSE DDFS.
Если перезагрузка или переключение при отказе не происходит, DD_RAID может выполнить «failback» восстановление неисправных дисков. Это ручная операция с помощью команды «dd_raidtool» в bash. Прежде чем инициировать возврат диска к состоянию до сбоя, необходимо выключить и снова включить питание для неисправных слотов дисков. Для этого обратитесь в службу технической поддержки Dell .
На основе практического опыта рекомендуется дождаться восстановления диска более чем на 50%, не переходя к возврату к состоянию до сбоя.
После завершения всех операций восстановления диски, которые по-прежнему неисправны, можно «unfailed», если питание соответствующих слотов было выключено и снова включено.
Исправление
Микропрограмма диска версии CA04 теперь доступна в виде исправления MDU в пакете модернизации DDOS. Обратитесь в службу поддержки для получения копии RPM. Он расположен в /auto/cores/drive-firmware-rpm/drive-firmware-CA04.rpm.
Часто задаваемые вопросы.
- Можно ли выполнить модернизацию с помощью файловой системы Data Domain в режиме онлайн?
Нет, DDFS должен быть отключен или находиться в автономном режиме для выполнения модернизации микропрограммы. - Требуется ли перезагрузка?
Нет, перезагрузка не требуется. - Можно ли применить микропрограмму на пассивном узле?
Нет, его нельзя применить к пассивному узлу. Ее можно выполнить только на активном узле. - Сколько времени потребуется, чтобы модернизировать микропрограмму drive-firmware-CA04.RPM для 180–240 накопителей (4-DS60)?
Модернизация выполняется в параллельном режиме. Если не возникнут проблемы, это займет 10–15 минут. - Если обновлены не все диски, система автоматически обновит диски, не относящиеся к CA04?
Нет, обновление необходимо запустить повторно или выполнить вручную. См. раздел «Дополнительная информация» ниже. - Нужно ли применять исправление микропрограммы drive-firmware-CA04?RPM и к другим DD, не относящимся к HA, так как в них тоже могут присутствовать диски с более старой микропрограммой?
Рекомендуется применить исправление микропрограммы накопителя drive-firmware-CA04.RPM к DD, не относящимся к HA, с дисками 8 Тбайт. - Если во время обновления произошел сбой накопителя, можно ли его устранить из ошибок?
В случае сбоя накопителя до или во время обновления микропрограммы проверьте диск на наличие истории ошибок (например, «disk show reliability-data»). Если на диске имеются какие-либо ошибки, он должен остаться неисправным и его необходимо заменить. Если на диске нет ошибок, выполните команду «disk unfail <disk.id>», чтобы вернуть диск в исправное состояние и сделать его резервным. Если неисправный накопитель заменяется накопителем с более ранней версией микропрограммы накопителя CA01/CA02, его необходимо обновить вручную. См. «Обновление сменных накопителей вручную» в дополнительном разделе ниже. - Почему необходимо приостановить активность в группе дисков 2 (dg2) даже в случае недоступности DDFS?
DDOS продолжает обладать доступом к установкам EXT3, существующим в dg2.
Применение пакета MDU:
- Подключитесь к активному узлу системы высокой доступности. Обновление не работает на пассивном или резервном узле.
- Запланируйте простой вместе с пользователем, так как DDFS должен быть отключен во время обновления микропрограммы. Выполните следующие команды, чтобы проверить текущие оповещения и устранить их при необходимости. Остановите процесс очистки, если он запущен. Отключите файловую систему.
# alerts show current# filesys clean status# filesys clean stop# filesys disable - В случае систем без миграции хранилища проверьте в службе автоподдержки наличие дисков CA01/CA02, входящих в состав >=dg2. В случае систем с миграцией хранилища группа дисков с массивами ext3 может не являться dg2.
Выполните поиск ext3. Он показывает гистограмму DD_RAID dgXX, где XX - номер DG. См. пример в приведенном ниже разделе «Дополнительная информация». Если на дисках dg2/dgXX установлена микропрограмма CA01/C02, работу массива необходимо временно приостановить на время процесса обновления MDU. Если этого не сделать, все операции ввода-вывода в группе дисков не будут приостановлены, это может привести к другому сбою. Откройте заявку в службу поддержки для получения помощи в приостановке работы группы дисков. Если dg2/dgXX не содержит диски CA01/CA02, обращение в службу поддержки не требуется. Перейдите к шагу 4. - Загрузите файл
drive-firmware-CA04.rpmиз пользовательского интерфейса DD System Manager. - Модернизируйте диски. Выполните следующую команду и дождитесь ее завершения.
# system upgrade start drive-firmware-CA04.rpm" - Подождите около 10 минут.
- Убедитесь, что все диски модернизированы. Если диски по-прежнему отображаются с микропрограммой CA01/CA02, повторите шаги 5 и 6.
# disk show hardware - Проверьте текущее состояние диска. В случае сбоя нескольких дисков обратитесь за помощью в службу поддержки. В случае сбоев одного диска проверьте диск на наличие истории ошибок. Если ошибки отсутствуют, верните диск в исправное состояние.
# disk unfail <disk.id> - Проверьте оповещения и включите DDFS.
# alerts show current# filesys enable
Additional Information
Как проверить наличие дисков dg2/dgXX с массивом ext3 и микропрограммой CA01/CA02?
В случае систем без миграции хранилища в dg2 используются массивы ext3.
Выполните поиск следующих строк в службе автоподдержки. (Жирным шрифтом)
- Гистограмма DD_RAID
DD_RAID Histogram for dg2 0xafc318cb033dc226 DG:dg2 UUID:0xafc318cb033dc226 MajorNr:61 MajorNrEx:62 GrpNr:10 State:Complete Status:Reassembled Index:0 Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:148681617408 Options:0x10000100 Type:StandAlone Primary Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS300198000G MG UUID:0x0 Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0xb6fbb5a5a61ecf9] Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [148681617408 sectors] ID[0xfb32c1339fafc87b]
- Storage Show All (эту команду также можно выполнить в интерфейсе командной строки DD)
dg2 2.1-2.3, 2.13-2.15, 2.25-2.27, 14 7.2 TiB 2.37-2.39, 2.49-2.50
- Disk Show Hardware (эту команду можно выполнить в интерфейсе командной строки DD)
2.1 A0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R8GS 7.2 TiB SASe DG118000919 2.2 A1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4REMW 7.2 TiB SASe DG118000919 2.3 A2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4LM5C 7.2 TiB SASe DG118000919 2.13 B0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SMHX 7.2 TiB SASe DG118000919 2.14 B1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4RF04 7.2 TiB SASe DG118000919 2.15 B2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4QHQE 7.2 TiB SASe DG118000919 2.25 C0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4RE9Y 7.2 TiB SASe DG118000919 2.26 C1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4LMME 7.2 TiB SASe DG118000919 2.27 C2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4REW8 7.2 TiB SASe DG118000919 2.37 D0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SMHM 7.2 TiB SASe DG118000919 2.38 D1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4QHWR 7.2 TiB SASe DG118000919 2.39 D2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R862 7.2 TiB SASe DG118000919 2.49 E0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SSKK 7.2 TiB SASe DG118000919 2.50 E1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SV53 7.2 TiB SASe DG118000919 2.51 E2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R944 7.2 TiB SASe DG118000919
В приведенном выше примере накопители имеют микропрограмму CA01. Необходимо открыть заявку в службу поддержки, чтобы Dell Technologies могла помочь с приостановкой группы дисков (dg2), содержащей массив ext3, перед применением модернизации MDU.
В случае систем с миграцией хранилища массив, содержащий ext3, может не относиться к dg2. Выполните поиск следующих строк в службе автоматической поддержки. (Жирным шрифтом)
Licenses (STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS)
Licenses -------- System locking-id: APX00123456789 Licensing scheme: EMC Electronic License Management System (ELMS) node-locked mode Capacity licenses: ## Feature Shelf Model Capacity Type State Expiration Date Note -- --------------- ------------ ----------- --------- ------ --------------- ---- 1 CAPACITY-ACTIVE HIGH_DENSITY 1396.98 TiB permanent active n/a -- --------------- ------------ ----------- --------- ------ --------------- ---- Licensed Active Tier capacity: 1396.98 TiB* * Depending on the hardware platform, usable filesystem capacities may vary. Feature licenses: ## Feature Count Type State Expiration Date Note -- ---------------------------------------- ----- ---------- ------ --------------- --------------- 1 REPLICATION 1 permanent active n/a 2 VTL 1 permanent active n/a 3 DDBOOST 1 permanent active n/a 4 RETENTION-LOCK-GOVERNANCE 1 permanent active n/a 5 ENCRYPTION 1 permanent active n/a 6 I/OS 1 permanent active n/a 7 RETENTION-LOCK-COMPLIANCE 1 permanent active n/a 8 STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS 6 evaluation grace 2023-11-20 -- ---------------------------------------- ----- ---------- ------ --------------- --------------- License file last modified at : 2022/08/29 11:02:13.
- Гистограмма DD_RAID
DD_RAID Histogram for dg23 0x323d6b863ae21b8f DG:dg23 UUID:0x323d6b863ae21b8f MajorNr:61 MajorNrEx:62 GrpNr:18 State:Complete Status:Reassembled Index:0 Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:161373947904 Options:0x10000100 Type:StandAlone Primary Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS30021O001N MG UUID:0x0 Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0x16222e80737dc6bf] Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [161373947904 sectors] ID[0x8febacd8140b2c05]
Storage Show All (This command can be ran on the DD CLI)
dg23 6.1-6.3, 6.13-6.15, 6.25-6.27, 14 7.2 TiB 6.37-6.39, 6.49-6.50
Disk Show Hardware (This command can be ran on the DD CLI)
6.1 A0 HITACHI H04728T8CLAR8000 A430 VYH2S3SS 7.2 TiB SASe DG118000785 6.2 A1 HITACHI H04728T8CLAR8000 A430 VYH2RVSS 7.2 TiB SASe DG118000785 6.3 A2 HITACHI H04728T8CLAR8000 A430 VYH2K9KS 7.2 TiB SASe DG118000785 6.13 B0 HITACHI H04728T8CLAR8000 A430 VYH2JJBS 7.2 TiB SASe DG118000785 6.14 B1 HITACHI H04728T8CLAR8000 A430 VYH1Y83S 7.2 TiB SASe DG118000785 6.15 B2 HITACHI H04728T8CLAR8000 A430 VYH2RNGS 7.2 TiB SASe DG118000785 6.25 C0 HITACHI H04728T8CLAR8000 A430 VYH1DN8S 7.2 TiB SASe DG118000785 6.26 C1 HITACHI H04728T8CLAR8000 A430 VYH2124S 7.2 TiB SASe DG118000785 6.27 C2 HITACHI H04728T8CLAR8000 A430 VYH0ZM6S 7.2 TiB SASe DG118000785 6.25 C0 HITACHI H04728T8CLAR8000 A430 VYH1DN8S 7.2 TiB SASe DG118000785 6.26 C1 HITACHI H04728T8CLAR8000 A430 VYH2124S 7.2 TiB SASe DG118000785 6.27 C2 HITACHI H04728T8CLAR8000 A430 VYH0ZM6S 7.2 TiB SASe DG118000785 6.47 D10 HITACHI H04728T8CLAR8000 A430 VYH1XGJS 7.2 TiB SASe DG118000785 6.48 D11 HITACHI H04728T8CLAR8000 A430 VYH20VHS 7.2 TiB SASe DG118000785 6.49 E0 HITACHI H04728T8CLAR8000 A430 VYH2G5XS 7.2 TiB SASe DG118000785
Поскольку накопители не имеют микропрограммы CA01 и CA02, обращение в службу поддержки не требуется. Перейдите к шагу 3 инструкции по модернизации MDU в приведенном выше разделе «Решение».