Домен даних: Кілька дисків виходять з ладу під час перемикання після відмови систем HA | Проблема CA01 CA02 FW
Summary: Висока доступність домену даних (HA) може виникати з ладу диска під час відновлення після відмови через відому проблему з мікропрограмним забезпеченням диска. У деяких системах може спостерігатися нездатність файлової системи запуститися після відновлення після відмови або перезавантаження. ...
Symptoms
Відмова компонента обмежена накопичувачами ємністю 8 ТБ з версіями прошивки CA01 і CA02. Як правило, це впливає на кілька груп RAID (груп дисків). Він може бути одноразово деградованим (одна відмова) або подвійним ступенем деградації (відмова двох дисків).
Системи, які не перезавантажуються, стикаються з перериванням файлової системи, але повинні відновлюватися самостійно; з кількома перебудовами дисків, що тривають і очікують на розгляд. Для систем, які перезавантажуються, відбувається примусове перемикання після відмови, що може призвести до зависання файлової системи під час запуску.
Застосовується для:
- Тільки для моделей DD9400 і DD9900
- Жорсткий диск ємністю 8 ТБ у зовнішніх корпусах для зберігання даних із версією мікропрограми (FW) CA01 або CA02
Виправити:
- Виправлені версії DDOS: DDOS 7.11.x, 7.10.1.0 і 7.7.5.1, а також пізніші версії мають вбудовану прошивку CA04.
- Мінімальне руйнівне оновлення (MDU) доступне для всіх інших версій DDOS 7.x.
- Посилання на МОУ: Прочитати мене + Завантажити: Пакет мінімального оновлення прошивки жорсткого диска DDOS 7.X – листопад 2022 р. (для перегляду документа потрібен вхід як зареєстрований користувач служби підтримки Dell)
Примітка: Файлову систему слід вимкнути під час застосування MDU.
Симптоми несправності диска:
- Сенсорний ключ звіту журналів диска
4/0x29/0xcdпри виконанні запису в SCSIcdb 0x8a, одна помилка команди запису викликає вихід з ладу диска модулем DD_RAID.
Sep 16 06:17:59 DD9900 kernel: [11647695.019070] (E4)scsi16: (ffff88fe1522d800) (0/5/10000) chnl/tgt/lun 0/232/0 result 0x2, cdb 0x8a:00000001498b4728:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able Sep 16 06:20:58 DD9900 kernel: [11647874.161940] (E4)scsi16: (ffff88b96b72cc00) (1/5/10000) chnl/tgt/lun 0/246/0 result 0x2, cdb 0x8a:0000000149adb300:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able Sep 16 06:20:58 DD9900 kernel: [11647874.161997] (E4)scsi16: (ffff88b946a08e00) (1/5/10000) chnl/tgt/lun 0/237/0 result 0x2, cdb 0x8a:000000014a777478:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
- DD_RAID виходить з ладу дисків через помилки "WRITE I/O".
Sep 16 06:17:59 DD9900 kernel: [11647695.020655] (E4)DD_RAID: Failing working disk [6.35 dm-27p3 WSD48SRA 254:3635] from DiskGroup dg19
Sep 16 06:20:59 DD9900 kernel: [11647875.122961] (E4)DD_RAID: Failing working disk [2.32 dm-25p3 WSD49GCR 254:403] from DiskGroup dg4
Sep 16 06:21:54 DD9900 kernel: [11647930.659786] (E4)DD_RAID: Failing working disk [2.39 dm-46p3 WSD48TEG 254:739] from DiskGroup dg2
Sep 16 06:21:58 DD9900 kernel: [11647934.612549] (E4)DD_RAID: Failing working disk [{*}6.43{*} dm-233p3 WSD49GG6 254:3731] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.363248] (E4)DD_RAID: Failing working disk [{*}6.21{*} dm-219p3 WSD47KYS 254:3507] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.477630] (E4)DD_RAID: Failing working disk [{*}6.5{*} dm-242p3 WSD4B13V 254:3875] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.651261] (E4)DD_RAID: Failing working disk [{*}6.18{*} dm-259p3 WSD47EWA 254:4147] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.726575] (E4)DD_RAID: Failing working disk [{*}6.15{*} dm-265p3 WSD49BGL 254:4243] from DiskGroup dg16
Sep 16 06:22:05 DD9900 kernel: [11647941.100980] (E4)DD_RAID: Failing working disk [{*}6.26{*} dm-257p3 WSD49ART 254:4115] from DiskGroup dg16
DDFS не може запуститися Симптоми:
- У ddfs.info наведені нижче повідомлення стосуються тривалого періоду часу під час запуску DDFS. Він не прогресує, доки процес DDFS не буде завершено, що змусить відмовитися вузол однорангового вузла.
09/15 21:49:21.962018 [a0cc980] SYSTEM_STARTUP: ===== completed <SegStore> - time (1663292961) ===== 09/15 21:49:21.962028 [a0cc980] SYSTEM_STARTUP: ===== starting <CC-Agent> - time (1663292961) ===== 09/15 21:57:11.699754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub 09/15 21:59:11.819754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub 09/15 22:01:11.939754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub ... 09/16 02:01:26.339755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub 09/16 02:03:26.459755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub 09/16 02:05:26.579755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
Cause
Основна причина стану відмови диска:
Буфер кешу DRAM накопичувача стикається з помилковою помилкою цілісності даних при випадковому робочому навантаженні введення-виведення. Виробник накопичувача надав виправлення прошивки, щоб вирішити цю проблему.
Resolution
Спосіб вирішення проблеми
Якщо сталося перезавантаження або відновлення після відмови, можливість DD_RAID до "failbackЩо вийшли з ладу диски - не варіант. У цьому випадку дозвольте завершити традиційні перебудови диска (парність). Вимкніть GC, доки не будуть завершені всі перебудови диска. Якщо файлова система має проблеми із запуском після перезавантаження або відмови, зверніться до DDFS TSE, перш ніж завершити процес DDFS.
Якщо перезавантаження або відновлення після відмови не відбулося, DD_RAID можемо "failback" перебудова дисків, що вийшли з ладу. Це ручна операція з використанням «dd_raidtool" в баш. Перш ніж ініціювати «зворотний зв'язок» диска, що вийшов з ладу, необхідно зациклити живлення; Щоб це зробити, зверніться до служби технічної підтримки Dell .
Виходячи з практичного досвіду, дозвольте завершити перебудову диска на понад 50%, а не переходити до реконструкції зворотного зв'язку.
Після того, як всі перебудови будуть завершені, диски, які все ще вийшли з ладу, можуть бути "unfailed", якщо відповідні слоти були відключені живлення.
Виправити
Версія прошивки диска CA04 тепер доступна у вигляді виправлення MDU у вигляді пакета оновлення DDOS. Зверніться до служби підтримки, щоб отримати копію RPM. Він розташований у /auto/cores/drive-firmware-rpm/drive-firmware-CA04.rpm.
ПОШИРЕНІ ЗАПИТАННЯ:
- Чи можна виконати оновлення за допомогою файлової системи Data Domain в Інтернеті?
Ні, DDFS має бути вимкнено в автономному режимі під час оновлення FW. - Чи потрібне перезавантаження?
Ні, перезавантаження не потрібне. - Чи можна застосовувати FW на пасивному вузлі?
Ні, його не можна наносити на пасивний вузол. Він повинен бути запущений тільки на активному вузлі. - Скільки часу займає оновлення FW drive-firmware-CA04.RPM для дисків 180-240 (4-DS60)?
Оновлення відбувається в паралельному режимі, займає 10 - 15 хвилин, якщо немає проблем. - Якщо не всі диски оновлено, чи система автоматично оновлює диски, які не належать до CA04?
Ні, оновлення потрібно повторно запускати знову або можна зробити вручну. Дивіться розділ "Додаткова інформація" нижче. - Чи повинні вони застосовувати цей FW drive-firmware-CA04? Патч RPM і на інших NON-HA DD, оскільки ці можуть мати диски і на старих FW?
Рекомендується також застосовувати FW drive-firmware-CA04.RPM до NON-HA DD з дисками на 8 ТБ. - Якщо під час оновлення диск вийшов з ладу, чи може він бути невдалим?
Якщо диск виходить з ладу до або під час оновлення FW, перевірте диск на наявність журналу помилок (наприклад, "disk show reliability-data"). Якщо диск має якісь помилки, він повинен залишитися з ладу і підлягає заміні. Якщо на диску немає помилок, виконайте команду «disk unfail <disk.id>», щоб розвантажити диск і зробити його запасним. У разі заміни несправного диска на диск зі старішою мікропрограмою CA01/CA02 необхідно оновити диск вручну. Дивіться нижче «Як вручну оновити замінні диски» в додатковому розділі нижче. - Чому необхідно призупиняти активність у групі дисків 2 (dg2), навіть коли DDFS не працює?
DDOS продовжує мати доступ до монтувань EXT3, які існують у dg2.
Застосування пакету MDU:
- Підключіться до активного вузла системи HA. Оновлення не працює з пасивного або резервного вузла.
- Заплануйте час простою з користувачем, оскільки DDFS має бути вимкнено під час оновлення FW. Виконайте наведені нижче команди, щоб перевірити поточні сповіщення та відповісти на них за потреби. Припиніть процес очищення, якщо він запущений. Вимкніть файлову систему.
# alerts show current# filesys clean status# filesys clean stop# filesys disable - Перевірте автопідтримку дисків CA01/CA02, що входять до >складу =dg2 для систем, які не проходили міграцію сховища. Для систем, які пройшли міграцію сховища, група дисків з масивами ext3 може не бути dg2.
Знайдіть ext3. Він показує DD_RAID гістограмі для dgXX, де XX – номер DG. Дивіться приклад у розділі "Додаткова інформація" нижче. Якщо диски dg2/dgXX мають прошивку CA01/C02, масив має бути тимчасово призупинений під час оновлення MDU. Якщо цього не зробити, це може спричинити новий збій, якщо всю активність вводу/виводу в групі дисків не призупинено. Відкрийте інкейс підтримки, щоб отримати допомогу з призупиненням роботи групи дисків. Якщо dg2/dgXX не містить дисків CA01/CA02, чохол підтримки не потрібен. Перейдіть до кроку 4. - Завантажте файл
drive-firmware-CA04.rpmз інтерфейсу диспетчера системи DD. - Оновіть диски. Виконайте наступну команду і дочекайтеся її закінчення.
# system upgrade start drive-firmware-CA04.rpm" - Зачекайте ~10 хвилин.
- Переконайтеся, що всі диски оновлено. Якщо диски все ще відображаються з мікропрограмою CA01/CA02, повторіть кроки 5 і 6.
# disk show hardware - Перевірте поточний стан диска. Якщо є кілька збоїв у роботі диска, зверніться по допомогу до служби підтримки. У разі збою одного диска перевірте диск на наявність журналу помилок, а якщо помилок немає, вимкніть збій на диску.
# disk unfail <disk.id> - Перевірте сповіщення та ввімкніть DDFS.
# alerts show current# filesys enable
Additional Information
Як перевірити наявність дисків dg2/dgXX, які мають масив ext3 і містять прошивку CA01/CA02.
Для систем, що не містять даних, dg2 має масиви ext3.
Пошукайте автопідтримку за наступними рядками. (Виділено жирним шрифтом)
- DD_RAID Гістограма
DD_RAID Histogram for dg2 0xafc318cb033dc226 DG:dg2 UUID:0xafc318cb033dc226 MajorNr:61 MajorNrEx:62 GrpNr:10 State:Complete Status:Reassembled Index:0 Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:148681617408 Options:0x10000100 Type:StandAlone Primary Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS300198000G MG UUID:0x0 Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0xb6fbb5a5a61ecf9] Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [148681617408 sectors] ID[0xfb32c1339fafc87b]
- Storage Show All (Цю команду також можна виконати на DD CLI)
dg2 2.1-2.3, 2.13-2.15, 2.25-2.27, 14 7.2 TiB 2.37-2.39, 2.49-2.50
- Disk Show Hardware (Цю команду можна виконати на DD CLI)
2.1 A0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R8GS 7.2 TiB SASe DG118000919 2.2 A1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4REMW 7.2 TiB SASe DG118000919 2.3 A2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4LM5C 7.2 TiB SASe DG118000919 2.13 B0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SMHX 7.2 TiB SASe DG118000919 2.14 B1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4RF04 7.2 TiB SASe DG118000919 2.15 B2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4QHQE 7.2 TiB SASe DG118000919 2.25 C0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4RE9Y 7.2 TiB SASe DG118000919 2.26 C1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4LMME 7.2 TiB SASe DG118000919 2.27 C2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4REW8 7.2 TiB SASe DG118000919 2.37 D0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SMHM 7.2 TiB SASe DG118000919 2.38 D1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4QHWR 7.2 TiB SASe DG118000919 2.39 D2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R862 7.2 TiB SASe DG118000919 2.49 E0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SSKK 7.2 TiB SASe DG118000919 2.50 E1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SV53 7.2 TiB SASe DG118000919 2.51 E2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R944 7.2 TiB SASe DG118000919
У наведеному вище прикладі накопичувачі мають прошивку CA01. Необхідно відкрити корпус підтримки, щоб Dell Technologies могла допомогти з призупиненням групи дисків (dg2), що містить масив ext3, перш ніж буде застосовано оновлення MDU.
Для систем з міграцією сховища масив, що містить ext3, може не бути dg2. Пошукайте автопідтримку за наступними рядками. (Виділено жирним шрифтом)
Licenses (STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS)
Licenses -------- System locking-id: APX00123456789 Licensing scheme: EMC Electronic License Management System (ELMS) node-locked mode Capacity licenses: ## Feature Shelf Model Capacity Type State Expiration Date Note -- --------------- ------------ ----------- --------- ------ --------------- ---- 1 CAPACITY-ACTIVE HIGH_DENSITY 1396.98 TiB permanent active n/a -- --------------- ------------ ----------- --------- ------ --------------- ---- Licensed Active Tier capacity: 1396.98 TiB* * Depending on the hardware platform, usable filesystem capacities may vary. Feature licenses: ## Feature Count Type State Expiration Date Note -- ---------------------------------------- ----- ---------- ------ --------------- --------------- 1 REPLICATION 1 permanent active n/a 2 VTL 1 permanent active n/a 3 DDBOOST 1 permanent active n/a 4 RETENTION-LOCK-GOVERNANCE 1 permanent active n/a 5 ENCRYPTION 1 permanent active n/a 6 I/OS 1 permanent active n/a 7 RETENTION-LOCK-COMPLIANCE 1 permanent active n/a 8 STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS 6 evaluation grace 2023-11-20 -- ---------------------------------------- ----- ---------- ------ --------------- --------------- License file last modified at : 2022/08/29 11:02:13.
- DD_RAID Гістограма
DD_RAID Histogram for dg23 0x323d6b863ae21b8f DG:dg23 UUID:0x323d6b863ae21b8f MajorNr:61 MajorNrEx:62 GrpNr:18 State:Complete Status:Reassembled Index:0 Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:161373947904 Options:0x10000100 Type:StandAlone Primary Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS30021O001N MG UUID:0x0 Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0x16222e80737dc6bf] Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [161373947904 sectors] ID[0x8febacd8140b2c05]
Storage Show All (This command can be ran on the DD CLI)
dg23 6.1-6.3, 6.13-6.15, 6.25-6.27, 14 7.2 TiB 6.37-6.39, 6.49-6.50
Disk Show Hardware (This command can be ran on the DD CLI)
6.1 A0 HITACHI H04728T8CLAR8000 A430 VYH2S3SS 7.2 TiB SASe DG118000785 6.2 A1 HITACHI H04728T8CLAR8000 A430 VYH2RVSS 7.2 TiB SASe DG118000785 6.3 A2 HITACHI H04728T8CLAR8000 A430 VYH2K9KS 7.2 TiB SASe DG118000785 6.13 B0 HITACHI H04728T8CLAR8000 A430 VYH2JJBS 7.2 TiB SASe DG118000785 6.14 B1 HITACHI H04728T8CLAR8000 A430 VYH1Y83S 7.2 TiB SASe DG118000785 6.15 B2 HITACHI H04728T8CLAR8000 A430 VYH2RNGS 7.2 TiB SASe DG118000785 6.25 C0 HITACHI H04728T8CLAR8000 A430 VYH1DN8S 7.2 TiB SASe DG118000785 6.26 C1 HITACHI H04728T8CLAR8000 A430 VYH2124S 7.2 TiB SASe DG118000785 6.27 C2 HITACHI H04728T8CLAR8000 A430 VYH0ZM6S 7.2 TiB SASe DG118000785 6.25 C0 HITACHI H04728T8CLAR8000 A430 VYH1DN8S 7.2 TiB SASe DG118000785 6.26 C1 HITACHI H04728T8CLAR8000 A430 VYH2124S 7.2 TiB SASe DG118000785 6.27 C2 HITACHI H04728T8CLAR8000 A430 VYH0ZM6S 7.2 TiB SASe DG118000785 6.47 D10 HITACHI H04728T8CLAR8000 A430 VYH1XGJS 7.2 TiB SASe DG118000785 6.48 D11 HITACHI H04728T8CLAR8000 A430 VYH20VHS 7.2 TiB SASe DG118000785 6.49 E0 HITACHI H04728T8CLAR8000 A430 VYH2G5XS 7.2 TiB SASe DG118000785
Оскільки накопичувачі не мають прошивки CA01 та CA02, чохол підтримки не потрібен. Перейдіть до кроку 3 етапу оновлення MDU в розділі "Роздільна здатність" вище.