Домен даних: Кілька дисків виходять з ладу під час перемикання після відмови систем HA | Проблема CA01 CA02 FW

Summary: Висока доступність домену даних (HA) може виникати з ладу диска під час відновлення після відмови через відому проблему з мікропрограмним забезпеченням диска. У деяких системах може спостерігатися нездатність файлової системи запуститися після відновлення після відмови або перезавантаження. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Відмова компонента обмежена накопичувачами ємністю 8 ТБ з версіями прошивки CA01 і CA02. Як правило, це впливає на кілька груп RAID (груп дисків). Він може бути одноразово деградованим (одна відмова) або подвійним ступенем деградації (відмова двох дисків).

Системи, які не перезавантажуються, стикаються з перериванням файлової системи, але повинні відновлюватися самостійно; з кількома перебудовами дисків, що тривають і очікують на розгляд. Для систем, які перезавантажуються, відбувається примусове перемикання після відмови, що може призвести до зависання файлової системи під час запуску.

Застосовується для:

  • Тільки для моделей DD9400 і DD9900
  • Жорсткий диск ємністю 8 ТБ у зовнішніх корпусах для зберігання даних із версією мікропрограми (FW) CA01 або CA02

Виправити:

  • Виправлені версії DDOS: DDOS 7.11.x, 7.10.1.0 і 7.7.5.1, а також пізніші версії мають вбудовану прошивку CA04.
  • Мінімальне руйнівне оновлення (MDU) доступне для всіх інших версій DDOS 7.x.

Примітка: Файлову систему слід вимкнути під час застосування MDU.


Симптоми несправності диска:

  • Сенсорний ключ звіту журналів диска 4/0x29/0xcd при виконанні запису в SCSI cdb 0x8a, одна помилка команди запису викликає вихід з ладу диска модулем DD_RAID.
Sep 16 06:17:59 DD9900 kernel: [11647695.019070] (E4)scsi16: (ffff88fe1522d800) (0/5/10000) chnl/tgt/lun 0/232/0 result 0x2, cdb 0x8a:00000001498b4728:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
Sep 16 06:20:58 DD9900 kernel: [11647874.161940] (E4)scsi16: (ffff88b96b72cc00) (1/5/10000) chnl/tgt/lun 0/246/0 result 0x2, cdb 0x8a:0000000149adb300:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
Sep 16 06:20:58 DD9900 kernel: [11647874.161997] (E4)scsi16: (ffff88b946a08e00) (1/5/10000) chnl/tgt/lun 0/237/0 result 0x2, cdb 0x8a:000000014a777478:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
  • DD_RAID виходить з ладу дисків через помилки "WRITE I/O".
Sep 16 06:17:59 DD9900 kernel: [11647695.020655] (E4)DD_RAID: Failing working disk [6.35 dm-27p3 WSD48SRA 254:3635] from DiskGroup dg19
Sep 16 06:20:59 DD9900 kernel: [11647875.122961] (E4)DD_RAID: Failing working disk [2.32 dm-25p3 WSD49GCR 254:403] from DiskGroup dg4
Sep 16 06:21:54 DD9900 kernel: [11647930.659786] (E4)DD_RAID: Failing working disk [2.39 dm-46p3 WSD48TEG 254:739] from DiskGroup dg2
Sep 16 06:21:58 DD9900 kernel: [11647934.612549] (E4)DD_RAID: Failing working disk [{*}6.43{*} dm-233p3 WSD49GG6 254:3731] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.363248] (E4)DD_RAID: Failing working disk [{*}6.21{*} dm-219p3 WSD47KYS 254:3507] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.477630] (E4)DD_RAID: Failing working disk [{*}6.5{*} dm-242p3 WSD4B13V 254:3875] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.651261] (E4)DD_RAID: Failing working disk [{*}6.18{*} dm-259p3 WSD47EWA 254:4147] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.726575] (E4)DD_RAID: Failing working disk [{*}6.15{*} dm-265p3 WSD49BGL 254:4243] from DiskGroup dg16
Sep 16 06:22:05 DD9900 kernel: [11647941.100980] (E4)DD_RAID: Failing working disk [{*}6.26{*} dm-257p3 WSD49ART 254:4115] from DiskGroup dg16

DDFS не може запуститися Симптоми:

  • У ddfs.info наведені нижче повідомлення стосуються тривалого періоду часу під час запуску DDFS. Він не прогресує, доки процес DDFS не буде завершено, що змусить відмовитися вузол однорангового вузла.
09/15 21:49:21.962018 [a0cc980] SYSTEM_STARTUP: ===== completed <SegStore> - time (1663292961) =====
09/15 21:49:21.962028 [a0cc980] SYSTEM_STARTUP: ===== starting <CC-Agent> - time (1663292961) =====

09/15 21:57:11.699754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/15 21:59:11.819754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/15 22:01:11.939754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
...
09/16 02:01:26.339755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/16 02:03:26.459755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/16 02:05:26.579755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub

Cause

Основна причина стану відмови диска:
Буфер кешу DRAM накопичувача стикається з помилковою помилкою цілісності даних при випадковому робочому навантаженні введення-виведення. Виробник накопичувача надав виправлення прошивки, щоб вирішити цю проблему.

Resolution

Спосіб вирішення проблеми

Якщо сталося перезавантаження або відновлення після відмови, можливість DD_RAID до "failbackЩо вийшли з ладу диски - не варіант. У цьому випадку дозвольте завершити традиційні перебудови диска (парність). Вимкніть GC, доки не будуть завершені всі перебудови диска. Якщо файлова система має проблеми із запуском після перезавантаження або відмови, зверніться до DDFS TSE, перш ніж завершити процес DDFS.

Якщо перезавантаження або відновлення після відмови не відбулося, DD_RAID можемо "failback" перебудова дисків, що вийшли з ладу. Це ручна операція з використанням «dd_raidtool" в баш. Перш ніж ініціювати «зворотний зв'язок» диска, що вийшов з ладу, необхідно зациклити живлення; Щоб це зробити, зверніться до служби технічної підтримки Dell .

Виходячи з практичного досвіду, дозвольте завершити перебудову диска на понад 50%, а не переходити до реконструкції зворотного зв'язку.

Після того, як всі перебудови будуть завершені, диски, які все ще вийшли з ладу, можуть бути "unfailed", якщо відповідні слоти були відключені живлення. 


Виправити

Версія прошивки диска CA04 тепер доступна у вигляді виправлення MDU у вигляді пакета оновлення DDOS. Зверніться до служби підтримки, щоб отримати копію RPM. Він розташований у /auto/cores/drive-firmware-rpm/drive-firmware-CA04.rpm.


ПОШИРЕНІ ЗАПИТАННЯ: 

  1. Чи можна виконати оновлення за допомогою файлової системи Data Domain в Інтернеті?
    Ні, DDFS має бути вимкнено в автономному режимі під час оновлення FW.
  2. Чи потрібне перезавантаження?
    Ні, перезавантаження не потрібне.
  3. Чи можна застосовувати FW на пасивному вузлі?
    Ні, його не можна наносити на пасивний вузол. Він повинен бути запущений тільки на активному вузлі.
  4. Скільки часу займає оновлення FW drive-firmware-CA04.RPM для дисків 180-240 (4-DS60)?
    Оновлення відбувається в паралельному режимі, займає 10 - 15 хвилин, якщо немає проблем.
  5. Якщо не всі диски оновлено, чи система автоматично оновлює диски, які не належать до CA04?
    Ні, оновлення потрібно повторно запускати знову або можна зробити вручну. Дивіться розділ "Додаткова інформація" нижче.
  6. Чи повинні вони застосовувати цей FW drive-firmware-CA04? Патч RPM і на інших NON-HA DD, оскільки ці можуть мати диски і на старих FW?
    Рекомендується також застосовувати FW drive-firmware-CA04.RPM до NON-HA DD з дисками на 8 ТБ.
  7. Якщо під час оновлення диск вийшов з ладу, чи може він бути невдалим?
    Якщо диск виходить з ладу до або під час оновлення FW, перевірте диск на наявність журналу помилок (наприклад, "disk show reliability-data"). Якщо диск має якісь помилки, він повинен залишитися з ладу і підлягає заміні. Якщо на диску немає помилок, виконайте команду «disk unfail <disk.id>», щоб розвантажити диск і зробити його запасним. У разі заміни несправного диска на диск зі старішою мікропрограмою CA01/CA02 необхідно оновити диск вручну. Дивіться нижче «Як вручну оновити замінні диски» в додатковому розділі нижче.
  8. Чому необхідно призупиняти активність у групі дисків 2 (dg2), навіть коли DDFS не працює?
    DDOS продовжує мати доступ до монтувань EXT3, які існують у dg2.


Застосування пакету MDU:

  1. Підключіться до активного вузла системи HA. Оновлення не працює з пасивного або резервного вузла.
  2. Заплануйте час простою з користувачем, оскільки DDFS має бути вимкнено під час оновлення FW. Виконайте наведені нижче команди, щоб перевірити поточні сповіщення та відповісти на них за потреби. Припиніть процес очищення, якщо він запущений. Вимкніть файлову систему. 
                # alerts show current
          # filesys clean status
          # filesys clean stop
          # filesys disable
  3. Перевірте автопідтримку дисків CA01/CA02, що входять до >складу =dg2 для систем, які не проходили міграцію сховища. Для систем, які пройшли міграцію сховища, група дисків з масивами ext3 може не бути dg2. 
    Знайдіть ext3. Він показує DD_RAID гістограмі для dgXX, де XX – номер DG. Дивіться приклад у розділі "Додаткова інформація" нижче. Якщо диски dg2/dgXX мають прошивку CA01/C02, масив має бути тимчасово призупинений під час оновлення MDU. Якщо цього не зробити, це може спричинити новий збій, якщо всю активність вводу/виводу в групі дисків не призупинено. Відкрийте інкейс підтримки, щоб отримати допомогу з призупиненням роботи групи дисків. Якщо dg2/dgXX не містить дисків CA01/CA02, чохол підтримки не потрібен. Перейдіть до кроку 4.
  4. Завантажте файл drive-firmware-CA04.rpm з інтерфейсу диспетчера системи DD.
  5. Оновіть диски. Виконайте наступну команду і дочекайтеся її закінчення. 
               # system upgrade start drive-firmware-CA04.rpm"
  6. Зачекайте ~10 хвилин.
  7. Переконайтеся, що всі диски оновлено. Якщо диски все ще відображаються з мікропрограмою CA01/CA02, повторіть кроки 5 і 6. 
               # disk show hardware
  8. Перевірте поточний стан диска. Якщо є кілька збоїв у роботі диска, зверніться по допомогу до служби підтримки. У разі збою одного диска перевірте диск на наявність журналу помилок, а якщо помилок немає, вимкніть збій на диску. 
              # disk unfail <disk.id>
  9. Перевірте сповіщення та ввімкніть DDFS. 
              # alerts show current
              # filesys enable

Additional Information

Як перевірити наявність дисків dg2/dgXX, які мають масив ext3 і містять прошивку CA01/CA02.
Для систем, що не містять даних, dg2 має масиви ext3.

Пошукайте автопідтримку за наступними рядками. (Виділено жирним шрифтом)

  • DD_RAID Гістограма
DD_RAID Histogram for dg2 0xafc318cb033dc226
DG:dg2 UUID:0xafc318cb033dc226 MajorNr:61 MajorNrEx:62 GrpNr:10 State:Complete Status:Reassembled Index:0
    Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:148681617408 Options:0x10000100 Type:StandAlone Primary
    Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS300198000G MG UUID:0x0
Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0xb6fbb5a5a61ecf9]
Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [148681617408 sectors] ID[0xfb32c1339fafc87b]
  • Storage Show All (Цю команду також можна виконати на DD CLI)
dg2       2.1-2.3, 2.13-2.15, 2.25-2.27,     14      7.2 TiB               
          2.37-2.39, 2.49-2.50
  • Disk Show Hardware (Цю команду можна виконати на DD CLI)
2.1          A0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R8GS       7.2 TiB    SASe      DG118000919             
2.2          A1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4REMW       7.2 TiB    SASe      DG118000919             
2.3          A2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4LM5C       7.2 TiB    SASe      DG118000919      
2.13         B0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SMHX       7.2 TiB    SASe      DG118000919             
2.14         B1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4RF04       7.2 TiB    SASe      DG118000919             
2.15         B2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4QHQE       7.2 TiB    SASe      DG118000919    
2.25         C0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4RE9Y       7.2 TiB    SASe      DG118000919             
2.26         C1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4LMME       7.2 TiB    SASe      DG118000919             
2.27         C2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4REW8       7.2 TiB    SASe      DG118000919
2.37         D0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SMHM       7.2 TiB    SASe      DG118000919             
2.38         D1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4QHWR       7.2 TiB    SASe      DG118000919             
2.39         D2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R862       7.2 TiB    SASe      DG118000919     
2.49         E0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SSKK       7.2 TiB    SASe      DG118000919             
2.50         E1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SV53       7.2 TiB    SASe      DG118000919             
2.51         E2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R944       7.2 TiB    SASe      DG118000919

 

У наведеному вище прикладі накопичувачі мають прошивку CA01. Необхідно відкрити корпус підтримки, щоб Dell Technologies могла допомогти з призупиненням групи дисків (dg2), що містить масив ext3, перш ніж буде застосовано оновлення MDU. 

Для систем з міграцією сховища масив, що містить ext3, може не бути dg2. Пошукайте автопідтримку за наступними рядками. (Виділено жирним шрифтом)

  • Licenses (STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS)

 

Licenses
--------
System locking-id: APX00123456789
Licensing scheme: EMC Electronic License Management System (ELMS) node-locked mode
Capacity licenses:
##   Feature           Shelf Model    Capacity      Type        State    Expiration Date   Note
--   ---------------   ------------   -----------   ---------   ------   ---------------   ----
1    CAPACITY-ACTIVE   HIGH_DENSITY   1396.98 TiB   permanent   active   n/a                   
--   ---------------   ------------   -----------   ---------   ------   ---------------   ----
Licensed Active Tier capacity: 1396.98 TiB*
* Depending on the hardware platform, usable filesystem capacities may vary.
Feature licenses:
##   Feature                                    Count   Type         State    Expiration Date   Note           
--   ----------------------------------------   -----   ----------   ------   ---------------   ---------------
1    REPLICATION                                    1   permanent    active   n/a                              
2    VTL                                            1   permanent    active   n/a                              
3    DDBOOST                                        1   permanent    active   n/a                              
4    RETENTION-LOCK-GOVERNANCE                      1   permanent    active   n/a                              
5    ENCRYPTION                                     1   permanent    active   n/a                              
6    I/OS                                           1   permanent    active   n/a                              
7    RETENTION-LOCK-COMPLIANCE                      1   permanent    active   n/a                              
8    STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS       6   evaluation   grace    2023-11-20        
--   ----------------------------------------   -----   ----------   ------   ---------------   ---------------
License file last modified at : 2022/08/29 11:02:13.
  • DD_RAID Гістограма
DD_RAID Histogram for dg23 0x323d6b863ae21b8f
DG:dg23 UUID:0x323d6b863ae21b8f MajorNr:61 MajorNrEx:62 GrpNr:18 State:Complete Status:Reassembled Index:0
    Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:161373947904 Options:0x10000100 Type:StandAlone Primary
    Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS30021O001N MG UUID:0x0
Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0x16222e80737dc6bf]
Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [161373947904 sectors] ID[0x8febacd8140b2c05]
  • Storage Show All (This command can be ran on the DD CLI)
dg23      6.1-6.3, 6.13-6.15, 6.25-6.27,     14      7.2 TiB               
          6.37-6.39, 6.49-6.50

 

  • Disk Show Hardware (This command can be ran on the DD CLI)
6.1          A0     HITACHI H04728T8CLAR8000   A430       VYH2S3SS         7.2 TiB    SASe      DG118000785             
6.2          A1     HITACHI H04728T8CLAR8000   A430       VYH2RVSS         7.2 TiB    SASe      DG118000785             
6.3          A2     HITACHI H04728T8CLAR8000   A430       VYH2K9KS         7.2 TiB    SASe      DG118000785          
6.13         B0     HITACHI H04728T8CLAR8000   A430       VYH2JJBS         7.2 TiB    SASe      DG118000785             
6.14         B1     HITACHI H04728T8CLAR8000   A430       VYH1Y83S         7.2 TiB    SASe      DG118000785             
6.15         B2     HITACHI H04728T8CLAR8000   A430       VYH2RNGS         7.2 TiB    SASe      DG118000785    
6.25         C0     HITACHI H04728T8CLAR8000   A430       VYH1DN8S         7.2 TiB    SASe      DG118000785             
6.26         C1     HITACHI H04728T8CLAR8000   A430       VYH2124S         7.2 TiB    SASe      DG118000785             
6.27         C2     HITACHI H04728T8CLAR8000   A430       VYH0ZM6S         7.2 TiB    SASe      DG118000785  
6.25         C0     HITACHI H04728T8CLAR8000   A430       VYH1DN8S         7.2 TiB    SASe      DG118000785             
6.26         C1     HITACHI H04728T8CLAR8000   A430       VYH2124S         7.2 TiB    SASe      DG118000785             
6.27         C2     HITACHI H04728T8CLAR8000   A430       VYH0ZM6S         7.2 TiB    SASe      DG118000785           
6.47         D10    HITACHI H04728T8CLAR8000   A430       VYH1XGJS         7.2 TiB    SASe      DG118000785             
6.48         D11    HITACHI H04728T8CLAR8000   A430       VYH20VHS         7.2 TiB    SASe      DG118000785             
6.49         E0     HITACHI H04728T8CLAR8000   A430       VYH2G5XS         7.2 TiB    SASe      DG118000785


Оскільки накопичувачі не мають прошивки CA01 та CA02, чохол підтримки не потрібен. Перейдіть до кроку 3 етапу оновлення MDU в розділі "Роздільна здатність" вище.

Affected Products

Data Domain, DD9400 Appliance, DD9900 Appliance

Products

DD OS 7.11
Article Properties
Article Number: 000204252
Article Type: Solution
Last Modified: 30 Oct 2025
Version:  19
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.