Data Domain. Во время переключения систем высокой доступности при отказе отказа несколько дисков | Проблема с микропрограммой CA01 CA02

Summary: В Data Domain High Availability (HA) могут возникать сбои дисков во время переключения HA при отказе из-за известной проблемы с микропрограммой дисков. В некоторых системах может возникнуть проблема с запуском файловой системы после аварийного переключения или перезапуска. ...

Acest articol se aplică pentru Acest articol nu se aplică pentru Acest articol nu este legat de un produs specific. Acest articol nu acoperă toate versiunile de produs existente.

Symptoms

Сбой компонентов ограничен накопителями 8 Тбайт с версиями микропрограммы CA01 и CA02. Обычно это затрагивает несколько групп RAID (группы дисков). Состояние может быть однократным снижением производительности (один сбой) или двойным ухудшением (сбой двух дисков).

Системы, которые не перезагружаются, сталкиваются с прерыванием работы файловой системы, но должны восстановиться самостоятельно, поскольку в данный момент выполняется или ожидается восстановление нескольких дисков. Для перезагружаемых систем выполняется принудительное переключение на резервный ресурс, что может привести к зависанию файловой системы при запуске.

Область применения:

  • Только модели DD9400 и DD9900
  • Жесткий диск 8 Тбайт во внешнем шасси хранения с микропрограммой (FW) версии CA01 или CA02

Признаки сбоя дисков

  • Отчет о журналах диска sense key 4/0x29/0xcd при выполнении SCSI WRITE cdb 0x8a, Одна ошибка команды записи приводит к сбою диска модулем DD_RAID.
Sep 16 06:17:59 DD9900 kernel: [11647695.019070] (E4)scsi16: (ffff88fe1522d800) (0/5/10000) chnl/tgt/lun 0/232/0 result 0x2, cdb 0x8a:00000001498b4728:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
Sep 16 06:20:58 DD9900 kernel: [11647874.161940] (E4)scsi16: (ffff88b96b72cc00) (1/5/10000) chnl/tgt/lun 0/246/0 result 0x2, cdb 0x8a:0000000149adb300:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
Sep 16 06:20:58 DD9900 kernel: [11647874.161997] (E4)scsi16: (ffff88b946a08e00) (1/5/10000) chnl/tgt/lun 0/237/0 result 0x2, cdb 0x8a:000000014a777478:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
  • DD_RAID вызывает сбой дисков из-за ошибок «WRITE I/O».
Sep 16 06:17:59 DD9900 kernel: [11647695.020655] (E4)DD_RAID: Failing working disk [6.35 dm-27p3 WSD48SRA 254:3635] from DiskGroup dg19
Sep 16 06:20:59 DD9900 kernel: [11647875.122961] (E4)DD_RAID: Failing working disk [2.32 dm-25p3 WSD49GCR 254:403] from DiskGroup dg4
Sep 16 06:21:54 DD9900 kernel: [11647930.659786] (E4)DD_RAID: Failing working disk [2.39 dm-46p3 WSD48TEG 254:739] from DiskGroup dg2
Sep 16 06:21:58 DD9900 kernel: [11647934.612549] (E4)DD_RAID: Failing working disk [{*}6.43{*} dm-233p3 WSD49GG6 254:3731] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.363248] (E4)DD_RAID: Failing working disk [{*}6.21{*} dm-219p3 WSD47KYS 254:3507] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.477630] (E4)DD_RAID: Failing working disk [{*}6.5{*} dm-242p3 WSD4B13V 254:3875] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.651261] (E4)DD_RAID: Failing working disk [{*}6.18{*} dm-259p3 WSD47EWA 254:4147] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.726575] (E4)DD_RAID: Failing working disk [{*}6.15{*} dm-265p3 WSD49BGL 254:4243] from DiskGroup dg16
Sep 16 06:22:05 DD9900 kernel: [11647941.100980] (E4)DD_RAID: Failing working disk [{*}6.26{*} dm-257p3 WSD49ART 254:4115] from DiskGroup dg16

Признаки неудачи запуска DDFS

  • В ddfs.info, приведенные ниже сообщения относятся к продолжительному периоду времени во время запуска DDFS. Запуск не продвигается до завершения процесса DDFS с принудительным переключением на одноранговый узел при отказе.
09/15 21:49:21.962018 [a0cc980] SYSTEM_STARTUP: ===== completed <SegStore> - time (1663292961) =====
09/15 21:49:21.962028 [a0cc980] SYSTEM_STARTUP: ===== starting <CC-Agent> - time (1663292961) =====

09/15 21:57:11.699754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/15 21:59:11.819754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/15 22:01:11.939754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
...
09/16 02:01:26.339755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/16 02:03:26.459755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/16 02:05:26.579755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub

Cause

При произвольных рабочих нагрузках ввода-вывода в буфере кэша DRAM накопителя возникает ложная ошибка целостности данных . Это приводит к сбоям дисков.
Производитель накопителя выпустил исправление микропрограммы для решения этой проблемы.

Resolution

Исправление:

  • Исправленные версии DDOS: В DDOS 7.11.x, 7.10.1.0, 7.7.5.1 и более поздних версий встроена микропрограмма CA04.
    • Выполните модернизацию до более новой версии DDOS
  • Для всех остальных версий DDOS 7.x доступно обновление с минимальным прерыванием работы (MDU).
    • Ссылка на MDU: Читать + Скачать: Пакет модернизации микропрограммы жесткого диска (MDU) DDOS 7.X — ноябрь 2022 г. (для просмотра документа необходимо войти в систему как зарегистрированный пользователь Dell Support)
    • Применение пакета MDU:

      1. Подключитесь к активному узлу системы высокой доступности. Обновление не работает на пассивном или резервном узле.
      2. Запланируйте простой вместе с пользователем, так как DDFS должен быть отключен во время обновления микропрограммы. Выполните следующие команды, чтобы проверить текущие оповещения и устранить их при необходимости. Остановите процесс очистки, если он запущен. Отключите файловую систему. 
                    # alerts show current
              # filesys clean status
              # filesys clean stop
              # filesys disable
      3. В случае систем без миграции хранилища проверьте в службе автоподдержки наличие дисков CA01/CA02, входящих в состав >=dg2. В случае систем с миграцией хранилища группа дисков с массивами ext3 может не являться dg2. 
        Выполните поиск ext3. Он показывает гистограмму DD_RAID dgXX, где XX - номер DG. См. пример в приведенном ниже разделе «Дополнительная информация». Если на дисках dg2/dgXX установлена микропрограмма CA01/C02, работу массива необходимо временно приостановить на время процесса обновления MDU. Если этого не сделать, все операции ввода-вывода в группе дисков не будут приостановлены, это может привести к другому сбою. Откройте заявку в службу поддержки для получения помощи в приостановке работы группы дисков. Если dg2/dgXX не содержит диски CA01/CA02, обращение в службу поддержки не требуется. Перейдите к шагу 4.
      4. Загрузите файл drive-firmware-CA04.rpm из пользовательского интерфейса DD System Manager.
      5. Модернизируйте диски. Выполните следующую команду и дождитесь ее завершения. 
                   # system upgrade start drive-firmware-CA04.rpm"
      6. Подождите около 10 минут.
      7. Убедитесь, что все диски модернизированы. Если диски по-прежнему отображаются с микропрограммой CA01/CA02, повторите шаги 5 и 6. 
                   # disk show hardware
      8. Проверьте текущее состояние диска. В случае сбоя нескольких дисков обратитесь за помощью в службу поддержки. В случае сбоев одного диска проверьте диск на наличие истории ошибок. Если ошибки отсутствуют, верните диск в исправное состояние. 
                  # disk unfail <disk.id>
      9. Проверьте оповещения и включите DDFS. 
                  # alerts show current
                  # filesys enable
Примечание. При применении MDU файловая система должна быть отключена.

Временное решение

  • Если произошла перезагрузка или переключение при отказе:
    • DD_RAID не может возвращать неисправные накопители к состоянию до сбоя.
    • Выполнение традиционного восстановления диска на основе четности.
    • Отключите сборку мусора до завершения всех перестроек.
    • Если файловая система не запускается, обратитесь к службе TSE DDFS.
  • Если перезагрузка или переключение при отказе НЕ произошло:
    • DD_RAID TSE может возвращать диски к состоянию до сбоя вручную с помощью dd_raidtool.
    • Для неисправных разъемов для дисков требуется выключить и снова включить питание (обратитесь в службу поддержки Dell).
    • Перед переключением на восстановление к состоянию до сбоя необходимо завершить восстановление более чем на 50%.
    • После перестройки диски могут быть «безотказными», если слоты были выключены и снова включены.

Additional Information

Часто задаваемые вопросы

В. Можно ли выполнить обновление микропрограммы, когда файловая система Data Domain находится в режиме онлайн?
A: Нет. Во время обновления микропрограммы необходимо отключить DDFS.


В. Требуется ли перезагрузка системы после применения обновления микропрограммы?
A: Нет. Перезагрузка не требуется.


В. Можно ли применить микропрограмму на пассивном узле?
A: Нет. Обновление должно выполняться только на активном узле.


В. Сколько времени занимает обновление микропрограммы для 180–240 накопителей (4 полки DS60)?
A: Модернизация выполняется параллельно и обычно занимает 10–15 минут при условии отсутствия проблем.


В. Если некоторые накопители не обновились, будет ли система автоматически повторить попытку обновления?
A: Нет. Обновление необходимо повторно запустить вручную или повторно для оставшихся накопителей. Инструкции по обновлению вручную см. в разделе «Дополнительная информация».


В. Следует ли также применить исправление микропрограммы к системам Data Domain без высокой доступности?
A: Да. Рекомендуется применить исправление drive-firmware-CA04.RPM ко всем системам с накопителями емкостью 8 Тбайт с более старой микропрограммой.


В. Можно ли восстановить диск в случае сбоя во время обновления?
A:

  • Если на диске отображается история ошибок (см. disk show reliability-data), он должен оставаться неисправным и подлежать замене.
  • Если ошибки отсутствуют, выполните команду:
    disk unfail <disk.id>
    
    При этом диск помечается как резервный.
  • Если сменный диск имеет более старую версию микропрограммы CA01/CA02, ее необходимо обновить вручную. См. раздел «Как вручную обновить сменные накопители» раздела Дополнительная информация.

В. Почему необходимо приостановить работу в группе дисков 2 (dg2), даже если DDFS отключена?
A: DDOS по-прежнему получает доступ к монтировкам EXT3 в dg2. Приостановка операций ввода-вывода предотвращает дополнительные сбои во время модернизации.


В. Как проверить наличие дисков dg2/dgXX с массивом ext3 и микропрограммы CA01/CA02.
A: Для систем, не перенесенных в хранилище, dg2 имеет массивы ext3.

Выполните поиск в autosupport по следующим строкам. (Жирным шрифтом)

  • Гистограмма DD_RAID
DD_RAID Histogram for dg2 0xafc318cb033dc226
DG:dg2 UUID:0xafc318cb033dc226 MajorNr:61 MajorNrEx:62 GrpNr:10 State:Complete Status:Reassembled Index:0
    Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:148681617408 Options:0x10000100 Type:StandAlone Primary
    Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS300198000G MG UUID:0x0
Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0xb6fbb5a5a61ecf9]
Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [148681617408 sectors] ID[0xfb32c1339fafc87b]
  • Storage Show All (эту команду также можно выполнить в интерфейсе командной строки DD)
dg2       2.1-2.3, 2.13-2.15, 2.25-2.27,     14      7.2 TiB               
          2.37-2.39, 2.49-2.50
  • Disk Show Hardware (эту команду можно выполнить в интерфейсе командной строки DD)
2.1          A0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R8GS       7.2 TiB    SASe      DG118000919             
2.2          A1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4REMW       7.2 TiB    SASe      DG118000919             
2.3          A2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4LM5C       7.2 TiB    SASe      DG118000919      
2.13         B0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SMHX       7.2 TiB    SASe      DG118000919             
2.14         B1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4RF04       7.2 TiB    SASe      DG118000919             
2.15         B2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4QHQE       7.2 TiB    SASe      DG118000919    
2.25         C0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4RE9Y       7.2 TiB    SASe      DG118000919             
2.26         C1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4LMME       7.2 TiB    SASe      DG118000919             
2.27         C2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4REW8       7.2 TiB    SASe      DG118000919
2.37         D0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SMHM       7.2 TiB    SASe      DG118000919             
2.38         D1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4QHWR       7.2 TiB    SASe      DG118000919             
2.39         D2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R862       7.2 TiB    SASe      DG118000919     
2.49         E0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SSKK       7.2 TiB    SASe      DG118000919             
2.50         E1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SV53       7.2 TiB    SASe      DG118000919             
2.51         E2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R944       7.2 TiB    SASe      DG118000919

В приведенном выше примере накопители имеют микропрограмму CA01. Необходимо открыть заявку в службу поддержки, чтобы Dell Technologies могла помочь с приостановкой группы дисков (dg2), содержащей массив ext3, перед применением модернизации MDU. 

В случае систем с миграцией хранилища массив, содержащий ext3, может не относиться к dg2. Выполните поиск следующих строк в службе автоматической поддержки. (Жирным шрифтом)

  • Licenses (STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS)

 

Licenses
--------
System locking-id: APX00123456789
Licensing scheme: EMC Electronic License Management System (ELMS) node-locked mode
Capacity licenses:
##   Feature           Shelf Model    Capacity      Type        State    Expiration Date   Note
--   ---------------   ------------   -----------   ---------   ------   ---------------   ----
1    CAPACITY-ACTIVE   HIGH_DENSITY   1396.98 TiB   permanent   active   n/a                   
--   ---------------   ------------   -----------   ---------   ------   ---------------   ----
Licensed Active Tier capacity: 1396.98 TiB*
* Depending on the hardware platform, usable filesystem capacities may vary.
Feature licenses:
##   Feature                                    Count   Type         State    Expiration Date   Note           
--   ----------------------------------------   -----   ----------   ------   ---------------   ---------------
1    REPLICATION                                    1   permanent    active   n/a                              
2    VTL                                            1   permanent    active   n/a                              
3    DDBOOST                                        1   permanent    active   n/a                              
4    RETENTION-LOCK-GOVERNANCE                      1   permanent    active   n/a                              
5    ENCRYPTION                                     1   permanent    active   n/a                              
6    I/OS                                           1   permanent    active   n/a                              
7    RETENTION-LOCK-COMPLIANCE                      1   permanent    active   n/a                              
8    STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS       6   evaluation   grace    2023-11-20        
--   ----------------------------------------   -----   ----------   ------   ---------------   ---------------
License file last modified at : 2022/08/29 11:02:13.
  • Гистограмма DD_RAID
DD_RAID Histogram for dg23 0x323d6b863ae21b8f
DG:dg23 UUID:0x323d6b863ae21b8f MajorNr:61 MajorNrEx:62 GrpNr:18 State:Complete Status:Reassembled Index:0
    Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:161373947904 Options:0x10000100 Type:StandAlone Primary
    Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS30021O001N MG UUID:0x0
Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0x16222e80737dc6bf]
Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [161373947904 sectors] ID[0x8febacd8140b2c05]
  • Storage Show All (This command can be ran on the DD CLI)
dg23      6.1-6.3, 6.13-6.15, 6.25-6.27,     14      7.2 TiB               
          6.37-6.39, 6.49-6.50

 

  • Disk Show Hardware (This command can be ran on the DD CLI)
6.1          A0     HITACHI H04728T8CLAR8000   A430       VYH2S3SS         7.2 TiB    SASe      DG118000785             
6.2          A1     HITACHI H04728T8CLAR8000   A430       VYH2RVSS         7.2 TiB    SASe      DG118000785             
6.3          A2     HITACHI H04728T8CLAR8000   A430       VYH2K9KS         7.2 TiB    SASe      DG118000785          
6.13         B0     HITACHI H04728T8CLAR8000   A430       VYH2JJBS         7.2 TiB    SASe      DG118000785             
6.14         B1     HITACHI H04728T8CLAR8000   A430       VYH1Y83S         7.2 TiB    SASe      DG118000785             
6.15         B2     HITACHI H04728T8CLAR8000   A430       VYH2RNGS         7.2 TiB    SASe      DG118000785    
6.25         C0     HITACHI H04728T8CLAR8000   A430       VYH1DN8S         7.2 TiB    SASe      DG118000785             
6.26         C1     HITACHI H04728T8CLAR8000   A430       VYH2124S         7.2 TiB    SASe      DG118000785             
6.27         C2     HITACHI H04728T8CLAR8000   A430       VYH0ZM6S         7.2 TiB    SASe      DG118000785  
6.25         C0     HITACHI H04728T8CLAR8000   A430       VYH1DN8S         7.2 TiB    SASe      DG118000785             
6.26         C1     HITACHI H04728T8CLAR8000   A430       VYH2124S         7.2 TiB    SASe      DG118000785             
6.27         C2     HITACHI H04728T8CLAR8000   A430       VYH0ZM6S         7.2 TiB    SASe      DG118000785           
6.47         D10    HITACHI H04728T8CLAR8000   A430       VYH1XGJS         7.2 TiB    SASe      DG118000785             
6.48         D11    HITACHI H04728T8CLAR8000   A430       VYH20VHS         7.2 TiB    SASe      DG118000785             
6.49         E0     HITACHI H04728T8CLAR8000   A430       VYH2G5XS         7.2 TiB    SASe      DG118000785


Поскольку накопители не имеют микропрограммы CA01 и CA02, обращение в службу поддержки не требуется. Перейдите к шагу 3 инструкции по модернизации MDU в приведенном выше разделе «Решение».

Produse afectate

Data Domain, DD9400 Appliance, DD9900 Appliance

Produse

DD OS 7.11
Proprietăți articol
Article Number: 000204252
Article Type: Solution
Ultima modificare: 16 dec. 2025
Version:  20
Găsiți răspunsuri la întrebările dvs. de la alți utilizatori Dell
Servicii de asistență
Verificați dacă dispozitivul dvs. este acoperit de serviciile de asistență.