Data Domain: HA sistemlerinin yük devretmesi sırasında birden çok sürücü başarısız oluyor | CA01 CA02 FW sorunu
Summary: Data Domain High Availability (HA), bilinen bir sürücü ürün yazılımı sorunu nedeniyle HA yük devretme sırasında sürücü arızaları yaşayabilir. Bazı sistemler, yük devretme veya yeniden başlatma sonrasında dosya sisteminin başlatılamaması sorunuyla karşılaşabilir. ...
Symptoms
Bileşen arızası, CA01 ve CA02 ürün yazılımı revizyonlarına sahip 8 TB sürücülerle sınırlıdır. Genellikle birden fazla RAID grubu (disk grubu) etkilenir. Tek indirgenmiş (tek disk hatası) veya çift indirgenmiş (iki disk hatası) olabilir.
Yeniden başlatılmayan sistemler dosya sistemi kesintisi ile karşılaşır ancak kendi kendine kurtarılması gerekir; devam eden ve bekleyen birden fazla disk yeniden oluşturma işlemi vardır. Yeniden başlatılan sistemlerde, yük devretme zorlanır ve bu da dosya sisteminin başlatma sırasında takılmasına neden olabilir.
Uygulanabilirlik:
- Yalnızca DD9400 ve DD9900 Modelleri
- CA01 veya CA02 Ürün Yazılımı (FW) sürümüne sahip Harici depolama kasalarında 8 TB sabit sürücü
Disk Arızası Belirtileri:
- Disk günlükleri raporu
sense key 4/0x29/0xcdSCSI YAZMA işlemi yaparkencdb 0x8a,Bir yazma komutu hatası, DD_RAID modülünde disk arızasına neden oluyor.
Sep 16 06:17:59 DD9900 kernel: [11647695.019070] (E4)scsi16: (ffff88fe1522d800) (0/5/10000) chnl/tgt/lun 0/232/0 result 0x2, cdb 0x8a:00000001498b4728:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
Sep 16 06:20:58 DD9900 kernel: [11647874.161940] (E4)scsi16: (ffff88b96b72cc00) (1/5/10000) chnl/tgt/lun 0/246/0 result 0x2, cdb 0x8a:0000000149adb300:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
Sep 16 06:20:58 DD9900 kernel: [11647874.161997] (E4)scsi16: (ffff88b946a08e00) (1/5/10000) chnl/tgt/lun 0/237/0 result 0x2, cdb 0x8a:000000014a777478:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
- DD_RAID "WRITE I/O" hataları nedeniyle disklerde başarısız olur.
Sep 16 06:17:59 DD9900 kernel: [11647695.020655] (E4)DD_RAID: Failing working disk [6.35 dm-27p3 WSD48SRA 254:3635] from DiskGroup dg19
Sep 16 06:20:59 DD9900 kernel: [11647875.122961] (E4)DD_RAID: Failing working disk [2.32 dm-25p3 WSD49GCR 254:403] from DiskGroup dg4
Sep 16 06:21:54 DD9900 kernel: [11647930.659786] (E4)DD_RAID: Failing working disk [2.39 dm-46p3 WSD48TEG 254:739] from DiskGroup dg2
Sep 16 06:21:58 DD9900 kernel: [11647934.612549] (E4)DD_RAID: Failing working disk [{*}6.43{*} dm-233p3 WSD49GG6 254:3731] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.363248] (E4)DD_RAID: Failing working disk [{*}6.21{*} dm-219p3 WSD47KYS 254:3507] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.477630] (E4)DD_RAID: Failing working disk [{*}6.5{*} dm-242p3 WSD4B13V 254:3875] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.651261] (E4)DD_RAID: Failing working disk [{*}6.18{*} dm-259p3 WSD47EWA 254:4147] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.726575] (E4)DD_RAID: Failing working disk [{*}6.15{*} dm-265p3 WSD49BGL 254:4243] from DiskGroup dg16
Sep 16 06:22:05 DD9900 kernel: [11647941.100980] (E4)DD_RAID: Failing working disk [{*}6.26{*} dm-257p3 WSD49ART 254:4115] from DiskGroup dg16
DDFS Başlangıç Hatası Belirtileri:
- Inç
ddfs.info, aşağıdaki mesajlar DDFS başlangıcı sırasında uzun bir süre için geçerlidir. DDFS işlemi sonlandırılıp eş düğüme yük devretmeye zorlanana kadar ilerlemez.
09/15 21:49:21.962018 [a0cc980] SYSTEM_STARTUP: ===== completed <SegStore> - time (1663292961) =====
09/15 21:49:21.962028 [a0cc980] SYSTEM_STARTUP: ===== starting <CC-Agent> - time (1663292961) =====
09/15 21:57:11.699754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/15 21:59:11.819754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/15 22:01:11.939754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
...
09/16 02:01:26.339755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/16 02:03:26.459755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/16 02:05:26.579755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrubCause
Resolution
Düzeltme:
- Düzeltilmiş DDOS sürümleri: DDOS 7.11.x, 7.10.1.0 ve 7.7.5.1 ve sonraki sürümlerinde dahili CA04 ürün yazılımı vardır.
- Daha yeni bir DDOS sürümüne yükseltin
- Diğer tüm DDOS 7.x sürümleri için Minimum Kesintiyle Yükseltme (MDU) kullanılabilir.
- MDU bağlantısı: Beni oku + İndir: DDOS 7.X sabit sürücü Bellenim Minimal Kesintiye Uğratan Yükseltme (MDU) Paketi - Kasım 2022 (Belgeyi görüntülemek için kayıtlı Dell Destek kullanıcısı olarak oturum açılması gerekir)
-
MDU paketini uygulama:
- HA sisteminin Aktif Düğümüne bağlanın. Güncelleme, pasif veya bekleme düğümünden çalışmaz.
- FW güncellemesi sırasında DDFS'nin devre dışı bırakılması gerektiğinden kullanıcıyla kapalı kalma süresini planlayın. Geçerli uyarıları kontrol etmek ve bunları gerektiği gibi ele almak için aşağıdaki komutları çalıştırın. Çalışıyorsa temizleme işlemini durdurun. Dosya sistemini devre dışı bırakın.
# alerts show current# filesys clean status# filesys clean stop# filesys disable - Depolama geçişi yapılmamış sistemlerde >=dg2'nin parçası olan CA01/CA02 diskleri için otomatik desteği kontrol edin. Depolama geçişi yapılan sistemlerde, ext3 dizilerine sahip disk grubu dg2 olmayabilir.
ext3 için arama yapın. dgXX için DD_RAID Histogramı gösteriliyor, burada XX DG numarasıdır. Aşağıdaki "Ek Bilgi" bölümündeki örneğe bakın. dg2/dgXX diskleri CA01/C02 bellenimine sahipse, MDU yükseltme işlemi sırasında dizi geçici olarak askıya alınmalıdır. Bunun yapılmaması, disk grubundaki tüm G/Ç etkinliği askıya alınmamışsa başka bir hatayı tetikleyebilir. Disk grubunu askıya alma konusunda yardım almak için bir Destek olayı açın. dg2/dgXX, CA01/CA02 diskleri içermiyorsa bir destek olayı gerekli değildir. 4. adıma gidin. - Yükle
drive-firmware-CA04.rpmDD System Manager kullanıcı arayüzünden. - Diskleri yükseltin. Aşağıdaki komutu çalıştırın ve bitmesini bekleyin.
# system upgrade start drive-firmware-CA04.rpm" - Yaklaşık 10 dakika bekleyin.
- Tüm disklerin yükseltildiğini doğrulayın. Diskler hala CA01/CA02 ürün yazılımı ile görünüyorsa 5. ve 6. adımları tekrarlayın.
# disk show hardware - Geçerli disk durumunu kontrol edin. Birden fazla disk arızası varsa yardım için Destek ile iletişime geçin. Tek disk arızaları için diskte hata geçmişi olup olmadığını kontrol edin ve hata yoksa disk arızasını geri alın.
# disk unfail <disk.id> - Uyarıları doğrulayın ve DDFS'yi etkinleştirin.
# alerts show current# filesys enable
Geçici Çözüm
- Yeniden başlatma veya yük devretme gerçekleşirse:
- DD_RAID arızalı sürücüleri yeniden çalıştıramaz.
- Geleneksel eşlik tabanlı disk yeniden oluşturma işlemlerinin tamamlanmasına izin verin.
- Tüm yeniden oluşturma işlemleri tamamlanana kadar GC'yi devre dışı bırakın.
- Dosya sistemi başlatılamıyorsa DDFS TSE'ye başvurun.
- Yeniden başlatma veya yük devretme GERÇEKLEŞMEDİĞİNDE:
- TSE'nin aşağıdakileri kullanarak diskleri manuel olarak yeniden çalıştırabildiğini DD_RAID:
dd_raidtool. - Arızalı disk yuvaları kapatılıp açılmalıdır (Dell Destek ekibiyle iletişime geçin).
- Yeniden çalışma yeniden yapılandırmasına geçmeden önce %50 üzerindeki yeniden oluşturma işlemlerinin tamamlanmasını bekleyin.
- Yeniden oluşturma işlemlerinden sonra, yuvalar kapatılıp açılmışsa diskler "başarısız olabilir".
- TSE'nin aşağıdakileri kullanarak diskleri manuel olarak yeniden çalıştırabildiğini DD_RAID:
Additional Information
SSS
S: Data Domain dosya sistemi çevrimiçiyken bellenim yükseltmesi yapılabilir mi?
A: Hayır. Bellenim yükseltmesi sırasında DDFS devre dışı bırakılmalıdır .
S: Bellenim güncellemesi uygulandıktan sonra sistemin yeniden başlatılması gerekiyor mu?
A: Hayır. Yeniden başlatma gerekmez.
S: Bellenim pasif düğüme uygulanabilir mi?
A: Hayır. Güncelleştirme yalnızca aktif düğümde gerçekleştirilmelidir.
S: 180-240 sürücü (4 DS60 rafı) için bellenim yükseltmesi ne kadar sürer?
A: Yükseltme paralel modda çalışır ve herhangi bir sorun olmaması koşuluyla genellikle 10-15 dakika içinde tamamlanır.
S: Bazı sürücüler güncellenmezse sistem güncellemeyi otomatik olarak yeniden dener mi?
A: Hayır. Güncelleştirme manuel olarak yeniden çalıştırılmalı veya kalan sürücüler için tekrarlanmalıdır. Manuel güncelleme adımları için "Ek Bilgiler" bölümüne bakın.
S: Bellenim yaması HA olmayan Data Domain sistemlerine de uygulanmalı mı?
A: Evet. Daha eski bellenimi çalıştıran 8 TB sürücülü tüm sistemlere drive-firmware-CA04.RPM düzeltme ekinin uygulanması önerilir.
S: Güncelleme sırasında bir sürücü arızalanırsa kurtarılabilir mi?
A:
- Diskte hata geçmişi görünüyorsa (
disk show reliability-data), arızalı olarak kalmalı ve değiştirilmelidir. - Herhangi bir hata yoksa şunu çalıştırın:
Bu, diski yedek olarak işaretler.disk unfail <disk.id> - Yeni sürücüde CA01/CA02 bellenimi daha eskiyse manuel olarak güncellenmesi gerekir. Ek Bilgiler bölümündeki "Yedek sürücüleri manuel olarak güncelleme" konusuna bakın.
S: DDFS devre dışı bırakıldığında bile disk grubu 2'deki (dg2) etkinliği askıya almak neden gerekiyor?
A: DDOS, dg2'deki EXT3 bağlantılarına erişmeye devam eder. G/Ç etkinliğinin askıya alınması, yükseltme sırasında ek arızaları önler.
S: ext3 dizisine sahip olan ve CA01/CA02 bellenimini içeren dg2/dgXX disklerini kontrol etme.
A: Depolama geçişi yapılmayan sistemler için dg2, ext3 dizilerine sahiptir.
Aşağıdaki satırlar için otomatik destekte arama yapın. (Kalın harflerle)
- DD_RAID Histogramı
DD_RAID Histogram for dg2 0xafc318cb033dc226
DG:dg2 UUID:0xafc318cb033dc226 MajorNr:61 MajorNrEx:62 GrpNr:10 State:Complete Status:Reassembled Index:0
Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:148681617408 Options:0x10000100 Type:StandAlone Primary
Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS300198000G MG UUID:0x0
Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0xb6fbb5a5a61ecf9]
Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [148681617408 sectors] ID[0xfb32c1339fafc87b]
- Storage Show All (Depolama Tümünü Göster) (Bu komut DD CLI üzerinde de çalıştırılabilir)
dg2 2.1-2.3, 2.13-2.15, 2.25-2.27, 14 7.2 TiB
2.37-2.39, 2.49-2.50
- Disk Show Hardware (Disk Donanımı Göster) (Bu komut DD CLI üzerinde çalıştırılabilir)
2.1 A0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R8GS 7.2 TiB SASe DG118000919
2.2 A1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4REMW 7.2 TiB SASe DG118000919
2.3 A2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4LM5C 7.2 TiB SASe DG118000919
2.13 B0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SMHX 7.2 TiB SASe DG118000919
2.14 B1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4RF04 7.2 TiB SASe DG118000919
2.15 B2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4QHQE 7.2 TiB SASe DG118000919
2.25 C0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4RE9Y 7.2 TiB SASe DG118000919
2.26 C1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4LMME 7.2 TiB SASe DG118000919
2.27 C2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4REW8 7.2 TiB SASe DG118000919
2.37 D0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SMHM 7.2 TiB SASe DG118000919
2.38 D1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4QHWR 7.2 TiB SASe DG118000919
2.39 D2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R862 7.2 TiB SASe DG118000919
2.49 E0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SSKK 7.2 TiB SASe DG118000919
2.50 E1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SV53 7.2 TiB SASe DG118000919
2.51 E2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R944 7.2 TiB SASe DG118000919
Yukarıdaki örnekte, sürücüler CA01 bellenimine sahiptir. MDU yükseltmesi uygulanmadan önce Dell Technologies in ext3 dizisini içeren disk grubunu (dg2) askıya alma konusunda yardımcı olabilmesi için bir Destek olayı açılmalıdır.
Depolama geçişi yapılmış sistemler için ext3 içeren dizi, dg2 olmayabilir. Aşağıdaki satırlar için otomatik destekte arama yapın. (Kalın harflerle)
Licenses (STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS)
Licenses
--------
System locking-id: APX00123456789
Licensing scheme: EMC Electronic License Management System (ELMS) node-locked mode
Capacity licenses:
## Feature Shelf Model Capacity Type State Expiration Date Note
-- --------------- ------------ ----------- --------- ------ --------------- ----
1 CAPACITY-ACTIVE HIGH_DENSITY 1396.98 TiB permanent active n/a
-- --------------- ------------ ----------- --------- ------ --------------- ----
Licensed Active Tier capacity: 1396.98 TiB*
* Depending on the hardware platform, usable filesystem capacities may vary.
Feature licenses:
## Feature Count Type State Expiration Date Note
-- ---------------------------------------- ----- ---------- ------ --------------- ---------------
1 REPLICATION 1 permanent active n/a
2 VTL 1 permanent active n/a
3 DDBOOST 1 permanent active n/a
4 RETENTION-LOCK-GOVERNANCE 1 permanent active n/a
5 ENCRYPTION 1 permanent active n/a
6 I/OS 1 permanent active n/a
7 RETENTION-LOCK-COMPLIANCE 1 permanent active n/a
8 STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS 6 evaluation grace 2023-11-20
-- ---------------------------------------- ----- ---------- ------ --------------- ---------------
License file last modified at : 2022/08/29 11:02:13.
- DD_RAID Histogramı
DD_RAID Histogram for dg23 0x323d6b863ae21b8f
DG:dg23 UUID:0x323d6b863ae21b8f MajorNr:61 MajorNrEx:62 GrpNr:18 State:Complete Status:Reassembled Index:0
Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:161373947904 Options:0x10000100 Type:StandAlone Primary
Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS30021O001N MG UUID:0x0
Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0x16222e80737dc6bf]
Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [161373947904 sectors] ID[0x8febacd8140b2c05]
Storage Show All (This command can be ran on the DD CLI)
dg23 6.1-6.3, 6.13-6.15, 6.25-6.27, 14 7.2 TiB
6.37-6.39, 6.49-6.50
Disk Show Hardware (This command can be ran on the DD CLI)
6.1 A0 HITACHI H04728T8CLAR8000 A430 VYH2S3SS 7.2 TiB SASe DG118000785
6.2 A1 HITACHI H04728T8CLAR8000 A430 VYH2RVSS 7.2 TiB SASe DG118000785
6.3 A2 HITACHI H04728T8CLAR8000 A430 VYH2K9KS 7.2 TiB SASe DG118000785
6.13 B0 HITACHI H04728T8CLAR8000 A430 VYH2JJBS 7.2 TiB SASe DG118000785
6.14 B1 HITACHI H04728T8CLAR8000 A430 VYH1Y83S 7.2 TiB SASe DG118000785
6.15 B2 HITACHI H04728T8CLAR8000 A430 VYH2RNGS 7.2 TiB SASe DG118000785
6.25 C0 HITACHI H04728T8CLAR8000 A430 VYH1DN8S 7.2 TiB SASe DG118000785
6.26 C1 HITACHI H04728T8CLAR8000 A430 VYH2124S 7.2 TiB SASe DG118000785
6.27 C2 HITACHI H04728T8CLAR8000 A430 VYH0ZM6S 7.2 TiB SASe DG118000785
6.25 C0 HITACHI H04728T8CLAR8000 A430 VYH1DN8S 7.2 TiB SASe DG118000785
6.26 C1 HITACHI H04728T8CLAR8000 A430 VYH2124S 7.2 TiB SASe DG118000785
6.27 C2 HITACHI H04728T8CLAR8000 A430 VYH0ZM6S 7.2 TiB SASe DG118000785
6.47 D10 HITACHI H04728T8CLAR8000 A430 VYH1XGJS 7.2 TiB SASe DG118000785
6.48 D11 HITACHI H04728T8CLAR8000 A430 VYH20VHS 7.2 TiB SASe DG118000785
6.49 E0 HITACHI H04728T8CLAR8000 A430 VYH2G5XS 7.2 TiB SASe DG118000785
Sürücülerde CA01 ve CA02 bellenimi olmadığı için bir destek talebi gerekmez. Yukarıdaki "Çözüm" bölümünde yer alan MDU yükseltme adımlarının 3. adımına gidin.