Data Domain: HA sistemlerinin yük devretmesi sırasında birden çok sürücü başarısız oluyor | CA01 CA02 FW sorunu
Summary: Data Domain High Availability (HA), bilinen bir sürücü ürün yazılımı sorunu nedeniyle HA yük devretme sırasında sürücü arızaları yaşayabilir. Bazı sistemler, yük devretme veya yeniden başlatma sonrasında dosya sisteminin başlatılamaması sorunuyla karşılaşabilir. ...
Symptoms
Bileşen arızası, CA01 ve CA02 ürün yazılımı revizyonlarına sahip 8 TB sürücülerle sınırlıdır. Genellikle birden fazla RAID grubu (disk grubu) etkilenir. Tek bozulmuş (bir arıza) veya çift bozulmuş (iki disk arızası) olabilir.
Yeniden başlatılmayan sistemler, dosya sistemi kesintisiyle karşılaşır ancak devam eden ve bekleyen birden fazla disk yeniden oluşturma işlemiyle kendi kendine kurtarılmalıdır. Yeniden başlatılan sistemler için dosya sisteminin başlangıç sırasında takılı kalmasına neden olabilecek bir yük devretme işlemi zorlanır.
Şunlar için geçerlidir:
- Yalnızca DD9400 ve DD9900 Modelleri
- CA01 veya CA02 Ürün Yazılımı (FW) sürümüne sahip Harici depolama kasalarında 8 TB sabit sürücü
Düzeltme:
- Düzeltilmiş DDOS sürümleri: DDOS 7.11.x, 7.10.1.0 ve 7.7.5.1 ve sonraki sürümlerinde dahili CA04 ürün yazılımı vardır.
- Diğer tüm DDOS 7.x sürümleri için Minimum Kesintiyle Yükseltme (MDU) kullanılabilir.
- MDU bağlantısı: Beni oku + İndir: DDOS 7.X sabit sürücü Bellenim Minimal Kesintiye Uğratan Yükseltme (MDU) Paketi - Kasım 2022 (Belgeyi görüntülemek için kayıtlı Dell Destek kullanıcısı olarak oturum açılması gerekir)
Not: MDU uygulanırken Dosya Sistemi devre dışı bırakılmalıdır.
Disk Arızası Belirtileri:
- Disk günlükleri raporu algılama anahtarı
4/0x29/0xcdSCSI YAZMA işlemi yaparkencdb 0x8a, bir yazma komutu hatası DD_RAID modülünde disk arızasına neden olur.
Sep 16 06:17:59 DD9900 kernel: [11647695.019070] (E4)scsi16: (ffff88fe1522d800) (0/5/10000) chnl/tgt/lun 0/232/0 result 0x2, cdb 0x8a:00000001498b4728:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able Sep 16 06:20:58 DD9900 kernel: [11647874.161940] (E4)scsi16: (ffff88b96b72cc00) (1/5/10000) chnl/tgt/lun 0/246/0 result 0x2, cdb 0x8a:0000000149adb300:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able Sep 16 06:20:58 DD9900 kernel: [11647874.161997] (E4)scsi16: (ffff88b946a08e00) (1/5/10000) chnl/tgt/lun 0/237/0 result 0x2, cdb 0x8a:000000014a777478:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
- DD_RAID "WRITE I/O" hataları nedeniyle disklerde başarısız olur.
Sep 16 06:17:59 DD9900 kernel: [11647695.020655] (E4)DD_RAID: Failing working disk [6.35 dm-27p3 WSD48SRA 254:3635] from DiskGroup dg19
Sep 16 06:20:59 DD9900 kernel: [11647875.122961] (E4)DD_RAID: Failing working disk [2.32 dm-25p3 WSD49GCR 254:403] from DiskGroup dg4
Sep 16 06:21:54 DD9900 kernel: [11647930.659786] (E4)DD_RAID: Failing working disk [2.39 dm-46p3 WSD48TEG 254:739] from DiskGroup dg2
Sep 16 06:21:58 DD9900 kernel: [11647934.612549] (E4)DD_RAID: Failing working disk [{*}6.43{*} dm-233p3 WSD49GG6 254:3731] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.363248] (E4)DD_RAID: Failing working disk [{*}6.21{*} dm-219p3 WSD47KYS 254:3507] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.477630] (E4)DD_RAID: Failing working disk [{*}6.5{*} dm-242p3 WSD4B13V 254:3875] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.651261] (E4)DD_RAID: Failing working disk [{*}6.18{*} dm-259p3 WSD47EWA 254:4147] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.726575] (E4)DD_RAID: Failing working disk [{*}6.15{*} dm-265p3 WSD49BGL 254:4243] from DiskGroup dg16
Sep 16 06:22:05 DD9900 kernel: [11647941.100980] (E4)DD_RAID: Failing working disk [{*}6.26{*} dm-257p3 WSD49ART 254:4115] from DiskGroup dg16
DDFS Başlangıç Hatası Belirtileri:
- ddfs.info'da, aşağıdaki mesajlar DDFS başlangıcı sırasında uzun bir süre boyunca yer alır. DDFS işlemi sonlandırılıp eş düğüme yük devretmeye zorlanana kadar ilerlemez.
09/15 21:49:21.962018 [a0cc980] SYSTEM_STARTUP: ===== completed <SegStore> - time (1663292961) ===== 09/15 21:49:21.962028 [a0cc980] SYSTEM_STARTUP: ===== starting <CC-Agent> - time (1663292961) ===== 09/15 21:57:11.699754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub 09/15 21:59:11.819754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub 09/15 22:01:11.939754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub ... 09/16 02:01:26.339755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub 09/16 02:03:26.459755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub 09/16 02:05:26.579755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
Cause
Disk arızası durumunun kök nedeni:
Sürücünün DRAM önbellek arabelleği, rastgele bir G/Ç iş yükü altında yanlış bir veri bütünlüğü hatasıyla karşılaşır. Sürücü üreticisi bu sorunu çözmek için bir ürün yazılımı düzeltmesi sağlamıştır.
Resolution
Geçici Çözüm
Bir yeniden başlatma veya yük devretme gerçekleşirse, DD_RAID yeteneği "failback"Arızalı sürücüler bir seçenek değildir. Bu durumda, geleneksel disk yeniden oluşturmalarının (eşlik) tamamlanmasına izin verin. Tüm disk yeniden oluşturmaları tamamlanana kadar GC'yi devre dışı bırakın. Dosya sistemi yeniden başlatma veya yük devretme sonrasında başlatılırken bir sorunla karşılaşırsa DDFS işlemini sonlandırmadan önce bir DDFS TSE'ye başvurun.
Bir yeniden başlatma veya yük devretme gerçekleşmediyse DD_RAID "failback" yeniden oluşturabilir. Bu, bash içinde "dd_raidtool" kullanılarak yapılan manuel bir işlemdir. Disk "yeniden çalışma" işlemini başlatmadan önce, arızalı disk yuvaları kapatılıp açılmalıdır; Bunu yapmak için Dell Teknik Destek ile iletişime geçin.
Pratik deneyimlere dayanarak, yeniden çalışma yeniden oluşturma yöntemine geçmek yerine %50'den fazla disk yeniden oluşturma işleminin tamamlanmasını bekleyin.
Tüm yeniden yapılandırmalar tamamlandıktan sonra, hala arızalı olan sürücüler "unfailed" ilgili yuvaları kapatılmışsa.
Çözüm
CA04 disk ürün yazılımı sürümü artık DDOS yükseltme paketi şeklinde bir MDU yaması olarak mevcuttur. RPM'nin bir kopyası için Destek ile iletişime geçin. Bulunduğu yer /auto/cores/drive-firmware-rpm/drive-firmware-CA04.rpm.
SSS:
- Yükseltme, bir Data Domain dosya sistemi ile çevrimiçi yapılabilir mi?
Hayır, ürün yazılımı yükseltmesi sırasında DDFS çevrimdışı|devre dışı olmalıdır. - Yeniden başlatma gerekli mi?
Hayır, yeniden başlatma gerekli değildir. - FW pasif düğüme uygulanabilir mi?
Hayır, pasif düğüme uygulanamaz. Yalnızca aktif düğümde çalıştırılmalıdır. - 180-240(4-DS60) sürücüler için Ürün Yazılımı drive-firmware-CA04.RPM yükseltmesinin tamamlanması ne kadar sürer?
Yükseltme paralel moddadır, herhangi bir sorun yoksa 10-15 dakika sürer. - Tüm sürücüler güncelleştirilmemişse sistem CA04 olmayan sürücüleri otomatik olarak güncelleştirir mi?
Hayır, güncelleştirmenin yeniden çalıştırılması gerekir veya manuel olarak yapılabilir. Aşağıdaki "Ek Bilgiler" bölümüne bakın. - Bu Ürün Yazılımı drive-firmware-CA04.RPM yamasını, daha eski Ürün Yazılımında sürücüleri olabileceğinden diğer HA OLMAYAN DD'lere de uygulamaları gerekiyor mu?
Ürün Yazılımı drive-firmware-CA04.RPM yamasının 8 TB sürücülere sahip HA OLMAYAN DD'lere de uygulanması önerilir. - Güncelleştirme sırasında arızalanan bir sürücü arızadan geri alınabilir mi?
FW güncellemesi öncesinde veya sırasında bir sürücü arızalanırsa, diskte hata geçmişi olup olmadığını kontrol edin (örneğin, "disk show reliability-data"). Diskte herhangi bir hata varsa disk arızalı olarak kalmalı ve değiştirilmelidir. Diskte herhangi bir hata yoksa sürücü arızasını geri almak ve sürücüyü yedek yapmak için "disk unfail <disk.id>" komutunu çalıştırın. Arızalı bir sürücü daha eski CA01/CA02 sürücü ürün yazılımına sahip bir sürücü ile değiştirilirse sürücü manuel olarak güncelleştirilmelidir. Aşağıdaki ek bölümde yer alan "Yedek sürücüleri manuel olarak güncelleştirme" kısmına bakın. - DDFS kapalı olsa bile disk grubu 2'deki (dg2) etkinliği askıya almak neden gereklidir?
DDOS, dg2'de bulunan EXT3 bağlantılarına erişmeye devam eder.
MDU paketini uygulama:
- HA sisteminin Aktif Düğümüne bağlanın. Güncelleme, pasif veya bekleme düğümünden çalışmaz.
- FW güncellemesi sırasında DDFS'nin devre dışı bırakılması gerektiğinden kullanıcıyla kapalı kalma süresini planlayın. Geçerli uyarıları kontrol etmek ve bunları gerektiği gibi ele almak için aşağıdaki komutları çalıştırın. Çalışıyorsa temizleme işlemini durdurun. Dosya sistemini devre dışı bırakın.
# alerts show current# filesys clean status# filesys clean stop# filesys disable - Depolama geçişi yapılmamış sistemlerde >=dg2'nin parçası olan CA01/CA02 diskleri için otomatik desteği kontrol edin. Depolama geçişi yapılan sistemlerde, ext3 dizilerine sahip disk grubu dg2 olmayabilir.
ext3 için arama yapın. dgXX için DD_RAID Histogramı gösteriliyor, burada XX DG numarasıdır. Aşağıdaki "Ek Bilgi" bölümündeki örneğe bakın. dg2/dgXX diskleri CA01/C02 bellenimine sahipse, MDU yükseltme işlemi sırasında dizi geçici olarak askıya alınmalıdır. Bunun yapılmaması, disk grubundaki tüm G/Ç etkinliği askıya alınmamışsa başka bir hatayı tetikleyebilir. Disk grubunu askıya alma konusunda yardım almak için bir Destek olayı açın. dg2/dgXX, CA01/CA02 diskleri içermiyorsa bir destek olayı gerekli değildir. 4. adıma gidin. - Yükle
drive-firmware-CA04.rpmDD System Manager kullanıcı arayüzünden. - Diskleri yükseltin. Aşağıdaki komutu çalıştırın ve bitmesini bekleyin.
# system upgrade start drive-firmware-CA04.rpm" - Yaklaşık 10 dakika bekleyin.
- Tüm disklerin yükseltildiğini doğrulayın. Diskler hala CA01/CA02 ürün yazılımı ile görünüyorsa 5. ve 6. adımları tekrarlayın.
# disk show hardware - Geçerli disk durumunu kontrol edin. Birden fazla disk arızası varsa yardım için Destek ile iletişime geçin. Tek disk arızaları için diskte hata geçmişi olup olmadığını kontrol edin ve hata yoksa disk arızasını geri alın.
# disk unfail <disk.id> - Uyarıları doğrulayın ve DDFS'yi etkinleştirin.
# alerts show current# filesys enable
Additional Information
ext3 dizisine sahip ve CA01/CA02 ürün yazılımı içeren dg2/dgXX disklerini kontrol etme.
Depolama geçişi yapılmamış sistemler için dg2, ext3 dizilerine sahiptir.
Aşağıdaki satırlar için otomatik destekte arama yapın. (Kalın harflerle)
- DD_RAID Histogramı
DD_RAID Histogram for dg2 0xafc318cb033dc226 DG:dg2 UUID:0xafc318cb033dc226 MajorNr:61 MajorNrEx:62 GrpNr:10 State:Complete Status:Reassembled Index:0 Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:148681617408 Options:0x10000100 Type:StandAlone Primary Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS300198000G MG UUID:0x0 Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0xb6fbb5a5a61ecf9] Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [148681617408 sectors] ID[0xfb32c1339fafc87b]
- Storage Show All (Depolama Tümünü Göster) (Bu komut DD CLI üzerinde de çalıştırılabilir)
dg2 2.1-2.3, 2.13-2.15, 2.25-2.27, 14 7.2 TiB 2.37-2.39, 2.49-2.50
- Disk Show Hardware (Disk Donanımı Göster) (Bu komut DD CLI üzerinde çalıştırılabilir)
2.1 A0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R8GS 7.2 TiB SASe DG118000919 2.2 A1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4REMW 7.2 TiB SASe DG118000919 2.3 A2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4LM5C 7.2 TiB SASe DG118000919 2.13 B0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SMHX 7.2 TiB SASe DG118000919 2.14 B1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4RF04 7.2 TiB SASe DG118000919 2.15 B2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4QHQE 7.2 TiB SASe DG118000919 2.25 C0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4RE9Y 7.2 TiB SASe DG118000919 2.26 C1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4LMME 7.2 TiB SASe DG118000919 2.27 C2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4REW8 7.2 TiB SASe DG118000919 2.37 D0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SMHM 7.2 TiB SASe DG118000919 2.38 D1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4QHWR 7.2 TiB SASe DG118000919 2.39 D2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R862 7.2 TiB SASe DG118000919 2.49 E0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SSKK 7.2 TiB SASe DG118000919 2.50 E1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SV53 7.2 TiB SASe DG118000919 2.51 E2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R944 7.2 TiB SASe DG118000919
Yukarıdaki örnekte, sürücüler CA01 bellenimine sahiptir. MDU yükseltmesi uygulanmadan önce Dell Technologies in ext3 dizisini içeren disk grubunu (dg2) askıya alma konusunda yardımcı olabilmesi için bir Destek olayı açılmalıdır.
Depolama geçişi yapılmış sistemler için ext3 içeren dizi, dg2 olmayabilir. Aşağıdaki satırlar için otomatik destekte arama yapın. (Kalın harflerle)
Licenses (STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS)
Licenses -------- System locking-id: APX00123456789 Licensing scheme: EMC Electronic License Management System (ELMS) node-locked mode Capacity licenses: ## Feature Shelf Model Capacity Type State Expiration Date Note -- --------------- ------------ ----------- --------- ------ --------------- ---- 1 CAPACITY-ACTIVE HIGH_DENSITY 1396.98 TiB permanent active n/a -- --------------- ------------ ----------- --------- ------ --------------- ---- Licensed Active Tier capacity: 1396.98 TiB* * Depending on the hardware platform, usable filesystem capacities may vary. Feature licenses: ## Feature Count Type State Expiration Date Note -- ---------------------------------------- ----- ---------- ------ --------------- --------------- 1 REPLICATION 1 permanent active n/a 2 VTL 1 permanent active n/a 3 DDBOOST 1 permanent active n/a 4 RETENTION-LOCK-GOVERNANCE 1 permanent active n/a 5 ENCRYPTION 1 permanent active n/a 6 I/OS 1 permanent active n/a 7 RETENTION-LOCK-COMPLIANCE 1 permanent active n/a 8 STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS 6 evaluation grace 2023-11-20 -- ---------------------------------------- ----- ---------- ------ --------------- --------------- License file last modified at : 2022/08/29 11:02:13.
- DD_RAID Histogramı
DD_RAID Histogram for dg23 0x323d6b863ae21b8f DG:dg23 UUID:0x323d6b863ae21b8f MajorNr:61 MajorNrEx:62 GrpNr:18 State:Complete Status:Reassembled Index:0 Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:161373947904 Options:0x10000100 Type:StandAlone Primary Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS30021O001N MG UUID:0x0 Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0x16222e80737dc6bf] Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [161373947904 sectors] ID[0x8febacd8140b2c05]
Storage Show All (This command can be ran on the DD CLI)
dg23 6.1-6.3, 6.13-6.15, 6.25-6.27, 14 7.2 TiB 6.37-6.39, 6.49-6.50
Disk Show Hardware (This command can be ran on the DD CLI)
6.1 A0 HITACHI H04728T8CLAR8000 A430 VYH2S3SS 7.2 TiB SASe DG118000785 6.2 A1 HITACHI H04728T8CLAR8000 A430 VYH2RVSS 7.2 TiB SASe DG118000785 6.3 A2 HITACHI H04728T8CLAR8000 A430 VYH2K9KS 7.2 TiB SASe DG118000785 6.13 B0 HITACHI H04728T8CLAR8000 A430 VYH2JJBS 7.2 TiB SASe DG118000785 6.14 B1 HITACHI H04728T8CLAR8000 A430 VYH1Y83S 7.2 TiB SASe DG118000785 6.15 B2 HITACHI H04728T8CLAR8000 A430 VYH2RNGS 7.2 TiB SASe DG118000785 6.25 C0 HITACHI H04728T8CLAR8000 A430 VYH1DN8S 7.2 TiB SASe DG118000785 6.26 C1 HITACHI H04728T8CLAR8000 A430 VYH2124S 7.2 TiB SASe DG118000785 6.27 C2 HITACHI H04728T8CLAR8000 A430 VYH0ZM6S 7.2 TiB SASe DG118000785 6.25 C0 HITACHI H04728T8CLAR8000 A430 VYH1DN8S 7.2 TiB SASe DG118000785 6.26 C1 HITACHI H04728T8CLAR8000 A430 VYH2124S 7.2 TiB SASe DG118000785 6.27 C2 HITACHI H04728T8CLAR8000 A430 VYH0ZM6S 7.2 TiB SASe DG118000785 6.47 D10 HITACHI H04728T8CLAR8000 A430 VYH1XGJS 7.2 TiB SASe DG118000785 6.48 D11 HITACHI H04728T8CLAR8000 A430 VYH20VHS 7.2 TiB SASe DG118000785 6.49 E0 HITACHI H04728T8CLAR8000 A430 VYH2G5XS 7.2 TiB SASe DG118000785
Sürücülerde CA01 ve CA02 bellenimi olmadığı için bir destek talebi gerekmez. Yukarıdaki "Çözüm" bölümünde yer alan MDU yükseltme adımlarının 3. adımına gidin.