HPC Lustre Depolaması için Dell Ready Çözümü: Cascade Lake Yenilemesi

Summary: HPC Lustre Depolaması için Dell Ready Çözümü: Cascade Lake Yenilemesi

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Makale, HPC ve AI Innovation Lab'den Jyothi Bhaskar tarafından Haziran 2019'da yazılmıştır

Cause

Yok

Resolution

Bu blog ile Cascade Lake işlemcilere sahip Lustre için Dell Ready Solution'ın kullanılabilirliğini duyururuz. Bu blogda Lustre çözümü için güncelleştirilmiş teknik özellikler, güncelleştirilmiş çözümün ilk performans sonuçları ve mevcut sonuçlar ile önceki sonuçlar arasındaki karşılaştırmalar verilmiştir.  Çözüm yığınını, EDR ara bağlantısıyla Tablo 1'de gösterildiği gibi yeni güncelleştirmelerle yapılandırdı, kurulumun beklendiği gibi çalıştığını doğruladık ve performans denetimleri başlattık. 

Büyük taban yapılandırmasının mimari şeması aşağıda Şekil 1'de gösterilmiştir. 
Sunucu ve depolama modellerinin daha önce sunulanla aynı olduğunu lütfen unutmayın. Tablo 1'de yalnızca yeni güncelleştirmeler gösterilir. 
SLN317174_en_US__1image (10273)

Şekil 1:  HPC Lustre Depolaması için Dell Ready Çözümü: L taban yapılandırmasının mimari şeması

Tablo 1:  Ready Solution for Lustre'ın teknik özellikleri güncellendi ve önceki sürümle hızlı karşılaştırma

Donanım/Yazılım Bileşeni Current (Mevcut) Geri
İşletim Sistemi ve MDSNesne Depolama Sunucusu (OSS) ve Meta Veri Sunucusu 'da (MDS) İşlemciler OSS/MDS başına 2,10 GHz'de 20 çekirdekli 2 x Intel Xeon Gold 6230 CPU 3,00 GHz'de 12 çekirdekli 2 x Intel Xeon™ Gold 6136
Lustre (IML) sunucusu için Tümleşik Yöneticisinde İşlemci  2 x 2,3 GHz'de 16 çekirdekli Intel Xeon Gold 5218 2 x 2,3 GHz'de 12 çekirdekli Intel Xeon Gold 5118
İşletim Sistemi ve MDS'deki Bellek DIMM'leri 12 x 32 GiB 2933 MT/s DDR4 RDIMM 24 x 16GiB 2666MT/s DDR4 RDIMM
IML sunucusuna bağlı bellek DIMM'leri 12 x 8GiB 2666MT/s DDR4 RDIMM 12 x 8 GB 2666MT/s DDR4 RDIMM
BIOS 2.1.8 veya sonraki sürümler 1.4.5 veya sonraki sürümler 
İşletim Sistemi Çekirdeği 3.10.0-957.1.3 3.10.0-862
Lustre Sürümü 2.10.7 2.10.4
IML sürümü 4.0.10.0 4.0.7.0
Mellanox OFED versi 4.5-1.0.1.0 4.4-1












 













Performans Sonuçları

Güncelleştirilmiş Hazır Çözümü Tablo 1'de listelenmiş olarak yapılandırarak güncelleştirilmiş çözümün performansını doğrulamak için IOzone sıralı, IOzone rastgele ve MDtest karşılaştırmalı testleri ile performans kontrolleri yapıldı. Tüm testler için karşılaştırmalı test komutlarını da dahil olmak üzere test metodolojisi, daha önce kullanılan ve açıklanan yöntemle aynıdır.

Tüm testler için aşağıdaki Tablo 2'de açıklandığı gibi istemci test odalarını kullandık
 

Tablo 2:  İstemci test yatağı

 
İstemci düğüm sayısı  8
İstemci düğüm C6420
İstemci düğüm başına işlemci 2 x 2,50 GHz'de 20 çekirdekli Intel(R) Xeon(R) Gold 6248
İstemci düğümü başına bellek 12 x 16 GiB 2933 MT/sn RDIMM'ler
BIOS 2.2.6
İşletim Sistemi Çekirdeği 3.10.0-957.10.1
Lustre sürümü 2.10.7
Mellanox OFED 4.5-1.0.1.0











 




Sıralı IOzone Performansı 

Tablo 2'de listelenen istemcileri kullanarak sıralı IOzone sürüm 3.487'yi kullandık. Tek iş parçacığından 256 iş parçacığına kadar, istemci başına birden fazla iş parçacığı ile 8 iş parçacığının üzerinde testler çalıştırın. Test yöntemine göre test için toplam veri boyutu 2 TB'dır.  32 iş parçacığından daha düşük iş parçacığı sayısı için 32'lik Lustre şerit sayısı ve 32'ye eşit olan iş parçacığı sayısı için Lustre şerit sayısı 1 olarak ayarlanmıştır.  Önbelleğe alma efektleri, önceki blog'da açıklandığı gibi en aza indirgendi.

Bu test için kullanılan Lustre istemci tarafı ayarlama parametreleri aşağıda listelenmiştir 

lctl set_param osc.*.checksums=0
lctl set_param timeout=600
lctl set_param at_min=250
lctl set_param at_max=600
lctl set_param ldlm.namespaces.*.lru_size=2000
lctl set_param osc.*OST*.max_rpcs_in_flight=16
lctl set_param osc.*OST*.max_dirty_mb=1024
lctl set_param osc.*.max_pages_per_rpc=1024
lctl set_param llite.*.max_read_ahead_mb=1024
lctl set_param llite.*.max_read_ahead_per_ file_mb=1024



SLN317174_en_US__2image (10649)

Şekil 2: Sıralı N-N Yazmaları. Cascade Lake Lustre sunucularını ve istemcilerini kullanarak önceki sonuçların mevcut sonuçlarla karşılaştırıldığında

SLN317174_en_US__3image (10650)

Şekil 3: Sıralı N-N Okumaları. Cascade Lake Lustre sunucularını ve istemcilerini kullanarak önceki sonuçların mevcut sonuçlarla karşılaştırıldığında

Şekil 2 ve 3, en son Cascade Lake tabanlı çözümün IOzone sıralı okuma ve yazma performansını sunar ve bu sonuçları önceki Skylake tabanlı çözümle karşılaştırın. Önceki sonuçlarla karşılaştırarak, Cascade Lake tabanlı istemcilerde ve Lustre sunucularında 32 iş parçacığının altındaki daha düşük iş parçacığı sayısı için yazmaların yanı sıra sıralı okumalarda performans iyileştirmesi olduğunu fark ettik. 32 iş parçacığının altındaki daha düşük iş parçacığı sayılarında okumaların yanı sıra sıralı yazmalarda 2 katın biraz daha fazla performans iyileştirmesine dikkat edebilirsiniz. Bu performans deltası, Cascade Lake işlemcilerde (referans bağlantısı) yer alan yan kanal açıkları için donanım risk azaltmalarına atfedilebilir. Ancak buna neden olan diğer faktörler, yeni çözümde ve güncelleştirilmiş yazılım sürümlerinde daha hızlı bellek olabilir.  

Ayrıca, daha yüksek iş parçacığı sayılarında sıralı performansın önceki çözüme çok benzer olduğu da not edildi. Bunun nedeni, Cascade Lake işlemcilerde yapılan geliştirmelerin, çözüm arka uç depolama denetleyicilerinin tam potansiyeliyle çalıştırildiğinde ek performans iyileştirmesine katkıda bulunup çalışmamadır.



Rastgele IOzone Performansı 

Tablo 2'de listelenen istemcileri kullanarak rastgele IOzone sürüm 3.487'yi kullandık. ve 16, 64 ve 256 iş parçacığıyla performans kontrolleri gerçekleştirir. Önceki test yöntemine benzer şekilde, toplam veri boyutu 2 TB'dir ve şerit boyutu 4 MB olarak ayarlanmıştır. Önbelleğe alma efektleri, önceki blog'da açıklandığı gibi en aza indirgendi.

Bu test için kullanılan Lustre istemci tarafı ayarlama parametreleri aşağıda listelenmiştir   

lctl set_param osc.*OST*.max_rpcs_in_flight=256
lctl set_param osc.*.max_pages_per_rpc=1024

SLN317174_en_US__4image (10288)

Şekil 4: IOzone Rastgele N-N Okumaları. Cascade Lake Lustre sunucuları ve istemcilerini kullanarak önceki sonuçların mevcut sonuçlarla karşılaştırması

Şekil 4, rastgele G/Ç testlerin sonuçlarını özetler. Önceki ve güncel sonuçları karşılaştırarak trendin aynı olduğunu ve gözlemlenen performans deltası, çalıştır-çalıştır değişimine göre istatistiksel olarak önemli değildir.



Meta Veri MDtest Performansı

Sistemin meta veri performansını değerlendirmek için MDTest araç sürümü 1.9.3 kullanıldı. Kullanılan MPI dağıtımı Intel MPI'dır. Testler, 2 MDTs ve dizin şeritleme ile DNE kullanılarak çalıştırıIdı. Test metodolojisi, kullanılan komut ve oluşturulan dosya ve dizin sayısı önceki blog'da açıklananla aynıdır. 

SLN317174_en_US__5image (10293)

Şekil 5:   MDtest ile meta veri işlemleri.   Cascade Lake Lustre sunucularını ve istemcilerini kullanarak önceki sonuçların mevcut sonuçlarla karşılaştırıldığında

Şekil 5, meta veri testlerin sonuçlarını sunar. Mevcut sonuçları öncekiyle karşılaştırarak, üç meta veri işlemi için de eğilimin aynı olduğunu görmektesiniz. En yüksek dosya oluşturma işlemlerinde %75,4'lık bir gelişme, en yüksek dosya kaldırma işlemlerinde %18 düşüş ve dosya stat operasyonlarında ihmal edilebilir performans deltası olduğunu not yiz.   Tablo 1'de gösterildiği gibi çözüm yığınındaki yazılım ve donanım güncelleştirmelerinde görülen performans deltalarını atfedebilir.
 

Sonuç

Yapılandırma, kurulum ve performans açısından Lustre Ready Çözümü güncelleştirmelerini doğruladıktan ve doğruladıktan sonra. Ayrıca toplanan performans verileri de bu blog'a dahil edilmiştir.

Cascade Lake tabanlı Lustre sunucuları ve istemcileri ile önceki sonuçları

mevcut sonuçlarla karşılaştırma 1) Sıralı GÇ: 32 iş parçacığının altında daha düşük iş parçacığı sayılarında sıralı yazmalar ve sıralı okumalar ile 2 katın biraz daha fazla performans iyileştirmesi olduğunu fark edersiniz. En yüksek performans, önceki Skylake tabanlı çözüme benzerdir. 
2) Rastgele GÇ: Çalıştırma varyasyonu dikkate alınarak istatistiki olarak önemli olmayan bir performans deltası ile okuma ve yazma performansında çok benzer bir eğilim görebilirsiniz.
3) Meta veri performans testleri:  En çok %75,4'e varan dosya oluşturma işlemlerinde bir gelişme olduğunu görmektesiniz. Dosya durumu işlemleri, daha önce göz ardı edilebilir performans deltası ile gözlemlenen sonuçlara çok yakın kalır. Dosya kaldırma işlemlerine yönelik genel eğilim aynı ve delta diğer iş parçacığı sayılarında göz ardı edilebilir düzeydeyken en çok %18 oranında dosya kaldırma işlemleri düşüş göstermektedir.  

Referanslar

1) IOzone karşılaştırmalı testi
2) Mdtest karşılaştırmalı testi

Affected Products

High Performance Computing Solution Resources
Article Properties
Article Number: 000144408
Article Type: Solution
Last Modified: 19 Jan 2024
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.