HPC PixStor Depolaması için Dell EMC Ready Çözümü - NVMe Katmanı (İngilizce)

Summary: Mimari ve performans değerlendirmesi dahil olmak üzere bir HPC Depolama Çözümü bileşeni için blog.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Haziran 2020'de HPC ve AI Innovation Lab bünyesinde Mario Gallegos tarafından yazılmıştır
Mimari ve performans değerlendirmesi dahil olmak üzere bir HPC Depolama Çözümü bileşeni için blog.

Resolution

HPC PixStor Depolaması için Dell EMC Ready Çözümü (İngilizce)

            NVMe Katmanı

İçindekiler

Giriş. 1

Çözüm Mimarisi. 1

Çözüm Bileşenleri. 1

Performans Karakterizasyonu. 1

Sıralı IOzone Performansı N istemciden N dosyaya. 1

Sıralı IOR Performansı N istemciden 1 dosyaya. 1

Rastgele küçük bloklar IOzone Performansı N istemciden N dosyaya. 1

MDtest ile 4 KiB dosya kullanarak meta veri performansı. 1

Sonuç ve Gelecekteki Çalışmalar. 1

 

Giriş

Günümüzün HPC ortamları, çok yüksek hızlı depolamaya yönelik talepleri artırdı ve daha yüksek sayıda CPU, daha hızlı ağlar ve daha büyük bellek ile depolama, birçok iş yükünde darboğaz haline geldi. Bu yüksek talepli HPC gereksinimleri, genellikle tek bir dosyaya veya bir dizi dosyaya birden fazla düğümden eş zamanlı erişim sağlayan, verileri çok sayıda sunucuda birden fazla LUN'a çok verimli ve güvenli şekilde dağıtan Paralel Dosya Sistemleri (PFS) tarafından karşılanır. Bu dosya sistemleri normalde en düşük maliyetle en yüksek kapasiteyi sağlamak için döner ortam tabanlıdır. Bununla birlikte, giderek daha sık bir şekilde dönen ortamın hızı ve gecikme süresi, birçok modern HPC iş yükünün taleplerini karşılayamamakta ve bu da seri işlem arabellekleri, daha hızlı katmanlar ve hatta yerel veya dağıtılmış olarak çok hızlı geçici depolama biçiminde flash teknolojisinin kullanılmasını gerektirmektedir. HPC PixStor Depolaması için DellEMC Ready Çözümü esnek, ölçeklenebilir, verimli ve güvenilir olmasının yanı sıra bu tür yeni yüksek bant genişliği taleplerini karşılamak için bileşen olarak NVMe düğümlerini kullanır.

Çözüm Mimarisi

Bu blog yazısı, HPC ortamları için Paralel Dosya Sistemi (PFS) çözümleri serisinin, özellikle de NVMe sürücülü Dell EMC PowerEdge R640 sunucuların hızlı flash tabanlı katman olarak kullanıldığı HPC PixStor Depolaması için DellEMC Ready Çözümü'nün bir parçasıdır.
PixStor PFS çözümü, Spektrum Ölçeği olarak da bilinen yaygın Genel Paralel Dosya Sistemini içerir. ArcaStream ayrıca gelişmiş analiz, basitleştirilmiş yönetim ve izleme, verimli dosya arama, gelişmiş ağ geçidi yetenekleri ve daha fazlasını sağlamak için birçok başka yazılım bileşeni içerir.

Bu blogda sunulan NVMe düğümleri, PixStor çözümü için çok yüksek performanslı flash tabanlı bir katman sağlar. Bu NVMe katmanının performansı ve kapasitesi, ek NVMe düğümleri tarafından ölçeklendirilebilir. PowerEdge R640'ta desteklenen uygun NVMe aygıtları seçilerek daha yüksek kapasite sağlanır.

Şekil 1'de, test edilen yapılandırmadaki tüm meta verileri işleyen yüksek talepli meta veri modülünü kullanan 4 NVMe düğümüne sahip bir çözümü gösteren referans mimari sunulmaktadır. Bunun nedeni, şu anda bu NVMe düğümlerinin yalnızca veri Depolama hedefleri olarak kullanılıyor olmasıdır. Bununla birlikte, NVMe düğümleri veri ve meta verileri depolamak için veya aşırı meta veri talepleri gerektirdiğinde, yüksek talepli meta veri modülüne daha hızlı bir flash alternatifi olarak da kullanılabilir. NVMe düğümleri için bu yapılandırmalar bu çalışmanın bir parçası olarak test edilmemiştir ancak gelecekte test edilecektir.

 

SLN321889_en_US__1image001(8)

Şekil 1 Referans Mimari

Çözüm Bileşenleri

Bu çözüm, en son Intel Xeon 2. Nesil Ölçeklenebilir Xeon CPU'ları, diğer adıyla Cascade Lake CPU'ları ve mevcut en hızlı RAM'i (2933 MT/sn.) kullanır. Bunun tek istisnası, maliyet etkinliğini korumak için yönetim düğümleridir. Ayrıca çözüm, piyasaya sürüldüğünde desteklenen yazılım sürümleri olacak RHEL 7.7 ve OFED 5.0'ı destekleyen PixStor'un (5.1.3.1) en son sürümüne güncelleştirilmiştir.

Her NVMe düğümü, yalnızca aygıt düzeyinde değil, sunucu düzeyinde de veri yedekliliğine olanak tanımak için NVMe over Fabric çözümü kullanılarak bir çift sunucuda sekiz RAID 10 aygıtı olarak yapılandırılmış sekiz Dell P4610 aygıtına sahiptir. Buna ek olarak, bu RAID10 aygıtlarından birine herhangi bir veri girdiğinde veya bu aygıtların birinden herhangi bir veri çıktığında, her iki sunucudaki 16 sürücünün tamamı kullanılır ve bu da bu da erişim bant genişliğini tüm sürücülerin bant genişliğine yükseltir. Bu nedenle, bu bileşenler için tek kısıtlama, çiftler halinde satılmaları ve kullanılmaları gerektiğidir. PowerEdge R640 tarafından desteklenen tüm NVMe sürücüler bu çözümde kullanılabilir ancak P4610 hem okuma hem de yazma işlemleri için 3200 MB/sn. sıralı bant genişliğine ve yüksek rastgele IOPS özelliklerine sahiptir. Bu özellikler, bu flash katmanının gereksinimlerini karşılamak için gereken çift sayısını ölçeklendirmeye çalışırken kullanışlıdır.

Her R640 sunucuda EDR 100 GB IB bağlantısı olarak kullanılan iki HCA Mellanox ConnectX-6 Tek Bağlantı Noktalı VPI HDR100 bulunur. Ancak NVMe düğümleri, HDR kabloları ve anahtarlarıyla kullanıldığında HDR100 hızlarını desteklemeye hazırdır. Bu düğümlerde HDR100 testi, tüm PixStor çözümü için HDR100 güncelleştirmesinin bir parçası olarak ertelenmiştir. Her iki CX6 arayüzü de RAID 10 (NVMe over fabric) için verileri senkronize etmek amacıyla ve dosya sisteminin bağlantısı olarak kullanılır. Ayrıca adaptörde, bağlantı noktasında ve kabloda donanım yedekliliği sağlarlar. Anahtar düzeyinde yedeklilik için çift bağlantı noktalı CX6 VPI adaptörleri gereklidir ancak S&P bileşenleri olarak tedarik edilmeleri gerekir.
NVMe düğümlerinin performansını karakterize etmek için şekil 1'de gösterilen sistemden yalnızca yüksek talepli meta veri modülü ve NVMe düğümleri kullanılmıştır.

Tablo 1, çözümün ana bileşenlerinin listesini içerir. ME4024'te desteklenen sürücüler listesine göre 960 GB SSD'ler meta veriler için kullanılmıştır ve performans karakterizasyonu için kullanılan SSD'lerdir. Daha hızlı sürücüler daha iyi Rastgele IOP'ler sağlayabilir ve meta veri oluşturma/kaldırma işlemlerini iyileştirebilir. PowerEdge R640'ta desteklenen tüm NVMe aygıtları, NVMe düğümleri için desteklenecektir.

Tablo 1 Piyasaya sürüldüğünde kullanılan bileşenler ile test ortamında kullanılanlar

Çözüm Bileşeni

Piyasaya Sürüldüğünde

Dahili Bağlantı

Dell Networking S3048-ON Gigabit Ethernet

Veri Depolama Alt Sistemi

1x ila 4x Dell EMC PowerVault ME4084

1x ila 4x Dell EMC PowerVault ME484 (ME4084 başına bir tane)
80 - 12 TB 3,5'' NL SAS3 HDD sürücüler
Seçenekler 15K'da 900 GB, 10K'da 1,2 TB, 10K'da 1,8 TB, 10K'da 2,4 TB,
4 TB NLS, 8 TB NLS, 10 TB NLS, 12 TB NLS.
    8 LUN, doğrusal 8+2 RAID 6, parça boyutu 512 KiB.
Meta veri için 4x 1,92 TB SAS3 SSD - 2x RAID 1 (veya İsteğe Bağlı Yüksek Talepli Meta Veri Modülü kullanılıyorsa 4 - Global HDD yedekleri)

İsteğe Bağlı Yüksek Talepli Meta Veri Depolama Alt Sistemi

1x ila 2x Dell EMC PowerVault ME4024 (gerekirse 4x ME4024, yalnızca Büyük yapılandırma)
24x 960 GB 2,5'' SSD SAS3 sürücüler (Seçenekler 480 GB, 960 GB, 1,92 TB, 3,84 TB)
12 LUN, doğrusal RAID 1.

RAID Depolama Denetleyicileri

12 GB/sn SAS

İşlemci

NVMe Düğümleri

2x Intel Xeon Gold 6230 2.1G, 20C/40T
10,4 GT/sn., 27,5 M Önbellek, Turbo, HT (125 W) DDR4-2933

Yüksek Talepli Meta Veriler

Depolama Düğümü

Yönetim Düğümü

2x Intel Xeon Gold 5220 2.2G, 18C/36T
10,4 GT/sn., 24,75 M Önbellek, Turbo, HT (125 W) DDR4-2666

Bellek

NVMe Düğümleri

12x 16 GiB 2933 MT/sn RDIMM (192 GiB)

Yüksek Talepli Meta Veriler

Depolama Düğümü

Yönetim Düğümü

12x 16 GB DIMM, 2666 MT/sn (192 GiB)

İşletim Sistemi

CentOS 7.7

Kernel sürümü

3.10.0-1062.12.1.el7.x86_64

PixStor Yazılımı

5.1.3.1

Dosya sistemi Yazılımı

NVMesh 2.0.1 ile Spektrum Ölçeği (GPFS) 5.0.4-3

Yüksek Performanslı Ağ Bağlantısı

NVMe düğümleri: EDR/100 GbE kullanan 2x ConnectX-6 InfiniBand
Diğer sunucular: Mellanox ConnectX-5 InfiniBand EDR/100 GbE ve 10 GbE

Yüksek Performanslı Anahtar

2x Mellanox SB7800

OFED Sürümü

Mellanox OFED 5.0-2.1.8.0

Yerel Diskler (İşletim Sistemi ve Analiz/İzleme)

Listelenenler hariç tüm sunucular                NVMe Düğümleri

İşletim sistemi için 3x 480 GB SSD SAS3 (RAID1 + HS) İşletim sistemi için 3x 480 GB SSD SAS3 (RAID1 + HS)

PERC H730P RAID denetleyicisi PERC H740P RAID denetleyicisi

Yönetim Düğümü

PERC H740P RAID denetleyicili işletim sistemi için 3x 480 GB SSD SAS3 (RAID1 + HS)

Sistem Yönetimi

iDRAC 9 Enterprise + Dell EMC OpenManage

 

Performans Karakterizasyonu

Bu yeni Hazır Çözüm bileşenini karakterize etmek için aşağıdaki kıyaslama ölçütleri kullanılmıştır:

 · IOzone N'den N'ye sıralı
 
· IOR N'den 1'e sıralı
 
· IOzone rastgele
· MDtest

Yukarıda listelenen tüm kıyaslama ölçütleri için test ortamında aşağıdaki Tablo 2'de açıklanan istemciler mevcuttu. Test için mevcut bilgi işlem düğümü sayısı yalnızca 16 olduğundan daha yüksek sayıda iş parçacığı gerektiğinde bu iş parçacıkları, bilgi işlem düğümlerine eşit olarak dağıtılmıştır (ör. 32 iş parçacığı = düğüm başına 2 iş parçacığı, 64 iş parçacığı = düğüm başına 4 iş parçacığı, 128 iş parçacığı = düğüm başına 8 iş parçacığı, 256 iş parçacığı = düğüm başına 16 iş parçacığı, 512 iş parçacığı = düğüm başına 32 iş parçacığı, 1024 iş parçacığı = düğüm başına 64 iş parçacığı). Buradaki amaç, sınırlı sayıda bilgi işlem düğümüyle daha fazla sayıda eş zamanlı istemciyi simüle etmekti. Bazı kıyaslama ölçütleri yüksek sayıda iş parçacığını desteklediğinden aşırı bağlam değiştirme ve diğer ilgili yan etkilerin performans sonuçlarını etkilemesi önlenirken 1024'e kadar maksimum değer kullanılmıştır (her test için belirtilmiştir).

 

Tablo 2 İstemci test ortamı

İstemci düğüm sayısı

16

İstemci düğüm

C6320

İstemci düğüm başına işlemci

2x Intel(R) Xeon(R) Gold E5-2697v4 18 Çekirdek (2,30 GHz)

İstemci düğümü başına bellek

8x 16 GiB 2400 MT/sn. RDIMM (128 GiB)

BIOS

2.8.0

İşletim Sistemi Çekirdeği

3.10.0-957.10.1

Dosya sistemi Yazılımı

NVMesh 2.0.1 ile Spektrum Ölçeği (GPFS) 5.0.4-3

 

Sıralı IOzone Performansı N dosyaya N istemci

Sıralı N istemciden N dosyaya performans, IOzone sürüm 3.487 ile ölçülmüştür. Gerçekleştirilen testler, tek iş parçacığından 1024 iş parçacığına kadar ikinin katları şeklinde artışlarla değişiklik göstermiştir.

GPFS sayfa havuzu 16 GiB olarak ayarlanarak ve bu boyutun iki katından daha büyük dosyalar kullanılarak sunuculardaki önbelleğe alma etkileri en aza indirilmiştir. GPFS için bu belirlenebilecek ayarın, yüklü ve boş RAM miktarına bakılmaksızın verileri önbelleğe almak için kullanılan maksimum bellek miktarını ayarladığını unutmamak önemlidir. Ayrıca önceki Dell EMC HPC çözümlerinde büyük sıralı aktarımlar için blok boyutu 1 MiB'ydi. GPFS'nin 8 MiB bloklarla biçimlendirildiğini ve bu nedenle optimum performans için kıyaslamada bu değerin kullanıldığını göz önünde bulundurmak önemlidir. Bu çok büyük görünebilir ve çok fazla alanın boşa gitmesine yol açabilir. Ancak GPFS bu durumu önlemek için alt blok tahsisi kullanır. Mevcut yapılandırmada her blok, her biri 32 KiB'lik 256 alt bloğa bölünmüştür.

Kıyaslamayı gerçekleştirmek için aşağıdaki komut kullanılmıştır. Burada $Threads, kullanılan iş parçacığı sayısını (ikinin kuvvetleriyle artarak 1 ila 1024) içeren değişken ve threadlist, her bir iş parçacığını farklı bir düğüme tahsis eden dosyadır. Bunları 16 bilgi işlem düğümüne homojen şekilde dağıtmak için çevrimsel sıralı kullanılmıştır.

İstemcilerden gelebilecek olası veri önbelleğe alma etkilerinden kaçınmak için dosyaların toplam veri boyutu, kullanılan istemcilerdeki toplam RAM miktarının iki katı olmuştur. Diğer bir deyişle, her istemci 128 GiB RAM'e sahip olduğundan, 16 veya daha fazla sayıda iş parçacığı için dosya boyutu 4096 GiB olup iş parçacığı sayısına bölünerek elde edilmiştir (aşağıdaki $Size değişkeni, bu değeri yönetmek için kullanılmıştır). 16'dan az iş parçacığı olan durumlarda (bu, her iş parçacığının farklı bir istemcide çalıştığı anlamına gelir), dosya boyutu istemci başına bellek miktarının iki katı veya 256 GiB olarak sabitlenmiştir.

iozone -i0 -c -e -w -r 8M -s $ G -t $Threads -+n -+m ./threadlist
iozone -i1 -c -e -w -r 8M -s $ G -t $Threads -+n -+m ./threadlist

SLN321889_en_US__2image002(1)

Şekil 2 N'den N'ye Sıralı Performans

Sonuçlardan, yazma performansının kullanılan iş parçacığı sayısıyla arttığını ve ardından yazma işlemleri için yaklaşık 64 iş parçacığı ve okuma işlemleri için 128 iş parçacığı ile bir platoya ulaştığını gözlemleyebiliriz. Ardından okuma performansı da iş parçacığı sayısıyla birlikte hızla artar ve ardından IOzone'un izin verdiği maksimum iş parçacığı sayısına ulaşılana kadar sabit kalır ve bu nedenle büyük dosya sıralı performansı 1024 eş zamanlı istemci için bile sabittir. Yazma performansı 1024 iş parçacığında yaklaşık %10 düşer. Ancak, istemci kümesinin çekirdek sayısı bu sayıdan az olduğundan, performans düşüşünün döner ortamda gözlemlenmeyen değiştirme ve benzeri ek yüklerden mi kaynaklandığı (NVMe gecikme süresi döner ortama kıyasla çok düşük olduğundan) yoksa RAID 10 veri senkronizasyonunun bir darboğaz haline gelmesinden mi kaynaklandığı belirsizdir. Bu noktayı açıklığa kavuşturmak için daha fazla istemci gerekir. 64 iş parçacığında okuma işlemlerinde bir anormallik gözlemlenmiştir; burada performans, önceki veri noktalarında gözlemlenen oranda ölçeklenmemiştir ve ardından bir sonraki veri noktasında, sürdürülebilir performansa çok yakın bir değere geçmiştir. Bu tür bir anormalliğin nedenini bulmak için daha fazla test gerekir ancak bu blogun kapsamı dışındadır.

Okuma işlemleri için maksimum okuma performansı, NVMe aygıtlarının teorik performansının (~102 GB/sn.) veya EDR bağlantılarının performansının altındaydı ve bu durum, bir bağlantının çoğunlukla NVMe over fabric trafiği (4x EDR BW ~96 GB/sn.) için kullanıldığı varsayıldığında bile geçerliydi.
Ancak donanım yapılandırması her CPU soketinin altındaki NVMe aygıtları ve IB HCA'lar açısından dengeli olmadığı için bu bir sürpriz değildir. CPU2'de tüm NVMe aygıtları ve ikinci CX6 adaptörleri bulunurken, bir CX6 adaptörü CPU1'in altındadır. İlk HCA'yı kullanan her türlü depolama trafiği, NVMe aygıtlarına erişmek için UPI'leri kullanmalıdır. Ayrıca CPU1'de kullanılan herhangi bir çekirdek, CPU2'ye atanan aygıtlara veya belleğe erişmelidir, bu nedenle veri yerelliği zarar görür ve UPI bağlantıları kullanılır. Bu, NVMe aygıtlarının maksimum performansına veya CX6 HCA'ların hat hızına kıyasla maksimum performanstaki düşüşü açıklayabilir. Bu sınırlamayı düzeltmenin alternatifi, dengeli bir donanım yapılandırmasına sahip olmaktır. Bu, dört x16 yuvalı bir R740 kullanarak yoğunluğu yarıya indirmek ve NVMe aygıtlarını iki CPU'ya eşit olarak dağıtmak için iki x16 PCIe genişletici kullanmak ve her CPU'nun altında bir CX6 HCA'ya sahip olmak anlamına gelir.

Sıralı IOR Performansı N istemciden 1 dosyaya

Sıralı N istemciden tek bir paylaşılan dosyaya performans, 16 bilgi işlem düğümü üzerinde kıyaslamayı çalıştırmak için OpenMPI v4.0.1 tarafından desteklenen IOR sürüm 3.3.0 ile ölçülmüştür. 1024 veya daha fazla iş parçacığı için yeterli çekirdek olmadığından yapılan testler, bir iş parçacığından 512 iş parçacığına kadar değişiklik göstermiştir. Bu kıyaslama testlerinde optimum performans için 8 MiB bloklar kullanılmıştır. Önceki performans testi bölümünde bunun neden önemli olduğuna dair daha eksiksiz bir açıklama bulunmaktadır.

GPFS sayfa havuzu 16 GiB olarak ayarlanarak verileri önbelleğe alma etkileri en aza indirilmiştir ve toplam dosya boyutu, kullanılan istemcilerdeki toplam RAM miktarının iki katı olmuştur. Diğer bir deyişle, her istemci 128 GiB RAM'e sahip olduğundan, 16 veya daha fazla sayıda iş parçacığı için dosya boyutu 4096 GiB'dir ve bu toplamın eşit miktarı iş parçacığı sayısına bölünmüştür (aşağıdaki $Size değişkeni bu değeri yönetmek için kullanılmıştır). 16'dan az iş parçacığı olan durumlarda (bu, her iş parçacığının farklı bir istemcide çalıştığı anlamına gelir), dosya boyutu istemci başına kullanılan bellek miktarının iki katı ile iş parçacığı sayısının çarpımı kadar olmuştur veya başka bir deyişle, her iş parçacığından 256 GiB kullanması istenmiştir.

Yazma ve okuma işlemlerinde kıyaslamayı gerçekleştirmek için aşağıdaki komutlar kullanılmıştır. Burada $Threads, kullanılan iş parçacığı sayısını (ikinin kuvvetleriyle artarak 1 ila 1024) içeren değişken ve my_hosts.$Threads, her iş parçacığını farklı bir düğüme tahsis eden dosyadır. Bunları 16 bilgi işlem düğümüne homojen şekilde yaymak için çevrimsel sıralı kullanılmıştır.

mpirun --allow-run-as-root -np $Threads --hostfile my_hosts.$Threads --mca btl_openib_allow_ib 1 --mca pml ^ucx --oversubscribe --prefix /mmfs1/perftest/ompi /mmfs1/perftest/lanl_ior/bin/ior -a POSIX -v -i 1 -d 3 -e -k -o /mmfs1/perftest/tst.file -w -s 1 -t 8m -b $ G

mpirun --allow-run-as-root -np $Threads --hostfile my_hosts.$Threads --mca btl_openib_allow_ib 1 --mca pml ^ucx --oversubscribe --prefix /mmfs1/perftest/ompi /mmfs1/perftest/lanl_ior/bin/ior -a POSIX -v -i 1 -d 3 -e -k -o /mmfs1/perftest/tst.file -r -s 1 -t 8m -b $ G

 

SLN321889_en_US__3image003(5)

Şekil 3 N'den 1'e Sıralı Performans

Sonuçlardan, tüm iş parçacıkları aynı dosyaya eriştiğinden, kilitleme mekanizmalarına yönelik dolaylı ihtiyaçtan bağımsız olarak okuma ve yazma performansının yüksek olduğunu gözlemleyebiliriz. Performans, kullanılan iş parçacığı sayısıyla birlikte yine çok hızlı şekilde artmakta ve ardından bu testte kullanılan maksimum iş parçacığı sayısına kadar okuma ve yazma işlemleri için oldukça istikrarlı bir platoya ulaşmaktadır. Maksimum okuma performansının 512 iş parçacığında 51,6 GB/sn. olduğuna ancak performanstaki platoya yaklaşık 64 iş parçacığında ulaşıldığına dikkat edin. Benzer şekilde, 16 iş parçacığında 34,5 GB/sn. maksimum yazma performansına ulaşıldığına ve kullanılan maksimum iş parçacığı sayısına kadar gözlemlenebilen bir platoya ulaşıldığına dikkat edin.

Rastgele küçük bloklar IOzone Performansı N istemciden N dosyaya

Rastgele N istemciden N dosyaya performans, IOzone sürüm 3.487 ile ölçülmüştür. Gerçekleştirilen testler, tek iş parçacığından 1024 iş parçacığına kadar ikinin katları şeklinde artışlarla değişiklik göstermiştir.

1024 iş parçacığı için yeterli istemci çekirdeği olmadığından, gerçekleştirilen testler tek iş parçacığından 512 iş parçacığına kadar değişiklik göstermiştir. Her iş parçacığı farklı bir dosya kullanıyordu ve iş parçacıkları, istemci düğümlerine round robin (çevrimsel sıralı) olarak atanmıştı. Bu kıyaslama testlerinde küçük blok trafiğini simüle etmek için 4 KiB boyutunda bloklar ve 16'lık bir kuyruk derinliği kullanılmıştır. Büyük boyutlu çözümden ve kapasite genişletmesinden elde edilen sonuçlar karşılaştırılmıştır.

GPFS sayfa havuzu 16 GiB olarak ayarlanarak verileri önbelleğe alma etkileri yine en aza indirilmiştir ve istemcilerden gelebilecek olası veri önbelleğe alma etkilerinden kaçınmak için dosyaların toplam veri boyutu, kullanılan istemcilerdeki toplam RAM miktarının iki katı olmuştur. Diğer bir deyişle, her istemci 128 GiB RAM'e sahip olduğundan, 16 veya daha fazla sayıda iş parçacığı için dosya boyutu 4096 GiB olup iş parçacığı sayısına bölünerek elde edilmiştir (aşağıdaki $Size değişkeni, bu değeri yönetmek için kullanılmıştır). 16'dan az iş parçacığı olan durumlarda (bu, her iş parçacığının farklı bir istemcide çalıştığı anlamına gelir), dosya boyutu istemci başına bellek miktarının iki katı veya 256 GiB olarak sabitlenmiştir.

iozone -i0 -I -c -e -w -r 8M -s $ G -t $Threads -+n -+m ./nvme_threadlist                                     <= Dosyaları sırayla oluşturun
iozone -i2 -I -c -O -w -r 4k -s $ G -t $Threads -+n -+m ./nvme_threadlist                                      <= Rastgele okumalar ve yazmalar gerçekleştirin.

 

SLN321889_en_US__4image004(1)

Şekil 4 N'den N'ye Rastgele Performans

Sonuçlardan, yazma performansının 6 bin IOps gibi yüksek bir değerden başladığını ve 1024 iş parçacığına kadar istikrarlı bir şekilde yükseldiğini; bu noktada daha fazla iş parçacığı kullanılabilseydi 5 milyon IOPS'nin üzerinde bir platoya ulaşıyor gibi göründüğünü gözlemleyebiliriz. Öte yandan okuma performansı 5 bin IOPS ile başlar ve performansı kullanılan iş parçacığı sayısı ile istikrarlı şekilde artırır (her veri noktası için iş parçacığı sayısının iki katına çıkarıldığını unutmayın) ve 1024 iş parçacığında maksimum 7,3 milyon IOPS performansına ulaşır ve bir platoya ulaşma belirtisi göstermez. Daha fazla iş parçacığı kullanmak, kaynak tükenmesinden ve görünür performansı düşürebilecek aşırı değiştirme işlemlerinden kaçınmak için 16 bilgi işlem düğümünden fazlasını gerektirecektir. NVMe düğümleri ise aslında performansı koruyabilir.

MDtest ile 4 KiB dosya kullanarak meta veri performansı

Meta veri performansı, 16 bilgi işlem düğümü üzerinde kıyaslamayı çalıştırmak için OpenMPI v4.0.1 tarafından desteklenen MDtest sürüm 3.3.0 ile ölçülmüştür. Yapılan testler tek iş parçacığından 512 iş parçacığına kadar farklılık göstermiştir. Kıyaslama yalnızca dosyalar için kullanılmıştır (dizin meta verileri hariç), çözümün işleyebileceği oluşturma, istatistik, okuma ve kaldırma sayıları elde edilmiştir ve sonuçlar Büyük boyutlu çözümle karşılaştırılmıştır.

Bu çalışmada test edilen büyük yapılandırma iki ME4024 içerecek şekilde tasarlanmış olmasına rağmen isteğe bağlı Yüksek Talepli Meta Veri Modülü tek ME4024 ile kullanılmıştır. Bu meta veri modülünün kullanılmasının nedeni, şu anda bu NVMe düğümlerinin yalnızca veriler için Depolama hedefleri olarak kullanılmasıdır. Bununla birlikte, düğümler veri ve meta verileri depolamak için veya aşırı meta veri talepleri gerektirdiğinde, yüksek talepli meta veri modülüne daha hızlı bir flash alternatifi olarak da kullanılabilir. Bu yapılandırmalar bu çalışmanın bir parçası olarak test edilmemiştir.

HPC PixStor Depolama çözümü için DellEMC Ready Çözümünün önceki kıyaslamalarında aynı Yüksek Talepli Meta Verileri modülü kullanıldığından, meta veri sonuçları önceki blog sonuçlarına kıyasla çok benzer olacaktır. Bu nedenle boş dosyalar ile çalışma yapılmamış, bunun yerine 4 KiB dosya kullanılmıştır. 4KiB dosya, meta veri bilgileriyle birlikte bir düğüme sığamayacağından, her dosya için verileri depolamak üzere NVMe düğümleri kullanılır. Bu nedenle, MDtest okumalar ve meta veri işlemlerinin geri kalanı için küçük dosyaların performansı hakkında kabaca bir fikir verebilir.

Kıyaslamayı gerçekleştirmek için aşağıdaki komut kullanılmıştır. $Threads, kullanılan iş parçacığı sayısını (ikinin kuvvetleriyle artarak 1 ila 512) içeren değişken ve my_hosts.$Threads her iş parçacığını farklı bir düğüme tahsis eden dosyadır. Bunları 16 bilgi işlem düğümüne homojen şekilde yaymak için çevrimsel sıralı kullanılmıştır. Rastgele G/Ç kıyaslamasına benzer şekilde maksimum iş parçacığı sayısı 512 ile sınırlandırıldı çünkü 1024 iş parçacığı için yeterli çekirdek yoktu. Ayrıca bağlam değiştirme, sonuçları etkileyerek çözümün gerçek performansından daha düşük bir sayı bildirecektir.

mpirun --allow-run-as-root -np $Threads --hostfile my_hosts.$Threads --prefix /mmfs1/perftest/ompi --mca btl_openib_allow_ib 1 /mmfs1/perftest/lanl_ior/bin/mdtest -v -d /mmfs1/perftest/ -i 1 -b $Directories -z 1 -L -I 1024 -y -u -t -F -w 4K -e 4K

Performans sonuçları toplam IOP sayısından, dizin başına dosya sayısından ve iş parçacığı sayısından etkilenebileceğinden, toplam dosya sayısının 2 MiB dosyada (2^21 = 2097152), dizin başına dosya sayısının 1024'te sabit tutulmasına karar verilmiştir ve Tablo 3'te gösterildiği üzere iş parçacığı sayısı değiştikçe dizin sayısı da değişmiştir.

Tablo 3 MDtest Dosyaların dizinlere dağılımı

İş Parçacığı sayısı

İş parçacığı başına dizin sayısı

Toplam dosya sayısı

1

2048

2.097.152

2

1024

2.097.152

4

512

2.097.152

8

256

2.097.152

16

128

2.097.152

32

64

2.097.152

64

32

2.097.152

128

16

2.097.152

256

8

2.097.152

512

4

2.097.152

 

SLN321889_en_US__5image005(5)

Şekil 5 Meta Veri Performansı – 4 KiB Dosya

İlk olarak, seçilen ölçeğin 10 tabanlı logaritmik olduğuna dikkat edin. Böylece birkaç büyüklük düzeyinde farkları olan işlemlerin karşılaştırılması mümkün olacaktır. Aksi takdirde bazı işlemler doğrusal bir ölçekte 0'a yakın düz bir çizgi gibi görünecektir. İş parçacığı sayısı 2'nin kuvvetlerinde arttığı için 2 tabanlı bir logaritma grafiği daha uygun olabilirdi. Ancak grafik çok benzer görünecekti ve insanlar 10'un kuvvetlerine dayalı sayıları daha iyi işleme ve hatırlama eğilimindedir.

Sistem, daha önce bildirildiği gibi İstatistik işlemlerinin neredeyse 6,9 milyon işlem/sn. ile 64 iş parçacığında en yüksek değere ulaşmasıyla çok iyi sonuçlar almaktadır ve ardından daha yüksek iş parçacığı sayılarında azalarak bir platoya ulaşmaktadır. Oluşturma işlemleri 512 iş parçacığında maksimum 113 bin işlem/sn.ye ulaşır; bu nedenle daha fazla istemci düğümü (ve çekirdek) kullanılırsa artmaya devam etmesi beklenir. Okuma ve Kaldırma işlemleri, 128 iş parçacığında maksimum değerine ulaşarak Okuma işlemleri için neredeyse 705 bin işlem/sn. ve kaldırma işlemleri için 370 bin işlem/sn. ile zirveye ve ardından platolara ulaşmıştır. İstatistik işlemleri daha fazla değişkenliğe sahiptir. Ancak en yüksek değerlerine ulaştıklarında performans, İstatistik için 3,2 milyon işlem/sn.nin altına düşmez. Oluşturma ve Kaldırma işlemleri bir platoya ulaştığında daha istikrarlıdır ve Kaldırma için 265 bin işlem/sn.nin, Oluşturma için 113 bin işlem/sn.nin üzerinde kalır. Son olarak, okuma işlemleri 265 bin işlem/sn.nin üzerinde performansla bir platoya ulaşır.

 

Sonuç ve Gelecekteki Çalışmalar

NVMe düğümleri; iyi yoğunluk, çok yüksek rastgele erişim performansı ve çok yüksek sıralı performans ile çok yüksek performanslı bir katman sağlamak için HPC depolama çözümüne önemli bir ektir. Ayrıca daha fazla NVMe düğüm modülü eklendikçe çözüm, kapasite ve performans açısından doğrusal olarak ölçeklenir. NVMe düğümlerinin performansı Tablo 4'te özetlenmiştir. Performansın istikrarlı olması beklenmektedir ve bu değerler farklı sayıda NVMe düğümünün performansını tahmin etmek için kullanılabilir.
Ancak her NVMe düğümü çiftinin Tablo 4'te gösterilen her sayının yarısını sağlayacağını unutmayın.
Bu çözüm, HPC müşterilerine birçok İlk 500 HPC kümesi tarafından kullanılan çok güvenilir bir paralel dosya sistemi sağlar. Buna ek olarak, olağanüstü arama özellikleri, gelişmiş izleme ve yönetim sağlar. Ayrıca isteğe bağlı ağ geçitlerinin eklenmesi NFS, SMB ve benzerleri gibi her yerde bulunan standart protokoller aracılığıyla gerektiği kadar çok istemciye dosya paylaşımına izin verir.

Tablo 4: 2 Çift NVMe düğümü için En Yüksek ve Sürdürülebilir Performans

 

En Yüksek Performans

Sürdürülebilir Performans

Şunu:

Read

Şunu:

Read

Büyük Sıralı N istemciden N dosyaya

40,9 GB/sn.

84,5 GB/sn.

40 GB/sn.

81 GB/sn.

Büyük Sıralı N istemciden tek bir paylaşılan dosyaya

34,5 GB/sn.

51,6 GB/sn.

31,5 GB/sn.

50 GB/sn.

Rastgele Küçük bloklar N istemciden N dosyaya

5,06 milyon IOPS

7,31 milyon IOPS

5 milyon IOPS

7,3 milyon IOPS

Meta Veri Oluşturma 4 KiB dosyalar

113 bin IOps

113 bin IOps

Meta Veri İstatistik 4 KiB dosyalar

6,88 milyon IOps

3,2 Milyon IOps

Meta Veri Okuma 4 KiB dosyalar

705 bin IOps

500 bin IOps

Meta Veri Kaldırma 4 KiB dosyalar

370 bin IOps

265 bin IOps

 

NVMe düğümleri yalnızca veriler için kullanıldığından, gelecekteki olası çalışmalar arasında bunları veri ve meta veriler için kullanmak ve RAID denetleyicilerinin arkasındaki SAS3 SSD'lere kıyasla NVMe aygıtlarının daha yüksek bant genişliği ve daha düşük gecikme süresi sayesinde daha iyi meta veri performansı sunan bağımsız bir flash tabanlı katman oluşturmak yer alabilir. Alternatif olarak, bir müşterinin aşırı yüksek meta veri talepleri varsa ve yüksek talepli meta veri modülünün sağlayabileceğinden daha yoğun bir çözüme ihtiyaç duyuyorsa dağıtılmış RAID 10 aygıtlarının bazıları veya tamamı, ME4024'lerdeki RAID 1 aygıtlarının şu anda kullanıldığı şekilde meta veriler için kullanılabilir.
Yakında yayınlanacak başka bir blog yazısında, PixStor çözümünü NFS veya SMB protokollerini kullanarak diğer ağlara bağlamaya ve performansı ölçeklendirmeye olanak tanıyan PixStor Ağ Geçidi düğümleri tanıtılacaktır. Ayrıca çözüm çok yakında HDR100'e güncelleştirilecektir ve bu çalışma hakkında başka bir blog yazısı yayınlanması beklenmektedir.

 

Affected Products

High Performance Computing Solution Resources
Article Properties
Article Number: 000130558
Article Type: Solution
Last Modified: 21 Feb 2021
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.