Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products
  • Manage your Dell EMC sites, products, and product-level contacts using Company Administration.

AMD Rome: Gerçek mi? Mimari ve başlangıç HPC performansı (İngilizce)

Summary: Günümüzde HPC World 'de, AMD 'nin en son nesil EPYC işlemci kodu-adlandırılmış Roma 'ye giriş.

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content


Symptoms

Garıma Kochhar, derin Thi Cherlopalle, Joshua Weage. HPC ve AI Yenilik Laboratuarı, Ekim 2019

Cause

 

Resolution


Günümüzde HPC dünyada, AMD 'nin en son nesil Epyc işlemciSLN319015_en_US__1iC_External_Link_BD_v1 kodu-Adlandırılmış Roma donanımı için bir giriş gerekiyor. HPC ve AI İnovasyon laboratuvarında bu son birkaç ayda ve Dell Technologies 'inSLN319015_en_US__1iC_External_Link_BD_v1 Bu işlemci mimarisini destekleyensunucular için değerlendirdik. Roma serisindeki ilk blog, Roma işlemci mimarisini tartışacaktır; bu, HPC performansı için nasıl ayarlanabilir ve ilk Micro-kıyaslama performansını sunabilir. Sonraki bloglarda CFD, CAE, molesel Dynamics, hava durumu simülasyonu ve diğer uygulamaların etki alanları arasında uygulama performansı açıklanmaktadır.


 

Mimari

 

Roma, 1. nesil Naples'yi YENILEYEREK, AMD 'nin 2. nesil EPYC CPU 'dür. Bu blogda geçen yılın nizlerini ele aldık.

Naples ve Roma arasındaki en büyük mimari farklardan biri, daha fazla Roma olan yeni GÇ zar. Roma 'de her işlemci, şekil. 1 ' de gösterilen 9 chiplets ' a kadar bir çok yonga paketidir. Tüm ıO ve bellek işlevlerini içeren merkezi bir 14nm ıO zar mevcuttur – bellek denetleyicilerini, soket ve Inter-soket bağlantı dahilindeki sonsuz yapı bağlantılarını ve PCI-e 'yi içerir. 3200 MT/sn 'de DDR4 çalıştıran sekiz bellek kanalını destekleyen soketlik, Soket başına sekiz bellek denetleyicisi vardır. Tek soketli bir sunucu, 130 PCIe Gen4 yollarını destekleyebilir. Çift Soketli bir sistem, 160 PCIe Gen4 yollarını destekleyebilir.

SLN319015_en_US__3Fig1-Roma (2)

(Şekil 1 , bir adet merkezi GÇ zar ve en fazla sekiz çekirdekli birden çok yonga paketi)

Central ıO zar, sekiz adede kadar 7 Nm Core chiplets. Core chiplet, çekirdek önbellek zar veya CCD olarak adlandırılır. Her bir CCD, Zen2 Micro-Architecture, L2 önbellek ve 32MB L3 önbelleğine dayalı CPU çekirdeklerini içerir. CCD 'de Iki çekirdekli önbellek (CCX) bulunur, SLN319015_en_US__1iC_External_Link_BD_v1 her CCX dört çekirdeğe ve 16 MB 'a kadar L3 önbellek içerir. Şekil. 2 bir CCX göstermektedir.

SLN319015_en_US__5Fig2-Roma (2)

(Þekil. 2 bir adet çekirdek ve paylaşımlı 16mb L3 önbellek içeren CCX)

Farklı Roma CPU modelleriSLN319015_en_US__1iC_External_Link_BD_v1 farklı sayıda çekirdeğe sahiptir,SLN319015_en_US__1iC_External_Link_BD_v1 ancak hepsi bir adet merkezi IO zar.

Üst uçta 64 çekirdekli bir CPU modeli olup, örneğin EPYC 7702. lstopo çıkışı bize bu işlemcinin Soket başına 16 CCXs olduğunu göstermektedir. her CCX, şekil için gösterildiği gibi dört çekirdeğe sahiptir. 3 & 4, bu nedenle Soket başına 64 çekirdek. CCX başına 16MB L3; CCD başına 32MB L3, bu işlemciye toplam 256MB L3 önbellek sağlar. Ancak, Roma 'deki toplam L3 önbellek tüm çekirdekler tarafından paylaşılmaz. Her bir CCX 'deki 16. L3 önbellek bağımsızdır ve yalnızca CCX içindeki çekirdekler şekil. 2 ' de gösterildiği gibi paylaşılır.

EPYC 7402 gibi 24 çekirdekli bir CPU 128 MB L3 önbellek içerir. lstopo çıkışı, şekil. 3 & 4, bu modelin CCX başına üç çekirdeğe ve Soket başına 8 CCX 'e sahip olduğunu göstermektedir.

SLN319015_en_US__8Fig31-Roma (2)

SLN319015_en_US__9Fig32-Roma (2)

(64 çekirdekli ve 24 çekirdekli CPU 'Lar içinŞekil 3 & 4 lstopo çıkışı)

CCD 'lerin sayısı dikkate alınmaz ve her bir Roma işlemcisi, çeyrek rants içinde, her bir Çeyrekli iki bellek kanalı ile eşit olarak dağıtılan dört çeyrek metreye mantıksal olarak bölünmüştür. Orta GÇ zar, yuvanın dört çeyrek rants 'yi mantıksal olarak desteklerken düşünülebilir.


Başa Dön

 

 

Roma mimarisine dayalı BIOS seçenekleri

 

Roma 'deki merkezi GÇ zar, Naples 'de ölçüldüğü bellek gecikmelerinin artırılmasına olanak sağlar SLN319015_en_US__1iC_External_Link_BD_v1 . Buna ek olarak, CPU 'nun soketteki tüm çekirdekler için Tekdüzen bellek erişimini olanaklı hale getirerek tek bir NUMA etki alanı olarak yapılandırılmasına olanak tanır. Bu, aşağıda açıklanmaktadır.

Bir Roma işlemcisindeki dört adet mantıksal çeyrek dairelerin CPU 'nun farklı NUMA etki alanlarında bölümlenmesi için olanak sağlar. Bu ayar, soket ya da NPSbaşına NUMA olarak adlandırılır.

  • NPS1, soketteki tüm çekirdekler ve bu bir NUMA etki alanındaki tüm bellekleri içeren, Roma CPU 'nun tek bir NUMA etki alanı olduğu anlamına gelir. Bellek, sekiz bellek kanalında araya eklemeli. Soketdeki tüm PCIe cihazları bu tek NUMA ana alanına aittir
  • NPS2, çekirdekleri iki NUMA etki alanına ve her bir NUMA etki alanındaki soketteki bellek kanallarının yarısını bölümlere ayırın. Her bir NUMA etki alanındaki dört bellek kanalında bellek bir araya eklemeli
  • NPS4, CPU 'YU dört NUMA etki alanına göre bölümlere ayrılır. Her çeyrek, burada bir NUMA etki alanıdır ve bellek, her Çeyrekli iki bellek kanalı arasında araya eklemeli. PCIe aygıtları, GÇ 'nin o aygıt için PCIe kökünün sahip olduğu çeyreğine bağlı olarak soketdeki dört NUMA etki alanından birinde yerel olacak.
  • Tüm CPU 'Lar tüm NPS ayarlarını desteklemeyebilir

Mümkün olan yerlerde NPS4, en iyi bellek bant genişliğini, en düşük bellek gecikmelerinin sağlanması beklenirken ve uygulamalarımız NUMA-Aware olarak eğildiğinden dolayı HPC için tavsiye edilir. NPS4, CPU model-NPS2 veya hatta NPS1 tarafından desteklenen en yüksek NPS 'YI kullanmanızı öneririz.

Roma tabanlı platformlarda kullanılabilen çok sayıda NUMA seçeneği söz konusu olduğunda PowerEdge BIOS 'u, Madi numaralandırmasıaltında iki farklı çekirdek numaralandırma yöntemine olanak tanır. Doğrusal numaralandırma, bir CCX, CCD ve bir sonraki sokete geçmeden önce bir yuva doldurma sırasıyla çekirdekler. Bir 32c CPU 'da, 0 ' dan 31 ' ye kadar olan çekirdekler, ikinci yuvadaki çekirdek 32-63 birinci yuvada yer alır. Hepsini birer kez deneme numaralandırması NUMA bölgeleri boyunca çekirdekleri numaralar. Bu durumda, Çift numaralı çekirdek, ikinci yuvada ilk soket, tek sayılı çekirdekler üzerinde olacaktır. Basitlik için, HPC için doğrusal bir numaralandırma önerilir. NPS4 'te yapılandırılmış Çift Soketli bir 64C sunucusunda doğrusal bir temel numaralandırma örneği için şekil. 5 ' i inceleyin. Şekilde, dört çekirdeğin her kutusu bir CCX olup, her bir bitişik sekiz çekirdek, bir CCD ' dir.

SLN319015_en_US__11Fig4-Roma (2)

(Þekil. 5 bir çift soketli sistemde, 64C başına, yuva başına 64C, 8 CCD CPU modelindeki NPS4 yapılandırması)

Başka bir Roma özel BIOS seçeneği tercih EDILEN IO aygıtıolarak adlandırılır. Bu, InfiniBand bant genişliği ve mesaj oranı için önemli bir ayarlama düğmesi. Bu, platformun bir GÇ cihazı için trafiğe öncelik verebilmenizi sağlar. Bu seçenek, tek bir sokette ve iki soketli Roma platformlarında ve tüm CPU çekirdekler etkin olduğunda tam mesajı elde etmek için platformda tercih edilen bir aygıt olarak seçilmiş olmalıdır.

Naples 'ye benzer şekilde, Roma Ayrıca hiper iş parçacıklı veya mantıksal işlemciyida destekler. HPC için bunu devre dışı bıraktık ancak bazı uygulamalar mantıksal işlemciyi etkinleştirmenin avantajlarından yararlanabilir. Molesel Dynamics uygulama incelemelerimizle ilgili sonraki Bloglarımızı arayın.

Naples 'ye benzer şekilde, Roma Ayrıca CCX 'ı NUMA etki alanı olarakda sağlar. Bu seçenek, her CCX 'i bir NUMA düğümü olarak sunar. CPU başına 16 CCXs 'e sahip Çift Soketli CPU 'Lar içeren bir sistemde bu ayar 32 NUMA etki alanı açar. Bu örnekte, her bir yuvada 8 CCD vardır, yani 16 CCX. Her bir CCX, kendi NUMA etki alanı olarak etkinleştirilebilir ve iki soketli bir sistemde Soket başına 16 NUMA düğümü ve 32 verir. HPC için, CCX 'ı NUMA etki alanı olarak varsayılan seçeneği devre dışıolarak bırakmanızı öneririz. Bu seçeneğin etkinleştirilmesi, sanallaştırılmış ortamlara yardımcı olmak için beklenir.

Naples 'ye benzer şekilde, Roma, sistemin performans açısından veya Güç kaynağı tarafından belirlenme modunda ayarlanmasını sağlar. Performans Determinizliğibölümünde, sistem, birden çok sunucuda CPU modeli farklılıklarına ilişkin beklenen frekanda çalışır. Güç Determinizesi' nde, SISTEM, CPU modelinin mevcut maksimum TDP 'si üzerinde çalışır. Bu, bazı sunucuların diğerlerinden daha hızlı olmasını sağlayarak, üretim sürecindeki parça çeşitlemesini Güçbir olarak artırır. Tüm sunucular CPU 'nun en yüksek gücünü tüketebilir, güç tüketimini yerine getirir, ancak birden fazla sunucuda bazı performans çeşitliliklerine olanak sağlar.

PowerEdge platformlarından beklediğiniz gibi, BIOS 'TA sistem profiliadı verilen bir meta seçeneği vardır. Performans için optimize edilmiş sistem profilinin seçilmesi Turbo Boost modunu etkinleştirir, C-durumlarını devre dışı bırakır ve determinronizma kaydırıcısını güç kuvvetine, performans için optimize olacak şekilde ayarlayın.


Başa Dön

 

 

Performans sonuçları-STREAM, HPL, InfiniBand microkıyaslamalar

 

Okuyucularımızın birçoğu bu bölüme düz bir şekilde atlamış olabilir. bu nedenle hemen ' de kararız.

HPC ve AI İnovasyon laboratuvarında, Minerva'ı çağırdığımız 64-sunucu Roma tabanlı bir küme inşa ettik. Hogenou Minerva kümesine ek olarak değerlendirilediğimiz birkaç başka Roma CPU örneği var. Testimiz tablo. 1 ve tablo. 2 ' de açıklanmaktadır.

(Bu çalışma sırasında hesaplanantablo. 1 Roma CPU modelleri)

CPU Soket başına çekirdek CONFIG Temel saat TDP
7702 64C CCX başına 4c 2,0 GHz 200 W
7502 32c CCX başına 4c 2,5 GHz 180 W
7452 32c CCX başına 4c 2,35 GHz 155W
7402 24c CCX başına 3c 2,8 GHz 180 W

(Tablo. 2. ve test)

Bileşen Ayrıntılar
Sunucu PowerEdge C6525
İşlemci Tabloda gösterildiği gibi. 1 Çift Soketli
Bellek 256 GB, 16x16GB 3200 MT/s DDR4
Interconnect ConnectX-6 Mellanox Infıni bandı HDR100
İşletim Sistemi Red Hat Enterprise Linux 7.6
Kernel 3.10.0.957.27.2.e17.x86_64
Disketi 240 GB SATA SSD M. 2 modülü


Başa Dön

 

 

AKıŞıNDA

 

Roma üzerindeki bellek bant genişliği testleri şekil. 6 ' da sunulur. Bu sınamalar NPS4 modda çalıştırıledilmiştir. Sunucudaki tüm çekirdekleri tablo. 1 ' de listelenen dört CPU modelinde kullanırken, Çift Soketli PowerEdge C6525 üzerinde ~ 270-300 GB/s bellek bant genişliği ölçülmüştür. CCX başına yalnızca bir çekirdek kullanıldığında sistem belleği bant genişliği, tüm çekirdeklerle ölçülmüş olandan% 9-17 daha yüksek olur.

Çoğu HPC iş yükleri, sistemdeki tüm çekirdeklere tamamen abone olur ya da HPC merkezleri, her bir sunucuda birden fazla iş ile yüksek iş hacmi modunda çalışır. Bu nedenle, tümüyle çekirdek bellek bant genişliği, sistemin temel başına bellek bant genişliği ve bellek bant genişliği için daha doğru bir gösterimidir.

Şekil. 6 Ayrıca, önceki nesil EPYC Naples platformu üzerinde ölçülen bellek bant genişliğini çizer, bu da Soket başına sekiz bellek kanalı da destekler, bu da 2667 MT/s 'de çalışır. Roma platformu, Naples 'den %5-%19 daha iyi toplam bellek bant genişliği sağlar ve bu, daha hızlı 3200 MT/s belleğinden dolayı predominantly. Soket başına 64C ile dahi, Roma sistemi 2 GB/s/Core 'dan yukarı doğru sunabilir.

SLN319015_en_US__12icon Not: AKıŞ Triad sonuçlarında bir% 5-10 performans çeşitlemesi, birden fazla yapılandırılmış Roma tabanlı sunucuda ölçülmüştür, aşağıdaki sonuçlar, bu nedenle aralığın üst ucunda olduğu varsayılır.
 

Farklı NPS yapılandırmasını karşılaştıran, # %13 daha yüksek bellek bant genişliği, ekil. 7 ' de gösterildiği gibi NPS1 ile karşılaştırılan NPS4 ile ölçülmüştür.

SLN319015_en_US__13Fig5-Roma (2)

(Þekil. 6 ÇIFT SOKETLI NPS4 Stream Triad bellek bant genişliği)

SLN319015_en_US__14Fig6-Roma (2)

(Şekil. 7 NPS1 vs NPS2-NPS 4 bellek bant genişliği)


Başa Dön

 

 

InfiniBand bant genişliği ve mesaj oranı

 

Şekil. 8, tek yönlü ve iki yönlü testler için tek çekirdekli InfiniBand bant genişliğini çizer. Testyatak, 100 Gbps 'de çalışan HDR100 'ı kullanmış ve grafik bu testler için beklenen satır hızı performansını göstermektedir.

SLN319015_en_US__15fig6-IBBW (2)

Şekil. 8 InfiniBand bant genişliği (tek çekirdekli))

SLN319015_en_US__16fig7-MR (2)

Şekil. 9 InfiniBand mesaj oranı (tüm çekirdekler))

Message Rate testleri, test altındaki iki sunucuda bulunan bir soketteki tüm çekirdekleri kullanarak daha sonra yapılmıştır. BIOS 'ta tercih edilen GÇ etkinleştirildiğinde ve ConnectX-6 HDR100 adaptörü tercih edilen aygıt olarak yapılandırıldığında, tümüyle çekirdek mesaj oranı, tercih edilen ıO 'nun şekil. 9 ' da gösterildiği gibi etkinleştirilmediği zamankinden çok daha yüksektir. Bu seçenek, HPC için ayarlama yapılırken ve özellikle birden fazla düğüm uygulama ölçeklenebilirliği için bu BIOS seçeneğinin önemini göstermektedir.


Başa Dön

 

 

HPL

 

Roma Micro-mimarisi, 16 DP FLOP/döngüsünü devre dışı bırakma, 8 kat/döngüye sahip olan Naples 'LERI ikiye kattakatabilirler. Bu, teorik olarak teorik olarak teorik en üst kat kapağlarına, gelişmiş kayan nokta özelliğinden 2 ve iki çekirdek sayısının (64C-32c) üzerinde olan 2. Şekil. 10, test ettiğiniz dört Roma CPU modeli için ölçülen HPL sonuçlarını, Naples tabanlı bir sistemden önceki sonuçlarımızla birlikte çizer. Roma HPL verimliliği Grafikteki çubukların üzerinde yüzde değeri olarak belirtilmiştir ve daha düşük TDP CPU modelleri için daha yüksek bir değerdir.

Testler güç Determinizi modunda çalıştırıldı ve performans için %5 Delta 64 özdeş olarak yapılandırılmış sunucular arasında ölçülmüştür, buradaki sonuçlar bu performans bandı içinde yer alabilmektedir.

SLN319015_en_US__17Fig9-Roma (2)

(NPS4 'deşekil. 10 adet tek sunucu HPL)

Sonraki çok düğümlü HPL testleri yürütüldü ve bu sonuçlar şekil. 11 ' de çizilir. EPYC 7452 için HPL verimliliği, 64 düğümlü bir ölçekte %90 ' den fazla kalır ancak %102 ' den %97 ' ye kadar verimlilik sağlar ve daha fazla değerlendirme için %99 ' a geri döner.

SLN319015_en_US__18Fig10-Roma (2)

(Şekil. 11 çoklu düğüm HPL, Çift Soketli EPYC 7452 Over HDR100 InfiniBand)


Başa Dön

 

 

Özet ve sonraki gelecek

 

Roma tabanlı sunucularda ilk performans çalışmaları, ilk HPC karşılaştırmalı test setimiz için beklenen performansı göstermektedir. BIOS ayarları en iyi performans için yapılandırılırken önemlidir ve Dell EMC Systems Management Utilities kullanılarak fabrikada yapılandırılabilen BIOS HPC iş yükü profilinde kullanılabilir.

HPC ve AI yenilik laboratuvarında yeni bir 64-sunucu Roma tabanlı bir PowerEdge küme Minervabulunur. Yeni Minerva kümenizdeki uygulama performansı incelemelerini açıklayan sonraki Bloglar için bu alanı izleyin.


Başa Dön

 

Article Properties


Last Published Date

06 May 2021

Version

5

Article Type

Solution