Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products
  • Manage your Dell EMC sites, products, and product-level contacts using Company Administration.

AMD Rome – opravdu funguje? Architektura a počáteční výkon superpočítače

Summary: Do dnešního světa, Úvod k nejnovější generaci procesorů AMD EPYC s kódovým Římm.

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content


Symptoms

Garima Kochhar, Deepthi Cherlopalle, Joshua Weage. Inovace HPC a AI v laboratoři, říjen 2019

Cause

 

Resolution


Do dnešního světa společnosti AMD je nejnovější generace EPYC procesoruSLN319015_en_US__1iC_External_Link_BD_v1 hardly potřebovat úvod. V laboratořích HPC a AI byly během inovací na systém na bázi Řím a souborů s rozhraním v angličtině vyhodnoceny tyto poslední měsíce a nedávno oznámenéSLN319015_en_US__1iC_External_Link_BD_v1servery Dell Technologies, které tuto architekturu procesoru podporují. Tento první blog v řadě Řím bude projednávat s architekturou procesoru Řím, způsob, jakým lze optimalizovat výkon HPC a předvést počáteční výkon Micro-benchmark. Následné Blogy popíší výkon aplikace v doménách CFD, CAE, molekulárního dynamiky, simulace počasí a jiných aplikací.


 

Architektura

 

Řím je EPYC procesor AMD 2. generace, který obnovuje Naplesze 1. generace. V tomto blogu jsme probrali Naples v minulém roce.

Jeden z největších rozdílů v architektuře mezi Naples a Řím, který přináší výhody HPC nové vstupně-výstupní podkostky v Řím. V Řím je každý procesor tvořen více než 9 chiplets , jak je znázorněno na obrázku. 1. K dispozici je jedna 14nmum IO, která obsahuje všechny funkce IO a Memory – představuje řadiče paměti, nekonečná propojení prostředků infrastruktury a konektivitu mezi sokety a rozhraní PCI-e. K dispozici je osm paměťových řadičů na jeden soket, který podporuje 8 paměťových kanálů pracujících DDR4 na adrese 3200 MT/s. Server s jedním Socketem dokáže podporovat až 130 bitů Gen4 PCIe. Systém Dual-Socket dokáže podporovat až 160 PCIe Gen4 drah.

SLN319015_en_US__3Fig1 Řím (2)

(Obrázek. 1 ) balíček multi- Socket s jednou vrchní a půl "podobou Die" a doplněný na osm jader)

V okolí centrální vstupně-výstupní kostky jsou až osm 7nm Core chiplets. Základní chiplet se nazývá základní kostka cache nebo CCD. Každý CCD má jádra procesoru na základě Zen2 Micro-architektury, vyrovnávací paměti L2 a 32MB L3 cache. CCD sám má dvě složité cache komplexy (CCX), SLN319015_en_US__1iC_External_Link_BD_v1 každý CCX má až čtyři jádra a 16Mb vyrovnávací paměť L3. Obrázek. 2 znázorňuje CCX.

SLN319015_en_US__5Fig2 Řím (2)

(Obrázek. 2 a CCX se čtyřmi jádry a sdílenou 16mb vyrovnávací pamětí L3)

Různé modely procesoru ŘímSLN319015_en_US__1iC_External_Link_BD_v1 mají různý počet jader,SLN319015_en_US__1iC_External_Link_BD_v1 ale všechny mají jednu hlavní kostku.

Na horním konci je model procesoru 64 Core, například EPYC 7702. lstopo výstup ukazuje, že tento procesor má 16 CCXs na jeden soket, každý CCX má čtyři jádra, jak je znázorněno na obrázku. 3 & 4, čímž je započítáno 64 jader na jeden soket. 16MB L3 na CCX, například 32MB L3 za CCD, poskytuje tomuto procesoru celkovou 256MB vyrovnávací paměť L3. Upozorňujeme však, že celková vyrovnávací paměť L3 v Řím není sdílena všemi jádry. Mezipaměť 16MB L3 v každém CCX je nezávislá a je sdílena pouze jádry v CCX, jak je znázorněno na obrázku. 2.

Dvoujádrový procesor, jako je například EPYC 7402, má 128MB vyrovnávací paměť L3. lstopo výstup č. 3 & 4 ukazuje, že tento model má tři jádra na CCX a 8 CCX na jeden soket.

SLN319015_en_US__8Fig31 Řím (2)

SLN319015_en_US__9Fig32 Řím (2)

(Obrázek: 3 & 4 výstup lstopo pro procesory 64 a na 24 procesorech)

Bez ohledu na počet CCDsů se každý procesor Řím logicky dělí na čtyři kvadranty a CCDs distribuuje v jednotlivých kvadrantech tak, jak je to možné, a dva paměťové kanály. Hlavní kostku v/v se může považovat za logickou podporu čtyř kvadrantů v patici.


Zpět na začátek

 

 

Možnosti systému BIOS založené na architektuře Řím

 

Centrální kostka v římském období pomáhá zvýšit latenci pamětiSLN319015_en_US__1iC_External_Link_BD_v1 nad těmi, které se naměří v Naples. Navíc umožňuje konfigurovat procesor jako jednu doménu NUMA, která povoluje přístup ke všem jádrům v patici. To je vysvětleno níže.

Čtyři logické kvadranty v procesoru Řím umožňují rozdělit procesor do různých domén NUMA. Toto nastavení se nazývá NUMA na soket nebo Server NPS.

  • NPS1 předpokládá, že procesor Řím je jediná doména NUMA, se všemi jádry v dané patici a pamětí v této jedné doméně NUMA. Paměť je prokládaný v rámci osmi paměťových kanálů. Tato jediná doména NUMA náleží ke všem zařízením PCIe na soketu.
  • NPS2 rozdělí procesor do dvou domén NUMA, s polovičními jádry a polovičními paměťovými kanály na soketu v jednotlivých doménách NUMA. Paměť je prokládaný v rámci čtyř paměťových kanálů v jednotlivých doménách NUMA.
  • NPS4 rozdělí procesor do čtyř domén NUMA. Každý kvadrant je zde doména NUMA a paměť je prokládaný v jednotlivých kvadrantech v rámci obou paměťových kanálů. Zařízení PCIe se budou na jedné ze čtyř domén NUMA na soketu nacházet v závislosti na tom, která z kvadrantové podsítě má pro dané zařízení kořenovou podsadu PCIe.
  • Ne všechny procesory mohou podporovat všechna nastavení serveru NPS.

V případě, že je k dispozici, je doporučeno NPS4 pro HPC, protože očekává se, že je nejvhodnější propustnost paměti, nejnižší latence paměti a naše aplikace mohou být schopny s podporou NUMA. Kde NPS4 není k dispozici, doporučujeme, aby nejvyšší server NPS byl podporován modelem procesoru – NPS2, nebo dokonce NPS1.

Vzhledem k množství možností NUMA, které jsou k dispozici na platformách založených na Římích, systém PowerEdge BIOS umožňuje dvě různé metody výčtu jádra v rámci výčtu MADT. Čísla lineárních výčtů jsou jádra v pořadí, vyplní jedna CCX, CCD, Socket před přemístěním na další Socket. V 32c procesoru budou jádra 0 až 31 na prvním soketu, jádrům 32-63 na druhé patici. Kruhové dotazování čísluje výčet jader v oblastech NUMA. V takovém případě se budou sudé číslované jádra na prvním soketu, v jádře s lichými čísly na druhé patici. V zájmu jednoduchosti doporučujeme lineární výčet HPC. Obrázek 5 představuje příklad lineárního základního výčtu na serveru 64C se dvěma patici konfigurovaných v NPS4. V obrázku je každé okno čtyř jader CCX, každý soubor souvislých osmi jader je CCD.

SLN319015_en_US__11Fig4 Řím (2)

(Obrázek. 5 lineární základní výčet na duálním systému, 64C na soket, konfigurace NPS4 na 8 CCD modelu procesoru)

Další možnost systému BIOS pro systém Řím je nazývána upřednostňovaná vstupně-výstupní zařízení. Toto je důležitý optimalizační knoflík pro InfiniBand šířku pásma a rychlost zpráv. Umožňuje platformě upřednostnit provoz u jednoho vstupně-výstupního zařízení. Tato možnost je k dispozici na jedné patici, stejně jako na platformy se dvěma sockety, a zařízení InfiniBand v dané platformě musí být vybráno jako preferované zařízení v nabídce BIOS, aby bylo možné dosáhnout plné míry zpráv, když jsou všechny jádra procesoru aktivní.

Podobně jako Naples, Řím podporuje také technologii Hyper-Threading nebo logický procesor. V případě HPC nechte tuto možnost zakázanou, ale některé aplikace mohou využít výhod povolení logického procesoru. Podívejte se na naše následné Blogy na studie aplikací molekulárního dynamiky.

Podobně jako Naples, Řím také umožňuje CCX jako doménu NUMA. Tato možnost zpřístupňuje každý CCX jako uzel NUMA. V systému s procesory dual-Socket s 16 CCXs na procesor, bude toto nastavení vystavovat 32 domén NUMA. V tomto příkladu má každý patici 8 CCDs, tj. 16 CCX. Každý CCX může být povoleno jako vlastní doména NUMA, poskytuje 16 uzlů NUMA na jeden soket a 32 v systému se dvěma patici. V případě HPC doporučujeme ponechat CCX jako doménu NUMA ve výchozí možnosti disabled (zakázáno). Povolení této možnosti by mělo pomoci virtualizovaným prostředím.

Podobně jako Naples, Řím umožňuje nastavit systém v režimu Performance determinism nebo Power determinism . V determinism výkonusystém pracuje s očekávanou frekvencí pro model procesoru snižující rozptyl napříč více servery. V determinism napájenísystém pracuje s maximálním DOSTUPNÝm TDPm modelu procesoru. Tento nástroj je součástí výrobního procesu, takže některé servery mohou být rychlejší než jiné. Všechny servery mohou spotřebovat maximální jmenovitý výkon procesoru, což vede k tomu, že spotřeba energie je deterministický, ale umožňuje určitou výkonnost v rámci několika serverů.

V případě, že očekáváte od platforem PowerEdge, systém BIOS má možnost meta s názvem Profil systému. Když vyberete profil optimalizovaného systému, povolíte režim Turbo zesílení, vypnete C-státy a nastavíte posuvník determinism na determinism, optimalizace pro výkon.


Zpět na začátek

 

 

Výsledky výkonu – STREAMování, HPL, InfiniBand, mikrobenchmarks

 

Mnoho čtenářů by mohlo mít v tomto oddílu přímý přenechání, takže jsme přehledi napravo.

V testovací laboratoři HPC a AI jsme zavedli 64-Server s clustery na bázi Řím, který zavoláme Minerva. Kromě homogenního Minerva clusteru jsme dokázali hodnotit několik dalších ukázek procesoru Řím. Naše testbed je popsána v tabulce 1 a v tabulce. 2.

(Stůl. 1 Řím, modely procesoru hodnoceny v této studii)

CPU Jádra na soket Config Základní hodiny TDP
7702 64c 4C na CCX 2,0 GHz 200w
7502 32c 4C na CCX 2,5 GHz 180 W
7452 32c 4C na CCX 2,35 GHz 155W
7402 24c 3C na CCX 2,8 GHz 180 W

(Stůl. 2 testbed)

Komponenta Podrobnosti
Server PowerEdge C6525
Procesor Jak je uvedeno v tabulce. 1 Dual-Socket
Paměť 256 GB, 16x16GB 3200 MT/s DDR4
Interconnect ConnectX-6 Mellanox INFINI Band HDR100
Operační systém Red Hat Enterprise Linux 7.6
Jádro 3.10.0.957.27.2.e17.x86_64
Disku disk SSD 240 GB SATA M. 2


Zpět na začátek

 

 

Proudu

 

Na Řím jsou znázorněny testy šířky pásma paměti. 6, tyto testy byly spuštěny v režimu NPS4. Zaznamenali jsme 270-300 GB/s propustnost paměti na našem dvoupaticový PowerEdge C6525, když používáte všechny jádra na serveru v rámci čtyř modelů procesoru uvedených v tabulce. 1. Když je pro každý CCX použit pouze jeden jader, Šířka pásma systémové paměti je ~ 9-17% vyšší, než je to měřeno se všemi jádry.

Většina pracovních úloh HPC zcela zaregistruje všechny jádra v systému nebo centra HPC provedená v režimu s velkým propustnostem s několika úlohami na každém serveru. Tedy šířka pásma paměti All-Core je přesnější znázorněním možností systému propustnost paměti a propustnosti paměti.

Obrázek: 6 znázorňuje také šířku pásma paměti měřenou na předchozí generaci EPYC Naples platformy, která také podporuje osm paměťových kanálů na soket, ale je provozována při 2667 MT/s. Špičková platforma poskytuje 5% až 19% lepší celkovou šířku pásma paměti než Naples a to je převážně vzhledem k rychlejší paměti 3200 MT/s. Systém Řím může v případě 64C na soketu dosáhnout až 2 GB/s/jádra nahoru.

SLN319015_en_US__12icon Poznámka: Výkonnostní odchylka 5-10% v toku dat světel Triad byla měřena v rámci několika shodně konfigurovaných serverů založených na systému Řím, proto by měly být považovány za horní konec rozsahu.
 

V porovnání s odlišnou konfigurací serveru NPS byla měřena šířka pásma vyšší šířky paměti NPS4 ve srovnání s NPS1, jak ukazuje obrázek. 7.

SLN319015_en_US__13Fig5 Řím (2)

(Obrázek. 6 Dual-Socket NPS4 Stream světel Triad propustnost paměti)

SLN319015_en_US__14Fig6 Řím (2)

(Obrázek 7 propustnost paměti NPS1 vs NPS2 vs server NPS)


Zpět na začátek

 

 

InfiniBand šířka pásma a míra zpráv

 

Obrázek. 8 znázorňuje jednoduchou InfiniBand šířku pásma pro jednosměrné a obousměrné testy. Testbed používaný HDR100 běžet na 100 GB/s a graf ukazuje očekávaný výkon přenosové rychlosti pro tyto testy.

SLN319015_en_US__15fig6-IBBW (2)

Obrázek: 8 šířka pásma InfiniBand (jeden jader))

SLN319015_en_US__16fig7-MR (2)

Obrázek: 9 InfiniBand rychlost zpráv (všechny jádra))

Testy míry zpráv byly provedeny při použití všech jader na soketu na obou serverech v rámci testu. Když je v systému BIOS povolena preferovaná vstupně-výstupní operace a je-li adaptér ConnectX-6 HDR100 nastaven jako preferovaný, je míra zpráv s jádrem výrazně vyšší než v případě, kdy preferovaná vstupně-výstupní technologie není povolena, jak ukazuje obrázek. 9. To ukazuje důležitost této možnosti systému BIOS při ladění HPC, a to zejména v případě škálovatelnosti aplikací s více uzly.


Zpět na začátek

 

 

HPL

 

Špičková mikroarchitektura může obcházet z 16 DP/cyklů, dvojnásobná Naples, což je 8 čelních a cyklů. To zadává Řím, který je teoretickou Naples, 2x od vylepšené schopnosti s plovoucí řádovou čárkou a dvojnásobně od dvojnásobku počtu jader (64C vs 32c). Obrázek: 10 znázorňuje měřené výsledky HPL pro čtyři modely procesoru Řím, které jsme zkoušeli, společně s předchozími výsledky ze systému založeného na Naplesi. Efektivita HPL Řím je uvedena jako procentuální hodnota nad lištami grafu a je vyšší pro nižší TDP modely procesoru.

Testy byly spuštěny v režimu napájení determinism a na ~ 5% Delta ve výkonu byla měřena v rámci 64 identicky konfigurovaných serverů, výsledky jsou tedy v tomto výkonnostním pásmu.

SLN319015_en_US__17Fig9 Řím (2)

(Obrázek: 10 Single server HPL v NPS4)

Byly provedeny nové testy HPL s více uzly a výsledky jsou uvedeny na obrázku. 11. HPL efektivnosti pro EPYC 7452 zůstává nad 90% na škále 64, ale ve zvýšení efektivity od 102% na 97% a na 99 je třeba provést další vyhodnocení.

SLN319015_en_US__18Fig10 Řím (2)

(Obrázek. 11 multi-node HPL, Dual-socket EPYC 7452 nad HDR100 InfiniBand)


Zpět na začátek

 

 

Shrnutí a co přichází do dalšího

 

Počáteční výkonnostní studie na serverech na bázi Řím zobrazují očekávaný výkon pro naši první sadu srovnávacích testů HPC. Optimalizace systému BIOS je důležitá při konfiguraci pro dosažení optimálního výkonu a možnosti ladění jsou k dispozici v profilu pracovního zatížení systému BIOS HPC, který lze konfigurovat ve výrobě nebo nastavit pomocí nástrojů pro správu systémů Dell EMC.

Laboratoře HPC a AI v laboratoři obsahují novou Minervaclusteru PowerEdge s procesorem Řím 64. Podívejte se na tento prostor pro následné Blogy, které popisují výkonové studie aplikací našeho nového clusteru Minerva.


Zpět na začátek

 

Article Properties


Last Published Date

06 May 2021

Version

5

Article Type

Solution