Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products
  • Manage your Dell EMC sites, products, and product-level contacts using Company Administration.

AMD ROME — czy to prawda? Architektura i wstępna wydajność HPC

Summary: W świecie HPC dziś wprowadzenie do najnowszego kodu procesora EPYC generacji firmy AMD — nazwa rzymski.

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content


Symptoms

Garima Kochhar, Deepthi Cherlopalle, Joshua Weage. Laboratorium innowacji HPC i AI z października 2019

Cause

 

Resolution


HPC w świecie dzisiejszym, Najnowsza generacja EPYC (kod procesora firmy AMD) SLN319015_en_US__1iC_External_Link_BD_v1 — nazwa rzymski wymaga wprowadzenia do firmy. Przeprowadzono ocenę systemów opartych na rzymch w laboratorium innowacji HPC i AI w ciągu ostatnich kilku miesięcy i Dell Technologies ostatnio zapowiedzianeSLN319015_en_US__1iC_External_Link_BD_v1serwery obsługujące tę architekturę procesora. Pierwszy blog w serii rzymskiej zawiera informacje na temat architektury procesora rzymskiej, jak można ją dostroić w celu wykonania HPC wydajności oraz przedstawienia wstępnej wysokiej wydajności. Kolejne Blogi opisują wydajność aplikacji w domenach CFD, CAE, Dynamic cząsteczk, symulację pogody oraz inne aplikacje.


 

Architektura

 

Rzym jest to procesor AMD drugiej generacji EPYC, odświeżanie Naplespierwszej generacji. W zeszłym roku dyskutowano Naples w tym blogu .

Jedną z największych różnic architektury między Naples a Rzym, które są związane z HPC jest nowym działaniem we/wy w Rzymie. W Rzymie każdy procesor jest pakietem Multi-chipowym składającym się z maksymalnie 9 chiplets , jak pokazano na rysunku. 1. Istnieje jeden centralny moduł wejścia/wyjścia 14nm, zawierający wszystkie funkcje wejścia/wyjścia (IO-i Memory) — kontrolery pamięci, połączenia sieci szkieletowej nieskończoności w gnieździe i łączność między gniazdami oraz PCI-e. Na gnieździe znajdują się osiem kontrolerów pamięci, które obsługują osiem kanałów pamięci, na których uruchomiono DDR4 o 3200 MT/s. Serwer z jednym procesorem może obsłużyć do 130 PCIe torów Gen4. System z dwoma gniazdami może obsłużyć do 160 PCIe torów Gen4.

SLN319015_en_US__3Fig1-Rzym (2)

(Rysunek 1 - Rzym , z jedną jednostką i jedną centralą we/wy i do ośmiu rdzeni)

Otoczenie głównej Die we/wy ma do ośmiu 7nm Core chiplets. Rdzeń chiplet jest nazywany podstawową pamięcią podręczną Die lub CCD. Każdy CCD ma rdzenie procesora w zależności od Zen2 Micro-Architecture, pamięci podręcznej L2 i pamięci podręcznej L3 32MB L3. Samo CCD składa się z dwóch rdzeni pamięci podręcznej (CCX), SLN319015_en_US__1iC_External_Link_BD_v1 każdy CCX ma do czterech rdzeni i 16 MB pamięci podręcznej L3. Ilustracja. 2 przedstawia CCX.

SLN319015_en_US__5Fig2-Rzym (2)

(Rysunek 2 a CCX z czterema rdzeniami i udostępnionymi MB pamięci podręcznej L3)

Różne modele procesora rzymskiegoSLN319015_en_US__1iC_External_Link_BD_v1 mają różne liczby rdzeni,SLN319015_en_US__1iC_External_Link_BD_v1 ale wszystkie mają jedną centralną operację we/wy.

W górnej części programu znajduje się model procesora 64, na przykład EPYC 7702. lstopo Output (dane wyjściowe) pokazuje nam, że procesor ma 16 CCXs na gniazdo. Każdy CCX ma cztery rdzenie, jak pokazano na rysunku. 3 & 4, co daje 64 rdzenie na gniazdo. 16 MB na każdy CCX tzn. 32MB L3 na CCD daje temu procesorowi łącznie 256 MB pamięci podręcznej L3. Uwaga: jednak Łączna ilość pamięci podręcznej L3 w Rzymie nie jest współdzielona przez wszystkie rdzenie. 16 MB pamięci podręcznej L3 w każdej CCX jest niezależny i jest współużytkowany tylko przez rdzenie w CCX, jak przedstawiono na rysunku. 2.

24-rdzeniowy procesor, podobnie jak EPYC 7402, ma 128 MB pamięci podręcznej L3. lstopo dane wyjściowe. 3 & 4 przedstawia, że ten model ma trzy rdzenie na CCX i 8 CCX na gniazdo.

SLN319015_en_US__8Fig31-Rzym (2)

SLN319015_en_US__9Fig32-Rzym (2)

(Rysunek 3 & 4 lstopo wyjście dla procesorów 64 i 24 rdzeni)

Bez względu na liczbę CCDs, każdy procesor rzymskiego jest logicznie podzielony na cztery ćwiartki , z CCDs równomiernie rozłożonymi na ćwiartki i dwa kanały pamięci w każdej ćwiartki. Centralna kość we/wy może być uważana za logiczną, która obsługuje cztery ćwiartki gniazda.


Powrót do góry

 

 

Opcje systemu BIOS na podstawie architektury rzymskiej

 

Centralna kość we/wy w Rzymie pomaga poprawić czasy opóźnienia pamięci w przedziałach SLN319015_en_US__1iC_External_Link_BD_v1 mierzonym w Naples. Ponadto umożliwia skonfigurowanie procesora jako pojedynczej domeny NUMA, która umożliwia jednolity dostęp do pamięci dla wszystkich rdzeni w gnieździe. Poniżej opisano poniżej.

Cztery kwadranty logiczne w procesorze Rzym umożliwiają partycjonowanie procesora w różnych domenach NUMA. To ustawienie nosi nazwę NUMA dla gniazda lub serwera NPS.

  • NPS1 implikuje, że procesor rzymskiej jest jedną domeną NUMA, z wszystkimi rdzeniami w gnieździe i całą pamięcią w tej domenie NUMA. Moduły pamięci są przeplatane w osiem kanałów pamięci. Wszystkie urządzenia PCIe w gnieździe należą do tej samej domeny NUMA.
  • NPS2 dzieli procesor na dwie domeny NUMA z połowami rdzeni i połowami kanałów pamięci w gnieździe w każdej domenie NUMA. Moduły pamięci są przeplatane na cztery kanały pamięci w każdej domenie NUMA.
  • NPS4 dzieli procesor na cztery domeny NUMA. Każda Ćwiartka jest domeną NUMA, a pamięć jest przeplatana między dwa kanały pamięci w każdej ćwiartki. Urządzenia PCIe są lokalne do jednej z czterech domen NUMA w gnieździe, w zależności od tego, w której Ćwiartka w operacji we/wy ma PCIe rdzeń dla tego urządzenia
  • Nie wszystkie procesory obsługują wszystkie ustawienia serwera NPS.

Tam, gdzie jest to możliwe, HPC zaleca się używanie NPS4a, ponieważ oczekuje to najlepszej przepustowości pamięci, najmniejszej opóźnienia pamięci, a nasza aplikacja będzie obsługiwać standard NUMA. Gdzie NPS4 nie jest dostępna, zaleca się użycie najwyższego serwera NPS obsługiwanego przez model procesora CPU-NPS2 lub nawet NPS1.

Ze względu na wiele opcji NUMA, dostępnych na platformach opartych na technologii rzymskiego, system BIOS PowerEdge umożliwia korzystanie z dwóch różnych metod wyliczania rdzenia w ramach wyliczenia MADT. Liczby wyliczające liniowo rdzenie w kolejności, wypełniając jeden CCX, CCD, gniazdo przed przejściem do następnego gniazda. W przypadku procesorów 32c CPU, rdzenie od 0 do 31 będą znajdować się w pierwszym gnieździe, rdzenie 32-63 w drugim gnieździe. Liczby wyliczeniowe w ramach działania okrężnego rdzenie w regionach NUMA. W tym przypadku nawet numerowane rdzenie będą znajdować się w pierwszym gnieździe, rdzenie nieparzyste w drugim gnieździe. W celu uproszczenia zalecamy Wyliczenie liniowe dla HPC. Przykład podstawowego wyliczenia rdzeni na dwuprocesorowym serwerze 64C skonfigurowanym w NPS4, patrz rysunek. 5. Na rysunku każde pole czterech rdzeni ma postać CCX, każdy zestaw kolejnych ośmiu rdzeni ma CCD.

SLN319015_en_US__11Fig4-Rzym (2)

(Ilustracja. 5 liniowe Wyliczenie rdzenia w systemie z dwoma gniazdami, 64C na gniazdo, konfiguracja NPS4a w 8-CCD modelu procesora)

Inna opcja systemu BIOS specyficzna dla Rzymie jest nazywana preferowanym urządzeniem we/wy. Jest to ważne pokrętło strojenia przepustowości i szybkości przesyłania wiadomości. Umożliwia platformom określanie priorytetów ruchu dla jednego urządzenia we/wy. Ta opcja jest dostępna w odniesieniu do jednego gniazda oraz dwukierunkowych platform rzymskiej i urządzenia InfiniBand w tej platformie należy wybrać jako preferowane urządzenie w menu BIOS, aby uzyskać pełną szybkość przesyłania wiadomości, kiedy wszystkie rdzenie procesora są aktywne.

Podobnie jak w przypadku Naples, Rzym obsługuje również procesor funkcji Hyper-Threading lub logiczny. W przypadku HPC pozostaje to wyłączone, ale niektóre aplikacje mogą korzystać z możliwości włączania procesora logicznego. Zapoznaj się z kolejnymi blogami dotyczącymi analiz aplikacji Dynamics cząsteczkowego.

Podobnie jak w przypadku Naples, Rzym umożliwia także CCX jako domenę NUMA. Ta opcja umożliwia uwidocznienie każdego CCX jako węzła NUMA. W systemie wyposażonym w procesory z procesorem Dual-Socket z 16 CCXs na procesor CPU jest to ustawienie uwidaczniające domeny NUMA 32. W tym przykładzie każde gniazdo ma 8 CCDs, tzn. 16 CCX. Każdy CCX można włączyć jako własną domenę NUMA, oferując 16 węzłów NUMA na gniazdo oraz 32 w systemie z dwoma gniazdami. W przypadku HPC zaleca się pozostawienie CCX jako domeny NUMA z opcją domyślną Disabled (wyłączone). Włączenie tej opcji może pomóc w zwirtualizowanych środowiskach.

Podobnie jak w przypadku Naples, Rzym umożliwia ustawienie systemu w celu ustalenia wydajności lub trybu dekonfiguracji zasilania . W przypadku rozwiązania wydajnościsystem działa na oczekiwanej częstotliwości dla modelu procesora redukującego zmienność na wiele serwerów. W przypadkujego uznania, system pracuje przy maksymalnym dostępnym TDP modelu procesora. Te wzmacniane elementy są częścią zmian w procesie produkcyjnym, dzięki czemu niektóre serwery mają być szybsze od innych. Wszystkie serwery mogą korzystać z maksymalnej mocy znamionowej procesora, dzięki czemu zużycie energii jest deterministyczne, ale jednocześnie może spowodować zmianę wydajności między wieloma serwerami.

W przypadku nieoczekiwanego uznania z PowerEdge platform system BIOS jest wyposażony w opcję meta Profile. Wybranie profilu systemu zoptymalizowanego pod kątem wydajności powoduje włączenie trybu wzrostu Turbo, wyłączenie stanów C oraz ustawienie suwaka dotyczącego konfiguracji zasilania, zoptymalizowanego pod kątem wydajności.


Powrót do góry

 

 

Wyniki wydajności — STREAM, HPL, mikrotestów InfiniBand

 

Wiele z naszych czytelników może przeskoczyć bezpośrednio do tej sekcji, więc będziemy Dive się po prawej stronie.

W laboratorium innowacji HPC i AI wbudowano moduł 64-Server Rzym, który wywołuje Minerva. Poza jednorodnym klastrem Minerva, firma Microsoft może ocenić, co najmniej inne przykładowe zasoby rzymskiego. Nasza testbed opisana jest w tabeli. 1 i Table. 2.

(Modele procesorów wtabeli 1 , ocenione w niniejszych badaniach)

Procesor Rdzenie na gniazdo Konfiguracja Zegar podstawowy TDP
7702 64c 4C na CCX 2,0 GHz 200W
7502 32c 4C na CCX 2,5 GHz 180W
7452 32c 4C na CCX 2,35 GHz 155W
7402 24c 3C per CCX 2,8 GHz 180W

(Tabela. 2 testbed)

Component Szczegóły
Serwer PowerEdge C6525
Procesor Jak pokazano w tabeli. 1 Dual-Socket
Pamięć 256 GB, 16x16GB 3200 MT/s DDR4
Połączenia ConnectX-6 Mellanox paśmie INFINI HDR100
System operacyjny Red Hat Enterprise Linux 7.6
Jądro 3.10.0.957.27.2.e17.x86_64
Disk 240 GB SATA SSD M. 2


Powrót do góry

 

 

NADRZĘDNY

 

Testy dotyczące przepustowości modułów pamięci na Rzymie przedstawiono na rysunku. 6, testy te były wykonywane w trybie NPS4. W przypadku korzystania ze wszystkich rdzeni z serwera, w ramach czterech modeli procesorów wymienionych w tabeli, mierzona jest pamięć ~ 270-300 GB/s PowerEdge C6525. Kiedy dla każdego CCX jest używany tylko jeden rdzeń, przepustowość pamięci systemowej jest równa 9-17% wyższej niż ta, która jest mierzona ze wszystkimi rdzeniami.

Większość HPC obciążenie pracą całkowicie subskrybuje wszystkie rdzenie w systemie lub HPC Center działa w trybie wysokiej przepustowości z wieloma zadaniami na każdym serwerze. Z tego względu przepustowość pamięci All-Core to dokładniejsza reprezentacja funkcji przepustowości modułów pamięci i przepustowości w systemie.

Ilustracja 6 przedstawia również przepustowość pamięci mierzoną na platformie EPYC poprzedniej generacji, która również obsługuje osiem kanałów pamięci na gniazdo, ale działa przy 2667 MT/s. Platforma rzymskiego zapewnia 5% do 19% lepszej przepustowości pamięci niż Naples, a to w przeważającej części z powodu szybszego 3200 MT/s pamięci. Nawet z 64C na gniazdo, system rzymski może dostarczyć do góry 2 GB/s/rdzenie.

SLN319015_en_US__12icon Uwaga: Wydajność 5-10% w przypadku wyników Triad strumienia była mierzona na wielu identycznie skonfigurowanych serwerach opartych na programie rzymskiego, dlatego poniższe wyniki należy założyć jako górny koniec zakresu.
 

Porównanie różnych konfiguracji serwera NPS, ~ 13% wyższa przepustowość pamięci została zmierzona z NPS4 w porównaniu z NPS1, jak pokazano na rysunku. 7.

SLN319015_en_US__13Fig5-Rzym (2)

(Ilustracja: 6 z podwójnym gniazdem NPS4 strumienia pamięci Triad)

SLN319015_en_US__14Fig6-Rzym (2)

(Rysunek 7 NPS1 vs NPS2 vs z serwerem NPS 4)


Powrót do góry

 

 

Przepustowość i szybkość wiadomości InfiniBand

 

Ilustracja: 8-rdzeniowy procesor InfiniBand z jedną rdzeniem na testy dwukierunkowe i dwukierunkowe. Testbed używany HDR100 z 100 Gbps i wykres przedstawia oczekiwaną wydajność linii dla tych testów.

SLN319015_en_US__15fig6-IBBW (2)

Ilustracja : przepustowość 8 InfiniBand (jeden rdzeń)

SLN319015_en_US__16fig7-Pan (2)

Ilustracja : szybkość wiadomości 9 InfiniBand (wszystkie rdzenie)

Testy oceniające szybkość wiadomości były wykonywane przy użyciu wszystkich rdzeni w gnieździe w dwóch serwerach objętych testem. Jeśli w systemie BIOS jest włączona preferowana operacja i zostanie skonfigurowana karta HDR100 ConnectX-6, jest ona znacznie wyższa od tego, kiedy preferowany tryb we/wy nie jest włączony, jak pokazano na rysunku. 9. Ilustracja: znaczenie tej opcji systemu BIOS po dostrojeniu do HPC, w szczególności w celu skalowania aplikacji z wieloma węzłami.


Powrót do góry

 

 

HPL

 

Micro Architecture może wycofać się z 16 FLOP/cyklem. Daje to wyższy poziom rzymski, teoretycznie FLOPS nad Naples, 2x z zwiększonej możliwości zmiennoprzecinkowej i od podwójnej liczby rdzeni (64C vs 32c). Ilustracja. 10 wykreśla zmierzone wyniki HPL dla czterech modeli procesorów rzymskiej, które przetestowałeś razem z poprzednimi wynikami z systemu opartego na Naples. Wydajność HPL rzymskiego jest podana jako wartość procentowa nad słupkami na wykresie i jest wyższa niż dolne modele procesora TDP.

Testy były wykonywane w trybie "Konfiguracja zasilania", a 64 poziom naładowania: °c 5% w przypadku identycznie skonfigurowanych serwerów, w tym także w tym zakresie wydajności.

SLN319015_en_US__17Fig9-Rzym (2)

(Ilustracja. 10 pojedynczych serwerów HPL w NPS4)

Przeprowadzenie kolejnych testów HPL z wieloma węzłami i ich wyniki znajdują się na rysunku 11. Wydajność HPL dla EPYC 7452 pozostaje powyżej 90% w skali 64-Node, ale wartość DIP w celu zwiększenia wydajności z 102% do 97% oraz kopia zapasowa do 99% wymaga dalszej oceny

SLN319015_en_US__18Fig10-Rzym (2)

(Rysunek 11 multi-node HPL, Dual-socket EPYC 7452 over HDR100 InfiniBand)


Powrót do góry

 

 

Podsumowanie i najbliższe następne

 

Wstępne badania osiągnięć na serwerach z Rzym mają na celu przedstawienie oczekiwanej wydajności pierwszego zestawu HPC testów wydajności. Regulacja systemu BIOS jest ważna przy konfigurowaniu najlepszej wydajności, a opcje dostrajania są dostępne w systemie BIOS HPC profilu obciążenia, który można skonfigurować w fabryce lub ustawić za pomocą narzędzi do zarządzania systemami Dell EMC.

Laboratorium innowacji HPC i AI ma nowy dodatek 64-Server Rzym, oparty na zamówieniu PowerEdge Minerva. Zaobserwuj to miejsce dla kolejnych blogów, które opisują analizy wydajności aplikacji w nowym klastrze Minerva.


Powrót do góry

 

Article Properties


Last Published Date

06 May 2021

Version

5

Article Type

Solution