Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products
  • Manage your Dell EMC sites, products, and product-level contacts using Company Administration.

AMD Rome – er det seriøst? Arkitektur og indledende HPC-ydeevne

Summary: I den HPC verden i dag, en introduktion til AMD ' nyeste generation af EPYC-processor-navngivet Rom.

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content


Symptoms

Garima Kochhar, Deepthi Cherlopalle, Joshua Weage. HPC-og AI-innovations laboratorium, oktober 2019

Cause

 

Resolution


I den HPC verden i dag, AMD ' nyeste generation af EPYC processorSLN319015_en_US__1iC_External_Link_BD_v1 codeed Rom hardly skal have en introduktion. Vi er blevet evalueret rom-baserede systemer i HPC og AI-innovations laboratoriet de sidste par måneder og alle Dell Technologies nyligt annonceredeSLN319015_en_US__1iC_External_Link_BD_v1servere , der understøtter denne processorarkitektur. Denne første blog i Rom-serien vil diskutere Rom-processorarkitekturen, hvordan det kan indstilles til at HPC ydeevne og præsentere den indledende Micro benchmark-ydelse. Efterfølgende blogge vil beskrive programmets ydeevne på tværs af Domains for CFD, CAE, molekyl Dynamics, vejr simulering og andre programmer.


 

Arkitektur

 

Rom er AMD ' 2. generation af EPYC-CPU, opdatering af deres første generation af Naples. Vi diskuterede Naples i denne blog sidste år.

En af de største arkitektoniske forskelle mellem Naples og Rom, der fordeles HPC, er den nye IO terning i Rom. I Rom er hver processor en multi-chip-pakke bestående af op til 9 chiplets som vist i figur. 1. Der er en central 14nm IO terning, der indeholder alle IO og hukommelsesfunktioner – Tænk på hukommelses controllere, uendeligt struktur-links i soklen og forbindelser mellem sokler og PCI-e. Der er otte hukommelses controllere pr. sokkel, der understøtter otte hukommelseskanaler, der kører DDR4 ved 3200 MT/s. En enkelt-socket-server kan understøtte op til 130 PCIe Gen4 baner. Et dual-socket-system kan understøtte op til 160 PCIe Gen4 baner.

SLN319015_en_US__3Fig1-Rom (2)

(Figur. 1Rom multi-chip-pakke med et central IO ben og op til otte kerner)

Omkring den centrale IO terning er op til otte 7nm Core chiplets. Kerne CHIPLET kaldes en kerne-cache-eller CCD. Hver CCD har CPU-kerner baseret på Zen2-mikroarkitekturen, L2 cache og 32 MB L3 cache. CCD har i sig selv to Core-cache-processorer (CCX), SLN319015_en_US__1iC_External_Link_BD_v1 hver CCX har op til fire kerner og 16 MB L3 cache. Figur. 2 viser en CCX.

SLN319015_en_US__5Fig2-Rom (2)

(Figur. 2 A CCX med fire kerner og delt 16 MB L3 cache)

De forskellige Rom CPU-modellerSLN319015_en_US__1iC_External_Link_BD_v1 har forskellige antal kerner,SLN319015_en_US__1iC_External_Link_BD_v1 men alle har en central IO terning.

I øverste ende er der en 64 core CPU-model, f. eks. EPYC 7702. lstopo output viser, at denne processor har 16 CCXs pr. sokkel, og hver CCX har fire kerner som vist i figur. 3 & 4, således at ydelse af 64 kerner pr. sokkel. 16 MB L3 pr. CCX, dvs. 32 MB L3 pr. CCD, giver denne processor en total på 256 MB L3-cache. Bemærk dog, at den totale L3 cache i Rom ikke er delt af alle kerner. 16 MB L3 cache-lager i hver CCX er uafhængig og deles kun af kerner i CCX, som det er afbildet i figur. 2.

En 24-core-CPU som EPYC 7402 128 MB L3 cache. lstopo-output i figur. 3 & 4 viser, at denne model har tre kerner pr. CCX, og 8 CCX pr. sokkel.

SLN319015_en_US__8Fig31-Rom (2)

SLN319015_en_US__9Fig32-Rom (2)

(Figur. 3 & 4 lstopo-output for 64-kerne og 24-Core CPU'er)

Uanset antallet af CCDs, skal hver Rom-processor logisk inddeles i fire kvadranter med CCDs fordelt på tværs af kvadranterne som muligt og to hukommelseskanaler i hver kvadrant. Den centrale IO terning kan opfattes som logisk, hvilket understøtter de fire kvadranter af soklen.


Tilbage til toppen

 

 

BIOS-muligheder baseret på Rom-arkitektur

 

Den centrale IO terning i Rom er med til at forbedre hukommelses ventetiderSLN319015_en_US__1iC_External_Link_BD_v1 over dem, der er målt i Naples. Derudover tillader det, at CPU'en konfigureres som et enkelt NUMA-domæne, der muliggør ensartet hukommelsesadgang for alle kerner i soklen. Det er forklaret nedenfor.

De fire logiske kvadranter i en Rom-processor gør det muligt for CPU'en at blive partitioneret i forskellige NUMA-domæner. Denne indstilling kaldes Numa pr. sokkel eller NPS.

  • NPS1 betyder, at Rom-CPU'en er et enkelt NUMA-domæne, med alle kerner i soklen og al hukommelsen i dette ene NUMA-domæne. Hukommelsen er Interleaved over de otte hukommelseskanaler. Alle PCIe enheder på soklen tilhører dette enkelte NUMA-domæne
  • NPS2 partitionerer CPU'en i to NUMA-domæner med halvdelen af kerner og halvdelen af hukommelses kanalerne på soklen i hvert NUMA-domæne. Hukommelsen er Interleaved over de fire hukommelseskanaler i hvert NUMA-domæne
  • NPS4 partitionerer CPU'en i fire NUMA-domæner. Hver kvadrant er et NUMA-domæne her, og hukommelsen er Interleaved over de to hukommelseskanaler i hver kvadrant. PCIe enheder vil være lokale for en af fire NUMA-domæner på soklen afhængigt af, hvilken kvadrant i IO terning har PCIe roden for den pågældende enhed
  • Ikke alle CPU'er kan understøtte alle NPS-indstillinger

Hvor det er muligt, anbefales NPS4 for HPC, da det forventes at give den bedst mulige hukommelsesbåndbredde, de laveste hukommelses forsinkelser, og vores programmer har tendens til at være NUMA-Aware. Hvor NPS4 ikke er tilgængelig vi anbefaler, at den højeste NPS, der understøttes af CPU model-NPS2, eller endog NPS1.

På grund af de mange forskellige NUMA-muligheder på rom-baserede platforme, PowerEdge BIOS, er det muligt at vælge to andre kerne optællings metoder under MADT-optælling. Lineære optællings nummer kerner i rækkefølge, påfyldning af en CCX, CCD, sokkel, før der flyttes til den næste sokkel. På en 32c-CPU vil Core 0 til 31 være på den første sokkel, kerner 32-63 på den anden sokkel. Round Robin-optælling nummererer kernerne på tværs af NUMA-områder. I dette tilfælde vil lige kerner være på den første sokkel og ulige-nummererede kerner på den anden sokkel. For enkelhed anbefales det, at du lineære optælling for HPC. Se figur. 5 for et eksempel på lineær Core-optælling på en dual-socket 64c-server, der er konfigureret i NPS4. I figuren er hver boks af fire kerner en CCX, og hvert sæt af sammenhængende otte kerner er et CCD.

SLN319015_en_US__11Fig4-Rom (2)

(Figur. 5 lineær Core-optælling på et dual-socket-system, 64c pr. SOKKEL, NPS4-konfiguration på en 8 CCD CPU-model)

En anden Rom-specifik BIOS-indstilling kaldes for foretrukken IO enhed. Dette er en vigtig justeringsknap til InfiniBand båndbredde og meddelelses hastighed. Den gør det muligt for platformen at prioritere trafikken for en IO enhed. Denne indstilling er tilgængelig på en-sokkel såvel som to sokler Rom-platforme og InfiniBand-enheden i platformen skal vælges som den foretrukne enhed i BIOS-menuen for at opnå en fuld meddelelses hastighed, når alle CPU-kerner er aktive.

På samme måde som Naples, understøtter Rom også Hyper-Threading eller Logical-processor. For HPC deaktiverer vi dette deaktiveres, men nogle programmer kan være en hjælp i at aktivere logisk processor. Se efter de efterfølgende blogge om molekyl Dynamics-program undersøgelser.

På samme måde som med Naples kan Rom også tillade CCX som Numa-domæne. Denne indstilling viser hver CCX som en NUMA-node. På et system med Dual-socket-CPU'er med 16 CCXs pr. CPU vil denne indstilling vise 32 NUMA-domæner. I dette eksempel har hver sokkel 8 CCDs, dvs. 16 CCX. Hver CCX kan aktiveres som sit eget NUMA-domæne, der giver 16 NUMA-knuder pr. sokkel og 32 i et system med to sokler. For HPC anbefales det at lade CCX bruges som Numa-domæne i standardindstillingen deaktiveret. Aktivering af denne indstilling er forventet for at hjælpe virtualiserede miljøer.

I lighed med Naples tillader Rom, at systemet indstilles i ydelses Determinism eller strøm Determinism -tilstand. I ydeevne Determinismfungerer systemet med den forventede frekvens for CPU-modellen og reducerer variabiliteten på flere servere. I strøm Determinismfungerer systemet ved den maksimale tilgængelige TDP for CPU-modellen. Dette forstærker dele til delens variation i fremstillingsprocessen, så nogle servere skal være hurtigere end andre. Alle servere kan forbruge den maksimale nominelle effekt på CPU'en, hvilket gør strømforbruget deterministisk, men muliggør en vis præstations variation på flere servere.

Som du forventer fra PowerEdge platforme, har BIOS en meta-indstilling kaldet system profil. Hvis du vælger den optimerede ydelses system profil, aktiveres turbo boost-tilstand, deaktiveres C-tilstande, og determinism-skyderen indstilles til strøm determinism, og der optimeres for ydeevne.


Tilbage til toppen

 

 

Performance-resultater – STREAM, HPL, InfiniBand-mikrobenchmarks

 

Mange af vores læsere har måske sprunget direkte ind i dette afsnit, så vi lærer dig rigtigt.

I HPC og AI-innovations miljøet har vi oprettet en 64-server Rom-baseret klynge, der ringer til Minerva. Ud over den homogene Minerva-klynge har vi et par andre Rom CPU-prøver, som vi kunne vurdere. Vores testbed er beskrevet i table. 1 og table. 2.

(Tabel. 1 Rom CPU-modeller vurderet i denne undersøgelse)

CPU Kerner pr. sokkel Config Bund Clock TDP
7702 64c 4c pr. CCX 2,0 GHz 200 W
7502 32c 4c pr. CCX 2,5 GHz 180W
7452 32c 4c pr. CCX 2,35 GHz 155W
7402 24c 3c pr. CCX 2,8 GHz 180W

(Tabel. 2 testbed)

Component Detaljer
Server PowerEdge C6525
Processor Som vist i tabellen. 1 dual-sokkel
Hukommelse 256 GB, 16x16GB 3200 MT/s DDR4
Interconnect ConnectX-6 Mellanox Infini band HDR100
Operativsystem Red Hat Enterprise Linux 7.6
Kerne 3.10.0.957.27.2.e17.x86_64
Harddisk 240 GB SATA SSD M. 2-modul


Tilbage til toppen

 

 

STREAMKORT

 

Hukommelsesbåndbredde test på Rom er præsenteret i figur. 6, disse test blev kørt i NPS4-tilstand. Vi har målt ~ 270-300 GB/s hukommelsesbåndbredde på vores dual-sokkel PowerEdge C6525, når der anvendes alle kerner på serveren på tværs af de fire CPU-modeller, der er anført i tabellen. 1. Hvis der kun anvendes en kerne pr. CCX, er systemets hukommelsesbåndbredde ~ 9-17% højere end det, der er målt med alle kerner.

De fleste HPC arbejdsbelastninger vil enten helt abonnere på alle kerner i systemet, eller HPC Centre kører i tilstanden med høj overførselshastighed med flere job på hver server. Derfor er al-Core-hukommelsesbåndbredde den mere præcise repræsentation af hukommelses båndbredden og hukommelses båndbredden pr. kernefunktioner i systemet.

Figur. 6 viser også den hukommelses båndbredde, der er målt på den forrige generation EPYC Naples -platform, som også understøttede otte hukommelseskanaler pr. sokkel, men som kører ved 2667 MT/s. Rom-platformen leverer 5% til 19% bedre total hukommelsesbåndbredde end Naples, og dette er på dominerende grund af den hurtigere 3200 MT/s-hukommelse. Selv med 64c pr. sokkel kan Rom-systemet levere op til 2 GB/s/Core.

SLN319015_en_US__12icon Bemærk: En 5-10% ydelses variation i STREAM Triad-resultater blev målt på tværs af flere identiske konfigurerede servere, nedenstående resultater skal derfor antages at være den øverste ende af området.
 

Sådan sammenlignes den forskellige NPS-konfiguration, ~ 13% højere hukommelsesbåndbredde blev målt med NPS4 sammenlignet med NPS1, som vist i figur. 7.

SLN319015_en_US__13Fig5-Rom (2)

(Figur. 6 dual-sokkel NPS4-Stream Triad hukommelsesbåndbredde)

SLN319015_en_US__14Fig6-Rom (2)

(Figur. 7 NPS1 vs NPS2 vs NPS 4-hukommelsesbåndbredde)


Tilbage til toppen

 

 

InfiniBand båndbredde og meddelelses hastighed

 

Figur. 8 viser Single-Core InfiniBand-båndbredden for envejs-og tovejs test. Testbed anvendte HDR100, der kører ved 100 Gbps, og grafen viser den forventede linje hastigheds ydelse for disse tests.

SLN319015_en_US__15fig6-IBBW (2)

Figur. 8 Infiniband båndbredde (Single-Core))

SLN319015_en_US__16fig7-MR (2)

Figur. 9 Infiniband meddelelses hastighed (alle kerner))

Meddelelses hastigheds testene blev gennemført ved brug af alle kerner på en sokkel i de to servere under test. Når foretrukken IO er aktiveret i BIOS, og ConnectX-6 HDR100-adapteren er konfigureret som den foretrukne enhed, er All-Core-meddelelses hastigheden betydeligt højere, end når den foretrukne IO ikke er aktiveret som vist på figur. 9. Dette illustrerer vigtigheden af denne BIOS-indstilling, når du justerer til HPC og især til multi-node-applikations skalerbarhed.


Tilbage til toppen

 

 

HPL

 

Rom-mikroarkitekturen kan trække 16 DP-KREDSLØBet/-cyklussen tilbage, fordobler Naples, som var 8 kredsløb/cyklus. Dette giver Rom 4 de teoretiske maksimale kredsløb over Naples, 2x fra den forbedrede flydende punkt-funktion og 2x fra fordobling af antallet af kerner (64c vs 32c). Figur. 10 afbilder de målte HPL-resultater for de fire Rom CPU-modeller, som vi har testet, sammen med vores tidligere resultater fra et Naples-baseret system. Rom HPL effektivitet er angivet som den procentvise værdi over søjlerne på grafen og er højere for de lavere TDP-CPU-modeller.

Testene blev kørt i strøm Determinisms tilstand, og a ~ 5% Delta i ydeevnen blev målt på på 64 identiske servere, resultaterne her er således i dette ydelses bånd.

SLN319015_en_US__17Fig9-Rom (2)

(Figur. 10 enkelt server-HPL i NPS4)

Der blev udført de næste multi-node HPL-tests, og disse resultater er afbildet i figur. 11. HPL-effektiviteten for EPYC 7452 forbliver over 90% ved en 64-node skala, men dips i effektivitet fra 102% ned til 97% og sikkerhedskopiering til 99% kræver yderligere evaluering

SLN319015_en_US__18Fig10-Rom (2)

(Figur. 11 multi-node HPL, Dual-socket EPYC 7452 over HDR100 Infiniband)


Tilbage til toppen

 

 

Oversigt og det, som kommer ud

 

Indledende præstations undersøgelser på rom-baserede servere viser forventet ydeevne for vores første sæt HPC benchmarks. BIOS-justering er vigtig, når du konfigurerer til den bedste ydelse, og justeringsindstillinger er tilgængelige i vores BIOS HPC arbejds belastnings profil, der kan konfigureres på fabrikken eller indstilles ved hjælp af Dell EMC system administrations hjælpeprogrammer.

HPC-og AI-innovations udøvelsen har en ny 64-server Rom-baseret PowerEdge Cluster Minerva. Se denne plads for efterfølgende blogge, der beskriver programmernes præstations undersøgelser på vores nye Minerva-klynge.


Tilbage til toppen

 

Article Properties


Last Published Date

06 May 2021

Version

5

Article Type

Solution