Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products
  • Manage your Dell EMC sites, products, and product-level contacts using Company Administration.

AMD Rome – er det sant? Arkitektur og innledende HPC-ytelse

Summary: I HPC verden i dag vil en innføring i AMDs siste generasjons EPYC prosessor-med navnet Roma.

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content


Symptoms

Garima Kochhar, Deepthi Cherlopalle, Joshua Weage. HPC og kunstig innovasjon Lab, oktober 2019

Cause

 

Resolution


I HPC verden i dag, har AMD sin nyeste generasjon EPYC prosessorSLN319015_en_US__1iC_External_Link_BD_v1 kode-med navnet Roma Hardly trenger en introduksjon. Vi er i ferd med å evaluere bak systemer i HPC og AI-Lab de siste månedene og Dell Technologies annonserteSLN319015_en_US__1iC_External_Link_BD_v1serverne som støtter denne prosessor arkitekturen. Denne første bloggen i Roma-serien vil diskutere bak prosessor arkitekturen, hvordan dette kan stilles inn for HPC ytelse og nå værende første gangs ytelse for Micro-benchmark. De påfølgende bloggene beskriver applikasjons ytelsen på tvers av domener til CFD, CAE, Molecular Dynamics, vær simulering og andre applikasjoner.


 

Arkitektur

 

Roma er AMDs 2. generasjons EPYC CPU, oppdatering av de første generasjons Naples. Vi diskuterte Naples i denne bloggen i fjor.

En av de største arkitektoniske forskjellene mellom Naples og Roma at fordeler HPC er den nye i/u-sokkelen i Roma. I Roma er hver prosessor en pakke med flere brikker som består av opptil 9 chiplets , som vist i figur. 1. Det finnes én sentral 14nm i/u som inneholder alle i/u-og minne funksjonene – se på minne kontrollere, uendelighets senter koblinger innenfor sokkelen og tilkoblings kontakten, og PCI-e. Det finnes åtte minne kontrollere per sokkel som støtter åtte minne kanaler som kjører DDR4 på 3200 MT/s. En enkelt kontakt-server kan støtte opptil 130 PCIe Gen4-baner. Et system med to kontakter kan støtte opptil 160 PCIe Gen4-baner.

SLN319015_en_US__3Fig1-Roma (2)

(Figur. 1bak multi- brikke-pakken med én sentral i/u-sokkel og opptil åtte kjerne Dies)

Omkring liggende i/u-sokkelen er opptil åtte 7nm Core chiplets. Kjerne chiplet kalles en sokkel for kjerne hurtig buffer eller CCD. Hver CCD har CPU-kjerner basert på Zen2 Micro-arkitekturen, L2-cache og 32 MB L3-hurtigbuffer. CCD har selv to kjerner for hurtig bufferen (CCX), og SLN319015_en_US__1iC_External_Link_BD_v1 hver CCX har opptil fire kjerner og 16 MB med L3-hurtigbuffer. Figuren. 2 viser en CCX.

SLN319015_en_US__5Fig2-Roma (2)

(Figur. 2 A CCX med fire kjerner og delt 16 MB L3-cache)

De ulike de forskjellige prosessor modellene i romaenSLN319015_en_US__1iC_External_Link_BD_v1 har et ulikt antall kjerner,SLN319015_en_US__1iC_External_Link_BD_v1 men alle har én sentral i/u-sokkelen.

I Top enden er en 64 kjerne CPU-modell, for eksempel EPYC 7702. lstopo output viser at denne prosessoren har 16 CCXs per sokkel, og hver CCX har fire kjerner som vist i figuren. 3 & 4, og gir dermed 64 kjerner per sokkel. 16 MB L3 per CCX, det vil si 32 MB L3 per CCD gir denne prosessoren en total på 256 MB L3-hurtigbuffer. Vær oppmerksom på at den totale L3-hurtigbufferen i Roma ikke deles av alle kjerner. L3-hurtigbufferen med 16 MB i hver CCX er uavhengig og deles bare av kjernene i CCX, som vist i figur. 2.

En 24-kjerne CPU som EPYC 7402, har 128 MB L3-hurtigbuffer. lstopo utgangs effekt i figuren. 3 & 4 illustrerer at denne modellen har tre kjerner per CCX, og 8 CCX per sokkel.

SLN319015_en_US__8Fig31-Roma (2)

SLN319015_en_US__9Fig32-Roma (2)

(Figur. 3 & 4 lstopo utgang for 64-Core-og 24-Core-prosessorer)

Uansett antall CCDs, vil hver Roma-prosessor logisk deles inn i fire kvadranter med CCDs distribuert som jevnt på tvers av kvadrantene som mulig og to minne kanaler i hver kvadrant. Den sentrale i/u-sokkelen kan ses på som logisk støtte for de fire kvadrantene på sokkelen.


Tilbake til toppen

 

 

BIOS-alternativer basert på Roma-arkitektur

 

Den sentrale i/u-sokkelen i Roma hjelper deg med å forbedre minne vente tiderSLN319015_en_US__1iC_External_Link_BD_v1 over disse målt i Naples. I tillegg gjør det at CPU-en kan konfigureres som et enkelt NUMA-domene som muliggjør enhetlig minne tilgang for alle kjernene i sokkelen. Dette er forklart nedenfor.

De fire logisk kvadrantene i en Roma-prosessor gjør at CPU-en kan partisjones i forskjellige NUMA-domener. Denne innstillingen kalles Numa per sokkel eller NPS.

  • NPS1 forutsetter at Roma CPU er et enkelt NUMA-domene, med alle kjernene i sokkelen og alt minnet i dette ene NUMA-domenet. Minnet er sammenflettet over de åtte minne kanalene. Alle PCIe enheter på kontakten tilhører dette enkle NUMA-domenet
  • NPS2 partisjonerer CPU-en i to NUMA-domener, med halve kjernene og halv minne kanalene på sokkelen i hvert NUMA-domene. Minnet er sammenflettet over de fire minne kanalene i hvert NUMA-domene
  • NPS4 partisjonerer CPU-en i fire NUMA-domener. Hver kvadrant er et NUMA-domene her, og minnet er sammenflettet over de to minne kanalene i hver kvadrant. PCIe enheter vil være lokale for én av fire NUMA-domener på sokkelen, avhengig av hvilken kvadrant av i/u-sokkelen har PCIe roten for enheten
  • Ikke alle CPUer kan støtte alle NPS-innstillinger

Når det er tilgjengelig, anbefales NPS4 for HPC fordi det forventes å sørge for beste minne bånd bredde, lavest mulige vente tider, og våre applikasjoner har rett til å være NUMA-Aware. Der NPS4 ikke er tilgjengelig, anbefaler vi den høyeste NPS støttet av prosessor modell-NPS2, eller til og med NPS1.

Når du har Multitude NUMA-alternativene som er tilgjengelige på bak plattformer, vil PowerEdge BIOS tillate to forskjellige kjerne opplistings metoder under MADT-opplisting. Et lineært nummererings nummer kjerner i rekkefølge, og fyller én CCX, CCD, sokkel før du går til neste sokkel. På en 32c-CPU vil kjerner 0 til 31 være på den første sokkelen, 32-63-kjerner på den andre sokkelen. Løkke nummerering nummererer kjernene på tvers av NUMA-områder. I dette tilfellet vil selv nummererte kjerner være på den første sokkelen, odde talls kjernene på den andre sokkelen. For å gjøre det, anbefaler vi lineær opplisting for HPC. Se figur. 5 for et eksempel på lineært kjerne opplisting på en 64c-server med to kontakter konfigurert i NPS4. I figuren er hver eske på fire kjerner en CCX, og hvert sett med sammen hengende åtte kjerner er en CCD.

SLN319015_en_US__11Fig4-Roma (2)

(Figur. 5 lineært kjerne-opplisting på et system med to kontakter, 64c per sokkel, NPS4-konfigurasjon på en 8 CCD CPU-modell)

Et annet bak-spesifikt BIOS-alternativ kalles foretrukket i/u-enhet. Dette er en viktig justerings knapp for InfiniBand bånd bredde og meldings hastighet. Den gjør det mulig for plattformen å prioritere trafikk for én i/u-enhet. Dette alternativet er tilgjengelig på en sokkel, i tillegg til to kontakter, Roma-plattformer og InfiniBand-enheten i plattformen må være valgt som foretrukket enhet i BIOS-menyen for å oppnå full meldings hastighet når alle CPU-kjernene er aktive.

På samme måte som Naples, har Roma også støtte for Hyper-Threading eller logisk prosessor. For HPC lar vi dette deaktiveres, men noen programmer kan dra nytte av å aktivere logisk prosessor. Se etter de påfølgende bloggene på Molecular Dynamics Application-studier.

På samme måte som Naples, har Roma også CCX som Numa-domene. Dette alternativet viser hver CCX som en NUMA-node. På et system med to kontakt-CPUer med 16 CCXs per CPU vil denne innstillingen eksponere 32 NUMA-domener. I dette eksemplet har hver sokkel 8 CCDs, det vil si 16 CCX. Hver CCX kan aktiveres som sitt eget NUMA-domene, noe som gir 16 NUMA-noder per sokkel og 32 i et system med to kontakter. For HPC anbefaler vi at du forlater CCX som Numa-domene med standard alternativet deaktivert. Det er forventet å aktivere dette alternativet for å hjelpe virtualiserte miljøer.

På samme måte som Naples, kan systemet angis i ytelses Determinism eller strøm Determinism modus. I ytelses determinismenfungerer systemet på forventet frekvens for at CPU-modellen kan redusere variasjonen på flere servere. I Power Determinism, fungerer systemet på maksimalt tilgjengelig TDP på CPU-modellen. Dette forsterker del til del variasjon i produksjons prosessen, slik at noen servere er raskere enn andre. Alle servere kan bruke den maksimale prosessor strømmen til CPU-en, noe som gjør strøm forbruket deterministisk, men som tillater en del ytelse variasjon på flere servere.

Som du forventer av PowerEdge plattformer, har BIOS et meta-alternativ kalt system profil. Hvis du velger den optimaliserte system profilen, vil du kunne se Turbo modus, deaktivere C-tilstander og sette determinism-Glide bryte ren til Power determinism, optimalisere for ytelse.


Tilbake til toppen

 

 

Ytelses resultater – STREAM, HPL, InfiniBand-mikrotester

 

Mange av leserne kan ha hoppet rett til dette avsnittet, så vi skal prøve deg på høyre side.

I laboratoriet for HPC og AI-innovasjon har vi bygd ut en 64 server-basert sektor gruppe som vi kaller Minerva. I tillegg til homogenous Minerva-klyngen har vi noen andre Roma-CPU-eksempler som vi kan evaluere. Vår testbed er beskrevet i Table. 1 og Table. 2.

(Table. 1 Roma CPU-modeller evalueres i denne studien)

CPU Kjerner per sokkel Config Sokkel klokke TDP
7702 64c 4c per CCX 2,0 GHz 200W
7502 32c 4c per CCX 2,5 GHz 180W
7452 32c 4c per CCX 2,35 GHz 155W
7402 24c 3c per CCX 2,8 GHz 180W

(Tabell. 2 testbed)

Komponent Detaljer
Server PowerEdge C6525
Prosessor Som vist i tabellen. 1 dobbel sokkel
Minne 256 GB, 16x16GB 3200 MT/s DDR4
Interconnect ConnectX-6 Mellanox infini-bånd HDR100
Operativsystem Red Hat Enterprise Linux 7.6
Kjerne 3.10.0.957.27.2.e17.x86_64
Disker 240 GB SATA SSD M. 2-modul


Tilbake til toppen

 

 

STRØMME

 

Minne bånd bredde tester som sitter på Roma, vises i figur. 6, disse testene ble kjørt i NPS4-modus. Vi har målet ~ 270-300 GB/s minne bånd bredde på vår PowerEdge med to kontakter når du bruker alle kjernene i serveren over de fire prosessor modellene som er oppført i tabell. 1. Når kun én kjerne brukes per CCX, er bånd bredde på system minnet ~ 9-17% høyere enn dette som måles med alle kjerner.

De fleste HPC arbeids belastningene vil enten abonnere på alle kjernene i systemet, eller HPC sentre kjører i høy gjennomstrømnings modus med flere jobber på hver server. Derfor er alls bånd bredde på minne den mer nøyaktige representasjonen av minne bånd bredden og minne bånd funksjonene til systemet.

Figuren. 6 tegner også inn minne bånd bredden målt på den forrige generasjons EPYC Naples -plattformen, som også støttet åtte minne kanaler per sokkel, men som kjører på 2667 Mt/s. Den Roma-plattformen gir 5% til 19% bedre total minne bånd bredde enn Naples, og dette er svært dominerende på grunn av raskere 3200 MT/s-minnet. Selv med 64c per sokkel, kan Roma-systemet levere oppover på 2 GB/s/Core.

SLN319015_en_US__12icon Merk: En 5-10% ytelses variasjon i direkte avTriads resultater ble målt på tvers av flere identiske, Roma-baserte servere, resultatene nedenfor bør derfor antas å være Top-enden av området.
 

Sammenligning av den forskjellige NPS-konfigurasjonen, ~ 13% høyere minne bånd bredde ble målt med NPS4 sammenlignet med NPS1 som vist i figur. 7.

SLN319015_en_US__13Fig5-Roma (2)

(Figur. 6 dual-sokkel NPS4 stream Triad minne bånd bredde)

SLN319015_en_US__14Fig6-Roma (2)

(Figur. 7 NPS1 SAMMENLIGNET med NPS2 vs NPS 4 minne bånd bredde)


Tilbake til toppen

 

 

InfiniBand bånd bredde og meldings hastighet

 

Figuren. 8 tegner én enkelt kjerners InfiniBand-båndbredde for en veis-og to veis tester. Testbed brukt HDR100 som kjører på 100 Gbps, og grafen viser forventet ytelse for linje hastighet for disse testene.

SLN319015_en_US__15fig6-IBBW (2)

Figur. 8 Infiniband bånd bredde (enkel kjerne))

SLN319015_en_US__16fig7-MR (2)

Figur. 9 Infiniband meldings hastighet (alle kjerner))

Det ble utført neste meldings hastighets tester ved hjelp av alle kjernene på en sokkel i de to serverne under test. Når foretrukket IO er aktivert i BIOS, og ConnectX-6 HDR100-adapteren er konfigurert som foretrukket enhet, er den eneste kjerne meldings frekvensen betydelig høyere enn når den foretrukne i/u-en ikke er aktivert som vist i figur. 9. Dette illustrerer viktigheten av dette BIOS-alternativet ved fin justering av HPC og særlig for skalerbar het med flere noder.


Tilbake til toppen

 

 

HPL

 

Den Roma Micro-arkitekturen kan trekke fra 16 DP FLOP/Cycle, og dobbelt så mye som av Naples som var 8 FLOP/Kretsdiagram. Dette gir bak lys på Roma 4 de største bak Naples, 2 ganger fra den forbedrede flyt talls funksjonen, og 2x fra dobbel antall kjerner (64c i forhold til 32c). Figuren. 10 tegner de målte HPL resultatene for de fire Romae CPU-modellene vi testet, sammen med våre tidligere resultater fra et Naples-basert system. De Roma HPL effektiviteten noteres som prosent verdi over stolpene på grafen, og er høyere for de nedre TDP CPU-modellene.

Testene ble kjørt i Power Determinism-modus, og a ~ 5% delta i ytelse ble målt over 64 identiske konfigurerte servere, og resultatene her er derfor i dette ytelses båndet.

SLN319015_en_US__17Fig9-Roma (2)

(Figur. 10 enkel server-HPL i NPS4)

De neste HPL-testene med flere noder ble utført, og disse resultatene tegnes inn i figur. 11. HPL-effektiviteten for EPYC 7452 gjenstår over 90% ved en 64-node, men dips i effektiviteten fra 102% ned til 97% og sikkerhets Kopier opptil 99% trenger ytterligere evaluering

SLN319015_en_US__18Fig10-Roma (2)

(Figur. 11 -HPL, dobbel sokkel EPYC 7452 over HDR100 Infiniband)


Tilbake til toppen

 

 

Sammendrag og hva som kommer neste gang

 

Standard ytelses studier på Roma-baserte servere viser forventet ytelse for vårt første sett med HPC ytelses tester. BIOS-justering er viktig når du konfigurerer for beste ytelse og justerings alternativer er tilgjengelige i vår BIOS HPC arbeids mengde profil som kan konfigureres i fabrikken, eller angi bruk av Dell EMC system administrasjons verktøy.

HPC og kunstig skapnings laboratoriet har en ny 64-server Roma-basert PowerEdge Minerva-klynge. Se på dette Spacet etter de påfølgende bloggene som beskriver program ytelses studier på vår nye Minerva-klynge.


Tilbake til toppen

 

Article Properties


Last Published Date

06 May 2021

Version

5

Article Type

Solution