Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products
  • Manage your Dell EMC sites, products, and product-level contacts using Company Administration.

AMD Rome – är det på riktigt? Arkitektur och initial HPC-prestanda

Summary: I HPC världen idag, en introduktion till AMD: s senaste generationens EPYC-processor kod med namnet Roma.

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content


Symptoms

Garima Kochhar, Deepthi Cherlopalle, Joshua Weage. HPC och AI Innovation Lab, oktober 2019

Cause

 

Resolution


I HPC världen idag behöver AMD: s senaste generationens EPYC-processorSLN319015_en_US__1iC_External_Link_BD_v1 kod med namnet Roma knappt en inledning. Vi har utvärderat ROM-baserade system i HPC och AI Innovation Lab dessa senaste månader och Dell Technologies nyligen meddeladeSLN319015_en_US__1iC_External_Link_BD_v1servrar som stöder denna processor arkitektur. Den första bloggen i Rom-serien diskuterar Rom-processorns arkitektur, hur det kan anpassas för HPC prestanda och för att presentera den ursprungliga Micro-benchmark-prestandan. Under de kommande bloggarna beskrivs applikations prestanda i domänerna för CFD, CAE, molekylering av Dynamics, väder simulering och andra program.


 

Arkitektur

 

Roma är AMD s 2: a generationens EPYC-processor och uppdaterar deras första generations Naples. Vi har beskrivit Naples i den här bloggen förra året.

En av de största arkitektur skillnaderna mellan Naples och Roma som är till nytta för HPC är den nya IO-tärningen i Rom. I Rom är varje processor ett paket med flera kretsar som består av upp till 9 chiplets enligt bilden. 1. Det finns en central 14nm IO-Die som innehåller alla IO-och minne-funktioner – Tänk på minnes styrenheter, oändliga Fabric-länkar i sockeln och mellaningång och PCI-e. Det finns åtta minnes styrenheter per sockel som stöder åtta minnes kanaler som kör DDR4 på 3200 MT/s. En server med en sockel kan stödja upp till 130 PCIe Gen4-banor. Ett system med dubbla socklar kan stödja upp till 160 PCIe Gen4-banor.

SLN319015_en_US__3Fig1-Rom (2)

(Bild. 1Rom -paket med flera kretsar med en central IO-Die och upp till åtta kärnor)

Kring Central IO-Die är upp till åtta 7nm Core chiplets. Kärn chiplet kallas för en Core-cache-Die eller CCD. Varje CCD har processor kärnor baserat på Zen2 Micro-Architecture, L2-cacheminne och 32 MB L3-cacheminne. CCD har två kärnor i kärnan (CCX), SLN319015_en_US__1iC_External_Link_BD_v1 varje CCX har upp till fyra kärnor och 16 MB L3-cacheminne. Bild. 2 visar en CCX.

SLN319015_en_US__5Fig2-Rom (2)

(Bild. 2 A CCX med fyra kärnor och delad 16 MB L3-cacheminne)

De olika Rom-processor modellernaSLN319015_en_US__1iC_External_Link_BD_v1 har olika antal kärnor,SLN319015_en_US__1iC_External_Link_BD_v1 men alla har en central IO-Die.

Längst upp på sidan finns en 64 core CPU-modell, till exempel EPYC 7702. lstopo-utdata visar att den här processorn har 16 CCXs per ingång, varje CCX har fyra kärnor enligt bilden. 3 & 4, vilket ger 64 kärnor per sockel. 16 MB L3 per CCX, dvs. 32 MB L3 per CCD ger processorn totalt 256 MB L3-cacheminne. Observera dock att den totala L3-cachen i Rom-minnet inte delas av alla kärnor. 16 MB L3-cacheminne i varje CCX är oberoende och delas endast av kärnorna i CCX enligt illustration. 2.

En 24-core CPU som EPYC 7402 har 128 MB L3-cacheminne. lstopo-utdata i bild. 3 & 4 visar att den här modellen har tre kärnor per CCX och 8 CCX per sockel.

SLN319015_en_US__8Fig31-Rom (2)

SLN319015_en_US__9Fig32-Rom (2)

(Bild. 3 & 4 lstopo-utdata för 64-Core och 24-core CPU: er)

Oberoende av antalet CCDs är varje Rom-processor logiskt indelad i fyra kvadranter med CCDs som fördelas så jämnt i kvadranter som möjligt och två minnes kanaler i varje kvadrant. Central IO-tärningen kan betraktas som logiskt stödja de fyra kvadranterna av sockeln.


Överst på sidan

 

 

BIOS-alternativ baserade på Rom-arkitektur

 

Central IO-Die i Rom hjälper till att förbättra minnes fördröjningarSLN319015_en_US__1iC_External_Link_BD_v1 jämfört med de som mätts i Naples. Dessutom kan Processorn konfigureras som en enda NUMA-domän vilket möjliggör enhetlig minnes åtkomst för alla kärnor i sockeln. Detta beskrivs nedan.

De fyra logiska kvadranterna i en Rom-processor tillåter att processorn partitioneras i olika NUMA-domäner. Den här inställningen kallas NUMA per sockel eller NPS.

  • NPS1 innebär att Rom-processorn är en enda NUMA-domän, med alla kärnor i sockeln och allt minne i denna NUMA-domän. Minnet är överlagrat över de åtta minnes kanalerna. Alla PCIe enheter på sockeln tillhör denna enda NUMA-domän
  • NPS2 partitionerar processorn i två NUMA-domäner, med hälften av borr kärnorna och hälften av minnes kanalerna på sockeln i varje NUMA-domän. Minnet är överlagrat över de fyra minnes kanalerna i varje NUMA-domän
  • NPS4 partitionerar processorn i fyra NUMA-domäner. Varje kvadrant är en NUMA-domän här och minnet är överlagrat över de två minnes kanalerna i varje kvadrant. PCIe enheter kommer att vara lokala till en av fyra NUMA-domäner på sockeln beroende på vilken kvadrant av IO-tärningen som har PCIe roten för enheten
  • Vissa processorer kan inte stödja alla NPS-inställningar

Där det är möjligt rekommenderas NPS4 för HPC eftersom det förväntas ge den bästa minnes bandbredden, minsta minnes fördröjningar, och att programmen ofta är NUMA-medvetna. Där NPS4 inte är tillgängligt rekommenderar vi den högsta NPS som stöds av CPU modell-NPS2 eller till och med NPS1.

Med tanke på hur många NUMA-alternativ som finns tillgängliga på Rom-baserade plattformar, tillåter PowerEdge BIOS två olika uppräknings metoder under MADT-uppräkning. Linjär uppräknings nummer kärnor i ordning, som fyller en CCX, CCD, sockel innan den flyttas till nästa sockel. På en 32c CPU kommer kärnorna 0 till 31 att finnas på den första sockeln, kärnorna 32-63 på den andra sockeln. Round Robin-uppräkning numrerar kärnorna mellan NUMA-regioner. I det här fallet kommer även numrerade kärnor att vara på den första sockeln, udda nummer på den andra sockeln. För enkelhets skull rekommenderar vi en linjär uppräkning för HPC. Se bild. 5 för ett exempel på en 64C-server med dubbla socklar som är konfigurerad i NPS4. I bilden är varje kartong av fyra kärnor en CCX, varje uppsättning med sammanhängande åtta kärnor är en CCD.

SLN319015_en_US__11Fig4-Rom (2)

(Bild. 5 linjär Core-uppräkning på ett system med dubbla socklar, 64C per sockel, NPS4-konfiguration på en 8 CCD processor modell)

Ett annat Rom-specifikt BIOS-alternativ kallas för standard IO-enheten. Det här är ett viktigt justerings ratt för InfiniBand-bandbredd och meddelande frekvens. Den gör det möjligt för plattformen att prioritera trafiken för en IO-enhet. Det här alternativet är tillgängligt på en enda ingång och två socklar Rom-plattformar och InfiniBand-enheten i plattformen måste väljas som den primära enheten i BIOS-menyn för att få full meddelande frekvens när alla CPU-kärnor är aktiva.

I likhet med Naples stöder Rom även Hyper-Threading eller logisk processor. För HPC lämnar vi detta inaktiverat, men vissa program kan ha nytta av att aktivera logisk processor. Titta efter följande Bloggar om utmolekyliga Dynamics-programstudier.

I likhet med Naples tillåter Rom även CCX som NUMA-domän. Det här alternativet visar varje CCX som en NUMA-nod. I ett system med Dual-socket CPU med 16 CCXs per CPU, kommer den här inställningen att exponera 32 NUMA-domäner. I det här exemplet har varje sockel 8 CCDs, dvs. 16 CCX. Varje CCX kan aktive ras som en egen NUMA-domän, vilket ger 16 NUMA-noder per sockel och 32 i ett system med två socklar. För HPC rekommenderar vi att du lämnar standarden CCX som NUMA-domän med alternativet inaktiverat. Aktivering av det här alternativet förväntas hjälpa virtualiserade miljöer.

Liknande Naples gör att systemet kan ställas in i Performance determinism eller Power determinism mode. I Performance determinism, fungerar systemet med den förväntade frekvensen för CPU-modellens minskning av variationerna på flera servrar. I Power determinismfungerar systemet med det maximala antalet tillgängliga TDP för CPU-modellen. Detta förstärkter delar till del variationer i tillverknings processen, vilket gör att vissa servrar kan vara snabbare än andra. Alla servrar kan förbruka PROCESSORns maximala nominella ström styrka, vilket gör det möjligt att ta del av strömförbrukningen, men möjliggör en viss prestanda variation på flera servrar.

Som du förväntar dig av PowerEdge plattformar har BIOS ett meta-alternativ som kallas system profil. Om du väljer den Prestandaoptimerad system profilen aktive ras Turbo förstärknings läge, inaktive ras C-tillstånd och determinism-skjutreglaget till Power determinism, optimering för prestanda.


Överst på sidan

 

 

Prestanda resultat – STREAM, HPL, InfiniBand mikrobenchmarks

 

Många av läsarna kan ha gått direkt till det här avsnittet, så vi kommer åt höger.

I HPC-och AI-Innovations labbet har vi byggt ut ett 64-Server Rom-baserat kluster som vi ringer Minerva. Utöver det homogena Minerva-klustret har vi några andra Rom-CPU-exempel som vi kunde utvärdera. Vår testbed beskrivs i tabell. 1 och tabell. 2.

(Tabell. 1 Rom CPU-modeller utvärderas i detta test)

Processor Kärnor per sockel Konfiguration Bas klocka TDP
7702 64c per CCX 2,0 GHz 200W
7502 32c per CCX 2,5 GHz 180W
7452 32c per CCX 2,35 GHz 155W
7402 24c 3c per CCX 2,8 GHz 180W

(Tabell. 2 testbed)

Komponent Detaljer
Server PowerEdge C6525
Processor Som visas i tabellen. 1 Dual-sockel
Minne 256 GB, 16x16GB 3200 MT/s DDR4
Interconnect ConnectX-6 Mellanox INFINI-band HDR100
Operativsystem Red Hat Enterprise Linux 7.6
Kärna 3.10.0.957.27.2.e17.x86_64
Diskfel 240 GB SATA SSD M. 2-modulen


Överst på sidan

 

 

DIREKTUPPSPELA

 

Minnes bandbredds test på Rom visas i bild. 6. dessa test kördes i NPS4-läge. Vi har mätt ~ 270-300 GB/s minnes bandbredd på vår PowerEdge C6525 när du använder alla kärnor i servern över de fyra CPU-modellerna som visas i tabell. 1. När endast en kärna används per CCX är systemets minnes bandbredd ~ 9-17% högre än den som mätts med alla kärnor.

De flesta HPC arbets belastningarna är antingen helt prenumererar på alla kärnor i systemet, eller HPC-Center körs i hög data flödes läge med flera jobb på varje server. Det innebär att minnes bandbredden med allt kärn utrymme är den mest exakta representationen av funktionerna för minnes bandbredd och minnes bandbredd per kärna i systemet.

Bild. 6 visar även minnes bandbredden som mätts på den föregående generationen EPYC Naples -plattformen, som även stöder åtta minnes kanaler per sockel men som körs på 2667 MT/s. Rom-plattformen ger 5% till 19% bättre total minnes bandbredd än Naples, och detta är främst beroende på det snabbare 3200-MT/s minnet. Även med 64C per sockel kan Rom-systemet leverera upp till 2 GB/s/core.

SLN319015_en_US__12icon Obs! En 5-10% prestanda variation i STRÖMMAnde Triad-resultat mättes över flera identiskt konfigurerade ROM-baserade servrar. därför antas resultaten nedan vara den övre delen av intervallet.
 

Jämförelse av den olika NPS-konfigurationen, ~ 13% högre minnes bandbredd mättes med NPS4 jämfört med NPS1 som visas i bild. 7.

SLN319015_en_US__13Fig5-Rom (2)

(Bild. 6 NPS4 Stream Triad Memory bandbredd)

SLN319015_en_US__14Fig6-Rom (2)

(Bild. 7 NPS1 vs NPS2 vs NPS 4 minnes bandbredd)


Överst på sidan

 

 

InfiniBand-bandbredd och meddelande frekvens

 

Bild. 8 ritar den enda core InfiniBand-bandbredden för enkelriktade och dubbelriktade tester. Testbed som används HDR100 som körs på 100 Gbps och diagrammet visar förväntade linje hastighets prestanda för dessa tester.

SLN319015_en_US__15fig6-IBBW (2)

Bild. 8 InfiniBand bandbredd (enkel kärna))

SLN319015_en_US__16fig7-MR (2)

Bild. 9 InfiniBand-meddelande frekvens (alla kärnor))

Meddelande frekvenss test har utförts med alla kärnor på en sockel i de två servrarna under testet. När Restore IO aktive ras i BIOS och ConnectX-6 HDR100-adaptern är konfigurerad som den primära enheten är meddelande frekvensen avsevärt högre än när Restore IO inte är aktive rad såsom visas i bild. 9. Detta illustrerar betydelsen av det här BIOS-alternativet vid justering för HPC och speciellt för skalbarhet för program för flera noder.


Överst på sidan

 

 

HPL

 

Rom Micro-Architecture kan dra bort den 16 DP-/cykel-, dubbelt så Naples som det var 8 vippa/cykel. Det ger Rom 4x de teoretiska topp-VIPPAna över Naples, 2x från den förbättrade flytt ALS kapaciteten och 2x från dubbelt så många kärnor (64C vs 32c). Bild. 10 visar de mätta HPL-resultaten för de fyra Rom CPU-modeller som vi har testat, tillsammans med våra tidigare resultat från ett Naples-baserat system. Rom HPL effektivitet anges som procent värde ovanför staplarna i grafen och är högre för de lägre TDP CPU-modellerna.

Testerna kördes i Power determinism-läge och en ~ 5% förändring i prestanda mättes över 64 identiskt konfigurerade servrar, resultaten här är sålunda i detta prestanda band.

SLN319015_en_US__17Fig9-Rom (2)

(Bild. 10 HPL för enskild server i NPS4)

Nästa multi-Node HPL-tester kördes och dessa resultat ritas i bild. 11. HPL effektiviteten för EPYC 7452 ligger över 90% vid en 64-nods skala, men dipna i effektiviteten från 102% ned till 97% och säkerhetskopiera till 99% behöver ytterligare utvärdering

SLN319015_en_US__18Fig10-Rom (2)

(Bild. 11 multi-Node HPL, Dual-sockel EPYC 7452 över HDR100 InfiniBand)


Överst på sidan

 

 

Sammanfattning och vad som kommer härnäst

 

Första prestanda studier på Rom-baserade servrar visar förväntad prestanda för vår första uppsättning HPC benchmarks. BIOS-justering är viktig när du konfigurerar för bästa prestanda och fin justerings alternativ finns tillgängliga i vår BIOS-HPC arbets belastnings profil som kan konfigureras i fabriken eller ställas in med hjälp av Dell EMC system hanterings verktyg.

HPC och AI Innovations labbet har en ny 64-Server ROM-baserad PowerEdge kluster Minerva. Se detta utrymme för kommande Bloggar som beskriver studier av program prestanda i vårt nya Minerva-kluster.


Överst på sidan

 

Article Properties


Last Published Date

06 May 2021

Version

5

Article Type

Solution