Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Create and access a list of your products
  • Manage your Dell EMC sites, products, and product-level contacts using Company Administration.

AMD Rome – onko se totta? Arkkitehtuuri ja HPC:n alkuperäinen suorituskyky

Summary: Tämän päivän HPC-maailmassa esittely AMD: n uusimman sukupolven EPYC-prosessorista, koodinimeltään Rooma.

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content


Symptoms

Garima Kochhar, Deepthi Cherlopalle, Joshua Weage. HPC and AI Innovation Lab, lokakuu 2019

Cause

Ei sovellettavissa

Resolution


Nykypäivän HPC-maailmassa AMD: n uusimman sukupolven EPYC-prosessori Tämä hyperlinkki vie sinut Dell Technologiesin ulkopuoliseen sivustoon , koodinimeltään Rooma , tuskin tarvitsee esittelyä. Olemme arvioineet Roomassa sijaitsevia järjestelmiä HPC- ja AI Innovation Lab -laboratoriossa viime kuukausina, ja Dell Technologies ilmoitti Tämä hyperlinkki vie sinut Dell Technologiesin ulkopuoliseen sivustoon äskettäin palvelimista, jotka tukevat tätä suoritinarkkitehtuuria. Tässä Rooma-sarjan ensimmäisessä blogissa käsitellään Rooman suoritinarkkitehtuuria, miten se voidaan virittää HPC-suorituskykyä varten ja esitellä alustava mikro-benchmark-suorituskyky. Myöhemmissä blogeissa kuvataan sovellusten suorituskykyä CFD: n, CAE: n, molekyylidynamiikan, sääsimulaation ja muiden sovellusten aloilla.


 

Arkkitehtuuri

 

Rooma on AMD: n 2. sukupolven EPYC-prosessori, joka virkistää heidän 1. sukupolven Napoliaan. Käsittelimme Napolia tässä blogissa viime vuonna.

Yksi suurimmista arkkitehtonisista eroista Napolin ja Rooman välillä, joka hyödyttää HPC: tä, on Rooman uusi IO-muotti. Roomassa jokainen prosessori on monisirupaketti, joka koostuu enintään 9 piiristä , kuten kuvassa 1 esitetään. On yksi keskitetty 14 nm: n IO-muotti, joka sisältää kaikki IO- ja muistitoiminnot - ajattele muistiohjaimia, Infinity-kangaslinkkejä kannan sisällä ja hylsyjen välistä yhteyttä sekä PCI-e. Kannassa on kahdeksan muistiohjainta, jotka tukevat kahdeksaa DDR4-muistikanavaa nopeudella 3 200 MT/s. Yksikantainen palvelin voi tukea jopa 130 PCIe Gen4 -kaistaa. Kaksikantainen järjestelmä voi tukea jopa 160 PCIe Gen4 -kaistaa.

Kuva 1 Rooma

(Kuva 1Rooman monisirupaketti, jossa on yksi keskitetty IO-muotti ja jopa kahdeksan ytimen muotti)

Keskimmäisen IO-muotin ympärillä on jopa kahdeksan 7 nm: n ydinpiiriä. Ydinpiiriä kutsutaan Core Cache -muotiksi tai CCD: ksi. Jokaisessa CCD: ssä on prosessoriytimet, jotka perustuvat Zen2-mikroarkkitehtuuriin, L2-välimuistiin ja 32 Mt: n L3-välimuistiin. Itse CCD: ssä on kaksi ydinvälimuistikompleksia (CCX),Tämä hyperlinkki vie sinut Dell Technologiesin ulkopuoliseen sivustoon jokaisessa CCX: ssä on enintään neljä ydintä ja 16 Mt L3-välimuistia. Kuvassa 2 on CCX.

Kuva 1 Rooma

(Kuva 2 : CCX, jossa on neljä ydintä ja jaettu 16 Mt:n L3-välimuisti)

Eri Rooman CPU-malleissaTämä hyperlinkki vie sinut Dell Technologiesin ulkopuoliseen sivustoon on eri määrä ytimiä,Tämä hyperlinkki vie sinut Dell Technologiesin ulkopuoliseen sivustoon mutta kaikissa on yksi keskitetty IO-muotti.  

Yläpäässä on 64-ytiminen CPU-malli, esimerkiksi EPYC 7702. lstopo-lähtö osoittaa meille, että tässä prosessorissa on 16 CCX: ää kantaa kohti, jokaisessa CCX: ssä on neljä ydintä, kuten kuvassa 3 ja 4 on esitetty, jolloin saadaan 64 ydintä kantaa kohti. 16 Mt L3 per CCX eli 32 Mt L3 per CCD antaa tälle prosessorille yhteensä 256 Mt L3-välimuistia. Huomaa kuitenkin, että kaikki ytimet eivät jaa Rooman L3-välimuistia. Kunkin CCX:n 16 Mt:n L3-välimuisti on itsenäinen ja sen jakavat vain CCX:n ytimet, kuten kuvassa 2 on esitetty.

EPYC 7402:n kaltaisessa 24-ytimisellä suorittimella on 128 Mt:n L3-välimuisti. lstopon lähtö kuvissa 3 &4 havainnollistaa, että tässä mallissa on kolme ydintä CCX:ää kohden ja 8 CCX:ää kantaa kohti.

Kuva 31 Rooma

Kuva 32 Rooma

(Kuva 3 &; 4 lstopo-lähtö 64- ja 24-ytimisille suorittimille)

CCD: iden lukumäärästä riippumatta jokainen Rooman prosessori on loogisesti jaettu neljään neljännekseen , joissa CCD: t jakautuvat mahdollisimman tasaisesti kvadrantteihin ja kahteen muistikanavaan kussakin neljänneksessä. Keskimmäisen IO-muotin voidaan ajatella tukevan loogisesti kannan neljää kvadranttia.


Alkuun

 

 

Rooman arkkitehtuuriin perustuvat BIOS-vaihtoehdot

 

Rooman keskimmäinen IO-muotti auttaa parantamaan muistiviiveitä Tämä hyperlinkki vie sinut Dell Technologiesin ulkopuoliseen sivustoon verrattuna Napolissa mitattuihin. Lisäksi se mahdollistaa suorittimen määrittämisen yhdeksi NUMA-toimialueeksi, mikä mahdollistaa yhdenmukaisen muistin käytön kaikille kannan ytimille. Tämä selitetään alla.

Rooman prosessorin neljä loogista kvadranttia mahdollistavat suorittimen jakamisen eri NUMA-verkkotunnuksiin. Tätä asetusta kutsutaan NUMA: ksi kantaa kohti tai NPS: ksi.

  • NPS1 tarkoittaa, että Rooman CPU on yksi NUMA-verkkotunnus, jossa on kaikki ytimet kannassa ja kaikki muisti tässä yhdessä NUMA-verkkotunnuksessa. Muisti lomitetaan kahdeksaan muistikanavaan. Kaikki kannan PCIe-laitteet kuuluvat tähän NUMA-toimialueeseen
  • NPS2 jakaa suorittimen kahteen NUMA-verkkotunnukseen, joissa on puolet ytimistä ja puolet muistikanavista kussakin NUMA-verkkotunnuksessa. Muisti lomitetaan kunkin NUMA-verkkotunnuksen neljän muistikanavan kautta
  • NPS4 osioi suorittimen neljään NUMA-verkkotunnukseen. Jokainen kvadrantti on tässä NUMA-verkkotunnus ja muisti on lomitettu kunkin neljänneksen kahden muistikanavan yli. PCIe-laitteet ovat paikallisia yhdelle kannan neljästä NUMA-verkkotunnuksesta riippuen siitä, missä IO-muotin neljänneksessä on PCIe-juuri kyseiselle laitteelle
  • Kaikki suorittimet eivät tue kaikkia NPS-asetuksia

NPS4:ää suositellaan HPC:lle mahdollisuuksien mukaan, koska sen odotetaan tarjoavan parhaan muistikaistanleveyden, pienimmät muistiviiveet ja sovelluksemme ovat yleensä NUMA-tietoisia. Jos NPS4 ei ole saatavilla, suosittelemme korkeinta CPU-mallin tukemaa NPS:ää - NPS2:ta tai jopa NPS1:tä.

Roomassa sijaitsevissa ympäristöissä on saatavilla lukuisia NUMA-vaihtoehtoja, joten PowerEdge BIOS sallii kaksi erilaista ydinluettelointimenetelmää MADT-luetteloinnissa. Lineaarinen luettelointi numeroi ytimet järjestyksessä täyttämällä yhden CCX-, CCD-, pistorasian ennen siirtymistä seuraavaan kantaan. 32c-suorittimessa ytimet 0–31 ovat ensimmäisessä kannassa ja ytimet 32–63 toisessa kannassa. Round robin -luettelointi numeroi ytimet NUMA-alueilla. Tässä tapauksessa parilliset ytimet ovat ensimmäisessä pistorasiassa, parittomat ytimet toisessa pistorasiassa. Yksinkertaisuuden vuoksi suosittelemme lineaarista luettelointia HPC:lle. Katso kuviosta 5 esimerkki lineaaristen ytimien numeroinnista kaksikantaisella 64c-palvelimella, joka on konfiguroitu NPS4:ssä. Kuvassa jokainen neljän ytimen laatikko on CCX, jokainen vierekkäisten kahdeksan ytimen joukko on CCD.

Kuva 4 Rooma

(Kuva 5 Lineaarinen ydinten numerointi kaksikantaisessa järjestelmässä, 64c per kanta, NPS4-kokoonpano 8 CCD:n suoritinmallissa)

Toinen Roomaan liittyvä BIOS-vaihtoehto on nimeltään Preferred IO Device. Tämä on tärkeä säätönuppi InfiniBandin kaistanleveydelle ja viestinopeudelle. Sen avulla alusta voi priorisoida yhden IO-laitteen liikenteen. Tämä vaihtoehto on saatavilla yksikantaisissa ja kaksikantaisissa Rome-ympäristöissä, ja alustan InfiniBand-laite on valittava ensisijaiseksi laitteeksi BIOS-valikossa, jotta saavutetaan täysi viestitaajuus, kun kaikki suoritinytimet ovat aktiivisia.

Kuten Napoli, Rooma tukee myös hyper-threadingia tai loogista prosessoria. HPC:n kohdalla tämä ei ole käytössä, mutta jotkin sovellukset voivat hyötyä loogisen suorittimen käyttöönotosta. Etsi myöhempiä blogejamme molekyylidynamiikan sovellustutkimuksista.

Samoin kuin Napoli, Rooma sallii myös CCX: n NUMA-verkkotunnuksena. Tämä vaihtoehto paljastaa jokaisen CCX: n NUMA-solmuna. Jos järjestelmässä on kaksikantaisia suorittimia, joissa on 16 CCX:ää suoritinta kohti, tämä asetus paljastaa 32 NUMA-toimialuetta. Tässä esimerkissä jokaisessa kannassa on 8 CCD:tä eli 16 CCX:ää. Jokainen CCX voidaan ottaa käyttöön omana NUMA-verkkotunnuksenaan, jolloin saadaan 16 NUMA-solmua kantaa kohti ja 32 kaksikantaisessa järjestelmässä. HPC: lle suosittelemme, että jätät CCX: n NUMA-verkkotunnukseksi oletusasetuksena pois käytöstä. Tämän asetuksen käyttöönoton odotetaan auttavan virtualisoituja ympäristöjä.

Kuten Napolissa, Rooma sallii järjestelmän asettamisen suorituskyvyn determinismiin tai vallan determinismitilaan . Performance Determinism -tekniikassa järjestelmä toimii CPU-mallille odotetulla taajuudella, mikä vähentää vaihtelua useiden palvelimien välillä. Tehodeterminismissä järjestelmä toimii CPU-mallin suurimmalla käytettävissä olevalla TDP: llä. Tämä voimistaa osien vaihtelua valmistusprosessissa, minkä ansiosta jotkut palvelimet ovat nopeampia kuin toiset. Kaikki palvelimet saattavat käyttää suorittimen enimmäistehon, mikä tekee virrankulutuksesta deterministisen, mutta sallii jonkin verran suorituskyvyn vaihtelua useiden palvelinten välillä.

Kuten PowerEdge-alustoilta voi odottaa, BIOSissa on metavaihtoehto nimeltä System Profile. Suorituskykyoptimoidun järjestelmäprofiilin valitseminen ottaa käyttöön Turbo Boost -tilan, poistaa C-tilat käytöstä ja asettaa determinismin liukusäätimen kohtaan Power Determinism, joka optimoi suorituskyvyn.


Alkuun

 

 

Suorituskykytulokset – STREAM-, HPL- ja InfiniBand-mikrobenchmarkit

 

Monet lukijoistamme ovat saattaneet hypätä suoraan tähän osioon, joten sukellamme suoraan sisään.

HPC- ja tekoälyinnovaatiolaboratoriossa olemme rakentaneet 64 palvelimen Roomassa sijaitsevan klusterin, jota kutsumme Minervaksi. Homogeenisen Minerva-klusterin lisäksi meillä on muutamia muita Rooman CPU-näytteitä, joita pystyimme arvioimaan. Testialustamme on kuvattu taulukoissa.1 ja 2.

(Taulukko.1 Tässä tutkimuksessa arvioidut Rooman suoritinmallit)

Suoritin Ydintä kantaa kohti Config Peruskello Suurin lämpöteho (TDP)
7702 64c 4 senttiä CCX:ää kohti 2,0 GHz 200W
7502 32c 4 senttiä CCX:ää kohti 2,5 GHz 180 W
7452 32c 4 senttiä CCX:ää kohti 2,35 GHz 155 W
7402 24c 3 senttiä per CCX 2,8 GHz 180 W

(Taulukko.2 Testialusta)

Osa Tiedot
Server PowerEdge C6525
Suoritin Kuten taulukosta 1 käy ilmi. Kaksikantainen
Muisti 256 Gt, 16x16 Gt 3 200 MT/s:n DDR4
Verkon liitäntä ConnectX-6 Mellanox Infini -kaista HDR100
Käyttöjärjestelmä Red Hat Enterprise Linux 7.6
Ydin 3.10.0.957.27.2.e17.x86_64
Levyn 240 Gt:n SATA SSD M.2 -moduuli


Alkuun

 

 

STREAM

 

Rooman muistin kaistanleveystestit on esitetty kuvassa 6, nämä testit suoritettiin NPS4-tilassa. Kaksikantaisen PowerEdge C6525:n muistin kaistanleveyden mitattiin ~270–300 Gt/s, kun palvelimen kaikkia ytimiä käytettiin taulukossa 1 luetelluissa neljässä suoritinmallissa. Kun CCX:ää kohden käytetään vain yhtä ydintä, järjestelmämuistin kaistanleveys on ~9–17 % suurempi kuin kaikilla ytimillä mitattu.

Useimmat HPC-kuormitukset joko tilaavat järjestelmän kaikki ytimet kokonaan tai HPC-keskukset toimivat suuren suorituskyvyn tilassa, jossa kussakin palvelimessa on useita töitä. Siksi kaikkien ytimien muistin kaistanleveys on tarkempi esitys järjestelmän muistin kaistanleveydestä ja muistin kaistanleveydestä ydintä kohti.

Kuvassa 6 esitetään myös muistin kaistanleveys, joka on mitattu edellisen sukupolven EPYC Napoli -alustalla, joka myös tuki kahdeksaa muistikanavaa kantaa kohti, mutta toimi nopeudella 2 667 MT/s. Rome-alusta tarjoaa 5–19 % paremman muistikaistanleveyden kuin Napoli, ja tämä johtuu pääasiassa nopeammasta 3200 MT/s:n muistista. Jopa 64 senttiä kantaa kohden Romer-järjestelmä voi tuottaa jopa 2 Gt/s/ydintä.

HUOMAUTUS: STREAM Triad -tulosten suorituskyvyn vaihtelu mitattiin 5-10% useilla identtisesti konfiguroiduilla Roomassa sijaitsevilla palvelimilla, joten alla olevien tulosten pitäisi olettaa olevan vaihteluvälin yläluokkaa.
 

NPS-konfiguraatioita verrattaessa NPS4:llä mitattiin ~13 % suurempi muistin kaistanleveys verrattuna NPS1:een, kuten kuvassa 7 esitetään.

Kuva 5 Rooma

(Kuva 6 : Kaksikantainen NPS4 STREAM -kolmikkomuistin kaistanleveys)

Kuva 6 Rooma

(Kuva 7 : NPS1 vs NPS2 vs NPS 4 muistin kaistanleveys)


Alkuun

 

 

InfiniBand-kaistanleveys ja viestinopeus

 

Kuvassa 8 esitetään yksiytimisen InfiniBand-kaistanleveys yksi- ja kaksisuuntaisia testejä varten. Testialusta käytti HDR100:aa, joka toimi nopeudella 100 Gbps, ja kaavio näyttää näiden testien odotetun linjanopeuden suorituskyvyn.

Kuva 6 IBBW

Kuva 8 InfiniBand-kaistanleveys (yksiytiminen))

Kuva 6 IBBW

Kuva 9 InfiniBand-viestien nopeus (kaikki ytimet))

Seuraavaksi suoritettiin viestitaajuustestit käyttäen kaikkia testattavien palvelimien kannan ytimiä. Kun BIOSissa on otettu käyttöön Preferred IO (Ensisijainen IO) ja ConnectX-6 HDR100 -sovitin on määritetty ensisijaiseksi laitteeksi, kaikkien ydinten viestitaajuus on huomattavasti suurempi kuin silloin, kun Preferred IO ei ole käytössä, kuten kuvassa 9 esitetään. Tämä havainnollistaa BIOS-vaihtoehdon tärkeyttä viritettäessä HPC:tä ja erityisesti usean solmun sovellusten skaalautuvuutta.


Alkuun

 

 

HPL

 

Rooman mikroarkkitehtuuri voi poistaa käytöstä 16 DP FLOP/sykli, kaksinkertainen verrattuna Napoliin, joka oli 8 FLOPS/sykli. Tämä antaa Roomalle 4x teoreettisen huippu-FLOPS:n Napoliin nähden, 2x parannetusta liukulukuominaisuudesta ja 2x kaksinkertaisesta ytimien määrästä (64c vs 32c). Kuvassa 10 esitetään neljän testaamamme Rooman suoritinmallin mitatut HPL-tulokset sekä aiemmat tulokset Napolissa sijaitsevasta järjestelmästä. Rooman HPL-hyötysuhde merkitään kaavion palkkien yläpuolella olevana prosenttiarvona, ja se on korkeampi alemman TDP-suorittimen malleissa.

Testit suoritettiin Power Determinism -tilassa, ja ~ 5%: n delta suorituskyvyssä mitattiin 64 identtisesti konfiguroidulla palvelimella, tulokset ovat siis tällä suorituskykyalueella.

Kuva 9 Rooma

(Kuva 10 : Yhden palvelimen HPL NPS4:ssä)

Seuraavaksi suoritettiin monisolmuiset HPL-testit, joiden tulokset on esitetty kuvassa 11. EPYC 7452:n HPL-hyötysuhde on edelleen yli 90 % 64 solmun asteikolla, mutta tehokkuuden lasku 102 %:sta 97 %:iin ja takaisin 99 %:iin vaatii lisäarviointia

Kuva 10 Rooma

(Kuva 11 : Monisolmuinen HPL, kaksikantainen EPYC 7452 HDR100 InfiniBandin kautta)


Alkuun

 

 

Yhteenveto ja tulevat toimet

 

Roomassa sijaitsevilla palvelimilla tehdyt alustavat suorituskykytutkimukset osoittavat, että ensimmäiset HPC-vertailuarvot tuottavat odotettua suorituskykyä. BIOS:in hienosäätö on tärkeää parhaan suorituskyvyn varmistamisessa, ja hienosäätövaihtoehdot ovat saatavilla BIOS HPC -kuormitusprofiilissa, joka voidaan määrittää tehtaalla tai määrittää Dell EMC:n järjestelmänhallinta-apuohjelmilla.

HPC- ja AI Innovation Labilla on uusi 64 palvelimen Rooma-pohjainen PowerEdge-klusteri Minerva. Katso tästä tilasta seuraavat blogit, joissa kuvataan sovellusten suorituskykytutkimuksia uudessa Minerva-klusterissamme.


Alkuun

 

Article Properties


Last Published Date

15 Mar 2024

Version

6

Article Type

Solution