Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products
  • Manage your Dell EMC sites, products, and product-level contacts using Company Administration.

AMD Rome – onko se totta? Arkkitehtuuri ja HPC:n alkuperäinen suorituskyky

Summary: HPC-maailmassa tänään johdanto AMD: n uusimman sukupolven EPYC-prosessorikoodiin Rooma.

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content


Symptoms

Garima Kochhar, Deepthi Cherlopalle, Joshua Weage. HPC ja AI Innovation Lab, lokakuu 2019

Cause

 

Resolution


Nykypäivän HPC-maailmassa AMD: n uusimman sukupolven EPYC-prosessorinSLN319015_en_US__1iC_External_Link_BD_v1 koodinimi Rooma tuskin tarvitsee esittelyä. Olemme arvioineet Roomassa olevia järjestelmiä HPC: ssä ja AI Innovation Labissa viime kuukausina ja Dell Technologiesilmoitti äskettäin palvelimista, SLN319015_en_US__1iC_External_Link_BD_v1 jotka tukevat tätä prosessoriarkkitehtuuria. Tässä Rooma-sarjan ensimmäisessä blogissa keskustellaan Rooman prosessoriarkkitehtuurista, miten se voidaan virittää HPC-suorituskyvyn mukaan ja esittää alustava mikrovertailusuorituskyky. Seuraavissa blogeissa kuvataan sovellusten suorituskykyä CFD:n, CAE:n, molekyylidynamiikan, sääsimuloinnin ja muiden sovellusten toimitunnilla.


 

Arkkitehtuuri

 

Rooma on AMD: n toisen sukupolven EPYC-prosessori, joka virkistää heidän ensimmäisen sukupolven Napolia. Keskustelimme Napolista tässä blogissa viime vuonna.

Yksi suurimmista arkkitehtonisista eroista Napolin ja Rooman välillä, joka hyödyttää HPC: tä, on uusi IO kuolee Roomassa. Roomassa jokainen prosessori on monisirupaketti, joka koostuu enintään 9 lastusarjasta kuvan 1 mukaisesti. On olemassa yksi keskeinen 14nm IO die, joka sisältää kaikki IO- ja muistitoiminnot - ajattele muistiohjaimia, Infinity-kangaslinkkejä pistorasian sisällä ja pistorasian välistä yhteyttä ja PCI-e: tä. Liitäntää kohden on kahdeksan muistiohjainta, jotka tukevat kahdeksaa DDR4-muistikanavaa 3200 MT/s:n nopeudessa. Yksiliitäntäinen palvelin voi tukea jopa 130 PCIe Gen4 -kaistaa. Kaksoishylsyjärjestelmä voi tukea jopa 160 PCIe Gen4 -kaistaa.

SLN319015_en_US__3Fig1-Rooma(2)

(Kuva.1 Roomanmonisirupaketti, jossa on yksi IO:n keskivaihe ja enintään kahdeksan ytimen kuomut)

Keski-IO:n ympärillä on jopa kahdeksan 7nm ydinsirua. Ydinsirua kutsutaan ydinvälimuistiksi tai CCD: ksi. Jokaisessa CCD:ssä on Zen2-mikroarkkitehtuurin, L2-välimuistin ja 32 Mt:n L3-välimuistiin perustuvat suorittimen ytimet. CCD: llä itsessään on kaksi ydinvälimuistikompleksia (CCX),SLN319015_en_US__1iC_External_Link_BD_v1 jokaisella CCX: llä on enintään neljä ydintä ja 16 Mt L3-välimuistia. Kuvassa 2 näkyy CCX.

SLN319015_en_US__5Fig2-Rooma(2)

(Kuva 2 CCX, jossa on neljä ydintä ja jaettu 16 Mt:n L3-välimuisti)

Rooman eri prosessorimalleissaSLN319015_en_US__1iC_External_Link_BD_v1 on eri määrä ytimä, muttaSLN319015_en_US__1iC_External_Link_BD_v1 kaikissa on yksi keskeinen IO-kuolema.

Yläpäässä on 64 ydinprosessorin malli, esimerkiksi EPYC 7702. lstopo-lähtö osoittaa meille, että tässä prosessorissa on 16 CCX: ää pistorasiaa kohti, jokaisessa CCX: ssä on neljä ydintä kuvan .3 ja 4 mukaisesti, mikä tuottaa 64 ydintä pistorasiaa kohti. 16 Mt:n L3 CCX:ää kohti eli 32 Mt:n L3 CCD:tä kohden antaa tälle suorittimelle yhteensä 256 Mt:n L3-välimuistin. Huomaa kuitenkin, että kaikki ytimet eivät jaa Rooman L3-välimuistin kokonaismäärää. Kunkin CCX:n 16 megatavun L3-välimuisti on riippumaton, ja vain CCX:n ytimet jakavat sen kuvan 2 mukaisesti.

EPYC 7402:n kaltaisessa 24-ytimisessä suorittimen välimuistissa on 128 Mt:n L3-välimuisti. lstopo-lähtö kuvassa.3 ja 4 havainnollistaa, että tässä mallissa on kolme ydintä CCX:ää kohti ja 8 CCX per pistorasia.

SLN319015_en_US__8Fig31-Rooma(2)

SLN319015_en_US__9Fig32-Rooma(2)

(Kuva 3 ja 4 lstopo-lähtö 64-ytimisten ja 24-ytimisten CTU:iden tuloste)

Riippumatta ccd:iden määrästä, jokainen Rooman prosessori on loogisesti jaettu neljään kvadranttiin, joiden ccd-lääkkeet jakautuvat mahdollisimman tasaisesti kvadranteille ja kaksi muistikanavaa kussakin kvadrantissa. Keskisen IO-kuopan voidaan ajatella tukevan loogisesti pistorasian neljää kvadranttia.


Alkuun

 

 

Rooman arkkitehtuuriin perustuvat BIOS-vaihtoehdot

 

Rooman keskeinen IO-kuolema auttaa parantamaan muistin latenssejaSLN319015_en_US__1iC_External_Link_BD_v1 Napolissa mitattuihin. Lisäksi sen avulla suoritin voidaan määrittää er ityiseksi NUMA-verkkotunnukseksi, joka mahdollistaa yhdenmukaisen muistin käytön kaikille vastakkeen ytimille. Tämä selitetään alla.

Rooman suorittimen neljä loogista kvadranttia mahdollistavat suorittimen jakamisen eri NUMA-verkkotunnuksian. Tätä asetusta kutsutaan NUMA:ksi vastaketta tai NPS:n kautta.

  • NPS1 viittaa siihen, että Rooman suoritin on yksi NUMA-verkkotunnus, jossa on kaikki hylsyn ytimet ja kaikki muisti tässä yhdessä NUMA-verkkotunnuksessa. Muisti on kahdeksan muistikanavan välillä. Kaikki vastakkeen PCIe-laitteet kuuluvat tähän yksittäiseen NUMA-toimialueeseen
  • NPS2 osioi suorittimen kahteen NUMA-toimialueeseen, joissa on puolet ytimestä ja puolet kunkin NUMA-verkkotunnuksen vastakkeen muistikanavista. Muisti välittyvät kunkin NUMA-toimialueen neljän muistikanavan välillä
  • NPS4 osioi suorittimen neljään NUMA-toimialueeseen. Jokainen kvadrantti on täällä NUMA-verkkotunnus ja muisti on kahden muistikanavan välillä jokaisessa kvadrantissa. PCIe-laitteet ovat paikallisia yhdessä neljästä NUMA-verkkotunnuksesta pistorasiassa sen mukaan, missä IO-dien kvadrantissa on laitteen PCIe-juuri
  • Kaikki prosessorit eivät tue kaikkia NPS-asetuksia

Jos saatavilla, NPS4: ää suositellaan HPC: lle, koska sen odotetaan tarjoavan parhaan muistikaistanleveyden, alhaisimmat muistin latenssit ja sovelluksemme ovat yleensä NUMA-tietoisia. Jos NPS4 ei ole käytettävissä, suosittelemme korkeinta NPS:ää, jota tukee suoritinmalli - NPS2 tai jopa NPS1.

Koska Rooma-pohjaisia alustoja on saatavilla lukuisia NUMA-vaihtoehtoja, PowerEdge BIOS sallii madt-luetteloinnissa kaksi erilaista ydinten luettelointimenetelmiä. Lineaarinen luettelointi numeroi ytimet järjestyksessä täyttäen yhden CCX:n, CCD:n, vastakkeen ennen seuraavaan pistorasiaan siirtymistä. 32c-suorittimen ytimet 0-31 ovat ensimmäisessä pistorasiassa, ytimet 32-63 toisessa pistorasiassa. Pyöreä robin-luettelointi numeroi NUMA-alueiden ytimet. Tässä tapauksessa parittomat ytimet ovat toisessa pistorasiassa, parittomat ytimet toisessa pistorasiassa. Yksinkertaisuuden vuoksi suosittelemme lineaarista luettelointia HPC: lle. Katso kuvasta.5 esimerkki lineaarisesta ydinlukutoimituksesta NPS4:ään määritetyssä kaksiliitäntäisen 64c-palvelimen kaksipistorttimassa. Kuvassa jokainen neljän ytimen laatikko on CCX, jokainen kahdeksan ytimen joukko on CCD.

SLN319015_en_US__11Fig4-Rooma(2)

(Kuva.5 Lineaarinen ydinluku kaksoishylsyjärjestelmässä, 64c per pistorasia, NPS4-kokoonpano 8 CCD-suorittimen mallissa)

Toinen Rooma-erityinen BIOS-vaihtoehto on nimeltään Preferred IO Device. Tämä on tärkeä viritysnuppi InfiniBand-kaistanleveydelle ja sanoman hinnalle. Sen avulla alusta voi priorisoida yhden IO-laitteen liikennettä. Tämä vaihtoehto on saatavana yksipistorasialla sekä kaksiliitäntäisellä Rooman alustoilla, ja alustan InfiniBand-laite on valittava BIOS-valikon ensisijaiseksi laitteeksi, jotta saavutetaan täysi sanomanopeus, kun kaikki suorittimen ytimet ovat aktiivisia.

Kuten Napoli, Rooma tukee myös hypersäikeittämistä tai loogista prosessoria. HPC: lle tämä on poistettu käytöstä, mutta jotkin sovellukset voivat hyötyä loogisen suorittimen käyttöönotosta. Etsi seuraavat blogimme molekyylidynamiikan sovellustutkimuksista.

Samoin kuin Napoli, Rooma sallii myös CCX NUMA Domain. Tämä vaihtoehto näyttää kunkin CCX:n NUMA-solmuna. Järjestelmässä, jossa on kaksiliitäntäiset suorittimia, joissa on 16 kopiokonetta suoritinta kohti, tämä asetus paljastaa 32 NUMA-toimialuetta. Tässä esimerkissä jokaisessa pistorasiassa on 8 CCD:tä eli 16 CCX:ää. Jokainen CCX voidaan ottaa käyttöön omana NUMA-verkkotunnuksenaan, mikä antaa 16 NUMA-solmua pistorasiaa kohti ja 32 kahden pistorasian järjestelmässä. HPC: lle on suositeltavaa jättää CCX NUMA-verkkotunnukseksi oletusvaihtoehtona, joka on poistettu käytöstä. Tämän asetuksen käyttöönoton odotetaan auttavan virtualisoituja ympäristöjä.

Napolin kaltaisessa Roomassa järjestelmä voidaan asettaa suorituskyvyn determinismi- taiteho determinismitilassa. Suorituskyvyn determinismissäjärjestelmä toimii odotetulla taajuudella suoritinmallille, mikä vähentää useiden palvelimien vaihtelevuutta. Power Determinism -järjestelmässäjärjestelmä toimii suorittimen mallin suurimmalla käytettävissä olevalla TDP:llä. Tämä vahvistaa osaa valmistusprosessin osavaihtelusta, jolloin jotkin palvelimet voivat olla nopeampia kuin toiset. Kaikki palvelimet saattavat kuluttaa suorittimen suurinta nimellistehoa, mikä tekee virrankulutuksesta determinististä, mutta mahdollistaa jonkin verran suorituskyvyn vaihtelua useissa palvelimista.

Kuten PowerEdge-alustoilta voi odottaa, BIOSissa on metavaihtoehto nimeltä järjestelmäprofiili. Suorituskyvyn optimoidun järjestelmäprofiilin valitseminen mahdollistaa turbon tehostustilan, poistaa C-tilat käytöstä ja asettaa determinismi-liukusäätimen tehon determinismiin suorituskyvyn optimoimiseksi.


Alkuun

 

 

Suorituskykytulokset – STREAM, HPL, InfiniBand-mikropenkkimerkit

 

Monet lukijoistamme ovat saattaneet hypätä suoraan tähän osioon, joten sukellamme suoraan sisään.

HPC: ssä ja AI Innovation Labissa olemme rakentaneet 64-palvelimen Rooma-pohjaisen klusterin, jota kutsumme Minervaksi. Homogeenisen Minerva-klusterin lisäksi meillä on muutamia muita Rooman prosessorinäytteitä, jotka pystyimme arvioimaan. Testipohjamme on kuvattu taulukoissa 1 ja taulukossa.2.

(Taulukko.1 Rooman suoritinmallit, jotka on arvioitu tässä tutkimuksessa)

Suoritin Ytimet hylsyä kohti Config Peruskello Suurin lämpöteho (TDP)
7702 64c(1)-2000 4c / CCX 2,0 GHz 200W
7502 32c(32c) 4c / CCX 2,5 GHz 180W(180W)
7452 32c(32c) 4c / CCX 2,35 GHz 155W(155W)
7402 24c(24c) 3c / CCX 2,8 GHz 180W(180W)

(Taulukko.2 Testattu)

Osa Tiedot
Palvelin PowerEdge C6525
suoritin Kuten taulukosta 1 käy ilmi, kaksoispistoke
Muisti 256 Gt, 16x16 Gt 3200 MT/s DDR4
Verkon liitäntä ConnectX-6 Mellanox Infini -kaista HDR100
Käyttöjärjestelmä Red Hat Enterprise Linux 7.6
Ydin 3.10.0.957.27.2.e17.x86_64
levy 240 Gt SATA SSD M.2 -moduuli


Alkuun

 

 

virta

 

Muistin kaistanleveystestit Roomassa esitetään kuvassa.6, nämä testit ajattiin NPS4-tilassa. Mittasimme ~270-300 Gt/s muistikaistanleveyden kaksiliitäntäisellä PowerEdge C6525 :llä, kun käytämme kaikkia palvelimen ytimiä taulukossa 1 luetelluissa neljässä suoritinmallissa. Kun CCX:ää kohden käytetään vain yhtä ydintä, järjestelmämuistin kaistanleveys on ~9–17 % suurempi kuin kaikilla ytimillä mitattu.

Useimmat HPC-kuormitukset joko tilaavat kaikki järjestelmän ytimet kokonaan tai HPC-keskukset toimivat suuren siirtonopeuden tilassa, jossa kussakin palvelimessa on useita töitä. Siksi koko ytimen muistikaistanleveys on järjestelmän muistin kaistanleveyden ja muistikaistanleveyden tarkempi esitys.

Kuvassa.6 piirrettiin myös edellisen sukupolven EPYC Naples -alustalla mitattu muistikaistanleveys, joka tuki myös kahdeksaa muistikanavaa pistorasiaa kohti, mutta pyöri 2667 MT/s. Rooma-alusta tarjoaa 5-19% paremman muistin kaistanleveyden kuin Napoli, ja tämä johtuu pääasiassa nopeammasta 3200 MT / s -muistista. Jopa 64c per pistorasia, Rooman järjestelmä voi tuottaa jopa 2 Gt / s / ydin.

SLN319015_en_US__12icon Huomautus: STREAM Triad -tulosten 5-10%: n suorituskyvyn vaihtelu mitattiin useilla identtisesti määritetyillä Rooma-pohjailla palvelimilla, joten alla olevien tulosten pitäisi olettaa olevan alueen yläpää.
 

Eri NPS-kokoonpanoja verrattaessa NPS4:llä mitattiin ~13 % suurempi muistikaistanleveys kuin NPS1:llä kuvan 7 mukaisesti.

SLN319015_en_US__13Fig5-Rooma(2)

(Kuva.6 Kaksiliitäntäinen NPS4 STREAM Triad -muistikaistanleveys)

SLN319015_en_US__14Fig6-Rooma(2)

(Kuva.7 NPS1 vs NPS2 vs NPS 4 Muistin kaistanleveys)


Alkuun

 

 

InfiniBand-kaistanleveys ja sanomanopeus

 

Kuvassa.8 piirretaan yksisuuntainen InfiniBand-kaistanleveys yksisuuntaisia ja kaksisuuntaisia testejä varten. Testbed käytti HDR100:aa, joka toimii nopeudella 100 Gbps, ja kaavio näyttää näiden testien odotetun linjanopeustehon.

SLN319015_en_US__15fig6-IBBW(2)

Kuva.8 InfiniBand-kaistanleveys (yksinytiminen))

SLN319015_en_US__16fig7-MR(2)

Kuva.9 InfiniBand-sanoman hinta (kaikki ytimet))

Sanomanopeustestit suoritettiin seuraavaksi käyttämällä kaikkia ytimiä kahden testattavan palvelimen vastakkeessa. Kun ensisijainen IO on käytössä BIOSissa ja ConnectX-6 HDR100 -sovitin on määritetty ensisijaiseksi laitteeksi, all-core-sanomanopeus on huomattavasti suurempi kuin silloin, kun ensisijainen IO ei ole käytössä kuvan 9 mukaisesti. Tämä havainnollistaa tämän BIOS-vaihtoehdon merkitystä, kun sitä viritetään HPC: lle ja erityisesti moni solmusovelluksen skaalautuvuudesta.


Alkuun

 

 

HPL

 

Rooman mikroarkkitehtuuri voi poistaa 16 DP FLOP / cycle - kaksinkertainen Napoliin verrattuna, joka oli 8 FLOPS / sykli. Tämä antaa Roomalle 4x teoreettisen huipun FLOPS Napolin yli, 2x parannetusta liukulukuominaisuudesta ja 2x kaksinkertaisesta ytimien määrästä (64c vs 32c). Kaaviossa 10 piirrettiin neljän testaamamme Rooman suoritinmallin mitatut HPL-tulokset sekä aiemmat tuloksemme Napolissa sijaitsevasta järjestelmästä. Rooman HPL-hyötysuhde mainitaan kaavion palkkien yläpuolella olevana prosenttiarvona, ja se on korkeampi alemmilla TDP-suoritinmalleilla.

Testit suoritettiin Power Determinism -tilassa, ja ~5%: n delta suorituskyvyssä mitattiin 64 identtisesti määritetyllä palvelimella, tulokset ovat siis tällä suorituskykyalueella.

SLN319015_en_US__17Fig9-Rooma(2)

(Kuva.10 Yksipalvelin HPL NPS4:ssä)

Seuraavat monisoidon HPL-testit suoritettiin ja tulokset piirretään kuvaan 11. EPYC 7452:n HPL-tehokkuus pysyy yli 90 prosentissa 64 solmun asteikolla, mutta tehokkuuden lasku 102 prosentista 97 prosenttiin ja takaisin 99 prosenttiin tarvitsee lisäarviointia

SLN319015_en_US__18Fig10-Rooma(2)

(Kuva.11 Moni solmu HPL, kaksiliitäntäinen EPYC 7452 HDR100 InfiniBandin yli)


Alkuun

 

 

Yhteenveto ja mitä on tulossa seuraavaksi

 

Alustavat suorituskykytutkimukset Roomassa pohjautuneille palvelimille osoittavat, että ensimmäiset HPC-vertailuarvomme ovat odotettuja. BIOS-viritys on tärkeää, kun määritetään parasta suorituskykyä, ja viritysvaihtoehdot ovat käytettävissä BIOS HPC -kuormitusprofiilissamme, joka voidaan määrittää tehtaalla tai asettaa Dell EMC -järjestelmien hallinta-apuohjelmien avulla.

HPC: llä ja AI Innovation Labilla on uusi 64-palvelin Roomassa sijaitseva PowerEdge-klusteri Minerva. Katso tästä tilasta seuraavat blogit, jotka kuvaavat sovellusten suorituskykytutkimuksia uudessa Minerva-klusterissamme.


Alkuun

 

Article Properties


Last Published Date

06 May 2021

Version

5

Article Type

Solution