Ga naar hoofdinhoud
  • Snel en eenvoudig bestellen
  • Bestellingen en de verzendstatus bekijken
  • Een lijst met producten maken en openen
  • Beheer uw Dell EMC locaties, producten en contactpersonen op productniveau met Company Administration.

Artikelnummer: 000130963


Dell EMC Ready oplossingen voor HPC BeeGFS High Performance Storage (in het Engels)

Samenvatting: PowerEdge R740xd, PowerEdge R640, PowerSwitch S3048-ON, Mellanox SB7890, BeeGFS v7.1.3, HPC en AI Innovation Lab, HPC, BeeGFS High Performance Storage Solution, IOzone, sequentiële lees- en schrijfprestaties, willekeurige lees- en schrijfprestaties ...

Dit artikel is mogelijk automatisch vertaald. Als u feedback hebt over de kwaliteit, laat het ons dan weten via het formulier onderaan deze pagina.

Article content


Symptomen

Artikel geschreven door Nirmala Sundararadan van het Dell EMC HPC en AI Innovation Lab in november 2019

Oorzaak

Dell EMC Ready oplossingen voor HPC BeeGFS High Performance Storage (in het Engels)

Oplossing

Inhoudsopgave

  1. Inleiding
  2. Referentiearchitectuur oplossing
  3. Hardware- en softwareconfiguratie
  4. Configuratiedetails oplossing
  5. R740xd, 24x NVMe-schijven, details over CPU-toewijzing
  6. Prestatiepersonalisatie
  7. Afronding en toekomstig werk
     

Inleiding

Het Dell EMC HPC-team kondigt met trots de release van de "Dell EMC Ready Solutions for HPC BeeGFS Storage" aan, de nieuwste toevoeging aan het HPC-storageportfolio. Deze oplossing maakt gebruik van R740xd servers, elk met 24 Intel P4600 1,6 TB NVMe, Mixed Use Express Flash-schijven en twee Mellanox ConnectX-5 InfiniBand EDR-adapters. In deze 24 NVMe-schijfconfiguratie maken 12x NVMe SSD's verbinding met een PCIe-switch en wordt elke switch via een x16 PCIe-extenderkaart op één CPU aangesloten. Bovendien is elke IB-interface verbonden met één CPU. Een dergelijke evenwichtige configuratie met elke CPU die is aangesloten op één InfiniBand-adapter en het verwerken van 12 NVMe SSD's biedt maximale prestaties door ervoor te zorgen dat de processors net zo goed bezig zijn met het verwerken van I/O-aanvragen van en naar de NVMe-schijven.

De focus van de oplossing ligt op high-performance I/O en is ontworpen als een snelle scratchoplossing.  De kern van de oplossing is het gebruik van snelle NVMe SSD's die een zeer hoge bandbreedte en lage latentie bieden door de scheduler te verwijderen en knelpunten in de wachtrij uit de bloklaag te halen. Het BeeGFS-bestandssysteem ondersteunt ook een hoge geaggregeerde I/O-doorvoer

Referentiearchitectuur oplossing

Afbeelding 1 toont de referentiearchitectuur van de oplossing. De beheerserver is alleen verbonden via Ethernet met de metadata- en storageservers. Elke metadata- en storageserver heeft twee InfiniBand-koppelingen en is via Ethernet verbonden met het privénetwerk. De clients hebben één InfiniBand-koppeling en zijn verbonden met de privé-interface via Ethernet.
SLN319381_en_US__1bee1
Afbeelding 1:  Dell EMC Ready oplossingen voor HPC BeeGFS Storage - Referentiearchitectuur

Hardware- en softwareconfiguratie

Tabel 1 en 2 beschrijven respectievelijk de hardwarespecificaties van de beheerserver en metadata/storageserver. Tabel 3 beschrijft de softwareversies die voor de oplossing worden gebruikt.

 

Tabel 1 PowerEdge R640 configuratie (beheerserver)
Server Dell EMC PowerEdge R640
Processor 2 x Intel Xeon Gold 5218 2,3 GHz, 16 cores
Geheugen 12 x 8 GB DDR4 2666 MT/s DIMM's - 96 GB
Lokale schijven 6 x 300 GB 15.000 RPM SAS 2,5 inch HDD's
RAID-controller PERC H740P geïntegreerde RAID-controller
Out-of-band-beheer iDRAC9 Enterprise met Lifecycle Controller
Voedingen Dubbele voedingseenheden van 1100 W
BIOS-versie 2.2.11
Besturingssysteem CentOS™ 7.6
Kernel-versie 3.10.0-957.27.2.el7.x86_64

 

Tabel 2 PowerEdge R740xd configuratie (metadata en storageservers)
Server Dell EMC PowerEdge R740xd
Processor 2x Intel Xeon Platinum 8268 CPU bij 2,90 GHz, 24 cores
Geheugen 12 x 32 GB DDR4 2933 MT/s DIMM's - 384 GB
BOSS-kaart 2 x 240 GB M.2 SATA SSD's in RAID 1 voor OS
Lokale schijven 24 x Dell Express Flash NVMe P4600 1,6 TB 2,5" U.2
Mellanox EDR-kaart 2x Mellanox ConnectX-5 EDR-kaart (slots 1 en 8)
Out-of-band-beheer iDRAC9 Enterprise met Lifecycle Controller
Voedingen Dubbele voedingseenheden van 2000 W

 

Tabel 3 Softwareconfiguratie (metadata- en storageservers)
BIOS 2.2.11
CPLD 1.1.3
Besturingssysteem CentOS™ 7.6
Kernel-versie 3.10.0-957.el7.x86_64
iDRAC 3.34.34.34
Systeembeheertool OpenManage Server Administrator 9.3.0-3407_A00
Mellanox OFED 4.5-1.0.1.0
NVMe SSD's QDV1DP13
*Intel ® Data Center Tool  3.0.19
BeeGFS 7.1.3
Basana 6.3.2
Inf luxDB 1.7.7
IOzone-benchmark 3.487
*Voor beheer- en firmware-update van Intel P4600NVMe SSD's

Configuratiedetails oplossing

De BeeGFS-architectuur bestaat uit vier hoofdservices:
  • Beheerservice
  • Metadataservice
  • Storageservice
  • Clientservice
Behalve voor de clientservice die een kernelmodule is, zijn de beheer-, metadata- en storageservices processen voor gebruikersruimte. Afbeelding 2 illustreert hoe de referentiearchitectuur van de Dell EMC Ready oplossingen voor HPC BeeGFS Storage de algemene architectuur van het BeeGFS bestandssysteem toewijst.
SLN319381_en_US__2arch
Afbeelding 2:  BeeGFS bestandssysteem op PowerEdge R740xd met NVMe SSD's

Beheerservice

Elk BeeGFS bestandssysteem of naamruimte heeft slechts één beheerservice. De beheerservice is de eerste service die moet worden ingesteld, omdat wanneer we alle andere services configureren, zij zich moeten registreren bij de beheerservice.  Een PowerEdge R640 wordt gebruikt als beheerserver. Naast het hosten van de beheerservice (beegfs-mgmtd.service), host het ook de bewakingsservice (beegfs-mon.service) die statistieken van het systeem verzamelt en deze aan de gebruiker levert, met behulp van de tijdreeksdatabase Inf luxDB. Voor de visualisatie van data biedt beegfs-mon vooraf gedefinieerde Transportana-deelvensters die out-of-the-box kunnen worden gebruikt. De beheerserver heeft 6x 300 GB HDD's geconfigureerd in RAID 10 voor het besturingssysteem en Inf luxDB.

Metadataservice

De metadataservice is een scale-outservice, wat betekent dat er veel metadataservices in een BeeGFS bestandssysteem kunnen zijn. Elke metadataservice heeft echter precies één metadatadoel om metadata op te slaan.  Op het metadatadoel maakt BeeGFS één metadatabestand per door de gebruiker gemaakt bestand. BeeGFS-metadata worden gedistribueerd per directory. De metadataservice biedt de data striping-informatie aan de clients en is niet betrokken bij de datatoegang tussen openen/sluiten van bestanden.

Een PowerEdge R740xd met 24x Intel P4600 1,6 TB NVMe, schijven worden gebruikt voor metadatastorage. Omdat de storagecapaciteitsvereisten voor BeeGFS-metadata zeer klein zijn, werden in plaats van een speciale metadataserver alleen de 12 schijven op NUMA-zone 0 gebruikt om de MetaData Targets (MDT's) te hosten, terwijl de resterende 12 schijven op NUMA-zonehost Storage Targets (ST's) hosten.

Afbeelding 3 toont de metadataserver. De 12 schijven in de gele rechthoek zijn de MDT's in de NUMA-zone 0 en de 12 schijven die in de groene rechthoek staan, zijn de ST's in de NUMA-zone 1. Deze configuratie voorkomt niet alleen NUMA-problemen, maar biedt ook voldoende metadatastorage om de capaciteit en prestaties zo nodig te vergemakkelijken.

SLN319381_en_US__3mds

Afbeelding 3:  Metadata Server

Afbeelding 4 toont de RAID-configuratie van de metadataserver. Hier wordt aangegeven hoe de schijven in de NUMA-zone 0 de MDT's en de MDT's in NUMA-zone 1 hosten voor de storagedata, terwijl de storageservers de SSD's hosten in beide NUMA-zones.

SLN319381_en_US__4mdsraid

Afbeelding 4:  Configuratie van stations in de metadataserver

De 12 schijven die worden gebruikt voor metadata worden geconfigureerd als 6x RAID 1-schijfgroep van 2 schijven, die elk dienen als een MDT. Er worden 6 metadataservices uitgevoerd die elk één MDT verwerken. De overige 12 storagestations zijn geconfigureerd in 3x RAID 0-schijfgroepen van elk 4 schijven. Er worden drie storageservices uitgevoerd op de NUMA 1-zone, één service voor elke ST. De server die de metadata en storagedoelen co-hostt, heeft dus 6 MDT's en 3 SSD's. Het voert ook 6 metadataservices en drie storageservices uit. Elke MDT is een ext4-bestandssysteem op basis van een RAID 1-configuratie. De ST's zijn gebaseerd op het XFS bestandssysteem dat is geconfigureerd in RAID 0.
 

Storageservice

Net als de metadataservice is de storageservice ook een scale-outservice. Er kunnen veel exemplaren van de storageservice in een BeeGFS-bestandssysteem zijn. In tegenstelling tot de metadataservice kunnen er echter verschillende storagedoelen per storageservice zijn.  De storageservice slaat de inhoud van het striped gebruikersbestand op, ook wel datasegmentbestanden

genoemd Afbeelding 5 toont de 5x PowerEdge R740xd servers die worden gebruikt als storageservers.
SLN319381_en_US__5image005
Afbeelding 5:  Speciale storageservers

Elke storageserver is geconfigureerd met 6x RAID 0-groepen, elk van 4 schijven, dus host 6 ST's per server (3 per NUMA-zone), zoals wordt weergegeven in afbeelding 6 hieronder:

SLN319381_en_US__6straidAfbeelding 6:  Configuratie van schijven in de storageservers

In totaal host de basisreferentiearchitectuurconfiguratie 6 MDT's en 33 SSD's. Het hebben van vijf speciale storageservers biedt een onbewerkte capaciteit van 211 TB en een bruikbare capaciteit van 190TiB. De geschatte bruikbare capaciteit in TiB = aantal schijven x capaciteit per schijf in TB x 0,99 (overhead van het bestandssysteem) x (10^12/2^40). Dit zou ideaal zijn als een mid-range scratchoplossing met voldoende metadatastorage om het toevoegen van meer storageservers te vergemakkelijken naarmate de capaciteitsvereisten toenemen.

Gezien de volgende factoren is een RAID 0-configuratie gekozen voor storagedoelen boven RAID 10-configuratie.
  1. Schrijfprestaties werden gemeten met dd-opdrachten door een 10GiB-bestand van 1MiB-blokgrootte te maken en directe I/O voor data, voor RAID 0-apparaten was het gemiddelde ongeveer 5,1 GB/s voor elk apparaat en voor RAID 10-apparaten was het gemiddelde 3,4 GB/s voor elk apparaat.
  2. StorageBench-benchmarktests toonden aan dat de maximale doorvoersnelheid 5,5 GB/s was voor de RAID 0-configuratie, terwijl het 3,4 GB/s is voor een RAID 10-configuratie. Deze resultaten zijn hetzelfde als de resultaten die zijn verkregen met behulp van dd-opdrachten.
  3. RAID 10 biedt 50% gebruik van de schijfcapaciteit en een vergelijkbare vermindering van de schrijfprestaties van 50%. Het gebruik van RAID 10 is een dure manier om storageredundantie te verkrijgen.
  4. NVMe-schijven zijn duur en bieden snelheden die het beste kunnen worden gebruikt in een RAID 0-configuratie
  5. De Intel P4600 SSD's die in de configuratie worden gebruikt, zijn zeer betrouwbaar met een Daily Writes Per Day (DWPD) van 3, wat betekent dat u er de komende vijf jaar elke dag 4,8 TB aan data in kunt schrijven.
 

Clientservice

De BeeGFS-clientmodule moet worden geladen op alle hosts die toegang moeten krijgen tot het BeeGFSs bestandssysteem. Wanneer de beegfs-client wordt geladen, worden de bestandssystemen gekoppeld die zijn gedefinieerd in het bestand/etc/beegfs/beegfs-mounts.conf in plaats van de gebruikelijke benadering op basis van /etc/fstab.  Als u deze aanpak implementeert, wordt de beegfs-client zoals elke andere Linux-service gestart via het opstartscript van de service. Het schakelt ook de automatische hercompilatie van de BeeGFS-clientmodule in na systeemupdates. 

Wanneer de clientmodule wordt geladen, worden de bestandssystemen gekoppeld die zijn gedefinieerd in de beegfs-mounts.conf. Het is mogelijk om meerdere beegfs-instanties op dezelfde client te koppelen, zoals hieronder wordt weergegeven:

$ cat /etc/beegfs/beegfs-mounts.conf
/mnt/beegfs-medium /etc/beegfs/beegfs-client-medium.conf
/mnt/beegfs-small /etc/beegfs/beegfs-client-small.conf

Het bovenstaande voorbeeld toont twee verschillende bestandssystemen die op dezelfde client zijn gekoppeld. Voor deze test werden 32x C6420 knooppunten gebruikt als clients.

R740xd, 24x NVMe-schijven, details over CPU-toewijzing


In de 24xNVMe-configuratie van de PowerEdge R740xd server zijn er twee x16 NVMe-bridgekaarten die DE PCIe-switch voeden op de backplane die de schijven uit en voedt (schijven zijn x4) aan de voorkant, zoals wordt weergegeven in afbeelding 7 hieronder:


SLN319381_en_US__7nvmeAfbeelding 7:  R740xd, 24x NVMe details over CPU Mapping

In Non-Uniform Memory Access (NUMA), systeemgeheugen wordt verdeeld in zones genaamd knooppunten, die worden toegewezen aan CPU's of sockets. Toegang tot geheugen dat lokaal is voor een CPU is sneller dan geheugen dat is aangesloten op externe CPU's op het systeem. Een threaded applicatie presteert meestal het beste wanneer de threads toegang hebben tot het geheugen op hetzelfde NUMA-knooppunt. De prestatie-impact van NUMA-missers is aanzienlijk, meestal beginnend bij een hit of hoger van 10% van de prestaties. Om de prestaties te verbeteren, zijn de services geconfigureerd voor het gebruik van specifieke NUMA-zones om onnodig gebruik van UPI cross-socket-koppelingen te voorkomen, waardoor de latentie wordt verminderd. Elke NUMA-zone verwerkt 12 schijven en gebruikt een van de twee InfiniBand EDR-interfaces op de servers. Deze NUMA-scheiding wordt bereikt door handmatig NUMA-balancing te configureren door aangepaste systeemeenheidsbestanden te maken en door multihoming te configureren. Daarom is de automatische NUMA-balancing uitgeschakeld, zoals hieronder wordt weergegeven:

# cat /proc/sys/kernel/numa_balancing
0

Afbeelding 8 toont het testbed waar de InfiniBand-verbindingen met de NUMA-zone zijn gemarkeerd.  Elke server heeft twee IP-koppelingen en het verkeer via de NUMA 0-zone wordt overgedragen via interface-IB0 terwijl het verkeer via de NUMA 1-zone wordt afgehandeld via interface IB1.
SLN319381_en_US__8image003(1)
Afbeelding 8:  Testbed-configuratie
 

Prestatiepersonalisatie

Dit gedeelte bevat de prestatie-evaluatie die helpt bij het kenmerken van de Dell EMC Ready oplossing voor HPC BeeGFS High performance Storage Solution. Raadpleeg voor meer informatie en updates een whitepaper die later wordt gepubliceerd. De systeemprestaties zijn geëvalueerd met behulp van de IOzone-benchmark. De oplossing is getest op sequentiële lees- en schrijfdoorvoer en willekeurige IOPS voor lezen en schrijven. Tabel 4 beschrijft de configuratie van de C6420-servers die werden gebruikt als BeeGFS-clients voor de prestatieonderzoeken die in deze blog worden gepresenteerd.
 
Tabel 4 Clientconfiguratie
Clients 32x Dell EMC PowerEdge C6420 Compute Nodes
BIOS 2.2.9
Processor 2 x Intel Xeon Gold 6148 CPU bij 2,40GHz met 20 cores per processor
Geheugen  12 x 16 GB DDR4 2666 MT/s DIMM's - 192 GB
BOSS-kaart 2 x 120 GB M.2-opstartstations in RAID 1 voor os
Besturingssysteem Red Hat Enterprise Linux Server release 7.6
Kernel-versie 3.10.0-957.el7.x86_64
Interconnect 1x Mellanox ConnectX-4 EDR-kaart
OFED-versie 4.5-1.0.1.0

Sequentiële schrijf- en leesbewerkingen N-N

Om sequentiële lees- en schrijfbewerkingen te evalueren, werd de IOzone-benchmark gebruikt in de sequentiële lees- en schrijfmodus. Deze tests zijn uitgevoerd op meerdere threadaantallen vanaf 1 thread en toenemend in vermogens van 2, tot 1024 threads. Bij elk aantal threads is een gelijk aantal bestanden gegenereerd omdat deze test werkt op één bestand per thread of de N-clients naar N-bestand (N-N) case. De processen zijn gedistribueerd over 32 fysieke clientknooppunten op een round robin- of cyclisch manier, zodat de aanvragen gelijkmatig worden verdeeld en er een werklastverdeling is. Er is een totale bestandsgrootte van 8 TB geselecteerd die gelijkmatig werd verdeeld over het aantal threads binnen een bepaalde test. De totale bestandsgrootte is groot genoeg gekozen om de effecten van caching van de servers en van BeeGFS-clients tot een minimum te beperken. IOzone werd uitgevoerd in een gecombineerde modus van schrijven en lezen (-i 0, -i 1) om de grenzen tussen de bewerkingen te kunnen coördineren. Voor deze tests en resultaten hebben we een recordgrootte van 1MiB gebruikt voor elke uitvoering. De opdrachten die worden gebruikt voor sequentiële N-N tests worden hieronder gegeven:

Opeenvolgende schrijf- en leesbewerkingen: iozone -i 0 -i 1 -c -e -w -r 1m -I -s $Size -t $Thread -+n -+m /path/to/threadlist

Besturingssysteemcaches zijn ook gedropt of gereinigd op de clientknooppunten tussen iteraties en tussen schrijf- en leestests door de opdracht uit te voeren:

# sync && echo 3 > /proc/sys/vm/drop_caches

Het standaard aantal stripe's voor Beegfs is 4. De segmentgrootte en het aantal doelen per bestand kunnen echter per map worden geconfigureerd. Voor al deze tests is de grootte van de BeeGFS-stripe gekozen als 2 MB en het stripe-aantal is gekozen als 3 omdat we drie doelen per NUMA-zone hebben, zoals hieronder wordt weergegeven:

$ beegfs-ctl --getentryinfo --mount=/mnt/beegfs /mnt/beegfs/benchmark --verbose
EntryID: 0-5D9BA1BC-1
ParentID: root
metadata-knooppunt: node001-numa0-4 [ID: 4]
Details stripe-patroon:
+ Type: RAID0
+ chunksize: Meer dan 2 miljoen
storagedoelen: gewenst: 3

+ Storagepool: 1 (standaard)
Inode hash-pad: 7/5E/0-5D9BA1BC-1

De transparante enorme pagina's zijn uitgeschakeld en de volgende afstemmingsopties zijn beschikbaar op de metadata- en storageservers:

  • vm.dirty_background_ratio = 5 
  • vm.dirty_ratio = 20 
  • vm.min_free_kbytes = 262144 
  • vm.vfs_cache_pressure = 50
  • vm.zone_reclaim_mode = 2 
  • kernel.numa_balancing = 0

Naast het bovenstaande zijn de volgende Afstemmingsopties voor BeeGFS gebruikt: 

  • tuneTargetByteoser parameter is ingesteld op 'roundrobin' in het metadataconfiguratiebestand 
  • parameter tuneNumWorkers is ingesteld op 24 voor metadata en 32 voor storage 
  • connMaxInternodeNum parameter is ingesteld op 32 voor metadata en 12 voor storage en 24 voor clients

SLN319381_en_US__9seq2
Afbeelding 9:  Sequentiële IOzone 8TB totale bestandsgrootte


In afbeelding 9 zien we dat piekleesprestaties 132 GB/s bij 1024 threads zijn en piekschrijfbewerking 121 GB/s bij 256 threads. Volgens de technische specificaties van de Intel P4600 1,6 TB NVMe SSD's kan elke schijf piekprestaties van 3,2 GB/s en piekschrijfprestaties van 1,3 GB/s bieden, wat een theoretisch piekvermogen van 422 GB/s voor leesbewerkingen en 172 GB/s voor schrijfbewerkingen mogelijk maakt. Hier is het netwerk echter de beperkende factor. We hebben in totaal 11 InfiniBand EDR-koppelingen voor de storageservers in de installatie. Elke koppeling kan een theoretische piekprestatie van 12,4 GB/s leveren, wat een theoretische piekprestatie van 136,4 GB/s mogelijk maakt. De behaalde piekprestaties voor lezen en schrijven zijn respectievelijk 97% en 89% van de theoretische piekprestaties.

De schrijfprestaties van één thread worden waargenomen op ~3 GB/s en worden gelezen op ~3 GB/s. We zien dat de schrijfprestaties lineair worden geschaald, pieken op 256 threads worden weergegeven en vervolgens afnemen. Bij lagere threadaantallen zijn de lees- en schrijfprestaties hetzelfde. Omdat we tot 8 threads hebben, hebben we 8 clients die 8 bestanden schrijven voor 24 doelen, wat betekent dat niet alle storagedoelen volledig worden gebruikt. We hebben 33 storagedoelen in het systeem en daarom zijn ten minste 11 threads nodig om alle servers volledig te kunnen gebruiken. De leesprestaties registreren een constante lineaire toename met de toename van het aantal gelijktijdige threads en we zien bijna vergelijkbare prestaties bij 512 en 1024 threads.

We zien ook dat de leesprestaties lager zijn dan schrijfbewerkingen voor threadaantallen van 16 tot 128 en vervolgens beginnen de leesprestaties te schalen. Dit komt doordat een PCIe-leesbewerking een niet-gepubliceerde bewerking is, die zowel een aanvraag als een voltooiing vereist, een PCIe-schrijfbewerking een brand- en vergeetbewerking is. Zodra het Transaction Layer-pakket wordt overgedragen aan de Data Link Layer, wordt de bewerking voltooid. Een schrijfbewerking is een "Gepubliceerde" bewerking die alleen uit een aanvraag bestaat.

De leesdoorvoer is meestal lager dan de schrijfsnelheid, omdat leesbewerkingen twee transacties vereisen in plaats van één schrijfbewerking voor dezelfde hoeveelheid data. De PCI Express gebruikt een gesplitst transactiemodel voor leesbewerkingen. De leestransactie omvat de volgende stappen:

  • De aanvrager stuurt een Memory Read Request (MRR).
  • De completer stuurt de bevestiging naar MRR.
  • De completer retourneert een voltooiing met data.

De leesdoorvoer hangt af van de vertraging tussen de tijd dat de leesaanvraag wordt uitgegeven en de tijd die de completer nodig heeft om de data te retourneren. Wanneer de applicatie echter voldoende leesaanvragen geeft om deze vertraging te verhelpen, wordt de doorvoer gemaximaliseerd. Dat is de reden waarom, hoewel de leesprestaties lager zijn dan die van de schrijfbewerkingen van 16 threads naar 128 threads, we een hogere doorvoersnelheid meten wanneer het aantal aanvragen toeneemt.  Een lagere doorvoersnelheid wordt gemeten wanneer de aanvrager wacht op voltooiing voordat volgende aanvragen worden ingediend. Een hogere doorvoersnelheid wordt geregistreerd wanneer meerdere aanvragen worden uitgegeven om de vertraging te amortiseren nadat de eerste data zijn geretourneerd.

Meer informatie over pci Express Direct-geheugentoegang is beschikbaar op https://www.intel.com/content/www/us/en/programmable/documentation/nik1412547570040.html#nik1412547565760


Willekeurige schrijf- en leesbewerkingen N-N

Om willekeurige I/O-prestaties te evalueren, werd IOzone in de willekeurige modus gebruikt. Er zijn tests uitgevoerd op het aantal threads vanaf 4 threads tot maximaal 1024 threads. De directe IO-optie (-I) is gebruikt om IOzone uit te voeren, zodat alle bewerkingen de buffercache omzeilen en rechtstreeks naar de schijf gaan. BeeGFS stripe count van 3 en segmentgrootte van 2 MB werd gebruikt. Een aanvraaggrootte van 4KiB wordt gebruikt op IOzone. De prestaties worden gemeten in I/O-bewerkingen per seconde (IOPS). De OS-caches zijn gedropt tussen de runs op de BeeGFS-servers en beeGFS-clients. De opdracht die wordt gebruikt voor het uitvoeren van willekeurige schrijf- en leesbewerkingen wordt hieronder gegeven:

Willekeurige lees- en schrijfbewerkingen: iozone -i 2 -w -c -O -I -r 4K -s $Size -t $Thread -+n -+m /path/to/threadlist


SLN319381_en_US__10seq
Afbeelding 10:  Random Read and Write Performance using IOzone wth 8TB aggregate file size

The random writes peak at ~3,6 Million IOPS at 512 threads and the random reads peak at ~3,5 Million IOPS at 1024 threads, zoals weergegeven in afbeelding 10. Zowel de schrijf- als leesprestaties geven hogere prestaties weer wanneer er een hoger aantal IO-aanvragen zijn. Dit komt doordat NVMe-standaard ondersteuning biedt voor maximaal 64K I/O-wachtrij en tot 64K opdrachten per wachtrij. Deze grote groep NVMe-wachtrijen biedt hogere niveaus van I/O-parallelisme en daarom zien we dat IOPS groter is dan 3 miljoen.


Afronding en toekomstig werk

Deze blog kondigt de release van de Dell EMC High Performance BeeGFS Storage Solution aan en belicht de prestatiekenmerken. De oplossing heeft een piek in sequentiële lees- en schrijfprestaties van respectievelijk ~132 GB/s en ~121 GB/s en de willekeurige schrijfbewerkingen pieken op ~3,6 miljoen IOPS en willekeurige leesbewerkingen op ~3,5 miljoen IOPS.

Deze blog is onderdeel van "BeeGFS Storage Solution" die is ontworpen met de focus op scratchruimte met hoge prestaties. Blijf op de hoogte van deel 2 van de blogserie waarin wordt beschreven hoe de oplossing kan worden geschaald door het aantal servers te verhogen om de prestaties en capaciteit te verhogen. Deel 3 van de blogserie bespreekt extra functies van BeeGFS en belicht het gebruik van "StorageBench", de ingebouwde storagedoelenbenchmark van BeeGFS.

Als onderdeel van de volgende stappen publiceren we later een whitepaper met de metadataprestaties en de N-threads naar 1 bestands-IOR-prestaties en met aanvullende details over ontwerpoverwegingen, afstemming en configuratie.


Verwijzingen

[1] BeeGFS documentatie: 
https://www.beegfs.io/wiki/[2] Verbinding maken tussen twee interfaces op hetzelfde subnet: 
https://access.redhat.com/solutions/30564[3] PCI Express Direct Memory Access Reference Design met extern geheugen: https://www.intel.com/content/www/us/en/programmable/documentation/nik1412547570040.html#nik1412547565760

Artikeleigenschappen


Getroffen product

PowerSwitch S3048-ON, Mellanox SB7800 Series, PowerEdge R640, PowerEdge R740XD

Datum laatst gepubliceerd

11 okt. 2023

Versie

5

Artikeltype

Solution