ObjectScale.Next: Ett år med nådeløs ytelse for KI-data

KI hever stadig standarden for lagring. GPU-er kan ikke stå uvirksomme og vente på I/O. Strømmefunksjoner, innbygginger og mellomliggende artefakter kan ikke bremses av flaskehalser knyttet til små objekter. LLM-inferens kan ikke skaleres hvis KV-hurtigbufferen er låst i GPU-minnet i stedet for å mate akseleratorer med linjehastighet.

Siden lanseringen av 4.0 for bare ett år siden, har ObjectScale levert en rekke ytelsesforbedringer for både små og store objekter, RDMA, GPU‑optimaliserte databaner og avlastning av KV‑hurtigbuffer. Disse funksjonene er kombinert med den nyeste All‑Flash Dell PowerEdge‑serverteknologien, samtidig som de bevarer eksaskalaarkitekturen, effektiviteten og enkelheten som virksomheter er avhengige av.

Dette ytelsesfokuset er en stor grunn til at ObjectScale ble kåret til CRNs 2025 Product of the Year for Enterprise‑Class Storage – en redaksjonell pris som fremhever ObjectScales betydning for dagens tøffeste datautfordringer i virksomheter.

En plattform som forsterker ytelsesgevinstene

I programvaredefinerte ObjectScale‑distribusjoner på kvalifiserte Dell PowerEdge‑servere har intern testing vist en lesehastighet per node på opptil 40 GB/sek1 – opptil 8 ganger raskere¹ enn forrige generasjons all‑flash‑objektplattformer. Det gir KI‑team en kompakt motor med høy båndbredde for store treningsdatasett, sjekkpunkter og workloader i ulike størrelser.

Disse gevinstene strekker seg langt utover laboratoriet. I dag beviser ObjectScale sin verdi i noen av de mest krevende miljøene:

Høyfrekvens handel i stor skala: Et stort New York‑basert selskap innen høyfrekvens handel (HFT) behandler opptil 30 milliarder transaksjoner per dag, og støtter seg på ObjectScale for å sikre at motorer for handel, risiko og analyse kontinuerlig mates med data.
Globale finanstjenester: Et globalt finansselskap bruker et fler‑anleggs HDD‑basert ObjectScale‑miljø til å behandle 1,5 milliarder daglige transaksjoner samtidig som de betjener over 1000 KI‑, analyse‑ og sikkerhetskopieringsworkloader via automatisert selvbetjening.
Britisk basert høyfrekvens handel: Et britisk basert selskap innen høyfrekvens handel har oppnådd en samlet lesehastighet på rundt 280 GB/sek på en liten ObjectScale proof‑of‑concept‑klynge.

Små objekter, stor ytelse: Blokklagring og nøkkel‑verdi‑optimaliseringer

Moderne KI‑pipelines er dominert av små objekter: logger, beregninger, funksjoner, tabellsegmenter, vektorblokker og mellomliggende treningsartefakter. Hvis objektnivået ikke kan håndtere små objekter på en effektiv måte, går alt nedstrøms tregere. Med ObjectScale kan kundene trygt bygge små‑objekt‑baserte KI‑pipelines.

Dette gjøres via en blokklagringsmotor som pakker mange små objekter inn i 128 MB store blokker før den bruker slettekoding og distribuerer data på tvers av noder. For typiske filer på 10 KB kan mer enn 10 000 objekter leve i én enkelt blokk, noe som reduserer både metadatabelastning og gjenoppbyggingsarbeid.

Hva dette betyr for kundene:

Høyere gjennomstrømming av små objekter og lavere ventetid – spesielt på All‑Flash ObjectScale XF960‑ og HDD‑baserte X560‑klynger som er optimalisert for lesing av små objekter.
Raskere gjenoppbygginger og mer forutsigbar ytelse – blokkbasert slettekoding reduserer antallet fragmenter som må gjenskapes etter disk‑ eller nodefeil fra milliarder til millioner, slik at store NVMe‑disker kan gjenoppbygges på timer i stedet for uker.
Mindre CPU‑kraft sløst på bakgrunnsskanning – ObjectScale sjekker kontrollsummer for objekter direkte, og verifiserer deretter på stripenivå, noe som frigjør CPU‑sykluser til aktive lese‑ og skriveoperasjoner.

I ObjectScale 4.2 tar et ombygd nøkkel‑verdi‑lager dette et skritt videre, med omtrent 4 ganger bedre minneeffektivitet² og 30–60 % lavere diskbruk² for metadata. Oppslagene forblir raske og forutsigbare, selv når antall klynger og objekter øker.

Mating av GPU‑er og LLM‑er: S3 over RDMA og KV‑hurtigbuffer

Etter hvert som KI‑team skalerer trening og inferens, blir flaskehalsen i økende grad databevegelse og kontekstminne, snarere enn ren regnekraft. ObjectScales fjerdegenerasjons versjoner fokuserer på begge deler.

S3 over RDMA: objekttilgang med høy båndbredde og lav ventetid

S3 over RDMA (introdusert i ObjectScale 4.2 og forbedret i 4.3) erstatter tradisjonell TCP med RDMA for S3‑tilgang, noe som ga store klientfordeler i intern testing:

Opptil 230 % høyere gjennomstrømming
Rundt 80 % lavere ventetid
Og opptil 98 % lavere CPU‑bruk …

… sammenlignet med S3 over TCP.³

Med versjon 4.3 er S3 over RDMA for ObjectScale tilgjengelig på tvers av hele all‑flash‑porteføljen – inkludert programvaredefinert ObjectScale på R7725xd, XF960 og EXF900. Dette gir tilgang til objektdata med svært lav ventetid og høy gjennomstrømming.

Ved å integrere Dells S3 over RDMA SDK med GPU‑støtte og en RoCEv2‑nettverksstakk omgår ObjectScale tradisjonelle TCP‑ og CPU‑flaskehalser, noe som skaper en nærmest direkte bane mellom GPU‑er og NVMe SSD i objektlagring for krevende KI‑pipelines.

KV‑hurtigbuffer: Gjør ObjectScale til en inferensakselerator

Etter hvert som LLM‑er tas i bruk i produksjon, blir nøkkel‑verdi‑hurtigbuffer (KV) viktig. I stedet for å beregne oppmerksomhetstilstander på nytt for hvert token gjenbruker inferensrammeverk KV‑hurtigbufferen, men denne hurtigbufferen fyller raskt opp GPU‑minnet. Avlasting av KV‑hurtigbufferen til ObjectScale bidrar til å gi raskere og mer responsive KI‑opplevelser.

Dells skalerbare løsning for avlastning av KV‑hurtigbuffer, drevet av ObjectScale og PowerScale, flytter KV‑hurtigbufferen fra GPU‑minnet til delt lagring med høy ytelse. Dette gjøres ved hjelp av vLLM, LMCache, Nvidias NIXL‑bibliotek og Dells RDMA‑akselererte S3‑integrasjon.

Ytelsestester viser:

Opptil 19 ganger raskere tid til første token (TTFT)⁴ sammenlignet med en standard vLLM‑konfigurasjon som beregner KV‑hurtigbufferen på nytt i GPU‑en.
Opptil 5,3 ganger høyere tokengjennomstrømming⁵ og nesten 3 ganger høyere flertrinns gjennomstrømming⁵ i tester fra Dell InfoHub, selv med KV‑hurtigbuffer på flere gigabyte lagret på ObjectScale og PowerScale.
TTFT for KV‑hurtigbuffer på 0,86 sekunder⁶ på ObjectScale i direkte sammenligning med en konkurrerende motor, noe som utkonkurrerte VAST i publiserte tester.

S3‑tabeller: KI‑optimaliserte analyser uten forsinkende ETL‑prosesser

I ObjectScale 4.3 (teknisk forhåndsvisning) gir S3‑tabeller mulighet for Apache Iceberg‑basert, tabellbasert analyse direkte i ObjectScale‑buckets. Tabellene ligger på S3 og kan brukes av motorer som Spark, Flink, Trino og Starburst uten at dataene må kopieres til separate databaser eller lagre. Dette reduserer både ETL‑ressursbruk og avhengighet av eksterne systemer.

Intern testing har vist:

Opptil 2 ganger raskere datainnhenting⁷
Opptil 4,5 ganger raskere spørringer⁷

sammenlignet med tradisjonelle lagersentrerte mønstre, mens automatisert gjenvinning av lagringsplass og enhetlig IAM bidrar til å opprettholde høy ytelse og forenkle driften over tid. ObjectScale går fra å bare være en landingssone til å fungere som en aktiv analyseflate med høy ytelse for KI‑ og BI‑team.

Ytelse uten å ofre skalering, effektivitet eller enkelhet

Ytelse er bare nyttig hvis den følges av skalerbarhet, effektivitet og enkelhet. ObjectScales fjerdegenerasjons versjoner forbedrer også disse områdene:

En modernisert nøkkel‑verdi‑lagring støtter global VDC‑vekst på opptil 122 %⁸ sammenlignet med tidligere versjoner, samtidig som den bruker betydelig mindre minne og diskplass til metadata.
Med komprimering på bøttenivå og flere algoritmer (Snappy, LZ4, ZSTD, Deflate) kan teamene justere for hastighet eller kompresjonsgrad avhengig av workload, mens komprimeringsanalyse gjør besparelser om til et FinOps‑signal i stedet for en skjult innstilling.
ObjectScales nye alternativer for slettekoding med 24+2 og 24+4 reduserer skriveforsterkning med opptil 75 %⁹, noe som reduserer slitasje på lagringsmedier og bakgrunnsbelastning, slik at mer I/O kan brukes av applikasjoner. Kundene får opptil 25 % raskere innlesing av store objekter¹⁰, pluss opptil to ganger høyere skriveytelse for middels store objekter¹¹ på HDD‑plattformen med høy kapasitet, som EX500.
En integrert lastbalanserer, forbedret plassgjenvinning ved georeplikering og verktøy innebygd i skyen (Kubernetes COSI, Terraform) holder store ObjectScale‑miljøer håndterbare etter hvert som de vokser.

Resultatet er en plattform der ytelsesforbedringer og operasjonell enkelhet utvikler seg sammen, i stedet for å tvinge team til å velge mellom dem.

Hvorfor et yttelsesfokusert veikart for ObjectScale er viktig

Etter hvert som KI‑modeller og datapipelines blir mer komplekse, forblir ObjectScales veikart ytelsesfokusert – enten det innebærer å øke gjennomstrømmingen for små og store objekter, utvide S3 over RDMA og GPU‑bevisste databaner eller styrke integrasjonen med KV‑hurtigbuffer, kontekstminne og KI‑optimalisert søk.

For organisasjoner som bygger neste generasjons KI og analyse, gir dette et enkelt løfte: objektlagring skal ikke være det som holder deg tilbake.

Kilder

¹Basert på Dell‑analyser fra september 2025, som sammenligner ytelsen for objektlesing mellom ObjectScale 4.2 på PowerEdge R7725xd og ECS 3.8 på ECS EXF900. Faktiske resultater kan variere.
²Basert på Dell‑analyser fra august 2025, som sammenligner Key‑Value Store i ObjectScale 4.2 med teknologien brukt i ObjectScale 4.1. Faktiske resultater kan variere.
³Basert på interne tester av ObjectScale S3 over RDMA utført av Dell, desember 2025. Faktiske resultater kan variere.
⁴Basert på interne tester utført av Dell Technologies med modellen LLaMA‑3.3‑70B Instruct og Tensor Parallelism=4. Testene målte ytelse for «Time to First Token» (TTFT) med en treffrate på 100 % i KV‑hurtigbufferen, og sammenlignet Dells vLLM + LMCache + NVIDIA NIXL‑stakk på PowerScale‑ og ObjectScale‑lagring med en standard vLLM‑konfigurasjon. Faktiske resultater kan variere. November 2025.
⁵Basert på interne tester utført av Dell Technologies med modellen LLaMA‑3.3‑70B Instruct og Tensor Parallelism=4. Testene målte TPS‑gjennomstrømming (token per sekund) ved hjelp av LMbenchmark‑inferenspakke med flere omganger, og sammenligner Dells vLLM + LMCache og NVIDIA NIXL‑stakk på PowerScale‑ og ObjectScale‑lagring med bare standard vLLM‑minnebufring. Faktiske resultater kan variere. November 2025.
⁶Basert på interne tester utført av Dell Technologies med modellen LLaMA‑3.3‑70B Instruct og Tensor Parallelism=4. Testene målte ytelse for «Time to First Token» (TTFT) med en treffrate på 100 % i KV‑hurtigbufferen. Faktiske resultater kan variere. November 2025.
⁷Basert på interne tester av ObjectScale S3 Tables utført av Dell, september 2025. Faktiske resultater kan variere.
⁸Basert på Dell‑analyser fra august 2025, som sammenligner Key‑Value Store i ObjectScale 4.2 med teknologien brukt i ObjectScale 4.1. Faktiske resultater kan variere.
⁹Basert på interne Dell‑tester av 24+4 og 24+2 EC‑oppsett sammenlignet med 12+4 på AFA og ObjectScale 4.3‑programvare, desember 2025. Faktiske resultater kan variere.
¹⁰Basert på interne Dell‑tester av 4.3‑programvare på XF960 med sammenligning av de tre slettekodingsoppsettene, desember 2025. Faktiske resultater kan variere.
¹¹Basert på interne Dell‑tester av funksjonen aktivert på ObjectScale 4.3 på HDD sammenlignet med funksjonen deaktivert, desember 2025. Faktiske resultater kan variere.