ObjectScale.Next: rok nieustannej wydajności dla danych AI

Sztuczna inteligencja stale podnosi poprzeczkę w zakresie pamięci masowej. GPU nie mogą marnować czasu, czekając na I/O. Strumieniowe cechy, osadzenia oraz pośrednie artefakty nie mogą być dławione przez wąskie gardła obsługi małych obiektów. Wnioskowanie LLM nie skaluje się, jeśli pamięć podręczna KV pozostaje uwięziona w pamięci GPU, zamiast zasilać akceleratory z pełną prędkością łącza.

Od premiery wersji 4.0 — zaledwie rok temu — ObjectScale konsekwentnie wdraża innowacje wydajnościowe obejmujące małe i duże obiekty, RDMA, ścieżki danych przystosowane do GPU oraz odciążanie pamięci podręcznej KV. Rozwiązania te są łączone z najnowszą technologią serwerów Dell PowerEdge all‑flash, przy jednoczesnym zachowaniu architektury eksaskalowej, efektywności i prostoty, na których polegają przedsiębiorstwa.

To właśnie koncentracja na wydajności jest jednym z kluczowych powodów, dla których ObjectScale otrzymała tytuł Produkt roku 2025 CRN w kategorii pamięci masowej klasy Enterprise — nagrodę przyznawaną przez redakcję, podkreślającą wpływ ObjectScale na najtrudniejsze współczesne wyzwania związane z danymi dla przedsiębiorstw.

Jedna platforma, rosnąca wydajność

W przypadku wdrożeń ObjectScale, definiowanych programowo uruchamianych na certyfikowanych serwerach Dell PowerEdge, wewnętrzne testy wykazały przepustowość odczytu na węzeł na poziomie do 40 GB/s1 — nawet do 8× wyższą¹ niż w poprzedniej generacji platform obiektowych all‑flash. Dzięki temu zespoły sztucznej inteligencji mają kompaktowy silnik o wysokiej przepustowości do obsługi dużych zestawów szkoleniowych, punktów kontrolnych i obciążeń roboczych o różnych rozmiarach.

Korzyści te zdecydowanie nie są ograniczone do laboratorium. Obecnie ObjectScale już teraz sprawdza się w niektórych z najbardziej wymagających środowisk:

Handel wysokich częstotliwości na dużą skalę (ang. high‑frequency trading, HFT): duża firma HFT z Nowego Jorku przetwarza ponad 30 miliardów transakcji dziennie, polegając na ObjectScale, aby nieprzerwanie dostarczać dane do silników transakcyjnych, zarządzania ryzykiem i analityki.
Globalne usługi finansowe: międzynarodowa firma finansowa wykorzystuje wieloobiektowe środowisko oparte na dyskach HDD ObjectScale do przetwarzania 1,5 miliarda transakcji dziennie, obsługując jednocześnie ponad 1000 zadań AI, analitycznych i tworzenia kopii zapasowych za pośrednictwem automatycznego, samoobsługowego systemu.
Handel wysokich częstotliwości w Wielkiej Brytanii: firma HFT z Wielkiej Brytanii utrzymuje łączną przepustowość odczytu na poziomie ok. 280 GB/s na niewielkim klastrze demonstracyjnym ObjectScale.

Małe obiekty, duża wydajność: optymalizacja magazynu fragmentów i pamięci podręcznej KV

Współczesne potoki AI są zdominowane przez małe obiekty: dzienniki, metryki, cechy, segmenty tabel, fragmenty wektorów oraz pośrednie artefakty treningowe. Jeśli warstwa obiektowa nie radzi sobie efektywnie z małymi obiektami, spowalnia się wszystko, co dzieje się dalej. ObjectScale umożliwia klientom pewne budowanie potoków AI intensywnie wykorzystujących małe obiekty.

Robi to za pośrednictwem silnika magazynu fragmentów, który pakuje wiele małych obiektów w 128 MB fragmenty przed zastosowaniem kodowania korekcyjnego i dystrybucją danych między węzłami. W przypadku typowych plików o wielkości 10 KB w jednym fragmencie może znajdować się ponad 10 000 obiektów, co zmniejsza nakład metadanych i ułatwia odbudowę.

Co to oznacza dla klientów:

Większa przepustowość małych obiektów i mniejsze opóźnienia — zwłaszcza we wszystkich klastrach typu all‑flash ObjectScale XF960 i X560 opartych na dyskach HDD dostrojonych do odczytu małych obiektów.
Szybsza odbudowa i bardziej przewidywalna wydajność — kodowanie korekcyjne oparte na fragmentach zmniejsza ilość odłamków do odtworzenia po awarii dysku lub węzła z miliardów do milionów, dzięki czemu duże dyski NVMe można odbudować w ciągu godzin, a nie tygodni.
Mniej marnowanych zasobów CPU na skanowanie w tle — ObjectScale oblicza sumy kontrolne obiektów, a następnie weryfikuje je na poziomie pasma, uwalniając cykle CPU dla aktywnych odczytów i zapisów.

W systemie ObjectScale 4.2 przeprojektowany magazyn pamięci podręcznej KV daje więcej, zapewniając około 4‑krotnie lepszą wydajność pamięci² i o 30–60% mniejsze zużycie dysków² w przypadku metadanych. Wyszukiwanie pozostaje szybkie i przewidywalne nawet w miarę wzrostu liczby klastrów i obiektów.

Zasilanie procesorów GPU i modeli LLM: S3 przez RDMA i pamięć podręczną KV

Wraz ze skalowaniem trenowania i wnioskowania przez zespoły AI coraz częstszym wąskim gardłem stają się przepływ danych i pamięć kontekstu, a nie sama moc obliczeniowa. Wydania czwartej generacji ObjectScale koncentrują się na obu problemach.

S3 przez RDMA: wysoka przepustowość, dostęp do obiektów przy niskim opóźnieniu

S3 przez RDMA (wprowadzony w ObjectScale 4.2 i rozszerzony w wersji 4.3) zastępuje tradycyjny protokół TCP technologią RDMA dla dostępu S3, przynosząc — w wewnętrznych testach — znaczące korzyści po stronie klientów:

Nawet o 230% większa przepustowość
O około 80% mniejsze opóźnienia
I nawet o 98% mniejsze zużycie procesora CPU…

…w porównaniu z S3 przez TCP.³

Wraz z wydaniem 4.3 funkcja S3 przez RDMA dla ObjectScale jest dostępna w całym portfolio all‑flash — w wersji ObjectScale definiowanej programowo na platformach R7725xd, XF960 oraz EXF900 — umożliwiając ultraszybki dostęp do danych obiektowych o wysokiej przepustowości i małym opóźnieniu.

Dzięki integracji pakietu Dell S3 przez RDMA SDK z obsługą GPU oraz stosem sieciowym RoCEv2 ObjectScale omija tradycyjne ograniczenia TCP i CPU, tworząc niemal bezpośrednią ścieżkę pomiędzy GPU a dyskami NVMe SSD w pamięci obiektowej — z myślą o najbardziej wymagających potokach AI.

KV Cache: przekształcanie ObjectScale w akcelerator wnioskowania

Wraz z przechodzeniem modeli LLM do produkcji pamięć podręczna KV (ang. Key‑Value Cache) staje się elementem krytycznym. Zamiast ponownie obliczać stany uwagi dla każdego tokena, struktury wnioskowania wykorzystują ponownie pamięć podręczną KV — jednak pamięć ta szybko przekracza pojemność pamięci GPU. Przeniesienie pamięci podręcznej KV do ObjectScale pomaga zapewnić szybsze, bardziej responsywne środowisko sztucznej inteligencji.

Skalowalne rozwiązanie odciążania pamięci podręcznej KV firmy Dell, oparte na platformach ObjectScale i PowerScale, przenosi ją z pamięci GPU do wysokowydajnej pamięci udostępnionej. Wykorzystuje przy tym vLLM, LMCache, bibliotekę NIXL firmy NVIDIA oraz integrację S3 z akceleracją RDMA firmy Dell.

Testy porównawcze pokazują:

Nawet 19× szybszy czas do uzyskania pierwszego tokena (TTFT)⁴ w porównaniu ze standardową konfiguracją vLLM, która ponownie oblicza pamięć podręczną KV na GPU.
Nawet 5,3× wzrost przepustowości tokenów⁵ oraz prawie 3× wzrost przepustowości operacji wieloturowych⁵ w testach przeprowadzonych przez Dell InfoHub, nawet przy zastosowaniu pamięci podręcznych KV o pojemności wielu gigabajtów przechowywanych w systemach ObjectScale i PowerScale.
Czas do uzyskania pierwszego tokena (TTFT) pamięci podręcznej KV na poziomie ok. 0,86 s⁶ na ObjectScale w bezpośrednich porównaniach z konkurencyjnym silnikiem, z wynikiem przewyższającym opublikowane testy VAST.

Tabele S3: analityka zoptymalizowana pod kątem sztucznej inteligencji bez oporu ETL

W ObjectScale 4.3 (Tech Preview) funkcja S3 Tables wprowadza natywną analitykę tabelaryczną opartą na Apache Iceberg bezpośrednio do zasobników ObjectScale. Tabele są dostępne na S3 i mogą być odpytywane przez różne silniki, takie jak Spark, Flink, Trino i Starburst, bez kopiowania danych do oddzielnych baz danych lub magazynów, zmniejszając obciążenie ETL i zależności zewnętrzne.

Testy wewnętrzne wykazały:

Nawet 2× szybsze przyswajanie⁷
Do 4,5× szybsze zapytania⁷

— w porównaniu z tradycyjnymi, scentralizowanymi architekturami hurtownianymi. Jednocześnie automatyczne odzyskiwanie przestrzeni magazynowej oraz zunifikowane mechanizmy kontroli w zakresie zarządzania tożsamością i dostępem (IAM) pomagają utrzymać wysoką wydajność i upraszczają operacje w dłuższej perspektywie. ObjectScale traci rolę strefy docelowej i zyskuje rolę aktywnej, wydajnej powierzchni analitycznej dla zespołów BI i sztucznej inteligencji.

Wydajność bez utraty skali, efektywności i prostoty

Wydajność jest użyteczna tylko wtedy, gdy idzie w parze ze skalowalnością, efektywnością i prostotą. Wydania czwartej generacji ObjectScale również wzmacniają te aspekty:

Zmodernizowany magazyn pamięci podręcznej KV obsługuje globalny wzrost VDC nawet o 122%⁸ w porównaniu z poprzednimi wersjami, zużywając przy tym znacznie mniej pamięci i przestrzeni dyskowej na metadane.
Kompresja na poziomie zasobnika oraz liczne algorytmy (Snappy, LZ4, ZSTD, Deflate) pozwalają zespołom dostrajać ustawienia pod kątem szybkości lub stopnia kompresji w zależności od obciążenia, a analityka kompresji zamienia oszczędności w czytelny sygnał FinOps.
Nowe opcje kodowania korekcyjnego 24+2 i 24+4 w ObjectScale obniżają wzrost zapisu nawet o 75%⁹, zmniejszając zużycie nośników i narzut procesów w tle. Dzięki temu więcej operacji we/wy trafia bezpośrednio do aplikacji. Klienci obserwują do 25% szybsze pobieranie dużych obiektów¹⁰ oraz nawet 2× wyższą wydajność zapisu obiektów średniej wielkości¹¹ na platformach HDD o dużej pojemności, takich jak EX500.
Zintegrowany moduł równoważenia obciążenia, usprawnione odzyskiwanie przestrzeni przy replikacji geograficznej oraz narzędzia działające w chmurze (Kubernetes COSI, Terraform) pomagają utrzymać kontrolę nad dużymi środowiskami ObjectScale wraz z ich rozwojem.

Rezultatem jest platforma, w której ulepszenia wydajności i prostota operacyjna idą ze sobą w parze, a zespoły nie muszą wybierać.

Dlaczego plan działania ObjectScale stawiający wydajność na pierwszym miejscu ma znaczenie

Wraz ze wzrostem złożoności modeli AI i potoków danych plan działania ObjectScale niezmiennie koncentruje się na wydajności — niezależnie od tego, czy chodzi o dalsze zwiększanie przepustowości dla małych i dużych obiektów, rozwój S3 przez RDMA i ścieżek danych przystosowanych do GPU, czy pogłębianie integracji z pamięcią podręczną KV, pamięcią kontekstu oraz wyszukiwaniem zoptymalizowanym pod kątem AI.

Dla organizacji budujących kolejną generację rozwiązań AI i analityki oznacza to prostą obietnicę: pamięć obiektowa nie będzie elementem, który ogranicza rozwój.

Źródła

¹Na podstawie analizy firmy Dell porównującej rozwiązanie ObjectScale 4.2 na serwerze PowerEdge R7725xd z ECS 3.8 na ECS EXF900 pod kątem wydajności odczytu obiektów, wrzesień 2025 r. Rzeczywiste wyniki mogą być inne.
²Na podstawie analizy firmy Dell, porównującej magazyn pamięci podręcznej KV w ObjectScale 4.2 z tym używanym w ObjectScale 4.1, sierpień 2025 r. Rzeczywiste wyniki mogą być inne.
³Na podstawie wewnętrznych testów ObjectScale S3 przez RDMA przeprowadzonych przez firmę Dell, grudzień 2025 r. Rzeczywiste wyniki mogą być inne.
⁴Na podstawie wewnętrznych testów przeprowadzonych przez firmę Dell Technologies z wykorzystaniem modelu LLaMA‑3.3‑70B Instruct przy zastosowaniu Tensor Parallelism=4. Testy mierzyły czas do uzyskania pierwszego tokena (TTFT) przy 100‑procentowym współczynniku trafień pamięci podręcznej KV, porównując stos vLLM + LMCache + NVIDIA NIXL firmy Dell, działający na pamięci masowej PowerScale i ObjectScale, ze standardową konfiguracją bazową vLLM. Rzeczywiste wyniki mogą być inne. Listopad 2025 r.
⁵Na podstawie wewnętrznych testów przeprowadzonych przez firmę Dell Technologies z wykorzystaniem modelu LLaMA‑3.3‑70B Instruct przy zastosowaniu Tensor Parallelism=4. Testy mierzyły przepustowość TPS (tokeny na sekundę) z wykorzystaniem wieloturowego pakietu testowego LMbenchmark do wnioskowania, porównując stos vLLM + LMCache + NVIDIA NIXL firmy Dell, działający na pamięci masowej PowerScale i ObjectScale, z konfiguracją bazową opartą na standardowym vLLM z buforowaniem wyłącznie w pamięci GPU. Rzeczywiste wyniki mogą być inne. Listopad 2025 r.
⁶Na podstawie wewnętrznych testów przeprowadzonych przez firmę Dell Technologies z wykorzystaniem modelu LLaMA‑3.3‑70B Instruct przy zastosowaniu Tensor Parallelism=4. Testy mierzyły wydajności czasu do uzyskania pierwszego tokena (TTFT) przy 100‑procentowym współczynniku trafień pamięci podręcznej KV. Rzeczywiste wyniki mogą być inne. Listopad 2025 r.
⁷Na podstawie wewnętrznych testów tabel S3 ObjectScale przeprowadzonych przez firmę Dell, wrzesień 2025 r. Rzeczywiste wyniki mogą być inne.
⁸Na podstawie analizy firmy Dell, porównującej magazyn pamięci podręcznej KV w ObjectScale 4.2 z tym używanym w ObjectScale 4.1, sierpień 2025 r. Rzeczywiste wyniki mogą być inne.
⁹Na podstawie wewnętrznych testów schematów kodowania korekcyjnego 24+4 i 24+2 w porównaniu ze schematem 12+4 przeprowadzonych przez firmę Dell na platformach AFA oraz z wykorzystaniem kodu ObjectScale 4.3, grudzień 2025 r. Rzeczywiste wyniki mogą być inne.
¹⁰Na podstawie wewnętrznych testów firmy Dell Technologies kodu ObjectScale 4.3 na platformie XF960 obejmujących porównanie trzech schematów kodowania korekcyjnego, grudzień 2025 r. Rzeczywiste wyniki mogą być inne.
¹¹Na podstawie wewnętrznych testów funkcji przeprowadzonych przez firmę Dell z wykorzystaniem systemu ObjectScale 4.3 z dyskiem HDD, grudzień 2025 r. Rzeczywiste wyniki mogą być inne.