Małe obiekty, duży wpływ: jak ObjectScale zwiększa wydajność pamięci masowej

Zwiększ wydajność przechowywania danych AI dzięki Dell ObjectScale: Niezrównana wydajność, trwałość i niezawodność dostosowane do miliardów małych plików.

Wydajność pamięci obiektowej dla małych plików ma znaczenie. Kluczem do tego jest magazyn fragmentów. Jest to dość techniczny szczegół, ale ważne jest, aby zrozumieć jego koncepcję i zalety, ponieważ krytyczne potoki danych AI są migrowane do obiektowej pamięci masowej typu All-Flash.

O ilu małych plikach mówimy w dzisiejszych potokach danych? W skali globalnej mamy do czynienia z miliardami plików. Te pliki mogą być metadanymi generowanymi podczas przetwarzania danych nieustrukturyzowanych na dane półustrukturyzowane w celu dostrajania dużego modelu językowego (LLM). Ewentualnie pliki mogą pochodzić z architektury Data Lakehouse z ogromnymi otwartymi tabelarycznymi bazami danych.

Dell ObjectScale to obiektowa pamięć masowa stworzona specjalnie z myślą o przedsiębiorstwach zmagających się z wymaganiami współczesnych danych w erze sztucznej inteligencji. ObjectScale wyróżnia się na tle konkurencji w zakresie wydajności, możliwości odzyskiwania i trwałości małych plików — znacznie zwiększając wydajność przechowywania danych. Oto kilka powodów.

Wykorzystanie fragmentów

ObjectScale pakuje pliki w fragmenty o wielkości 128 MB. Zapewniają one systemowi znaczną przewagę podczas obsługi ogromnej liczby małych obiektów.

Na przykład weźmy system z setkami milionów lub miliardami bardzo małych plików metadanych o wielkości 10 KB. ObjectScale może przechowywać ponad 10 000 takich plików w jednym fragmencie. Ten fragment jest następnie kodowany w celu zabezpieczenia przed wymazywaniem, a wynikowe części są rozdzielane między szafami serwerowymi i węzłami w celu zapewnienia odporności na awarie. Fragment jest przewidywalnie zapisywany na dysku z czystą nadwyżką pamięci masowej wynoszącą 25% (z kodowaniem wymazywania 10+2).

Porównaj ten scenariusz z systemem, który nie korzysta z magazynu fragmentów. W przypadku tak małych obiektów indywidualne kodowanie w celu zabezpieczenia przed wymazywaniem jest złym rozwiązaniem (może to skutkować ponad 600% narzutu). Systemy te zazwyczaj polegają na podwójnym lub potrójnym dublowaniu (narzut 200% lub 300%). Spróbuj pomnożyć to przez setki milionów lub miliardy.

Szybsza odbudowa przy mniejszym obciążeniu pamięci masowej

Następnie rozważ, w jaki sposób fragmentacja może wpłynąć wyniki w scenariuszu błędu.

W systemie obiektowym, który nie jest oparty na magazynie fragmentów, awaria dysku NVMe o pojemności 61 TB oznaczałaby, że system musiałby ponownie utworzyć miliardy fragmentów obiektów. Mówimy o kilku tygodniach do miesięcy czasu odbudowy w przypadku awarii jednego dysku. Co zrobić, jeśli cały węzeł pamięci masowej z 24 dyskami ulegnie awarii? Przebudowa będzie ciągłym obciążeniem dla systemu.

Magazyn fragmentów ObjectScale zmniejsza całkowitą liczbę fragmentów, które muszą zostać ponownie utworzone w scenariuszu błędu, o rząd wielkości (z miliardów do milionów). Czas odbudowy dużych dysków NVMe może skrócić się z tygodni i miesięcy do zaledwie godzin, a wszystko to przy niskim obciążeniu pamięci masowej. Jest to naprawdę jedyne łatwe w zarządzaniu rozwiązanie do obsługi dużych dysków NVMe.

Maksymalizacja trwałości i zwolnienie cykli procesora

Należy również wziąć pod uwagę wpływ trwałości danych przy zarządzaniu obiektową pamięcią masową dla nowoczesnych obciążeń roboczych, takich jak sztuczna inteligencja. Aby zapobiec cichym uszkodzeniom danych, pamięć obiektowa przeprowadza proaktywne skanowanie obiektów, weryfikując sumy kontrolne i naprawiając błędy.

Jeśli konieczne jest sprawdzenie sumy kontrolnej każdego obiektu w systemie, aktywny system może łatwo przejść w stan, w którym takie skanowanie nie jest możliwe do ukończenia. Niektóre systemy obiektowe ograniczą prędkości pobierania, jeśli znajdą się w sytuacji, w której skany sum kontrolnych nie mogą zostać ukończone.

ObjectScale z kolei sprawdza sumę poszczególnych obiektów przed umieszczeniem ich w fragmencie. Nie trzeba tego sprawdzać w tle, ponieważ sumy kontrolne są weryfikowane na poziomie segmentu/ścieżki.

Poprzez zmniejszenie liczby sum kontrolnych, które muszą być stale weryfikowane, ObjectScale znacznie redukuje związane z tym obciążenie przetwarzania. Zwalnia to cykle procesora, dzięki czemu węzły pamięci masowej mogą wykonywać swoje główne zadania, czyli odczytywać i zapisywać dane.

Zwiększ wydajność pamięci masowej AI dzięki rozwiązaniu ObjectScale

Wydajny mechanizm magazynu fragmentów w oprogramowaniu Dell ObjectScale bezpośrednio rozwiązuje problemy związane z zarządzaniem miliardami małych obiektów. W rzeczywistości niektórzy z naszych klientów korzystają ze środowisk ObjectScale, które zawierają ponad 100 miliarda obiektów w jednym zasobniku. Zapraszamy do kontaktu i uzyskania dodatkowych informacji o tym, dlaczego ObjectScale oferuje najwyższą wydajność, trwałość i odporność pamięci masowej, dzięki czemu jest to nieodzowna podstawa wydajnych przepływów pracy związanych ze sztuczną inteligencją i analityką.

About the Author: Gregory Shiff