Продуктивність HPC та AI на DSS8440 з графічними процесорами V100S
Summary: Графічний процесор, V100S, V100, DSS8440, 8 графічних процесорів, MLPerf, HPL, LAMMPS, Benchmark
Symptoms
Dell EMC HPC & AI Innovation Lab, травень 2020 р.
Виконавче резюме
У цьому блозі представлені результати дослідження, в якому оцінювалися 8x V100S на DSS8440 для різних додатків HPC і глибокого навчання, включаючи HPL, LAMMPS і MLPerf-v0.6 Люкс. Підсумовуючи:
- Програми, обмежені пропускною здатністю графічного процесора, такі як LAMMPS, можуть використовувати переваги нових графічних процесорів V100S і отримають підвищену продуктивність як для одного, так і для кількох графічних процесорів.
- Програми глибокого навчання, такі як ті, що протестовані в MLPerf, отримають переваги від більш високої тактової частоти та більшої пропускної здатності V100S.
- Програми, пов'язані з обчисленнями GPU, такі як еталонний HPL HPC, отримають таку ж продуктивність, як і V100-PCIe.
Решта цього блогу описує подробиці цього тестування. Зазначимо, що в майбутньому ті самі програми будуть запускатися на DSS8440 з графічними процесорами RTX (замість V100S), а також будуть запущені інші тести, на кшталт продуктивності V100S на платформі AMD.
Resolution
Огляд тестового стенду
Об'єкт Сервер Dell EMC DSS8440 це оптимізований для акселератора сервер, спеціально розроблений для високопродуктивних обчислень і робочих навантажень глибокого навчання. Об'єкт NVIDIA V100S є останнім представником у серії Tesla Volta, і це графічна карта подвійної ширини 32G PCIe на основі GPU. У цьому блозі будуть представлені результати дослідження, в якому оцінювалися 8x V100S на DSS8440 для різних додатків HPC і глибокого навчання, включаючи HPL, LAMMPS і MLPerf-v0.6 Люкс.
Апаратні та програмні деталі протестованого сервера DSS 8440, а також порівняння V100S і V100-PCIe наведені в таблицях 1 і 2.
Таблиця 1: Деталі апаратного та програмного забезпечення

Таблиця 2: Різниця в технічних характеристиках V100S і V100-PCIe
Продуктивність додатків HPC

Малюнок 1: Результати V100S та V100-PCIe HPL на DSS8440
На малюнку 1 показані показники продуктивності HPL. Особливої різниці між V100S та V100-PCIe немає, тому що HPL – це програма екстремального стрес-тестування. Тут мало температурного приміщення для Функція прискорення графічного процесора, тому частота графічних процесорів дуже швидко повертається до базової тактової частоти. Оскільки V100S і V100-PCIe мають майже однакову базову тактову частоту, для додатків з обмеженням обчислень GPU, таких як HPL, V100S забезпечує приблизно такий же рівень продуктивності, як і V100-PCIe.

Малюнок 2: Результати V100S та V100-PCIe LAMMPS на DSS8440
На рисунку 2 наведено результати LAMMPS з набором даних Леннарда Джонса. LAMMPS є прикладом коду молекулярної динаміки, який, як відомо, є додатком, обмеженим пропускною здатністю графічного процесора. У цьому тестуванні V100S демонструє на 27% більше продуктивності, ніж V100-PCIe. Прискорення забезпечується не тільки на 15% вищою частотою прискорення та на 26% більшою пропускною здатністю, але й новішою версією програмного забезпечення. Номери V100-PCIe були отримані з використанням старого пакету KOKKOS у версії LAMMPS від 8 лютого 2019 року. Однак у новішій версії 24Jan2020 була додана підтримка використання cuFFT на графічному процесорі з KOKKOS. Найбільше подробиць можна знайти в цьому Примітка до випуску LAMMPS 24 січня 2020 року.
Продуктивність додатків глибокого навчання

Малюнок 3: Результати V100S та V100-PCIe MLPerf на DSS8440
Версія MLPerf для навчання з закритим дивізіоном 0.6 має 6 субтестів, що охоплюють широкі області глибокого навчання, включаючи класифікацію зображень (ResNet-50), виявлення об'єктів (Mask R-CNN і SSD), переклад (NMT і Transformer) і навчання з підкріпленням (MiniGo). Результати порівняння обох карт GPU представлені на рисунку 3. Приріст продуктивності спостерігався приблизно на 1-5% у наборі MLPerf для V100S, що узгоджується з 1-5% вищою пропускною здатністю у файлах журналу результатів. Відстежувалася тактова частота графічного процесора в реальному часі, і було помічено, що графічні процесори V100S працювали на 1-5% вище у всіх цих тестах, тому переваги продуктивності були отримані завдяки вищій підвищеній частоті V100S.
Висновки і подальші роботи
У цьому блозі продуктивність додатків HPC з HPL, LAMMPS і продуктивність глибокого навчання з MLPerf порівнювалися з графічними картами V100S і V100-PCIe на тому ж сервері DSS8440. Програми, обмежені пропускною здатністю графічного процесора, такі як LAMMPS, можуть використовувати переваги нових графічних процесорів V100S і отримають підвищену продуктивність як для одного, так і для кількох графічних процесорів. Програми глибокого навчання, протестовані в MLPerf, також отримують переваги від більш високої тактової частоти та більшої пропускної здатності V100S. Бенчмарк HPC з обмеженням обчислень GPU HPL отримує таку ж продуктивність, як і V100-PCIe. У майбутньому ті самі програми на DSS8440 будуть запускатися з графічними процесорами RTX, а також будуть досліджені деякі інші тести, такі як продуктивність V100S на платформі AMD.