Продуктивність глибокого навчання на графічних процесорах T4 з тестами MLPerf
Summary: Інформація про архітектуру Turing, яка є останньою архітектурою графічного процесора NVIDIA після архітектури Volta та нового T4, базується на архітектурі Turing.
Symptoms
Cause
Resolution
Зміст:
Абстрактний
Архітектура Turing є останньою архітектурою графічного процесора NVIDIA після архітектури Volta, а новий T4 заснований на архітектурі Turing. Він був розроблений для високопродуктивних обчислень (HPC), навчання глибокого навчання та висновків, машинного навчання, аналітики даних та графіки. У цьому блозі буде кількісно оцінено продуктивність навчання глибокому навчанню графічних процесорів T4 на сервері Dell EMC PowerEdge R740 із набором тестів MLPerf . Продуктивність MLPerf на T4 також буде порівнюватися з V100-PCIe на тому ж сервері з тим же програмним забезпеченням.
Огляд
Dell EMC PowerEdge R740 - це 2-розетковий сервер на 2U. Система оснащена процесорами Intel Skylake, до 24 модулів DIMM і до 3 відеокарт V100-PCIe подвійної ширини або 4 графічних процесорів T4 одинарної ширини в слотах x16 PCIe 3.0. T4 – це графічний процесор, який використовує новітню архітектуру Turing від NVIDIA. Відмінності в технічних характеристиках графічних процесорів T4 і V100-PCIe наведені в таблиці 1. MLPerf був обраний для оцінки продуктивності Т4 у навчанні глибокому навчанню. MLPerf — це інструмент порівняльного аналізу, який був зібраний різноманітною групою з академічних кіл і промисловості, включаючи Google, Baidu, Intel, AMD, Гарвард, Стенфорд тощо, для вимірювання швидкості та продуктивності програмного та апаратного забезпечення машинного навчання. Початкова випущена версія має версію 0.5 і охоплює реалізацію моделей у різних областях машинного навчання, включаючи класифікацію зображень, виявлення та сегментацію об'єктів, машинний переклад та навчання з підкріпленням. Підсумок контрольних показників MLPerf, що використовуються для цієї оцінки, наведено в таблиці 2. Була використана реалізація ResNet-50 TensorFlow з подання Google , а також використання всіх інших реалізацій моделей з подання NVIDIA . Всі бенчмарки проходили на голому металі без контейнера. У таблиці 3 наведено апаратні та програмні засоби, які використовуються для оцінювання. Продуктивність T4 з бенчмарками MLPerf буде порівнюватися з V100-PCIe.
| Tesla V100-PCIe | Tesla T4 | |
|---|---|---|
| Архітектура | Вольта | Тьюрінг |
| Ядра CUDA | 5120 | 2560 |
| Тензорні ядра | 640 | 320 |
| Обчислювальні можливості | 7.0 | 7.5 |
| Годинник з графічним процесором | 1245 МГц | 585 МГц |
| Прискорена частота | 1380 МГц | 1590 МГц |
| Тип пам'яті | HBM2 | GDDR6 |
| Об'єм пам'яті | 16 ГБ/32 ГБ | 16 ГБ |
| Пропускну здатність | 900 ГБІТ/с | 320 ГБІТ/с |
| Ширина слота | Два слоти | З одним слотом |
| Одинарна точність (FP32) | 14 ФЛОПС | 8.1 ШЛЬОПАНЦІ |
| Змішана точність (FP16/FP32) | 112 ТФЛОПС | 65 ФЛОПС |
| Подвійна точність (FP64) | 7 ФЛОПС | 254,4 ГФЛОПС |
| ТДП | 250 Вт | 70 Вт |
Таблиця 1: Порівняння T4 і V100-PCIe
| Класифікація зображень | Класифікація об'єктів | Сегментація екземпляра об'єкта | Переклад (повторюваний) | Танслація (не рецидивуюча) | Рекомендація | |
|---|---|---|---|---|---|---|
| Дані | Мережа ImageNet | КОКО | КОКО | ВМТ Е-Г | ВМТ Е-Г | Відеооб'єктив-20М |
| Розмір даних | 144 ГБ | 20 ГБ | 20 ГБ | 37 ГБ | 1,3 ГБ | 306 МБ |
| Модель | ResNet-50 v1.5 | Одноступеневий детектор (SSD) | Маска-Р-ЧНН | ГНМТ | Трансформатор | НКФ |
| Рамках | Технологія TensorFlow | Компанія PyTorch | Компанія PyTorch | Компанія PyTorch | Компанія PyTorch | Компанія PyTorch |
Таблиця 2: Орієнтири MLF Perf, використані при оцінці
| Платформа | PowerEdge R740 |
|---|---|
| ЦП | 2x Intel Xeon Gold 6136 @3.0 ГГц (SkyLake) |
| Пам'ять | 384 ГБ DDR4 @ 2666 МГц |
| Зберігання | Блиск 782 ТБ |
| Відеокарта | T4, V100-PCIe |
| ОС і прошивка | |
| Операційна система | Red Hat® Enterprise Linux® 7.5 x86_64 |
| Linux Kernal | 3.10.0-693.el7.x86_64 |
| BIOS | 1.6.12 |
| Пов'язані з глибоким навчанням | |
| Компілятор CUDA та драйвер графічного процесора | CUDA 10.0.130 (410.66) |
| CUDNN | 7.4.1 |
| НКЦЛ | 2.3.7 |
| Технологія TensorFlow | nightly-gpu-dev20190130 |
| Компанія PyTorch | 1.0.0 |
| MLPerf | V0.5 |
Таблиця 3: Конфігурація апаратного забезпечення та деталі програмного забезпечення
Оцінка ефективності
На малюнку 1 показані результати продуктивності MLPerf на T4 і V100-PCIe на сервері PowerEdge R740. Включено шість тестів від MLPerf. Для кожного еталонного показника проводилося наскрізне навчання моделі, щоб досягти точності цільової моделі, визначеної комітетом MLPerf. Час тренування в хвилинах фіксувався для кожного еталонного показника. Виходячи з цих результатів, можна зробити наступні висновки:
-
Моделі ResNet-50 v1.5, SSD і Mask-R-CNN добре масштабуються зі збільшенням кількості графічних процесорів. Для ResNet-50 v1.5 V100-PCIe працює в 3,6 рази швидше, ніж T4. Для SSD V100-PCI в 3,3 – 3,4 рази швидше, ніж T4. Для Mask-R-CNN V100-PCIe у 2,2-2,7 раза швидший за T4. При однаковій кількості графічних процесорів кожній моделі потрібно майже однакову кількість епох для зближення для T4 і V100-PCIe.
-
Для моделі GNMT суперлінійне прискорення спостерігалося, коли використовувалося більше графічних процесорів T4. У порівнянні з одним Т4 прискорення становить 3,1х з двома Т4 і 10,4х з чотирма Т4. Це пов'язано з тим, що на збіжність моделі впливає випадкове насіння, яке використовується для навчання, перемішування даних та ініціалізації ваг нейронної мережі. Незалежно від того, скільки графічних процесорів використовується з різними випадковими насіннями, моделі може знадобитися різна кількість епох для зближення. У цьому експерименті моделі знадобилося 12, 7, 5 і 4 епохи, щоб зійтися з 1, 2, 3 і 4 Т4 відповідно. А моделі знадобилося 16, 12 і 9 епох, щоб зійти з 1, 2 і 3 V100-PCIe відповідно. Оскільки кількість епох значно відрізняється навіть при однаковій кількості графічних процесорів T4 і V100, продуктивність не можна безпосередньо порівнювати. У цьому сценарії показник пропускної здатності є справедливим порівнянням, оскільки він не залежить від випадкового початку. На малюнку 2 показано порівняння пропускної здатності для T4 і V100-PCIe. При такій же кількості графічних процесорів V100-PCIe в 2,5-3,6 рази швидше, ніж T4.
-
Моделі NCF і Transformer мають ту ж проблему, що і GNMT. Для моделі NCF розмір набору даних невеликий, і модель не займає багато часу для зближення; Тому цю проблему не очевидно помітити на цифрі результатів. Модель Transformer має ту саму проблему, коли використовується один графічний процесор, оскільки моделі знадобилося 12 епох, щоб зійтися з одним T4, але знадобилося лише 8 епох, щоб зійтися з одним V100-PCIe. Коли використовуються два або більше графічних процесорів, моделі знадобилося 4 епохи для зближення, незалежно від того, скільки графічних процесорів використовується або який тип графічного процесора використовується. У цих випадках V100-PCIe в 2,6-2,8 рази швидший за T4.



Малюнок 1: Результати MLPerf на T4 та V100-PCIe

Малюнок 2: Порівняння пропускної здатності для моделі GNMT
Висновки і подальша робота
У цьому блозі ми оцінили продуктивність графічних процесорів T4 на сервері Dell EMC PowerEdge R740 за допомогою різних тестів MLPerf. Продуктивність T4 порівнювалася з V100-PCIe з використанням того ж сервера та програмного забезпечення. В цілому, V100-PCIe в 2,2-3,6 рази швидший за T4 залежно від характеристик кожного бенчмарка. Одне зі спостережень полягає в тому, що деякі моделі стабільні незалежно від того, які випадкові початкові значення використовуються, але інші моделі, включаючи GNMT, NCF і Transformer, сильно залежать від випадкового початку. У подальшій роботі ми доопрацюємо гіперпараметри, щоб нестабільні моделі сходилися з меншою кількістю епох. Ми також запустимо MLPerf на більшій кількості графічних процесорів і більшої кількості вузлів, щоб оцінити масштабованість цих моделей на серверах PowerEdge.
*Застереження: З метою порівняльного аналізу було оцінено чотири графічні процесори T4 у Dell EMC PowerEdge R740. В даний час PowerEdge R740 офіційно підтримує максимум три слоти T4 в x16 PCIe.