Продуктивність глибокого навчання на графічних процесорах T4 з тестами MLPerf

Summary: Інформація про архітектуру Turing, яка є останньою архітектурою графічного процесора NVIDIA після архітектури Volta та нового T4, базується на архітектурі Turing.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Стаття написана Ренган Сюй, Френком Ханом і Цюй Та з HPC та AI Innovation Lab у березні 2019 року

Cause

-

Resolution


Зміст:

  1. Абстрактний
  2. Огляд
  3. Оцінка ефективності
  4. Висновки і подальша робота

 

Абстрактний

 

Архітектура Turing є останньою архітектурою графічного процесора NVIDIA після архітектури Volta, а новий T4 заснований на архітектурі Turing. Він був розроблений для високопродуктивних обчислень (HPC), навчання глибокого навчання та висновків, машинного навчання, аналітики даних та графіки. У цьому блозі буде кількісно оцінено продуктивність навчання глибокому навчанню графічних процесорів T4 на сервері Dell EMC PowerEdge R740 із набором тестів MLPerf . Продуктивність MLPerf на T4 також буде порівнюватися з V100-PCIe на тому ж сервері з тим же програмним забезпеченням.


Догори


 

Огляд

 

Dell EMC PowerEdge R740 - це 2-розетковий сервер на 2U. Система оснащена процесорами Intel Skylake, до 24 модулів DIMM і до 3 відеокарт V100-PCIe подвійної ширини або 4 графічних процесорів T4 одинарної ширини в слотах x16 PCIe 3.0. T4 – це графічний процесор, який використовує новітню архітектуру Turing від NVIDIA. Відмінності в технічних характеристиках графічних процесорів T4 і V100-PCIe наведені в таблиці 1. MLPerf був обраний для оцінки продуктивності Т4 у навчанні глибокому навчанню. MLPerf — це інструмент порівняльного аналізу, який був зібраний різноманітною групою з академічних кіл і промисловості, включаючи Google, Baidu, Intel, AMD, Гарвард, Стенфорд тощо, для вимірювання швидкості та продуктивності програмного та апаратного забезпечення машинного навчання. Початкова випущена версія має версію 0.5 і охоплює реалізацію моделей у різних областях машинного навчання, включаючи класифікацію зображень, виявлення та сегментацію об'єктів, машинний переклад та навчання з підкріпленням. Підсумок контрольних показників MLPerf, що використовуються для цієї оцінки, наведено в таблиці 2. Була використана реалізація ResNet-50 TensorFlow з подання Google , а також використання всіх інших реалізацій моделей з подання NVIDIA . Всі бенчмарки проходили на голому металі без контейнера. У таблиці 3 наведено апаратні та програмні засоби, які використовуються для оцінювання. Продуктивність T4 з бенчмарками MLPerf буде порівнюватися з V100-PCIe.

  Tesla V100-PCIe Tesla T4
Архітектура Вольта Тьюрінг
Ядра CUDA 5120 2560
Тензорні ядра 640 320
Обчислювальні можливості 7.0 7.5
Годинник з графічним процесором 1245 МГц 585 МГц
Прискорена частота 1380 МГц 1590 МГц
Тип пам'яті HBM2 GDDR6
Об'єм пам'яті 16 ГБ/32 ГБ 16 ГБ
Пропускну здатність 900 ГБІТ/с 320 ГБІТ/с
Ширина слота Два слоти З одним слотом
Одинарна точність (FP32) 14 ФЛОПС 8.1 ШЛЬОПАНЦІ
Змішана точність (FP16/FP32) 112 ТФЛОПС 65 ФЛОПС
Подвійна точність (FP64) 7 ФЛОПС 254,4 ГФЛОПС
ТДП 250 Вт 70 Вт

Таблиця 1: Порівняння T4 і V100-PCIe

  Класифікація зображень Класифікація об'єктів Сегментація екземпляра об'єкта Переклад (повторюваний) Танслація (не рецидивуюча) Рекомендація
Дані Мережа ImageNet КОКО КОКО ВМТ Е-Г ВМТ Е-Г Відеооб'єктив-20М
Розмір даних 144 ГБ 20 ГБ 20 ГБ 37 ГБ 1,3 ГБ 306 МБ
Модель ResNet-50 v1.5 Одноступеневий детектор (SSD) Маска-Р-ЧНН ГНМТ Трансформатор НКФ
Рамках Технологія TensorFlow Компанія PyTorch Компанія PyTorch Компанія PyTorch Компанія PyTorch Компанія PyTorch

Таблиця 2: Орієнтири MLF Perf, використані при оцінці

Платформа PowerEdge R740
ЦП 2x Intel Xeon Gold 6136 @3.0 ГГц (SkyLake)
Пам'ять 384 ГБ DDR4 @ 2666 МГц
Зберігання Блиск 782 ТБ
Відеокарта T4, V100-PCIe
ОС і прошивка
Операційна система Red Hat® Enterprise Linux® 7.5 x86_64
Linux Kernal 3.10.0-693.el7.x86_64
BIOS 1.6.12
Пов'язані з глибоким навчанням
Компілятор CUDA та драйвер графічного процесора CUDA 10.0.130 (410.66)
CUDNN 7.4.1
НКЦЛ 2.3.7
Технологія TensorFlow nightly-gpu-dev20190130
Компанія PyTorch 1.0.0
MLPerf V0.5

Таблиця 3: Конфігурація апаратного забезпечення та деталі програмного забезпечення


Догори


 

Оцінка ефективності

 

На малюнку 1 показані результати продуктивності MLPerf на T4 і V100-PCIe на сервері PowerEdge R740. Включено шість тестів від MLPerf. Для кожного еталонного показника проводилося наскрізне навчання моделі, щоб досягти точності цільової моделі, визначеної комітетом MLPerf. Час тренування в хвилинах фіксувався для кожного еталонного показника. Виходячи з цих результатів, можна зробити наступні висновки:

  • Моделі ResNet-50 v1.5, SSD і Mask-R-CNN добре масштабуються зі збільшенням кількості графічних процесорів. Для ResNet-50 v1.5 V100-PCIe працює в 3,6 рази швидше, ніж T4. Для SSD V100-PCI в 3,3 – 3,4 рази швидше, ніж T4. Для Mask-R-CNN V100-PCIe у 2,2-2,7 раза швидший за T4. При однаковій кількості графічних процесорів кожній моделі потрібно майже однакову кількість епох для зближення для T4 і V100-PCIe.

  • Для моделі GNMT суперлінійне прискорення спостерігалося, коли використовувалося більше графічних процесорів T4. У порівнянні з одним Т4 прискорення становить 3,1х з двома Т4 і 10,4х з чотирма Т4. Це пов'язано з тим, що на збіжність моделі впливає випадкове насіння, яке використовується для навчання, перемішування даних та ініціалізації ваг нейронної мережі. Незалежно від того, скільки графічних процесорів використовується з різними випадковими насіннями, моделі може знадобитися різна кількість епох для зближення. У цьому експерименті моделі знадобилося 12, 7, 5 і 4 епохи, щоб зійтися з 1, 2, 3 і 4 Т4 відповідно. А моделі знадобилося 16, 12 і 9 епох, щоб зійти з 1, 2 і 3 V100-PCIe відповідно. Оскільки кількість епох значно відрізняється навіть при однаковій кількості графічних процесорів T4 і V100, продуктивність не можна безпосередньо порівнювати. У цьому сценарії показник пропускної здатності є справедливим порівнянням, оскільки він не залежить від випадкового початку.  На малюнку 2 показано порівняння пропускної здатності для T4 і V100-PCIe. При такій же кількості графічних процесорів V100-PCIe в 2,5-3,6 рази швидше, ніж T4.

  • Моделі NCF і Transformer мають ту ж проблему, що і GNMT. Для моделі NCF розмір набору даних невеликий, і модель не займає багато часу для зближення; Тому цю проблему не очевидно помітити на цифрі результатів. Модель Transformer має ту саму проблему, коли використовується один графічний процесор, оскільки моделі знадобилося 12 епох, щоб зійтися з одним T4, але знадобилося лише 8 епох, щоб зійтися з одним V100-PCIe. Коли використовуються два або більше графічних процесорів, моделі знадобилося 4 епохи для зближення, незалежно від того, скільки графічних процесорів використовується або який тип графічного процесора використовується. У цих випадках V100-PCIe в 2,6-2,8 рази швидший за T4.

SLN316560_en_US__1image(9291) SLN316560_en_US__2image(9292)

SLN316560_en_US__3image(9293) SLN316560_en_US__4image(9294)

SLN316560_en_US__5image(9295) SLN316560_en_US__6image(9296)

Малюнок 1: Результати MLPerf на T4 та V100-PCIe

SLN316560_en_US__7image(9289)

Малюнок 2: Порівняння пропускної здатності для моделі GNMT


Догори


 

Висновки і подальша робота

 

У цьому блозі ми оцінили продуктивність графічних процесорів T4 на сервері Dell EMC PowerEdge R740 за допомогою різних тестів MLPerf. Продуктивність T4 порівнювалася з V100-PCIe з використанням того ж сервера та програмного забезпечення. В цілому, V100-PCIe в 2,2-3,6 рази швидший за T4 залежно від характеристик кожного бенчмарка. Одне зі спостережень полягає в тому, що деякі моделі стабільні незалежно від того, які випадкові початкові значення використовуються, але інші моделі, включаючи GNMT, NCF і Transformer, сильно залежать від випадкового початку. У подальшій роботі ми доопрацюємо гіперпараметри, щоб нестабільні моделі сходилися з меншою кількістю епох. Ми також запустимо MLPerf на більшій кількості графічних процесорів і більшої кількості вузлів, щоб оцінити масштабованість цих моделей на серверах PowerEdge.

*Застереження: З метою порівняльного аналізу було оцінено чотири графічні процесори T4 у Dell EMC PowerEdge R740. В даний час PowerEdge R740 офіційно підтримує максимум три слоти T4 в x16 PCIe.

 


Догори


Affected Products

High Performance Computing Solution Resources
Article Properties
Article Number: 000132094
Article Type: Solution
Last Modified: 24 Sep 2021
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.