Продуктивність глибокого навчання на графічних процесорах T4 з тестами MLPerf

摘要: Інформація про архітектуру Turing, яка є останньою архітектурою графічного процесора NVIDIA після архітектури Volta та нового T4, базується на архітектурі Turing.

本文适用于 本文不适用于 本文并非针对某种特定的产品。 本文并非包含所有产品版本。

症状

Стаття написана Ренган Сюй, Френком Ханом і Цюй Та з HPC та AI Innovation Lab у березні 2019 року

原因

-

解决方案


Зміст:

  1. Абстрактний
  2. Огляд
  3. Оцінка ефективності
  4. Висновки і подальша робота

 

Абстрактний

 

Архітектура Turing є останньою архітектурою графічного процесора NVIDIA після архітектури Volta, а новий T4 заснований на архітектурі Turing. Він був розроблений для високопродуктивних обчислень (HPC), навчання глибокого навчання та висновків, машинного навчання, аналітики даних та графіки. У цьому блозі буде кількісно оцінено продуктивність навчання глибокому навчанню графічних процесорів T4 на сервері Dell EMC PowerEdge R740 із набором тестів MLPerf . Продуктивність MLPerf на T4 також буде порівнюватися з V100-PCIe на тому ж сервері з тим же програмним забезпеченням.


Догори


 

Огляд

 

Dell EMC PowerEdge R740 - це 2-розетковий сервер на 2U. Система оснащена процесорами Intel Skylake, до 24 модулів DIMM і до 3 відеокарт V100-PCIe подвійної ширини або 4 графічних процесорів T4 одинарної ширини в слотах x16 PCIe 3.0. T4 – це графічний процесор, який використовує новітню архітектуру Turing від NVIDIA. Відмінності в технічних характеристиках графічних процесорів T4 і V100-PCIe наведені в таблиці 1. MLPerf був обраний для оцінки продуктивності Т4 у навчанні глибокому навчанню. MLPerf — це інструмент порівняльного аналізу, який був зібраний різноманітною групою з академічних кіл і промисловості, включаючи Google, Baidu, Intel, AMD, Гарвард, Стенфорд тощо, для вимірювання швидкості та продуктивності програмного та апаратного забезпечення машинного навчання. Початкова випущена версія має версію 0.5 і охоплює реалізацію моделей у різних областях машинного навчання, включаючи класифікацію зображень, виявлення та сегментацію об'єктів, машинний переклад та навчання з підкріпленням. Підсумок контрольних показників MLPerf, що використовуються для цієї оцінки, наведено в таблиці 2. Була використана реалізація ResNet-50 TensorFlow з подання Google , а також використання всіх інших реалізацій моделей з подання NVIDIA . Всі бенчмарки проходили на голому металі без контейнера. У таблиці 3 наведено апаратні та програмні засоби, які використовуються для оцінювання. Продуктивність T4 з бенчмарками MLPerf буде порівнюватися з V100-PCIe.

  Tesla V100-PCIe Tesla T4
Архітектура Вольта Тьюрінг
Ядра CUDA 5120 2560
Тензорні ядра 640 320
Обчислювальні можливості 7.0 7.5
Годинник з графічним процесором 1245 МГц 585 МГц
Прискорена частота 1380 МГц 1590 МГц
Тип пам'яті HBM2 GDDR6
Об'єм пам'яті 16 ГБ/32 ГБ 16 ГБ
Пропускну здатність 900 ГБІТ/с 320 ГБІТ/с
Ширина слота Два слоти З одним слотом
Одинарна точність (FP32) 14 ФЛОПС 8.1 ШЛЬОПАНЦІ
Змішана точність (FP16/FP32) 112 ТФЛОПС 65 ФЛОПС
Подвійна точність (FP64) 7 ФЛОПС 254,4 ГФЛОПС
ТДП 250 Вт 70 Вт

Таблиця 1: Порівняння T4 і V100-PCIe

  Класифікація зображень Класифікація об'єктів Сегментація екземпляра об'єкта Переклад (повторюваний) Танслація (не рецидивуюча) Рекомендація
Дані Мережа ImageNet КОКО КОКО ВМТ Е-Г ВМТ Е-Г Відеооб'єктив-20М
Розмір даних 144 ГБ 20 ГБ 20 ГБ 37 ГБ 1,3 ГБ 306 МБ
Модель ResNet-50 v1.5 Одноступеневий детектор (SSD) Маска-Р-ЧНН ГНМТ Трансформатор НКФ
Рамках Технологія TensorFlow Компанія PyTorch Компанія PyTorch Компанія PyTorch Компанія PyTorch Компанія PyTorch

Таблиця 2: Орієнтири MLF Perf, використані при оцінці

Платформа PowerEdge R740
ЦП 2x Intel Xeon Gold 6136 @3.0 ГГц (SkyLake)
Пам'ять 384 ГБ DDR4 @ 2666 МГц
Зберігання Блиск 782 ТБ
Відеокарта T4, V100-PCIe
ОС і прошивка
Операційна система Red Hat® Enterprise Linux® 7.5 x86_64
Linux Kernal 3.10.0-693.el7.x86_64
BIOS 1.6.12
Пов'язані з глибоким навчанням
Компілятор CUDA та драйвер графічного процесора CUDA 10.0.130 (410.66)
CUDNN 7.4.1
НКЦЛ 2.3.7
Технологія TensorFlow nightly-gpu-dev20190130
Компанія PyTorch 1.0.0
MLPerf V0.5

Таблиця 3: Конфігурація апаратного забезпечення та деталі програмного забезпечення


Догори


 

Оцінка ефективності

 

На малюнку 1 показані результати продуктивності MLPerf на T4 і V100-PCIe на сервері PowerEdge R740. Включено шість тестів від MLPerf. Для кожного еталонного показника проводилося наскрізне навчання моделі, щоб досягти точності цільової моделі, визначеної комітетом MLPerf. Час тренування в хвилинах фіксувався для кожного еталонного показника. Виходячи з цих результатів, можна зробити наступні висновки:

  • Моделі ResNet-50 v1.5, SSD і Mask-R-CNN добре масштабуються зі збільшенням кількості графічних процесорів. Для ResNet-50 v1.5 V100-PCIe працює в 3,6 рази швидше, ніж T4. Для SSD V100-PCI в 3,3 – 3,4 рази швидше, ніж T4. Для Mask-R-CNN V100-PCIe у 2,2-2,7 раза швидший за T4. При однаковій кількості графічних процесорів кожній моделі потрібно майже однакову кількість епох для зближення для T4 і V100-PCIe.

  • Для моделі GNMT суперлінійне прискорення спостерігалося, коли використовувалося більше графічних процесорів T4. У порівнянні з одним Т4 прискорення становить 3,1х з двома Т4 і 10,4х з чотирма Т4. Це пов'язано з тим, що на збіжність моделі впливає випадкове насіння, яке використовується для навчання, перемішування даних та ініціалізації ваг нейронної мережі. Незалежно від того, скільки графічних процесорів використовується з різними випадковими насіннями, моделі може знадобитися різна кількість епох для зближення. У цьому експерименті моделі знадобилося 12, 7, 5 і 4 епохи, щоб зійтися з 1, 2, 3 і 4 Т4 відповідно. А моделі знадобилося 16, 12 і 9 епох, щоб зійти з 1, 2 і 3 V100-PCIe відповідно. Оскільки кількість епох значно відрізняється навіть при однаковій кількості графічних процесорів T4 і V100, продуктивність не можна безпосередньо порівнювати. У цьому сценарії показник пропускної здатності є справедливим порівнянням, оскільки він не залежить від випадкового початку.  На малюнку 2 показано порівняння пропускної здатності для T4 і V100-PCIe. При такій же кількості графічних процесорів V100-PCIe в 2,5-3,6 рази швидше, ніж T4.

  • Моделі NCF і Transformer мають ту ж проблему, що і GNMT. Для моделі NCF розмір набору даних невеликий, і модель не займає багато часу для зближення; Тому цю проблему не очевидно помітити на цифрі результатів. Модель Transformer має ту саму проблему, коли використовується один графічний процесор, оскільки моделі знадобилося 12 епох, щоб зійтися з одним T4, але знадобилося лише 8 епох, щоб зійтися з одним V100-PCIe. Коли використовуються два або більше графічних процесорів, моделі знадобилося 4 епохи для зближення, незалежно від того, скільки графічних процесорів використовується або який тип графічного процесора використовується. У цих випадках V100-PCIe в 2,6-2,8 рази швидший за T4.

SLN316560_en_US__1image(9291) SLN316560_en_US__2image(9292)

SLN316560_en_US__3image(9293) SLN316560_en_US__4image(9294)

SLN316560_en_US__5image(9295) SLN316560_en_US__6image(9296)

Малюнок 1: Результати MLPerf на T4 та V100-PCIe

SLN316560_en_US__7image(9289)

Малюнок 2: Порівняння пропускної здатності для моделі GNMT


Догори


 

Висновки і подальша робота

 

У цьому блозі ми оцінили продуктивність графічних процесорів T4 на сервері Dell EMC PowerEdge R740 за допомогою різних тестів MLPerf. Продуктивність T4 порівнювалася з V100-PCIe з використанням того ж сервера та програмного забезпечення. В цілому, V100-PCIe в 2,2-3,6 рази швидший за T4 залежно від характеристик кожного бенчмарка. Одне зі спостережень полягає в тому, що деякі моделі стабільні незалежно від того, які випадкові початкові значення використовуються, але інші моделі, включаючи GNMT, NCF і Transformer, сильно залежать від випадкового початку. У подальшій роботі ми доопрацюємо гіперпараметри, щоб нестабільні моделі сходилися з меншою кількістю епох. Ми також запустимо MLPerf на більшій кількості графічних процесорів і більшої кількості вузлів, щоб оцінити масштабованість цих моделей на серверах PowerEdge.

*Застереження: З метою порівняльного аналізу було оцінено чотири графічні процесори T4 у Dell EMC PowerEdge R740. В даний час PowerEdge R740 офіційно підтримує максимум три слоти T4 в x16 PCIe.

 


Догори


受影响的产品

High Performance Computing Solution Resources
文章属性
文章编号: 000132094
文章类型: Solution
上次修改时间: 24 9月 2021
版本:  3
从其他戴尔用户那里查找问题的答案
支持服务
检查您的设备是否在支持服务涵盖的范围内。