Производительность глубинного обучения на базе графических процессоров T4 и тестов производительности MLPerf

Summary: Информация об архитектуре Turing, новейшей архитектуре NVIDIA для графических процессоров после архитектуры, а также новом процессоре T4, который основан на этой архитектуре.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Статья сотрудников лаборатории HPC & AI Innovation Lab Жэньгань Сюй (Rengan Xu), Фрэнка Хэна (Frank Han) и Цю Та (Quy Ta), март 2019 г.

Cause

-

Resolution


Содержание:

  1. Аннотация
  2. Обзор
  3. Оценка производительности
  4. Выводы и планы на будущее

 

Аннотация

 

Архитектура Turing — это новейшая архитектура NVIDIA для графических процессоров после архитектуры Volta. Новый процессор T4 основан на архитектуре Turing. Она была разработана для высокопроизводительных вычислений (HPC), глубинного обучения и логических выводов, а также машинного обучения, аналитики данных и графики. В этом блоге будет представлена количественная оценка эффективности глубинного обучения графических процессоров T4 на сервере Dell EMC PowerEdge R740 с пакетом эталонных тестов MLPerf. Производительность MLPerf на процессорах T4 также будет сравниваться с производительностью V100-PCIe на том же сервере и с тем же программным обеспечением.


В начало


 

Обзор

 

Dell EMC PowerEdge R740 — это 2-процессорный стоечный сервер в корпусе 2U. В системе используются процессоры Intel Skylake, до 24 модулей DIMM и до 3 графических процессоров V100-PCIe двойной ширины или 4 графических процессора T4 одинарной ширины в 16 разъемах PCIe 3.0. T4 — графический процессор, использующий новейшую архитектуру Turing от NVIDIA. Различия в спецификациях T4 и V100-PCIe приведены в Таблице 1. Инструмент MLPerf был выбран для оценки эффективности T4 в процессе глубинного обучения. MLPerf — средство тестирования, который было разработано группой ученых и отраслевых специалистов, включая представителей Google, Baidu, Intel, AMD, Гарвардского и Стэнфордского университетов и т. д., с целью измерения скорости и производительности программного обеспечения и оборудования для машинного обучения. Первоначальная версия v0.5 охватывает внедрение моделей в различных областях машинного обучения, включая классификацию изображений, обнаружение и сегментацию объектов, машинный перевод и обучение с подкреплением. Сводные данные по эталонным тестам MLPerf, используемым для этой оценки, приведен в Таблице 2. Были использованы реализации ResNet-50 TensorFlow, отправленные Google, а также все другие реализации моделей, отправленные NVIDIA. Все эталонные тесты проводились на системах без ОС и контейнера. В Таблице 3 приведены сведения о программном обеспечении и оборудовании, использованном для оценки. С помощью эталонных тестов MLPerf производительность T4 будет сравниваться с производительностью V100-PCIe.

  Tesla V100-PCIe Tesla T4
Архитектура Volta Turing
Ядра CUDA 5120 2560
Тензорные ядра 640 320
Вычислительные возможности 7.0 7.5
Тактовая частота графического процессора 1245 МГц 585 МГц
Увеличенная тактовая частота 1380 МГц 1590 МГц
Тип памяти HBM2 GDDR6
Объем памяти 16 Гбайт/32 Гбайт 16 Гбайт
Пропускная способность 900 Гбайт/с 320 Гбайт/с
Число занимаемых слотов Два слота Один слот
Одинарная точность (FP32) 14 Тфлопс 8,1 Тфлопс
Смешанная точность (FP16/FP32) 112 Тфлопс 65 Тфлопс
Двойная точность (FP64) 7 Тфлопс 254,4 Гфлопс
Расчетная тепловая мощность 250 Вт 70 Вт

Таблица 1. Сравнение T4 и V100-PCIe

  Классификация изображений Классификация объектов Сегментация экземпляров объектов Перевод (повторный) Перевод (однократный) Рекомендации
Данные ImageNet COCO COCO WMT E-G WMT E-G MovieLens-20M
Объем данных 144 Гбайт 20 Гбайт 20 Гбайт 37 Гбайт 1,3 Гбайт 306 Мбайт
Модель ResNet-50 v1.5 Одноступенчатый детектор (SSD) Mask-R-CNN GNMT Transformer NCF
Структура TensorFlow PyTorch PyTorch PyTorch PyTorch PyTorch

Таблица 2. Эталонные тесты MLPerf, используемые при оценке

Платформа PowerEdge R740
ЦП 2 процессора Intel Xeon Gold 6136, 3.0 ГГц (SkyLake)
Модули 384 Гбайт, DDR4 2666 МГц
Storage 782 Тбайт, Lustre
Графический процессор T4, V100-PCIe
ОС и микропрограмма
Операционная система Red Hat® Enterprise Linux® 7.5 x86_64
Linux Kernal 3.10.0-693.el7.x86_64
BIOS 1.6.12
Связано с глубинным обучением
Компилятор CUDA и драйвер графического процессора CUDA 10.0.130 (410.66)
CUDNN 7.4.1
NCCL 2.3.7
TensorFlow nightly-gpu-dev20190130
PyTorch 1.0.0
MLPerf V0.5

Таблица 3. Сведения о конфигурации оборудования и программном обеспечении


В начало


 

Оценка производительности

 

На рис. 1 показаны результаты производительности MLPerf на серверах PowerEdge R740 с процессорами T4 и V100-PCIe. Использованы шесть эталонных тестов MLPerf. Для каждого эталонного теста было проведено комплексное обучение модели, чтобы достичь точности целевой модели, определенной комитетом MLPerf. Время обучения в минутах зафиксировано для каждого эталонного теста. На основании этих результатов можно сделать следующие выводы.

  • Модели ResNet-50 v1.5, SSD и Mask-R-CNN хорошо масштабируются с увеличением количества графических процессоров. Для ResNet-50 v1.5 процессор V100-PCIe работает в 3,6 раза быстрее T4. Для SSD процессор V100-PCI работает в 3,3–3,4 раза быстрее, чем T4. Для Mask-R-CNN процессор V100-PCIe работает в 2,2–2,7 раза быстрее T4. При одинаковом количестве графических процессоров каждая модель использует практически одинаковое количество эпох для конвергенции на процессорах T4 и V100-PCIe.

  • Для модели GNMT при использовании большего количества графических процессоров T4 наблюдалось сверхлинейное ускорение. По сравнению с одним процессором T4, скорость увеличивается в 3,1 раза при использовании двух процессоров T4 и в 10,4 раза при использовании четырех. Это связано с тем, что на конвергенцию модели влияет случайный элемент, который используется для перемешивания данных обучения и инициализации весовых коэффициентов нейронных сетей. Независимо от количества используемых графических процессоров, для конвергенции с участием различных случайных элементов для модели может потребоваться разное количество эпох. В этом эксперименте в модели использовались 12, 7, 5 и 4 эпохи для конвергенции с 1, 2, 3 и 4 процессорами T4 соответственно. В модели использовались 16, 12 и 9 эпох для конвергенции с 1, 2 и 3 процессорами V100-PCIe соответственно. Поскольку количество эпох значительно отличается даже при одинаковом количестве графических процессоров T4 и V100, их нельзя напрямую сравнивать. В этом сценарии показатель пропускной способности является справедливым сравнением, поскольку он не зависит от случайного элемента.  На рис. 2 показано сравнение пропускной способности T4 и V100-PCIe. При одинаковом количестве графических процессоров модель V100-PCIe работает в 2,5–3,6 раза быстрее T4.

  • Модель NCF и модель Transformer имеют ту же проблему, что и GNMT. У модели NCF размер набора данных мал, а для конвергенции не требуется много времени; поэтому эта проблема не очевидна при просмотре результатов. Модель Transformer имеет ту же проблему, что и при использовании одного графического процессора, так как для конвергенции модели с одним процессором T4 потребовалось 12 эпох, но для конвергенции с одним процессором V100-PCIe потребовалось всего 8 эпох. При использовании двух или более графических процессоров модель использовала 4 эпохи для конвергенции независимо от количества используемых графических процессоров или их типов. В этих случаях V100-PCIe работает в 2,6–2,8 раза быстрее T4.

SLN316560_en_US__1image(9291) SLN316560_en_US__2image(9292)

SLN316560_en_US__3image(9293) SLN316560_en_US__4image(9294)

SLN316560_en_US__5image(9295) SLN316560_en_US__6image(9296)

Рис. 1. Результаты MLPerf для T4 и V100-PCIe

SLN316560_en_US__7image(9289)

Рис. 2. Сравнение пропускной способности для модели GNMT


В начало


 

Выводы и планы на будущее

 

В этом блоге мы оценили производительность графических процессоров T4 на сервере Dell EMC PowerEdge R740 с использованием различных эталонных тестов MLPerf. Сравнивалась производительность T4 и V100-PCIe с использованием одинакового сервера и программного обеспечения. В целом, процессор V100-PCIe в 2,2–3,6 раза быстрее T4 в зависимости от характеристик каждого эталонного теста. Одно из наблюдений заключается в том, что некоторые модели стабильно работают независимо от используемых значений случайных элементов, которые, в свою очередь, значительно влияют на другие модели, включая GNMT, NCF и Transformer. В будущем мы будем точно настраивать гиперпараметры, чтобы конвергенция нестабильных моделей осуществлялась с меньшим количеством эпох. Кроме того, планируется запуск MLPerf на большем числе графических процессоров и узлов для оценки масштабируемости этих моделей на серверах PowerEdge.

*Отказ от ответственности: для сравнительной оценки были протестированы четыре графических процессора T4 в сервере Dell EMC PowerEdge R740. В настоящее время PowerEdge R740 официально поддерживает до трех T4 в слотах x16 PCIe.

 


В начало


Affected Products

High Performance Computing Solution Resources
Article Properties
Article Number: 000132094
Article Type: Solution
Last Modified: 24 Sep 2021
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.