Производительность глубинного обучения на базе графических процессоров T4 и тестов производительности MLPerf
Summary: Информация об архитектуре Turing, новейшей архитектуре NVIDIA для графических процессоров после архитектуры, а также новом процессоре T4, который основан на этой архитектуре.
Symptoms
Cause
Resolution
Содержание:
Аннотация
Архитектура Turing — это новейшая архитектура NVIDIA для графических процессоров после архитектуры Volta. Новый процессор T4 основан на архитектуре Turing. Она была разработана для высокопроизводительных вычислений (HPC), глубинного обучения и логических выводов, а также машинного обучения, аналитики данных и графики. В этом блоге будет представлена количественная оценка эффективности глубинного обучения графических процессоров T4 на сервере Dell EMC PowerEdge R740 с пакетом эталонных тестов MLPerf. Производительность MLPerf на процессорах T4 также будет сравниваться с производительностью V100-PCIe на том же сервере и с тем же программным обеспечением.
Обзор
Dell EMC PowerEdge R740 — это 2-процессорный стоечный сервер в корпусе 2U. В системе используются процессоры Intel Skylake, до 24 модулей DIMM и до 3 графических процессоров V100-PCIe двойной ширины или 4 графических процессора T4 одинарной ширины в 16 разъемах PCIe 3.0. T4 — графический процессор, использующий новейшую архитектуру Turing от NVIDIA. Различия в спецификациях T4 и V100-PCIe приведены в Таблице 1. Инструмент MLPerf был выбран для оценки эффективности T4 в процессе глубинного обучения. MLPerf — средство тестирования, который было разработано группой ученых и отраслевых специалистов, включая представителей Google, Baidu, Intel, AMD, Гарвардского и Стэнфордского университетов и т. д., с целью измерения скорости и производительности программного обеспечения и оборудования для машинного обучения. Первоначальная версия v0.5 охватывает внедрение моделей в различных областях машинного обучения, включая классификацию изображений, обнаружение и сегментацию объектов, машинный перевод и обучение с подкреплением. Сводные данные по эталонным тестам MLPerf, используемым для этой оценки, приведен в Таблице 2. Были использованы реализации ResNet-50 TensorFlow, отправленные Google, а также все другие реализации моделей, отправленные NVIDIA. Все эталонные тесты проводились на системах без ОС и контейнера. В Таблице 3 приведены сведения о программном обеспечении и оборудовании, использованном для оценки. С помощью эталонных тестов MLPerf производительность T4 будет сравниваться с производительностью V100-PCIe.
| Tesla V100-PCIe | Tesla T4 | |
|---|---|---|
| Архитектура | Volta | Turing |
| Ядра CUDA | 5120 | 2560 |
| Тензорные ядра | 640 | 320 |
| Вычислительные возможности | 7.0 | 7.5 |
| Тактовая частота графического процессора | 1245 МГц | 585 МГц |
| Увеличенная тактовая частота | 1380 МГц | 1590 МГц |
| Тип памяти | HBM2 | GDDR6 |
| Объем памяти | 16 Гбайт/32 Гбайт | 16 Гбайт |
| Пропускная способность | 900 Гбайт/с | 320 Гбайт/с |
| Число занимаемых слотов | Два слота | Один слот |
| Одинарная точность (FP32) | 14 Тфлопс | 8,1 Тфлопс |
| Смешанная точность (FP16/FP32) | 112 Тфлопс | 65 Тфлопс |
| Двойная точность (FP64) | 7 Тфлопс | 254,4 Гфлопс |
| Расчетная тепловая мощность | 250 Вт | 70 Вт |
Таблица 1. Сравнение T4 и V100-PCIe
| Классификация изображений | Классификация объектов | Сегментация экземпляров объектов | Перевод (повторный) | Перевод (однократный) | Рекомендации | |
|---|---|---|---|---|---|---|
| Данные | ImageNet | COCO | COCO | WMT E-G | WMT E-G | MovieLens-20M |
| Объем данных | 144 Гбайт | 20 Гбайт | 20 Гбайт | 37 Гбайт | 1,3 Гбайт | 306 Мбайт |
| Модель | ResNet-50 v1.5 | Одноступенчатый детектор (SSD) | Mask-R-CNN | GNMT | Transformer | NCF |
| Структура | TensorFlow | PyTorch | PyTorch | PyTorch | PyTorch | PyTorch |
Таблица 2. Эталонные тесты MLPerf, используемые при оценке
| Платформа | PowerEdge R740 |
|---|---|
| ЦП | 2 процессора Intel Xeon Gold 6136, 3.0 ГГц (SkyLake) |
| Модули | 384 Гбайт, DDR4 2666 МГц |
| Storage | 782 Тбайт, Lustre |
| Графический процессор | T4, V100-PCIe |
| ОС и микропрограмма | |
| Операционная система | Red Hat® Enterprise Linux® 7.5 x86_64 |
| Linux Kernal | 3.10.0-693.el7.x86_64 |
| BIOS | 1.6.12 |
| Связано с глубинным обучением | |
| Компилятор CUDA и драйвер графического процессора | CUDA 10.0.130 (410.66) |
| CUDNN | 7.4.1 |
| NCCL | 2.3.7 |
| TensorFlow | nightly-gpu-dev20190130 |
| PyTorch | 1.0.0 |
| MLPerf | V0.5 |
Таблица 3. Сведения о конфигурации оборудования и программном обеспечении
Оценка производительности
На рис. 1 показаны результаты производительности MLPerf на серверах PowerEdge R740 с процессорами T4 и V100-PCIe. Использованы шесть эталонных тестов MLPerf. Для каждого эталонного теста было проведено комплексное обучение модели, чтобы достичь точности целевой модели, определенной комитетом MLPerf. Время обучения в минутах зафиксировано для каждого эталонного теста. На основании этих результатов можно сделать следующие выводы.
-
Модели ResNet-50 v1.5, SSD и Mask-R-CNN хорошо масштабируются с увеличением количества графических процессоров. Для ResNet-50 v1.5 процессор V100-PCIe работает в 3,6 раза быстрее T4. Для SSD процессор V100-PCI работает в 3,3–3,4 раза быстрее, чем T4. Для Mask-R-CNN процессор V100-PCIe работает в 2,2–2,7 раза быстрее T4. При одинаковом количестве графических процессоров каждая модель использует практически одинаковое количество эпох для конвергенции на процессорах T4 и V100-PCIe.
-
Для модели GNMT при использовании большего количества графических процессоров T4 наблюдалось сверхлинейное ускорение. По сравнению с одним процессором T4, скорость увеличивается в 3,1 раза при использовании двух процессоров T4 и в 10,4 раза при использовании четырех. Это связано с тем, что на конвергенцию модели влияет случайный элемент, который используется для перемешивания данных обучения и инициализации весовых коэффициентов нейронных сетей. Независимо от количества используемых графических процессоров, для конвергенции с участием различных случайных элементов для модели может потребоваться разное количество эпох. В этом эксперименте в модели использовались 12, 7, 5 и 4 эпохи для конвергенции с 1, 2, 3 и 4 процессорами T4 соответственно. В модели использовались 16, 12 и 9 эпох для конвергенции с 1, 2 и 3 процессорами V100-PCIe соответственно. Поскольку количество эпох значительно отличается даже при одинаковом количестве графических процессоров T4 и V100, их нельзя напрямую сравнивать. В этом сценарии показатель пропускной способности является справедливым сравнением, поскольку он не зависит от случайного элемента. На рис. 2 показано сравнение пропускной способности T4 и V100-PCIe. При одинаковом количестве графических процессоров модель V100-PCIe работает в 2,5–3,6 раза быстрее T4.
-
Модель NCF и модель Transformer имеют ту же проблему, что и GNMT. У модели NCF размер набора данных мал, а для конвергенции не требуется много времени; поэтому эта проблема не очевидна при просмотре результатов. Модель Transformer имеет ту же проблему, что и при использовании одного графического процессора, так как для конвергенции модели с одним процессором T4 потребовалось 12 эпох, но для конвергенции с одним процессором V100-PCIe потребовалось всего 8 эпох. При использовании двух или более графических процессоров модель использовала 4 эпохи для конвергенции независимо от количества используемых графических процессоров или их типов. В этих случаях V100-PCIe работает в 2,6–2,8 раза быстрее T4.



Рис. 1. Результаты MLPerf для T4 и V100-PCIe

Рис. 2. Сравнение пропускной способности для модели GNMT
Выводы и планы на будущее
В этом блоге мы оценили производительность графических процессоров T4 на сервере Dell EMC PowerEdge R740 с использованием различных эталонных тестов MLPerf. Сравнивалась производительность T4 и V100-PCIe с использованием одинакового сервера и программного обеспечения. В целом, процессор V100-PCIe в 2,2–3,6 раза быстрее T4 в зависимости от характеристик каждого эталонного теста. Одно из наблюдений заключается в том, что некоторые модели стабильно работают независимо от используемых значений случайных элементов, которые, в свою очередь, значительно влияют на другие модели, включая GNMT, NCF и Transformer. В будущем мы будем точно настраивать гиперпараметры, чтобы конвергенция нестабильных моделей осуществлялась с меньшим количеством эпох. Кроме того, планируется запуск MLPerf на большем числе графических процессоров и узлов для оценки масштабируемости этих моделей на серверах PowerEdge.
*Отказ от ответственности: для сравнительной оценки были протестированы четыре графических процессора T4 в сервере Dell EMC PowerEdge R740. В настоящее время PowerEdge R740 официально поддерживает до трех T4 в слотах x16 PCIe.