Результаты эталонного теста производительности НРС с использованием масштабируемых процессоров Intel Xeon 2-го поколения: тесты STREAM, HPL и HPCG

Summary: Ознакомьтесь с информацией о производительности HPC синтетических тестовых тестов с помощью Intel® Xeon® масштабируемых процессоров с 2-го поколениями. STREAM, ХПЛ и ХПКГ

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Статья, написанная с помощью сависа парик, Варун Бава, & Ашиш K Сингх HPC и лабораторных инноваций по AI в июне 2019 2-го

поколения Intel® Xeon® масштабируемые процессоры семейства (с архитектурой коденамед –Каскад Lake) — это преемник Intel в Skylake и готов к его первоначальному времени. Группа инженеров по HPC на Dell EMC имела доступ к нескольким инженерам тестирования, и этот блог представляет результаты первоначального исследования по тестированию.

Цель данного блога — продемонстрировать и проанализировать производительность, полученную на новейших процессорах Intel® Xeon® масштабируемую семейство, и сравните производительность со своим предшественником. Мы выбрали для нашего анализа выбранные вами тесты для потоков, ХПЛ и ХПКГ. В ходе исследования выделяются влияние на производительность одного и нескольких узлов. Эти тесты были выполнены для Dell EMC PowerEdge C6420 (исследование с одним узлом) и PowerEdge R740 (исследование с несколькими узлами) с рекомендованными настройками BIOS для рабочих нагрузок HPC. Каскадный процессор Lake поставляется с множеством усовершенствований , таких как Intel® глубокая система улучшения (Intel DL Boost) с внни, более высокая полоса пропускания памяти и повышенная производительность и эффективность векторной плавающей точки.

Cause

 

Resolution

Таблица 1. Информация о тестбед

Сервер

 PowerEdge C6420 & PowerEdge R740

Процессоры

Конфигурация с одним узлом

Конфигурация с несколькими узлами

Сервер — PowerEdge C6420 & PowerEdge R740

R740 сервера-PowerEdge

Skylake —

Intel Xeon® 6142 [16C@2.6GHz]

Intel Xeon® 6130 [16C@2.1GHz]

Процессор Intel Xeon® 8180 [28C @ 2,5 ГГц]

Каскад Lake —

Intel Xeon® 8268 [24C@2.90GHz]

Каскад Lake —

Процессор Intel Xeon® 6242 [16C @ 2,8 ГГц]

Intel Xeon® 6230 [20C@2.1GHz]

Intel Xeon® 8280 [28C @ 2.7 ГГц]

Модули

Каскад Lake Test-192 Гбайт-12 x 16 Гбит/с, 2933 MT/s DDR4

Skylake Test — 192 Гбайт-12 x 16 16 2933 MT/s DDR4 (Active 2666 MT/s)

Операционная система

Red Hat Enterprise Linux 7.6

Версия ядра

3.10.0-957.el7.x86_64

Опции BIOS

Turbo = Enabled, логический процессор = Disabled, Субнумаклустер = Enabled, технология виртуализации = отключено.

InfiniBand

Путь к Intel лампочки с IFS 10.9.2

Компилятор

Intel Parallel Studio XE 2018, обновление 4

Приложения

Измерения

Домен

Версия

Тестовая конфигурация

HPL

Высокая производительность ЛИНПАКК — вычислительные

Intel MKL Graphics 2018 U4

Размер проблемы — 90% от общей памяти

хпкг

Высокопроизводительный, сопряженный градиент — вычислительный 

Intel MKL Graphics 2018 U4

Размер проблемы — 336 x 336 x 336

ПОТОКОВ

Полоса пропускания памяти

5.4

триад

         

Тесты были проведены в количественном виде в следующих двух случаях:

  • Повышение производительности на одном узле с Skylake до каскадных Lake
  • Улучшение производительности с помощью одного узла и нескольких узлов

Потоков

Чтобы получить пиковую пропускную способность памяти для Intel Cascade Lake и Skylake, мы выбрали модульный тестовый опыт, который является де-факто Standard Performance standard в HPC Domain для измерения устойчивой полосы пропускания памяти (в Гбайт/с). Значение ТРИАД использовалось для сравнения полосы пропускания памяти.

SLN317735_en_US__1image (10401)

Figure1: ПОТОК — Skylake VS Cascade Lake

Максимальная поддерживаемая частота памяти для Skylake: 2666MT/s, в то время как каскадным путем Lake поддерживает 2933MT/s, то есть 10% более высокая частота памяти при использовании каскадных Lake. Как показано на рис. 1, в каскадных процессорах с большим объемом памяти отображаются 7 – 12% больше полосы пропускания памяти относительно Skylake. Полоса пропускания памяти на каждое ядро зависит от конкретного SKU процессора. Так как некоторые коммутаторы серии Lake имеют дополнительные ядра, связанные с Skylakeми, сравнение полосы пропускания для отдельных ядер памяти отличается от общего сравнения полосы пропускания памяти. На рис. 1, как 8280, так и 6242, имеют более высокую полосу пропускания памяти для каждого ядра до 7% по сравнению с соответствующими предшественниками. Тем не менее, 6230 отображает 11% полосы памяти на один модуль относительно 6130 из-за 25% увеличенного количества ядер для 6230. Полоса пропускания памяти на ядро может быть важным фактором для приложений, которые зависят от полосы пропускания памяти.

ЛИНПАКК-

Мы измеряем вычислительную возможность процессоров с помощью Intel ЛИНПАКК. Неисправность (N) составляет 90% от системной памяти, в то время как размер блока (NetBIOS) составляет 384. В данном случае мы планируем производительность и масштабирование с помощью каскадных процессоров Lake.

Skylake VS Cascade Lake -  

SLN317735_en_US__2image (13765)

Рис. 2. Производительность ЛИНПАКК (Skylake VS Lake Lake)

Как показано на рис. 2, ЛИНПАКК демонстрирует улучшение производительности до 15% с помощью каскадных процессоров Lake. Это сравнение базируется на номере модели ЦП, о сравнении Skylake и их последователях для масштабируемого семейства Intel Xeon®. Процессор Intel Xeon® 6230 с 4 дополнительными ядрами на каждый сокет дает 15% повышения производительности по сравнению с 6130. в то же время и 8280, и 6242 с аналогичным количеством ядер, как и в случае с повышением производительности, благодаря увеличению базовой частоты ЦП и увеличению полосы пропускания памяти.

Производительность с несколькими узлами — Для исследования с несколькими узлами использовался кластер с 8 узлами PowerEdge серверов R740 с® Intel Xeon 8268 и собранные результаты для 1, 2, 4 и 8 узлов. Оставшаяся часть конфигурации системы будет привышена в табл. 2.

SLN317735_en_US__3image (10402)

                                                Рис. 3. Производительность многоузловых ЛИНПАКК при использовании 8268 @ 2,90 ГГц

Как показано на рис. 3, производительность ЛИНПАКК для одного узла 8268 составляет 3059 ГФЛОПС и 23946 ГФЛОПС для 8 узлов, благодаря чему 7.83 X масштабируется с 1 узла до 8 узлов. Эффективность для одного узла составляет ~ 69%, а ~ 67% для узлов 2, 4 и 8. Эффективность снижается с 1 узла до 2 узлов; Однако масштабируемость в основном отличается линейной.               

ХПКГный тест производительности

Тестовый эталон ХПКГ основан на сопряженном градиентном поиске решения, где предварительное условие — это 3-уровневые иерархические методы с несколькими сетками (MG) с гаусс-Сеидел.

Эталонный тест ХПКГ создает логическую, физически распределенную многораспределенную линейную систему с использованием трафаретов 27-Point в каждой точке сетки в трехмерном домене таким образом, что уравнение в точке (i, j, k) зависит от значений и 26 соседних соседей. В качестве глобального домена, рассчитанного по производительности (Нркс * NX) X (нри * Россия) X (НРЗ * NZ), где NX, Россия и NZ — это размеры локальных вложенных сеток, назначенных каждому процессу MPI, и количество рангов MPI — НР = (Нркс X нри X НРЗ).

Для нашего анализа мы распределены тесты по 2 категориям —

Skylake VS Cascade Lakeв этом разделе мы сравниваем Skylake с помощью функции Cascade Lake с помощью производительности хпкг. Мы использовали размер сетки 336 ^ 3 , который занимает более 1/4м общей системной памяти. Количество процессов MPI на узел и количество потоков было основано на наилучших результатах и использовании памяти.

SLN317735_en_US__4image (10403)  

Рис. 4. Производительность ХПКГ (Skylake VS Lake Lake)

На рис. 4 мы наблюдаем важное повышение производительности ХПКГ с помощью каскадных процессоров Lake. Так как ХПКГ — больший объем приложения, связанного с памятью, повышение производительности с помощью каскадных процессоров Lake приводит к получению результатов тестирования потока, где 6230 выполняет 10% более чем 6130, 6242 выполняет 12% выше, чем 6142, и 8280 выполняет 7% выше, чем 8180.   

Хпкг с несколькими узлами — для тестирования с использованием нескольких узлов мы выбрали размер сетки локальных измерений 336 ^ 3 и лучший процесс MPI и сочетание потоков OpenMP.

SLN317735_en_US__5image (10404)

Рис. 5. Производительность многоузловых ХПКГ с помощью каскадных задач Lake

На рис. 5 показана производительность ХПКГ с помощью каскадной функции Lake 8268 @ 2.9 ГГц и масштабирование до восьми узлов. Производительность ХПКГ — 43GFLOPS для одного узла и 84GFLOPS для двух узлов. Это означает, что 1.96 производительность по сравнению с двумя узлами отличается от улучшения производительности X. При перемещении вперед с 4 и 8 узлами производительность повышается до 7,7 X.          

Заключение

Благодаря наличию каскадных процессоров Lake, PowerEdge система может поддерживать скорость памяти до 2933 MT/s с этим новым процессором поколения. Наши тесты с каскадными процессорами Lake демонстрируют повышение производительности 7-12% при полосе пропускания памяти, 4-15% улучшения ХПЛ и 7-12% улучшения в ХПКГ на моделях ЦП, которые мы сравнивали. В каскадной работе функции Lake Test от 1 до 8 узлов отображается хорошая масштабируемость, как показано в Skylake в прошлом.

Кроме того, в каскадной программе Lake представлены инструкции ВННИ, которые могут ускорить изучение рабочих нагрузок вывода с помощью 3 раза, что еще описано в этом блоге.

Для нашей будущей работы мы планируем оценить преимущества производительности каскадных Lake в различных HPC приложениях, таких как ВРФ, НАМД, ГРОМАКС, CP2K и ЛАММПС.

Affected Products

High Performance Computing Solution Resources
Article Properties
Article Number: 000133009
Article Type: Solution
Last Modified: 18 May 2021
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.