Estudio de rendimiento con Cascade Lake para aplicaciones de genómica
Resumen: Computación de alto rendimiento de HPC, laboratorio de innovación en HPC e IA, genómica, llamada de variantes, ensamblaje de novo, secuenciación de última generación, BWA-GATK, SOAPdenovo2, SPAdes, Cascade Lake ...
Síntomas
Artículo escrito por Kihoon Yoon, del Laboratorio de innovación en HPC e IA, mayo de 2019
Causa
Ninguno
Resolución
Llamada de variantes y montaje de novo
Descripción general
Los procesadores escalables Intel® Xeon® de segunda generación son los sucesores de Skylake y ofrecen hasta 56 núcleos con un solo procesador (Cascade Lake AP 9282). Además de que Intel ofrece más núcleos, hay soporte para Optane, DRAM más rápida (DDR4-2933 en 1 configuración de DPC) y más configuraciones de DRAM (1 TB, 2 TB y 4 TB). Está claro que, por lo general, los consumidores esperan más rendimiento, mejor eficiencia y menor potencia de un procesador más nuevo. Sin embargo, algunos clientes buscan mejoras que no son tan obvias, como la compatibilidad con nuevas instrucciones, las optimizaciones del ecosistema en capas, la compatibilidad con nuevas tecnologías o una nueva dirección del producto. Cascade Lake se basa en una base de Skylake que se centra en las características secundarias, y las mejoras no son tan obvias.
Por lo general, las aplicaciones en el análisis de datos de secuenciación de nueva generación (NGS) son de código abierto y no se actualizarán tan rápido como surja la nueva tecnología. Esto significa que las mejoras que vienen con Cascade Lake tienen menos probabilidades de afectar el rendimiento de las aplicaciones de NGS.
En este blog, se ilustra cómo se comportan las CPU Cascade Lake en dos cargas de trabajo genómicas diferentes, llamada de variantes y ensamblaje De Novo .
Las configuraciones de prueba detalladas para la llamada de variantes y el ensamblaje De Novo se enumeran en la Tabla 1.
Tabla 1 Configuración de prueba para llamada de variantes y ensamblaje De Novo
|
|
Dell PowerEdge R640 |
Dell PowerEdge R940 |
|||||||
|
Lago celestial |
Lago Cascade |
Lago celestial |
Lago Cascade |
||||||
|
CPU |
2x 6154 |
2x 6148 |
2 x 6152 |
2x 6138 |
2 x 6248 |
2 x 6252 |
2 x 6230 |
4 x 8168 |
4 8280M |
|
Frecuencia base (GHz) |
3.0 |
2,4 |
2.1 |
2.0 |
2.5 |
2.1 |
2.1 |
2.7 |
2.7 |
|
Cantidad de núcleos |
18 |
20 |
22 |
20 |
20 |
24 |
20 |
24 |
28 |
|
TDP (W) |
200 |
150 |
140 |
140 |
150 |
125 |
125 |
205 |
205 |
|
Memoria |
24x DDR4 de 16 GB a 2666 MHz, 2 DPC |
12 DDR4 de 32 GB a 2933 MHz, 1 DPC |
48x DDR4 de 32 GB a 2666 MHz, 2 DPC |
24 DDR4 de 64 GB a 2933 MHz, 1 DPC |
|||||
|
Almacenamiento |
10 SAS de 1,2 TB, 12 Gb/s, 10 000 en RAID 0 |
18 SAS de 1,2 TB, 12 Gb/s, 10 000 en RAID 0 |
|||||||
|
BIOS del sistema |
2.1.3 |
||||||||
|
Kernel |
3.10.0-957.el7.x86_64 |
||||||||
|
SO |
Red Hat Enterprise Linux Server versión 7.6 (Maipo) |
||||||||
|
Lecturas de secuencia |
ERR194161, 50x genoma humano completo para la llamada de variantes y ERR318658, 3.200 millones de lecturas del genoma humano completo para el ensamblaje de novo |
||||||||
Llamada de variantes
Oleoducto BWA-GATK
Como se muestra en la Figura 1, cada paso se comporta de manera muy diferente en cada CPU que se probó, y las diferencias de rendimiento entre los diferentes pasos con las CPU probadas oscilan entre el 0,61 % y el 46,34 %. Sin embargo, las diferencias en el tiempo de ejecución general no son del todo notables (Tabla 2).
Figura 1 Tiempos de ejecución de cada paso en la canalización de llamada de variantes
Cascade Lake 6248 tuvo un rendimiento superior en la mayoría de los pasos y en el mejor tiempo de ejecución general, pero tuvo un rendimiento deficiente en el paso "Marcar duplicados", funcionando un 27 % más lento que Cascade Lake 6252. No está claro por qué 6248 funciona mal para este paso, aunque las pruebas repetidas muestran resultados consistentes. Con este comportamiento incoherente en los diferentes pasos, tener en cuenta el rendimiento general tiene más sentido cuando se selecciona una CPU adecuada para el flujo de trabajo.
Tabla 2 Comparaciones del tiempo de ejecución total entre las CPU Skylake y Cascade Lake
|
CPU |
Precio |
Especificaciones |
Tiempo de ejecución total de BWA-GATK (horas) |
|
|
Lago celestial |
6148 |
$3,072.00 - $3078.00 |
2,4 GHz, 20 núcleos, 150 W |
24.26 |
|
6154 |
$3,543.00 |
3,0 GHz, 18 núcleos, 200 W |
23.47 |
|
|
6152 |
$3,655.00 - $3661.00 |
2,1 GHz, 22 núcleos, 140 W |
24.58 |
|
|
6138 |
$2,612.00 - $2618.00 |
2,0 GHz, 20 núcleos, 125 W |
24.83 |
|
|
Lago Cascade |
6248 |
$3,072.00 - $3,078.00 |
2,5 GHz, 20 núcleos, 150 W |
23.36 |
|
6252 |
$3,655.00 - $3,662.00 |
2,1 GHz, 24 núcleos, 150 W |
23.82 |
|
|
6230 |
$1,894.00 - $1,900.00 |
2,1 GHz, 20 núcleos, 125 W |
23.68 |
|
Aunque se puede lograr el mejor rendimiento general con Cascade Lake 6248, Cascade Lake 6230 no es una mala opción para los clientes con potencia limitada. Dado que los resultados que se muestran aquí se basan en una prueba de muestra única, es difícil concluir si Cascade Lake 6230 y 6248 son mejores que Cascade Lake 6252 sin los resultados de las pruebas de rendimiento. Sin embargo, teniendo en cuenta el rendimiento, Cascade Lake 6252 podría tener un rendimiento superior en las pruebas de rendimiento debido a los conteos de núcleos más altos. Puede acomodar más muestras para procesar simultáneamente. No obstante, Cascade Lake 6230 podría ser la opción más rentable entre las CPU probadas.
Asamblea de novo
Para el ensamblaje de novo , Skylake 8168 y Cascade Lake 8280M se comparan con la misma cantidad de memoria del sistema, 1,5 TB en R940. La razón principal por la que se eligió Cascade Lake 8280M es debido a un mayor número de núcleos y a que admite más memoria, lo cual es beneficioso, ya que el tamaño de los datos para el ensamblaje de novo continúa creciendo con el tiempo.
SOAPdenovo2
La ganancia máxima de rendimiento mediante la actualización de Skylake 8168 a Cascade Lake 8280M es de aproximadamente el 1 %, como se muestra en 92 núcleos de Skylake 8168 en comparación con 108 núcleos de Cascade Lake 8280M en comparación con la Figura 2. Para la prueba, se dejó un core por CPU para el SO y otros usos de limpieza. Aunque los resultados muestran que Cascade Lake 8280M es un 2 % más lento en promedio con varios núcleos utilizados, las comparaciones entre 92 núcleos de 8168 y 108 núcleos de 8280M confirmaron que Cascade Lake 8280M funciona ligeramente mejor que Skylake 8168.

Figura 2 Tiempos de ejecución y gráficos de consumo de memoria máxima para SOAPdenovo2 con varios números de núcleos
SOAPdenovo2 parece estar limitado por el ancho de banda de la memoria. El consumo máximo de memoria aumenta constantemente a medida que se utilizan más núcleos para un proceso con una configuración de 1 DPC en la CPU Cascade Lake, mientras que el consumo máximo de memoria disminuye con una configuración de 2 DPC en la CPU Skylake. Como se muestra en la Figura 3 de nuestro artículo publicado anteriormente Blog, el ancho de banda de memoria puede diferir en un 11 % entre la configuración de 1 DPC y 2 DPC con el mismo tipo de DIMM de rango doble. Para llegar a una mejor conclusión, se requieren más pruebas con la configuración de 2 DPC (DDR4-2666) en la CPU Cascade Lake 8280M.
SPAdes
Cascade 8280M tiene un mejor rendimiento en todas las pruebas con varios números de núcleos y se puede lograr un rendimiento un 5 % mejor en la comparación de CPU con CPU (comparación entre 8168 de 92 núcleos y 8280M de 108 núcleos), como se muestra en la Figura 3. Los patrones de consumo máximo de memoria son casi similares entre dos CPU; sin embargo, Cascade Lake 8280M con una configuración de 1 DPC muestra un mayor consumo de memoria que Skylake 8168 con una configuración de 2 DPC. Aunque el ancho de banda de memoria no parece ser tan crítico, como podemos ver en las pruebas de SOAPdenovo2, la configuración de 2 DPC con DDR4-2666 MHz puede ser una mejor configuración para el ensamblaje de novo .

Figura 3 Gráficos de tiempos de ejecución y consumo máximo de memoria para SPA con varios números de núcleos
Conclusión
En general, las CPU Cascade Lake probadas aquí no tienen un rendimiento superior frente a las CPU Skylake para cargas de trabajo genómicas, como Variant Calling y De Novo Assembly. Se esperaba un rendimiento similar, ya que la CPU Cascade Lake se basa en la CPU Skylake y tiene como objetivo mejorar la funcionalidad de soporte en lugar de mejorar el rendimiento puro. Sin embargo, Cascade Lake proporciona más opciones en comparación con Skylake en términos de menor TDP y mayor conteo de núcleos para los tipos de cargas de trabajo de llamadas de variantes. Cabe destacar que la configuración de 1 DPC con DIMM DDR4 de 2933 MHz no mejora el rendimiento de SOAPdenovo2. Para las aplicaciones de ensamblaje De novo , un ancho de banda de memoria más grande parece ser mejor. No hay ningún beneficio de actualizar la memoria a DDR4 de 2933 MHz en una configuración de 1 DPC para CPU Cascade Lake. Se recomienda establecer la configuración de 2 DPC con DDR4 a 2666 MHz, especialmente para aplicaciones de ensamblaje De Novo .