Dell EMC Ready Solution for HPC Life Sciences: Pruebas de rendimiento del pipeline BWA-GATK con CPU Cascade Lake y actualización Lustre ME4

Summary: El archivado como artículo se basa en documentación de HPC que ya no se aloja en línea y el artículo no se puede editar para superar las expectativas de la base de conocimientos Dell EMC Ready Solution para HPC en ciencias biológicas: Pruebas de rendimiento del pipeline BWA-GATK con CPU Cascade Lake y actualización Lustre ME4 ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

La configuración de 64 nodos de computación de Dell EMC Ready Solutions para HPC en ciencias biológicas puede procesar 194 genomas por día (50 veces más profundidad).

Descripción general

Llamada de variantesEste hipervínculo lo redirige a un sitio web fuera de Dell Technologies. es un proceso mediante el cual identificamos variantes a partir de datos de secuencia. Este proceso ayuda a determinar si hay polimorfismos de un solo nucleótido (SNP), inserciones y deleciones (indels) y/o variantes estructurales (SV) en una posición determinada en un genoma o transcriptoma individual. El objetivo principal de la identificación de las variaciones genómicas es vincularlas a las enfermedades humanas. Aunque no todas las enfermedades humanas están asociadas con variaciones genéticas, la llamada de variantes puede proporcionar una guía valiosa para los genetistas que trabajan en una enfermedad en particular causada por variaciones genéticas. BWA-GATK es una de las herramientas computacionales de secuenciación de nueva generación (NGS, por sus siglas en inglés) diseñadas para identificar mutaciones somáticas y de la línea germinal a partir de datos de NGS humanas. Hay un puñado de herramientas de identificación de variantes, y entendemos que no hay una sola herramienta que funcione a la perfección (1). Sin embargo, elegimos GATK, que es una de las herramientas más populares, como nuestra herramienta de análisis comparativo para demostrar qué tan bien Dell EMC Ready Solutions para ciencias biológicas de HPC pueden procesar cargas de trabajo de NGS complejas y masivas. 
El propósito de este blog es proporcionar información valiosa sobre el rendimiento del procesador Intel® Xeon® Gold 6248 para el parámetro de referencia del pipeline BWA-GATK con Dell EMC Ready Solutions para HPC Lustre Storage (actualización de la serie ME4) (2). La CPU Xeon® Gold 6248 cuenta con 20 núcleos físicos o 40 núcleos lógicos cuando se utiliza hyper threading. Las configuraciones de clúster de prueba se resumen en la Tabla 1.

Tabla 1 Configuración del nodo de cálculo probado
 
Dell EMC PowerEdge C6420
CPU 2 Xeon® Gold 6248, 20 núcleos, 2,5 GHz (Cascade Lake)
RAM 12 x 16 GB a 2933 MTps
SO RHEL 7.6
Interconexión Intel® Omni-Path
Perfil del sistema del BIOS Rendimiento optimizado
Procesador lógico Deshabilitado
Tecnología de virtualización Deshabilitado
BWA 0.7.15-R1140
Samtools 1.6
GATK 3.6-0-G89B7209

Los nodos de computación probados se conectaron a Dell EMC Ready Solutions para HPC Lustre Storage a través de Intel® Omni-Path. La configuración resumida del almacenamiento se muestra en la tabla 2.
Tabla 2 Especificaciones de hardware y software de la solución
 
Dell EMC Ready Solution para el almacenamiento Lustre
Cantidad de nodos 1 Dell EMC PowerEdge R640 como administrador integrado de Lustre (IML)
2 Dell EMC PowerEdge R740 como servidor de metadatos (MDS)
2 Dell EMC PowerEdge R740 como servidor de almacenamiento de objetos (OSS)
Procesadores Servidor IML: Dos Intel Xeon Gold 5118 @ 2.3 GHz
Servidores MDS y OSS: Intel Xeon Gold 6136 doble a 3,0 GHz
Memoria Servidor IML: 12 RDIMM DDR4 de 8 GB y 2666 MT/s
Servidores MDS y OSS: 24 RDIMM DDR4 de 16 GiB y 2666 MT/s
Controladoras de almacenamiento
externo
2 HBA SAS Dell de 12 Gb/s (en cada MDS)
4 HBA SAS Dell de 12 Gb/s (en cada OSS)
Gabinetes de almacenamiento de
objetos
4 ME4084 con un total de 336 HDD SAS NL de 8 TB a 7200 rpm
Gabinete de almacenamiento de
metadatos
1 ME4024 con 24 SSD SAS de 960 GB. Admite hasta 4,68 B de inodos
Controladoras RAID Controladoras RAID SAS dúplex en los gabinetes ME4084 y ME4024
Sistema operativo CentOS 7.5 x86_64
Red Hat Enterprise Linux (RHEL) 7.5 x86_64
Versión del BIOS 1.4.5
Versión de Intel Omni-Path
IFS
10.8.0.0
Versión del sistema
de archivos de Lustre
2.10.4
Versión del IML 4.0.7.0

Los datos de prueba se eligieron de uno de los genomas de platino de Illumina. ERR194161 se procesó con Illumina HiSeq 2000 presentado por Illumina y se puede obtener en EMBL-EBI. El identificador de ADN de este individuo es NA12878. La descripción de los datos del sitio web enlazado muestra que esta muestra tiene una >profundidad de cobertura de 30x.

Evaluación del rendimiento

Rendimiento de una sola muestra y múltiples nodos

En la Figura 1, se resume el tiempo de ejecución en varios números de muestras y nodos de computación con 50 veces más datos de secuenciación del genoma completo (WGS). Las pruebas que se realizan aquí están diseñadas para demostrar el rendimiento en el nivel del servidor, no para comparaciones en componentes individuales. Los puntos de datos de la figura 1 se calculan en función de la cantidad total de muestras, una muestra por nodo de computación (eje X en la figura) que se procesan simultáneamente. Los detalles de la información sobre los oleoductos de BWA-GATK pueden obtenerse en el sitio web del Instituto Broad (3). La cantidad máxima de nodos de computación utilizados para las pruebas es de 64 C6420. C6420 con Lustre ME4 muestra un mejor comportamiento de escalamiento que Lustre MD3.

 Comparaciones de rendimiento entre Lustre MD3 y Lustre ME4
Figura 1 Comparaciones de rendimiento entre Lustre MD3 y Lustre ME4

Rendimiento de múltiples nodos de muestra múltiple

Una manera típica de ejecutar la canalización de NGS es ejecutar varias muestras en un nodo de procesamiento y usar varios nodos de procesamiento para maximizar el rendimiento del proceso de datos de NGS. La cantidad de nodos de computación utilizados para las pruebas corresponde a 64 nodos de computación C6420 y la cantidad de muestras por nodo es de cinco muestras. Se procesan hasta 320 muestras simultáneamente para estimar la cantidad máxima de genomas por día sin que se produzca una falla en el trabajo.
Como se muestra en la Figura 2, un solo nodo de computación C6420 puede procesar 3,24 de 50 genomas humanos completos por día cuando se procesan 5 muestras simultáneamente. Para cada muestra, se asignan 7 núcleos y 30 GB de memoria. 

 Pruebas de rendimiento con hasta 64 C6420 y Lustre ME4
Figura 2 Pruebas de rendimiento con hasta 64 C6420 y Lustre ME4

320 genomas humanos completos de 50x se pueden procesar con 64 nodos de computación C6420 en 40 horas.  En otras palabras, el rendimiento de la configuración de prueba resume 194 genomas por día para el genoma humano completo con una profundidad de cobertura de 50x.

Conclusión

Dado que el tamaño de los datos de WGS ha crecido constantemente. El tamaño promedio actual de WGS es de 50 veces. Esto es 5 veces más grande que un WGS típico hace 4 años, cuando comenzamos a comparar el pipeline BWA-GATT. El aumento de los datos no afecta la capacidad del lado del almacenamiento, ya que la mayoría de las aplicaciones en la canalización también están limitadas por la velocidad de reloj de la CPU. Por lo tanto, con el aumento del tamaño de los datos, la canalización se ejecuta durante más tiempo en lugar de generar más escrituras.
Sin embargo, se genera una mayor cantidad de archivos temporales durante el proceso debido a que hay más datos que se deben paralelizar, y esta mayor cantidad de archivos temporales abiertos al mismo tiempo agota el límite de archivos abiertos en un sistema operativo Linux. Una de las aplicaciones no se completa silenciosamente al alcanzar el límite de la cantidad de archivos abiertos. Una solución sencilla es aumentar el límite a >150K. 
No obstante, la solución Ready con Lustre ME4 como espacio desde cero tiene una mejor capacidad de rendimiento que la versión anterior. Ahora, con 64 nodos, Ready Solution marca un poder de procesamiento de 194 genomas por día para una WGS 50 veces mayor.

Recursos 

1. Un estudio de herramientas para el análisis de variantes de datos de secuenciación del genoma de próxima generación. Pabinger S, Dander A, Fischer M, Snajder R, Sperk M, Efremova M, Krabichler B, Speicher MR, Zschocke J, Trajanoski Z. 2, s.l. : Brief Bioinform, 2014 Mar, Vol. 15 (2). 10.1093/bib/bbs086.
2. Dell EMC Ready Solution para HPC Lustre Storage.  (Artículo ya no disponible como referencia, extraído por el equipo de HPC)
3. Kit de herramientas de análisis genómico. https://software.broadinstitute.org/gatk/Este hipervínculo lo redirige a un sitio web fuera de Dell Technologies.

Cause

El archivado como artículo se basa en documentación de HPC que ya no se aloja en línea y el artículo no se puede editar para superar las expectativas de la base de conocimientos

Resolution

El archivado como artículo se basa en documentación de HPC que ya no se aloja en línea y el artículo no se puede editar para superar las expectativas de la base de conocimientos

Affected Products

Dell EMC Ready Solution Resources, PowerEdge C6420, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Red Hat Enterprise Linux Version 7
Article Properties
Article Number: 000176939
Article Type: Solution
Last Modified: 25 Sept 2025
Version:  7
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.