PowerEdge: Aceleración del análisis de datos genómicos con NVIDIA Clara Parabricks mediante el servidor Dell EMC DSS 8440 y las GPU NVIDIA T4

Summary: En este artículo, se proporciona información sobre cómo acelerar el análisis de datos genómicos mediante NVIDIA Parabricks en Dell EMC DSS 8440 con GPU NVIDIA T4.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Descripción general

El primer paso para procesar datos de secuenciación de nueva generación (NGS) se denomina análisis primario. Este paso es específico del instrumento de secuenciación y genera varios archivos FASTQ que contienen lecturas de secuenciación. En el siguiente paso, conocido como análisis secundario, las lecturas de secuenciación de FASTQ se asignan a un genoma de referencia o a un transcriptoma de referencia. Un mayor procesamiento identifica variantes, o diferencias, entre la muestra de interés y una referencia. Las variantes se anotan e interpretan en pasos posteriores posteriores. El tiempo de análisis secundario para una sola muestra varía de horas a días, según el tamaño de los datos, los recursos informáticos disponibles, el software y el flujo de trabajo analítico. 

El análisis secundario es un proceso de uso intensivo de computación y almacenamiento, especialmente cuando se procesan de cientos a miles de genomas. Existen muchas estrategias para evitar cuellos de botella en el análisis secundario. Hasta hace poco, la adopción de aceleración de hardware mediante GPU o FPGA seguía siendo baja debido al software personalizado requerido por los aceleradores de hardware. ParabricksEl software de genómica, que fue adquirido por NVIDIA en 2019, ha sido pionero en una pila de software que realiza varios flujos de trabajo de análisis genómico con GPU. Probamos Parabrickshace unos dos años. Dell introdujo muchos avances tecnológicos en sus servidores y soluciones de almacenamiento, y NVIDIA Clara Parabricks ha lanzado versiones robustas con aceleración mejorada y la adición de llamadores variantes. Por ejemplo, un diseño de servidor de múltiples GPU basado en el servidor Dell EMC DSS 8440 con GPU NVIDIA® Tesla® T4 parecía prometedor para acelerar el análisis secundario y, al mismo tiempo, ofrecer un equilibrio atractivo entre precio y rendimiento. En este blog, se informa una nueva arquitectura de referencia y resultados de parámetros de referencia para NVIDIA Clara Parabricks análisis secundario en un servidor DSS 8440 con GPU T4 de varios Tesla® y almacenamiento Dell Isilon F800Este hipervínculo lo redirige a un sitio web fuera de Dell Technologies.

Arquitectura de referencia

En la figura 1 se ilustra la arquitectura de referencia probada. La arquitectura es modular y fácil de escalar. Las NVIDIA Clara Parabricks El software de aplicaciones utiliza una o más GPU, lo que hace que el escalamiento horizontal sea lo más simple posible. Los componentes estructurales de hardware consisten en Dell PowerEdge R640 como nodo de administración, servidor DSS 8440 para computación de GPU y almacenamiento Dell EMC Isilon F800.  

Diagrama de red que muestra la conexión entre los servidores y los switches 
Figura 1Arquitectura de referencia probada
 


El servidor DSS 8440, 2 conectores, 4U puede admitir hasta 10 GPU NVIDIA® Tesla® V100S Tensor Core líderes del sector, hasta 10 GPU NVIDIA® Quadro RTX™ o hasta 16 GPU NVIDIA Tesla T4, lo que proporciona una potencia inmensa. La configuración detallada de DSS 8440 aparece en la Tabla 1.

 

DSS 8440 de Dell EMC
CPU 2x Xeon® Gold 6248R 24 cores 3.0 GHz
RAM 24x 64GB at 2933 MTps
Operating System Red Hat Enterprise Linux Server release 7.4 (Maipo)
BIOS System Profile Performance Optimized
Logical Processor Disabled
Virtualization Technology Disabled
Accelerators 16x NVIDIA® Tesla® T4 GPUs
Parabricks v3.0.0.05


Dos switches Z9100-ON proporcionaron la interconexión entre el nodo de computación y el clúster de almacenamiento Isilon F800. Un switch adicional, N2248X-ON, se utiliza para la administración.
 

Datos de NGS

Los datos para el tiempo de ejecución del análisis secundario de evaluación comparativa consistieron en tres conjuntos de datos humanos, secuenciación del genoma completo (WGS), ERR091571Este hipervínculo lo redirige a un sitio web fuera de Dell Technologies., SRR3124837Este hipervínculo lo redirige a un sitio web fuera de Dell Technologies. y ERR194161Este hipervínculo lo redirige a un sitio web fuera de Dell Technologies., que representan una cobertura de muestra de 10x, 30x y 50x, respectivamente. Estos conjuntos de datos están disponibles en el Archivo Europeo de Nucleótidos (ENA).Este hipervínculo lo redirige a un sitio web fuera de Dell Technologies.

 

Evaluación del rendimiento

Las mejoras de software reducen el tiempo de ejecución.
NVIDIA continúa presentando mejoras de software para NVIDIA Clara Parabricks. En la figura 2, se muestra la reducción del tiempo de ejecución entre dos versiones del Parabricks Ejecución de la canalización de la línea germinal mediante el entorno de prueba del servidor Dell PowerEdge C4140 con 4 GPU V100. El cambio de v2.1.0 a v3.0.0 redujo el tiempo de ejecución en un 42 %.

Gráfico de barras de Nvidia Clara Parabricks que muestra datos de WGS 
Figura 2: Versión más reciente del tiempo de ejecución de la canalización de llamada a variante de línea germinal de Parabricks.

 

Prestaciones de DSS 8440 con 16 T4

El tiempo de ejecución de una NVIDIA Clara Parabricks El análisis secundario con una sola GPU T4 es aproximadamente un 30 % más lento que el uso de una GPU V100. Sin embargo, dos (2) GPU T4 proporcionan aproximadamente un 10 % más de TFLOPS que una (1) GPU V100 a aproximadamente la mitad del costo. El DSS 8440 proporciona hasta 16 ranuras PCIe, lo que abre la posibilidad de diseñar un servidor basado en GPU T4 que ofrece un rendimiento de tiempo de ejecución similar al de un sistema C4140 con cuatro GPU V100, pero a un costo menor.
El Parabricks El análisis de la línea germinal se realizó con un PowerEdge DSS 8440 con 16 GPU T4. Para cada conjunto de datos de muestra de WGS descrito anteriormente, el tiempo de ejecución se registró con 1, 2, 4, 8 y 16 GPU T4 por análisis secundario. Los resultados se representan en las figuras 3 a 5. En general, el tiempo de ejecución no escala linealmente a medida que aumenta la cantidad de GPU por análisis. El patrón de escalamiento es similar a la cantidad de datos por muestra que aumenta de 10x a 50x la cobertura. 
Aunque no se presenta aquí, una investigación anterior de Dell EMC sobre Parabricks Los resultados de tiempo de ejecución con ocho o más GPU V100 por análisis no escalaron tan eficientemente como los de las GPU T4. Pruebas adicionales demostraron que 6 GPU T4 generaron resultados de tiempo de ejecución casi idénticos a 4 GPU V100.

Gráfico de barras de comparación de rendimiento que muestra el tiempo de ejecución de la GPU con 10 WGS 
Figura 3 Comparaciones de rendimiento con 10 WGS
 

Gráfico de barras de comparación de rendimiento que muestra el tiempo de ejecución de la GPU con 30 WGS 
Figura 4 Comparaciones de rendimiento con WGS

Gráfico de barras de comparación de rendimiento que muestra el tiempo de ejecución de la GPU con 50 WGS
30xFigura 5 Comparaciones de rendimiento con 50 WGS 


Conclusión

Un DSS 8440 con dieciséis GPU T4 puede procesar treinta genomas humanos 50x por día. Un rendimiento de análisis diario similar con una arquitectura de CPU x86 tradicional requiere diez nodos de computación PowerEdge C6420. La arquitectura completa se analiza en Solución lista de Dell para ciencias biológicas de HPC: Pruebas de rendimiento de pipeline BWA-GATK con CPU Cascade Lake y Lustre ME4 Refresh.  


Sin embargo, dedicar las 16 GPU T4 para procesar una muestra ofrece pocos beneficios, ya que el uso de 16 GPU por análisis es, en el mejor de los casos, un 10 % más rápido que el uso de 8 GPU. El diseño del DSS 8440 permite realizar múltiples análisis secundarios en paralelo. Mediante la asignación de ocho GPU T4 por muestra, el rendimiento de análisis diario aumenta a ~50 genomas por día. El uso de cuatro GPU por muestra aumenta el rendimiento del análisis a ~70 genomas por día. Más importante aún, esta producción diaria con GPU T4 es menos de la mitad del costo de usar un diseño de GPU V100.
Además de la velocidad, la compatibilidad con otras herramientas de análisis es esencial para la comparabilidad de los resultados. La variable Parabricks Los resultados del análisis de la línea germinal son casi idénticos a los del conocido análisis del haplotipo BWA-GATK de pruebas anteriores. También queríamos comparar los resultados de llamadas de variantes de Parabricks con otros conjuntos de herramientas como samtools/mpileup. Estas dos herramientas diferentes alcanzan ~90% de acuerdo general para las variantes identificadas, y las variaciones en muchas regiones genómicas conocidas que contienen genes importantes concuerdan más del 99%.

Additional Information

Affected Products

DSS 8440, Isilon F800, Poweredge C4140, PowerEdge R640
Article Properties
Article Number: 000180441
Article Type: How To
Last Modified: 12 Nov 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.