Omitir para ir al contenido principal
  • Hacer pedidos rápida y fácilmente
  • Ver pedidos y realizar seguimiento al estado del envío
  • Cree y acceda a una lista de sus productos
  • Administre sus sitios, productos y contactos de nivel de producto de Dell EMC con Administración de la empresa.

Dell EMC Ready Solution for HPC Life Sciences: Pruebas de rendimiento de la canalización BWA-GATK con CPU Cascade Lake y actualización lustre ME4

Resumen: Dell EMC Ready Solution for HPC Life Sciences: Pruebas de rendimiento de la canalización BWA-GATK con CPU Cascade Lake y actualización lustre ME4

Es posible que este artículo se traduzca automáticamente. Si tiene comentarios sobre su calidad, háganoslo saber mediante el formulario en la parte inferior de esta página.

Contenido del artículo


Síntomas

La configuración de 64 nodos de computación de Dell EMC Ready Solutions for HPC Life Sciences puede procesar 194 genomas por día (50 veces la profundidad de cobertura).

Descripción general

Llamada deEste hipervínculo lo redirige a un sitio web fuera de Dell Technologies. variante es un proceso mediante el cual identificamos variantes a partir de los datos en secuencia. Este proceso ayuda a determinar si hay polimórficos únicos (SNF), inserciones y eliminaciones (indeles) o variantes estructurales (SV) en una posición determinada en un genoma o transcriptoma individual. El objetivo principal de identificar las variaciones genómicas es la vinculación con las enfermedades humanas. A pesar de que no todas las enfermedades humanas están asociadas con variaciones genéticas, las llamadas de variantes pueden proporcionar una guía valiosa para los genéticas que trabajan en una enfermedad específica causada por variaciones genéticas. BWA-GATK es una de las herramientas de computación de secuenciación de última generación (NGS) que están diseñadas para identificar las conferencias somáticas y de línea a partir de los datos humanos de NGS. Hay un puñado de herramientas de identificación de variantes, y entendemos que no hay una sola herramienta que funcione a la perfección (1). Sin embargo, elegimos GATK, que es una de las herramientas más populares como nuestra herramienta de análisis comparativo, para demostrar cuán bien Dell EMC Ready Solutions for HPC Life Sciences puede procesar cargas de trabajo NGS complejas y masivas. 
El propósito de este blog es proporcionar información valiosa sobre el rendimiento del procesador Intel® Xeon® Gold 6248 para el parámetro de referencia de la canalización BWA-GATK con Dell EMC Ready Solutions for HPC Lustre Storage (actualización de la serie ME4) (2). La CPU Xeon® Gold 6248 cuenta con 20 núcleos físicos o 40 núcleos lógicos cuando se utiliza Hyper Threading. Las configuraciones de clúster de prueba se resumen en la Tabla 1.

Tabla 1 Configuración probada de nodos de computación
 
Dell EMC PowerEdge C6420
CPU 2 Xeon® Gold 6248 de 20 núcleos a 2,5 GHz (Cascade Lake)
RAM 12 de 16 GB a 2933 MTp
SO RHEL 7.6
Interconexión Intel® Omni-Path
Perfil del sistema del BIOS Rendimiento optimizado
Procesador lógico Deshabilitado
Tecnología de virtualización Deshabilitado
BWA 0.7.15-r1140
Samtools 1.6
GATK 3,6-0-g89b7209

Los nodos de procesamiento probados se conectaron a Dell EMC Ready Solutions for HPC Lustre Storage a través de Intel® Omni-Path. La configuración resumida del almacenamiento se muestra en la Tabla 2.
Tabla 2 Especificaciones de hardware y software de la solución
 
Dell EMC Ready Solution para almacenamiento Lustre
Cantidad de nodos 1 Dell EMC PowerEdge R640 como administrador integrado para Lustre (IML)
2 Dell EMC PowerEdge R740 como servidor de metadatos (MDS)
2 Dell EMC PowerEdge R740 como servidor de almacenamiento de objetos (SO)
Procesadores Servidor IML: Dos servidores Intel Xeon Gold 5118 a 2,3 GHz
MDS y OSS: Intel Xeon Gold 6136 doble a 3,00 GHz
Memoria Servidor IML: 12 servidores RDIMM
DDR4 MDS y OSS de 8 GB y 2666 MT/s: 24 RDIMM DDR4 de 16 GiB y 2666 MT/s
Controladoras de almacenamiento
externo
2 HBA SAS de Dell de 12 Gb/s (en cada MDS)
4 HBA SAS de Dell de 12 Gb/s (en cada SO)
Gabinetes de almacenamiento de
objetos
4 ME4084 con un total de 336 discos duros SAS NL de 8 TB a 7200 r/min
Gabinete de almacenamiento de metadatos
1 ME4024 con 24 SSD SAS de 960 GB. Admite hasta 4,68 inodos B
Controladoras RAID Controladoras RAID SAS dúplex en los gabinetes ME4084 y ME4024
Sistema operativo CentOS 7.5 x86_64
Red Hat Enterprise Linux (RHEL) 7.5 x86_64
Versión del BIOS 1.4.5
Versión de IFS Intel Omni-Path
10.8.0.0
Versión del sistema
de archivos lustre
2.10.4
Versión de IML 4.0.7.0

Los datos de prueba se eligieron de uno de los genomas Platinum de Illumina. ERR194161 se procesó con Illumina HiSeq 2000 enviada por Illumina y se puede obtener de EMBL-EBI. El identificador de ADN de esta persona es NA12878. La descripción de los datos del sitio web vinculado muestra que esta muestra tiene una >cobertura de 30 veces mayor.

Evaluación del rendimiento

Rendimiento de múltiples nodos de muestra única

En la figura 1, se resume el tiempo de ejecución en diversas muestras y nodos de procesamiento con 50 datos de secuenciación del genoma completo (DDRS). Las pruebas realizadas aquí están diseñadas para demostrar el rendimiento en el nivel del servidor, no para comparaciones en componentes individuales. Los puntos de datos de la Figura 1 se calculan en función de la cantidad total de muestras, una muestra por nodo de procesamiento (eje X en la figura) que se procesan simultáneamente. Los detalles de la información de la canalización de BWA-GATK se pueden obtener en el sitio web del Broad Institute (3). La cantidad máxima de nodos de procesamiento utilizados para las pruebas es de 64 C6420. Los C6420 con Lustre ME4 muestran un mejor comportamiento de escalamiento que Lustre MD3.

  Comparaciones de rendimiento entre Lustre MD3 y Lustre ME4
Figura 1 Comparaciones de rendimiento entre Lustre MD3 y Lustre ME4

Rendimiento de múltiples nodos de muestra

Una forma típica de ejecutar la canalización de NGS es ejecutar varias muestras en un nodo de procesamiento y usar múltiples nodos de procesamiento para maximizar el rendimiento del proceso de datos de NGS. La cantidad de nodos de procesamiento utilizados para las pruebas es de 64 nodos de procesamiento C6420 y la cantidad de muestras por nodo es de cinco muestras. Se procesan hasta 320 muestras simultáneamente para calcular la cantidad máxima de genomas por día sin una falla de trabajo.
Como se muestra en la figura 2, un solo nodo de procesamiento C6420 puede procesar 3,24 de 50 genomas humanos completos por día cuando se procesan 5 muestras simultáneamente. Para cada muestra, se asignan 7 núcleos y 30 GB de memoria. 

  Pruebas de rendimiento con hasta 64 C6420 y Lustre ME4
Figura 2 Pruebas de rendimiento con hasta 64 C6420 y Lustre ME4

Se pueden procesar 320 de 50 genomas humanos completos con 64 nodos de procesamiento C6420 en 40 horas.  En otras palabras, el rendimiento de la configuración de la prueba se resume como 194 genomas por día para todo el genoma humano con una cobertura de 50 veces mayor.

Conclusión

A medida que el tamaño de los datos de LOS DATOS ha estado creciendo constantemente. El tamaño promedio actual de LANES es 50 veces mayor. Esto es 5 veces más grande que un CURSO TÍPICO hace 4 años, cuando comenzamos a realizar un análisis comparativo de la canalización BWA-GATK. Los datos en aumento no afectan la capacidad del lado del almacenamiento, ya que la mayoría de las aplicaciones en la canalización también están limitadas por la velocidad de reloj de la CPU. Por lo tanto, con el tamaño creciente de los datos, la canalización se ejecuta más tiempo en lugar de generar más escrituras.
Sin embargo, hay una mayor cantidad de archivos temporales que se generan durante el proceso debido a que es necesario paralelizar más datos, y esta mayor cantidad de archivos temporales abiertos al mismo tiempo agota el límite de archivos abiertos en un sistema operativo Linux. Una de las aplicaciones no se completa silenciosamente alcanzando el límite de la cantidad de archivos abiertos. Una solución simple es aumentar el límite a >150 000. 
Sin embargo, Ready Solution con Lustre ME4 como espacio cero tiene una mejor capacidad de rendimiento que la versión anterior. Ahora, Ready Solution de 64 nodos marca 194 genomas por día de poder de procesamiento para 50x DDRS.

Recursos 

1. Una encuesta de herramientas para el análisis de variantes de los datos de secuenciación del genoma de última generación. Pabinger S, Draj A, Fischer M, Snajder R, Sperk M, Efremova M, Utcchler B, Speicher MR, Zschoplay J, Trajanoski Z. 2, s.l. : Breve bioinforma, 2014 de marzo de 2015, vol. 15 (2). 10.1093/bbs086.
2. Dell EMC Ready Solution for HPC Lustre Storage.  (El artículo ya no está disponible para su referencia, extraído por el equipo de HPC)
3. Kit de herramientas de análisis del genoma. https://software.broadinstitute.org/gatk/ Este hipervínculo lo redirige a un sitio web fuera de Dell Technologies.

Propiedades del artículo


Producto comprometido

ME Series, Dell EMC Ready Solution Resources, PowerEdge C6420, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Red Hat Enterprise Linux Version 7

Fecha de la última publicación

11 ene 2024

Versión

6

Tipo de artículo

Solution