La configuración de 64 nodos de computación de Dell EMC Ready Solutions for HPC Life Sciences puede procesar 194 genomas por día (50 veces la profundidad de cobertura).
Descripción general
Llamada de variante es un proceso mediante el cual identificamos variantes a partir de los datos en secuencia. Este proceso ayuda a determinar si hay polimórficos únicos (SNF), inserciones y eliminaciones (indeles) o variantes estructurales (SV) en una posición determinada en un genoma o transcriptoma individual. El objetivo principal de identificar las variaciones genómicas es la vinculación con las enfermedades humanas. A pesar de que no todas las enfermedades humanas están asociadas con variaciones genéticas, las llamadas de variantes pueden proporcionar una guía valiosa para los genéticas que trabajan en una enfermedad específica causada por variaciones genéticas. BWA-GATK es una de las herramientas de computación de secuenciación de última generación (NGS) que están diseñadas para identificar las conferencias somáticas y de línea a partir de los datos humanos de NGS. Hay un puñado de herramientas de identificación de variantes, y entendemos que no hay una sola herramienta que funcione a la perfección (1). Sin embargo, elegimos GATK, que es una de las herramientas más populares como nuestra herramienta de análisis comparativo, para demostrar cuán bien Dell EMC Ready Solutions for HPC Life Sciences puede procesar cargas de trabajo NGS complejas y masivas.
El propósito de este blog es proporcionar información valiosa sobre el rendimiento del procesador Intel® Xeon® Gold 6248 para el parámetro de referencia de la canalización BWA-GATK con Dell EMC Ready Solutions for HPC Lustre Storage (actualización de la serie ME4) (2). La CPU Xeon® Gold 6248 cuenta con 20 núcleos físicos o 40 núcleos lógicos cuando se utiliza Hyper Threading. Las configuraciones de clúster de prueba se resumen en la Tabla 1.
Dell EMC PowerEdge C6420 | |
---|---|
CPU | 2 Xeon® Gold 6248 de 20 núcleos a 2,5 GHz (Cascade Lake) |
RAM | 12 de 16 GB a 2933 MTp |
SO | RHEL 7.6 |
Interconexión | Intel® Omni-Path |
Perfil del sistema del BIOS | Rendimiento optimizado |
Procesador lógico | Deshabilitado |
Tecnología de virtualización | Deshabilitado |
BWA | 0.7.15-r1140 |
Samtools | 1.6 |
GATK | 3,6-0-g89b7209 |
Dell EMC Ready Solution para almacenamiento Lustre | |
---|---|
Cantidad de nodos | 1 Dell EMC PowerEdge R640 como administrador integrado para Lustre (IML) 2 Dell EMC PowerEdge R740 como servidor de metadatos (MDS) 2 Dell EMC PowerEdge R740 como servidor de almacenamiento de objetos (SO) |
Procesadores | Servidor IML: Dos servidores Intel Xeon Gold 5118 a 2,3 GHz MDS y OSS: Intel Xeon Gold 6136 doble a 3,00 GHz |
Memoria | Servidor IML: 12 servidores RDIMM DDR4 MDS y OSS de 8 GB y 2666 MT/s: 24 RDIMM DDR4 de 16 GiB y 2666 MT/s |
Controladoras de almacenamiento externo |
2 HBA SAS de Dell de 12 Gb/s (en cada MDS) 4 HBA SAS de Dell de 12 Gb/s (en cada SO) |
Gabinetes de almacenamiento de objetos |
4 ME4084 con un total de 336 discos duros SAS NL de 8 TB a 7200 r/min |
Gabinete de almacenamiento de metadatos |
1 ME4024 con 24 SSD SAS de 960 GB. Admite hasta 4,68 inodos B |
Controladoras RAID | Controladoras RAID SAS dúplex en los gabinetes ME4084 y ME4024 |
Sistema operativo | CentOS 7.5 x86_64 Red Hat Enterprise Linux (RHEL) 7.5 x86_64 |
Versión del BIOS | 1.4.5 |
Versión de IFS Intel Omni-Path |
10.8.0.0 |
Versión del sistema de archivos lustre |
2.10.4 |
Versión de IML | 4.0.7.0 |