PowerEdge: Impulse la secuenciación genómica con Falcon Accelerated Genomics Pipeline (FAGP) en FPGA PAC de Intel

Summary: Falcon Accelerated Genomics Pipeline con una sola tarjeta de aceleración programable Intel FPGA puede procesar 50 veces más genomas humanos completos en menos de 3 horas a través de Alternative Variant Call Pipeline. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Falcon Accelerated Genomics Pipeline con una sola tarjeta de aceleración programable Intel FPGA puede procesar 50 veces más genomas humanos completos en menos de 3 horas a través de Alternative Variant Call Pipeline. 

 



Visión general, desafío del mercado (necesidad), la solución Falcon responde a la necesidad:

La medicina de precisión, la genómica y la epigenética utilizan la secuenciación genómica para realizar investigaciones, mejorar el diagnóstico, desarrollar productos farmacéuticos, aumentar la calidad de la atención para los proveedores de servicios de salud y optimizar la producción de cultivos. Para las ciencias biológicas, el análisis del genoma es ahora una aplicación clave, debido en parte a la gran reducción de costos de la recopilación de datos debido a los avances en la secuenciación de próxima generación (NGS). Además de una mayor recopilación de datos, también ha habido un crecimiento significativo en la gama de aplicaciones genómicas utilizadas en universidades, centros de investigación genómica, empresas farmacéuticas y organizaciones de atención médica. 
Cada siete meses, la cantidad de datos del genoma se duplica (1). El procesamiento de datos de manera eficiente y rentable se ha vuelto crítico. La potencia computacional de las soluciones de solo procesador no está escalando lo suficientemente rápido como para mantenerse al día con el crecimiento de los datos genómicos. Esto ha llevado a la necesidad de aceleración de hardware. Los aceleradores, como las FPGA, se están volviendo fundamentales para satisfacer las demandas computacionales de esta explosión de datos genómicos. En comparación con otras soluciones aceleradas por hardware, Falcon Accelerated Genomics Pipeline (FAGP) ofrece flexibilidad, alto rendimiento y un menor costo por muestra.
 



¿Qué es FPGA, oferta y ventaja de Intel PAC?

Los FPGA son dispositivos de silicio que se pueden reprogramar dinámicamente con una ruta de datos que coincida exactamente con sus cargas de trabajo, como la secuenciación genómica, el análisis de datos o la compresión, como se ilustra en la figura 1. Esta versatilidad permite el aprovisionamiento de un procesamiento más rápido, una computación más eficiente en el uso de la energía y un servicio de menor latencia, lo que reduce el costo total de la propiedad y maximiza la capacidad de procesamiento dentro de las restricciones de alimentación, espacio y enfriamiento de los centros de datos. 
Tradicionalmente, las FPGA requieren una gran experiencia en el dominio para programarse. Para simplificar el flujo de desarrollo y permitir una implementación rápida en todo el centro de datos, Intel ofrece una plataforma de aceleración que incluye tarjetas de aceleración programables Intel FPGA (Intel FPGA PAC) basadas en PCI Express* (PCIe*) y la pila de aceleración Intel® para CPU Intel Xeon® con FPGA. Estas plataformas Intel están calificadas, validadas e implementadas a través de Dell EMC. Junto con socios del ecosistema como Falcon Computing, Intel Acceleration Platform ofrece una solución confiable y lista para usar con hardware transparente bajo el capó.

SLN319291_en_US__1image(12669)
Figura 1: Precisión y velocidad mejoradas en la tubería GATK estándar
 



Detalles de la solución Falcon:

Genome Analysis Toolkit (GATK) es el estándar de oro para el procesamiento de datos genómicos aceptado por la comunidad genómica (2). Su flujo de trabajo de mejores prácticas (BPW) es conocido por su lentitud en el cálculo para generar resultados para muestras grandes como el genoma completo (WGS). Para abordar este problema, Falcon Computing Solutions ha desarrollado un paquete de herramientas de software flexible que sigue el BPW y se puede implementar en múltiples plataformas y arquitecturas. Es rápido en varios órdenes de magnitud en comparación con los pipelines GATK basados en CPU.
FAGP proporciona una solución de extremo a extremo para analizar de manera rentable los datos genómicos utilizando la canalización GATK con alto rendimiento, precisión y reproducibilidad. La solución ofrece una aceleración de hasta 15 veces con la misma precisión que GATK (3). Esto significa que un análisis que normalmente tarda entre 50 y 60 horas puede realizarse en menos de 4 horas (3). FAGP proporciona niveles excepcionales de aceleración y precisión con FPGA Intel Arria 10 confiables y de alto rendimiento y procesadores Intel® Xeon®. 
FAGP sigue a GATK BPW. Implementa la aceleración en muchos componentes de las tuberías, desde la alineación (BWA) hasta la llamada de variantes (HaplotypeCaller) (4). Además del BWA acelerado, también incluye una versión acelerada del alineador Minimap2 que forma parte del Alternate Genomic Pipeline de Falcon (5). El pipeline alternativo ofrece una solución aún más rápida. Puede completar la secuenciación del genoma completo 50x en 3 horas. Ambos alineadores tienen la función de generar duplicados marcados y lecturas ordenadas sin necesidad de utilizar herramientas adicionales. 
FAGP logra un alto rendimiento mediante la aceleración de la computación intensiva en la canalización GATK mediante el uso de plataformas Intel FPGA PAC. Esto es diferente de las soluciones de escalamiento horizontal que logran un alto rendimiento mediante la adición de más recursos de CPU. Estas soluciones de escalamiento horizontal tienen una capacidad limitada para reducir los costos o la latencia por muestra.
Otra ventaja de la solución Falcon es que es un pipeline abierto como GATK. Los usuarios pueden controlar los pasos individuales de las canalizaciones. Los datos intermedios se guardan y se puede acceder a ellos.


Tabla 1: Ventajas del pipeline de Falcon Accelerated Genomics

 

Ventajas de Falcon Accelerated Genomics Pipeline (FAGP)
GATK verdadero Soporte para múltiples versiones de GATK, incluida la 4.0
Escala industrial Ejecute cinco genomas completos o 24 exomas completos en un día.
Variante alternativa < Tiempo de devolución en el sitio de 3 horas para WGS (50X)
Velocidad Ejecute la canalización de las mejores prácticas de GATK hasta >15 veces más rápido.
Aproveche los recursos No es necesario reescribir los algoritmos de trabajo.
 



Configuración de hardware de Dell

Tabla 2: Dell EMC PowerEdge R740xd como banco de pruebas

Dell EMC PowerEdge R740xd
Procesador 2x Intel(R) Xeon(R) Gold 6148 CPU @ 2.40GHz
Memoria 384GB @ 32x 16GB RDIMM, 2666MT/s, Dual Rank
Almacenamiento 4x 1.2TB 10K RPM SAS 12Gbps 512n 2.5in Hot-plug Hard Drive in RAID 0 2x INTEL SSDPEDMD020T4 DC P3700 1.8T in software RAID 0
FPGA (en inglés) Intel Programmable Acceleration Card with Intel Arria® 10 GX FPGA (Intel Acceleration Stack 1.1)
Perfil del sistema Performance
Versión del BIOS 2.1.3
Hyperthreading (Hyperthreading) Enabled
SO Red Hat Enterprise Linux Server release 7.4 (Maipo) (3.10.0-693.el7.x86_64)



Evaluación del rendimiento

En nuestras pruebas de referencia, utilizamos datos de secuenciación del genoma humano completo con una profundidad de cobertura de 10x, 30x y 50x.


Tabla 3: Datos probados de secuenciación del genoma completo
 

Ejecutar accesión Profundidad de cobertura Enlace de datos
ERR091571 10 veces https://www.ebi.ac.uk/ena/data/view/ERR091571
SRR3124837 30 veces https://www.ebi.ac.uk/ena/data/view/SRR3124837
ERR194161 50 veces https://www.ebi.ac.uk/ena/data/view/ERR194161



 

Resultados:

En la Tabla 4, se resume el tiempo necesario para completar el pipeline de prácticas recomendadas de GATK 4.0 durante tres ciclos de prueba con FAGP y el FPGA PAC de Intel alojado en el servidor DELL EMC PowerEdge R740xd.


Tabla 4: Tiempos de ejecución totales de la canalización de prácticas recomendadas versión 2.1.1

Muestra Profundidad de cobertura Prueba 1 Tiempo de ejecución (minutos)
Prueba 2
Prueba 3
ERR091571 10x 75.63 76.67 76.38
SRR3124837 30x 160.00 162.77 161.38
ERR194161 50x 242.97 250.65 247.18


En la tabla 5, se resume el tiempo (en minutos) necesario para completar el pipeline alternativo: Falcon Germline durante tres ciclos de prueba con FAGP e Intel FPGA PAC alojado en el servidor DELL EMC PowerEdge R740xd.


Tabla 5: Tiempos de ejecución totales de la canalización de llamada de variantes alternativas

Muestra Profundidad de cobertura Prueba 1 Tiempo de ejecución (minutos)
Prueba 2
Prueba 3
ERR091571 10x 62.70 58.21 59.80
SRR3124837 30x 130.38 129.90 129.95
ERR194161 50x 171.52 171.87 171.37

 



Resumen de la solución genómica de Falcon

El pipeline de Falcon Accelerated Genomics ofrece un alto rendimiento y un beneficio de bajo costo/muestra/día. Junto con la tarjeta de aceleración programable Intel FPGA y el servidor certificado de Dell, FAGP proporciona una solución completa que se puede adoptar para sus aplicaciones de secuenciación genómica".
En TCGB, brindamos servicios de secuenciación genómica a nuestros clientes en todo el país. El pipeline de genómica acelerada de Falcon* nos ha permitido reducir nuestro tiempo de respuesta de días a unas pocas horas, al tiempo que mantenemos la precisión de los pipelines GATK estándar de la industria".
— Dr. Xinmin Li, Director del Centro de Tecnología de Genómica y Bioinformática (TCGB) de la UCLA



Recursos 

1. La secuenciación del genoma genera tantos datos que no sabemos qué hacer con ellos. [En línea] https://www.washingtonpost.com/news/speaking-of-science/wp/2015/07/07/sequencing-the-genome-creates-so-much-data-we-don't-know-what-to-do-with-it.
2. GATK [En línea] https://software.broadinstitute.org/gatk/
3. Genómica acelerada [En línea] http://www.falconcomputing.com/falcon-accelerated-genomics-pipeline
4. BWA. [En línea]
http://bio-bwa.sourceforge.net/bwa.shtml5. Minimapa2. [En línea] https://github.com/lh3/minimap2


 

Cause

Impulse la secuenciación genómica con Falcon Accelerated Genomics Pipeline (FAGP) en Intel FPGA PAC.

Resolution

Falcon Accelerated Genomics Pipeline con una sola tarjeta de aceleración programable Intel FPGA puede procesar 50 veces más genomas humanos completos en menos de 3 horas a través de Alternative Variant Call Pipeline.

Affected Products

Dell EMC Ready Solution Resources, OEMR R740xd, PowerEdge R740XD
Article Properties
Article Number: 000136278
Article Type: Solution
Last Modified: 08 Sep 2025
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.