PowerEdge: Boost Genomic Sequencing with Falcon Accelerated Genomics Pipeline (FAGP) on Intel FPGA PAC

Summary: 단일 인텔 FPGA 프로그래밍 가능 가속 카드가 장착된 Falcon Accelerated Genomics Pipeline은 대체 변이 호출 파이프라인을 통해 3시간 이내에 전체 인간 게놈의 50배를 처리할 수 있습니다.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

단일 인텔 FPGA 프로그래밍 가능 가속 카드가 장착된 Falcon Accelerated Genomics Pipeline은 대체 변이 호출 파이프라인을 통해 3시간 이내에 전체 인간 게놈의 50배를 처리할 수 있습니다. 

 



개요, 시장 과제(필요), Falcon 솔루션은 요구 사항에 답합니다.

정밀 의학, 유전체학 및 후성유전학은 연구를 수행하고, 진단을 개선하고, 의약품을 개발하고, 의료 서비스 제공자를 위한 치료 품질을 높이고, 작물 생산을 최적화하기 위해 게놈 염기 서열 분석을 사용하고 있습니다. 생명 과학의 경우, 차세대 염기서열 분석(NGS)의 발전으로 인한 데이터 수집 비용이 크게 절감되었기 때문에 게놈 분석이 이제 핵심 응용 분야가 되었습니다. 데이터 수집이 증가함에 따라 대학, 게놈 연구 센터, 제약 회사 및 의료 기관 전반에서 사용되는 게놈 응용 분야도 크게 성장했습니다. 
게놈 데이터의 양은 7개월마다 두 배로 늘어납니다(1). 효율적이고 경제적인 방식의 데이터 처리가 중요해졌습니다. 프로세서 전용 솔루션의 컴퓨팅 성능이 게놈 데이터 증가를 따라잡을 만큼 빠르게 확장되지 않고 있습니다. 이로 인해 하드웨어 가속화의 필요성이 대두되었습니다. FPGA와 같은 가속기는 이러한 게놈 데이터 폭증의 컴퓨팅 요구 사항을 충족하는 데 중추적인 역할을 하고 있습니다. 다른 하드웨어 가속 솔루션과 비교할 때 FAGP(Falcon Accelerated Genomics Pipeline)는 유연성, 높은 처리량 및 샘플당 낮은 비용을 제공합니다.
 



FPGA, 인텔 PAC 오퍼링 및 이점이란 무엇입니까?

FPGA는 그림 1과 같이 게놈 시퀀싱, 데이터 분석 또는 압축과 같이 워크로드와 정확히 일치하는 데이터 경로로 동적으로 재프로그래밍할 수 있는 실리콘 디바이스입니다. 이러한 다양성을 통해 더 빠른 처리, 더 에너지 효율적인 컴퓨팅, 더 낮은 레이턴시 서비스를 프로비저닝할 수 있으므로 데이터 센터의 전력, 공간 및 냉각 제약 내에서 총 소유 비용을 낮추고 컴퓨팅 용량을 극대화할 수 있습니다. 
전통적으로 FPGA는 프로그래밍을 위해 심층적인 도메인 전문 지식이 필요합니다. 개발 흐름을 단순화하고 데이터 센터 전반에 걸쳐 신속한 배포를 가능하게 하기 위해 인텔은 PCI Express*(PCIe*) 기반 인텔 FPGA 프로그래밍 가능 가속 카드(인텔 FPGA PAC) 및 FPGA가 있는 인텔 제온® CPU용 인텔® 가속 스택을 포함하는 가속 플랫폼을 제공합니다. 이러한 인텔 플랫폼은 Dell EMC를 통해 검증되고 구축됩니다. Falcon Computing과 같은 생태계 파트너와 함께 인텔 가속화 플랫폼은 투명한 하드웨어를 내부적으로 갖추고 있으며 안정적이고 즉시 사용 가능한 솔루션을 제공합니다.

SLN319291_en_US__1image(12669)
그림 1 : 표준 GATK 파이프라인의 정확도 및 속도 향상
 



Falcon 솔루션 세부 정보:

GATK(Genome Analysis Toolkit)는 유전체학 커뮤니티에서 인정하는 게놈 데이터 처리의 표준입니다(2). BPW(Best Practice Workflow)는 WGS(Whole-Genome)와 같은 대규모 샘플에 대한 결과를 생성하기 위한 계산 속도가 느린 것으로 잘 알려져 있습니다. 이 문제를 해결하기 위해 Falcon Computing Solutions는 BPW를 따르고 여러 플랫폼과 아키텍처에서 구현할 수 있는 유연한 도구 소프트웨어 패키지를 개발했습니다. CPU 기반 GATK 파이프라인과 비교할 때 몇 배나 빠릅니다.
FAGP는 고성능, 정확도 및 재현성을 갖춘 GATK 파이프라인을 사용하여 게놈 데이터를 비용 효율적으로 분석하는 엔드 투 엔드 솔루션을 제공합니다. 이 솔루션은 GATK와 동일한 정확도로 최대 15배의 속도 향상을 제공합니다(3). 즉, 일반적으로 50-60시간이 걸리는 분석을 4시간 이내에 수행할 수 있습니다(3). FAGP는 신뢰할 수 있는 고성능 인텔 Arria 10 FPGA 및 인텔® 제온® 프로세서로 탁월한 수준의 가속과 정확성을 제공합니다. 
FAGP는 GATK BPW를 따릅니다. 정렬(BWA)에서 변형 호출(HaplotypeCaller)(4)에 이르기까지 파이프라인의 많은 구성 요소에서 가속을 구현합니다. 가속된 BWA 외에도 Falcon(5)의 대체 게놈 파이프라인의 일부인 aligner Minimap2의 가속 버전도 포함되어 있습니다. 대체 파이프라인은 훨씬 더 빠른 솔루션을 제공합니다. 3시간 이내에 50x Whole Genome Sequencing을 완료할 수 있습니다. 두 교정기 모두 추가 도구를 사용할 필요 없이 표시된 중복 및 정렬된 판독을 생성하는 기능이 있습니다. 
FAGP는 인텔 FPGA PAC 플랫폼을 사용하여 GATK 파이프라인에서 집중적인 계산을 가속화하여 고성능/처리량을 달성합니다. 이는 더 많은 CPU 리소스를 추가하여 높은 처리량을 달성하는 스케일 아웃 솔루션과는 다릅니다. 이러한 스케일 아웃 솔루션은 비용 또는 샘플당 대기 시간을 줄이는 데 한계가 있습니다.
Falcon 솔루션의 또 다른 장점은 GATK와 같은 개방형 파이프라인이라는 것입니다. 사용자는 파이프라인의 개별 단계를 제어할 수 있습니다. 중간 데이터가 저장되고 액세스할 수 있습니다.


표 1: Falcon Accelerated Genomics Pipeline의 장점

 

FAGP(Falcon Accelerated Genomics Pipeline)의 장점
진정한 GATK 4.0을 포함한 여러 GATK 버전 지원
업계 규모 하루에 5개의 전체 게놈 또는 24개의 전체 엑솜을 실행합니다.
대체 변형 < WGS(50X)의 현장 소요 시간 3시간
속도 GATK 모범 사례 파이프라인을 >최대 15배 더 빠르게 수행합니다.
기존 활용 작동하는 알고리즘을 다시 작성할 필요가 없습니다.
 



Dell 하드웨어 구성

표 2: 테스트 베드로서의 Dell EMC PowerEdge R740xd

Dell EMC PowerEdge R740xd
프로세서 2x Intel(R) Xeon(R) Gold 6148 CPU @ 2.40GHz
메모리 384GB @ 32x 16GB RDIMM, 2666MT/s, Dual Rank
스토리지 4x 1.2TB 10K RPM SAS 12Gbps 512n 2.5in Hot-plug Hard Drive in RAID 0 2x INTEL SSDPEDMD020T4 DC P3700 1.8T in software RAID 0
FPGA (증권 시 Intel Programmable Acceleration Card with Intel Arria® 10 GX FPGA (Intel Acceleration Stack 1.1)
시스템 프로필 Performance
BIOS 버전 2.1.3
하이퍼스레딩 Enabled
OS Red Hat Enterprise Linux Server release 7.4 (Maipo) (3.10.0-693.el7.x86_64)



성능 평가

벤치마크 테스트에서는 10배, 30배, 50배 깊이 범위에서 전체 인간 게놈 염기서열 데이터를 사용했습니다.


표 3: 테스트된 전체 게놈 염기서열 데이터
 

가입 실행 적용 범위 깊이 데이터 링크
ERR091571 10배 https://www.ebi.ac.uk/ena/data/view/ERR091571
SRR3124837 30배 https://www.ebi.ac.uk/ena/data/view/SRR3124837
ERR194161 50배 https://www.ebi.ac.uk/ena/data/view/ERR194161



 

결과:

표 4에는 FAGP 및 DELL EMC PowerEdge R740xd 서버에 내장된 인텔 FPGA PAC를 사용하여 3회의 테스트 주기에 걸쳐 GATK 4.0 모범 사례 파이프라인을 완료하는 데 소요된 시간이 요약되어 있습니다.


표 4: 모범 사례 파이프라인 버전 2.1.1의 총 런타임

견본 적용 범위 깊이 테스트 1 런타임(분)
테스트 2
테스트 3
ERR091571 10x 75.63 76.67 76.38
SRR3124837 30x 160.00 162.77 161.38
ERR194161 50x 242.97 250.65 247.18


표 5에는 대체 파이프라인을 완료하는 데 걸린 시간(분)이 요약되어 있다. FAGP와 DELL EMC PowerEdge R740xd 서버에 내장된 인텔 FPGA PAC를 사용한 3회 테스트 주기에 걸친 Falcon Germline의 테스트 결과입니다.


표 5: 대체 변형 호출 파이프라인의 총 런타임

견본 적용 범위 깊이 테스트 1 런타임(분)
테스트 2
테스트 3
ERR091571 10x 62.70 58.21 59.80
SRR3124837 30x 130.38 129.90 129.95
ERR194161 50x 171.52 171.87 171.37

 



Falcon Genomic 솔루션 요약

Falcon Accelerated Genomics Pipeline은 높은 처리량, 낮은 비용/샘플/일일 이점을 제공합니다. 인텔 FPGA 프로그래밍 가능 가속 카드 및 인증된 DELL 서버와 함께 FAGP는 게놈 염기서열 분석 애플리케이션에 채택할 수 있는 완벽한 솔루션을 제공합니다."
TCGB에서는 전국 고객에게 게놈 시퀀싱 서비스를 제공합니다. Falcon Accelerated Genomics Pipeline*을 통해 업계 표준 GATK 파이프라인의 정확도를 유지하면서 소요 시간을 며칠에서 몇 시간으로 단축할 수 있었습니다."
— Xinmin Li 박사, UCLA 유전체학 및 생물정보학 기술 센터(TCGB) 소장



자료 

1. 게놈 염기서열 분석은 너무 많은 데이터를 생성하므로 이를 어떻게 활용해야 할지 모를 정도입니다. [온라인] https://www.washingtonpost.com/news/speaking-of-science/wp/2015/07/07/sequencing-the-genome-creates-so-much-data-we-don't-know-what-to-do-with-it.
2. GATK [온라인] https://software.broadinstitute.org/gatk/
3. 가속 유전체학 [온라인] http://www.falconcomputing.com/falcon-accelerated-genomics-pipeline
4. BWA입니다. [온라인]
http://bio-bwa.sourceforge.net/bwa.shtml5. 미니맵2. [온라인] https://github.com/lh3/minimap2


 

Cause

인텔 FPGA PAC에서 FAGP(Falcon Accelerated Genomics Pipeline)로 게놈 시퀀싱 강화

Resolution

단일 인텔 FPGA 프로그래밍 가능 가속 카드가 장착된 Falcon Accelerated Genomics Pipeline은 대체 변이 호출 파이프라인을 통해 3시간 이내에 전체 인간 게놈의 50배를 처리할 수 있습니다.

Affected Products

Dell EMC Ready Solution Resources, OEMR R740xd, PowerEdge R740XD
Article Properties
Article Number: 000136278
Article Type: Solution
Last Modified: 08 Sep 2025
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.