Die Konfiguration mit 64 Compute-Nodes von Dell EMC Ready Solutions für HPC in den Biowissenschaften kann 194 Genome pro Tag verarbeiten (50-fache Abdeckungstiefe).
Übersicht
Variantenaufruf ist ein Verfahren, mit dem wir Varianten aus Sequenzdaten identifizieren. Dieser Prozess hilft bei der Bestimmung, ob es an einer bestimmten Stelle in einem individuellen Genom oder Transkriptom Einzelnukleotid-Polymorphismen (SNPs), Insertionen und Deletionen (Indels) und/oder strukturelle Varianten (SVs) gibt. Das Hauptziel der Identifizierung genomischer Variationen ist die Verknüpfung mit menschlichen Krankheiten. Obwohl nicht alle menschlichen Krankheiten mit genetischen Variationen in Verbindung gebracht werden, kann das Variantenaufrufen eine wertvolle Richtlinie für Genetiker sein, die an einer bestimmten Krankheit arbeiten, die durch genetische Variationen verursacht wird. BWA-GATK ist eines der Next Generation Sequencing (NGS)-Rechenwerkzeuge, die entwickelt wurden, um Keimbahn- und somatische Mutationen aus menschlichen NGS-Daten zu identifizieren. Es gibt eine Handvoll Tools zur Identifizierung von Varianten, und wir wissen, dass es kein einziges Tool gibt, das perfekt funktioniert (1). Wir haben uns jedoch für GATK, eines der beliebtesten Tools, als Benchmarkingtool entschieden, um zu demonstrieren, wie gut Dell EMC Ready Solutions für HPC in den Biowissenschaften komplexe und massive NGS-Workloads verarbeiten kann.
Dieser Blog soll wertvolle Informationen zur Leistung des Intel® Xeon® Gold 6248 Prozessors für den BWA-GATK-Pipeline-Benchmark mit Dell EMC Ready Solutions für HPC Lustre Storage (Aktualisierung der ME4 Serie) (2) bereitstellen. Die Xeon® Gold 6248 CPU verfügt über 20 physische Cores oder 40 logische Cores bei Verwendung von Hyperthreading. Die Testclusterkonfigurationen sind in Tabelle 1 zusammengefasst.
| Dell EMC Power Edge C6420 | |
|---|---|
| CPU | 2 x Xeon® Gold 6248, 20 Cores, 2,5 GHz (Cascade Lake) |
| RAM | 12 x 16 GB bei 2933 MTps |
| Betriebssystem | RHEL 7.6 |
| Interconnect | Intel® Omni-Path |
| BIOS-Systemprofil | Performance-optimiert |
| Logischer Prozessor | Deaktiviert |
| Virtualisierungstechnologie | Deaktiviert |
| BWA | 0.7.15 bis r1140 |
| Samtools | 1,6 |
| GATK | 3.6-0-G89B7209 |
| Dell EMC Ready Solution for Lustre Storage | |
|---|---|
| Anzahl der Nodes | 1 x Dell EMC PowerEdge R640 als Integrated Manager for Lustre (IML), 2 x Dell EMC PowerEdge R740 als Metadatenserver (MDS), 2 x Dell EMC PowerEdge R740 als Objektspeicherserver (OSS) |
| Prozessoren | IML-Server: Dual Intel Xeon Gold 5118 @ 2,3 GHz MDS- und OSS-Server: Dual Intel Xeon Gold 6136 mit 3,00 GHz |
| Arbeitsspeicher | IML-Server: 12 x 8-GB-DDR4-RDIMMs mit 2.666 MT/s MDS- und OSS-Server: 24 x DDR4-RDIMMs mit 16 GiB und 2.666 MT/s |
| Externe Speicher-Controller |
2 x Dell 12-Gbit/s-SAS-HBAs (auf jedem MDS) 4 x Dell 12-Gbit/s-SAS-HBAs (auf jedem Betriebssystem) |
| Objektspeichergehäuse |
4 x ME4084 mit insgesamt 336 x NL-SAS-Festplattenlaufwerken mit 8 TB und 7.200 U/min |
| Metadatenspeichergehäuse |
1 x ME4024 mit 24 x SAS-SSDs mit 960 GB. Unterstützt bis zu 4,68 Mrd. Inodes |
| RAID-Controller | Duplex-SAS-RAID-Controller in den Gehäusen ME4084 und ME4024 |
| Betriebssystem | CentOS 7.5 x86_64 Red Hat Enterprise Linux (RHEL) 7.5 x86_64 |
| BIOS-Version | 1.4.5 |
| Intel Omni-Path IFS-Version |
10.8.0.0 |
| Version des Lustre-Dateisystems |
2.10.4 |
| IML-Version | 4.0.7.0 |
Die Archivierung als Artikel basiert auf HPC-Dokumentation, die nicht mehr online gehostet wird, und der Artikel kann nicht bearbeitet werden, um die Erwartungen an die Wissensdatenbank zu erfüllen.
Die Archivierung als Artikel basiert auf HPC-Dokumentation, die nicht mehr online gehostet wird, und der Artikel kann nicht bearbeitet werden, um die Erwartungen an die Wissensdatenbank zu erfüllen.