NGSgoesHPC
Das Projekt NGSgoesHPC beschäftigt sich damit, für die NGS-Prozesse (next generation sequencing) entscheidende Anwendungen und Kernel-Algorithmen auf moderne Hochleistungsinfrastrukturen (HPC) zu portieren. NGS gilt als Schlüsseltechnologie der Genetik zur Bestimmung genetischer Informationen. Durch die NGS Technologie wird es möglich, eine Vielzahl an Fragestellungen zu behandeln, für die bisherige Sequenziermethoden zu kosten- und zeitaufwendig waren: die beim Prozess der Sequenzierung entstehenden großen Datenmengen können mit Hilfe von Hochleistungsrechnern verarbeitet und interpretiert werden. NGSgoesHPC wird auf dem Gebiet der genetischen Forschung neue Möglichkeiten eröffnen, um Anwendungen an moderne Hardwarearchitekturen anzupassen und neue Methoden zur Verarbeitung und Darstellung der Ergebnisse zu entwickeln.
BMBF (Förderkennzeichen 01IH11003A); 01.06.2011 - 31.05.2014
Die Abbildung zeigt einen typischen NGS-Workflow aus Nutzersicht. Die Wandlung von Rohdaten in prozessierte Daten, respektive assemblierte Daten stellt aufgrund des hohen Rechen- und Speicherbedarfs insbesondere bei der de novo Assemblierung komplexer Genome ein nur durch die intelligente Verteilung von Ressourcen zu lösendes Problem dar. Daher ist eine Beschleunigung der in diesem Projekt beschriebenen Verfahren essentiell, um den beschriebenen Flaschenhals aufzuweiten.
Die Lebenswissenschaften sind ein junger, sehr dynamisch wachsender Wissenschaftsbereich, der für die Lebensqualität des Menschen und das Überleben der Menschheit von zunehmender Bedeutung ist. Das Verständnis komplexer Abläufe auf molekularer und zellulärer Ebene eröffnet neue Möglichkeiten zur Erkennung von Krankheiten und neuartige medizinische Therapien.
Durch die Markteinführung von Hochdurchsatz-Sequenziertechnologien ist die Entschlüsselung der chromosomalen Sequenzen von immer mehr menschlichen Individuen (1000 Genomes Project, www.1000genomes.org (Durbin, 2010)) und vielen anderen Organismen möglich geworden. So können in einem typischen Experiment die Sequenzen von mehreren hundert Millionen bis zu Milliarden kurzer DNA-Fragmente ausgelesen werden.
Mit Hilfe der NGS-Technologie wird es möglich, eine Vielzahl biologischer Fragestellungen zu behandeln, für die bisherige Sequenziermethoden zu kosten- und zeitintensiv waren. Zu diesen gehören beispielsweise Fragestellungen zu evolutionären Prozessen unterschiedlicher Spezies sowie die Erforschung der Biologie des Alterns und altersassozierter Krankheiten. Durch die Kombination von Sequenziergeräten der nächsten Generation mit einer effizienten Nutzung aktueller Rechnerarchitekturen wird es beispielsweise möglich, bei Krebspatienten Therapieentscheidungen von dem genetischen Hintergrund des Patienten, insbesondere des Tumorgewebes, abhängig zu machen. Große Datenmengen stellen die klinische Forschung und Diagnostik der Zukunft vor ganz neue Herausforderungen. Komplexe Analysen müssen in klinischen Zeitmaßstäben von wenigen Stunden bei vertretbaren Kosten durchführbar werden. Die Effizienzsteigerung bei der Nutzung von Hochleistungsrechnern ist dazu unabdingbar.
Da die rasante Entwicklung der NGS-Technologien jährlich mindestens zu einer Verdopplung des Durchsatzes geführt hat, ist die Verarbeitung und die sich an die Primäranalyse anschließende Auswertung der Daten derzeit der Schritt, bei dem der Verbesserungsbedarf am größten ist. Dies wird in Abbildung 1 anhand eines beispielhaften Workflows verdeutlicht. Einer der zeitaufwändigen nachgelagerten Schritte stellt das Zusammensetzen der kleine GenomSequenzen dar, die von den Sequencer produziert werden. Aktuelle Anwendungen sind nicht für Hardwarearchitekturen modernen und zukünftiger Supercomputern ausgelegt oder erbringen unbefriedigende Ergebnisse. Hierdurch können diese Anwendungen dem Wachstum des NGS nicht mehr gerecht werden – die computerisierte Verarbeitung der Datenströme wird zum bestimmenden Flaschenhals. Aktuelle aber vor allem kommende Problemgrößen können nicht mehr in akzeptabler Zeit gelöst werden.
NGSgoesHPC hat somit zum Ziel genau hier anzusetzen und die für den NGS-Prozess entscheidenden Anwendungen auf moderne Hochleistungsinfrastrukturen zu bringen. Die wesentlichen Leistungssteigerungen aktueller Rechnersysteme ergeben sich durch die Integration vieler Rechnerkerne mit effizienten Kommunikationsnetzen. Eine signifikante Leistungssteigerung von Programmen ist nur noch über algorithmische Verbesserungen bzw. Parallelisierungsansätze erzielbar, wobei die Skalierung auf sehr hohe Prozessorzahlen ein nichttriviales Problem ist, bei dem eine Balancierung von Verarbeitungsleistung der Prozessorkerne und Latenzen sowie Bandbreiten einer Speicherhierarchie zu erzielen ist. Dem steht in den Lebenswissenschaften ein schnell steigendes Aufkommen an auszuwertenden Daten gegenüber.
Durch das Konsortium von Vertretern aus den Anwendungsfeldern, Hochleistungsrechenzentren und Hardwareherstellern moderner Hochleistungsarchitekturen hat das Projekt die optimale Ausgangslage die Herausforderung zu stemmen.
Die Ergebnisse dieser Bemühungen sollen der wissenschaftlichen Community in Form einer Programmbibliothek zur Verfügung gestellt werden. So wird die stetige Weiterentwicklung der Codes in der Zukunft erleichtert und die durch eine Vielzahl von Einzelprogrammen unübersichtlich gewordene Verfügbarkeit von Methoden vereinheitlicht.