Evaluation von Software für die Primär-Analyse von NGS -Daten

Die erste Entschlüsselung eines menschlichen Genoms um die Jahrtausendwende erforderte die Anstrengung weltweit arbeitender Labore und erstreckte sich über einen Zeitraum von mehr als einem Jahrzehnt (Human Genome Project, 1990 – 2003). Sequenziermaschinen der zweiten Generation (Next Generation Sequencing, NGS) passen dagegen auf einen Schreibtisch und bewältigen die Aufgabe innerhalb weniger Tage.

 

Sequencing by Synthesis

Ein Großteil der verwendeten Hochdurchsatzverfahren beruht darauf, originale Stücke der DNS (Desoxyribonukleinsäure), die die genetische Erbinformation in Form von Basensequenzen trägt, Base für Base nachzubauen (Sequencing by Synthesis). Dazu werden kurze DNS-Abschnitte zunächst in einem chemischen Prozess auf mikrometer-großen Beads fixiert und vervielfältigt. Die so bestückten Beads werden auf die Oberfläche einer Flusszelle verbracht, wo sie in mehreren Zyklen mit modifizierten, fluoreszierenden DNS-Basen überspült werden, die sich spezifisch anlagern.

Durch die Verwendung unterschiedlicher Fluoreszenzmoleküle für die vier möglichen Nukleotidbasen entstehen so spezifische Fluoreszenzmuster, die unter Verwendung spezieller Farbfilter fotosensorisch erfasst werden. Die aufgenommenen Bilder müssen anschließend softwaremäßig ausgewertet werden, um für jedes Bead die jeweils angelagerte Base zusammen mit einem Qualitätsmaß zu bestimmen.

 

Von Fluoreszenzbildern zu DNS-Sequenzen

Die Firma QIAGEN ist ein weltweit agierender Anbieter von molekular-biologischen Testverfahren mit operativem Hauptsitz in Hilden bei Düsseldorf. QIAGENs neuentwickelter Sequenzierer (GeneReader NGS System) arbeitet nach dem Prinzip des Sequencing by Synthesis.

Wir sichten und evaluieren in einem gemeinsamen Projekt mit QIAGEN einen Teil der von QIAGEN erstellten Software zur Primär-Analyse der Fluoreszenz-Bilddaten bis hin zur Ermittlung der Basensequenzen und Qualitätsmaße. Dabei werden von unserer Seite auch konkrete Verbesserungsvorschläge gemacht, die in zukünftige Produktversionen Eingang finden könnten.

Durch die Software müssen unterschiedlichste Aufgaben gelöst werden:

  • Verschiebungen der Fluoreszenz-Bilder untereinander (die Flusszelle muss in jedem Zyklus mechanisch bewegt werden)
  • ungleichmäßige Ausleuchtung der Bilder bedingt durch die Optik des Fotosensors
  • unterschiedliche optische Eigenschaften der vier verwendeten Fluoreszenzmoleküle und der Farbfilter
  • Übersprechen der Farbkanäle und benachbarter Beads
  • Degenerierung der Fluoreszenz-Signale durch Zunahme der Autofluoreszenz und durch fehlerhafte Inkorporationen der modifizierten Basen (Lead/Lag-Effekte)

Sämtliche Effekte beinhalten auch immer eine stochastische Komponente. Hier bringt unsere Abteilung ihre Kompetenzen in den Bereichen komplexer stochastischer Modellierung und Algorithmik in das Projekt mit ein.