Neighbour-Joining-Algorithmen
aus Wikipedia, der freien Enzyklopädie
Dieser Artikel oder Abschnitt weist folgende Lücken auf: Hier müssen einfach noch viel mehr Infos rein. Das Beispiel muss noch weitergeführt werden, der Algorithmus sollte schrittweise angewendet werden. Bilder sollten das Ganze verständlich darstellen. Außerdem erwähnen, dass hier in dem Beispiel der 1988er Algorithmus von Studier und Keppler verwendet wird, und ordentliche Referenzen auf die Original-Paper, die Formel für die Dij ist wohl falsch, die sind nämlich negativ weil ri und rj von dij subtrahiert werden
Hilf Wikipedia, indem du die fehlenden Informationen recherchierst und einfügst! |
Der Neighbor-Joining-Algorithmus ist ein mathematisches Verfahren, um Datensätze zu vergleichen und hierarchisch bifurcal (zweigabelig) anzuordnen. Dieses Verfahren wurde 1987 von Saitou und Nei vorgestellt und 1988 von Studier und Keppler weiterentwickelt und vereinfacht.
Inhaltsverzeichnis |
[Bearbeiten] Anwendung
In der Bioinformatik bezeichnet das Neighbor-Joining-Verfahren eine bottom-up Clustermethode, welche zur Erstellung von phylogenetischen Baumstrukturen verwendet wird. Hiermit soll anhand von variierenden Merkmalen in der Datenmatrix die Wahrscheinlichkeit einer Abstammungs- oder Verwandtschafts-Beziehung in einer Stammbaumartigen Darstellung berechnet werden. Normalerweise werden damit Bäume aus DNA- oder Proteinsequenzdaten oder klassisch morphologischen Datensätzen erstellt. Der Algorithmus benötigt Wissen über die Distanz zwischen zwei Paaren von Taxa (also beispielsweise Arten oder Sequenzen) in einem Baum.
[Bearbeiten] Algorithmus
Neighbor-joining basiert meist auf dem "Minimum Evolution Kriterium" für phylogenetische Bäume: Ausgehend von einem zunächst sternförmigen "Baum", in dem alle Taxa mit einem "Zentrum" verbunden sind, werden paarweise die DNA- oder Proteinsequenzen mit der geringsten genetischen Distanz ausgewählt und zu einem Ast des Baumes vereinigt. Die genetischen Distanzen der Sequenzen werden neu berechnet und wieder die nächstverwandten zu einem Ast mit zwei Taxa zusammengefügt. Dies erfolgt solange, bis alle Taxa in dem Baum eingefügt wurden und die Sternstruktur des Baumes völlig aufgelöst wurde.
[Bearbeiten] Beispiel
Folgend ist eine typische Tabelle von Distanzen zwischen Taxa angegeben, wobei die Werte rein hypothetisch aber realistisch sind:
Mensch | Maus | Rose | |
---|---|---|---|
Mensch | 0,0 | 0,2 | 0,9 |
Maus | 0,2 | 0,0 | 0,85 |
Rose | 0,9 | 0,85 | 0,0 |
Da die Tabelle symmetrisch ist, muss die untere Hälfte nicht unbedingt gespeichert werden. Die Werte in dieser Tabelle werden als di,j benannt.
Als erster Schritt müssen die Durchschnittlichen Distanzen von jedem Taxa zu jedem anderen berechnet werden. Dies geschieht mit folgender Formel:
Mensch | Maus | Rose |
---|---|---|
Wobei N die Anzahl der Taxa ist. Danach werden "bereinigte" Distanzen ausgerechnet:
Di,j = di,j(ri + rj)
Wie z.B. zwischen Mensch und Maus:
D1,2 = d1,2(r1 + r2) = 0,2(1,1 + 1,05) = 0,43
Mensch | Maus | Rose | |
---|---|---|---|
Mensch | 0,0 | 0,43 | 2,565 |
Maus | 0,43 | 0,0 | 2,425 |
Rose | 2,565 | 2,425 | 0,0 |
Diese D-Werte definieren paarweise Distanzen zwischen zwei Taxa. In dieser neuen, berechneten Distanzmatrix wird nun der kleinste Wert, also die kleinste Distanz zwischen zwei Taxa, gesucht, und die gefundenen zwei Taxa zusammengefügt zu einem neuen Teilbaum. In diesem Beispiel werden also Mensch und Maus zu einem Teilbaum zusammengefügt.
Die "alten", zusammengefügten Einträge, werden aus den Distanzmatrixen gelöscht. Um die Distanzen des neuen Eintrages zu den restlichen Taxa zu berechnen, wird folgende Formel verwendet:
Wobei die Einträge i und j zu einem neuen Eintrag k zusammengefügt wird, und die Distanz zum Eintrag n ausgerechnet wird. Die Distanz zwischen Rose und dem neuen Teilbaum ist also:
Rose | TB1 | |
---|---|---|
Rose | 0,0 | 0,775 |
TB1 | 0,775 | 0,0 |
Danach werden wieder ri und Di,j berechnet, neu zusammengefügt und wieder von vorne angefangen. Dies wird solange wiederholt, bis nur noch zwei Taxa übrig bleiben, die dann schlussendlich verbunden werden.
In diesem Beispiel wurden also zuerst Mensch und Maus zu einem Teilbaum verbunden, der erst danach mit der Rose verbunden wurde, was den wahren Tatsachen entspricht.
Dieser Artikel oder Abschnitt weist folgende Lücken auf: Es fehlt noch die Berechnung der Astlängen des neuen Teilbaumes
Hilf Wikipedia, indem du die fehlenden Informationen recherchierst und einfügst! |
[Bearbeiten] Einordnung
Neighbor-Joining gehört zu den expliziten Methoden. Dies bedeutet, dass bei der Berechnung der genetischen Distanzen unterschiedliche Evolutionsmodelle, d. h. unterschiedliche Wahrscheinlichkeiten für Punktmutationen angenommen werden können. Die Richtigkeit dieser Stammbäume beruht auf der Annahme, dass die Veränderung der betrachteten Merkmale keine unbekannten Zwischenschritte enthält. Es wird also vereinfacht angenommen, daß "die Evolution keine Umwege geht" ("minimum evolution").
Der Neighbour-Joining-Algorithmus berechnet den Stammbaum schrittweise und findet deshalb nicht zwangsläufig die optimale Baum-Topologie mit der geringsten Verzweigungslänge. Dies beruht auf seinem Konstruktionsprinzip, als Greedy Algorithmus. Im Gegensatz zu anderen Algorithmen berechnet dieser nicht alle möglichen Bäume und wählt zum Schluss die optimalen aus, sondern verwirft schon während des Verfahrens einige Rechenwege. Obwohl der Algorithmus suboptimal ist, wurde er ausführlich getestet und findet normalerweise einen Baum, der dem Optimum relativ nahe kommt.
[Bearbeiten] Vorteile
Der größte Vorteil dieses Verfahrens ist seine Geschwindigkeit. Man kann es auf gewaltige Datenmengen anwenden, selbst dort, wo andere Methoden der phylogenetischen Analyse wie maximum parsimony und Maximum-Likelihood) nicht mehr durchführbar sind. Im Gegensatz zum UPGMA-Algorithmus (Unweighted Pair Group Method with Arithmetic mean) zur phylogenetischen Baumrekonstruktion nimmt Neighbor-Joining nicht an, dass die Entwicklung der Abstammungslinien mit derselben Rate (siehe auch Molekulare Uhr) stattfindet und erzeugt daher infolgedessen einen unbalancierten Baum.
[Bearbeiten] Literatur
- N. Saitou and M. Nei : The neighbor-joining method: a new method for reconstructing phylogenetic trees. In: Molecular Biology and Evolution. 1987, Vol 4(4), p406-425. (full text).
- J.A. Studier and K.J. Keppler : A note on the neighbor-joining algorithm of Saitou and Nei. In: Molecular Biology and Evolution,1988, Vol 5(6), p729-731. (full text).
- Knoop, Volker; Müller, Kai: Gene und Stammbäume - Ein Handbuch zur molekularen Phylogenetik. Spektrum Akademischer Verlag, 2006. ISBN 3-8274-1642-6