Autor Thema: Barcode-Tutorial  (Gelesen 375 mal)

Rainer Breitling

  • Aktive Mitarbeiter
  • *****
  • Beiträge: 1789
Barcode-Tutorial
« am: 2019-05-03 13:42:54 »
Zum Einstieg in eine breitere Diskussion zur Barcode-Analyse habe ich mal versucht, ein kleines Einsteiger-Tutorial zusammenzustellen. Daraus können sich bestimmt zahlreiche spezifischere Fragen zu diesem Themenkomplex ergeben. Nicht entmutigen lassen, wenn nicht sofort alles klar ist; es ist ein weites Feld, und die Zahl der möglichen Parameter und Varianten ist schier endlos (und ebenso die Zahl der möglichen Stolpersteine). Man muss sich einfach die Zeit nehmen, um drauf los zu probieren und dann weiter nachzufragen.

1.   Installiere ein Programm zum Verwalten von DNA-Sequenzen. Da gibt es zahlreiche Kandidaten. Ich finde das altmodische BioEdit besonders leicht zu erlernen: http://www.mbio.ncsu.edu/BioEdit/bioedit.html

2.   Gehe zur öffentlichen Barcode-Datenbank, BOLD, um die nötigen Sequenzen zu besorgen: http://www.boldsystems.org/index.php/Public_BINSearch

3.   Für das Tutorial ist der Plan, die Beziehungen von Zelotes subterraneus und Z. apricorum zu untersuchen. Suchbegriff “Zelotes” – danach (um die Sache zu vereinfachen) Auswahl der europäischen Vertreter auf der Ergebnisseite – und dann Anklicken von Sequences – FASTA oben rechts, um die Sequenzen herunter zu laden.

BarcodeDatabase.jpg
*BarcodeDatabase.jpg (104.95 KB . 958x538 - angeschaut 147 Mal)

4.   Wenn die folgenden Barcode-Cluster ausgewählt wurden (BOLD:AAP3114 [Members: 12], BOLD:AAV7755 [Members: 21], BOLD:AAY0535 [Members: 23], BOLD:ABZ4051 [Members: 15],    BOLD:ACE7661 [Members: 8], BOLD:ACW2590 [Members: 1], BOLD:ADD2583 [Members: 1]), dann enthält die resultierende Datei, fasta.fas, 90 Barcode-Sequenzen. Nach Öffnen der Datei in BioEdit kann man die Sequenzen betrachten, und schon auf den ersten Blick ist deutlich, dass sie alle sehr ähnlich sind.

BioEdit.jpg
*BioEdit.jpg (276.73 KB . 763x508 - angeschaut 137 Mal)
 
5.   Nicht alle Sequenzen sind vollständig, das heisst bis auf Artniveau, annotiert. Die Sequenzen ohne Art-Angabe kann man jetzt löschen, um die Übersichtlichkeit im nächsten Schritt zu erhöhen. Das Ergebnis sieht dann etwa so aus:
 
BioEditAuswahl.jpg
*BioEditAuswahl.jpg (259.61 KB . 783x507 - angeschaut 135 Mal)

Ein Exemplar ist als Haplodrassus signifer identifiziert, aber das ist sehr fragwürdig. Man kann sich vorstellen, dass es sich hier um den Barcode eines selbst-sequenzierten Problemtiers handelt, dessen korrekte Identität wir mit der Barcode-Analyse herausfinden möchten.

6.   Für die weitere Analyse verwende ich http://www.phylogeny.fr/alacarte.cgi im “A la Carte”-Modus. Man kann dort allerhand verschiedene Möglichkeiten zur Stammbaum-Rekonstruktion ausprobieren; für den ersten Überblick schlage ich ProtDist/FastDist – BioNJ vor, bei dem die Barcodes nach ihrer paarweisen Ähnlichkeit zusammengefasst werden:

phylogeny_alacarte.jpg
*phylogeny_alacarte.jpg (59.47 KB . 483x538 - angeschaut 150 Mal)
 
7.   Im zweiten Schritt muss man dann nur noch die Datei angeben, die analysiert werden soll (nicht vergessen, die entsprechende Auswahl in BioEdit zu speichern, bevor man sie hier hochlädt), und dann ganz unten auf der Seite “submit” zu klicken.
 
phylogeny_alacarte2.jpg
*phylogeny_alacarte2.jpg (70.61 KB . 747x719 - angeschaut 151 Mal)

8.   Auf der nächsten Seite klickt man auf den Link, und in diesem Beispiel ist das Ergebnis dort meistens auch schon fertig, so dass man sich nicht, wie vorgeschlagen, ein Lesezeichen setzen muss. Je nach Komplexität der Analyse dauert es auch mal ein paar Minuten, bevor die Ergebnisse erscheinen, aber man kann sich eine E-mail schicken lassen und muss nicht warten, bis es soweit ist. Und dann kann man auch schon anfangen, die Daten zu interpretieren:
 
phylogeny_alacarte_result.jpg
*phylogeny_alacarte_result.jpg (222.59 KB . 799x1003 - angeschaut 153 Mal)

9.   Die Barcodes jeder Art sind sauber von allen anderen Arten getrennt; nur Zelotes subterraneus und Z. apricorum lassen sich nicht unterscheiden; und die angebliche Haplodrassus signifer ist tatsächlich ein Zelotes clivicola-Exemplar. Man kann sich leicht vorstellen, dass dieses Ergebnis dem Sammler bei der Bestimmung geholfen hätte.

10.   Als letzten Schritt kann man sich dieser Ergebnis als Stammbaum im Newick-Format speichern (Link unterhalb der Abbildung) und dann bei iTOL https://itol.embl.de/upload.cgi für ein bisschen schönere Darstellung hochladen. Dort kann man dann den Baum umsortieren, einfärben und sich ganz allgemein als Grafikdesigner austoben.

iTOL_result.jpg
*iTOL_result.jpg (114.28 KB . 958x527 - angeschaut 152 Mal)

11.   Natürlich gibt es noch viele andere Möglichkeiten, die Barcode-Daten zu analysieren. Zum Beispiel kann man einen eigenen Barcode direkt bei BOLD hochladen und auf Artniveau bestimmen lassen: http://www.boldsystems.org/index.php/IDS_OpenIdEngine .

Und in der Datenbank kann man auch unveröffentlichte Barcodes zumindest teilweise durchsuchen und dabei zum Beispiel herausfinden, dass auch Zelotes gallicus kaum von Z. apricorum/subterraneus zu trennen ist. Auch bei Drassodes lapidosus/cupreus zeichnen sich interessante Probleme ab, die in den öffentlichen Datensätzen noch nicht nachvollziehbar sind: es scheint sich wirklich um zwei genetisch getrennte Arten zu handeln, aber selbst sehr erfahrene Arachnologen scheinen noch nicht in der Lage, sie morphologisch zuverlässig zu trennen. Bin gespannt auf die Publikation, die dazu sicher schon irgendwo in Vorbereitung ist. Solche Expeditionen "in silico" sind ein spannender Zeitvertreib für regnerische Wochenenden...

Beste Grüsse,
Rainer

Jonas Wolff

  • Aktive Mitarbeiter
  • *****
  • Beiträge: 1449
Re: Barcode-Tutorial
« Antwort #1 am: 2019-05-04 08:15:09 »
Gute Idee hier ein allgemeinverstaendliches Tutorial einzustellen.

Ich moechte noch ergaenzen, dass die Ergebnisse der Stammbaum-Rekonstruktion nur mit dem COI-Gen nur bei nah verwandten Arten robuste Resultate bringt. Fuer gattungs- oder sogar familienuebergreifende Analysen sollte man multi-Gen-Methoden benutzen.

Wie schaetzt du mit der momentan rasanten Entwicklung und der Entwicklung portabler Sequenzierer die Moeglichkeiten einer Barcode-Sequenzierung durch citizen scientists ein?

Jürgen Guttenberger

  • ****
  • Beiträge: 2802
Re: Barcode-Tutorial
« Antwort #2 am: 2019-05-04 08:47:12 »
Puh, da hast du aber was aufgetischt, danke für deine Bemühungen.

Interessantes Feld das mich schon reizt, da muss man sich aber erstmal einarbeitet.
Mit dieser Vorlage hast du ja einen schönen Startschuß geliefert.

Gruß Jürgen

Rainer Breitling

  • Aktive Mitarbeiter
  • *****
  • Beiträge: 1789
Re: Barcode-Tutorial
« Antwort #3 am: 2019-05-04 10:44:19 »
Ich moechte noch ergaenzen, dass die Ergebnisse der Stammbaum-Rekonstruktion nur mit dem COI-Gen nur bei nah verwandten Arten robuste Resultate bringt. Fuer gattungs- oder sogar familienuebergreifende Analysen sollte man multi-Gen-Methoden benutzen.
Ja, genau. Die Barcodes funktionieren nicht so recht, wenn die Arten zu ähnlich sind (siehe das Zelotes apricorum/subterraneus-Beispiel und viele ähnliche Fälle), oder wenn sie sich zu sehr unterscheiden. Dazwischen, bei Artengruppen, relativ homogenen Gattungen und eng verwandten Gattungsgruppen, scheint es einen "sweet spot" zu geben, wo Barcodes auch taxonomisch verwertbare Ergebnisse liefern können, zumindest in Kombination mit morphologischen Untersuchungen. Man darf aber nicht vergessen, dass es sich um relativ kurze Sequenzen handelt, die sich recht schnell verändern (so dass sich auch Geschwisterarten meist bereits deutlich unterscheiden). Nach einer Weile, bei größeren evolutionären Abständen, sind die Sequenzen dann mutationsgesättigt, die gleichen Mutationen tauchen unabhängig voneinander mehrfach auf, und das Signal für die Stammbaumrekonstruktion geht verloren.

Zitat
Wie schaetzt du mit der momentan rasanten Entwicklung und der Entwicklung portabler Sequenzierer die Moeglichkeiten einer Barcode-Sequenzierung durch citizen scientists ein?
Portable Sequenzierer scheinen mir auf absehbare Zeit nur für größere Projekte sinnvoll; aber der allgemeine Preisverfall beim DNA-Sequenzieren sollte es möglich machen, auch Amateuren breiten Zugang zu Barcodeuntersuchungen zu geben. Ich bedauere sehr, dass das GBOL-Projekt keine Gelegenheit bekam, diesen Übergang von der Pilotstudie zur allgemeinen Anwendung zu begleiten. Im Moment haben wir ja noch nicht einmal von allen einheimischen Spinnenarten eine repräsentative Auswahl von Barcodes über das gesamte Verbreitungsgebiet.

Beste Grüße,
Rainer

Jonas Wolff

  • Aktive Mitarbeiter
  • *****
  • Beiträge: 1449
Re: Barcode-Tutorial
« Antwort #4 am: 2019-05-04 12:03:46 »
Ich bedauere sehr, dass das GBOL-Projekt keine Gelegenheit bekam, diesen Übergang von der Pilotstudie zur allgemeinen Anwendung zu begleiten. Im Moment haben wir ja noch nicht einmal von allen einheimischen Spinnenarten eine repräsentative Auswahl von Barcodes über das gesamte Verbreitungsgebiet.

Ja, das ist ja leider haeufig der Fall, dass Foerdergelder nur ueber einen kurzen Zeitraum fliessen, und dann am Ende einiges halbfertig liegen bleibt. Ein prominenter Arachnologe sagte mir, dass bei der BOLD-Datenbank auch leider viele Spinnen fehlbestimmt sind, das muesste man einmal intensiv pruefen. Gerade grosse Datenbank-Projekte die nun immer wichtiger werden, beduerfen eigentlich einer Langzeit-Kuratoren- und Webmaster-Taetigkeit. Dafuer gibt es so gut wie keine passenden Foerderprogramme. Wer hier im Wiki taetig ist, weiss wieviel Arbeit hinter Datenbanken steckt, die wir taeglich nutzen, wie den WSC.
Wir (d.h. Stano Pekar, Pedro Cardoso, Wolfgang Nentwig, Klaus Birkhofer, Lizzy Lowe, ich und andere) sind gerade dabei eine oekologische trait-Datenbank fuer Spinnen zu entwickeln. Das geht nur mit viel Frewilligenarbeit, und weil jeder einen kleinen Teil seines Forschungsgelds abzweigt.

Viktoria Wegewitz

  • **
  • Beiträge: 422
Re: Barcode-Tutorial
« Antwort #5 am: 2019-05-08 06:41:19 »
Hallo Rainer,

vielen Dank für den Workflow - hat Spaß gemacht!
Grüße Viktoria

Nach der Spinne ist vor der Spinne!

Martin Lemke

  • Administrator
  • *****
  • Beiträge: 14582
  • TK 2130 Lübeck, Schleswig-Holstein, Germany
    • Spinnenerfassung in SH
Re: Barcode-Tutorial
« Antwort #6 am: 2019-05-10 23:54:00 »
Im Moment haben wir ja noch nicht einmal von allen einheimischen Spinnenarten eine repräsentative Auswahl von Barcodes über das gesamte Verbreitungsgebiet.

GBOL lief von 2011 bis 2018 (es wurde einmal verlängert). Es ist nicht geglückt, alle für DE gelisteten Arten im Zeitraum von sieben Jahren zu erfassen; auch über zweifelhafte Vorkommen hinaus (z.B. Araneus normanni) wurde nicht alles erfasst. Einige Arten wurden ausschließlich von mir beigesteuert (das sage ich mit etwas Stolz); z.B. 2 Nachweise von Collinsia distincta (1 ♀ NI & 1 ♂ SH – leider hatte ich keine Zeit das ♂ zu fotografieren) und einige andere.

Ein prominenter Arachnologe sagte mir, dass bei der BOLD-Datenbank auch leider viele Spinnen fehlbestimmt sind, das muesste man einmal intensiv pruefen.

Eigentlich wurden zweifelhafte Fälle nachgeprüft und korrigiert; zumindest am ZFMK1. Ich habe auch Fehlbestimmungen abgeliefert – was mich am meisten ärgert, ist Macrargus carpenteri, die ich als M. rufus fehlbestimmte. M. carpenteri hätte ich mir gern mal ganz bewusst angesehen.

Zum Tutorial: Vielen Dank an Rainer! Allerdings habe ich im Moment noch immer nicht den Hauch eines Durchblicks. Diese Hierarchischen Diagramme sind ja eindrucksvoll, aber es gibt unterschiedliche Algorithmen, sie zu erzeugen. Welcher ist nun der wahrheitsgetreueste? Wenn es Wahrheit in diesem Sinne überhaupt gibt. In Deiner letzten diesbezüglichen Publikation hattest Du, wenn ich es richtig verstanden habe, für jede von Dir in dem Artikel behandelten Spinnenart mehrere Algorithmen aufgeführt und die Ergebnisse verglichen.

Martin


1: ZFMK = Zoologisches Forschungsmuseum Alexander König, Bonn – das Museum, mit dem ich zusammenarbeitete
DAS waren noch Zeiten: Nowegen 2011.

Viktoria Wegewitz

  • **
  • Beiträge: 422
Re: Barcode-Tutorial
« Antwort #7 am: 2019-05-11 04:38:03 »
Hallo,

das ist jetzt OFF-Topic, aber mit welchen Sequenzen dröselt man die Familien auf und was ist da gerade der status quo? Gibt es ein Plakat, dass man sich ausdrucken kann? Vielleicht mit ein paar Oldschool morphologischen Apomorphien, die man verfolgen kann? Oder ist das alles so widersprüchlich, dass nichts geht?
Grüße Viktoria

Nach der Spinne ist vor der Spinne!

Rainer Breitling

  • Aktive Mitarbeiter
  • *****
  • Beiträge: 1789
Re: Barcode-Tutorial
« Antwort #8 am: 2019-05-11 10:02:32 »
Diese Hierarchischen Diagramme sind ja eindrucksvoll, aber es gibt unterschiedliche Algorithmen, sie zu erzeugen. Welcher ist nun der wahrheitsgetreueste?
Das ist umstritten; die Methoden sind alle vernünftig und gut begründet. Ich würde hier keinem Ergebnis trauen, das von der Wahl des Algorithmus abhängt. Dafür sind die Daten zu verrauscht. Wenn man aber immer wieder die gleichen Ergebnisse bekommt, egal wie man die auf die Daten schaut, dann kann man sich darauf verlassen, dass zumindest diese Sequenzen tatsächlich ein entsprechendes Signal enthalten.

Selbst wenn man "phylogenomische" Analysen betreibt, also eine grosse Vielzahl von Sequenzen betrachtet, sind die Ergebnisse nicht immer stabil. Man kann das schön in den molekularen Spinnenstammbäumen der letzten Jahre beobachten. Ich meine aber zu sehen, dass sie langsam aber sicher doch auf einen Konsensus konvergieren. Auch wenn es immer noch Teile des Stammbaums gibt, die unklar bleiben (nur drei Beispiele: was ist wohl die Schwestergruppe der Springspinnen? Sind die Leptonetidae monophyletisch? Und wie sind die Ctenidae s. lat. korrekt aufzuteilen?), sind andere Gebiete doch inzwischen sehr überzeugend behandelt (z.B. Atypoidea und Avicularoidea). Die Zahl der erforderlichen neuen Familien ist übrigens erstaunlich.

@Viktoria:  Ein Poster, das alle die neuen Ergebnisse zusammenfasst, scheint es noch nicht zu geben; dafür sind die Dinge wohl noch zu sehr im Fluss. Ein gutes Beispiel für eine aktuelle Bearbeitung mit Hilfe von ausgewählten Sequenzen (COI, NADH, 28S, 18S, 16S, 12S, 3H) sind die jüngst erschienen Arbeiten über Wolfspinnen und Radnetzspinnen. Aber für die tiefen Aufspaltungen der Ordnung reichen die dort verwendeten 5 oder 6 Sequenzen wohl nicht aus.

Beste Grüsse,
Rainer