HINWEIS: Die aktuellste Version von ANGSD-wrapper befindet sich unter ANGSD-wrapper/angsd-wrapper
Die Version in diesem Repository ist veraltet, bitte verwenden Sie die oben verlinkte Version.
ANGSD-wrapper ist ein Utility, das entwickelt wurde, um die Analyse von Next Generation Sequencing Daten zu unterstützen. Benutzer können mit dieser Suite Folgendes tun:
- Berechnen eines Ortsfrequenzspektrums
- Berechnen eines 2D-Ortsfrequenzspektrums mit entsprechenden FST-Schätzungen
- Durchführen von ABBA/BABA-Tests
- Extrahieren einer FASTA-Sequenz aus BAM-Dateien
- Berechnen von Genotyp-Likelihoods
- Schätzen von Thetas und verschiedenen Neutralitätsstatistiken
- Berechnen von pro-individuellenindividuellen Inzuchtkoeffizienten
- Ermittlung von Vermischungsanteilen
Likelihood-basierte Ansätze werden in ANGSD verwendet, um zusammenfassende Statistiken aus Next Generation Sequencing-Daten zu berechnen. Die Wrapper-Skripte und die Dokumentation sind so gestaltet, dass ANGSD benutzerfreundlich ist.
Installieren von ANGSD-wrapper
Um ANGSD-wrapper zu installieren, Download von GitHub
git clone https://github.com/mojaveazure/angsd-wrapper.git
Gehen Sie in das ANGSD-Wrapper-Verzeichnis
cd angsd-wrapper/
Starten Sie den Setup-Befehl
./angsd-wrapper setup dependencies
Laden Sie den Beispieldatensatz herunter (optional)
./angsd-wrapper setup data
Schließen Sie die Installation ab
source ~/.bash_profile
Ein Hinweis zu BAM-Dateien
ANGSD benötigt BAM-Dateien als Eingabe, und ANGSD-wrapper übergibt eine Liste von BAM-Dateien an ANGSD. Diese BAM-Dateien haben einige Anforderungen:
- Die BAM-Dateien müssen eine ‚@HD‘-Kopfzeile haben
- Die BAM-Dateien müssen indiziert sein (.bai)
Um zu sehen, ob die BAM-Dateien eine ‚@HD‘-Header-Zeile haben oder nicht, führen Sie Folgendes auf Ihrer Liste von Samples aus:
for sample in `cat ~/path/to/sample_list.txt`do echo $sample samtools view -H $sample | head -1done
Wenn irgendwelche Samples mit ‚@SQ‘ anstelle von ‚@HD‘ beginnen, werden ANGSD und ANGSD-wrapper fehlschlagen. Diese Gist fügt eine @HD
Kopfzeile zu Ihren BAM-Dateien hinzu.
Die Indexdateien müssen nach den BAM-Dateien erzeugt werden. Um die BAM-Dateien mit SAMTools zu indizieren, führen Sie Folgendes für Ihre Beispielliste aus:
for sample in `cat ~/path/to/sample_list.txt`do samtools index $sampledone
Wenn Sie GNU Parallel auf Ihrem System installiert haben, kann dieser Prozess beschleunigt werden:
cat ~/path/to/sample_list.txt | parallel samtools index {}
Grundlegende Verwendung
Um ANGSD-wrapper auszuführen, führen Sie
angsd-wrapper <wrapper> <config>
aus, wobei wrapper
eine der Methoden ist, die ANGSD-wrapper ausführen kann und config
der relative Pfad zur entsprechenden Konfigurationsdatei ist.
Um eine Liste der verfügbaren Wrapper zu sehen, führen Sie
angsd-wrapper
Konfigurationsdateien
Es gibt eine Konfigurationsdatei (config) für jede Methode, die über angsd-wrapper.
Die Konfigurationsdateien enthalten Variablen, die von den Wrappern verwendet werden. Hier müssen Sie die Variablen ändern und speichern (d.h. Dateipfade von indizierten BAM-Dateien/CRAM-Dateien, FASTA-Dateien, Probenlisten usw. angeben), um sie an Ihre Proben anzupassen, bevor Sie angsd-wrapper mit einer bestimmten Methode ausführen.
Die Standard-Konfigurationsdateien befinden sich im Verzeichnis Configuration_Files
. Sie müssen sie an Ihre Beispiele anpassen. Bitte lesen Sie in den Konfigurationsdateien oder im Wiki nach, wofür die einzelnen Variablen verwendet werden und wie sie angegeben werden sollten. Wenn Sie angsd-wrapper
ohne Argumente ausführen, wird eine Benutzungsmeldung zurückgegeben.
Beispielkonfigurationsdateien finden Sie in Example_Data/Configuration_Files
, wenn Sie angsd-wrapper setup data
ausführen.
Weitere Informationen
Für weitere Informationen über ANGSD-wrapper, die Methoden, die durch ANGSD-wrapper verfügbar sind, und ein umfassendes Tutorial, besuchen Sie bitte das Wiki.
Abhängigkeiten
Dieses Paket benötigt die folgenden Abhängigkeiten:
- ANGSD
- ngsPopGen
- ngsF
- ngsAdmix
Diese werden automatisch heruntergeladen und installiert, wenn angsd-wrapper installiert wird
Es gibt ein paar andere Abhängigkeiten, die nicht automatisch während der Installation heruntergeladen werden:
- SAMTools
- GNU Scientific Library
- Git
- Wget
Unterstützte Methoden
- Site frequency spectrum (SFS)
- Thetas Schätzungen
- 2D SFS und FST
- ABBA/BABA
- Extraktion von Vorgängersequenzen
- Genotyp-Likelihood-Schätzungen
- Berechnung von Inzuchtkoeffizienten
- Prinzipielle Komponentenanalyse
- Admixturanalyse
ANGSD- zitierenwrapper
ANGSD-wrapper wurde in Molecular Ecology Resources veröffentlicht; Wenn Sie dies in Ihrer Arbeit verwenden, zitieren Sie bitte den Artikel. Für BibTeX-Benutzer lautet die Zitierweise wie folgt:
@article {MEN:MEN12578,author = {Durvasula, Arun and Hoffman, Paul J. and Kent, Tyler V. and Liu, Chaochih and Kono, Thomas J. Y. and Morrell, Peter L. and Ross-Ibarra, Jeffrey},title = {angsd-wrapper: utilities for analysing next-generation sequencing data},journal = {Molecular Ecology Resources},issn = {1755-0998},url = {http://dx.doi.org/10.1111/1755-0998.12578},doi = {10.1111/1755-0998.12578},pages = {n/a--n/a},keywords = {domestication, population genetics, software, visualization, Zea},year = {2016},}