Häufig gestellte Fragen: BLAT

Themen

  • BLAT vs. BLAST
  • BLAT findet eine Sequenz nicht oder nicht alle erwarteten Übereinstimmungen
  • BLAT oder In-Silico PCR findet mehrere Übereinstimmungen wie chr_alt oder chr_fix, obwohl nur eine erwartet wird
  • Beschränkungen bei der Verwendung von BLAT
  • Herunterladen des BLAT-Quelltextes und der Dokumentation
  • Wiederholen der webbasierten BLAT-Parameter in der Kommandozeilen-line version
  • Using the -ooc flag
  • Replicating web-based BLAT percent identity and score calculations
  • Replating web-based BLAT „I’m feeling lucky“ search results
  • Using BLAT for short sequences with maximum sensitivity
  • BLAT ALL genomes
  • BLAT ALL genomes: Keine Übereinstimmungen gefunden
  • Näherung der webbasierten BLAT-Ergebnisse mit gfServer/gfClient
  • Standalone oder gfServer/gfClient-Ergebnisse weichen um eine Startposition ab

Zurück zum FAQ-Inhaltsverzeichnis

BLAT vs. BLAST

Was sind die Unterschiede zwischen BLAT und BLAST?

BLAT ist ein Alignment-Tool wie BLAST, aber es ist anders aufgebaut. Bei der DNA arbeitet BLAT, indem es einen Index eines gesamten Genoms im Speicher hält. Die Zieldatenbank von BLAT ist also nicht eine Reihe von GenBank-Sequenzen, sondern ein Index, der aus der Zusammensetzung des gesamten Genoms abgeleitet wird. Standardmäßig besteht der Index aus allen nicht überlappenden 11-Meren, mit Ausnahme derjenigen, die stark in Wiederholungen involviert sind, und er benötigt weniger als ein Gigabyte RAM. Diese geringere Größe bedeutet, dass BLAT viel einfacher zu spiegeln ist als BLAST. BLAT of DNA ist darauf ausgelegt, schnell Sequenzen mit einer Ähnlichkeit von 95 % und mehr und einer Länge von 40 Basen oder mehr zu finden. Es kann abweichende oder kürzere Sequenzalignments übersehen. (Die Standardeinstellungen und das erwartete Verhalten des eigenständigen Blat unterscheiden sich geringfügig von denen der grafischen Version von BLAT.)

Bei Proteinen verwendet BLAT 4-Mere statt 11-Mere und findet Proteinsequenzen mit einer Ähnlichkeit von 80 % und mehr zur Abfrage mit einer Länge von 20+ Aminosäuren. Der Proteinindex benötigt etwas mehr als 2 Gigabyte RAM. In der Praxis – aufgrund der Sequenzdivergenzraten im Laufe der Evolution – funktioniert DNA BLAT gut bei Menschen und Primaten, während Protein Blat weiterhin gute Übereinstimmungen bei irdischen Wirbeltieren und sogar früheren Organismen für konservierte Proteine findet. Beim Menschen gibt Protein Blat ein viel besseres Bild der Genfamilien (Paraloge) als DNA Blat. BLAST und psi-BLAST im NCBI können jedoch viel weiter entfernte Übereinstimmungen finden.

Aus praktischer Sicht hat BLAT mehrere Vorteile gegenüber BLAST:

  • Geschwindigkeit (keine Warteschlangen, Antwort in Sekunden) zum Preis einer geringeren Homologietiefe
  • die Möglichkeit, eine lange Liste gleichzeitiger Abfragen im Fasta-Format zu übermitteln
  • fünf bequeme Ausgabesortieroptionen
  • ein direkter Link zum UCSC-Browser
  • Details zu den Alignment-Blöcken in natürlicher genomischer Reihenfolge
  • eine Option, um das Alignment später als Teil eines benutzerdefinierten Tracks zu starten

BLAT wird häufig verwendet, um die Position einer Sequenz im Genom zu suchen oder die Exon-Struktur einer mRNA zu bestimmen, Erfahrene Benutzer können jedoch große Batch-Aufträge ausführen und interne Parameterempfindlichkeitsänderungen vornehmen, indem sie Blat als Kommandozeilenprogramm auf ihrem eigenen Linux-Server installieren.

BLAT kann eine Sequenz nicht finden oder nicht alle erwarteten Übereinstimmungen

Ich kann eine Sequenz mit BLAT nicht finden, obwohl ich sicher bin, dass sie im Genom ist. Mache ich etwas falsch?

Überprüfen Sie zunächst, ob Sie die richtige Version des Genoms verwenden. Beispielsweise sind derzeit zwei Versionen des menschlichen Genoms weit verbreitet (hg19 und hg38), und Ihre Sequenz ist möglicherweise nur in einer von ihnen enthalten. In vielen veröffentlichten Artikeln wird die Assembly-Version nicht angegeben, so dass es notwendig sein kann, beide Versionen auszuprobieren.

Sehr kurze Sequenzen, die über eine Spleißstelle in einer cDNA-Sequenz gehen, können nicht gefunden werden, da sie nicht im Genom enthalten sind. qPCR-Primer sind ein typisches Beispiel. Versuchen Sie in diesen Fällen, die In-Silico-PCR zu verwenden und einen Gensatz als Ziel zu wählen. Im Allgemeinen ist das In-Silico-PCR-Tool empfindlicher und sollte für Primerpaare bevorzugt werden.

Ein weiterer problematischer Fall ist die Suche nach Sequenzen in Wiederholungen oder Transposons.BLAT überspringt die sich am meisten wiederholenden Teile der Abfrage und begrenzt die Anzahl der gefundenen Übereinstimmungen, was zu fehlenden Übereinstimmungen für diese Wiederholungssequenzen führt.Die Online-Version von BLAT maskiert 11mers aus der Abfrage, die mehr als 1024 Mal im Genom vorkommen, und begrenzt die Ergebnisse auf 16 Übereinstimmungen pro Chromosomenstrang. Das bedeutet, dass maximal 32 Stellen pro Chromosom zurückgegeben werden. Dies dient der Geschwindigkeitssteigerung, kann aber bei der Suche nach Sequenzen in Wiederholungen zu verpassten Treffern führen.

Bei sich wiederholenden Sequenzen kann man oft die Selbstkette verwenden, um die anderen Übereinstimmungen zu finden, aber nur, wenn die anderen Übereinstimmungen lang und spezifisch genug sind. Sie können überprüfen, ob eine Sequenz an einer bestimmten Stelle vorhanden ist, indem Sie die Spur „Kurze Übereinstimmung“ verwenden, wenn Ihre Sequenz kürzer als 30 bp ist. Sie können diese Mindestlängenbeschränkung umgehen, indem Sie mehr flankierende Sequenzen zu Ihrer Abfrage hinzufügen, um die Abfrage eindeutig genug zu machen. Wenn dies nicht möglich ist, besteht die einzige Alternative darin, die ausführbaren Dateien von BLAT und die .2bit-Datei eines Genoms auf Ihren eigenen Rechner herunterzuladen und BLAT auf der Kommandozeile zu verwenden. Weitere Informationen finden Sie unter Herunterladen des BLAT-Quellcodes und der Dokumentation. Wenn Sie die Kommandozeilenversion von BLAT verwenden, können Sie die Option repMatch auf einen großen Wert setzen, um die Suche nach Übereinstimmungen in sich wiederholenden Regionen zu verbessern und keine der standardmäßigen 11.ooc Wiederholungsmaskierungsdateien zu verwenden.

BLAT oder In-Silico PCR findet mehrere Übereinstimmungen wie chr_alt oder chr_fix, obwohl nur eine erwartet wird

Ich sehe zwei oder mehr Übereinstimmungen im Genom, obwohl es nur eine geben sollte. Worum handelt es sich bei diesen zusätzlichen Übereinstimmungen?

Dies tritt normalerweise bei neueren Genomassemblies wie hg38 auf, wenn Sie eine Sequenz suchen, die eine „alternative“ oder „fixe“ Sequenz enthält. Um die Qualität dieser Assemblies zu verbessern, haben die Kuratoren mehrere Versionen einiger wichtiger Loci hinzugefügt, z. B. die MHC-Regionen. Sie fügen auch Fix-Sequenzen hinzu, um Fehler zu beheben, ohne die Referenz zu ändern. Weitere Informationen finden Sie in unserem Blog-Beitrag über Patches.

Wenn Sie eine Sequenz blat oder isPCR, die mit einer Chromosomenposition übereinstimmt, die auch eine Fix- oder Alt-Sequenz hat, werden Sie eine Übereinstimmung auf dem Referenzchromosom (z. B. „chr1“) und eine weitere Übereinstimmung auf der Patch-Sequenz (z. B. chr1_KN196472v1_fix) sehen. In den meisten Fällen ist es sicher, den Patch-Treffer zu ignorieren, da ein menschliches Genom nicht gleichzeitig die Referenz- und die Alternativsequenz enthalten wird. Weitere Informationen über die spezifischen Arten von Patch-Sequenzen finden Sie in unserem FAQ-Eintrag zu diesem Thema.

BLAT-Nutzungsbeschränkungen

Ich habe von Ihrem Blat-Server eine Warnung erhalten, die mich darüber informiert, dass ich die Nutzungsbeschränkungen des Servers überschritten habe. Können Sie mir Informationen zu den Nutzungsparametern des UCSC Blat-Servers geben?

Aufgrund der hohen Nachfrage nach unseren Blat-Servern schränken wir den Service für Benutzer ein, die das BLAT-Tool programmatisch abfragen oder große Batch-Abfragen durchführen. Die programmgesteuerte Nutzung von BLAT ist auf maximal einen Treffer alle 15 Sekunden und nicht mehr als 5.000 Treffer pro Tag begrenzt. Bitte beschränken Sie Batch-Abfragen auf 25 Sequenzen oder weniger.

Benutzern mit hohem BLAT-Bedarf empfehlen wir, das BLAT-Tool zur lokalen Verwendung herunterzuladen. Weitere Informationen finden Sie unter Herunterladen von BLAT-Quellcode und Dokumentation.

Herunterladen von BLAT-Quellcode und Dokumentation

Ist der BLAT-Quellcode zum Herunterladen verfügbar? Ist die Dokumentation verfügbar?

Der BLAT-Quellcode und die ausführbaren Dateien sind für akademische, gemeinnützige und persönliche Zwecke frei verfügbar. Informationen zur kommerziellen Lizenzierung finden Sie auf der Website von Kent Informatics.

Der BLAT-Quellcode kann von http://hgdownload.soe.ucsc.edu/admin/ heruntergeladen werden (zu finden unter /kent/src/blat innerhalb des neuesten jksrci*.zip-Quellbaums). Für ausführbare BLAT-Dateien gehen Sie zu http://hgdownload.soe.ucsc.edu/admin/exe/ und wählen Sie Ihren Maschinentyp.

Dokumentation über BLAT-Programmspezifikationen ist hier verfügbar. Beachten Sie, dass die Befehlszeilen-BLAT keine Übereinstimmungen mit U-Nukleotiden in der Abfragesequenz liefert.

Wiederholung der webbasierten Blat-Parameter in der Befehlszeilen-Version

Ich richte meinen eigenen Blat-Server ein und möchte die gleichen Parameterwerte verwenden, die der webbasierte Blat-Server der UCSC verwendet.

Wir erwarten fast immer kleine Unterschiede zwischen dem hgBLAT/gfServer und dem eigenständigen Befehlszeilen-BLAT. Die besten Übereinstimmungen können mit den Dienstprogrammen pslReps und pslCDnaFilter gefunden werden. Der web-basierte Blat ist permissiv mit einer Mindestpunktzahl von 20 eingestellt, wodurch die meisten Alignments angezeigt werden. Wir empfehlen, zu entscheiden, welche Filterparameter für das Experiment oder die Analyse am sinnvollsten sind. Oft werden diese Einstellungen anders und strenger sein als die des webbasierten Blat. Verwenden Sie daher die folgenden Einstellungen, um sich den Suchergebnissen des webbasierten Blat anzunähern:

Hinweis: Es gibt Fälle, in denen der gfServer/gfClient-Ansatz eine bessere Annäherung an die Web-Ergebnisse liefert als das eigenständige Blat. Das folgende Beispiel gibt einen Überblick über diesen Prozess.

Standalone-BLAT:

  • Blat-Suche:
    blat -stepSize=5 -repMatch=2253 -minScore=20 -minIdentity=0 database.2bit query.fa output.psl
  • Hinweis: Um Web-Ergebnisse zu replizieren, sollte die PSL-Ausgabe verwendet werden. BLAT behandelt alternative Ausgabeformate (wie blast8) etwas anders, was zu geringfügigen Unterschieden in den Ergebnissen führen kann, insbesondere bei kurzen Alignments. Außerdem sollten bei der Abfragesequenz alle U-Nukleotide in T-Nukleotide umgewandelt werden oder das Flag „-q=rna“ verwendet werden, um mit der Web-BLAT übereinzustimmen.

faToTwoBit:

  • Verwendet Softmasking, um das Fasta-Format in das 2-Bit-Format für die BLAT-Eingabe zu konvertieren.

gfServer (so sind die webbasierten BLAT-Server der UCSC konfiguriert):

  • BLAT-Server (PCR-fähig):
    gfServer start blatMachine portX -stepSize=5 -log=untrans.log database.2bit
  • übersetzter BLAT-Server:
    gfServer start blatMachine portY -trans -mask -log=trans.log database.2bit

Für die Aktivierung von DNA/DNA- und DNA/RNA-Matches werden nur der Host, der Port und die twoBit-Dateien benötigt. Der gleiche Port wird sowohl für unübersetztes Blat (gfClient) als auch für PCR (webPcr) verwendet. Sie benötigen einen separaten Blat-Server an einem separaten Port, um übersetzte Blat-Suchen (Protein-Suchen oder übersetzte Suchen im Protein-Raum) zu ermöglichen.

gfClient:

  • Setzen Sie -minScore=0 und -minIdentity=0. Dies führt zu einigen falschen Treffern mit niedriger Punktzahl, aber für den interaktiven Gebrauch ist es einfach genug, diese zu ignorieren (da die Ergebnisse nach Punktzahl sortiert werden), und manchmal sind die Treffer mit niedriger Punktzahl sehr nützlich.

Hinweise zu repMatch:

  • Die Standardeinstellung für gfServer dna-Treffer ist: repMatch = 1024 * (tileSize/stepSize).
  • Die Standardeinstellung für Blat dna-Treffer ist: repMatch = 1024 (wenn tileSize=11).
  • Um Befehlszeilenergebnisse zu erhalten, die den webbasierten Ergebnissen gleichwertig sind, muss repMatch bei der Verwendung von BLAT angegeben werden.

Weitere Informationen darüber, wie man die von unserem webbasierten Blat angezeigte Punktzahl und prozentuale Identitätsübereinstimmung repliziert, finden Sie in dieser BLAT-FAQ.

Weitere Informationen zu den Parametern, die für BLAT, gfServer und gfClient zur Verfügung stehen, finden Sie in den BLAT-Spezifikationen.

Verwendung des -ooc-Flags

Was bewirkt das -ooc-Flag?

Die Verwendung einer beliebigen -ooc-Option in BLAT, wie z. B. -ooc=11.ooc, beschleunigt die Suche ähnlich wie bei der Wiederholungsmaskierung. Die Datei 11.ooc enthält Sequenzen, die in der Genomsequenz überrepräsentiert sind. Um die Suchgeschwindigkeit zu erhöhen, werden diese Sequenzen beim Seeding eines Alignments gegen das Genom nicht verwendet. Bei Sequenzen von angemessener Größe stellt dies kein Problem dar und verkürzt die Verarbeitungszeit erheblich.

Wenn Sie die Datei 11.ooc nicht verwenden, erhöht sich die Alignment-Zeit, aber auch die Empfindlichkeit. Dies kann wichtig sein, wenn Sie kürzere Sequenzen oder Sequenzen von schlechter Qualität alignieren. Wenn zum Beispiel eine bestimmte Sequenz hauptsächlich aus Sequenzen in der 11.ooc-Datei besteht, wird sie niemals korrekt für ein Alignment geseedet, wenn das Flag -ooc verwendet wird.

Zusammenfassend lässt sich sagen, dass Sie, wenn Sie bestimmte Sequenzen nicht finden und sich die zusätzliche Verarbeitungszeit leisten können, BLAT ohne die 11.ooc-Datei ausführen sollten, wenn Ihre spezielle Situation deren Verwendung rechtfertigt.

Wiederholung der webbasierten Blat-Berechnungen für prozentuale Identität und Punktzahl

Wie kann ich die prozentuale Identität und die Punktzahlberechnungen des webbasierten Blat-Servers wiederholen, wenn ich meinen eigenen Befehlszeilenserver verwende?

Es gibt keine Option für den Befehlszeilenserver Blat, die Ihnen die prozentuale ID und die Punktzahl liefert. Wir haben jedoch Skripte erstellt, die diese Berechnungen enthalten:

  • Sehen Sie sich das Perl-Skript im Quellbaum an: pslScore.pl
  • Zeigen Sie das entsprechende C-Programm an: pslScore.c und die zugehörigen Bibliotheksfunktionen pslScore und pslCalcMilliBad in psl.c

Siehe unsere FAQ zu Quellcode-Lizenzierung und Downloads für Informationen zum Erhalt des Quellcodes.

Replizieren der webbasierten Blat „I’m feeling lucky“-Suchergebnisse

Wie erzeuge ich die gleichen Suchergebnisse wie die webbasierte Blat „I’m feeling lucky“-Option mit dem Kommandozeilen-BLAT?

Der Code für die „I’m feeling lucky“-BLAT-Suche ordnet die Ergebnisse basierend auf der Sortieroption, die Sie auf der Abfrageseite ausgewählt haben. Er gibt dann das Alignment mit der höchsten Punktzahl der ersten Abfragesequenz zurück.

Wenn Sie die Ergebnisse nach „query, start“ oder „chrom, start“ sortieren, ist die Erzeugung des „I’m feeling lucky“-Ergebnisses ganz einfach: Sortieren Sie die Ausgabedatei nach diesen Spalten und wählen Sie dann das oberste Ergebnis aus.

Um eine der Sortieroptionen mit Punktzahl zu replizieren, müssen Sie zunächst die Punktzahl für jedes Ergebnis in Ihrer PSL-Ausgabedatei berechnen und dann die Ergebnisse nach Punktzahl oder einer anderen Kombination (z. B. „query, score“ und „chrom, score“) sortieren. Informationen zur Berechnung des Scores finden Sie im Abschnitt über die Replikation der webbasierten Blat-Prozentidentitäts- und Score-Berechnungen.

Alternativ können Sie versuchen, Ihre Blat-PSL-Ausgabe mit Hilfe des Programms pslReps oder pslCDnaFilter zu filtern, das im Quellcode des Genome Browser verfügbar ist. Informationen zum Bezug des Quellcodes finden Sie in unseren FAQ zu Quellcode-Lizenzierung und Downloads.

Verwendung von BLAT für kurze Sequenzen mit maximaler Empfindlichkeit

Wie konfiguriere ich BLAT für kurze Sequenzen mit maximaler Empfindlichkeit?

Hier sind einige Richtlinien für die Konfiguration von Standalone-BLAT und gfServer/gfClient für diese Bedingungen:

  • Die Formel, um die kürzeste Abfragegröße zu finden, die eine Übereinstimmung garantiert (wenn übereinstimmende Kacheln nicht als überbeansprucht markiert sind), lautet: 2 * stepSize + tileSize – 1
    Beispiel: Wenn stepSize auf 5 und tileSize auf 11 eingestellt ist, werden Übereinstimmungen mit der Abfragegröße 2 * 5 + 11 – 1 = 20 bp gefunden, wenn die Abfrage genau mit dem Ziel übereinstimmt.
    Der Parameter stepSize kann von 1 bis tileSize reichen.
    Der Parameter tileSize kann von 6 bis 15 reichen. Für Protein beginnt der Bereich niedriger.
    Für minMatch=1 (z.B.., protein), ist die minimale garantierte Trefferlänge: 1 * stepSize + tileSize – 1
    Anmerkung: Es gibt auch eine „minimale Glücksgröße“ für Treffer. Dies ist der kleinstmögliche Treffer, den BLAT finden kann. Diese minimale Glücksgröße kann mit der folgenden Formel berechnet werden: Schrittweite + Kachelgröße. Wenn wir zum Beispiel eine Kachelgröße von 11 und eine Schrittgröße von 5 verwenden, werden Treffer, die kleiner als 16 Basen sind, nicht gemeldet.
  • Versuchen Sie, -fine zu verwenden.
  • Verwenden Sie einen großen Wert für repMatch (z.B. -repMatch = 1000000), um die Wahrscheinlichkeit zu verringern, dass eine Kachel als überbeansprucht markiert wird.
  • Verwenden Sie keine .ooc-Datei.
  • Verwenden Sie nicht -fastMap.
  • Verwenden Sie keine maskierenden Befehlszeilenoptionen.

Die oben genannten Änderungen machen BLAT empfindlicher, verlangsamen aber auch die Geschwindigkeit und erhöhen den Speicherverbrauch. Es kann notwendig sein, ein Chromosom nach dem anderen zu verarbeiten, um den Speicherbedarf zu reduzieren.

Ein Hinweis zum Filtern der Ausgabe: Die Erhöhung des Parameterwertes -minScore über die Hälfte der Abfragegröße hinaus hat keine weitere Wirkung. Verwenden Sie daher entweder das pslReps– oder das pslCDnaFilter-Programm, das im Quellcode des Genome Browser verfügbar ist, um nach der gewünschten Größe, Punktzahl, Abdeckung oder Qualität zu filtern. Informationen zum Bezug des Quellcodes finden Sie in unseren FAQ zur Lizenzierung und zum Herunterladen von Quellcode.

Blat ALL genomes

Wie kann ich BLAT-Abfragen für die Standard-Genomassemblies aller Organismen durchführen?

BLAT wurde entwickelt, um schnell Sequenzähnlichkeit zwischen Abfrage- und Zielsequenzen zu finden. Im Allgemeinen wird BLAT verwendet, um Orte der Sequenzhomologie in einem einzelnen Zielgenom zu finden oder die Exonstruktur einer mRNA zu bestimmen. BLAT ermöglicht es den Benutzern auch, die Abfragesequenz mit allen Standardassemblies für Organismen zu vergleichen, die im UCSC Genome Browser gehostet werden. Die Funktion „Search ALL“ kann nützlich sein, wenn Sie eine mehrdeutige Abfragesequenz haben und versuchen zu bestimmen, zu welchem Organismus sie gehören könnte.

Wenn Sie das Kontrollkästchen „Search ALL“ oberhalb der Dropdown-Liste „Genome“ aktivieren, können Sie die Genome der Standardassemblies für alle unsere Organismen durchsuchen. Es werden auch die Blat-Server aller angeschlossenen Hubs durchsucht, d. h. Sie können auch Ihre benutzergenerierten Assemblies durchsuchen. Die Ergebnisseite zeigt eine geordnete Liste aller unserer Organismen und deren Homologie mit Ihrer Suchsequenz an. Die Ergebnisse sind so geordnet, dass der Organismus mit der besten Alignment-Punktzahl ganz oben steht, was anzeigt, welche Region(en) dieses Organismus die größte Homologie mit Ihrer Abfragesequenz aufweist (das gesamte Alignment, einschließlich Mismatches und Lücken, muss eine Punktzahl von 20 oder höher erreichen, um in der Blat-Ausgabe zu erscheinen). Wenn Sie auf einen Link in der Assembly-Liste klicken, gelangen Sie auf eine neue Seite, auf der verschiedene Positionen und Punktzahlen der Sequenzhomologie in der Assembly von Interesse angezeigt werden.

Blat ALL genomes: Keine Übereinstimmungen gefunden

Meine Blat ALL-Ergebnisse zeigen Assemblies mit Treffern an, aber wenn man sie anklickt, werden keine Übereinstimmungen gemeldet

In der Blat ALL-Ergebnisseite stellt die Spalte „Treffer“ keine Alignments dar, sondern meldet Kacheltreffer. Kacheltreffer sind 11-Basen-Kmer-Matches, die im Ziel gefunden wurden und nicht unbedingt erfolgreiche Alignments darstellen. Wenn man auf den Link „Assembly“ klickt, wird ein vollständiges Blat-Alignment für dieses Genom durchgeführt, und alle Alignment-Scores, die weniger als 20 bp ergeben, werden als „no matches found“ zurückgegeben.

Wenn Sie eine Sequenz an das Blat ALL-Dienstprogramm senden, wird die Sequenz mit einem Index auf dem Server verglichen. Der Index wurde aus dem Zielgenom erstellt, mit einer Standardschrittweite von 11bp. Diese 11-Mere „kacheln“ die Sequenz wie folgt:

TGGACAACATG GCAAGAATCAG TCTCTACAGAA

Nachdem der Index erstellt wurde, besteht der erste Schritt des Alignments darin, die Abfragesequenz (Suchsequenz) zu lesen, alle 11-Mere zu extrahieren und diese im derzeit gespeicherten 11-Mer-Index des Genoms nachzuschlagen. Die dort gefundenen Übereinstimmungen stellen die ersten „Treffer“ dar, die Sie auf der Ergebnisseite von Blat ALL sehen. Im nächsten Schritt wird nach Treffern gesucht, die sich überschneiden oder in einem bestimmten Abstand zueinander liegen, und es wird versucht, die Sequenzen zwischen den Trefferpositionen im Ziel und in der Abfrage zu alignieren.

Wenn beispielsweise zwei 11-Basen-Treffer perfekt alignieren, würde dies zu einer Punktzahl von 22 führen. Dies liegt über der erforderlichen Mindestpunktzahl von 20 (siehe Blat ALL genomes) und würde als Alignment gemeldet werden. Es gibt jedoch Abzüge für Lücken und Fehlanpassungen sowie potenzielle Überlappungen (siehe Schrittgröße in den BLAT-Spezifikationen), wodurch die Punktzahl unter 20 sinken könnte. In diesem Fall würde Blat ALL 2 „Treffer“ melden, aber ein Klick in die Baugruppe würde keine Übereinstimmungen anzeigen. Dies tritt am häufigsten auf, wenn Blat ALL nur wenige (1-3) Treffer meldet.

Annäherung der webbasierten Blat-Ergebnisse mit gfServer/gfClient

Die Verwendung des gfServer/gfClient liefert oft eine bessere Annäherung oder sogar eine Replikation der webbasierten Blat-Ergebnisse, die sonst mit dem eigenständigen Blat nicht gefunden werden können. Dieser Ansatz imitiert den Blat-Server, der vom webbasierten Blat des Genome Browsers verwendet wird. Das folgende Beispiel zeigt, wie man einen hg19 gfServer einrichtet und dann eine Abfrage durchführt. Laden Sie zunächst das entsprechende Dienstprogramm für das Betriebssystem herunter und geben Sie ihm Ausführungsrechte:

#For linuxrsync -a rsync://hgdownload.soe.ucsc.edu/genome/admin/exe/linux.x86_64/blat/ ./#For MacOSrsync -a rsync://hgdownload.soe.ucsc.edu/genome/admin/exe/macOSX.x86_64/blat/ ./chmod +x gfServer gfClient blat

Nächste laden Sie das entsprechende .2bit-Genom herunter (in diesem Beispiel hg19) und führen Sie das gfServer-Dienstprogramm mit den Web-Blat-Parametern aus, wobei Sie den lokalen Rechner und Port 1234 angeben:

wget http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/hg19.2bit./gfServer start 127.0.0.1 1234 -stepSize=5 hg19.2bit

Nach einigen Augenblicken wird der gfServer initialisiert und ist bereit, Abfragen zu empfangen. Zur Annäherung an Web Blat verwenden wir den gfClient mit den folgenden Parametern, die unsere Eingabe- und Ausgabedateien bezeichnen:

./gfClient -minScore=20 -minIdentity=0 127.0.0.1 1234 . input.fa out.psl

Die Ausgabedatei out.psl sollte Ergebnisse liefern, die dem webbasierten Blat sehr ähnlich sind.

Die Startpositionen der Standalone- oder gfServer/gfClient-Ergebnisse weichen um eins ab

Meine Standalone-BLAT-Ergebnisse oder gfServer/gfClient-BLAT-Ergebnisse haben eine um eins geringere Startposition als die Web-BLAT-Ergebnisse

Das liegt daran, wie wir interne Koordinaten im Genom-Browser speichern. Der Standard-Blat-Ausgabetyp des Hyperlinks zeigt Ergebnisse in unserer internen Koordinaten-Datenstruktur an. Diese internen Koordinaten haben einen Null-basierten Start und ein Eins-basiertes Ende. Weitere Informationen finden Sie im folgenden FAQ-Eintrag.

Wenn der Ausgabetyp bei Web Blat auf psl geändert wird, werden die gleichen nullbasierten halboffenen Koordinatenergebnisse wie bei den eigenständigen Blat- und gfServer/gfClient-Prozeduren angezeigt.

Schreibe einen Kommentar