Często zadawane pytania: BLAT

Tematy

  • BLAT vs. BLAST
  • BLAT nie może znaleźć sekwencji w ogóle lub nie wszystkie oczekiwane dopasowania
  • BLAT lub In-Silico PCR znajduje wiele dopasowań, takich jak chr_alt lub chr_fix, mimo że oczekiwane jest tylko jedno
  • Ograniczenia użycia BLAT
  • Pobieranie źródła BLAT i dokumentacji
  • Powtarzanie parametrów BLAT opartego na sieci Web w wersjiline version
  • Uusing the -ooc flag
  • Replicating web-based BLAT percent identity and score calculations
  • Replicating web-based BLAT „I’m feeling lucky” search results
  • Using BLAT for short sequences with maximum sensitivity
  • BLAT ALL genomes
  • BLAT ALL genomes: No matches found
  • Approximating web-based BLAT results using gfServer/gfClient
  • Standalone or gfServer/gfClient result result start positions off by one

Return to FAQ Table of Contents

BLAT vs. BLAST

Jakie są różnice między BLAT a BLAST?

BLAT jest narzędziem wyrównującym jak BLAST, ale ma inną strukturę. W przypadku DNA, BLAT działa poprzez przechowywanie indeksu całego genomu w pamięci. Tak więc, docelowa baza danych BLAT nie jest zbiorem sekwencji GenBank, lecz indeksem pochodzącym ze złożenia całego genomu. Domyślnie, indeks składa się ze wszystkich nienakładających się 11-merów, z wyjątkiem tych, które są silnie zaangażowane w powtórzenia, i zużywa mniej niż gigabajt pamięci RAM. Ten mniejszy rozmiar oznacza, że BLAT jest znacznie łatwiejszy do odzwierciedlenia niż BLAST. Blat DNA jest zaprojektowany do szybkiego znajdowania sekwencji o 95% i większym podobieństwie o długości 40 lub więcej zasad. Może pominąć bardziej rozbieżne lub krótsze alignacje sekwencji. (Domyślne ustawienia i oczekiwane zachowanie samodzielnego Blat są nieco inne niż w graficznej wersji BLAT.)

Na białkach, BLAT używa 4-merów zamiast 11-merów, znajdując sekwencje białek o 80% i większym podobieństwie do zapytania o długości 20+ aminokwasów. Indeks białek wymaga nieco ponad 2 gigabajtów pamięci RAM. W praktyce – z powodu szybkości dywergencji sekwencji w czasie ewolucji – DNA BLAT działa dobrze w obrębie ludzi i naczelnych, podczas gdy proteinowy Blat nadal znajduje dobre dopasowania w obrębie kręgowców lądowych, a nawet wcześniejszych organizmów dla konserwatywnych białek. W obrębie ludzi, Blat białkowy daje znacznie lepszy obraz rodzin genów (paralogów) niż Blat DNA. Jednakże, BLAST i psi-BLAST w NCBI może znaleźć znacznie bardziej odległe dopasowania.

Z praktycznego punktu widzenia, BLAT ma kilka zalet w stosunku do BLAST:

  • szybkość (brak kolejek, odpowiedź w sekundach) za cenę mniejszej głębokości homologii
  • możliwość przesłania długiej listy jednoczesnych zapytań w formacie fasta
  • pięć wygodnych opcji sortowania danych wyjściowych
  • bezpośredni link do przeglądarki UCSC
  • szczegóły bloku wyrównania w naturalnej kolejności genomowej
  • opcja uruchomienia wyrównania później jako część niestandardowej ścieżki

BLAT jest powszechnie używany do wyszukiwania położenia sekwencji w genomie lub określania struktury eksonów mRNA, ale doświadczeni użytkownicy mogą uruchamiać duże zadania wsadowe i dokonywać wewnętrznych zmian czułości parametrów, instalując Blata z wiersza poleceń na własnym serwerze linuksowym.

BLAT nie może znaleźć sekwencji lub nie wszystkie oczekiwane dopasowania

Nie mogę znaleźć sekwencji za pomocą BLAT-a, chociaż jestem pewien, że znajduje się ona w genomie. Czy robię coś źle?

Po pierwsze, sprawdź czy używasz właściwej wersji genomu. Na przykład, dwie wersje ludzkiego genomu są obecnie w powszechnym użyciu (hg19 i hg38) i twoja sekwencja może być tylko w jednej z nich. Wiele opublikowanych artykułów nie określa wersji montażu, więc wypróbowanie obu może być konieczne.

Bardzo krótkie sekwencje, które przechodzą przez miejsce splotu w sekwencji cDNA, nie mogą być znalezione, ponieważ nie ma ich w genomie. Startery qPCR są typowym przykładem. W takich przypadkach należy spróbować użyć In-Silico PCR i wybrać zestaw genów jako cel. Generalnie, narzędzie In-Silico PCR jest bardziej czułe i powinno być preferowane dla par primerów.

Innym problematycznym przypadkiem jest wyszukiwanie sekwencji w powtórzeniach lub transpozonach.BLAT pomija najbardziej powtarzające się części zapytania i ogranicza liczbę znalezionych dopasowań, co prowadzi do brakujących dopasowań dla tych powtarzających się sekwencji.Wersja online BLAT maskuje 11merów z zapytania, które występują więcej niż 1024 razy w genomie i ogranicza wyniki do 16 dopasowań na nić chromosomową. Oznacza to, że zwracane są co najwyżej 32 lokalizacje na chromosom. Ma to na celu poprawienie szybkości, ale może skutkować brakiem trafień, gdy szukamy sekwencji w powtórzeniach.

Często dla sekwencji powtarzających się, można użyć ścieżki self-chain do znalezienia innych dopasowań, ale tylko wtedy, gdy inne dopasowania są wystarczająco długie i specyficzne. Możesz sprawdzić czy jakakolwiek sekwencja jest obecna w danym miejscu używając ścieżki „Krótkie dopasowanie” jeśli Twoja sekwencja jest krótsza niż 30 bp. Możesz obejść to ograniczenie minimalnej długości, ale dodając więcej sekwencji flankujących do zapytania, aby zapytanie było wystarczająco unikalne. Jeśli nie jest to możliwe, jedyną alternatywą jest pobranie plików wykonywalnych BLAT-a oraz pliku .2bit genomu na własny komputer i użycie BLAT-a w linii poleceń. Zobacz Pobieranie źródła BLAT i dokumentacji, aby uzyskać więcej informacji. Kiedy używasz BLAT w wersji wiersza poleceń, możesz ustawić opcję repMatch na dużą wartość, aby spróbować poprawić znajdowanie dopasowań w powtarzających się regionach i nie używać jednego z domyślnych plików maskowania powtórzeń 11.ooc.

BLAT lub In-Silico PCR znajduje wiele dopasowań takich jak chr_alt lub chr_fix, mimo że tylko jedno jest oczekiwane

Widzę dwa lub więcej dopasowań w genomie, mimo że powinno być tylko jedno. Co to są te dodatkowe dopasowania?

To zwykle występuje w nowszych genomowych assemblies, takich jak hg38, kiedy wyszukujesz sekwencję, która ma sekwencję „alternatywną” lub „fix”. Aby poprawić jakość tych asemblacji, kuratorzy dodali wiele wersji niektórych ważnych loci, np. regionów MHC. Dodali również sekwencje naprawcze, aby usunąć błędy bez zmiany referencji. Zobacz nasz post na blogu o łatach, aby uzyskać więcej informacji.

Gdy blatujesz lub isPCR sekwencję, która pasuje do lokalizacji chromosomowej, która również ma sekwencję fix lub alt, zobaczysz dopasowanie na chromosomie odniesienia (np. „chr1”) i inne dopasowanie na sekwencji łaty (np. chr1_KN196472v1_fix). W większości przypadków bezpiecznie jest zignorować trafienie poprawki, ponieważ ludzki genom nie będzie zawierał jednocześnie sekwencji referencyjnej i alternatywnej. Aby uzyskać więcej informacji na temat konkretnych rodzajów sekwencji poprawek, zobacz nasz wpis FAQ na ten temat.

Ograniczenia użycia BLAT

Otrzymałem ostrzeżenie z waszego serwera Blat informujące mnie, że przekroczyłem ograniczenia użycia serwera. Czy może mi Pan udzielić informacji na temat parametrów korzystania z serwera Blat UCSC?

W związku z wysokim zapotrzebowaniem na nasze serwery Blat, ograniczamy usługi dla użytkowników, którzy programowo zapytują narzędzie BLAT lub wykonują duże zapytania wsadowe. Programowe użycie BLAT jest ograniczone do maksymalnie jednego trafienia co 15 sekund i nie więcej niż 5,000 trafień dziennie. Należy ograniczyć zapytania wsadowe do 25 sekwencji lub mniej.

Dla użytkowników z dużym zapotrzebowaniem na Blat, zalecamy pobranie narzędzia BLAT do użytku lokalnego. Aby uzyskać więcej informacji, zobacz Pobieranie źródła BLAT i dokumentacji.

Pobieranie źródła BLAT i dokumentacji

Czy źródło BLAT jest dostępne do pobrania? Czy dostępna jest dokumentacja?

Źródło i pliki wykonywalne BLAT są dostępne do użytku akademickiego, niekomercyjnego i osobistego. Informacje o licencjach komercyjnych są dostępne na stronie internetowej Kent Informatics.

Źródło BLAT można pobrać z http://hgdownload.soe.ucsc.edu/admin/ (znajduje się pod adresem /kent/src/blat w najnowszym drzewie źródłowym jksrci*.zip). Aby uzyskać pliki wykonywalne BLAT, przejdź do http://hgdownload.soe.ucsc.edu/admin/exe/ i wybierz typ maszyny.

Dokumentacja dotycząca specyfikacji programu BLAT jest dostępna tutaj. Zauważ, że BLAT z wiersza poleceń nie zwraca dopasowań do nukleotydów U w sekwencji zapytania.

Odwzorowanie parametrów Blata opartego na www w wersji z wiersza poleceń

Ustawiam własny serwer Blat i chciałbym użyć tych samych wartości parametrów, których używa serwer Blat oparty na www UCSC.

Prawie zawsze spodziewamy się niewielkich różnic między hgBLAT/gfServer a samodzielnym, liniowym Blatem. Najlepsze dopasowania można znaleźć za pomocą narzędzi pslReps i pslCDnaFilter. Internetowy Blat jest dostrojony permisywnie z minimalną wartością odcięcia 20, co spowoduje wyświetlenie większości dopasowań. Radzimy zdecydować, które parametry filtrowania mają największy sens dla danego eksperymentu lub analizy. Często te ustawienia będą inne i bardziej rygorystyczne niż te w internetowym Blat. Mając to na uwadze, użyj następujących ustawień, aby przybliżyć wyniki wyszukiwania w internetowym Blacie:

Uwaga: Istnieją przypadki, w których podejście gfServer/gfClient zapewnia lepsze przybliżenie wyników internetowych niż samodzielny Blat. Zobacz poniższy przykład, aby zapoznać się z tym procesem.

standalone Blat:

  • Blat search:
    blat -stepSize=5 -repMatch=2253 -minScore=20 -minIdentity=0 database.2bit query.fa output.psl
  • Uwaga: Aby odtworzyć wyniki internetowe, należy użyć wyjścia PSL. BLAT obsługuje alternatywne formaty wyjściowe (takie jak blast8) w nieco inny sposób, co może prowadzić do niewielkich różnic w wynikach, szczególnie w przypadku krótkich dopasowań. Ponadto, sekwencja zapytania powinna mieć wszystkie nukleotydy U przekonwertowane na nukleotydy T lub mieć flagę „-q=rna”, aby dopasować się do web-BLAT.

faToTwoBit:

  • Używa miękkiego maskowania do konwersji formatu Fasta na format 2-bitowy dla wejścia BLAT.

gfServer (tak są skonfigurowane internetowe serwery BLAT UCSC):

  • Serwer BLAT (zdolny do PCR):
    gfServer start blatMachine portX -stepSize=5 -log=untrans.log database.2bit
  • tłumaczony serwer BLAT:
    gfServer start blatMachine portY -trans -mask -log=trans.log database.2bit

Do umożliwienia dopasowania DNA/DNA i DNA/RNA potrzebne są tylko pliki hosta, portu i TwoBit. Ten sam port jest używany zarówno dla nieprzetłumaczonego Blata (gfClient) jak i PCR (webPcr). Będziesz potrzebował oddzielnego serwera Blat na oddzielnym porcie, aby włączyć przetłumaczony Blat (wyszukiwanie białek lub przetłumaczone wyszukiwanie w przestrzeni białek).

gfClient:

  • Ustaw -minScore=0 i -minIdentity=0. Spowoduje to kilka nisko punktowanych, generalnie złośliwych trafień, ale dla interaktywnego użycia jest wystarczająco łatwe do zignorowania (ponieważ wyniki są sortowane według wyniku), a czasami nisko punktowane trafienia są przydatne.

Uwagi na temat repMatch:

  • Domyślnym ustawieniem dla gfServer dna matches jest: repMatch = 1024 * (tileSize/stepSize).
  • Domyślnym ustawieniem dla Blat dna matches jest: repMatch = 1024 (jeśli tileSize=11).
  • Aby uzyskać wyniki z wiersza poleceń, które są równoważne z wynikami internetowymi, repMatch musi być określony podczas używania BLAT.

Więcej informacji o tym, jak replikować wynik i procentowe dopasowania wyświetlane przez nasz internetowy Blat, proszę zobaczyć ten BLAT FAQ.

Więcej informacji na temat parametrów dostępnych dla BLAT, gfServer i gfClient można znaleźć w specyfikacji BLAT.

Używanie flagi -ooc

Co robi flaga -ooc?

Użycie dowolnej opcji -ooc w BLAT, takiej jak -ooc=11.ooc, przyspiesza wyszukiwanie podobne do sekwencji z powtarzaniem maskowania. Plik 11.ooc zawiera sekwencje uznane za nadreprezentowane w sekwencji genomu. Aby poprawić szybkość wyszukiwania, sekwencje te nie są używane przy tworzeniu dopasowania do genomu. Dla rozsądnej wielkości sekwencji, nie będzie to stanowiło problemu i znacznie zmniejszy czas przetwarzania.

Nieużywanie pliku 11.ooc zwiększy czas wyrównania, ale również nieznacznie zwiększy czułość. Może to być ważne w przypadku wyrównywania krótszych sekwencji lub sekwencji o niskiej jakości. Na przykład, jeśli dana sekwencja składa się głównie z sekwencji w pliku 11.ooc, nigdy nie będzie prawidłowo posiana do wyrównania jeśli użyta jest flaga -ooc.

Podsumowując, jeśli nie znajdujemy pewnych sekwencji i możemy sobie pozwolić na dodatkowy czas przetwarzania, możemy chcieć uruchomić BLAT bez pliku 11.ooc, jeśli nasza szczególna sytuacja uzasadnia jego użycie.

Replikowanie obliczeń procentowej tożsamości i wyniku Blata opartego na WWW

Jak mogę replikować obliczenia procentowej tożsamości i wyniku Blata opartego na WWW, korzystając z własnego serwera Blata działającego w wierszu poleceń?

Nie ma opcji w Blacie działającym w wierszu poleceń, która daje procentową tożsamość i wynik. Jednakże, stworzyliśmy skrypty, które zawierają te obliczenia:

  • Wyświetl skrypt perl z drzewa źródłowego: pslScore.pl
  • Wyświetl odpowiadający mu program w języku C: pslScore.c i powiązane funkcje biblioteczne pslScore i pslCalcMilliBad w psl.c

Zapoznaj się z naszym FAQ dotyczącym licencjonowania kodu źródłowego i pobierania, aby uzyskać informacje na temat uzyskiwania źródła.

Replikowanie wyników wyszukiwania „Mam szczęście” w internetowym Blacie

Jak wygenerować takie same wyniki wyszukiwania jak opcja „Mam szczęście” w internetowym Blacie, używając Blata z wiersza poleceń?

Kod dla wyszukiwania „Mam szczęście” w Blacie porządkuje wyniki na podstawie opcji sortowania, którą wybrałeś na stronie zapytania. Następnie zwraca najwyżej punktowane wyrównanie pierwszej sekwencji zapytania.

Jeśli sortujesz wyniki według „query, start” lub „chrom, start”, wygenerowanie wyniku „I’m feeling lucky” jest proste: posortuj plik wyjściowy według tych kolumn, a następnie wybierz najlepszy wynik.

Aby zreplikować którąkolwiek z opcji sortowania z uwzględnieniem wyniku, musisz najpierw obliczyć wynik dla każdego wyniku w pliku wyjściowym PSL, a następnie posortować wyniki według wyniku lub innej kombinacji (np. „zapytanie, wynik” i „chrom, wynik”). Zobacz sekcję Replikowanie opartych na sieci internetowej obliczeń Blat procentowej tożsamości i wyniku, aby uzyskać informacje na temat obliczania wyniku.

Alternatywnie, możesz spróbować filtrować dane wyjściowe Blat PSL używając programupslReps lub pslCDnaFilter dostępnego w kodzie źródłowym Genome Browser. Informacje o uzyskiwaniu kodu źródłowego można znaleźć w naszym FAQ dotyczącym licencjonowania kodu źródłowego i pobierania.

Używanie BLAT dla krótkich sekwencji z maksymalną czułością

Jak skonfigurować BLAT dla krótkich sekwencji z maksymalną czułością?

Oto kilka wskazówek dotyczących konfiguracji samodzielnego Blat i gfServer/gfClient dla tych warunków:

  • Wzór na znalezienie najkrótszego rozmiaru zapytania, który zagwarantuje dopasowanie (jeśli pasujące płytki nie są oznaczone jako nadużywane) to: 2 * stepSize + tileSize – 1
    Na przykład, przy stepSize ustawionym na 5 i tileSize ustawionym na 11, dopasowania o rozmiarze zapytania 2 * 5 + 11 – 1 = 20 bp zostaną znalezione, jeśli zapytanie dokładnie pasuje do celu.
    Parametr stepSize może mieć zakres od 1 do tileSize.
    Parametr tileSize może mieć zakres od 6 do 15. Dla białek, zakres zaczyna się niżej.
    Dla minMatch=1 (np.białko), minimalna gwarantowana długość dopasowania wynosi: 1 * stepSize + tileSize – 1
    Uwaga: Istnieje również „minimalny szczęśliwy rozmiar” dla trafień. Jest to najmniejsze możliwe trafienie, które BLAT może znaleźć. Ten minimalny szczęśliwy rozmiar może być obliczony przy użyciu wzoru: stepSize + tileSize. Na przykład, jeśli użyjemy tileSize równego 11 i stepSize równego 5, trafienia mniejsze niż 16 baz nie zostaną zgłoszone.
  • Spróbuj użyć -fine.
  • Użyj dużej wartości dla repMatch (np. -repMatch = 1000000), aby zmniejszyć szansę na oznaczenie kafelka jako nadmiernie użytego.
  • Nie używaj pliku .ooc.
  • Nie używaj opcji -fastMap.
  • Nie używaj opcji maskowania w wierszu poleceń.

Powyższe zmiany sprawią, że BLAT będzie bardziej czuły, ale także zmniejszą szybkość działania i zwiększą zużycie pamięci. Może być konieczne przetwarzanie jednego chromosomu na raz, aby zmniejszyć wymagania pamięciowe.

Uwaga na temat filtrowania danych wyjściowych: zwiększenie wartości parametru -minScore poza połowę rozmiaru zapytania nie ma dalszego efektu. Dlatego należy użyć programu pslReps lub pslCDnaFilter dostępnego w kodzie źródłowym Genome Browser, aby filtrować pod kątem rozmiaru, wyniku, pokrycia lub żądanej jakości. Aby uzyskać informacje o uzyskiwaniu kodu źródłowego, zobacz nasz FAQ dotyczący licencjonowania kodu źródłowego i pobierania.

Blatuj WSZYSTKIE genomy

Jak blatować zapytania dla domyślnych złożeń genomów wszystkich organizmów?

BLAT jest przeznaczony do szybkiego znajdowania podobieństwa sekwencji między zapytaniem a sekwencjami docelowymi. Generalnie, BLAT jest używany do znajdowania miejsc homologii sekwencji w pojedynczym genomie docelowym lub do określania struktury eksonów mRNA. BLAT pozwala również na porównanie sekwencji zapytania z wszystkimi domyślnymi złożeniami dla organizmów znajdujących się w UCSC Genome Browser. Funkcja Szukaj WSZYSTKIEGO może być przydatna, jeśli masz niejednoznaczną sekwencję zapytania i próbujesz określić, do jakiego organizmu może ona należeć.

Zaznaczenie pola wyboru „Szukaj WSZYSTKIEGO” nad listą rozwijaną Genom pozwala na przeszukiwanie genomów domyślnych złożeń dla wszystkich naszych organizmów. Przeszukuje również wszystkie dołączone do hubów serwery Blat, co oznacza, że można przeszukiwać huby zespołów utworzonych przez użytkownika. Strona z wynikami wyświetla uporządkowaną listę wszystkich naszych organizmów i ich homologię z twoją sekwencją. Wyniki są uporządkowane w taki sposób, że organizm z najlepszym wynikiem dopasowania znajduje się na górze, wskazując, który region(y) tego organizmu ma największą homologię z sekwencją zapytania. Całe dopasowanie, włączając niedopasowania i luki, musi mieć wynik 20 lub wyższy, aby pojawiło się w wynikach Blat. Klikając na link w liście zespołów, zostaniesz przeniesiony do nowej strony wyświetlającej różne miejsca i wyniki homologii sekwencji w interesującym Cię zespole.

Blat ALL genomes: No matches found

Moje wyniki Blat ALL wyświetlają asemblacje z trafieniami, ale kliknięcie w nie zgłasza brak trafień

Na stronie wyników Blat ALL, kolumna „Trafienia” nie przedstawia dopasowań, zamiast tego zgłasza trafienia w kafelkach. Trafienia w kafelki to 11 bazowe dopasowania kmer znalezione w celu, które niekoniecznie reprezentują udane wyrównania. Po kliknięciu linku 'Assembly’ nastąpi pełne wyrównanie Blat dla tego genomu, a wszystkie wyniki wyrównania reprezentujące mniej niż 20 bp będą zwrócone jako brak znalezionych dopasowań.

Kiedy wysyłasz sekwencję do narzędzia Blat ALL, sekwencja jest porównywana z indeksem w serwerze. Indeks ten został zbudowany na podstawie genomu docelowego, z domyślnym krokiem 11bp. Te 11-mery „kafelkują” sekwencję w następujący sposób:

TGGACAACATG GCAAGAATCAG TCTCTACAGAA

Po zbudowaniu indeksu, pierwszym krokiem dopasowania jest odczytanie sekwencji zapytania (wyszukiwania), wyodrębnienie wszystkich 11-merów i wyszukanie ich w indeksie 11-mer genomu znajdującym się aktualnie w pamięci. Znalezione tam dopasowania reprezentują początkowe „trafienia” widoczne na stronie z wynikami Blat ALL. Następnym krokiem jest szukanie trafień, które nakładają się na siebie lub znajdują się w pewnej odległości od siebie i próba wyrównania sekwencji pomiędzy trafieniami w miejscu docelowym i zapytaniu.

Na przykład, jeśli dwa trafienia w 11-bazowym kafelku idealnie się wyrównają, da to wynik 22. Jest to powyżej minimalnego wymaganego wyniku 20 (zobacz Blat ALL genomes), i zostałoby zgłoszone jako wyrównanie. Istnieją jednak kary za luki i niedopasowania, jak również potencjalne nakładanie się (zobacz rozmiar kroku w specyfikacji BLAT), które mogą sprowadzić wynik poniżej 20. W takim przypadku, Blat ALL zgłosi 2 „trafienia”, ale kliknięcie w złożenie zgłosi brak dopasowań. Najczęściej zdarza się to, gdy jest tylko kilka (1-3) trafień zgłoszonych przez Blat ALL.

Approksymacja internetowych wyników Blat przy użyciu gfServer/gfClient

Często zdarza się, że użycie gfServer/gfClient zapewnia lepszą aproksymację lub nawet replikację internetowych wyników Blat, które w przeciwnym razie nie mogą być znalezione przy użyciu samodzielnego Blat. To podejście naśladuje serwer Blat używany przez przeglądarkę internetową Genome Browser. Poniższy przykład pokaże, jak skonfigurować hg19 gfServer, a następnie wykonać zapytanie. Po pierwsze, pobierz odpowiednie narzędzie dla systemu operacyjnego i nadaj mu uprawnienia do wykonywania:

#For linuxrsync -a rsync://hgdownload.soe.ucsc.edu/genome/admin/exe/linux.x86_64/blat/ ./#For MacOSrsync -a rsync://hgdownload.soe.ucsc.edu/genome/admin/exe/macOSX.x86_64/blat/ ./chmod +x gfServer gfClient blat

Następnie, pobierz odpowiedni genom .2bit (w tym przykładzie hg19) i uruchom narzędzie gfServer z parametrami web Blat, wskazując lokalną maszynę i port 1234:

wget http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/hg19.2bit./gfServer start 127.0.0.1 1234 -stepSize=5 hg19.2bit

Po kilku chwilach, gfServer zainicjalizuje się i będzie gotowy do przyjmowania zapytań. W celu przybliżenia Blata sieciowego, użyjemy gfClienta z następującymi parametrami, wyznaczającymi nasze pliki wejściowe i wyjściowe.

./gfClient -minScore=20 -minIdentity=0 127.0.0.1 1234 . input.fa out.psl

Plik wyjściowy out.psl powinien mieć wyniki bardzo podobne do Blata sieciowego.

Pozycje początkowe wyników Standalone lub gfServer/gfClient odbiegają o jeden

Moje samodzielne wyniki Blat lub wyniki gfServer/gfClient Blat mają pozycję początkową o jeden mniejszą niż to, co widzę w internetowych wynikach Blat

Wynika to z tego, jak przechowujemy wewnętrzne współrzędne w Genome Browser. Domyślny typ hiperłącza wyjściowego Blat Output pokazuje wyniki w naszej wewnętrznej strukturze danych współrzędnych. Te wewnętrzne współrzędne mają początek oparty na zerze i koniec oparty na jednym. Zobacz następujący wpis FAQ, aby uzyskać więcej informacji.

Jeśli typ wyjściowy zostanie zmieniony na psl w przeglądarce Blat, wyniki półotwartych współrzędnych opartych na zerze będą widoczne jako samodzielne procedury Blat i gfServer/gfClient.

Dodaj komentarz