Často kladené otázky: BLAT

Témata

  • BLAT vs. BLAST
  • BLAT vůbec nenajde sekvenci nebo nenajde všechny očekávané shody
  • BLAT nebo In-Silico PCR najde více shod, například chr_alt nebo chr_fix, i když se očekává pouze jedna
  • Omezení použití BLAT
  • Stažení zdrojového kódu a dokumentace BLAT
  • Replikace webových parametrů BLAT v příkazech-řádku
  • Použití příznaku -ooc
  • Replikace webových parametrů BLAT pro výpočet procentní identity a skóre
  • Replikace webových výsledků vyhledávání BLAT „I’m feeling lucky“
  • Použití BLAT pro krátké sekvence s maximální citlivostí
  • BLAT ALL genomy
  • BLAT ALL genomy:
  • Přibližování webových výsledků BLAT pomocí gfServer/gfClient
  • Standalone nebo gfServer/gfClient počáteční pozice výsledků se liší o jednu

Zpět na obsah FAQ

BLAT vs. BLAST

Jaké jsou rozdíly mezi BLAT a BLASTem?

BLAT je nástroj pro zarovnávání jako BLAST, ale má jinou strukturu. Na DNA pracuje BLAT tak, že v paměti uchovává index celého genomu. Cílovou databází BLAT tedy není soubor sekvencí GenBank, ale index odvozený ze sestavení celého genomu. Ve výchozím nastavení se index skládá ze všech nepřekrývajících se jedenáctimerů s výjimkou těch, které jsou silně zapojeny do opakování, a využívá méně než gigabajt paměti RAM. Tato menší velikost znamená, že BLAT se zrcadlí mnohem snadněji než BLAST. Blat of DNA je navržen tak, aby rychle našel sekvence s 95% a větší podobností o délce 40 bází a více. Může přehlédnout divergentnější nebo kratší zarovnání sekvencí. (Výchozí nastavení a očekávané chování samostatného programu Blat se mírně liší od chování grafické verze programu BLAT)

U proteinů používá program BLAT spíše 4-mery než 11-mery a vyhledává proteinové sekvence s 80% a větší podobností s dotazem o délce 20 a více aminokyselin. Index proteinů vyžaduje o něco více než 2 gigabajty paměti RAM. V praxi – vzhledem k míře divergence sekvencí v průběhu evoluce – funguje DNA BLAT dobře v rámci člověka a primátů, zatímco proteinový BLAT nadále nachází dobré shody v rámci suchozemských obratlovců a dokonce i dřívějších organismů pro konzervované proteiny. V rámci člověka poskytuje proteinový Blat mnohem lepší obraz genových rodin (paralogů) než DNA Blat. Nicméně BLAST a psi-BLAST v NCBI mohou najít mnohem vzdálenější shody.

Z praktického hlediska má BLAT oproti BLAST několik výhod:

  • rychlost (žádné fronty, odezva v sekundách) za cenu menší hloubky homologie
  • možnost odeslat dlouhý seznam současných dotazů ve formátu fasta
  • pět pohodlných možností třídění výstupu
  • přímý odkaz do prohlížeče UCSC
  • detaily bloku zarovnání v přirozeném genomickém pořadí
  • možnost spustit zarovnání později jako součást vlastní stopy

BLAT se běžně používá k vyhledání umístění sekvence v genomu nebo k určení struktury exonu mRNA, ale zkušení uživatelé mohou spouštět velké dávkové úlohy a provádět interní změny citlivosti parametrů instalací programu Blat z příkazového řádku na vlastním linuxovém serveru.

BLAT nemůže najít sekvenci nebo ne všechny očekávané shody

Nemohu najít sekvenci pomocí BLAT, i když jsem si jistý, že se v genomu nachází. Dělám něco špatně?

Nejprve zkontrolujte, zda používáte správnou verzi genomu. V současné době se například široce používají dvě verze lidského genomu (hg19 a hg38) a vaše sekvence může být pouze v jedné z nich. Mnoho publikovaných článků verzi sestavení neuvádí, takže může být nutné vyzkoušet obě.

Velmi krátké sekvence, které jdou přes místo sestřihu v sekvenci cDNA, nelze najít, protože nejsou v genomu. qPCR primery jsou typickým příkladem. Pro tyto případy zkuste použít In-Silico PCR a jako cíl vybrat sadu genů. Obecně je nástroj In-Silico PCR citlivější a měl by být upřednostňován pro páry primerů.

Dalším problematickým případem je hledání sekvencí v repeticích nebo transpozonech.BLAT vynechává nejvíce repetitivní části dotazu a omezuje počet nalezených shod, což vede k chybějícím shodám pro tyto opakující se sekvence. online verze BLAT maskuje 11merů z dotazu, které se v genomu vyskytují více než 1024krát, a omezuje výsledky na 16 shod na jedno chromozomové vlákno. To znamená, že je vráceno maximálně 32 míst na chromozomu. To se provádí pro zvýšení rychlosti, ale může to mít za následek chybějící shody při hledání sekvencí v opakováních.

Často lze u opakovaných sekvencí použít stopu vlastního řetězce k nalezení dalších shod, ale pouze pokud jsou další shody dostatečně dlouhé a specifické. Pokud je vaše sekvence kratší než 30 bp, můžete zkontrolovat, zda se na určitém místě vyskytuje nějaká sekvence, pomocí stopy „Krátká shoda“. toto omezení minimální délky můžete obejít, ale přidáním další doprovodné sekvence k dotazu, aby byl dotaz dostatečně jedinečný. Pokud to není možné, jedinou alternativou je stáhnout spustitelné soubory BLAT a .2bit soubor genomu do vlastního počítače a použít BLAT v příkazovém řádku. Další informace naleznete v části Stažení zdrojových kódů a dokumentace BLAT. Při použití verze BLAT pro příkazový řádek můžete nastavit možnost repMatch na velkou hodnotu, abyste se pokusili zlepšit hledání shod v opakujících se oblastech, a nepoužívejte jeden z výchozích souborů pro maskování opakování 11.ooc.

BLAT nebo In-Silico PCR najde více shod, například chr_alt nebo chr_fix, i když se očekává pouze jedna

V genomu vidím dvě nebo více shod, i když by měla být pouze jedna. Co jsou tyto shody navíc?

Obvykle k tomu dochází u novějších sestav genomu, jako je hg38, když hledáte sekvenci, která má „alternativní“ nebo „fixní“ sekvenci. Pro zlepšení kvality těchto sestav kurátoři přidali více verzí některých důležitých lokusů, např. oblastí MHC. Přidávají také opravné sekvence, aby vyřešili chyby beze změny reference. Více informací naleznete v příspěvku na blogu o opravách.

Pokud blat nebo isPCR sekvenci, která se shoduje s místem na chromozomu, které má také opravnou nebo alt sekvenci, zobrazí se shoda na referenčním chromozomu (např. „chr1“) a další shoda na opravné sekvenci (např. chr1_KN196472v1_fix). Ve většině případů je bezpečné shodu s patchem ignorovat, protože lidský genom nebude obsahovat současně referenční i alternativní sekvenci. Další informace o konkrétních druzích patch sekvencí naleznete v naší položce FAQ na toto téma.

Omezení používání serveru Blat

Obdržel jsem varování z vašeho serveru Blat, které mě informovalo, že jsem překročil omezení používání serveru. Můžete mi poskytnout informace o parametrech používání serveru UCSC Blat?

Vzhledem k vysokým nárokům na naše servery Blat omezujeme služby pro uživatele, kteří se programově dotazují nástroje BLAT nebo provádějí velké dávkové dotazy. Programově řízené používání nástroje BLAT je omezeno na maximálně jeden zásah každých 15 sekund a ne více než 5 000 zásahů za den. Omezte prosím dávkové dotazy na 25 sekvencí nebo méně.

Uživatelům s velkým objemem požadavků na nástroj BLAT doporučujeme stáhnout si nástroj BLAT pro místní použití. Další informace naleznete v části Stažení zdrojového kódu a dokumentace nástroje BLAT.

Stažení zdrojového kódu a dokumentace nástroje BLAT

Je zdrojový kód nástroje BLAT k dispozici ke stažení? Je k dispozici dokumentace?

Source a spustitelné soubory BLAT jsou volně k dispozici pro akademické, neziskové a osobní použití. Informace o komerčním licencování jsou k dispozici na webových stránkách společnosti Kent Informatics.

Zdrojové kódy systému BLAT lze stáhnout ze stránky http://hgdownload.soe.ucsc.edu/admin/ (nachází se na adrese /kent/src/blat v rámci nejnovějšího stromu zdrojových kódů jksrci*.zip). Pro spustitelné soubory BLAT přejděte na http://hgdownload.soe.ucsc.edu/admin/exe/ a vyberte typ stroje.

Dokumentace ke specifikacím programu BLAT je k dispozici zde. Všimněte si, že BLAT pro příkazový řádek nevrací shody s nukleotidy U v dotazované sekvenci.

Replikování parametrů webového Blatu ve verzi pro příkazový řádek

Zakládám vlastní server Blat a rád bych používal stejné hodnoty parametrů, jaké používá webový server Blat UCSC.

Téměř vždy očekáváme malé rozdíly mezi hgBLAT/gfServerem a samostatným Blatem pro příkazový řádek. Nejlepší shody lze nalézt pomocí nástrojů pslReps a pslCDnaFilter. Webový Blat je nastaven permisivně s minimálním mezním skóre 20, které zobrazí většinu zarovnání. Doporučujeme rozhodnout, které parametry filtrování mají pro daný experiment nebo analýzu největší smysl. Často budou tato nastavení jiná a přísnější než nastavení webového nástroje Blat. S ohledem na to použijte následující nastavení, abyste se přiblížili výsledkům vyhledávání webového Blatu:

Poznámka: Existují případy, kdy přístup gfServer/gfClient poskytuje lepší aproximaci webových výsledků než samostatný Blat. Přehled tohoto postupu naleznete v níže uvedeném příkladu.

samostatný Blat:

  • Vyhledávání Blat:
    blat -stepSize=5 -repMatch=2253 -minScore=20 -minIdentity=0 database.2bit query.fa output.psl
  • Poznámka: Pro replikaci webových výsledků je třeba použít výstup PSL. BLAT zpracovává alternativní výstupní formáty (například blast8) mírně odlišně, což může vést k drobným rozdílům ve výsledcích; zejména u krátkých zarovnání. Kromě toho by dotazovací sekvence měla mít všechny nukleotidy U převedeny na nukleotidy T nebo by měla mít příznak „-q=rna“, aby odpovídala webovému BLATu.

faToTwoBit:

  • Používá měkké maskování k převodu formátu Fasta na 2bitový formát pro vstup BLAT.

gfServer (takto jsou nakonfigurovány webové servery BLAT UCSC):

  • Server BLAT (schopný PCR):
    gfServer start blatMachine portX -stepSize=5 -log=untrans.log database.2bit
  • přeložený server BLAT:
    gfServer start blatMachine portY -trans -mask -log=trans.log database.2bit

Pro umožnění shody DNA/DNA a DNA/RNA jsou potřeba pouze hostitel, port a soubory twoBit. Stejný port se používá jak pro nepřeložený server Blat (gfClient), tak pro PCR (webPcr). Pro povolení přeloženého Blatu (vyhledávání proteinů nebo přeložené vyhledávání v proteinovém prostoru) budete potřebovat samostatný Blat server na samostatném portu.

gfClient:

  • Nastavte -minScore=0 a -minIdentity=0. To bude mít za následek některé nízkobodové, obecně falešné shody, ale pro interaktivní použití je dostatečně snadné je ignorovat (protože výsledky jsou seřazeny podle skóre) a někdy se nízkobodové shody hodí.

Poznámky k repMatch:

  • Výchozí nastavení pro shody dna gfServeru je: repMatch = 1024 * (tileSize/stepSize).
  • Výchozí nastavení pro shody dna Blat je: repMatch = 1024 (pokud tileSize=11).
  • Chcete-li získat výsledky příkazového řádku, které jsou ekvivalentní výsledkům na webu, je třeba při použití BLAT zadat repMatch.

Další informace o tom, jak replikovat skóre a procento shody identity zobrazené naším webovým systémem Blat, naleznete v tomto dokumentu BLAT FAQ.

Další informace o parametrech dostupných pro BLAT, gfServer a gfClient najdete ve specifikacích BLAT.

Použití příznaku -ooc

Co dělá příznak -ooc?

Použití libovolné volby -ooc v BLAT, například -ooc=11.ooc, urychluje vyhledávání podobně jako sekvence s opakovaným maskováním. Soubor 11.ooc obsahuje sekvence, které byly určeny jako nadměrně zastoupené v sekvenci genomu. Pro zvýšení rychlosti vyhledávání se tyto sekvence při zarovnávání s genomem nepoužívají. U přiměřeně velkých sekvencí to nebude představovat problém a výrazně se zkrátí doba zpracování.

Nepoužíváním souboru 11.ooc se prodlouží doba zarovnání, ale také se mírně zvýší citlivost. To může být důležité, pokud zarovnáváte kratší sekvence nebo sekvence s nízkou kvalitou. Například pokud se určitá sekvence skládá převážně ze sekvencí v souboru 11.ooc, nikdy nebude správně nasazena pro zarovnání, pokud použijete příznak -ooc.

Shrnuto, pokud nenacházíte určité sekvence a můžete si dovolit čas zpracování navíc, můžete spustit BLAT bez souboru 11.ooc, pokud vaše konkrétní situace odůvodňuje jeho použití.

Replikace výpočtů procentuální identity a skóre pomocí webového serveru Blat

Jak mohu pomocí vlastního serveru Blat s příkazovým řádkem replikovat výpočty procentuální identity a skóre vytvořené pomocí webového serveru Blat?

V příkazovém řádku serveru Blat neexistuje žádná možnost, která by vám poskytla procentuální identitu a skóre. Vytvořili jsme však skripty, které tyto výpočty obsahují:

  • Zobrazte si perlový skript ze zdrojového stromu: pslScore.pl
  • Zobrazte odpovídající program v jazyce C: pslScore.c a související knihovní funkce pslScore a pslCalcMilliBad v psl.c

Informace o získání zdrojového kódu naleznete v našich často kladených otázkách týkajících se licencování zdrojových kódů a jejich stahování.

Replikace výsledků vyhledávání „Mám pocit štěstí“ webového nástroje Blat

Jak vygeneruji stejné výsledky vyhledávání jako možnost „Mám pocit štěstí“ webového nástroje Blat pomocí nástroje Blat pro příkazový řádek?

Kód pro vyhledávání „Mám pocit štěstí“ nástroje Blat seřadí výsledky na základě možnosti třídění výstupu, kterou jste vybrali na stránce dotazu. Poté vrátí zarovnání první sekvence dotazu s nejvyšším počtem bodů.

Pokud řadíte výsledky podle „query, start“ nebo „chrom, start“, je generování výsledku „I’m feeling lucky“ přímočaré: seřaďte výstupní soubor podle těchto sloupců a poté vyberte nejvyšší výsledek.

Chcete-li zopakovat některou z možností řazení zahrnující skóre, musíte nejprve vypočítat skóre pro každý výsledek ve výstupním souboru PSL a poté výsledky seřadit podle skóre nebo jiné kombinace (např. „query, score“ a „chrom, score“). Informace o výpočtu skóre naleznete v části Replikace webových výpočtů procentuální identity a skóre Blat.

Alternativně můžete zkusit filtrovat výstup PSL Blat pomocí programupslReps nebo pslCDnaFilter dostupného ve zdrojovém kódu Genome Browser. Informace o získání zdrojového kódu naleznete v našich častých dotazech týkajících se licencování zdrojového kódu a stahování.

Použití BLAT pro krátké sekvence s maximální citlivostí

Jak nakonfigurovat BLAT pro krátké sekvence s maximální citlivostí?

Níže uvádíme několik pokynů pro konfiguraci samostatného systému Blat a gfServer/gfClient pro tyto podmínky:

  • Vzorec pro nalezení nejkratší velikosti dotazu, která zaručí shodu (pokud nejsou shodné dlaždice označeny jako nadužívané), je následující: 2 * stepSize + tileSize – 1
    Příklad při nastavení stepSize na 5 a tileSize na 11 budou nalezeny shody o velikosti dotazu 2 * 5 + 11 – 1 = 20 bp, pokud se dotaz přesně shoduje s cílem.
    Parametr stepSize se může pohybovat v rozmezí 1 až tileSize.
    Parametr tileSize se může pohybovat v rozmezí 6 až 15. U bílkovin začíná rozsah nižší.
    Při minMatch=1 (např., protein), minimální zaručená délka shody je: 1 * stepSize + tileSize – 1
    Poznámka: Existuje také „minimální velikost štěstí“ pro shody. Jedná se o nejmenší možnou shodu, kterou může BLAT najít. Tuto minimální šťastnou velikost lze vypočítat pomocí vzorce: stepSize + tileSize. Pokud například použijeme tileSize 11 a stepSize 5, nebudou hlášeny shody menší než 16 bází.
  • Zkuste použít -fine.
  • Použijte velkou hodnotu pro repMatch (např. -repMatch = 1000000), abyste snížili pravděpodobnost, že dlaždice bude označena jako nadměrně použitá.
  • Nepoužívejte soubor .ooc.
  • Nepoužívejte -fastMap.
  • Nepoužívejte maskovací volby příkazového řádku.

Výše uvedené změny zvýší citlivost BLAT, ale také zpomalí rychlost a zvýší využití paměti. Možná bude nutné zpracovávat jeden chromozom najednou, aby se snížily paměťové nároky.

Poznámka k filtrování výstupu: zvýšení hodnoty parametru -minScore nad polovinu velikosti dotazu nemá žádný další efekt. K filtrování podle požadované velikosti, skóre, pokrytí nebo kvality proto použijte program pslReps nebo pslCDnaFilter dostupný ve zdrojovém kódu Genome Browser. Informace o získání zdrojového kódu naleznete v často kladených dotazech týkajících se licencování zdrojového kódu a jeho stahování.

Blat ALL genomes

Jak blat dotazy pro výchozí sestavy genomů všech organismů?

BLAT je určen k rychlému nalezení podobnosti sekvencí mezi dotazovanými a cílovými sekvencemi. Obecně se BLAT používá k nalezení míst homologie sekvencí v jednom cílovém genomu nebo k určení struktury exonu mRNA. BLAT také umožňuje uživatelům porovnat dotazovanou sekvenci se všemi výchozími sestavami pro organismy umístěnými na UCSC Genome Browser. Funkce Search ALLmůže být užitečná, pokud máte nejednoznačnou dotazovou sekvenci a snažíte se určit, kterému organismu může patřit.

Zaškrtnutím políčka „Search ALL“ nad rozevíracím seznamem genomu můžete prohledávat genomy výchozích sestav pro všechny naše organismy. Rovněž prohledává všechny připojené servery Blat hubů, což znamená, že můžete prohledávat své uživatelsky vytvořené assembly huby. Na stránce s výsledky se zobrazí uspořádaný seznam všech našich organismů a jejich homologie s dotazovanou sekvencí. Výsledky jsou seřazeny tak, že organismus s nejlepším skóre zarovnání je nahoře, což znamená, která oblast (oblasti) tohoto organismu má největší homologii s vaší dotazovanou sekvencí. celé zarovnání, včetně neshod a mezer, musí mít skóre 20 nebo vyšší, aby se objevilo ve výstupu Blat. Kliknutím do odkazu v seznamu sestav se dostanete na novou stránku zobrazující různá místa a skóre homologie sekvencí v sestavě, která vás zajímá.

Blat ALL genomes: Na stránce výsledků Blat ALL nejsou nalezeny žádné shody

Moje výsledky Blat ALL zobrazují sestavy se shodami, ale kliknutí do nich hlásí žádné shody

Na stránce výsledků Blat ALL sloupec „Hits“ nepředstavuje zarovnání, místo toho hlásí shody dlaždic. Hity dlaždic jsou shody 11 bází kmer nalezené v cíli, které nemusí nutně představovat úspěšná zarovnání. Po kliknutí na odkaz „Assembly“ dojde k úplnému zarovnání Blat pro daný genom a všechny výsledky zarovnání představující méně než 20 bp se vrátí jako nenalezené shody.

Při odeslání sekvence do nástroje Blat ALL se sekvence porovná s indexem na serveru. Index byl sestaven z cílového genomu s výchozí velikostí kroku 11 bp. těchto 11 merů „dlaždicuje“ sekvenci takto:

TGGACAACATG GCAAGAATCAG TCTCTACAGAA

Po sestavení indexu je prvním krokem zarovnání přečtení dotazové (hledané) sekvence, extrakce všech 11 merů a jejich vyhledání v 11merovém indexu genomu, který je právě v paměti. Shody tam nalezené představují počáteční „shody“, které se zobrazí na stránce s výsledky Blat ALL. Dalším krokem je vyhledání shod, které se překrývají nebo se nacházejí v určité vzdálenosti od sebe, a pokus o zarovnání sekvencí mezi místy shody v cíli a v dotazu.

Pokud se například dvě shody 11bázových dlaždic dokonale zarovnají, bude výsledkem skóre 22. To je více než minimální požadované skóre 20 (viz Blat ALL genomes) a bylo by nahlášeno jako zarovnání. Existují však sankce za mezery a neshody a také za potenciální překrývání (viz velikost kroku ve specifikacích BLAT), což vše může snížit skóre pod 20. V takovém případě by program Blat ALL ohlásil 2 „shody“, ale kliknutí do sestavy by neohlásilo žádnou shodu. K tomu nejčastěji dochází, když Blat ALL hlásí pouze několik (1-3) shod.

Přibližování webových výsledků Blat pomocí gfServer/gfClient

Často se stává, že použití gfServer/gfClient poskytuje lepší přiblížení nebo dokonce replikaci webových výsledků Blat, které jinak nelze najít pomocí samostatného Blat. Tento přístup napodobuje Blat server, který používá webový Blat Genome Browser. Následující příklad ukáže, jak nastavit gfServer hg19 a poté provést dotaz. Nejprve stáhněte příslušnou utilitu prooperační systém a dejte jí oprávnění ke spuštění:

#For linuxrsync -a rsync://hgdownload.soe.ucsc.edu/genome/admin/exe/linux.x86_64/blat/ ./#For MacOSrsync -a rsync://hgdownload.soe.ucsc.edu/genome/admin/exe/macOSX.x86_64/blat/ ./chmod +x gfServer gfClient blat

Poté stáhněte příslušný .2bit genom (v tomto příkladu hg19) a spusťte utilitu gfServer s parametry webového Blatu, určete místní počítač a port 1234:

wget http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/hg19.2bit./gfServer start 127.0.0.1 1234 -stepSize=5 hg19.2bit

Po několika okamžicích se gfServer inicializuje a bude připraven přijímat dotazy. Abychom přiblížili webový Blat, použijeme gfKlient s následujícími parametry, označujícími naše vstupní a výstupní soubory:

./gfClient -minScore=20 -minIdentity=0 127.0.0.1 1234 . input.fa out.psl

Výstupní soubor out.psl by měl mít výsledky velmi podobné webovému Blatu.

Samostatné výsledky Blat nebo výsledky gfServer/gfClient mají počáteční pozici o jedničku jinou

Moje samostatné výsledky Blat nebo výsledky gfServer/gfClient Blat mají počáteční pozici o jedničku menší, než jakou vidím na webových výsledcích Blat

To je způsobeno tím, jak ukládáme vnitřní souřadnice v Genome Browser. Výchozí typ výstupuBlat hypertextového odkazu zobrazuje výsledky v našíinterní souřadnicové datové struktuře. Tyto interní souřadnice mají počátek založený na nulea konec založený na jedničce. Další informace naleznete v následující položce FAQ.

Pokud je typ výstupu změněn na psl ve webovém rozhraní Blat, budou se zobrazovat výsledky souřadnic založené na samé nule a polootevřené jako u samostatných procedur Blat a gfServer/gfClient.

.

Napsat komentář