Usein kysytyt kysymykset: BLAT

Topics

  • BLAT vs. BLAST
  • BLAT ei löydä sekvenssiä lainkaan tai ei kaikkia odotettuja osumia
  • BLAT tai In-Silico PCR löytää useita osumia, kuten chr_alt tai chr_fix, vaikka vain yhtä odotetaan
  • BLATin käyttörajoitukset
  • BLAT-lähdekoodin ja -dokumentaation lataaminen
  • Verkkopohjaisten BLAT-parametrien toistaminen komentokomennossa-riviversiossa
  • -ooc-lippulauseen käyttäminen
  • Verkkopohjaisen BLATin prosentuaalisen identiteetin ja pistemäärän laskennan toistaminen
  • Verkkopohjaisen BLATin ”tunnen itseni onnekkaaksi” -hakutulosten toistaminen
  • BLATin käyttäminen lyhyitä sekvenssejä varten suurimmalla mahdollisella herkkyydellä
  • BLAT KAIKKIEN genomien käyttäminen
  • BLAT KAIKKIEN genomien käyttäminen: No matches found
  • Approximating web-based BLAT results using gfServer/gfClient
  • Standalone or gfServer/gfClient result start positions off by one

Return to FAQ Table of Contents

BLAT vs. BLAST

Mitä eroja BLATin ja BLASTin välillä on?

BLAT on BLASTin kaltainen kohdistustyökalu, mutta se on rakenteeltaan erilainen. DNA:lla BLAT toimii pitämällä koko genomin indeksiä muistissa. BLATin kohdetietokanta ei siis ole joukko GenBankin sekvenssejä, vaan koko genomin kokoamisesta johdettu indeksi. Oletusarvoisesti indeksi koostuu kaikista päällekkäisistä 11-mereistä lukuun ottamatta niitä, jotka ovat vahvasti mukana toistoissa, ja se käyttää alle gigatavun RAM-muistia. Tämä pienempi koko tarkoittaa, että BLAT on paljon helpompi peilata kuin BLAST. DNA:n Blat on suunniteltu löytämään nopeasti 95-prosenttisen ja sitä suuremman samankaltaisuuden omaavia sekvenssejä, joiden pituus on vähintään 40 emästä. Se saattaa jättää huomiotta poikkeavammat tai lyhyemmät sekvenssikohdistukset. (Itsenäisen Blatin oletusasetukset ja odotettu käyttäytyminen poikkeavat hieman BLATin graafisen version oletusasetuksista ja odotetusta käyttäytymisestä.)

Proteiineissa BLAT käyttää 4-merkkisiä eikä 11-merkkisiä proteiinisekvenssejä, ja se löytää 80 %:n ja sitä suuremman samankaltaisuuden proteiinisekvenssejä, jotka ovat pituudeltaan yli 20 aminohappoa. Proteiini-indeksi vaatii hieman yli 2 gigatavua RAM-muistia. Käytännössä – koska sekvenssit eroavat toisistaan evoluution aikana – DNA BLAT toimii hyvin ihmisillä ja kädellisillä, kun taas proteiinien BLAT löytää edelleen hyviä vastaavuuksia maanpäällisistä selkärankaisista ja jopa varhaisemmista organismeista konservoitujen proteiinien osalta. Ihmisen sisällä proteiini-Blat antaa paljon paremman kuvan geeniperheistä (paralogit) kuin DNA-Blat. NCBI:n BLAST ja psi-BLAST löytävät kuitenkin paljon kaukaisempia vastaavuuksia.

Käytännön kannalta BLATilla on useita etuja BLASTiin verrattuna:

  • nopeus (ei jonoja, vastaus sekunneissa) pienemmän homologiasyvyyden hinnalla
  • mahdollisuus lähettää pitkä lista samanaikaisia kyselyitä fasta-muodossa
  • viisi kätevää tulosteen lajitteluvaihtoehtoa
  • suora linkki UCSC-selaimeen
  • . kohdistuslohkojen yksityiskohdat luonnollisessa genomijärjestyksessä
  • mahdollisuus käynnistää kohdistus myöhemmin osana mukautettua rataa

BLATia käytetään yleisesti sekvenssin sijainnin etsimiseen genomissa tai mRNA:n eksonirakenteen määrittämiseen, mutta asiantuntijakäyttäjät voivat suorittaa suuria erätöitä ja tehdä sisäisiä parametrien herkkyysmuutoksia asentamalla komentorivin Blatin omalle Linux-palvelimelleen.

BLAT ei löydä sekvenssiä tai kaikki odotetut täsmäävät

En löydä sekvenssiä BLATilla, vaikka olen varma, että se on genomissa. Teenkö jotain väärin?

Tarkista ensin, käytätkö oikeaa versiota genomista. Esimerkiksi ihmisen genomista on tällä hetkellä laajasti käytössä kaksi versiota (hg19 ja hg38), ja sekvenssisi saattaa olla vain toisessa niistä. Monissa julkaistuissa artikkeleissa ei ilmoiteta assemblaatioversiota, joten molempien kokeileminen voi olla tarpeen.

Erittäin lyhyitä sekvenssejä, jotka menevät cDNA-sekvenssin liitoskohdan yli, ei löydy, koska niitä ei ole genomissa. qPCR-alukkeet ovat tyypillinen esimerkki. Kokeile näissä tapauksissa käyttää In-Silico PCR:ää ja valita geenisarja kohteeksi. Yleensä In-Silico PCR -työkalu on herkempi, ja sitä tulisi suosia alukeparien kohdalla.

Toinen ongelmallinen tapaus on sekvenssien etsiminen toistoissa tai transposoneissa.BLAT ohittaa kyselyn toistuvimmat osat ja rajoittaa löytämiensä osumien määrää, mikä johtaa puuttuviin osumiin näissä toistosekvensseissä.BLAT:n online-versio peittää kyselystä 11mers:iä, jotka esiintyvät genomissa useammin kuin 1024 kertaa, ja rajoittaa tuloksensa 16:een osumaan kromosomijatkumoa kohti. Tämä tarkoittaa, että kromosomia kohti palautetaan enintään 32 paikkaa. Tämä on tehty nopeuden parantamiseksi, mutta se voi johtaa ohi meneviin osumiin, kun etsitään toistosekvenssejä.

Usein toistosekvenssien kohdalla voit käyttää itseketjua muiden osumien etsimiseen, mutta vain jos muut osumat ovat riittävän pitkiä ja spesifisiä. Voit tarkistaa, esiintyykö jokin sekvenssi tietyssä paikassa käyttämällä ”Lyhyt täsmääminen”-rataa, jos sekvenssi on alle 30 bp.Voit kiertää tämän vähimmäispituusrajoituksen lisäämällä enemmän rinnakkaista sekvenssiä kyselyysi, jotta kyselystä tulee riittävän yksilöllinen. Jos tämä ei ole mahdollista, ainoa vaihtoehto on ladata BLATin suoritettavat tiedostot ja genomin .2bit-tiedosto omalle koneellesi ja käyttää BLATia komentorivillä. Katso lisätietoja kohdasta BLATin lähdekoodin ja dokumentaation lataaminen. Kun käytät BLATin komentoriviversiota, voit asettaa repMatch-vaihtoehdon suureen arvoon yrittääksesi parantaa osumien löytämistä toistuvilta alueilta etkä käytä mitään oletusarvoista 11.ooc repeat masking -tiedostoa.

BLAT tai In-Silico PCR löytää useita osumia, kuten chr_alt tai chr_fix, vaikka odotetaan, että niitä on vain yksi

Näen genomissa kaksi tai useampia osumia, vaikka osumia pitäisi olla vain yksi. Mitä nämä ylimääräiset osumat ovat?

Tämä tapahtuu yleensä uudemmissa genomikokoonpanoissa, kuten hg38:ssa, kun haetaan sekvenssiä, jossa on ”vaihtoehtoinen” tai ”kiinteä” sekvenssi. Parantaakseen näiden assemblien laatua kuraattorit ovat lisänneet useampia versioita joistakin tärkeistä lokuksista, esim. MHC-alueista. He ovat myös lisänneet korjaussekvenssejä virheiden korjaamiseksi muuttamatta referenssiä. Katso lisätietoja patches-blogikirjoituksestamme.

Kun blat- tai isPCR-lasket sekvenssin, joka vastaa kromosomipaikkaa, jossa on myös fix- tai alt-sekvenssi, näet vastaavuuden referenssikromosomissa (esim. ”chr1”) ja toisen vastaavuuden patch-sekvenssissä (esim. chr1_KN196472v1_fix). Useimmissa tapauksissa on turvallista jättää korjaustapauksen osuma huomiotta, koska ihmisen genomi ei sisällä samanaikaisesti sekä viite- että korvaavaa sekvenssiä. Lisätietoja erityyppisistä korjaussekvensseistä on aiheeseen liittyvässä FAQ-merkinnässämme.

BLATin käyttörajoitukset

Sain Blat-palvelimelta varoituksen, jossa ilmoitettiin, että olin ylittänyt palvelimen käyttörajoitukset. Voitteko antaa minulle tietoa UCSC:n Blat-palvelimen käyttöparametreista?

Johtuen Blat-palvelimiemme suuresta kysynnästä, rajoitamme palvelua käyttäjille, jotka tekevät BLAT-työkalulle ohjelmallisia kyselyjä tai suuria eräkyselyjä. BLATin ohjelmallinen käyttö on rajoitettu enintään yhteen osumaan 15 sekunnin välein ja enintään 5 000 osumaan päivässä. Rajoita eräkyselyt enintään 25 sekvenssiin.

Käyttäjille, joilla on suuria BLAT-vaatimuksia, suosittelemme BLAT-työkalun lataamista paikalliseen käyttöön. Lisätietoja on kohdassa BLAT-lähdekoodin ja dokumentaation lataaminen.

BLAT-lähdekoodin ja dokumentaation lataaminen

Onko BLAT-lähdekoodi ladattavissa? Onko dokumentaatio saatavilla?

BLATin lähdekoodi ja suoritettavat tiedostot ovat vapaasti saatavilla akateemiseen, voittoa tavoittelemattomaan ja henkilökohtaiseen käyttöön. Kaupallisia lisensointitietoja on saatavilla Kent Informaticsin verkkosivuilta.

BLAT-lähdekoodin voi ladata osoitteesta http://hgdownload.soe.ucsc.edu/admin/ (sijaitsee osoitteessa /kent/src/blat uusimman jksrci*.zip-lähdekoodipuun sisällä). BLAT-ohjelman suoritettavat tiedostot löytyvät osoitteesta http://hgdownload.soe.ucsc.edu/admin/exe/ ja valitsemalla konetyyppisi.

Dokumentaatio BLAT-ohjelman määrittelyistä löytyy täältä. Huomaa, että komentorivin BLAT ei palauta hakusekvenssin U-nukleotidien osumia.

Web-pohjaisen Blatin parametrien toistaminen komentoriviversiossa

Omistan omaa Blat-palvelinta ja haluaisin käyttää samoja parametriarvoja, joita UCSC:n web-pohjainen Blat-palvelin käyttää.

Odotamme melkeinpä lähes poikkeuksetta, että on odotettavissa pientä eroavaisuutta hgBLAT/gfServer-ohjelman ja riippumattoman käskynrokkipainotteisen BLATin välillä. Parhaat vastaavuudet löytyvät pslReps- ja pslCDnaFilter-apuohjelmien avulla. Verkkopohjainen Blat on viritetty sallivasti siten, että vähimmäispistemäärä on 20, mikä näyttää suurimman osan kohdistuksista. Suosittelemme päättämään, mitkä suodatusparametrit ovat kokeen tai analyysin kannalta järkevimmät. Usein nämä asetukset ovat erilaiset ja tiukemmat kuin verkkopohjaisen Blatin asetukset. Tätä silmällä pitäen käytä seuraavia asetuksia, joilla voit lähestyä verkkopohjaisen Blatin hakutuloksia:

Huomautus: On tapauksia, joissa gfServer/gfClient-lähestymistapa tarjoaa paremmanlähestymistavan verkkotuloksiin kuin itsenäinen Blat. Katso tämän prosessin yleiskuvaus alla olevasta esimerkistä.

standalone Blat:

  • Blat-haku:
    blat -stepSize=5 -repMatch=2253 -minScore=20 -minIdentity=0 database.2bit query.fa output.psl
  • Huomautus: Verkkotulosten jäljittelemiseksi on käytettävä PSL-tulostetta. BLAT käsittelee vaihtoehtoisia tulostusformaatteja (kuten blast8) hieman eri tavalla, mikä voi johtaa pieniin eroihin tuloksissa; erityisesti lyhyiden kohdistusten kohdalla. Lisäksi kyselysekvenssin kaikkien U-nukleotidien tulisi olla muunnettu T-nukleotideiksi tai siinä tulisi käyttää ”-q=rna”-lippua, jotta se vastaisi web-BLAT:ia.

faToTwoBit:

  • Käyttää pehmeää maskeerausta Fasta-muodon muuntamiseksi 2-bittiseen muotoon BLAT:in syötettä varten.

gfServer (näin UCSC:n verkkopohjaiset BLAT-palvelimet on konfiguroitu):

  • BLAT-palvelin (kykenee PCR:ään):
    gfServer start blatMachine portX -stepSize=5 -log=untrans.log database.2bit
  • käännetty BLAT-palvelin:
    gfServer start blatMachine portY -trans -mask -log=trans.log database.2bit

DNA/DNA- ja DNA/RNA-tapausten mahdollistamiseksi tarvitaan vain isäntäasema (host), portti (portti) ja twoBit-tiedostoja. Samaa porttia käytetään sekä kääntämättömässä Blatissa (gfClient) että PCR:ssä (webPcr). Tarvitset erillisen Blat-palvelimen erillisessä portissa, jotta voit ottaa käyttöön käännetyn Blatin (proteiinihaut tai käännetyt haut proteiiniavaruudessa).

gfClient:

  • Setaa -minScore=0 ja -minIdentity=0. Tämä johtaa joihinkin alhaisen pistemäärän saaneisiin, yleensä vääränlaisiin osumiin, mutta vuorovaikutteisessa käytössä ne on riittävän helppo jättää huomiotta (koska tulokset lajitellaan pistemäärän mukaan), ja toisinaan alhaisen pistemäärän saaneille osumille on käyttöä.

Huomautuksia repMatchista:

  • Oletusasetus gfServerin dna-otteluille on: repMatch = 1024 * (tileSize/stepSize).
  • Oletusasetus Blatin dna-otteluille on: repMatch = 1024 (jos tileSize=11).
  • Saadaksesi komentorivitystulokset, jotka vastaavat web-pohjaisia tuloksia, repMatch on määritettävä BLATia käytettäessä.

Lisätietoja web-pohjaisen Blatin näyttämien pistemäärä- ja identiteettiprosenttiyhteensopivuusosumien kopioimisesta on tässä BLAT FAQ:ssa.

Lisätietoja BLATin, gfServerin ja gfClientin käytettävissä olevista parametreista on BLATin määrittelyissä.

Käyttämällä -ooc-lippua

Mitä -ooc-lippu tekee?

Minkä tahansa -ooc-optio-osan käyttäminen BLATissa, kuten -ooc=11.ooc, nopeuttaa hakuja samanlaisesti kuin toistojono. 11.ooc-tiedosto sisältää sekvenssejä, joiden on todettu olevan yliedustettuina genomisekvenssissä. Hakunopeuden parantamiseksi näitä sekvenssejä ei käytetä, kun kohdistusta tehdään genomia vastaan. Kohtuullisen kokoisille sekvensseille tämä ei aiheuta ongelmaa ja lyhentää käsittelyaikaa merkittävästi.

Jos et käytä 11.ooc-tiedostoa, kohdistukseen kuluva aika pitenee, mutta myös herkkyys kasvaa hieman. Tämä voi olla tärkeää, jos kohdistat lyhyempiä sekvenssejä tai huonolaatuisia sekvenssejä. Jos esimerkiksi tietty sekvenssi koostuu pääasiassa 11.ooc-tiedostossa olevista sekvensseistä, sitä ei koskaan siementetä oikein kohdistusta varten, jos käytetään -ooc-lippua.

Yhteenvetona voidaan todeta, että jos et löydä tiettyjä sekvenssejä ja sinulla on varaa ylimääräiseen käsittelyaikaan, voit ehkä ajaa BLATin ilman 11.ooc-tiedostoa, jos erityistilanteesi oikeuttaa sen käyttöön.

Verkkopohjaisen Blatin prosenttitunniste- ja pistemäärälaskelmien kopiointi

Käyttäen omaa komentorivin Blat-palvelinta, miten voin kopioida verkkopohjaisen Blatin tuottamat prosenttitunniste- ja pistemäärälaskelmat?

Komentorivin Blatissa ei ole vaihtoehtoa, joka antaisi prosenttitunnisteen ja pistemäärän. Olemme kuitenkin luoneet skriptejä, jotka sisältävät laskelmat:

  • Katso perl-skripti lähdepuusta: pslScore.pl
  • Näytä vastaava C-ohjelma: pslScore.c ja siihen liittyvät kirjastofunktiot pslScore ja pslCalcMilliBad osoitteessa: psl.c

Katso lähdekoodin lisensointia ja lataamista koskevat usein kysytyt kysymykset lähdekoodin hankkimisesta.

Web-pohjaisen Blatin ”I’m feeling lucky” -hakutulosten toistaminen

Miten tuotan samat hakutulokset kuin web-pohjaisen Blatin ”I’m feeling lucky” -vaihtoehto käyttämällä komentorivin Blatia?

Blatin ”I’m feeling lucky” -haun koodi järjestelee tulokset kyselysivulla valitun lajittelutulosteen vaihtoehdon perusteella. Sen jälkeen se palauttaa korkeimman pistemäärän saaneen ensimmäisen kyselysekvenssin kohdistuksen.

Jos lajittelet tulokset ”query, start” tai ”chrom, start” mukaan, ”I’m feeling lucky” -tuloksen tuottaminen on suoraviivaista: lajittele tulostustiedosto näiden sarakkeiden mukaan ja valitse sitten ylin tulos.

Voidaksesi toistaa minkä tahansa lajitteluvaihtoehdon, jossa on mukana pisteet, sinun on ensin laskettava pisteet jokaiselle tulokselle PSL:n tulostiedostossasi ja sen jälkeen lajiteltava tulokset pisteiden tai muun yhdistelmän mukaan (esim. ”query, score” ja ”chrom, score”). Katso lisätietoja pisteytyksen laskemisesta kohdasta Verkkopohjaisten Blat-prosentti-identiteetti- ja pistelaskelmien jäljentäminen.

Vaihtoehtoisesti voit kokeilla suodattaa Blatin PSL-tulosteen käyttämällä joko pslReps tai pslCDnaFilter ohjelmaa, joka on saatavilla Genome Browserin lähdekoodissa. Tietoa lähdekoodin hankkimisesta löydät lähdekoodin lisensointia ja lataamista koskevista usein kysytyistä kysymyksistä.

Blatin käyttäminen lyhyille sekvensseille maksimaalisella herkkyydellä

Miten konfiguroin BLATin lyhyille sekvensseille maksimaalisella herkkyydellä?

Tässä on joitain ohjeita itsenäisen Blatin ja gfServer/gfClientin konfigurointiin näitä olosuhteita varten:

  • Kaava lyhimmän kyselyn koon löytämiseksi, joka takaa täsmäämisen (jos täsmääviä laattoja ei ole merkitty ylikäytetyksi) on:
    Esimerkiksi, kun stepSize on asetettu 5:een ja tileSize 11:een, löydetään 2 * 5 + 11 – 1 = 20 bp:n suuruiset osumat, jos kysely vastaa täsmälleen kohdetta.
    Parametri stepSize voi olla välillä 1 ja tileSize.
    Parametri tileSize voi olla välillä 6-15. Proteiinien osalta vaihteluväli alkaa alempaa.
    Jos minMatch=1 (esim., proteiini), taattu vähimmäispituus on: 1 * stepSize + tileSize – 1
    Huomautus: Osumia varten on olemassa myös ”vähimmäiskoko”. Tämä on pienin mahdollinen osuma, jonka BLAT voi löytää. Tämä onnen minimikoko voidaan laskea kaavalla: stepSize + tileSize. Jos esimerkiksi tileSize on 11 ja stepSize 5, alle 16 emäksen osumia ei ilmoiteta.
  • Kokeile käyttää -fine-ohjelmaa.
  • Käytä suurta arvoa repMatch-arvolle (esim. -repMatch = 1000000) vähentääksesi mahdollisuutta, että laatta merkitään ylikäytetyksi.
  • Älä käytä .ooc-tiedostoa.
  • Älä käytä -fastMap.
  • Älä käytä peittäviä komentorivioptioita.

Ylläolevat muutokset tekevät BLATista herkemmän, mutta hidastavat myös nopeutta ja lisäävät muistin käyttöä. Saattaa olla tarpeen käsitellä yksi kromosomi kerrallaan muistivaatimusten vähentämiseksi.

Huomautus tulosteen suodattamisesta: -minScore-parametrin arvon nostamisella yli puoleen kyselyn koosta ei ole enää vaikutusta. Käytä siksi joko pslReps– tai pslCDnaFilter-ohjelmaa, joka on saatavilla Genome Browserin lähdekoodissa, suodattaaksesi halutun koon, pistemäärän, kattavuuden tai laadun. Tietoa lähdekoodin hankkimisesta löydät lähdekoodin lisensointia ja lataamista koskevista usein kysytyistä kysymyksistä.

Blat ALL genomes

How do I blat queries for the default genome assemblies of all organisms?

BLAT on suunniteltu etsimään nopeasti sekvenssien samankaltaisuutta kysely- ja kohdesekvenssien välillä. Yleensä BLATia käytetään sekvenssihomologian paikkojen löytämiseen yhdestä kohdegenomista tai mRNA:n eksonirakenteen määrittämiseen. BLATin avulla käyttäjät voivat myös verrata kyselysekvenssiä kaikkiin UCSC:n Genome Browserissa olevien organismien oletuskokoonpanoihin. Search ALL -ominaisuus voi olla hyödyllinen, jos sinulla on epäselvä kyselysekvenssi ja yrität määrittää, mihin organismiin se voi kuulua.

Valitsemalla ”Search ALL” -valintaruudun Genome-pudotusvalikon yläpuolella voit hakea kaikkien organismiemme oletuskokoonpanojen genomeja. Se hakee myös kaikkien liitettyjen solmujen Blat-palvelimilta, mikä tarkoittaa, että voit hakea käyttäjien luomia kokoonpanosolmuja. Tulossivulla näytetään järjestetty luettelo kaikista organismeistamme ja niiden homologiasta hakusekvenssin kanssa. Tulokset on järjestetty siten, että organismi, jolla on paras kohdistuspistemäärä, on ylimpänä, mikä osoittaa, millä kyseisen organismin alueella (alueilla) on suurin homologia hakusekvenssin kanssa.Koko kohdistuksen, mukaan lukien epäsovitukset ja aukot, on saatava vähintään 20 pistettä, jotta se näkyy Blat-tulosteessa. Klikkaamalla Assembly-luettelossa olevaa linkkiä pääset uudelle sivulle, jossa näytetään eri paikat ja sekvenssihomologian pisteet kiinnostavassa Assemblyssä.

Blat ALL genomes: No matches found

My Blat ALL -tuloksissani näkyvät kokoonpanot, joissa on osumia, mutta niitä klikkaamalla ilmoitetaan, ettei osumia löydy

Blat ALL -tulossivulla ”Hits”-sarake ei edusta kohdistuksia, vaan siinä ilmoitetaan laattaosumia. Tile-hitit ovat kohteesta löydettyjä 11 emäksen kmer-otteluita, jotka eivät välttämättä edusta onnistuneita kohdistuksia. Kun napsautetaan ”Assembly”-linkkiä, suoritetaan kyseisen genomin täydellinen Blat-kohdistus, ja kaikki kohdistusarvot, jotka edustavat alle 20 bp:n tulosta, ilmoitetaan, että osumia ei löytynyt.

Kun lähetät sekvenssin Blat ALL -apuohjelmaan, sekvenssiä verrataan palvelimella olevaan indeksiin. Indeksi on rakennettu kohdegenomista, ja sen oletusaskel on 11bp. Nämä 11-merit ”laatoittavat” sekvenssin seuraavasti:

TGGACAACATG GCAAGAATCAG TCTCTACAGAA

Kun indeksi on rakennettu, kohdistuksen ensimmäinen vaihe on lukea kysely- (haku-) sekvenssi, poimia kaikki 11-merit ja etsiä ne parhaillaan muistissa olevasta genomin 11-meri-indeksistä. Sieltä löytyvät osumat ovat ensimmäiset ”osumat”, jotka näet Blat ALL -tulossivulla. Seuraavassa vaiheessa etsitään osumia, jotka ovat päällekkäisiä tai tietyn etäisyyden päässä toisistaan, ja yritetään kohdistaa sekvenssit kohde- ja kyselyosumien osumakohtien välille.

Jos esimerkiksi kaksi 11-emäksistä laattatyyppistä osumaa kohdistuu täydellisesti toisiinsa, tuloksena on pistemäärä 22. Tämä on yli vaaditun vähimmäispistemäärän 20 (ks. Blat ALL genomes), ja se ilmoitettaisiin kohdistuksena. Puutteista ja epäsovituksista sekä mahdollisesta päällekkäisyydestä (ks. stepsize BLAT-määrityksissä) on kuitenkin rangaistuksia, jotka kaikki voivat laskea pistemäärän alle 20:een. Tällöin Blat ALL raportoisi 2 ”osumaa”, mutta kokoonpanon klikkaaminen ei raportoisi yhtään osumaa. Tämä tapahtuu useimmiten silloin, kun Blat ALL raportoi vain muutamia (1-3) osumia.

Web-pohjaisten Blat-tulosten lähentäminen gfServer/gfClientin avulla

Usein gfServer/gfClientin käyttäminen antaa paremman likimääräisen tuloksen tai jopa kopion web-pohjaisista Blat-tuloksista, joita ei muutoin löydy erillisellä Blatilla. Tämä lähestymistapa jäljittelee Genome Browser -verkkopohjaisen Blatin käyttämää blat-palvelinta. Seuraavassa esimerkissä näytetään, miten hg19 gfServer asetetaan ja tehdään kysely. Lataa ensin käyttöjärjestelmään sopiva apuohjelma ja anna sille suoritusoikeudet:

#For linuxrsync -a rsync://hgdownload.soe.ucsc.edu/genome/admin/exe/linux.x86_64/blat/ ./#For MacOSrsync -a rsync://hgdownload.soe.ucsc.edu/genome/admin/exe/macOSX.x86_64/blat/ ./chmod +x gfServer gfClient blat

Lataa seuraavaksi sopiva .2bit-genomi (tässä esimerkissä hg19) ja suorita gfServer-apuohjelma webblat-parametreilla, määrittäen paikallisen koneen ja portin 1234:

wget http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/hg19.2bit./gfServer start 127.0.0.1 1234 -stepSize=5 hg19.2bit

Muutaman hetken kuluttua gfServer initialisoituu, ja se on valmis vastaanottamaan kyselyitä. Lähestyäksemme web Blatia käytämme gfClient-ohjelmaa seuraavilla parametreilla, joilla nimetään syöttö- ja tulostiedostot.

./gfClient -minScore=20 -minIdentity=0 127.0.0.1 1234 . input.fa out.psl

Tulostiedostossa out.psl pitäisi olla hyvin samankaltaisia tuloksia kuin web-pohjaisessa Blatissa.

Standalone- tai gfServer/gfClient-tulosten alkuasemat poikkeavat yhdellä

Minun standalone Blat -tulosteni tai gfServer/gfClient Blat -tulosteni alkuasema on yksi vähemmän kuin mitä näen web Blat -tuloksissa

Tämä johtuu siitä, miten tallennamme sisäisiä koordinaatteja Genome Browserissa. OletusarvoinenBlat-tulostustyypin hyperlinkki näyttää tulokset sisäisessä koordinaattitietorakenteessamme. Näillä sisäisillä koordinaateilla on nollaan perustuva alku ja yhteen perustuva loppu. Katso lisätietoja seuraavasta FAQ-merkinnästä.

Jos WebBlatin Output-tyyppi muutetaan psl:ksi, samankaltaiset nollapohjaiset puoliavoimet koordinaattitulokset näkyvät erillisissä Blat- ja gfServer/gfClient-proseduureissa.

Jätä kommentti