Clustal W:n ja Clustal X:n versio 2.0

Abstract

Yhteenveto: Clustal W:n ja Clustal X:n monisekvenssikohdistusohjelmat on kirjoitettu kokonaan uudelleen C++-kielellä. Tämä helpottaa kohdistamisalgoritmien jatkokehitystä tulevaisuudessa ja on mahdollistanut ohjelmien asianmukaisen porttauksen Linux-, Macintosh- ja Windows-käyttöjärjestelmien uusimpiin versioihin.

Contact:[email protected]

1 JOHDANTO

Moninkertaiset sekvenssikohdistukset (multiple sequence alignment) ovat nykyään yksi yleisimmin käytetyistä bioinformatiikan analyyseistä. Niitä tarvitaan rutiininomaisesti osana monimutkaisempia analyysejä tai analyysiputkia, ja on olemassa useita hyvin laajalti käytettyjä paketteja, esimerkiksi Clustal W (Thompson et al., 1994), Clustal X (Thompson et al., 1997), T-Coffee (Notredame et al., 2000), MAFFT (Katoh et al., 2002) ja MUSCLE (Edgar, 2004). Clustal on myös vanhin tällä hetkellä eniten käytetyistä ohjelmista, sillä sitä jaettiin ensimmäisen kerran postitse levykkeillä 1980-luvun lopulla. Se oli alun perin kirjoitettu Microsoft Fortranilla MS-DOS:lle, ja se toimi alun perin IBM-yhteensopivilla henkilökohtaisilla tietokoneilla neljänä erillisenä suoritettavana ohjelmana, Clustal1-Clustal4 (Higgins ja Sharp, 1988, 1989). Myöhemmin ne kirjoitettiin uudelleen C-kielellä ja yhdistettiin yhdeksi ohjelmaksi, Clustal V:ksi (Higgins et al., 1992), jota levitettiin VAX/VMS-, Unix-, Apple Macintosh- ja IBM-yhteensopiville tietokoneille. Nämä ohjelmat jaettiin EMBL:n tiedostopalvelimelta (Stoehr ja Omond, 1989), sähköposti- ja FTP-palvelimelta, joka sijaitsee EMBL:ssä Heidelbergissä, Saksassa.

Nykyaikaiset Clustal-ohjelmat ovat kaikki lähtöisin Clustal W:stä (Thompson ym., 1994), joka sisälsi uudenlaisen paikkakohtaisen pisteytysjärjestelmän ja painotusjärjestelmän, jolla voidaan alentaa yliedustettujen sekvenssiryhmien painoarvoa. W tarkoittaa painoja. Näitä ohjelmia on muutettu ja täydennetty useita kertoja vuoden 1994 jälkeen toiminnallisuuden ja herkkyyden lisäämiseksi. Käyttäjäystävällisyyttä on myös parannettu huomattavasti lisäämällä vuonna 1997 täydellinen graafinen käyttöliittymä (Thompson et al., 1997). Tämä on tehnyt koodin ylläpidosta ja kehittämisestä monimutkaista, koska graafista käyttöliittymää on jatkuvasti muutettava ja käännettävä uudelleen uusia käyttöjärjestelmiä ja työpöytäympäristöjä (Windows, Macintosh, VMS, Unix ja Linux) varten.

1990-luvun lopulla Clustal W ja Clustal X olivat laajimmin käytettyjä monitahoasetteluohjelmia. Niillä pystyttiin kohdistamaan keskikokoisia aineistoja hyvin nopeasti ja ne olivat helppokäyttöisiä. Kohdistukset olivat riittävän laadukkaita, eivätkä ne vaatineet kovin usein manuaalista muokkausta tai säätöä. Tilanne muuttui huomattavasti, kun ilmestyi ensimmäinen räätälöity vertailutestiohjelma BAliBASE (Thompson et al., 1999). Tämän jälkeen ilmestyi T-Coffee, joka pystyi tekemään erittäin tarkkoja linjauksia hyvin erilaisista proteiineista, mutta vain pienille sekvenssijoukoille, koska sen laskentakustannukset olivat korkeat. Pöytätietokoneiden prosessointinopeuden kasvun ja T-Coffee-koodin myöhemmän optimoinnin myötä T-Coffee on nyt käytännöllinen rutiinikäyttöön kohtalaisen suurissa kohdistamisongelmissa. Hiljattain ilmestyivät MAFFT ja MUSCLE, jotka olivat aluksi vähintään yhtä tarkkoja kuin Clustal kohdistustarkkuuden suhteen, mutta myös erittäin nopeita ja kykenivät kohdistamaan useita tuhansia sekvenssejä. Viimeisten 4-5 vuoden aikana nämä ohjelmat ovat myös vähitellen tulleet yhä tarkemmiksi vaikeissa kohdistuksissa. Siitä huolimatta Clustal W:tä ja Clustal X:ää käytetään edelleen hyvin laajalti, yhä useammin verkkosivustoilla. EBI:n Clustal-sivusto saa kirjaimellisesti miljoonia moninkertaisia kohdistustehtäviä vuodessa.

Juuri tässä yhteydessä kehitimme Clustal W 2.0:n ja Clustal X 2.0:n. Nämä ohjelmat kirjoitettiin uudelleen C++-kielellä yksinkertaisella oliomallilla, jotta koodin ylläpito olisi helpompaa ja mikä tärkeämpää, jotta joitakin kohdistamisalgoritmeja olisi helpompi muuttaa tai jopa korvata. Olemme tuottaneet kaksi uutta ohjelmaa, jotka ovat ulkoasultaan hyvin samankaltaisia kuin vanhemmat version 1.83 ohjelmat, mutta joita on nyt helpompi hallita. Olemme myös tehneet joitakin pieniä muutoksia kohdistusalgoritmeihin. Olemme sisällyttäneet uuden koodin UPGMA-ohjauspuita varten vaihtoehtona tavanomaisille Neighbor-Joining-ohjauspuille. Tämä auttaa nopeuttamaan erittäin suurten, kymmenien tuhansien sekvenssien aineistojen kohdistamista. Olemme myös lisänneet iteratiivisen kohdistusmahdollisuuden, joka lisää kohdistuksen tarkkuutta.

Kuva 1.

ClustalX 2.0 Kuvakaappaus Mac OS X:ssä.

Kuva 1.

ClustalX 2.0 Kuvakaappaus Mac OS X:ssä.

Clustal X 2.0 on uusi versio graafisesta Clustal X -kohdistustyökalusta. Alkuperäinen Clustal X kehitettiin NCBI:n värähtelevän työkalupakin avulla. Vibrant-työkaluryhmää ei enää tueta, mikä johti ongelmiin Clustal X:n kääntämisessä uudemmissa käyttöjärjestelmäversioissa. Clustal X 2.0:n graafisen käyttöliittymän osat on kirjoitettu kokonaan uudelleen käyttäen Qt GUI -työkaluryhmää. Qt on helppokäyttöinen, monialustainen C++ GUI-työkalupakki. Koodi tarvitsee kääntää vain kerran kullakin alustalla. Qt-työkalupakki tarjoaa natiivin ulkoasun Windows-, Linux- ja Mac-alustoilla. Clustal X 2.0:ssa on samat toiminnot kuin Clustal X:ssä.

2 UUDET OMINAISUUDET

Clustal W 2.0:aan on sisällytetty kaksi uutta vaihtoehtoa, joiden avulla voidaan nopeuttaa hyvin suurten datajoukkojen kohdistamista ja lisätä kohdistustarkkuutta. Clustal W:n ja Clustal X 2.0:n oletusasetukset ovat samat kuin Clustal W 1.83:ssa, ja ne antavat samat kohdistustulokset.

Clustalissa olevat ohjepuut on laskettu Neighbor-Joining (NJ) -menetelmällä viimeisten noin 10 vuoden ajan. Ohjelman varhaisimmissa versioissa käytettiin UPGMA:ta. UPGMA on nopeampi kuin NJ, mutta se on altis klusteroimaan pitkiä oksia yhteen, kun evoluutionopeudet ovat hyvin epätasaisia eri sukulinjoissa. Molempien algoritmien monimutkaisuus on O(N2), mutta UPGMA on nopeampi tietyllä aineistolla, ja ero korostuu, kun N on hyvin suuri. Tavallisella pöytätietokoneella on mahdollista klusteroida 10 000 sekvenssiä alle minuutissa UPGMA:lla, kun taas NJ:llä klusterointi veisi yli tunnin. Olemme toteuttaneet uudelleen erittäin tehokkaan algoritmin UPGMA:ta varten, jota voidaan kutsua käyttämällä komentorivin vaihtoehtoa ’-clustering=UPGMA’. Se on marginaalisesti epätarkempi Balibase-vertailussa, mutta suurilla kohdistuksilla (esim. 10 000 globiinisekvenssiä) tämä kompensoituu käsittelyajan säästöllä (2 h vs. 12 h).

Iterointi on nopea ja tehokas menetelmä kohdistusten tarkentamiseen. Tähän Clustal-versioon on sisällytetty ”poista ensin” -iteraatiojärjestelmä, joka optimoi WSP-pistemäärän (Weighted Sum of Pairs). Jokaisen iteraatiovaiheen aikana jokainen sekvenssi poistetaan vuorollaan kohdistuksesta ja kohdistetaan uudelleen. Jos WSP-pistemäärä pienenee, tuloksena oleva kohdistus säilytetään. Iterointijärjestelmää voidaan käyttää joko lopullisen kohdistuksen tarkentamiseen tai jokaisessa asteittaisen kohdistuksen vaiheessa. Iterointi progressiivisen kohdistuksen aikana on yleensä tarkempaa mutta myös paljon aikaa vievämpää, koska ohjauspuussa on 2N-3 solmua. Komentorivioptio ’-Iteration=Alignment’ tarkentaa lopullista linjausta, kun taas optio ’-Iteration=Tree’ sisällyttää järjestelmän progressiiviseen linjaukseen. Iteraatiosyklien määrä asetetaan komentorivivaihtoehdolla ’-numiters’ (oletusarvo on 3).

TAKAISINLUETTELO

Tämän työn rahoitti pääosin Science Foundation Ireland.

Interressiristiriita: Ei ole ilmoitettu.

Tekijän muistiinpanot

Associate Editor: Alex Bateman

.

Jätä kommentti