Clustal W and Clustal X version 2.0

Abstract

概要:Clustal WおよびClustal X多重配列整列プログラムはC++で完全に書き換えられた。

Contact:[email protected]

1 はじめに

Multiple sequence alignment は現在最も広く使われているバイオインフォマティクス解析の一つである。 これらは、より複雑な解析や解析パイプラインの一部として日常的に必要とされ、Clustal W (Thompson et al., 1994), Clustal X (Thompson et al., 1997), T-Coffee (Notredame et al., 2000), MAFFT (Katoh et al., 2002) and MUSCLE (Edgar, 2004) などの非常に広く使われているパッケージがあります。 Clustalは、1980年代後半にフロッピーディスクで初めて配布され、現在最も広く使われているプログラムの中で最も古いものです。 当初はMS-DOS用のMicrosoft Fortranで書かれ、Clustal1-Clustal4という4つの別々の実行可能プログラムとしてIBM互換のパーソナルコンピュータで動作した(Higgins and Sharp, 1988, 1989)。 これらは後にC言語で書き直され、単一のプログラムであるClustal V (Higgins et al., 1992)に統合され、VAX/VMS、Unix、Apple Macintosh、IBM互換PC用に配布された。 これらのプログラムは、ドイツ・ハイデルベルグのEMBLにあるEMBL File server (Stoehr and Omond, 1989) という電子メールおよびFTPサーバーから配布された。

現在のClustalプログラムはすべてClustal W (Thompson et al., 1994) に由来し、新しい位置特異的スコアリングスキームを組み込み、過剰発現配列群を重み付けするスキームを組み込んでいる。 W」は「weights」の略。 これらのプログラムは、1994年以降、機能拡張や感度向上のために何度も修正・追加されている。 また、1997年には完全なGUIが追加され、使い勝手が大きく向上した(Thompson et al., 1997)。 このため、グラフィカル・インターフェースは常に新しいオペレーティング・システムやデスクトップ環境(Windows、Macintosh、VMS、Unix、Linux)用に修正し、再コンパイルしなければならず、コードの維持と開発が複雑になっている。

1990年代後半までに、Clustal WとClustal Xは最も広く使われている多重アラインメント・プログラムであった。 これらは中規模のデータセットを非常に迅速に整列させることができ、使いやすかった。 アラインメントの品質も十分で、手動での編集や調整を頻繁に行う必要はありませんでした。 この状況は、マルチプルアライメントプログラムのための最初のカスタムメイドのベンチマークテストセットであるBAliBASE(Thompson et al.) その後、T-Coffeeが登場し、非常に多様なタンパク質の正確なアラインメントが可能になったが、計算コストが高いため、少量の配列集合にしか対応できなかった。 デスクトップコンピュータの処理速度の向上と、その後のT-Coffeeコードの最適化により、現在では中規模のアライメント問題で日常的に使用できるようになった。 より最近では、MAFFTとMUSCLEが登場しました。これらは当初、アライメント精度の点では少なくともClustalと同等でしたが、非常に高速で、何千もの配列をアライメントすることが可能でした。 この4、5年の間に、これらのプログラムも徐々に難しいアラインメントの精度を高めてきました。 それでも、Clustal WとClustal Xは非常に広く使われ続けており、ウェブサイトでの利用も増えています。 EBI Clustal サイトには、文字通り年間数百万件のマルチプルアライメントジョブがあります。

このような背景から、私たちは Clustal W 2.0 と Clustal X 2.0 を開発しました。 これらのプログラムは、コードの保守を容易にするため、そしてより重要なことに、アライメント アルゴリズムの一部を簡単に変更したり置き換えたりできるように、シンプルなオブジェクト モデルを使って C++ で書き直されました。 2つの新しいプログラムは、古いバージョン1.83のプログラムと外観が非常に似ていますが、より簡単に管理できるようになりました。 また、アライメントアルゴリズムにも若干の調整を加えました。 通常の Neighbor-Joining ガイドツリーの代わりに、UPGMA ガイドツリー用の新しいコードが含まれています。 これにより、何万もの配列からなる非常に大きなデータセットのアライメントを高速化することができます。 また、アライメントの精度を上げるための反復アライメント機能も搭載しています。

図1.

ClustalX 2.0 Screenshot on Mac OS X.

Fig. 1.

ClustalX 2.0 Screenshot on Mac OS X.

ClustalX2.0。0 Screenshot on Mac OS X.

Clustal X 2.0 は、グラフィカルアライメントツール「Clustal X」の新バージョンです。 オリジナルの Clustal X は、NCBI の vibrant toolbox を使用して開発されました。 このツールボックスはもはやサポートされていないため、新しいバージョンのオペレーティング・システムでClustal Xをコンパイルする際に問題が発生しました。 Clustal X 2.0のグラフィカルインターフェース部分は、Qt GUIツールボックスを使用して完全に書き直されました。 Qt は、使いやすいマルチプラットフォーム C++ GUI ツールキットです。 コードは、各プラットフォームで一度だけコンパイルする必要があります。 Qt ツールボックスは、Windows、Linux、Mac の各プラットフォームでネイティブなルック&フィールを提供します。 Clustal X 2.0 は、Clustal X と同じ機能を備えています。

2 NEW FEATURES

Clustal W 2.0 には、非常に大きなデータセットの高速アライメントとアライメント精度を高めるための2つの新しいオプションが含まれています。 Clustal WおよびClustal X 2.0のデフォルトのオプションは、Clustal W 1.83と同じで、同じアライメント結果が得られます。

Clustalのガイドツリーは、過去10年ほど、NJ (Neighbor-Joining) 法を用いて計算されてきました。 プログラムの初期のバージョンでは、UPGMA が使用されていました。 UPGMAはNJよりも高速ですが、異なる系統で進化速度が非常に不均等な場合、長い枝を一緒に集めてしまう傾向があります。 どちらのアルゴリズムも計算量はO(N2)ですが、与えられたデータセットに対してはUPGMAの方が速く、Nが非常に大きくなるとその差は顕著になります。標準的なデスクトップPCでは、UPGMAを使って1万件の配列を1分以内にクラスタリングすることが可能ですが、NJでは1時間以上かかります。 我々はUPGMAのために非常に効率的なアルゴリズムを再実装した。これはコマンドラインオプション ‘-clustering=UPGMA’ で呼び出すことができる。 Balibase ベンチマークではわずかに精度が落ちるが、大きなアラインメント(例えば 10,000 個のグロビン配列)では、処理時間の節約(2 時間対 12 時間)により相殺される。 このバージョンの Clustal には、WSP (Weighted Sum of Pairs) スコアを最適化する ‘remove first’ 反復スキームが含まれています。 各反復ステップでは、各配列が順番にアライメントから削除され、再アライメントされます。 WSPスコアが減少した場合、結果のアライメントは保持されます。 反復スキームは、最終的なアライメントを改良するため、またはプログレッシブアライメントの各ステップで使用することができます。 プログレッシブアライメント中の反復は、より正確である傾向がありますが、ガイドツリー内に2N-3個のノードがあるため、より多くの時間を消費することになります。 コマンドラインオプション ‘-Iteration=Alignment’ は最終的なアライメントを洗練させ、オプション ‘-Iteration=Tree’ はプログレッシブアライメントにスキームを組み入れます。 反復サイクルの数はコマンドラインオプション ‘-numiters’ (デフォルトは 3) で設定される。

ACKNOWLEDGEMENT

この仕事は主にアイルランド科学財団から資金提供を受けた。

利益相反:何も宣言しない。 Alex Bateman

9767

コメントする