CAPICE はSNVやInDelの病原性を予測する計算手法です。CADDスコアで用いられる様々なゲノム注釈を用いて学習し、臨床的意義について学習したGradient boosting treeモデルです。 CAPICEは、多様な独立した合成データセットと実際の臨床データセットで一貫した性能を発揮します。 このソフトウェアは、Webサービス、事前計算されたスコア、またはローカルにインストールすることで使用することができます(すべて後述)。
Webサービスでの利用
CAPICEはhttp://molgenis.org/capice
SNVとInDelのスコアファイルをダウンロード(GrCh37準拠)
CAPICEスコアは、SNVとInDelをすべて計算し、あらかじめ用意しておいたものである。 このファイルはzenodoからダウンロードできます。
このファイルには以下のカラムがあります:#CHROM chromosome name, as POS genomic position (GrCh37 genome assembly)REF reference alleleALT alternative allelescore CAPICE score. スコアは0から1の範囲で、高いほどバリアントが病原性である可能性が高くなります
CAPICEソフトウェアのローカルインストール
CAPICEソフトウェアもこのリポジトリで提供されており、自分の環境でCAPICEを実行できます。以下のセクションでは、バリアントのアノテーションとCAPICEモデルを使った予測の実行に必要なステップを案内します。
Requirements
Python 3.6 (3.7 or 3.8 では動作しません)
Downloads, installation and processing of the input files
- Software and librariesCAPICE scripts can be downloaded from the CAPICE github repository.CAPICEのスクリプトはgithubリポジトリからダウンロードしてください。 CAPICEモデルは#tbd
git clone https://github.com/molgenis/capice.gitcd capice
-
変数注釈と入力ファイル形式CAPICEはCADDで使われているのと同じ機能セットを使用しています。 このリポジトリでは、CAPICE_example/test_input.vcfの入力バリアントリストの例と、CAPICE_example/test_caddAnnotated.tsv.gzの注釈付き入力ファイルも提供しています
-
予測の実行注釈付きファイルが準備できたら、最後のステップはgithubリポジトリに用意された学習済みのモデルの使用になります
bash predict.sh \/path/to/input \/path/to/CAPICE_model \/path/to/output \/path/to/log_file
は、CAPICEで使用するための、入力モデルの注釈付きファイルです。