SomaticSniperを実際に動かしてみます。
SomaticSniperはCentOSでも問題なく動作しますが、Ubuntuでの使用が推奨されています。
基本的な実行コマンドは下の通りになります。
必要なファイルは腫瘍サンプルと、ペアとなる正常サンプルのBAMファイルです。両方とも、リアライメントやduplicated readの削除など、補正されたものが推奨されています。
reference.faにはBAMファイルを作成する際に使用したゲノムを指定します。
$ bam-somaticsniper -f reference.fa tumor.bam normal.bam snp_output_file
オプションで、VCFやBED出力を指定することができます。
その他にも、検出するSNVのdepthやマッピング・ジェノタイピングのクオリティ、統計的なsomaticらしさ(somatic score)なども指定できますので、信頼性の低いSNVを除外する場合はこの時に指定できます。
論文で、設定を検討して信頼性が高い条件を挙げていますので、条件を厳しくして信頼性がきわめて高いSNVだけを検出したいときは、パラメータをデフォルトから変更して実行します。
実行後の出力ファイルに対しフィルタリングができる付属のスクリプトもあります。固まって検出されたSNVのフィルタリングができるなど、実行時に指定できるオプションよりフィルタリング条件が多いのでこちらも便利です。
注意点としましては、GATKの変異検出ツールUnifiedGenotyperの-Lオプションのように解析する領域を指定することができないので、
target sequence解析で使用する場合、SomaticSniperを実行する前のbamをintersectBedなどでターゲット領域に絞ってから解析する必要があります。
VCF形式で出力した場合は、解析後にターゲット領域に絞ることもできます。
もちろん前者の方がSomaticSniperの実行時間は短くなりますが、なんといってもSomaticSniperは早いので、あまりファイルサイズを増やしたくない事情がある場合は後者の方法を利用してもいいですね。
前の記事でも触れましたが、BED出力も注意が必要です。
UCSC定義のBEDのフォーマット(詳しくはBEDフォーマット完全解説の記事を読んでください)と異なり、SomaticSniperのBEDは以下のとおり4〜6列目がUCSCの定義と違っています。
1. #CHROMSomaticSniperのBEDを使うときは、気に留めたほうがいいでしょう。
2. START
3. STOP
4. REF/ALT
5. SOMATIC_SCORE
6. TUMOR_DEPTH
まとめとして、実行が簡単な点や実行が速い点、VCFという扱いやすいフォーマットで出力できる点などが、便利なツールだと感じます。
簡単ですが、SomaticSniperの説明でした。