TopHat-Fusionは、マッピングソフトのTopHatから派生した機能で、融合遺伝子を検出するのに広く使われています。
TopHat-Fusionを実行すると、fusions.outという候補となるポジションやリード数などの情報が出力されます。fusion.outの説明は、NGS Surfer's Wikiに書かれていますので、詳しくはこちらをご覧ください。
出力されたファイルに対してtophat-fusion-postというコマンドを実行すると、フィルタリングされた結果(result.txt)が作られます。
このresult.txtの見方を、BCAS4-BCAS3の検出を例に説明したいと思います。
MCF7 | BCAS4 | chr20 | 49411707 | BCAS3 | chr17 | 59445685 | 106 | 116 | 167
(1) MCF7 : 融合遺伝子が検出されたサンプル名
(2) BCAS4 : 融合遺伝子の左側の遺伝子名
(3) chr20 : 左側の遺伝子がある染色体番号
(4) 49411707 : 左側の遺伝子のポジション
(5) BCAS3 : 融合遺伝子の右側の遺伝子名
(6) chr17 : 右側の遺伝子がある染色体番号
(7) 59445685 : 右側の遺伝子のポジション
(8) 106 : breakpoint上のリード数
(9) 116 : breakpointを挟むペアエンドのリード数
(10) 167 : 片側のリードがbreakpoint上にあるペアエンドのリード数
以上が、フィルタリング後のresult.txtの列の説明でした。
参考:http://ccb.jhu.edu/software/tophat/data/result.html
Tophat-fusion-postによるフィルタリングは便利ですが、Linuxコマンドのawkを使ってfusions.outをフィルタリングする方法もあります。