アメリエフの技術ブログ

Amelieff Staff Blog

融合遺伝子検出ソフトウェア defuseを使ってみる【第一回】

前回ご紹介した融合遺伝子検出ソフトウェア・defuseを使ってみます。

一回目の今回は、データの準備とソフトウェアのインストールを行います。

【第一回】
1. 解析データの準備
2. アノテーションデータの準備
3. ソフトウェアのインストール


【第二回】
4. 設定ファイルの編集
5. データセットの作成

【第三回】
6. 融合遺伝子予測

1. 解析データの準備

融合遺伝子を調べたいサンプルのリードデータ(Fastqファイル)を用意します。

とりあえず動かしてみるだけなら、deFuseの論文[1]で使われているテストデータで試してみましょう。
これは元々融合遺伝子検出ソフトウェア FusionSeq[2]で使われたヒト前立腺癌のRNA-Seqデータで、融合遺伝子 TMPRSS2-ERG が含まれています。

2. アノテーションデータの準備

以下のデータをダウンロードして解凍します。

ヒトリファレンスゲノムhg19のFastaファイル(染色体がchr1〜21、MT、X、Y以外のFastaファイルは不要なので削除し、ヘッダーのdescriptionを削除して1ファイルにマージしておきます)

ヒト遺伝子モデルのGTFファイル

ヒトESTのFastaファイル

ヒトESTのIntron情報

ヒトUniGene情報

ヒトのリピート情報(UCSC Genome BrowserのRepeatMaskerトラックをダウンロード)


3. ソフトウェアのインストール

以下のソフトウェアをインストールします。

deFuse

bowtie ※0.12.5以上が必要

blat バイナリ版

faToTwoBit バイナリ版

R


これで、必要なデータとソフトウェアが準備できました。
次回は「設定ファイルの編集」「データセットの作成」を行います。

ご注意
・本記事ではヒトの解析例を示します。同等の情報を用意できれば他の生物種でも実行可能と思われます。
・データを置く場所・ソフトウェアのインストール先などは、お使いの環境にあわせて読み替えてください。
・defuseは現時点の最新版(0.5.0)を使用しました。



[1] McPherson A, et.al
____deFuse: an algorithm for gene fusion discovery
____in tumor RNA-Seq data.
____PLoS Comput Biol. 2011 May;7(5):e1001138.
____http://www.ncbi.nlm.nih.gov/pubmed/21625565

[2] Sboner A, et.al
____FusionSeq: a modular framework for finding gene fusions
____by analyzing paired-end RNA-sequencing data.
____Genome Biol. 2010;11(10):R104.
____http://www.ncbi.nlm.nih.gov/pubmed/20964841