読者です 読者をやめる 読者になる 読者になる

アメリエフのブログ

Amelieff Staff Blog

融合遺伝子検出ソフトウェア defuseを使ってみる【第一回】

前回ご紹介した融合遺伝子検出ソフトウェア・defuseを使ってみます。

一回目の今回は、データの準備とソフトウェアのインストールを行います。

【第一回】
1. 解析データの準備
2. アノテーションデータの準備
3. ソフトウェアのインストール


【第二回】
4. 設定ファイルの編集
5. データセットの作成

【第三回】
6. 融合遺伝子予測

1. 解析データの準備

融合遺伝子を調べたいサンプルのリードデータ(Fastqファイル)を用意します。

とりあえず動かしてみるだけなら、deFuseの論文[1]で使われているテストデータで試してみましょう。
これは元々融合遺伝子検出ソフトウェア FusionSeq[2]で使われたヒト前立腺癌のRNA-Seqデータで、融合遺伝子 TMPRSS2-ERG が含まれています。

2. アノテーションデータの準備

以下のデータをダウンロードして解凍します。

ヒトリファレンスゲノムhg19のFastaファイル(染色体がchr1〜21、MT、X、Y以外のFastaファイルは不要なので削除し、ヘッダーのdescriptionを削除して1ファイルにマージしておきます)

ヒト遺伝子モデルのGTFファイル

ヒトESTのFastaファイル

ヒトESTのIntron情報

ヒトUniGene情報

ヒトのリピート情報(UCSC Genome BrowserのRepeatMaskerトラックをダウンロード)


3. ソフトウェアのインストール

以下のソフトウェアをインストールします。

deFuse

bowtie ※0.12.5以上が必要

blat バイナリ版

faToTwoBit バイナリ版

R


これで、必要なデータとソフトウェアが準備できました。
次回は「設定ファイルの編集」「データセットの作成」を行います。

ご注意
・本記事ではヒトの解析例を示します。同等の情報を用意できれば他の生物種でも実行可能と思われます。
・データを置く場所・ソフトウェアのインストール先などは、お使いの環境にあわせて読み替えてください。
・defuseは現時点の最新版(0.5.0)を使用しました。



[1] McPherson A, et.al
____deFuse: an algorithm for gene fusion discovery
____in tumor RNA-Seq data.
____PLoS Comput Biol. 2011 May;7(5):e1001138.
____http://www.ncbi.nlm.nih.gov/pubmed/21625565

[2] Sboner A, et.al
____FusionSeq: a modular framework for finding gene fusions
____by analyzing paired-end RNA-sequencing data.
____Genome Biol. 2010;11(10):R104.
____http://www.ncbi.nlm.nih.gov/pubmed/20964841