アメリエフの技術ブログ

Amelieff Staff Blog

融合遺伝子検出ソフトウェア defuseを使ってみる【第二回】

融合遺伝子検出ソフトウェア・defuse【第一回】のつづきです。

前回は、データの準備とソフトウェアのインストールを行いました。
今回は、設定ファイルの編集とデータセットの作成を行います。

【第一回】
1. 解析データの準備
2. アノテーションデータの準備
3. ソフトウェアのインストール

【第二回】
4. 設定ファイルの編集
5. データセットの作成


【第三回】
6. 融合遺伝子予測


4. 設定ファイルの編集

defuseのscriptsディレクトリ以下にあるconfig.txtを適当な場所にコピーし、以下の項目を編集します。

・source_directory にdeFuseのソースコードのディレクトリを記載
source_directory = /usr/local/defuse-0.5.0/



・dataset_directory にデータセットを置くディレクトリを記載
前回ダウンロードしたアノテーションデータを元に、解析に必要なデータを作成しておく必要があります。これをデータセットと呼びます。
dataset_directory = /home/hat/test_defuse/dataset


・gene_models に遺伝子モデルGTFファイルのパスを、genome_fasta にリファレンスゲノムFastaファイルのパスを記載します。
gene_models = /home/hat/test_defuse/annotation/Homo_sapiens.GRCh37.62.gtf
genome_fasta = /home/hat/test_defuse/annotation/Homo_sapiens.GRCh37.62.dna.chromosome.fa


・repeats_filename にリピート情報ファイルのパスを記載します。
repeats_filename = /home/hat/test_defuse/annotation/rmsk_hg19


・est_fasta にESTのFastaファイルのパスを、est_alignments にESTのIntron情報ファイルのパスを記載します。
est_fasta = /home/hat/test_defuse/annotation/est.fa
est_alignments = /home/hat/test_defuse/annotation/intronEst.txt


・unigene_fasta にUniGene情報ファイルのパスを記載します。
unigene_fasta = /home/hat/test_defuse/annotation/Hs.seq.uniq


・各ソフトウェアのパスを記載します。
bowtie_bin = /usr/local/bin/bowtie
bowtie_build_bin = /usr/local/bin/bowtie-build
blat_bin = /usr/local/bin/blat
fatotwobit_bin = /usr/local/bin/faToTwoBit
r_bin = /usr/local/bin/R
rscript_bin = /usr/local/bin/Rscript


5. データセットの作成

defuseのscriptsディレクトリにあるcreate_reference_dataset.plを実行します。この際、-cオプションでconfig.txtファイルのパスを指定します。

config.txtのdataset_directoryで指定したディレクトリ内にデータセットが作成されます。この処理は少し時間がかかります。

これで準備は整いました。
次回はいよいよ融合遺伝子の検出を行います。

ご注意
・本記事ではヒトの解析例を示します。同等の情報を用意できれば他の生物種でも実行可能と思われます。
・データを置く場所・ソフトウェアのインストール先などは、お使いの環境にあわせて読み替えてください。
・defuseは現時点の最新版(0.5.0)を使用しました。