読者です 読者をやめる 読者になる 読者になる

アメリエフのブログ

Amelieff Staff Blog

融合遺伝子検出ソフトウェア defuseを使ってみる【第二回】

融合遺伝子検出ソフトウェア・defuse【第一回】のつづきです。

前回は、データの準備とソフトウェアのインストールを行いました。
今回は、設定ファイルの編集とデータセットの作成を行います。

【第一回】
1. 解析データの準備
2. アノテーションデータの準備
3. ソフトウェアのインストール

【第二回】
4. 設定ファイルの編集
5. データセットの作成


【第三回】
6. 融合遺伝子予測


4. 設定ファイルの編集

defuseのscriptsディレクトリ以下にあるconfig.txtを適当な場所にコピーし、以下の項目を編集します。

・source_directory にdeFuseのソースコードのディレクトリを記載
source_directory = /usr/local/defuse-0.5.0/



・dataset_directory にデータセットを置くディレクトリを記載
前回ダウンロードしたアノテーションデータを元に、解析に必要なデータを作成しておく必要があります。これをデータセットと呼びます。
dataset_directory = /home/hat/test_defuse/dataset


・gene_models に遺伝子モデルGTFファイルのパスを、genome_fasta にリファレンスゲノムFastaファイルのパスを記載します。
gene_models = /home/hat/test_defuse/annotation/Homo_sapiens.GRCh37.62.gtf
genome_fasta = /home/hat/test_defuse/annotation/Homo_sapiens.GRCh37.62.dna.chromosome.fa


・repeats_filename にリピート情報ファイルのパスを記載します。
repeats_filename = /home/hat/test_defuse/annotation/rmsk_hg19


・est_fasta にESTのFastaファイルのパスを、est_alignments にESTのIntron情報ファイルのパスを記載します。
est_fasta = /home/hat/test_defuse/annotation/est.fa
est_alignments = /home/hat/test_defuse/annotation/intronEst.txt


・unigene_fasta にUniGene情報ファイルのパスを記載します。
unigene_fasta = /home/hat/test_defuse/annotation/Hs.seq.uniq


・各ソフトウェアのパスを記載します。
bowtie_bin = /usr/local/bin/bowtie
bowtie_build_bin = /usr/local/bin/bowtie-build
blat_bin = /usr/local/bin/blat
fatotwobit_bin = /usr/local/bin/faToTwoBit
r_bin = /usr/local/bin/R
rscript_bin = /usr/local/bin/Rscript


5. データセットの作成

defuseのscriptsディレクトリにあるcreate_reference_dataset.plを実行します。この際、-cオプションでconfig.txtファイルのパスを指定します。

config.txtのdataset_directoryで指定したディレクトリ内にデータセットが作成されます。この処理は少し時間がかかります。

これで準備は整いました。
次回はいよいよ融合遺伝子の検出を行います。

ご注意
・本記事ではヒトの解析例を示します。同等の情報を用意できれば他の生物種でも実行可能と思われます。
・データを置く場所・ソフトウェアのインストール先などは、お使いの環境にあわせて読み替えてください。
・defuseは現時点の最新版(0.5.0)を使用しました。