融合遺伝子検出ソフトウェア・defuse【第一回】のつづきです。
前回は、データの準備とソフトウェアのインストールを行いました。
今回は、設定ファイルの編集とデータセットの作成を行います。
【第一回】
1. 解析データの準備
2. アノテーションデータの準備
3. ソフトウェアのインストール
【第二回】
4. 設定ファイルの編集
5. データセットの作成
【第三回】
6. 融合遺伝子予測
4. 設定ファイルの編集
defuseのscriptsディレクトリ以下にあるconfig.txtを適当な場所にコピーし、以下の項目を編集します。
・source_directory にdeFuseのソースコードのディレクトリを記載
source_directory = /usr/local/defuse-0.5.0/
・dataset_directory にデータセットを置くディレクトリを記載
前回ダウンロードしたアノテーションデータを元に、解析に必要なデータを作成しておく必要があります。これをデータセットと呼びます。
dataset_directory = /home/hat/test_defuse/dataset
・gene_models に遺伝子モデルGTFファイルのパスを、genome_fasta にリファレンスゲノムFastaファイルのパスを記載します。
gene_models = /home/hat/test_defuse/annotation/Homo_sapiens.GRCh37.62.gtf
genome_fasta = /home/hat/test_defuse/annotation/Homo_sapiens.GRCh37.62.dna.chromosome.fa
・repeats_filename にリピート情報ファイルのパスを記載します。
repeats_filename = /home/hat/test_defuse/annotation/rmsk_hg19
・est_fasta にESTのFastaファイルのパスを、est_alignments にESTのIntron情報ファイルのパスを記載します。
est_fasta = /home/hat/test_defuse/annotation/est.fa
est_alignments = /home/hat/test_defuse/annotation/intronEst.txt
・unigene_fasta にUniGene情報ファイルのパスを記載します。
unigene_fasta = /home/hat/test_defuse/annotation/Hs.seq.uniq
・各ソフトウェアのパスを記載します。
bowtie_bin = /usr/local/bin/bowtie
bowtie_build_bin = /usr/local/bin/bowtie-build
blat_bin = /usr/local/bin/blat
fatotwobit_bin = /usr/local/bin/faToTwoBit
r_bin = /usr/local/bin/R
rscript_bin = /usr/local/bin/Rscript
5. データセットの作成
defuseのscriptsディレクトリにあるcreate_reference_dataset.plを実行します。この際、-cオプションでconfig.txtファイルのパスを指定します。
config.txtのdataset_directoryで指定したディレクトリ内にデータセットが作成されます。この処理は少し時間がかかります。
これで準備は整いました。
次回はいよいよ融合遺伝子の検出を行います。
ご注意
・本記事ではヒトの解析例を示します。同等の情報を用意できれば他の生物種でも実行可能と思われます。
・データを置く場所・ソフトウェアのインストール先などは、お使いの環境にあわせて読み替えてください。
・defuseは現時点の最新版(0.5.0)を使用しました。