アメリエフの技術ブログ

Amelieff Staff Blog

簡単♪環境構築② Reseq環境を作ってみる編

こんにちは
みなさんは5月の大型連休はいかがお過ごしになったでしょうか.
COVID-19で大変な時期ですが,インドア派の私は宅配ピザを食べてはゲームをする
という引きこもり自粛生活を送っていました.


今回はAnacondaによる解析環境構築実践編です.

前回の記事では「Anacondaを用いた解析環境構築」について書きました.
staffblog.amelieff.jp
今回は前回の記事を踏まえて.具体的な環境を実際に構築してみよう!という趣旨でやっていきたいと思います.
※前回と重複することが多々あると思いますが,ご容赦ください.


インストールツールと作業環境

今回は例として,
超有名どころのバイオインフォツールを使ったResequencing解析環境を構築していこうと思います.

インストールするツールたちはこちら↓
- クオリティチェック(FastQC ver. 0.11.8)
- クオリティコントロール(Trimmomatic ver. 0.38)
- マッピング(BWA ver. 0.7.17)
- bamファイルソート(Samtools ver. 1.7)
- 変異検出(GATK ver. 3.8)
- アノテーション(snpEff ver. 4.3)


今回の以下の作業環境で行います.また全てホームディレクトリで作業します.
- macOS 10.15.4
- pyenv 1.2.18
- anconda3-5.1.0(pyenvによってインストール済)

環境構築用のYAMLファイルを作成する

まず,Resequencing解析環境構築のためのYAMLファイル(reseq.yml)をvimで作成していきます.

vim reseq.yml

'
name: 'reseq'
channels:
  - r
  - bioconda
  - conda-forge
  - defaults
dependencies:
  - python=3.6
  - bwa=0.7.17
  - fastqc=0.11.8
  - gatk=3.8
  - samtools
  - snpeff=4.3
  - trimmomatic=0.38
'


ちなみに,channel はツールを登録する場所(Biocondaはバイオ系の解析ツールが多数登録されている)です.
anacondaはchannelからインストールするツールを探してきてくれます.
なので,channel に登録されていないツールはインストールすることができません.
Linuxを使う方は,yum やaptでいうリポジトリをイメージするとわかりやすいと思います.

環境構築!

YAMLファイルができたら,Resequencing解析環境を構築をします.
conda env create -f reseq.yml
上記コマンド実行後,reseq.ymlに書いてあるパッケージとその依存ツール・ライブラリの情報を集めてインストールしてくれます.
下記表示がでたら一応成功です.

<略>
Preparing transaction: done
Verifying transaction: done
Executing transaction: done
#
# To activate this environment, use
#
#     $ conda activate reseq
#
# To deactivate an active environment, use
#
#     $ conda deactivate

動作確認の必要がありますが,今回はYAMLを使ってパッケージをインストールすることが主眼なので割愛します
(なお,gatkはgatk-register /path/to/your/tarball と打つ必要があります.)

まとめ

今回はAnacondaを用いて,Resequencing解析環境を構築してみました.
もちろん他の解析パイプラインも構築可能ですので,是非お試しあれ!