こんにちは
みなさんは5月の大型連休はいかがお過ごしになったでしょうか.
COVID-19で大変な時期ですが,インドア派の私は宅配ピザを食べてはゲームをする
という引きこもり自粛生活を送っていました.
今回はAnacondaによる解析環境構築実践編です.
前回の記事では「Anacondaを用いた解析環境構築」について書きました.
staffblog.amelieff.jp
今回は前回の記事を踏まえて.具体的な環境を実際に構築してみよう!という趣旨でやっていきたいと思います.
※前回と重複することが多々あると思いますが,ご容赦ください.
インストールツールと作業環境
今回は例として,
超有名どころのバイオインフォツールを使ったResequencing解析環境を構築していこうと思います.
インストールするツールたちはこちら↓
- クオリティチェック(FastQC ver. 0.11.8)
- クオリティコントロール(Trimmomatic ver. 0.38)
- マッピング(BWA ver. 0.7.17)
- bamファイルソート(Samtools ver. 1.7)
- 変異検出(GATK ver. 3.8)
- アノテーション(snpEff ver. 4.3)
今回の以下の作業環境で行います.また全てホームディレクトリで作業します.
- macOS 10.15.4
- pyenv 1.2.18
- anconda3-5.1.0(pyenvによってインストール済)
環境構築用のYAMLファイルを作成する
まず,Resequencing解析環境構築のためのYAMLファイル(reseq.yml)をvimで作成していきます.
vim reseq.yml ' name: 'reseq' channels: - r - bioconda - conda-forge - defaults dependencies: - python=3.6 - bwa=0.7.17 - fastqc=0.11.8 - gatk=3.8 - samtools - snpeff=4.3 - trimmomatic=0.38 '
ちなみに,channel はツールを登録する場所(Biocondaはバイオ系の解析ツールが多数登録されている)です.
anacondaはchannelからインストールするツールを探してきてくれます.
なので,channel に登録されていないツールはインストールすることができません.
Linuxを使う方は,yum やaptでいうリポジトリをイメージするとわかりやすいと思います.
環境構築!
YAMLファイルができたら,Resequencing解析環境を構築をします.
conda env create -f reseq.yml
上記コマンド実行後,reseq.ymlに書いてあるパッケージとその依存ツール・ライブラリの情報を集めてインストールしてくれます.
下記表示がでたら一応成功です.
<略> Preparing transaction: done Verifying transaction: done Executing transaction: done # # To activate this environment, use # # $ conda activate reseq # # To deactivate an active environment, use # # $ conda deactivate
動作確認の必要がありますが,今回はYAMLを使ってパッケージをインストールすることが主眼なので割愛します
(なお,gatkはgatk-register /path/to/your/tarball
と打つ必要があります.)
まとめ
今回はAnacondaを用いて,Resequencing解析環境を構築してみました.
もちろん他の解析パイプラインも構築可能ですので,是非お試しあれ!