アメリエフの技術ブログ

Amelieff Staff Blog

Linuxサーバでblastnを実行する・ダウンロード方法

こんにちは。 アメリエフのFukuです。
おかげさまで、多くのお客様に バイオインフォマティクス・トレーニング を受講いただいています。

今回は、Linux入門の後半で行う、バイオインフォマティクスソフトウェアをインストール・実行してみよう のコーナーから、お客様からいただいたQ&Aを紹介します。♪

Linuxサーバで、好きなデータベースをリファレンスとしてblastnを実行する方法

BLAST (Basic Local Alignment Search Tool)  は、塩基配列やアミノ酸配列のシーケンスアライメントを行うソフトウェアです。
手元のシーケンスデータをシーケンスデータベースに対して検索することで、類似するシーケンス群を出力することができます。

BLASTをインストールしたLinux上にデータベースをダウンロードして、それを参照してblastnを実行する形になります。

まず、データベースのダウンロードは下記ページより必要なデータベースを選んでダウンロードします。 https://ftp.ncbi.nlm.nih.gov/blast/db/ 各データベースの詳細は、下記公式のドキュメントの "3. Contents of the /blast/db/ directory" をご参照ください。 https://ftp.ncbi.nlm.nih.gov/blast/documents/blastdb.html

例えば、16S_ribosomal_RNAのデータベースであれば、該当するURLをコピーしてきて下記コマンドを実行します。

$ wget https://ftp.ncbi.nlm.nih.gov/blast/db/16S_ribosomal_RNA.tar.gz
$ tar zxvf 16S_ribosomal_RNA.tar.gz

そして、 blastnコマンドに -dbオプションをつけ、ダウンロードしたフォルダのパスを指定します。
つまり、下記コマンドを実行することで、BLASTデータベースを参照して解析することができます。

# 使い方  blastn –query Queryファイル -db Referenceフォルダ –outfmt 数字 -out 出力ファイル名
# -outfmt 7 はタブ区切りファイルを出力
$ blastn -query query.fa -db 16S_ribosomal_RNA -outfmt 7 -out out.txt