こんにちは。 アメリエフのFukuです。
おかげさまで、多くのお客様に
バイオインフォマティクス・トレーニング を受講いただいています。
今回は、Linux入門の後半で行う、バイオインフォマティクスソフトウェアをインストール・実行してみよう のコーナーから、お客様からいただいたQ&Aを紹介します。♪
Linuxサーバで、好きなデータベースをリファレンスとしてblastnを実行する方法
BLAST (Basic Local Alignment Search Tool) は、塩基配列やアミノ酸配列のシーケンスアライメントを行うソフトウェアです。
手元のシーケンスデータをシーケンスデータベースに対して検索することで、類似するシーケンス群を出力することができます。
BLASTをインストールしたLinux上にデータベースをダウンロードして、それを参照してblastnを実行する形になります。
まず、データベースのダウンロードは下記ページより必要なデータベースを選んでダウンロードします。 https://ftp.ncbi.nlm.nih.gov/blast/db/ 各データベースの詳細は、下記公式のドキュメントの "3. Contents of the /blast/db/ directory" をご参照ください。 https://ftp.ncbi.nlm.nih.gov/blast/documents/blastdb.html
例えば、16S_ribosomal_RNAのデータベースであれば、該当するURLをコピーしてきて下記コマンドを実行します。
$ wget https://ftp.ncbi.nlm.nih.gov/blast/db/16S_ribosomal_RNA.tar.gz $ tar zxvf 16S_ribosomal_RNA.tar.gz
そして、
blastnコマンドに -dbオプションをつけ、ダウンロードしたフォルダのパスを指定します。
つまり、下記コマンドを実行することで、BLASTデータベースを参照して解析することができます。
# 使い方 blastn –query Queryファイル -db Referenceフォルダ –outfmt 数字 -out 出力ファイル名 # -outfmt 7 はタブ区切りファイルを出力 $ blastn -query query.fa -db 16S_ribosomal_RNA -outfmt 7 -out out.txt