RNA-seqのアライメントツールHISAT2についてご紹介します。
HISAT2は、当ブログ内でもたびたびご紹介してるTopHat2開発グループが作った、TopHat2の後継ソフトです。
TopHat2より速いしメモリもそんなに使わないとアピールしています。
ゲノムに対して小さなインデックスを細かく、たくさん作成することで効率的なマッピングをするということだそうです。
私はLinux環境で使うので、Linux用バイナリをダウンロードしてきて使ってみました。バージョンは2.0.4でした。
zipファイルを解凍したら、新しく作成されたディレクトリ内の"hisat2"、"hisat2-build"、"hisat2-inspect"をパスの通ったところに追加します。Bowtie2と同じ手順です。私の場合は/usr/local/bin
です。
$ cd hisat2-2.0.4
$ sudo ln -s /path/to/hisat2 /usr/local/bin/
(以下同)
本体の次はゲノムとインデックスを準備します。
手元のリファレンスゲノムからhisat2-build
で自分でビルドすることもできるようですが、GRCh38やhg19、その他メジャーなゲノムについては、インデックスを一緒に配布してくれているので、そこからダウンロードすればいいですね。既知のtranscriptやSNPを使用してビルドしたインデックスもあり、そちらを使用したほうがうまくマッピングできるようです。
あとはマッピングするだけです。
ところで、名前が紳士服と関係なくなってしまったのが少し残念ですね。
最初のころ、RNA-seq関連のソフトウェアが紳士服と関係あることにしばらく気づいていなかった社員のつぶやきでした。