snpEffとは、SNVやIndelなどの変異にアノテーション付けをしてくれるソフトの事です。
既に広く解析されている生物種の場合は、snpEff内にアノテーションのデータベースが揃っていますが、多少マニアックなものだとデータベースが無い場合もあります。その際には、新しいデータベースを自作することができ、その方法はsnpEffのHPにも説明があります。ですが、少々不親切なところもあり、少し苦労をします。
今日は日本語で、その方法について簡単に紹介いたします。
1.ゲノムのリファレンス配列(fasta)を用意します。ここでは仮にhogenomeという生物種のゲノムを追加する事にします。
2.hogenomeのGFF、もしくはGTFファイルを用意します。
3. snpEffのインストールディレクトリ(/path_to_snpEff/)にあるsnpEff.configに、ゲノムの情報を追加します。詳細はこちら。ちなみにリンク先に記載されているsnpEffect.configとは、snpEff.configのことです。
4./path_to_snpEff/data/ ディレクトリに移動し、新しいデータベース名のディレクトリを作ります。ここでの名前は、上記3番で追加したhogenome.genomeの.より前(ここではhogenome)と同じものにした方が良いようです。
5.hogenome/の中に移動し、GFFもしくはGTFファイルを置きます。そして、ファイル名をgenes.gff(GTFの時は .gtf)と変換してください。
6.hogenome/から出て、/path_to_snpEff/data/ 以下にgenomes/というディレクトリを作成します。その中に、hogenomeのfastaを置いてください。ファイル名はhogenome.fa としてください。
※snpEffのHPではgffとfaに関して、gz圧縮された例しか載っていませんが、圧縮されていなくても動きます。
7./path_to_snpEff/に移動して、以下のコマンドを打ちます。
$ java -jar snpEff.jar build -gff3 -v hogenome
これで、エラーが出なければ、新しいsnpEffのデータベースの完成です。あとは楽しくアノテーションをしてみてください。