アメリエフの技術ブログ

Amelieff Staff Blog

snpEffデータベースの作成方法

snpEffとは、SNVやIndelなどの変異にアノテーション付けをしてくれるソフトの事です。

既に広く解析されている生物種の場合は、snpEff内にアノテーションのデータベースが揃っていますが、多少マニアックなものだとデータベースが無い場合もあります。その際には、新しいデータベースを自作することができ、その方法はsnpEffのHPにも説明があります。ですが、少々不親切なところもあり、少し苦労をします。

今日は日本語で、その方法について簡単に紹介いたします。

1.ゲノムのリファレンス配列(fasta)を用意します。ここでは仮にhogenomeという生物種のゲノムを追加する事にします。

2.hogenomeのGFF、もしくはGTFファイルを用意します。

3. snpEffのインストールディレクトリ(/path_to_snpEff/)にあるsnpEff.configに、ゲノムの情報を追加します。詳細はこちら。ちなみにリンク先に記載されているsnpEffect.configとは、snpEff.configのことです。

4./path_to_snpEff/data/ ディレクトリに移動し、新しいデータベース名のディレクトリを作ります。ここでの名前は、上記3番で追加したhogenome.genomeの.より前(ここではhogenome)と同じものにした方が良いようです。

5.hogenome/の中に移動し、GFFもしくはGTFファイルを置きます。そして、ファイル名をgenes.gff(GTFの時は .gtf)と変換してください。

6.hogenome/から出て、/path_to_snpEff/data/ 以下にgenomes/というディレクトリを作成します。その中に、hogenomeのfastaを置いてください。ファイル名はhogenome.fa としてください。

snpEffのHPではgffとfaに関して、gz圧縮された例しか載っていませんが、圧縮されていなくても動きます。

7./path_to_snpEff/に移動して、以下のコマンドを打ちます。

$ java -jar snpEff.jar build -gff3 -v hogenome

これで、エラーが出なければ、新しいsnpEffのデータベースの完成です。あとは楽しくアノテーションをしてみてください。