アメリエフの技術ブログ

Amelieff Staff Blog

VCFのアノテーション

SnpSiftを使うと、VCFにdbSNPや1000Genomesのアノテーションをつけることができます。

(1)アノテーション用のデータを以下からダウンロードして解凍します。
ftp://ftp.ncbi.nih.gov/snp/organisms/human_9606/VCF/00-All.vcf.gz

(2)SnpSiftを実行します。

$ java -jar SnpSift.jar annotate 00-All.vcf X.vcf > X_anno.vcf
※「X.vcf」はアノテーションをつけたいVCFファイルを指定します。

デフォルトではたくさんの項目がつきますので、例えばdbSNPのバージョンと1000Genomesのアリル頻度だけつけたい場合は、以下のように指定します。
$ java -jar SnpSift.jar annotate -info dbSNPBuildID,CAF 00-All.vcf X.vcf > X_anno.vcf

デフォルトではVCFのID列とINFO列に情報が入りますが、例えばdbSNPのIDだけをID列だけにつけたい場合は、以下のように指定します。
$ java -jar SnpSift.jar annotate -id 00-All.vcf X.vcf > X_anno.vcf

この他、VCFであれば(おそらく)なんでもアノテーションに使うことができます。
遺伝子アノテーションソフトのSnpEffは弊社内でもよく使っているのですが、一緒にこんなに便利なソフトが提供されていたとは...。