SnpSiftを使うと、VCFにdbSNPや1000Genomesのアノテーションをつけることができます。
(1)アノテーション用のデータを以下からダウンロードして解凍します。
ftp://ftp.ncbi.nih.gov/snp/organisms/human_9606/VCF/00-All.vcf.gz
(2)SnpSiftを実行します。
$ java -jar SnpSift.jar annotate 00-All.vcf X.vcf > X_anno.vcf
※「X.vcf」はアノテーションをつけたいVCFファイルを指定します。
デフォルトではたくさんの項目がつきますので、例えばdbSNPのバージョンと1000Genomesのアリル頻度だけつけたい場合は、以下のように指定します。
$ java -jar SnpSift.jar annotate -info dbSNPBuildID,CAF 00-All.vcf X.vcf > X_anno.vcf
デフォルトではVCFのID列とINFO列に情報が入りますが、例えばdbSNPのIDだけをID列だけにつけたい場合は、以下のように指定します。
$ java -jar SnpSift.jar annotate -id 00-All.vcf X.vcf > X_anno.vcf
この他、VCFであれば(おそらく)なんでもアノテーションに使うことができます。
遺伝子アノテーションソフトのSnpEffは弊社内でもよく使っているのですが、一緒にこんなに便利なソフトが提供されていたとは...。