アメリエフの技術ブログ

Amelieff Staff Blog

VCFtools②

tokunagaです。

本日は以前ご紹介したVCFtoolsでちょっと気になっていたコマンドを調べましたのでご紹介したいと思います。
vcf-compareというVCFファイル同士の簡単な比較を行ってくれるコマンドです。

前回ご紹介したように前処理としてVCFファイルをbgzipで圧縮して、tabixでインデックスを付けた後、以下のコマンドを実行します。

vcf-compare A.vcf.gz B.vcf.gz


実行すると以下のような情報が標準出力で出てきます。

# This file was generated by vcf-compare.
# The command line was: vcf-compare(r731) A.vcf.gz B.vcf.gz
#
#VN 'Venn-Diagram Numbers'. Use `grep ^VN | cut -f 2-` to extract this part.
#VN The columns are:
#VN 1 .. number of sites unique to this particular combination of files
#VN 2- .. combination of files and space-separated number, a fraction of sites in the file
#2サンプル間で位置情報が共通していたSNV/Indel数と割合
VN 106845 A.vcf.gz (39.2%) B.vcf.gz (44.3%) 
#Bに特有なSNV/Indel数と割合
VN 134310 B.vcf.gz (55.7%) 
#Aに特有なSNV/Indel数と割合
VN 165380 A.vcf.gz (60.8%) 
#SN Summary Numbers. Use `grep ^SN | cut -f 2-` to extract this part.
#位置情報が共通し、且つREFの塩基が一致した数
SN Number of REF matches: 106339 
#ALTの塩基が一致した数
SN Number of ALT matches: 105653 
#REFの塩基が一致しなかった数
SN Number of REF mismatches: 506 
#ALTの塩基が一致しなかった数
SN Number of ALT mismatches: 686 
#遺伝子型を比較したサンプル数
SN Number of samples in GT comparison: 0 
# Number of sites lost due to grouping (e.g. duplicate sites): lost, %lost, read, reported, file
#位置情報が重複し除外されたSNV/Indelや割合
SN Number of lost sites: 157 0.1% 272382 272225 A.vcf.gz 
#位置情報が重複し除外されたSNV/Indelや割合
SN Number of lost sites: 167 0.1% 241322 241155 B.vcf.gz 


2サンプル以上でも実行することが可能です。
今回はデフォルトで実行しましたがオプションも結構な数あるようです。
とりあえずVCFファイルを大まかに比較したい場合には便利かもしれません。

また、機会がありましたら他のコマンドもご紹介したいと思います。