アメリエフの技術ブログ

Amelieff Staff Blog

VCF format①


どうもakbです。
今日からVCF formatの連載が始まります。

さて、VCFとは (Variant Call Format)の略で、次世代シーケンサー解析に用いられるformatの一つです。
samtoolsを用いて抽出した多型情報が、VCFファイルに格納されて出力されます。

まず、VCFファイルの中身を見てみます。



ファイルのメタデータは、"##"の文字列の後に記載されています。
例えば、最初の行には、VCFのバージョンが次のように示されます。

(例)
##fileformat = VCFv4.1


次にVCFファイルの本体で使用されるフィルタ(INFO)とFORMATが、
メタデータセクションに含まれます。

(例)
##INFO = <ID=DP,Number=1,Type=Integer,Description="Total Depth">


"##"から始まる行(メタデータ)の後の構造は、"#"から始まるヘッダー行と、そのヘッダー行のカラムに対応したデータ行から成ります。


ヘッダ行には9個のカラム+SAMPLEカラムがあります。これらのカラムは次のとおりです。





次回のブログでは、各カラムに対応するデータ行の説明をしたいと思います。