どうもakbです。
今日からVCF formatの連載が始まります。
さて、VCFとは (Variant Call Format)の略で、次世代シーケンサー解析に用いられるformatの一つです。
samtoolsを用いて抽出した多型情報が、VCFファイルに格納されて出力されます。
まず、VCFファイルの中身を見てみます。
ファイルのメタデータは、"##"の文字列の後に記載されています。
例えば、最初の行には、VCFのバージョンが次のように示されます。
(例)
##fileformat = VCFv4.1
次にVCFファイルの本体で使用されるフィルタ(INFO)とFORMATが、
メタデータセクションに含まれます。
(例)
##INFO = <ID=DP,Number=1,Type=Integer,Description="Total Depth">
"##"から始まる行(メタデータ)の後の構造は、"#"から始まるヘッダー行と、そのヘッダー行のカラムに対応したデータ行から成ります。
ヘッダ行には9個のカラム+SAMPLEカラムがあります。これらのカラムは次のとおりです。
次回のブログでは、各カラムに対応するデータ行の説明をしたいと思います。