こんにちは。
VCF(variant call format)ファイルにおける、性染色体のgenotype表記についてご紹介します。
下に、VCFの例を示します。father、つまり男性の情報を見てみます。
fatherの列の左端に、それぞれの変異のGT(genotype、遺伝型)が載っています。
0/0
は、そのサンプル(人)の両方のアレルが0(REFと同じ塩基)であることを示し、
0/1
は、片方のアレルが 0 、もう片方が 1(ALTの塩基)という意味ですね。
#CHROM POS ... REF ALT ...FORMAT father ... chr1 100000 ... A C ... GT:AD:DP:GQ:PL 0/1:20,4:24:40:40,0,500 ... : chrX 100000 ... G C ... GT:AD:DP:GQ:PL 0/1:30,5:35:42:42,0,800 ... chrX 200000 ... G C ... GT:AD:DP:GQ:PL 1/1:0,30:30:100:1200,100,0 : chrY 100000 ... C G ... GT:AD:DP:GQ:PL 0/0:12,0:12:36:400,0,36 chrY 200000 ... A T ... GT:AD:DP:GQ:PL 0/1:20,5:25:32:32,0,600
ヒトの性染色体は、基本的に女性はX染色体を2本、男性はX染色体とY染色体を1本ずつもっています。
あれ? Y染色体は1本なのに、0/0
と、2つのアレルがあるように表記されています。
これは、変異検出解析プログラムが性染色体を特に区別せず、常染色体(男女ともに各2本)と同じように計算したために出力される結果です。
例えば、これは表記上 GTが0/0
となっていますが、実際は 0
アレルが1つだと考えられますね。↓
#CHROM POS ... REF ALT ... father chrY 100000 ... C G ... 0/0:12,0:12:36:400,0,36
では、この変異はどうでしょう。 ↓
#CHROM POS ... REF ALT ... father chrX 100000 ... G C ... 0/1:30,5:35:42:42,0,800
あれ? 男性のX染色体は1本なのに、0/1
と、異なるアレルがあります。
シーケンスエラーでなければ、リードが実際と異なる位置にマッピングされていることが原因として考えられます。
実は、X染色体とY染色体の両端には、相同性の高い配列領域(偽常染色体領域、PARs: pseudoautosomal regions)が存在します。
(この領域でのみ、組み換えが起こります。常染色体のような振る舞いですね。 )
Y染色体由来のリードが、X染色体の似た配列にマッピングされた場合(逆も然り)、上のようなGTになる可能性があります。
このような不思議な変異に対し、解析レベルで行える対策としては
- 性染色体上の変異は一旦除外しておく
- 性染色体の片方の偽常染色体領域がマスクされた(NNN...と表記された)参照ゲノム配列にマッピングする → マスクされた染色体にはマッピングされず、もう片方にマッピングされる。性に関係なく、X染色体またはY染色体のアレルが2つとみなされる。
- 性染色体を区別して解析できるプログラムや、二倍体以外の生物に対応したプログラムを利用する
といった方法がとられるようです。
参考