HGVDについて (2) サンプル数編 - アメリエフの技術ブログ

（前の記事）
（次の記事）

Human Genetic Variation Databaseで公開している日本人ゲノムデータの、データの確からしさの判断に使えそうな項目を見てみます。

配布されている圧縮ファイルをダウンロードし、解凍しますと、READMEとタブ区切りテキストの2つのファイルができます。

READMEによると、日本人から検出された478,228個のSNPについて、1行につき1SNPの以下の情報が記載されています。
hgvdのカラム説明
■#Sample（サンプル数）：データベースに含まれる1,208人のうち、N人でそのSNPのポジションをシーケンスできたという意味です。Altのアリルが検出されたサンプルの数ではありません。

このうち、#Sample、Mean_depthが、確からしさを判断するのに使えそうです。

まず#Sampleの分布を見てみます。

（※クリックで大きくなります）

まず左の図をご覧ください。
横軸が各SNPをシーケンスできたサンプル数、縦軸がその登場回数です。
200〜500サンプル、あるいはそれ以上でシーケンスできているSNPが多いようですが、案外サンプル数が少ないSNPも登録されているようです。
試しに、サンプル数が100より少ないSNPでヒストグラムを書いたのが右図です。40サンプル以下、その中でも5サンプルより少ないサンプルでしか読まれていないSNPが多数あるようです。

ちなみに、データベースのうち、100サンプル未満でしかシーケンスされていないSNPをすべて除くと、約95.0%のSNPが残ります。

次はMean_depthの分布を見てみます。

データベースの名前を「Human Genome Variation Database」と記載しておりましたが、これは別のデータベースの名前でした。
正しくは「Human Genetic Variation Database」でした。
ブログをご覧くださった皆様、並びに関係者様各位にご迷惑をおかけしてしまい申し訳ございません。