アメリエフの技術ブログ

Amelieff Staff Blog

1000 人ゲノムプロジェクトJPT データの活用③

 皆様、こんにちは。detです。前回に引き続きまして、1000人ゲノムプロジェクトJPTデータの解析に関する記事を書かせていただきます。

 前回は88人の1000ゲノムJPTサンプルに対して、Reseq パイプラインでデータ解析した結果から、リードのクリーニング結果とマッピング結果をご紹介しました。今回は、得られた88サンプルの多型情報を一つにまとめたVCFファイルについてご紹介いたします。(VCFとは多型情報のフォーマットの一つで、超高速シーケンサーのデータ解析に用いられています。詳細は過去のこちらの記事を参照ください。)

 VCFファイルは横長のため、部分毎に説明します。下の図は、VCFファイルの先頭部分になります。染色体(Chr)と位置情報(Pos)から始まり、ID、リファレンスの塩基、ALTアリル(ALT)の塩基、クオリティになります。



ALTが複数の場合は、カンマで区切って表示されます。またクオリティ情報はサンプル間の平均値になっています。次は、下の図に示すようにフィルタリング結果と、インフォメーションが続きます。



どのフィルターに引っ掛かったか、PASSしたかが分かります。インフォメーション行に関する説明は過去の記事をご参照ください。今回の解析ではインフォメーション行の最後に以下の図に示す、FreqALTallelsとNumbersの項目を追加しています。



FreqALTallelsは全サンプル中のALTの頻度、NumbersはALTをもっていたサンプル数を示します。最後に以下の図に示すように、各サンプル毎の多型情報が記されます。



フォーマットに続いて、サンプル毎に情報が記されます。GTで表現されるのがジェノタイプで、0/0がリファレンスのホモ、0/1がALTのヘテロ、1/1がALTのホモを表します。ALTが複数の場合は、1/2や、0/2などの表記になります。
 以上、今回の解析で得られたVCFファイルについてご紹介しました。次回は、結果の信頼性などを見ていきたいと思います。


-----関連記事-----
1000 人ゲノムプロジェクトJPT データの活用②
1000 人ゲノムプロジェクトJPT データの活用①