アメリエフの技術ブログ

Amelieff Staff Blog

1000 人ゲノムプロジェクトJPT データの活用⑥

 皆様、こんにちは。detです。今回は、前回までの1000人ゲノムプロジェクトJPTデータの解析からは少し離れまして、日本人の全ゲノムシーケンスデータに関する解析についてご紹介いたします。

 2012年7月31日に慶応大の富田先生の全ゲノムが 日本DNAデータバンク(DDBJ) で公開されました。シーケンスは、Beijing Genomics Institute(BGI) によって Illumina HiSeq 2000を用いて行われ、合計1,079,459,974リードが得られています。今回は、この日本人全ゲノムデータを弊社製の Reseq パイプラインで解析した結果をご紹介いたします。解析の流れは、本連載の前の記事「1000 人ゲノムプロジェクトJPT データの活用②」でご紹介したものと同じです。それでは、データのクリーニング(QC)結果を見ていきたいと思います。



 上にQC結果を纏めました。このように、幾つかのステップを経て精度の低いリードを削除することで、以降の解析精度を保証することができます。データによっては、この段階でかなりの数のリードが削除されてしまうこともありますが、今回は 99.97 % のリード(1,079,147,434 リード)を残すことができました。この結果は実験の精度が高く、綺麗なリードであったことを示しています。このQC処理には弊社製のツールであるQCleanerを利用しています。
 次回は、マッピングや多型検出の結果についてご紹介いたします。

-----関連記事-----
1000 人ゲノムプロジェクトJPT データの活用⑤
1000 人ゲノムプロジェクトJPT データの活用④
1000 人ゲノムプロジェクトJPT データの活用③
1000 人ゲノムプロジェクトJPT データの活用②
1000 人ゲノムプロジェクトJPT データの活用①