1000 人ゲノムプロジェクトJPT データの活用⑥

　皆様、こんにちは。detです。今回は、前回までの1000人ゲノムプロジェクトJPTデータの解析からは少し離れまして、日本人の全ゲノムシーケンスデータに関する解析についてご紹介いたします。

　2012年7月31日に慶応大の富田先生の全ゲノムが日本DNAデータバンク(DDBJ) で公開されました。シーケンスは、Beijing Genomics Institute(BGI) によって Illumina HiSeq 2000を用いて行われ、合計1,079,459,974リードが得られています。今回は、この日本人全ゲノムデータを弊社製の Reseq パイプラインで解析した結果をご紹介いたします。解析の流れは、本連載の前の記事「1000 人ゲノムプロジェクトJPT データの活用②」でご紹介したものと同じです。それでは、データのクリーニング(QC)結果を見ていきたいと思います。

　上にQC結果を纏めました。このように、幾つかのステップを経て精度の低いリードを削除することで、以降の解析精度を保証することができます。データによっては、この段階でかなりの数のリードが削除されてしまうこともありますが、今回は 99.97 % のリード（1,079,147,434 リード）を残すことができました。この結果は実験の精度が高く、綺麗なリードであったことを示しています。このQC処理には弊社製のツールであるQCleanerを利用しています。
　次回は、マッピングや多型検出の結果についてご紹介いたします。

-----関連記事-----
1000 人ゲノムプロジェクトJPT データの活用⑤
1000 人ゲノムプロジェクトJPT データの活用④
1000 人ゲノムプロジェクトJPT データの活用③
1000 人ゲノムプロジェクトJPT データの活用②
1000 人ゲノムプロジェクトJPT データの活用①

アメリエフの技術ブログ

Amelieff Staff Blog

1000 人ゲノムプロジェクトJPT データの活用⑥