アメリエフの技術ブログ

Amelieff Staff Blog

1000 人ゲノムプロジェクトJPT データの活用⑦

 皆様、こんにちは。detです。今回は、前回に引き続きまして、日本人全ゲノムシーケンスデータの解析についてご紹介いたします。

 解析には、弊社製の Reseq パイプラインを用いました。前回は、データのクリーニング結果について、ご紹介しました。今回は、マッピングとSNV/Indel検出の結果を、簡単にご紹介いたします。
 まず、ヒトゲノム(UCSC hg19 + Scaffold )およびデコイ配列(version5)に対して、BWAを用いてアライメントを行いました。その結果、92.77%のリードがマッピングされました。
 次に、CCDS(consensus coding sequence)について集計を行った結果を以下の表に示します。



表より、CCDS の 97.80% を平均カバレージ28でシーケンスできていることが分かります。ゲノム全体としては、89.15% (2,765,146,564 base)を、10以上のカバレージでシーケンスすることができました。前回のクリーニング結果でもそうでしたが、この日本人全ゲノムのシーケンシングは高い精度で行われたことが分かります。
 また、GATKを用いてリアライメント・SNV/Indel検出を行った結果を下の図に示します。



 SNV/Indel検出の結果、3,413,445個のSNVと311,413個のIndelを検出しました。そのうち、1000人ゲノムプロジェクト及びdbSNP135に登録されていない多型は375,656個ありました。さらに、BreakDancerを用いて、ペアリードの情報から構造多型を検出した結果、361個の逆位、800個の染色体内転座、215個の染色体間転座などの候補が検出されました。

 次回は、1000人ゲノムプロジェクトJPTサンプルの解析結果と、日本人全ゲノムシーケンスデータを簡単に比較してみたいと思います。

-----関連記事-----
1000 人ゲノムプロジェクトJPT データの活用①
1000 人ゲノムプロジェクトJPT データの活用②
1000 人ゲノムプロジェクトJPT データの活用③
1000 人ゲノムプロジェクトJPT データの活用④
1000 人ゲノムプロジェクトJPT データの活用⑤
1000 人ゲノムプロジェクトJPT データの活用⑥