1000 人ゲノムプロジェクトJPT データの活用⑦

　皆様、こんにちは。detです。今回は、前回に引き続きまして、日本人全ゲノムシーケンスデータの解析についてご紹介いたします。

　解析には、弊社製の Reseq パイプラインを用いました。前回は、データのクリーニング結果について、ご紹介しました。今回は、マッピングとSNV/Indel検出の結果を、簡単にご紹介いたします。
　まず、ヒトゲノム（UCSC hg19 + Scaffold ）およびデコイ配列（version5）に対して、BWAを用いてアライメントを行いました。その結果、92.77%のリードがマッピングされました。
　次に、CCDS（consensus coding sequence）について集計を行った結果を以下の表に示します。

表より、CCDS の 97.80% を平均カバレージ28でシーケンスできていることが分かります。ゲノム全体としては、89.15% （2,765,146,564 base）を、10以上のカバレージでシーケンスすることができました。前回のクリーニング結果でもそうでしたが、この日本人全ゲノムのシーケンシングは高い精度で行われたことが分かります。
　また、GATKを用いてリアライメント・SNV/Indel検出を行った結果を下の図に示します。

　SNV/Indel検出の結果、3,413,445個のSNVと311,413個のIndelを検出しました。そのうち、1000人ゲノムプロジェクト及びdbSNP135に登録されていない多型は375,656個ありました。さらに、BreakDancerを用いて、ペアリードの情報から構造多型を検出した結果、361個の逆位、800個の染色体内転座、215個の染色体間転座などの候補が検出されました。

　次回は、1000人ゲノムプロジェクトJPTサンプルの解析結果と、日本人全ゲノムシーケンスデータを簡単に比較してみたいと思います。

-----関連記事-----
1000 人ゲノムプロジェクトJPT データの活用①
1000 人ゲノムプロジェクトJPT データの活用②
1000 人ゲノムプロジェクトJPT データの活用③
1000 人ゲノムプロジェクトJPT データの活用④
1000 人ゲノムプロジェクトJPT データの活用⑤
1000 人ゲノムプロジェクトJPT データの活用⑥

アメリエフの技術ブログ

Amelieff Staff Blog

1000 人ゲノムプロジェクトJPT データの活用⑦