皆様、こんにちは。detです。今回は、前回に引き続きまして、日本人全ゲノムシーケンスデータの解析についてご紹介いたします。
解析には、弊社製の Reseq パイプラインを用いました。前回は、データのクリーニング結果について、ご紹介しました。今回は、マッピングとSNV/Indel検出の結果を、簡単にご紹介いたします。
まず、ヒトゲノム(UCSC hg19 + Scaffold )およびデコイ配列(version5)に対して、BWAを用いてアライメントを行いました。その結果、92.77%のリードがマッピングされました。
次に、CCDS(consensus coding sequence)について集計を行った結果を以下の表に示します。
表より、CCDS の 97.80% を平均カバレージ28でシーケンスできていることが分かります。ゲノム全体としては、89.15% (2,765,146,564 base)を、10以上のカバレージでシーケンスすることができました。前回のクリーニング結果でもそうでしたが、この日本人全ゲノムのシーケンシングは高い精度で行われたことが分かります。
また、GATKを用いてリアライメント・SNV/Indel検出を行った結果を下の図に示します。
SNV/Indel検出の結果、3,413,445個のSNVと311,413個のIndelを検出しました。そのうち、1000人ゲノムプロジェクト及びdbSNP135に登録されていない多型は375,656個ありました。さらに、BreakDancerを用いて、ペアリードの情報から構造多型を検出した結果、361個の逆位、800個の染色体内転座、215個の染色体間転座などの候補が検出されました。
次回は、1000人ゲノムプロジェクトJPTサンプルの解析結果と、日本人全ゲノムシーケンスデータを簡単に比較してみたいと思います。
-----関連記事-----
1000 人ゲノムプロジェクトJPT データの活用①
1000 人ゲノムプロジェクトJPT データの活用②
1000 人ゲノムプロジェクトJPT データの活用③
1000 人ゲノムプロジェクトJPT データの活用④
1000 人ゲノムプロジェクトJPT データの活用⑤
1000 人ゲノムプロジェクトJPT データの活用⑥