1000 人ゲノムプロジェクトJPT データの活用②

皆様、こんにちは。detです。
akbさんに引き続きまして、1000人ゲノムプロジェクトJPTデータの解析に関する記事を書かせていただきます。
前回の記事の目的に従いまして、今回は、1000人ゲノムのデータベースに含まれる100程度の日本人サンプルから88サンプルを選び、解析対象としました。解析の流れは、以下のようになっています。

１．リードのクリーニング: QCleaner(弊社製ツール)
２．マッピング・カバレッジ集計: bwa、samtools、picard
３．リアライメント・SNV/Indel検出: GATK
４．アノテーション付け: QuickAnnotator(弊社製ツール)
５．snpEff: SNV情報の付与

QCleanerの詳細につきましては、こちらのSlideShareをぜひご覧ください。またQuickAnnotatorに関しましては、弊社HPに説明がございます。
またこれらの一連のデータ解析は、弊社製のReseq パイプラインを用いる事で簡単に実行することができます。

では、解析結果を紹介していきたいと思います。まずは、リードクリーニングの結果です。

最初の2行ではクリーニング前のファイルサイズとリード数が記してあります。サイズにはかなり幅があります。またそれ以降は、クリーニング後の結果です。かなり綺麗なリードから、クオリティの低いリードまで、様々なリードがJPTサンプルに含まれていることが分かります。次にマッピング結果について以下の表に示します。

SNV数の最大値は Whole Genome Sequence のデータ、最小値は Target reseq のデータの結果です。
次回は、VCFファイルの詳細についてみていきたいと思います。

アメリエフの技術ブログ

Amelieff Staff Blog

1000 人ゲノムプロジェクトJPT データの活用②