皆様、こんにちは。detです。
akbさんに引き続きまして、1000人ゲノムプロジェクトJPTデータの解析に関する記事を書かせていただきます。
前回の記事の目的に従いまして、今回は、1000人ゲノムのデータベースに含まれる100程度の日本人サンプルから88サンプルを選び、解析対象としました。解析の流れは、以下のようになっています。
1.リードのクリーニング: QCleaner(弊社製ツール)
2.マッピング・カバレッジ集計: bwa、samtools、picard
3.リアライメント・SNV/Indel検出: GATK
4.アノテーション付け: QuickAnnotator(弊社製ツール)
5.snpEff: SNV情報の付与
QCleanerの詳細につきましては、こちらのSlideShareをぜひご覧ください。またQuickAnnotatorに関しましては、弊社HPに説明がございます。
またこれらの一連のデータ解析は、弊社製のReseq パイプラインを用いる事で簡単に実行することができます。
では、解析結果を紹介していきたいと思います。まずは、リードクリーニングの結果です。
最初の2行ではクリーニング前のファイルサイズとリード数が記してあります。サイズにはかなり幅があります。またそれ以降は、クリーニング後の結果です。かなり綺麗なリードから、クオリティの低いリードまで、様々なリードがJPTサンプルに含まれていることが分かります。次にマッピング結果について以下の表に示します。
SNV数の最大値は Whole Genome Sequence のデータ、最小値は Target reseq のデータの結果です。
次回は、VCFファイルの詳細についてみていきたいと思います。