アメリエフの技術ブログ

Amelieff Staff Blog

変異の絞り込み 【2】 変異検出

変異の絞り込み 【1】論文紹介

前回は、exome sequencingによりある家系においてレーバー先天黒内障(LCA)を引き起こしている原因変異を特定した論文についてご紹介しました。
今回は、その論文で使用されたデータから、変異検出を行った結果についてご紹介いたします。


まず、論文で用いられたデータは公開されているので、DRAsearch に登録されているexome sequencingのfastqデータをダウンロードします。データはこちらです。
この家系は少し複雑な婚姻を繰り返しており、その最初の世代をI、次の世代をIIとし、罹患者の親世代が世代III、罹患者が世代IVにあたります。他のIV世代(罹患者の兄弟や従兄弟、非罹患者とLCA罹患者を含む)のデータも登録されていますが、今回の解析では罹患者とその父母のトリオのデータのみ使用することにします。トリオのうち、罹患者はIV-1(Accession numberはSRS344411)、母親はIII-4(同SRS344410)、父親はIII-5(同SRS344412)です。
Paired-end readなので、データは3サンプルについてそれぞれforward readとreverse readの2つずつ、合計6つダウンロードしました。


まず、各サンプルの変異を検出します。

【変異検出解析の流れ】
1.リードのクリーニング: QCleaner(弊社製ツール)
2.マッピング・カバレッジ集計: bwa、samtools、picard
3.リアライメント・SNV/Indel検出、クオリティフィルタの付与: GATK
4.snpEff: SNV情報の付与


リードクリーニングの結果はこちらです。
Pakistan-clean
III-4のforwardの塩基減少率が高く、あまりきれいなデータではないようです。
実際、III-4のforwardのFastQC結果を確認すると、こんな感じでした。
fastqc
(縦軸がリードのクオリティで、赤い部分はクオリティ20未満の塩基です)
今回の解析結果にはあまり影響ありませんでした。


マッピング結果、SNV/Indel検出結果はこちらです。
pakistan-map

ここから疾患関連遺伝子を絞り込むのは大変そうですね。


それでは、次回はいよいよ本題である、疾患関連変異候補の絞り込み手法についてご紹介します。

変異の絞り込み 【3】候補の絞り込み方
変異の絞り込み 【4】公開データベースを用いた候補の絞り込み
変異の絞り込み 【4.5】お詫びと訂正
変異の絞り込み 【5】変異のクオリティとインパクト
変異の絞り込み 【6】遺伝型による絞り込み