アメリエフの技術ブログ

Amelieff Staff Blog

変異の絞り込み 【5】 変異のクオリティとインパクト

変異の絞り込み 【1】論文紹介
変異の絞り込み 【2】変異検出
変異の絞り込み 【3】候補の絞り込み方
変異の絞り込み 【4】公開データベースを用いた候補の絞り込み
変異の絞り込み 【4.5】お詫びと訂正


さて、前回に引き続き変異を絞り込んでいきます。
第3回でご説明したとおり、次はGATKで設定した変異のクオリティと、snpEffでアノテーションされた変異が与えるインパクトによる絞り込みです。


本解析では、ExomeシーケンスデータからGATKを用いて変異を検出していますが、その変異検出の際の信頼性(正しい変異かどうか)は、変異のカバレージやクオリティによります。そこで、経験的に信頼性が高い条件を設定し、クオリティフィルタ(PASSなど)を付与しています。絞り込みでは、その条件に合致する変異を抜き出しています。

snpEffはよく使われるアノテーションソフトです。変異によりコドンが変化したことにより、遺伝子翻訳後のタンパク質がどう影響を受けるかについてアノテーションを行います。変異してもアミノ酸配列が変わらない同義置換やアミノ酸の一時配列が変化する非同義置換や停止コドンであるかどうか、また、その変化によるインパクトの大きさについてもアノテーションを付与します。
本解析では"HIGH"または"MODERATE"とされたものを抜き出しました。


これらの情報も、QmergeVCFでアノテーションされていますので、具体的なやり方は前回同様awkコマンドです。
クオリティで絞り込んだ結果、11,561→7,793個、さらにsnpEffで絞り込んだ結果、7,793→920個になりました。



変異のクオリティとインパクトに基づく絞り込みはここまでです。
病気の罹患者から検出された変異の総数は100,000個以上ありましたが、現在の段階で疾患関連変異だと考えられる変異は現段階で920個。かなり絞り込めてきました。

疾患関連候補遺伝子の絞り込みは次回で最後です。
次回は、家系情報にもとづく絞り込みを行い、最終的な候補変異を決定します。

変異の絞り込み 【6】遺伝型による絞り込み
変異の絞り込み 【7】罹患同胞を用いた絞り込み