アメリエフの技術ブログ

Amelieff Staff Blog

変異の絞り込み 【3】 候補の絞り込み方

変異の絞り込み 【1】論文紹介
変異の絞り込み 【2】変異検出

前回は、LCA患者とその両親のトリオのfastqデータをダウンロードし、変異検出まで行いました。
今回は、主題である疾患関連変異候補の絞り込みについてお話します。


絞り込みの流れは、以下の通りです。

[1]既知の変異の除外
[2]アレル頻度が高い変異の除外
[3]クオリティが低い変異の除外
[4]タンパク質に与える影響が低い変異の除外
[5]遺伝形式による絞り込み


既知の変異(dbSNP132)は、SNPのデータベースに登録されている変異です。データベースは、重大な疾患のない人々から収録されているため、登録されている変異は重篤な症状をもたらす変異ではないと考えられます。疾患関連変異の探索では除外します。
アレル頻度が高い変異は、1000人ゲノムプロジェクトにおけるアレル頻度が5%より高い変異としました。これも、既知の変異と同様の理由で除外します。
クオリティが低い変異とは、マッピングの結果から変異を検出する際に、カバレージやクオリティなど、経験的に正しい変異が多く含まれている条件に該当しない変異のことです。GATKを用いてその情報を変異に付与して、信頼性の低い変異を除外しました。
タンパク質に与える影響が低い変異の除外には、snpEffを使用しました。snpEffはよく使われるSNV/SNPのアノテーションプログラムです。SNV/SNPがタンパク質に与える影響の大きさを予測し、“High”, “Moderate”, “Low”, “Modifier”のいずれかをアノテーションします。このうち、“Low”, “Modifier”とアノテーションされた変異は重篤な症状をもたらしにくいとして除外しました。
最後に、遺伝形式による絞り込みを行っています。罹患者の両親がいずれもLCAを発症していないことから、この家系のLCAの原因変異は劣性遺伝していると考えられます。そこで、両親においてはヘテロ、罹患者においてはホモの変異を抜き出しました。



ステップの紹介に終始してしまいましたが、今回はここまでにします。
次回は上記の[1][2]にあたる、公開データベースを用いた絞り込みの、実際の結果をお見せします。

変異の絞り込み 【4】公開データベースを用いた候補の絞り込み
変異の絞り込み 【4.5】お詫びと訂正
変異の絞り込み 【5】変異のクオリティとインパクト
変異の絞り込み 【6】遺伝型による絞り込み