アメリエフの技術ブログ

Amelieff Staff Blog

変異の絞り込み 【4】 公開データベースを用いた候補の絞り込み

変異の絞り込み 【1】論文紹介
変異の絞り込み 【2】変異検出
変異の絞り込み 【3】候補の絞り込み方


前回は、疾患関連変異候補の絞り込みの概要についてご説明しました。
今回の記事では、その絞り込みを実際にはどのように行うのか、ご紹介します。

絞り込む前に、本解析では、まず、弊社製のツールQmergeVCFを用いて、3サンプルのデータを統合しました。
QmergeVCFについては、後日別の記事で改めてご説明したいと思っていますが、要約すると、複数のVCFファイルを一つのファイル(タブ区切り)に統合し、アノテーションも行うツールです。
QmergeVCFの出力ファイルは、Caseから検出された変異について、以下の情報がアノテーション付されたものです。

■遺伝子名、ポジション
■公開データベースによるアノテーション
■変異のインパクト
■(非同義置換なら)コドンおよびアミノ酸の変化
■Caseにおける変異のステータス(遺伝子型、depth、GATKを用いて付与した変異のクオリティ…前回の記事参照、など)
■Controlの、Caseと同じポジションにおけるステータス
※Caseには存在しない、Control固有の変異の情報は含まれません。
※それぞれの項目について、変異がデータベースに登録されていなかったり、コドンを変えない場合、Controlでは変異が起きていなかった場合は"."と出力されます。


この複数サンプルについての情報が一つに統合されたファイルを用いて絞り込みを行いました。
(ここでは絞り込みをLinuxで行っているためawkコマンドを使いますが、Windows/Mac上ならExcelのデータフィルター機能も便利です)


まず、公開データベースに登録されている変異の除外から行いました。
LCA患者の総変異(SNV + Indel)106,488個のうち、dbSNP132に登録されている変異を除去します。(※最新のdbSNPは138ですが、本解析ではdbSNP132までに登録されている変異の除去のみを行いました
Qmergeの出力結果(output)では、11列目にdbSNPのバージョンの情報が書かれています。
qmerge出力イメージ
そこで、11列目の情報が132以上のもの、または登録されていないものだけを抜き出して出力します(filter1)。

$ awk '{FS="¥t"} NR>1 && $11>=132 || $11 == "." {print}' output > filter1
awkコマンドでは1列目を$1、2列目を$2…と指定します。FSは入力ファイルの要素の区切りの指定で、タブ(¥t)のみを要素の区切りとみなすように指示しています。NRは行の指定で、ここでは1行目以外の行に対し処理を行うように指定しています。

dbSNP132で絞り込みをかけた結果、候補変異が106,488個から58,980個、およそ6割に減りました。

次に、1000人ゲノムプロジェクトでアレル頻度が高い変異を除去します。ここでは、アレル頻度が5%以下の変異、もしくは登録されていないもの(“.”)だけを抽出します。QmergeVCFの出力結果では、1000人ゲノムプロジェクトのアレル頻度は13行目にあります。

$ awk '{FS="¥t"} $13 <= "0.05" || $13 == "." {print}' filter1 > filter2

この結果、58,980個の変異候補を20,714個に絞り込むことができました。


<hr本解析では、>公開データベースを用いた絞り込みはここまでです。公開データベースによる絞り込みで、疾患関連候補のSNV/Indelを

106,488 → 20,714


と2割にまで減らすことができました。

次回は、変異のクオリティやインパクトによる絞り込みで、さらに変異候補の数を減らしていきます。

変異の絞り込み 【4.5】お詫びと訂正
変異の絞り込み 【5】変異のクオリティとインパクト
変異の絞り込み 【6】遺伝型による絞り込み