10/18~22はアメリカ人類遺伝学会(ASHG)2016がバンクーバーで開催されていました。
その中でBroad Institueから発表されたGenome Aggregation Database (gnomAD)について紹介したいと思います。
次世代シーケンサー(NGS)を使っている人にはお馴染みの図ですが、NGSの技術の発展と普及によりDNAのシーケンスコストがどんどん下がっています。
そのため、NGSを使った大規模なヒトゲノムの解析が世界中で行われています。例えばイギリスでは今まさに1万人分のゲノムを解析するUK10Kプロジェクトが行われていたり、日本では東北メディカルメガバンクから日本人2,049人の全ゲノム解析の結果がiJGVDで公開されていたりします。 最も大規模なものとしては、Exome Aggregation Consortium (ExAC)による60,706人のエクソームのデータベースが公開されており、今年の8月にNature誌で発表されました。
今回発表されたgnomADは、ExACのversion 1からエクソームのデータが約2倍の126,216人分になり、 15,136 人の全ゲノム解析の結果も追加されています!
For those who missed it: we just posted variant frequencies from 126,216 exomes and 15,136 genomes at https://t.co/uMAoxqh5jO Enjoy! #ASHG16
— Daniel MacArthur (@dgmacarthur) 2016年10月19日
gnomADのブラウザでは、WESとWGSを合わせたSNPとINDELの頻度が閲覧可能ですが、今後CNVの解析もして閲覧できるようになるようです。まだβ版でフィルタリングの条件を検討している段階ということです。また、変異詳細のページではPhenotypeの情報を報告できるようになっており、情報が集まってくれば変異との関連付けもされていきそうです。
ちなみに、gnomADは"ノマド"と発音するみたいです。
@theENIACmachine like “nomad” with a silent g at the beginning
— Daniel MacArthur (@dgmacarthur) 2016年10月19日
gnomADでは、全部で40テラバイトの変異データをパースすることで作成しているそうで、解析にはScalaで実装されたhailというソフトウェアを使っています。このソフトについてはまた別の機会に紹介できればと思います。
gnomADは、疾患関連変異の探索に強力なツールとして使えると思いますが、インハウスデータの頻度情報と比較して閲覧ができると便利ですね。