kubokawamです。 可視化といっても、マンハッタンプロットを作図してからの話です。
GWAS解析を行って(あるいは共同研究先や外注先に行ってもらって)マンハッタンプロットを眺めていると、このSNPをもう少し詳しく見てみたいなあ、近くにある遺伝子とかLDとかと並べて見たいなあ、と考えることがあるのではないでしょうか。 そんなときは、LocusZoomが便利です。 LocusZoom - Create Plots of Genetic Data
データ(SNP IDと関連解析のp値が必要です)をアップロードして、見たいSNPやポジション、遺伝子を選択するとPDFが出力されます。 以下は、LocusZoomからアクセス可能なインシュリンに関するGWASのpublished dataを使い、糖尿病と関連があるとされる遺伝子COBLL1を指定して図を描いてみた結果です。今回使用したデフォルト設定では、指定した遺伝子の周囲400kbが出力されます。 遺伝子やrecombination rate、r2など、SNPと一緒に見たかった情報が盛りだくさんです。
今回はすべてデフォルトで行いましたが、図のタイトル、凡例の位置などの細かい設定が可能です。 LD計算に使用するgenom buildやpopulationもいくつか選択が可能なので、自分の研究に合わせて選べると思います。
アップロードされたデータは秘匿され、プロット後ただちに削除されると説明がありますが、自分のデータを外部にアップロードすることはできないという方も多いでしょう。 そんな場合、コマンドラインを扱えるなら、スタンダロン版もあります。GWASの結果や候補SNPがたくさんあって、図もたくさん書かなければいけないときにも便利ですね。
LocusZoom Standalone - Genome Analysis Wiki
Python2.7以上、R 3.0以上、new_fugue、plink、tabixのインストールが必要です。
インストールが終わった後にですが、ひとつだけつまずきそうな点があります。 LocusZoom Standaloneには付属のテストデータと、テストデータで解析を実行するためのテストスクリプトがついています。インストール手順に従ってすべての依存ソフトのインストールを終えたあと、まずこのテストスクリプトの実行を試してみましょう。
cd examples ./run_example.py
2017年9月現在、エラーが出ます。
LocusZoomはバージョンが1.4にアップデートされた際に --build
、--pop
、--source
が必須オプションとなったのですが、テストスクリプトがその変更に対応していないためです。
テストスクリプトをテキストエディタで開き、10行目を書き換えて適当な値を指定するとテスト実行がうまくいきます。
cmd = "%(bin)s --metal Kathiresan_2009_HDL.txt --refgene FADS1" % {'bin' : lzbin};
↓
cmd = "%(bin)s --metal Kathiresan_2009_HDL.txt --refgene FADS1 --build hg19 --pop AMR --source 1000G_March2012" % {'bin' : lzbin};
LocusZoomのオプションは目が回りそうなくらいたくさんあるので、自分のニーズにあったオプションを選んで便利に使えます。 ぜひ試してみてください。