アメリエフの技術ブログ

Amelieff Staff Blog

SeqCap Epi連載[4]|BSMAPでバイサルファイトシーケンスのマッピング

「Trick or treat!!シーケンシングデータをくれないといたずらしちゃうぞ!!」
ということで記事執筆時の今日はハロウィンですが、ジャック・オ・ランタンはいままで作ったことがない久保です(kubor)。新しい解析方法を試してみたいけど、最適な公開データが見つからない。そういう時に誰かがこの一言で、データを見つけ出してくださると嬉しいですよね。もちろん、お菓子をいただけるというのであれば、それもありがたく頂戴いたします。

さて、第4回目を迎えたSeqCap Epi連載ですが、今回はこのパイプラインの要とも言えるマッピングソフト(BSMAP)の紹介です。

|バイサルファイト変換を考慮したマッピングソフト

「BSMAP(Bisulfite Sequence Mapping Program)*1」は、バイサルファイトシーケンスで得られたショートリードをマッピングするためのソフトウェアです。バイサルファイト変換を行うと非メチル化シトシン(C)がウラシル(U)に変換されます。このUはシーケンサーではチミン(T)として検出されますので、バイサルファイト変換によりC -> Uと置換され、その結果シーケンシングデータではC -> Tの置換が起きます。すなわち、バイサルファイト変換が100%の確率で成功している場合、残ったCはすべてメチル化されたCであると言えます。

シーケンシングリードをマッピングするときには、このC -> Tの置換、および逆鎖におけるG -> Aの置換を考慮することが肝要です。BSMAPのようなバイサルファイトシーケンスに対応したマッピングソフトは、これらを考慮することが可能です。

|BSMAPはアラインメントに掛かる時間と精度のバランスが良い

Kunde-Ramamoorthy et al.(2014)*2は100 bpのリードをBISMARK、BSMAP、Pash、BatMeth、そしてBS Seekerの5つのバイサルファイトシーケンス用のマッピングソフトを比較した結果、BSMAPがマッピングクオリティと処理速度のどちらも高い水準を示したことを報告しています。 以上のことから、弊社の解析パイプラインにおいてもBSMAPをマッピングソフトとして採用しています。

|BSMAPの特徴的なコマンドオプション

BSMAPにはいくつかの特徴的なコマンドオプションが用意されています。ここでは以下の3つのオプションを紹介します。

  1. -r [0,1]:マルチヒットしたリードの扱いを指定します。[0]の場合、ユニークヒットしたリードのみを使用します。[1]の場合は、ランダムに1つを選びます*3
  2. -n [0,1]:マッピングするストランドを指定します。[0]の場合、フォワード向きに順鎖と逆鎖にマッピングします。[1]の場合は、順鎖と逆鎖どちらにおいてもフォワードとリバース向きのマッピングを行います。
  3. -p <int>:使用するスレッド数を指定可能です。BSMAPが高速に処理できる理由の1つがこのマルチスレッド処理への対応です。

この他にもトリミングを指定したり、許容するインサートサイズを指定したりなど、様々なオプションがあります。詳細はREADME.txtで確認可能です。

|編集後記

今回、BSMAPを紹介する前に、弊ブログの過去記事で既に紹介済みで無いかどうかを確認しました。その結果、実は少しだけ言及していたことがありました。こちらの記事です。 「DNAメチル化解析 その1」wrote:akb

下記の論文では、バイサルファイト後リードのマッピングに特化したmappingソフトとして3のツールを比較しています。 1)BISMARK 2)BSMAP 3)RMAPBS マッピング効率、時間、使用するCPUコア数などからBISMARKを推奨しています

僕が今回紹介した内容と効率や時間などの点で矛盾がありますが、この記事は、2012年のものです。また、参考文献中で検証に使用したBSMAPのバージョンもv1.02と1.2です4。それから2年後、現在のBSMAPの最新バージョンはv2.87です。この2年でかなりの改良が加えられたのか、BISMARKに迫るスピードかつ、BISMARKよりも高い精度を示すまでにブラッシュアップされています*2。 このようにバイオインフォマティクスの世界では次々に新しい技術や手法、改良が行われていますので、我々もそれに追従するため、日々の情報収集により注力しなければなりませんね。 さて、いつもながら、記載内容の間違いなどはコメント欄等でご指摘いただけると幸いです。 次回は引き続きBSMAP関連で、BSMAPパッケージに含まれている、メチレーションコールのためのスクリプト“methratio.py”にフォーカスする予定です。 それではまた。久保でした。


SeqCap Epi連載シリーズ過去記事一覧


*1:bsmap - Bisulfite Sequence Mapping Program, BSMAP配布サイトにて公開中 *2:Kunde-Ramamoorthy, G., Coarfa, C., Laritsky, E., Kessler, N. J., Harris, R. A., Xu, M., … Waterland, R. a. (2014). Comparison and quantitative verification of mapping algorithms for whole-genome bisulfite sequencing. Nucleic Acids Research, 42(6), e43. doi:10.1093/nar/gkt1325 *3:[-r 0]として、さらに[-u]オプションを付けておくと、マルチヒットしてマッピングされなかったリードをレポートすることも可能です。 *4:Chatterjee, A., Stockwell, P. a, Rodger, E. J., & Morison, I. M. (2012). Comparison of alignment software for genome-wide bisulphite sequence data. Nucleic Acids Research, 40(10), e79. doi:10.1093/nar/gks150