アメリエフのブログ

Amelieff Staff Blog

BWAでRNA-Seq解析

最近読んだRNA-Seqの論文をご紹介します。

Brooks MJ, Rajasimha HK, Roger JE, Swaroop A.
Next-generation sequencing facilitates quantitative analysis
of wild-type and Nrl(-/-) retinal transcriptomes.
Mol Vis. 2011;17:3034-54. Epub 2011 Nov 23.



マウス網膜のRNA-Seq解析を以下の2パターンで行い、結果を比較して、PCRで検証しています。

(1)
-マッピング:BWA
-アノテーション:ANOVA
-アノテーションデータ:UCSC GenomeBrowser mm9 refFlat.txt

(2)
-マッピング:Tophat
-アノテーション:Cufflinks
-アノテーションデータ:Ensembl

マッピング対象はどちらもゲノム mm9です。

おもしろいと思ったのが、BWAでもゲノムにマッピングしているところです。
リードデータを既知遺伝子配列にマッピングする場合にはBWAも使いますが、ゲノムにマッピングする場合はTophatを使うのがあたりまえのようになっています。
これは、BWAでは長いギャップを許容しないため、リードの途中にスプライシング箇所があるようなマッピングができないためです。

結果、当然ですが、(1)で検出された転写物数は(2)で検出された転写物数の半分くらいでした。
ただ、発現レベルの精度は(1)のほうが良かったそうです。
これは用いたアノテーションデータによるところもありそうで、(2)のEnsemblデータはアイソフォーム数が(1)のrefFlatの3倍もあるために、精度がぼやけてしまっているのではないかという考察がなされていました。

特定の遺伝子の発現レベルを正確に見るなら、(1)の選択肢もありうるわけです。
# その場合、ゲノム配列ではなく遺伝子配列にマッピングしたほうがもっといいような気はしますが...

RNA-SeqならTophat」と固定概念にとらわれてしまいがちですが、場合に応じてその都度最適な解析手順を考える必要があると思いました。
用いるアノテーションデータも精査していかないといけないですね。