データ解析でほっこりした話 - アメリエフの技術ブログ

古くからの友達に久々に会うと嬉しくなりますね。
地元の幼馴染、高校の友達、サークル仲間、そして人類の太古からのお友達であるミトコンドリア。
DRY解析だけやっていると絵や写真で見るだけの彼ですが、最近、そのDRY解析中に会えました。
「？？？？？」と思われたそこのあなた、よもやま話ですがぜひお付き合いください。

最近、この論文と同じようなメタゲノム解析を行う機会がありました。

Xiaoxi Dong et al., Arsenic exposure and intestinal microbiota in children from Sirajdikhan, Bangladesh. PLoS One 12, (2017)

ヒ素曝露がヒト腸内細菌叢へ与える影響を調べた論文です。
ヒト腸内から採取したメタゲノムサンプルをシーケンスし、遺伝子組成を調べています。

この論文もそうですが、メタゲノム解析では、より良い解析結果を出すために
リード配列をホストのリファレンス配列にマッピングして、unmapped readのみを下流解析に用いる、という場合があります。
マッピングされたリードは細菌由来ではなく、コンタミしたホストゲノム由来であると考え除去するのです。

私もそれを行いました。
使ったのは、腸内細菌叢サンプルでなく細菌を人為的に混合したサンプルのシーケンスデータです。
つまりホストゲノム（ヒトゲノム）は入っていないはずです。
ところがヒトのリファレンスにマッピングしたところ、ある特定領域に高頻度でリードがマッピングされてしまいました。
お気づきでしょうか。
そう、その領域こそ、ミトコンドリアゲノムでした。

……細胞内共生説だーーー！！！

旧知の友に会った気分です。
こういうことがあると日々の解析が少し楽しくなります。
ここまでお付き合いいただきありがとうございました。

ちなみに、実際の解析場面で細菌由来のリードのミスマッピングを防ぎたかったら、
リファレンス配列のchrMTをマスクするという方法があります。
もちろん、本当にヒトのミトコンドリア由来であるリードが下流解析に残るので、
ケースバイケースですけどね！