ショートリード用マッピングツールBowtie2に、dovetailオプションという機能があります。
私は最初、鳥のしっぽつながりで、swallow-tailed coatみたいに紳士服に関連した何かかと思いました。ほら、RNAseq関連のツールの名前って紳士服にちなんでいることが多いですし。
ちなみに私はRNA-seqを何度も実行していたのに、ツールの名前が紳士服関連だと気づいていなかったやつです。
staffblog.amelieff.jp
さておき、dovetailは紳士服ではなく、建築用語でした。日本語では蟻継ぎ(ありつぎ)という、木材同士を継ぐための手法のことのようです。継ぎ手が蟻の頭の形をしていることから蟻継ぎと呼ばれる、という説明がありました。この形を海外では鳩の尾になぞらえたみたいですね。
Bowtie2の機能に話を戻しましょう。
Dovetail機能については、Bowtie2マニュアルのこのへんに説明があります。
Paired-endデータをアライメントするとき、bowtie2はforward readとreverse readが適切な位置関係にアライメントされなかったとき、そのread pairを「discordant pair」と判定します。
適切ではない位置関係というのは、
- mate pairが重複している
- mate pairが互いを包含する
- mate pairが互いの向こう側まで伸長している( extending "past" each other )
などがあり、互いの向こう側まで伸長していることをdovetailと、bowtie2では呼んでいるそうです。
……あいにく私にはこれを見ても、何が「ありつぎ」っぽいのか、いまいちピンとこなかったのですが。
いろいろなたとえがあるということは勉強になりました。
このような普通は見かけない位置関係、またはorientationにあるペアリードは、discordantなアライメントとして、bowtie2のデフォルトの設定では除外されてしまいます。そのため、データの特徴などを鑑みて、discordantなペアリードを残したいときは、オプションでそのようなリードを除外しないよう指定する必要があります。
今回ご紹介したdovetailの関係にあるペアリードを残したいときは --dovetail
と指定することで、dovetailな関係にあるペアリードを残すことができます。
以上、最近、 CUT&RUN絡みで --dovetail
オプションを見かけることがあったので、紹介してみました。