構造多型の検出原理1 - アメリエフの技術ブログ

構造多型（SV）を検出するためには、主にSplit-read mappingを用いた方法とPaired-end mappingを用いた方法があります。

まずSplit-read mappingを用いる方法からご説明します。
SVが存在するサンプル配列から得られたreadは、リファレンス配列にマッピングしても、配列が一致しないためマッピングされません。

Split-read mappingを用いる方法では、このマッピングされなかったread(unmapped read)を使用してSVを検出します。
SVのbreakpoint（境界点）上にあるreadは、一部はリファレンス配列と一致していますが、SVのせいで残りは一致せず、マッピングされません。そこで、いったんreadを分割（split）して、リファレンス配列と一致するところのみをマップします。
その後、残った部分をリファレンス配列にマップします。残った部分がどのようにマップされたかによって、SVの種類を判断します。

Indelの例

f:id:amelieff:20190731145521p:plain — indel

その他のSVの例

f:id:amelieff:20190731145607p:plain — SV

Split-read mappingを用いる方法では、readの分割点がbreakpointにあたるため、精度よくbreakpointを検出できます。
また、図では分割したreadをマップするためにリファレンスにマップされた対のread（anchor read）を参考にしていますが、これを必要としない原理ではsingle-end readの解析も行えます。
ただ、多様なSVを検出するのは不得意なツールが多いようです。

次回で、もう一つの検出方法であるPaired-end mappingを用いる方法をご説明いたします。