構造多型の検出原理1
構造多型(SV)を検出するためには、主にSplit-read mappingを用いた方法とPaired-end mappingを用いた方法があります。
まずSplit-read mappingを用いる方法からご説明します。
SVが存在するサンプル配列から得られたreadは、リファレンス配列にマッピングしても、配列が一致しないためマッピングされません。
Split-read mappingを用いる方法では、このマッピングされなかったread(unmapped read)を使用してSVを検出します。
SVのbreakpoint(境界点)上にあるreadは、一部はリファレンス配列と一致していますが、SVのせいで残りは一致せず、マッピングされません。そこで、いったんreadを分割(split)して、リファレンス配列と一致するところのみをマップします。
その後、残った部分をリファレンス配列にマップします。残った部分がどのようにマップされたかによって、SVの種類を判断します。
Indelの例
その他のSVの例
Split-read mappingを用いる方法では、readの分割点がbreakpointにあたるため、精度よくbreakpointを検出できます。
また、図では分割したreadをマップするためにリファレンスにマップされた対のread(anchor read)を参考にしていますが、これを必要としない原理ではsingle-end readの解析も行えます。
ただ、多様なSVを検出するのは不得意なツールが多いようです。
次回で、もう一つの検出方法であるPaired-end mappingを用いる方法をご説明いたします。