リシーケンス解析でのPCR duplicateの扱い - アメリエフの技術ブログ

こんにちは。

本日のテーマはPCR duplicateの除去についてです。

1分でわかるまとめ

シーケンスの際、DNA断片を検出可能な量に増やすため、PCRで増幅を行います。*1
その際に意図しない形で、一部の配列が増えすぎてしまうと、変異検出結果に影響を与えます。
例えば、以下のような悪影響が考えられます。

これらを防ぐため、解析段階で「PCR で増えすぎた」と考えられるリードを取り除きます。

ソフトウェアはリードの5'末端の位置がそろっているリード(及びそのペアリード)をPCR duplicateと判断して処理します。*2

・・・つまり、「元々5'末端の位置がそろっているはず」のシーケンスデータの場合では、この処理を行うと、正しいリードが減ってしまうことになります。

ターゲット/アンプリコンシーケンスの場合

特定の遺伝子配列のみを抽出して、シーケンスする場合です。特に アンプリコンシーケンス (Amplicon Sequence )の場合は、PCR産物にアダプターをつけてシーケンスします。*3 なので同じ配列のリードがたくさんできる可能性が高いです。
制限酵素処理

全ゲノム (Whole Genome Sequence)やエクソーム (Exome Sequence) でも、ライブラリ調整のとき、DNAの断片化を制限酵素処理している場合、末端の配列はどれも同じですので、元々末端が揃ったリードができます。（制限酵素は特定の塩基配列を認識して切断します）

PCR duplicateの除去は、
英語では remove duplicate 略して rmdup, redup などと表記されることもあります。
業界のひと、略語つかいがち。

逆に日本語だと、、、duplicate を和訳するなら「重複」になると思いますが、
「PCR duplicate」は和訳は特になく「ピーシーアールデュプリケイト」って言うことが多いです。(多分)

あ、
アメリエフの受託解析ではお客様のサンプルにあわせて除去するかどうかちゃんと判断していますので、ご安心ください^-^

*1:イルミナ社 NGSをはじめよう!これだけは知っておきたいMiSeq ~ 解析原理と必要な試薬キット、装置の使い方~ https://jp.illumina.com/content/dam/illumina-marketing/apac/japan/documents/pdf/2014_techsupport_session6.pdf