こんにちは。
本日のテーマはPCR duplicateの除去についてです。
1分でわかるまとめ
- PCR duplicate の処理は変なデータの除去に役立つ
- 同じ長さ&配列ができることが予想される手法では、使わない
- 制限酵素でDNA分解
- Amplicon-sequence
PCR duplicateって?なぜ除去したほうがいいの?
シーケンスの際、DNA断片を検出可能な量に増やすため、PCRで増幅を行います。*1
その際に意図しない形で、一部の配列が増えすぎてしまうと、変異検出結果に影響を与えます。
例えば、以下のような悪影響が考えられます。
ヘテロ接合の片方のアリルを持つリードが増え、誤ってホモ接合だと判定してしまう
もともとはリード1本でのみ生じたエラーが増幅され、信頼性高く検出されてしまう
これらを防ぐため、解析段階で「PCR で増えすぎた」と考えられるリードを取り除きます。
PCR duplicate はどうやって判定されるのか?
ソフトウェアはリードの5'末端の位置がそろっているリード(及びそのペアリード)をPCR duplicateと判断して処理します。*2
・・・つまり、「元々5'末端の位置がそろっているはず」のシーケンスデータの場合では、この処理を行うと、正しいリードが減ってしまうことになります。
除去しない方がよい場合
ターゲット/アンプリコンシーケンスの場合
特定の遺伝子配列のみを抽出して、シーケンスする場合です。 特に アンプリコンシーケンス (Amplicon Sequence )の場合は、PCR産物にアダプターをつけてシーケンスします。*3 なので同じ配列のリードがたくさんできる可能性が高いです。
制限酵素処理
全ゲノム (Whole Genome Sequence)やエクソーム (Exome Sequence) でも、ライブラリ調整のとき、DNAの断片化を制限酵素処理している場合、末端の配列はどれも同じですので、元々末端が揃ったリードができます。(制限酵素は特定の塩基配列を認識して切断します)
あとがき
PCR duplicateの除去は、
英語では remove duplicate 略して rmdup, redup などと表記されることもあります。
業界のひと、略語つかいがち。
逆に日本語だと、、、duplicate を和訳するなら「重複」になると思いますが、
「PCR duplicate」は和訳は特になく「ピーシーアール デュプリケイト」って言うことが多いです。(多分)
あ、
アメリエフの受託解析ではお客様のサンプルにあわせて除去するかどうか ちゃんと判断していますので、ご安心ください^-^
*1:イルミナ社 NGSをはじめよう!これだけは知っておきたいMiSeq ~ 解析原理と必要な試薬キット、装置の使い方~ https://jp.illumina.com/content/dam/illumina-marketing/apac/japan/documents/pdf/2014_techsupport_session6.pdf
*2:https://gatk.broadinstitute.org/hc/en-us/articles/360037052812-MarkDuplicates-Picard-
*3:イルミナ社 MiniSeqTM システムで行うターゲット リシーケンスソリューション https://jp.illumina.com/content/dam/illumina-marketing/apac/japan/documents/pdf/appnote_targeted_resequencing_miniseq.pdf