シーケンシングデータをFastQCなどでチェックしていると
アダプタ配列が混入しているのを見つけることがあります。
アダプタ除去ソフトウェアはいろいろありますが
今回は以下の3ソフトウェアの使い方をご紹介します。
cutadapt
FastX-Toolkit(fastxclipper)
tagcleaner
丁度以下のアダプタが混入しているらしき公開データがあったので、
このアダプタを除去することにしました。
◆Illumina PCR Primer Index 1
CTACAGTCCGACGATCTCGTATGCCGTCTT
◆実行コマンド
各ソフトを以下のように実行しました。
$ cutadapt -b TACAGTCCGACGATCTCGTATGCCGTCTTC -m 10 -n 1 ¥
original.fastq 1> out_cutadapt.fastq
$ fastx_clipper -C -l 10 ¥
-a TACAGTCCGACGATCTCGTATGCCGTCTTC ¥
-i original -M 3 -o out_fastxclipper.fastq
$ tagcleaner.pl -fastq original.fastq -out out_tagcleaner ¥
-tag5 TACAGTCCGACGATCTCGTATGCCGTCTTC -minlen 10
パラメータが違うので厳密に同じ条件にはできませんでしたが
だいたい同じような条件で実行しています。
◆結果
「処理後にアダプタ断片がどれくらい残っているか」と
「処理前後でリード数がどのくらい減少したか」を確認しました。
・FastX-Toolkitは厳しめ
(アダプタ断片がよく取り除かれているが、リード数がかなり減って
おり、アダプタ以外も誤除去している可能性あり)
・tagcleanerは緩め
(リード数はあまり減らないが、アダプタ断片が残っている)
・cutadaptは両者の中間
(リード数はあまり減らず、アダプタ断片も比較的取り除かれている)
データやパラメータにもよると思いますが、cutadaptが比較的
バランスがとれているように思われます。