以前の記事でcmpfastqというfastqファイルのペアエンドリードを揃えるツールをご紹介いたしました。本日は、cmpfastqの改良版である
cmpfastq_peとの相違についてご紹介いたします。
cmpfastq_peはcmpfastqから以下の点を改良したバージョンのようです。
1. Illumina CASAVA v1.8の出力に対応
2. メモリ使用量を削減
ペアエンドリードを揃えるアルゴリズム自体は、cmpfastqおよびcmpfastq_peで同一であり、片方のfastqファイルの各リードのIDをハッシュに保存し、そのハッシュに保存されたIDがもう片方のfastqファイルに含まれるかどうかでペアエンドリードを揃えています。
cmpfastq_peでは、そのIDを抜き出す際の正規表現を工夫することで、CASAVA v1.7 以前と v1.8 に対応しています。
また、cmpfastq_peでは、ハッシュの処理等に工夫があり、メモリ使用量・処理時間などのコストがかなり削減されています。
cmpfastqが重くて動かないときは、cmpfastq_peを使用してみるのもいいかもしれません。