こんにちは。detです。
今日は、次世代シーケンサーから得られる生データのクオリティコントロールについて、お話したいと思います。
次世代シーケンサーから得られるデータ(例えば、Fastq形式のファイル)は、クオリティに問題があることが多いため、その後の解析にそのデータをそのまま用いることはあまり推奨されません。
そこで、得られたデータを処理する前に、そのリードのクオリティを確認し、必要に応じてトリミングやリードの除外などの処理(クオリティコントロール(QC))をする必要があります。
ひとつ前の記事の一番下の資料にも一部書いてありますが、いくつかのフリーツールを用いてFastqファイルのQCをすることができます。よく利用されるものを以下に挙げてみます。
FASTX-Toolkit
Fastq/Fasta形式に対応したプリプロセスツール群です。いくつかのツールがセットになっており、データの統計解析や、形式の変換、長さやクオリティなどに基づいたトリミング・フィルタリング等の豊富な機能を持ちます。
PRINSEQ
PRINSEQもFasta/Fastqに対応したQCツールです。豊富なQC項目だけでなく統計解析を簡単にグラフィカルに確認できます。web版とコマンドラインで動かすstandalone版があり、windowsユーザーでも気軽に利用できます。
Tagcleaner
シーケンス用ライブラリ調整時に結合するアダプター(タグ)配列が、Fastqファイルの中に紛れ込んでいることがあります。そのタグを検出して削除してくれるのがこのTagcleanerです。タグ配列が不明の場合はその予測機能も持ちます。Tagcleanerにもweb版とstandalone版があります。
cmpfastq
ペアエンドのデータをQCしていくと、ペアの片側が除去されて無くなってしまい、片側だけのデータができてしまいます。その片側だけのデータを除去して、ペアを揃えるのがこのcmpfastqです。perlのハッシュを用いて処理を高速化していますが、大容量データだとメモリ消費量が上昇するのが難点です。
以上、簡単にQCソフトを紹介しました。上記以外にもQCに関するツールは存在しており、それぞれさまざまな特徴があります。
本日はこのくらいで。
detでした。
-------
次の記事 QC の道 その2 はこちら。