アメリエフの技術ブログ

Amelieff Staff Blog

QC の道 その1

こんにちは。detです。

今日は、次世代シーケンサーから得られる生データのクオリティコントロールについて、お話したいと思います。

次世代シーケンサーから得られるデータ(例えば、Fastq形式のファイル)は、クオリティに問題があることが多いため、その後の解析にそのデータをそのまま用いることはあまり推奨されません。

そこで、得られたデータを処理する前に、そのリードのクオリティを確認し、必要に応じてトリミングやリードの除外などの処理(クオリティコントロール(QC))をする必要があります。

ひとつ前の記事の一番下の資料にも一部書いてありますが、いくつかのフリーツールを用いてFastqファイルのQCをすることができます。よく利用されるものを以下に挙げてみます。

FASTX-Toolkit
Fastq/Fasta形式に対応したプリプロセスツール群です。いくつかのツールがセットになっており、データの統計解析や、形式の変換、長さやクオリティなどに基づいたトリミング・フィルタリング等の豊富な機能を持ちます。

PRINSEQ
PRINSEQもFasta/Fastqに対応したQCツールです。豊富なQC項目だけでなく統計解析を簡単にグラフィカルに確認できます。web版とコマンドラインで動かすstandalone版があり、windowsユーザーでも気軽に利用できます。

Tagcleaner
シーケンス用ライブラリ調整時に結合するアダプター(タグ)配列が、Fastqファイルの中に紛れ込んでいることがあります。そのタグを検出して削除してくれるのがこのTagcleanerです。タグ配列が不明の場合はその予測機能も持ちます。Tagcleanerにもweb版とstandalone版があります。

cmpfastq
ペアエンドのデータをQCしていくと、ペアの片側が除去されて無くなってしまい、片側だけのデータができてしまいます。その片側だけのデータを除去して、ペアを揃えるのがこのcmpfastqです。perlのハッシュを用いて処理を高速化していますが、大容量データだとメモリ消費量が上昇するのが難点です。

以上、簡単にQCソフトを紹介しました。上記以外にもQCに関するツールは存在しており、それぞれさまざまな特徴があります。

本日はこのくらいで。
detでした。

-------
次の記事 QC の道 その2 はこちら。