アメリエフの技術ブログ

Amelieff Staff Blog

QCの道 その4

こんにちは。detです。
今日は前回のQCの道 その3の続きです。

FASTX-Toolkitが持つ機能について、引き続き紹介いたします。

・fastq_quality_trimmer
FASTQ ファイルの各リードの 3'側から、指定したクオリティ値(qv)未満の塩基を順番に削除していきます。指定したqvより高いqvの塩基が見つかったら、そこでストップします。そして削除の結果、リードの長さが指定した長さ未満になった時はそのリード自体が削除されます。5'側からの削除には対応していません。

【optionの説明】
-h: ヘルプを表示します。
-t N: qvの閾値を指定します。この閾値未満の塩基は削除されます。
-l N: リード長さの最小値を指定します。この最小値未満の長さのリードは削除されます。デフォルトでは0になっています。
-z: 出力をgzip形式で圧縮します。
-i: 入力ファイルを指定します。
-o: 出力ファイルを指定します。指定しない場合は標準出力に出力されます。
-v: 処理前後でのリード数などを出力してくれます。

【実行例1: 3'末端からqvが20未満の塩基削除】
$ fastq_quality_trimmer -t 20 -Q 33 -i test.fastq -o out.fastq

【実行例2: 3'末端からqvが20未満の塩基を削除し、長さが10塩基未満になったリードを削除】
$ fastq_quality_trimmer -t 20 -l 10 -Q 33 -i test.fastq -o out.fastq


・fastx_renamer
FASTA/FASTQ ファイルの、ID行とオプション行(1行目と3行目)を、リード毎に昇順にカウントされる数字かそのリードの塩基配列でリネームします。

【optionの説明】
-h: ヘルプを表示します。
-n TYPE: リネームタイプを指定します。COUNTにすると、昇順の数字に、SEQにすると、塩基配列でリネームされます。
-z: 出力をgzip形式で圧縮します。
-i: 入力ファイルを指定します。
-o: 出力ファイルを指定します。指定しない場合は標準出力に出力されます。

【実行例: 昇順の数字で置き換える場合】
$ fastx_renamer -n COUNT -i test.fastq -o out.fastq -Q33

【実行例: 塩基配列で置き換える場合】
$ fastx_renamer -n SEQ -i test.fastq -o out.fastq -Q33

それでは、また次回に。