アメリエフの技術ブログ

Amelieff Staff Blog

QCの道 その6

こんにちは。detです。
今日は前回のQCの道 その5の続きです。

FASTX-Toolkitの使い方について、引き続き紹介いたします。

・fastx_quality_stats
FASTA/Q ファイルのリードに含まれる塩基のポジション毎の統計量を算出し、表形式で出力してくれます。FASTA形式の入力を与えたときは、クオリティに関する項目は出力されません。

【出力される各項目の説明】
column: 5'末端から数えた塩基の位置
count: そのポジションの塩基数
min: そのポジションで最も低いqv
max: そのポジションで最も高いqv
sum: そのポジションのqvを全て足した値
mean: そのポジションのqvの平均値
Q1: そのポジションのqvの第1四分位数
med: そのポジションのqvの中央値
Q3: そのポジションのqvの第3四分位数
IQR: そのポジションのqvの四分位数範囲
lW: そのポジションのqvの統計量を箱ひげ図で表した時の最小値
RW: そのポジションのqvの統計量を箱ひげ図で表した時の最大値
A_Count: そのポジションに含まれるA塩基の数
T_Count: そのポジションに含まれるT塩基の数
G_Count: そのポジションに含まれるG塩基の数
C_Count: そのポジションに含まれるC塩基の数
N_Count: そのポジションに含まれるN塩基の数
max-count: 全てのポジションで最も塩基数が多いポジションの塩基数

【optionの説明】
-h: ヘルプを表示します。
-i: 入力ファイルを指定します。
-o: 出力ファイルを指定します。指定しない場合は標準出力に出力されます。

【実行例: FASTA/Qファイルの統計量計算】
$ fastx_quality_stats -i test.fastq -o out.text -Q33


・fastq_quality_boxplot_graph.sh
FASTQファイルのリードに含まれる塩基のポジション毎のクオリティ図を箱ひげ図の形式で作成します。inputに、上記 fastx_quality_stats の出力を必要とします。

【optionの説明】
-i: 入力ファイルには fastx_quality_stats の出力ファイルを指定します。
-o: 出力ファイルを指定します。デフォルトでpng形式で出力されます。指定しない場合は、バイナリを無理やり標準出力しようとするので、必ず指定してください。
-p: 出力ファイル形式を PostScript に変更します。
-t: 出力される図に記載されるタイトルを指定できます。

【実行例: FASTQファイルのクオリティ図作成】
$ fastq_quality_boxplot_graph.sh -i out.txt -t hogehoge -o boxplot.png

【実行結果例】



・fastx_nucleotide_distribution_graph.sh
FASTQファイルのリードに含まれる塩基のポジション毎に、塩基の種類の分布図を作成します。inputに、上記 fastx_quality_stats の出力を必要とします。

【optionの説明】
-i: 入力ファイルには fastx_quality_stats の出力ファイルを指定します。
-o: 出力ファイルを指定します。デフォルトでpng形式で出力されます。指定しない場合は、バイナリを無理やり標準出力しようとするので、必ず指定してください。
-p: 出力ファイル形式を PostScript に変更します。
-t: 出力される図に記載されるタイトルを指定できます。

【実行例: FASTQファイルのクオリティ図作成】
$ fastx_nucleotide_distribution_graph.sh -i out.txt -t hogehoge -o boxplot.png

【実行結果例】


それでは、また次回に。


---これまでの記事へのリンク---
QCの道 その1
QCの道 その2
QCの道 その3
QCの道 その4
QCの道 その5