アメリエフの技術ブログ

Amelieff Staff Blog

QCの道 その2

こんにちは。detです。
今日は前回のQCの道 その1の続きです。

まずは、FASTX-Toolkitが持つ各機能について順番に説明して行きたいと考えています。

1.インストール方法
上記のFASTX_Toolkitのウェブサイトからダウンロードページに飛ぶと、一番上に、コンパイル済みのバイナリデータがあります。
あなたの環境が64bitのlinux環境であれば、Linux(64bit)を選択しダウンロードします。この記事執筆時点でのファイル名は以下のようになっています。

fastx_toolkit_0.0.13_binaries_Linux_2.6_amd64.tar.bz2

これをlinux上で以下のコマンドで解凍します。

$ tar jxvf fastx_toolkit_0.0.13_binaries_Linux_2.6_amd64.tar.bz2

これで同じ階層に bin/ というディレクトリができます。
あとはその bin/ にPATHを通せばどこでも利用できます。


2.使用方法
bin/の中を見て頂くと、たくさんのツールが存在しています。それら一つ一つがfastqファイルに対してさまざまな処理をする機能を持っています。それらについて一つずつ、紹介していきます。
注意事項:FASTX-Toolkitの各種ツールを実行するときは、オプションで -Q 33 を与えることを忘れないでください。

・fastq_to_fasta
fastqファイルに含まれる各リードをfastaに変換します。単純に考えれば、fastqファイルの3行目と4行目を削除したものになります。また、Nが一つでもあるリードは除去されてなくなってしまいます。その代り、どんなにクオリティ値が低いリードでも除去されません。

【optionの説明】
-h: ヘルプを表示します。
-r: fastqファイルの各リード1行目のシーケンスIDをただの番号に変えます。ファイルの先頭から各リードに1から順番に番号が付きます。
-n: デフォルトではNが一つでもあるリードは除去されます。このオプションを入れると、Nがあっても除去されません。
-v: 処理前後でのリード数などを出力してくれます。
-i: 入力ファイルを指定します。
-o: 出力ファイルを指定します。指定しない場合は標準出力に出力されます。

【実行例1: 普通に変換】
$ fastq_to_fasta -i test.fastq -o test.fasta -Q 33

【実行例2: 番号付出力、及びNがあっても除去しない】
$ fastq_to_fasta -i test.fastq -o test.fasta -r -n -Q 33


これ以外にもいろいろツールがあります。それはまた次回にご説明いたします。