アメリエフの技術ブログ

Amelieff Staff Blog

SeqCap Epi連載[3]|Trimmomticでシーケンシング用アダプターを除去

学生時代ですと今頃の時期は、実験圃場のイネの刈り取り時期を気にしている頃ですが、今年は来月の学会の準備ばかりを気にしているバイオインフォマティクス事業部の久保(kubor)です。

さて、3回目のSeqCap Epi連載ですが、今回からはまだアメリエフブログで紹介したことのないソフトを紹介します。
まず今日紹介するのは「Trimmomatic*1」です。

このソフトはSeqCap Epi解析パイプラインにおいてかなり初めのステップで使用するツールです。では、どのようなソフトなのか紹介いたします。

|シーケンシング用のアダプターを除去できます

TrimmomaticはIllumina社の次世代シーケンサーから得られるFASTQデータに適したトリミングツールで、主に以下の操作が可能です。

  • 低クオリティリードの除去
  • 短すぎるリードの除去
  • ペアエンド・シングルエンド両方に対応
  • シーケンシング用プライマーの除去

特徴的なのは、シーケンシング用のプライマー配列や、アダプター配列を見つけて、トリミングしてくれる機能です。これにより、マッピング率を改善させることが可能です。

|細かくトリミングの設定ができます

Trimmomaticの設定は少し大変かもしれません。ですが、それゆえに、FASTQリードを希望の状態に近づけることが可能です。例えばオプションも以下の通り複数あり、全てを詳述するには余白が足りないほどです。

  • ILLUMINACLIP: Illumina特有のアダプターおよびプライマー配列を除去
  • SLIDINGWINDOW: クオリティを評価する際のウィンドウサイズを設定
  • LEADING: リードの先頭について、指定したクオリティ値未満の場合にトリミング
  • TRAILING: リードの末端について、指定したクオリティ値未満の場合にトリミング
  • CROP: リードの先頭から指定した塩基数分を残して、以降をトリミング
  • HEADCROP: 指定した塩基数分をリードの先頭からトリミング
  • MINLEN: トリミング後に残しておくリードの最小塩基長を指定
  • AVGQUAL: リードの平均クオリティ値が、指定したクオリティ値未満の場合にリードを除去
  • TOPHRED33: クオリティ値をphred33として扱う
  • TOPHRED64: クオリティ値をphred64として扱う

|抑えておきたいのはILLUMINACLIPとMINLEN

ご覧のように設定項目がたくさんありますが、抑えておきたい2つのオプションは、ILLUMINACLIPとMINLENです。

@ ILLUMINACLIP

まず、ILLUMINACLIPは、その名前通り、Illumina特有のアダプタやプライマーを除去するためのオプションです。 使用しているシーケンサーによりアダプター配列が異なりますので、それに合わせて、Trimmomaticに含まれるアダプター配列を記したFASTAファイルを選択します。その他の値は以下の内容を記述します。

ILLMINACLIP:adapter.fa:mismatches:palindrome:simpleclip

adapter.fa - アダプター配列のFASTA mismatches - 許容するミスマッチカウントの最大値 palindrome - クリップする際に必要な(ペアエンドリード間で)パリンドロームとしてマッチする塩基の数 simpleclip - アダプター等のシーケンスがリードに少なくともマッチしていないといけない塩基の数 例えば…

ILLUMINACLIP:adapters.fa:2:30:10

となります。

@ MINLEN

つぎにMINLENですが、こちらはシンプルです。 指定した塩基長を閾値として、トリミング後に閾値以下の塩基長のリードを除去します。 トリミング後に残るリード数が著しく少ない場合などは、MINLENを長くすることで調節が可能です。

|ペアエンドなら4個の出力ファイルがあります

最後にアウトプットファイルを紹介します。 ペアエンドモードでTrimmomaticによるトリミングを行うと、4個のファイルが出力されます。インプットファイルが次の2個のファイルの場合、

SAMPLE_R1.fastqSAMPLE_R2.fastq

これらのファイルの内容は、それぞれ、以下の通りです。

SAMPLE_R1_trimmed.fq  :ペアが存在したフォワードのリードSAMPLE_R1_unpaired.fq :ペアが存在しなかったフォワードのリードSAMPLE_R2_trimmed.fq  :ペアが存在したリバースのリードSAMPLE_R2_unpaired.fq :ペアが存在しなかったリバースのリード

SeqCap Epi解析パイプラインでは、下流の解析にペアとシングルの混在が影響しないように、ペアの存在するリードのみを用いています。

|編集後記

実はまだ紹介していないオプションもありますので、詳細は配布WEBサイトからご確認ください。また、記載内容に間違いなどありましたらコメント欄等でご指摘いただけると幸いです。 さて、次回はBSMAPを紹介予定です。 それではまた。久保でした。


--- SeqCap Epi連載シリーズ過去記事一覧 ---


*1:usadellab - Trimmomatic: A flexible read trimming tool for Illumina NGS dataにて公開中。