アメリエフの技術ブログ

Amelieff Staff Blog

SeqCap Epi連載[2]|解析パイプラインの概要

前回に引き続き、SeqCap Epi連載の第2回です。
今回は、SeqCap Epiによる実験データをどのように解析していくのか、ご紹介いたします。用いるソフトはすべてオープンソースのフリーウェアです。
このパイプラインでは、SeqCap Epi CpGiant Enrichment Kit(ロシュ・ダイアグノスティック)を使用して、ライブラリー調整を行い、その後、NGSによるシーケンスを実行して得られたFASTQファイルから解析を行います。

解析ワークフロー


解析のワークフローは次の通りです。

順序項目使用ソフト
1 QC(クオリティコントロール) FastQC, Trimmomatic
2 マッピング BSMAP
3 フィルタリング bamtoolsなど
4 基本データの算出 picardなど
5 メチル化解析 BSMAP(methratio.py)
6 メチル化程度の比較 methylKit
7 アノテーションの付加 methylKit
8 SNPを考慮したメチル化解析 BisSNP
  1. FastQCを用いて、クオリティをチェックし、Trimmomatic*1による低クオリティリードのトリミングを行います。
  2. リファレンスゲノムに対して、リードをマッピングします。
  3. BSMAP*2でマッピングするとSAMファイルを得られますので、Picardを使用してBAMに変換します。その後、bamtoolsやBamUtilなどのソフトを使用して、適切な整形を行います。
  4. 次に、整形後のBAMファイルから、リード数、カバレージ、ハイクオリティリードの割合、ターゲット領域にマッピングされたリードの数などの基本的なデータを算出します。この際には、PicardやGATK toolkitを用います。
    また、この際に実験が上手く行えたかどうかを確認するため、バイサルファイト変換効率を算出します。
  5. BSMAPのmethratio.py*3というスクリプトを用いて、BAMファイル内のメチル化を検出します。
  6. methylKit*4を用いてサンプル間のCpGサイトにおけるメチル化程度を比較します。
  7. metylKitを使用して近傍の遺伝子の転写開始点との距離や、遺伝子名などのアノテーション情報を付加します。
  8. BisSNP*5によりSNPを検出します。

以上が全体的な流れになっています。

このパイプラインの特徴



最大の特徴は、メチル化解析にBSMAPとBisSNPの2つのソフトを使用している点にあります。本パイプラインにおけるこれらの違いは以下です。

BSMAP:すべてのシトシンのメチル化率を算出
BisSNP:すべてのSNPおよびCpGサイトのメチル化率を算出

すなわち、これらの使い分けをすることにより、BSMAPでは、より網羅的にメチル化率を検出し、BisSNPではSNPの可能性のあるシトシンを検出することが可能になっています。このように、多くのCpGサイトをターゲットとし、SNPも考慮することを実現したメチル化解析パイプラインです。

更に、アメリエフでは、この他にも機能を追加して、メチル化程度をIGVで可視化ができるよう、解析パイプラインをブラッシュアップ中です。どうぞご期待ください。



*1:usadellab - Trimmomatic: A flexible read trimming tool for Illumina NGS dataにて公開中。トリミングの際にパラメータを設定することで、指定したアダプタ配列のトリミングが可能。
*2:bsmap - Bisulfite Sequence Mapping Programにて公開中。バイサルファイトシーケンスデータ用のマッピングソフト。
*3:BSMAPに含まれているPythonスクリプト。BAMファイルからメチル化シトシンを検出する。
*4:methylkit - R package for DNA methylation analysisにて公開中。メチル化解析データをサンプル間で比較するためのRパッケージ。
*5:Bis-SNPにて公開中。GATK toolkitに基づくSNPの検出とメチル化シトシンの検出が可能。