アメリエフのブログ

Amelieff Staff Blog

次世代シーケンシング結果を用いたデータ解析

本日は次世代シーケンシングのデータ解析を例として、アノテーションの方法を記述していきます。

次世代シーケンシングのデータは、まずリファレンスゲノムと比較する必要があります。

以下に大まかなデータ解析方法を記載していきます。

1. 公開されているリファレンスゲノムをダウンロードする(例:hg19.fa)。

2. リファレンスゲノムのデータと次世代シーケンシングのデータを比較(マッピング)します。

  - バイオインフォマティクスツールを使用します(例:bwa)。Linux上でコマンドを用いる必要があります。

3. 多型の抽出を行います(例:samtools)。

  - 多型情報を得ます。
  - 多型情報の結果は、通常膨大なデータとして出力されます。

4. 多型情報に位置や変異など目的に合わせた注釈を入れていきます(アノテーション)。
  - comon SNPを除外します。
  - exone intron, intergenicなどのアノテーションを付与します。
  - さらにexoneに含まれるSNPに対して、synonymous、nonsynonymousなどの詳細なアノテーションを付与します。


上記のプロトコールやアノテーションの内容などは、実験の目的や手法によって大きく変わります。実験によっては、適当なバイオインフォマティクスツール(オープンソースツール)がなく、自前でプログラムを作成する必要がある場合もあります。
そのため次世代シーケンシングによるデータ解析には、お客様が求めている事をしっかりと把握し、その目的に合わせて解析手法を組み立てる必要があり、弊社もそれに対応できるよう心がけています。