アメリエフのブログ

Amelieff Staff Blog

reseq 解析超入門

こんにちはFukuです。

4月ということで、「〇〇解析とは」シリーズを始めてみます。
続くかな・・・・

本日は!!

reseq

resequencing の略で、

発音は りしーくりしっく or りせっく です。

基本的にゲノム配列がわかっている生物に対して、DNAの変異検出を目的とした解析のことです。

既知である参照ゲノム配列と、シーケンスデータ(調べたいサンプル)との差異を変異として検出します。
下の図では、左から2塩基目が A→G 、 10塩基が C → A という差異が検出できます。
グレーの帯:シーケンスリード 下のATCG:参照ゲノム配列

f:id:Fuku-I:20200424174916p:plain:w300

実験方法は

シーケンスする領域 の大きさによって種類があります。

  • whole genome sequence 全ゲノムシーケンス
  • whole exome sequence 全エクソンシーケンス
  • target sequence (amplicon sequence) 特定の領域のシーケンス

名前について

reseqの「re」は、 2回目のシーケンスだから「re」と言われています。

シーケンス①回目 :生物の標準ゲノム配列を決定(ヒトゲノムの解読は2003年に完了しました)
シーケンス②回目 :このサンプルのゲノム配列を知りたい
...というイメージです。

結果とその先

変異の検出結果は、「〇〇染色体の ■■塩基目が A→G 」の形で表されます。
一般にVCF という形式で出力・保管されます。

VCF format① - アメリエフのブログ

また、検出した変異が遺伝子上にあるのか?
遺伝子上にある場合、アミノ酸配列も変わるだろうか?
といった生物的な影響を知りたいですよね。もちろんデータ解析で導くことができ、この意味付けを「アノテーション」といいます。

ヒトの場合は多くの研究が行われており、
「ヨーロッパ人に多い変異」や「疾患に関連することがわかっている変異」などのデータベースがあります。
自分の調べたいサンプルと、こうしたデータベースの変異を比較することも重要です。
(広義ではデータベースの情報を割り当てることもアノテーションと言います)