reseq 解析超入門 - アメリエフの技術ブログ

こんにちはFukuです。

4月ということで、「〇〇解析とは」シリーズを始めてみます。
続くかな・・・・

本日は！！

Reseq解析とは

resequencing の略で、

発音はりしーく、りしっく or りせっくです。

基本的にゲノム配列がわかっている生物に対して、DNAの変異検出を目的とした解析のことです。

既知である参照ゲノム配列と、シーケンスデータ(調べたいサンプル)との差異を変異として検出します。
下の図では、左から2塩基目が A→G 、 10塩基が C → A という差異が検出できます。
グレーの帯：シーケンスリード　下のATCG：参照ゲノム配列

f:id:Fuku-I:20200424174916p:plain:w300

シーケンスする領域の大きさによって種類があります。

reseqの「re」は、２回目のシーケンスだから「re」と言われています。

シーケンス①回目：生物の標準ゲノム配列を決定（ヒトゲノムの解読は2003年に完了しました）
シーケンス②回目：このサンプルのゲノム配列を知りたい
...というイメージです。

変異の検出結果は、「〇〇染色体の ■■塩基目が A→G 」の形で表されます。
一般にVCF という形式で出力・保管されます。

また、検出した変異が遺伝子上にあるのか？
遺伝子上にある場合、アミノ酸配列も変わるだろうか？
といった生物的な影響を知りたいですよね。もちろんデータ解析で導くことができ、この意味付けを「アノテーション」といいます。

ヒトの場合は多くの研究が行われており、
「ヨーロッパ人に多い変異」や「疾患に関連することがわかっている変異」などのデータベースがあります。
自分の調べたいサンプルと、こうしたデータベースの変異を比較することも重要です。
（広義ではデータベースの情報を割り当てることもアノテーションと言います）