こんにちはFukuです。
4月ということで、「〇〇解析とは」シリーズを始めてみます。
続くかな・・・・
本日は!!
Reseq解析とは
resequencing の略で、
発音は りしーく、りしっく or りせっく です。
基本的にゲノム配列がわかっている生物に対して、DNAの変異検出を目的とした解析のことです。
既知である参照ゲノム配列と、シーケンスデータ(調べたいサンプル)との差異を変異として検出します。
下の図では、左から2塩基目が A→G 、 10塩基が C → A という差異が検出できます。
グレーの帯:シーケンスリード 下のATCG:参照ゲノム配列
実験方法は
シーケンスする領域 の大きさによって種類があります。
- whole genome sequence 全ゲノムシーケンス
- whole exome sequence 全エクソンシーケンス
- target sequence (amplicon sequence) 特定の領域のシーケンス
名前について
reseqの「re」は、 2回目のシーケンスだから「re」と言われています。
シーケンス①回目 :生物の標準ゲノム配列を決定(ヒトゲノムの解読は2003年に完了しました)
シーケンス②回目 :このサンプルのゲノム配列を知りたい
...というイメージです。
結果とその先
変異の検出結果は、「〇〇染色体の ■■塩基目が A→G 」の形で表されます。
一般にVCF という形式で出力・保管されます。
また、検出した変異が遺伝子上にあるのか?
遺伝子上にある場合、アミノ酸配列も変わるだろうか?
といった生物的な影響を知りたいですよね。もちろんデータ解析で導くことができ、この意味付けを「アノテーション」といいます。
ヒトの場合は多くの研究が行われており、
「ヨーロッパ人に多い変異」や「疾患に関連することがわかっている変異」などのデータベースがあります。
自分の調べたいサンプルと、こうしたデータベースの変異を比較することも重要です。
(広義ではデータベースの情報を割り当てることもアノテーションと言います)