RNA-seq解析の基礎:有効なケース、全体の流れと主要ツール【BI入門⑥】

こんにちは、バイオインフォマティクス実践ラボ管理者のnomura-yです。

遺伝子の発現状態を網羅的に解析する「RNA-seq解析」は、あらゆる生命科学研究においてスタンダードなツールとなっています。この強力なツールは、特定の生物学的現象の背後にある遺伝子レベルの変化を明らかにする上で不可欠です。しかし、「具体的にどのような場合にRNA-seq解析が有効なのか?」「解析はどのようなステップで進むのか?」といった疑問をお持ちの方も多いのではないでしょうか。

今回より4回にわたってRNA-seq解析に関して焦点をあてていきます。今回は、RNA-seq解析がどのような生物学的問いに有効なのか、そのメリット・デメリットを解説します。さらに、データ取得から最終的な機能解析に至るまでの全体像を把握するため、一般的なワークフローと各ステップで使用される主要なソフトウェアツールをご紹介します。

【BI入門①】R入門:環境構築と基本操作
【BI入門②】R実践:データの可視化と関数活用
【BI入門③】Rによる生物データハンドリング
【BI入門④】Python入門:Windows上でのPython・Jupyter実行環境構築
【BI入門⑤】PythonとPandas:表形式データの強力な操作術
【BI入門⑥】RNA-seq解析の基礎:有効なケース、全体の流れと主要ツール ←本記事
【BI入門⑦】RNA-seqデータ前処理:品質評価からゲノムマッピングまで

RNA-seq解析の有効なケース

RNA-seq解析は、次世代シーケンサーやマイクロアレイを用いてmRNAを網羅的に定量し、対照群と処理群の二群間における発現プロファイルの変化を調べる場合に有効です。 例えば、薬物非投与群と投与群の発現プロファイルの違いを調べたり、遺伝子をKOした場合に全体としてどのような機能に影響があるかを確認したりする際に利用されます。

  • メリット
    • サンプルに含まれる細胞群の網羅的な遺伝子プロファイルが得られます。
    • エンリッチメント解析を行うことで、二群間比較で変動した遺伝子に共通して見られる生物学的な機能や経路を統計的に抽出・推定することができます。
  • デメリット
    • データ量が多く(数GB/サンプル)、高スペックな解析環境が必要です。
    • 細胞単独での挙動は解析できないため、単一細胞レベルでの挙動を明らかにしたい場合は、より解像度の高いシングルセルRNA解析が必要となる場合があります。

RNA-seq解析の流れ

一般的なRNA-seq解析の流れは以下の通りです。

  1. クオリティチェック:FastQCを用いてリード配列の品質を確認します。

  2. クオリティコントロール:PRINSEQなどのソフトウェアを用いて、PolyA/Tテイルの除去、品質の低いリード末端のトリミング、配列長が短いリードの除去を行います。

  3. マッピング:STARなどのソフトウェアを用いて、クリーニング済みのリードをゲノム参照配列(例:ヒト参照配列hg38)にマッピングします。

  4. 発現定量:featureCountsなどのソフトウェアを用いて、各遺伝子ごとの発現量(リード数)をカウントします。

  5. 正規化:取得した発現マトリクスをCPM(Count Per Million)補正などにより正規化を行い、サンプル間の比較を可能にします。

  6. 主成分分析 (PCA):Rのprcomp関数などを用いて、高次元の遺伝子発現量データを低次元化し、主要な軸でサンプル間の類似度を散布図として可視化します。

  7. 階層的クラスタリング:Rのamapやggplotsなどのパッケージを用いて、各遺伝子の発現パターンを可視化したヒートマップを出力し、サンプル間のクラスターを階層的に示します。

  8. 二群間比較解析:edgeRなどのソフトウェアを用いて、発現変動遺伝子(DEG)のテーブルを出力します。

  9. Gene Ontology (GO) 解析:RのtopGOなどのパッケージを用いて、発現変動遺伝子にエンリッチメントしているGOタームを検出します。

  10. Reactome Pathway 解析:RのReactomePAなどのパッケージを用いて、エンリッチメントしているパスウェイを検出します。

まとめ

今回は、RNA-seq解析がどのような生物学的問いに有効であるか、そのメリットとデメリット、そして解析の全体像を概観しました。RNA-seq解析は、高次元のデータを扱うため、適切なツールと解析環境が不可欠となります。

次回予告

次回は、RNA-seqデータ解析における最初の重要なステップである「データ前処理」に焦点を当てます。リード配列の品質確認からゲノムマッピングまでの詳細な手順と、解析の信頼性を高めるためのポイントを深掘りします。特に、FastQCやPRINSEQ、STARといったツールの具体的な使い方についても触れる予定です。お楽しみに!

※本記事は、2024年2月7日開催の次世代シーケンス解析ケーススタディ講座「RNA-seq解析」講演内容をベースに作成しております。
動画で本記事の内容を視聴したい、講演資料PDFをダウンロードしたい方は、アメリエフの運営する会員制動画サイト「バイオインフォマティクス実践ラボ」にご登録ください。