こんにちは、バイオインフォマティクス実践ラボ管理者のnomura-yです。
第8回までで、RNA-seqデータの品質管理、マッピング、そして遺伝子発現量の定量と可視化について学んできました。いよいよRNA-seq解析の最終回となる今回は、これらの解析結果から生物学的な意味合いを深く掘り下げる「応用解析」に焦点を当てます。どの遺伝子が、どのような生物学的プロセスやパスウェイに関与しているのかを明らかにすることは、RNA-seq解析の最終的な目標であり、新たな発見へと繋がる重要なステップです。
【BI入門①】R入門:環境構築と基本操作
【BI入門②】R実践:データの可視化と関数活用
【BI入門③】Rによる生物データハンドリング
【BI入門④】Python入門:Windows上でのPython・Jupyter実行環境構築
【BI入門⑤】PythonとPandas:表形式データの強力な操作術
【BI入門⑥】RNA-seq解析の基礎:有効なケース、全体の流れと主要ツール
【BI入門⑦】RNA-seqデータ前処理:品質評価からゲノムマッピングまで
【BI入門⑧】RNA-seqデータ解析:発現定量と主要なデータ可視化手法
【BI入門⑨】RNA-seqデータ解析:発現変動遺伝子とエンリッチメント解析 ←本記事
今回も前回紹介した論文の公開データを使って、edgeR等を用いて発現変動遺伝子(DEG)を同定し、EnhancedVolcanoで可視化、GO解析やReactome Pathway解析で生物学的機能に意味付けを行う実践的な解析手法を解説します。
サンプルとなる論文とDB(再掲)
Gene Expression Omnibus:https://www.ncbi.nlm.nih.gov/geo/
RNA-seq解析の流れ(応用解析に特化)
RNA-seq解析の一般的な流れの中で、今回は特に以下のステップに注目します。
- 二群間比較解析:edgeRなどのツールを用いて、発現変動遺伝子(DEG)のテーブルを出力します。edgeRは、カウントデータに適した統計モデルを用いて、二つの群間(例:健常群と疾患群、対照群と処理群)で統計学的に有意に発現量が変動している遺伝子を検出します。
- 例:ワクチン接種前の若年者と高齢者(BY対BO)の発現比較では、赤色にプロットされる発現変動遺伝子(FDR < 0.05かつ|logFC| > 1)が検出されました。FDR(False Discovery Rate)は多重比較による偽陽性を制御する指標であり、logFC(log2 Fold Change)は発現量の変化の大きさを表します。これらの閾値を設定することで、信頼性の高いDEGを抽出します。
- 可視化:RのEnhancedVolcanoパッケージを用いて、発現二群間比較解析の結果をボルケーノプロットとして可視化します。このプロットは、各遺伝子の発現変動量(logFC)と統計的有意性(-log10(p-value)または-log10(FDR))を同時に示すことで、どの遺伝子が強く、かつ有意に変動しているかを一目で把握できます。この右図のプロットでは、各比較群において発現変動の大きい遺伝子に遺伝子シンボルを追加しています。

- Gene Ontology (GO) 解析:RのtopGOパッケージを用いて、発現変動遺伝子にエンリッチメントしているGOタームを検出します。GO解析は、DEGがどのような生物学的プロセス(BP)、分子機能(MF)、細胞内局在(CC)に関与しているかを網羅的に調べることで、発現変動の生物学的意義を明らかにします。
- 結果:若年者と高齢者間の比較では、免疫応答に関するGOの生物学的プロセス(BP)タームが特徴的にエンリッチされていました。これは、両年齢層間で免疫力に差があることを示唆します。
- 可視化:RのRgraphvizパッケージを用いて、エンリッチメントしているGOタームを階層的に可視化できます。上位のタームはより抽象的な機能を、下位のタームはより具体的な機能を表し、関連性の高いGOタームのネットワーク構造を視覚的に理解できます。

- Reactome Pathway 解析:RのReactomePAパッケージを用いて、エンリッチメントしているパスウェイを検出します。Reactomeは、生物学的パスウェイとプロセスを詳細に記述したキュレーションデータベースであり、GO解析と同様に発現変動遺伝子が関与するパスウェイを特定することで、より詳細な生物学的機能の解釈を可能にします。
- 結果:ケモカインなどに関するパスウェイが特徴的にエンリッチしていました。ケモカインは、免疫細胞の遊走や活性化に関わる重要な分子であり、この結果は免疫応答における特定の経路の変動を示唆しています。
- 可視化:Rのggnewscaleパッケージなどを用いて、共通遺伝子を多く含むパスウェイ同士が線で結ばれてクラスターを形成するネットワーク図として、エンリッチしているパスウェイの全体像を把握できます。このネットワーク図は、複数のパスウェイが相互にどのように関連しているかを視覚的に理解するのに役立ち、複雑な生物学的システムの全体像を捉えることを可能にします。

発展的なエンリッチメント解析として、様々な種類の薬剤を投与した際に、疾患によって発現が変化したパスウェイが、薬剤投与により改善したか、あるいは改善しなかったかをネットワーク図で視覚的に分析することも可能です。これは、薬物スクリーニングやドラッグリポジショニングなど、新しい治療戦略の開発に応用できる強力な手法です。
まとめ
第9回となる本記事では、RNA-seq応用解析の核心である「発現変動遺伝子(DEG)の同定」と「エンリッチメント解析」について深掘りしました。これらの解析手法は、RNA-seqデータから具体的な生物学的知見を引き出し、新たな仮説の生成や検証へと繋がる重要なステップです。
※本記事は、2024年2月7日開催の次世代シーケンス解析ケーススタディ講座「RNA-seq解析」講演内容をベースに作成しております。
動画で本記事の内容を視聴したい、講演資料PDFをダウンロードしたい方は、アメリエフの運営する会員制動画サイト「バイオインフォマティクス実践ラボ」にご登録ください。
