こんにちは、バイオインフォマティクス実践ラボ管理者のnomura-yです。
前処理を終え、高品質なリードデータが手に入ったところで、いよいよRNA-seq解析の核心とも言える「遺伝子発現定量」に進みます。各遺伝子がどれだけ発現しているかを正確に数値化することは、その後の生物学的意義の解釈において非常に重要です。しかし、得られた膨大な発現量データをそのまま扱うのは困難であり、効果的な「可視化」によってデータの傾向を掴むことが不可欠となります。
今回からは、ある論文の公開データを例にとりながら、クリーニング済みFASTQデータからの遺伝子発現量カウント、および発現マトリクスの正規化、主成分分析や階層的クラスタリングによる高次元遺伝子発現データの視覚化と理解方法を解説します。
【BI入門①】R入門:環境構築と基本操作
【BI入門②】R実践:データの可視化と関数活用
【BI入門③】Rによる生物データハンドリング
【BI入門④】Python入門:Windows上でのPython・Jupyter実行環境構築
【BI入門⑤】PythonとPandas:表形式データの強力な操作術
【BI入門⑥】RNA-seq解析の基礎:有効なケース、全体の流れと主要ツール
【BI入門⑦】RNA-seqデータ前処理:品質評価からゲノムマッピングまで
【BI入門⑧】RNA-seqデータ解析:発現定量と主要なデータ可視化手法 ←本記事
サンプルとなる論文の概要
こちらの論文では、高齢者におけるCOVID19不活化ワクチンの有効性を検証し、若年者よりもワクチンの反応が弱くなる機序を報告しています。36サンプル分のRNA-seqデータが公開されておりダウンロードが可能です。
Gene Expression Omnibus:https://www.ncbi.nlm.nih.gov/geo/
この論文では、2群×2群×3群の計12グループについてサンプリングを実施しています。。各グルーブの Biological replicates が3検体、つまり全36サンプルの解析となります。

RNA-seq解析の流れ(発現定量と可視化に特化)
RNA-seq解析の一般的な流れの中で、今回は特に以下のステップに注目します。
発現定量:featureCountsなどのツールを用いて、各遺伝子ごとの発現量(リード数)をカウントします。
- 36サンプル、54,628遺伝子の発現マトリクスが生成されます(遺伝子数は用いたアノテーションファイルによって変動します)。このマトリクスは、各サンプルにおける各遺伝子のリードカウント数を示しており、後の解析の基礎となります。
正規化:取得した発現マトリクスをCPM(Count Per Million)補正などにより正規化します。これは、各サンプルの総リード数を100万に揃えることで、サンプル間の比較を可能にするためです。シーケンス深度の違いなどによるバイアスを補正し、真の発現量の違いを比較できるようにすることが目的です。
- 各組み合わせでCPM値が1以上の遺伝子を抽出するなど、有効なフィルタリングを実施することが望ましいです。CPM値が低い遺伝子は信頼性が低いと判断されるため、解析から除外することでノイズを減らし、より意味のある結果を得やすくなります。
主成分分析 (PCA):Rの
prcomp関数を用いて、高次元の遺伝子発現量データを低次元化し、主要な軸(PC1、PC2)でサンプル間の類似度を散布図として可視化します。- PCAは、データに潜む主要な変動パターンを抽出し、サンプル間の関係性を俯瞰的に理解するのに役立ちます。例えば、特定の処理群が別のクラスターを形成しているか、外れ値がないかなどを確認できます。

- 階層的クラスタリング:Rのamapやggplotsなどのパッケージを用いて、各遺伝子の発現パターンを可視化したヒートマップを出力し、サンプル間のクラスターを階層的に示します。
- ヒートマップは、多数の遺伝子の発現パターンを色と配置によって視覚的に表現し、傾向を把握するのに役立ちます。階層的クラスタリングは、発現パターンが類似しているサンプルや遺伝子を自動的にグループ化し、生物学的な意味合いを持つサブグループを発見するのに有効です。

まとめ
第8回となる今回は、RNA-seq解析における発現定量と、高次元データを理解するための主要な可視化手法について解説しました。これらの手法は、膨大なRNA-seqデータから生物学的な知見を引き出すための強力な基盤となります。
次回予告
次回は、いよいよRNA-seq応用解析の核心である「発現変動遺伝子の同定」と「エンリッチメント解析」に踏み込みます。お楽しみに!
※本記事は、2024年2月7日開催の次世代シーケンス解析ケーススタディ講座「RNA-seq解析」講演内容をベースに作成しております。
動画で本記事の内容を視聴したい、講演資料PDFをダウンロードしたい方は、アメリエフの運営する会員制動画サイト「バイオインフォマティクス実践ラボ」にご登録ください。
