こんにちは、バイオインフォマティクス実践ラボ管理者のnomura-yです。
RNA-seq解析の成功は、適切なデータ前処理にかかっていると言っても過言ではありません。生データには、シーケンスの過程で生じる低品質なリードやアダプター配列など、ノイズとなる要素が多数含まれています。これらのノイズを適切に除去し、高品質なデータに整えることが、その後の解析結果の信頼性を大きく左右します。
今回は、RNA-seqデータ解析における前処理であるクオリティコントロール手法を解説します。さらに、ゲノム参照配列へのマッピング手順と、解析に適したデータとするための成功のポイントを解説します。
【BI入門①】R入門:環境構築と基本操作
【BI入門②】R実践:データの可視化と関数活用
【BI入門③】Rによる生物データハンドリング
【BI入門④】Python入門:Windows上でのPython・Jupyter実行環境構築
【BI入門⑤】PythonとPandas:表形式データの強力な操作術
【BI入門⑥】RNA-seq解析の基礎:有効なケース、全体の流れと主要ツール
【BI入門⑦】RNA-seqデータ前処理:品質評価からゲノムマッピングまで ←本記事
【BI入門⑧】RNA-seqデータ解析:発現定量と主要なデータ可視化手法
RNA-seqにおけるデータ前処理のステップ
RNA-seq解析の一般的な流れの中で、今回は特に以下のステップに注目します。
- クオリティチェック:FastQCを用いてリード配列の品質を確認します。
- シーケンスリードの品質とは、塩基(A,T,G,C)がどれだけ正確に読み取られたかという信頼度を指します。この信頼度は品質スコア(Phred score)で数値化され、一般的にスコア30(エラー率0.1%)が品質の目安とされます。特にリードの終盤(3'末端)では、シーケンス反応がサイクルを重ねるにつれて試薬の劣化などが起こり、信号の精度が徐々に低下するため品質が下がる傾向があります。FastQCのレポートを確認することで、リードの長さ分布、塩基ごとの品質スコア、GC含量などを視覚的に把握できます。

- クオリティコントロール:PRINSEQなどのソフトウェアを用いて、PolyA/Tテイルの除去、品質の低いリード末端のトリミング、配列長が短いリードの除去を行います。
- 配列リードの全長にわたりスコアが30以上となるように調整し、解析の信頼性を高めます。PolyA/TテイルはmRNAの構造に由来するもので、マッピングの妨げになるため除去が必要です。また、品質スコアの低い末端部分はエラーが多く含まれる可能性が高いため、トリミングすることで正確なマッピングを促進します。短いリードも非特異的なマッピングの原因となるため除去します。

- マッピング:STARなどのソフトウェアを用いて、クリーニング済みのリードをゲノム参照配列(例:ヒト参照配列hg38)にマッピングします。
- マッピング率、ユニークにマップされたリードの割合などをチェックすることで、解析に適したデータかを判断します。高いマッピング率は、シーケンスデータが参照ゲノムとよく一致していることを示し、信頼性の高い発現定量につながります。高性能な計算サーバで並列処理を行う場合、(データ量にも大きく依存しますが)各サンプルをマッピングするのに1~1.5時間程度かかります。これは、データ量が非常に大きいため、高性能な計算資源が不可欠であることを示しています。

まとめ
今回は、RNA-seqデータ解析における最も重要な前処理ステップに焦点を当てました。高品質な解析データを得るためには、これらの前処理を丁寧に行うことが不可欠と言えます。
次回予告
次回は、クリーニング済みのリードから遺伝子発現量を定量する方法と、その高次元データを効果的に可視化する手法について解説します。お楽しみに!
※本記事は、2024年2月7日開催の次世代シーケンス解析ケーススタディ講座「RNA-seq解析」講演内容をベースに作成しております。
動画で本記事の内容を視聴したい、講演資料PDFをダウンロードしたい方は、アメリエフの運営する会員制動画サイト「バイオインフォマティクス実践ラボ」にご登録ください。
