こんにちは、バイオインフォマティクス実践ラボ管理者のnomura-yです。
今回は、バイオインフォマティクス解析用テストデータの準備とRへの読み込みを解説します。さらに、バイオインフォマティクス分野でRを活用するために不可欠な「Bioconductor」についても触れたいと思います。
R入門:環境構築と基本操作【BI入門①】 - アメリエフの技術ブログ
R実践:データの可視化と関数活用【BI入門②】 - アメリエフの技術ブログ
Rによる生物データハンドリング【BI入門③】 - アメリエフの技術ブログ ←本記事
バイオインフォマティクス解析とデータハンドリング
バイオインフォマティクス解析を行うためには、まず生物学的なデータをRに読み込むことが不可欠です。ここでは、公開データを利用したデータハンドリングの例をご紹介します。
<コマンドテスト環境>
- R version 4.5.1
データ取得: NCBIのGene Expression Omnibus (GEO) データベースにアクセスし、「human cancer」で検索します。
データ選択: 検索結果からRNA-seqデータを選択します。例として、RUNX1遺伝子に関するデータセット(GSE99704)を選びます。

ファイルダウンロード: GEOページの下部にある「Download family file(s)」から、発現マトリクスデータがExcelファイル形式(5.5 MB程度)で提供されているので、これをダウンロードします。

データ準備: ダウンロードしたExcelファイルには通常、RPKM(Reads Per Kilobase Million)やリードカウントなどのタブが含まれています。今回はRPKMのタブを選択し、「名前を付けて保存」でタブ区切りテキスト形式(.txt)で保存します(CSV形式も利用可能)。その後、Rの作業ディレクトリ(
getwd()でパスを確認できます)に格納します。
Rへのデータ読み込み: 保存したテキストファイルは、
read.delim()関数を使ってRに読み込みます。 CSVファイルの場合はread.csv()関数を使用します。
> data <- read.delim("GSE99704_RPKM_and_read_counts.txt")
読み込んだデータの概要はsummary()関数で確認できます。
> summary(data)
Ensembl HPBALL_RUNX1.Off_MiSeq_rep1 HPBALL_RUNX1.Off_MiSeq_rep2
Length:20134 Min. : 0.000 Min. : 0.000
Class :character 1st Qu.: 0.000 1st Qu.: 0.000
Mode :character Median : 1.297 Median : 1.294
Mean : 13.936 Mean : 14.099
3rd Qu.: 13.392 3rd Qu.: 13.486
Max. :1698.530 Max. :1644.320
この出力からは、各サンプルの最小値、最大値、中央値、平均値、四分位数などが分かります。例えば、1列目のEnsembl IDは文字列(Character)で、20,134個の遺伝子情報が含まれていることが分かります。RPKM値のサンプル(例:HPBALL_RUNX1.Off_MiSeq_rep1)では、最小値が0、最大値が1698.530、中央値が1.297、平均値が13.936であることが示されます。 第一四分位数(25パーセンタイル)が0であることから、約1/4以上の遺伝子で発現量が0であることが読み取れます。
BioConductorの活用
Rにはバイオインフォマティクス解析に特化した「BioConductor」というオープンソースのパッケージ群が存在します。 BioConductorは、生物学的なデータ解析のための幅広いツールを提供しており、その管理サイトからパッケージをインストールできます。
BioConductorパッケージをインストールするには、BioConductorの公式サイトのインストールページを探し、以下のサンプルのようなコマンドをコピーしてください。
if (!require("BiocManager", quietly = TRUE))
install.packages("BiocManager")
BiocManager::install(version = "3.16")
Rコンソールで上記のコマンドをペースト、実行し、「BiocManager」という管理パッケージをインストールします。 このコマンドを実行すると、ダウンロードするミラーサーバーを選択する画面が表示されます。日本国内のサーバー(例:東京)を選択してOKを押すと、ダウンロードとインストールが始まります。 インストール中に「すべてをインストールするか?」のような質問が表示されたら、「A」(All)を選択してEnterを押します。
まとめ
今回はデータのハンドリング、Rへのデータの読み込み方までを解説いたしました。 具体的なバイオインフォマティクス解析の方法は、「バイオインフォマティクス入門:RNA-seq解析」にて解説する予定ですので、今しばらくお待ちください。
次回予告
次回、第4回では「Python入門:Windows上でのLinux環境構築とJupyter設定」と題し、Windows上でLinux環境を構築する手順を解説します。
Rと並んでデータ解析の強力なツールであるPythonについて解説します。
※本記事は、2023年3月6日開催の第81回バイオインフォマティクス勉強会「バイオ研究者のためのR入門」講演内容をベースに作成しております。
動画で本記事の内容を視聴したい、講演資料PDFをダウンロードしたい方は、アメリエフの運営する会員制動画サイト「バイオインフォマティクス実践ラボ」にご登録ください。
