アメリエフの技術ブログ

Amelieff Staff Blog

Rによる生物データハンドリング【BI入門③】

こんにちは、バイオインフォマティクス実践ラボ管理者のnomura-yです。

今回は、バイオインフォマティクス解析用テストデータの準備とRへの読み込みを解説します。さらに、バイオインフォマティクス分野でRを活用するために不可欠な「Bioconductor」についても触れたいと思います。

R入門:環境構築と基本操作【BI入門①】 - アメリエフの技術ブログ
R実践:データの可視化と関数活用【BI入門②】 - アメリエフの技術ブログ
Rによる生物データハンドリング【BI入門③】 - アメリエフの技術ブログ ←本記事

バイオインフォマティクス解析とデータハンドリング

バイオインフォマティクス解析を行うためには、まず生物学的なデータをRに読み込むことが不可欠です。ここでは、公開データを利用したデータハンドリングの例をご紹介します。

<コマンドテスト環境>

  • R version 4.5.1


  1. データ取得: NCBIのGene Expression Omnibus (GEO) データベースにアクセスし、「human cancer」で検索します。

  2. データ選択: 検索結果からRNA-seqデータを選択します。例として、RUNX1遺伝子に関するデータセット(GSE99704)を選びます。

  3. ファイルダウンロード: GEOページの下部にある「Download family file(s)」から、発現マトリクスデータがExcelファイル形式(5.5 MB程度)で提供されているので、これをダウンロードします。

  4. データ準備: ダウンロードしたExcelファイルには通常、RPKM(Reads Per Kilobase Million)やリードカウントなどのタブが含まれています。今回はRPKMのタブを選択し、「名前を付けて保存」でタブ区切りテキスト形式(.txt)で保存します(CSV形式も利用可能)。その後、Rの作業ディレクトリ(getwd()でパスを確認できます)に格納します。

  5. Rへのデータ読み込み: 保存したテキストファイルは、read.delim()関数を使ってRに読み込みます。 CSVファイルの場合はread.csv()関数を使用します。

> data <- read.delim("GSE99704_RPKM_and_read_counts.txt")

読み込んだデータの概要はsummary()関数で確認できます。

> summary(data)
   Ensembl          HPBALL_RUNX1.Off_MiSeq_rep1 HPBALL_RUNX1.Off_MiSeq_rep2
 Length:20134       Min.   :   0.000            Min.   :   0.000           
 Class :character   1st Qu.:   0.000            1st Qu.:   0.000           
 Mode  :character   Median :   1.297            Median :   1.294           
                    Mean   :  13.936            Mean   :  14.099           
                    3rd Qu.:  13.392            3rd Qu.:  13.486           
                    Max.   :1698.530            Max.   :1644.320    

この出力からは、各サンプルの最小値、最大値、中央値、平均値、四分位数などが分かります。例えば、1列目のEnsembl IDは文字列(Character)で、20,134個の遺伝子情報が含まれていることが分かります。RPKM値のサンプル(例:HPBALL_RUNX1.Off_MiSeq_rep1)では、最小値が0、最大値が1698.530、中央値が1.297、平均値が13.936であることが示されます。 第一四分位数(25パーセンタイル)が0であることから、約1/4以上の遺伝子で発現量が0であることが読み取れます。

BioConductorの活用

Rにはバイオインフォマティクス解析に特化した「BioConductor」というオープンソースのパッケージ群が存在します。 BioConductorは、生物学的なデータ解析のための幅広いツールを提供しており、その管理サイトからパッケージをインストールできます。

BioConductorパッケージをインストールするには、BioConductorの公式サイトのインストールページを探し、以下のサンプルのようなコマンドをコピーしてください。

if (!require("BiocManager", quietly = TRUE))
    install.packages("BiocManager")
BiocManager::install(version = "3.16") 

Rコンソールで上記のコマンドをペースト、実行し、「BiocManager」という管理パッケージをインストールします。 このコマンドを実行すると、ダウンロードするミラーサーバーを選択する画面が表示されます。日本国内のサーバー(例:東京)を選択してOKを押すと、ダウンロードとインストールが始まります。 インストール中に「すべてをインストールするか?」のような質問が表示されたら、「A」(All)を選択してEnterを押します。

まとめ

今回はデータのハンドリング、Rへのデータの読み込み方までを解説いたしました。 具体的なバイオインフォマティクス解析の方法は、「バイオインフォマティクス入門:RNA-seq解析」にて解説する予定ですので、今しばらくお待ちください。

次回予告

次回、第4回では「Python入門:Windows上でのLinux環境構築とJupyter設定」と題し、Windows上でLinux環境を構築する手順を解説します。 Rと並んでデータ解析の強力なツールであるPythonについて解説します。

※本記事は、2023年3月6日開催の第81回バイオインフォマティクス勉強会「バイオ研究者のためのR入門」講演内容をベースに作成しております。
動画で本記事の内容を視聴したい、講演資料PDFをダウンロードしたい方は、アメリエフの運営する会員制動画サイト「バイオインフォマティクス実践ラボ」にご登録ください。