R実践:データの可視化と関数活用【BI入門②】

こんにちは、バイオインフォマティクス実践ラボ管理者のnomura-yです。

第2回となる今回はRを使った四則演算や変数への代入、関数電卓としての活用法を解説します。さらに、Rを使って直感的に美しいグラフを作成する方法も解説いたします。

R入門:環境構築と基本操作【BI入門①】 - アメリエフの技術ブログ
R実践:データの可視化と関数活用【BI入門②】 - アメリエフの技術ブログ ←本記事
Rによる生物データハンドリング【BI入門③】 - アメリエフの技術ブログ

データ操作の基本

Rでのデータ操作は、基本的な四則演算から始まります。変数に値を代入し、その変数を使って計算を行うことが可能です。今回は引き続き純正Rソフトを使用しますが、RStudioでは右上のパネルで現在の変数が一覧表示され、非常に分かりやすいため初心者にもおすすめです。

<コマンドテスト環境>

  • R version 4.5.1


Rは高機能な関数電卓としても利用できます。

  • 累乗の計算には^(ハット)または**(アスタリスク2つ)を使用します。
> 5^3
[1] 125
> 2**10
[1] 1024


  • 平方根はsqrt()関数で計算できます。
> sqrt(10)
[1] 3.162278


  • 対数関数の自然対数(底がe)はlog()関数で計算できます。
> log(100)
[1] 4.60517


  • 対数関数の常用対数(底が10)はlog10()関数で計算できます。
> log10(100)
[1] 2


  • 対数関数の底が2の対数はlog2()関数を使用します。RNA発現解析でのfold change計算などで頻繁に利用されます。
> log2(100)
[1] 6.643856
> log2(1024)
[1] 10

基本的なグラフ作成

Rでは、データの可視化も簡単に行えます。 例えば、シンプルな散布図を作成するには、まずx軸とy軸のデータを作成し、plot()関数を使用します。

> x <- 1:10
> y <- x * 1.5
> plot(x,y)

これにより、X軸とY軸のデータが散布図として描画されます。

散布図

ヒストグラムの作成も直感的です。
hist()関数にデータを渡すだけで、自動的に階級(ビン)を設定し、ヒストグラムを生成します。Excelでヒストグラムを作成する際に手動で階級を設定する手間が省けます。

> hist(y)

ヒストグラム

まとめ

Rを使った基本的なデータ操作について解説しました。 ご自身のPCにRををインストールし、簡単な計算や変数への代入を試してみましょう。Rが強力な関数電卓としても利用できることがお分かりいただけたかと思います。

次回予告

第3回では、バイオインフォマティクス解析に不可欠なテストデータの準備とRへの読み込み方法についてご紹介します。 また、バイオインフォマティクス解析の中心となる「Bioconductor」の概要とその導入方法についても触れたいと思いますので、お楽しみに!

▼第3回はこちら▼ staffblog.amelieff.jp

※本記事は、2023年3月6日開催の第81回バイオインフォマティクス勉強会「バイオ研究者のためのR入門」講演内容をベースに作成しております。
動画で本記事の内容を視聴したい、講演資料PDFをダウンロードしたい方は、アメリエフの運営する会員制動画サイト「バイオインフォマティクス実践ラボ」にご登録ください。


トレーニングキャンペーン