アメリエフの技術ブログ

Amelieff Staff Blog

中央値と箱ひげ図

昨日は、中央値について記述しました。
本日は、Rを用いた中央値の算出方法と箱ひげ図の作成について記述します。
よろしくお願いいたします。

例としまして
21歳, 23歳, 23歳, 25歳, 22歳, 60歳の方々の中央値を算出します。
中央値を算出する際は、median()というコマンドを用います。
age <- c(21, 23, 23, 25, 22, 60)
median(age)

→23(中央値です)

とても簡単に算出できました。

昨日も記述致しましたように、中央値を用いる時というのは、数値データの分布がskewed分布となる時です。せっかくだったら数値データの分布、ばらつきを見たい。
そんな時は、“箱ひげ図(box plot)”を作成します。


Figure 1 箱ひげ図概念

“箱ひげ図”の概念をFigure 1に示します。箱の中にある太線が中央値、箱の上下がそれぞれ数値データ内の3/4, 1/4位の値、そして箱から伸びている点線(これがひげ)がそれぞれ最大値、最小値を表します。
さっそくRで作成してみます。箱ひげ図は、boxplot()コマンドで作成する事ができます。
age <- c(21, 23, 23, 25, 22, 60)
age2 <- c(21, 23, 23, 25, 22)
boxplot(age, age2, names=c("with 60", "without 60"), boxwex=0.8, range=0)

今回は60歳の有無で比較してみました。上記の結果をFigure 2に示します。


Figure 2 年齢の箱ひげ図

“with 60”の箱ひげ図は、最大値が他の数値郡にたいして大きく離れています。このように箱ひげ図を用いる事で、数値データのばらつき具合を簡単に見る事ができます。

Rって便利(結局はソコ)。