アメリエフの技術ブログ

Amelieff Staff Blog

平均値じゃなく中央値!

本日は、中央値について記述します。
よろしくお願いいたします。

あるテレビ番組で、24歳、 22歳、 22歳、25歳の方々が出演していたとします。そこにゲストとして60歳の方が登場しました。そこで60歳の方が「自分が平均年齢を上げているなー!」と一言。こんなシーン見た事ありませんか?
平均というのは、“いくつかの数や量の中間的な値”という意味。中間的という事は、平均値の前後に同じ数だけ数値データが分布しているという事だと考えます。 今回の場合だと平均年齢は30.6歳となります。しかし・・・各年齢(数値データ)は、30.6歳前後に均等には存在せず、むしろ平均値より前に固まっています(Figure1 参照)。


Figure1 中央値の概念図

こんな時は、中央値を求めます。
中央値は、数値データの半分が上側に、半分が下側にある所の数値です。上記のように数値データが正規分布の形ではなく、Figure1のように歪んだデータ(skewed 分布)の際に、平均値の代わりに使用されます。
明日は、このRを用いて簡単に中央値を算出する方法を記述します。