%%html
<style>
table {float:left}
td {text-align: left}
</style>
平均(average)・平均値(mean)
平均値とは、観測されるデータから、算術的に計算して得られる統計学的な指標値である。
平均の種類
- 相加平均:データの合計(sum)をデータの個数(N)で割ったもの(算術平均)。
- 科目別クラス平均、平均年齢、平均体重など
- 相乗平均:データの積を1/N乗(冪根を取る)したもの(幾何平均)
- 19xx年~20xx年の経済成長率(%)における「平均成長率」など
- 調和平均:データの値をひっくり返して(逆数)さらに相加平均してひっくり返した(逆数)もの(!)
- 行きは時速XXkm、帰りは時速YYkmの場合の「平均速度」など
- 加重平均
- 移動平均
- ベクトルの平均
平均値の落とし穴
- 極端に高かったり低い数値が含まれていた場合には大きく平均値に影響を与える
- データの全体像を表せない(データ分布を見えない)
- データが正規分布である場合のみ、平均値は一群データの特徴の「代表値」になれる
分散(variance)
分散とは、データの散らばりの度合いを表す値です。
分散を求めるには、偏差(それぞれの数値と平均値の差)を二乗し、平均を取ります。
平均値を別の視点から評価する際に重要な指標となるのがこの分散となる。
n個のデータの平均をとすると分散は以下の式で表され、その単位は観測値の単位の2乗となる。
分散の読み方は、「値が小さいほど『バラつき』が少ない」。
分散値で観測する時の問題点
分散は、二乗した結果で、実値とはかけ離れた値となってしまい、イメージがつきずらくなっている。
標準偏差(standard deviation)
標準偏差(Standard Deviation)は、分散の正の平方根である。
統計値や確率変数の散らばり具合(ばらつき)を表す数値のひとつ。
n個のデータの平均をとしたとき、標準偏差は以下の式で求められる。
標準偏差の読み方は、「データのほとんどは、平均値の前後(±)標準偏差値の間にある」。
中央値(median)
中央値(メジアン)とは、データを大きさの順に並べたとき、
全体の中央に位置する値(50パーセンタイルに等しい)。
データが偶数個の場合は、中央に近い2つの値の平均が中央値となる。
中間値、中位数とも言う。
データを小さい順に並び替えたものを
最頻値(mode)
単峰分布である分布で度数が最も大きい値のこと。
(度数の最も多い階級に対する値である。)
平均値、中央値、最頻値の使い分け
- 平均値と中央値を見比べて、大きくずれていなければ平均値を使う
- 乖離していれば、分布に偏りがあるということなので中央値を見る
- 大きく乖離していれば最頻値も見る
- 分布が偏っている場合には、「代表値という1つの数値で全体を表す」ことが無謀である
平均値
- 平均値を中心に左右均等に散らばる場合は平均値も中央値も同じになる。
- 平均値は外れ値の影響を受けやすい。
中央値
- 外れ値に対してロバストである(頑健性がある)。
- ピンポイントで真ん中のデータだけを表すので、データ全体の変化には向かない。
- 最小値から中央値までの幅と中央値から最大値までの幅を比較し、
幅の小さい方に分布が密集していることを意味する。
最頻値
- データ数が多い場合でしか使えない。
- 区間をどうわけるかによって値が変わる。
変動係数(Coefficient of Variation)
標準偏差を平均値で割った値のこと。
平均値や単位などが異なるデータ同士のばらつきを相対的に評価できる。
変動係数 | 意味(変動) |
---|---|
0~0.2 | ほとんどない |
0.2~0.5 | ややある |
0.5~1.0 | ある |
1.0以上 | かなりある |
コメント