【統計計算の基礎】代表値( Representative value)設定について。
データをとった場合、まずデータの図表化という重要な作業があります。続いて、平均などを算出する、といった作業が続きます。ここでは、こうしたデータ解析の出発点となる作業について「1つの変数をどのように記述するか」という視点から説明していきます。
それでは代表値(Representative value)候補の一覧に目を向けていきたいと思います。
01.基本的諸元…summary()関数等を使えばまとめて参照可能だが、xtable関数への内容引き渡しなどが上手くいかない。
- 最小値(Min)
- 第 1 四分位点(1st Quartile)
- 中央値(Median)…分布の中心にあるデータの数値。候補データが複数存在する場合にはその平均
- 平均(Mean)…データの各数値の和をデータ数で割ったもの。
- 第 3 四分位点(3rd Quartile)
- 最大値(Max)
X | Y | Z | |
---|---|---|---|
X | Min. :-3.25519 | Min. :-3.0304 | Min. :-2.3080 |
X.1 | 1st Qu.:-0.54374 | 1st Qu.:-0.8120 | 1st Qu.:-0.6748 |
X.2 | Median : 0.09669 | Median :-0.1851 | Median : 0.1189 |
X.3 | Mean : 0.06226 | Mean :-0.1613 | Mean : 0.1013 |
X.4 | 3rd Qu.: 0.68266 | 3rd Qu.: 0.5401 | 3rd Qu.: 0.8210 |
X.5 | Max. : 2.19588 | Max. : 1.9791 | Max. : 3.5016 |
02.散布度基準①-範囲(Range)…最大値(Max)-最小値(Min)。度数分布(Frequency Distribution)の表現形態の一つたるヒストグラム(histogram)では「階級(Class)の最大値-階級(Class)の最小値」と計算される。
*使い勝手が悪いせいか使用頻度は今一つ。
区切り幅は『適当に選択される』が『適切に選択される』わけではない.というのも,hist() のデフォルトは 『データの範囲を log2n + 1 ( n はデータの個数) 個の階級に分割して各階級に属するデータの数を棒グラフとして作図する』という Sturges (1926年!!) の方法を用いているため,まず平滑化をし過ぎる嫌いがあり,さらにデータが正規分布 (正確には二項分布) から遠ざかれば遠ざかるほど当てはめが悪くなる。
そこでパッケージ MASS にある関数 truehist() (この関数では Scott (1992) が提唱した方法を用いている) や,パッケージ KernSmooth にある関数 dpih() (この関数では Wand (1995) が提唱した方法を用いている) を用いることで,より正確なヒストグラムを描くことが出来る。
統計言語Rによる実装例(truehist)
library(MASS)
x <- rnorm(1000)
truehist(x)
# hist(x, breaks="Scott") でも可。hist() の breaks には他に Sturges と FD を指定することが出来る。
統計言語Rによる実装例(dpih)
library(KernSmooth)
x <- rnorm(1000)
h <- dpih(x)
bins <- seq(min(x)-0.1, max(x)+0.1+h, by=h)
# bin には区切り幅の点を表すx座標を指定
hist(x, breaks=bins,col=rgb(0,1,1))
# bin が等差数列でなければ区切り幅の横幅もバラバラな長さになる。
03.最頻値(Mode)…大数の法則(LLN…Law of Large Numbers)の影響を色濃く受ける。
N=100の場合(揺らぎも激しい)
N=100000の場合(ほとんど揺らがない)
04.偏差(Deviation)…データの各数値より、その平均を引いた残り。標本分散(Sample Dispersion)/不偏分散(Unbiased Dispersion)、標準偏差(Standard Deviation)/平均偏差(Mean Deviation)、Z得点(Z Value)/偏差値(Deviation Value)などの算出に使われる。
*定数項を除いて分布の中心を原点に戻す効果がある。それ自体が代表数に選ばれる事はない。
05.散布度基準②-標本分散(Sample Dispersion)/不偏分散(Unbiased Dispersion)…状況によって使い分けるのが正しいが、結果として不偏分散が広まる。
- 標本分散(Sample Dispersion)…偏差^2の合計/標本数
- 不偏分散(Unbiased Dispersion)…偏差^2の合計/(標本数-1)
06.散布度基準③-標準偏差(Standard Deviation)/平均偏差(Mean Deviation)…状況によって使い分けるのが正しいが、結果として標準偏差が広まる。
07.Z得点(Z Value)/偏差値(Deviation Value)…言葉としての「偏差値」が20世紀の受験戦争以降一般にも定着したが、その過程で内容についての誤解も広がった。
ちなみに偏差(Deviation)が元来備えていた分布はそのまま維持されるのです。
簡単にいっちゃえば
— スワン (@SWSRfs) January 19, 2019
データに足されても偏差・分散・標準偏差は何も変わらない
データがA倍されたら、
偏差→A倍
分散→A²倍
標準偏差→|A|倍
です。
あとはこれ使って相関係数も出せるよ。
覚えれば瞬殺できるから覚えようぜ、データの分析なんかで点数落としたくない
これ実に興味深い指摘…