【小まとめ】統計計算における基礎
統計学(statistics)は実際のデータの整理と可視化を主題とする記述統計学(descriptive statistics)と、様々な数理を導入しての予測を含む推計統計学(inferential statistics)の2つに大別されます。
記述統計学(descriptive statistics)
一般に代表値(Representative value)候補とされるのが以下。
①基本的諸元
- 最小値(Min)
- 第 1 四分位点(1st Quartile)
- 中央値(Median)…分布の中心にあるデータの数値。候補データが複数存在する場合にはその平均
- 平均(Mean)…データの各数値の和をデータ数で割ったもの。
- 第 3 四分位点(3rd Quartile)
- 最大値(Max)
②範囲(Range)….散布度基準の一つ。最大値(Max)-最小値(Min)。度数分布(Frequency Distribution)の表現形態の一つたるヒストグラム(histogram)では「階級(Class)の最大値-階級(Class)の最小値」と計算される。
③最頻値(Mode)…やはりヒストグラム(histogram)と深い関係にある。
④偏差(Deviation)…データの各数値より、その平均を引いた残り。標本分散(Sample Dispersion)/不偏分散(Unbiased Dispersion)、標準偏差(Standard Deviation)/平均偏差(Mean Deviation)、Z得点(Z Value)/偏差値(Deviation Value)などの算出に使われる。
*定数項を除いて分布の中心を原点に戻す効果がある。それ自体が代表数に選ばれる事はない。
⑤標本分散(Sample Dispersion)/不偏分散(Unbiased Dispersion)…散布度基準の一つ。状況によって使い分けるのが正しいが、結果として不偏分散が広まる。
- 標本分散(Sample Dispersion)…偏差^2の合計/標本数
- 不偏分散(Unbiased Dispersion)…偏差^2の合計/(標本数-1)
⑥標準偏差(Standard Deviation)/平均偏差(Mean Deviation)…散布度基準の一つ。状況によって使い分けるのが正しいが、結果として標準偏差が広まる。
⑦Z得点(Z Value)/偏差値(Deviation Value)…言葉としての「偏差値」が20世紀の受験戦争以降一般にも定着したが、その過程で内容についての誤解も広がった。
推計統計学(inferential statistics)…まだまだ工事中…
それ以前の基礎たる区間(interval)設定と乱数発生に関する話題。