標本分散と標本不偏分散,n で割るか n-1 で割るか,不偏標準偏差の話題も含めて
井口豊(生物科学研究所,長野県岡谷市)
最終更新:2024 年 4 月 27 日
1. はじめに
統計データにおいて,標本を用いて,母集団の分散(母分散)の推定量 U2 を計算するとき,平均 x からの偏差平方和を,標本サイズ n から 1 減じた数,で割った形を用いる。
ここで,なぜ,n でなく,n−1 で割るのか,という疑問をしばしば耳にし,目にする。もちろん,数学的には,母数の平均値(期待値)に位置する推定量として,不偏性が定義され,不偏分散が求まる。数式によるその証明を書くこともできるが,一般の人にとって,そのような数式を読むだけでも大変であり,かえって混乱するだろう。したがって,以下の説明では,厳密な証明ということでなく,概念的な説明として,この話題を展開しようと思う。
なお,母集団確率分布の特徴を表す特性値として,母平均や母分散を母数と言う。母数という用語は,しばしば誤解されがちである。その点は,以下のページを参照して,きとんと理解しておいてほしい。
2. 不偏分散とその自由度
まず,自由度という観点から,不偏分散を眺める。冒頭に記した,分母 n−1 は,自由度とも呼ばれる。母平均や母分散を推定する時,最低限いくつのデータ(標本サイズ)が必要だろうか,そう考える時に使われるのが自由度であることを念頭に置いて欲しい。その上で,通常の自由度の説明,標本サイズから拘束条件数を引いたもの,とは違う観点から説明してみようと思う。
例えば,母平均は母集団分布の位置を表す母数だが,これは,最低限として(誤差は最大になるが),測定値 1 個からなる標本(n = 1)で足りる。ネズミとゾウの体重を比べる時,最低,ひとつの測定値があれば,非常に大雑把だが,これらの生物の体重を推測し比較できる。だから,標本平均では,分母 n として,母平均が求められる。n = 0 は駄目だが,n − 1 ならば,「自由に」使える,のである。 それを分母で表現している。
一方,バラツキの母数である母分散は,一つの測定値では推定できない。例えば,A 組のある生徒 1 人の体重が 50kg,B 組のある生徒 1 人の体重が 60kg であったとして,どちらの組の生徒の体重がバラツキが大きいか,と問われても,さっぱりわからない。この場合,体重のバラツキを推定しようとしたら,最低限もうひとつ,つまり各組 2 人ずつの測定値が必要だと分かる。 これが母分散を求めるときの自由度 n−1 につながる。 n = 1 では不可(分母が 0 になる), n ≥ 2 ならば自由に使える,ということを分母で示している。
3. 不偏分散の数式の意味
次に,数式として導く,という観点から,厳密な証明をせずに説明しよう。
母平均 μ,母分散 σ2 の母集団から,大きさ n の標本を抽出し,その平均を x とすると, x は平均 μ,分散 σ2/n の確率分布に従う。
つまり,n 個からなる標本を取り出し平均を求める,さらにまた,n 個からなる標本を取り出し平均を求める,という操作を繰り返していくと,平均 μ,分散 σ2/n の確率分布が出来上がる,という意味である。これは,標本平均の平均と,標本平均の分散を求めたことになる。得られたデータから計算される標本平均と標本分散と混同しないように注意が必要である。
このときの標準偏差 SE は,以下のようになる。
これを特に,標準誤差(standard error)と呼ぶ。少し厳密に言えば,平均の標準誤差(standard error of the mean, SEM)である。
標本サイズ n を大きくしていくと,この確率分布は,次第に正規分布に近づく。これが中心極限定理である。この定理のすごいところは,多くの場合(Cauchy 分布のような例外はあるが),もとがどんな分布であろうが,そこから取り出された標本平均の分布は正規分布に近づく,という点である。
標本平均の平均は,母平均と見なしてよい(推定される)と証明されている。一方で,標本分散の平均は,母分散とならず,過小評価であることが証明されている。特に,標本サイズが小さい時(小標本になる)ほど母分散とかけ離れたものになる。
例えば, 1000 個, 100 個, 10 個と抽出標本サイズを小さくしていくと,母集団のバラツキを小さく見積もりそうだ,ということは直感的にも分かるだろう。
ではいったい,どのくらい過小評価されるのか?前述の平均の場合と同じく,今度は,n 個からなる標本を取り出し分散を求める,さらにまた,n 個からなる標本を取り出し分散を求める,さらにまた・・・,という操作を繰り返していく。もちろん,ここでの分散とは標本分散であり,n で割ったものである。
その結果得られる標本分散 s2 の平均を m(s2) とすると,それは,母分散 σ2 より,標本平均の分散 σ2/n 相当だけ小さいのである。
あるいは,右辺第二項を左辺に移項して
すなわち,
標本分散の平均 + 標本平均の分散 = 母分散
となる。
この式は,標本平均をいくつも(何度も)計算して,そのバラツキぐあいを見ると,それで,母分散の過小評価の程度が分かる,ということを意味する。逆に言えば,標本平均をいくつも(何度も)計算して,バラツキが少なければ,標本分散(n で割った分散)が母分散に近い,と考えられるのである。n が大きくなれば, σ2/n は 0 に近づき,標本分散(n で割った分散)が母分散に近くなることも理解できるであろう。
さらに,このとき中心極限定理によって,標本平均の分布は正規分布に近づく。n が十分大きければ,標本分散(n で割った分散)を母分散と見なし,平均値の推定や検定に t 分布を使わず,正規分布を使うことが出来るゆえんである。
さきほどの式を変形すると,次のようになる。
すなわちここでに n−1 が登場する。つまり, −1 の部分は,標本平均の分散 σ2/n がもたらしたものであり,中心極限定理と密接に関わっている部分なのである。
この両辺に, n/(n−1) を乗ずると,次のようになる。
一方,標本分散 s2 は次のように表される。
これに n/(n−1) を乗ずる。
この平均を計算すれば,それが母分散と推定され,標本不偏分散だとわかる。このようにして,不偏分散の分母 n−1 は現れたのである。
4. 分散と標準偏差の用語の混乱
分散と標準偏差の用語には,かなり混乱が見られる。標本分散の定義が複数あり,その名称が混乱を招いている。
ここで注意すべきことは,不偏標準偏差(標準偏差の不偏推定量)は,不偏分散の平方根ではない,ということである。その点は,以下のページを参照して欲しい。
不偏分散の平方根を「不偏標準偏差」と呼ぶ人が多いが,それは不適切なのである。
不偏標準偏差は,サンプルサイズ n が大きくなると,近似的に,平均からの偏差平方和を n−1.5 で割った値の平方根として求められる。すなわち,不偏標準偏差を D とすると次のようになる。
こうなると,なぜ 1.5 を引いた数で割るのか,直感で捉えるのは難しくなる。ウィキペディア(Wikipedia)の標準偏差の項目に,この式を私(Iguchi-Y)が追記したが,意外と知られていない公式だろう。
「標本平均の平均」と「標本平均の分散」に対して,一般にデータから計算される「標本平均」と「標本分散」を混同しないように注意が必要である。
英語では,不偏分散のことを unbiased variance と呼び, U2 で表される場合がしばしばある。さらに,不偏分散による標準偏差のことを Sample standard deviation (標本標準偏差)と呼ぶことが多いが,そうでない場合もある。ウィキペディアの標準偏差の項目に,名称の混乱について追記したので参考にしてほしい。
そこにも書いたが, Wikipedia 英語版の Standard deviation の説明では、不偏分散による標準偏差(平均からの偏差平方和を n−1 で割った値の平方根)のことを Corrected sample standard deviation と表記し,平均からの偏差平方和を n で割った値の平方根を Uncorrected sample standard deviation または The standard deviation of the sample と表記している。この補正・非補正という名称が,分かりやすくて,すっきりする。