logo
生物科学研究所 井口研究室
Laboratory of Biology, Okaya, Nagano, Japan
Home

ウェルチ検定の意図とは:非等分散が前提ではない

井口豊(生物科学研究所,長野県岡谷市)
最終更新:2025 年 1 月 26 日

ウェルチ検定(Welch test)の意図とは,とタイトルに書いたが,正確には, Welch, B. L. (1938) の意図と言うべき話題である。

別ページに,等分散検定から t 検定,ウェルチ検定, U 検定への問題点を書いたが,ウェルチ検定,あるいは,ウェルチの t 検定(Welch's t-test)と頻繁に言う割には,その出典に触れられていないことが多い。それゆえ,ここで改めて,それについて考察する。

まずは,ウェルチ検定の概要を述べる。 2 標本問題を考え,それぞれの標本平均を \(\bar{X} \), \(\bar{Y} \),標本分散(母分散の不偏推定量)を \(s_1^2 \), \(s_2^2 \),標本サイズを \(n_1 \), \(n_2 \) とする。そのとき,以下のような統計量 T と自由度 ν を考える。

\begin{align} \Large{T=\frac{\bar{X}-\bar{Y}}{\sqrt{ \frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}}} \end{align}
\begin{align} \Large{\nu= \frac{\left(\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2} \right)^2}{\frac{s_1^4}{n_1^2(n_1-1)} + \frac{s_2^4}{n_2^2(n_2-1)}}} \end{align}

このとき,統計量 T は,近似的に,自由度 ν の t 分布に従うことを利用したのが,ウェルチ検定である。

この面倒な自由度 ν は小数値とさえなりうるが,それは, Welch (1938) の式 (9) に見られる。

Welch, B. L. (1938)
The significance of the difference between two means when the population variances are unequal
Biometrika, 350-362.

ウェルチ検定という割には,この文献に触れられることは少ない。ウィキペディアのウェルチの t 検定でも,この文献が挙がっていなかったので,追記しておいた(Iguchi-Y, ウェルチの t 検定の変更履歴)。

今,この文献があまり触れられないと述べたが,三重大学・奥村晴彦氏の t 検定の解説では,きちんとこの文献が挙がっている。たとえ学術論文でなくても,大学教員なら,こうでありたいと思う。

この Welch (1938) の論文を読むと,ウェルチ検定というのが,非等分散のときに,特にそのときだけに,使われるとは書いてないことが分かる。これも流布している誤解のひとつであろう。

Microsoft による, T.TEST 関数の説明でも, ウェルチ検定を,非等分散の 2 標本を対象とする t 検定と説明をしているが,これも正確ではない。

なお, Excel の ウェルチ検定に関連した問題と言えば, TTEST 関数を使うときと,分析ツールを使うときでは,計算結果が異なることである。これは前者では,自由度 ν が小数値であっても,それを使って計算するが,後者では,整数値に四捨五入して使うからである。

Microsoft の解説「分析ツールを使用して統計学的および工学的分析を行う」のページで,「t 検定」の項目をクリックし,さらに,「t 検定: 分散が等しくないと仮定した 2 標本による検定」という項目を見ると,以下のように書かれている。

Excel のワークシート関数 T.TEST は、整数以外の df 値で T.TEST の値を計算できるため、計算された df 値が四捨五入されずそのまま使われます。 自由度を決める方法のこの違いのために、異分散における T.TEST とこの t 検定ツールの結果は異なります。

以上の点に注意しよう。

ウェルチ検定の利用条件の話に戻ると,Welch (1938) の最初の 1,2 ページ(p.350-351)に,等分散であると仮定せずに検定する方法を考えようとしているのが分かる。特に,
p.351 の 15 行目:

it is reasonable to test whether α1 = α2, whatever the ratio of σ1 to σ2.

この whatever で,分散比が何であっても,平均が等しいかどうかを検定することを目指していると分かる。

つまり,分散が異なる場合に適用されるのがウェルチ検定なのではなく,等分散かどうか仮定しない場合に適用されるのがウェルチ検定なのである。この点は,竹内啓・大橋靖雄(1981) 入門・現代の数学11「統計的推測」(日本評論社)にも,きちんと書かれている。

もちろん, Welch (1938) は,その検定が通常の t 検定より優れている,ということを示したわけではない。しかしながら,等分散を仮定しないという検定が,いつのまにか,非等分散である場合の検定,と誤解されている感がある。

Welch (1938) の論文の最初の部分だけでも読むと,彼が何を意図して,この検定を考え出したかが理解できる,統計学の発展の歴史を考える上でも重要な論文と言える。

Home