等分散検定から t検定,ウェルチ検定,U検定への問題点
井口豊(生物科学研究所,長野県岡谷市)
最終更新:2024 年 10 月 23 日
ここで扱われる t 検定は,独立 2 群(2 標本)の t 検定だが,関連 2 群(対応ある) t 検定の問題については,次のページ参照: 対応のある t 検定から線形混合モデルへ。
平均値の差を t 検定するときに,基礎的な統計の教科書には,たいてい次のようなことが書かれている。
まず等分散の検定(通常は F 検定)を行い,その上で,等分散なら通常の t 検定(Student's t-test),等分散でなければ,いわゆるウェルチ検定(Welch's t-test)検定を行う。
しかしながら,この 2 段階検定は,最終的には,それぞれを単独に検定する場合とは異なる有意値を出す。その点に気づいてない人が,教員も含め,かなりいるようである。これは,2 群(2 標本)のときの t 検定だけでなく,3 群(3 標本)以上のときの分散分析(ANOVA)でも当然起きる問題である。
つまり,この 2 段階検定では,第 1 段階の等分散検定で,既に間違える可能性を含んでいるので,第 2 段階のウェルチ検定を合わせて行うと,最終結果は,単独の検定として設定した水準(例えば, 5%)を超える有意確率を出してしまうのである。
例えば,宝くじに当たる確率を考えてほしい。1 本当選する確率と 2 本続けて当選する確率は当然異なり,後者の方が確率が低いだろうことは直感的にも想像できる。上記の検定でも同じことで, 95% という言わば「安全確率」は, 2 度検定を続ければ下がってしまうことは理解できるだろう。
統計学で検定を学ぶ頃には,既に,確率論の基礎的な部分を学んでいるので,敢えて,このような「わかりきったこと」は書かないという風潮もありそうだ。しかし,いきなり検定に臨もうとする初学者には迷惑な話だろう。
この問題を Web 上で明確に指摘しているのは,以下のページである。
青木繁伸による 二群の等分散性の検定。
等分散であるかどうかを確かめてから,普通の t 検定を使うか,Welch の方法による t 検定にするかを決めるというのは,よくない。最初から Welch の方法による t 検定を使えばよい。
あるいは,以下の論文の最初のページ p.103 右下。
千野直仁 (2016)
<総説> 社会行動科学や医学における統計学の誤用・乱用について
愛知学院大学論叢. 心身科学部紀要 12: 101-112.
対応のない場合の平均の差の検定では,通常検定はまず2群の分散の等質性の検定を行い,その結果を受けて平均の差の検定方法として適切な統計量を選択る.この場合,ほとんどの統計学の教科書では2種類の検定を継時的に行う場合の全体的危険率(overall level of significance)については無視をして,それぞ れの検定。
対馬栄輝(弘前大学)による統計解析Q&A-差の検定-(アーカイブ)。
Q6 に対する A6: 分散分析の前に等分散性の検定を行うことは理論的に間違い。
多重比較のときと同様にあるデータに対して複数の検定を行う手順を実施するとき、各検定の有意水準を5%にすると手順全体における有意水準が5%にならない。
統計ソフトの利用ガイドで,この2段階検定の危険性を指摘しているものもある。GraphPad Prism の Q & A で,How to compare two means when the groups have different standard deviations.
If you use the F test to compare variances to decide which t test to use (regular or Welch), you will have increased your risk of a Type I error.
さらに,奥村晴彦が,2 段階 t 検定の是非で,2 段階検定では, 5% や1% 水準で検定したつもりでも,実際は,それ以上の確率が出ていることをシミュレーションで示している。
この問題を回避するためには,例えば, 5% 水準で検定するなら,上述の二つの検定の水準を半分にし(2.5%),二つ合わせて 5% にする方法がある。多重比較検定でのボンフェローニ補正に相当する。この方法を勧めているのは,統計の専門書では,竹内啓・大橋靖雄(1981) 入門・現代の数学11「統計的推測」(日本評論社)である。ネット上では,上記の千野や帝京大サイトである。
一方で,思い切って,等分散検定をやめて,ウェルチ検定のみをする方法もある。ウェルチ検定なら,分散が等しくても,等しくなくても,大きな過誤なく検定できるだろうという考えである。それを勧めているのは,ネット上では,上記の青木,千野氏,奥村である。対馬も,等分散性の検定はあまり当てにならない,述べているので,ウェルチ検定単独を推奨するかもしれない。
フリーの統計解析ソフト R では,t.test 関数を使い t 検定を行うとき,デフォルトで,つまりオプションを特に指定しなければ,Welch 検定が実行されるようになっている。
数式処理フリーソフト Maxima も R と同じく,平均値の差の検定を,デフォルトで Welch 検定として行なう(Maxima も Welch 検定:等分散検定は不要)。
海外に目を向けると,例えば, Hanover College の William Altermatt が書いた Independent t-test (アーカイブ)では,太字で次のように,きちんと書いてある。
Do not assume equal variance
その上で,次のように書かれている。
The "Unequal Variance (Welch)" method will work whether your two groups have similar or dissimilar varianceウェルチ検定ならば,2 群の分散が同じでも同じでなくても検定できる,と言うのである。。
統計解析ツール Statwing でも,等分散か否かに関わらず,デフォルトで Welch 検定を採用している。また,正規性が満たされないデータには,ランク化された t 検定(ranked t-test)を採用。さらに,分散分析においても,Welch's F Test ANOVAおよびランク化された同検定が採用されている。
統計ソフト Minitab の解説では, 2-SAMPLE t-TEST という論文で,シミュレーションを行って,通常の t 検定とウェルチ検定の比較を示している。
その結果が,p.3 Results に書かれている。
the theoretical superiority of the classical 2-sample test over Welch’s t-test has a little or no practical value. For this reason, the Assistant uses Welch’s t-test to compare the means of two populations.
つまり,ウェルチ検定は,等分散でない時に使う,ではなく,等分散か否か検討せずに使える,と考えたほうが良いのである。分析データが,この論文後半に書かれているので,興味ある人は見てほしい。
このように,t 検定を使う場合,等分散かどうかを事前に調べる,いわゆる 2 段階検定が望ましくない,ということは,Zimmerman (2004) の論文で明確に主張されている(文献リストは末尾に掲載)。例えば, p.104 には,次のように書かれている。
it is inefficient to base a decision on preliminary tests of equality of variances and modern textbooks no longer recommend preliminary tests" (一部略)
等分散かどうかという事前検定は役立たないし,最近では推奨もされないのである。
さらに,Mann-Whitney U 検定や Kruskal-Wallis 検定の問題点も指摘している。
More recently it has become apparent that these nonparametric methods, also are strongly affected by variance heterogeneity
いわゆるノンパラメトリック検定でも等分散でないと正しく結果が出ないのである。ノンパラメトリック検定だからと言って,仮定フリーというわけではないのである。ノンパラメトリック検定が,どんなデータに対しても万能であるかのような錯覚を抱いている人は注意すべきである。等分散性に関するノンパラメトリック検定の問題点に関しては,富原(2005)も大いに参考なる。
のちにウェルチ検定(Welch test)と名づけられる検定のアイデアは, Welch (1938) の論文に見られる。これは,統計学発展の歴史を考える上でも重要な論文であり,別ページ,ウェルチ検定の意図とは:非等分散が前提ではない で解説した。
前述の Altermatt が指摘したことを,このブログでも書いたが, Welch (1938) は,等分散か否かに関係なく適用できる検定として,この検定を考案したのである。
日本で,この論文に触れられることは少ない。少なくとも,一般向け,あるいは,学生向けの解説では,そのような傾向がある。ウィキペディアのウェルチの t 検定の項目でも,この文献が挙がっていなかったので,追記しておいた(ウェルチの t 検定の変更履歴,Iguchi-Y)。
日本語論文では,高岸(2014)が,等分散検定と t 検定を併用した場合の検定の多重性問題に触れている。ただし,彼が「サンプル数」と言っているものは,「サンプルサイズ」と言うのが正しい。この間違いは非常に多いので注意すべきである。それに関しては,別ページ, サンプル数とサンプルサイズ n は意味が違う を参照。
また,Ruxton (2006) は,通常の t 検定や Mann–Whitney U 検定でなく,常に Welch 検定(本論文では,unequal variance t-test)を推奨している。さらに, Winter and Dodou (2010) は,リッカート尺度(Likert scale)のデータに対して, t 検定と U 検定が,多くの場合において,同等な検出力(power)を持つことを示した。
参考文献
Ruxton, G. D. (2006))
The unequal variance t-test is an underused alternative to Student's t-test and the Mann–Whitney U test
Behavioral Ecology 17: 688-69.
高岸聖彦(2014)
独立 2 群間の平均値の比較の際に生じる多重性の問題について
生物統計学(統計関連の覚書)
現在は閲覧できないウェブサイト。
富原一哉(2005)
日本の心理学研究論文におけるMann-WhitneyのU検定の誤用とその対策
人文学科論集, (61): 1-6.
Welch, B. L. (1938)
The significance of the difference between two means when the population variances are unequal
Biometrika, 350-362.
De Winter, JCF. and Dodou, D. (2010)
Five-point Likert items: t test versus Mann Whitney Wilcoxon
Practical Assessment Research & Evaluation 15(11): 1-16.
Zimmerman, D. W. (2004)
Inflation of Type I Error Rates by Unequal Variances Associated with Parametric, Nonparametric, and Rank-Transformation Tests
Psicologica, 25(1): 103-133.