Welch検定が主流,単純t検定やANOVAは時代遅れ:Statwingの話題から
井口豊(生物科学研究所,長野県岡谷市)
最終更新:2018年11月12日
2 群(2 標本),あるいは,3 群(3 標本)以上の平均値の差を検定する際に,まず,分散が等しいかどうか(一様であるかどうか)調べて,それから検定法を選択するというのは,多重検定に相当する,ということを既に別ページに書いた(参照:等分散検定から t検定,ウェルチ検定,U検定への問題点)。
そこでは,特に,t検定を例として取り上げ,以下のような二通りの対処法が妥当であることを指摘した。
- 等分散かどうか検定せず, Welch 検定だけを実施する。
- 従来どおり,等分散かどうか検定し,その結果によって,検定法を選択する。ただし,これは多重検定なので,例えば,Bonferroni(ボンフェローニ)法などによって,p値を修正する。
ところが実際には前者,つまり, Welch 検定だけを実施するのが最近の主流となっているようなのである。
統計解析ツール Statwing でもデフォルトで, Welch’s t-test や Welch’s F test ANOVA を実行するのである。
そのリンク先を読むと分かるが,もう細かい説明など抜きで,この方法で計算しろ,という感じである。説明の途中からは,正確には Welch 検定というべきなのだが,単に, t-test あるいは ANOVA としか書かれていないのである。
こうなると,大学などで教える統計学の授業や教科書でも,この問題を扱うべきなのだが,少なくとも大学授業関連のウェブページを見る限り,そのような傾向になっていない。
主流となりつつある検定法が,まだ,大学における一般学生相手の講義では,非主流なのかもしれない。
放送大学の統計学の授業でも,例えば,社会統計学入門('12)では,この問題に触れてなかったような気がする。私自身が放送大学の教員でもなく,学生でもないので,確かなことは言えないが,テレビで見た限り,この「等分散問題」は強調されていなかったと思う。
奥村晴彦は,ウェブページ t 検定で,この問題を明確に指摘している。彼も放送大学で教えていたのだが,それがコンピュータ関連の授業であったため,この問題に触れる場面は無かったはずである。
もしかすると他大学より先端的な授業内容を展開する放送大学だから,どれかの授業でこの問題を扱っているかもしれないので,もしそうならば,私のところへ連絡してほしい。
話を Statwing に戻すが,もし,等分散でもなく,正規性の仮定も満たさないデータだったら,どのように検定するだろうか,という点が気になった。
通常,非正規性のデータならば,ノンパラメトリック検定というのが定番である。しかし,このノンパラメトリック検定でさえ,最も代表的な U 検定でも,分散が異なる標本間の検定は不適当なのである。
これに関しては,例えば,粕谷英一「Mann-Whitney の U 検定と不等分散」,あるいは,奥村晴彦「t 検定の話」も参照して欲しい。
統計データ解析の単行本では,ノンパラメトリック法(岩原信九郎,1964)で U 検定の解説を読むと,「2つの分布が著しく異ならないこと」と,きちんと適用条件を書いてある。
つまり,ノンパラメトリック検定でも仮定フリーというわけではないのである。ノンパラメトリック検定が,どんなデータに対しても万能であるかのような錯覚を抱いている人は注意すべきである。
しかも,もし母分散が異なると結論されれば,それだけで母集団が異なるという意味である。このとき,代表値(平均や中央値)の差の検定を考える前に,なぜ母分散が異なるのか,それを検討するほうが重要なことである。理論的な話題でなく,実際に,医学,生物学,心理学などのようなデータを扱う場合は,もし母分散が異なると推定されれば,その原因こそ解明して欲しいものである。
Statwing の場合は,どうだろうか?この統計解析ソフトでは,ランク化された Welch 検定を実行するようになっているのである。 Ranked T-Test あるいは Ranked ANOVA と書かれているが,もちろんこれは Welch 検定の計算に従っている。つまり,代表値の差の検定として,パラメトリックだろうが,ノンパラメトリックだろうが,Welch検定を利用するのである。ここまで徹底した統計解析ソフトは稀である。是非,試用してみてほしい。
なお,最近では,正規性も等分散性も仮定しない Brunner-Munzel 検定も使われるようになってきた。2015年5月24日に福岡市で開催された日本臨床工学会の市民公開講座で,倉持龍彦氏が, EZR で統計解析を実践しよう」と題して講演した際に,私もその資料作りに協力,助言した。ここでも Brunner-Munzel 検定が取り上げられた。
統計ソフト「エクセル統計」にも Brunner-Munzel 検定 が装備されている。その解説には,「マン=ホイットニーの U 検定と異なり、2標本の等分散性を仮定せず」と明確に書いてある。なおエクセル統計は, Microsoft の Excel と混同されるが,英語名は Ekuseru-Toukei である。
リッカート尺度(Likert scale)のデータに対しては, t 検定と U 検定が,多くの場合において,同等な検出力(power)を持つことを示した以下の論文も参照してほしい。
De Winter, JCF. and Dodou, D. (2010)
Five-point Likert items: t test versus Mann Whitney Wilcoxon
Practical Assessment Research & Evaluation 15(11): 1-16.