生物科学研究所 井口研究室
Laboratory of Biology, Okaya, Nagano, Japan
カイ二乗検定と分散分析は同様な検定である
井口豊(生物科学研究所,長野県岡谷市)
最終更新: 2023 年 1 月 15 日
1. はじめに
母比率の差の検定として,カイ二乗検定はノンパラメトリック検定の代表格である。一方,母平均の差の検定として,分散分析はパラメトリック検定の代表格である。このように両者は,全く異なる目的の検定であるかのように説明されるが,実際には,似た者同士なのである。
例えば, A, B, C の 3 群に,はい,いいえ
,という二件法アンケートを実施して,その結果をまとめた 2×3 クロス集計表データ(表 1)を考えてみる。
このような場合,はい・いいえ
の比率を比較する検定として,まずカイ二乗検定が考えられる。
しかしながら,はい・いいえ
は二値データであり,ダミー変数 0, 1 にすると間隔尺度とも考えられ,分散分析が適用できるのである。
ここでは, R を使い,シミュレーションでカイ二乗検定と分散分析の p 値を比較してみた。
2. カイ二乗検定と分散分析の p 値の変化
データは 3 群(サンプル数 3)で,それぞれセルのサンプルサイズ を 15 から 40 で変化させて,両検定の p 値を比較した。
以下が, R スクリプトである。
#############
k<- 1e+2 # 標本取り出し反復回数
p<- replicate(k, {
# 度数データ
x<- sample(15:40, size = 6, replace = T)
# 群分け
group<- factor(rep(
1:3,
c(sum(x[1:2]), sum(x[3:4]), sum(x[5:6]))
))
# ダミー変数
d<- rep(rep(0:1, 3), x)
c(
# カイ二乗検定
chisq.test(
matrix(x, ncol = 3),
correct = FALSE)$p.value,
# 分散分析
anova(aov(d ~ group))$Pr[1]
)
})
par(oma = c(3, 3, 2, 2))
# カイ二乗検定と 分散分析 p 値
plot(
p[1, ], p[2, ],
xlab = "Chi-square test p-value",
ylab = "Anova p-value",
cex.lab = 1.2,
cex.axis = 1.0
)
abline(0, 1, col = "red")
################
結果は,次の図 1 のとおりである。
図 1. p 値の比較: カイ二乗検定と分散分析
カイ二乗検定と分散分析の p 値が,ほぼ一致することが分かる。両者は,母比率の検定でもあり,母平均の検定でもあり,その意味で二元性を有する。
カイ二乗検定は, 2×2 クロス集計表の場合,パラメトリック検定である z 検定と同一の式で表されることも知っておいて欲しい。それに関しては,関連サイトで扱っている。