生物科学研究所 井口研究室
Laboratory of Biology, Okaya, Nagano, Japan
母比率の差: カイ二乗検定, z 検定,ロジスティック回帰
井口豊(生物科学研究所,長野県岡谷市)
最終更新: 2023 年 1 月 16 日
1. はじめに
例えば,男女に,はい・いいえ
,という二件法アンケートを実施して,その結果をまとめた 2×2 クロス集計表データ(表 1)を考えてみる。
このような場合,男女のはい・いいえ
比率を比較するとき,代表的なノンパラメトリック検定に,いわゆるカイ二乗検定がある。
このカイ二乗検定が,実は,母比率の差のパラメトリック検定である z 検定と全く同じ式で表されることは,別ページで証明した。
しかしながら,男・女
もはい・いいえ
も二値データであり,ダミー変数 0, 1 にすると,一般化線形モデル(GLM)ロジスティック回帰分析も適用できるのである。
ここでは, R を使い,シミュレーションでカイ二乗検定とロジスティック回帰の p 値を比較してみた。
2. カイ二乗検定とロジスティック回帰分析の p 値の変化
セルのサンプルサイズ を 15 から 40 で変化させて,両検定の p 値を比較した。
以下が, R スクリプトである。
#############
k<- 1e+2 # 標本取り出し反復回数
p<- replicate(k, {
# 度数データ
x<- sample(15:40, size = 4, replace = T)
# 群分け
group<- factor(rep(
c("male", "fmale"),
c(sum(x[1:2]), sum(x[3:4]))
))
# ダミー応答変数
res<- factor(rep(rep(c("Yes", "No"), 2), x))
c(
# カイ二乗検定 p 値
chisq.test(
matrix(x, ncol = 2),
correct = FALSE)$p.value,
# ロジスティック回帰 p 値
summary(glm(
res ~ group, family = binomial(link = "logit")
))$coef[2, 4]
)
})
p.chisq<- p[1, ]
p.logit<- p[2, ]
par(oma = c(3, 3, 2, 2))
plot(
p.chisq, p.logit,
xlab = "Chi-square test",
ylab = "Logistic regression",
main = "P value",
col = "blue",
xlim = c(0, 1), ylim = c(0, 1)
)
abline(0, 1, col = "red")
################
結果は,次の図 1 のとおりである。
図 1. p 値の比較: カイ二乗検定とロジスティック回帰分析
カイ二乗検定とロジスティック回帰分析の p 値が,ほぼ一致することが分かる。