logo
生物科学研究所 井口研究室
Laboratory of Biology, Okaya, Nagano, Japan
Home

カイ二乗検定と分散分析は同様な検定である

井口豊(生物科学研究所,長野県岡谷市)
最終更新: 2023 年 1 月 15 日

1. はじめに

母比率の差の検定として,カイ二乗検定はノンパラメトリック検定の代表格である。一方,母平均の差の検定として,分散分析はパラメトリック検定の代表格である。このように両者は,全く異なる目的の検定であるかのように説明されるが,実際には,似た者同士なのである。

例えば, A, B, C の 3 群に,はい,いいえ,という二件法アンケートを実施して,その結果をまとめた 2×3 クロス集計表データ(表 1)を考えてみる。

表 1.はい,いいえ 3 群のクロス集計
ABC
はい233514
いいえ251836

このような場合,はい・いいえの比率を比較する検定として,まずカイ二乗検定が考えられる。

しかしながら,はい・いいえは二値データであり,ダミー変数 0, 1 にすると間隔尺度とも考えられ,分散分析が適用できるのである。

ここでは, R を使い,シミュレーションでカイ二乗検定と分散分析の p 値を比較してみた。

2. カイ二乗検定と分散分析の p 値の変化

データは 3 群(サンプル数 3)で,それぞれセルのサンプルサイズ を 15 から 40 で変化させて,両検定の p 値を比較した。

以下が, R スクリプトである。


#############
k<- 1e+2 # 標本取り出し反復回数

p<- replicate(k, {
   # 度数データ
   x<- sample(15:40, size = 6, replace = T)

   # 群分け
   group<- factor(rep(
      1:3, 
      c(sum(x[1:2]), sum(x[3:4]), sum(x[5:6]))
      ))

   # ダミー変数
   d<- rep(rep(0:1, 3), x)

   c(
   # カイ二乗検定
   chisq.test(
     matrix(x, ncol = 3),
     correct = FALSE)$p.value,

   # 分散分析
   anova(aov(d ~ group))$Pr[1]
   )
})

par(oma = c(3, 3, 2, 2))

# カイ二乗検定と 分散分析 p 値
plot(
  p[1, ], p[2, ],
  xlab = "Chi-square test p-value",
  ylab = "Anova p-value",
  cex.lab  = 1.2,
  cex.axis = 1.0
)

abline(0, 1, col = "red")

################

結果は,次の図 1 のとおりである。

カイ二乗検定と分散分析 p 値

図 1. p 値の比較: カイ二乗検定と分散分析

カイ二乗検定と分散分析の p 値が,ほぼ一致することが分かる。両者は,母比率の検定でもあり,母平均の検定でもあり,その意味で二元性を有する。

カイ二乗検定は, 2×2 クロス集計表の場合,パラメトリック検定である z 検定と同一の式で表されることも知っておいて欲しい。それに関しては,関連サイトで扱っている。

関連サイト

Home