logo
生物科学研究所 井口研究室
Laboratory of Biology, Okaya, Nagano, Japan
Home

比率の差:Z 検定とカイ二乗検定は同等である

井口豊(生物科学研究所,長野県岡谷市)
最終更新:2019年12月22日

1. はじめに

2 × 2 分割表に集計されたデータを考えるとき,母比率の差の検定として,カイ二乗検定Z 検定とがある。前者は 2 種類の属性の独立性を検定し,後者は文字通り 2 群(サンプル数 2)の比率の差を検定する。

これらは,検定の名称も異なり,目的も異なるように思えるが,実は,全く同等な検定である。しかし,そのような解説は,意外と少ない。

ここでは次の表 1 のように,属性 A と B が,それぞれ2群に分かれ,度数(データ個数)が,a,b,c,d ,全度数が n (= a + b + c + d) であると考える。これは, 2 行 2 列(2 × 2)クロス集計表とも呼ばれる。

表 1
A1 A2 合計
B1aba + b
B2cdc + d
合計a + cb + dn

例えば,A を性別(A1:男,A2:女),B を賛否(B1:はい,B2:いいえ)のように考えれば良い。

これから,カイ二乗検定と Z 検定の計算式の同等性を説明していくが,連続データとするための,いわゆるイェーツ補正(Yate's continuity correction)は,本質的問題ではないので,ここでは使わないことにする。

2. カイ二乗検定

表 1 のデータに対して,
「帰無仮説 H0: A と B は独立」
を考え,独立性の検定としてカイ二乗検定を行なうと,その統計量(カイ二乗値)は,以下のように計算される。

カイ二乗値=((a+b+c+d)(ad-bc))/((a+b)(c+d)(a+c)(b+d))

ここで,検定自由度は
(2 - 1) * (2 - 1) = 1
である。

3. Z 検定

一方で,性別(A1:男,A2:女)で,はい(B1)と答えた比率を考え,
「帰無仮説 H0: A1 と A2 における B1 の母比率は等しい」
として, Z 検定を行なうと, その統計量(Z 値)は,以下のように計算される。

比率の差Z値=(p1-p2)/sqrt(p(1-p)(1/(a+c)+1/(b+d))

ここで,Z は標準正規分布に従う確率変数である。さらに, p1, p2, p は,以下のように定義される。

p1=a/(a+c)

p2=b/(b+d)

p=(a+b)/(a+b+c+d)

最後の p は統合比率(pooled proportion)と呼ばれる。なぜ,統合(プールすること, pooling)が必要なのかは,別ページで解説した(比率の差Z検定の注意点:統合比率を使う理由)。

2. カイ二乗検定と Z 検定の同等性の証明

統計学の定理より,標準正規分布に従う確率変数 Z の二乗 Z2 は,自由度 1 のカイ二乗分布の確率変数でもある。したがって,前述の計算式を使って,
カイ二乗値=Z^2"
を証明すれば,カイ二乗検定が Z 検定と同等なものであることが言える。

式を変形すれば,筆算でも可能(学生の試験向き)だが,ここでは,フリーソフトでもある数式処理システム Maxima を使って,
カイ二乗値
となることを証明してみる。

/* スクリプト開始 */

n1: a+c$
n2: b+d$

n: n1+n2$

/* カイ二乗値 */
chisq: n*(a*d-b*c)^2/((a+b)*(c+d)*(a+c)*(b+d))$

p1: a/n1$
p2: b/n2$

p: (a+b)/n$

/* Z 値 */
z: (p1-p2)/sqrt(p*(1-p)*(1/n1+1/n2))$

/* カイ二乗値 - Z 値の二乗*/
ratsimp(chisq-z^2);

/* スクリプト終了 */

結果は,見事に 0 となり, 2 × 2 クロス集計データに対して,
カイ二乗値 = Z 値の二乗
であることが証明された。

Home