生物科学研究所井口研究室

Laboratory of Biology, Okaya, Nagano, Japan

カイ二乗検定（独立性検定）から残差分析へ：全体から項目別への検定

井口豊（生物科学研究所，長野県岡谷市）
最終更新： 2025 年 12 月 25 日

PDF version
DOI: 10.5281/zenodo.14034800

1. はじめに

カイ二乗検定が，独立性の検定，つまり，独立な標本間の比率の差の検定，として用いられることは，よく知られている。しかし，カイ二乗検定は全体としての比率の違いは検出するが，個別の項目のどこに差があるかを示さない。その目的で通常行われるのが残差分析であるが，初等的な教科書には載っていないこともあって，あまり知られていない。

ここでは，カイ二乗検定とは何かを間単に説明し，その後，残差分析を解説する。さらに，多重検定としての Benjamini & Hochberg 法も紹介し，残差分析を行なっている日本語文献も紹介した。

本ウエブサイトは，以下の論文で引用され，利用されている。

山下良奈（2015）
新語の理解度の男女差と年齢差
語文 153: 78-58.

小島康生（2017）
自然観察に基づくショッピングモールでの親子の関わり―構成メンバー・運搬具の利用との関連において―.
家族心理学研究 30(2): 113-121.

宮地功大（2020）
食事調査結果から分かった美作市民の食生活について
美作大学大学院生活科学研究科修士論文.

岩田真一（2021）
心理的プレッシャーがパフォーマンスに及ぼす影響
—サッカー PK 戦のキック成功率の分析を通して—
東京国際大学論叢人間科学・複合領域研究 6: 19-28.

尾黒正子・荻野哲也・佐々木新介・森崎直子（2025）
インターネットを利用した看護師のストレッチャー移送の実態調査.
健康科学と人間形成 11(1): 21-29.

これらのうち，山下良奈 (2015) p.42 に書かれた URL は，旧サイトなので注意して欲しい。

多項の適合度検定は，次のページ参照。

多項適合度検定: 3 項以上の正確検定，近似カイ二乗検定，多重比較

2. カイ二乗検定とは何か

カイ二乗検定は，以下の式で示す χ² 値が近似的にカイ二乗分布に従う，と考えることを利用している。

\begin{align} \chi^2 &= \sum \frac{(O - E)^2}{E} \end{align}

ここで， O は観測値， E は期待値である。

分子は，観測値と期待値のズレ（残差）の二乗である。その残差の二乗の相対的大きさを見積もるために，分母の期待値で割っている。例えば， 1 と 2 の差でも， 999 と 1000 の差でも，同じく１だが，その重みが両者で違うのが直感的に分かるだろう。その重みを考慮して，残差の期待値に対する相対的大きさを検定するのが，カイ二乗検定である。それゆえ，比率の差の検定とも言われる。この残差の期待値に対する相対的大きさこそがカイ二乗検定の要諦である。

ここでは例として，3 群 A, B, C で得られた観察値 Ⅰ と Ⅱ という二値データの独立性検定を，カイ二乗検定でおこなう。二値データとは，Yes，No とか，男女とか，有無とかに分類される二者択一のデータである。それが次の表 1 のような 2 × 3 分割表にまとめられているとする。

表 1. 群 A, B, C における観察値 Ⅰ, Ⅱ の度数
	A	B	C	合計
観察値 Ⅰ	7	4	23	34
観察値 Ⅱ	10	8	8	26
合計	17	12	31	60

群は標本（サンプル，sample）とも呼ばれ，この場合，標本数（サンプル数） k = 3 のように表す。一方，A の観察値の合計数 17 は，標本サイズ，または，サンプルサイズ，あるいは，標本の大きさと呼ばれ，標本サイズ n = 17 のように表す。これら標本数と標本サイズは，混同されやすいので注意が必要だ（参照：サンプル数とサンプルサイズ n は意味が違う）。

表 1 は，通常，分割表（クロス表，cross table）と呼ばれるが，英語では，Contingency table （偶然表）と呼ばれることもある。各セルの期待値は，以下の式で計算される。

\begin{align} E= \frac{周辺和の積}{総数} \end{align}

例として， AⅠ セルの期待値は以下のようになる。。

\begin{align} E(\rm{AI})&= \frac{17 \times 34}{60} \\ &\simeq 9.6 \end{align}

ここで，≈ は，ほぼ等しい，約，を意味する記号であり，日本では，≒　を使用することに注意。

では，なぜこれが期待値なのだろうか？表 1 を再度見て欲しい。以下のことが分かる。

A の確率: P(A) = 17/60
Ⅰ の確率: P(Ⅰ) = 34/60

Ⅰ が起きる確率と A が起きる確率が独立なら，Ⅰ かつ A が起きる確率は次のようになる。

\begin{align} P({\rm A \land I})&= P({\rm A}) P({\rm I}) \\ &=\frac{17}{60} \times \frac{34}{60} \end{align}

したがって， Ⅰ かつ A が起きる期待値 E は，次のように計算される。

\begin{align} E({\rm A \land I})&= 60 \times \frac{17}{60} \times \frac{34}{60} \\ &=\frac{17 \times 34}{60} \\ &\simeq 9.6 \end{align}

これが，カイ二乗検定検定が独立性の検定と言われるゆえんである。このようにして，各セルの期待値を求めると，次の表 2 になる。

表 2. 群 A, B, C における Ⅰ, Ⅱ の期待値
	A	B	C	合計
期待値 Ⅰ	9.6	6.8	17.6	34
期待値 Ⅱ	7.4	5.2	13.4	26
合計	17	12	31	60

カイ二乗検定の適用基準として，期待値が 5 未満のセルが，全体の 20％以上になってはいけない，とされる。これは，コクランの規則（Cochran's rule）と呼ばれるが，日本語の論文や解説では，まずそのような表記を見かけない。日本語でも，「コクランの規則」と明示すべきだろう。コクランの規則については，以下のページ参照：統計学の基準値の由来：5%有意水準，カイ二乗検定，相関係数の出典と引用。

繰り返すが，観察値でなく，期待値の大きさを調べるのである。つまり，表 1 でなく，表 2 の数値を見るのである。例えば，表 1 の BⅠ の観察値は 4 である。しかし表 2 で，BⅠ の期待値 6.8 であり 5 以上である。その他の期待値も 5 以上であり，あくまでこの規則を適用すれば，という前提で言えば，カイ二乗検定の適用に問題ないということになる。

ところが，そう単純な話ではない。コクランの規則を押し付けるべきではない，という詳しい解説が，黒木玄さんによってなされている。非常に参考になる意見だ。自戒を込めて引用しよう。 X （旧ツイッター）黒木玄さん，午後7:12 · 2023年10月20日。

自由度 df (degree of freedom) は，以下のように計算される。
df = (縦セル数 - 1) × (横セル数 - 1)
= 1 × 2
=2

自由度の説明は通常，標本数から拘束条件数を引いたもの，とされるが，必要セル数として考えてみると理解しやすい。この場合，最低限，縦も横も 2 セル必要である。そうでないと，そもそも比率を比較できないからである。 1 セルでは駄目， 2 セル以上必要ということが，自由度の式で， (縦横のセル- 1) となって現れている。

実際に，表 1 と 2 の観察値と期待値，および自由度 2 を用いて，カイ二乗検定を行うと以下のようになる。

χ²(2) = 8.20
p = 0.017

結果として， 3 群（3 標本）間で比率が有意に異なることが分かる。

3. 残差分析の計算

以上のカイ二乗検定の結果では，どの群の観察値に有意差があるかは不明である。それを明らかにする目的で行われるのが残差分析である。

まず，残差を前述のように求める。すなわち
残差 = 観察値 - 期待値
であり，各セルは以下の表 3 になる。

表 3. 群 A, B, C における Ⅰ, Ⅱ の残差
	A	B	C
残差 Ⅰ	-2.63	-2.8	5.4
残差 Ⅱ	2.63	2.8	-5.4

次に，残差を以下のように標準化（standardize）する。

\begin{align} 標準化残差 = \frac{残差}{\sqrt{期待値}} \end{align}

分母にある，期待値の平方根は，残差の標準偏差，つまり標準誤差（standard error）である。この標準化残差（standardized residual）は，近似的に，平均 0，分散 1 の標準正規分布に従う。それゆえ，この標準化残差は，標準正規分布におけるＺスコアと見なせる。

各セルの標準化残差を次の表 4 に示す。

表 4. 群 A, B, C における Ⅰ, Ⅱ の標準化残差
	A	B	C
標準化残差 Ⅰ	-0.85	-1.07	1.30
標準化残差 Ⅱ	0.97	1.23	-1.48

この標準化残差を用いて，検定（p 値の算出）を行う方法も考えられる。しかし，注意して欲しいのは，表 3 の残差が Ⅰ と Ⅱ で絶対値が等しいのに，標準化残差ではそれが違う点である。この点を補正するために，次のような残差分散と呼ばれる値を求める。

\begin{align} &残差分散 = \left(1-\frac{縦の周辺和}{総数} \right) \times \left(1-\frac{横の周辺和}{総数} \right) \end{align}

例えば， AI の残差分散は次のようになる。

\begin{align} \rm{AI} 残差分散 = \left(1-\frac{17}{60} \right) \times \left(1-\frac{34}{60} \right) \end{align}

各セルの残差分散を次の表 5 に示す。

表 5. 群 A, B, C における Ⅰ, Ⅱ の残差分散
	A	B	C
残差分散 Ⅰ	0.311	0.347	0.209
残差分散 Ⅱ	0.406	0.453	0.274

この残差分散と，前述の期待値をかけたものの平方根を，改めて，標準誤差と定義し直し，標準化残差を計算し直したものを，調整済み標準化残差（adjusted standardized residual）と言う。

\begin{align} 調整済み標準化残差 = \frac{残差}{\sqrt{期待値 \times 残差分散}} \end{align}

場合によっては，これを標準化残差と呼ぶので注意が必要である。各セルの調整済み標準化残差を次の表 6 に示す。

表 6. 群 A, B, C におけるⅠ, Ⅱ の調整済み標準化残差
	A	B	C
調整済み標準化残差 Ⅰ	-1.522	-1.824	2.833
調整済み標準化残差 Ⅱ	1.522	1.824	-2.833

単純な残差と同じく，各群の Ⅰ と Ⅱ で絶対値が等しくなっていることが分かる。 Haberman (1973) が示したこの調整済み標準化残差のほうが，標準正規分布に近くなる。

この値を標準正規分布の Z スコアとして，それに相当するパーセント点を求めれば，最終的な残差検定となる。 EXCEL 関数を利用する場合は，次のようにすれば，p 値を求めることができる。

=2*(1-NORMSDIST(ABS(各調整済み標準化残差)))

ここで，ABSは絶対値にする関数である。

各群の p 値を次の表７に示す。

表 7. 群 A, B, C の残差分析の結果
	A	B	C
p 値	0.128	0.0068	0.005

これによって， C 群の比率が有意に異なっていることが分かる。

4. 残差分析の多重検定

残差分析の結果として得られた p 値を多重比較するなら，有効数字を表 7 より多くとって，例えば， Benjamini & Hochberg 法（BH法，Benjamini & Hochberg, 1995）を使って，以下のように計算される。

A: 0.12789 / (3/3)
B: 0.06820 / (2/3)
C: 0.00462 / (1/3)

この結果を表 8 にまとめた。

表 8. 群 A, B, C の残差分析 p 値の多重比較（Benjamini & Hochberg 法）
	A	B	C
p 値	0.128	0.102	0.014

ただし，残差分析においては，必ずしも多重比較を考える必要はない。通常，多重比較と言えば，群間の比較，すなわち， A-B，A-C，B-C の比較を言うのが，残差分析の多重比較では，各群において実測値と期待値を比較している。したがって，例えば，最初から最も残差が大きい C 群だけに注目するならば，表 7 の p 値を使えば良いのである。

以上の検定を手っ取り早くオンラインでするなら， js-STAR を使えば良い（田中， 2021）。この中の，カイ二乗検定ｉ×ｊ表を利用すれば，多重比較の結果も含めて出力される。これには，統計解析ソフトＲのプログラムも出力される。

5. 残差分析を使った論文

冒頭でも述べた，本ウェブサイトを引用している山下（2015）は，「逆ギレ」，「イケメン」，「婚活」などの新語の使われ方について，年齢別，男女別の分析に残差分析を用いている。

篠田・山野（2015）は，残差分析（Table 7）によって，福島県産食品の購入を避けたい，という意識に，有意な男女差が認められ，女性のほうが，その傾向が強いことを明らかにした。

山下・坂田（2008）は，大学生の失恋からの立ち直り過程を研究し，同性友人からのサポートを受ける学生は，「傷つき」，「未練」，「断念」の経験度が高く，立ち直りの評価が低いことを，残差分析で明らかにした（Table 9）。ここでは，p 値ではなく，調整済み残差が示されている。さらに Haberman 論文で引用されているのは，Haberman (1974) である。

参考文献

Benjamini, Y. & Hochberg, Y. (1995)
Controlling the false discovery rate: a practical and powerful approach to multiple testing.
Journal of the Royal Statistical Society. Series B (Methodological), 57(1): 289-300.

Haberman, S. J. (1973)
The Analysis of Residuals in Cross-Classified Tables
Biometrics, 29: 205-220.

Haberman, S. J. (1974)
The analysis of frequency data
University of Chicago Press.

篠田佳彦・山野直樹（2015）
敦賀市における放射線とリスクに関する意識調査
日本原子力学会和文論文誌 14(2), 95-112.

山下倫実・坂田桐子（2008）
大学生におけるソーシャル・サポートと恋愛関係崩壊からの立ち直りとの関連
教育心理学研究，56: 57-71.

Home