対応ある t 検定は 1 群検定,分散分析は 2 群以上の検定
井口豊(生物科学研究所,長野県岡谷市)
最終更新:2024 年 12 月 14 日
1. はじめに
検定と群数(標本数,サンプル数)の関係を,どうも理解していない人が多いようであり,代表的な例として,対応ある t 検定(paired t test)と分散分析(ANOVA)を取り上げる。
2. 対応ある t 検定とは何か?
対応ある t 検定は,対応するデータの差をとって 1 群(サンプル数 1)を作り,その 1 群(差データ)の平均が 0 であるかどうか検定するものである。ただしこれは,帰無仮説が「差が無い」という場合であって,実際には,任意の差に対して検定できる。
対応ある t 検定は 1 群だから,等分散かどうかという問題は生じない。筆算,いわゆる手計算でやれば,すぐ分かるのだが,Excel など統計ソフトに頼ると,教員が説明しない限りは,理解しないまま授業を終えてしまう。
例えば,次の表 1 のような対応あるデータ x1, x2 を考える。
x1 | x2 | d (= x2 - x1) |
---|---|---|
3 | 1 | 2 |
2 | 1 | 1 |
2 | 2 | 0 |
2 | 3 | -1 |
この差 d の平均 md をまず求める。
この差の平均 md が 0 と言えるかどうかを検定するのが,対応ある t 検定である。
表 1 データに対して, R で,対応ある t 検定と差 d の 1 群検定をやってみる。なお, Excel による 1 群 t 検定の方法は,以下のページに解説した。
#############
# 対応あるデータ x1, x2 の t 検定
x1<- c(3, 2, 2, 2)
x2<- c(1, 1, 2, 3)
t.test(x1, x2, paired = T)
# 差データ d の t 検定
d<- x2 - x1
t.test(d)
##############
どちらの結果も同じく以下のようになる。
###############
t = -0.7746
df = 3
p-value = 0.495
################
t 値の算出式を書くと,以下のようになる。
ここで, md は差データの平均, U2 は差データの不偏分散, n は差データの個数(上の例では, n = 4)である。
この点が理解できていない学生が(教員も?)多い。
当然ながら,正規分布に従うかどうかのチェックも,差データ d に対して行なう。これを誤って, x1, x2 それぞれの正規性をチェックする人がいるので注意が必要である。
さらに,対応あるデータでも,関連性が無ければ,当然だが,独立 2 群(対応なし)の t 検定となる。この点を理解せずに,対応あれば何でも,「対応ある t 検定」と思っている人も多いようだ。これは,以下のページに解説した。
3. 分散分析は,2 群以上の検定
分散分析(ANOVA)は,2 群以上の検定であり, 2 群の場合が t 検定(Student の t 検定)や,いわゆる Welch 検定(等分散かどうか問わない検定)である。授業では,歴史的な流れとして t 検定を学ぶが,実用上は,不要とも言える。このこともまた,あまり教えられていないようだ。
表 1 データを独立 2 群(サンプル数 2)のデータ x1, x2 として扱い, t 検定と分散分析で計算してみる。
###################################
### 等分散を仮定
x1<- c(3, 2, 2, 2)
x2<- c(1, 1, 2, 3)
# t 検定
t.test(x1, x2, var.equal=T)
# 分散分析
group<- rep(1:2, c(length(x1), length(x2)))
dat<- c(x1, x2)
oneway.test(dat ~ group, var.equal=T)
### 等分散かどうか問題にしない
# Welch t 検定
t.test(x1, x2, var.equal=F)
# Welch 分散分析
oneway.test(dat ~ group, var.equal=F)
################################
結果は省略するが,等分散の場合も,等分散であってもなくても良い場合も, t 検定と 2 群の分散分析は同じ結果になる。
分散分析の場合, F 値が,
F (1, t 検定自由度)
となり, t 値の 2 乗に等しくなり,自由度 n の t 分布に従う統計量 t の 2 乗は,自由度 (1, n) の F 分布に従う,という統計学上の定理を実感できる。
余談ではあるが,分散分析が 2 群以上の平均の差の検定であることを英語で表現すると,以下のようになる。
ANOVA is used to compare the means of more than one group.
これに関しては,以下のページに解説した。
4. 1 群分散分析
さらに,一般線形モデル(General Linear Model)として分散分析を考えると, 1 群(1 標本)分散分析が, 1 群 t 検定と同等になる。これは別ページで解説した。
5. Kruskal-Wallis 検定も 2 群以上の検定
ノンパラメトリック検定である Kruskal-Wallis 検定も 2 群以上の検定である。これも別ページで解説した。