四分位偏差は,どのように使われるか?変動係数の話題も含めて
井口豊(生物科学研究所,長野県岡谷市)
最終更新:2024 年 2 月 6 日
1. 四分位偏差
四分位偏差(quartile deviation)は,略して QD とも呼ばれ,その定義式を述べる必要ないかもしれないが,改めて書いておく。
ここで, Q3 は第 3 四分位数, Q1 は第 1 四分位数である。要するに,四分位偏差は四分位範囲の半分である。この四分位数は四分位点とも呼ばれる。
中央値を利用したデータのバラツキ指標には,他にも中央絶対偏差 (median absolute deviation) がある。それについては,以下のページを参照。
2. 平均と標準偏差に対して,中央値と四分位偏差
まず,中央値と四分位数に対して,平均と標準偏差の関係を下記のように表すことができる。
- 第 1 四分位数,中央値,第 3 四分位数
- 平均 − 標準偏差,平均,平均 + 標準偏差
ここで言う対応関係は,同値であると言う意味ではなく,概念的に対応させると,どうなるか,という意味である。統計学的に厳密な話をするならば, μ とか, σ とかいった文字を使用するべきだろうが,ここは分かりやすさを優先した記述にする。
略号で簡潔に表すと,次の表 1 のようになる
ここで,(平均プラス標準偏差)と(平均マイナス標準偏差)の差を 2 で割ると,標準偏差になる。式で書いたほうが分かりやすい。
表 1 の対応関係を見ながら,同様な計算を四分位数におこなうと,それが四分位偏差であることが分かる。
ネット上などでは,四分位範囲をなぜ 2 で割るかとか,四分位偏差は役立たないとか,そういう発言も見られるが,標準偏差との対応関係で言えば,四分位数で表すバラツキの指標は四分位偏差である,と言える。
3. 四分位偏差は,どんなバラつきを表すのか?
正規分布や一様分布のように,左右対称の形状を持つ確率分布ならば,第 1 四分位数と第 3 四分位数の平均が中央値となる。
第 1 四分位数と第 3 四分位数の平均は,中央ヒンジ(midhinge)と呼ばれる,分布の位置の代表値でもある(例えば,英語版 Wikipedia midhinge 参照)。
上記の等式は,左右対称の分布でなければ成り立たないのだが,後述するように,左右対称分布であるかのように,あるいは,そう見なすような場合が少なくない。そのため私が,この式が一般的に成り立つかのような説明を,特に統計学に不慣れな人にしてしまい,混乱させてしまうことがあり,申し訳なく思っている。
その一方で,これは間違いだ,と指摘する人もいるが,それも極論であり,成り立つ場合と成り立たない場合がある,というのが正しい解釈であろう。
同様に不適切な説明が高校教科書にもある(あった),ということで,小林(2013)が批判している。参考文献は,末尾に一括して挙げたが,小林(2013)が例えば, p. 66 で取り上げたのは,新 高校の数学 Ⅰ (数研出版) 132 頁の記述で,四分位範囲,四分位偏差は,中央値のまわりのデータの散らばり具合を表す値
,という説明であった。
小林(2013)は,次のページ p. 67 で,四分位偏差は中央の 50% のデータがこれこれの範囲に入っている,というだけであり
,と批判している。他の教科書も含めて,同様な指摘がされているが,詳しくは,その論文を参照してほしい。
これは,四分位偏差は中央の 25%,または,四分位範囲は中央の 50% ,ということの誤記であろうが,「中央値のまわりの散らばり」と言いたい(言ってしまう?)教科書の気持ちも分かる。ここで,左右対称分布ならば,四分位範囲や四分位偏差が,中央値のまわりのデータの散らばりを表すとも言えるからである。
4. 四分位数による相対的なバラつきの指標
データ分布の位置の代表値に対する,相対的なバラつきの大きさの指標として,よく知られたものが変動係数(CV, coefficient of variation)であり,標準偏差を平均で割った値として表される。
これまで述べてきたように,これを四分位偏差 QD と中央値 Md を使って置き換えて,新たな相対的なバラつき指標 CQD を考えると,以下のようになる。
このとき,左右対称な分布を考えると,前述の中央ヒンジを使って,以下のように変形できる。
これを整理すると,以下のようになる。
この CQD は,四分位偏差係数(coefficient of quartile deviation)と呼ばれ,四分位数を使った変動係数と言えるものである。なお,「左右対称な分布を考えると」と述べたが,結果的には,左右非対称な分布であっても適用できる形になっている。しかし,当然であるが,非対称な分布の場合,分母に,中央値を使うか,中央ヒンジを使うかによって,四分位偏差係数の計算結果が異なる。
英語版 Wikipedia では, Quartile coefficient of dispersion という名称になっているが,私としては, dispersion より deviation を使う例のほうが多い気がする。
4. 四分位偏差がどのように使われるか
四分位偏差は役立たたない,という意見が,なぜかネット上で見られるが,学術論文では,しばしば使われるのも事実である。以下の文献の出典は,最後の参考文献にまとめて書いた。
例えば,阿部ほか (2014), p. 13 右段の結果の記述に,棒グラフは全被験者の中央値を表しており,エラーバーは四分位偏差を表している
,と書かれている。
内山・山内 (2010),p. 202,Table 3 の説明文に, Median ± Quartile deviation
と書かれている。
Dejima H. et al. (2017),冒頭の Abstract に, median ± quartile deviation
と書かれている。
四分位偏差係数についても, Geilert et al. (2020) の p. 8, Fig. 7,ケイ素同位体のグラフで, median fluid δ30Si value (error bar equals the coefficient of quartile deviation)
,つまり,中央値の上下に四分位偏差係数のエラーバーを付けている。
要するに,中央値を挟んだ上下の範囲が四分位範囲,という表現になっている。つまり,第 1 四分位数と第 3 四分位数の平均が中央値となる,という表現なのである。
もちろん,これは左右対称な分布でないと成立しない性質である。しかし,特にそれに触れることなく四分位偏差が使われている。逆に言えば,そのような条件が成り立つ,あるいは,そう見なせるときこそ,簡潔にデータ分布の範囲を示すのに,四分位偏差が有用である,と私は思っている。
ロバスト z スコアを用いた標準化も,標準正規分布の平均の両側 50% を四分位範囲に対応させて計算するので,基本的には,左右対称に近い(外れ値があるが),という条件で適用したほうが良いと思われる。
5. 岡谷市の蛇紋岩
全く統計とは関係ないが,前述の Geilert et al. (2020) 論文で研究されているのは,マリアナ前弧の蛇紋岩(serpentinite)である。この蛇紋岩という岩石は,岡谷市の横川川上流域でも露出が見られ,その黄色の模様ゆえに,昔から「きなこ石」として親しまれてきた。この機会に紹介しておこう。
関連ページ
ロバストzスコア:中央値と四分位数で,非正規分布,外れ値を含む標準化
参考文献
阿部誠・新沼大樹・吉澤誠・杉田典大・本間経康・山家智之・仁田新一 (2014) 生理的指標を用いた3次元映像の生体影響評価における心理的影響の変化. 生体医工学 52(1): 11-17.
Dejima, H., Takahashi, Y., Hato, T., Seto, K., Mizuno, T., Kuroda, H., Sakakura N., Kawamura, M., and Sakao, Y. (2017) Mediastinal pulmonary artery is associated with greater artery diameter and lingular division volume. Scientific reports 7(1); 1-9.
Geilert, S., Grasse, P., Wallmann, K., Liebetrau, V., and Menzies, C. D. (2020) Serpentine alteration as source of high dissolved silicon and elevated δ30Si values to the marine Si cycle. Nature communications 11(1): 1-11.
小林道正 (2013) データ分析における「箱ひげ図」の誤解 — 高校教科書における多数の誤り —. 中央大学論集 34: 57-68.
内山敏聡・山内龍男 (2010) 紙における墨のにじみとその評価. 繊維学会誌 66(8): 199-203.