logo
生物科学研究所 井口研究室
Laboratory of Biology, Okaya, Nagano, Japan
Home

四分位偏差は,どのように使われるか?変動係数の話題も含めて

井口豊(生物科学研究所,長野県岡谷市)
最終更新:2024 年 12 月 9 日

PDF version
四分位偏差とは何か: 変動係数と長野県岡谷市「きなこ石」 の話題も含めて
DOI: 10.5281/zenodo.14328888

1. 四分位偏差

四分位偏差(QD, quartile deviation)は,統計データのバラツキ指標の一つであり,四分位数(Quartile)を用いて,以下のように表される。

QD=Q3Q12

ここで, Q3 は第 3 四分位数, Q1 は第 1 四分位数である。要するに,四分位偏差は四分位範囲の半分である。この四分位数は四分位点とも呼ばれる。

中央値を利用したデータのバラツキ指標には,他にも中央絶対偏差 (median absolute deviation) がある。それについては,末尾の関連サイトを参照してほしい。

2. 平均と標準偏差に対して,中央値と四分位偏差

中央値と四分位数に対応して,平均と標準偏差の関係を下記のように表すことができる。

ここで言う対応関係は,同値であると言う意味ではなく,概念的に対応させると,どうなるか,という意味である。統計学的に厳密な話をするならば, μ とか, σ とかいった文字を使用するべきだろうが,ここは分かりやすさを優先した記述にする。

略号で簡潔に表すと,次の表 1 のようになる

表 1. 中央値と四分位数に対する平均と標準偏差の関係
中央値と四分位数 Q1 Md Q3
平均と標準偏差 MSD M M + SD

ここで,(平均プラス標準偏差)と(平均マイナス標準偏差)の差を 2 で割ると,標準偏差になる。式で書いたほうが分かりやすい。

SD=(M+SD)(MSD)2

表 1 の対応関係を見ながら,同様な計算を四分位数におこなうと,それが四分位偏差であることが分かる。

QD=Q3Q12

ネット上などでは,四分位範囲をなぜ 2 で割るかとか,四分位偏差は役立たないとか,そういう発言も見られるが,標準偏差との対応関係で言えば,四分位数で表すバラツキの指標は四分位偏差である,と言える。

3. 四分位偏差は,どんなバラつきを表すのか?

正規分布や一様分布のように,左右対称の形状を持つ確率分布ならば,第 1 四分位数と第 3 四分位数の平均が中央値となる。

Md=Q1+Q32

第 1 四分位数と第 3 四分位数の平均は,中央ヒンジ(midhinge)と呼ばれる,分布の位置の代表値でもある(例えば,英語版 Wikipedia midhinge 参照)。

上記の等式は,左右対称の分布でなければ成り立たないのだが,後述するように,左右対称分布であるかのように,あるいは,そう見なすような場合が少なくない。そのため私が,この式が一般的に成り立つかのような説明を,特に統計学に不慣れな人にしてしまい,混乱させてしまうことがあり,申し訳なく思っている。

その一方で,これは間違いだ,と指摘する人もいるが,それも極論であり,成り立つ場合と成り立たない場合がある,というのが正しい解釈であろう。

同様に不適切な説明が高校教科書にもある(あった),ということで,小林(2013)が批判している。参考文献は,末尾に一括して挙げたが,小林(2013)が例えば, p. 66 で取り上げたのは,新 高校の数学 Ⅰ (数研出版) 132 頁の記述で,四分位範囲,四分位偏差は,中央値のまわりのデータの散らばり具合を表す値,という説明であった。

小林(2013)は,次のページ p. 67 で,四分位偏差は中央の 50% のデータがこれこれの範囲に入っている,というだけであり,と批判している。他の教科書も含めて,同様な指摘がされているが,詳しくは,その論文を参照してほしい。

これは,四分位偏差は中央の 25%,または,四分位範囲は中央の 50% ,ということの誤記であろうが,「中央値のまわりの散らばり」と言いたい(言ってしまう?)教科書の気持ちも分かる。ここで,左右対称分布ならば,四分位範囲や四分位偏差が,中央値のまわりのデータの散らばりを表すとも言えるからである。

4. 四分位数による相対的なバラつきの指標

データ分布の位置の代表値に対する,相対的なバラつきの大きさの指標として,よく知られたものが変動係数(CV, coefficient of variation)であり,標準偏差を平均で割った値として表される。

CV=SDM

これまで述べてきたように,これを四分位偏差 QD と中央値 Md を使って置き換えて,新たな相対的なバラつき指標 CQD を考えると,以下のようになる。

CQD=QDMd

このとき,左右対称な分布を考えると,前述の中央ヒンジを使って,以下のように変形できる。

CQD=Q3Q12Q3+Q12

これを整理すると,以下のようになる。

CQD=Q3Q1Q3+Q1

この CQD は,四分位偏差係数(coefficient of quartile deviation)と呼ばれ,四分位数を使った変動係数と言えるものである。なお,「左右対称な分布を考えると」と述べたが,結果的には,左右非対称な分布であっても適用できる形になっている。しかし,当然であるが,非対称な分布の場合,分母に,中央値を使うか,中央ヒンジを使うかによって,四分位偏差係数の計算結果が異なる

英語版 Wikipedia では, Quartile coefficient of dispersion という名称になっているが,私としては, dispersion より deviation を使う例のほうが多い気がする。

4. 四分位偏差がどのように使われるか

四分位偏差は,学術論文でもしばしば使われる。文献の出典は,最後の参考文献にまとめてある。

例えば,阿部ほか (2014) では, p. 13 右段の結果の記述に,棒グラフは全被験者の中央値を表しており,エラーバーは四分位偏差を表している,と書かれている。

内山・山内 (2010) では, p. 202,Table 3 の説明文に, Median ± Quartile deviation と書かれている。

Dejima H. et al. (2017) 冒頭の Abstract に, median ± quartile deviation と書かれている。

四分位偏差係数についても, Geilert et al. (2020) の p. 8, Fig. 7,ケイ素同位体のグラフで, median fluid δ30Si value (error bar equals the coefficient of quartile deviation),つまり,中央値の上下に四分位偏差係数のエラーバーを付けている。

要するに,中央値を挟んだ上下の範囲が四分位範囲,という表現になっている。つまり,第 1 四分位数と第 3 四分位数の平均が中央値となる,という表現なのである。

もちろん,これは左右対称な分布でないと成立しない性質である。しかし,特にそれに触れることなく四分位偏差が使われている。逆に言えば,そのような条件が成り立つ,あるいは,そう見なせるときこそ,簡潔にデータ分布の範囲を示すのに,四分位偏差が有用である,と私は思っている。

ロバスト z スコアを用いた標準化も,標準正規分布の平均の両側 50% を四分位範囲に対応させて計算するので,基本的には,左右対称に近い(外れ値があるが),という条件で適用したほうが良いと思われる。

5. 中央構造線に関連した岡谷市の蛇紋岩

全く統計とは関係ないが,前述の Geilert et al. (2020) 論文で研究されているのは,マリアナ前弧の蛇紋岩(serpentinite)である。この蛇紋岩という岩石は,岡谷市の横河川上流域で,中央構造線に相当すると考えられる横河川断層に沿って露出が見られ(吉野,1976),その黄色の模様ゆえに,昔から「きなこ石」として親しまれてきた。この機会に紹介しておこう。

岡谷市横河川の蛇紋岩,きなこ石
図 1. 岡谷市横河川から産出した蛇紋岩,いわゆる,きなこ石

関連サイト

中央値と平均の効果量: Mangiafico's d and Cohen's d

ロバストzスコア:中央値と四分位数で,非正規分布,外れ値を含む標準化
DOI: 10.5281/zenodo.14336057

四分位数と四分位群:複数定義と用語の区別,その歴史
DOI: 10.5281/zenodo.13889521

参考文献

阿部誠・新沼大樹・吉澤誠・杉田典大・本間経康・山家智之・仁田新一 (2014) 生理的指標を用いた3次元映像の生体影響評価における心理的影響の変化. 生体医工学 52(1): 11-17.

Dejima, H., Takahashi, Y., Hato, T., Seto, K., Mizuno, T., Kuroda, H., Sakakura N., Kawamura, M., and Sakao, Y. (2017) Mediastinal pulmonary artery is associated with greater artery diameter and lingular division volume. Scientific reports 7(1); 1-9.

Geilert, S., Grasse, P., Wallmann, K., Liebetrau, V., and Menzies, C. D. (2020) Serpentine alteration as source of high dissolved silicon and elevated δ30Si values to the marine Si cycle. Nature communications 11(1): 1-11.

小林道正 (2013) データ分析における「箱ひげ図」の誤解 — 高校教科書における多数の誤り —. 中央大学論集 34: 57-68.

内山敏聡・山内龍男 (2010) 紙における墨のにじみとその評価. 繊維学会誌 66(8): 199-203.

吉野博厚 (1976) 諏訪湖北方および南方の中央構造線: 特に中新世以後の活動について. 地質学論集, 61-72.

Home