logo
生物科学研究所 井口研究室
Laboratory of Biology, Okaya, Nagano, Japan
Home

四分位偏差は,どのように使われるか?変動係数の話題も含めて

井口豊(生物科学研究所,長野県岡谷市)
最終更新:2024 年 2 月 6 日

1. 四分位偏差

四分位偏差(quartile deviation)は,略して QD とも呼ばれ,その定義式を述べる必要ないかもしれないが,改めて書いておく。

QD = (Q3 - Q1)/2

ここで, Q3 は第 3 四分位数, Q1 は第 1 四分位数である。要するに,四分位偏差は四分位範囲の半分である。この四分位数は四分位点とも呼ばれる。

中央値を利用したデータのバラツキ指標には,他にも中央絶対偏差 (median absolute deviation) がある。それについては,以下のページを参照。

  • 中央値と平均の効果量: Mangiafico's d and Cohen's d
  • 2. 平均と標準偏差に対して,中央値と四分位偏差

    まず,中央値と四分位数に対して,平均と標準偏差の関係を下記のように表すことができる。

    ここで言う対応関係は,同値であると言う意味ではなく,概念的に対応させると,どうなるか,という意味である。統計学的に厳密な話をするならば, μ とか, σ とかいった文字を使用するべきだろうが,ここは分かりやすさを優先した記述にする。

    略号で簡潔に表すと,次の表 1 のようになる

    表 1. 中央値と四分位数に対する,平均と標準偏差の関係
    中央値,四分位数,平均,標準偏差の関係

    ここで,(平均プラス標準偏差)と(平均マイナス標準偏差)の差を 2 で割ると,標準偏差になる。式で書いたほうが分かりやすい。

    SD=((M+SD)-(M-SD))/2

    表 1 の対応関係を見ながら,同様な計算を四分位数におこなうと,それが四分位偏差であることが分かる。

    QD=(Q3-Q1)/2

    ネット上などでは,四分位範囲をなぜ 2 で割るかとか,四分位偏差は役立たないとか,そういう発言も見られるが,標準偏差との対応関係で言えば,四分位数で表すバラツキの指標は四分位偏差である,と言える。

    3. 四分位偏差は,どんなバラつきを表すのか?

    正規分布や一様分布のように,左右対称の形状を持つ確率分布ならば,第 1 四分位数と第 3 四分位数の平均が中央値となる。

    Md=(Q1+Q3)/2

    第 1 四分位数と第 3 四分位数の平均は,中央ヒンジ(midhinge)と呼ばれる,分布の位置の代表値でもある(例えば,英語版 Wikipedia midhinge 参照)。

    上記の等式は,左右対称の分布でなければ成り立たないのだが,後述するように,左右対称分布であるかのように,あるいは,そう見なすような場合が少なくない。そのため私が,この式が一般的に成り立つかのような説明を,特に統計学に不慣れな人にしてしまい,混乱させてしまうことがあり,申し訳なく思っている。

    その一方で,これは間違いだ,と指摘する人もいるが,それも極論であり,成り立つ場合と成り立たない場合がある,というのが正しい解釈であろう。

    同様に不適切な説明が高校教科書にもある(あった),ということで,小林(2013)が批判している。参考文献は,末尾に一括して挙げたが,小林(2013)が例えば, p. 66 で取り上げたのは,新 高校の数学 Ⅰ (数研出版) 132 頁の記述で,四分位範囲,四分位偏差は,中央値のまわりのデータの散らばり具合を表す値,という説明であった。

    小林(2013)は,次のページ p. 67 で,四分位偏差は中央の 50% のデータがこれこれの範囲に入っている,というだけであり,と批判している。他の教科書も含めて,同様な指摘がされているが,詳しくは,その論文を参照してほしい。

    これは,四分位偏差は中央の 25%,または,四分位範囲は中央の 50% ,ということの誤記であろうが,「中央値のまわりの散らばり」と言いたい(言ってしまう?)教科書の気持ちも分かる。ここで,左右対称分布ならば,四分位範囲や四分位偏差が,中央値のまわりのデータの散らばりを表すとも言えるからである。

    4. 四分位数による相対的なバラつきの指標

    データ分布の位置の代表値に対する,相対的なバラつきの大きさの指標として,よく知られたものが変動係数(CV, coefficient of variation)であり,標準偏差を平均で割った値として表される。

    CV = SD/M

    これまで述べてきたように,これを四分位偏差 QD と中央値 Md を使って置き換えて,新たな相対的なバラつき指標 CQD を考えると,以下のようになる。

    CQD = QD/Md

    このとき,左右対称な分布を考えると,前述の中央ヒンジを使って,以下のように変形できる。

    CQD = ((Q3-Q1)/2)/((Q3+Q1)/2)

    これを整理すると,以下のようになる。

    CQD = (Q3-Q1)/(Q3+Q1)

    この CQD は,四分位偏差係数(coefficient of quartile deviation)と呼ばれ,四分位数を使った変動係数と言えるものである。なお,「左右対称な分布を考えると」と述べたが,結果的には,左右非対称な分布であっても適用できる形になっている。しかし,当然であるが,非対称な分布の場合,分母に,中央値を使うか,中央ヒンジを使うかによって,四分位偏差係数の計算結果が異なる

    英語版 Wikipedia では, Quartile coefficient of dispersion という名称になっているが,私としては, dispersion より deviation を使う例のほうが多い気がする。

    4. 四分位偏差がどのように使われるか

    四分位偏差は役立たたない,という意見が,なぜかネット上で見られるが,学術論文では,しばしば使われるのも事実である。以下の文献の出典は,最後の参考文献にまとめて書いた。

    例えば,阿部ほか (2014), p. 13 右段の結果の記述に,棒グラフは全被験者の中央値を表しており,エラーバーは四分位偏差を表している,と書かれている。

    内山・山内 (2010),p. 202,Table 3 の説明文に, Median ± Quartile deviation と書かれている。

    Dejima H. et al. (2017),冒頭の Abstract に, median ± quartile deviation と書かれている。

    四分位偏差係数についても, Geilert et al. (2020) の p. 8, Fig. 7,ケイ素同位体のグラフで, median fluid δ30Si value (error bar equals the coefficient of quartile deviation),つまり,中央値の上下に四分位偏差係数のエラーバーを付けている。

    要するに,中央値を挟んだ上下の範囲が四分位範囲,という表現になっている。つまり,第 1 四分位数と第 3 四分位数の平均が中央値となる,という表現なのである。

    もちろん,これは左右対称な分布でないと成立しない性質である。しかし,特にそれに触れることなく四分位偏差が使われている。逆に言えば,そのような条件が成り立つ,あるいは,そう見なせるときこそ,簡潔にデータ分布の範囲を示すのに,四分位偏差が有用である,と私は思っている。

    ロバスト z スコアを用いた標準化も,標準正規分布の平均の両側 50% を四分位範囲に対応させて計算するので,基本的には,左右対称に近い(外れ値があるが),という条件で適用したほうが良いと思われる。

    5. 岡谷市の蛇紋岩

    全く統計とは関係ないが,前述の Geilert et al. (2020) 論文で研究されているのは,マリアナ前弧の蛇紋岩(serpentinite)である。この蛇紋岩という岩石は,岡谷市の横川川上流域でも露出が見られ,その黄色の模様ゆえに,昔から「きなこ石」として親しまれてきた。この機会に紹介しておこう。

    図 1. 岡谷市横川川から産出した蛇紋岩,いわゆる,きなこ石
    岡谷市横川川の蛇紋岩,きなこ石

    関連ページ

    ロバストzスコア:中央値と四分位数で,非正規分布,外れ値を含む標準化

    四分位数と四分位群:複数定義と用語の区別,その歴史

    参考文献

    阿部誠・新沼大樹・吉澤誠・杉田典大・本間経康・山家智之・仁田新一 (2014) 生理的指標を用いた3次元映像の生体影響評価における心理的影響の変化. 生体医工学 52(1): 11-17.

    Dejima, H., Takahashi, Y., Hato, T., Seto, K., Mizuno, T., Kuroda, H., Sakakura N., Kawamura, M., and Sakao, Y. (2017) Mediastinal pulmonary artery is associated with greater artery diameter and lingular division volume. Scientific reports 7(1); 1-9.

    Geilert, S., Grasse, P., Wallmann, K., Liebetrau, V., and Menzies, C. D. (2020) Serpentine alteration as source of high dissolved silicon and elevated δ30Si values to the marine Si cycle. Nature communications 11(1): 1-11.

    小林道正 (2013) データ分析における「箱ひげ図」の誤解 — 高校教科書における多数の誤り —. 中央大学論集 34: 57-68.

    内山敏聡・山内龍男 (2010) 紙における墨のにじみとその評価. 繊維学会誌 66(8): 199-203.

    Home