ロバストzスコア:中央値と四分位数で,非正規分布,外れ値を含む標準化
井口豊(生物科学研究所,長野県岡谷市)
最終更新: 2024 年 12 月 9 日
PDF version
DOI: 10.5281/zenodo.14336057
1. 標準化とは
統計学で最もよく知られた標準化あるいは基準化は,確率変数 X を平均 0,標準偏差 1 となるように変数変換することである。変換された確率変数を z で表すと以下のようになる。
この z は,標準スコアあるいは z スコア と呼ばれることもある。
一般的には,平均 μ,標準偏差 σ の正規分布に従う確率変数 X に対して標準化が行われ, z は μ = 0,σ = 1 の標準正規分布 N(0, 1) に従う確率変数となる。ただし,正規分布以外でも,標準化は行われる。
2. 中央値と四分位数を用いた標準化
平均と標準偏差を用いた標準化は良く知られているが, 中央値と四分位数を用いた標準化は馴染みが薄い。それについて,間単に説明しよう。なお,四捨五入の誤差があるため,以下の等式では,両辺の数値が必ずしも一致しない場合もあるので,正確を期すためには,各自で実際に計算してほしい。
まず,第 3 四分位数 Q3 (75 %点)から第 1 四分位数 Q1 (25 %点)を引いた値を四分位範囲(interquartile range, IQR)と言う。
この計算を,標準正規分布の確率変数に対応させると 1.3489 となる。すなわち z の確率分布関数を F(z) とすると,次のようになる。
これは EXCEL 関数でも,次のように求められる。
NORMSINV(0.75) − NORMSINV(0.25)
= 0.6744 − (− 0.6744)
= 1.3489
要するに,標準正規分布の平均 μ と標準偏差 σ を使って,四分位数を以下のように置き換えているのである。
ここで, μ = 0,σ = 1 である。標準偏差と四分位偏差の対応関係については,末尾に挙げた関連サイト参照。
そして, IQR を正規分布と関係付けるために,この 1.3489 で割る。これを,正規四分位範囲(normalized IQR, NIQR)と言う。
各種文献では,割った形でなく,逆数をかけた後者の形で示されることが多い。
NIQR の定義は,四分位偏差 QD (= IQR/2) を使って,以下のように書き直すこともできる。
\[ NIQR=\frac{QD}{0.6744} \]最後に,測定値を Xi,中央値(メディアン)を Xm とすると,冒頭で述べた確率変数の標準化に類似して,z が以下のように定義される。
\[ z=\frac{X_i-X_m}{NIQR} \]あるいは,これを四分位偏差 QD を使って,以下のようにも表せる。
\[ z=\frac{X_i-X_m}{\frac{QD}{0.6744}} \]この z を,ロバスト z スコア (robust z score) と呼ぶ。
つまり,平均を中央値に,標準偏差を標準正規分布に対応させた四分位範囲(あるいは四分位偏差)に変換した z スコアということになる。
3. ロバスト z スコアの利点と利用分野
ロバスト z スコアを使う利点は以下の通りである。
- 中央値は,分布の位置の代表値として,分布形に影響されない。
- 四分位範囲あるいは四分位偏差は,バラツキの統計量として,分布両端の外れ値に影響されない。
つまり,非正規分布のデータの標準化に,ロバスト z スコアが使えるのである。また, 2 に関して, NIQR は外れ値を切り取ったトリム標準偏差 (trimmed standard deviation) と言える。
ロバスト z スコアは,食品化学の分野で,成分分析に使われることがある。例えば,次の論文 p.997 左段を参照。
Puwastien, P. (2002)
Issues in the development and use of food composition databases
Public health nutrition, 5(6a): 991-999.
ロバスト z スコアの式は,日本語文献なら,例えば,以下の p. 366 式(4)も参照。
保母敏行ほか(2008)
日本分析化学会における標準物質の開発
分析化学,57(6), 363-392.
なお, 四分位数には複数の定義があるので,その点は注意すべきである。それに関しては,以下の関連サイト参照。
関連サイト
四分位数と四分位群:複数定義と用語の区別,その歴史
DOI: 10.5281/zenodo.13889521
四分位偏差は,どのように使われるか?変動係数の話題も含めて
四分位偏差とは何か: 変動係数と長野県岡谷市「きなこ石」 の話題も含めて
DOI: 10.5281/zenodo.14328888