logo
生物科学研究所 井口研究室
Laboratory of Biology, Okaya, Nagano, Japan
Home

ロバストzスコア:中央値と四分位数で,非正規分布,外れ値を含む標準化

井口豊(生物科学研究所,長野県岡谷市)
最終更新:2018年11月12日

ここに述べる ロバスト z スコア(robust z score)は,食品化学の分野で,成分分析に使われることがある。例えば,次の論文 p.997 左段を参照。

Puwastien, P. (2002)
Issues in the development and use of food composition databases
Public health nutrition, 5(6a): 991-999.

ロバスト z スコアの式は,日本語文献なら,例えば,以下の p. 366 式(4)も参照。

保母敏行ほか(2008)
日本分析化学会における標準物質の開発
分析化学,57(6), 363-392.

統計学において,平均 μ,標準偏差 σ の正規分布に従う確率変数 X に対して,以下のような標準化あるいは基準化という変換が,しばしば用いられる。

標準化 Z スコア

この確率変数 z は,平均 0,分散 1 の標準正規分布に従うことから,こう呼ばれる。このように,平均と標準偏差を用いた標準化は良く知られているが, 中央値と四分位を用いた標準化は馴染みが薄い。それについて,間単に説明しよう。なお,四捨五入の誤差があるため,以下の等式では,両辺の数値が必ずしも一致しない場合もあるので,正確を期すためには,各自で実際に計算してほしい。

まず,第 3 四分位数(75 %点)から第 1 四分位数(25 %点)を引いた値を四分位範囲(interquartile range, IQR)と言う。

この計算を,標準正規分布の確率変数に対応させると,1.3489 となる。すなわち, z の確率分布関数を F(z) とすると,次のようになる。

F(0.75) - F(0.25) = 1.3489

これは EXCEL 関数でも,次のように求められる。

NORMSINV(0.75) - NORMSINV(0.25) = 0.6744 - (- 0.6744) = 1.3489

そして, IQR を正規分布と関係付けるために,この 1.3489 で割る。これを,正規四分位範囲(normalised IQR, NIQR)と言う。

すなわち,
NIQR = IQR / 1.3489 = IQR * 0.7413

各種文献では,割った形でなく,逆数をかけた後者の形で示されることが多い。

最後に,測定値を Xi,中央値(メディアン)を Xm とすると,冒頭で述べた確率変数の標準化に類似して,z が以下のように定義される。

ロバスト z スコア

この z を,しばしばロバスト z スコアと呼ぶ。

つまり,平均を中央値に,標準偏差を標準正規分布に対応させた四分位範囲に変換したことになる。

ロバスト z スコアを使う利点は以下の通りである。

  1. 中央値は,分布の代表値として,分布形に影響されない。
  2. 四分位は,バラツキの統計量として,分布両端の外れ値に影響されない。

つまり,非正規分布のデータの標準化に,ロバスト z スコアが使えるのである。また, 2 に関して, NIQR は外れ値を切り取ったトリム標準偏差と言える。

なお, 四分位数には複数の定義があるので,その点は注意すべきである。別ページの解説参照,四分位数と四分位群:複数定義と用語の区別,その歴史

Home