分位数
出典: フリー百科事典『ウィキペディア(Wikipedia)』
分位数(ぶんいすう)、分位点(ぶんいてん)、分位値(ぶんいち)、クォンタイル (quantile) は、統計の代表値の1種である。
実数 に対し、q 分位数 (q-quantile) は、分布を
に分割する値である。
ある種の正の整数 m に対し、分布を m 等分する m − 1 個の値、つまり、 に対する i / m 分位数を、m 分位数(ただし m は漢数字)という。
番目の m 分位数を第 i m 分位数といい、また、m 等分された分布の
番目の部分を、第 k m 分位、または単に第 k 分位という。
目次 |
[編集] 定義
[編集] 変量統計における分位数
n 個のデータ x に対する q 分位数 Qq は、昇順にソートしたデータを とすると、
と定義される。ここで、 は床関数、
は天井関数、
は自然数の集合である。
関数 は、数列
の線形補間による実数関数への拡張である。関数
の引数 1 − q + qn は、範囲 [1,n] を
に内分している。
[編集] 確率分布の分位数
1次元確率分布 に対する q 分位数 Qq は、
を満たす値として定義される。この式は、累積密度関数 Φ(x) または確率 P(X) を使って、
または
とも表せる。
[編集] 特別な分位数
いくつかの q に対する q 分位数には、特別な名称がある。
[編集] 中央値
- 詳細は中央値を参照
1 / 2 分位数を、中央値、メディアン (median)という。中央値は、平均値に代わり、分布を代表する値として使われる。
[編集] 四分位数
q / 4 分位数を、第 q 四分位数、第 q 四分位点、第 q 四分位値、第 q ヒンジ (quartile, hinge) という。1 / 4 分位数(第1四分位数)を下側四分位数、3 / 4 分位数(第3四分位数)を上側四分位数ともいう。
単に四分位数といったばあい、第1・第3四分位数を表す。第2四分位数は中央値である。これらは、分布のばらつきを表すのに使われる。
第1・第3四分位数の差 は、四分位数範囲 (IQR) といい、分布のばらつきの代表値である。分布の代表値として平均値の代わりに中央値を使うときは、IQRを標準偏差や分散の代わりに使う。中央値同様、頑強で、外れ値や極端に広い裾野の影響を受けにくい。
IQR / 2 を四分位数偏差、 を正規四分位数範囲といい、IQRの代わりに使うことがある。ここで、
は、標準正規分布のIQRである。正規分布の正規四分位数範囲は、標準偏差に等しい。なお一般には、係数0.7413が近似値に使われることが多い。
[編集] 三分位数・五分位数・十分位数
q / 3 分位数を、第 q 三分位数、第 q 三分位点、第 q 三分位値 (tertile) という。
q / 5 分位数を、第 q 五分位数、第 q 五分位点、第 q 五分位値 (quintile) という。
q / 10 分位数を、第 q 十分位数、第 q 十分位点、第 q 十分位値 (decile) という。
[編集] パーセンタイル
q / 100 分位数を、q パーセンタイル、(第)q 百分位数、(第)q 百分位点、(第)q 百分位値、q パーセント点、q %点 (percentile) という。
1 − q / 100 分位数を上側 q パーセント点という。これと対比するときには、q / 100 分位数は下側 q パーセント点という。また、平均が0の対称分布に対し、1 / 2 + q / 200 分位数を両側 q パーセント点という。このとき、絶対値が両側 q パーセント点以内に、分布の q %が含まれている。
[編集] 最大値・最小値
[編集] 五数要約
- 詳細は箱ひげ図を参照
分布の特徴を最大値、最小値、中央値、第1・第3四分位数の5つの値、つまり、0, 0.25, 0.5, 0.75, 1分位数で要約することを、五数要約という。五数要約は、しばしば箱ひげ図で図示される。