箱ひげ図
出典: フリー百科事典『ウィキペディア(Wikipedia)』
箱ひげ図(箱髭図、はこひげず)とは、ばらつきのあるデータをわかりやすく表現するための統計学的グラフである。様々な分野で利用されるが、特に品質管理で盛んに用いられる。細長い箱と、その両側に出たひげで表現されることからこの名がある。
一般的には(ジョン・テューキーの方式)、重要な5種の要約統計量である、最小値、第1四分位点、中央値、第3四分位点と最大値を表現する。母集団は実際には様々なタイプの確率分布に従うわけだが、箱ひげ図はそのような仮定に関係なく、データの分布を表現することができる。箱の各部分の間隔から分散や歪度の程度、また外れ値(これは後述のように箱ひげ図の方式により異なる)を知ることもできる。
以下に箱ひげ図の具体例を示す:
+-----+-+ * o |-------| + | |---| +-----+-+ +---+---+---+---+---+---+---+---+---+---+ number line 0 1 2 3 4 5 6 7 8 9 10
このデータセット(値は図から読み取れる概略値とする)から、次のことがわかる:
- 最小値(min) = 5。
- 第1四分位点(Q1) = 7。
- 中央値(第2四分位点、Med) = 8.5。
- 第3四分位点(Q3) = 9。
- 最大値(max) = 10。
- 平均値 = 8。
- IQR(interquartile range) = Q3 − Q1 = 2
- 3.5という値は"軽度の"外れ値、つまりQ1よりも 1.5×IQR から 3×IQR だけ下にある。
- 0.5という値は"極端な"外れ値、つまりQ1よりも 3×IQR 以上下にある。
- 外れ値以外の最小値は5。
- データは左に歪んでいる(負の歪度)。
横線(ひげ)は箱のどちらか(または両方)の端から、最大で箱の長さ(第1-第3四分位点間)の1.5倍しかない。ひげはすべての観測値(ただし箱から箱の長さの1.5倍よりも離れている値、つまり外れ値を除く)をつないだものである。"軽度"および"極端"外れ値の境は、箱の長さの2倍の点である。
なお、いろいろな統計パッケージで使われている箱ひげ図の中には、違う方式(例えば5%点と95%点をひげの末端にする)を採用したものもある。このような方式は、中央値を中心とする分布を強調するテューキーの方式と異なり、またデータサイズが10を越えただけで(分布の形によらず)外れ値を出してしまう傾向がある。