無作為抽出
出典: フリー百科事典『ウィキペディア(Wikipedia)』
ランダムサンプリング(random sampling: 無作為標本抽出)とは調査対象をある母集団(調査対象の全体)からランダム(無作為)に標本抽出(サンプリング)するという事を意味している。
例えば、ある小学校の生徒全員にコインを投げてもらい(ランダム)、表の人だけを調査対象にする(サンプリング)という事である。
無作為とは、人為的な制約を設けず、まったくの偶然によって決める事で、サイコロの目などが該当する。リストから10人ごとに選ぶという場合は系統抽出法と呼び、無作為ではない。
ランダムサンプリングは推測統計学の数学的な研究から、全体のごく一部を調べるだけで、大きな母集団の正確な情報がつかめるという事が実験的にも、理論的にも証明されている。そして、その実用性から様々な調査の基本になっている。
例えば、正確に行う事で、無作為に3000人程度を調べる事で日本人1億3千万人の男女比も正確に分かる。ここで無作為以外の場合は、正確な数字と証明が出来ないので、全てのサンプル(標本)調査は理論的にランダムサンプリングによっている。又、その数字は、社会調査では数百人から数千サンプル程度が実用的によく使われる。
標本調査は、しばしば全数調査にかわって行なわるが、主として、下記の理由による。
- 全数調査の実施が困難、又はコストやスケジュールが成果に対して過大と見積もられる。
- ランダムサンプリングを行なえば、標本調査の結果から、標本を抜き出すもとの集団(=母集団)における有益な情報(平均値や比率など)が推定出来る。
- この母集団の推定値(=母数)は、確率サンプリングが行なわれていれば、統計学の知識から、その誤差の大きさを見積もる事が出来る。
この推測統計学を創始したとされるR.A.フィッシャーは、イギリスの農事試験所に14年間勤め、この時期に分散分析法を完成させた。差の有無などの検証にもランダムサンプリングが理論的前提となった様々な手法が使われる。
ただ完全な無作為調査は費用や現実性から難しい場合も多い。特に対象の全体(母集団)を自由に選択するリストを手に入れるのは困難である。
その結果、次善の方法として多段抽出法やRDD法など様々な実施方法が完全なランダムサンプリングの代わりとして実用されている。
[編集] ランダムサンプリングと見なせない例
インターネットのモニターによる市場調査は、調査対象とする母集団からのランダムサンプリングとは、明らかにみなせないので、母集団への推測が適用は困難である。例えば、インターネットによる自発記入のアンケートの場合、1)インターネットを利用できる環境にある人、2)アンケートに関心を示した人、のようにサンプル自体に偏りが生じる。この種の調査は高感度調査と呼ばれる事もある。無作為抽出に基づく調査とは目的が異なっており、また、調査結果も大きく異なったものになる場合がある。