重回帰分析
出典: フリー百科事典『ウィキペディア(Wikipedia)』
重回帰分析(じゅうかいきぶんせき)は統計手法の一つ。回帰分析の独立変数が複数になったもので、多変量解析ではもっともポピュラーな手法である。適切な変数を複数選択することで、計算しやすく誤差の少ない予測式を作れるところが利点である。
[編集] 例
中学生を調査して調査結果を重回帰分析したところ 下の式が得られたとする。
- 中学で勉強した時間数 * 3 + 小学生の時代の塾の学習時間数 * 5 + 20 = 知っている英単語の数
この場合 Aさんが中学で100時間、小学生時代20時間勉強していたら 100*3 + 20*5 +20 = 英単語420語 をしっているという計算になる。中学で1時間勉強すると平均的には3単語を覚えているという解釈ができるわけだ。
ここで、*3とか*5という数字を重回帰分析で計算・算出するのだがあくまで平均的な値なので実際はそこからずれることになる。たとえばAさんの英単語数は420語ではなく、実際には450語かもしれない。ただ全体の平均を取ると3や5という値をとると全体がもっともよく説明できるということから出てきた数字になる。
また英単語数をきめるのが勉強時間だという関係は、分析者が自分で決めるため絶対的なものではない。あくまで勉強時間が独立変数(説明変数)だと決め付けて分析しているわけである。
[編集] 説明変数の独立性
独立変数(説明変数)を選択する際、マーケティングやアンケートでよく使う一般的な重回帰の場合、複数の説明変数同士は無相関という仮定が入っている。なので、説明変数同士が関連性の高いものを使うと係数が妙な値になることがあるので注意する必要がある。
例えば、小学校での定期テスト得点から重回帰で分析する場合に 理科の点数を従属変数に、数学と国語を説明変数にした場合、数学が増えると理科の点数が増え、国語の点数が高ければ理科の点数が減るといった意味の係数が出ることがある。
これは数学と国語の点数に強い相関が両者にあるからである。 なぜなら、「勉強習慣という子供の行動パターン」という共通の原因があるからだ。この場合の用に説明変数間の相関が高い場合問題が発生する場合がある。マルチコとよばれたりもする。
実務的対応としては数学と国語の平均点と、数学と国語の得点の差というように和と差に数字を加工すると、この二つは相関がたいてい低く、かつ解釈しやすい。数学と国語の得点の差は、数学の方が高い生徒の方が理科の点数が高い傾向があるというように理解できるからだ。
また、説明変数を増やすと適切な因果関係ではなく、数学上の理由で、データの説明力が上がるので注意する必要がある。特に数十のデータで、十個ほどの説明変数を設定することはかなり問題があるので、変数の組み合わせは、意味と統計的な重要性を考えながら最小限にすることが重要である。
ちなみに一般的によく使われている最小二乗法、線形モデルの重回帰は、数学的には線形分析の一種であり、分散分析などと数学的にかなり類似している。また、アンケートや実験では、重回帰のみならず分散分析を活用すると、統計的な判断もできるので有用。SPSSやSASのマニュアルにはそのあたりの事情がいろいろと書いてある。
心理学やマーケティングでは、共分散構造分析という重回帰より複雑な関係を適切に説明できるモデルが構築され、普及している。同手法では豊田秀樹教授が著名。
また、男女といった数値でないデータについても、ダミー変数を導入することでその影響を抽出する手法もある。日本オリジナルの手法では数量化1類も同様の手法。
ダミー変数は、通常、条件ごとに説明変数を作り1と0を持つデータを設定して、分析する。その際、重回帰では一つは回帰式に含めない。それは定数で判断する。主成分分析などでは省略は不要。
信号の色を例に取ると、
- 信号を通過する車の平均時速 = 50*青なら1 + 15*黄色なら1 + 0
という式になる。
この場合、青でも黄色でもない条件のデータは、赤になり、計算値は定数の0になる。つまり、赤なら平均時速0キロとなる。解釈としては信号をとおる車はいないという意味になる。また、青の場合なら平均時速は50キロと推定されたことになる。
男女の体重別なら
- 体重 = 12*男なら1 + 50
という予測式が出てきたら、男でない「女」の平均体重は50キロを計算される。男性なら12キロ多く、62キロが平均になるという意味になる。ちなみにこれは同じデータを男女別に単純平均したものと一致する。
性別、学年など複数の項目を組み合わせて、分析することもできる。
- 例 体重 = 性別の違い + 学年
また、その場合データが十分に多ければ、「男性で1年生なら1」というように細かく分けてダミー変数を増やして重回帰を行なうことで、非線形の変化も抽出できる。