強化学習
出典: フリー百科事典『ウィキペディア(Wikipedia)』
強化学習(きょうかがくしゅう, Reinforcement Learning)とは、ある環境内におけるエージェントが、現在の状態を観測し、取るべき行動を決定する問題を扱う機械学習の一種。エージェントは行動を選択することで環境から報酬を得る。強化学習は一連の行動を通じて報酬が最も多く得られるような方策(policy)を学習する。
ここでの環境とは、有限状態数のマルコフ決定過程として定式化される。また、強化学習は動的計画法の一種としても位置づけられる。
強化学習は、学習のための適切な入力データと出力データのペアが与えられることがない、という意味からすると、教師あり学習とは異なる学習手法である。また、未知の学習領域を開拓していく行動と、既知の学習領域を利用して行動とをバランス良く選択することができるという特徴も持っている。その性質から未知の環境下でのロボットの行動獲得に良く用いられる。
神経科学においては、Schultzらが、黒質緻密部のドーパミン作動性ニューロンから電気記録をとり、その位相性の発火が報酬予測誤差信号をコードしていることを示唆して以来、哺乳類の脳において大脳基底核はドーパミンを介した強化学習を行う神経回路であるという仮説が有力視されている。