統計数学セミナー
Seminar on Probability and Statistics
Home : Archive [ 2003 to 04 ] [ 2004 to 05 ] [ 2005 to 06 ] [ 2006 to 07 ] [ 2007 to 08 ] [ 2008 to 09 ] [ 2009 to 10 ] [ 2010 to 11 ] [ 2011 to 12 ] [ 2012 to 13 ] [ 2013 to 14 ] [ 2014 to 15 ]
Previous Seminar : Next Seminar

Seminar on Probability and Statistics
Friday July 27 2012
Tokyo 006
2:00-5:00 pm


強化学習を統計推論の観点から考える


植野 剛 / UENO, Tsuyoshi
科学技術振興機構 湊離散構造処理系プロジェクト / Minato Discrete Structure Manipulation System Project, Japan Science and Technology Agency

Abstract

強化学習は心理学, 神経科学, コンピュータ科学, 制御工学など複数の研究分野に起因する機械学習法の1つである. 強化学習は, 未知の環境に置かれた学習対象(エージェント)が試行錯誤を通じて得た自身の成功・失敗体験(報酬)から行動方策を自律的に学習するエージェント学習の一手法である. 強化学習の特徴は, 他のエージェント学習法と異なり, 環境のダイナミクスを推定することなく, 得られた報酬から行動方策を直接学習することが可能な点である. したがって, 環境のダイナミクスのモデル化が必要なく, 環境が強い非線形ダイナミクスを持つ場合でも方策学習が原理的に可能である. よって, この望ましい性質により,様々な実問題に応用され, 多大な成功を収めている.

一方, 強化学習の理論面に目を向けると, これまで提案されている強化学習法の性能評価は, 計算機実験など経験的に行われており, 理論的, 特に統計的な評価はほとんど行われていない. この要因の1つとして, 強化学習が最適制御を基礎に数理が展開されており, これまで強化学習の統計的な解釈がなされていないことが考えられる. したがって, 本研究では, 強化学習の統計的観点から見直し, より一般的な統計推論問題として再定式化することを目指す. そして統計学習分野で培われてきた解析手法を応用し, これまで明らかにされてこなかった強化学習の理論的な性質を解明する(そうなるように努力する).

本発表は, 以下の3部構成で行う. 第一部では, 強化学習の概要について, これまでの応用事例を用いて紹介する. 第二部では, 強化学習の数理的な基礎である動的計画法, 並びに代表的な強化学習アルゴリズムについて紹介する. 第三部では, セミパラメトリック統計推論の立場から強化学習を見直し, これまでに得た幾つかの重要な知見について紹介する.




Previous Seminar : Next Seminar
Seminar on Probability and Statistics