統計数学セミナー
Seminar on Probability and Statistics |
Home : Archive [ 2003 to 04 ] [ 2004 to 05 ] [ 2005 to 06 ] [ 2006 to 07 ] [ 2007 to 08 ] [ 2008 to 09 ] [ 2009 to 10 ] [ 2010 to 11 ] [ 2011 to 12 ] [ 2012 to 13 ] [ 2013 to 14 ] [ 2014 to 15 ] |
Previous Seminar : Next Seminar |
Seminar on Probability and Statistics Friday April 27 2012 Tokyo 006 2:50-4:00 pm
Convergence conditions on step sizes in temporal difference learning/
時間的差分法のステップサイズに関する収束条件について 野村 亮介 / NOMURA, Ryosuke 東京大学大学院数理科学研究科 / Graduate school of Mathematical Sciences, Univ. of Tokyo Abstract 強化学習では、状態・行動・報酬という三種類のデータを観測
するモデルに対し、状態が与えられたときの累積報酬の期待値である価値関数を
最大化するように行動を決定する問題を扱う。いくつかの手法の中で最も研究さ
れているのが時間的差分法である。
本発表では、独立同分布なデータに対して、目的関数を最小化するという意味で
最適なステップサイズを導出し、その収束を示す。さらに、ステップサイズが定
数である場合の収束条件を示す。また、マルコフ過程に従うデータに対して、ア
ルゴリズムのステップサイズの収束条件について議論する。
|
Previous Seminar : Next Seminar | Seminar on Probability and Statistics |