統計数学セミナー
Seminar on Probability and Statistics
Home : Archive [ 2003 to 04 ] [ 2004 to 05 ] [ 2005 to 06 ] [ 2006 to 07 ] [ 2007 to 08 ] [ 2008 to 09 ] [ 2009 to 10 ] [ 2010 to 11 ] [ 2011 to 12 ] [ 2012 to 13 ] [ 2013 to 14 ] [ 2014 to 15 ]
Previous Seminar : Next Seminar

Seminar on Probability and Statistics
Friday April 27 2012
Tokyo 006
2:50-4:00 pm


Convergence conditions on step sizes in temporal difference learning/
時間的差分法のステップサイズに関する収束条件について



野村 亮介 / NOMURA, Ryosuke
東京大学大学院数理科学研究科 / Graduate school of Mathematical Sciences, Univ. of Tokyo

Abstract

強化学習では、状態・行動・報酬という三種類のデータを観測 するモデルに対し、状態が与えられたときの累積報酬の期待値である価値関数を 最大化するように行動を決定する問題を扱う。いくつかの手法の中で最も研究さ れているのが時間的差分法である。 本発表では、独立同分布なデータに対して、目的関数を最小化するという意味で 最適なステップサイズを導出し、その収束を示す。さらに、ステップサイズが定 数である場合の収束条件を示す。また、マルコフ過程に従うデータに対して、ア ルゴリズムのステップサイズの収束条件について議論する。




Previous Seminar : Next Seminar
Seminar on Probability and Statistics