統計数学セミナー
Seminar on Probability and Statistics
Home : Archive [ 2003 to 04 ] [ 2004 to 05 ] [ 2005 to 06 ] [ 2006 to 07 ] [ 2007 to 08 ] [ 2008 to 09 ] [ 2009 to 10 ] [ 2010 to 11 ] [ 2011 to 12 ] [ 2012 to 13 ] [ 2013 to 14 ] [ 2014 to 15 ]
Previous Seminar : Next Seminar

Seminar on Probability and Statistics
Wednesday November 20 2013
Tokyo 052
1:30-2:40 pm


TD法における価値関数への収束アルゴリズム


野村 亮介 / NOMURA, Ryosuke
東京大学大学院数理科学研究科 / Graduate school of Mathematical Sciences, Univ. of Tokyo

Abstract

マルコフ過程に従い状態遷移が行われ、状態に応じた報酬が支 払われるモデルにおいて、その報酬の累積和の期待値、価値関数を推定する問題 を考える。線形関数近似を用いたTD法において、真の価値関数が特徴量の線形結 合で表されない場合であっても収束することは知られているが、特徴量の選択に よって性能に大きな差が出てしまう。そこで、得られた極限を真の価値関数へ補 正するように特徴量を構成することによって、真の価値関数に収束するアルゴリ ズムを提案し、その効率を上げる手法について説明する。




Previous Seminar : Next Seminar
Seminar on Probability and Statistics