統計数学セミナー
Seminar on Probability and Statistics |
Home : Archive [ 2003 to 04 ] [ 2004 to 05 ] [ 2005 to 06 ] [ 2006 to 07 ] [ 2007 to 08 ] [ 2008 to 09 ] [ 2009 to 10 ] [ 2010 to 11 ] [ 2011 to 12 ] [ 2012 to 13 ] [ 2013 to 14 ] [ 2014 to 15 ] |
Previous Seminar : Next Seminar |
Seminar on Probability and Statistics Wednesday November 20 2013 Tokyo 052 1:30-2:40 pm
TD法における価値関数への収束アルゴリズム
野村 亮介 / NOMURA, Ryosuke 東京大学大学院数理科学研究科 / Graduate school of Mathematical Sciences, Univ. of Tokyo Abstract マルコフ過程に従い状態遷移が行われ、状態に応じた報酬が支
払われるモデルにおいて、その報酬の累積和の期待値、価値関数を推定する問題
を考える。線形関数近似を用いたTD法において、真の価値関数が特徴量の線形結
合で表されない場合であっても収束することは知られているが、特徴量の選択に
よって性能に大きな差が出てしまう。そこで、得られた極限を真の価値関数へ補
正するように特徴量を構成することによって、真の価値関数に収束するアルゴリ
ズムを提案し、その効率を上げる手法について説明する。
|
Previous Seminar : Next Seminar | Seminar on Probability and Statistics |