2024-03-28T19:31:56Zhttps://eprints.lib.hokudai.ac.jp/dspace-oai/requestoai:eprints.lib.hokudai.ac.jp:2115/145632022-11-17T02:08:08Zhdl_2115_20053hdl_2115_145ベイジアンネットを利用した強化学習エージェントの方策改善An Improvement of Reinforcement Learning Agent’s Policy by using a Bayesian Network北越, 大輔Kitakoshi, Daisuke塩谷, 浩之Shioya, Hiroyuki1000050133707栗原, 正仁Kurihara, Masahitoopen accessここに掲載した著作物の利用に関する注意: 本著作物の著作権は(社)情報処理学会に帰属します。本著作物は著作権者である情報処理学会の許可のもとに掲載するものです。ご利用に当たっては「著作権法」ならびに「情報処理学会倫理綱領」に従うことをお願いいたします。The copyright of this material is retained by the Information Processing Society of Japan (IPSJ). This material is published on this web site with the agreement of the author (s) and the IPSJ. Please be complied with Copyright Law of Japan and the Code of Ethics of the IPSJ if any users wish to reproduce, make derivative work, distribute or make available to the public any part or whole thereof.007.13機械学習の一つである強化学習は,報酬を利用して方策を最適化することで,エージェントを環境に適応させることを目的とする.本論文では,強化学習エージェントが得た知識を利用して,方策を改善する手法を提案する.我々はエージェントの知識として確率モデルの一つであるベイジアンネットを用い,その構造は,学習中のエージェントの入出力系列,および報酬をサンプルデータとした情報理論的モデル選択手法によって構築される.本研究において構築されるベイジアンネットは,エージェントの入出力と報酬についての確率的依存関係を表現する.
本手法におけるエージェントの方策は,ベイジアンネットの構造(確率的知識)を利用した教師あり学習によって改善される.確率的知識を用いた方策の改善機構を導入することで,強化学習エージェントはより効率的な方策の獲得を可能とする.提案手法の特徴について議論するため,エージェント追跡問題を取り上げて計算機実験を行う.さらに,ベイジアンネットシステムによるエージェントの方策情報表現についても論じる.Reinforcement learning is a kind of machine learning. It aims to optimize an agent’s policy by adapting the agent to a given environment according to rewards. In this paper, we propose a method for improving policies by using knowledge, in which reinforcement learning agents obtain. We use a Bayesian Network as knowledge of an agent. Its structure is decided by a model selection method based on information theory using series of an agent’s inputoutput and rewards as sample data. A Bayesian Network constructed in our study represents stochastic dependences between input-output and rewards.
In our proposed method, policies are improved by supervised learning using the structure of Bayesian Network (i.e. stochastic knowledge). Introducing the mechanism of improving policies makes reinforcement learning agents acquire more effective policies. We carry out simulations in the pursuit problem in order to discuss the characteristics of our proposed method. Furthermore, we discuss the information about agents' policies represented by the Bayesian Network system.情報処理学会2003-11jpnjournal articleAMhttp://hdl.handle.net/2115/14563http://www.ipsj.or.jp/http://www.ipsj.or.jp/01kyotsu/chosakuken/copyright.html0387-5806情報処理学会論文誌441128842894https://eprints.lib.hokudai.ac.jp/dspace/bitstream/2115/14563/1/kitakoshi2003ipsj-final.pdfapplication/pdf714.42 KB2003-11