arXiv reaDer
スパースリワードビジュアルシーンに対する画像増強ベースのモメンタムメモリ固有のリワード
Image Augmentation Based Momentum Memory Intrinsic Reward for Sparse Reward Visual Scenes
実生活の多くのシーンは、画像とまばらな報酬のみを受け入れるという条件下でエージェントがタスクに取り組むことが難しい、まばらな報酬の視覚的シーンに抽象化することができます。この問題を、視覚的表現とまばらな報酬という2つのサブ問題に分解することを提案します。それらに対処するために、自己監視表現学習と本質的な動機を組み合わせた新しいフレームワークIAMMIRが提示されます。視覚的表現の場合、画像増強フォワードダイナミクスと報酬の組み合わせによって駆動される表現が取得されます。スパースリワードの場合、新しいタイプのイントリンシブリワードであるMomentum Memory Intrinsic Reward(MMIR)が設計されています。現在のモデル(オンラインネットワーク)と履歴モデル(ターゲットネットワーク)からの出力の違いを利用して、エージェントの状態の親しみやすさを示します。私たちの方法は、Vizdoomのまばらな報酬で視覚的なナビゲーションタスクで評価されます。実験は、私たちの方法がサンプル効率で最先端の性能を達成し、100%の成功率に達する既存の方法よりも少なくとも2倍速いことを示しています。
Many scenes in real life can be abstracted to the sparse reward visual scenes, where it is difficult for an agent to tackle the task under the condition of only accepting images and sparse rewards. We propose to decompose this problem into two sub-problems: the visual representation and the sparse reward. To address them, a novel framework IAMMIR combining the self-supervised representation learning with the intrinsic motivation is presented. For visual representation, a representation driven by a combination of the imageaugmented forward dynamics and the reward is acquired. For sparse rewards, a new type of intrinsic reward is designed, the Momentum Memory Intrinsic Reward (MMIR). It utilizes the difference of the outputs from the current model (online network) and the historical model (target network) to present the agent's state familiarity. Our method is evaluated on the visual navigation task with sparse rewards in Vizdoom. Experiments demonstrate that our method achieves the state of the art performance in sample efficiency, at least 2 times faster than the existing methods reaching 100% success rate.
updated: Thu May 19 2022 10:08:16 GMT+0000 (UTC)
published: Thu May 19 2022 10:08:16 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト