arXiv reaDer
探索と学習のための感情ベースの内在的報酬のモデリング
Modeling Affect-based Intrinsic Rewards for Exploration and Learning
ポジティブな影響は、人間の学習に対する関心、好奇心、満足度の向上に関連しています。強化学習では、外因性の報酬はまばらで定義が難しいことが多く、本質的に動機付けられた学習はこれらの課題に対処するのに役立ちます。ポジティブな影響は、経験を集めるのに役立つ探索を効果的に推進するのに役立つ重要な本質的な報酬であると私たちは主張します。ポジティブな影響の本質的な報酬を反映する自発的な笑顔の行動で訓練されたタスクに依存しない報酬機能を活用する新しいアプローチを提示します。私たちのアプローチを評価するために、私たちはポリシーといくつかのベースライン方法で収集されたデータについて、いくつかのダウンストリームコンピュータービジョンタスクをトレーニングしました。感情的な報酬に基づくポリシーにより、エピソードの期間、探索された領域が正常に増加し、衝突が減少することを示します。影響は、いくつかのダウンストリームコンピュータビジョンタスクの学習速度の向上です。
Positive affect has been linked to increased interest, curiosity and satisfaction in human learning. In reinforcement learning, extrinsic rewards are often sparse and difficult to define, intrinsically motivated learning can help address these challenges. We argue that positive affect is an important intrinsic reward that effectively helps drive exploration that is useful in gathering experiences. We present a novel approach leveraging a task-independent reward function trained on spontaneous smile behavior that reflects the intrinsic reward of positive affect. To evaluate our approach we trained several downstream computer vision tasks on data collected with our policy and several baseline methods. We show that the policy based on our affective rewards successfully increases the duration of episodes, the area explored and reduces collisions. The impact is the increased speed of learning for several downstream computer vision tasks.
updated: Sun Apr 04 2021 09:37:03 GMT+0000 (UTC)
published: Sun Dec 01 2019 13:17:39 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト