環境での観測の新規性に由来する探査ボーナスは、過去数年間で強化学習(RL)エージェントの探査を動機付ける一般的なアプローチになりました。好奇心駆動の探査などの最近の方法は、通常、システムダイナミクスモデルの予測誤差によって新しい観測の新規性を推定します。本稿では、コンピュータビジョンの分野からRLドメインまでのオプティカルフロー推定の概念を紹介し、オプティカルフロー推定からの誤差を利用して、新しい観測の新規性を評価します。モーション機能を学習し、観測をより包括的かつ効率的に理解できるフローベースの固有の好奇心モジュール(FICM)を導入します。この方法を評価し、Atariゲーム、Super Mario Bros.、ViZDoomなど、いくつかのベンチマーク環境での多数のベースラインと比較します。私たちの結果は、提案された方法が特定の環境、特に洗練された移動パターンまたは高次元の観測空間を備えた環境においてベースラインより優れていることを示しています。
Exploration bonuses derived from the novelty of observations in an environment have become a popular approach to motivate exploration for reinforcement learning (RL) agents in the past few years. Recent methods such as curiosity-driven exploration usually estimate the novelty of new observations by the prediction errors of their system dynamics models. In this paper, we introduce the concept of optical flow estimation from the field of computer vision to the RL domain and utilize the errors from optical flow estimation to evaluate the novelty of new observations. We introduce a flow-based intrinsic curiosity module (FICM) capable of learning the motion features and understanding the observations in a more comprehensive and efficient fashion. We evaluate our method and compare it with a number of baselines on several benchmark environments, including Atari games, Super Mario Bros., and ViZDoom. Our results show that the proposed method is superior to the baselines in certain environments, especially for those featuring sophisticated moving patterns or with high-dimensional observation spaces.