arXiv reaDer
MemoNav: 視覚的なナビゲーションのための有益な記憶の選択
MemoNav: Selecting Informative Memories for Visual Navigation
イメージ ゴール ナビゲーションは、これまでに見たことのないシーンのイメージによって示されるターゲットにエージェントがナビゲートする必要があるため、困難なタスクです。現在の方法では、このタスクを解決するためにナビゲーション履歴を保存するさまざまなメモリ メカニズムが導入されています。ただし、これらのメソッドは、このメモリのどの部分が有益であるかを考慮せずに、メモリ内のすべての観測値を使用してナビゲーション アクションを生成します。この制限に対処するために、イメージ ゴール ナビゲーション用の新しいメモリ メカニズムである MemoNav を提示します。これは、エージェントの有益な短期記憶と長期記憶を保持して、複数の目標タスクでのナビゲーション パフォーマンスを向上させます。エージェントのトポロジ マップ上のノード フィーチャは、動的に更新されるため、短期メモリに格納されます。短期記憶を支援するために、グラフアテンションモジュールを介して短期記憶を継続的に集約することにより、長期記憶も生成します。 MemoNav は、Transformer デコーダーに基づく忘却モジュールを介して短期記憶の有益な部分を保持し、この保持された短期記憶と長期記憶を作業記憶に組み込みます。最後に、エージェントはアクションの生成にワーキング メモリを使用します。新しい多目的ナビゲーション データセットでモデルを評価します。実験結果は、MemoNav が SoTA メソッドよりも優れており、ナビゲーション履歴の割合が小さいことを示しています。結果はまた、モデルがデッドロックに陥る可能性が低いことを経験的に示しています。これは、MemoNav が冗長な手順を減らすことでエージェントのナビゲーション効率を向上させることをさらに検証します。
Image-goal navigation is a challenging task, as it requires the agent to navigate to a target indicated by an image in a previously unseen scene. Current methods introduce diverse memory mechanisms which save navigation history to solve this task. However, these methods use all observations in the memory for generating navigation actions without considering which fraction of this memory is informative. To address this limitation, we present the MemoNav, a novel memory mechanism for image-goal navigation, which retains the agent's informative short-term memory and long-term memory to improve the navigation performance on a multi-goal task. The node features on the agent's topological map are stored in the short-term memory, as these features are dynamically updated. To aid the short-term memory, we also generate long-term memory by continuously aggregating the short-term memory via a graph attention module. The MemoNav retains the informative fraction of the short-term memory via a forgetting module based on a Transformer decoder and then incorporates this retained short-term memory and the long-term memory into working memory. Lastly, the agent uses the working memory for action generation. We evaluate our model on a new multi-goal navigation dataset. The experimental results show that the MemoNav outperforms the SoTA methods by a large margin with a smaller fraction of navigation history. The results also empirically show that our model is less likely to be trapped in a deadlock, which further validates that the MemoNav improves the agent's navigation efficiency by reducing redundant steps.
updated: Sat Aug 20 2022 05:57:21 GMT+0000 (UTC)
published: Sat Aug 20 2022 05:57:21 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト