arXiv reaDer
後退することによって前進する: アクションのセマンティクスに対するアクションの影響の埋め込み
Moving Forward by Moving Backward: Embedding Action Impact over Action Semantics
具現化されたエージェントをトレーニングするときの一般的な仮定は、アクションを実行したときの影響が安定しているということです。たとえば、「先に進む」アクションを実行すると、エージェントは常に一定の距離だけ前方に移動します。これには、アクチュエータによるノイズが多少含まれる可能性があります。この仮定は限定的です。エージェントは、アクションの影響を劇的に変える設定に遭遇する可能性があります。濡れた床で先に進むアクションは、エージェントを予想の 2 倍の距離に送り、壊れたホイールで同じアクションを使用すると、予想される移動が回転に変換される可能性があります。アクションの影響が事前定義されたセマンティックな意味を安定して反映することに頼る代わりに、潜在的な埋め込みを使用してオンザフライでアクションの影響をモデル化することを提案します。これらの潜在的なアクションの埋め込みを、新しいトランスフォーマー ベースのポリシー ヘッドと組み合わせることで、アクション アダプティブ ポリシー (AAP) を設計します。 AI2-THOR 環境と Habitat 環境での 2 つの挑戦的なビジュアル ナビゲーション タスクで AAP を評価し、推論時にアクションが欠落しており、これまでに見られなかった摂動したアクション スペースに直面した場合でも、AAP が高いパフォーマンスを発揮することを示します。さらに、実際のシナリオで評価すると、これらのアクションに対する堅牢性が大幅に向上することがわかります。
A common assumption when training embodied agents is that the impact of taking an action is stable; for instance, executing the "move ahead" action will always move the agent forward by a fixed distance, perhaps with some small amount of actuator-induced noise. This assumption is limiting; an agent may encounter settings that dramatically alter the impact of actions: a move ahead action on a wet floor may send the agent twice as far as it expects and using the same action with a broken wheel might transform the expected translation into a rotation. Instead of relying that the impact of an action stably reflects its pre-defined semantic meaning, we propose to model the impact of actions on-the-fly using latent embeddings. By combining these latent action embeddings with a novel, transformer-based, policy head, we design an Action Adaptive Policy (AAP). We evaluate our AAP on two challenging visual navigation tasks in the AI2-THOR and Habitat environments and show that our AAP is highly performant even when faced, at inference-time with missing actions and, previously unseen, perturbed action space. Moreover, we observe significant improvement in robustness against these actions when evaluating in real-world scenarios.
updated: Mon Apr 24 2023 17:35:47 GMT+0000 (UTC)
published: Mon Apr 24 2023 17:35:47 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト