arXiv reaDer
タスクの細分化: 視覚と言語の意思決定のための単位粒度のハイブリッド トレーニング フレームワーク
Breaking Down the Task: A Unit-Grained Hybrid Training Framework for Vision and Language Decision Making
視覚言語による意思決定 (VLDM) は、マルチモーダルな困難なタスクです。エージェントは人間による複雑な指示を理解し、環境ナビゲーションとオブジェクト操作を含む構成タスクを完了する必要があります。ただし、VLDM には長いアクション シーケンスが含まれるため、タスクの学習が困難になります。環境の観点から見ると、タスク エピソードは細かい単位に分割でき、各単位にはナビゲーション フェーズとインタラクション フェーズが含まれることがわかります。ユニット内の環境は変化しないため、環境内での積極的な探索を可能にし、曝露バイアスを軽減する新しいハイブリッド トレーニング フレームワークを提案します。このようなフレームワークは単位粒度の構成を活用し、モデルに依存しません。具体的には、ユニットスケールのクロスモーダルメモリを維持する固有のリカレント状態を備えたユニットトランスフォーマー (UT) を設計します。 TEACH ベンチマークに関する広範な実験を通じて、私たちが提案するフレームワークがすべての評価指標の点で既存の最先端の方法よりも優れていることを実証しました。全体として、私たちの取り組みは、VLDM タスクをより小さく管理しやすい単位に分割し、ハイブリッド トレーニング フレームワークを利用することで、VLDM タスクに取り組むための新しいアプローチを導入しています。そうすることで、マルチモーダルな意思決定のための、より柔軟で効果的なソリューションを提供します。
Vision language decision making (VLDM) is a challenging multimodal task. The agent have to understand complex human instructions and complete compositional tasks involving environment navigation and object manipulation. However, the long action sequences involved in VLDM make the task difficult to learn. From an environment perspective, we find that task episodes can be divided into fine-grained units, each containing a navigation phase and an interaction phase. Since the environment within a unit stays unchanged, we propose a novel hybrid-training framework that enables active exploration in the environment and reduces the exposure bias. Such framework leverages the unit-grained configurations and is model-agnostic. Specifically, we design a Unit-Transformer (UT) with an intrinsic recurrent state that maintains a unit-scale cross-modal memory. Through extensive experiments on the TEACH benchmark, we demonstrate that our proposed framework outperforms existing state-of-the-art methods in terms of all evaluation metrics. Overall, our work introduces a novel approach to tackling the VLDM task by breaking it down into smaller, manageable units and utilizing a hybrid-training framework. By doing so, we provide a more flexible and effective solution for multimodal decision making.
updated: Sun Jul 16 2023 11:54:16 GMT+0000 (UTC)
published: Sun Jul 16 2023 11:54:16 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト