arXiv reaDer
EC^2: 具現化された制御のための緊急通信
EC^2: Emergent Communication for Embodied Control
具現化された制御では、エージェントがマルチモーダルの事前トレーニングを活用して、新しい環境での行動方法を迅速に学習する必要があります。ビデオ デモには、低レベルの知覚と制御に必要な視覚的および動作の詳細が含まれており、言語の指示は、抽象的で象徴的な構造による一般化をサポートしています。最近のアプローチでは、対照的な学習を適用して 2 つのモダリティ間の調整を強制していますが、補完的な違いをより適切にモデル化することで、下流の適応のためのより全体的な表現につながる可能性があると仮定しています。この目的のために、Emergent Communication for Embodied Control (EC^2) を提案します。これは、少数ショットの具体化された制御のためのビデオ言語表現を事前にトレーニングするための新しいスキームです。重要なアイデアは、ビデオの詳細のセマンティクスと自然言語の構造を橋渡しする緊急コミュニケーションを介して、ビデオの監視されていない「言語」を学習することです。言語モデルを使用して、ビデオの軌跡、緊急言語、自然言語の具体化された表現を学習します。言語モデルは、下流の制御のために軽量のポリシー ネットワークを微調整するために使用されます。 Metaworld と Franka Kitchen の具体化されたベンチマークでの広範な実験を通じて、EC^2 はタスク入力としてのビデオとテキストの両方について、以前の対照的な学習方法より一貫して優れていることが示されています。さらなるアブレーションは、ビデオと言語学習の両方に有益であり、事前に訓練されたビデオキャプションを使用するよりもはるかに優れている創発言語の重要性を確認します.また、創発言語の定量的および定性的分析を提示し、具体化されたタスクでの創発的コミュニケーションの理解と活用に向けた将来の方向性について説明します。
Embodied control requires agents to leverage multi-modal pre-training to quickly learn how to act in new environments, where video demonstrations contain visual and motion details needed for low-level perception and control, and language instructions support generalization with abstract, symbolic structures. While recent approaches apply contrastive learning to force alignment between the two modalities, we hypothesize better modeling their complementary differences can lead to more holistic representations for downstream adaption. To this end, we propose Emergent Communication for Embodied Control (EC^2), a novel scheme to pre-train video-language representations for few-shot embodied control. The key idea is to learn an unsupervised "language" of videos via emergent communication, which bridges the semantics of video details and structures of natural language. We learn embodied representations of video trajectories, emergent language, and natural language using a language model, which is then used to finetune a lightweight policy network for downstream control. Through extensive experiments in Metaworld and Franka Kitchen embodied benchmarks, EC^2 is shown to consistently outperform previous contrastive learning methods for both videos and texts as task inputs. Further ablations confirm the importance of the emergent language, which is beneficial for both video and language learning, and significantly superior to using pre-trained video captions. We also present a quantitative and qualitative analysis of the emergent language and discuss future directions toward better understanding and leveraging emergent communication in embodied tasks.
updated: Wed Apr 19 2023 06:36:02 GMT+0000 (UTC)
published: Wed Apr 19 2023 06:36:02 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト