arXiv reaDer
身体化されたエージェントのための環境予測コーディング
Environment Predictive Coding for Embodied Agents
具現化されたエージェントの環境レベルの表現を学習するための自己監視アプローチである環境予測コーディングを紹介します。画像の自己教師あり学習に関するこれまでの研究とは対照的に、エージェントが3D環境で動き回るときに収集した一連の画像を共同でエンコードすることを目指しています。これらの表現は、エージェントの軌跡の一部をインテリジェントにマスクし、エージェントのカメラポーズを条件として、マスクされていない部分から予測するゾーン予測タスクを介して学習します。ビデオのコレクションでそのような表現を学習することにより、複数のダウンストリームナビゲーション指向タスクへの正常な転送を示します。 GibsonとMatterport3Dのフォトリアリスティックな3D環境での私たちの実験は、私たちの方法が限られた経験の予算で挑戦的なタスクで最先端を上回っていることを示しています。
We introduce environment predictive coding, a self-supervised approach to learn environment-level representations for embodied agents. In contrast to prior work on self-supervised learning for images, we aim to jointly encode a series of images gathered by an agent as it moves about in 3D environments. We learn these representations via a zone prediction task, where we intelligently mask out portions of an agent's trajectory and predict them from the unmasked portions, conditioned on the agent's camera poses. By learning such representations on a collection of videos, we demonstrate successful transfer to multiple downstream navigation-oriented tasks. Our experiments on the photorealistic 3D environments of Gibson and Matterport3D show that our method outperforms the state-of-the-art on challenging tasks with only a limited budget of experience.
updated: Wed Feb 03 2021 23:43:16 GMT+0000 (UTC)
published: Wed Feb 03 2021 23:43:16 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト