arXiv reaDer
成功の検出器としての視覚言語モデル
Vision-Language Models as Success Detectors
成功した行動を検出することは、インテリジェント エージェントのトレーニングに不可欠です。そのため、一般化可能な報酬モデルは、行動を一般化することを学習できるエージェントの前提条件です。この作業では、大規模な事前トレーニング済みの視覚言語モデル (Flamingo, Alayrac et al. (2022)) と人間の報酬アノテーションを活用する堅牢な成功検出器の開発に焦点を当てています。具体的には、成功の検出を、SuccessVQA と呼ばれる視覚的質問応答 (VQA) 問題として扱います。 (i) シミュレートされた家庭でのインタラクティブな言語条件付きエージェント、(ii) 現実世界のロボット操作、および (iii) 「野生の」人間の自己中心的なビデオ。最初の 2 つのドメインで目に見えない言語と視覚的な変化にわたって、Flamingo ベースの成功検出モデルの一般化プロパティを調査し、提案された方法が、いずれかのバリエーションを使用した分布外テスト シナリオで特注の報酬モデルよりも優れていることを発見しました。 「野生の」人間のビデオの最後のドメインでは、目に見えない実際のビデオの成功検出が、将来の作業を保証するさらに困難な一般化タスクを提示することを示します。私たちの最初の結果が、現実世界の成功の検出と報酬のモデル化におけるさらなる研究を促進することを願っています。
Detecting successful behaviour is crucial for training intelligent agents. As such, generalisable reward models are a prerequisite for agents that can learn to generalise their behaviour. In this work we focus on developing robust success detectors that leverage large, pretrained vision-language models (Flamingo, Alayrac et al. (2022)) and human reward annotations. Concretely, we treat success detection as a visual question answering (VQA) problem, denoted SuccessVQA. We study success detection across three vastly different domains: (i) interactive language-conditioned agents in a simulated household, (ii) real world robotic manipulation, and (iii) "in-the-wild" human egocentric videos. We investigate the generalisation properties of a Flamingo-based success detection model across unseen language and visual changes in the first two domains, and find that the proposed method is able to outperform bespoke reward models in out-of-distribution test scenarios with either variation. In the last domain of "in-the-wild" human videos, we show that success detection on unseen real videos presents an even more challenging generalisation task warranting future work. We hope our initial results encourage further work in real world success detection and reward modelling.
updated: Mon Mar 13 2023 16:54:11 GMT+0000 (UTC)
published: Mon Mar 13 2023 16:54:11 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト