arXiv reaDer
言語媒介、オブジェクト中心の表現学習
Language-Mediated, Object-Centric Representation Learning
視覚と言語から解き放たれたオブジェクト中心のシーン表現を学習するためのパラダイムである言語媒介、オブジェクト中心表現学習 (LORL) を紹介します。 LORL は、教師なしオブジェクトの発見とセグメンテーション、特に MONet と Slot Attention における最近の進歩に基づいています。これらのアルゴリズムは、入力画像を再構築するだけでオブジェクト中心の表現を学習しますが、LORL を使用すると、学習した表現を概念、つまり言語入力からオブジェクトのカテゴリ、プロパティ、および空間関係の単語に関連付けることをさらに学習できます。言語から派生したこれらのオブジェクト中心の概念は、オブジェクト中心の表現の学習を容易にします。 LORL は、言語に依存しないさまざまな教師なしオブジェクト検出アルゴリズムと統合できます。実験では、LORL の統合により、言語の助けを借りて 2 つのデータセットでの教師なしオブジェクト検出方法のパフォーマンスが一貫して向上することが示されています。また、LORL によって学習された概念は、オブジェクト検出方法と組み合わせて、表現の理解の参照などの下流のタスクを支援することを示します。
We present Language-mediated, Object-centric Representation Learning (LORL), a paradigm for learning disentangled, object-centric scene representations from vision and language. LORL builds upon recent advances in unsupervised object discovery and segmentation, notably MONet and Slot Attention. While these algorithms learn an object-centric representation just by reconstructing the input image, LORL enables them to further learn to associate the learned representations to concepts, i.e., words for object categories, properties, and spatial relationships, from language input. These object-centric concepts derived from language facilitate the learning of object-centric representations. LORL can be integrated with various unsupervised object discovery algorithms that are language-agnostic. Experiments show that the integration of LORL consistently improves the performance of unsupervised object discovery methods on two datasets via the help of language. We also show that concepts learned by LORL, in conjunction with object discovery methods, aid downstream tasks such as referring expression comprehension.
updated: Tue Jun 08 2021 04:37:54 GMT+0000 (UTC)
published: Thu Dec 31 2020 18:36:07 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト