言語単位を物理世界の指示対象に接続する能力 (グラウンディングと呼ばれます) は、単語の根拠のある意味を学習し理解するために重要です。人間は新しい単語の学習において高速なマッピングを実証していますが、現代の視覚言語モデルが本当に言語を根拠のある意味で表現できるかどうか、またグラウンディングがどのようにして新しい単語の学習をさらに促進するのかは不明のままです。この目的を達成するために、オープンワールド言語学習におけるグラウンディングとブートストラップを検討するために、グラウンデッド オープンボキャブラリー獲得 (GOVA) を導入します。最初の試みとして、我々はオブジェクト指向 BERT (OctoBERT) を提案します。これは、目的としてグラウンディングを強調する画像とテキストのペアで事前トレーニングすることにより、新しい視覚的にグラウンディングされた言語モデルです。広範な実験と分析を通じて、OctoBERT がより一貫性があり、素早いグラウンディングされた単語学習器であること、および事前トレーニング中に獲得されたグラウンディング能力が、モデルが目に見えない単語をより迅速かつ確実に学習するのに役立つことを実証しました。私たちのコードは https://github.com/sled-group/world-to-words で入手できます。
The ability to connect language units to their referents in the physical world, referred to as grounding, is crucial to learning and understanding grounded meanings of words. While humans demonstrate fast mapping in new word learning, it remains unclear whether modern vision-language models can truly represent language with their grounded meanings and how grounding may further bootstrap new word learning. To this end, we introduce Grounded Open Vocabulary Acquisition (GOVA) to examine grounding and bootstrapping in open-world language learning. As an initial attempt, we propose object-oriented BERT (OctoBERT), a novel visually-grounded language model by pre-training on image-text pairs highlighting grounding as an objective. Through extensive experiments and analysis, we demonstrate that OctoBERT is a more coherent and fast grounded word learner, and that the grounding ability acquired during pre-training helps the model to learn unseen words more rapidly and robustly. Our code is available at https://github.com/sled-group/world-to-words