ViCo: Word Embeddings from Visual Co-occurrences
視覚的な共起から単語の埋め込みを学習することを提案します。両方の単語が同じ画像または画像領域に当てはまる場合、視覚的に2つの単語が同時に発生します。具体的には、VisualGenomeやImageNetなどの大規模なテキスト注釈付きビジュアルデータベースから、オブジェクトと属性の単語の間の4種類の視覚的共起を抽出します。次に、各共起タイプによって表される単語「意味」を単一の視覚的単語ベクトルにコンパクトにエンコードするマルチタスク対数双線形モデルをトレーニングします。教師なしクラスタリング、教師付きパーティション分割、およびゼロショットのような一般化分析により、テキストコーパスだけでは取得が難しい視覚的概念の類似点と相違点をより適切に表現することで、単語の埋め込みがGloVeのようなテキストのみの埋め込みを補完することを示します。 5つのダウンストリームアプリケーションへの埋め込みをさらに評価し、そのうち4つはビジョン言語タスクです。埋め込みでGloVeを強化すると、すべてのタスクで利益が得られます。また、従来の知恵に反して、ランダムな埋め込みは、すべての監視されたビジョン言語タスクで学習した埋め込みと同等に機能することもわかりました。
We propose to learn word embeddings from visual co-occurrences. Two words co-occur visually if both words apply to the same image or image region. Specifically, we extract four types of visual co-occurrences between object and attribute words from large-scale, textually-annotated visual databases like VisualGenome and ImageNet. We then train a multi-task log-bilinear model that compactly encodes word "meanings" represented by each co-occurrence type into a single visual word-vector. Through unsupervised clustering, supervised partitioning, and a zero-shot-like generalization analysis we show that our word embeddings complement text-only embeddings like GloVe by better representing similarities and differences between visual concepts that are difficult to obtain from text corpora alone. We further evaluate our embeddings on five downstream applications, four of which are vision-language tasks. Augmenting GloVe with our embeddings yields gains on all tasks. We also find that random embeddings perform comparably to learned embeddings on all supervised vision-language tasks, contrary to conventional wisdom.
updated: Thu Aug 22 2019 17:58:52 GMT+0000 (UTC)
published: Thu Aug 22 2019 17:58:52 GMT+0000 (UTC)
