Visual Word Sense Disambiguation (VWSD) は、特定のコンテキストにおけるターゲット単語の正しい意味を最も正確に表す画像を見つけるタスクです。以前は、画像とテキストのマッチング モデルでは、多義語の認識に問題が生じることがよくありました。この論文では、外部語彙知識ベースの光沢情報、特に意味定義を使用する教師なし VWSD アプローチを紹介します。具体的には、答えの意味情報が提供されない場合、ベイズ推論を使用して意味定義を組み込むことをお勧めします。さらに、辞書外 (OOD) 問題を改善するために、GPT-3 によるコンテキストを意識した定義生成を提案します。実験結果は、ベイジアン推論ベースのアプローチにより VWSD のパフォーマンスが大幅に向上したことを示しています。さらに、コンテキスト認識型定義生成は、OOD サンプルで顕著なパフォーマンス向上を達成し、既存の定義生成方法よりも優れたパフォーマンスを示しました。
Visual Word Sense Disambiguation (VWSD) is a task to find the image that most accurately depicts the correct sense of the target word for the given context. Previously, image-text matching models often suffered from recognizing polysemous words. This paper introduces an unsupervised VWSD approach that uses gloss information of an external lexical knowledge-base, especially the sense definitions. Specifically, we suggest employing Bayesian inference to incorporate the sense definitions when sense information of the answer is not provided. In addition, to ameliorate the out-of-dictionary (OOD) issue, we propose a context-aware definition generation with GPT-3. Experimental results show that the VWSD performance significantly increased with our Bayesian inference-based approach. In addition, our context-aware definition generation achieved prominent performance improvement in OOD examples exhibiting better performance than the existing definition generation method.