赤の広場は大きいですか? MALeViC:視覚的コンテキストを活用した形容詞のモデリング
Is the Red Square Big? MALeViC: Modeling Adjectives Leveraging Visual Contexts
  この作業の目的は、サイズのグレーディング可能な形容詞(「ビッグ」、「スモール」)の意味を視覚に基づいたコンテキストから学習する方法をモデル化することです。これらの表現の使用は特定のコンテキストに依存するしきい値の設定に依存していることを示す認知的および言語学的証拠に触発され、オブジェクトが「大きい」か「小さい」かを評価する際のマルチモーダルモデルの能力を調査します与えられた視覚的シーン。グレーディング可能な形容詞を単純に「固定」属性として扱う標準的な計算手法とは対照的に、問題をリレーショナルとして提起します。成功するには、モデルは完全な視覚的コンテキストを考慮する必要があります。 4つの主なタスクを使用して、最先端のモデル(ただし比較的強力なベースラインではない)がサイズの形容詞の意味を定める関数を学習できることを示しますが、そのパフォーマンスは単純なものからより多くのものに移行するにつれて低下することがわかります複雑なタスク。決定的に、モデルは、構成的に使用できるグレーディング可能な形容詞の抽象的な表現の開発に失敗します。
This work aims at modeling how the meaning of gradable adjectives of size (`big', `small') can be learned from visually-grounded contexts. Inspired by cognitive and linguistic evidence showing that the use of these expressions relies on setting a threshold that is dependent on a specific context, we investigate the ability of multi-modal models in assessing whether an object is `big' or `small' in a given visual scene. In contrast with the standard computational approach that simplistically treats gradable adjectives as `fixed' attributes, we pose the problem as relational: to be successful, a model has to consider the full visual context. By means of four main tasks, we show that state-of-the-art models (but not a relatively strong baseline) can learn the function subtending the meaning of size adjectives, though their performance is found to decrease while moving from simple to more complex tasks. Crucially, models fail in developing abstract representations of gradable adjectives that can be used compositionally.
updated: Tue Aug 27 2019 15:44:17 GMT+0000 (UTC)
published: Tue Aug 27 2019 15:44:17 GMT+0000 (UTC)
