エンティティ間の関係は、画像の理解において中心的な役割を果たします。モデリング(サブジェクト、述語、オブジェクト)関係のトリプレットは複雑であるため、見られる関係を認識するだけでなく、見えないケースに一般化できる方法を開発することが重要です。以前に提案された視覚翻訳埋め込みモデル、またはVTransEに触発されて、一般的な関係とまれな関係の両方をキャプチャできるコンテキスト拡張翻訳埋め込みモデルを提案します。以前のVTransEモデルは、エンティティと述語を低次元の埋め込みベクトル空間にマッピングします。述語は、サブジェクトとオブジェクトのバウンディングボックス領域の埋め込み機能間の変換ベクトルとして解釈されます。モデルには、さらに、サブジェクトとオブジェクトの結合のバウンディングボックスによってキャプチャされたコンテキスト情報が組み込まれ、制約述語≈ユニオン(サブジェクト、オブジェクト)-サブジェクト-オブジェクトによって導かれる埋め込みが学習されます。複数の難易度の高いベンチマークの包括的な評価では、当社のアプローチは以前の翻訳ベースのモデルよりも優れており、小規模から大規模のデータセットまで、一般的なものから以前は見られなかった関係まで、さまざまな設定で最先端に近づいています。また、シーングラフ生成の最近導入されたタスクの有望な結果を達成します。
Relations amongst entities play a central role in image understanding. Due to the complexity of modeling (subject, predicate, object) relation triplets, it is crucial to develop a method that can not only recognize seen relations, but also generalize to unseen cases. Inspired by a previously proposed visual translation embedding model, or VTransE, we propose a context-augmented translation embedding model that can capture both common and rare relations. The previous VTransE model maps entities and predicates into a low-dimensional embedding vector space where the predicate is interpreted as a translation vector between the embedded features of the bounding box regions of the subject and the object. Our model additionally incorporates the contextual information captured by the bounding box of the union of the subject and the object, and learns the embeddings guided by the constraint predicate ≈ union (subject, object) - subject - object. In a comprehensive evaluation on multiple challenging benchmarks, our approach outperforms previous translation-based models and comes close to or exceeds the state of the art across a range of settings, from small-scale to large-scale datasets, from common to previously unseen relations. It also achieves promising results for the recently introduced task of scene graph generation.