Leveraging Auxiliary Text for Deep Recognition of Unseen Visual Relationships
  シーンの理解で最も難しいタスクの1つは、画像内のオブジェクト間の相互作用を認識することです。このタスクは、多くの場合、視覚的関係検出(VRD)と呼ばれます。 VRDモデルのトレーニングに使用される標準の視覚データに加えて、補助テキストデータが与えられた場合、VRDのパフォーマンスを改善できるかどうかという問題を検討します。追加のテキストデータを活用できる新しいディープモデルを紹介します。このモデルは、共有テキストに依存しています。テキストに表示される主題と動詞とオブジェクトの関係の画像表現、および画像内のオブジェクトの相互作用です。私たちの方法は、視覚訓練データに欠けていて、補助テキストにのみ現れる視覚的関係の認識を可能にする最初のものです。 2つの異なるテキストソースでアプローチをテストします。画像に由来するテキストと本に由来するテキストです。 VRDとシーングラフ生成という2つの大規模な認識タスクを使用して、アプローチをテストおよび検証します。私たちは驚くべき結果を示しています。私たちのアプローチは、本に由来するテキストでよりうまく機能し、見えない関係認識のタスクで画像に由来するテキストよりも優れています。それは、見られた関係認識のタスクで画像に由来するテキストを利用するモデルに匹敵します。
One of the most difficult tasks in scene understanding is recognizing interactions between objects in an image. This task is often called visual relationship detection (VRD). We consider the question of whether, given auxiliary textual data in addition to the standard visual data used for training VRD models, VRD performance can be improved. We present a new deep model that can leverage additional textual data. Our model relies on a shared text--image representation of subject-verb-object relationships appearing in the text, and object interactions in images. Our method is the first to enable recognition of visual relationships missing in the visual training data and appearing only in the auxiliary text. We test our approach on two different text sources: text originating in images and text originating in books. We test and validate our approach using two large-scale recognition tasks: VRD and Scene Graph Generation. We show a surprising result: Our approach works better with text originating in books, and outperforms the text originating in images on the task of unseen relationship recognition. It is comparable to the model which utilizes text originating in images on the task of seen relationship recognition.
