Detecting unseen visual relations using analogies
  個々のエンティティのトレーニング例は利用できますが、トレーニングではそれらの組み合わせが表示されない「犬に乗る人」など、トリプレットt =(主語、述語、オブジェクト)の形式の画像で視覚的関係を検出しようとします。これは、視覚的な関係の組み合わせの性質による重要な設定です。すべての可能なトリプレットについて十分なトレーニングデータを収集することは非常に困難です。この作業の貢献は3つあります。まず、(i)主語、目的語、述語の個々の埋め込みと(ii)関係のトリプレットを表す視覚句の埋め込みを組み合わせた視覚的関係の表現を学習します。第二に、類似するオブジェクトを含む関係間の類推を使用して、視覚的なフレーズの埋め込みを既存のトレーニングトリプレットから見えないテストトリプレットに転送する方法を学習します。第三に、3つの困難なデータセットでのアプローチの利点を示します:HICO-DETでは、モデルは頻繁なトリプレットと不可視のトリプレットの両方に対して強力なベースラインよりも大幅な改善を達成し、不可視のトリプレットの取得でも同様の改善を観察-COCO-aデータセット、およびUnRelデータセット内の難しい珍しいトリプレットの語彙述語。
We seek to detect visual relations in images of the form of triplets t = (subject, predicate, object), such as "person riding dog", where training examples of the individual entities are available but their combinations are unseen at training. This is an important set-up due to the combinatorial nature of visual relations : collecting sufficient training data for all possible triplets would be very hard. The contributions of this work are three-fold. First, we learn a representation of visual relations that combines (i) individual embeddings for subject, object and predicate together with (ii) a visual phrase embedding that represents the relation triplet. Second, we learn how to transfer visual phrase embeddings from existing training triplets to unseen test triplets using analogies between relations that involve similar objects. Third, we demonstrate the benefits of our approach on three challenging datasets : on HICO-DET, our model achieves significant improvement over a strong baseline for both frequent and unseen triplets, and we observe similar improvement for the retrieval of unseen triplets with out-of-vocabulary predicates on the COCO-a dataset as well as the challenging unusual triplets in the UnRel dataset.
