視覚的な関係の検出は、1つの画像内のオブジェクトペア間の相互作用を見つけて区別するために使用される困難なタスクとして、最近多くの注目を集めています。この作業では、手順のすべての段階でオブジェクトペアの相対的な位置を深く掘り下げて利用することにより、新しい視覚的関係検出フレームワークを提案します。両方の段階で、各オブジェクトペアの相対位置情報が抽象化され、補助機能としてエンコードされて、オブジェクトペアの識別能力と述語認識がそれぞれ向上します。さらに、相対位置を使用して述語の関連性をマイニングおよび測定するために、1つのGated Graph Neural Network(GGNN)が導入されています。ロケーションベースのGGNNを使用すると、同様の空間位置を持つ非排他的な述語を最初にクラスター化してから、近い分類スコアで平滑化できるため、上位n回の想起の精度をさらに高めることができます。広く使用されている2つのデータセットVRDとVGの実験では、相対的な位置情報を深く掘り下げて活用することで、提案されたモデルが現在の最新技術を大幅に上回ることが示されています。
Visual relationship detection, as a challenging task used to find and distinguish the interactions between object pairs in one image, has received much attention recently. In this work, we propose a novel visual relationship detection framework by deeply mining and utilizing relative location of object-pair in every stage of the procedure. In both the stages, relative location information of each object-pair is abstracted and encoded as auxiliary feature to improve the distinguishing capability of object-pairs proposing and predicate recognition, respectively; Moreover, one Gated Graph Neural Network(GGNN) is introduced to mine and measure the relevance of predicates using relative location. With the location-based GGNN, those non-exclusive predicates with similar spatial position can be clustered firstly and then be smoothed with close classification scores, thus the accuracy of top n recall can be increased further. Experiments on two widely used datasets VRD and VG show that, with the deeply mining and exploiting of relative location information, our proposed model significantly outperforms the current state-of-the-art.