この論文の目標は、オブジェクトの相互関係を利用してオブジェクトを検出することです。定義済みでラベル付けされたグラフ構造に依存するのではなく、オブジェクト共起統計から事前にグラフを推測します。私たちの論文の重要なアイデアは、オブジェクトの関係を初期クラス予測と共起事前分布の関数としてモデル化して、分類とバウンディング ボックス回帰を改善するための画像のグラフ表現を生成することです。さらに、エネルギーベースのモデリングを介して、オブジェクト関係のジョイント分布を学習します。この分布からのサンプリングにより、画像の洗練されたグラフ表現が生成され、検出パフォーマンスが向上します。 Visual Genome および MS-COCO データセットでの実験は、私たちの方法が検出器にとらわれず、エンドツーエンドでトレーニング可能であり、希少なオブジェクト クラスに特に有益であることを示しています。さらに、DETR や Faster-RCNN などのオブジェクト検出器や、オブジェクトの相互関係をモデル化する最先端の方法に対して一貫した改善を確立しています。
The goal of this paper is to detect objects by exploiting their interrelationships. Rather than relying on predefined and labeled graph structures, we infer a graph prior from object co-occurrence statistics. The key idea of our paper is to model object relations as a function of initial class predictions and co-occurrence priors to generate a graph representation of an image for improved classification and bounding box regression. We additionally learn the object-relation joint distribution via energy based modeling. Sampling from this distribution generates a refined graph representation of the image which in turn produces improved detection performance. Experiments on the Visual Genome and MS-COCO datasets demonstrate our method is detector agnostic, end-to-end trainable, and especially beneficial for rare object classes. What is more, we establish a consistent improvement over object detectors like DETR and Faster-RCNN, as well as state-of-the-art methods modeling object interrelationships.