現在のシーングラフ生成モデルのパフォーマンスは、「女性が上にいる/立っている/ビーチを歩いている」や「女性が近くにいる/子供を見て/前にいる」など、区別が難しい述語によって大幅に妨げられています。 。一般的なSGGモデルはヘッド述語を予測する傾向があり、既存のリバランス戦略はテールカテゴリを優先しますが、これらの区別が難しい述語を適切に処理できるものはありません。この問題に取り組むために、区別しにくいオブジェクトクラスを区別することに焦点を当てたきめの細かい画像分類に触発されて、区別しにくい述語を区別することを目的としたFine-Grained Predicates Learning(FGPL)という方法を提案します。シーングラフ生成タスク用。具体的には、最初に、SGGモデルがきめ細かい述語ペアを理解するのに役立つ述語ラティスを紹介します。次に、述語ラティスを利用して、カテゴリ識別損失とエンティティ識別損失を提案します。これらは両方とも、認識可能な述語に対して学習した識別力を維持しながら、きめ細かい述語の識別に貢献します。提案されたモデルにとらわれない戦略は、3つのベンチマークモデル(Transformer、VCTree、およびMotif)のパフォーマンスを、述語分類サブタスクの平均リコール(mR @ 100)のそれぞれ22.8%、24.1%、および21.7%向上させます。また、私たちのモデルは、ビジュアルゲノムデータセットで最先端の方法を大幅に上回っています(つまり、平均リコール(mR @ 100)の6.1%、4.6%、および3.2%)。
The performance of current Scene Graph Generation models is severely hampered by some hard-to-distinguish predicates, e.g., "woman-on/standing on/walking on-beach" or "woman-near/looking at/in front of-child". While general SGG models are prone to predict head predicates and existing re-balancing strategies prefer tail categories, none of them can appropriately handle these hard-to-distinguish predicates. To tackle this issue, inspired by fine-grained image classification, which focuses on differentiating among hard-to-distinguish object classes, we propose a method named Fine-Grained Predicates Learning (FGPL) which aims at differentiating among hard-to-distinguish predicates for Scene Graph Generation task. Specifically, we first introduce a Predicate Lattice that helps SGG models to figure out fine-grained predicate pairs. Then, utilizing the Predicate Lattice, we propose a Category Discriminating Loss and an Entity Discriminating Loss, which both contribute to distinguishing fine-grained predicates while maintaining learned discriminatory power over recognizable ones. The proposed model-agnostic strategy significantly boosts the performances of three benchmark models (Transformer, VCTree, and Motif) by 22.8%, 24.1% and 21.7% of Mean Recall (mR@100) on the Predicate Classification sub-task, respectively. Our model also outperforms state-of-the-art methods by a large margin (i.e., 6.1%, 4.6%, and 3.2% of Mean Recall (mR@100)) on the Visual Genome dataset.