arXiv reaDer
シーングラフ生成のための適応型細粒度述語学習
Adaptive Fine-Grained Predicates Learning for Scene Graph Generation
現在のシーングラフ生成(SGG)モデルのパフォーマンスは、区別が難しい述語によって大幅に妨げられています。たとえば、女性が乗っている/立っている/ビーチを歩いているなどです。一般的なSGGモデルはヘッド述語を予測する傾向があり、リバランス戦略はテールカテゴリを好むため、区別が難しい述語を適切に処理することはできません。この問題に取り組むために、区別しにくいオブジェクトの区別に焦点を当てたきめの細かい画像分類に触発されて、SGGの区別しにくい述語を区別することを目的としたAdaptive Fine-Grained Predicates Learning(FGPL-A)を提案します。 。最初に、適応述語ラティス(PL-A)を導入して、区別が難しい述語を把握します。これは、モデルの動的な学習ペースに合わせて述語の相関関係を適応的に調査します。実際には、PL-AはSGGデータセットから初期化され、現在のミニバッチのモデルの予測を調査することによって洗練されます。 PL-Aを利用して、適応型カテゴリ識別損失(CDL-A)と適応型エンティティ識別損失(EDL-A)を提案します。これらは、モデルの動的学習ステータスに関するきめ細かい監視により、モデルの識別プロセスを段階的に正規化し、バランスの取れた効率的なものにします。学習過程。広範な実験結果は、提案されたモデルにとらわれない戦略が、VG-SGGおよびGQA-SGGデータセットのベンチマークモデルのパフォーマンスをMean Recall @ 100で最大175%および76%向上させ、新しい最先端のパフォーマンスを達成することを示しています。さらに、Sentence-to-GraphRetrievalおよびImageCaptioningタスクの実験は、私たちの方法の実用性をさらに示しています。
The performance of current Scene Graph Generation (SGG) models is severely hampered by hard-to-distinguish predicates, e.g., woman-on/standing on/walking on-beach. As general SGG models tend to predict head predicates and re-balancing strategies prefer tail categories, none of them can appropriately handle hard-to-distinguish predicates. To tackle this issue, inspired by fine-grained image classification, which focuses on differentiating hard-to-distinguish objects, we propose an Adaptive Fine-Grained Predicates Learning (FGPL-A) which aims at differentiating hard-to-distinguish predicates for SGG. First, we introduce an Adaptive Predicate Lattice (PL-A) to figure out hard-to-distinguish predicates, which adaptively explores predicate correlations in keeping with model's dynamic learning pace. Practically, PL-A is initialized from SGG dataset, and gets refined by exploring model's predictions of current mini-batch. Utilizing PL-A, we propose an Adaptive Category Discriminating Loss (CDL-A) and an Adaptive Entity Discriminating Loss (EDL-A), which progressively regularize model's discriminating process with fine-grained supervision concerning model's dynamic learning status, ensuring balanced and efficient learning process. Extensive experimental results show that our proposed model-agnostic strategy significantly boosts performance of benchmark models on VG-SGG and GQA-SGG datasets by up to 175% and 76% on Mean Recall@100, achieving new state-of-the-art performance. Moreover, experiments on Sentence-to-Graph Retrieval and Image Captioning tasks further demonstrate practicability of our method.
updated: Mon Jul 11 2022 03:37:57 GMT+0000 (UTC)
published: Mon Jul 11 2022 03:37:57 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト