arXiv reaDer
シーングラフ生成のためのエネルギーベースの学習
Energy-Based Learning for Scene Graph Generation
従来のシーングラフの生成方法は、オブジェクトと関係を独立したエンティティとして扱うクロスエントロピー損失を使用してトレーニングされます。ただし、このような定式化では、本質的に構造化された予測問題において、出力空間の構造が無視されます。この作業では、シーングラフを生成するための新しいエネルギーベースの学習フレームワークを紹介します。提案された定式化は、シーングラフの構造を出力空間に効率的に組み込むことを可能にします。学習フレームワークにおけるこの追加の制約は、誘導バイアスとして機能し、モデルが少数のラベルから効率的に学習できるようにします。提案されたエネルギーベースのフレームワークを使用して、既存の最先端モデルをトレーニングし、Visual GenomeおよびGQAベンチマークデータセットでそれぞれ最大21%および27%の大幅なパフォーマンスの向上を実現します。さらに、データが不足しているゼロショットおよび少数ショットの設定で優れたパフォーマンスを示すことにより、提案されたフレームワークの学習効率を示します。
Traditional scene graph generation methods are trained using cross-entropy losses that treat objects and relationships as independent entities. Such a formulation, however, ignores the structure in the output space, in an inherently structured prediction problem. In this work, we introduce a novel energy-based learning framework for generating scene graphs. The proposed formulation allows for efficiently incorporating the structure of scene graphs in the output space. This additional constraint in the learning framework acts as an inductive bias and allows models to learn efficiently from a small number of labels. We use the proposed energy-based framework to train existing state-of-the-art models and obtain a significant performance improvement, of up to 21% and 27%, on the Visual Genome and GQA benchmark datasets, respectively. Furthermore, we showcase the learning efficiency of the proposed framework by demonstrating superior performance in the zero- and few-shot settings where data is scarce.
updated: Wed Mar 03 2021 07:11:23 GMT+0000 (UTC)
published: Wed Mar 03 2021 07:11:23 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト