arXiv reaDer
シーングラフ生成のための重要性加重構造学習
Importance Weighted Structure Learning for Scene Graph Generation
シーングラフの生成は、入力画像の視覚的に接地されたシーングラフを作成することにより、オブジェクトとその関係を明示的にモデル化することを目的とした構造化された予測タスクです。現在、メッセージパッシングニューラルネットワークベースの平均場変分ベイズ法は、そのようなタスクのユビキタスソリューションであり、変分推論の目的は、古典的な証拠の下限であると想定されることがよくあります。ただし、このような緩い目的から推測される変分近似は、一般に、基礎となる後部を過小評価しており、生成パフォーマンスが低下することがよくあります。この論文では、再パラメータ化可能なGumbel-Softmaxサンプラーから抽出された複数のサンプルから計算された、より厳密な重要度加重下限で基礎となる対数分配関数を近似することを目的とした、新しい重要度加重構造学習法を提案します。結果として生じる制約付き変分推論タスクを解決するために、一般的なエントロピックミラー降下アルゴリズムが適用されます。提案された方法は、さまざまな人気のあるシーングラフ生成ベンチマークで最先端のパフォーマンスを実現します。
Scene graph generation is a structured prediction task aiming to explicitly model objects and their relationships via constructing a visually-grounded scene graph for an input image. Currently, the message passing neural network based mean field variational Bayesian methodology is the ubiquitous solution for such a task, in which the variational inference objective is often assumed to be the classical evidence lower bound. However, the variational approximation inferred from such loose objective generally underestimates the underlying posterior, which often leads to inferior generation performance. In this paper, we propose a novel importance weighted structure learning method aiming to approximate the underlying log-partition function with a tighter importance weighted lower bound, which is computed from multiple samples drawn from a reparameterizable Gumbel-Softmax sampler. A generic entropic mirror descent algorithm is applied to solve the resulting constrained variational inference task. The proposed method achieves the state-of-the-art performance on various popular scene graph generation benchmarks.
updated: Sat May 14 2022 09:25:14 GMT+0000 (UTC)
published: Sat May 14 2022 09:25:14 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト