シーングラフ生成(SGG)に関しては、クラウドソーシングによるラベル付けのために、データセットに粗い述語と細かい述語が混在しており、ロングテールの問題も顕著です。このトリッキーな状況を考えると、多くの既存のSGGメソッドは述語を同等に扱い、混合粒度の述語の監視下でモデルを1つのステージで学習し、比較的粗い予測につながります。準最適な混合粒度注釈とロングテール効果の問題の悪影響を軽減するために、この論文では、モデルを単純なものから複雑なものまで学習するための新しい階層的記憶学習(HML)フレームワークを提案します。階層的記憶学習プロセス。粗い述語と細かい述語の自律分割の後、モデルは最初に粗い述語でトレーニングされ、次に細かい述語を学習します。この階層的な学習パターンを実現するために、このペーパーでは、初めて、新しい概念再構築(CR)およびモデル再構築(MR)制約を使用してHMLフレームワークを定式化します。 HMLフレームワークは、さまざまなSGGモデルを改善するための1つの一般的な最適化戦略と見なすことができ、SGGベンチマーク(つまり、Visual Genome)で大幅な改善を達成できることは注目に値します。
As far as Scene Graph Generation (SGG), coarse and fine predicates mix in the dataset due to the crowd-sourced labeling, and the long-tail problem is also pronounced. Given this tricky situation, many existing SGG methods treat the predicates equally and learn the model under the supervision of mixed-granularity predicates in one stage, leading to relatively coarse predictions. In order to alleviate the negative impact of the suboptimum mixed-granularity annotation and long-tail effect problems, this paper proposes a novel Hierarchical Memory Learning (HML) framework to learn the model from simple to complex, which is similar to the human beings' hierarchical memory learning process. After the autonomous partition of coarse and fine predicates, the model is first trained on the coarse predicates and then learns the fine predicates. In order to realize this hierarchical learning pattern, this paper, for the first time, formulates the HML framework using the new Concept Reconstruction (CR) and Model Reconstruction (MR) constraints. It is worth noticing that the HML framework can be taken as one general optimization strategy to improve various SGG models, and significant improvement can be achieved on the SGG benchmark (i.e., Visual Genome).