シーングラフは、多くのダウンストリームタスクに貴重な情報を提供します。多くのシーングラフ生成(SGG)モデルは、トレーニングに限定された注釈付きリレーショントリプルのみを使用するため、ローショット(少数およびゼロ)シナリオ、特にまれな述語でパフォーマンスが低下します。この問題に対処するために、異なる画像からのオブジェクトとの追加の現実的な関係トリプルを構築することを可能にする新しい意味構成学習戦略を提案します。具体的には、私たちの戦略は、不要なコンポーネントを識別して削除することでリレーショントリプルを分解し、ビジュアルコンポーネントディクショナリから意味的または視覚的に類似したオブジェクトと融合することで新しいリレーショントリプルを構成すると同時に、新しく構成されたトリプルの現実性を確保します。特に、私たちの戦略は一般的であり、既存のSGGモデルと組み合わせてパフォーマンスを大幅に向上させることができます。ベンチマークデータセットVisualGenomeに対して包括的な評価を実行しました。最近の3つのSGGモデルでは、戦略を追加するとパフォーマンスが50%近く向上し、すべてが現在の最先端モデルを大幅に上回っています。
Scene graphs provide valuable information to many downstream tasks. Many scene graph generation (SGG) models solely use the limited annotated relation triples for training, leading to their underperformance on low-shot (few and zero) scenarios, especially on the rare predicates. To address this problem, we propose a novel semantic compositional learning strategy that makes it possible to construct additional, realistic relation triples with objects from different images. Specifically, our strategy decomposes a relation triple by identifying and removing the unessential component and composes a new relation triple by fusing with a semantically or visually similar object from a visual components dictionary, whilst ensuring the realisticity of the newly composed triple. Notably, our strategy is generic and can be combined with existing SGG models to significantly improve their performance. We performed a comprehensive evaluation on the benchmark dataset Visual Genome. For three recent SGG models, adding our strategy improves their performance by close to 50%, and all of them substantially exceed the current state-of-the-art.