arXiv reaDer
常識知識統合によるゼロショットシーングラフ関係予測
Zero-Shot Scene Graph Relation Prediction through Commonsense Knowledge Integration
画像内のエンティティ間の関係予測は、シーングラフ生成(SGG)の重要なステップであり、さまざまな視覚的理解および推論タスクにさらに影響を与えます。ただし、既存のSGGフレームワークは、高度なトレーニングを必要としますが、目に見えない(つまり、ゼロショット)トリプレットをモデル化することはできません。この作品では、そのような能力の欠如は、常識的な推論、すなわち、世界の一般的な理解に基づいて同様のエンティティを関連付け、同様の関係を推測する能力の欠如によるものであることを強調します。このギャップを埋めるために、SGG、特にゼロショット関係予測の常識知識を統合するフレームワークであるCommOnsense-integrAted sCenegrapHrElation pRediction(COACHER)を提案します。具体的には、新しいグラフマイニングパイプラインを開発して、外部の常識的な知識グラフでエンティティの周囲とパスをモデル化し、最先端のSGGフレームワークの上に統合します。 Visual Genomeの元のデータセットと操作されたデータセットの両方に関する広範な定量的評価と定性的ケーススタディは、提案されたアプローチの有効性を示しています。
Relation prediction among entities in images is an important step in scene graph generation (SGG), which further impacts various visual understanding and reasoning tasks. Existing SGG frameworks, however, require heavy training yet are incapable of modeling unseen (i.e.,zero-shot) triplets. In this work, we stress that such incapability is due to the lack of commonsense reasoning,i.e., the ability to associate similar entities and infer similar relations based on general understanding of the world. To fill this gap, we propose CommOnsense-integrAted sCenegrapHrElation pRediction (COACHER), a framework to integrate commonsense knowledge for SGG, especially for zero-shot relation prediction. Specifically, we develop novel graph mining pipelines to model the neighborhoods and paths around entities in an external commonsense knowledge graph, and integrate them on top of state-of-the-art SGG frameworks. Extensive quantitative evaluations and qualitative case studies on both original and manipulated datasets from Visual Genome demonstrate the effectiveness of our proposed approach.
updated: Sun Jul 11 2021 16:22:45 GMT+0000 (UTC)
published: Sun Jul 11 2021 16:22:45 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト