arXiv reaDer
ローカルからグローバルへの相互作用によるシーングラフ生成の課題への取り組み
Tackling the Challenges in Scene Graph Generation with Local-to-Global Interactions
この作業では、シーングラフ生成(SGG)タスクの根本的な課題に対する新しい洞察を求めます。 Visual Genomeデータセットの定量的および定性的分析は、次のことを意味します-1)あいまいさ:オブジェクト間の関係に同じオブジェクト(または述語)が含まれている場合でも、視覚的または意味的に類似していない可能性があります2)非対称性:関係の性質にもかかわらずこれは方向性を具体化したものであり、以前の研究では十分に対処されていませんでした。3)高次のコンテキスト:特定のグラフ要素のIDを活用すると、正確なシーングラフを生成できます。分析に動機付けられて、新しいSGGフレームワークであるLocal-to-Global Interaction Networks(LOGIN)を設計します。ローカルでは、インタラクションは、入力順序を制約することによって方向認識をネットワークに焼き付けながら、3つのインスタンス(サブジェクト、オブジェクト、および背景)間の本質を抽出します。グローバルに、相互作用はすべてのグラフコンポーネント(ノードとエッジ)間のコンテキストをエンコードします。また、述語の埋め込みを微調整するAttract&Repellossを紹介します。私たちのフレームワークは、可能な補完性を活用して、設計によりローカルからグローバルへの方法でシーングラフを予測することを可能にします。 LOGINがリレーショナル方向をどの程度認識しているかを定量化するために、双方向関係分類(BRC)と呼ばれる新しい診断タスクを提案します。 LOGINは、(SGGタスクの)Visual Genomeベンチマークで最新の結果を表示しながら、(BRCタスクの)既存の方法よりもリレーショナル方向をうまく区別できることがわかります。
In this work, we seek new insights into the underlying challenges of the Scene Graph Generation (SGG) task. Quantitative and qualitative analysis of the Visual Genome dataset implies -- 1) Ambiguity: even if inter-object relationship contains the same object (or predicate), they may not be visually or semantically similar, 2) Asymmetry: despite the nature of the relationship that embodied the direction, it was not well addressed in previous studies, and 3) Higher-order contexts: leveraging the identities of certain graph elements can help to generate accurate scene graphs. Motivated by the analysis, we design a novel SGG framework, Local-to-Global Interaction Networks (LOGIN). Locally, interactions extract the essence between three instances - subject, object, and background - while baking direction awareness into the network by constraining the input order. Globally, interactions encode the contexts between every graph components -- nodes and edges. Also we introduce Attract & Repel loss which finely adjusts predicate embeddings. Our framework enables predicting the scene graph in a local-to-global manner by design, leveraging the possible complementariness. To quantify how much LOGIN is aware of relational direction, we propose a new diagnostic task called Bidirectional Relationship Classification (BRC). We see that LOGIN can successfully distinguish relational direction than existing methods (in BRC task) while showing state-of-the-art results on the Visual Genome benchmark (in SGG task).
updated: Wed Jun 16 2021 03:58:21 GMT+0000 (UTC)
published: Wed Jun 16 2021 03:58:21 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト