arXiv reaDer
ローカルからグローバルへの相互作用によるシーングラフ生成の課題への取り組み
Tackling the Challenges in Scene Graph Generation with Local-to-Global Interactions
この作業では、シーングラフ生成(SGG)タスクの根本的な課題に対する新しい洞察を求めます。 Visual Genomeデータセットの定量的および定性的分析は、次のことを意味します-1)あいまいさ:オブジェクト間の関係に同じオブジェクト(または述語)が含まれている場合でも、視覚的または意味的に類似していない可能性があります2)非対称性:関係の性質にもかかわらずこれは方向性を具体化したものであり、以前の研究では十分に対処されていませんでした。3)高次のコンテキスト:特定のグラフ要素のIDを活用すると、正確なシーングラフを生成するのに役立ちます。分析に動機付けられて、新しいSGGフレームワークであるLocal-to-Global Interaction Networks(LOGIN)を設計します。ローカルでは、インタラクションは、サブジェクトとオブジェクトの入力順序を明示的に制約することにより、方向認識をネットワークに焼き付けながら、サブジェクト、オブジェクト、および背景の3つのインスタンス間の本質を抽出します。グローバルに、相互作用はすべてのグラフコンポーネント(つまり、ノードとエッジ)間のコンテキストをエンコードします。最後に、Attract&Repelの損失を利用して、述語の埋め込みの分布を微調整します。設計により、私たちのフレームワークは、可能な補完性を活用して、ボトムアップ方式でシーングラフを予測することを可能にします。 LOGINがリレーショナル方向をどの程度認識しているかを定量化するために、双方向リレーションシップ分類(BRC)と呼ばれる新しい診断タスクも提案されています。実験結果は、LOGINが既存の方法(BRCタスク)よりも関係の方向をうまく区別できることを示していますが、Visual Genomeベンチマーク(SGGタスク)で最先端の結果を示しています。
In this work, we seek new insights into the underlying challenges of the Scene Graph Generation (SGG) task. Quantitative and qualitative analysis of the Visual Genome dataset implies -- 1) Ambiguity: even if inter-object relationship contains the same object (or predicate), they may not be visually or semantically similar, 2) Asymmetry: despite the nature of the relationship that embodied the direction, it was not well addressed in previous studies, and 3) Higher-order contexts: leveraging the identities of certain graph elements can help to generate accurate scene graphs. Motivated by the analysis, we design a novel SGG framework, Local-to-Global Interaction Networks (LOGIN). Locally, interactions extract the essence between three instances of subject, object, and background, while baking direction awareness into the network by explicitly constraining the input order of subject and object. Globally, interactions encode the contexts between every graph component (i.e., nodes and edges). Finally, Attract & Repel loss is utilized to fine-tune the distribution of predicate embeddings. By design, our framework enables predicting the scene graph in a bottom-up manner, leveraging the possible complementariness. To quantify how much LOGIN is aware of relational direction, a new diagnostic task called Bidirectional Relationship Classification (BRC) is also proposed. Experimental results demonstrate that LOGIN can successfully distinguish relational direction than existing methods (in BRC task), while showing state-of-the-art results on the Visual Genome benchmark (in SGG task).
updated: Fri Apr 01 2022 05:05:57 GMT+0000 (UTC)
published: Wed Jun 16 2021 03:58:21 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト