arXiv reaDer
言語シーングラフとのビジュアルグラウンディングの共同
Joint Visual Grounding with Language Scene Graphs
 視覚的接地は、画像内の参照表現を接地するタスクです。たとえば、「黄色いトラックの前にある白いトラック」をローカライズします。このタスクを根本的に解決するには、モデルは最初にコンテキストオブジェクト(たとえば、「黄色」のトラック)を見つけて、属性と関係(たとえば、「白」、「」を使用して、他の類似オブジェクトから参照を明確にするためにそれらを活用する必要があります。黄色」、「の前」)。ただし、コンテキストオブジェクトとそれらの関係にアノテーションがないため、既存の方法では、上記の共通の接地プロセスが式と領域の間の全体的な関連付けに縮退し、不十分なパフォーマンスと限られた解釈性に悩まされます。このペーパーでは、ラベル付けされたリファレントコンテキストとラベル付けされていないコンテキスト(他のオブジェクト、属性、および関係)の両方をカバーする言語シーングラフを活用することにより、注釈の欠落問題を軽減し、共同推論を可能にします。具体的には、言語シーングラフは、ノードが属性を持つオブジェクトであり、エッジが関係であるグラフィカル表現です。これに基づいて因子グラフを作成し、グラフに対してマージナリゼーションを実行します。これにより、リファレントとコンテキストの両方を対応する画像領域に固定して、共同視覚接地(JVG)を実現できます。実験結果は、提案されたアプローチが効果的で解釈可能であることを示しています。たとえば、3つのベンチマークでは、参照式で言及されているすべてのオブジェクトの完全な基盤を提供しながら、最先端の方法よりも優れています。
Visual grounding is a task to ground referring expressions in images, e.g., localize "the white truck in front of the yellow one". To resolve this task fundamentally, the model should first find out the contextual objects (e.g., the "yellow" truck) and then exploit them to disambiguate the referent from other similar objects by using the attributes and relationships (e.g., "white", "yellow", "in front of"). However, due to the lack of annotations on contextual objects and their relationships, existing methods degenerate the above joint grounding process into a holistic association between the expression and regions, thus suffering from unsatisfactory performance and limited interpretability. In this paper, we alleviate the missing-annotation problem and enable the joint reasoning by leveraging the language scene graph which covers both labeled referent and unlabeled contexts (other objects, attributes, and relationships). Specifically, the language scene graph is a graphical representation where the nodes are objects with attributes and the edges are relationships. We construct a factor graph based on it and then perform marginalization over the graph, such that we can ground both referent and contexts on corresponding image regions to achieve the joint visual grounding (JVG). Experimental results demonstrate that the proposed approach is effective and interpretable, e.g., on three benchmarks, it outperforms the state-of-the-art methods while offers a complete grounding of all the objects mentioned in the referring expression.
updated: Fri Apr 10 2020 16:05:29 GMT+0000 (UTC)
published: Sun Jun 09 2019 04:29:06 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト