arXiv reaDer
パノプティコンナラティブグラウンディング
Panoptic Narrative Grounding
この論文は、自然言語の視覚的グラウンディング問題の空間的に細かく一般的な定式化であるパノプティックナラティブグラウンディングを提案します。新しいグラウンドトゥルースとメトリクスを含む、この新しいタスクの研究のための実験的フレームワークを確立し、将来の作業の足がかりとして役立つ強力なベースライン方法を提案します。パノラマカテゴリを含めることで画像に内在する意味の豊かさを活用し、セグメンテーションを使用してきめ細かいレベルで視覚的根拠にアプローチします。グラウンドトゥルースの観点から、MSCOCOデータセットのパノラマセグメンテーション内の特定の領域にローカライズされたナラティブ注釈を自動的に転送するアルゴリズムを提案します。注釈の品質を保証するために、WordNetに含まれているセマンティック構造を利用して、意味のある関連するパノラマセグメンテーション領域に基づいた名詞句を排他的に組み込みます。提案されたベースラインは、55.4の絶対平均再現率ポイントのパフォーマンスを達成します。この結果は、パノプティックナラティブグラウンディングの方法の開発において、限界をさらに押し上げるための適切な基盤です。
This paper proposes Panoptic Narrative Grounding, a spatially fine and general formulation of the natural language visual grounding problem. We establish an experimental framework for the study of this new task, including new ground truth and metrics, and we propose a strong baseline method to serve as stepping stone for future work. We exploit the intrinsic semantic richness in an image by including panoptic categories, and we approach visual grounding at a fine-grained level by using segmentations. In terms of ground truth, we propose an algorithm to automatically transfer Localized Narratives annotations to specific regions in the panoptic segmentations of the MS COCO dataset. To guarantee the quality of our annotations, we take advantage of the semantic structure contained in WordNet to exclusively incorporate noun phrases that are grounded to a meaningfully related panoptic segmentation region. The proposed baseline achieves a performance of 55.4 absolute Average Recall points. This result is a suitable foundation to push the envelope further in the development of methods for Panoptic Narrative Grounding.
updated: Fri Sep 10 2021 16:51:27 GMT+0000 (UTC)
published: Fri Sep 10 2021 16:51:27 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト