arXiv reaDer
表示および非表示のオブジェクトカテゴリがあるシーンでのキャプションの生成
Caption Generation on Scenes with Seen and Unseen Object Categories
画像キャプションの生成は、視覚と言語のドメインが交差する場所で最も困難な問題の1つです。この作業では、入力シーンに対応する視覚的またはテキストのトレーニング例がない視覚的オブジェクトを組み込むことができる現実的なキャプションタスクを提案します。この問題に対して、検出と非表示の両方のクラスのインスタンスを認識してローカライズするための単一ステージの一般化されたゼロショット検出モデルと、検出を文に変換するテンプレートベースのキャプションモデルで構成される検出駆動型アプローチを提案します。キャプションに不可欠な情報を提供する一般化されたゼロショット検出モデルを改善するために、クラス間の意味的類似性の観点から効果的なクラス表現を定義し、それらの特別な構造を活用して、効果的な見えない/見えないクラス信頼スコアキャリブレーションメカニズムを構築します。また、生成された文の視覚的コンテンツと非視覚的コンテンツを別々に測定することにより、キャプション出力の追加の洞察を提供する新しい評価メトリックを提案します。私たちの実験は、提案されたゼロショット設定でキャプションを研究することの重要性を強調し、提案された検出駆動型ゼロショットキャプションアプローチの有効性を検証します。
Image caption generation is one of the most challenging problems at the intersection of vision and language domains. In this work, we propose a realistic captioning task where the input scenes may incorporate visual objects with no corresponding visual or textual training examples. For this problem, we propose a detection-driven approach that consists of a single-stage generalized zero-shot detection model to recognize and localize instances of both seen and unseen classes, and a template-based captioning model that transforms detections into sentences. To improve the generalized zero-shot detection model, which provides essential information for captioning, we define effective class representations in terms of class-to-class semantic similarities, and leverage their special structure to construct an effective unseen/seen class confidence score calibration mechanism. We also propose a novel evaluation metric that provides additional insights for the captioning outputs by separately measuring the visual and non-visual contents of generated sentences. Our experiments highlight the importance of studying captioning in the proposed zero-shot setting, and verify the effectiveness of the proposed detection-driven zero-shot captioning approach.
updated: Fri Jul 01 2022 11:47:46 GMT+0000 (UTC)
published: Fri Aug 13 2021 10:43:20 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト