Question-controlled Text-aware Image Captioning
複数のシーンテキストを含む画像の場合、さまざまな人々がさまざまなテキスト情報に関心を持つ可能性があります。現在のテキスト対応の画像キャプションモデルは、さまざまな情報ニーズに応じて特徴的なキャプションを生成することができません。パーソナライズされたテキスト対応のキャプションを生成する方法を探るために、新しい挑戦的なタスク、つまり質問制御のテキスト対応の画像キャプション(Qc-TextCap)を定義します。質問を制御信号として使用する場合、このタスクでは、モデルが質問を理解し、関連するシーンテキストを見つけて、オブジェクトと一緒に人間の言語で流暢に説明する必要があります。 2つの既存のテキスト対応キャプションデータセットに基づいて、タスクをサポートする2つのデータセットControlTextCapsとControlVizWizを自動的に構築します。新しいジオメトリと質問認識モデル(GQAM)を提案します。 GQAMはまず、ジオメトリに基づいたビジュアルエンコーダを適用して、空間的な関係を考慮しながら、領域レベルのオブジェクト機能と領域レベルのシーンテキスト機能を融合します。次に、質問ガイドエンコーダーを設計して、各質問に最も関連性の高い視覚的機能を選択します。最後に、GQAMは、マルチモーダルデコーダーを使用してパーソナライズされたテキスト対応のキャプションを生成します。私たちのモデルは、2つのデータセットの両方で慎重に設計されたベースラインよりも優れたキャプションパフォーマンスと質問応答能力を実現します。質問を制御信号として使用することで、私たちのモデルは、最先端のテキスト対応キャプションモデルよりも有益で多様なキャプションを生成します。コードとデータセットはで公開されています。
For an image with multiple scene texts, different people may be interested in different text information. Current text-aware image captioning models are not able to generate distinctive captions according to various information needs. To explore how to generate personalized text-aware captions, we define a new challenging task, namely Question-controlled Text-aware Image Captioning (Qc-TextCap). With questions as control signals, this task requires models to understand questions, find related scene texts and describe them together with objects fluently in human language. Based on two existing text-aware captioning datasets, we automatically construct two datasets, ControlTextCaps and ControlVizWiz to support the task. We propose a novel Geometry and Question Aware Model (GQAM). GQAM first applies a Geometry-informed Visual Encoder to fuse region-level object features and region-level scene text features with considering spatial relationships. Then, we design a Question-guided Encoder to select the most relevant visual features for each question. Finally, GQAM generates a personalized text-aware caption with a Multimodal Decoder. Our model achieves better captioning performance and question answering ability than carefully designed baselines on both two datasets. With questions as control signals, our model generates more informative and diverse captions than the state-of-the-art text-aware captioning model. Our code and datasets are publicly available at
updated: Wed Aug 04 2021 13:34:54 GMT+0000 (UTC)
published: Wed Aug 04 2021 13:34:54 GMT+0000 (UTC)
