弱教師あり接地画像キャプション (WSGIC) は、境界ボックス監視を使用せずに、キャプションを生成し、入力画像内で予測されたオブジェクト単語を接地 (位置特定) することを目的としています。最近の 2 段階ソリューションでは、主にボトムアップ パイプラインが適用されます。(1) まず、既製のオブジェクト検出器を適用して、入力画像を複数の領域特徴にエンコードします。 (2) 次に、キャプションとグラウンディングにソフト アテンション メカニズムを活用します。ただし、オブジェクト検出器は主にオブジェクトのセマンティクス (つまり、オブジェクト カテゴリ) を抽出するように設計されています。さらに、構造イメージを個々の提案に分解します。その結果、後続の接地キャプショナは、オブジェクト間の関係 (たとえば、人は何をしているのか) を見落とし、接地のために互換性のない提案領域を選択しながら、正しいオブジェクト語を見つけるために過剰適合されることがよくあります。これらの問題に対処するために、RGB 画像を入力として直接受け取り、トップダウン画像レベルでキャプションとグラウンディングを実行する、1 段階の弱く監視されたグラウンデッド キャプションを提案します。さらに、関係モジュールを 1 段階フレームワークに明示的に挿入して、マルチラベル分類を通じて関係の理解を促進します。関係セマンティクスは、キャプション内の関連語の予測を支援します。関係語は、グラウンディングされたキャプション作成者がより正確なキャプションを生成するのを支援するだけでなく、グラウンディングのパフォーマンスも向上させることが観察されています。 2 つの困難なデータセット (Flick30k Entities キャプションと MSCOCO キャプション) に対して、提案した方法の有効性を検証します。実験結果は、私たちの方法が最先端の接地性能を達成することを示しています。
Weakly supervised grounded image captioning (WSGIC) aims to generate the caption and ground (localize) predicted object words in the input image without using bounding box supervision. Recent two-stage solutions mostly apply a bottom-up pipeline: (1) first apply an off-the-shelf object detector to encode the input image into multiple region features; (2) and then leverage a soft-attention mechanism for captioning and grounding. However, object detectors are mainly designed to extract object semantics (i.e., the object category). Besides, they break down the structural images into pieces of individual proposals. As a result, the subsequent grounded captioner is often overfitted to find the correct object words, while overlooking the relation between objects (e.g., what is the person doing?), and selecting incompatible proposal regions for grounding. To address these difficulties, we propose a one-stage weakly supervised grounded captioner that directly takes the RGB image as input to perform captioning and grounding at the top-down image level. In addition, we explicitly inject a relation module into our one-stage framework to encourage the relation understanding through multi-label classification. The relation semantics aid the prediction of relation words in the caption. We observe that the relation words not only assist the grounded captioner in generating a more accurate caption but also improve the grounding performance. We validate the effectiveness of our proposed method on two challenging datasets (Flick30k Entities captioning and MSCOCO captioning). The experimental results demonstrate that our method achieves state-of-the-art grounding performance.