arXiv reaDer
接地された画像のキャプションに対する分散された注意
Distributed Attention for Grounded Image Captioning
弱教師あり接地画像キャプションの問題を研究します。つまり、画像が与えられた場合の目標は、画像内の対応する領域に基づいた各名詞の単語を使用して、画像のコンテキストを説明する文を自動的に生成することです。このタスクは、監督としての明確なきめ細かい領域の単語の配置がないため、困難です。以前の弱教師あり手法は、主に注意の精度を向上させるためにさまざまな種類の正則化スキームを調査します。しかし、彼らのパフォーマンスはまだ完全に監督されたものからは程遠いです。無視されてきた主な問題の1つは、視覚的に根拠のある単語を生成するための注意は、最も識別力のある部分にのみ焦点を当て、オブジェクト全体をカバーできないことです。この目的のために、この問題を軽減するためのシンプルで効果的な方法を提案します。これは、本書では部分的な接地問題と呼ばれます。具体的には、分散型注意メカニズムを設計して、単語を生成しながら、一貫したセマンティクスで複数の空間的に異なる領域からの情報を集約するようにネットワークを強制します。したがって、焦点を絞った領域の提案の結合は、関心のあるオブジェクトを完全に囲む視覚領域を形成する必要があります。広範な実験により、最先端の方法と比較して、提案された方法の優位性が実証されました。
We study the problem of weakly supervised grounded image captioning. That is, given an image, the goal is to automatically generate a sentence describing the context of the image with each noun word grounded to the corresponding region in the image. This task is challenging due to the lack of explicit fine-grained region word alignments as supervision. Previous weakly supervised methods mainly explore various kinds of regularization schemes to improve attention accuracy. However, their performances are still far from the fully supervised ones. One main issue that has been ignored is that the attention for generating visually groundable words may only focus on the most discriminate parts and can not cover the whole object. To this end, we propose a simple yet effective method to alleviate the issue, termed as partial grounding problem in our paper. Specifically, we design a distributed attention mechanism to enforce the network to aggregate information from multiple spatially different regions with consistent semantics while generating the words. Therefore, the union of the focused region proposals should form a visual region that encloses the object of interest completely. Extensive experiments have demonstrated the superiority of our proposed method compared with the state-of-the-arts.
updated: Mon Aug 02 2021 17:28:33 GMT+0000 (UTC)
published: Mon Aug 02 2021 17:28:33 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト