arXiv reaDer
離散的で連続的なアクションスペースポリシー画像とテキストのマッチングのための勾配ベースの注意
Discrete-continuous Action Space Policy Gradient-based Attention for Image-Text Matching
画像とテキストのマッチングは、大規模なアプリケーションでの重要なマルチモーダルタスクです。画像とテキストを同様のセマンティック情報と照合しようとします。既存のアプローチは、異なるモダリティを共通の空間に明示的に変換しません。一方、画像とテキストのマッチングモデルで広く使用されている注意メカニズムには監視がありません。画像とテキストの埋め込みを共通の空間に投影し、評価指標に直接注意の重みを最適化する新しい注意スキームを提案します。提案された注意スキームは、一種の監視あり注意と見なすことができ、追加の注釈は必要ありません。これは、以前の連続アクション空間ポリシー勾配よりも複雑なアクション空間のモデリングに効果的な、新しい離散連続アクション空間ポリシー勾配アルゴリズムを介してトレーニングされます。広く使用されている2つのベンチマークデータセットであるFlickr30kとMS-COCOで提案された方法を評価し、以前のアプローチを大幅に上回っています。
Image-text matching is an important multi-modal task with massive applications. It tries to match the image and the text with similar semantic information. Existing approaches do not explicitly transform the different modalities into a common space. Meanwhile, the attention mechanism which is widely used in image-text matching models does not have supervision. We propose a novel attention scheme which projects the image and text embedding into a common space and optimises the attention weights directly towards the evaluation metrics. The proposed attention scheme can be considered as a kind of supervised attention and requiring no additional annotations. It is trained via a novel Discrete-continuous action space policy gradient algorithm, which is more effective in modelling complex action space than previous continuous action space policy gradient. We evaluate the proposed methods on two widely-used benchmark datasets: Flickr30k and MS-COCO, outperforming the previous approaches by a large margin.
updated: Wed Apr 21 2021 08:34:22 GMT+0000 (UTC)
published: Wed Apr 21 2021 08:34:22 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト