arXiv reaDer
単なる注意以上のもの:対照的な制約を伴うクロスモーダル注意の学習
More Than Just Attention: Learning Cross-Modal Attentions with Contrastive Constraints
注意メカニズムは、画像のキャプションや情報検索などのクロスモーダルタスクに広く適用されており、さまざまなモダリティ間で詳細な関連性を学習する機能により、目覚ましい改善を実現しています。ただし、既存の注意モデルは、トレーニング中に直接の監督が含まれないため、最適ではなく、正確性に欠ける可能性があります。この作業では、このような制限に対処するために、対照コンテンツリソース(CCR)と対照コンテンツスワッピング(CCS)の制約を提案します。これらの制約は、明示的な注意注釈を必要とせずに、対照的な学習方法で注意モデルのトレーニングを監視します。さらに、注意の質を定量的に評価するために、注意の適合率、再現率、F1-スコアの3つの指標を導入します。クロスモーダル検索(画像-テキストマッチング)タスクで提案された制約を評価します。 Flickr30kデータセットとMS-COCOデータセットの両方での実験は、これらの注意制約を2つの最先端の注意ベースのモデルに統合すると、検索精度と注意メトリックの両方の点でモデルのパフォーマンスが向上することを示しています。
Attention mechanisms have been widely applied to cross-modal tasks such as image captioning and information retrieval, and have achieved remarkable improvements due to its capability to learn fine-grained relevance across different modalities. However, existing attention models could be sub-optimal and lack preciseness because there is no direct supervision involved during training. In this work, we propose Contrastive Content Re-sourcing (CCR) and Contrastive Content Swapping (CCS) constraints to address such limitation. These constraints supervise the training of attention models in a contrastive learning manner without requiring explicit attention annotations. Additionally, we introduce three metrics, namely Attention Precision, Recall and F1-Score, to quantitatively evaluate the attention quality. We evaluate the proposed constraints with cross-modal retrieval (image-text matching) task. The experiments on both Flickr30k and MS-COCO datasets demonstrate that integrating these attention constraints into two state-of-the-art attention-based models improves the model performance in terms of both retrieval accuracy and attention metrics.
updated: Thu May 20 2021 08:48:10 GMT+0000 (UTC)
published: Thu May 20 2021 08:48:10 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト