Dual-Level Collaborative Transformer for Image Captioning
オブジェクト検出ネットワークによって抽出された記述領域の特徴は、画像キャプションの最近の進歩において重要な役割を果たしてきました。ただし、従来のグリッド機能のメリットであるコンテキスト情報と詳細の不足については、依然として批判されています。このホワイトペーパーでは、2つの機能の補完的な利点を実現するために、新しいデュアルレベルコラボレーティブトランス(DLCT)ネットワークを紹介します。具体的には、DLCTでは、これら2つの機能が最初に新しいDual-way Self Attenion(DWSA)によって処理され、固有のプロパティがマイニングされます。ここでは、包括的なRelationAttentionコンポーネントも導入されて幾何学的情報が埋め込まれます。さらに、これら2つの特徴の直接融合によって引き起こされるセマンティックノイズに対処するために、局所性制約付きクロスアテンションモジュールを提案します。幾何学的整列グラフは、領域とグリッドの特徴を正確に整列および強化するために構築されます。モデルを検証するために、競争の激しいMS-COCOデータセットで広範な実験を行い、ローカルテストセットとオンラインテストセットの両方で新しい最先端のパフォーマンスを実現します。つまり、Karpathyスプリットで133.8%のCIDEr-D、135.4%です。公式分割のCIDEr。コードはで入手できます。
Descriptive region features extracted by object detection networks have played an important role in the recent advancements of image captioning. However, they are still criticized for the lack of contextual information and fine-grained details, which in contrast are the merits of traditional grid features. In this paper, we introduce a novel Dual-Level Collaborative Transformer (DLCT) network to realize the complementary advantages of the two features. Concretely, in DLCT, these two features are first processed by a novelDual-way Self Attenion (DWSA) to mine their intrinsic properties, where a Comprehensive Relation Attention component is also introduced to embed the geometric information. In addition, we propose a Locality-Constrained Cross Attention module to address the semantic noises caused by the direct fusion of these two features, where a geometric alignment graph is constructed to accurately align and reinforce region and grid features. To validate our model, we conduct extensive experiments on the highly competitive MS-COCO dataset, and achieve new state-of-the-art performance on both local and online test sets, i.e., 133.8% CIDEr-D on Karpathy split and 135.4% CIDEr on the official split. Code is available at
updated: Tue Aug 03 2021 12:14:21 GMT+0000 (UTC)
published: Sat Jan 16 2021 15:43:17 GMT+0000 (UTC)
