arXiv reaDer
トランスフォーマーネットワークでレイヤー内およびレイヤー間のグローバル表現を活用することによる画像キャプションの改善
Improving Image Captioning by Leveraging Intra- and Inter-layer Global Representation in Transformer Network
Transformerベースのアーキテクチャは、画像のキャプションで大きな成功を収めています。この場合、オブジェクト領域がエンコードされ、ベクトル表現に参加してキャプションのデコードがガイドされます。ただし、このようなベクトル表現には、画像全体を反映するグローバル情報を考慮せずに領域レベルの情報のみが含まれるため、画像のキャプションにおける複雑なマルチモーダル推論の機能を拡張できません。この論文では、より包括的なグローバル表現の抽出を可能にするグローバル拡張トランスフォーマー(GETと呼ばれる)を紹介し、次にデコーダーを適応的にガイドして高品質のキャプションを生成します。 GETでは、グローバル拡張エンコーダーはグローバル機能の埋め込み用に設計されており、グローバルアダプティブデコーダーはキャプション生成のガイダンス用に設計されています。前者は、提案されたGlobal Enhanced Attentionとレイヤーワイズフュージョンモジュールを利用して、レイヤー内およびレイヤー間のグローバル表現をモデル化します。後者には、グローバル情報をデコーダーに適応的に融合してキャプションの生成をガイドできるグローバルアダプティブコントローラーが含まれています。 MS COCOデータセットに関する広範な実験は、多くの最先端技術に対するGETの優位性を示しています。
Transformer-based architectures have shown great success in image captioning, where object regions are encoded and then attended into the vectorial representations to guide the caption decoding. However, such vectorial representations only contain region-level information without considering the global information reflecting the entire image, which fails to expand the capability of complex multi-modal reasoning in image captioning. In this paper, we introduce a Global Enhanced Transformer (termed GET) to enable the extraction of a more comprehensive global representation, and then adaptively guide the decoder to generate high-quality captions. In GET, a Global Enhanced Encoder is designed for the embedding of the global feature, and a Global Adaptive Decoder are designed for the guidance of the caption generation. The former models intra- and inter-layer global representation by taking advantage of the proposed Global Enhanced Attention and a layer-wise fusion module. The latter contains a Global Adaptive Controller that can adaptively fuse the global information into the decoder to guide the caption generation. Extensive experiments on MS COCO dataset demonstrate the superiority of our GET over many state-of-the-arts.
updated: Sun Dec 13 2020 13:38:58 GMT+0000 (UTC)
published: Sun Dec 13 2020 13:38:58 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト