arXiv reaDer
画像キャプション用の Transformer におけるシーケンス長のボトルネックの調査
Exploring the sequence length bottleneck in the Transformer for Image Captioning
最新のアーキテクチャは、畳み込み、再帰、自己注意の 3 つのアプローチの組み合わせとバリエーションに依存しています。私たちの研究は、配列の長さを変更するという考えに基づいた配列モデリングの新しい研究方向の基礎を築くことを試みています。これを行うために、入力シーケンスを動的または静的に異なるシーケンス長を特徴とする新しいものに変換する「拡張メカニズム」と呼ばれる新しい方法を提案します。さらに、そのような方法を活用し、MS-COCO 2014 データセットで競争力のあるパフォーマンスを達成する新しいアーキテクチャを導入し、アンサンブルおよび単一モデル構成の Karpathy テスト分割でそれぞれ 134.6 および 131.4 CIDEr-D、および 130 CIDEr-D を生成します。定期的でも十分に注意を払っているわけでもないにもかかわらず、公式のオンライン評価サーバー。同時に、設計の効率面に取り組み、標準的なものとは対照的に、ほとんどの計算リソースに適した便利なトレーニング戦略を導入します。ソース コードは https://github.com/jchenghu/exploring で入手できます。
Most recent state of the art architectures rely on combinations and variations of three approaches: convolutional, recurrent and self-attentive methods. Our work attempts in laying the basis for a new research direction for sequence modeling based upon the idea of modifying the sequence length. In order to do that, we propose a new method called "Expansion Mechanism" which transforms either dynamically or statically the input sequence into a new one featuring a different sequence length. Furthermore, we introduce a novel architecture that exploits such method and achieves competitive performances on the MS-COCO 2014 data set, yielding 134.6 and 131.4 CIDEr-D on the Karpathy test split in the ensemble and single model configuration respectively and 130 CIDEr-D in the official online evaluation server, despite being neither recurrent nor fully attentive. At the same time we address the efficiency aspect in our design and introduce a convenient training strategy suitable for most computational resources in contrast to the standard one. Source code is available at https://github.com/jchenghu/exploring
updated: Sat Dec 24 2022 10:25:48 GMT+0000 (UTC)
published: Thu Jul 07 2022 14:37:02 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト