arXiv reaDer
視覚的トランスフォーマーに関する調査
A Survey on Visual Transformer
トランスフォーマーは、自然言語処理の分野で応用されている自己注意機構を中心としたディープニューラルネットワークの一種である。トランスフォーマーの強力な表現能力に触発されて、研究者はトランスフォーマーをコンピュータビジョンタスクに拡張することを提案している。トランスフォーマーをベースにしたモデルは、畳み込みネットワークやリカレントネットワークなどの他のネットワークタイプと比較して、様々な視覚的ベンチマークにおいて競争力があり、さらに優れた性能を示す。本稿では、これらの視覚的トランスフォーマーモデルをさまざまなタスクに分類して文献レビューを行い、これらの手法の長所と短所を分析する。具体的には、基本的な画像分類、高レベルビジョン、低レベルビジョン、ビデオ処理などが主な分類である。また、コンピュータビジョンにおける自己注意はトランスフォーマーの基本要素であるため、自己注意についても簡単に再検討する。また、トランスフォーマを実際のアプリケーションに応用するための効率的なトランスフォーマの手法も紹介する。最後に、視覚的トランスフォーマーのさらなる研究の方向性についての議論を行う。
Transformer is a type of deep neural network mainly based on self-attention mechanism which is originally applied in natural language processing field. Inspired by the strong representation ability of transformer, researchers propose to extend transformer for computer vision tasks. Transformer-based models show competitive and even better performance on various visual benchmarks compared to other network types such as convolutional networks and recurrent networks. In this paper we provide a literature review of these visual transformer models by categorizing them in different tasks and analyze the advantages and disadvantages of these methods. In particular, the main categories include the basic image classification, high-level vision, low-level vision and video processing. Self-attention in computer vision is also briefly revisited as self-attention is the base component in transformer. Efficient transformer methods are included for pushing transformer into real applications. Finally, we give a discussion about the further research directions for visual transformer.
updated: Wed Dec 23 2020 09:37:54 GMT+0000 (UTC)
published: Wed Dec 23 2020 09:37:54 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト