arXiv reaDer
ビデオ トランスフォーマー: 調査
Video Transformers: A Survey
Transformer モデルは、長距離相互作用の処理に大きな成功を収めており、ビデオをモデリングするための有望なツールとなっています。ただし、誘導バイアスがなく、入力長に応じて 2 次的にスケーリングされます。時間次元で導入された高次元を扱う場合、これらの制限はさらに悪化します。 Transformers for Vision の進歩を分析する調査はありますが、ビデオ固有の設計の詳細な分析に焦点を当てた調査はありません。今回の調査では、トランスフォーマーをモデル映像に活用した作品の主な貢献度と傾向を分析。具体的には、ビデオが最初に入力レベルとしてどのように処理されるかを掘り下げます。次に、ビデオをより効率的に処理し、冗長性を減らし、有用な誘導バイアスを再導入し、長期的な時間的ダイナミクスをキャプチャするために行われたアーキテクチャの変更を研究します。さらに、さまざまなトレーニング体制の概要を説明し、ビデオの効果的な自己管理型学習戦略を探ります。最後に、ビデオ トランスフォーマーの最も一般的なベンチマーク (アクション分類) でパフォーマンス比較を行い、計算の複雑さが少なくても 3D ConvNets よりも優れていることがわかりました。
Transformer models have shown great success handling long-range interactions, making them a promising tool for modeling video. However they lack inductive biases and scale quadratically with input length. These limitations are further exacerbated when dealing with the high dimensionality introduced with the temporal dimension. While there are surveys analyzing the advances of Transformers for vision, none focus on an in-depth analysis of video-specific designs. In this survey we analyze main contributions and trends of works leveraging Transformers to model video. Specifically, we delve into how videos are handled as input-level first. Then, we study the architectural changes made to deal with video more efficiently, reduce redundancy, re-introduce useful inductive biases, and capture long-term temporal dynamics. In addition we provide an overview of different training regimes and explore effective self-supervised learning strategies for video. Finally, we conduct a performance comparison on the most common benchmark for Video Transformers (i.e., action classification), finding them to outperform 3D ConvNets even with less computational complexity.
updated: Fri Dec 09 2022 12:54:13 GMT+0000 (UTC)
published: Sun Jan 16 2022 07:31:55 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト