arXiv reaDer
ViViT:ビデオビジョントランスフォーマー
ViViT: A Video Vision Transformer
画像分類におけるそのようなモデルの最近の成功を利用して、ビデオ分類のための純粋なトランスフォーマーベースのモデルを提示します。私たちのモデルは、入力ビデオから時空間トークンを抽出し、それが一連のトランスフォーマーレイヤーによってエンコードされます。ビデオで遭遇するトークンの長いシーケンスを処理するために、入力の空間的および時間的次元を因数分解するモデルのいくつかの効率的なバリアントを提案します。トランスベースのモデルは、大規模なトレーニングデータセットが利用可能な場合にのみ効果的であることが知られていますが、トレーニング中にモデルを効果的に正則化し、事前トレーニング済みの画像モデルを活用して比較的小さなデータセットでトレーニングできるようにする方法を示します。徹底的なアブレーション研究を実施し、Kinetics 400および600、Epic Kitchens、Something-Something v2、Moments in Timeなどの複数のビデオ分類ベンチマークで最先端の結果を達成し、深い3D畳み込みネットワークに基づく従来の方法を上回っています。さらなる調査を容易にするために、https://github.com/google-research/scenic/tree/main/scenic/projects/vivitでコードをリリースしています。
We present pure-transformer based models for video classification, drawing upon the recent success of such models in image classification. Our model extracts spatio-temporal tokens from the input video, which are then encoded by a series of transformer layers. In order to handle the long sequences of tokens encountered in video, we propose several, efficient variants of our model which factorise the spatial- and temporal-dimensions of the input. Although transformer-based models are known to only be effective when large training datasets are available, we show how we can effectively regularise the model during training and leverage pretrained image models to be able to train on comparatively small datasets. We conduct thorough ablation studies, and achieve state-of-the-art results on multiple video classification benchmarks including Kinetics 400 and 600, Epic Kitchens, Something-Something v2 and Moments in Time, outperforming prior methods based on deep 3D convolutional networks. To facilitate further research, we release code at https://github.com/google-research/scenic/tree/main/scenic/projects/vivit
updated: Mon Nov 01 2021 12:55:56 GMT+0000 (UTC)
published: Mon Mar 29 2021 15:27:17 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト