arXiv reaDer
マルチスケールビジョントランスフォーマー
Multiscale Vision Transformers
マルチスケール機能階層の独創的なアイデアをトランスモデルと結び付けることにより、ビデオおよび画像認識用のマルチスケールビジョントランスフォーマー(MViT)を紹介します。マルチスケールトランスフォーマーには、いくつかのチャネル解像度スケールステージがあります。入力解像度と小さなチャネル次元から始めて、ステージは空間解像度を下げながらチャネル容量を階層的に拡張します。これにより、初期のレイヤーが高空間解像度で動作して単純な低レベルの視覚情報をモデル化し、より深いレイヤーが空間的に粗いが複雑な高次元のフィーチャである、フィーチャのマルチスケールピラミッドが作成されます。大規模な外部事前トレーニングに依存し、計算とパラメーターのコストが5〜10倍高い同時ビジョントランスフォーマーよりも優れている、さまざまなビデオ認識タスクの視覚信号の高密度な性質をモデル化するために、この基本的なアーキテクチャの事前評価を行います。さらに、時間的次元を削除し、モデルを画像分類に適用します。このモデルは、ビジョントランスフォーマーに関する以前の作業よりも優れています。コードはhttps://github.com/facebookresearch/SlowFastで入手できます。
We present Multiscale Vision Transformers (MViT) for video and image recognition, by connecting the seminal idea of multiscale feature hierarchies with transformer models. Multiscale Transformers have several channel-resolution scale stages. Starting from the input resolution and a small channel dimension, the stages hierarchically expand the channel capacity while reducing the spatial resolution. This creates a multiscale pyramid of features with early layers operating at high spatial resolution to model simple low-level visual information, and deeper layers at spatially coarse, but complex, high-dimensional features. We evaluate this fundamental architectural prior for modeling the dense nature of visual signals for a variety of video recognition tasks where it outperforms concurrent vision transformers that rely on large scale external pre-training and are 5-10x more costly in computation and parameters. We further remove the temporal dimension and apply our model for image classification where it outperforms prior work on vision transformers. Code is available at: https://github.com/facebookresearch/SlowFast
updated: Thu Apr 22 2021 17:59:45 GMT+0000 (UTC)
published: Thu Apr 22 2021 17:59:45 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト