arXiv reaDer
HiP: 階層的知覚者
HiP: Hierarchical Perceiver
Perceivers などの一般的な知覚システムは、任意のモダリティを任意の組み合わせで処理でき、最大数十万の入力を処理できます。グローバルなアテンション操作のみを使用して、この一般性を実現します。ただし、これは生の高解像度画像またはビデオを処理するために必要な入力サイズにスケールアップすることを妨げます。このホワイトペーパーでは、これらのモデルにある程度の局所性を導入して、一般性を維持しながら効率を大幅に改善できることを示します。それらをさらにスケーリングするために、非常に大きな信号の高密度の低次元位置埋め込みを学習できる自己教師付きアプローチを導入します。得られたモデルを Hierarchical Perceiver (HiP) と呼びます。要約すると、私たちの貢献は次のとおりです。1) Perceiver タイプのモデルを未加工の高解像度画像およびオーディオ + ビデオにスケーリングすること、2) マスクされた自動エンコーディングを使用して 1M 以上の位置埋め込みをゼロから学習する可能性を示すこと、3) 生データに対する競争力のあるパフォーマンスを実証することImageNet、AudioSet、PASCAL VOC、ModelNet40、および Kinetics データセットから、まったく同じで変更されていないモデルを使用し、特殊な前処理やトークン化を行わない。
General perception systems such as Perceivers can process arbitrary modalities in any combination and are able to handle up to a few hundred thousand inputs. They achieve this generality by using exclusively global attention operations. This however hinders them from scaling up to the inputs sizes required to process raw high-resolution images or video. In this paper, we show that some degree of locality can be introduced back into these models, greatly improving their efficiency while preserving their generality. To scale them further, we introduce a self-supervised approach that enables learning dense low-dimensional positional embeddings for very large signals. We call the resulting model a Hierarchical Perceiver (HiP). In sum our contributions are: 1) scaling Perceiver-type models to raw high-resolution images and audio+video, 2) showing the feasibility of learning 1M+ positional embeddings from scratch using masked auto-encoding, 3) demonstrating competitive performance on raw data from ImageNet, AudioSet, PASCAL VOC, ModelNet40 and Kinetics datasets with the same exact, unchanged model and without specialized preprocessing or any tokenization.
updated: Thu Nov 03 2022 18:34:02 GMT+0000 (UTC)
published: Tue Feb 22 2022 13:39:14 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト