arXiv reaDer
イメージパッチは波です:Quantum Inspired Vision MLP
An Image Patch is a Wave: Quantum Inspired Vision MLP
コンピュータビジョンの分野では、最近の研究により、主に完全に接続された層によってスタックされた純粋なMLPアーキテクチャが、CNNおよびトランスとの競合するパフォーマンスを実現できることが示されています。ビジョンMLPの入力画像は通常、複数のトークン(パッチ)に分割されますが、既存のMLPモデルは、異なる画像からのトークンのさまざまなセマンティック情報を無視して、固定の重みでそれらを直接集約します。トークンを動的に集約するために、各トークンを振幅と位相の2つの部分を持つ波動関数として表すことを提案します。振幅は元の特徴であり、位相項は入力画像の意味内容に応じて変化する複素数値です。フェーズ項を導入すると、MLPのトークンと固定重みの間の関係を動的に調整できます。波のようなトークン表現に基づいて、ビジョンタスク用の新しいWave-MLPアーキテクチャを確立します。広範な実験により、提案されたWave-MLPは、画像分類、オブジェクト検出、セマンティックセグメンテーションなどのさまざまなビジョンタスクにおいて、最先端のMLPアーキテクチャよりも優れていることが実証されています。ソースコードはhttps://github.com/huawei-noah/CV-Backbones/tree/master/wavemlp_pytorchおよびhttps://gitee.com/mindspore/models/tree/master/research/cv/wave_mlpで入手できます。 。
In the field of computer vision, recent works show that a pure MLP architecture mainly stacked by fully-connected layers can achieve competing performance with CNN and transformer. An input image of vision MLP is usually split into multiple tokens (patches), while the existing MLP models directly aggregate them with fixed weights, neglecting the varying semantic information of tokens from different images. To dynamically aggregate tokens, we propose to represent each token as a wave function with two parts, amplitude and phase. Amplitude is the original feature and the phase term is a complex value changing according to the semantic contents of input images. Introducing the phase term can dynamically modulate the relationship between tokens and fixed weights in MLP. Based on the wave-like token representation, we establish a novel Wave-MLP architecture for vision tasks. Extensive experiments demonstrate that the proposed Wave-MLP is superior to the state-of-the-art MLP architectures on various vision tasks such as image classification, object detection and semantic segmentation. The source code will be available at https://github.com/huawei-noah/CV-Backbones/tree/master/wavemlp_pytorch and https://gitee.com/mindspore/models/tree/master/research/cv/wave_mlp.
updated: Fri Mar 11 2022 02:41:30 GMT+0000 (UTC)
published: Wed Nov 24 2021 06:25:49 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト