arXiv reaDer
Caterpillar を使用して小規模な画像をニブルする
Using Caterpillar to Nibble Small-Scale Images
最近、MLP ベースのモデルが普及し、中規模のデータセット (ImageNet-1k など) で優れたパフォーマンスを達成しました。ただし、小規模な画像への直接的な応用は依然として限られています。この問題に対処するために、局所性の誘導バイアスを利用するための Shifted-Pillars-Concatenation (SPC) の主要モジュールを提案することにより、新しい MLP ベースのネットワーク、つまり Caterpillar を設計します。 SPC は 2 つのプロセスで構成されます。(1) ピラー シフト。画像内のすべてのピラーをさまざまな方向にシフトしてコピーを生成します。(2) ピラー連結。画像の離散シフト近傍からローカル情報をキャプチャします。シフトされたコピー。広範な実験により、一般的な小規模データセットでの強力なスケーラビリティと優れたパフォーマンス、および ImageNet-1K から最近の最先端の手法までの競争力のあるパフォーマンスが実証されています。
Recently, MLP-based models have become popular and attained significant performance on medium-scale datasets (e.g., ImageNet-1k). However, their direct applications to small-scale images remain limited. To address this issue, we design a new MLP-based network, namely Caterpillar, by proposing a key module of Shifted-Pillars-Concatenation (SPC) for exploiting the inductive bias of locality. SPC consists of two processes: (1) Pillars-Shift, which is to shift all pillars within an image along different directions to generate copies, and (2) Pillars-Concatenation, which is to capture the local information from discrete shift neighborhoods of the shifted copies. Extensive experiments demonstrate its strong scalability and superior performance on popular small-scale datasets, and the competitive performance on ImageNet-1K to recent state-of-the-art methods.
updated: Sun May 28 2023 06:19:36 GMT+0000 (UTC)
published: Sun May 28 2023 06:19:36 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト