arXiv reaDer
Hilbert Flattening: 局所性保存行列展開法
Hilbert Flattening: a Locality-Preserving Matrix Unfolding Method
Zigzag flattening (ZF) は、ビジョン トランスフォーマー (ViT) などの深いモデルで画像パッチの順序を取得するためのデフォルト オプションとして一般的に使用されます。特に、マルチスケール画像を分解するとき、ZF は特徴点位置の不変性を維持できませんでした。この目的のために、ビジョンタスクにおけるシーケンス順序付けの代替手段としてヒルベルト平坦化 (HF) を調査します。具体的には、入力フィーチャの空間的局所性を維持する上での HF と ZF の理論的限界を示し、行列展開における ZF に対する HF の優位性を示します。さらに、HF のそのような局所性保存機能が、理論的には入力スケールの分散に対してロバストであることをさらに証明します。 HF の適用では、トランスフォーマーのヒルベルト パッチ埋め込みを設計して、画像の分類とセグメンテーションにおけるスケール不変の局所性保持を経験的に実証します。これは、機能のダウンサンプリングと機能/画像の補間でも検証されています。広範な実験により、いくつかの一般的なアーキテクチャとアプリケーションで一貫したパフォーマンスの向上が得られることが実証されています。
Zigzag flattening (ZF) is commonly utilized as a default option to get the image patches ordering in deep models, e.g., vision transformers (ViTs). Notably, when decomposing multi-scale images, ZF could not maintain the invariance of feature point positions. To this end, we investigate Hilbert flattening (HF) as an alternative for sequence ordering in vision tasks. Specifically, we give the theoretical bounds of HF and ZF in maintaining the spatial locality of the input features, showing the superiority of HF over ZF in matrix unfolding. Moreover, we further prove that such locality-preserving capability of HF is robust against the input scale variance in theory. In the application of HF, we design a Hilbert patch embedding for transformers to empirically demonstrate its scale-invariant locality-preserving in image classification and segmentation. This is also validated in feature down-sampling and feature/image interpolation. Extensive experiments demonstrate that it can yield consistent performance boosts for several popular architectures and applications.
updated: Mon Jan 30 2023 02:42:06 GMT+0000 (UTC)
published: Mon Feb 21 2022 13:53:04 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト