arXiv reaDer
画像読み取りのためのジグザグ平坦化の再考
Rethinking the Zigzag Flattening for Image Reading
単語ベクトルのシーケンス順序は、自然言語処理(NLP)で証明されているテキストの読み取りに非常に重要です。ただし、コンピュータビジョン(CV)での異なるシーケンス順序の規則は十分に検討されていませんでした。たとえば、ビジョントランスフォーマー(ViT)で画像パッチの順序を取得するためのデフォルトオプションとして「ジグザグ」フラット化(ZF)が一般的に使用される理由などです。特に、マルチスケール画像を分解する場合、ZFは特徴点の位置の不変性を維持できませんでした。この目的のために、CVでのシーケンス順序付けの別の方法としてヒルベルトフラクタル平坦化(HF)を調査し、ZFと対比します。 HFは、次元空間のマルチスケール変換を実行するときに、空間的局所性を維持する上で他の曲線よりも優れていることが証明されています。また、ほとんどのディープニューラルネットワーク(DNN)に簡単に接続できます。広範な実験により、さまざまなアーキテクチャで一貫性のある大幅なパフォーマンスの向上が得られることが実証されています。最後に、私たちの研究が画像読み取りの平坦化戦略に関するさらなる研究のきっかけとなることを願っています。
Sequence ordering of word vector matters a lot to text reading, which has been proven in natural language processing (NLP). However, the rule of different sequence ordering in computer vision (CV) was not well explored, e.g., why the "zigzag" flattening (ZF) is commonly utilized as a default option to get the image patches ordering in vision transformers (ViTs). Notably, when decomposing multi-scale images, the ZF could not maintain the invariance of feature point positions. To this end, we investigate the Hilbert fractal flattening (HF) as another method for sequence ordering in CV and contrast it against ZF. The HF has proven to be superior to other curves in maintaining spatial locality, when performing multi-scale transformations of dimensional space. And it can be easily plugged into most deep neural networks (DNNs). Extensive experiments demonstrate that it can yield consistent and significant performance boosts for a variety of architectures. Finally, we hope that our studies spark further research about the flattening strategy of image reading.
updated: Tue Mar 15 2022 00:17:08 GMT+0000 (UTC)
published: Mon Feb 21 2022 13:53:04 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト