arXiv reaDer
スマートフォン用セルフアテンションMobileNetを使用した画像の傾き補正への簡単なアプローチ
A Simple Approach to Image Tilt Correction with Self-Attention MobileNet for Smartphones
私たちの仕事の主な貢献は2つあります。最初に、SA-MobileNetネットワークと呼ばれるSelf-Attention MobileNetを紹介します。これは、標準の畳み込みカーネルで行われるようにローカル領域を処理する代わりに、画像特徴間の長距離依存関係をモデル化できます。 SA-MobileNetには、MobileNetV3モデルの逆ボトルネックブロックと統合された自己注意モジュールが含まれています。これにより、画像機能のチャネルごとの注意と空間的注意の両方がモデリングされ、同時に、低リソースデバイス。次に、画像の傾きを検出するための新しいトレーニングパイプラインを提案します。この問題は、使用するデータセットに応じて、1〜2度の狭い間隔で傾斜した入力画像の複数の角度を予測するマルチラベルシナリオで処理します。このプロセスは、マルチラベル学習における2次以上の方法の計算オーバーヘッドなしに、ラベル間の暗黙的な相関を誘発します。私たちの斬新なアプローチとアーキテクチャの組み合わせにより、MobileNetV3モデルと比較して、モバイルデバイスでの画像傾斜角の検出に関する最先端の結果を提示します。最後に、SA-MobileNetは、SUN397、NYU-V1、およびADE20KデータセットでMobileNetV3よりもそれぞれ6.42%、10.51%、および9.09%ポイント正確であり、Snapdragon750オクタコアで少なくとも4ミリ秒高速であることを確認します。
The main contributions of our work are two-fold. First, we present a Self-Attention MobileNet, called SA-MobileNet Network that can model long-range dependencies between the image features instead of processing the local region as done by standard convolutional kernels. SA-MobileNet contains self-attention modules integrated with the inverted bottleneck blocks of the MobileNetV3 model which results in modeling of both channel-wise attention and spatial attention of the image features and at the same time introduce a novel self-attention architecture for low-resource devices. Secondly, we propose a novel training pipeline for the task of image tilt detection. We treat this problem in a multi-label scenario where we predict multiple angles for a tilted input image in a narrow interval of range 1-2 degrees, depending on the dataset used. This process induces an implicit correlation between labels without any computational overhead of the second or higher-order methods in multi-label learning. With the combination of our novel approach and the architecture, we present state-of-the-art results on detecting the image tilt angle on mobile devices as compared to the MobileNetV3 model. Finally, we establish that SA-MobileNet is more accurate than MobileNetV3 on SUN397, NYU-V1, and ADE20K datasets by 6.42%, 10.51%, and 9.09% points respectively, and faster by at least 4 milliseconds on Snapdragon 750 Octa-core.
updated: Sun Oct 31 2021 03:41:46 GMT+0000 (UTC)
published: Sun Oct 31 2021 03:41:46 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト