arXiv reaDer
方向のある物体検出のための空間変換デカップリング
Spatial Transform Decoupling for Oriented Object Detection
ビジョン トランスフォーマー (ViT) は、コンピューター ビジョン タスクで目覚ましい成功を収めています。ただし、回転に依存するシナリオにおけるその可能性は十分に検討されておらず、この制限は本質的に、データ転送プロセスにおける空間不変性の欠如に起因している可能性があります。この研究では、空間変換デカップリング (STD) と呼ばれる新しいアプローチを紹介し、ViT による指向性オブジェクト検出のためのシンプルかつ効果的なソリューションを提供します。スタックされた ViT ブロック上に構築された STD は、個別のネットワーク ブランチを利用して境界ボックスの位置、サイズ、角度を予測し、分割統治方式で ViT の空間変換の可能性を効果的に利用します。さらに、回帰パラメータに基づいて計算されたカスケード アクティベーション マスク (CAM) を集約することにより、STD は対象領域 (RoI) 内の特徴を徐々に強化し、セルフ アテンション メカニズムを補完します。付加機能なしで、STD は DOTA-v1.0 (82.24% mAP) や HRSC2016 (98.55% mAP) を含むベンチマーク データセットで最先端のパフォーマンスを達成し、提案された方法の有効性を示しています。ソース コードは https://github.com/yuhongtian17/Spatial-Transform-Decoupling で入手できます。
Vision Transformers (ViTs) have achieved remarkable success in computer vision tasks. However, their potential in rotation-sensitive scenarios has not been fully explored, and this limitation may be inherently attributed to the lack of spatial invariance in the data-forwarding process. In this study, we present a novel approach, termed Spatial Transform Decoupling (STD), providing a simple-yet-effective solution for oriented object detection with ViTs. Built upon stacked ViT blocks, STD utilizes separate network branches to predict the position, size, and angle of bounding boxes, effectively harnessing the spatial transform potential of ViTs in a divide-and-conquer fashion. Moreover, by aggregating cascaded activation masks (CAMs) computed upon the regressed parameters, STD gradually enhances features within regions of interest (RoIs), which complements the self-attention mechanism. Without bells and whistles, STD achieves state-of-the-art performance on the benchmark datasets including DOTA-v1.0 (82.24% mAP) and HRSC2016 (98.55% mAP), which demonstrates the effectiveness of the proposed method. Source code is available at https://github.com/yuhongtian17/Spatial-Transform-Decoupling.
updated: Mon Aug 21 2023 08:36:23 GMT+0000 (UTC)
published: Mon Aug 21 2023 08:36:23 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト