arXiv reaDer
境界の不連続性のない回転検出のための高密度ラベルエンコーディング
Dense Label Encoding for Boundary Discontinuity Free Rotation Detection
回転検出は、航空写真、シーンテキスト、顔などを含む多くの視覚的アプリケーションの基本的な構成要素として機能します。方向推定の主要な回帰ベースのアプローチとは異なり、このペーパーでは、分類に基づく比較的研究されていない方法を検討します。回帰ベースの検出器で発生した境界の不連続性の問題を本質的に却下することが望まれます。 2つの側面でそのフロンティアを推進するための新しい手法を提案します。i)新しいエンコードメカニズム:角度分類用の2つの高密度コード化ラベル(DCL)の設計、既存の分類ベースの検出器のまばらにコード化されたラベル(SCL)を置き換え、ベンチマーク全体で経験的に観察されたように、トレーニング速度が3倍に向上し、さらに検出精度が大幅に向上します。 ii)損失の再重み付け:DCLベースの検出器を角度距離とオブジェクトのアスペクト比に敏感にすることにより、特に正方形のようなオブジェクトの検出精度を向上させる角度距離とアスペクト比に敏感な重み付け(ADARSW)を提案します。航空画像の大規模な公開データセット、つまりDOTA、UCAS-AOD、HRSC2016、およびシーンテキストデータセットICDAR2015とMLTに関する広範な実験と視覚的分析は、私たちのアプローチの有効性を示しています。ソースコードはhttps://github.com/Thinklab-SJTU/DCL_RetinaNet_Tensorflowで入手でき、オープンソースの回転検出ベンチマークhttps://github.com/yangxue0827/RotationDetectionにも統合されています。
Rotation detection serves as a fundamental building block in many visual applications involving aerial image, scene text, and face etc. Differing from the dominant regression-based approaches for orientation estimation, this paper explores a relatively less-studied methodology based on classification. The hope is to inherently dismiss the boundary discontinuity issue as encountered by the regression-based detectors. We propose new techniques to push its frontier in two aspects: i) new encoding mechanism: the design of two Densely Coded Labels (DCL) for angle classification, to replace the Sparsely Coded Label (SCL) in existing classification-based detectors, leading to three times training speed increase as empirically observed across benchmarks, further with notable improvement in detection accuracy; ii) loss re-weighting: we propose Angle Distance and Aspect Ratio Sensitive Weighting (ADARSW), which improves the detection accuracy especially for square-like objects, by making DCL-based detectors sensitive to angular distance and object's aspect ratio. Extensive experiments and visual analysis on large-scale public datasets for aerial images i.e. DOTA, UCAS-AOD, HRSC2016, as well as scene text dataset ICDAR2015 and MLT, show the effectiveness of our approach. The source code is available at https://github.com/Thinklab-SJTU/DCL_RetinaNet_Tensorflow and is also integrated in our open source rotation detection benchmark: https://github.com/yangxue0827/RotationDetection.
updated: Sun May 09 2021 02:50:43 GMT+0000 (UTC)
published: Thu Nov 19 2020 05:42:02 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト