arXiv reaDer
小さく自由に回転するオブジェクト用の方向付けされた境界ボックス
Oriented Bounding Boxes for Small and Freely Rotated Objects
2×2ピクセルの小さなオブジェクトを含む、任意のサイズの自由に回転したオブジェクトを処理する新しいオブジェクト検出方法が提示されます。このような小さなオブジェクトは、リモートセンシングされた画像に頻繁に表示され、最近のオブジェクト検出アルゴリズムに課題を提示します。さらに重要なことに、現在のオブジェクト検出方法は、もともと軸に沿ったバウンディングボックスの検出に対応するように設計されているため、自由に回転するオブジェクトを最もよく表す方向付けされたボックスを正確にローカライズできません。対照的に、提案されたCNNベースのアプローチは、アンカーボックスなどの外部リソースを必要とせずに、複数のスケールレベルで潜在的なピクセル情報を使用します。この方法は、グリッドセルの場所でターゲットオブジェクトの特徴の正確な場所と方向をエンコードします。バウンディングボックスの位置と次元を回帰する既存の方法とは異なり、提案された方法は、分類によって必要なすべての情報を学習します。これには、追加の計算なしで方向付けられたバウンディングボックスの検出を可能にするという追加の利点があります。したがって、同じ予測クラスラベルのすべてのセットに対して最小の周囲ボックスを見つけることにより、推論時にのみ境界ボックスを推論します。さらに、回転不変の特徴表現が各スケールに適用されます。これにより、正則化制約が課され、トレーニングサンプルの面内回転の360度の範囲をカバーして、同様の特徴を共有します。 xViewおよびDOTAデータセットの評価は、提案された方法が既存の最先端の方法よりも均一にパフォーマンスを改善することを示しています。
A novel object detection method is presented that handles freely rotated objects of arbitrary sizes, including tiny objects as small as 2×2 pixels. Such tiny objects appear frequently in remotely sensed images, and present a challenge to recent object detection algorithms. More importantly, current object detection methods have been designed originally to accommodate axis-aligned bounding box detection, and therefore fail to accurately localize oriented boxes that best describe freely rotated objects. In contrast, the proposed CNN-based approach uses potential pixel information at multiple scale levels without the need for any external resources, such as anchor boxes.The method encodes the precise location and orientation of features of the target objects at grid cell locations. Unlike existing methods which regress the bounding box location and dimension,the proposed method learns all the required information by classification, which has the added benefit of enabling oriented bounding box detection without any extra computation. It thus infers the bounding boxes only at inference time by finding the minimum surrounding box for every set of the same predicted class labels. Moreover, a rotation-invariant feature representation is applied to each scale, which imposes a regularization constraint to enforce covering the 360 degree range of in-plane rotation of the training samples to share similar features. Evaluations on the xView and DOTA datasets show that the proposed method uniformly improves performance over existing state-of-the-art methods.
updated: Sat Apr 24 2021 02:04:49 GMT+0000 (UTC)
published: Sat Apr 24 2021 02:04:49 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト