ディープ ニューラル ネットワークは、トレーニング データセットの偏りに対応する傾向があります。オブジェクト検出では、バイアスは、クラス、背景と前景、オブジェクト サイズなどのさまざまな不均衡の形で存在します。このホワイトペーパーでは、オブジェクトのサイズを画像内のピクセル数で表し、サイズの不均衡をデータセット内の特定のサイズのオブジェクトの過剰表現として表します。ドローンベースの航空画像データセットにおけるサイズの不均衡の問題に対処することを目指しています。サイズの不均衡を解決するための既存の方法は、さまざまなサイズのオブジェクトを検出するために複数の縮尺の画像または特徴マップを利用するアーキテクチャの変更に基づいています。一方、任意のオブジェクト検出モデルの上にプラグインとして適用できる、新しい ARchitectUre-agnostic BAlanced Loss (ARUBA) を提案します。これは、オブジェクト サイズの順序性に触発された近隣主導のアプローチに従います。 HRSC2016、DOTAv1.0、DOTAv1.5、VisDrone などの航空データセットでの包括的な実験を通じてアプローチの有効性を評価し、パフォーマンスの一貫した改善を得ます。
Deep neural networks tend to reciprocate the bias of their training dataset. In object detection, the bias exists in the form of various imbalances such as class, background-foreground, and object size. In this paper, we denote size of an object as the number of pixels it covers in an image and size imbalance as the over-representation of certain sizes of objects in a dataset. We aim to address the problem of size imbalance in drone-based aerial image datasets. Existing methods for solving size imbalance are based on architectural changes that utilize multiple scales of images or feature maps for detecting objects of different sizes. We, on the other hand, propose a novel ARchitectUre-agnostic BAlanced Loss (ARUBA) that can be applied as a plugin on top of any object detection model. It follows a neighborhood-driven approach inspired by the ordinality of object size. We evaluate the effectiveness of our approach through comprehensive experiments on aerial datasets such as HRSC2016, DOTAv1.0, DOTAv1.5 and VisDrone and obtain consistent improvement in performance.