arXiv reaDer
合成データを使用したUAVベースの画像でのオブジェクト検出の検証
Validation of object detection in UAV-based images using synthetic data
物体検出は、さまざまなアプリケーションで無人航空機(UAV)に搭載されることがますます使用されています。ただし、UAVベースの検出用の機械学習(ML)モデルは、UAVアプリケーションに関係のないタスク用にキュレートされたデータを使用して検証されることがよくあります。大規模なベンチマークでニューラルネットワークをトレーニングすると、一般的なオブジェクト検出タスクで優れた機能が示されるため、これは懸念事項ですが、従来のトレーニングアプローチでは、UAVベースの画像の推論エラーが大きくなる可能性があります。このようなエラーは、UAVからの画像とトレーニング中の画像の間の画像条件の違いが原因で発生します。この問題を克服するために、MLモデルの境界条件を特徴付けます。これを超えると、モデルは検出精度の急激な低下を示します。私たちの仕事は、ゲームエンジンを使用して生成された合成データを使用して、さまざまなUAVベースのイメージング条件が検出パフォーマンスに与える影響を理解することに焦点を当てています。ゲームエンジンのプロパティを利用して、合成データセットに現実的な注釈付きの画像を入力します。具体的には、カメラの位置、画角、照明条件、被写体のポーズなど、さまざまなパラメータを細かく制御できます。合成データセットを使用して、上記のパラメーターの関数として、さまざまなイメージング条件での検出精度を分析します。作業では、モデルの複雑さが異なる3つのよく知られたニューラルネットワークモデルを使用します。私たちの実験では、次のことを観察して定量化します。1)カメラが天底領域に向かって移動するときに検出精度がどのように低下するか。 2)オブジェクトのポーズによって検出精度がどのように変化するか、3)照明条件が変化するにつれてモデルのロバスト性がどの程度変化するか。
Object detection is increasingly used onboard Unmanned Aerial Vehicles (UAV) for various applications; however, the machine learning (ML) models for UAV-based detection are often validated using data curated for tasks unrelated to the UAV application. This is a concern because training neural networks on large-scale benchmarks have shown excellent capability in generic object detection tasks, yet conventional training approaches can lead to large inference errors for UAV-based images. Such errors arise due to differences in imaging conditions between images from UAVs and images in training. To overcome this problem, we characterize boundary conditions of ML models, beyond which the models exhibit rapid degradation in detection accuracy. Our work is focused on understanding the impact of different UAV-based imaging conditions on detection performance by using synthetic data generated using a game engine. Properties of the game engine are exploited to populate the synthetic datasets with realistic and annotated images. Specifically, it enables the fine control of various parameters, such as camera position, view angle, illumination conditions, and object pose. Using the synthetic datasets, we analyze detection accuracy in different imaging conditions as a function of the above parameters. We use three well-known neural network models with different model complexity in our work. In our experiment, we observe and quantify the following: 1) how detection accuracy drops as the camera moves toward the nadir-view region; 2) how detection accuracy varies depending on different object poses, and 3) the degree to which the robustness of the models changes as illumination conditions vary.
updated: Mon Jan 17 2022 20:56:56 GMT+0000 (UTC)
published: Mon Jan 17 2022 20:56:56 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト