arXiv reaDer
水中画像用の半教師あり物体検出アルゴリズム
A Semi-supervised Object Detection Algorithm for Underwater Imagery
自律型水中車両 (AUV) によって収集された水中画像からの人工物体の検出は、多くの海中アプリケーションにとって重要な要件です。現実世界の AUV 画像データセットは非常に大きく、ラベルが付けられていない傾向があります。さらに、このようなデータセットは一般に不均衡であり、特にシーン内で異常なオブジェクトを検索する場合には、対象となるオブジェクトのインスタンスがほとんど含まれていません。したがって、これらの物体を確実に検出できるモデルを適合させることは困難です。これらの要因を考慮して、人工物体を異常として扱い、変分オートエンコーダー (VAE) に基づく半教師ありフレームワークを通じて検出することを提案します。学習した低次元潜在空間で画像データをクラスタリングし、異常な特徴を含む可能性が高い画像を抽出する手法を開発します。また、画像の再構成が不十分な領域の抽出に基づいて異常スコアを考案します。両方の方法を大規模な画像データセットに適用することで、人間のオペレーターに誤検知率が低い異常サンプルの候補を表示して、対象のオブジェクトを識別できることを実証します。私たちは、AUV によって収集された実際の海底画像にアプローチを適用し、VAE によって使用される潜在表現の次元に対するその感度を評価します。精度と再現率のトレードオフを評価し、適切な潜在次元としきい値を選択することで、ラベルなしのデータセットで平均精度 0.64 を達成できることを示します。
Detection of artificial objects from underwater imagery gathered by Autonomous Underwater Vehicles (AUVs) is a key requirement for many subsea applications. Real-world AUV image datasets tend to be very large and unlabelled. Furthermore, such datasets are typically imbalanced, containing few instances of objects of interest, particularly when searching for unusual objects in a scene. It is therefore, difficult to fit models capable of reliably detecting these objects. Given these factors, we propose to treat artificial objects as anomalies and detect them through a semi-supervised framework based on Variational Autoencoders (VAEs). We develop a method which clusters image data in a learned low-dimensional latent space and extracts images that are likely to contain anomalous features. We also devise an anomaly score based on extracting poorly reconstructed regions of an image. We demonstrate that by applying both methods on large image datasets, human operators can be shown candidate anomalous samples with a low false positive rate to identify objects of interest. We apply our approach to real seafloor imagery gathered by an AUV and evaluate its sensitivity to the dimensionality of the latent representation used by the VAE. We evaluate the precision-recall tradeoff and demonstrate that by choosing an appropriate latent dimensionality and threshold, we are able to achieve an average precision of 0.64 on unlabelled datasets.
updated: Wed Jun 07 2023 23:40:04 GMT+0000 (UTC)
published: Wed Jun 07 2023 23:40:04 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト