Attention and Prediction Guided Motion Detection for Low-Contrast Small Moving Targets
複雑な自然環境内での小さなターゲットの動きの検出は、自律型ロボットにとって非常に困難な作業です。驚いたことに、昆虫の視覚システムは、ターゲットが視野内で数ピクセルと小さいにもかかわらず、仲間の検出と獲物の追跡に非常に効率的になるように進化しました。小さなターゲットの動きに対する優れた感度は、小さなターゲットの動き検出器(STMD)と呼ばれる特殊なニューロンのクラスに依存しています。ただし、既存のSTMDベースのモデルは、視覚的なコントラストに大きく依存しており、小さなターゲットが一般に隣接する背景に対して非常に低いコントラストを示す複雑な自然環境ではパフォーマンスが低下します。この論文では、この制限を克服するために注意と予測に基づく視覚システムを開発します。開発された視覚システムは、注意モジュール、STMDベースのニューラルネットワーク、および予測モジュールの3つの主要なサブシステムで構成されています。アテンションモジュールは、入力画像の予測領域で潜在的な小さなターゲットを検索し、複雑な背景に対するコントラストを強化します。 STMDベースのニューラルネットワークは、造影剤増強画像を受信し、小さな移動ターゲットを背景の誤検知から区別します。予測モジュールは、検出されたターゲットの将来の位置を予測し、注意モジュールの予測マップを生成します。 3つのサブシステムは繰り返しアーキテクチャで接続されているため、情報を順番に処理して、小さなターゲットを検出するために特定の領域をアクティブ化できます。合成データセットと実世界のデータセットに関する広範な実験は、複雑な自然環境に対して小さくてコントラストの低い移動ターゲットを検出するための提案された視覚システムの有効性と優位性を示しています。
Small target motion detection within complex natural environments is an extremely challenging task for autonomous robots. Surprisingly, the visual systems of insects have evolved to be highly efficient in detecting mates and tracking prey, even though targets are as small as a few pixels in their visual fields. The excellent sensitivity to small target motion relies on a class of specialized neurons called small target motion detectors (STMDs). However, existing STMD-based models are heavily dependent on visual contrast and perform poorly in complex natural environments where small targets generally exhibit extremely low contrast against neighbouring backgrounds. In this paper, we develop an attention and prediction guided visual system to overcome this limitation. The developed visual system comprises three main subsystems, namely, an attention module, an STMD-based neural network, and a prediction module. The attention module searches for potential small targets in the predicted areas of the input image and enhances their contrast against complex background. The STMD-based neural network receives the contrast-enhanced image and discriminates small moving targets from background false positives. The prediction module foresees future positions of the detected targets and generates a prediction map for the attention module. The three subsystems are connected in a recurrent architecture allowing information to be processed sequentially to activate specific areas for small target detection. Extensive experiments on synthetic and real-world datasets demonstrate the effectiveness and superiority of the proposed visual system for detecting small, low-contrast moving targets against complex natural environments.
updated: Sat May 08 2021 07:04:12 GMT+0000 (UTC)
published: Tue Apr 27 2021 07:42:31 GMT+0000 (UTC)
