arXiv reaDer
RGBT ビデオ オブジェクト検出および統合ベンチマークのための消去ベースのインタラクション ネットワーク
Erasure-based Interaction Network for RGBT Video Object Detection and A Unified Benchmark
最近、ビデオオブジェクト検出 (VOD) の分野で多くの画期的な進歩が見られますが、不利な照明条件下での RGB センサーの画像処理の制限により、パフォーマンスは依然として制限されています。この問題を軽減するために、この研究では、不利な照明条件の影響を受けない熱モダリティを導入することにより、RGB サーマル (RGBT) VOD と呼ばれる新しいコンピューター ビジョン タスクを導入しています。 RGBT VOD の研究開発を促進するために、私たちは新しい Erasure-based Interaction Network (EINet) を設計し、このタスクのための包括的なベンチマーク データセット (VT-VOD50) を確立します。従来の VOD 方法では、多くの補助フレームを使用して時間情報を利用することが多いため、計算負荷が大きくなります。熱画像は RGB 画像よりもノイズが少ないことを考慮して、熱画像の特徴を利用して RGB 特徴のノイズを消去するために使用されるネガティブ アクティベーション関数を開発しました。さらに、熱画像の利点を利用して、小さな時間ウィンドウのみに依存して時空間情報をモデル化し、検出精度を維持しながら効率を大幅に向上させます。 VT-VOD50 データセットは、実際の交通シナリオで収集された、複雑な背景、さまざまなオブジェクト、さまざまな照明を備えた 50 ペアの挑戦的な RGBT ビデオ シーケンスで構成されています。 VT-VOD50 データセットに関する広範な実験により、既存の主流の VOD 方法に対する私たちの提案方法の有効性と効率性が実証されました。 EINet のコードとデータセットは学術目的で無料で公開されます。
Recently, many breakthroughs are made in the field of Video Object Detection (VOD), but the performance is still limited due to the imaging limitations of RGB sensors in adverse illumination conditions. To alleviate this issue, this work introduces a new computer vision task called RGB-thermal (RGBT) VOD by introducing the thermal modality that is insensitive to adverse illumination conditions. To promote the research and development of RGBT VOD, we design a novel Erasure-based Interaction Network (EINet) and establish a comprehensive benchmark dataset (VT-VOD50) for this task. Traditional VOD methods often leverage temporal information by using many auxiliary frames, and thus have large computational burden. Considering that thermal images exhibit less noise than RGB ones, we develop a negative activation function that is used to erase the noise of RGB features with the help of thermal image features. Furthermore, with the benefits from thermal images, we rely only on a small temporal window to model the spatio-temporal information to greatly improve efficiency while maintaining detection accuracy. VT-VOD50 dataset consists of 50 pairs of challenging RGBT video sequences with complex backgrounds, various objects and different illuminations, which are collected in real traffic scenarios. Extensive experiments on VT-VOD50 dataset demonstrate the effectiveness and efficiency of our proposed method against existing mainstream VOD methods. The code of EINet and the dataset will be released to the public for free academic usage.
updated: Thu Aug 03 2023 09:04:48 GMT+0000 (UTC)
published: Thu Aug 03 2023 09:04:48 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト