arXiv reaDer
ビデオ顕著な物体検出のためのガイダンスおよび教育ネットワーク
Guidance and Teaching Network for Video Salient Object Detection
時空間キューのマイニングが難しいため、ビデオ顕著なオブジェクト検出(VSOD)の既存のアプローチは、複雑でノイズの多いシナリオの理解に制限があり、目立つオブジェクトの推測に失敗することがよくあります。このような欠点を軽減するために、Guidance and Teaching Network(GTNet)と呼ばれるシンプルで効率的なアーキテクチャを提案し、機能レベルと決定レベルでそれぞれ暗黙のガイダンスと明示的な教育を使用して、効果的な空間的および時間的手がかりを個別に抽出します。具体的には、(a)動きから外観ブランチに特徴を暗黙的にブリッジする時間変調器を導入します。これは、クロスモーダル特徴を協調的に融合することができ、(b)動き誘導マスクを利用して、機能の集約。この新しい学習戦略は、複雑な時空間キューを分離し、さまざまなモダリティ間で有益なキューをマッピングすることにより、満足のいく結果を達成します。 3つの挑戦的なベンチマークでの広範な実験は、提案された方法が単一のTITAN XpGPUで最大28fpsで実行でき、14の最先端のベースラインに対して競争力があることを示しています。
Owing to the difficulties of mining spatial-temporal cues, the existing approaches for video salient object detection (VSOD) are limited in understanding complex and noisy scenarios, and often fail in inferring prominent objects. To alleviate such shortcomings, we propose a simple yet efficient architecture, termed Guidance and Teaching Network (GTNet), to independently distil effective spatial and temporal cues with implicit guidance and explicit teaching at feature- and decision-level, respectively. To be specific, we (a) introduce a temporal modulator to implicitly bridge features from motion into the appearance branch, which is capable of fusing cross-modal features collaboratively, and (b) utilise motion-guided mask to propagate the explicit cues during the feature aggregation. This novel learning strategy achieves satisfactory results via decoupling the complex spatial-temporal cues and mapping informative cues across different modalities. Extensive experiments on three challenging benchmarks show that the proposed method can run at ~28 fps on a single TITAN Xp GPU and perform competitively against 14 cutting-edge baselines.
updated: Sun Jun 06 2021 13:55:47 GMT+0000 (UTC)
published: Fri May 21 2021 03:25:38 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト