arXiv reaDer
ビデオの顕著な物体検出のための新しい長期反復マイニングスキーム
A Novel Long-term Iterative Mining Scheme for Video Salient Object Detection
既存の最先端(SOTA)ビデオ顕著オブジェクト検出(VSOD)モデルは、現在の連続する制限されたフレームのみを考慮することによって、空間的および時間的顕著性融合のバランスを動的に決定する短期的な方法論に広く従っています。ただし、短期的な方法論には1つの重大な制限があります。これは、視覚システムの実際のメカニズムである典型的な長期的な方法論と矛盾します。その結果、現在のSOTAモデルの結果に障害の事例が現れ続け、短期的な方法論が主要な技術的ボトルネックになります。この問題を解決するために、この論文では、完全に長期的な方法でVSODを実行する新しいVSODアプローチを提案します。私たちのアプローチは、シーケンシャルタスクであるシーケンシャルVSODをデータマイニングの問題に変換します。つまり、入力ビデオシーケンスをオブジェクトの提案に事前に分解してから、重要なオブジェクトの提案を可能な限り簡単にマイニングします。すべてのオブジェクト提案が同時に利用可能であるため、提案されたアプローチは完全な長期アプローチであり、従来の短期アプローチに根ざしたいくつかの困難を軽減することができます。さらに、顕著なオブジェクトの最も代表的で信頼できるパターンプロファイルを把握し、詳細なフレームごとの顕著性マップを出力し、空間的および時間的に平滑化できるオンライン更新スキームを考案しました。提案されたアプローチは、広く使用されている5つのベンチマークデータセットでほぼすべてのSOTAモデルを上回っています。
The existing state-of-the-art (SOTA) video salient object detection (VSOD) models have widely followed short-term methodology, which dynamically determines the balance between spatial and temporal saliency fusion by solely considering the current consecutive limited frames. However, the short-term methodology has one critical limitation, which conflicts with the real mechanism of our visual system -- a typical long-term methodology. As a result, failure cases keep showing up in the results of the current SOTA models, and the short-term methodology becomes the major technical bottleneck. To solve this problem, this paper proposes a novel VSOD approach, which performs VSOD in a complete long-term way. Our approach converts the sequential VSOD, a sequential task, to a data mining problem, i.e., decomposing the input video sequence to object proposals in advance and then mining salient object proposals as much as possible in an easy-to-hard way. Since all object proposals are simultaneously available, the proposed approach is a complete long-term approach, which can alleviate some difficulties rooted in conventional short-term approaches. In addition, we devised an online updating scheme that can grasp the most representative and trustworthy pattern profile of the salient objects, outputting framewise saliency maps with rich details and smoothing both spatially and temporally. The proposed approach outperforms almost all SOTA models on five widely used benchmark datasets.
updated: Mon Jun 20 2022 04:27:47 GMT+0000 (UTC)
published: Mon Jun 20 2022 04:27:47 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト