arXiv reaDer
BSN ++:時間的アクション提案生成のためのスケールバランス関係モデリングを備えた補完的境界リグレッサ
BSN++: Complementary Boundary Regressor with Scale-Balanced Relation Modeling for Temporal Action Proposal Generation
トリミングされていないビデオで人間の行動の提案を生成することは、幅広いアプリケーションで重要でありながら挑戦的なタスクです。現在の方法は、多くの場合、ノイズの多い境界位置と、提案の取得に使用される信頼スコアの品質の低下に悩まされています。この論文では、時間的提案生成のために補完的な境界リグレッサと関係モデリングを活用する新しいフレームワークであるBSN ++を紹介します。最初に、開始境界分類器と終了境界分類器の両方の相補的特性に基づいて、新しい境界回帰子を提案します。具体的には、ネストされたスキップ接続を備えたU字型アーキテクチャを利用して、豊富なコンテキストをキャプチャし、双方向の境界マッチングメカニズムを導入して境界の精度を向上させます。第二に、以前の方法で無視された提案-提案関係を説明するために、位置とチャネルの観点から2つの自己注意モジュールを含む提案関係ブロックを考案します。さらに、正/負の提案と時間的期間にデータの不均衡な問題が必然的に存在し、裾の分布でのモデルのパフォーマンスに悪影響を与えることがわかりました。この問題を軽減するために、スケールバランスの取れたリサンプリング戦略を導入します。 2つの人気のあるベンチマークであるActivityNet-1.3とTHUMOS14で広範な実験が行われ、BSN ++が最先端のパフォーマンスを達成していることを示しています。当然のことながら、提案されたBSN ++は、CVPR19で1位にランクされました-一時的なアクションのローカリゼーションタスクに関するActivityNetチャレンジリーダーボード。
Generating human action proposals in untrimmed videos is an important yet challenging task with wide applications. Current methods often suffer from the noisy boundary locations and the inferior quality of confidence scores used for proposal retrieving. In this paper, we present BSN++, a new framework which exploits complementary boundary regressor and relation modeling for temporal proposal generation. First, we propose a novel boundary regressor based on the complementary characteristics of both starting and ending boundary classifiers. Specifically, we utilize the U-shaped architecture with nested skip connections to capture rich contexts and introduce bi-directional boundary matching mechanism to improve boundary precision. Second, to account for the proposal-proposal relations ignored in previous methods, we devise a proposal relation block to which includes two self-attention modules from the aspects of position and channel. Furthermore, we find that there inevitably exists data imbalanced problems in the positive/negative proposals and temporal durations, which harm the model performance on tail distributions. To relieve this issue, we introduce the scale-balanced re-sampling strategy. Extensive experiments are conducted on two popular benchmarks: ActivityNet-1.3 and THUMOS14, which demonstrate that BSN++ achieves the state-of-the-art performance. Not surprisingly, the proposed BSN++ ranked 1st place in the CVPR19 - ActivityNet challenge leaderboard on temporal action localization task.
updated: Mon Mar 01 2021 08:01:49 GMT+0000 (UTC)
published: Tue Sep 15 2020 07:08:59 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト