arXiv reaDer
弱く監視されたオーディオビジュアルイベントローカライゼーションのための時間的ラベル改良
Temporal Label-Refinement for Weakly-Supervised Audio-Visual Event Localization
オーディオビジュアル イベント ローカライゼーション (AVEL) は、オーディオビジュアル イベント、つまり、ビデオ内で同時に表示および聴取できるイベントを時間的にローカライズおよび分類するタスクです。この論文では、ビデオ レベルのイベント ラベル (イベントの存在/不在ではなく、時間内の位置ではない) のみがトレーニングの監視として利用できる、弱い監視の設定で AVEL を解決します。私たちのアイデアは、ベース モデルを使用して、ビデオ レベルよりも高い時間解像度でトレーニング データのラベルを推定し、これらのラベルを使用してモデルを再トレーニングすることです。つまり、トレーニング ビデオのフレームの各スライスのラベルのサブセットを決定します。これは、(i) スライスの外側のフレームを、ビデオ レベルのラベルが重複していない 2 番目のビデオのフレームと置き換え、(ii) この合成ビデオをフィードすることによって行われます。を基本モデルに取り込んで、問題のスライスのみのラベルを抽出します。合成ビデオの配信外の性質を処理するために、必要に応じて局所的なイベント ラベルのより信頼性の高い予測を誘導する基本モデルの補助目標を提案します。当社の 3 ステージ パイプラインは、アーキテクチャに変更を加えることなく、いくつかの既存の AVEL メソッドを上回り、関連する弱く監視されたタスクのパフォーマンスも向上します。
Audio-Visual Event Localization (AVEL) is the task of temporally localizing and classifying audio-visual events, i.e., events simultaneously visible and audible in a video. In this paper, we solve AVEL in a weakly-supervised setting, where only video-level event labels (their presence/absence, but not their locations in time) are available as supervision for training. Our idea is to use a base model to estimate labels on the training data at a finer temporal resolution than at the video level and re-train the model with these labels. I.e., we determine the subset of labels for each slice of frames in a training video by (i) replacing the frames outside the slice with those from a second video having no overlap in video-level labels, and (ii) feeding this synthetic video into the base model to extract labels for just the slice in question. To handle the out-of-distribution nature of our synthetic videos, we propose an auxiliary objective for the base model that induces more reliable predictions of the localized event labels as desired. Our three-stage pipeline outperforms several existing AVEL methods with no architectural changes and improves performance on a related weakly-supervised task as well.
updated: Wed Jul 12 2023 18:13:58 GMT+0000 (UTC)
published: Wed Jul 12 2023 18:13:58 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト