arXiv reaDer
サウンドとピクセルを分解し、イベントを再構成します
Decompose the Sounds and Pixels, Recompose the Events
この論文では、教師ありおよび弱教師あり設定での視聴覚イベント(AVE)のローカリゼーション問題に取り組むために、イベント分解再構成ネットワーク(EDRNet)と呼ばれる新しいアーキテクチャを中心としたフレームワークを提案します。実世界のAVEは、一般的な解きほぐしパターン(イベント進行チェックポイント(EPC)と呼ばれる)を示します。これは、人間が聴覚と視覚の協力によって知覚できるものです。イベントシーケンス全体を認識しようとする以前の方法とは異なり、EDRNetはスタックされた時間畳み込みを使用してEPCとEPC間の関係をモデル化します。 EPC表現はイベントカテゴリに対して理論的に一貫しているという仮定に基づいて、さまざまなEPCテンプレートシーケンスを使用してソースビデオをブレンドする新しい拡張手法であるステートマシンベースのビデオフュージョンを紹介します。さらに、Land-Shore-Sea損失と呼ばれる新しい損失関数を設計して、連続する前景と背景の表現をコンパクト化します。最後に、弱い監視中の混乱するイベントの問題を軽減するために、Bag to Instance LabelCorrectionと呼ばれる予測安定化方法を提案します。 AVEデータセットでの実験は、私たちの集合的なフレームワークが最先端のものをかなりの差で上回っていることを示しています。
In this paper, we propose a framework centering around a novel architecture called the Event Decomposition Recomposition Network (EDRNet) to tackle the Audio-Visual Event (AVE) localization problem in the supervised and weakly supervised settings. AVEs in the real world exhibit common unravelling patterns (termed as Event Progress Checkpoints (EPC)), which humans can perceive through the cooperation of their auditory and visual senses. Unlike earlier methods which attempt to recognize entire event sequences, the EDRNet models EPCs and inter-EPC relationships using stacked temporal convolutions. Based on the postulation that EPC representations are theoretically consistent for an event category, we introduce the State Machine Based Video Fusion, a novel augmentation technique that blends source videos using different EPC template sequences. Additionally, we design a new loss function called the Land-Shore-Sea loss to compactify continuous foreground and background representations. Lastly, to alleviate the issue of confusing events during weak supervision, we propose a prediction stabilization method called Bag to Instance Label Correction. Experiments on the AVE dataset show that our collective framework outperforms the state-of-the-art by a sizable margin.
updated: Tue Dec 21 2021 22:22:46 GMT+0000 (UTC)
published: Tue Dec 21 2021 22:22:46 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト