視聴覚イベントのローカリゼーションでは、ビデオで(フレームまたはビデオレベルで)可視と可聴の両方であるイベントを識別する必要があります。このタスクに対処するため、Audio-Visual sequence-to-sequence dual network(AVSDN)という名前のディープニューラルネットワークを提案します。入力として各タイムセグメントでオーディオ機能とビジュアル機能の両方を組み合わせて使用することにより、提案されたモデルは、グローバルイベントとローカルイベントの情報を順番に学習します。これは、完全監視または弱監視のいずれの設定でも実現できます。経験的結果は、提案された方法が両方の設定で最近のディープラーニングアプローチに対して有利に機能することを確認します。
Audio-visual event localization requires one to identify theevent which is both visible and audible in a video (eitherat a frame or video level). To address this task, we pro-pose a deep neural network named Audio-Visual sequence-to-sequence dual network (AVSDN). By jointly taking bothaudio and visual features at each time segment as inputs, ourproposed model learns global and local event information ina sequence to sequence manner, which can be realized in ei-ther fully supervised or weakly supervised settings. Empiricalresults confirm that our proposed method performs favorablyagainst recent deep learning approaches in both settings.