arXiv reaDer
空間と時間のスパース: トレーニング可能なセレクターによるオーディオとビジュアルの同期
Sparse in Space and Time: Audio-visual Synchronisation with Trainable Selectors
このホワイト ペーパーの目的は、「実際の」一般的なビデオの視聴覚同期です。このようなビデオの場合、同期キューに利用できるイベントは空間的に小さく、数秒間のビデオ クリップ中にまれにしか発生しない可能性があります。つまり、同期信号は「空間と時間においてまばら」です。これは、音声と映像の対応が時間と空間の両方で密集している、トーキング ヘッドのビデオを同期する場合とは対照的です。 (i) まばらな同期信号に必要なより長い時間シーケンスを処理するために、「セレクター」を使用して長いオーディオおよびビジュアル ストリームを小さなシーケンスに抽出するマルチモーダル トランスフォーマー モデルを設計します。ストリーム間の時間オフセットを予測します。 (ii)オーディオとビデオに使用される圧縮コーデックから発生する可能性があり、同期タスクを人為的に解決するためのトレーニングでオーディオビジュアルモデルで使用できるアーティファクトを特定します。 (iii)時間と空間の同期信号がまばらなデータセットをキュレートします。 (iv) 提案されたモデルの有効性は、密なデータセットと疎なデータセットの両方で定量的および定性的に示されます。プロジェクトページ: v-iashin.github.io/SparseSync
The objective of this paper is audio-visual synchronisation of general videos 'in the wild'. For such videos, the events that may be harnessed for synchronisation cues may be spatially small and may occur only infrequently during a many seconds-long video clip, i.e. the synchronisation signal is 'sparse in space and time'. This contrasts with the case of synchronising videos of talking heads, where audio-visual correspondence is dense in both time and space. We make four contributions: (i) in order to handle longer temporal sequences required for sparse synchronisation signals, we design a multi-modal transformer model that employs 'selectors' to distil the long audio and visual streams into small sequences that are then used to predict the temporal offset between streams. (ii) We identify artefacts that can arise from the compression codecs used for audio and video and can be used by audio-visual models in training to artificially solve the synchronisation task. (iii) We curate a dataset with only sparse in time and space synchronisation signals; and (iv) the effectiveness of the proposed model is shown on both dense and sparse datasets quantitatively and qualitatively. Project page: v-iashin.github.io/SparseSync
updated: Thu Oct 13 2022 14:25:37 GMT+0000 (UTC)
published: Thu Oct 13 2022 14:25:37 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト