arXiv reaDer
一時的な瞬間のローカリゼーションのために言語とビデオのモダリティを組み合わせる方法を学ぶ
Learning to Combine the Modalities of Language and Video for Temporal Moment Localization
時間的モーメントのローカリゼーションは、クエリで指定されたモーメントに一致する最適なビデオセグメントを取得することを目的としています。既存の方法は、視覚的および意味的な埋め込みを独立して生成し、それらの間の長期的な時間的関係を十分に考慮せずにそれらを融合します。これらの欠点に対処するために、ビデオセグメントの一部に関連する部分に焦点を当てた時間的瞬間をローカライズする人間の認知プロセスを模倣することにより、新しい再発ユニット、クロスモーダル長短期記憶(CM-LSTM)を紹介します。クエリを実行し、ビデオ全体のコンテキスト情報を繰り返し蓄積します。さらに、必要な視覚情報が無視されないように、入力クエリによって有人と無人の両方のビデオ機能に対して2ストリームの注意メカニズムを考案します。より正確な境界を取得するために、CM-LSTMを使用して生成された統合コンテキスト機能からグローバルに取得され、境界スコアシーケンスからローカルに取得された2つの2D提案マップを生成する2ストリームの注意深いクロスモーダルインタラクションネットワーク(TACI)を提案します。次に、それらをエンドツーエンドの方法で最終的な2Dマップに結合します。 TMLベンチマークデータセットであるActivityNet-Captionsでは、TACIは最先端のTMLメソッドよりも優れており、IoU @ 0.5とIoU@0.7のR @ 1はそれぞれ45.50%と27.23%です。さらに、元のLSTMをCM-LSTMに置き換えることにより、改訂された最先端の方法でパフォーマンスが向上することを示します。
Temporal moment localization aims to retrieve the best video segment matching a moment specified by a query. The existing methods generate the visual and semantic embeddings independently and fuse them without full consideration of the long-term temporal relationship between them. To address these shortcomings, we introduce a novel recurrent unit, cross-modal long short-term memory (CM-LSTM), by mimicking the human cognitive process of localizing temporal moments that focuses on the part of a video segment related to the part of a query, and accumulates the contextual information across the entire video recurrently. In addition, we devise a two-stream attention mechanism for both attended and unattended video features by the input query to prevent necessary visual information from being neglected. To obtain more precise boundaries, we propose a two-stream attentive cross-modal interaction network (TACI) that generates two 2D proposal maps obtained globally from the integrated contextual features, which are generated by using CM-LSTM, and locally from boundary score sequences and then combines them into a final 2D map in an end-to-end manner. On the TML benchmark dataset, ActivityNet-Captions, the TACI outperform state-of-the-art TML methods with R@1 of 45.50% and 27.23% for IoU@0.5 and IoU@0.7, respectively. In addition, we show that the revised state-of-the-arts methods by replacing the original LSTM with our CM-LSTM achieve performance gains.
updated: Tue Sep 07 2021 08:25:45 GMT+0000 (UTC)
published: Tue Sep 07 2021 08:25:45 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト