arXiv reaDer
RoME:テキストからビデオへの検索のための役割を意識した専門家の混合トランスフォーマー
RoME: Role-aware Mixture-of-Expert Transformer for Text-to-Video Retrieval
ソーシャルチャンネルの人気とともに、たくさんの動画が毎日アップロードされています。したがって、ユーザーのテキストクエリを使用して最も関連性の高いビデオコンテンツを取得することは、より重要な役割を果たします。ほとんどの方法では、各モダリティのローカル構造を考慮せずに、グローバルな視覚的特徴とテキスト的特徴の間の1つの共同埋め込みスペースのみを考慮します。他のいくつかのアプローチでは、グローバル機能とローカル機能で構成される複数の埋め込みスペースを個別に検討し、モダリティ間の豊富な相関関係を無視します。テキストとビデオを3つのレベルに解きほぐす新しい専門家混合トランスフォーマーRoMEを提案します。空間コンテキスト、時間コンテキスト、およびオブジェクトコンテキストの役割。トランスフォーマーベースの注意メカニズムを利用して、グローバルレベルとローカルレベルの両方で視覚的およびテキストの埋め込みを十分に活用し、専門家の混合により、モダリティ間および構造の相関関係を検討します。結果は、事前トレーニングなしで同じ視覚的バックボーンが与えられた場合、私たちの方法がYouCook2およびMSR-VTTデータセットの最先端の方法よりも優れていることを示しています。最後に、設計の選択を解明するために、広範なアブレーション研究を実施しました。
Seas of videos are uploaded daily with the popularity of social channels; thus, retrieving the most related video contents with user textual queries plays a more crucial role. Most methods consider only one joint embedding space between global visual and textual features without considering the local structures of each modality. Some other approaches consider multiple embedding spaces consisting of global and local features separately, ignoring rich inter-modality correlations. We propose a novel mixture-of-expert transformer RoME that disentangles the text and the video into three levels; the roles of spatial contexts, temporal contexts, and object contexts. We utilize a transformer-based attention mechanism to fully exploit visual and text embeddings at both global and local levels with mixture-of-experts for considering inter-modalities and structures' correlations. The results indicate that our method outperforms the state-of-the-art methods on the YouCook2 and MSR-VTT datasets, given the same visual backbone without pre-training. Finally, we conducted extensive ablation studies to elucidate our design choices.
updated: Sun Jun 26 2022 11:12:49 GMT+0000 (UTC)
published: Sun Jun 26 2022 11:12:49 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト