arXiv reaDer
強化学習を使用した対話型ビデオ コーパス モーメント検索
Interactive Video Corpus Moment Retrieval using Reinforcement Learning
既知の項目のビデオ検索は、検索結果をインタラクティブに調査し、最初のクエリを絞り込むために、ヒューマン イン ザ ループで効果的です。それにもかかわらず、結果の最初の数ページが視覚的に類似したアイテムで埋め尽くされている場合、または検索対象がランク付けリストの奥深くに隠されている場合、通常、既知のアイテムの対象を見つけるには、長時間のブラウジングと結果の検査が必要です。この論文では、強化学習によって問題に取り組み、ユーザーのフィードバックからの長期的な学習により、数回の対話で検索ターゲットに到達することを目指しています。具体的には、システムはフィードバックに基づいてナビゲーション パスをインタラクティブに計画し、ユーザー コメントに対する長期的な報酬を最大化する潜在的なターゲットを推奨します。大規模なビデオ コーパスから瞬間をローカライズするビデオ コーパス モーメント検索 (VCMR) の挑戦的なタスクの実験を行います。 TVR および DiDeMo データセットの実験結果は、提案された作業が、VCMR の最先端の自動検索エンジンである CONQUER および HERO のランク付けされたリストの奥深くに隠されている瞬間を取得するのに効果的であることを検証します。
Known-item video search is effective with human-in-the-loop to interactively investigate the search result and refine the initial query. Nevertheless, when the first few pages of results are swamped with visually similar items, or the search target is hidden deep in the ranked list, finding the know-item target usually requires a long duration of browsing and result inspection. This paper tackles the problem by reinforcement learning, aiming to reach a search target within a few rounds of interaction by long-term learning from user feedbacks. Specifically, the system interactively plans for navigation path based on feedback and recommends a potential target that maximizes the long-term reward for user comment. We conduct experiments for the challenging task of video corpus moment retrieval (VCMR) to localize moments from a large video corpus. The experimental results on TVR and DiDeMo datasets verify that our proposed work is effective in retrieving the moments that are hidden deep inside the ranked lists of CONQUER and HERO, which are the state-of-the-art auto-search engines for VCMR.
updated: Sun Feb 19 2023 09:48:23 GMT+0000 (UTC)
published: Sun Feb 19 2023 09:48:23 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト