この研究では、シーンシーケンスを説明する副詞は、オブジェクトの動作の高レベルの概念を推論することによって最もよく特定されるという直観に従って、生のビデオクリップから抽出されたオブジェクトの動作を推論する新しいフレームワークの設計を提案します。クリップの対応する副詞タイプを認識します。重要なのは、一般的なシーンの副詞認識に関する以前の研究では、アクション タイプの基礎となるクリップの知識が前提となっているのに対し、私たちの方法は、ビデオ クリップのアクション タイプが不明な、より一般的な問題設定に直接適用できることです。具体的には、生のビデオクリップから人間が解釈可能なオブジェクトの動作の事実を抽出する新しいパイプラインを提案し、これらの抽出された事実を操作して副詞の種類を識別する新しい記号およびトランスフォーマーベースの推論方法を提案します。実験結果は、私たちが提案した方法が以前の最先端技術に対して有利に機能することを示しています。さらに、シンボリック ビデオ処理の取り組みをサポートするために、生のビデオ クリップから抽出されたオブジェクトの動作に関する事実の 2 つの新しいデータセット、MSR-VTT-ASP データセットと ActivityNet-ASP データセットをリリースします。
In this work, following the intuition that adverbs describing scene-sequences are best identified by reasoning over high-level concepts of object-behavior, we propose the design of a new framework that reasons over object-behaviours extracted from raw-video-clips to recognize the clip's corresponding adverb-types. Importantly, while previous works for general scene adverb-recognition assume knowledge of the clips underlying action-types, our method is directly applicable in the more general problem setting where the action-type of a video-clip is unknown. Specifically, we propose a novel pipeline that extracts human-interpretable object-behaviour-facts from raw video clips and propose novel symbolic and transformer based reasoning methods that operate over these extracted facts to identify adverb-types. Experiment results demonstrate that our proposed methods perform favourably against the previous state-of-the-art. Additionally, to support efforts in symbolic video-processing, we release two new datasets of object-behaviour-facts extracted from raw video clips - the MSR-VTT-ASP and ActivityNet-ASP datasets.