アフォーダンス中心の質問主導型タスク完了 (AQTC) は、ビデオから知識を獲得し、ユーザーに包括的かつ体系的な指示を提供するために提案されています。しかし、既存の方法はこれまで、人間と物体との間の重要な相互作用情報だけでなく、時空間的な視覚信号と言語信号を調整する必要性を無視してきました。これらの制限に対処するために、私たちは、大規模な事前トレーニング済み視覚言語モデルとビデオ言語モデルを組み合わせることを提案します。これは、安定した信頼性の高いマルチモーダルデータに貢献し、効果的な時空間視覚的位置合わせを促進するのに役立ちます。さらに、人間とオブジェクトのインタラクション情報の取得を支援する新しいハンド オブジェクト インタラクション (HOI) 集約モジュールが提案され、提示されたシナリオを理解する能力がさらに強化されます。私たちのメソッドは、CVPR'2023 AQTC Challenge で Recall@1 スコア 78.7% で 1 位を獲得しました。コードは https://github.com/tomchen-ctj/CVPR23-LOVEU-AQTC で入手できます。
Affordance-Centric Question-driven Task Completion (AQTC) has been proposed to acquire knowledge from videos to furnish users with comprehensive and systematic instructions. However, existing methods have hitherto neglected the necessity of aligning spatiotemporal visual and linguistic signals, as well as the crucial interactional information between humans and objects. To tackle these limitations, we propose to combine large-scale pre-trained vision-language and video-language models, which serve to contribute stable and reliable multimodal data and facilitate effective spatiotemporal visual-textual alignment. Additionally, a novel hand-object-interaction (HOI) aggregation module is proposed which aids in capturing human-object interaction information, thereby further augmenting the capacity to understand the presented scenario. Our method achieved first place in the CVPR'2023 AQTC Challenge, with a Recall@1 score of 78.7%. The code is available at https://github.com/tomchen-ctj/CVPR23-LOVEU-AQTC.