arXiv reaDer
CVPR'2023 AQTC チャレンジの 1 位ソリューション: 時空間的な視覚言語の調整による機能インタラクション中心のアプローチ
First Place Solution to the CVPR'2023 AQTC Challenge: A Function-Interaction Centric Approach with Spatiotemporal Visual-Language Alignment
アフォーダンス中心の質問主導型タスク完了 (AQTC) は、ビデオから知識を獲得し、ユーザーに包括的かつ体系的な指示を提供するために提案されています。しかし、既存の方法はこれまで、人間と物体との間の重要な相互作用情報だけでなく、時空間的な視覚信号と言語信号を調整する必要性を無視してきました。これらの制限に対処するために、私たちは、大規模な事前トレーニング済み視覚言語モデルとビデオ言語モデルを組み合わせることを提案します。これは、安定した信頼性の高いマルチモーダルデータに貢献し、効果的な時空間視覚的位置合わせを促進するのに役立ちます。さらに、人間とオブジェクトのインタラクション情報の取得を支援する新しいハンド オブジェクト インタラクション (HOI) 集約モジュールが提案され、提示されたシナリオを理解する能力がさらに強化されます。私たちのメソッドは、CVPR'2023 AQTC Challenge で Recall@1 スコア 78.7% で 1 位を獲得しました。コードは https://github.com/tomchen-ctj/CVPR23-LOVEU-AQTC で入手できます。
Affordance-Centric Question-driven Task Completion (AQTC) has been proposed to acquire knowledge from videos to furnish users with comprehensive and systematic instructions. However, existing methods have hitherto neglected the necessity of aligning spatiotemporal visual and linguistic signals, as well as the crucial interactional information between humans and objects. To tackle these limitations, we propose to combine large-scale pre-trained vision-language and video-language models, which serve to contribute stable and reliable multimodal data and facilitate effective spatiotemporal visual-textual alignment. Additionally, a novel hand-object-interaction (HOI) aggregation module is proposed which aids in capturing human-object interaction information, thereby further augmenting the capacity to understand the presented scenario. Our method achieved first place in the CVPR'2023 AQTC Challenge, with a Recall@1 score of 78.7%. The code is available at https://github.com/tomchen-ctj/CVPR23-LOVEU-AQTC.
updated: Fri Jun 23 2023 09:02:25 GMT+0000 (UTC)
published: Fri Jun 23 2023 09:02:25 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト