arXiv reaDer
動的シーングラフを生成するためのクロスモダリティ時変関係学習
Cross-Modality Time-Variant Relation Learning for Generating Dynamic Scene Graphs
ビデオ クリップから生成された動的なシーン グラフは、環境認識、自律ナビゲーション、自動運転車や移動ロボットのタスク計画など、幅広い困難なタスクにおける意味的な視覚的理解を強化するのに役立ちます。動的シーン グラフ生成中の時間的および空間的モデリングのプロセスでは、フレーム間の動的シーン グラフの時間変化関係を学習することが特に困難です。この論文では、動的シーン グラフにおける関係の時間的変化をモデル化することを目的とした、時変関係認識 TRAnsformer (TR^2) を提案します。明示的に、関係ラベルに関するプロンプト文のテキスト埋め込みの違いを、関係の監視信号として利用します。このようにして、時変関係の学習のためのクロスモダリティ特徴ガイダンスが実現されます。暗黙的に、トランスフォーマーと隣接するフレーム間の違いを記述する追加のメッセージ トークンを備えた関係特徴融合モジュールを設計します。 Action Genome データセットに関する広範な実験により、TR^2 が時間変化関係を効果的にモデル化できることが証明されました。 TR^2 は、2 つの異なる設定の下で、以前の最先端の手法をそれぞれ 2.1% および 2.6% 大幅に上回りました。
Dynamic scene graphs generated from video clips could help enhance the semantic visual understanding in a wide range of challenging tasks such as environmental perception, autonomous navigation, and task planning of self-driving vehicles and mobile robots. In the process of temporal and spatial modeling during dynamic scene graph generation, it is particularly intractable to learn time-variant relations in dynamic scene graphs among frames. In this paper, we propose a Time-variant Relation-aware TRansformer (TR^2), which aims to model the temporal change of relations in dynamic scene graphs. Explicitly, we leverage the difference of text embeddings of prompted sentences about relation labels as the supervision signal for relations. In this way, cross-modality feature guidance is realized for the learning of time-variant relations. Implicitly, we design a relation feature fusion module with a transformer and an additional message token that describes the difference between adjacent frames. Extensive experiments on the Action Genome dataset prove that our TR^2 can effectively model the time-variant relations. TR^2 significantly outperforms previous state-of-the-art methods under two different settings by 2.1% and 2.6% respectively.
updated: Mon May 15 2023 10:30:38 GMT+0000 (UTC)
published: Mon May 15 2023 10:30:38 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト