arXiv reaDer
自己中心的な 3D 手の軌道予測のための不確実性を認識した状態空間トランスフォーマー
Uncertainty-aware State Space Transformer for Egocentric 3D Hand Trajectory Forecasting
自己中心的な視点からの手の軌跡を予測することは、AR/VR システムと対話する際に人間の意図を迅速に理解できるようにするために非常に重要です。ただし、既存の方法は 2D 画像空間でこの問題を処理するため、現実世界の 3D アプリケーションには不十分です。この論文では、一人称視点で初期に観察された RGB ビデオから 3D 空間で手の軌道を予測することを目的とした自己中心的な 3D 手の軌道予測タスクを設定しました。この目標を達成するために、古典的な状態空間モデルの枠組み内で注意メカニズムと偶然の不確実性の利点を活用する不確実性認識状態空間変換器 (USST) を提案します。このモデルは、大型ビジョン トランスフォーマーの速度制約とビジュアル プロンプト チューニング (VPT) によってさらに強化できます。さらに、高品質の 3D 手の軌跡を収集するためのアノテーション ワークフローを開発します。 H2O および EgoPAT3D データセットの実験結果は、2D と 3D の両方の軌道予測における USST の優位性を示しています。コードとデータセットは で公開されています。
Hand trajectory forecasting from egocentric views is crucial for enabling a prompt understanding of human intentions when interacting with AR/VR systems. However, existing methods handle this problem in a 2D image space which is inadequate for 3D real-world applications. In this paper, we set up an egocentric 3D hand trajectory forecasting task that aims to predict hand trajectories in a 3D space from early observed RGB videos in a first-person view. To fulfill this goal, we propose an uncertainty-aware state space Transformer (USST) that takes the merits of the attention mechanism and aleatoric uncertainty within the framework of the classical state-space model. The model can be further enhanced by the velocity constraint and visual prompt tuning (VPT) on large vision transformers. Moreover, we develop an annotation workflow to collect 3D hand trajectories with high quality. Experimental results on H2O and EgoPAT3D datasets demonstrate the superiority of USST for both 2D and 3D trajectory forecasting. The code and datasets are publicly released:
updated: Mon Jul 17 2023 04:55:02 GMT+0000 (UTC)
published: Mon Jul 17 2023 04:55:02 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト