arXiv reaDer
行動分析のための強制注意を備えたマルチモーダル ビジョン トランスフォーマー
Multimodal Vision Transformers with Forced Attention for Behavior Analysis
人間の行動を理解するには、複数の入力モダリティを含むシーンの大規模なコンテキストで詳細を調べる必要があります。より人間らしい機械の設計を可能にするために必要です。変圧器のアプローチは大きな改善を示しましたが、データの不足やバックグラウンド ノイズなどの複数の課題に直面しています。これらに取り組むために、強制注意 (FAt) トランスフォーマーを導入します。これは、入力エンコーディング用の変更されたバックボーンと追加入力の使用で強制注意を利用します。さまざまなタスクや入力のパフォーマンスが向上するだけでなく、変更に必要な時間とメモリ リソースも少なくなります。社会的シグナルと行動分析に関するタスクの一般化された特徴抽出のモデルを提供します。私たちの焦点は、人々が互いにやり取りしている、または社会的相互作用における一人称視点をシミュレートするカメラに向かって話しているビデオでの行動を理解することにあります。 FAT Transformer は、2 つのダウンストリーム タスクに適用されます: 人格認識とボディー ランゲージ認識です。 Udiva v0.5、First Impressions v2、MPII Group Interaction データセットで最先端の結果を達成しています。さらに、提案されたアーキテクチャの広範なアブレーション研究を提供します。
Human behavior understanding requires looking at minute details in the large context of a scene containing multiple input modalities. It is necessary as it allows the design of more human-like machines. While transformer approaches have shown great improvements, they face multiple challenges such as lack of data or background noise. To tackle these, we introduce the Forced Attention (FAt) Transformer which utilize forced attention with a modified backbone for input encoding and a use of additional inputs. In addition to improving the performance on different tasks and inputs, the modification requires less time and memory resources. We provide a model for a generalised feature extraction for tasks concerning social signals and behavior analysis. Our focus is on understanding behavior in videos where people are interacting with each other or talking into the camera which simulates the first person point of view in social interaction. FAt Transformers are applied to two downstream tasks: personality recognition and body language recognition. We achieve state-of-the-art results for Udiva v0.5, First Impressions v2 and MPII Group Interaction datasets. We further provide an extensive ablation study of the proposed architecture.
updated: Wed Dec 07 2022 21:56:50 GMT+0000 (UTC)
published: Wed Dec 07 2022 21:56:50 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト