arXiv reaDer
繰り返しますか、参加しますか、それとも畳み込みますか?アクション認識におけるクロスドメインロバスト性にとって時間モデリングが重要かどうかについて
Recur, Attend or Convolve? On Whether Temporal Modeling Matters for Cross-Domain Robustness in Action Recognition
今日のほとんどのアクション認識モデルは高度にパラメータ化されており、外観が異なるクラスを持つデータセットで評価されます。また、2D 畳み込みニューラル ネットワーク (CNN) は、人間とは対照的に、静止画像認識タスクで形状よりもテクスチャに偏る傾向があることも示されています。まとめると、これは、大規模なビデオ モデルが、関連する形状を経時的に追跡してその動きから一般化可能なセマンティクスを推測するのではなく、偽の空間テクスチャ相関を部分的に学習するという疑いを引き起こします。時間の経過とともに視覚パターンを学習するときにパラメーターの爆発を避ける自然な方法は、再帰を利用することです。生物の視覚は豊富な反復回路で構成されており、ドメイン シフトの汎化という点でコンピューター ビジョンよりも優れています。この記事では、低レベルの時間モデリングの選択がテクスチャ バイアスとクロスドメインの堅牢性に影響を与えるかどうかを経験的に研究します。単一フレームからは明らかにされない、時間構造をキャプチャする能力の軽量で体系的な評価を可能にするために、時間形状 (TS) データセットと、空間テクスチャ バイアスの調査を可能にする Diving48 の変更されたドメインを提供します。ビデオモデルで。実験を組み合わせた結果は、ドメインシフトに対する堅牢性がタスクにとって重要な場合、時間モデリングの再発などの健全な物理的誘導バイアスが有利である可能性があることを示しています。
Most action recognition models today are highly parameterized, and evaluated on datasets with appearance-wise distinct classes. It has also been shown that 2D Convolutional Neural Networks (CNNs) tend to be biased toward texture rather than shape in still image recognition tasks, in contrast to humans. Taken together, this raises suspicion that large video models partly learn spurious spatial texture correlations rather than to track relevant shapes over time to infer generalizable semantics from their movement. A natural way to avoid parameter explosion when learning visual patterns over time is to make use of recurrence. Biological vision consists of abundant recurrent circuitry, and is superior to computer vision in terms of domain shift generalization. In this article, we empirically study whether the choice of low-level temporal modeling has consequences for texture bias and cross-domain robustness. In order to enable a light-weight and systematic assessment of the ability to capture temporal structure, not revealed from single frames, we provide the Temporal Shape (TS) dataset, as well as modified domains of Diving48 allowing for the investigation of spatial texture bias in video models. The combined results of our experiments indicate that sound physical inductive bias such as recurrence in temporal modeling may be advantageous when robustness to domain shift is important for the task.
updated: Tue Oct 11 2022 11:44:32 GMT+0000 (UTC)
published: Wed Dec 22 2021 19:11:53 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト