arXiv reaDer
視覚と音による反復活動のカウント
Repetitive Activity Counting by Sight and Sound
この論文は、ビデオでの反復的な活動のカウントに努めています。すべてビジュアルビデオコンテンツのみを分析する既存の作品とは異なり、対応するサウンドを繰り返しカウントプロセスに初めて組み込みます。これにより、オクルージョン、劇的なカメラビューの変化、低解像度などの困難な視覚条件での精度が向上します。視力と音の流れを別々に分析することから始まるモデルを提案します。次に、視聴覚時間ストライド決定モジュールと信頼性推定モジュールを導入して、クロスモーダル時間相互作用を活用します。学習と評価のために、既存のデータセットは、視覚と音で繰り返しカウントできるように再利用および再編成されます。また、困難な視力条件下での反復カウントのために、このデータセットのバリアントを紹介します。実験は、繰り返しカウントのためのサウンドと他の導入されたモジュールの利点を示しています。私たちの視覚のみのモデルは、それ自体ですでに最先端のモデルを上回っています。音を追加すると、特に過酷な視界条件下で、結果が著しく向上します。
This paper strives for repetitive activity counting in videos. Different from existing works, which all analyze the visual video content only, we incorporate for the first time the corresponding sound into the repetition counting process. This benefits accuracy in challenging vision conditions such as occlusion, dramatic camera view changes, low resolution, etc. We propose a model that starts with analyzing the sight and sound streams separately. Then an audiovisual temporal stride decision module and a reliability estimation module are introduced to exploit cross-modal temporal interaction. For learning and evaluation, an existing dataset is repurposed and reorganized to allow for repetition counting with sight and sound. We also introduce a variant of this dataset for repetition counting under challenging vision conditions. Experiments demonstrate the benefit of sound, as well as the other introduced modules, for repetition counting. Our sight-only model already outperforms the state-of-the-art by itself, when we add sound, results improve notably, especially under harsh vision conditions.
updated: Sat Apr 17 2021 18:43:00 GMT+0000 (UTC)
published: Wed Mar 24 2021 11:15:33 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト