arXiv reaDer
ビデオベースのコンピュータビジョンタスクのためのコセグメンテーションに触発された注意モジュール
Co-segmentation Inspired Attention Module for Video-based Computer Vision Tasks
ビデオベースのコンピュータビジョンタスクは、顕著な領域の推定とそれらの領域間の相互作用から恩恵を受けることができます。従来、これは、事前にトレーニングされたモデルを利用してオブジェクト検出、オブジェクトセグメンテーション、および/またはオブジェクトポーズ推定を実行することにより、画像内のオブジェクト領域を識別することによって行われてきました。事前トレーニング済みモデルを使用することは実行可能なアプローチのようですが、オブジェクトカテゴリの徹底的な注釈、データセット間のドメインギャップ、および事前トレーニング済みモデルに存在するバイアスが必要なため、実際には実行不可能です。これらの欠点を克服するために、一連のビデオフレームが一連の共通オブジェクトとそれらの間の相互作用をキャプチャするという共通の理論的根拠を利用することを提案します。したがって、ビデオフレーム機能間のコセグメンテーションの概念は、モデルに自動的に機能を装備する可能性があります。顕著な領域に焦点を合わせ、エンドツーエンドの方法で基礎となるタスクのパフォーマンスを向上させます。この点で、ビデオフレーム機能のシーケンス間でコセグメンテーションベースの注意の概念を促進するために任意のCNNにプラグインできる「コセグメンテーションアクティベーションモジュール」(COSAM)と呼ばれる汎用モジュールを提案します。 3つのビデオベースのタスク、つまり1)ビデオベースの人物の再ID、2)ビデオのキャプション、および3)ビデオアクションの分類におけるCOSAMのアプリケーションを示し、COSAMがビデオフレーム内の顕著な領域をキャプチャできることを示します。 、したがって、解釈可能なアテンションマップとともに顕著なパフォーマンスの向上につながります。
Video-based computer vision tasks can benefit from the estimation of the salient regions and interactions between those regions. Traditionally, this has been done by identifying the object regions in the images by utilizing pre-trained models to perform object detection, object segmentation, and/or object pose estimation. Though using pre-trained models seems to be a viable approach, it is infeasible in practice due to the need for exhaustive annotation of object categories, domain gap between datasets, and bias present in pre-trained models. To overcome these downsides, we propose to utilize the common rationale that a sequence of video frames capture a set of common objects and interactions between them, thus a notion of co-segmentation between the video frame features may equip the model with the ability to automatically focus on salient regions and improve underlying task's performance in an end-to-end manner. In this regard, we propose a generic module called "Co-Segmentation Activation Module" (COSAM) that can be plugged into any CNN to promote the notion of co-segmentation based attention among a sequence of video frame features. We show the application of COSAM in three video-based tasks namely: 1) Video-based person re-ID, 2) Video captioning, & 3) Video action classification, and demonstrate that COSAM is able to capture salient regions in the video frames, thus leading to notable performance improvements along with interpretable attention maps.
updated: Thu Nov 25 2021 19:34:01 GMT+0000 (UTC)
published: Sun Nov 14 2021 15:35:37 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト