arXiv reaDer
SOS!自己中心的行動認識における処理されたオブジェクトのセットに対する自己監視学習
SOS! Self-supervised Learning Over Sets Of Handled Objects In Egocentric Action Recognition
ビデオデータから自己中心的な行動認識モデルを学習することは、バックグラウンドに気を散らすもの(たとえば、無関係なオブジェクト)があるために困難です。したがって、オブジェクト情報をアクションモデルにさらに統合することは有益です。既存の方法では、一般的なオブジェクト検出器を利用して、シーン内のオブジェクトを識別して表現することがよくあります。ただし、いくつかの重要な問題が残っています。優れたオブジェクト表現を学習するには、ターゲットドメイン(データセット)に適した高品質のオブジェクトクラスアノテーションが引き続き必要です。さらに、以前の方法は既存のアクションモデルを深く結合し、オブジェクト表現と一緒にそれらを再トレーニングする必要があるため、コストがかかり、柔軟性のない統合につながります。両方の制限を克服するために、Self-Supervised Learning Over Sets(SOS)を導入します。これは、既製の手オブジェクト接触検出器によって検出されたビデオオブジェクト領域から一般的なObjects In Contact(OIC)表現モデルを事前トレーニングするアプローチです。 。従来の自己監視学習のようにオブジェクト領域を個別に拡張するのではなく、アクションプロセスを、独自の時空間連続性を備えた自然なデータ変換の手段と見なし、ビデオごとのオブジェクトセット間の固有の関係を活用します。 EPIC-KITCHENS-100とEGTEAの2つのデータセットでの広範な実験は、OICが複数の最先端のビデオ分類モデルのパフォーマンスを大幅に向上させることを示しています。
Learning an egocentric action recognition model from video data is challenging due to distractors (e.g., irrelevant objects) in the background. Further integrating object information into an action model is hence beneficial. Existing methods often leverage a generic object detector to identify and represent the objects in the scene. However, several important issues remain. Object class annotations of good quality for the target domain (dataset) are still required for learning good object representation. Besides, previous methods deeply couple the existing action models and need to retrain them jointly with object representation, leading to costly and inflexible integration. To overcome both limitations, we introduce Self-Supervised Learning Over Sets (SOS), an approach to pre-train a generic Objects In Contact (OIC) representation model from video object regions detected by an off-the-shelf hand-object contact detector. Instead of augmenting object regions individually as in conventional self-supervised learning, we view the action process as a means of natural data transformations with unique spatio-temporal continuity and exploit the inherent relationships among per-video object sets. Extensive experiments on two datasets, EPIC-KITCHENS-100 and EGTEA, show that our OIC significantly boosts the performance of multiple state-of-the-art video classification models.
updated: Sun Apr 10 2022 23:27:19 GMT+0000 (UTC)
published: Sun Apr 10 2022 23:27:19 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト