arXiv reaDer
注釈-効率的なトリミングされていないビデオアクション認識
Annotation-Efficient Untrimmed Video Action Recognition
ディープラーニングはビデオアクションの認識に大きな成功を収めましたが、トレーニングデータの収集と注釈付けは依然として非常に面倒であり、主に次の2つの側面にあります。(1)必要な注釈付きデータの量が多い。 (2)各アクションの場所に一時的に注釈を付けるには時間がかかります。数ショット学習やトリミングされていないビデオ認識などの作業は、いずれかの側面を処理するために提案されています。ただし、両方の問題を同時に処理できる既存の作品はほとんどありません。この論文では、大量のサンプルとアクションの場所の両方に対する注釈の要件を減らすために、新しい問題である注釈効率の高いビデオ認識を対象としています。このような問題は、次の2つの側面から困難です。(1)トリミングされていないビデオの監視は弱い。 (2)現在の関心のある行動(背景、BG)に関係のないビデオセグメントには、新しいクラスの関心のある行動(前景、FG)が含まれる可能性があります。これは広く存在する現象ですが、数ショットのトリミングされていないビデオ認識ではほとんど研究されていません。この目標を達成するために、BGの特性を分析することにより、BGを有益なBG(IBG)と非有益なBG(NBG)に分類し、(1)NBGとFGを見つけるためのオープンセット検出ベースの方法を提案します。 (2)IBGを学習し、自己監視方式でNBGを区別するための対照的な学習方法、および(3)IBGとFGをより適切に区別するための自己重み付けメカニズム。 ActivityNetv1.2およびActivityNetv1.3での広範な実験により、提案された方法の理論的根拠と有効性が検証されます。
Deep learning has achieved great success in recognizing video actions, but the collection and annotation of training data are still quite laborious, which mainly lies in two aspects: (1) the amount of required annotated data is large; (2) temporally annotating the location of each action is time-consuming. Works such as few-shot learning or untrimmed video recognition have been proposed to handle either one aspect or the other. However, very few existing works can handle both issues simultaneously. In this paper, we target a new problem, Annotation-Efficient Video Recognition, to reduce the requirement of annotations for both large amount of samples and the action location. Such problem is challenging due to two aspects: (1) the untrimmed videos only have weak supervision; (2) video segments not relevant to current actions of interests (background, BG) could contain actions of interests (foreground, FG) in novel classes, which is a widely existing phenomenon but has rarely been studied in few-shot untrimmed video recognition. To achieve this goal, by analyzing the property of BG, we categorize BG into informative BG (IBG) and non-informative BG (NBG), and we propose (1) an open-set detection based method to find the NBG and FG, (2) a contrastive learning method to learn IBG and distinguish NBG in a self-supervised way, and (3) a self-weighting mechanism for the better distinguishing of IBG and FG. Extensive experiments on ActivityNet v1.2 and ActivityNet v1.3 verify the rationale and effectiveness of the proposed methods.
updated: Mon Nov 01 2021 03:27:54 GMT+0000 (UTC)
published: Mon Nov 30 2020 00:26:58 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト