arXiv reaDer
自己中心的な行動認識のための自由形式構成ネットワーク
Free-Form Composition Networks for Egocentric Action Recognition
人間の行動認識の分野では、自己中心的な行動認識が大きな注目を集めています。この論文では、自己中心的な行動認識におけるデータ不足の問題を、構成的一般化の観点から扱います。この問題に取り組むために、私たちは、もつれの解けた動詞、前置詞、名詞表現を同時に学習できる自由形式合成ネットワーク (FFCN) を提案します。その後、それらを使用して、まれなクラスのアクション ビデオの特徴空間で新しいサンプルを合成します。まず、グラフを使用して、各アクション ビデオ内のさまざまな手/オブジェクト インスタンス間の時空間関係をキャプチャします。したがって、各アクションを動詞のセットに分解し、グラフのエッジ特徴を使用して時空間表現を前置します。時間分解ではさまざまなビデオ フレームから動詞と前置詞の表現が抽出され、空間分解では各フレームのアクションに関連したインスタンスから動詞と前置詞の表現が適応的に学習されます。動詞と前置詞のこれらの時空間表現を使用すると、動詞と名詞の厳密な形式に制限されない自由形式の方法で、これらのまれなクラスの新しいサンプルを構成できます。提案された FFCN は、まれなクラスの新しいトレーニング データ サンプルを直接生成できるため、アクション認識パフォーマンスが大幅に向上します。私たちは、3 つの一般的な自己中心的行動認識データセット、Something-Something V2、H2O、および EPIC-KITCHENS-100 でこの方法を評価しました。実験結果は、ロングテールや少数のデータを含むデータ不足の問題を処理するための提案された方法の有効性を示しています。自己中心的な行動認識をショットします。
Egocentric action recognition is gaining significant attention in the field of human action recognition. In this paper, we address data scarcity issue in egocentric action recognition from a compositional generalization perspective. To tackle this problem, we propose a free-form composition network (FFCN) that can simultaneously learn disentangled verb, preposition, and noun representations, and then use them to compose new samples in the feature space for rare classes of action videos. First, we use a graph to capture the spatial-temporal relations among different hand/object instances in each action video. We thus decompose each action into a set of verb and preposition spatial-temporal representations using the edge features in the graph. The temporal decomposition extracts verb and preposition representations from different video frames, while the spatial decomposition adaptively learns verb and preposition representations from action-related instances in each frame. With these spatial-temporal representations of verbs and prepositions, we can compose new samples for those rare classes in a free-form manner, which is not restricted to a rigid form of a verb and a noun. The proposed FFCN can directly generate new training data samples for rare classes, hence significantly improve action recognition performance. We evaluated our method on three popular egocentric action recognition datasets, Something-Something V2, H2O, and EPIC-KITCHENS-100, and the experimental results demonstrate the effectiveness of the proposed method for handling data scarcity problems, including long-tailed and few-shot egocentric action recognition.
updated: Thu Jul 13 2023 02:22:09 GMT+0000 (UTC)
published: Thu Jul 13 2023 02:22:09 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト