arXiv reaDer
TNT:少数ショットのビデオ分類のためのトランスダクティブ推論を備えたテキスト条件付きネットワーク
TNT: Text-Conditioned Network with Transductive Inference for Few-Shot Video Classification
最近、数ショットのビデオ分類がますます関心を集めています。現在のアプローチは主に、ビデオの時間的側面を効果的に活用して、低データレジームでの学習を改善することに焦点を当てています。ただし、ほとんどの作品は、ビデオに豊富なテキストの説明が付いていることが多く、これは数ショットの認識の場合を処理するための重要な情報源にもなり得ることをほとんど無視しています。この論文では、数ショットのビデオ分類モデルをトレーニングするときに、これらの人間が提供するテキストによる説明を特権情報として活用することを提案します。具体的には、テキストベースのタスクコンディショナーを作成して、ビデオ機能を数ショットの学習タスクに適合させます。さらに、私たちのモデルは、トランスダクティブ設定に従って、サポートテキストの説明とクエリインスタンスを使用してクラスプロトタイプのセットを更新することにより、モデルのタスク適応能力を向上させます。私たちのモデルは、数ショットのビデオアクション分類モデルを評価するために一般的に使用される4つの挑戦的なベンチマークで最先端のパフォーマンスを達成します。
Recently, few-shot video classification has received an increasing interest. Current approaches mostly focus on effectively exploiting the temporal dimension in videos to improve learning under low data regimes. However, most works have largely ignored that videos are often accompanied by rich textual descriptions that can also be an essential source of information to handle few-shot recognition cases. In this paper, we propose to leverage these human-provided textual descriptions as privileged information when training a few-shot video classification model. Specifically, we formulate a text-based task conditioner to adapt video features to the few-shot learning task. Furthermore, our model follows a transductive setting to improve the task-adaptation ability of the model by using the support textual descriptions and query instances to update a set of class prototypes. Our model achieves state-of-the-art performance on four challenging benchmarks commonly used to evaluate few-shot video action classification models.
updated: Wed Dec 15 2021 14:18:25 GMT+0000 (UTC)
published: Mon Jun 21 2021 15:08:08 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト