arXiv reaDer
一般的なアクションの時間と空間への数ショットの変換
Few-Shot Transformation of Common Actions into Time and Space
この論文では、時間と空間における数ショットの一般的なアクションのローカリゼーションのタスクを紹介します。同じであるが未知のアクションを含むいくつかのトリミングされたサポートビデオを考えると、トリミングされていない長いクエリビデオでそのアクションの時空間ローカリゼーションに努めます。クラスラベル、間隔境界、または境界ボックスは必要ありません。この困難なタスクに対処するために、提案を必要とせずに、共同の共通性学習とローカリゼーション予測用に最適化された専用のエンコーダ-デコーダ構造を備えた新しい数ショットのトランスアーキテクチャを紹介します。 AVAおよびUCF101-24データセットの再編成に関する実験は、サポートビデオにノイズが多い場合でも、数ショットの一般的なアクションのローカリゼーションに対するアプローチの有効性を示しています。時間内の一般的なローカリゼーション用に特別に設計されているわけではありませんが、この設定では、数ショットおよび1ショットの最先端技術と比べても遜色ありません。最後に、数ショットのトランスフォーマーをピクセルごとの一般的なアクションのローカリゼーションに簡単に拡張できることを示します。
This paper introduces the task of few-shot common action localization in time and space. Given a few trimmed support videos containing the same but unknown action, we strive for spatio-temporal localization of that action in a long untrimmed query video. We do not require any class labels, interval bounds, or bounding boxes. To address this challenging task, we introduce a novel few-shot transformer architecture with a dedicated encoder-decoder structure optimized for joint commonality learning and localization prediction, without the need for proposals. Experiments on our reorganizations of the AVA and UCF101-24 datasets show the effectiveness of our approach for few-shot common action localization, even when the support videos are noisy. Although we are not specifically designed for common localization in time only, we also compare favorably against the few-shot and one-shot state-of-the-art in this setting. Lastly, we demonstrate that the few-shot transformer is easily extended to common action localization per pixel.
updated: Tue Apr 06 2021 11:55:08 GMT+0000 (UTC)
published: Tue Apr 06 2021 11:55:08 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト