arXiv reaDer
音声ナレーションによって導かれる弱く監視された行動検出
Weakly-Supervised Action Detection Guided by Audio Narration
ビデオは、画像よりも視覚的な概念学習のためのよりよく組織化されたキュレートされたデータソースです。空間情報のみを含む2次元画像とは異なり、追加の時間次元は複数のモダリティを橋渡しして同期します。ただし、ほとんどのビデオ検出ベンチマークでは、これらの追加のモダリティは十分に活用されていません。たとえば、EPIC Kitchensは一人称(エゴセントリック)ビジョンで最大のデータセットですが、それでもクラウドソーシングされた情報に依存してアクションの境界を調整し、インスタンスレベルのアクションアノテーションを提供します。洗練された境界を提供するビデオ検出データの高価なアノテーションを排除する方法を検討しました。ナレーションの監督から学び、RGB、モーションフロー、周囲音などのマルチモーダル機能を利用するモデルを提案します。私たちのモデルは、無関係なフレームの使用を抑制しながら、ナレーションラベルに関連するフレームに注意を向けることを学習します。私たちの実験は、ノイズの多い音声ナレーションが優れたアクション検出モデルを学習するのに十分であり、したがって注釈の費用を削減することを示しています。
Videos are more well-organized curated data sources for visual concept learning than images. Unlike the 2-dimensional images which only involve the spatial information, the additional temporal dimension bridges and synchronizes multiple modalities. However, in most video detection benchmarks, these additional modalities are not fully utilized. For example, EPIC Kitchens is the largest dataset in first-person (egocentric) vision, yet it still relies on crowdsourced information to refine the action boundaries to provide instance-level action annotations. We explored how to eliminate the expensive annotations in video detection data which provide refined boundaries. We propose a model to learn from the narration supervision and utilize multimodal features, including RGB, motion flow, and ambient sound. Our model learns to attend to the frames related to the narration label while suppressing the irrelevant frames from being used. Our experiments show that noisy audio narration suffices to learn a good action detection model, thus reducing annotation expenses.
updated: Thu May 12 2022 06:33:24 GMT+0000 (UTC)
published: Thu May 12 2022 06:33:24 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト