arXiv reaDer
遠方の監督の下で手続き型活動を認識することを学ぶ
Learning To Recognize Procedural Activities with Distant Supervision
この論文では、数分に及ぶ長いビデオから、きめの細かい多段階の活動(たとえば、さまざまなレシピの調理、さまざまな家の改良、さまざまな形の芸術品や工芸品の作成)を分類する問題について考察します。これらのアクティビティを正確に分類するには、タスクを構成する個々のステップを認識するだけでなく、それらの時間的な依存関係をキャプチャする必要があります。この問題は、モデルが通常、数秒に及ぶビデオで最適化され、単純なアトミックアクションを含むように手動でトリミングされる従来のアクション分類とは劇的に異なります。ステップアノテーションを使用すると、モデルのトレーニングで手続き型アクティビティの個々のステップを認識できますが、この領域の既存の大規模データセットには、長い動画の時間的境界に手動でアノテーションを付けるという法外なコストがかかるため、このようなセグメントラベルは含まれていません。この問題に対処するために、さまざまな複雑なアクティビティの実行に必要な手順の詳細な説明を含むテキスト知識ベース(wikiHow)の遠隔監視を活用して、教育ビデオの手順を自動的に特定することを提案します。私たちの方法では、言語モデルを使用して、ビデオからのノイズの多い自動文字変換された音声をナレッジベースのステップの説明に一致させます。これらの自動的にラベル付けされたステップを認識するようにトレーニングされたビデオモデル(手動による監視なし)が、手続き型アクティビティの認識、ステップ分類、ステップ予測、および自己中心的なビデオ分類の4つのダウンストリームタスクで優れた一般化パフォーマンスを実現する表現を生成することを示します。
In this paper we consider the problem of classifying fine-grained, multi-step activities (e.g., cooking different recipes, making disparate home improvements, creating various forms of arts and crafts) from long videos spanning up to several minutes. Accurately categorizing these activities requires not only recognizing the individual steps that compose the task but also capturing their temporal dependencies. This problem is dramatically different from traditional action classification, where models are typically optimized on videos that span only a few seconds and that are manually trimmed to contain simple atomic actions. While step annotations could enable the training of models to recognize the individual steps of procedural activities, existing large-scale datasets in this area do not include such segment labels due to the prohibitive cost of manually annotating temporal boundaries in long videos. To address this issue, we propose to automatically identify steps in instructional videos by leveraging the distant supervision of a textual knowledge base (wikiHow) that includes detailed descriptions of the steps needed for the execution of a wide variety of complex activities. Our method uses a language model to match noisy, automatically-transcribed speech from the video to step descriptions in the knowledge base. We demonstrate that video models trained to recognize these automatically-labeled steps (without manual supervision) yield a representation that achieves superior generalization performance on four downstream tasks: recognition of procedural activities, step classification, step forecasting and egocentric video classification.
updated: Tue Apr 12 2022 13:07:11 GMT+0000 (UTC)
published: Wed Jan 26 2022 15:06:28 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト