注釈付きの大規模な実際のデータセットがないため、ビデオアクティビティを理解するために転移学習が必要になります。一人称行動分類のための数発転移学習の効果的な方法の開発を目指しています。独自にトレーニングされたローカルの視覚的手がかりを活用して、プリミティブアクションラベルを提供するソースドメインから別のターゲットドメインに転送できる表現を学習します-ほんの一握りの例を使用します。私たちが採用する視覚的な手がかりには、オブジェクトとオブジェクトの相互作用、手の握り、手の位置の関数である領域内の動きが含まれます。メタ学習に基づくフレームワークを使用して、展開された視覚的手がかりの特徴的でドメイン不変のコンポーネントを抽出します。これにより、さまざまなシーンおよびアクション構成でキャプチャされたパブリックデータセット間でアクション分類モデルを転送できます。転送学習方法論の比較結果を提示し、クラス間転送とデータセット間転送の両方について、最先端のアクション分類アプローチよりも優れた結果を報告します。
The lack of large-scale real datasets with annotations makes transfer learning a necessity for video activity understanding. We aim to develop an effective method for few-shot transfer learning for first-person action classification. We leverage independently trained local visual cues to learn representations that can be transferred from a source domain, which provides primitive action labels, to a different target domain -- using only a handful of examples. Visual cues we employ include object-object interactions, hand grasps and motion within regions that are a function of hand locations. We employ a framework based on meta-learning to extract the distinctive and domain invariant components of the deployed visual cues. This enables transfer of action classification models across public datasets captured with diverse scene and action configurations. We present comparative results of our transfer learning methodology and report superior results over state-of-the-art action classification approaches for both inter-class and inter-dataset transfer.