この作業では、マルチタスク学習を使用して、関連する監視対象タスクに存在する構造を利用して、複雑なニューラルネットワークをトレーニングします。単一のタスクの場合よりも多くの情報を収容するために開発された共有表現を活用することで、少なくとも1つの目的のパフォーマンスを向上させるために、複数の目的のネットワークを並行してトレーニングできます。このアイデアを活用して、監視付きのタスクを追加することにより、エゴセントリックなビデオのアクション認識に取り組んでいます。アクションラベルを構成する動詞と名詞の学習を検討し、入力ビデオセグメントのすべてのフレームの手の位置と視線ベースの視覚的顕著性をキャプチャする座標を予測します。これにより、ネットワークは、見逃した二次タスクからのキューに明示的に焦点を当てることになり、推論が改善されます。 EPIC-KitchensおよびEGTEA Gaze +での実験では、単一タスクのベースラインを超える複数のタスクでトレーニングする場合、一貫した改善が示されています。さらに、EGTEA Gaze +では、最新のアクション認識を3.84%上回る性能を発揮します。アクションとは別に、このメソッドは、RGBビデオクリップ以外のテスト時に追加の入力を必要とせずに、サイドタスクとして正確な手と視線の推定を生成します。
In this work we employ multitask learning to capitalize on the structure that exists in related supervised tasks to train complex neural networks. It allows training a network for multiple objectives in parallel, in order to improve performance on at least one of them by capitalizing on a shared representation that is developed to accommodate more information than it otherwise would for a single task. We employ this idea to tackle action recognition in egocentric videos by introducing additional supervised tasks. We consider learning the verbs and nouns from which action labels consist of and predict coordinates that capture the hand locations and the gaze-based visual saliency for all the frames of the input video segments. This forces the network to explicitly focus on cues from secondary tasks that it might otherwise have missed resulting in improved inference. Our experiments on EPIC-Kitchens and EGTEA Gaze+ show consistent improvements when training with multiple tasks over the single-task baseline. Furthermore, in EGTEA Gaze+ we outperform the state-of-the-art in action recognition by 3.84%. Apart from actions, our method produces accurate hand and gaze estimations as side tasks, without requiring any additional input at test time other than the RGB video clips.