私たちは、エゴセントリックな動画からの一人称行動認識に焦点を当てています。サードパーソンドメインとは異なり、研究者は一人称アクションを2つのカテゴリに分けています。手とオブジェクトの相互作用を含むものと含まないものを含み、2つのアクションカテゴリに対して個別のテクニックを開発しました。さらに、第三者のアクション認識に使用される従来のキューでは不十分であると主張されており、そのようなアクションには頭の動きや操作対象などのエゴセントリックの特定の機能が使用されています。最先端のアプローチとは異なり、オブジェクトとモーション用に別々のストリームを持つLong Short-Term Memory(LSTM)アーキテクチャを備えた通常の2ストリームConvolutional Neural Network(CNN)は、最初のすべてのカテゴリに一般化できることを示します-人のアクション。提案されたアプローチは、すべてのアクションカテゴリによって学習された機能を統合し、提案されたアーキテクチャをより実用的にします。重要な観察では、エゴセントリックなビデオに表示されるオブジェクトのサイズははるかに小さいことに注意してください。フレームの切り取りとサイズ変更を行って、オブジェクトのサイズをImageNetのオブジェクトのサイズと同等にした後、提案モデルのパフォーマンスが向上することを示します。標準データセットであるGTEA、EGTEA Gaze +、HUJI、ADL、UTE、Kitchenでの実験は、このモデルがさまざまな最先端の手法を大幅に上回ることを証明しています。
We focus on first-person action recognition from egocentric videos. Unlike third person domain, researchers have divided first-person actions into two categories: involving hand-object interactions and the ones without, and developed separate techniques for the two action categories. Further, it has been argued that traditional cues used for third person action recognition do not suffice, and egocentric specific features, such as head motion and handled objects have been used for such actions. Unlike the state-of-the-art approaches, we show that a regular two stream Convolutional Neural Network (CNN) with Long Short-Term Memory (LSTM) architecture, having separate streams for objects and motion, can generalize to all categories of first-person actions. The proposed approach unifies the feature learned by all action categories, making the proposed architecture much more practical. In an important observation, we note that the size of the objects visible in the egocentric videos is much smaller. We show that the performance of the proposed model improves after cropping and resizing frames to make the size of objects comparable to the size of ImageNet's objects. Our experiments on the standard datasets: GTEA, EGTEA Gaze+, HUJI, ADL, UTE, and Kitchen, proves that our model significantly outperforms various state-of-the-art techniques.