arXiv reaDer
ビデオにおける活動認識のための人間のようなリレーショナルモデル
Human-like Relational Models for Activity Recognition in Video
ディープニューラルネットワークによるビデオアクティビティの認識は、多くのクラスにとって印象的です。ただし、特に活動の識別に挑戦する場合は、人間のパフォーマンスには達しません。人間は、明示的に認識されたオブジェクトやパーツ、たとえばコンテナの開口部に入るオブジェクト間の重要な時空間関係を認識することによって、これらの複雑なアクティビティを区別します。ディープニューラルネットワークは、そのような重要な関係を効果的に学習するのに苦労する可能性があります。したがって、我々は、活動認識へのより人間らしいアプローチを提案します。これは、連続する時間的フェーズでビデオを解釈し、それらのフェーズでオブジェクトと手の間の特定の関係を抽出します。ランダムフォレスト分類子は、これらの抽出された関係から学習されます。この方法を何か-何かデータセットの挑戦的なサブセットに適用し、挑戦的な活動のニューラルネットワークベースラインに対してより堅牢なパフォーマンスを実現します。
Video activity recognition by deep neural networks is impressive for many classes. However, it falls short of human performance, especially for challenging to discriminate activities. Humans differentiate these complex activities by recognising critical spatio-temporal relations among explicitly recognised objects and parts, for example, an object entering the aperture of a container. Deep neural networks can struggle to learn such critical relationships effectively. Therefore we propose a more human-like approach to activity recognition, which interprets a video in sequential temporal phases and extracts specific relationships among objects and hands in those phases. Random forest classifiers are learnt from these extracted relationships. We apply the method to a challenging subset of the something-something dataset and achieve a more robust performance against neural network baselines on challenging activities.
updated: Mon Jul 12 2021 11:13:17 GMT+0000 (UTC)
published: Mon Jul 12 2021 11:13:17 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト