arXiv reaDer
Human Action Recognition in Drone Videos using a Few Aerial Training Examples
ドローンは、低コストと高速移動性により、新しい形の人間行動監視を可能にしています。ただし、空中自動アクション認識にディープニューラルネットワークを使用することは、多数の空中人間アクションビデオをトレーニングする必要があるため、困難です。ヒューマンアクションの空中ビデオを大量に収集することは、コストと時間がかかり、困難です。このホワイトペーパーでは、2つの代替データソースを探索して、空中訓練の例が少ししかない場合に空中アクションの分類を改善します。最初のデータソースとして、ビデオゲームを使用します。 2つのゲームエンジンを使用して、たくさんの空中ゲームアクションビデオを収集します。 2番目のデータソースについては、条件付きのWasserstein Generative Adversarial Networksを利用して、地上ビデオから空中機能を生成します。両方のデータソースにいくつかの制限があることを考えます。ゲームビデオは特定のアクションカテゴリ(戦闘、射撃など)に偏っており、すべてのタイプのアクションに対してGANが生成する優れた特徴を生成することは容易ではありません。トレーニングビデオ。データの異種性の性質のこの課題に対処するために、私たちは素のマルチタスク学習フレームワークを使用することを提案します。改善されたアクション分類子を取得するために、ネットワークに実際とゲーム、または実際とGANで生成されたデータを交互に供給します。 2つの空中アクションデータセットで提案されたアプローチを検証し、空中ゲームビデオの機能とGANから生成された機能が、実際の空中トレーニングの例が少ししかない場合に、実際の空中ビデオでのアクション認識の改善に非常に役立つことを示します。
Drones are enabling new forms of human actions surveillance due to their low cost and fast mobility. However, using deep neural networks for automatic aerial action recognition is difficult due to the need for a large number of training aerial human action videos. Collecting a large number of human action aerial videos is costly, time-consuming, and difficult. In this paper, we explore two alternative data sources to improve aerial action classification when only a few training aerial examples are available. As a first data source, we resort to video games. We collect plenty of aerial game action videos using two gaming engines. For the second data source, we leverage conditional Wasserstein Generative Adversarial Networks to generate aerial features from ground videos. Given that both data sources have some limitations, e.g. game videos are biased towards specific actions categories (fighting, shooting, etc.,), and it is not easy to generate good discriminative GAN-generated features for all types of actions, we need to efficiently integrate two dataset sources with few available real aerial training videos. To address this challenge of the heterogeneous nature of the data, we propose to use a disjoint multitask learning framework. We feed the network with real and game, or real and GAN-generated data in an alternating fashion to obtain an improved action classifier. We validate the proposed approach on two aerial action datasets and demonstrate that features from aerial game videos and those generated from GAN can be extremely useful for an improved action recognition in real aerial videos when only a few real aerial training examples are available.
updated: Fri Apr 02 2021 12:33:37 GMT+0000 (UTC)
published: Tue Oct 22 2019 15:02:36 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト