arXiv reaDer
Accelerating temporal action proposal generation via high performance computing
 時間的アクションの認識は、常に時間的アクションの提案生成に依存してアクションを仮定します。アルゴリズムは通常、非常に長いビデオシーケンスを処理し、計算コストが高い各ビデオの各潜在的なアクションの開始時間と終了時間を出力する必要があります。これに対処するために、境界に敏感なネットワークに基づいて、Multipath Temporal ConvNet(MTN)と呼ばれる新しい時間たたみ込みネットワークを提案します。これは、マルチパスDenseNetとSE-ConvNetの2つの部分で構成されます。この作業では、メッセージパッシングインターフェース(MPI)に基づく1つの新しい高性能リングパラレルアーキテクチャが、大規模なメモリ占有と多数の要件に対応するために、信頼できる通信プロトコルである時間アクション提案生成にさらに導入されます。動画の。驚くべきことに、新しく開発されたアーキテクチャに複数のコンピューティング負荷間の接続を追加することにより、総データ転送が削減されます。従来のパラメータサーバーアーキテクチャと比較して、並列アーキテクチャは複数のGPUを使用した時間アクション検出タスクの効率が高く、特に数百万のビデオの大規模なデータセットの時間アクション提案生成のタスクを処理するのに適しています。 。私たちは、ActivityNet-1.3とTHUMOS14で実験を行っています。この方法は、高い再現性と高い時間精度で他の最先端の時間的アクション検出方法よりも優れています。さらに、分散型トレーニングプロセスの速度パフォーマンスを評価するために、ここではさらに時間メトリックが提案されています。
Temporal action recognition always depends on temporal action proposal generation to hypothesize actions and algorithms usually need to process very long video sequences and output the starting and ending times of each potential action in each video suffering from high computation cost. To address this, based on boundary sensitive network we propose a new temporal convolution network called Multipath Temporal ConvNet (MTN), which consists of two parts i.e. Multipath DenseNet and SE-ConvNet. In this work, one novel high performance ring parallel architecture based on Message Passing Interface (MPI) is further introduced into temporal action proposal generation, which is a reliable communication protocol, in order to respond to the requirements of large memory occupation and a large number of videos. Remarkably, the total data transmission is reduced by adding a connection between multiple computing load in the newly developed architecture. It is found that, compared to the traditional Parameter Server architecture, our parallel architecture has higher efficiency on temporal action detection task with multiple GPUs, which is suitable for dealing with the tasks of temporal action proposal generation, especially for large datasets of millions of videos. We conduct experiments on ActivityNet-1.3 and THUMOS14, where our method outperforms other state-of-art temporal action detection methods with high recall and high temporal precision. In addition, a time metric is further proposed here to evaluate the speed performance in the distributed training process.
updated: Fri Apr 24 2020 06:35:10 GMT+0000 (UTC)
published: Sat Jun 15 2019 08:35:34 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト