arXiv reaDer
Attentional LSTMを備えた一時的にID対応のSSD
Temporally Identity-Aware SSD with Attentional LSTM
 時間的なオブジェクトの検出は大きな注目を集めていますが、ほとんどの一般的な検出方法では、ビデオの豊富な時間的な情報を活用できません。ごく最近、ビデオ検出タスクのために多くのアルゴリズムが開発されましたが、ビデオでリアルタイムのオンラインオブジェクト検出を実現できるアプローチはごくわずかです。この論文では、注意メカニズムと畳み込み長期短期記憶(ConvLSTM)に基づいて、実際の検出のための時間的シングルショット検出器(TSSD)を提案します。以前の方法とは異なり、ConvLSTMを使用してピラミッド型の機能階層を時間的に統合することを目指し、低レベルの時間単位とマルチスケールの機能マップの高レベルの時間単位(LH-TU)を含む新しい構造を設計します。さらに、創造的な時間分析ユニット、つまり、注意ConvLSTM(AC-LSTM)を開発します。ここでは、ConvLSTMが時間をかけて注意を認識する機能を統合する一方で、時間注意メカニズムが特別に背景抑制とスケール抑制に合わせて調整されます。アソシエーションの損失とマルチステップトレーニングは、時間的一貫性のために設計されています。さらに、オンラインチューブレット分析(OTA)が識別のために利用されます。私たちのフレームワークは、ImageNet VIDデータセットと2DMOT15データセットで評価されます。検出および追跡機能の広範な比較により、提案されたアプローチの優位性が検証されます。その結果、開発されたTSSD-OTAは、検出と追跡に関して、高速と全体的な競争力のあるパフォーマンスを実現します。最後に、水中の物体をつかむために実際の操作が行われます。ソースコードはhttps://github.com/SeanChenxy/TSSD-OTAで公開されています。
Temporal object detection has attracted significant attention, but most popular detection methods cannot leverage rich temporal information in videos. Very recently, many algorithms have been developed for video detection task, yet very few approaches can achieve real-time online object detection in videos. In this paper, based on attention mechanism and convolutional long short-term memory (ConvLSTM), we propose a temporal single-shot detector (TSSD) for real-world detection. Distinct from previous methods, we take aim at temporally integrating pyramidal feature hierarchy using ConvLSTM, and design a novel structure including a low-level temporal unit as well as a high-level one (LH-TU) for multi-scale feature maps. Moreover, we develop a creative temporal analysis unit, namely, attentional ConvLSTM (AC-LSTM), in which a temporal attention mechanism is specially tailored for background suppression and scale suppression while a ConvLSTM integrates attention-aware features across time. An association loss and a multi-step training are designed for temporal coherence. Besides, an online tubelet analysis (OTA) is exploited for identification. Our framework is evaluated on ImageNet VID dataset and 2DMOT15 dataset. Extensive comparisons on the detection and tracking capability validate the superiority of the proposed approach. Consequently, the developed TSSD-OTA achieves a fast speed and an overall competitive performance in terms of detection and tracking. Finally, a real-world maneuver is conducted for underwater object grasping. The source code is publicly available at https://github.com/SeanChenxy/TSSD-OTA.
updated: Wed Mar 25 2020 08:14:32 GMT+0000 (UTC)
published: Thu Mar 01 2018 03:48:07 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト