4D Generic Video Object Proposals
 高レベルのビデオ理解方法の多くは、オブジェクト提案の形式での入力を必要とします。現在、このような提案は主に、既知のオブジェクトクラスのセットを検出およびセグメント化するためにトレーニングされたネットワークの助けを借りて生成されます。これにより、該当するすべてのオブジェクトがトレーニングセットで表される場合に適用が制限されます。これは、未知のオブジェクトが頻繁に発生する可能性がある自動車シナリオの制限です。ステレオビデオから既知および未知のオブジェクトカテゴリの両方の時空間オブジェクト提案を確実に抽出できるアプローチを提案します。 4D Generic Video Tubes(4D-GVT)メソッドは、モーションキュー、ステレオデータ、およびオブジェクトインスタンスのセグメンテーションを利用して、3D空間および時間でオブジェクト候補とその輪郭を正確にローカライズするビデオオブジェクト提案のコンパクトセットを計算します。ラベル付けされたデータが少量の場合、4D-GVTプロポーザルジェネレータは、未知のカテゴリが表示される実際のシナリオにうまく一般化することを示しています。トレーニングセットのクラス数を数千に増やすことで、できるだけ多くのオブジェクトを検出しようとする他のアプローチよりも優れています。
Many high-level video understanding methods require input in the form of object proposals. Currently, such proposals are predominantly generated with the help of networks that were trained for detecting and segmenting a set of known object classes, which limits their applicability to cases where all objects of interest are represented in the training set. This is a restriction for automotive scenarios, where unknown objects can frequently occur. We propose an approach that can reliably extract spatio-temporal object proposals for both known and unknown object categories from stereo video. Our 4D Generic Video Tubes (4D-GVT) method leverages motion cues, stereo data, and object instance segmentation to compute a compact set of video-object proposals that precisely localizes object candidates and their contours in 3D space and time. We show that given only a small amount of labeled data, our 4D-GVT proposal generator generalizes well to real-world scenarios, in which unknown categories appear. It outperforms other approaches that try to detect as many objects as possible by increasing the number of classes in the training set to several thousand.
updated: Wed May 20 2020 18:45:15 GMT+0000 (UTC)
published: Sat Jan 26 2019 18:31:23 GMT+0000 (UTC)
