精度と処理速度は、実際のアプリケーションでのビデオオブジェクトセグメンテーション(VOS)の使用に影響を与える2つの重要な要素です。ディープニューラルネットワークの高度な技術により、精度は大幅に向上しましたが、最初のフレーム微調整ステップの要件などの複雑なネットワーク設計のため、速度は依然としてリアルタイムのニーズをはるかに下回っています。この制限を克服するために、VOSの処理速度を大幅に向上させ、妥当な精度を達成できる新しいマスク転送ネットワーク(MTN)を提案します。 MTNの基本的な考え方は、効率的なグローバルピクセルマッチング戦略を介して参照マスクをターゲットフレームに転送することです。参照フレームとターゲットフレーム間のグローバルピクセルマッチングは、良好なマッチング結果を確保するためです。マッチング速度を向上させるために、元のフレームサイズの1/32でダウンサンプリングされた機能マップでマッチングを実行します。同時に、このような小さな機能マップに詳細なマスク情報を保存するために、マスクネットワークは、注釈付きマスク情報を512チャネルでエンコードするように設計されています。最後に、効率的なフィーチャワーピング方法を使用して、エンコードされた参照マスクをターゲットフレームに転送します。この設計に基づいて、私たちの方法は最初のフレームの微調整ステップを回避し、一時的なキューと特定のオブジェクトカテゴリに依存しません。したがって、非常に高速で実行され、画像のみで便利にトレーニングでき、見えないオブジェクトに対しても堅牢です。 DAVISデータセットの実験は、MTNが37 fpsの速度を達成できることを実証し、最先端の方法と比較して競争力のある精度も示しています。
Accuracy and processing speed are two important factors that affect the use of video object segmentation (VOS) in real applications. With the advanced techniques of deep neural networks, the accuracy has been significantly improved, however, the speed is still far below the real-time needs because of the complicated network design, such as the requirement of the first frame fine-tuning step. To overcome this limitation, we propose a novel mask transfer network (MTN), which can greatly boost the processing speed of VOS and also achieve a reasonable accuracy. The basic idea of MTN is to transfer the reference mask to the target frame via an efficient global pixel matching strategy. The global pixel matching between the reference frame and the target frame is to ensure good matching results. To enhance the matching speed, we perform the matching on a downsampled feature map with 1/32 of the original frame size. At the same time, to preserve the detailed mask information in such a small feature map, a mask network is designed to encode the annotated mask information with 512 channels. Finally, an efficient feature warping method is used to transfer the encoded reference mask to the target frame. Based on this design, our method avoids the fine-tuning step on the first frame and does not rely on the temporal cues and particular object categories. Therefore, it runs very fast and can be conveniently trained only with images, as well as being robust to unseen objects. Experiments on the DAVIS datasets demonstrate that MTN can achieve a speed of 37 fps, and also shows a competitive accuracy in comparison to the state-of-the-art methods.