arXiv reaDer
LIP: Learning Instance Propagation for Video Object Segmentation
  近年、ビデオの背景から前景オブジェクトをセグメント化するタスク、つまりビデオオブジェクトセグメンテーション(VOS)が大きな注目を集めています。本論文では、半教師付きVOSタスクに取り組むための、単一のエンドツーエンドの訓練可能なディープニューラルネットワーク、畳み込みゲートリカレントマスク-RCNNを提案します。インスタンスセグメンテーションネットワーク(Mask-RCNN)とビジュアルメモリモジュール(Conv-GRU)の両方を利用して、VOSタスクに取り組みます。インスタンスセグメンテーションネットワークはインスタンスのマスクを予測しますが、ビジュアルメモリモジュールは複数のインスタンスの情報を同時に選択的に伝播することを学習し、外観の変化、スケールとポーズの変化、オブジェクト間のオクルージョンを処理します。純粋なインスタンスセグメンテーション損失下でのオフラインおよびオンライントレーニングの後、私たちのアプローチは、後処理や合成ビデオデータの増強なしで満足のいく結果を達成することができます。 DAVIS 2016データセットおよびDAVIS 2017データセットの実験結果は、ビデオオブジェクトのセグメンテーションタスクに対するメソッドの有効性を実証しています。
In recent years, the task of segmenting foreground objects from background in a video, i.e. video object segmentation (VOS), has received considerable attention. In this paper, we propose a single end-to-end trainable deep neural network, convolutional gated recurrent Mask-RCNN, for tackling the semi-supervised VOS task. We take advantage of both the instance segmentation network (Mask-RCNN) and the visual memory module (Conv-GRU) to tackle the VOS task. The instance segmentation network predicts masks for instances, while the visual memory module learns to selectively propagate information for multiple instances simultaneously, which handles the appearance change, the variation of scale and pose and the occlusions between objects. After offline and online training under purely instance segmentation losses, our approach is able to achieve satisfactory results without any post-processing or synthetic video data augmentation. Experimental results on DAVIS 2016 dataset and DAVIS 2017 dataset have demonstrated the effectiveness of our method for video object segmentation task.
updated: Mon Sep 30 2019 18:03:09 GMT+0000 (UTC)
published: Mon Sep 30 2019 18:03:09 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト