arXiv reaDer
DMM-Net: Differentiable Mask-Matching Network for Video Object Segmentation
  本論文では、初期オブジェクトマスクが提供されるビデオオブジェクトセグメンテーション問題を解決するための微分可能なマスクマッチングネットワーク(DMM-Net)を提案します。 Mask R-CNNバックボーンに依存して、フレームごとにマスク提案を抽出し、CNNによってコストマトリックスが予測される線形割り当て問題として、1つのタイムステップでオブジェクトテンプレートと提案の間のマッチングを定式化します。投影がダイクストラのアルゴリズムを活用する投影勾配降下アルゴリズムを展開することにより、微分可能なマッチングレイヤーを提案します。穏やかな条件下では、マッチングが最適に収束することが保証されていることを証明します。実際には、推論中にハンガリー語のアルゴリズムと同様に機能します。一方、コストマトリックスを学習するために逆伝播することができます。マッチング後、リファインメントヘッドを利用して、マッチングマスクの品質を向上させます。当社のDMM-Netは、最大のビデオオブジェクトセグメンテーションデータセットYouTube-VOSで競争力のある結果を達成しています。 DAVIS 2017では、DMM-Netは最初のフレームでオンライン学習せずに最高のパフォーマンスを実現します。微調整を行わない場合、DMM-NetはSegTrack v2データセットの最先端のメソッドと同等のパフォーマンスを発揮します。最後に、マッチングレイヤーの実装は非常に簡単です。 PyTorchコード($ <50 $行)を補足資料に添付します。コードはで公開されています。
In this paper, we propose the differentiable mask-matching network (DMM-Net) for solving the video object segmentation problem where the initial object masks are provided. Relying on the Mask R-CNN backbone, we extract mask proposals per frame and formulate the matching between object templates and proposals at one time step as a linear assignment problem where the cost matrix is predicted by a CNN. We propose a differentiable matching layer by unrolling a projected gradient descent algorithm in which the projection exploits the Dykstra's algorithm. We prove that under mild conditions, the matching is guaranteed to converge to the optimum. In practice, it performs similarly to the Hungarian algorithm during inference. Meanwhile, we can back-propagate through it to learn the cost matrix. After matching, a refinement head is leveraged to improve the quality of the matched mask. Our DMM-Net achieves competitive results on the largest video object segmentation dataset YouTube-VOS. On DAVIS 2017, DMM-Net achieves the best performance without online learning on the first frames. Without any fine-tuning, DMM-Net performs comparably to state-of-the-art methods on SegTrack v2 dataset. At last, our matching layer is very simple to implement; we attach the PyTorch code ($<50$ lines) in the supplementary material. Our code is released at
updated: Fri Sep 27 2019 02:25:59 GMT+0000 (UTC)
published: Fri Sep 27 2019 02:25:59 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト