RANet: Ranking Attention Network for Fast Video Object Segmentation
  オンライン学習(OL)技術は半監視対象ビデオオブジェクトセグメンテーション(VOS)メソッドのパフォーマンスを向上させましたが、OLの膨大な時間コストはその実用性を大きく制限します。マッチングベースおよび伝播ベースのメソッドは、OL手法を回避することにより、より高速に実行されます。ただし、不一致とドリフトの問題により、精度が次善の制限を受けます。このホワイトペーパーでは、VOS用のリアルタイムでありながら非常に正確なランキングアテンションネットワーク(RANet)を開発します。具体的には、マッチングベースの手法と伝播ベースの手法の洞察を統合するために、エンドツーエンドでピクセルレベルの類似性とセグメンテーションを学習するエンコーダーデコーダーフレームワークを採用しています。類似性マップをより有効に活用するために、きめ細かなVOSパフォーマンスのためにこれらのマップを自動的にランク付けして選択する、新しいランク付け注意モジュールを提案します。 DAVIS-16およびDAVIS-17データセットの実験は、RANetが最高の速度と精度のトレードオフを達成することを示しています。たとえば、フレームあたり33ミリ秒、DAVIS-16でJ&F = 85.5%です。 OLの場合、RANetはDAVIS-16でJ&F = 87.1%に達し、最先端のVOSメソッドを超えています。コードはにあります。
Despite online learning (OL) techniques have boosted the performance of semi-supervised video object segmentation (VOS) methods, the huge time costs of OL greatly restrict their practicality. Matching based and propagation based methods run at a faster speed by avoiding OL techniques. However, they are limited by sub-optimal accuracy, due to mismatching and drifting problems. In this paper, we develop a real-time yet very accurate Ranking Attention Network (RANet) for VOS. Specifically, to integrate the insights of matching based and propagation based methods, we employ an encoder-decoder framework to learn pixel-level similarity and segmentation in an end-to-end manner. To better utilize the similarity maps, we propose a novel ranking attention module, which automatically ranks and selects these maps for fine-grained VOS performance. Experiments on DAVIS-16 and DAVIS-17 datasets show that our RANet achieves the best speed-accuracy trade-off, e.g., with 33 milliseconds per frame and J&F=85.5% on DAVIS-16. With OL, our RANet reaches J&F=87.1% on DAVIS-16, exceeding state-of-the-art VOS methods. The code can be found at
