Adaptive ROI Generation for Video Object Segmentation Using Reinforcement Learning
  この論文では、最初のフレームのグラウンドトゥルースセグメンテーションのみが提供されるフレームのシーケンス全体で、半監視ビデオオブジェクトセグメンテーションのタスクに取り組むことを目指しています。課題は、複数の混乱するインスタンスや大きなオブジェクトの動きがある場合でも、最初のフレームから初期化されたセグメンテーションモデルを適応的かつ正確にオンラインで更新する方法にあります。既存のアプローチは、モデル更新の対象領域の選択に依存していますが、これは大まかで柔軟性がなく、パフォーマンスの低下につながります。この制限を克服するために、我々は、強化学習を利用して、歴史的なセグメンテーション情報に基づいて、各フレームに最適な適応領域を選択する新しいアプローチを提案します。 RLモデルは、オンラインモデル更新の前のフレームから推測された関心領域を調整するための最適なアクションを実行することを学習します。モデルの適応を高速化するために、最適な状態アクションペアを迅速に選択するための、新しいマルチブランチツリーベースの探索方法をさらに設計します。私たちの実験では、DAVIS 2016データセットの最新の平均領域類似性が87.1%に改善されていることがわかりました。
In this paper, we aim to tackle the task of semi-supervised video object segmentation across a sequence of frames where only the ground-truth segmentation of the first frame is provided. The challenges lie in how to online update the segmentation model initialized from the first frame adaptively and accurately, even in presence of multiple confusing instances or large object motion. The existing approaches rely on selecting the region of interest for model update, which however, is rough and inflexible, leading to performance degradation. To overcome this limitation, we propose a novel approach which utilizes reinforcement learning to select optimal adaptation areas for each frame, based on the historical segmentation information. The RL model learns to take optimal actions to adjust the region of interest inferred from the previous frame for online model updating. To speed up the model adaption, we further design a novel multi-branch tree based exploration method to fast select the best state action pairs. Our experiments show that our work improves the state-of-the-art of the mean region similarity on DAVIS 2016 dataset to 87.1%.
