arXiv reaDer
クリックベースのインタラクティブビデオオブジェクトセグメンテーションの再検討
Revisiting Click-based Interactive Video Object Segmentation
インタラクティブビデオオブジェクトセグメンテーション(iVOS)の現在の方法は、落書きベースのインタラクションに依存して正確なオブジェクトマスクを生成しますが、クリックベースのインタラクティブビデオオブジェクトセグメンテーション(CiVOS)フレームワークを提案して、必要なユーザーワークロードを可能な限り簡素化します。 CiVOSは、ユーザーの操作とマスクの伝播を反映する分離されたモジュールに基づいて構築されています。インタラクションモジュールは、クリックベースのインタラクションをオブジェクトマスクに変換します。オブジェクトマスクは、伝播モジュールによって残りのフレームに推測されます。追加のユーザーインタラクションにより、オブジェクトマスクの改良が可能になります。このアプローチは、人気のあるインタラクティブ〜DAVISデータセットで広く評価されていますが、クリックベースの対応物との落書きベースのインタラクションの必然的な適応があります。さまざまなユーザー入力を反映し、ハードウェアに依存しない比較を実行するためにDAVISパフォーマンスメトリックを調整するために、評価中にクリックを生成するためのいくつかの戦略を検討します。提示されたCiVOSパイプラインは、より低いユーザーワークロードを必要としますが、競争力のある結果を達成します。
While current methods for interactive Video Object Segmentation (iVOS) rely on scribble-based interactions to generate precise object masks, we propose a Click-based interactive Video Object Segmentation (CiVOS) framework to simplify the required user workload as much as possible. CiVOS builds on de-coupled modules reflecting user interaction and mask propagation. The interaction module converts click-based interactions into an object mask, which is then inferred to the remaining frames by the propagation module. Additional user interactions allow for a refinement of the object mask. The approach is extensively evaluated on the popular interactive~DAVIS dataset, but with an inevitable adaptation of scribble-based interactions with click-based counterparts. We consider several strategies for generating clicks during our evaluation to reflect various user inputs and adjust the DAVIS performance metric to perform a hardware-independent comparison. The presented CiVOS pipeline achieves competitive results, although requiring a lower user workload.
updated: Tue Jun 07 2022 15:25:55 GMT+0000 (UTC)
published: Thu Mar 03 2022 15:55:14 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト