インタラクティブなセグメンテーションでは、モデルがセグメンテーションを作成または編集する方法をガイドするために、人間が画像にマークを付ける必要があります。私たちの研究では、既存の方法の制限に対処しています。画像をマークするためのジェスチャ タイプが 1 つだけサポートされているか (クリックまたは落書きなど)、使用されているジェスチャ タイプの知識が必要であり、マークされた領域を最終的なセグメンテーションに含めるか除外するかを指定する必要があります。代わりに、ユーザーが画像をマークするだけで済み、ジェスチャ タイプを指定せずに任意のジェスチャ タイプを入力できる、簡略化された対話型セグメンテーション タスクを提案します。私たちは、複数のジェスチャ タイプを備えた最初のインタラクティブ セグメンテーション データセットと、インタラクティブ セグメンテーション アルゴリズムを総合的に評価できる新しい評価指標を導入することで、この新しいタスクをサポートします。次に、新しいタスクに適応したものを含む、多数の対話型セグメンテーション アルゴリズムを分析します。全体的に有望なパフォーマンスが観察される一方で、将来の改善の余地がある領域も強調しています。この作業のさらなる拡張を促進するために、新しいデータセットを https://github.com/joshmyersdean/dig で公開します。
Interactive segmentation entails a human marking an image to guide how a model either creates or edits a segmentation. Our work addresses limitations of existing methods: they either only support one gesture type for marking an image (e.g., either clicks or scribbles) or require knowledge of the gesture type being employed, and require specifying whether marked regions should be included versus excluded in the final segmentation. We instead propose a simplified interactive segmentation task where a user only must mark an image, where the input can be of any gesture type without specifying the gesture type. We support this new task by introducing the first interactive segmentation dataset with multiple gesture types as well as a new evaluation metric capable of holistically evaluating interactive segmentation algorithms. We then analyze numerous interactive segmentation algorithms, including ones adapted for our novel task. While we observe promising performance overall, we also highlight areas for future improvement. To facilitate further extensions of this work, we publicly share our new dataset at https://github.com/joshmyersdean/dig.