arXiv reaDer
グラフニューラルネットワークによる高速インタラクティブビデオオブジェクトセグメンテーション
Fast Interactive Video Object Segmentation with Graph Neural Networks
画像シーケンスのピクセル単位の注釈は、人間にとって非常に面倒な場合があります。インタラクティブビデオオブジェクトセグメンテーションは、自動メソッドを利用してプロセスを高速化し、アノテーターの作業負荷を軽減することを目的としています。最新のアプローチのほとんどは、ビデオ全体の人間の注釈から情報を収集して処理するために、深い畳み込みネットワークに依存しています。ただし、このようなネットワークには数百万のパラメーターが含まれており、過剰適合を回避するために大量のラベル付きトレーニングデータが必要です。それを超えると、ラベルの伝播は通常、一連のフレームごとの推論ステップとして実行されます。これは、並列化するのが難しく、したがって時間がかかります。この論文では、インタラクティブなビデオオブジェクトセグメンテーションの問題に取り組むためのグラフニューラルネットワークベースのアプローチを提示します。私たちのネットワークはスーパーピクセルグラフで動作し、問題の次元を数桁減らすことができます。数千のパラメーターしか持たないネットワークが最先端のパフォーマンスを達成できる一方で、推論は高速であり、非常に少ないデータで迅速にトレーニングできることを示しています。
Pixelwise annotation of image sequences can be very tedious for humans. Interactive video object segmentation aims to utilize automatic methods to speed up the process and reduce the workload of the annotators. Most contemporary approaches rely on deep convolutional networks to collect and process information from human annotations throughout the video. However, such networks contain millions of parameters and need huge amounts of labeled training data to avoid overfitting. Beyond that, label propagation is usually executed as a series of frame-by-frame inference steps, which is difficult to be parallelized and is thus time consuming. In this paper we present a graph neural network based approach for tackling the problem of interactive video object segmentation. Our network operates on superpixel-graphs which allow us to reduce the dimensionality of the problem by several magnitudes. We show, that our network possessing only a few thousand parameters is able to achieve state-of-the-art performance, while inference remains fast and can be trained quickly with very little data.
updated: Wed Apr 21 2021 14:51:10 GMT+0000 (UTC)
published: Fri Mar 05 2021 17:37:12 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト