360 $ ^ \ circ $全方位画像における歪み適応顕著オブジェクト検出
Distortion-adaptive Salient Object Detection in 360$^\circ$ Omnidirectional Images
  過去数十年間、画像ベースの顕著なオブジェクト検出(SOD)が広範囲に調査されてきました。ただし、360 $ ^ \ circ $全方向画像のSODは、ピクセルレベルの注釈付きのデータセットがないため、あまり研究されていません。この目的のために、このペーパーでは、500個の高解像度正距円筒イメージを含む360 $ ^ \ circ $画像ベースのSODデータセットを提案します。 5つの主流360 $ ^ \ circ $ビデオデータセットから代表的な正距円筒画像を収集し、これらの画像上のすべてのオブジェクトと領域に、自由視点の方法で正確なマスクを使用して手動で注釈を付けます。私たちの知る限り、これは360 $ ^ \ circ $シーンでの顕著なオブジェクト検出のための最初の公開されたデータセットです。このデータセットを観察することにより、投影、大規模で複雑なシーン、小さな目立ったオブジェクトからの歪みが最も顕著な特性であることがわかります。これらの基礎から着想を得て、この論文では、正距円筒画像上のSODのベースラインモデルを提案します。提案されたアプローチでは、正距円筒図法による歪みを処理する歪み適応モジュールを構築します。さらに、マルチスケールコンテキスト統合ブロックが導入され、全方向シーンの豊富なシーンとオブジェクトを認識および区別します。ネットワーク全体は、綿密な監督下で段階的に構成されています。実験結果は、提案されたベースラインアプローチが、360 $ ^ \ circ $ SODデータセットで最高性能の最先端の方法よりも優れていることを示しています。さらに、提案されたベースラインアプローチと360 $ ^ \ circ $ SODデータセットのその他の方法のベンチマーク結果は、提案されたデータセットが非常に困難であることを示しています。 \ circ $全方位シーン。
Image-based salient object detection (SOD) has been extensively explored in the past decades. However, SOD on 360$^\circ$ omnidirectional images is less studied owing to the lack of datasets with pixel-level annotations. Toward this end, this paper proposes a 360$^\circ$ image-based SOD dataset that contains 500 high-resolution equirectangular images. We collect the representative equirectangular images from five mainstream 360$^\circ$ video datasets and manually annotate all objects and regions over these images with precise masks with a free-viewpoint way. To the best of our knowledge, it is the first public available dataset for salient object detection on 360$^\circ$ scenes. By observing this dataset, we find that distortion from projection, large-scale complex scene and small salient objects are the most prominent characteristics. Inspired by these foundings, this paper proposes a baseline model for SOD on equirectangular images. In the proposed approach, we construct a distortion-adaptive module to deal with the distortion caused by the equirectangular projection. In addition, a multi-scale contextual integration block is introduced to perceive and distinguish the rich scenes and objects in omnidirectional scenes. The whole network is organized in a progressively manner with deep supervision. Experimental results show the proposed baseline approach outperforms the top-performanced state-of-the-art methods on 360$^\circ$ SOD dataset. Moreover, benchmarking results of the proposed baseline approach and other methods on 360$^\circ$ SOD dataset show the proposed dataset is very challenging, which also validate the usefulness of the proposed dataset and approach to boost the development of SOD on 360$^\circ$ omnidirectional scenes.
