arXiv reaDer
MRGAN360: 360 度画像の顕著性予測のための多段階再帰的敵対的生成ネットワーク
MRGAN360: Multi-stage Recurrent Generative Adversarial Network for 360 Degree Image Saliency Prediction
没入型でインタラクティブな体験を提供する能力のおかげで、360 度画像コンテンツの取り込みは、消費者および産業用アプリケーションで急速に成長しています。平面の 2D 画像と比較して、360 度画像の顕著性の予測は、解像度が高く、視野範囲が球状であるため、より困難です。現在、全方向性画像 (ODI) の高性能な顕著性予測モデルのほとんどは、より深いまたはより広い畳み込みニューラル ネットワーク (CNN) に依存しており、CNN の優れた特徴表現機能の恩恵を受ける一方で、高い計算コストに悩まされています。この論文では、人間の視覚認知プロセス、つまり人間の視覚シーンの認識は常に複数の段階の分析によって達成されることに着想を得て、顕著性を予測するために、MRGAN360 と呼ばれる ODI の新しい多段階反復生成的敵対的ネットワークを提案します。ステージごとにマップします。各段階で、予測モデルは元の画像と前の段階の出力を入力として受け取り、より正確な顕著性マップを出力します。隣接する予測ステージ間で再帰型ニューラル ネットワークを使用してそれらの相関関係をモデル化し、各ステージの最後で弁別器を利用して出力顕著性マップを監視します。さらに、すべてのステージ間で重みを共有して、計算コストが低い軽量アーキテクチャを取得します。提案されたモデルが、予測精度とモデルサイズの両方の点で最先端のモデルよりも優れていることを実証するために、広範な実験が行われています。
Thanks to the ability of providing an immersive and interactive experience, the uptake of 360 degree image content has been rapidly growing in consumer and industrial applications. Compared to planar 2D images, saliency prediction for 360 degree images is more challenging due to their high resolutions and spherical viewing ranges. Currently, most high-performance saliency prediction models for omnidirectional images (ODIs) rely on deeper or broader convolutional neural networks (CNNs), which benefit from CNNs' superior feature representation capabilities while suffering from their high computational costs. In this paper, inspired by the human visual cognitive process, i.e., human being's perception of a visual scene is always accomplished by multiple stages of analysis, we propose a novel multi-stage recurrent generative adversarial networks for ODIs dubbed MRGAN360, to predict the saliency maps stage by stage. At each stage, the prediction model takes as input the original image and the output of the previous stage and outputs a more accurate saliency map. We employ a recurrent neural network among adjacent prediction stages to model their correlations, and exploit a discriminator at the end of each stage to supervise the output saliency map. In addition, we share the weights among all the stages to obtain a lightweight architecture that is computationally cheap. Extensive experiments are conducted to demonstrate that our proposed model outperforms the state-of-the-art model in terms of both prediction accuracy and model size.
updated: Wed Mar 15 2023 11:15:03 GMT+0000 (UTC)
published: Wed Mar 15 2023 11:15:03 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト