arXiv reaDer
シーンの妥当性の予測
Prediction of Scene Plausibility
2D 画像から 3D の世界を理解するには、シーン内のオブジェクトの検出とセグメンテーション以上のことが必要です。また、シーン要素の構造と配置の解釈も含まれます。そのような理解は、多くの場合、物理的な世界とその限界を認識し、類似した典型的なシーンがどのように配置されているかについての事前知識に根ざしています。この研究では、ニューラル ネットワーク (またはその他の) シーン理解アルゴリズムに新たな課題を提示します。アルゴリズムは、もっともらしいシーンと信じられないシーンを区別できますか?妥当性は、物理的特性の観点からも、機能的および典型的な配置の観点からも定義できます。したがって、現実の物理世界で特定のシーンに遭遇する確率として妥当性を定義します。もっともらしいシーンと信じられないシーンの両方を含む合成画像のデータセットを構築し、妥当性を認識して理解するタスクでさまざまな視覚モデルの成功をテストします。
Understanding the 3D world from 2D images involves more than detection and segmentation of the objects within the scene. It also includes the interpretation of the structure and arrangement of the scene elements. Such understanding is often rooted in recognizing the physical world and its limitations, and in prior knowledge as to how similar typical scenes are arranged. In this research we pose a new challenge for neural network (or other) scene understanding algorithms - can they distinguish between plausible and implausible scenes? Plausibility can be defined both in terms of physical properties and in terms of functional and typical arrangements. Hence, we define plausibility as the probability of encountering a given scene in the real physical world. We build a dataset of synthetic images containing both plausible and implausible scenes, and test the success of various vision models in the task of recognizing and understanding plausibility.
updated: Fri Dec 02 2022 22:22:16 GMT+0000 (UTC)
published: Fri Dec 02 2022 22:22:16 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト