arXiv reaDer
PTR:パーツベースの概念的、リレーショナル、および物理的推論のベンチマーク
PTR: A Benchmark for Part-based Conceptual, Relational, and Physical Reasoning
人間の視覚の重要な側面は、視覚シーンを個々のオブジェクトに解析し、さらにオブジェクトの部分に解析して、部分全体の階層を形成する機能です。このような複合構造は、意味論的概念と関係の豊富なセットを誘発する可能性があり、したがって、視覚信号の解釈と編成、および視覚と推論の一般化において重要な役割を果たします。ただし、既存の視覚的推論のベンチマークは、ほとんどの場合、パーツではなくオブジェクトに焦点を当てています。完全な部分全体の階層に基づく視覚的な推論は、よりきめ細かい概念、より豊富なジオメトリ関係、およびより複雑な物理学のために、オブジェクト中心の推論よりもはるかに困難です。したがって、パーツベースの概念的、リレーショナル、および物理的な推論に役立つように、PTRという名前の新しい大規模な診断用視覚的推論データセットを導入します。 PTRには、セマンティックインスタンスのセグメンテーション、色属性、空間的および幾何学的関係、および安定性などの特定の物理的プロパティに関するグラウンドトゥルースオブジェクトとパーツレベルの注釈を含む約70kのRGBD合成画像が含まれています。これらの画像は、さまざまなタイプの推論タイプをカバーする700kのマシン生成の質問とペアになっており、視覚的な推論モデルの優れたテストベッドになっています。このデータセットでいくつかの最先端の視覚的推論モデルを調べ、人間が正しい答えを簡単に推測できる状況では、それらが依然として多くの驚くべき間違いを犯していることを観察します。このデータセットは、パーツベースの推論の新しい機会を開くと信じています。
A critical aspect of human visual perception is the ability to parse visual scenes into individual objects and further into object parts, forming part-whole hierarchies. Such composite structures could induce a rich set of semantic concepts and relations, thus playing an important role in the interpretation and organization of visual signals as well as for the generalization of visual perception and reasoning. However, existing visual reasoning benchmarks mostly focus on objects rather than parts. Visual reasoning based on the full part-whole hierarchy is much more challenging than object-centric reasoning due to finer-grained concepts, richer geometry relations, and more complex physics. Therefore, to better serve for part-based conceptual, relational and physical reasoning, we introduce a new large-scale diagnostic visual reasoning dataset named PTR. PTR contains around 70k RGBD synthetic images with ground truth object and part level annotations regarding semantic instance segmentation, color attributes, spatial and geometric relationships, and certain physical properties such as stability. These images are paired with 700k machine-generated questions covering various types of reasoning types, making them a good testbed for visual reasoning models. We examine several state-of-the-art visual reasoning models on this dataset and observe that they still make many surprising mistakes in situations where humans can easily infer the correct answer. We believe this dataset will open up new opportunities for part-based reasoning.
updated: Thu Dec 09 2021 18:59:34 GMT+0000 (UTC)
published: Thu Dec 09 2021 18:59:34 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト