人間には、場面を構成的に理解する認知能力があります。 AI システムに同様の能力を与えるために、オブジェクト中心の表現学習は、監視なしで視覚的なシーンから個々のオブジェクトの表現を取得することを目的としています。オブジェクト中心の表現学習における最近の進歩により、複雑な合成データセットでは目覚ましい進歩が達成されましたが、複雑な現実世界のシーンに適用するには大きな課題があります。本質的な理由の 1 つは、オブジェクト中心の表現学習方法に特化した現実世界のデータセットが不足していることです。この問題を解決するために、私たちは OCTScenes と呼ばれるオブジェクト中心の学習用のテーブルトップ シーンの汎用性の高い現実世界のデータセットを提案します。これは、オブジェクト中心の表現学習方法を比較、評価、分析するためのベンチマークとして機能するように細心の注意を払って設計されています。 OCTScenes には、合計 15 の日常的なオブジェクトを含む 5000 のテーブルトップ シーンが含まれています。各シーンは 360 度の視点をカバーする 60 フレームでキャプチャされます。したがって、OCTScenes は、静的シーン、動的シーン、およびマルチビュー シーンのタスクにわたるオブジェクト中心の表現学習方法の評価を同時に満たすことができる多用途のベンチマーク データセットです。静的、動的、およびマルチビュー シーンに対するオブジェクト中心の表現学習方法の広範な実験が OCTScenes 上で行われます。この結果は、複雑な合成データセットでは優れたパフォーマンスを発揮するにもかかわらず、実世界のデータから意味のある表現を学習するための最先端の手法には欠点があることを示しています。さらに、OCTScenes は既存の最先端の手法を進歩させる触媒として機能し、現実世界のシーンに適応するよう促します。データセットとコードは https://huggingface.co/datasets/yingxuan/OCTScenes で入手できます。
Humans possess the cognitive ability to comprehend scenes in a compositional manner. To empower AI systems with similar abilities, object-centric representation learning aims to acquire representations of individual objects from visual scenes without any supervision. Although recent advancements in object-centric representation learning have achieved remarkable progress on complex synthesis datasets, there is a huge challenge for application in complex real-world scenes. One of the essential reasons is the scarcity of real-world datasets specifically tailored to object-centric representation learning methods. To solve this problem, we propose a versatile real-world dataset of tabletop scenes for object-centric learning called OCTScenes, which is meticulously designed to serve as a benchmark for comparing, evaluating and analyzing object-centric representation learning methods. OCTScenes contains 5000 tabletop scenes with a total of 15 everyday objects. Each scene is captured in 60 frames covering a 360-degree perspective. Consequently, OCTScenes is a versatile benchmark dataset that can simultaneously satisfy the evaluation of object-centric representation learning methods across static scenes, dynamic scenes, and multi-view scenes tasks. Extensive experiments of object-centric representation learning methods for static, dynamic and multi-view scenes are conducted on OCTScenes. The results demonstrate the shortcomings of state-of-the-art methods for learning meaningful representations from real-world data, despite their impressive performance on complex synthesis datasets. Furthermore, OCTScenes can serves as a catalyst for advancing existing state-of-the-art methods, inspiring them to adapt to real-world scenes. Dataset and code are available at https://huggingface.co/datasets/Yinxuan/OCTScenes.