arXiv reaDer
実世界のオブジェクト中心の学習へのギャップを埋める
Bridging the Gap to Real-World Object-Centric Learning
人間は自然に、世界で行動するのに適切な抽象化レベルで環境をエンティティに分解します。機械学習アルゴリズムがこの分解を教師なしで導出できるようにすることは、重要な研究分野になりました。ただし、現在の方法はシミュレートされたデータに制限されているか、オブジェクトを正常に検出するために動きや深さの形で追加情報を必要とします。この作業では、自己教師あり方法でトレーニングされたモデルから特徴を再構築することは、オブジェクト中心の表現が完全に教師なし方法で発生するための十分なトレーニング信号であることを示すことにより、この制限を克服します。私たちのアプローチである DINOSAUR は、シミュレートされたデータに対する既存の画像ベースのオブジェクト中心の学習モデルよりも大幅に優れており、COCO や PASCAL VOC などの実世界のデータセットにスケーリングする最初の教師なしオブジェクト中心のモデルです。 DINOSAUR は概念的に単純であり、コンピューター ビジョンの文献のより複雑なパイプラインと比較して、競争力のあるパフォーマンスを示しています。
Humans naturally decompose their environment into entities at the appropriate level of abstraction to act in the world. Allowing machine learning algorithms to derive this decomposition in an unsupervised way has become an important line of research. However, current methods are restricted to simulated data or require additional information in the form of motion or depth in order to successfully discover objects. In this work, we overcome this limitation by showing that reconstructing features from models trained in a self-supervised manner is a sufficient training signal for object-centric representations to arise in a fully unsupervised way. Our approach, DINOSAUR, significantly out-performs existing image-based object-centric learning models on simulated data and is the first unsupervised object-centric model that scales to real-world datasets such as COCO and PASCAL VOC. DINOSAUR is conceptually simple and shows competitive performance compared to more involved pipelines from the computer vision literature.
updated: Mon Mar 06 2023 23:19:17 GMT+0000 (UTC)
published: Thu Sep 29 2022 15:24:47 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト