視覚世界でオブジェクトを検出および追跡する機能は、オブジェクトレベルの推論プロセスの前兆として必要であるため、インテリジェントエージェントにとって重要なスキルです。さらに、エージェントは、監視なしで(つまり、注釈付きのトレーニングビデオにアクセスせずに)オブジェクトを追跡することを学ぶことが重要です。監視なしオブジェクト追跡と呼ばれる、ビデオ内のオブジェクトの検出と追跡を学習するタスクは、近年目立って成長しています。ただし、これに対処するほとんどのアーキテクチャは、多くのオブジェクトを含む大きなシーンを処理するのに苦労しています。現在の作業では、空間的に不変な計算(畳み込みと空間的注意)と表現(空間的にローカルなオブジェクト指定スキーム)を採用することにより、大規模なシーンの多オブジェクト設定にうまく対応できるアーキテクチャを提案しています。一連の実験で、私たちのアーキテクチャの多くの魅力的な機能を実証します。最も注目すべきは、多くのオブジェクトが散らかったシーンでオブジェクトを追跡する競合方法よりも優れており、トレーニング中に遭遇したビデオよりも大きい、および/またはより多くのオブジェクトを含むビデオにうまく一般化できることです。
The ability to detect and track objects in the visual world is a crucial skill for any intelligent agent, as it is a necessary precursor to any object-level reasoning process. Moreover, it is important that agents learn to track objects without supervision (i.e. without access to annotated training videos) since this will allow agents to begin operating in new environments with minimal human assistance. The task of learning to discover and track objects in videos, which we call unsupervised object tracking, has grown in prominence in recent years; however, most architectures that address it still struggle to deal with large scenes containing many objects. In the current work, we propose an architecture that scales well to the large-scene, many-object setting by employing spatially invariant computations (convolutions and spatial attention) and representations (a spatially local object specification scheme). In a series of experiments, we demonstrate a number of attractive features of our architecture; most notably, that it outperforms competing methods at tracking objects in cluttered scenes with many objects, and that it can generalize well to videos that are larger and/or contain more objects than videos encountered during training.