arXiv reaDer
探索して伝える: 3D 環境での具体化された視覚的なキャプション
Explore and Tell: Embodied Visual Captioning in 3D Environments
現在のビジュアル キャプション モデルは優れたパフォーマンスを達成していますが、多くの場合、画像が適切にキャプチャされ、シーンの全体像が提供されていることを前提としています。ただし、現実世界のシナリオでは、単一の画像では適切な視点が得られず、シーンの詳細な理解が妨げられる場合があります。この制限を克服するために、私たちはエンボディド キャプションと呼ばれる新しいタスクを提案します。これは、ビジュアル キャプション モデルにナビゲーション機能を装備し、シーンを積極的に探索し、最適ではない視点からの視覚的なあいまいさを軽減できるようにします。具体的には、ランダムな視点から開始して、エージェントは環境をナビゲートしてさまざまな視点から情報を収集し、シーン内のすべてのオブジェクトを説明する包括的な段落を生成する必要があります。このタスクをサポートするために、Kubric シミュレーターを使用して ET-Cap データセットを構築します。このデータセットは、乱雑なオブジェクトとシーンごとに 3 つの注釈付き段落を含む 10,000 の 3D シーンで構成されます。我々は、このタスクに取り組むために、ナビゲータとキャプショナで構成される Cascade Embodied Captioning モデル (CaBOT) を提案します。ナビゲーターは環境内でどのようなアクションをとるべきかを予測し、キャプショナーはナビゲーションの軌跡全体に基づいて段落の説明を生成します。広範な実験により、私たちのモデルが慎重に設計された他のベースラインよりも優れていることが実証されました。データセット、コード、モデルは https://aim3-ruc.github.io/ExploreAndTell で入手できます。
While current visual captioning models have achieved impressive performance, they often assume that the image is well-captured and provides a complete view of the scene. In real-world scenarios, however, a single image may not offer a good viewpoint, hindering fine-grained scene understanding. To overcome this limitation, we propose a novel task called Embodied Captioning, which equips visual captioning models with navigation capabilities, enabling them to actively explore the scene and reduce visual ambiguity from suboptimal viewpoints. Specifically, starting at a random viewpoint, an agent must navigate the environment to gather information from different viewpoints and generate a comprehensive paragraph describing all objects in the scene. To support this task, we build the ET-Cap dataset with Kubric simulator, consisting of 10K 3D scenes with cluttered objects and three annotated paragraphs per scene. We propose a Cascade Embodied Captioning model (CaBOT), which comprises of a navigator and a captioner, to tackle this task. The navigator predicts which actions to take in the environment, while the captioner generates a paragraph description based on the whole navigation trajectory. Extensive experiments demonstrate that our model outperforms other carefully designed baselines. Our dataset, codes and models are available at https://aim3-ruc.github.io/ExploreAndTell.
updated: Mon Aug 21 2023 03:46:04 GMT+0000 (UTC)
published: Mon Aug 21 2023 03:46:04 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト