arXiv reaDer
すべてを見るプロジェクト: パノプティックな視覚認識とオープンワールドの理解を目指して
The All-Seeing Project: Towards Panoptic Visual Recognition and Understanding of the Open World
私たちは、オープンワールドのあらゆるものを認識し理解するための大規模なデータとモデルである All-Seeing (AS) プロジェクトを紹介します。人間のフィードバックとループ内の効率的なモデルを組み込んだスケーラブルなデータ エンジンを使用して、セマンティック タグ、質問と回答のペア、および詳細なキャプションで注釈が付けられた 10 億を超える領域を含む新しいデータセット (AS-1B) を作成します。現実世界の 350 万の一般的な概念から珍しい概念まで幅広くカバーしており、概念とその属性を記述する 1,322 億のトークンがあります。この新しいデータセットを活用して、パノラマ視覚認識と理解のための統一フレームワークである All-Seeing モデル (ASM) を開発します。このモデルは、オープンエンドの言語プロンプトと位置を使用してトレーニングされているため、領域テキストの検索、領域認識、キャプション、質問応答など、優れたゼロショット パフォーマンスでさまざまな視覚タスクや言語タスクに一般化できます。このプロジェクトが視覚言語人工知能研究の基盤となることを願っています。モデルとデータセットは https://github.com/OpenGVLab/All-Seeing でリリースされ、デモは https://huggingface.co/spaces/OpenGVLab/all-seeing で見ることができます。
We present the All-Seeing (AS) project: a large-scale data and model for recognizing and understanding everything in the open world. Using a scalable data engine that incorporates human feedback and efficient models in the loop, we create a new dataset (AS-1B) with over 1 billion regions annotated with semantic tags, question-answering pairs, and detailed captions. It covers a wide range of 3.5 million common and rare concepts in the real world, and has 132.2 billion tokens that describe the concepts and their attributes. Leveraging this new dataset, we develop the All-Seeing model (ASM), a unified framework for panoptic visual recognition and understanding. The model is trained with open-ended language prompts and locations, which allows it to generalize to various vision and language tasks with remarkable zero-shot performance, including region-text retrieval, region recognition, captioning, and question-answering. We hope that this project can serve as a foundation for vision-language artificial general intelligence research. Models and the dataset shall be released at https://github.com/OpenGVLab/All-Seeing, and demo can be seen at https://huggingface.co/spaces/OpenGVLab/all-seeing.
updated: Thu Aug 03 2023 17:59:47 GMT+0000 (UTC)
published: Thu Aug 03 2023 17:59:47 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト