arXiv reaDer
Perceiver IO:構造化された入力と出力の一般的なアーキテクチャ
Perceiver IO: A General Architecture for Structured Inputs & Outputs
最近提案されたPerceiverモデルは、入力サイズに応じてコンピューティングとメモリを線形にスケーリングしながら、いくつかのドメイン(画像、オーディオ、マルチモーダル、ポイントクラウド)で良好な結果を取得します。 Perceiverは多くの種類の入力をサポートしていますが、クラススコアなどの非常に単純な出力しか生成できません。 Perceiver IOは、モデルの潜在空間に柔軟にクエリを実行して任意のサイズとセマンティクスの出力を生成することを学習することにより、オリジナルの魅力的なプロパティを犠牲にすることなく、この制限を克服します。 Perceiver IOは、モデルの深さをデータサイズから切り離し、データサイズに比例してスケーリングしますが、入力サイズと出力サイズの両方に関して調整します。完全なPerceiverIOモデルは、自然言語と視覚的理解、StarCraft II、マルチタスクおよびマルチモーダルドメインなど、高度に構造化された出力スペースを持つタスクで強力な結果を達成します。ハイライトとして、Perceiver IOは、入力トークン化を必要とせずにGLUE言語ベンチマークのTransformerベースのBERTベースラインと一致し、Sintelオプティカルフロー推定で最先端のパフォーマンスを実現します。
The recently-proposed Perceiver model obtains good results on several domains (images, audio, multimodal, point clouds) while scaling linearly in compute and memory with the input size. While the Perceiver supports many kinds of inputs, it can only produce very simple outputs such as class scores. Perceiver IO overcomes this limitation without sacrificing the original's appealing properties by learning to flexibly query the model's latent space to produce outputs of arbitrary size and semantics. Perceiver IO still decouples model depth from data size and still scales linearly with data size, but now with respect to both input and output sizes. The full Perceiver IO model achieves strong results on tasks with highly structured output spaces, such as natural language and visual understanding, StarCraft II, and multi-task and multi-modal domains. As highlights, Perceiver IO matches a Transformer-based BERT baseline on the GLUE language benchmark without the need for input tokenization and achieves state-of-the-art performance on Sintel optical flow estimation.
updated: Mon Aug 02 2021 17:18:43 GMT+0000 (UTC)
published: Fri Jul 30 2021 17:53:34 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト