arXiv reaDer
高密度認識タスクのための基礎モデルの現在の使用法についての批判的な考察
A Critical Look at the Current Usage of Foundation Model for Dense Recognition Task
近年、基盤モデルと呼ばれる膨大なクロスモダリティデータを学習させた大規模モデルは、画像認識や生成など多くの分野で目覚ましい成果を上げています。元のアプリケーション ケースでは大きな成功を収めていますが、これらの基礎モデルが他のさまざまな下流タスクに適用できるかどうかはまだ不明です。この論文では、事前トレーニングされた基礎モデルに基づいて構築された、高密度の識別タスクの現在の方法について簡単な調査を行います。また、安定拡散に基づく既存のオープン語彙セグメンテーション手法の予備実験分析も提供します。これは、セグメンテーションに拡散モデルを展開する現在の方法が最適ではないことを示しています。これは、下流タスクの基礎モデルの採用に関する将来の研究に洞察を提供することを目的としています。
In recent years large model trained on huge amount of cross-modality data, which is usually be termed as foundation model, achieves conspicuous accomplishment in many fields, such as image recognition and generation. Though achieving great success in their original application case, it is still unclear whether those foundation models can be applied to other different downstream tasks. In this paper, we conduct a short survey on the current methods for discriminative dense recognition tasks, which are built on the pretrained foundation model. And we also provide some preliminary experimental analysis of an existing open-vocabulary segmentation method based on Stable Diffusion, which indicates the current way of deploying diffusion model for segmentation is not optimal. This aims to provide insights for future research on adopting foundation model for downstream task.
updated: Thu Jul 06 2023 08:57:53 GMT+0000 (UTC)
published: Thu Jul 06 2023 08:57:53 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト