ファウンデーション モデル (FM) は、ゼロ ショット学習、忠実度の高いデータ合成、ドメイン外一般化など、前例のない機能を実証しています。ただし、このホワイト ペーパーで示すように、FM は専門的なタスク (たとえば、言語クエリから自動車のマニュアルのテクニカル イラストを取得するなど) では、すぐに使えるパフォーマンスが低く、そのデータは目に見えないかロングテールに属します。 FM 事前トレーニングに使用される巨大なデータセットのデータ分布の一部。これは、そのような専門家のタスク、おそらく実際の現実世界のアプリケーションで最もよく現れるもので、FM を明示的に評価して微調整する必要性を強調しています。このホワイト ペーパーでは、FM に技術文書を理解するように教えるタスクを中心に構築された、この種の FETA ベンチマークとしては初めてのものを提案します。これは、FM の図解を対応する言語の説明に一致させることを学習することによって行われます。当社の FETA ベンチマークは、公共の自動車マニュアルおよび販売カタログ パンフレットにおけるテキストから画像への検索および画像からテキストへの検索に焦点を当てています。 FETA には、完全に自動化された注釈抽出の手順が備わっており (コードは承認時にリリースされます)、将来的には FETA をより多くのドキュメント タイプとアプリケーション ドメインに簡単に拡張できます。私たちの自動アノテーションは、人間が精選したアノテーションで計算された指標と一致することが示されている自動化されたパフォーマンス指標につながります (これもリリースされています)。 FETA で一般的な FM の複数のベースラインと分析を提供し、FM コミュニティにとって非常に価値があると思われるいくつかの興味深い発見につながり、標準的なベンチマークでは現在「見過ごされている」実用的な専門家のタスクに FM を実際に適用する道を開きます。共通のオブジェクトについて。
Foundation Models (FMs) have demonstrated unprecedented capabilities including zero-shot learning, high fidelity data synthesis, and out of domain generalization. However, as we show in this paper, FMs still have poor out-of-the-box performance on expert tasks (e.g. retrieval of car manuals technical illustrations from language queries), data for which is either unseen or belonging to a long-tail part of the data distribution of the huge datasets used for FM pre-training. This underlines the necessity to explicitly evaluate and finetune FMs on such expert tasks, arguably ones that appear the most in practical real-world applications. In this paper, we propose a first of its kind FETA benchmark built around the task of teaching FMs to understand technical documentation, via learning to match their graphical illustrations to corresponding language descriptions. Our FETA benchmark focuses on text-to-image and image-to-text retrieval in public car manuals and sales catalogue brochures. FETA is equipped with a procedure for completely automatic annotation extraction (code would be released upon acceptance), allowing easy extension of FETA to more documentation types and application domains in the future. Our automatic annotation leads to an automated performance metric shown to be consistent with metrics computed on human-curated annotations (also released). We provide multiple baselines and analysis of popular FMs on FETA leading to several interesting findings that we believe would be very valuable to the FM community, paving the way towards real-world application of FMs for practical expert tasks currently 'overlooked' by standard benchmarks focusing on common objects.