Evaluating CLIP: Towards Characterization of Broader Capabilities and Downstream Implications
最近、CLIPやALIGNなどのモデルの出現により、より一般化できるコンピュータービジョン(「CV」)モデルにブレークスルーがありました。このホワイトペーパーでは、CLIPを分析し、そのようなモデルがもたらすいくつかの課題に焦点を当てます。 CLIPは、タスク固有のトレーニングデータの必要性を減らし、多くのニッチなタスクを自動化に開放する可能性があります。 CLIPを使用すると、ユーザーは自然言語で画像分類クラスを柔軟に指定できます。これにより、バイアスの現れ方が変わる可能性があります。さらに、いくつかの予備調査を通じて、CLIPは以前のコンピュータービジョンシステムに見られるバイアスを継承できることがわかりました。そのようなモデルの使用の広範で予測不可能な領域を考えると、これはそのようなシステムの十分に安全な動作がどのように見えるかについての疑問を提起します。これらの結果は、「より良い」モデルの概念の変更を要求する一連の作業に証拠を追加します。これは、タスク指向の機能評価でより高い精度を単に見るだけでなく、より広い「より良い」を取り入れることに向けたものです。アカウントの展開-さまざまな使用コンテキストなどの重要な機能、およびモデルの展開について考えるときにモデルと対話する人々。
Recently, there have been breakthroughs in computer vision ("CV") models that are more generalizable with the advent of models such as CLIP and ALIGN. In this paper, we analyze CLIP and highlight some of the challenges such models pose. CLIP reduces the need for task specific training data, potentially opening up many niche tasks to automation. CLIP also allows its users to flexibly specify image classification classes in natural language, which we find can shift how biases manifest. Additionally, through some preliminary probes we find that CLIP can inherit biases found in prior computer vision systems. Given the wide and unpredictable domain of uses for such models, this raises questions regarding what sufficiently safe behaviour for such systems may look like. These results add evidence to the growing body of work calling for a change in the notion of a 'better' model--to move beyond simply looking at higher accuracy at task-oriented capability evaluations, and towards a broader 'better' that takes into account deployment-critical features such as different use contexts, and people who interact with the model when thinking about model deployment.
