arXiv reaDer
敵対的画像の難読化に対する堅牢性のベンチマーク
Benchmarking Robustness to Adversarial Image Obfuscations
自動化されたコンテンツのフィルタリングとモデレーションは、オンライン プラットフォームが協力を促進し、悪用を防止する熱心なユーザー コミュニティを構築できるようにする重要なツールです。残念ながら、機知に富んだアクターは、プラットフォームのポリシーや行動規範に違反するコンテンツを投稿するために、自動フィルターをバイパスしようとします。この目標を達成するために、これらの悪意のある攻撃者は、ポリシーに違反する画像を難読化して (たとえば、慎重に選択された無害な画像または視覚パターンによって有害な画像をオーバーレイするなど)、機械学習モデルが正しい判断に到達するのを防ぎます。この論文では、研究者にこの特定の問題に取り組み、新しい画像ベンチマークを提示してもらいます。このベンチマークは、ImageNet に基づいており、悪意のあるアクターによって作成されたタイプの難読化をシミュレートします。元のコンテンツの意図を維持する、一般的で抜本的な、敵対的な変更を提案することで、ImageNet-C と ImageNet-C を超えています。これは、ℓ_p-norm 境界のある敵対者によって考慮される脅威よりも一般的な敵対的脅威に取り組むことを目的としています。ベンチマークで 33 の事前トレーニング済みモデルを評価し、一般化を測定するために難読化のサブセットでさまざまな拡張、アーキテクチャ、およびトレーニング方法を使用してモデルをトレーニングします。このベンチマークにより、研究者がモデルと方法をテストし、これらの難読化に対してより堅牢な新しいアプローチを見つけようとするようになることを願っています。
Automated content filtering and moderation is an important tool that allows online platforms to build striving user communities that facilitate cooperation and prevent abuse. Unfortunately, resourceful actors try to bypass automated filters in a bid to post content that violate platform policies and codes of conduct. To reach this goal, these malicious actors may obfuscate policy violating images (e.g. overlay harmful images by carefully selected benign images or visual patterns) to prevent machine learning models from reaching the correct decision. In this paper, we invite researchers to tackle this specific issue and present a new image benchmark. This benchmark, based on ImageNet, simulates the type of obfuscations created by malicious actors. It goes beyond ImageNet-C and ImageNet-C by proposing general, drastic, adversarial modifications that preserve the original content intent. It aims to tackle a more common adversarial threat than the one considered by ℓ_p-norm bounded adversaries. We evaluate 33 pretrained models on the benchmark and train models with different augmentations, architectures and training methods on subsets of the obfuscations to measure generalization. We hope this benchmark will encourage researchers to test their models and methods and try to find new approaches that are more robust to these obfuscations.
updated: Wed Nov 29 2023 18:33:43 GMT+0000 (UTC)
published: Mon Jan 30 2023 15:36:44 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト