arXiv reaDer
VizWiz-FewShot:視覚障害者が撮影した画像内のオブジェクトの検索
VizWiz-FewShot: Locating Objects in Images Taken by People With Visual Impairments
撮影した画像の視覚的コンテンツについて真剣に学ぼうとしている写真家から発信された数ショットのローカリゼーションデータセットを紹介します。これには、視覚障害を持つ人々が撮影した4,500を超える画像の100のカテゴリの約10,000のセグメンテーションが含まれています。既存の数ショットのオブジェクト検出およびインスタンスセグメンテーションデータセットと比較して、私たちのデータセットはオブジェクトの穴を最初に見つけました(たとえば、セグメンテーションの12.3%で見つかりました)、画像に比べてはるかに広い範囲のサイズを占めるオブジェクトを示しています、およびテキストはオブジェクトで5倍以上一般的です(たとえば、セグメンテーションの22.4%で見つかります)。 3つの最新の数ショットローカリゼーションアルゴリズムの分析は、それらが新しいデータセットにうまく一般化されていないことを示しています。アルゴリズムは通常、穴のあるオブジェクト、非常に小さいオブジェクトと非常に大きいオブジェクト、およびテキストのないオブジェクトを見つけるのに苦労します。より大きなコミュニティがこれらの未解決の課題に取り組むことを奨励するために、https://vizwiz.orgで注釈付きの数ショットのデータセットを公開しています。
We introduce a few-shot localization dataset originating from photographers who authentically were trying to learn about the visual content in the images they took. It includes nearly 10,000 segmentations of 100 categories in over 4,500 images that were taken by people with visual impairments. Compared to existing few-shot object detection and instance segmentation datasets, our dataset is the first to locate holes in objects (e.g., found in 12.3% of our segmentations), it shows objects that occupy a much larger range of sizes relative to the images, and text is over five times more common in our objects (e.g., found in 22.4% of our segmentations). Analysis of three modern few-shot localization algorithms demonstrates that they generalize poorly to our new dataset. The algorithms commonly struggle to locate objects with holes, very small and very large objects, and objects lacking text. To encourage a larger community to work on these unsolved challenges, we publicly share our annotated few-shot dataset at https://vizwiz.org .
updated: Sun Jul 24 2022 20:44:51 GMT+0000 (UTC)
published: Sun Jul 24 2022 20:44:51 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト