arXiv reaDer
画像キャプションソリューションの堅牢性を向上させるためのデータ拡張
Data augmentation to improve robustness of image captioning solutions
この論文では、実世界の画像に共通する品質の欠陥であるモーションブラーが、最先端の2段階画像キャプションソリューションに与える影響を調査し、ブラー強度が増加するにつれてソリューションのパフォーマンスが低下することに注目します。ソリューションの各段階または両方の段階、つまりオブジェクトの検出とキャプションでトレーニングデータの拡張を使用して、モーションブラーに対するソリューションの堅牢性を向上させる手法を調査し、改善された結果を観察します。特に、両方のステージを拡張すると、高モーションブラー強度のCIDEr-D劣化が、MS COCOデータセットでは68.7から11.7に、Vizwizデータセットでは22.4から6.8に減少します。
In this paper, we study the impact of motion blur, a common quality flaw in real world images, on a state-of-the-art two-stage image captioning solution, and notice a degradation in solution performance as blur intensity increases. We investigate techniques to improve the robustness of the solution to motion blur using training data augmentation at each or both stages of the solution, i.e., object detection and captioning, and observe improved results. In particular, augmenting both the stages reduces the CIDEr-D degradation for high motion blur intensity from 68.7 to 11.7 on MS COCO dataset, and from 22.4 to 6.8 on Vizwiz dataset.
updated: Thu Jun 10 2021 00:17:50 GMT+0000 (UTC)
published: Thu Jun 10 2021 00:17:50 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト