arXiv reaDer
キャプションおよび美的ガイド付き画像トリミングのための既存のディープネットワークの転用
Repurposing Existing Deep Networks for Caption and Aesthetic-Guided Image Cropping
ユーザーの説明と美学に基づいて特定の画像をトリミングする新しい最適化フレームワークを提案します。通常、深いネットワークをトレーニングしてトリミングパラメータまたはトリミングアクションに回帰する既存の画像トリミング方法とは異なり、事前にトレーニングされたネットワークを画像のキャプションや美的タスクに転用することで、トリミングパラメータを直接最適化することを提案します。これにより、別のネットワークのトレーニングを回避できます。具体的には、これらのネットワークの初期目標の複合損失を最小限に抑える最適な作物パラメータを検索します。最適化テーブルを作成するために、3つの戦略を提案します:(i)マルチスケール双一次サンプリング、(ii)作物領域のスケールをアニーリングして、パラメーター空間を効果的に削減する、(iii)複数の最適化結果の集約。さまざまな定量的および定性的評価を通じて、私たちのフレームワークが、意図されたユーザーの説明によく一致し、審美的に心地よい作物を生産できることを示しています。
We propose a novel optimization framework that crops a given image based on user description and aesthetics. Unlike existing image cropping methods, where one typically trains a deep network to regress to crop parameters or cropping actions, we propose to directly optimize for the cropping parameters by repurposing pre-trained networks on image captioning and aesthetic tasks, without any fine-tuning, thereby avoiding training a separate network. Specifically, we search for the best crop parameters that minimize a combined loss of the initial objectives of these networks. To make the optimization table, we propose three strategies: (i) multi-scale bilinear sampling, (ii) annealing the scale of the crop region, therefore effectively reducing the parameter space, (iii) aggregation of multiple optimization results. Through various quantitative and qualitative evaluations, we show that our framework can produce crops that are well-aligned to intended user descriptions and aesthetically pleasing.
updated: Fri Jan 07 2022 00:23:40 GMT+0000 (UTC)
published: Fri Jan 07 2022 00:23:40 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト