arXiv reaDer
画像検索における高解像度表現学習のためのトリプレット損失膨張残差ネットワーク
A Triplet-loss Dilated Residual Network for High-Resolution Representation Learning in Image Retrieval
コンテンツ ベースの画像検索は、色、形状または空間的関係、およびテクスチャなどの視覚的コンテンツに基づいて、広範な画像ギャラリーから画像のサブセットを取得するプロセスです。ローカリゼーションなどの一部のアプリケーションでは、画像検索が最初のステップとして採用されています。このような場合、上位取得された画像の精度がシステム全体の精度に大きく影響します。現在の論文では、トレーニング可能なパラメーターが少ないシンプルで効率的な画像検索システムを紹介しています。提案された方法は、トリプレット損失を伴う拡張された残差畳み込みニューラル ネットワークの恩恵を受けます。実験的評価は、このモデルが受容野を拡大することによってより豊富な情報 (つまり、高解像度表現) を抽出できることを示しており、モデルの深さや複雑さを増やさずに画像検索の精度を向上させます。抽出された表現の堅牢性を高めるために、現在の研究では、各特徴マップから関心のある候補領域を取得し、その領域に一般化平均プーリングを適用します。トリプレット ベースのネットワークでのトリプレットの選択はモデルのトレーニングに影響するため、トリプレットのオンライン マイニング手法を採用しています。 Revisited Paris6k (RPar) と UKBench という 2 つの困難な画像検索データセットで、さまざまな構成の下で提案された方法のパフォーマンスをテストします。実験結果は、RPar ミディアム モードとハード モードで 94.54 と 80.23 (ランク 10 での平均精度)、UKBench データセットでそれぞれ 3.86 (ランク 4 でリコール) の精度を示しています。
Content-based image retrieval is the process of retrieving a subset of images from an extensive image gallery based on visual contents, such as color, shape or spatial relations, and texture. In some applications, such as localization, image retrieval is employed as the initial step. In such cases, the accuracy of the top-retrieved images significantly affects the overall system accuracy. The current paper introduces a simple yet efficient image retrieval system with a fewer trainable parameters, which offers acceptable accuracy in top-retrieved images. The proposed method benefits from a dilated residual convolutional neural network with triplet loss. Experimental evaluations show that this model can extract richer information (i.e., high-resolution representations) by enlarging the receptive field, thus improving image retrieval accuracy without increasing the depth or complexity of the model. To enhance the extracted representations' robustness, the current research obtains candidate regions of interest from each feature map and applies Generalized-Mean pooling to the regions. As the choice of triplets in a triplet-based network affects the model training, we employ a triplet online mining method. We test the performance of the proposed method under various configurations on two of the challenging image-retrieval datasets, namely Revisited Paris6k (RPar) and UKBench. The experimental results show an accuracy of 94.54 and 80.23 (mean precision at rank 10) in the RPar medium and hard modes and 3.86 (recall at rank 4) in the UKBench dataset, respectively.
updated: Wed Mar 15 2023 07:01:44 GMT+0000 (UTC)
published: Wed Mar 15 2023 07:01:44 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト