arXiv reaDer
Decoupled Box Proposal and Featurization with Ultrafine-Grained Semantic Labels Improve Image Captioning and Visual Question Answering
  オブジェクト検出は、画像キャプションや視覚的な質問応答などの視覚および言語タスクに対する現在のソリューションで重要な役割を果たします。ただし、Faster R-CNNのような一般的なモデルは、バウンディングボックスとそれに対応するセマンティックラベルの両方にグラウンドトゥルースに注釈を付けるというコストのかかるプロセスに依存しているため、転送学習の基本タスクとして受け入れにくくなっています。このペーパーでは、下流タスクのボックス提案と特徴化の分離の効果を調べます。重要な洞察は、これにより、以前は標準的なオブジェクト検出ベンチマークでは利用できなかった大量のラベル付き注釈を活用できることです。経験的に、これにより、公開されているベンチマークで測定された、効果的な転移学習と、画像キャプションおよび視覚的な質問応答モデルの改善につながることを実証します。
Object detection plays an important role in current solutions to vision and language tasks like image captioning and visual question answering. However, popular models like Faster R-CNN rely on a costly process of annotating ground-truths for both the bounding boxes and their corresponding semantic labels, making it less amenable as a primitive task for transfer learning. In this paper, we examine the effect of decoupling box proposal and featurization for down-stream tasks. The key insight is that this allows us to leverage a large amount of labeled annotations that were previously unavailable for standard object detection benchmarks. Empirically, we demonstrate that this leads to effective transfer learning and improved image captioning and visual question answering models, as measured on publicly available benchmarks.
updated: Wed Sep 04 2019 20:37:30 GMT+0000 (UTC)
published: Wed Sep 04 2019 20:37:30 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト