自然なシーン画像でのワードスポッティングには、シーンの理解と視覚支援に多くの用途があります。この論文では、文字確率マップであるテキスト属性に基づいて、画像の中間表現を作成および活用する手法を提案します。私たちの表現は、完全な畳み込みネットワークを活用して候補単語領域内の文字分布のピクセル単位のマッピングを導出することにより、文字のピラミッドヒストグラム(PHOC)の概念を拡張します。この表現をソフトPHOCと呼びます。さらに、効率的なテキスト行提案アルゴリズムを介して、エゴセントリックカメラストリームのワードスポッティングタスクにSoft-PHOC記述子を使用する方法を示します。これは、文字属性マップのハフ変換と、それに続くDynamic Time Warping(DTW)を使用したスコアリングに基づいています。エゴセントリックカメラでキャプチャされた付随シーンテキストのICDAR 2015 Challenge 4データセットでの結果を評価します。
Word spotting in natural scene images has many applications in scene understanding and visual assistance. In this paper we propose a technique to create and exploit an intermediate representation of images based on text attributes which are character probability maps. Our representation extends the concept of the Pyramidal Histogram Of Characters (PHOC) by exploiting Fully Convolutional Networks to derive a pixel-wise mapping of the character distribution within candidate word regions. We call this representation the Soft-PHOC. Furthermore, we show how to use Soft-PHOC descriptors for word spotting tasks in egocentric camera streams through an efficient text line proposal algorithm. This is based on the Hough Transform over character attribute maps followed by scoring using Dynamic Time Warping (DTW). We evaluate our results on ICDAR 2015 Challenge 4 dataset of incidental scene text captured by an egocentric camera.