arXiv reaDer
ディープクラス埋め込みを使用したCRFを使用した構造化オブジェクトの大規模分類
Large-Scale Classification of Structured Objects using a CRF with Deep Class Embedding
 このホワイトペーパーでは、視覚的に類似した多数のカテゴリを持つデータセット内の構造化オブジェクトを分類するための新しいディープラーニングアーキテクチャを紹介します。画像のシーケンスを線形チェーンCRFとしてモデル化し、ローカルビジュアル機能と隣接クラスの両方からパラメーターを共同で学習します。視覚的特徴は畳み込み層によって計算され、クラスの埋め込みはCRFペアワイズポテンシャルマトリックスを因数分解することによって学習されます。これは、局所正規化近似をバッチ正規化で最適化することにより訓練される高度に非線形の目的関数を形成します。このモデルは、多数のクラスがあり、データがまばらな場合に、既存のCRFメソッドの困難を克服してコンテキスト関係を徹底的に学習します。提案された方法のパフォーマンスは、さまざまな設定と視点で撮影された小売店の製品ディスプレイの画像を含む巨大なデータセットで示され、線形CRFモデリングおよび非正規化尤度最適化と比較して大幅に改善された結果を示します。
This paper presents a novel deep learning architecture to classify structured objects in datasets with a large number of visually similar categories. We model sequences of images as linear-chain CRFs, and jointly learn the parameters from both local-visual features and neighboring classes. The visual features are computed by convolutional layers, and the class embeddings are learned by factorizing the CRF pairwise potential matrix. This forms a highly nonlinear objective function which is trained by optimizing a local likelihood approximation with batch-normalization. This model overcomes the difficulties of existing CRF methods to learn the contextual relationships thoroughly when there is a large number of classes and the data is sparse. The performance of the proposed method is illustrated on a huge dataset that contains images of retail-store product displays, taken in varying settings and viewpoints, and shows significantly improved results compared to linear CRF modeling and unnormalized likelihood optimization.
updated: Sat Nov 16 2019 18:10:15 GMT+0000 (UTC)
published: Sun May 21 2017 09:44:17 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト