ビジュアルオブジェクトは、形状、反射率、色などのプロパティがオブジェクトの外観の固有の因果要因の階層を構成する、知覚的な全体と部分の再帰的な階層で構成されます。ただし、オブジェクトの外観は、オブジェクトの内因性および外因性の両方の因果要因の合成結果であり、外因性の因果要因は照明と撮像条件に関連しています。したがって、本論文では、全体と部分の統一テンソルモデルを提案し、オブジェクト画像形成の階層的因果構造を解き、特別なケースとして多重線形ブロックテンソル分解を包含する合成階層的テンソル因数分解を導入します。結果として得られるオブジェクト表現は、オクルージョンに対してオブジェクト認識を堅牢にし、トレーニングデータの要件を軽減する、全体および部分の表現の解釈可能な組み合わせの選択です。合成画像の非常に削減されたデータセットでトレーニングすることにより、顔認識のコンテキストでアプローチを示し、2つのデータセット-フライブルクデータセット、および実世界の画像で構成されるラベル付き顔(LFW)データセットで有望な顔検証結果を報告します。 、データ不足のドメインに対するアプローチの適合性を実証しています。
Visual objects are composed of a recursive hierarchy of perceptual wholes and parts, whose properties, such as shape, reflectance, and color, constitute a hierarchy of intrinsic causal factors of object appearance. However, object appearance is the compositional consequence of both an object's intrinsic and extrinsic causal factors, where the extrinsic causal factors are related to illumination, and imaging conditions. Therefore, this paper proposes a unified tensor model of wholes and parts, and introduces a compositional hierarchical tensor factorization that disentangles the hierarchical causal structure of object image formation, and subsumes multilinear block tensor decomposition as a special case. The resulting object representation is an interpretable combinatorial choice of wholes' and parts' representations that renders object recognition robust to occlusion and reduces training data requirements. We demonstrate ourapproach in the context of face recognition by training on an extremely reduced dataset of synthetic images, and report encouragingface verification results on two datasets - the Freiburg dataset, andthe Labeled Face in the Wild (LFW) dataset consisting of real world images, thus, substantiating the suitability of our approach for data starved domains.