この論文は、発生器ネットワークをスパース化することにより、解釈可能な画像合成のための階層的構成AND-ORモデルを学ぶことを提案します。提案された方法は、画像表現にシーンオブジェクト、パーツ、サブパーツ、プリミティブの階層を採用しています。シーンにはさまざまなタイプ(ORなど)があり、それぞれが多数のオブジェクト(ANDなど)で構成されています。これは、シーン、オブジェクト、パーツ、サブパーツの階層全体で再帰的に定式化でき、プリミティブレベルで終了します(たとえば、ウェーブレットのようなベース)。画像合成でこのAND-OR階層を実現するために、次の2つのコンポーネントで構成されるジェネレータネットワークを学習します。(i)階層の各層は、畳み込み基底関数の完全すぎるセットで表されます。既成の畳み込みニューラルアーキテクチャは、階層を実装するために利用されます。 (ii)スパース性を誘発する制約がエンドツーエンドのトレーニングで導入され、最初に密に接続されたジェネレーターネットワークからまばらにアクティブ化され、まばらに接続されたAND-ORモデルを誘導します。単純なスパース性を誘発する制約が使用されます。つまり、各層で上位kの基底関数のみをアクティブ化できます(kはハイパーパラメーターです)。学習された基底関数は、入力画像を説明するための画像再構成も可能です。実験では、提案された方法を4つのベンチマークデータセットでテストします。結果は、意味のある解釈可能な階層表現が、ベースラインよりも優れた画像合成と再構成の品質で学習されることを示しています。
This paper proposes to learn hierarchical compositional AND-OR model for interpretable image synthesis by sparsifying the generator network. The proposed method adopts the scene-objects-parts-subparts-primitives hierarchy in image representation. A scene has different types (i.e., OR) each of which consists of a number of objects (i.e., AND). This can be recursively formulated across the scene-objects-parts-subparts hierarchy and is terminated at the primitive level (e.g., wavelets-like basis). To realize this AND-OR hierarchy in image synthesis, we learn a generator network that consists of the following two components: (i) Each layer of the hierarchy is represented by an over-complete set of convolutional basis functions. Off-the-shelf convolutional neural architectures are exploited to implement the hierarchy. (ii) Sparsity-inducing constraints are introduced in end-to-end training, which induces a sparsely activated and sparsely connected AND-OR model from the initially densely connected generator network. A straightforward sparsity-inducing constraint is utilized, that is to only allow the top-k basis functions to be activated at each layer (where k is a hyper-parameter). The learned basis functions are also capable of image reconstruction to explain the input images. In experiments, the proposed method is tested on four benchmark datasets. The results show that meaningful and interpretable hierarchical representations are learned with better qualities of image synthesis and reconstruction obtained than baselines.