セマンティック画像の解釈は、サブシンボリック分散表現学習と、より高いレベルの抽象化で推論する機能を組み合わせたアプローチから大きな恩恵を受けることができます。論理テンソルネットワーク(LTN)は、深いニューラルネットワークに基づいた微分可能な一階述語論理に基づく神経シンボリックシステムのクラスです。 LTNは、トレーニングセットの古典的な概念をファジー論理公理の知識ベースに置き換えます。微分可能演算子のセットを定義して、連結語、述語、関数、および数量詞の役割を概算することにより、損失関数が自動的に指定され、LTNが知識ベースを満たすことを学習できるようになります。ここでは、ほとんどのセマンティック画像解釈タスクをエンコードするための基本である包含またはisOfClass述語に焦点を当てます。クラス(犬、猫など)ごとに個別の述語に依存し、それぞれが独自の学習可能な重みのセットを持つ従来のLTNとは異なり、共通のisOfClass述語を提案します。この述語の真理のレベルは、オブジェクト間の距離の関数です。埋め込みと対応するクラスのプロトタイプ。 PROTOtypical Logic Tensor Networks(PROTO-LTN)は、知識ベースを接地するために必要なパラメーターの数を減らしながら、抽象概念をパラメーター化されたクラスプロトタイプとして高次元の埋め込み空間に接地することにより、現在の定式化を拡張します。このアーキテクチャを、少数のゼロショット学習シナリオで効果的にトレーニングする方法を示します。一般化されたゼロショット学習ベンチマークの実験は、提案された実装が従来の埋め込みベースのアプローチの競争力のある代替手段であることを検証します。 LTNの形式化により、背景知識を論理公理の形で統合して、ラベル付けされた例の欠如を補うことができるため、提案された定式化はゼロショット学習設定に新しい機会を開きます。
Semantic image interpretation can vastly benefit from approaches that combine sub-symbolic distributed representation learning with the capability to reason at a higher level of abstraction. Logic Tensor Networks (LTNs) are a class of neuro-symbolic systems based on a differentiable, first-order logic grounded into a deep neural network. LTNs replace the classical concept of training set with a knowledge base of fuzzy logical axioms. By defining a set of differentiable operators to approximate the role of connectives, predicates, functions and quantifiers, a loss function is automatically specified so that LTNs can learn to satisfy the knowledge base. We focus here on the subsumption or isOfClass predicate, which is fundamental to encode most semantic image interpretation tasks. Unlike conventional LTNs, which rely on a separate predicate for each class (e.g., dog, cat), each with its own set of learnable weights, we propose a common isOfClass predicate, whose level of truth is a function of the distance between an object embedding and the corresponding class prototype. The PROTOtypical Logic Tensor Networks (PROTO-LTN) extend the current formulation by grounding abstract concepts as parametrized class prototypes in a high-dimensional embedding space, while reducing the number of parameters required to ground the knowledge base. We show how this architecture can be effectively trained in the few and zero-shot learning scenarios. Experiments on Generalized Zero Shot Learning benchmarks validate the proposed implementation as a competitive alternative to traditional embedding-based approaches. The proposed formulation opens up new opportunities in zero shot learning settings, as the LTN formalism allows to integrate background knowledge in the form of logical axioms to compensate for the lack of labelled examples.