Embedding Human Knowledge into Deep Neural Network via Attention Map
本研究では、人間の知識をディープニューラルネットワークに埋め込む手法の実現を目指している。従来の人間の知識を埋め込む手法は、非深層の機械学習に適用されてきたが、モデルパラメータの数が膨大であるため、深層学習モデルに適用することは困難であった。この問題を解決するために、我々はアテンション ブランチ ネットワーク(ABN)のアテンション メカニズムに注目している。本論文では、人間の専門家が手動で編集したシングルチャンネルのアテンションマップを利用した微調整法を提案する。我々の微調整法は、出力されたアテンションマップが編集されたものと一致するようにネットワークを訓練することができる。結果として、微調整されたネットワークは、人間の知識を考慮したアテンションマップを出力することができる。ImageNet、CUB-200-2010、IDRiDを用いた実験結果から、視覚的な説明のための明確な注目度マップを得ることができ、分類性能を向上させることが可能であることが示された。本研究の成果は、視覚的なインターフェースを介した人間の直感的な編集によってネットワークを最適化するための新たな枠組みとなりうるものであり、視覚的な説明の改善だけでなく、人間と機械の連携の新たな可能性を示唆するものである。
In this work, we aim to realize a method for embedding human knowledge into deep neural networks. While the conventional method to embed human knowledge has been applied for non-deep machine learning, it is challenging to apply it for deep learning models due to the enormous number of model parameters. To tackle this problem, we focus on the attention mechanism of an attention branch network (ABN). In this paper, we propose a fine-tuning method that utilizes a single-channel attention map which is manually edited by a human expert. Our fine-tuning method can train a network so that the output attention map corresponds to the edited ones. As a result, the fine-tuned network can output an attention map that takes into account human knowledge. Experimental results with ImageNet, CUB-200-2010, and IDRiD demonstrate that it is possible to obtain a clear attention map for a visual explanation and improve the classification performance. Our findings can be a novel framework for optimizing networks through human intuitive editing via a visual interface and suggest new possibilities for human-machine cooperation in addition to the improvement of visual explanations.
updated: Thu Dec 19 2019 06:16:51 GMT+0000 (UTC)
published: Thu May 09 2019 11:32:44 GMT+0000 (UTC)
