エンドユーザーアプリケーションでの畳み込みニューラルネットワーク(CNN)の使用を妨げる主な問題は、意思決定プロセスの透明度が低いことです。 CNNの解釈可能性に関するこれまでの研究は、結果に寄与する画像の領域のローカライズまたはもっともらしい説明を生成する外部モデルの構築に主に焦点を合わせてきました。ただし、前者は意味情報を提供せず、後者は説明の忠実性を保証しません。画像のさまざまな場所で定義済みの属性の存在を示す複数の意味的に解釈可能な活性化マップ(SIAM)で構成される中間表現を提案します。次に、これらの属性マップは線形結合されて最終出力が生成されます。これにより、ユーザーはモデルが見たもの、場所、および包括的で解釈可能な方法でこの情報に直接リンクされた最終出力を把握できます。 SUN属性データベースからの33の属性の中間表現を使用して、景観の景観(美的価値)推定のタスクでメソッドをテストします。結果から、SIAMを使用すると、画像内のどの属性が最終スコアに寄与しているか、そしてそれらがどこにあるかを理解できることが確認されます。複数のタスクとデータセットからの学習に基づいているため、SIAMは、追加の労力や推論時の計算オーバーヘッドなしで予測の説明可能性を改善し、最終タスクと中間タスクの両方で良好なパフォーマンスを維持します。
A main issue preventing the use of Convolutional Neural Networks (CNN) in end user applications is the low level of transparency in the decision process. Previous work on CNN interpretability has mostly focused either on localizing the regions of the image that contribute to the result or on building an external model that generates plausible explanations. However, the former does not provide any semantic information and the latter does not guarantee the faithfulness of the explanation. We propose an intermediate representation composed of multiple Semantically Interpretable Activation Maps (SIAM) indicating the presence of predefined attributes at different locations of the image. These attribute maps are then linearly combined to produce the final output. This gives the user insight into what the model has seen, where, and a final output directly linked to this information in a comprehensive and interpretable way. We test the method on the task of landscape scenicness (aesthetic value) estimation, using an intermediate representation of 33 attributes from the SUN Attributes database. The results confirm that SIAM makes it possible to understand what attributes in the image are contributing to the final score and where they are located. Since it is based on learning from multiple tasks and datasets, SIAM improve the explanability of the prediction without additional annotation efforts or computational overhead at inference time, while keeping good performances on both the final and intermediate tasks.