arXiv reaDer
人間の視覚系とディープネットワークから派生した視覚的説明を使用した文字認識の理解
Understanding Character Recognition using Visual Explanations Derived from the Human Visual System and Deep Networks
人間の観察者は、視覚パターンを分類するときに選択的な情報の取り込みに従事します。同じことがディープニューラルネットワークにも当てはまります。ディープニューラルネットワークは、現在、最高のパフォーマンスを発揮する人工視覚システムを構成しています。私たちの目標は、2つのシステムの情報収集戦略における合同またはその欠如を調べることです。調査は文字認識タスクとして運用されています。アイトラッキングを使用して、固定マップを介して人間の情報ホットスポットの空間分布を分析し、可視化マップを介して深いネットワークの類似の分布を取得するためのアクティベーションマッピング手法を使用しました。視覚化マップと固定マップの定性的な比較により、合同の興味深い相関関係が明らかになります。深層学習モデルは、文字が正しく分類されている場合に人間が固定している、文字の類似した領域を考慮しました。一方、焦点の合った領域が人間と深いネットで異なる場合、キャラクターは通常、後者によって誤って分類されます。したがって、関連する文字領域にモデルの焦点を合わせるための監視入力として、視線追跡実験から得られた視覚固定マップを使用することを提案します。このような監視により、モデルのパフォーマンスが大幅に向上し、追加のパラメーターは必要ないことがわかりました。このアプローチは、説明可能性がシステムの忠実度を判断するのに役立つ医療分析や監視などのさまざまな分野でアプリケーションを見つける可能性があります。
Human observers engage in selective information uptake when classifying visual patterns. The same is true of deep neural networks, which currently constitute the best performing artificial vision systems. Our goal is to examine the congruence, or lack thereof, in the information-gathering strategies of the two systems. We have operationalized our investigation as a character recognition task. We have used eye-tracking to assay the spatial distribution of information hotspots for humans via fixation maps and an activation mapping technique for obtaining analogous distributions for deep networks through visualization maps. Qualitative comparison between visualization maps and fixation maps reveals an interesting correlate of congruence. The deep learning model considered similar regions in character, which humans have fixated in the case of correctly classified characters. On the other hand, when the focused regions are different for humans and deep nets, the characters are typically misclassified by the latter. Hence, we propose to use the visual fixation maps obtained from the eye-tracking experiment as a supervisory input to align the model's focus on relevant character regions. We find that such supervision improves the model's performance significantly and does not require any additional parameters. This approach has the potential to find applications in diverse domains such as medical analysis and surveillance in which explainability helps to determine system fidelity.
updated: Tue Aug 10 2021 10:09:37 GMT+0000 (UTC)
published: Tue Aug 10 2021 10:09:37 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト