ディープラーニングは、多くのコンピュータービジョンの問題で顕著な精度の向上をもたらしました。進行中の課題の1つは、トレーニングデータが限られている場合に最高の精度を達成する方法です。 2番目の継続的な課題は、トレーニングセットと主観的に類似している新しいデータであっても、達成された精度が十分に一般化されないという意味で、トレーニングされたモデルが壊れやすい場合があることです。画像の顕著な領域に関する人間の判断をトレーニングデータにエンコードするという初めての(私たちの知る限りの)調査により、これらの課題に斬新な方法で対処します。最先端の深層学習アルゴリズムの精度と一般化を、(a)典型的なデータ拡張を使用した元の画像、および(b)に変換された同じ元の画像でトレーニングした場合の生体認証プレゼンテーション攻撃検出の難しい問題について比較します。顕著な画像領域に関する人間の判断をエンコードします。後者のアプローチでは、より高い精度とより優れた一般化を実現するモデルが得られ、LivDet-Iris 2020の勝者のエラーが29.78%から16.37%に減少し、1回の攻撃タイプアウトの評価シナリオで印象的な一般化が実現します。この作業は、トレーニングデータが限られている場合に高精度と一般化を実現するために、ディープラーニングのトレーニング戦略にヒューマンインテリジェンスを組み込む方法に関する新しい研究領域を開きます。
Deep learning has driven remarkable accuracy increases in many computer vision problems. One ongoing challenge is how to achieve the greatest accuracy in cases where training data is limited. A second ongoing challenge is that trained models are sometimes fragile in the sense that the accuracy achieved does not generalize well, even to new data that is subjectively similar to the training set. We address these challenges in a novel way, with the first-ever (to our knowledge) exploration of encoding human judgement about salient regions of images into the training data. We compare the accuracy and generalization of a state-of-the-art deep learning algorithm for a difficult problem in biometric presentation attack detection when trained on (a) original images with typical data augmentations, and (b) the same original images transformed to encode human judgement about salient image regions. The latter approach results in models that achieve higher accuracy and better generalization, decreasing the error of the LivDet-Iris 2020 winner from 29.78% to 16.37%, and achieving impressive generalization in a leave-one-attack-type-out evaluation scenario. This work opens a new area of study for how to embed human intelligence into training strategies for deep learning to achieve high accuracy and generalization in cases of limited training data.