畳み込みニューラルネットワークは、画像の分類に優れています。ただし、画質劣化に対して脆弱であることが判明しています。ノイズやぼかしなどのわずかな歪みでも、これらのCNNアーキテクチャのパフォーマンスを大幅に低下させる可能性があります。文献のほとんどの作業は、相互に排他的な、または歪んだトレーニングデータのユニオンセットで事前トレーニング済みのCNNを微調整するだけで、この問題を軽減しようとしています。すべての既知のタイプの歪みを伴うこの繰り返しの微調整プロセスは網羅的であり、ネットワークは目に見えない歪みを処理するのに苦労しています。この作業では、VGG16の上に構築されたディープネットワークに統合された離散コサイン変換ベースのモジュールである、歪みに強いDCT-Netを提案します。文献の他の作品とは異なり、DCT-Netは、トレーニング中とテスト中の両方で、画像の歪みのタイプとレベルに「盲目」です。提案されたDCTモジュールは、トレーニングプロセスの一部として、高周波の寄与を主に表す入力情報を破棄します。 DCT-Netは「盲目的に」一度だけ訓練され、さらなる再訓練なしで一般的な状況で適用されます。また、従来のドロップアウトの概念を拡張し、同じもののトレーニング適応バージョンを提示します。 CIFAR-10 / 100およびImageNetテストセットに追加されたガウスぼかし、モーションブラー、ソルトアンドペッパーノイズ、ガウスノイズ、スペックルノイズに対して、提案された方法を評価します。実験結果は、訓練すると、DCT-Netが目に見えないさまざまな画像の歪みに一般化するだけでなく、文献の他の方法よりも優れていることを示しています。
Convolutional Neural Network is good at image classification. However, it is found to be vulnerable to image quality degradation. Even a small amount of distortion such as noise or blur can severely hamper the performance of these CNN architectures. Most of the work in the literature strives to mitigate this problem simply by fine-tuning a pre-trained CNN on mutually exclusive or a union set of distorted training data. This iterative fine-tuning process with all known types of distortion is exhaustive and the network struggles to handle unseen distortions. In this work, we propose distortion robust DCT-Net, a Discrete Cosine Transform based module integrated into a deep network which is built on top of VGG16. Unlike other works in the literature, DCT-Net is "blind" to the distortion type and level in an image both during training and testing. As a part of the training process, the proposed DCT module discards input information which mostly represents the contribution of high frequencies. The DCT-Net is trained "blindly" only once and applied in generic situation without further retraining. We also extend the idea of traditional dropout and present a training adaptive version of the same. We evaluate our proposed method against Gaussian blur, motion blur, salt and pepper noise, Gaussian noise and speckle noise added to CIFAR-10/100 and ImageNet test sets. Experimental results demonstrate that once trained, DCT-Net not only generalizes well to a variety of unseen image distortions but also outperforms other methods in the literature.