畳み込みニューラルネットワーク(CNN)は、長年にわたって多くのコンピュータービジョンタスクで最先端のパフォーマンスを実現しています。ただし、これには大量の計算とメモリを集中的に使用するネットワーク設計という犠牲が伴い、効率が向上する可能性があります。 CNNの畳み込み層は、冗長な機能を学習することが知られているため、このような非効率性を部分的に説明します。この作業では、この冗長性を活用して、レイヤーの畳み込みフィルター間の相関として観察し、効率的に再現する別のアプローチを提案します。提案されている「LinearConv」層は、直交フィルターのセットと、それらを線形結合して制御された冗長性を導入する係数のセットを学習します。このような冗長性に対する柔軟性を実現するために相関ベースの正則化損失を導入し、パラメーターの数を順番に制御します。これはプラグアンドプレイレイヤーとして設計されており、ネットワークアーキテクチャやハイパーパラメーター設定で追加の変更を行うことなく、従来の畳み込みレイヤーを便利に置き換えることができます。私たちの実験では、LinearConvモデルが対応するモデルと同等のパフォーマンスを発揮し、平均でパラメーターがほぼ50%削減され、推論時の計算要件と速度も同じであることを確認しています。
Convolutional Neural Networks (CNNs) have achieved state-of-the-art performance in many computer vision tasks over the years. However, this comes at the cost of heavy computation and memory intensive network designs, suggesting potential improvements in efficiency. Convolutional layers of CNNs partly account for such an inefficiency, as they are known to learn redundant features. In this work, we exploit this redundancy, observing it as the correlation between convolutional filters of a layer, and propose an alternative approach to reproduce it efficiently. The proposed 'LinearConv' layer learns a set of orthogonal filters, and a set of coefficients that linearly combines them to introduce a controlled redundancy. We introduce a correlation-based regularization loss to achieve such flexibility over redundancy, and control the number of parameters in turn. This is designed as a plug-and-play layer to conveniently replace a conventional convolutional layer, without any additional changes required in the network architecture or the hyperparameter settings. Our experiments verify that LinearConv models achieve a performance on-par with their counterparts, with almost a 50% reduction in parameters on average, and the same computational requirement and speed at inference.