ゲート付き回帰接続を持つ畳み込みニューラル ネットワーク
Convolutional Neural Networks with Gated Recurrent Connections
畳み込みニューラル ネットワーク (CNN) は、多くのコンピューター ビジョンの問題を解決するための基本モデルとなっています。近年、動物の視覚系における豊富な再帰的接続に触発された、CNN の新しいクラスである再帰畳み込みニューラル ネットワーク (RCNN) が提案されました。 RCNN の重要な要素は、再帰畳み込み層 (RCL) です。これには、標準の畳み込み層のニューロン間の再帰接続が組み込まれています。反復計算の数が増えると、RCL のニューロンの受容野 (RF) は無制限に拡大しますが、これは生物学的事実と矛盾しています。反復接続にゲートを導入することにより、ニューロンの RF を変調することを提案します。ゲートはニューロンに入力されるコンテキスト情報の量を制御し、したがってニューロンの RF は適応的になります。結果として得られる層は、ゲーテッド再帰畳み込み層 (GRCL) と呼ばれます。複数の GRCL は、ゲーテッド RCNN (GRCNN) と呼ばれるディープ モデルを構成します。 GRCNN は、オブジェクト認識、シーン テキスト認識、オブジェクト検出など、いくつかのコンピューター ビジョン タスクで評価され、RCNN よりもはるかに優れた結果が得られました。さらに、他のアダプティブ RF 技術と組み合わせた場合、GRCNN は、これらのタスクのベンチマーク データセットの最新モデルに匹敵するパフォーマンスを示しました。コードは でリリースされています。
The convolutional neural network (CNN) has become a basic model for solving many computer vision problems. In recent years, a new class of CNNs, recurrent convolution neural network (RCNN), inspired by abundant recurrent connections in the visual systems of animals, was proposed. The critical element of RCNN is the recurrent convolutional layer (RCL), which incorporates recurrent connections between neurons in the standard convolutional layer. With increasing number of recurrent computations, the receptive fields (RFs) of neurons in RCL expand unboundedly, which is inconsistent with biological facts. We propose to modulate the RFs of neurons by introducing gates to the recurrent connections. The gates control the amount of context information inputting to the neurons and the neurons' RFs therefore become adaptive. The resulting layer is called gated recurrent convolution layer (GRCL). Multiple GRCLs constitute a deep model called gated RCNN (GRCNN). The GRCNN was evaluated on several computer vision tasks including object recognition, scene text recognition and object detection, and obtained much better results than the RCNN. In addition, when combined with other adaptive RF techniques, the GRCNN demonstrated competitive performance to the state-of-the-art models on benchmark datasets for these tasks. The codes are released at
