多くの場合、実際の知覚システムは、リソースが限られているハードウェア上に構築されており、携帯システムのコストと電力の制限に準拠しています。リソースに制約のあるハードウェアへのディープニューラルネットワークの展開は、モデル圧縮技術と、効率的でハードウェアを意識したアーキテクチャ設計によって可能になりました。ただし、運用環境が多様であるため、さらにモデルの適応が必要です。この作業では、ビジュアルドメイン適応のコンテキストでリソースに制約のあるハードウェアでディープニューラルネットワークをトレーニングする問題に対処します。事前にトレーニングされたモデルをターゲットのドメインデータに変換することを目標とする単眼深度推定のタスクを選択します。ソースドメインにはラベルが含まれていますが、実際のアプリケーションで発生するように、ラベルのないターゲットドメインを想定しています。次に、限られたリソースでデバイス上でトレーニングに適応する敵対的な学習アプローチを提示します。視覚領域の適応、すなわちニューラルネットワークトレーニングは、リソースに制約のあるハードウェアについてこれまで検討されていなかったため、画像ベースの深度推定の最初の実現可能性調査を提示します。私たちの実験は、ビジュアルドメインの適応が数百サンプルのオーダーの効率的なネットワークアーキテクチャとトレーニングセットにのみ関連することを示しています。モデルとコードは公開されています。
Real-world perception systems in many cases build on hardware with limited resources to adhere to cost and power limitations of their carrying system. Deploying deep neural networks on resource-constrained hardware became possible with model compression techniques, as well as efficient and hardware-aware architecture design. However, model adaptation is additionally required due to the diverse operation environments. In this work, we address the problem of training deep neural networks on resource-constrained hardware in the context of visual domain adaptation. We select the task of monocular depth estimation where our goal is to transform a pre-trained model to the target's domain data. While the source domain includes labels, we assume an unlabelled target domain, as it happens in real-world applications. Then, we present an adversarial learning approach that is adapted for training on the device with limited resources. Since visual domain adaptation, i.e. neural network training, has not been previously explored for resource-constrained hardware, we present the first feasibility study for image-based depth estimation. Our experiments show that visual domain adaptation is relevant only for efficient network architectures and training sets at the order of a few hundred samples. Models and code are publicly available.