この論文では、静止画像またはビデオフレーム内の歩行者、細胞、車両などのオブジェクトをカウントするためのディープラーニング(DL)手法を調査および強化しました。特に、現在のDLベースのソリューションのトレーニングに必要なデータの不足に関連する課題に取り組みました。ラベル付けの予算が限られていることを考えると、データの不足は依然として未解決の問題であり、ニューラルネットワークの教師あり学習に基づく既存のソリューションのスケーラビリティを妨げ、新しいシナリオが提示されたときの推論時にパフォーマンスが大幅に低下する原因となります。これらのアルゴリズム。いくつかの補完的な側面からこの問題に対処するソリューションを紹介し、自動的にラベル付けされた仮想環境から収集されたデータセットを収集し、トレーニングとテストのデータ配布の間に存在するドメインギャップを緩和することを目的としたドメイン適応戦略を提案し、弱くラベル付けされたデータシナリオでカウント戦略を提示しましたつまり、複数のアノテーター間に無視できない不一致がある場合。さらに、電力リソースが限られている環境での畳み込みニューラルネットワークベースの手法の採用から生じる重要なエンジニアリングの課題に取り組み、組み込みビジョンシステム、つまり、制約のある計算機能を備えたデバイスに直接搭載された車両と歩行者をカウントするソリューションを導入しました画像をキャプチャして精巧にすることができます。
In this dissertation, we investigated and enhanced Deep Learning (DL) techniques for counting objects, like pedestrians, cells or vehicles, in still images or video frames. In particular, we tackled the challenge related to the lack of data needed for training current DL-based solutions. Given that the budget for labeling is limited, data scarcity still represents an open problem that prevents the scalability of existing solutions based on the supervised learning of neural networks and that is responsible for a significant drop in performance at inference time when new scenarios are presented to these algorithms. We introduced solutions addressing this issue from several complementary sides, collecting datasets gathered from virtual environments automatically labeled, proposing Domain Adaptation strategies aiming at mitigating the domain gap existing between the training and test data distributions, and presenting a counting strategy in a weakly labeled data scenario, i.e., in the presence of non-negligible disagreement between multiple annotators. Moreover, we tackled the non-trivial engineering challenges coming out of the adoption of Convolutional Neural Network-based techniques in environments with limited power resources, introducing solutions for counting vehicles and pedestrians directly onboard embedded vision systems, i.e., devices equipped with constrained computational capabilities that can capture images and elaborate them.