単一の画像から複数オブジェクトの食事の食品をリアルタイムで認識し、成分とおおよその量で栄養成分を返すモバイルアプリケーションを紹介します。私たちの仕事は2つの部分で構成されています。最初に、最新の検出戦略であるYOLOと統合された深い畳み込みニューラルネットワークを構築し、ほぼ平均80%の平均精度で複数オブジェクトの同時認識とローカリゼーションを実現します。第二に、栄養分析の機能を拡張するモバイルアプリケーションにモデルを適合させます。アプリ側でモデル出力を推測およびデコードした後、リアルタイムモードまたはローカルモードで境界ボックスの位置とクラスラベルを含む検出結果を提示します。このモデルは、ディープラーニングアルゴリズムを使用した、わずかな推論時間と小さなメモリ要件を備えたモバイルデバイスに最適です。
We present a mobile application made to recognize food items of multi-object meal from a single image in real-time, and then return the nutrition facts with components and approximate amounts. Our work is organized in two parts. First, we build a deep convolutional neural network merging with YOLO, a state-of-the-art detection strategy, to achieve simultaneous multi-object recognition and localization with nearly 80% mean average precision. Second, we adapt our model into a mobile application with extending function for nutrition analysis. After inferring and decoding the model output in the app side, we present detection results that include bounding box position and class label in either real-time or local mode. Our model is well-suited for mobile devices with negligible inference time and small memory requirements with a deep learning algorithm.