ロボットを使用してトマトの収穫と葉落としを自動化するには、植物の関連部分、つまりトマト、花柄、葉柄を検索して検出することが重要です。トマト温室では閉塞レベルが高いため、これは困難です。アクティブ ビジョンは、ロボットがカメラの視点を意図的に計画してオクルージョンを克服し、認識精度を向上させるのに役立つ有望なアプローチです。しかし、現在のアクティブビジョンアルゴリズムは、関連する植物の部分と無関係な植物の部分を区別できないため、特定の植物の部分をターゲットに認識するには非効率的です。我々は、セマンティック情報を使用して関連する植物の部分を識別し、アテンションメカニズムを使用してビュープランニング中にそれらに優先順位を付ける、セマンティックアクティブビジョン戦略を提案します。私たちは、現実世界のオクルージョンを厳密に表現した、さまざまな構造の複雑さを持つトマト植物の 3D モデルを使用して戦略を評価しました。私たちは、再現性と統計的有意性を確保しながら、戦略についての洞察を得るためにシミュレートされた環境を使用しました。 10 視点の終了時点で、私たちの戦略は植物の部分の 85.5% を正確に検出できました。これは、体積測定アクティブ ビジョン戦略と比較して、植物ごとに平均で約 4 部分多くなっています。また、2 つの事前定義された戦略と比較して 5 および 9 部分が多く、ランダムな戦略と比較して 11 部分多く検出されました。また、96 回の実験で植物あたり 88.9% の物体を正しく検出するという信頼性の高いパフォーマンスを示しました。私たちの戦略は、植物および植物部分の位置、植物の複雑さ、およびさまざまな視点からのサンプリング戦略の不確実性に対しても堅牢でした。私たちは、私たちの取り組みにより、トマト作物生産における自動収穫と葉取りの速度と堅牢性を大幅に向上できると信じています。
To automate harvesting and de-leafing of tomato plants using robots, it is important to search and detect the relevant plant parts, namely tomatoes, peduncles, and petioles. This is challenging due to high levels of occlusion in tomato greenhouses. Active vision is a promising approach which helps robots to deliberately plan camera viewpoints to overcome occlusion and improve perception accuracy. However, current active-vision algorithms cannot differentiate between relevant and irrelevant plant parts, making them inefficient for targeted perception of specific plant parts. We propose a semantic active-vision strategy that uses semantic information to identify the relevant plant parts and prioritises them during view planning using an attention mechanism. We evaluated our strategy using 3D models of tomato plants with varying structural complexity, which closely represented occlusions in the real world. We used a simulated environment to gain insights into our strategy, while ensuring repeatability and statistical significance. At the end of ten viewpoints, our strategy was able to correctly detect 85.5% of the plant parts, about 4 parts more on average per plant compared to a volumetric active-vision strategy. Also, it detected 5 and 9 parts more compared to two predefined strategies and 11 parts more compared to a random strategy. It also performed reliably with a median of 88.9% correctly-detected objects per plant in 96 experiments. Our strategy was also robust to uncertainty in plant and plant-part position, plant complexity, and different viewpoint sampling strategies. We believe that our work could significantly improve the speed and robustness of automated harvesting and de-leafing in tomato crop production.