衣服をつかんで展開することは、ロボット支援ドレッシングの中核となるステップです。既存の作品のほとんどは、衣服の深度画像を利用して、深層学習ベースのモデルをトレーニングし、適切な把持点を認識します。これらの方法は、多くの場合、物理エンジンを利用して深度画像を合成し、実際のラベル付きデータ収集のコストを削減します。ただし、合成画像と実際の画像の間の自然なドメインギャップにより、実際のデータに対するこれらの方法のパフォーマンスが低下することがよくあります。さらに、これらのアプローチは、衣料品自体によって把握ポイントが遮られるシナリオで苦労することがよくあります。上記の課題に対処するために、セマンティックセグメンテーション用の新しい双方向フラクタルクロスフュージョンネットワーク(BiFCNet)を提案し、把握の可能性を高めるために把握可能な領域の認識を可能にします。深度画像のみを使用する代わりに、フラクタル クロス フュージョン (FCF) モジュールがフラクタル ジオメトリに基づくグローバルな複雑な機能を考慮して、RGB と深度データを融合するネットワークへの入力として、豊富な色機能を持つ RGB 画像も利用します。実際のデータ収集のコストを削減するために、敵対的戦略に基づくデータ拡張方法をさらに提案します。この方法では、ラベルの対応を維持しながら、色と幾何学的変換が RGB と深度データを同時に処理します。最後に、セマンティック セグメンテーションの観点から、把持方向を考慮しながら、衣服の平坦度に基づいてセグメンテーション領域から把持点を選択するための戦略を追加することにより、衣服の把持と展開のパイプラインを提示します。公開データセット NYUDv2 で BiFCNet を評価し、現在の最先端モデルに匹敵するパフォーマンスを得ました。また、モデルをバクスター ロボットに展開し、アブレーション研究の一環として大規模な把持および展開実験を実行し、84% の成功率を達成しました。
Clothes grasping and unfolding is a core step in robotic-assisted dressing. Most existing works leverage depth images of clothes to train a deep learning-based model to recognize suitable grasping points. These methods often utilize physics engines to synthesize depth images to reduce the cost of real labeled data collection. However, the natural domain gap between synthetic and real images often leads to poor performance of these methods on real data. Furthermore, these approaches often struggle in scenarios where grasping points are occluded by the clothing item itself. To address the above challenges, we propose a novel Bi-directional Fractal Cross Fusion Network (BiFCNet) for semantic segmentation, enabling recognition of graspable regions in order to provide more possibilities for grasping. Instead of using depth images only, we also utilize RGB images with rich color features as input to our network in which the Fractal Cross Fusion (FCF) module fuses RGB and depth data by considering global complex features based on fractal geometry. To reduce the cost of real data collection, we further propose a data augmentation method based on an adversarial strategy, in which the color and geometric transformations simultaneously process RGB and depth data while maintaining the label correspondence. Finally, we present a pipeline for clothes grasping and unfolding from the perspective of semantic segmentation, through the addition of a strategy for grasp point selection from segmentation regions based on clothing flatness measures, while taking into account the grasping direction. We evaluate our BiFCNet on the public dataset NYUDv2 and obtained comparable performance to current state-of-the-art models. We also deploy our model on a Baxter robot, running extensive grasping and unfolding experiments as part of our ablation studies, achieving an 84% success rate.