シーンの理解は、コンピューター ビジョンにおいて不可欠で困難なタスクです。イメージの視覚的に基本的なグラフィカル構造を提供するために、シーン グラフはその強力なセマンティック表現により注目を集めています。ただし、画像検索、画像生成、およびマルチモーダル アプリケーション用の適切なシーン グラフを描画することは困難です。従来のシーン グラフ アノテーション インターフェイスは、画像アノテーションでの使用が容易ではなく、ディープ ニューラル ネットワークを使用した自動シーン グラフ生成アプローチは、詳細を無視して冗長なコンテンツを生成する傾向があります。この作業では、オブジェクト指向のシーン グラフ表現を使用して、ユーザーがシーン グラフを対話的に描画および編集できるようにするシーン グラフ描画インターフェイスである SGDraw を提案します。提案されたオブジェクト指向表現では、オブジェクト、属性、およびオブジェクトの関係を構造単位と見なします。 SGDraw は、シーン理解アプリケーション用の Web ベースのシーン グラフ注釈および生成ツールを提供します。提案したインターフェースの有効性を検証するため,従来ツールとの比較研究およびユーザ体験調査を行った.結果は、SGDraw がより詳細なシーン グラフを生成し、従来のバウンディング ボックス注釈よりも正確に画像を記述するのに役立つことを示しています。提案された SGDraw は、画像の検索や生成など、さまざまなビジョン タスクに役立つと考えています。
Scene understanding is an essential and challenging task in computer vision. To provide the visually fundamental graphical structure of an image, the scene graph has received increased attention due to its powerful semantic representation. However, it is difficult to draw a proper scene graph for image retrieval, image generation, and multi-modal applications. The conventional scene graph annotation interface is not easy to use in image annotations, and the automatic scene graph generation approaches using deep neural networks are prone to generate redundant content while disregarding details. In this work, we propose SGDraw, a scene graph drawing interface using object-oriented scene graph representation to help users draw and edit scene graphs interactively. For the proposed object-oriented representation, we consider the objects, attributes, and relationships of objects as a structural unit. SGDraw provides a web-based scene graph annotation and generation tool for scene understanding applications. To verify the effectiveness of the proposed interface, we conducted a comparison study with the conventional tool and the user experience study. The results show that SGDraw can help generate scene graphs with richer details and describe the images more accurately than traditional bounding box annotations. We believe the proposed SGDraw can be useful in various vision tasks, such as image retrieval and generation.