arXiv reaDer
画像-グラフ-自動エンコーディングによる画像変換
Image-Graph-Image Translation via Auto-Encoding
この作品は、外部の監督を必要とせずに画像からグラフへの翻訳タスクを学習する最初の畳み込みニューラルネットワークを提示します。オブジェクトがノードとして表され、それらの関係がエッジとして表される画像コンテンツのグラフ表現を取得することは、シーンを理解する上で重要なタスクです。現在のアプローチは完全に監視されたアプローチに従っているため、細心の注意を払う必要があります。これを克服するために、ボトルネックがグラフのノードとエッジをエンコードする、完全に微分可能なオートエンコーダーに基づく自己監視アプローチを初めて提示しました。この自己監視アプローチは現在、単純な線画をグラフにエンコードし、トリプレットマッチングのF1スコアに関して完全監視ベースラインと同等の結果を取得できます。これらの有望な結果に加えて、より複雑な画像をカバーするためにアプローチを拡張する方法に関する将来の研究のためのいくつかの方向性を提供します。
This work presents the first convolutional neural network that learns an image-to-graph translation task without needing external supervision. Obtaining graph representations of image content, where objects are represented as nodes and their relationships as edges, is an important task in scene understanding. Current approaches follow a fully-supervised approach thereby requiring meticulous annotations. To overcome this, we are the first to present a self-supervised approach based on a fully-differentiable auto-encoder in which the bottleneck encodes the graph's nodes and edges. This self-supervised approach can currently encode simple line drawings into graphs and obtains comparable results to a fully-supervised baseline in terms of F1 score on triplet matching. Besides these promising results, we provide several directions for future research on how our approach can be extended to cover more complex imagery.
updated: Thu Dec 10 2020 21:01:32 GMT+0000 (UTC)
published: Thu Dec 10 2020 21:01:32 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト