arXiv reaDer
機械は視覚的なデータベースなしで見ることを学ぶことができますか?
Can machines learn to see without visual databases?
この論文は、真に人間のような文脈で視覚スキルを征服する学習機械を考える時が来たという立場を維持します。そこでは、いくつかの人間のようなオブジェクトの監視は、音声の相互作用とポインティングエイドによってのみ行われます。これには、単純な人間と機械の言語的相互作用の下で独自の視覚環境に住むことにより、視覚記述のタスクに機械を関与させるという最終目的を持つ、視覚の計算プロセスに関する新しい基盤が必要になる可能性があります。課題は、ビジュアルデータベースを処理する必要なしに見ることを学ぶマシンを開発することです。これは、巨大な視覚データベースの蓄積に依存しない視覚のための深層学習技術に関する真に直交する競争の道への扉を開くかもしれません。
This paper sustains the position that the time has come for thinking of learning machines that conquer visual skills in a truly human-like context, where a few human-like object supervisions are given by vocal interactions and pointing aids only. This likely requires new foundations on computational processes of vision with the final purpose of involving machines in tasks of visual description by living in their own visual environment under simple man-machine linguistic interactions. The challenge consists of developing machines that learn to see without needing to handle visual databases. This might open the doors to a truly orthogonal competitive track concerning deep learning technologies for vision which does not rely on the accumulation of huge visual databases.
updated: Mon Nov 22 2021 08:40:08 GMT+0000 (UTC)
published: Tue Oct 12 2021 13:03:54 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト