VASTA、スマートフォンタスクの自動化のための新しいビジョンと言語支援によるデモンストレーション(PBD)システムを紹介します。堅牢なPBDオートメーションシステムを開発するには、3つの重要な課題を克服する必要があります。まず、ユーザーインターフェイス(UI)要素の位置的および視覚的変化に対して堅牢な特定のデモンストレーションを行う方法。第二に、可能な限り一般化できるように自動化パラメータの変更を認識する方法。そして第三に、ユーザーの発話からユーザーが実行したい自動化を認識する方法。最初の課題に対処するため、VASTAは、オブジェクト検出や光学式文字認識などの最新のコンピュータービジョン技術を活用して、ユーザーが示すUI構造に依存せずに、相互作用を正確にラベル付けします。 2番目と3番目の課題に対処するために、VASTAは高度な自然言語理解アルゴリズムを利用して、ユーザーの発話を分析してVASTA自動化スクリプトをトリガーし、一般化の自動化パラメーターを決定します。ユーザー発話のクラスタリング、自動化パラメーターの変更の理解、目的のUI要素の検出、そして最も重要なこととして、さまざまなタスクの自動化におけるVASTAの有効性を実証する初期ユーザー調査を実施します。システムのデモビデオはこちらから入手できます:http://y2u.be/kr2xE-FixjI
We present VASTA, a novel vision and language-assisted Programming By Demonstration (PBD) system for smartphone task automation. Development of a robust PBD automation system requires overcoming three key challenges: first, how to make a particular demonstration robust to positional and visual changes in the user interface (UI) elements; secondly, how to recognize changes in the automation parameters to make the demonstration as generalizable as possible; and thirdly, how to recognize from the user utterance what automation the user wishes to carry out. To address the first challenge, VASTA leverages state-of-the-art computer vision techniques, including object detection and optical character recognition, to accurately label interactions demonstrated by a user, without relying on the underlying UI structures. To address the second and third challenges, VASTA takes advantage of advanced natural language understanding algorithms for analyzing the user utterance to trigger the VASTA automation scripts, and to determine the automation parameters for generalization. We run an initial user study that demonstrates the effectiveness of VASTA at clustering user utterances, understanding changes in the automation parameters, detecting desired UI elements, and, most importantly, automating various tasks. A demo video of the system is available here: http://y2u.be/kr2xE-FixjI