この論文では、半構造化オブジェクト シーケンスをモデル化するタスクについて検討します。特に、このようなシーケンスに対する構造を意識した入力表現を開発するという問題に焦点を当てます。このようなデータの例には、Web サイトでのユーザーのアクティビティ、マシンのログ、その他多くのデータが含まれます。このタイプのデータは、時間の経過とともにキーと値のペアのセットのシーケンスとして表されることが多く、シーケンスの長さが増大し続けるため、モデリングの課題が生じる可能性があります。私たちは 2 つの部分からなるアプローチを提案します。まず、各キーを独立して考慮し、時間の経過とともにその値の表現をエンコードします。次に、これらの値を認識したキー表現を自己管理して、下流のタスクを完了します。これにより、既存のメソッドよりも長いオブジェクト シーケンスを操作できるようになります。 2 つのモジュール間に新しい共有アテンション ヘッド アーキテクチャを導入し、一部のアテンション ヘッドの共有重みを使用して両方のモジュールのトレーニングをインターリーブする革新的なトレーニング スケジュールを提示します。実世界のデータを使用した複数の予測タスクに関する私たちの実験は、私たちのアプローチが階層エンコーディングを使用した統合ネットワークだけでなく、レコード中心の表現やシーケンスのフラット化された表現などの他の方法よりも優れていることを示しています。
In this paper we explore the task of modeling semi-structured object sequences; in particular, we focus our attention on the problem of developing a structure-aware input representation for such sequences. Examples of such data include user activity on websites, machine logs, and many others. This type of data is often represented as a sequence of sets of key-value pairs over time and can present modeling challenges due to an ever-increasing sequence length. We propose a two-part approach, which first considers each key independently and encodes a representation of its values over time; we then self-attend over these value-aware key representations to accomplish a downstream task. This allows us to operate on longer object sequences than existing methods. We introduce a novel shared-attention-head architecture between the two modules and present an innovative training schedule that interleaves the training of both modules with shared weights for some attention heads. Our experiments on multiple prediction tasks using real-world data demonstrate that our approach outperforms a unified network with hierarchical encoding, as well as other methods including a record-centric representation and a flattened representation of the sequence.