arXiv reaDer
Instate: 姓から居住州を予測する
Instate: Predicting the State of Residence From Last Name
インドには 22 の公用語があります。このように多様な言語ベースにサービスを提供することは、調査統計学者、コール センター オペレーター、ソフトウェア開発者、およびその他のサービス プロバイダーにとっての課題です。ローカリゼーションの改善を通じて、さまざまな言語コミュニティにより良いサービスを提供するために、ユーザーが自分の名前から話すことができる言語を予測する新しい機械学習モデルを導入しました。インドの 33 州にわたる約 4 億 3,800 万のレコードと、インドの選挙人名簿コーパス (?) からの 113 万の一意の姓を使用して、姓に基づいて居住州を予測する文字レベルの変換ベースの機械学習モデルを構築します。モデルは、目に見えない名前で 85.3% の上位 3 の精度を持っています。インドの国勢調査を使用して州を言語にマッピングし、回答者が理解できる言語を推測します。この論文で説明した方法を実装するオープンソース ソフトウェアを提供します。
India has twenty-two official languages. Serving such a diverse language base is a challenge for survey statisticians, call center operators, software developers, and other such service providers. To help provide better services to different language communities via better localization, we introduce a new machine learning model that predicts the language(s) that the user can speak from their name. Using nearly 438M records spanning 33 Indian states and 1.13M unique last names from the Indian Electoral Rolls Corpus (?), we build a character-level transformer-based machine-learning model that predicts the state of residence based on the last name. The model has a top-3 accuracy of 85.3% on unseen names. We map the states to languages using the Indian census to infer languages understood by the respondent. We provide open-source software that implements the method discussed in the paper.
updated: Mon Mar 13 2023 02:49:50 GMT+0000 (UTC)
published: Mon Mar 13 2023 02:49:50 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト