arXiv reaDer
ソーシャル メディアの攻撃的なコメントを分類するためのディープ ラーニング アプローチ: 機械翻訳されたデータと実際のデータ
Deep Learning Approach for Classifying the Aggressive Comments on Social Media: Machine Translated Data Vs Real Life Data
ソーシャル メディアでの攻撃的なコメントは、人間の生活に悪影響を及ぼします。このような不快なコンテンツは、うつ病や自殺関連の活動の原因となります。オンライン ソーシャル ネットワーキングが日々増加しているため、ヘイト コンテンツも増加しています。ネットいじめ、サイバー攻撃、ヘイトスピーチなどの分野でいくつかの調査が行われました。調査の大部分は英語で行われました。一部の言語 (ヒンディー語とバングラ語) は、データセットがないため、まだ適切な調査が行われていません。この論文では、特にヒンディー語、バングラ語、英語のデータセットを対象に攻撃的なコメントを検出し、機械翻訳されたデータを生成してデータが利用できない問題を解決する新しい方法を示しました。完全に機械翻訳された英語のデータセットは、長短期記憶モデル (LSTM)、双方向長短期記憶モデル (BiLSTM)、LSTM-Autoencoder、word2vec、トランスフォーマーからの双方向エンコーダ表現 (BERT) などのモデルで分析されています。 、およびジェネレーティブ トレーニング済みトランスフォーマー (GPT-2) を使用して、機械翻訳されたノイズの多いデータセットでモデルがどのように機能するかを観察します。ノイズを含むデータを使用した場合のパフォーマンスを、ノイズをまったく含まない生データと、一定量のノイズを含むデータを含む半ノイズ データなど、さらに 2 つのデータセットと比較しました。前述のモデルを使用して、生データとセミノイズ データの両方を分類しました。モデルのパフォーマンスを評価するために、F1 スコア、精度、精度、再現率などの評価指標を使用しました。 gpt2 モデルを使用した生データ、BERT モデルを使用したセミノイズ データ、および BERT モデルを使用した完全に機械翻訳されたデータで最高の精度を達成しました。多くの言語では適切なデータが利用できないため、私たちのアプローチは、研究者がいくつかの分析目的で機械翻訳されたデータセットを作成するのに役立ちます。
Aggressive comments on social media negatively impact human life. Such offensive contents are responsible for depression and suicidal-related activities. Since online social networking is increasing day by day, the hate content is also increasing. Several investigations have been done on the domain of cyberbullying, cyberaggression, hate speech, etc. The majority of the inquiry has been done in the English language. Some languages (Hindi and Bangla) still lack proper investigations due to the lack of a dataset. This paper particularly worked on the Hindi, Bangla, and English datasets to detect aggressive comments and have shown a novel way of generating machine-translated data to resolve data unavailability issues. A fully machine-translated English dataset has been analyzed with the models such as the Long Short term memory model (LSTM), Bidirectional Long-short term memory model (BiLSTM), LSTM-Autoencoder, word2vec, Bidirectional Encoder Representations from Transformers (BERT), and generative pre-trained transformer (GPT-2) to make an observation on how the models perform on a machine-translated noisy dataset. We have compared the performance of using the noisy data with two more datasets such as raw data, which does not contain any noises, and semi-noisy data, which contains a certain amount of noisy data. We have classified both the raw and semi-noisy data using the aforementioned models. To evaluate the performance of the models, we have used evaluation metrics such as F1-score,accuracy, precision, and recall. We have achieved the highest accuracy on raw data using the gpt2 model, semi-noisy data using the BERT model, and fully machine-translated data using the BERT model. Since many languages do not have proper data availability, our approach will help researchers create machine-translated datasets for several analysis purposes.
updated: Mon Mar 13 2023 21:43:08 GMT+0000 (UTC)
published: Mon Mar 13 2023 21:43:08 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト