arXiv reaDer
プロアクティブなサイバー脅威インテリジェンスのための生成的敵対的学習によるダークウェブテキストベースのCAPTCHAの対抗
Counteracting Dark Web Text-Based CAPTCHA with Generative Adversarial Learning for Proactive Cyber Threat Intelligence
大規模なダークウェブ(DW)プラットフォームの自動監視は、プロアクティブなサイバー脅威インテリジェンス(CTI)を開発するための最初のステップです。表層ウェブからデータを収集するための効率的な方法はありますが、大規模なダークウェブのデータ収集は、クロール防止対策によって妨げられることがよくあります。特に、テキストベースのCAPTCHAは、ダークウェブで最も一般的で禁止されているタイプのこれらの対策として機能します。テキストベースのCAPTCHAは、認識しにくい英数字の組み合わせをユーザーに入力させることにより、自動クローラーを識別してブロックします。ダークウェブでは、CAPTCHA画像は、自動CAPTCHAの破損を防ぐために、追加のバックグラウンドノイズと可変文字長を使用して細心の注意を払って設計されています。既存の自動CAPTCHA破壊方法では、これらのダークウェブの課題を克服するのが困難です。そのため、ダークウェブテキストベースのCAPTCHAの解決は、人間の関与に大きく依存しており、これは労働集約的で時間のかかる作業です。この研究では、ダークウェブのデータ収集を容易にするために、ダークウェブのCAPTCHAを自動的に破壊するための新しいフレームワークを提案します。このフレームワークには、ノイズの多い背景と可変文字長のダークウェブテキストベースのCAPTCHAを認識するための新しい生成方法が含まれています。人間の関与の必要性を排除するために、提案されたフレームワークは、Generative Adversarial Network(GAN)を利用してダークウェブの背景ノイズを打ち消し、拡張された文字セグメンテーションアルゴリズムを利用して可変文字長のCAPTCHA画像を処理します。提案されたフレームワークであるDW-GANは、複数のダークウェブCAPTCHAテストベッドで体系的に評価されました。 DW-GANは、すべてのデータセットで最先端のベンチマーク手法を大幅に上回り、慎重に収集された実際のダークウェブデータセットで94.4%を超える成功率を達成しました...
Automated monitoring of dark web (DW) platforms on a large scale is the first step toward developing proactive Cyber Threat Intelligence (CTI). While there are efficient methods for collecting data from the surface web, large-scale dark web data collection is often hindered by anti-crawling measures. In particular, text-based CAPTCHA serves as the most prevalent and prohibiting type of these measures in the dark web. Text-based CAPTCHA identifies and blocks automated crawlers by forcing the user to enter a combination of hard-to-recognize alphanumeric characters. In the dark web, CAPTCHA images are meticulously designed with additional background noise and variable character length to prevent automated CAPTCHA breaking. Existing automated CAPTCHA breaking methods have difficulties in overcoming these dark web challenges. As such, solving dark web text-based CAPTCHA has been relying heavily on human involvement, which is labor-intensive and time-consuming. In this study, we propose a novel framework for automated breaking of dark web CAPTCHA to facilitate dark web data collection. This framework encompasses a novel generative method to recognize dark web text-based CAPTCHA with noisy background and variable character length. To eliminate the need for human involvement, the proposed framework utilizes Generative Adversarial Network (GAN) to counteract dark web background noise and leverages an enhanced character segmentation algorithm to handle CAPTCHA images with variable character length. Our proposed framework, DW-GAN, was systematically evaluated on multiple dark web CAPTCHA testbeds. DW-GAN significantly outperformed the state-of-the-art benchmark methods on all datasets, achieving over 94.4% success rate on a carefully collected real-world dark web dataset...
updated: Fri Jan 14 2022 21:32:22 GMT+0000 (UTC)
published: Sat Jan 08 2022 09:53:31 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト